เรียนรู้ว่าเหตุใด InfiniBand และอีเธอร์เน็ตจึงถูกล็อคไว้ในการแข่งขันที่มีเดิมพันสูงเพื่อครอบงํา AI
บทนํา : ปริมาณงานปัญญาประดิษฐ์ (AI) เช่น การฝึกอบรมโมเดลภาษาขนาดใหญ่ (LLM) การเรียนรู้เชิงลึกแบบกระจาย และการประมวลผลประสิทธิภาพสูง (HPC) ต้องการการสื่อสารที่รวดเร็วและเวลาแฝงต่ําระหว่าง GPU หลายพันตัวและโหนดคอมพิวท์ การเลือกใช้เทคโนโลยีเครือข่ายมีบทบาทสําคัญในการกําหนดประสิทธิภาพของระบบ AI ความสามารถในการปรับขนาด และประสิทธิภาพด้านต้นทุน ในบรรดาเทคโนโลยีการเชื่อมต่อระหว่างกันชั้นนํา InfiniBand และ Ethernet ได้กลายเป็นคู่แข่งที่โดดเด่นสองรายสําหรับเครือข่ายศูนย์ข้อมูล AI หน้านี้อธิบายทั้งและในภายหลังสํารวจความแตกต่างที่สําคัญระหว่าง InfiniBand และอีเธอร์เน็ต ซึ่งจําเป็นสําหรับการออกแบบศูนย์ข้อมูล AI รุ่นต่อไปและแพลตฟอร์มการประมวลผลแบบกระจาย
เป็นมาตรฐานทองคําสําหรับการประมวลผลประสิทธิภาพสูงมาอย่างยาวนาน โดยให้เวลาแฝงต่ําเป็นพิเศษ แบนด์วิดท์สูง และความสามารถ Remote Direct Memory Access (RDMA) ดั้งเดิมที่ปรับให้เหมาะกับคลัสเตอร์ GPU
InfiniBand ได้รับการออกแบบตั้งแต่ต้นจนจบสําหรับการประมวลผลประสิทธิภาพสูง (HPC) ซึ่งแตกต่างจากเครือข่ายเอนกประสงค์ InfiniBand มุ่งเน้นไปที่การย้ายข้อมูลระหว่างโปรเซสเซอร์และหน่วยความจําด้วยความล่าช้า (เวลาแฝง) น้อยที่สุด
วิธีการทํางาน: ใช้ระบบควบคุมการไหล "ตามเครดิต" ผู้ส่งจะส่งข้อมูลก็ต่อเมื่อผู้รับยืนยันว่ามีพื้นที่บัฟเฟอร์เพื่อเก็บข้อมูลเท่านั้น สิ่งนี้ทําให้ InfiniBand ไม่สูญเสียข้อมูลโดยกําเนิดและแพ็กเก็ตแทบไม่เคยหล่น
ประโยชน์: ช่วยลดภาระของ CPU ได้อย่างมีนัยสําคัญโดยใช้ RDMA (Remote Direct Memory Access) ทําให้ข้อมูลสามารถย้ายจากหน่วยความจําของเซิร์ฟเวอร์หนึ่งไปยังอีกเซิร์ฟเวอร์หนึ่งได้โดยไม่ต้องเกี่ยวข้องกับระบบปฏิบัติการ
อีเธอร์เน็ตเป็นมาตรฐานเครือข่ายที่ใช้กันอย่างแพร่หลายมากที่สุดในโลก ในอดีต มันเป็นเครือข่าย "ความพยายามอย่างเต็มที่" ซึ่งหมายความว่าหากเครือข่ายยุ่งเกินไป ก็จะทิ้งแพ็กเก็ตและขอให้ส่งใหม่ในภายหลัง แม้ว่าจะใช้ได้สําหรับอินเทอร์เน็ต แต่ก็เป็นปัญหาสําหรับ AI
อีเธอร์เน็ตกําลัง "เรียกคืน" ศูนย์ข้อมูลผ่านนวัตกรรมเช่น RoCE v2 (RDMA over Converged Ethernet) และมาตรฐานใหม่จาก Ultra Ethernet Consortium
วิธีการทํางาน: คุณสมบัติใหม่ เช่น Priority Flow Control (PFC) และ Explicit Congestion Notification (ECN) ช่วยให้อีเทอร์เน็ตเลียนแบบพฤติกรรมแบบไม่สูญเสียข้อมูลของ InfiniBand
ประโยชน์: มันขึ้นอยู่กับมาตรฐานแบบเปิด ทําให้ง่ายต่อการปรับขนาดในศูนย์ข้อมูลขนาดใหญ่ด้วยอุปกรณ์จากผู้จําหน่ายหลายราย

InfiniBand และ Ethernet เป็นตัวแทนของสองแนวทางที่แตกต่างกันโดยพื้นฐานในการสร้างเครือข่าย AI InfiniBand มีความเป็นเลิศในการมอบเวลาแฝงต่ํา ปริมาณงานสูง และการสื่อสารแบบไม่สูญเสียข้อมูล ทําให้เหมาะสําหรับคลัสเตอร์การฝึกอบรม AI และสภาพแวดล้อม HPC ที่เชื่อมต่อกันอย่างแน่นหนา อย่างไรก็ตาม โดยทั่วไปแล้วจะมาพร้อมกับต้นทุนฮาร์ดแวร์ที่สูงขึ้น การล็อกอินของผู้ขาย และข้อกําหนดในการปฏิบัติงานเฉพาะทาง
ในทางกลับกัน อีเธอร์เน็ตนําเสนอระบบนิเวศแบบเปิด การสนับสนุนผู้ขายในวงกว้าง และต้นทุนรวมในการเป็นเจ้าของที่ต่ํากว่า ทําให้เป็นตัวเลือกที่โดดเด่นสําหรับศูนย์ข้อมูลระบบคลาวด์และการปรับใช้ AI แบบไฮเปอร์สเกล ด้วยความก้าวหน้า เช่น RoCE กลไกการควบคุมความแออัด และมาตรฐาน Ultra Ethernet รุ่นต่อไป อีเธอร์เน็ตกําลังปิดช่องว่างด้านประสิทธิภาพกับ InfiniBand อย่างรวดเร็วในขณะที่ยังคงความสามารถในการปรับขนาดและความเรียบง่ายในการดําเนินงาน
ท้ายที่สุดแล้ว ทางเลือกระหว่าง InfiniBand และอีเธอร์เน็ตขึ้นอยู่กับข้อกําหนดปริมาณงาน งบประมาณ เป้าหมายความสามารถในการปรับขนาด และกลยุทธ์ของระบบนิเวศ ในขณะที่คลัสเตอร์ AI ยังคงปรับขนาดเป็น GPU หลายแสนตัว เทคโนโลยีทั้งสองจะอยู่ร่วมกัน InfiniBand เป็นผู้นําด้านการฝึกอบรมที่สําคัญด้านประสิทธิภาพและอีเธอร์เน็ตที่ขับเคลื่อนโครงสร้างพื้นฐาน AI ขนาดใหญ่และคุ้มค่า