ค้นพบว่าเทคโนโลยี Hot Swap 800 V ช่วยปกป้องฮาร์ดแวร์ AI ยุคใหม่ได้อย่างไร
บทความนี้กล่าวถึงความต้องการพลังงานที่เพิ่มขึ้นของสภาพแวดล้อมเซิร์ฟเวอร์ AI ซึ่งเกิดจากการใช้พลังงานที่เพิ่มขึ้นของ GPU โดยเน้นการเปลี่ยนจากสถาปัตยกรรมจ่ายไฟ 48 V เป็น 800 V บทความนี้ยังสำรวจนวัตกรรมอย่างต่อเนื่องของ Analog Devices ในด้านการป้องกันการสลับอุปกรณ์ขณะทำงาน (Hot Swap) สำหรับแรงดันไฟฟ้าสูง ในขณะที่โครงสร้างพื้นฐานของศูนย์ข้อมูลมีการพัฒนาไป
เนื่องจากปริมาณงาน AI เพิ่มสูงขึ้น หน่วยประมวลผลกราฟิก (GPU) ในสภาพแวดล้อมเซิร์ฟเวอร์จึงต้องการพลังงานในระดับที่ไม่เคยมีมาก่อน ส่งผลให้เกิดการเปลี่ยนแปลงไปสู่สถาปัตยกรรมจ่ายไฟ 800 V ในระดับแร็ค แรงดันไฟฟ้าที่สูงขึ้นนี้ก่อให้เกิดความท้าทายใหม่สำหรับการป้องกันและตรวจสอบระบบ โดยเฉพาะอย่างยิ่งในระหว่างการใส่และถอดถาดขณะที่ระบบกำลังทำงาน เพื่อรับมือกับความท้าทายเหล่านี้ จึงจำเป็นต้องมีตัวควบคุมการถอดเปลี่ยนขณะทำงาน (Hot Swap Controller) รุ่นใหม่ ที่สามารถจัดการกระแสไฟกระชากสูง ในขณะเดียวกันก็ให้ข้อมูลการวัดระยะไกลที่แข็งแกร่งสำหรับการวินิจฉัยระบบและความปลอดภัย Analog Devices ซึ่งเป็นผู้นำที่ได้รับการยอมรับในเทคโนโลยี Hot Swap ที่ 12 V และ 48 V กำลังขยายความเชี่ยวชาญเพื่อสนับสนุนการเปลี่ยนผ่านของอุตสาหกรรมไปสู่ 800 V
แนวโน้มสำคัญสองประการกำลังผลักดันให้เกิดการเปลี่ยนไปใช้ระบบจ่ายไฟแรงดันสูงขึ้นในระดับแร็คสำหรับโครงสร้างพื้นฐานเซิร์ฟเวอร์ AI
เพื่อรองรับความต้องการพลังงานระดับแร็คที่เพิ่มขึ้นอย่างรวดเร็ว อุตสาหกรรมกำลังมุ่งไปสู่สถาปัตยกรรมพลังงานแบบแยกส่วน ในแบบจำลองนี้ ส่วนประกอบพลังงานแบบดั้งเดิม เช่น หน่วยจ่ายไฟ (PDU) หน่วยสำรองแบตเตอรี่ (BBU) และหน่วยตัวเก็บประจุ (CU) จะถูกย้ายจากแร็คไอทีหลักไปยังตู้จ่ายไฟด้านข้างที่อยู่ติดกัน การแยกส่วนนี้ไม่เพียงแต่รองรับการจ่ายแรงดันไฟฟ้าที่สูงขึ้น เช่น 800 V เท่านั้น แต่ยังช่วยเพิ่มพื้นที่ว่างอันมีค่าภายในแร็คสำหรับทรัพยากรการประมวลผลเพิ่มเติมอีกด้วย
ตู้แร็ค AI ทำงานโดยใช้บัสบาร์ 48 V (รูปที่ 1) กระแสสลับ (AC) จะถูกแปลงเป็นกระแสตรง 48 V โดยใช้หน่วยจ่ายไฟ (PSU) ภายในตู้แร็ค บัส 48 V นี้จะจ่ายไฟให้กับอุปกรณ์ไอที (PSU ของเซิร์ฟเวอร์, โหนด GPU, สวิตช์), BBU ที่มีตัวแปลง DC-to-DC แบบสองทิศทางในตัว และหน่วยซูเปอร์คาปาซิเตอร์ (SCU) เพื่อการรับมือกับแรงดันไฟฟ้าเกินและสภาวะชั่วคราวได้อย่างรวดเร็ว
แต่ละโหนดบนแร็ค (เช่น ถาดเซิร์ฟเวอร์) จำเป็นต้องมีความสามารถในการสลับเข้าและออกได้ในระหว่างการใช้งานจริง ลองนึกภาพช่างเทคนิคมาถึงไซต์เพื่อเปลี่ยนเซิร์ฟเวอร์ การปิดแร็คทั้งหมดเพื่อเปลี่ยนเซิร์ฟเวอร์เพียงเครื่องเดียวไม่ใช่เรื่องที่ทำได้จริง การทำเช่นนั้นจะรบกวนการทำงานของศูนย์ข้อมูลอย่างมาก และยังเสียค่าใช้จ่ายมหาศาลเนื่องจากเวลาที่เซิร์ฟเวอร์หยุดทำงาน แร็คจะถูกปิดการทำงานก็ต่อเมื่อมีปัญหาทางไฟฟ้าครั้งใหญ่ที่เกี่ยวข้องกับบัสบาร์หรือระบบจ่ายไฟ ฯลฯ เท่านั้น แต่ในทางกลับกัน การสลับโหนดขณะทำงาน (Hot Swapped) ช่วยให้ช่างเทคนิคสามารถถอดโหนด เปลี่ยน และเสียบกลับเข้าไปใหม่ได้โดยไม่ต้องปิดระบบอื่นใด
ในระหว่างกระบวนการนี้ ตัวควบคุมการถอดเปลี่ยนอุปกรณ์ขณะทำงาน (Hot Swap Controller) จะตัดการจ่ายไฟภายใน ทำให้สามารถถอดอุปกรณ์ออกได้อย่างปลอดภัย บัสบาร์ของแร็คยังคงมีพลังงานและจ่ายไฟให้กับอุปกรณ์อื่นๆ รวมถึง BBU และ SCU ต่อไป เมื่อเสียบอุปกรณ์ทดแทนเข้าไปแล้ว วงจรชาร์จล่วงหน้าจะจำกัดกระแสไฟกระชากก่อนการเชื่อมต่ออย่างสมบูรณ์ ซึ่งเป็นฟังก์ชันสำคัญของตัวควบคุมการถอดเปลี่ยนอุปกรณ์ขณะทำงาน จากนั้นอุปกรณ์จะบูตและเข้าร่วมคลัสเตอร์ AI โดยอัตโนมัติ (โดยมักจะมีเครื่องมือจัดการการปรับสมดุลช่วย)
รูปที่ 2 แสดงการจ่ายพลังงานของเซิร์ฟเวอร์ AI จากบัสบาร์ 48 V ไปยังโปรเซสเซอร์ ตัวควบคุมการถอดเปลี่ยนขณะทำงาน (Hot Swap Controller) แสดงให้เห็นอย่างชัดเจนว่าเป็นอินเทอร์เฟซแรกที่ช่วยให้ช่างเทคนิคสามารถถอดโหนดได้อย่างปลอดภัยและมีประสิทธิภาพ
ADI มีกลุ่มผลิตภัณฑ์ตัวควบคุมการถอดเปลี่ยนขณะทำงาน (Hot Swap Controller) ขนาด 48 V ที่หลากหลาย พร้อมระบบตรวจสอบพลังงาน PMBus® เช่น LTC4286 และ LTC4287 ซึ่งเป็นตัวควบคุมการถอดเปลี่ยนขณะทำงานแบบ QFN ขนาด 7 มม. × 7 มม. ที่มีขาต่อขา และมีทั้งแบบเกตเดี่ยวและเกตคู่ ล่าสุด ADI ได้เพิ่มโซลูชันเกตคู่ LTC4284 ในแพ็คเกจ QFN ขนาด 5 มม. × 8 มม. เข้ามาในกลุ่มผลิตภัณฑ์นี้ด้วย
ด้วยปริมาณการใช้พลังงานที่เพิ่มขึ้นจากโปรเซสเซอร์ AI ทำให้เกิดความต้องการระบบจ่ายแรงดันไฟฟ้ากระแสตรงที่สูงขึ้นสำหรับแร็คมากขึ้น ADI เป็นผู้นำด้านโซลูชันเหล่านี้และทำงานอย่างใกล้ชิดกับผู้นำในอุตสาหกรรมเพื่อแก้ไขปัญหาดังกล่าว
มีการกำหนดโดเมนการจ่ายแรงดันไฟฟ้าใหม่ให้กับแร็ค คือ 800 V โดยจ่ายไฟจากไซด์คาร์ตรงไปยังแร็คไอที ดังแสดงในรูปที่ 3 ซึ่งเป็นสถาปัตยกรรมที่เสนอไว้
ปัจจัยหลักที่ผลักดันให้เปลี่ยนไปใช้แรงดันไฟฟ้าที่สูงขึ้นในระดับแร็คคือความต้องการพลังงานต่อแร็คที่เพิ่มสูงขึ้น เมื่อพลังงานเพิ่มขึ้น กระแสไฟฟ้าที่ไหลผ่านบัสบาร์ก็เพิ่มขึ้นด้วย การเพิ่มขึ้นของกระแสไฟฟ้านี้ทำให้จำเป็นต้องใช้บัสบาร์ที่มีขนาดใหญ่ขึ้นและหนักขึ้นเพื่อรักษาประสิทธิภาพทางความร้อนและไฟฟ้าที่ยอมรับได้ ซึ่งก่อให้เกิดความท้าทายอย่างมากในแง่ของความเหมาะสมทางกลและงานออกแบบระบบ การเพิ่มแรงดันไฟฟ้าในการจ่ายพลังงานสามารถลดกระแสไฟฟ้าที่ต้องการลงได้ตามสัดส่วน ทำให้สามารถใช้บัสบาร์และตัวเชื่อมต่อที่มีขนาดกะทัดรัดและจัดการได้ง่ายขึ้น การเปลี่ยนไปใช้แรงดันไฟฟ้าที่สูงขึ้นนี้มีความสำคัญอย่างยิ่งต่อการรักษาการกระจายพลังงานที่ปรับขนาดได้ มีประสิทธิภาพ และเหมาะสมทางกลในแร็คเซิร์ฟเวอร์ AI รุ่นใหม่
เป็นที่น่าสังเกตว่าอาจมีขั้นตอนระดับกลางในการวิวัฒนาการของสถาปัตยกรรมนี้ โดยมีการใช้บัสบาร์ 48 V ในแร็ค ในกรณีนี้ แหล่งจ่ายไฟ (PSU) จะถูกปรับขนาดให้มีกำลังไฟสูงขึ้น โดยรับแรงดัน 800 V ที่แร็คแล้วแปลงลงเหลือ 48 V เพื่อให้เข้ากับบัสบาร์ที่มีอยู่ อย่างไรก็ตาม นี่ไม่ใช่สถานะในระยะยาว เนื่องจากกำลังไฟจะถูกจำกัด (อาจสูงสุด 250 kW ต่อแร็ค) และเป้าหมายคือการอนุญาตให้มีขีดความสามารถในการประมวลผลสูงสุดในแร็คเดียว โดยผลักดันกำลังไฟไปที่ 1 MW ต่อแร็คภายในสิ้นทศวรรษนี้ ดังนั้น แหล่งจ่ายไฟ (PSU) และบัสบาร์ (BBU) จึงควรวางไว้นอกแร็คประมวลผลไอที ดังแสดงในรูปที่ 3
ในอนาคต หม้อแปลงไฟฟ้าแบบโซลิดสเตทมีแนวโน้มที่จะถูกนำมาใช้เพื่อจ่ายแรงดันไฟฟ้าสูงไปยังตู้แร็คคอมพิวเตอร์ไอทีแต่ละตู้โดยตรง โดยไม่จำเป็นต้องใช้ตัวเชื่อมต่อเสริมเหล่านี้
ADI มีความเชี่ยวชาญอย่างกว้างขวางในด้านระบบจ่ายไฟสำหรับศูนย์ข้อมูล และกำลังร่วมมือกับผู้ให้บริการคลาวด์และผู้ผลิตเซมิคอนดักเตอร์เพื่อพัฒนาระบบจ่ายไฟแรงดันสูงระดับแร็คสำหรับอนาคต
สำหรับการถอดเปลี่ยนอุปกรณ์ขณะทำงานที่มีแรงดันสูง มีข้อควรพิจารณาในการออกแบบมากมายที่ต้องทำความเข้าใจ และความท้าทายทางเทคนิคหลายประการที่ต้องเอาชนะเพื่อให้ได้โซลูชันที่ดีที่สุด
บทความนี้เน้นย้ำถึงการเปลี่ยนแปลงที่สำคัญไปสู่การจ่ายไฟ 800 V ในแร็คเซิร์ฟเวอร์ AI เพื่อรองรับความต้องการพลังงานที่เพิ่มขึ้นของ GPU ขั้นสูงและรองรับความหนาแน่นของการประมวลผลที่สูงขึ้น สถาปัตยกรรมใหม่นี้เกี่ยวข้องกับการย้ายส่วนประกอบด้านพลังงานไปยังไซด์คาร์แยกต่างหาก ซึ่งจะช่วยเพิ่มประสิทธิภาพพื้นที่สำหรับทรัพยากรการประมวลผลในแร็คหลัก ADI เป็นผู้นำในการพัฒนานี้ โดยสร้างตัวควบคุมแบบถอดเปลี่ยนได้ขณะทำงาน (Hot Swap) แรงดันสูงรุ่นใหม่ที่จัดการกระแสไฟกระชากได้อย่างมีประสิทธิภาพ ให้ข้อมูลการวัดระยะทางที่ครอบคลุมสำหรับการวินิจฉัยระบบและความปลอดภัย และรับประกันการทำงานที่เชื่อถือได้ ด้วยการมองภาพรวมของระบบในการวิวัฒนาการของพลังงานในแร็ค นักพัฒนาสามารถช่วยให้ผู้ให้บริการเซิร์ฟเวอร์คลาวด์และผู้รวมระบบสร้างข้อมูลเชิงลึกใหม่ๆ และประหยัดค่าใช้จ่ายได้