เรียนรู้ว่าการก้าวกระโดดทางสถาปัตยกรรมของ Hopper เปลี่ยนการประมวลผลอัลกอริทึมที่ซับซ้อนได้อย่างไร
สถาปัตยกรรม Hopper ที่เปิดตัวโดย NVIDIA ในเดือนมีนาคม 2022 เป็นความก้าวหน้าในเทคโนโลยี GPU ในฐานะผู้สืบทอดสถาปัตยกรรม Ampere Hopper แสดงถึงก้าวสําคัญต่อไปของ NVIDIA ในการขับเคลื่อนโมเดล AI ขั้นสูง การจําลองทางวิทยาศาสตร์ และการประมวลผลของศูนย์ข้อมูลสถาปัตยกรรม AI GPU นี้ตั้งชื่อตาม Grace Hopper ผู้บุกเบิกด้านวิทยาการคอมพิวเตอร์ โดยนําเสนอนวัตกรรมที่สําคัญ เช่น Streaming Multiprocessors (SMs) ที่ออกแบบใหม่, Tensor Cores เจนเนอเรชั่นที่สี่, Transformer Engine อันทรงพลัง, ระบบย่อยหน่วยความจําขั้นสูง และคําสั่ง DPX ใหม่คุณสมบัติเหล่านี้ทําให้ GPU ที่ใช้ Hopper เช่น NVIDIA H100 GPU เหมาะอย่างยิ่งสําหรับการฝึกอบรม AI ขนาดใหญ่ การประมวลผลประสิทธิภาพสูง (HPC) และเวิร์กโหลดการอนุมาน AI ที่ซับซ้อน
ในบทความนี้ เราจะเจาะลึกลงไปในสถาปัตยกรรมไมโครของ Hopper โดยตรวจสอบส่วนประกอบหลัก เทคโนโลยีที่ขับเคลื่อนประสิทธิภาพ และวิธีปรับให้เหมาะสมสําหรับปริมาณงาน AI และ HPC นอกจากนี้ เราจะสํารวจประโยชน์ ความท้าทาย และการใช้งานในโลกแห่งความเป็นจริง
Hopper เป็นสถาปัตยกรรมไมโคร GPU ของ NVIDIA ที่ออกแบบมาโดยเฉพาะสําหรับปริมาณงาน AI และ HPC ขับเคลื่อน NVIDIA H100 GPU และแนะนําสิ่งแรกมากมายในการออกแบบ GPU รวมถึงความแม่นยํา FP8, Transformer Engine และคําสั่ง DPXHopper สร้างขึ้นโดยใช้กระบวนการ TSMC 4N ซึ่งเป็นโหนดการผลิต 4nm แบบกําหนดเองที่บรรจุทรานซิสเตอร์ 80 พันล้านตัวไว้ในแม่พิมพ์เดียวคําหลักเหล่านี้ช่วยให้บทความจัดอันดับสําหรับคําถามทางเทคนิคที่หลากหลายที่เกี่ยวข้องกับสถาปัตยกรรม NVIDIA GPU และ GPU ประสิทธิภาพสูง
สตรีมมิ่งมัลติโปรเซสเซอร์ (SM) เป็นหัวใจสําคัญของสถาปัตยกรรม GPU ใน Hopper SM ได้รับการออกแบบใหม่เพื่อรองรับเธรดที่มากขึ้นอย่างมีนัยสําคัญและให้ปริมาณงานที่ดีขึ้น NVIDIA H100 มี SM สูงสุด 144 ตัว โดยแต่ละตัวสามารถรองรับเธรดพร้อมกันได้ 2,048 เธรด SM เหล่านี้คล้ายกับคอร์ CPU ในฟังก์ชัน แต่ได้รับการปรับให้เหมาะสมสําหรับการประมวลผลแบบขนาน SM แต่ละตัวประกอบด้วย:
สถาปัตยกรรม SM ใน Hopper GPU ช่วยให้สามารถทํางานพร้อมกันและขนานได้สูงขึ้น ซึ่งจําเป็นสําหรับการฝึกอบรม AI ขนาดใหญ่และการคํานวณทางวิทยาศาสตร์ตัวกําหนดตารางเวลาคําสั่งและลําดับชั้นหน่วยความจําใหม่ช่วยให้มั่นใจได้ว่า SM ยังคงใช้งานได้อย่างเต็มที่ในปริมาณงานที่หลากหลาย
Hopper เปิดตัว Tensor Cores เจนเนอเรชั่นที่สี่ที่รองรับรูปแบบความแม่นยําหลายรูปแบบ ได้แก่ FP64, FP32, FP16 และ FP8 ใหม่ทั้งหมดความยืดหยุ่นนี้ช่วยให้โมเดล AI สามารถใช้รูปแบบข้อมูลที่เหมาะสมที่สุดสําหรับแต่ละเลเยอร์หรือการทํางาน โดยสร้างสมดุลระหว่างประสิทธิภาพและความแม่นยํา
หนึ่งในแง่มุมที่เปลี่ยนแปลงมากที่สุดของ Hopper คือการรองรับ FP8 ซึ่งเป็นรูปแบบใหม่ที่มีความแม่นยําต่ําซึ่งเหมาะสําหรับเวิร์กโหลด AIGPU ที่มีความแม่นยํา FP8 ช่วยให้คํานวณได้เร็วขึ้นและลดการใช้หน่วยความจําเมื่อเทียบกับ FP16 ทําให้เหมาะสําหรับการฝึกโมเดลภาษาขนาดใหญ่ (LLM) โดยไม่ลดทอนความแม่นยําของโมเดล
Tensor Cores ใน Hopper มอบ:
Transformer Engine เป็นหน่วยที่สร้างขึ้นตามวัตถุประสงค์ใน Hopper ที่ออกแบบมาเพื่อเร่งความเร็วโมเดลที่ใช้ Transformer รวมถึง GPT, BERT และ T5 จัดการความแม่นยําแบบไดนามิกโดยใช้ FP8 และ FP16 เพื่อเพิ่มประสิทธิภาพสูงสุดโดยไม่ลดทอนคุณภาพของโมเดลเอ็นจิ้นนี้มีผลกระทบอย่างยิ่งในรุ่น NLP ขนาดใหญ่ที่ความเร็วและประสิทธิภาพเป็นสิ่งสําคัญในการทดสอบเกณฑ์มาตรฐาน H100 ที่ใช้ Transformer Engine สามารถสร้างโทเค็นได้เร็วกว่า A100 GPU ถึงสองเท่า
รากฐานที่สําคัญอีกประการหนึ่งของประสิทธิภาพของ Hopper คือ NVLink 4.0 การเชื่อมต่อระหว่างกันรุ่นที่สี่นี้ช่วยให้สามารถสื่อสารระหว่าง GPU ได้อย่างรวดเร็วเป็นพิเศษในการกําหนดค่าหลาย GPU
ฟีเจอร์หลัก:
NVLink 4.0 เป็นสิ่งจําเป็นสําหรับการสร้างระบบเอ็กซาสเกลโดยใช้ GPU H100 หลายร้อยตัวทําให้มั่นใจได้ว่า GPU แต่ละตัวสามารถแบ่งปันข้อมูลได้อย่างราบรื่น ทําให้สามารถประมวลผลแบบขนานขนาดใหญ่สําหรับการฝึกอบรมโมเดล AI และปริมาณงานการจําลอง
โปรดดูลิงค์นี้เพื่อทราบข้อมูลเพิ่มเติมเกี่ยวกับชิป NVIDIA GB200 AI
Hopper GPU มีเทคโนโลยี MIG (Multi-Instance GPU) เจนเนอเรชั่นที่สอง ซึ่งช่วยให้สามารถแบ่งพาร์ติชัน GPU H100 ตัวเดียวออกเป็นอินสแตนซ์แยกกันได้สูงสุด 7 อินสแตนซ์แต่ละอินสแตนซ์ทํางานด้วยทรัพยากรการประมวลผล แคช และหน่วยความจําแบบแยกส่วน
สิทธิประโยชน์:
MIG เหมาะอย่างยิ่งสําหรับศูนย์ข้อมูลและองค์กรที่ให้บริการ AI-as-a-Service เนื่องจากช่วยให้สามารถแชร์ GPU ได้อย่างปลอดภัยและมีประสิทธิภาพ
Hopper แนะนํา DPX (Dynamic Programming Extensions) เพื่อเร่งอัลกอริทึมเฉพาะที่ใช้ในสาขาต่างๆ เช่น:
คําสั่ง DPX ใหม่เหล่านี้ถูกนําไปใช้ในฮาร์ดแวร์และลดรันไทม์ของอัลกอริธึมการเขียนโปรแกรมแบบไดนามิกได้อย่างมาก ซึ่งโดยทั่วไปจะใช้หน่วยความจําและการประมวลผลมากตัวอย่างเช่น DPX สามารถเร่งอัลกอริทึม Smith-Waterman และ Needleman-Wunsch ที่ใช้ในชีวสารสนเทศศาสตร์
Hopper GPU มีระบบย่อยหน่วยความจําล้ําสมัยที่สร้างขึ้นจาก HBM3 (High Bandwidth Memory 3)NVIDIA H100 GPU เวอร์ชัน SXM ประกอบด้วย:
คุณสมบัติหน่วยความจําอื่นๆ:
ระบบหน่วยความจําความเร็วสูงนี้รองรับการเคลื่อนย้ายข้อมูลที่รวดเร็ว ซึ่งจําเป็นสําหรับปริมาณงาน AI ที่มีชุดข้อมูลขนาดใหญ่
Hopper GPU ยังคงรองรับโมเดลการเขียนโปรแกรม CUDA ซึ่งได้รับการพัฒนาเพื่อใช้ประโยชน์จากความก้าวหน้าทางสถาปัตยกรรมได้ดียิ่งขึ้นนักพัฒนา CUDA สามารถใช้ประโยชน์จาก:
NVIDIA ยังมีระบบนิเวศของไลบรารีและเครื่องมือที่ปรับให้เหมาะสม ได้แก่:
เครื่องมือเหล่านี้ช่วยให้นักพัฒนาดีบัก โปรไฟล์ และเพิ่มประสิทธิภาพแอปพลิเคชันที่ขับเคลื่อนด้วย Hopper ได้อย่างมีประสิทธิภาพ
สถาปัตยกรรม Hopper เหมาะสําหรับ:
จุดเด่น:
จุดด้อย:
สถาปัตยกรรม Hopper เป็นตัวเปลี่ยนเกมในการประมวลผล GPU ด้วยนวัตกรรมต่างๆ เช่น ความแม่นยําของ FP8, Tensor Cores เจนเนอเรชั่นที่สี่, NVLink 4.0 และคําสั่ง DPX มันผลักดันขอบเขตของสิ่งที่เป็นไปได้ใน AI และ HPC ไม่เพียงแต่ให้ความเร็วแบบทวีคูณในการฝึกอบรมและการอนุมาน แต่ยังปรับปรุงประสิทธิภาพผ่าน MIG และการเขียนโปรแกรมแบบไดนามิกที่เร่งด้วยฮาร์ดแวร์ Hopper ของ NVIDIA เป็นมากกว่าสถาปัตยกรรม GPU แต่เป็นรากฐานสําหรับอนาคตของการประมวลผลแบบเร่งความเร็ว