Meta รายงานถึงข้อมูลของคลัสเตอร์ใหม่ที่บริษัทใช้ฝึกปัญญาประดิษฐ์ โดยทำขึ้นมาเพื่อออกแบบและฝึก LLaMA 3 โดยเฉพาะ และเป็นพื้นที่ทดสอบสถาปัตยกรรมคลัสเตอร์ใหม่ที่จะขยายต่อไปในอนาคต โดยประกาศแผนว่าจะซื้อเพิ่มไปเรื่อยๆ จนสิ้นปีมีชิป H100 ประมาณ 350,000 ตัว พลังประมวลผลรวมเทียบเท่ากับชิป H100 จำนวน 600,000 ตัว
คลัสเตอร์มีสองชุดหลัก ต่างกันที่ระบบเน็ตเวิร์คที่ต้องรองรับการเข้าถึงแรมข้ามเครื่อง ชุดแรกใช้ remote direct memory access (RDMA) over converged Ethernet (RoCE) เน็ตเวิร์คของ Arista 7800 พร้อม Wedge400 อีกชุดใช้ NVIDIA Quantum2 InfiniBand ทั้งสองชุดมีแบนวิดท์เชื่อมต่อ 400Gbps เท่ากัน โดยตอนนี้พบว่าทั้งสองชุดใช้งานต่างๆ ได้ดี
ตัวเซิร์ฟเวอร์ใช้เครื่อง Grand Teton ที่ Meta ออกแบบเอง สำหรับงาน AI โดยเฉพาะ ระบบสตอเรจเป็นแบบ Flash แล้ว mount เข้าลินุกซ์ด้วยระบบสตอเรจ Tectonic ที่ Meta สร้างมาใช้เองเช่นกัน
ความยากของการสร้างคลัสเตอร์ขนาดใหญ่เช่นนี้คือระบบสื่อสารจะสร้างคอขวดได้อย่างรวดเร็ว ทีมงานต้องออปติไมซ์ทั้งซอฟต์แวร์และตัวเน็ตเวิร์คเองเพื่อให้ประสิทธิภาพกลับไปใกล้เคียง 100% ที่เคยทำได้ในคลัสเตอร์ขนาดเล็ก
ที่มา - Meta
Comments
จากแพลตฟอร์มโซเชียลที่ทำมาเพื่อแชร์รูป พัฒนาจนมี Know - How แทบทุกสาขาแล้ว