Cerebras ผู้ผลิตชิปปัญญาประดิษฐ์รัน LLM ความเร็วสูงที่สามารถรัน Llama 3.1 405B ได้ความเร็วถึง 969 token/s เปิดเผยถึงแนวทางการออกแบบชิปที่ทำให้สามารถให้บริการได้เร็วระดับนี้ ว่าอาศัยการสร้างชิปขนาดใหญ่ที่มีคอร์จำนวนมหาศาลอยู่ภายใน
Cerebras ผู้พัฒนาชิปเฉพาะทางในการรันโมเดลปัญญาประดิษฐ์ขนาดใหญ่ โชว์บริการ Cerebras Inference ที่ให้บริการโมเดล Llama 3.1 405B แบบความละเอียดเต็ม 16-bit แต่ได้ความเร็วสูงมากถึง 969 token/s และเริ่มตอบโทเค็นแรกในเวลาเพียง 240ms ใกล้เคียงการตอบแบบทันที
ทาง Cerebras โชว์ความเร็วของชิปตัวเองเป็นระยะ เดือนที่แล้วก็เพิ่งโชว์การรัน Llama 3.2 70B ที่ระดับ 2,100 token/s ไป แต่ก็ไม่เปิดเผยว่าจะให้บริการจริงเมื่อใด แต่มารอบนี้ทาง Cerebras ระบุว่าจะเปิดให้บริการตลาวด์ไตรมาสแรกของปี 2025 และยังประกาศราคาอินพุต 6 ดอลลาร์ต่อล้านโทเค็น และเอาท์พุต 12 ดอลลาร์ต่อล้านโทเค็น (เทียบกับ Azure ที่อินพุต 5.33 ดอลาร์และเอาท์พุต 15 ดอลลาร์)
Cerebras บริษัทผู้พัฒนาชิปเร่งความเร็ว AI ที่คุยว่าทำงานได้เร็วกว่าจีพียู โชว์ประสิทธิภาพการรันโมเดล Llama 3.2 ขนาด 70B ด้วยอัตราตอบสนอง 2,100 โทเคนต่อวินาที สูงกว่าที่โชว์เมื่อรอบก่อนทำได้ 450 โทเคนต่อวินาที โดย Cerebras บอกว่าเป็นการรันบนชิป Wafer Scale Engine 3 (WSE-3) ตัวเดิม แต่ปรับแต่งซอฟต์แวร์ไปอีกมากเพื่อให้ได้ประสิทธิภาพเพิ่มขึ้นจากเดิมมาก
Cerebras โชว์ตัวเลขข่มว่าสถิติ 2,100 โทเคนต่อวินาที สูงกว่าที่จีพียูทำได้ 16 เท่า และถ้าเทียบกับการเช่าคลาวด์รันจะทำได้สูงกว่า 68 เท่า
Cerebras Systems บริษัทผู้พัฒนาชิปประมวลผลสำหรับงาน AI ยื่นเอกสารไฟลิ่งเพื่อเตรียมนำบริษัทไอพีโอเข้าตลาดหุ้น โดยจะซื้อขายในตลาดแนสแดคด้วยตัวย่อ CBRS
Cerebras เป็นผู้พัฒนาชิปประมวลผล ซึ่งมี TSMC เป็นพาร์ตเนอร์หลักในการผลิต มีชิปรุ่นล่าสุด WSE-3 ซึ่งระบุว่ามีจำนวนคอร์และหน่วยความจำมากกว่า H100 ของ NVIDIA นอกจากนี้บริษัทยังให้บริการคลาวด์สำหรับงานประมวลของตนเองด้วย
Cerebras บริษัทชิปปัญญาประดิษฐ์ เปิดบริการ Cerebras Inference รันโมเดล Llama 3.1 ที่ความเร็วสูง โดยสามารถรัน Llama 3.1 70B ที่ 450 token/s ขณะที่ Llama 3.1 8B ได้ถึง 1,800 token ต่อวินาที นับว่าเป็นบริการที่ความเร็วสูงที่สุดในโลกในตอนนี้ จากเดิมที่ Groq ทำได้ที่ 750 token/s
จุดขายของ Cerebras คือชิป Wafer Scale Engine ที่ใส่ SRAM ความเร็วสูง 44GB อยู่บนตัวชิป เชื่อมต่อกับหน่วยประมวลผลที่แบนวิดท์รวมสูงถึง 21 Petabytes/s เทียบกับชิป NVIDIA H100 ที่แม้แบนวิดท์จะสูงแล้วแต่ก็ได้เพียง 3.3 Terabytes/s แนวทางนี้มีความจำเป็นสำหรับการรันโมเดลให้มีความเร็วเนื่องจากข้อมูลแต่ละ token จะต้องผ่านโมเดลทั้งหมด เช่นโมเดล 70B การรันโมเดลให้ได้ 1000 token/s จะต้องการแบนวิดท์ถึง 140 Terabytes/s
Cerebras Systems บริษัทผู้พัฒนาชิปประมวลผล AI ที่ก่อตั้งโดยอดีตพนักงาน AMD เปิดตัวชิปรุ่นใหม่ WSE-3 ที่มีจำนวนทรานซิสเตอร์มากถึง 4 ล้านล้านตัว, มีคอร์ประมวลผล AI จำนวน 9 แสนคอร์, แรม SRAM บนชิปขนาดใหญ่ 44GB, สมรรถนะประมวลผล AI 125 petaflops
ชิป Cerebras WSE-3 สามารถนำไปต่อกับหน่วยความจำภายนอกได้สูงสุด 1.3PB รองรับการเทรนโมเดลในอนาคตที่มีขนาดใหญ่กว่า GPT-4 หรือ Gemini ได้ 10 เท่า (โมเดลขนาด 24 ล้านล้านพารามิเตอร์ เก็บในหน่วยความจำผืนเดียวโดยไม่ต้องแบ่งส่วน)