Cerebras ผู้พัฒนาชิปเฉพาะทางในการรันโมเดลปัญญาประดิษฐ์ขนาดใหญ่ โชว์บริการ Cerebras Inference ที่ให้บริการโมเดล Llama 3.1 405B แบบความละเอียดเต็ม 16-bit แต่ได้ความเร็วสูงมากถึง 969 token/s และเริ่มตอบโทเค็นแรกในเวลาเพียง 240ms ใกล้เคียงการตอบแบบทันที
ทาง Cerebras โชว์ความเร็วของชิปตัวเองเป็นระยะ เดือนที่แล้วก็เพิ่งโชว์การรัน Llama 3.2 70B ที่ระดับ 2,100 token/s ไป แต่ก็ไม่เปิดเผยว่าจะให้บริการจริงเมื่อใด แต่มารอบนี้ทาง Cerebras ระบุว่าจะเปิดให้บริการตลาวด์ไตรมาสแรกของปี 2025 และยังประกาศราคาอินพุต 6 ดอลลาร์ต่อล้านโทเค็น และเอาท์พุต 12 ดอลลาร์ต่อล้านโทเค็น (เทียบกับ Azure ที่อินพุต 5.33 ดอลาร์และเอาท์พุต 15 ดอลลาร์)
ตอนนี้เริ่มเปิดบริการแบบวงปิดแล้ว คนที่สนใจสามารถไปลงชื่อรอคิวได้
ที่มา - Cerebras
Comments
แต่ได้ความเร็ว
Enter ปุ๊บ มาปุ๊งเดียวเลย ไม่ต้อง stream text 😂
WE ARE THE 99%