Tags:
Node Thumbnail

ทีมวิศวกรของฝ่ายวิจัย Machine Learning ของแอปเปิล เผยแพร่รายละเอียดตัวเร่งการทำ LLM Inference โดยร่วมมือกับ NVIDIA เพื่อทดสอบประสิทธิภาพบนจีพียูของ NVIDIA

เครื่องมือที่แอปเปิลพัฒนาและโอเพนซอร์สนี้ชื่อว่า Recurrent Drafter หรือย่อว่า ReDrafter เป็นโมเดลที่รวมสองอัลกอริทึมคือ Beam Search กับ Dynamic Tree Attention เพื่อเร่งความเร็วในการสร้างโทเค็นผลลัพธ์ของ LLM สูงสุดที่ระดับ 3.5 โทเค็นต่อหนึ่งขั้นตอนของโมเดลโอเพนซอร์ส

ผลการทดสอบความเร็วในการสร้างโทเค็นผลลัพธ์ด้วย TensorRT-LLM ของ NVIDIA พบว่า ReDrafter ทำงานได้เร็วกว่าวิธีดั้งเดิม 2.7 เท่า ทำให้วิธีการนี้อาจนำมาช่วยให้การสร้างผลลัพธ์ของ LLM ให้เร็วขึ้นในมุมผู้ใช้งาน และลดการใช้ทรัพยากรจีพียูลงได้ด้วย

รายละเอียดของ ReDrafter และการทดสอบ สามารถดูได้จากที่มา

ที่มา: แอปเปิล และ NVIDIA

No Description

Get latest news from Blognone