NVIDIA เปิดตัว Dynamo ไลบรารีเร่งความเร็วในการรันปัญญาประดิษฐ์ (inference) ที่สามารถเร่งความเร็วการรันได้สูงสุด 30 เท่าด้วยการทำ KV cache
KV cache เป็นแนวทางสำคัญที่ผู้ให้บริการจำนวนมากใช้เร่งความเร็วในการให้บริการ ระบบรันจะเก็บสถานะการรันข้อความล่าสุดเอาไว้ และเมื่อผู้ใช้แชตต่อจากเดิมก็สามารถดึงสถานะกลับมาใช้งานได้ทันทีโดยไม่ต้องประมวลผลข้อความเดิมทั้งหมด
Dynamo มีความสามารถในการดึงสถานะการรันไว้ในหน่วยความจำหรือสตอเรจที่ราคาถูกกว่า เมื่อผู้ใช้กลับมาคุยต่อก็สามารถส่งคำขอกลับไปยังเครื่องเดิมที่เคยเก็บสถานะการแชตไว้ได้
อีกฟีเจอร์หนึ่งของ Dynamo คือการแยกส่วนให้บริการ หรือ disaggregated serving ที่แยกส่วนการทำความเข้าใจอินพุตออกจากการสร้างคำตอบได้ แต่ละส่วนถูก finetune มาแยกกัน ทำให้โดยรวมโมเดลมีความสามารถสูงแต่ตอบได้เร็ว
แม้ตัว Dynamo จะเป็นโอเพนซอร์ส แต่ก็ขายเวอร์ชั่นองค์กรผ่านทาง NVIDIA NIM สำหรับผู้ที่ต้องการซัพพอร์ต, แพตช์ความปลอดภัย, และเวอร์ชั่นเสถียร
ที่มา - NVIDIA