NVIDIA โอเพนซอร์ส Dynamo ระบบรัน AI พร้อมแคชในตัว เร่งความเร็ว LLM สูงสุด 30 เท่า

By: lew

on 20 March 2025 - 02:28 Tags:

Topics:

NVIDIA

LLM

NVIDIA เปิดตัว Dynamo ไลบรารีเร่งความเร็วในการรันปัญญาประดิษฐ์ (inference) ที่สามารถเร่งความเร็วการรันได้สูงสุด 30 เท่าด้วยการทำ KV cache

KV cache เป็นแนวทางสำคัญที่ผู้ให้บริการจำนวนมากใช้เร่งความเร็วในการให้บริการ ระบบรันจะเก็บสถานะการรันข้อความล่าสุดเอาไว้ และเมื่อผู้ใช้แชตต่อจากเดิมก็สามารถดึงสถานะกลับมาใช้งานได้ทันทีโดยไม่ต้องประมวลผลข้อความเดิมทั้งหมด

Dynamo มีความสามารถในการดึงสถานะการรันไว้ในหน่วยความจำหรือสตอเรจที่ราคาถูกกว่า เมื่อผู้ใช้กลับมาคุยต่อก็สามารถส่งคำขอกลับไปยังเครื่องเดิมที่เคยเก็บสถานะการแชตไว้ได้

อีกฟีเจอร์หนึ่งของ Dynamo คือการแยกส่วนให้บริการ หรือ disaggregated serving ที่แยกส่วนการทำความเข้าใจอินพุตออกจากการสร้างคำตอบได้ แต่ละส่วนถูก finetune มาแยกกัน ทำให้โดยรวมโมเดลมีความสามารถสูงแต่ตอบได้เร็ว

แม้ตัว Dynamo จะเป็นโอเพนซอร์ส แต่ก็ขายเวอร์ชั่นองค์กรผ่านทาง NVIDIA NIM สำหรับผู้ที่ต้องการซัพพอร์ต, แพตช์ความปลอดภัย, และเวอร์ชั่นเสถียร

ที่มา - NVIDIA

No Description