NVIDIA ประกาศความร่วมมือกับ Hugging Face นำเซิร์ฟเวอร์ NVIDIA DGX Cloud ชิป H100 ออกมาให้บริการขายปลีกสำหรับรันโมเดลโดยคิดตามเวลารันจริง
ผู้ใช้ที่ต้องการใช้บริการนี้ต้องเป็นสมาชิก Hugging Face แบบ Enterprise (เดือนละ 20 ดอลลาร์ต่อคน) และจะสามารถเรียกใช้โมเดลผ่านทางตัวเลือก "NVIDIA NIM Enterprise" โดยเรียกผ่านทางไลบรารี openai ในภาษา Python ได้เลย โดยก่อนหน้านี้ Hugging Face เคยนำชิป H100 มาให้บริการสำหรับการฝึกโมเดลมาก่อนแล้ว
ทาง NVIDIA และ Hugging Face คิดค่าบริการตามจริง 8.25 ดอลลาร์ต่อชั่วโมง ไม่ได้คิดตามจำนวนโทเค็น โดยทั่วไปแล้ว Llama 3 8B ขนาด input 500 token และ output 100 token ใช้เวลาประมาณ 1 วินาทีบนชิป H100 คิดเป็นค่าใช้จ่าย 0.0023 ดอลลาร์ ขณะที่โมเดล Llama 3 70B จะใช้ชิป H100 4 ตัว และเวลารัน 2 วินาที รวมค่าใช้ที่พรอมพ์เท่ากันเป็น 8 เท่าประมาณ 0.0184 ดอลลาร์
โมเดลที่ใช้งานได้ยังมีจำกัด เป็นโมเดลยอดนิยม เช่น Mixtral 8x22B, Llama 3.1, Mistral 7B, และ Llama 3 ด้วยแนวทางนี้อาจจะเหมาะกับผู้ที่ใช้งาน Hugging Face เป็นหลักอยู่แล้วและต้องการทดลองเพิ่มเติม ไม่เช่นนั้นไปใช้งานคลาวด์เฉพาะทางน่าจะถูกกว่า
ที่มา - Hugging Face