Tags:
Node Thumbnail

MyShell บริษัทปัญญาประดิษฐ์สร้างตัวตนออนไลน์ เปิดตัวโมเดล JetMoE-8B โมเดล LLM ที่ประสิทธิภาพสูงกว่า LLaMA-2 13B เสียอีก และมีต้นทุนในการฝึกและการรันถูกกว่ามาก

JetMoE อาศัยสถาปัตยกรรม Mixture-of-Expert ทำให้ใช้โมเดลตอนรันจริงเพียง 2.2B เท่านั้น ต้นทุนการรันระดับเดียวกับ Gemma-2B ขณะที่การฝึกโมเดลนั้นใช้ชิป NVIDIA H100 96 ชุดเป็นเวลา 2 สัปดาห์ รวมต้นทุนประมาณ 80,000 ดอลลาร์หรือประมาณ 3 ล้านบาท น่าจะถูกกว่าโมเดลอื่นๆ ที่ประสิทธิภาพใกล้เคียงกันมาก โดยต้นทุนการฝึก LLaMA2 13B นั้นใช้ชิป A100 368640 ชั่วโมง หากคิดเป็นค่าคลาวด์ก็น่าจะเกิน 500,000 ดอลลาร์

โมเดลเปิดให้ใช้งานแบบ Apache 2.0 สามารถทดลองได้ที่ Lepton.ai

ที่มา - MyShell

No Description

Get latest news from Blognone