คล้อยหลังการเปิดตัวโมเดล Mistral NeMo 12B รุ่นเล็กเพียงไม่กี่วัน ทาง Mistral AI ก็เปิดตัวโมเดลขนาดใหญ่ระดับเรือธง Mistral Large 2 ขนาดพารามิเตอร์ 123B เป็นเวอร์ชันอัพเกรดของ Mistral Large 1 ที่ออกเมื่อต้นปี 2024
สิ่งที่เพิ่มเข้ามาคือการขยายขนาด context window จาก 32K เป็น 128K, รองรับภาษาอื่นๆ ที่ไม่ใช่ภาษาตระกูลละติน ได้แก่ อารบิก ฮินดี จีน ญี่ปุ่น เกาหลี, รองรับภาษาโปรแกรมมิ่งอีกกว่า 80 ภาษา
ในแง่คะแนนการทดสอบ Mistral Large 2 ทำคะแนนชุดทดสอบ MMLU ได้ 84%, ส่วนคะแนนการเขียนโปรแกรมและตอบคำถามคณิตศาสตร์ บอกว่าอยู่ระดับเดียวกับ GPT-4o, Claude 3 Opus และ Llama 3 405B
Mistral Large 2 ออกแบบมาให้รันในเครื่องเดียว (single-node inference) โดยมีขนาดพารามิเตอร์ 123B ไม่จำเป็นต้องหาเครื่องเพิ่ม จึงมีจุดเด่นเรื่องประสิทธิภาพต่อต้นทุน (นับตามจำนวนพารามิเตอร์) ที่เหนือกว่าโมเดลภาษาคู่แข่งอื่นๆ โดยเฉพาะ Meta Llama 3.1 405B ที่เพิ่งออกมาเมื่อวาน เพราะ Mistral Large 2 มีคะแนนทดสอบน้อยกว่าเล็กน้อย แต่พารามิเตอร์น้อยกว่าประมาณ 3 เท่า
อย่างไรก็ตาม Mistral Large 2 ไม่เปิดให้ใช้งานฟรีในเชิงพาณิชย์ ต้องซื้อไลเซนส์จาก Mistral หรือผู้ให้บริการคลาวด์พันธมิตร แต่ถ้าเป็นการใช้ในเชิงวิจัยหรืองานที่ไม่ใช่การพาณิชย์ก็สามารถใช้งานได้ ตรงนี้ยังเป็นจุดที่ Llama 3 ได้เปรียบกว่า
ที่มา - Mistral