Hugging Face เผยแพร่ผลการจัดอันดับ LLM leaderboard ครั้งที่สอง โดยนำโมเดล LLM แบบเปิด (open large language model) มาทดสอบในการทำงานด้านต่าง ๆ
การทดสอบของ Hugging Face สนใจใน 4 งานได้แก่ วัดความรู้, ให้เหตุผลจากเนื้อหาขนาดยาวมาก, การคำนวณคณิตศาสตร์ที่ซับซ้อน และการอธิบายวิธีการขั้นตอน โดยใช้ตัววัดผล 6 อย่าง ได้แก่ MMLU-Pro, GPQA, MuSR, MATH, IFEval และ BBH
ผลการทดสอบรวม โมเดล Qwen2-72B-Instruct ของ Qwen จาก Alibaba ได้คะแนนรวมอันดับ 1 ตามด้วย Meta-Llama-3-70B-Instruct ของ meta-llama จาก Meta เป็นอันดับที่ 2 และ Qwen/Qwen2-72B ของ Qwen เช่นกัน อยู่ในอันดับที่ 3 นอกจากนี้ Qwen ยังติดอันดับที่ 10 และ 11 ด้วย (Qwen/Qwen1.5-110B และ Qwen/Qwen1.5-110B-Chat)
ในการทดสอบนี้ไม่มี ChatGPT ของ OpenAI รวมอยู่ด้วย เนื่องจากเป็นโมเดล LLM แบบปิด ซึ่ง Hugging Face ให้เหตุผลว่าเพราะจะไม่สามารถทำซ้ำผลทดสอบได้
Clem Delangue ซีอีโอ Hugging Face ให้ข้อมูลเพิ่มเติมว่า การทดสอบนี้ใช้จีพียู H100 ของ NVIDIA 300 ตัว ในการประมวลผล และพบเรื่องน่าสนใจเช่น การทดสอบจากนี้จะมีแต่ซับซ้อนและยากมากขึ้น และโมเดลขนาดใหญ่พารามิเตอร์เยอะ ไม่ได้แปลว่าจะฉลาดกว่าเสมอไป
ที่มา: Hugging Face
ผลการจัดอันดับ (ดูทั้งหมดที่นี่)
Comments
ผมใช้ qwen2 7B instruct อยู่ ใช้ sagemaker inference แอบหวังให้ AWS เพิ่ม qwen2 ลงใน bedrock เหมือนกัน ถามตอบเป็นธรรมชาติจริงๆนะ แม้แต่ตัวเล็กสุด(0.5B)ก็ค่อยข้างโอเคในงานสั้นๆเล็กๆ
เห็นด้วยเลยครับ Qwen2 7B instruct ใช้ทุกวัน โอเคจริง ส่วนตัวที่ใช้ ได้ผลดีกว่า llama3 หรือแม้แต่ gemma2 ที่เพิ่งออกมาซะอีก
WE ARE THE 99%
qwen2 ตอบไทยได้ดีกว่า llama 3