Tags:
Node Thumbnail

Hugging Face เผยแพร่ผลการจัดอันดับ LLM leaderboard ครั้งที่สอง โดยนำโมเดล LLM แบบเปิด (open large language model) มาทดสอบในการทำงานด้านต่าง ๆ

การทดสอบของ Hugging Face สนใจใน 4 งานได้แก่ วัดความรู้, ให้เหตุผลจากเนื้อหาขนาดยาวมาก, การคำนวณคณิตศาสตร์ที่ซับซ้อน และการอธิบายวิธีการขั้นตอน โดยใช้ตัววัดผล 6 อย่าง ได้แก่ MMLU-Pro, GPQA, MuSR, MATH, IFEval และ BBH

ผลการทดสอบรวม โมเดล Qwen2-72B-Instruct ของ Qwen จาก Alibaba ได้คะแนนรวมอันดับ 1 ตามด้วย Meta-Llama-3-70B-Instruct ของ meta-llama จาก Meta เป็นอันดับที่ 2 และ Qwen/Qwen2-72B ของ Qwen เช่นกัน อยู่ในอันดับที่ 3 นอกจากนี้ Qwen ยังติดอันดับที่ 10 และ 11 ด้วย (Qwen/Qwen1.5-110B และ Qwen/Qwen1.5-110B-Chat)

ในการทดสอบนี้ไม่มี ChatGPT ของ OpenAI รวมอยู่ด้วย เนื่องจากเป็นโมเดล LLM แบบปิด ซึ่ง Hugging Face ให้เหตุผลว่าเพราะจะไม่สามารถทำซ้ำผลทดสอบได้

Clem Delangue ซีอีโอ Hugging Face ให้ข้อมูลเพิ่มเติมว่า การทดสอบนี้ใช้จีพียู H100 ของ NVIDIA 300 ตัว ในการประมวลผล และพบเรื่องน่าสนใจเช่น การทดสอบจากนี้จะมีแต่ซับซ้อนและยากมากขึ้น และโมเดลขนาดใหญ่พารามิเตอร์เยอะ ไม่ได้แปลว่าจะฉลาดกว่าเสมอไป

ที่มา: Hugging Face

No Description

ผลการจัดอันดับ (ดูทั้งหมดที่นี่)

No Description

Get latest news from Blognone

Comments

By: dheerapat on 29 June 2024 - 18:45 #1315788

ผมใช้ qwen2 7B instruct อยู่ ใช้ sagemaker inference แอบหวังให้ AWS เพิ่ม qwen2 ลงใน bedrock เหมือนกัน ถามตอบเป็นธรรมชาติจริงๆนะ แม้แต่ตัวเล็กสุด(0.5B)ก็ค่อยข้างโอเคในงานสั้นๆเล็กๆ

By: Fzo
ContributorAndroid
on 29 June 2024 - 19:55 #1315793
Fzo's picture

เห็นด้วยเลยครับ Qwen2 7B instruct ใช้ทุกวัน โอเคจริง ส่วนตัวที่ใช้ ได้ผลดีกว่า llama3 หรือแม้แต่ gemma2 ที่เพิ่งออกมาซะอีก


WE ARE THE 99%

By: rbus
ContributoriPhoneAndroidUbuntu
on 30 June 2024 - 18:44 #1315828

qwen2 ตอบไทยได้ดีกว่า llama 3