Alibaba Cloud เปิดโมเดล Qwen 2.5 ฝึกด้วยข้อมูลขนาดใหญ่มาก รองรับภาษาไทย

By: lew

on 19 September 2024 - 22:57 Tags:

Topics:

Alibaba Cloud

LLM

Qwen

Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ Qwen เวอร์ชั่น 2.5 จุดเด่นของโมเดลเวอร์ชั่นนี้คือฝึกด้วยข้อมูลขนาดถึง 18 ล้านล้านโทเค็น รองรับ 29 ภาษารวมภาษาไทย โดยเปิดให้ใช้งานได้อิสระแทบทุกรุ่น

ตัวโมเดลรองรับอินพุต 128K token และตอบข้อมูลได้ 8K token ยกเว้นรุ่น 3B ลงไปจะรองรับอินพุต 32K token เท่านั้น

รุ่นใหญ่สุด Qwen2.5-72B ได้ผลทดสอบชนะ Llama3.1-70B แทบทุกการทดสอบขึ้นไปใกล้เคียง Llama3.1-405B แต่เวอร์ชั่น 72B แจกแบบ Qwen License ซึ่งจำกัดการใช้งานกับบริการที่ผู้ใช้เกิน 100 ล้านคนต่อเดือน

สำหรับโมเดลขนาดเล็กทีมงาน Qwen ชูจุดตัดว่าโมเดลใดได้คะแนน MMLU มากกว่า 65 คะแนนซึ่งโมเดลขนาดเล็กลงก็เก่งขึ้นเรื่อยๆ ในช่วงหลัง และ Qwen2.5-3B ก็เป็นโมเดลเล็กที่สุดที่ได้คะนนเกิน 65 แต่รุ่น 3B แจกเพื่อการวิจัยเท่านั้น

เวอร์ชั่นเฉพาะทาง Qwen2.5-Coder-7B ทำคะแนนชนะโมเดลขนาดใหญ่กว่าหลายตัวแทบทุกการทดอบ มีเพียงชุดทดสอบ BigCodeBench ที่แพ้ CodeStral-22B ไป

สามารถดาวน์โหลด Qwen2.5 มาใช้งานได้ทั้ง vllm และ ollama และทั้งสองแพลตฟอร์มยังใช้งานฟีเจอร์ tool calling ได้ด้วย

ที่มา - QwenLM

No Description