Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ Qwen เวอร์ชั่น 2.5 จุดเด่นของโมเดลเวอร์ชั่นนี้คือฝึกด้วยข้อมูลขนาดถึง 18 ล้านล้านโทเค็น รองรับ 29 ภาษารวมภาษาไทย โดยเปิดให้ใช้งานได้อิสระแทบทุกรุ่น
ตัวโมเดลรองรับอินพุต 128K token และตอบข้อมูลได้ 8K token ยกเว้นรุ่น 3B ลงไปจะรองรับอินพุต 32K token เท่านั้น
รุ่นใหญ่สุด Qwen2.5-72B ได้ผลทดสอบชนะ Llama3.1-70B แทบทุกการทดสอบขึ้นไปใกล้เคียง Llama3.1-405B แต่เวอร์ชั่น 72B แจกแบบ Qwen License ซึ่งจำกัดการใช้งานกับบริการที่ผู้ใช้เกิน 100 ล้านคนต่อเดือน
สำหรับโมเดลขนาดเล็กทีมงาน Qwen ชูจุดตัดว่าโมเดลใดได้คะแนน MMLU มากกว่า 65 คะแนนซึ่งโมเดลขนาดเล็กลงก็เก่งขึ้นเรื่อยๆ ในช่วงหลัง และ Qwen2.5-3B ก็เป็นโมเดลเล็กที่สุดที่ได้คะนนเกิน 65 แต่รุ่น 3B แจกเพื่อการวิจัยเท่านั้น
เวอร์ชั่นเฉพาะทาง Qwen2.5-Coder-7B ทำคะแนนชนะโมเดลขนาดใหญ่กว่าหลายตัวแทบทุกการทดอบ มีเพียงชุดทดสอบ BigCodeBench ที่แพ้ CodeStral-22B ไป
สามารถดาวน์โหลด Qwen2.5 มาใช้งานได้ทั้ง vllm และ ollama และทั้งสองแพลตฟอร์มยังใช้งานฟีเจอร์ tool calling ได้ด้วย
ที่มา - QwenLM
Comments
ถูกใจที่รอบนี้มี 14B ด้วย เครื่องธรรมดาๆ ก็รันไหว
WE ARE THE 99%