ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้
Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้
Qwen2.5 Omni มีโมเดลขนาด 7B ให้ดาวน์โหลดไปใช้ได้ฟรี ด้วยสัญญาอนุญาตแบบ Apache 2.0
QVQ-Max เป็นโมเดลคิดก่อนตอบที่รับเสียงได้ในตัว (visual reasoning model) โดยสามารถกำหนดโควต้าเวลาคิด ผลทดสอบ MathVision แสดงให้เห็นว่าเมื่อคิดยาวขึ้นเรื่อยๆ ผลทดสอบก็ดีขึ้นเรื่อยๆ เช่นกัน
ตอนนี้ QVQ-Max เปิดให้ใช้งานได้ใน Qwen Chat โดยยังไม่เปิดให้บริการผ่าน API หรือให้ดาวน์โหลดโมเดล
ที่มา - Qwen2.5 Omni, QVQ-Max