Alibaba Cloud เปิดตัว Qwen Omni ดูวิดีโอตอบเป็นเสียงได้, QVQ-Max อ่านภาพแล้วคิดก่อนตอบ

By: lew

on 4 April 2025 - 12:58 Tags:

Topics:

Alibaba Cloud

LLM

ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้

Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้

Qwen2.5 Omni มีโมเดลขนาด 7B ให้ดาวน์โหลดไปใช้ได้ฟรี ด้วยสัญญาอนุญาตแบบ Apache 2.0

QVQ-Max เป็นโมเดลคิดก่อนตอบที่รับเสียงได้ในตัว (visual reasoning model) โดยสามารถกำหนดโควต้าเวลาคิด ผลทดสอบ MathVision แสดงให้เห็นว่าเมื่อคิดยาวขึ้นเรื่อยๆ ผลทดสอบก็ดีขึ้นเรื่อยๆ เช่นกัน

ตอนนี้ QVQ-Max เปิดให้ใช้งานได้ใน Qwen Chat โดยยังไม่เปิดให้บริการผ่าน API หรือให้ดาวน์โหลดโมเดล

ที่มา - Qwen2.5 Omni, QVQ-Max

No Description