xAI บริษัทด้านปัญญาประดิษฐ์ของ Elon Musk พรีวิวความสามารถของ Grok-1.5 Vision โมเดล AI ภาษาขนาดใหญ่บนข้อมูลสื่อผสม (Multimodal) หลังจากเปิดตัว Grok-1.5 ไปเมื่อเดือนที่แล้ว
Grok-1.5V มีความสามารถรับอินพุทและดำเนินการข้อมูลภาพในรูปแบบต่าง ๆ เช่น เอกสาร, แผนผัง, ตาราง, ภาพหน้าจอ ไปจนถึงภาพถ่าย ผลทดสอบเทียบกับโมเดลข้อมูลสื่อผสมตัวอื่นพบว่าทำได้ใกล้เคียง โดยโดดเด่นกว่าในบางผลทดสอบเช่น Mathvista (คณิตศาสตร์), TextVQA (อ่านข้อความ)
xAI ยังนำเสนอตัวทดสอบความสามารถโมเดล AI ที่ใช้อินพุทภาพใหม่คือ RealWorldQA มีเป้าหมายเพื่อทดสอบว่า AI สามารถเข้าใจสถานการณ์ในชีวิตประจำวันผ่านภาพที่เห็นได้ดีแค่ไหน ซึ่งหลายปัญหาไม่ใช่เรื่องยากสำหรับมนุษย์ แต่เมื่อเป็น AI แล้ว อาจซับซ้อนมาก โดยเผยแพร่ภายใต้สัญญา CC BY-ND 4.0 ให้ไปใช้งานได้ และการทดสอบ Grok-1.5V กับ RealWorldQA ก็ได้คะแนนสูงสุดเช่นกัน
สถานะของ Grok-1.5V ยังเป็นพรีวิว จะเปิดให้ใช้งานทั่วไปเร็ว ๆ นี้ เฉพาะกลุ่มผู้ทดสอบชุดแรกและผู้ใช้งาน Grok
ที่มา: xAI
ผลทดสอบเทียบกับโมเดลอื่น
ตัวอย่างการอธิบายข้อมูลจากรูปภาพ
ตัวอย่างการทดสอบปัญหาในชีวิตประจำวันของ RealWorldQA