xAI เปิดตัว Grok-1.5 Vision โมเดล AI Multimodal รองรับอินพุทรูปภาพ

By: arjin

on 14 April 2024 - 07:29 Tags:

Topics:

Grok

xAI

Artificial Intelligence

xAI บริษัทด้านปัญญาประดิษฐ์ของ Elon Musk พรีวิวความสามารถของ Grok-1.5 Vision โมเดล AI ภาษาขนาดใหญ่บนข้อมูลสื่อผสม (Multimodal) หลังจากเปิดตัว Grok-1.5 ไปเมื่อเดือนที่แล้ว

Grok-1.5V มีความสามารถรับอินพุทและดำเนินการข้อมูลภาพในรูปแบบต่าง ๆ เช่น เอกสาร, แผนผัง, ตาราง, ภาพหน้าจอ ไปจนถึงภาพถ่าย ผลทดสอบเทียบกับโมเดลข้อมูลสื่อผสมตัวอื่นพบว่าทำได้ใกล้เคียง โดยโดดเด่นกว่าในบางผลทดสอบเช่น Mathvista (คณิตศาสตร์), TextVQA (อ่านข้อความ)

xAI ยังนำเสนอตัวทดสอบความสามารถโมเดล AI ที่ใช้อินพุทภาพใหม่คือ RealWorldQA มีเป้าหมายเพื่อทดสอบว่า AI สามารถเข้าใจสถานการณ์ในชีวิตประจำวันผ่านภาพที่เห็นได้ดีแค่ไหน ซึ่งหลายปัญหาไม่ใช่เรื่องยากสำหรับมนุษย์ แต่เมื่อเป็น AI แล้ว อาจซับซ้อนมาก โดยเผยแพร่ภายใต้สัญญา CC BY-ND 4.0 ให้ไปใช้งานได้ และการทดสอบ Grok-1.5V กับ RealWorldQA ก็ได้คะแนนสูงสุดเช่นกัน

สถานะของ Grok-1.5V ยังเป็นพรีวิว จะเปิดให้ใช้งานทั่วไปเร็ว ๆ นี้ เฉพาะกลุ่มผู้ทดสอบชุดแรกและผู้ใช้งาน Grok

ที่มา: xAI

No Description

ผลทดสอบเทียบกับโมเดลอื่น

No Description

ตัวอย่างการอธิบายข้อมูลจากรูปภาพ

No Description

ตัวอย่างการทดสอบปัญหาในชีวิตประจำวันของ RealWorldQA

No Description