Microsoft เผยแพร่งานวิจัย Multimodal LLM เรียนรู้ อธิบาย ตอบคำถาม จากข้อมูลรูปภาพได้

By: arjin

on 2 March 2023 - 17:40 Tags:

Topics:

Microsoft

Artificial Intelligence

Microsoft Research

LLM

ทีมงานนักวิจัยของไมโครซอฟท์ เผยแพร่งานวิจัย Kosmos-1 โมเดลสร้างภาษาบนข้อมูลสื่อผสมผสาน (Multimodal Large Language Model - MLLM) โดยสามารถเรียนรู้ข้อมูลทั้งตัวหนังสือ รูปภาพ แคปชันประกอบรูปภาพ มาประมวลผลจนสามารถให้ข้อมูลอธิบายได้ในหลากหลายมิติ

ตัวอย่างความสามารถของ Kosmos-1 ที่เผยแพร่ในงานวิจัย เช่น การตอบคำถามจากข้อมูลรูปภาพที่กำหนด ซึ่งโมเดลสามารถเข้าใจบริบทเรื่องราวที่มีอยู่ในภาพได้, สามารถแปลงข้อมูลตัวหนังสือในภาพ (OCR) เพื่อตอบคำถามได้, สามารถหารายละเอียดสำคัญในรูปภาพ และสืบค้นข้อมูลต่อได้ เป็นต้น

ในการทดสอบโมเดล งานวิจัยยังให้ตอบคำถามหลายรูปแบบ เช่น การให้เหตุผลจากในภาพ การตอบคำถามทดสอบไอคิว หรือการใส่คำถามที่ต้องสืบค้นหลายขั้นตอน สถานะของโมเดลนี้ยังอยู่ในระดับงานวิจัย แต่ทำให้เห็นว่าในอนาคต AI สร้างเนื้อหา จะสามารถเพิ่มความสามารถใหม่ ๆ ได้อีกแค่ไหน สามารถดาวน์โหลดรายละเอียดงานวิจัยได้ที่นี่

ที่มา: Big Tech Wire

ตัวอย่างการทดสอบโมเดล

No Description

Hiring! บริษัทที่น่าสนใจ

MOLOG Tech

We are Modern Logistic Platform, Specialize in WMS, OMS and TMS.

Bangkok Bank

Bangkok Bank is one of Southeast Asia's largest regional banks, a market leader in business banking

Siam Commercial Bank Public Company Limited

"Let's start a brighter career future together"

Comments

By: Fzo

on 2 March 2023 - 21:27 #1278980

ตอนนี้มีวิธีไหนสร้างแคปชั่นจากภาพได้เลยบ้างครับ แบบไม่ต้องล้ำตามข่าวนี้ เราให้ AI อธิบายบอกสิ่งที่อยู่ในภาพได้เช่น แมวกำลังกินปลา ผีเสื้อบนดอกไม้สีแดง ชายสูงอายุถือร่มกันแดด ฯลฯ อะไรแบบนี้

WE ARE THE 99%

By: anu

on 2 March 2023 - 22:21 #1278983 Reply to:1278980

https://replicate.com/collections/image-to-text

Main menu