Tags:
Node Thumbnail

ทีมวิจัยของกูเกิลเปิดตัวโมเดล PaLM-E ปัญญาประดิษฐ์สำหรับควบคุมหุ่นยนต์ โดยเป็นการปรับปรุงจาก PaLM โมเดลปัญญาประดิษฐ์ด้านภาษา (LLM) ขนาดใหญ่ 540,000 ล้านพารามิเตอร์ นำมารวมร่างกับปัญญาประดิษฐ์ด้านภาพ (vison) ชื่อ ViT-22B กลายมาเป็น PaLM-E (E ย่อมาจาก Embodied) ขนาด 562,000 ล้านพารามิเตอร์

การรวมโมเดลภาษา LLM กับโมเดลวิเคราะห์ภาพ Vision เข้าด้วยกัน ทำให้ PaLM-E เป็นโมเดลที่สามารถทำงานได้หลากหลาย (generalist) รองรับการสั่งงานหุ่นยนต์ทั้งสองแบบ ทั้งการแยกแยะวัตถุ แยกแยะฉากทัศน์ รับคำสั่งเป็นเสียงแล้วแปลงเป็นข้อความ หรือใช้ทั้งสองอย่างคือให้ดูภาพแล้วทำตามคำบรรยายบอกก็ได้เช่นกัน

กูเกิลบอกว่า PaLM-E ถือเป็นตัวอย่างของการสร้างโมเดลที่รองรับวิธีการสั่งงานหลายแบบ (multi-modal) โดยใช้โมเดลทั่วๆ ไปแล้วได้ผลออกมาดี ซึ่งจะเป็นก้าวสำคัญสู่การพัฒนาโมเดลแบบ multi-modal อื่นในอนาคต

No Description

No Description

ที่มา - Google AI Blog

Get latest news from Blognone

Comments

By: Mediumrare
AndroidWindows
on 12 March 2023 - 05:26 #1279689

multi-modal

multimodal