กูเกิลเปิดตัวโมเดล PaLM-E ปัญญาประดิษฐ์ควบคุมหุ่นยนต์ สั่งงานได้ทั้งภาพและเสียง

By: mk

on 11 March 2023 - 22:01 Tags:

Topics:

Google

Artificial Intelligence

Robotics

ทีมวิจัยของกูเกิลเปิดตัวโมเดล PaLM-E ปัญญาประดิษฐ์สำหรับควบคุมหุ่นยนต์ โดยเป็นการปรับปรุงจาก PaLM โมเดลปัญญาประดิษฐ์ด้านภาษา (LLM) ขนาดใหญ่ 540,000 ล้านพารามิเตอร์ นำมารวมร่างกับปัญญาประดิษฐ์ด้านภาพ (vison) ชื่อ ViT-22B กลายมาเป็น PaLM-E (E ย่อมาจาก Embodied) ขนาด 562,000 ล้านพารามิเตอร์

การรวมโมเดลภาษา LLM กับโมเดลวิเคราะห์ภาพ Vision เข้าด้วยกัน ทำให้ PaLM-E เป็นโมเดลที่สามารถทำงานได้หลากหลาย (generalist) รองรับการสั่งงานหุ่นยนต์ทั้งสองแบบ ทั้งการแยกแยะวัตถุ แยกแยะฉากทัศน์ รับคำสั่งเป็นเสียงแล้วแปลงเป็นข้อความ หรือใช้ทั้งสองอย่างคือให้ดูภาพแล้วทำตามคำบรรยายบอกก็ได้เช่นกัน

กูเกิลบอกว่า PaLM-E ถือเป็นตัวอย่างของการสร้างโมเดลที่รองรับวิธีการสั่งงานหลายแบบ (multi-modal) โดยใช้โมเดลทั่วๆ ไปแล้วได้ผลออกมาดี ซึ่งจะเป็นก้าวสำคัญสู่การพัฒนาโมเดลแบบ multi-modal อื่นในอนาคต

No Description

ที่มา - Google AI Blog