Tags:
Node Thumbnail

Google DeepMind เปิดตัวโมเดลปัญญาประดิษฐ์ที่มีพื้นฐานจาก Gemini 2.0 สำหรับใช้งานกับหุ่นยนต์ผู้ช่วย ได้แก่ Gemini Robotics และ Gemini Robotics-ER (Extended Reasoning) ที่เพิ่มความสามารถเชื่อมต่อกับซอฟต์แวร์หุ่นยนต์ที่มี เป้าหมายให้เป็น AI ที่สร้างผลลัพธ์ออกมาเป็นคำสั่งให้ทำสิ่งต่าง ๆ (Action) ซึ่งเป็นพื้นฐานของหุ่นยนต์

กูเกิลบอกว่าได้ร่วมมือกับ Apptronik ในการพัฒนาหุ่นยนต์เหมือนมนุษย์ (Humanoid) เพื่อทดสอบการใช้โมเดล AI ของหุ่นยนต์บน Gemini 2.0 นี้

หุ่นยนต์เหล่านี้ทำงานบนหลักการสามอย่าง ได้แก่ สามารถปรับตัวกับสถานการณ์ขณะนั้นได้, ตอบสนองต่อคำสั่งบนสภาพแวดล้อมที่เปลี่ยนไปได้รวดเร็ว และมีความคล่องตัว ทำงานที่มนุษย์สามารถทำได้ผ่านมือและนิ้ว เช่น การถือสิ่งของด้วยความระมัดระวัง

ที่มา: Google DeepMind

No Description

Get latest news from Blognone

Comments

By: zyzzyva
Blackberry
on 13 March 2025 - 08:25 #1335741

ช่วงนี้ deepmind ปล่อยของรัวๆเลย

By: Tasksenger on 13 March 2025 - 11:22 #1335762

มีอะไรน่าสนใจซ่อนอยู่เยอะเลยนะ โดยเฉพาะการเข้าใจโลกเป็นสามมิติ

By: Pinery
ContributoriPhoneAndroidIn Love
on 13 March 2025 - 11:31 #1335764

แล้วประเด็นคือ ทำได้แม้กระทั่งส่วนที่ไม่เคยเทรนมาก่อน เช่น เอาลูกบาสลงห่วง

By: Tasksenger on 13 March 2025 - 12:07 #1335769 Reply to:1335764

ใน Gemini มันเข้าใจพื้นฐานฟิสิกส์อยู่แล้ว หากเราสามารถ identify วัตถุได้เป็นสามมิติ และแปลงให้มันเป็น Owner ของตัวแปรในสมการ มันก็พอจะพยากรณ์จุดตกของลูกบอลได้ครับ ซึ่งผมว่าเขาทำไว้กับวัตถุที่จะทดสอบทุกตัว เพื่อให้เกิดความหลากหลายในการเอาไปใช้งาน โดยใช้ prompt เป็นตัวกำหนดค่าบางอย่างที่ระบบยังไม่รู้ เท่าที่สังเกตุ Gemini มองโลกเป็นวัตถุ และนำไปแทนที่ในตัวแปรได้ แล้วค้นหาสมการด้วยตัวเองเพื่อคำนวณหาคำตอบเองได้ ซึ่งแบบนี้จะทำให้มันต่อยอดในการนำโลกฟิสิกส์ไปรวมกับโลกดิจิทัลในอนาคต

หากคุณเคยเล่นเกมส์ Zelda ภาค TOTK คุณจะรู้ว่าความรู้เรื่องพวกนี้มันทำมาได้นานแล้ว เพียงแต่มันยังอยู่ในโลกดิจิทัลที่เราสามารถรู้ขอบเขตของวัตถุได้ พอเรารู้ขอบเขตวัตถุ และนำมาจับรวมกัน หรือกระทำตามกฎฟิสิกส์ มันก็จะได้ความรู้ใหม่ที่ AI นำไปเรียนรู้เพื่อตอบสนองได้ แต่ของ Deepmind เขาเอาออกมาสู่โลกความเป็นจริงให้เราได้เห็น ซึ่งผมเองสนใจตรงที่เขาสร้าง Algorithm ที่สามารถ identify ขอบเขตวัตถุเป็นสามมิติได้ เนื่องจากโดยพื้นฐานของการประมวลผลภาพมักใช้ OpenCV ซึ่งมองโลกแบบสองมิติ นั่นแสดงถึงว่า Google ได้พัฒนาสมการการสร้างรูปสามมิติ จากภาพสองมิติแบบ Real-time ได้แล้ว มันจะทำให้การประมวลผลเพื่อพยากรณ์ทำได้แม่นยำ และยืดหยุ่นมากขึ้น

จริงๆ แล้วพื้นฐานของ AI สมัยใหม่ ไม่ใช่ทดสอบทุกกรณีแล้วหาคำตอบเก็บไว้ แต่เป็นการให้มันคิด แล้วทดลองในโลกเสมือน จากนั้นให้รางวัลเป็นคะแนนตามผลลัพธ์จาก AI อีกตัวนึงซึ่งรู้คำตอบอยู่แล้ว เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดโดยไม่ต้องทดสอบทุกกรณี ซึ่งมันจะใกล้เคียงกับวิธีคิดของมนุษย์มากกว่า