Google DeepMind เปิดตัวโมเดลปัญญาประดิษฐ์ที่มีพื้นฐานจาก Gemini 2.0 สำหรับใช้งานกับหุ่นยนต์ผู้ช่วย ได้แก่ Gemini Robotics
และ Gemini Robotics-ER
(Extended Reasoning) ที่เพิ่มความสามารถเชื่อมต่อกับซอฟต์แวร์หุ่นยนต์ที่มี เป้าหมายให้เป็น AI ที่สร้างผลลัพธ์ออกมาเป็นคำสั่งให้ทำสิ่งต่าง ๆ (Action) ซึ่งเป็นพื้นฐานของหุ่นยนต์
กูเกิลบอกว่าได้ร่วมมือกับ Apptronik ในการพัฒนาหุ่นยนต์เหมือนมนุษย์ (Humanoid) เพื่อทดสอบการใช้โมเดล AI ของหุ่นยนต์บน Gemini 2.0 นี้
หุ่นยนต์เหล่านี้ทำงานบนหลักการสามอย่าง ได้แก่ สามารถปรับตัวกับสถานการณ์ขณะนั้นได้, ตอบสนองต่อคำสั่งบนสภาพแวดล้อมที่เปลี่ยนไปได้รวดเร็ว และมีความคล่องตัว ทำงานที่มนุษย์สามารถทำได้ผ่านมือและนิ้ว เช่น การถือสิ่งของด้วยความระมัดระวัง
ที่มา: Google DeepMind
Comments
ช่วงนี้ deepmind ปล่อยของรัวๆเลย
มีอะไรน่าสนใจซ่อนอยู่เยอะเลยนะ โดยเฉพาะการเข้าใจโลกเป็นสามมิติ
แล้วประเด็นคือ ทำได้แม้กระทั่งส่วนที่ไม่เคยเทรนมาก่อน เช่น เอาลูกบาสลงห่วง
ใน Gemini มันเข้าใจพื้นฐานฟิสิกส์อยู่แล้ว หากเราสามารถ identify วัตถุได้เป็นสามมิติ และแปลงให้มันเป็น Owner ของตัวแปรในสมการ มันก็พอจะพยากรณ์จุดตกของลูกบอลได้ครับ ซึ่งผมว่าเขาทำไว้กับวัตถุที่จะทดสอบทุกตัว เพื่อให้เกิดความหลากหลายในการเอาไปใช้งาน โดยใช้ prompt เป็นตัวกำหนดค่าบางอย่างที่ระบบยังไม่รู้ เท่าที่สังเกตุ Gemini มองโลกเป็นวัตถุ และนำไปแทนที่ในตัวแปรได้ แล้วค้นหาสมการด้วยตัวเองเพื่อคำนวณหาคำตอบเองได้ ซึ่งแบบนี้จะทำให้มันต่อยอดในการนำโลกฟิสิกส์ไปรวมกับโลกดิจิทัลในอนาคต
หากคุณเคยเล่นเกมส์ Zelda ภาค TOTK คุณจะรู้ว่าความรู้เรื่องพวกนี้มันทำมาได้นานแล้ว เพียงแต่มันยังอยู่ในโลกดิจิทัลที่เราสามารถรู้ขอบเขตของวัตถุได้ พอเรารู้ขอบเขตวัตถุ และนำมาจับรวมกัน หรือกระทำตามกฎฟิสิกส์ มันก็จะได้ความรู้ใหม่ที่ AI นำไปเรียนรู้เพื่อตอบสนองได้ แต่ของ Deepmind เขาเอาออกมาสู่โลกความเป็นจริงให้เราได้เห็น ซึ่งผมเองสนใจตรงที่เขาสร้าง Algorithm ที่สามารถ identify ขอบเขตวัตถุเป็นสามมิติได้ เนื่องจากโดยพื้นฐานของการประมวลผลภาพมักใช้ OpenCV ซึ่งมองโลกแบบสองมิติ นั่นแสดงถึงว่า Google ได้พัฒนาสมการการสร้างรูปสามมิติ จากภาพสองมิติแบบ Real-time ได้แล้ว มันจะทำให้การประมวลผลเพื่อพยากรณ์ทำได้แม่นยำ และยืดหยุ่นมากขึ้น
จริงๆ แล้วพื้นฐานของ AI สมัยใหม่ ไม่ใช่ทดสอบทุกกรณีแล้วหาคำตอบเก็บไว้ แต่เป็นการให้มันคิด แล้วทดลองในโลกเสมือน จากนั้นให้รางวัลเป็นคะแนนตามผลลัพธ์จาก AI อีกตัวนึงซึ่งรู้คำตอบอยู่แล้ว เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดโดยไม่ต้องทดสอบทุกกรณี ซึ่งมันจะใกล้เคียงกับวิธีคิดของมนุษย์มากกว่า