Google เผยแพร่วิดีโอความสามารถ Gemini โต้ตอบกับข้อมูลแบบผสมผสาน แต่ยอมรับใช้การตัดต่อช่วย

By: arjin

on 8 December 2023 - 22:11 Tags:

Topics:

Gemini

Google

LLM

Artificial Intelligence

กูเกิลเปิดตัวปัญญาประดิษฐ์ LLM ตัวใหม่ Gemini 1.0 อย่างเป็นทางการเมื่อวันก่อน ที่กูเกิลบอกว่าผลทดสอบความสามารถสูงเหนือกว่าคู่แข่ง และออกคลิปวิดิโอนำเสนอความสามารถ Gemini ในหลากหลายด้านออกมาด้วย

มีคลิปวิดีโอหนึ่งที่ดูจะเป็นประเด็นมากกว่าตัวอื่น มีชื่อว่า Hands-on with Gemini: Interacting with multimodal AI โดยวิดีโอนี้สาธิตการโต้ตอบของ Gemini ผ่านการให้ข้อมูลในรูปแบบต่าง ๆ เพื่อแสดงว่า Gemini เป็นโมเดล AI ที่ทำงานกับข้อมูลแบบผสมผสาน (multimodal) ได้อย่างดี

ตัวอย่างการนำเสนอช่วงต้น Gemini สามารถทายภาพวาดเส้นที่เติมมาเรื่อย ๆ ได้ ว่าเป็นภาพเป็ด แถมยังสามารถดูเป็ดยางของเล่น บอกวัสดุ ให้รายละเอียดว่าลอยน้ำได้ และความสามารถอื่นอีกมากมาย ดูได้จากคลิปด้านล่างนี้

อย่างไรก็ตาม แม้คลิปจะนำเสนอความสามารถ Gemini ได้อย่างน่าประทับใจ แต่กูเกิลก็ระบุข้อมูลกำกับในรายละเอียดวิดีโอไว้แล้วว่าคลิปนี้ มีการเร่งความเร็ว และการตอบโต้ของ Gemini ก็มีการตัดต่อให้กระชับ ซึ่งอาจทำให้หลายคนสงสัยว่า แล้วจริง ๆ Gemini ทำงานได้ดีแค่ไหนกันแน่?

กูเกิลเองก็อธิบายเบื้องหลังของคลิปนี้ ว่าการโต้ตอบทั้งหมดจาก Gemini นั้นเป็นของจริง แต่อินพุทที่ใช้เป็นภาพนิ่ง ซึ่งตัดออกมาจากฟุตเทจต้นฉบับ ร่วมกับข้อความตัวหนังสือที่ป้อนผ่าน Prompt

เมื่อถูกตั้งคำถามมากขึ้นว่าวิดีโอนี้ ควรเรียกว่าการนำเสนอความสามารถ Gemini ของจริงแค่ไหน Oriol Vinyals รองประธานฝ่ายวิจัยของ DeepMind ที่เป็นผู้พัฒนา Gemini เลยชี้แจงเพิ่มเติมผ่าน X ว่าเจตนาของวิดีโอนี้ เพื่อสาธิตให้เห็นภาพว่าการทำงานของ Gemini ที่เป็นโมเดลรองรับข้อมูลสื่อผสมผสาน จะให้ประสบการณ์กับผู้ใช้งานออกมาอย่างไร และหวังว่าจะสร้างแรงบันดาลใจกับนักพัฒนา ในการสร้างสรรค์เครื่องมือใหม่ ๆ ออกมานั่นเอง

ที่มา: TechCrunch