อาจเรียกได้ว่าเป็นวันของการปล่อยของด้าน AI นอกจาก Gemini 1.5 Pro จากกูเกิล และ Sora จาก OpenAI แล้ว Meta ก็เปิดตัว V-JEPA สถาปัตยกรรมตัวใหม่ของระบบการเรียนรู้ตนเอง สำหรับการพัฒนา AI ขั้นสูง
โดย V-JEPA ซึ่งย่อมาจากคำว่า Video Joint Embedding Predictive Architecture พัฒนาโดยทีม AI ของ Meta ที่นำโดย Yann LeCun ต้องการสร้างโมเดลเรียนรู้ของ AI ขั้นสูง เพื่อให้รองรับการทำความเข้าใจทุกอย่างในโลกได้ดียิ่งขึ้น โดยมีหลักคิดว่ามนุษย์เราเริ่มเรียนรู้สิ่งใหม่จากการดูและสังเกต โดยไม่จำเป็นต้องอ่านหนังสือจำนวนมากเพื่อจะเข้าใจทุกเรื่อง V-JEPA จึงออกแบบมาให้เรียนรู้และเข้าใจโลกในวิธีเดียวกับที่คนเรียนรู้ ประยุกต์ และคิดต่อยอด ในการแก้ปัญหาต่าง ๆ
V-JEPA ใช้การเรียนรู้จากคลิปวิดีโอต่าง ๆ แล้วรู้จำ context โดยรวมในนั้น แล้วทำมาทดสอบกับวิดีโอที่ถูกปิดบางส่วน ซึ่ง V-JEPA สามารถเติมส่วนที่ขาดหายไปได้จากการเรียนรู้ ซึ่ง Meta อธิบายว่าโมเดลนี้ทำให้ไม่ต้องจดจำทุกรายละเอียด (ตัวอย่างที่ยกมาคือ รู้ว่าเป็นต้นไม้ก็พอ ไม่ต้องจำรายละเอียดใบไม้ทุกใบ) เพราะสิ่งที่ต้องการคือการเติมข้อมูลจากภาพรวมเท่านั้น โมเดลจึงใช้ข้อมูลตั้งต้นน้อยกว่า
สถานะของ V-JEPA ยังเป็นโมเดลงานวิจัย ที่ต้องการแอพพลิเคชันที่นำไปต่อยอดการใช้งานด้านต่าง ๆ ผู้สนใจสามารถดาวน์โหลดเพื่อวิจัยพัฒนาต่อได้ที่ GitHub
ที่มา: Meta
Comments
สงสัยอยู่อย่างนึงวิธีที่เขาใช้ ใช้วิธีนำเข้าไฟล์ VDO เข้ามาเพื่อแยกเป็นภาพตามเฟรมแล้ววิเคราะห์ หรือใช้วิธีตั้งกล้องหน้าจอที่ฉาย VDO แล้วประมวลผลตามเวลาจริง เพราะถ้าเป็นวิธีที่สองต้องบอกเลยว่าโครตเทพ เพราะถ้าทำได้ระดับประมวลผลจาก VDO ตามเวลาจริงได้เนี่ยมันเข้าใกล้สิ่งที่คาดกันเอาไว้แล้ว
อาจสงสัยว่าแล้ววิธีแรกมันยากน้อยกว่าตรงไหน หากเราแตกเฟรมได้มันมีสมการที่หาได้ว่ามีเฟรมไหนบ้างที่เปลี่ยนไป ทำให้ข้ามเฟรมเพื่อลดพลังงานประมวลผลได้ แต่วิธีนี้มันพื้นๆ มากเลยยังไม่ใกล้เคียงสิ่งที่ Robot ต้องใช้งานจริง แต่ถ้าเป็นวิธีใช้กล้องจับภาพวีดีโอแล้ววิเคราะร์ตามเวลาจริงมันมีความยุ่งยากในการตีความสิ่งที่เห็นให้เป็น Entity เพื่อใช้เป็นตัวตั้งต้นในการสร้าง Knowledge มากกว่าเยอะ โดยเฉพาะเรื่องความสัมพันธ์ระหว่าง Entity ที่อาจต้องใช้ Knowledge ภายนอกในการช่วยตีความ