Meta เปิดตัว V-JEPA โมเดล AI เรียนรู้ด้วยตนเองจากการดูข้อมูลวิดีโอ

By: arjin

on 16 February 2024 - 22:01 Tags:

Topics:

Meta

Artificial Intelligence

LLM

อาจเรียกได้ว่าเป็นวันของการปล่อยของด้าน AI นอกจาก Gemini 1.5 Pro จากกูเกิล และ Sora จาก OpenAI แล้ว Meta ก็เปิดตัว V-JEPA สถาปัตยกรรมตัวใหม่ของระบบการเรียนรู้ตนเอง สำหรับการพัฒนา AI ขั้นสูง

โดย V-JEPA ซึ่งย่อมาจากคำว่า Video Joint Embedding Predictive Architecture พัฒนาโดยทีม AI ของ Meta ที่นำโดย Yann LeCun ต้องการสร้างโมเดลเรียนรู้ของ AI ขั้นสูง เพื่อให้รองรับการทำความเข้าใจทุกอย่างในโลกได้ดียิ่งขึ้น โดยมีหลักคิดว่ามนุษย์เราเริ่มเรียนรู้สิ่งใหม่จากการดูและสังเกต โดยไม่จำเป็นต้องอ่านหนังสือจำนวนมากเพื่อจะเข้าใจทุกเรื่อง V-JEPA จึงออกแบบมาให้เรียนรู้และเข้าใจโลกในวิธีเดียวกับที่คนเรียนรู้ ประยุกต์ และคิดต่อยอด ในการแก้ปัญหาต่าง ๆ

V-JEPA ใช้การเรียนรู้จากคลิปวิดีโอต่าง ๆ แล้วรู้จำ context โดยรวมในนั้น แล้วทำมาทดสอบกับวิดีโอที่ถูกปิดบางส่วน ซึ่ง V-JEPA สามารถเติมส่วนที่ขาดหายไปได้จากการเรียนรู้ ซึ่ง Meta อธิบายว่าโมเดลนี้ทำให้ไม่ต้องจดจำทุกรายละเอียด (ตัวอย่างที่ยกมาคือ รู้ว่าเป็นต้นไม้ก็พอ ไม่ต้องจำรายละเอียดใบไม้ทุกใบ) เพราะสิ่งที่ต้องการคือการเติมข้อมูลจากภาพรวมเท่านั้น โมเดลจึงใช้ข้อมูลตั้งต้นน้อยกว่า

สถานะของ V-JEPA ยังเป็นโมเดลงานวิจัย ที่ต้องการแอพพลิเคชันที่นำไปต่อยอดการใช้งานด้านต่าง ๆ ผู้สนใจสามารถดาวน์โหลดเพื่อวิจัยพัฒนาต่อได้ที่ GitHub

ที่มา: Meta

No Description

Hiring! บริษัทที่น่าสนใจ

Siam Commercial Bank Public Company Limited

"Let's start a brighter career future together"

Next Innovation (Thailand) Co., Ltd.

We are web design with consulting & engineering services driven the future stronger and flexibility.

CDG GROUP

Provider of IT solutions to public, state, and private sectors in Thailand for over 56 years

Comments

By: Tasksenger on 17 February 2024 - 01:41 #1305974

สงสัยอยู่อย่างนึงวิธีที่เขาใช้ ใช้วิธีนำเข้าไฟล์ VDO เข้ามาเพื่อแยกเป็นภาพตามเฟรมแล้ววิเคราะห์ หรือใช้วิธีตั้งกล้องหน้าจอที่ฉาย VDO แล้วประมวลผลตามเวลาจริง เพราะถ้าเป็นวิธีที่สองต้องบอกเลยว่าโครตเทพ เพราะถ้าทำได้ระดับประมวลผลจาก VDO ตามเวลาจริงได้เนี่ยมันเข้าใกล้สิ่งที่คาดกันเอาไว้แล้ว

อาจสงสัยว่าแล้ววิธีแรกมันยากน้อยกว่าตรงไหน หากเราแตกเฟรมได้มันมีสมการที่หาได้ว่ามีเฟรมไหนบ้างที่เปลี่ยนไป ทำให้ข้ามเฟรมเพื่อลดพลังงานประมวลผลได้ แต่วิธีนี้มันพื้นๆ มากเลยยังไม่ใกล้เคียงสิ่งที่ Robot ต้องใช้งานจริง แต่ถ้าเป็นวิธีใช้กล้องจับภาพวีดีโอแล้ววิเคราะร์ตามเวลาจริงมันมีความยุ่งยากในการตีความสิ่งที่เห็นให้เป็น Entity เพื่อใช้เป็นตัวตั้งต้นในการสร้าง Knowledge มากกว่าเยอะ โดยเฉพาะเรื่องความสัมพันธ์ระหว่าง Entity ที่อาจต้องใช้ Knowledge ภายนอกในการช่วยตีความ

Main menu