กูเกิลเปิดตัวโครงการ Imagen Video ระบบ AI สำหรับสร้างคลิปวิดีโอตามคำบรรยาย Text แนวเดียวกับ Make-A-Video ของ Meta ที่เปิดตัวเมื่อสัปดาห์ก่อน
Imagen Video พัฒนาต่อยอดจากโครงการ Imagen ที่เป็น AI สร้างรูปภาพตามคำบรรยายของกูเกิลเอง ขั้นตอนการทำงานคือถอดข้อความออกมา และสร้างวิดีโอร่างแรกขึ้นจากภาพจำนวน 16 เฟรม, 3 เฟรมต่อวินาที ความละเอียดต่ำ จากนั้นเริ่มอัพสเกลและปรับแต่งภาพให้ละเอียดขึ้น ผลลัพธ์สุดท้ายจะเป็นวิดีโอ 128 เฟรมที่ 24 เฟรมต่อวินาที ความละเอียด 720p
ชุดข้อมูลที่ใช้เทรนมาจาก วิดีโอที่จับคู่คำอธิบาย 14 ล้านคลิป, รูปภาพที่จับคู่คำอธิบาย 60 ล้านรูป และชุดข้อมูลสาธารณะ LAION-400M
กูเกิลบอกว่าโครงการนี้เป็นการนำเสนอความคืบหน้าเท่านั้น ยังไม่มีแผนเปิดให้คนทั่วไปใช้งาน รวมถึงยังไม่เปิดเผยซอร์สโค้ด จนกว่าจะตรวจสอบข้อกังวลในประเด็นต่าง ๆ ให้ครบทุกด้าน
สามารถดูตัวอย่างวิดีโอได้จากที่มา
ที่มา: Google Research ผ่าน TechCrunch
Comments
ลองไปดูในเว็บต้นทาง ภาพจำพวกที่ไม่มีรูปร่างตรงตัวชัดเจนอย่างน้ำ หิมะ ภูเขา หรือก้อนหินนี่ ดูเผิน ๆ คือไม่รู้เลย
เอาแค่ตัว imagen ที่แค่ generate ภาพนิ่งออกมาได้แบบที่เห็นกันนั่นก็ว้าวมากแล้ว ดูจากภาพตัวอย่างคือ "ดี" กว่าเจ้าอื่นพอควรเลย