Tags:
Node Thumbnail

หน่วยงานวิจัย Intelligent Computing ของ Alibaba เผยแพร่เทคโนโลยีโมเดล AI สร้างวิดีโอขึ้นจากรูปภาพและเสียง (image-audio-video) ซึ่งเรียกชื่อโมเดลนี้ว่า EMO

EMO ต้องการอินพุทเพียง รูปภาพพอร์ตเทรตบุคคล กับไฟล์เสียง ก็สามารถสร้างวิดีโอที่เป็นบุคคลนั้นพูดหรือร้องเพลงตามไฟล์เสียงได้ ความยาวสูงสุด 1 นาที 30 วินาที จุดเด่นของ EMO คือการแสดงออกจากสีหน้าของบุคคลก็เป็นไปตามเสียงที่ออกมาด้วย ไม่ใช่แค่การขยับปากเท่านั้น

ตัวอย่างที่นำเสนอ EMO สามารถสร้างวิดีโอให้รูปภาพร้องเพลงได้, ปรับได้ตามภาษาของเพลง, มีการขยับตามจังหวะเพลงที่รวดเร็ว ตัวอย่างหนึ่งที่นำเสนอดูเป็นการข้ามโซนสักหน่อย เพราะใช้ภาพนิ่งจากคลิปผู้หญิงญี่ปุ่นเดินบนถนนที่สร้างจาก Sora โมเดลสร้างวิดีโอของ OpenAI นั่นเอง

รายละเอียดของ EMO สามารถดูเพิ่มเติมได้ที่ GitHub และชมคลิปตัวอย่างได้ท้ายข่าว

ที่มา: Pandaily

No Description

Get latest news from Blognone

Comments

By: lawson on 1 March 2024 - 08:56 #1306780

คนวงการทำหนังจะตกงานใหม

By: tekkasit
ContributorAndroidWindowsIn Love
on 1 March 2024 - 09:25 #1306784
tekkasit's picture

นับจาก DELL-E ตัวแรกในสามปี บริการ Text-to-image ก็แทบจะแทน stock photos ในกรณีส่วนมากได้

นี่เจออันนี้ นึกไม่ออกเลยว่าอีกสามปีต่อจากนี้จะเป็นไง

By: Perl
ContributoriPhoneUbuntu
on 1 March 2024 - 09:35 #1306785
Perl's picture

ขอโมนาลีซ่าร้อง eminem ด้วยครับ

By: raindrop
ContributoriPhoneWindows PhoneWindows
on 1 March 2024 - 10:59 #1306791 Reply to:1306785

ตอนแรกคิดว่าร้องไม่ได้ พอเข้าไปดู มีคลิปนึงร้อง rap god งงเบยย