Microsoft เผยแพร่งานวิจัย VASA-1 โมเดล AI สร้างวิดีโอคนพูดแบบเรียลไทม์ ด้วยอินพุท 1 รูปภาพและไฟล์เสียง

By: arjin

on 19 April 2024 - 08:20 Tags:

Topics:

Microsoft Research

Microsoft

Artificial Intelligence

Video

Microsoft Research เผยแพร่งานวิจัย VASA-1 โมเดลสำหรับสร้างวิดีโอใบหน้าที่กำลังพูดข้อความที่กำหนด ซึ่งมีการขยับอย่างเป็นธรรมชาติ โดยใช้อินพุทเพียง รูปภาพใบหน้า 1 รูป และไฟล์เสียง เท่านั้น จุดเด่นของโมเดลนี้คือการทำงานได้แบบเรียลไทม์ ใบหน้าสามารถปรับตามได้ด้วยความหน่วง latency ที่ต่ำมาก

โมเดล VASA-1 สามารถสร้างวิดีโอความละเอียด 512x512 45fps ได้หากรันออฟไลน์แบบ batch ส่วนแบบออนไลน์สตรีมมิ่งได้สูงสุดที่ 40fps

VASA-1 ยังรองรับการใส่อินพุทเพิ่มเติมคือสัญญาณลักษณะที่ต้องการ เช่น ตำแหน่งดวงตา, การขยับใบหน้า, การแสดงออกอารมณ์ ในงานวิจัยยังทดสอบยังใช้ VASA กับรูปภาพวาดเช่น Mona Lisa ให้พูดในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ซึ่งทั้งหมดไม่มีในชุดข้อมูลเทรน ก็ได้ผลลัพธ์ออกมาดีเช่นกัน

อ่านถึงตรงนี้ก็คงเพิ่มความกังวลกันขึ้นไปอีก จากก่อนหน้านี้มี AI สร้างเสียงเลียนแบบจาก OpenAI คราวนี้มาเป็นคลิปใบหน้าแถมทำงานได้เรียลไทม์ ไมโครซอฟท์จึงให้ข้อมูลเพิ่มเติมว่า ปัจจุบันคลิปที่สร้างออกมาด้วย VASA นั้น ยังมีจุดสังเกตได้ว่าเป็นวิดีโอ AI แตกต่างจากวิดีโอของจริง อย่างไรก็ตามเมื่อประเมินจากความเสี่ยงของการนำไปใช้ในทางที่ไม่เหมาะสมแล้ว ไมโครซอฟท์จึงไม่มีแผนในการนำเสนอทั้งเดโม่, เผยแพร่ API หรือข้อมูลอื่นเพิ่มเติมของเทคโนโลยีนี้ จนกว่าจะมีแนวทางควบคุมการใช้งานอย่างเหมาะสม ซึ่งรวมทั้งกฎหมายกำกับดูแลด้วย

ที่มา: Microsoft Research

No Description

Hiring! บริษัทที่น่าสนใจ

Iron Software

Iron Software is an American company providing a suite of .NET libraries by engineer for engineers.

Wisesight (Thailand) Co., Ltd.

The Best Choice For Handling Social Media · High Expertise in Social Data · Most Advanced and Secure

Seven Peaks

We Drive Digital Transformation

Comments

By: Tasksenger on 19 April 2024 - 08:33 #1310001

Copilot เวอร์ชั่นถัดไป 555 ก็น่าสนุกดีจาก chat ธรรมดา ให้มีรูปร่าง avatar ก่อนจะเข้าสู่ยุคหุ่นยนต์จริงจัง จริงๆ ก็ไม่น่าจะทำยาก น่าจะเป็น model 3D เป็น base แล้ววางโครงของ keyframe animation การเคลื่อนไหวของใบหน้าที่จับมาจากต้นแบบว่าการออกออกเสียงคำประมาณนี้จะขยับหน้าอย่างไร แล้วปะ mask จากรูปภาพลงโครงโมเดล อาจมองว่าไร้สาระ แต่จริงๆ มันเอาใช้เชิงธุรกิจได้เยอะนะ เช่น พวกงาน Call center, งานขายสินค้า, งานพิธีกร ผู้ประกาศข่าว ฯลฯ ถ้าทำถึงมันก็ใช้ได้เกือบหมด เพียงแต่ตอนนี้ก็ยังอยู่ได้แค่ในหน้าจอ ออกมายืน สัมผัสกับผู้ใช้เหมือนหุ่นยนต์ไม่ได้ (จริงแล้ว Microsoft ก็มีแบบนี้ใช้งานอยู่ภายในอยู่แล้ว แต่ไม่ได้เผยแพร่ออกมาภายนอกแค่นั้นเอง หน้าตาจะย้อนยุคไปเยอะเหมือนกัน เนื่องจากใช้งานมานานแล้ว ตัวนี้น่าจะเป็นตัวที่จะมาแทนที่ แต่ก็คงใช้งานภายในเหมือนเดิม)

จุดจับว่าเป็น AI หรือเปล่าก็ดวงตานั่นแหล่ะเพราะมนุษย์จริงมันจะมีการกรอกไปมาของดวงตา แต่ AI มันจะจ้องไปที่กล้องเป็นจุดเดียว เนื่องจากข้อจำกัดในการจับภาพการเคลื่อนไหวของกล้ามเนื้อใบหน้า แต่แก้ไม่ยากหรอก โลกของเลขสุ่มแบบมีขอบเขตช่วยคุณได้

By: TheOne

on 19 April 2024 - 18:01 #1310054

อย่างโหดเลย ยอมรับว่าแยกไม่ออกเลย เนียนมาก

By: tisana

on 19 April 2024 - 18:02 #1310055

ถ้าไม่มีประโยคสุดท้ายนี่คือแก๊งคอลเซ็นเตอร์ลูบปากรอซื้ิอแล้ว

By: Whisper

on 20 April 2024 - 12:20 #1310102 Reply to:1310055

มันก็ต้องมีซักทางแหล่ะ ในอนาคต อาจจะไม่ใช่ VASA-1 แต่นี่เป็นการ prove of concept ว่าทำได้แน่ๆ
ต่อไปถ้าคุยเรื่องสำคัญ เราอาจจะต้องมา verify คนคุยด้วย ด้วยเรื่องที่รู้กันสองคนในโลกจริง และใช้ได้แค่ครั้งเดียวเท่านั้น ต้องเปลี่ยนเรื่องไปเรื่อยๆ

🥲ชีวิต….

By: hisoft

on 20 April 2024 - 18:37 #1310120 Reply to:1310102

รอส่งข้อมูลผ่านเมล/แชท พร้อมลงลายเซ็นดิจิตอลในเอกสาร 🥲

Main menu