Microsoft Research เผยแพร่งานวิจัย VASA-1 โมเดลสำหรับสร้างวิดีโอใบหน้าที่กำลังพูดข้อความที่กำหนด ซึ่งมีการขยับอย่างเป็นธรรมชาติ โดยใช้อินพุทเพียง รูปภาพใบหน้า 1 รูป และไฟล์เสียง เท่านั้น จุดเด่นของโมเดลนี้คือการทำงานได้แบบเรียลไทม์ ใบหน้าสามารถปรับตามได้ด้วยความหน่วง latency ที่ต่ำมาก
โมเดล VASA-1 สามารถสร้างวิดีโอความละเอียด 512x512 45fps ได้หากรันออฟไลน์แบบ batch ส่วนแบบออนไลน์สตรีมมิ่งได้สูงสุดที่ 40fps
VASA-1 ยังรองรับการใส่อินพุทเพิ่มเติมคือสัญญาณลักษณะที่ต้องการ เช่น ตำแหน่งดวงตา, การขยับใบหน้า, การแสดงออกอารมณ์ ในงานวิจัยยังทดสอบยังใช้ VASA กับรูปภาพวาดเช่น Mona Lisa ให้พูดในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ซึ่งทั้งหมดไม่มีในชุดข้อมูลเทรน ก็ได้ผลลัพธ์ออกมาดีเช่นกัน
อ่านถึงตรงนี้ก็คงเพิ่มความกังวลกันขึ้นไปอีก จากก่อนหน้านี้มี AI สร้างเสียงเลียนแบบจาก OpenAI คราวนี้มาเป็นคลิปใบหน้าแถมทำงานได้เรียลไทม์ ไมโครซอฟท์จึงให้ข้อมูลเพิ่มเติมว่า ปัจจุบันคลิปที่สร้างออกมาด้วย VASA นั้น ยังมีจุดสังเกตได้ว่าเป็นวิดีโอ AI แตกต่างจากวิดีโอของจริง อย่างไรก็ตามเมื่อประเมินจากความเสี่ยงของการนำไปใช้ในทางที่ไม่เหมาะสมแล้ว ไมโครซอฟท์จึงไม่มีแผนในการนำเสนอทั้งเดโม่, เผยแพร่ API หรือข้อมูลอื่นเพิ่มเติมของเทคโนโลยีนี้ จนกว่าจะมีแนวทางควบคุมการใช้งานอย่างเหมาะสม ซึ่งรวมทั้งกฎหมายกำกับดูแลด้วย
ที่มา: Microsoft Research
Comments
Copilot เวอร์ชั่นถัดไป 555 ก็น่าสนุกดีจาก chat ธรรมดา ให้มีรูปร่าง avatar ก่อนจะเข้าสู่ยุคหุ่นยนต์จริงจัง จริงๆ ก็ไม่น่าจะทำยาก น่าจะเป็น model 3D เป็น base แล้ววางโครงของ keyframe animation การเคลื่อนไหวของใบหน้าที่จับมาจากต้นแบบว่าการออกออกเสียงคำประมาณนี้จะขยับหน้าอย่างไร แล้วปะ mask จากรูปภาพลงโครงโมเดล อาจมองว่าไร้สาระ แต่จริงๆ มันเอาใช้เชิงธุรกิจได้เยอะนะ เช่น พวกงาน Call center, งานขายสินค้า, งานพิธีกร ผู้ประกาศข่าว ฯลฯ ถ้าทำถึงมันก็ใช้ได้เกือบหมด เพียงแต่ตอนนี้ก็ยังอยู่ได้แค่ในหน้าจอ ออกมายืน สัมผัสกับผู้ใช้เหมือนหุ่นยนต์ไม่ได้ (จริงแล้ว Microsoft ก็มีแบบนี้ใช้งานอยู่ภายในอยู่แล้ว แต่ไม่ได้เผยแพร่ออกมาภายนอกแค่นั้นเอง หน้าตาจะย้อนยุคไปเยอะเหมือนกัน เนื่องจากใช้งานมานานแล้ว ตัวนี้น่าจะเป็นตัวที่จะมาแทนที่ แต่ก็คงใช้งานภายในเหมือนเดิม)
จุดจับว่าเป็น AI หรือเปล่าก็ดวงตานั่นแหล่ะเพราะมนุษย์จริงมันจะมีการกรอกไปมาของดวงตา แต่ AI มันจะจ้องไปที่กล้องเป็นจุดเดียว เนื่องจากข้อจำกัดในการจับภาพการเคลื่อนไหวของกล้ามเนื้อใบหน้า แต่แก้ไม่ยากหรอก โลกของเลขสุ่มแบบมีขอบเขตช่วยคุณได้
อย่างโหดเลย ยอมรับว่าแยกไม่ออกเลย เนียนมาก
ถ้าไม่มีประโยคสุดท้ายนี่คือแก๊งคอลเซ็นเตอร์ลูบปากรอซื้ิอแล้ว
มันก็ต้องมีซักทางแหล่ะ ในอนาคต อาจจะไม่ใช่ VASA-1 แต่นี่เป็นการ prove of concept ว่าทำได้แน่ๆ
ต่อไปถ้าคุยเรื่องสำคัญ เราอาจจะต้องมา verify คนคุยด้วย ด้วยเรื่องที่รู้กันสองคนในโลกจริง และใช้ได้แค่ครั้งเดียวเท่านั้น ต้องเปลี่ยนเรื่องไปเรื่อยๆ
🥲ชีวิต….
รอส่งข้อมูลผ่านเมล/แชท พร้อมลงลายเซ็นดิจิตอลในเอกสาร 🥲