Alibaba Cloud เปิดตัวชุดโมเดลปัญญาประดิษฐ์สร้างวิดีโอ Wan 2.1 สำหรับการสร้างวิดีโอในรูปแบบต่างๆ ได้แก่ ข้อความเป็นวิดีโอ, ภาพเป็นวิดีโอ, แก้ไขวิดีโอเดิม, ข้อความเป็นภาพ, และสร้างเสียงจากวิดีโอ
โมเดลรุ่นเล็กสุดของกลุ่มนี้คือ T2V-1.3B สามารถรันในการ์ด NVIDIA 4090 และยังได้ความละเอียดวิดีโอถึง 720P แต่โมเดลรุ่นหลักนั้นมีขนาด 14B ที่ต้องใช้การ์ดขนาดใหญ่ เช่น H100/H800 หรือหลายการ์ดทำงานร่วมกัน
ทีมงานใช้ผู้ประเมินเทียบวิดีโอกับปัญญาประดิษฐ์คู่แข่ง โดยไม่ได้เปิดเผยว่าเทียบกับใครบ้าง แต่พบว่าเอาชนะได้ 3 ใน 4 โมเดลที่นำมาเทียบ ความเด่นของ Wan คือ วิดีโอมีความต่อเนื่อง, ความเคลื่อนไหวถูกหลักฟิสิกส์ คะแนนทดสอบรวมเหนือกว่า Sora ของ OpenAI
สามารถดาวน์โหลดโมเดลทั้งหมดได้จาก HuggingFace หรือดูวิดีโอที่สร้างจาก Wan ได้ใน VividHubs
ที่มา - HuggingFace:Wan