Stability.AI รายงานผลทดสอบ Stable Diffusion 3 (SD3) ปัญญาประดิษฐ์วาดภาพที่เปิดตัวไปก่อนหน้านี้ โดยรอบนี้เปิดเผยสถาปัตยกรรมภายในเพิ่มเติมพร้อมกับรายงานผลทดสอบเทียบกับโมเดลอื่นๆ ในท้องตลาด
ผลทดสอบโดยอาศัยมนุษย์เป็นกรรมการตัดสินในสามหัวข้อ ได้แก่ ความสวยงาม, การทำตามคำสั่ง, และตัวอักษรในภาพ พบว่า SD3 ชนะโมเดลอื่นๆ แทบทั้งหมด ยกเว้นกรณีเดียวคือการเทียบความสวยงามกับโมเดล Ideogram 1.0
สถาปัตยกรรมหลักของ SD3 คือ Diffusion Transformer (DiT) ที่ปรับปรุงเป็นแบบ multimodal แยกส่วนระหว่างข้อความและภาพออกจากกันแต่ใช้ส่วน attention ร่วมกันเรียกว่า modified multimodal diffusion transformer (MMDiT) สถาปัตยกรรมนี้ทำให้ตัวโมเดลอ่านข้อความในภาพได้ และภาพสุดท้ายมีข้อความตามคำสั่ง ทาง Stability.AI ยังระบุว่าสามารถพัฒนาให้รองรับการสร้างวิดีโอได้ในอนาคต
SD3 มี text-encoder ภายใน 3 ตัว ได้แก่ CLIP-G/14, CLIP-L/14, และ T5 XXL โดยตัว T5 อย่างเดียวใช้พารามิเตอร์มากถึง 4.7 พันล้านพารามิเตอร์ สามารถเลือกถอดออกได้โดยกระทบกับความสวยงามเล็กน้อย แต่จะกระทบกับการวาดข้อความมากเป็นพิเศษ
ตอนนี้ผู้สนใจ SD3 ยังต้องเข้าคิวรอใช้งาน
ที่มา - Stability.AI