ทีมวิจัยปัญญาประดิษฐ์ของแอปเปิล เผยแพร่งานวิจัย Depth Pro โมเดล AI ที่สามารถสร้างแผนที่ความลึกของรูปภาพแบบสามมิติ จากอินพุทที่เป็นรูปภาพสองมิติได้ในเวลาไม่ถึงหนึ่งวินาที โดยไม่ต้องอาศัยข้อมูลเพิ่มเติมของกล้องที่บันทึกภาพ
โมเดล Depth Pro ทำงานโดยอาศัยการคาดเดาความลึกของภาพ ผ่านการเทรนด้วยชุดข้อมูลที่เป็นภาพความละเอียดสูง ทำให้สามารถแยกแยะขอบแต่ละวัตถุ ออกมาเป็นการให้ระดับความลึกแต่ละตำแหน่งได้เลยจากภาพ
จุดเด่นของ Depth Pro คือความเร็ว โดยสามารถสร้างแผนที่สามมิติของภาพความละเอียดสูงขนาด 2.25 เมกะพิกเซล ได้ในเวลา 0.3 วินาที ใช้จีพียูมาตรฐาน 1 ตัวเท่านั้น โมเดลนี้จึงสามารถนำไปประยุกต์ใช้กับงานที่ต้องการประเมินความลึกของภาพ เช่น AR หรือแม้แต่รถยนต์ไร้คนขับ
สามารถดูรายละเอียดเพิ่มเติมของงานวิจัยนี้ได้ที่ GitHub
ที่มา: VentureBeat
Comments
นึกถึงการทำ animation สมัยก่อน ก่อนที่จะมี png แบบ transparent เลย ที่ต้องทำภาพขอบดำ เพื่อแยกพื้นหลังกับตัวแบบออกจากกัน น่าจะใช้หลักการเดียวกันในการสร้างภาพ 3d แบบลอยตัวจากภาพ 2d เพราะมันจะทำให้แยกตัวแบบกับพื้นหลังได้ จากนั้นก็เล่นอะไรได้อีกเยอะ ไม่ว่าจะเป็นเบลอพื้นหลัง ปั้น model แล้วเอาเฉพาะตัวแบบ มาเป็น texture เพื่อสร้าง model 3 มิติจากภาพ 2d ฯลฯ เพราะภาพสมัยใหม่มันมีระดับความลึกด้วย ซึ่งสามารถเอามาปั้นเป็น polygon แบบคร่าวๆ ก่อนแปะ texture ได้
คล้ายๆ ControlNet Depth ที่ใช้ๆ กันอยู่ในกลุ่มผู้ใช้ stable diffusion ไหมครับ
WE ARE THE 99%
ถ้าทำได้ดี จะมีประโยชน์ต่อ FSD มาก