กูเกิลเปิดตัว Imagen งานวิจัย AI สร้างรูปภาพเสมือนจริงที่ใช้ input เป็นคำบรรยาย แบบเดียวกับ DALL·E ของ OpenAI โดยมีขั้นตอนการทำงานคือแปลงข้อมูล text ออกมาเป็นภาพความละเอียดต่ำ จากนั้นใช้เครื่องมือแปลงให้เป็นภาพที่มีความละเอียดมากขึ้น
จุดเด่นที่กูเกิลระบุว่า Imagen เหนือกว่าเครื่องมือประเภทเดียวกัน คือการพัฒนาเครื่องมือวัดผลที่ชื่อ DrawBench ซึ่งใช้การเทียบข้อมูล text แบบเดียวกัน สร้างรูปภาพจากเครื่องมือหรือโมเดลอื่นมาเปรียบเทียบได้แก่ VQ-GAN+CLIP, Latent Diffusion Models และ DALL-E 2 ซึ่งประเมินคุณภาพของรูปโดยใช้คนตัดสิน พบว่า Imagen มีคะแนนที่ดีกว่า
อย่างไรก็ตามงานวิจัยและเครื่องมือนี้ กูเกิลบอกว่ายังไม่เหมาะสมที่จะเปิดรายละเอียดทั้งหมดต่อสาธารณะ (เช่นเดียวกับ DALL·E) เนื่องจากชุดข้อมูลรูปภาพตั้งต้นที่ใช้ ต้องประมวลผลและตรวจสอบอีกมาก ว่าไม่มีความลำเอียงของข้อมูล หรือประเด็นที่อ่อนไหว
Comments
ตามเข้าใปดูรูปจาก Imagen แล้วรู้สึกขนลุกไงไม่รู้
สิ่งที่คนเรามั่นใจมาตลอดว่าเหนือกว่าเครื่องจักรคือจินตนาการ
แต่มา ณ ตอนนี้มันสั่นคลอนแล้ว
ยังไงผมว่าสำหรับงานศิลปะมันไม่ได้อยู่แค่จินตนาการแต่ขึ้นกับอารมณ์ด้วย
และจินตนาการของ AI ก็ยังมี Pattern อยู่ (แต่จุดนี้อนาคตอาจจะพัฒนาขึ้นก็ได้)
AI พอจะสร้างภาพให้ได้ แต่สำหรับภาพวาด อารมณ์จะทำให้ภาพต่างออกไปในแต่ละครั้งที่วาด
และจินตนาการของมนุษย์ไม่มีแพทเทิร์นที่แน่นอน เช่นถ้าให้วาดรูปตามสั่งเหมือนๆกันวันละรูป
สำหรับมนุษย์อาจจะได้ภาพที่ใกล้เคียงแต่ไม่มีทางเหมือนกันเป๊ะๆแน่
แต่ AI มันอาจจะวนลูปภาพเดิมๆเป๊ะๆกลับมาให้ได้
stock photo เจ๊งแน่ ถ้าสามารถนำไปเปิดใช้ในวงกว้างได้ระดับนั้น
เพจตัวอย่างผลงานถ่ายภาพ / วีดีโอ
เราก็จะ imagen 18+ แบบที่ชอบได้ใช่ไหม
ผมรู้ผมมันบาป แต่ก็คิดแว่บแรกเหมือนท่าน...
แต่ละรูปเค้าใช้ประโยคว่าอะไร ถ้าไม่ดูเฉลย มีงงแน่นอน 555+
นึกถึงถ้าเอาไปสร้างฉากจากนิยายได้ จะเจ๋งมากๆ เลย