Google Ads อนุญาตให้ผู้ลงโฆษณาสามารถ "สร้างภาพบุคคลด้วย AI" เพื่อประกอบแบนเนอร์โฆษณาได้แล้ว
ระบบ AI ที่ใช้สร้างภาพบุคคลจากโมเดล Imagen 3 ที่เคยมีปัญหาเรื่องการสร้างภาพบุคคล แต่กูเกิลไปซ่อมกลับมา และเริ่มให้บริการสร้างภาพบุคคลในแอพตัวอื่นๆ เช่น Google Workspace แล้ว
กูเกิลประกาศว่าลูกค้า Google Workspace ทั้งหมดสามารถใช้งาน AI สร้างรูปภาพ Imagen 3 สำหรับการสร้างรูปบุคคลได้แล้ว โดยสามารถใช้งานได้ผ่านทั้งแอป Gemini รวมถึงส่วนเสริม Gemini ใน Google Docs, Sheets, Drive, Slides และ Gmail
ฟังก์ชันสร้างรูปภาพบุคคลด้วย AI ของ Imagen เคยเจอปัญหาเมื่อปีที่แล้วที่สร้างรูปภาพไม่ตรงกับที่ระบุไว้ จนทำให้กูเกิลเลือกปิด Prompt ที่สร้างรูปบุคคลชั่วคราว แล้วกลับมาเปิดใช้งานใน Imagen 3 อีกครั้ง แต่ช่วงแรกจำกัดเฉพาะ Gemini Advanced ก่อน
กูเกิลจะทยอยอัปเดตความสามารถนี้ให้ลูกค้า Workspace ทั้งหมดภายใน 1 มีนาคม 2025
Google Docs เพิ่มฟีเจอร์สร้างภาพ AI ด้วยโมเดลภาพรุ่นใหม่ล่าสุดของกูเกิลคือ Imagen 3 จากในแถบ sidebar ด้านข้างของ Google Docs โดยตรง
วิธีการตรงไปตรงมาคือเลือกเมนู Create an image แล้วใส่ prompt ตามต้องการได้เลย สามารถเลือกสัดส่วนและสไตล์ของภาพแบบเจาะจงได้ด้วย
ฟีเจอร์นี้ทยอยเปิดใช้แล้วกับลูกค้า Google Workspace ที่มีแพ็กเกจ Gemini หรือ Google One AI Premium
กูเกิลเปิดบริการโมเดลสร้างภาพ Imagen 3 ให้กับผู้ใช้งาน Gemini ทุกคนแล้ว สามารถพิมพ์ prompt สั่งให้สร้างภาพจาก Gemini ได้เลย
Imagen 3 เปิดตัวครั้งแรกในงาน Google I/O 2024 แล้วเปิดให้บริการเฉพาะในสหรัฐตั้งแต่เดือนสิงหาคม ล่าสุดคือเปิดบริการกับผู้ใช้ทั่วโลกแล้ว
ข้อจำกัดของ Imagen 3 ตอนนี้คือยังไม่เปิดให้ผู้ใช้ทั่วไปสร้างภาพบุคคล ยังจำกัดเฉพาะผู้ที่ซื้อแพ็กเกจ Gemini Advanced เท่านั้น
ที่มา - 9to5google
นอกจากประกาศอัปเดตเครื่องมือสร้างแชทบอตคัสตอม Gems แล้ว กูเกิลยังประกาศอย่างเป็นทางการเกี่ยวกับ Imagen 3 เครื่องมือสร้างรูปภาพจากข้อความ (Text-to-Image) รุ่นใหม่ ที่มีรายงานว่าเริ่มเปิดให้ใช้งานเมื่อสัปดาห์ที่แล้ว
โดยนอกจาก Imagen 3 จะรองรับการสร้างรูปที่มีคุณภาพสูงขึ้น ละเอียดมากขึ้น และสมจริงมากขึ้น รวมทั้งรองรับระบบลายน้ำ SynthID เหมือนใน Imagen 2 แล้ว Imagen 3 จะกลับมาให้ผู้ใช้งานสร้างรูปภาพบุคคลได้อีกครั้ง หลังจากกูเกิลปิดการทำงานส่วนนี้ไปตั้งแต่ต้นปีที่ผ่านมา เพราะพบปัญหาการสร้างรูปภาพที่ไม่ถูกต้อง
Google เปิดตัว Pixel 9 ที่มาพร้อมฟีเจอร์ใหม่หลายรายการ เช่น Gemini Live, Call Notes, Pixel Screenshot รวมถึง Pixel Studio ที่เป็นฟีเจอร์ AI สร้างรูปภาพแบบทำงานบนตัวเครื่อง (ไม่เหมือน Imagen 3 ที่ทำงานบนคลาวด์)
ล่าสุดมีคนพบปัญหาว่า Pixel Studio ยังมีช่องโหว่ให้สร้างภาพที่ไม่เหมาะสมได้ แม้ทาง Google จะไม่เปิดให้สร้างรูปภาพบุคคล แต่ก็สามารถสร้างภาพตัวละครในการ์ตูนได้
เช่น ภาพ SpongeBob สวมชุดทหารเยอรมนีในช่วงสงครามโลกครั้งที่สอง หรือภาพปิกาจูสวมแว่นดำคาบบุหรี่ถือปืน อย่างไรก็ตาม Google ได้แก้ไขปัญหานี้แล้ว โดยเฉพาะการสร้างรูปภาพที่อ่อนไหวเป็นอย่างมาก
Google เปิดให้ใช้งาน Imagen 3 เครื่องมือสร้างรูปภาพจากข้อความ (Text-to-Image) เวอร์ชันล่าสุดในสหรัฐฯ อัปเกรดความสามารถเพิ่มเติมจากโมเดลเวอร์ชันก่อน
ปลายปีที่ผ่านมา Google เปิดตัว Imagen 2 และเปิดให้ใช้ผ่านแพลตฟอร์ม Vertex AI และในงาน Google I/O เมื่อเดือนพฤษภาคมที่ผ่านมาก็ประกาศเปิดตัว Imagen 3 แต่ก็เพิ่งจะเปิดให้ได้ลองใช้เงียบ ๆ ในอีกหลายเดือนต่อมา
ในงาน Made by Google วันนี้กูเกิลเปิดตัวฟีเจอร์ใหม่ใน Pixel 9 หลายรายการ โดยอาศัยฟีเจอร์ด้านปัญญาประดิษฐ์ ได้แก่ Gemini Live, Pixel Studio, Pixel Screenshots, และ Call Notes
Gemini Live เปิดตัวตั้งแต่งาน Google I/O ที่ผ่านมา เป็นแอป Gemini เวอร์ชั่นเสียงที่สามารถตอบโต้ได้คล้ายการพูดคุยกับคนจริงๆ ฟีเจอร์นี้ไม่ได้จำกัดเฉพาะ Pixel แต่ให้ทุกคนที่สมัครแพ็กเกจ Gemini Advanced ดังนั้นผู้ซื้อ Pixel 9 ทั้งหมดก็จะได้ใช้งานด้วย
Pixel Studio เป็นแอปสร้างภาพจากข้อความโดยอาศัยโมเดลในโทรศัพท์เอง และ Imagen 3 บนคลาวด์ สามารถใช้สร้างสติกเกอร์เฉพาะไว้คุยแชตได้
กูเกิลอัพเดตโมเดลปัญญาประดิษฐ์สร้างภาพ Imagen 2.0 โดยเพิ่มฟีเจอร์สำคัญคือการสร้างภาพเคลื่อนไหว และการแก้ไขภาพที่มีอยู่เดิม
การสร้างภาพเคลื่อนไหว เรียกว่า text-to-live image ยังจำกัดที่ความละเอียด 360x640 ยาว 4 วินาที ที่ 24 เฟรมต่อวินาที
สำหรับการแก้ไขภาพ รองรับทั้ง inpainting แก้ไขภายในภาพ และ outpainting เติมภาพเพื่อขยายขนาด รองรับการเพิ่มหรือลดวัตถุในภาพ
ภาพทั้งหมดที่สร้างโดย Imagen จะถูกฝังข้อมูล SynthID เพื่อระบุว่าภาพถูกสร้างโดยปัญญาประดิษฐ์ของกูเกิล
กูเกิลออกมาชี้แจงสาเหตุของปัญหา Gemini image generation สร้างรูปบุคคลผิดพลาด จนเป็นข่าวดัง และต้องปิดการทำงานชั่วคราว
กูเกิลอธิบายว่าฟีเจอร์ image generation ของ "แอพ" Gemini เป็นการเรียกใช้โมเดล Imagen 2 ที่เปิดตัวช่วงปลายปี 2023 โดยเพิ่มฟีเจอร์ป้องกันการสร้างภาพในทางที่ผิด เช่น ภาพที่มีลักษณะรุนแรง มีเนื้อหาทางเพศชัดเจน หรือเป็นการดัดแปลงบุคคลจริงให้เพี้ยนไป หนึ่งในมาตรการป้องกันที่กูเกิลใส่เข้ามาคือความหลากหลาย เช่น สั่งให้สร้างภาพคนกำลังเตะฟุตบอล ก็ไม่ควรได้ภาพของบุคคลที่มีเชื้อชาติแบบเดียว
กูเกิลออกคำชี้แจง หลังจากมีรายงานพบว่า Gemini AI สร้างรูปภาพ ทำงานไม่ถูกต้องเมื่อได้รับคำสั่งให้สร้างรูปภาพบุคคลที่มีจริงในประวัติศาสตร์ ผิดเพี้ยนออกไปจากความจริง เช่น ภาพโป๊ปเป็นคนดำ หรือผู้ก่อตั้งกูเกิลเป็นคนเอเชีย ซึ่งทำให้กูเกิลต้องประกาศปิดการทำงานคำสั่งสร้างรูปภาพบุคคลชั่วคราว
ฟีเจอร์สร้างรูปภาพใน Gemini มีออกมาตั้งแต่ต้นเดือนกุมภาพันธ์ที่ผ่านมา โดยใช้ Imagen 2 โมเดลสำหรับการสร้างรูปภาพ
กูเกิลประกาศปิดการทำงานฟีเจอร์สร้างรูปภาพด้วย AI ของ Gemini ชั่วคราว มีผลเฉพาะการสร้างรูปภาพบุคคล โดยจะเปิดให้ใช้งานอีกครั้งในภายหลัง เนื่องจากพบปัญหาในการสร้างรูปภาพประเภทดังกล่าว
ผู้ใช้งาน Gemini ที่ให้คำสั่งสร้างรูปภาพที่มีบุคคล ตอนนี้จะได้คำตอบว่าตอนนี้ระบบกำลังปรับปรุงแก้ไขอยู่
กูเกิลเปิดตัวเครื่องมือสร้างภาพด้วย AI ตามคำสั่ง ใช้ชื่อว่า ImageFX โดยใช้โมเดล Imagen 2 ที่เปิดตัวในช่วงปลายปี 2023
ในแง่ความสามารถ ImageFX คงไม่ต่างอะไรจากการเรียกโมเดล Imagen 2 จาก Google Cloud มาสร้างภาพโดยตรง แค่เปลี่ยนจากการเรียกผ่าน API มาเรียกผ่านช่องทางหน้าบ้านที่กูเกิลสร้างให้เท่านั้น
ลูกเล่นเล็กๆ ของ ImageFX คือการเตรียมสไตล์ภาพที่ใช้บ่อยๆ ไว้เป็นเมนูให้เลือก ไม่ต้องพิมพ์คำสั่ง prompt เองทั้งหมด กูเกิลเรียกฟีเจอร์นี้ว่า expressive chips ช่วยให้เราทดลองไอเดียสร้างภาพได้รวดเร็วกว่าเดิม
กูเกิลปล่อย Gemini Pro ใน Bard ทุกภาษาแล้ว หลังจากเมื่อปีที่แล้วจำกัดเฉพาะภาษาอังกฤษ ส่วนภาษาอื่นๆ ยังใช้ PaLM-2 มาตลอด การเปลี่ยนแปลงครั้งนี้ทำให้ Bard สามารถสรุป, ทำความเข้าใจ, และให้เหตุผลได้ดีขึ้น
นอกจากการเปลี่ยนโมเดลด้านหลังแล้ว Bard ยังเพิ่มอีกสองฟีเจอร์ ได้แก่
กูเกิลชูประเด็นที่ Bard ได้คะแนนสูงใน LMSYS ว่ายืนยันผลทดสอบที่กูเกิลจ้างบริษัทภายนอกมาสำรวจก่อนหน้านี้
Google Cloud ประกาศอัพเกรดเครื่องมือสร้างรูปภาพจากข้อความ (Text-to-Image) Imagen 2 ซึ่งพัฒนาจากรุ่นก่อนหน้านี้ โดยตอนนี้สามารถใช้งานได้ทั่วไปแล้วสำหรับลูกค้า Vertex AI ที่อยู่ในลิสต์ให้ใช้งาน
Imagen 2 ถูกพัฒนาด้วยเทคโนโลยีจาก Google DeepMind มีจุดเด่นจากเวอร์ชันก่อนหน้านอกจากคุณภาพของรูปภาพที่ดีขึ้น ยังรองรับการสร้างรูปภาพสำหรับการใช้งานบางประเภท เช่น การสร้างโลโก้สินค้า การนำภาพโลโก้ติดเป็นฉลากบนสินค้า หรืองานรูปภาพที่ต้องการตัวหนังสือระบุตำแหน่งในภาษาต่าง ๆ นอกจากนี้ยังรองรับการทำความเข้าใจรูปภาพ และให้ผลลัพธ์เป็นรายละเอียดของสิ่งที่ Imagen 2 เห็นในรูปภาพอีกด้วย
กูเกิลเปิดตัวโครงการ Imagen Video ระบบ AI สำหรับสร้างคลิปวิดีโอตามคำบรรยาย Text แนวเดียวกับ Make-A-Video ของ Meta ที่เปิดตัวเมื่อสัปดาห์ก่อน
Imagen Video พัฒนาต่อยอดจากโครงการ Imagen ที่เป็น AI สร้างรูปภาพตามคำบรรยายของกูเกิลเอง ขั้นตอนการทำงานคือถอดข้อความออกมา และสร้างวิดีโอร่างแรกขึ้นจากภาพจำนวน 16 เฟรม, 3 เฟรมต่อวินาที ความละเอียดต่ำ จากนั้นเริ่มอัพสเกลและปรับแต่งภาพให้ละเอียดขึ้น ผลลัพธ์สุดท้ายจะเป็นวิดีโอ 128 เฟรมที่ 24 เฟรมต่อวินาที ความละเอียด 720p
ชุดข้อมูลที่ใช้เทรนมาจาก วิดีโอที่จับคู่คำอธิบาย 14 ล้านคลิป, รูปภาพที่จับคู่คำอธิบาย 60 ล้านรูป และชุดข้อมูลสาธารณะ LAION-400M
กูเกิลเปิดตัว Imagen งานวิจัย AI สร้างรูปภาพเสมือนจริงที่ใช้ input เป็นคำบรรยาย แบบเดียวกับ DALL·E ของ OpenAI โดยมีขั้นตอนการทำงานคือแปลงข้อมูล text ออกมาเป็นภาพความละเอียดต่ำ จากนั้นใช้เครื่องมือแปลงให้เป็นภาพที่มีความละเอียดมากขึ้น
จุดเด่นที่กูเกิลระบุว่า Imagen เหนือกว่าเครื่องมือประเภทเดียวกัน คือการพัฒนาเครื่องมือวัดผลที่ชื่อ DrawBench ซึ่งใช้การเทียบข้อมูล text แบบเดียวกัน สร้างรูปภาพจากเครื่องมือหรือโมเดลอื่นมาเปรียบเทียบได้แก่ VQ-GAN+CLIP, Latent Diffusion Models และ DALL-E 2 ซึ่งประเมินคุณภาพของรูปโดยใช้คนตัดสิน พบว่า Imagen มีคะแนนที่ดีกว่า