กูเกิลเปิดตัว "เพื่อนนักวิทยาศาสตร์เสมือน" (AI co-scientist หรือ virtual scientific collaborator) เป็นการนำ Gemini 2.0 มาปรับแต่งเพื่อเป็นคู่คิดให้นักวิทยาศาสตร์ ช่วยเสนอสมมติฐานและแผนการวิจัย ตามโจทย์วิจัยที่ได้รับมอบหมาย
ผู้ช่วยนักวิทยาศาสตร์ AI ใช้ระบบ multi-agent สร้าง agent หลายๆ ตัวมารับบทบาทที่แตกต่างกัน เช่น ช่วยคิดไอเดีย ตรวจสอบไอเดีย ให้คะแนนไอเดีย ฯลฯ แล้วนำไอเดียที่ได้มาจัดลำดับคะแนน ตัว agent สามารถค้นหาข้อมูลในเว็บ หรือเรียกใช้โมเดลเฉพาะทางอื่นๆ เพื่อตรวจสอบความเป็นไปได้ของสมมติฐาน
นอกจากการระดมสมองหาไอเดียที่มีคุณภาพแล้ว ผู้ช่วยนักวิทยาศาสตร์ยังสามารถทำแผนการวิจัย จัดแบ่งทรัพยากร จัดคิวงาน ให้เราได้ด้วย
กูเกิลเผยแพร่งานวิจัยในวารสารวิทยาศาสตร์ Nature ว่าด้วยเทคโนโลยี Machine Learning ที่ถูกใช้ในการพยากรณ์การเกิดน้ำท่วมในสเกลทั่วโลก ซึ่งกูเกิลเริ่มทำมาตั้งแต่ปี 2018 ผ่านเครื่องมือ Flood Hub รองรับข้อมูลใน 80 ประเทศ
กูเกิลบอกว่า AI ปัจจุบันสามารถพยากรณ์การเกิดน้ำท่วมในพื้นที่ได้ล่วงหน้าถึง 7 วัน จึงสามารถแจ้งข้อมูลในหน่วยงานรัฐบาลของประเทศนั้น ตลอดจนองค์กรมนุษยธรรมที่เกี่ยวข้อง ให้เตรียมการช่วยเหลือและลดความสูญเสียที่เกิดขึ้นจากภัยพิบัติ
Google Research เผยแพร่งานวิจัยหัวข้อ "VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis" เป็นโมเดล AI ที่ใช้อินพุทภาพบุคคล 1 ภาพ และไฟล์เสียง สามารถสร้างวิดีโอที่ขยับได้ตามเสียงทั้งปาก ใบหน้า ศีรษะ ตลอดจนมือ
โมเดลนี้มีจุดเด่นคือไม่ต้องอาศัยการเทรนข้อมูลบุคคลนั้นมาก่อน ไม่ต้องระบุตำแหน่งใบหน้าและส่วนต่าง ๆ ก็สามารถสร้างการเคลื่อนไหวในทุกจุดในภาพ โมเดลนี้จึงมีโอกาสนำไปต่อยอดใช้ในการนำเสนอผลงาน งานประกอบการสอน หรืองานที่เดิมมีข้อมูลเฉพาะตัวหนังสือ ให้เป็นภาพเคลื่อนไหวได้ดีขึ้น อย่างไรก็ตามมีความเสี่ยงในการนำไปใช้งานอย่างไม่เหมาะสมด้วยเช่นกัน
Google Research เปิดตัว Lumiere โมเดล AI สำหรับสร้างวิดีโอขึ้นจาก Prompt ตัวหนังสือ หรือรูปภาพต้นแบบ มีจุดเด่นคือโมเดลทำงาน โดยดูองค์ประกอบในภาพข้อมูลตั้งต้น และสร้างวิดีโอต่อเนื่องขึ้นจากสิ่งเหล่านั้น ทำให้รักษาภาพรวมและสไตล์ไว้ได้มากกว่าโมเดลอื่น
ตัวอย่างวิดีโอที่สร้างขึ้นมาจาก Lumiere มีหลายรูปแบบทั้ง Text-to-Video สร้างคลิปสั้นตามข้อความอินพุท, Image-to-Video ให้รูปภาพตั้งต้นแล้วใส่อินพุทสิ่งที่ต้องการให้ภาพเคลื่อนไหว, Stylized Generation กำหนดภาพรูปแบบตั้งต้น แล้วสร้างผลลัพธ์ตามอินพุทที่ต้องการให้ได้โทนเดียวกัน
กูเกิลประกาศร่วมโครงการ Brain Research Through Advancing Innovative Neurotechnologies (BRAIN) ของ NIH หน่วยงานวิจัยด้านสุขภาพของสหรัฐฯ โดยจะทำแผนที่สมองหนูเฉพาะส่วนฮิปโปแคมปัสขนาดประมาณ 2-3% ของสมองทั้งก้อน รวมปริมาณนิวรอนที่จะวิเคราะห์อยู่ที่ระดับ 1 ล้านนิวรอน
กูเกิลเปิดตัวงานวิจัย MusicLM ซึ่งเป็น AI สำหรับสร้างดนตรีขึ้นจากการใส่แคปชั่นอธิบายรายละเอียดของเพลง โมเดลนี้เทรนด้วยชุดข้อมูลเพลงกว่า 280,000 ชั่วโมง พร้อมกับรายละเอียดประกอบในแต่ละเพลง
เสียงดนตรีผลลัพธ์ที่ได้มีความละเอียดระดับ 24 kHz งานวิจัยนี้ยังทดสอบในระดับรายละเอียดมากขึ้น เช่น รองรับแคปชันแบบเล่าเรื่อง ให้ดนตรีมีรูปแบบตามจังหวะเวลานั้น สร้างชุดเพลงแยกทั้งเสียงร้อง เครื่องดนตรีแต่ละชิ้น หรือใช้อินพุทเป็นรูปภาพประกอบคำบรรยาย แล้วสร้างดนตรีประกอบได้ด้วย
กูเกิลเปิดตัวโครงการ Imagen Video ระบบ AI สำหรับสร้างคลิปวิดีโอตามคำบรรยาย Text แนวเดียวกับ Make-A-Video ของ Meta ที่เปิดตัวเมื่อสัปดาห์ก่อน
Imagen Video พัฒนาต่อยอดจากโครงการ Imagen ที่เป็น AI สร้างรูปภาพตามคำบรรยายของกูเกิลเอง ขั้นตอนการทำงานคือถอดข้อความออกมา และสร้างวิดีโอร่างแรกขึ้นจากภาพจำนวน 16 เฟรม, 3 เฟรมต่อวินาที ความละเอียดต่ำ จากนั้นเริ่มอัพสเกลและปรับแต่งภาพให้ละเอียดขึ้น ผลลัพธ์สุดท้ายจะเป็นวิดีโอ 128 เฟรมที่ 24 เฟรมต่อวินาที ความละเอียด 720p
ชุดข้อมูลที่ใช้เทรนมาจาก วิดีโอที่จับคู่คำอธิบาย 14 ล้านคลิป, รูปภาพที่จับคู่คำอธิบาย 60 ล้านรูป และชุดข้อมูลสาธารณะ LAION-400M
Google Research และหุ่นยนต์ผู้ช่วย Everyday Robots เปิดตัวโมเดล Machine Learning เพื่อให้หุ่นยนต์เข้าใจคำสั่งแบบ NLP และสามารถปฏิบัติต่อได้อย่างถูกต้อง โดยมีชื่อว่า PaLm-SayCan
กูเกิลบอกว่า PaLm-SayCan เป็นการเรียนรู้ชุดภาษาธรรมชาติ และแปลงออกมาเป็นการกระทำสำหรับหุ่นยนต์ ผู้ใช้งานอาจป้อนข้อมูลด้วยการสั่งผ่านเสียงหรือส่งข้อความ โดยมีได้ทั้งงานง่าย ๆ ไปจนถึงงานที่มีความซับซ้อนต้องตีความ
ตัวอย่างคำสั่งเช่น "ฉันทำน้ำส้มหก ช่วยจัดการให้หน่อย แล้วทำความสะอาด จากนั้นขอกระป๋องใหม่ด้วย" หุ่นยนต์จะคำนวณความเป็นไปได้ แล้วแปลงออกมาเป็น 3 งาน เริ่มจากเก็บกระป๋องไปทิ้ง ไปหยิบผ้าเช็ด แล้วเอาน้ำส้มกระป๋องใหม่มาให้ เป็นต้น