กูเกิลอัปเดตฟีเจอร์สร้างบทสนทนาเสียงแนวพอดคาสต์ Audio Overviews ของ NotebookLM ที่ทำงานด้วยปัญญาประดิษฐ์ Gemini 1.5 โดยถอดป้ายกำกับว่าเป็นฟีเจอร์ทดลอง (Experimental) พร้อมกับมีเครื่องมือใหม่ดังนี้
สุดท้ายกูเกิลประกาศเพิ่ม NotebookLM Business สำหรับลูกค้า Google Workspace ธุรกิจ มหาวิทยาลัย และองค์กร โดยมีการป้องกันความปลอดภัยและความเป็นส่วนตัวในมาตรฐานเดียวกับบริการอื่น
กูเกิลประกาศปรับโครงสร้างองค์กรของฝ่ายที่เกี่ยวข้องกับบริการค้นหาข้อมูล (Knowledge & Information) เพื่อให้รองรับการเปลี่ยนแปลงของ AI และบริการค้นหาข้อมูล ซึ่ง Gemini จะเข้ามามีบทบาทต่อผลิตภัณฑ์ต่าง ๆ มากขึ้น รายละเอียดดังนี้
กูเกิลประกาศยกเครื่องบริการค้นหาสินค้า Google Shopping ใหม่ทั้งหมด โดยนำปัญญาประดิษฐ์โมเดล Gemini มาเป็นพื้นฐานของการค้นหา เพื่อให้ผู้ใช้งานค้นหา ค้นพบ ในรูปแบบที่ปรับแต่งสำหรับแต่ละคนได้ดีขึ้น
ตัวอย่างที่กูเกิลนำเสนอ เช่น หากต้องการค้นหาเสื้อแจ็คเกตสำหรับใส่เดินทางไปที่เมืองหนึ่ง ("Men’s winter jacket for Seattle) ผลการค้นหาจะแนะนำทั้งสภาพอากาศ เสื้อผ้าที่เหมาะสม พร้อมกับตัวเลือกสินค้าที่ตรงเงื่อนไขนั้น รวมทั้งมีฟีเจอร์ Try-on ให้ทดลองดูว่าขนาดชุดกับรูปร่างจะออกมาเป็นอย่างไร เพื่อเพิ่มความมั่นใจในการกดซื้อ
กูเกิลเปิดบริการโมเดลสร้างภาพ Imagen 3 ให้กับผู้ใช้งาน Gemini ทุกคนแล้ว สามารถพิมพ์ prompt สั่งให้สร้างภาพจาก Gemini ได้เลย
Imagen 3 เปิดตัวครั้งแรกในงาน Google I/O 2024 แล้วเปิดให้บริการเฉพาะในสหรัฐตั้งแต่เดือนสิงหาคม ล่าสุดคือเปิดบริการกับผู้ใช้ทั่วโลกแล้ว
ข้อจำกัดของ Imagen 3 ตอนนี้คือยังไม่เปิดให้ผู้ใช้ทั่วไปสร้างภาพบุคคล ยังจำกัดเฉพาะผู้ที่ซื้อแพ็กเกจ Gemini Advanced เท่านั้น
ที่มา - 9to5google
กูเกิลเปิดให้ใช้งาน Gemini 1.5 Flash-8B โมเดลรุ่นเล็กสุดของ Gemini Flash ที่เปิดทดลองใช้ฟรีก่อนหน้านี้
Gemini 1.5 Flash-8B เป็นโมเดลที่ปรับขนาดให้เล็กลงเหลือ 8 พันล้านพารามิเตอร์ ในแง่ความฉลาดอาจลดลงบ้างเมื่อเทียบกับ Gemini 1.5 Flash รุ่นปกติ แลกกับข้อดีที่ได้มาคือ ราคาถูกลง 50%, ตอบสนองเร็วขึ้น, และมีอัตรา rate limit เพิ่มขึ้น 2 เท่า (สูงสุด 4,000 รีเควสต์ต่อนาที ของเดิม 2,000 รีเควสต์ต่อนาที)
ราคาของ Gemini 1.5 Flash-8B ถือว่าถูกที่สุดในการรันโมเดล Gemini ทุกตัว ได้แก่
กูเกิลเปิดให้นักพัฒนาแอพบน Android เรียกใช้งานโมเดล Gemini Nano เป็นการทั่วไป หลังจากทดสอบแบบจำกัดวงมาตั้งแต่ Google I/O 2024 โดยตอนนี้ใช้โมเดล Gemini Nano 2 ที่มีประสิทธิภาพดีขึ้นด้วย
การใช้งาน Gemini Nano ต้องเรียกผ่าน AICore โดยมี AI Edge SDK อีกที ตอนนี้การใช้งานยังจำกัดเฉพาะบนฮาร์ดแวร์ Pixel 9 series เท่านั้น และสถานะการเปิดใช้ยังเป็นการทดลองใช้งาน (experimental)
การเปิดให้แอพภายนอกใช้ Gemini Nano แบบ on device ทำให้แอพมีฟีเจอร์ด้าน AI จัดการข้อความได้ทันที เช่น rephrasing (ปรับแก้ไขข้อความ), smart reply, proofreading, summarization
หลังจากกูเกิลเริ่มปล่อย Gemini Live ให้กับผู้ใช้ Android ตั้งแต่ช่วงกลางเดือนกันยายน ตอนนี้ผู้ใช้ Android ที่ตั้งค่าระบบปฏิบัติการเป็นภาษาอังกฤษ สามารถใช้งาน Gemini Live ได้ทั้งหมดแล้วผ่านแอพ Gemini (ลองเปิดจากบัญชีตัวเองก็พบว่าใช้งานได้แล้ว)
Gemini Live เป็นการสนทนาโต้ตอบกับ Gemini ด้วยเสียงแบบต่อเนื่อง เป็นการโชว์ศักยภาพโมเดลภาษาของกูเกิลที่สนทนาได้อย่างลื่นไหลและเป็นธรรมชาติ แต่ Gemini Live ยังขาดฟีเจอร์บางอย่างที่เคยมีในผู้ช่วยอัจฉริยะตัวก่อนๆ เช่น การสั่งงานแอพภายนอกแบบที่เคยทำได้ใน Google Assistant เป็นต้น
กูเกิลเพิ่มฟีเจอร์ Smart Reply ให้กับ Gmail มาตั้งแต่ปี 2017 แต่ที่ผ่านมาคำตอบที่ AI แนะนำยังแค่สั้นๆ เพียง 1-2 ประโยคเท่านั้น
ในยุคจักรราศีคนคู่ Gemini ดลบันดาลให้ Smart Reply ฉลาดขึ้น สามารถตอบเป็นประโยคยาวๆ หลายย่อหน้าได้แล้ว สิ่งที่เราต้องทำมีเพียงกดปุ่ม Reply ใน Gmail แล้ว Gemini จะแต่งข้อความตอบกลับอีเมลให้เลือกประมาณ 3 เวอร์ชัน เรามีหน้าที่แค่เลือกแนวคำตอบที่ต้องการแล้วกดส่งทันที โดยไม่ต้องพิมพ์ตอบเลยสักนิดก็ได้ (แต่ก็แก้ไขเองได้เสมอหากต้องการ) ฟีเจอร์นี้มีชื่อเรียกว่า contextual Smart Reply
ฟีเจอร์นี้เปิดใช้แล้วสำหรับลูกค้า Google Workspace แบบธุรกิจที่มี Gemini หรือลูกค้าทั่วไปที่ซื้อแพ็กเกจ Google One AI Premium
กูเกิลอัปเดตฟีเจอร์ให้ NotebookLM แอปจดบันทึกที่ทำงานด้วย Gemini 1.5 และรองรับภาษาไทย โดยเพิ่มการรองรับข้อมูลต้นทางต่อไปนี้
กูเกิลยกตัวอย่างกรณีที่สามารถนำ NotebookLM มาช่วยสร้างบันทึกจากข้อมูลต้นทางกลุ่มนี้ เช่น ทำสรุปเนื้อหาวิดีโอทั่วไป วิดีโอเลกเชอร์ รวมทั้งไฟล์เสียงที่บันทึกจากในห้องเรียน
นอกจากนี้กูเกิลยังอัปเดต Audio Overview ฟีเจอร์สร้างไฟล์เสียงแบบพอดคาสต์สรุปเนื้อหาเอกสาร โดยสามารถแชร์ไฟล์เสียงได้โดยตรงภายในแอปแล้ว
ที่มา: กูเกิล
กูเกิลประกาศอัพเดตโมเดลภาษา Gemini ทั้งรุ่น Flash และรุ่น Pro กลายเป็นเวอร์ชั่น Gemini-1.5-Pro-002 และ Gemini-1.5-Flash-002 ความเปลี่ยนแปลงสำคัญคือทั้งสองโมเดลทำคะแนนทดสอบได้ดีขึ้นแทบทุกชุดทดสอบ โดย Gemini-1.5-Flash-002 นั้นทำคะแนนได้ดีขึ้นจนแซง Gemini-1.5-Pro-001 ไปหลายชุดทดสอบ
การอัพเดตรอบนี้ยังลดราคา Gemini Pro ลงทั้งอินพุตและเอาท์พุตลง พร้อมกับเพิ่มเพดานการใช้งานเป็น 2,000 RPM สำหรับ
กูเกิลยังรายงานการให้บริการว่าที่ผ่านมาอัตราการตอบของ Gemini Flash ดีขึ้นเรื่อยๆ จนแตะ 300 token/s แล้ว ขณะที่ latency ก็ค่อยๆ ลดลงจนเหลือ 300ms เท่านั้น
โมเดลเวอร์ชั่น 002 มีให้บริการแล้วใน AI Studio และ Vertex AI
กูเกิลประกาศขยายความสามารถปัญญาประดิษฐ์ Gemini ให้กับผู้ใช้งานที่มากขึ้น โดยลูกค้า Workspace Business, Enterprise และ Frontline จะสามารถใช้งาน Gemini ได้ทันทีตั้งแต่วันนี้เป็นต้นไป จากเดิมที่บัญชีองค์กรต้องซื้อแพ็คเกจใช้ Gemini เพิ่มต่างหาก แต่ตอนนี้กูเกิลเพิ่มให้ลูกค้าเลยโดยไม่คิดเงินเพิ่ม
ลูกค้า Workspace สามารถใช้งาน Gemini ได้โดยยังอยู่ในระบบป้องกันความปลอดภัยข้อมูลขององค์กร ตลอดจนเงื่อนไขกฎระเบียบที่องค์กรกำหนดไว้ ไม่มีการนำข้อมูลองค์กรมาใช้เทรนเพื่อปรับปรุง Gemini เพิ่มเติม
กูเกิลออกอัพเดตให้ระบบปฏิบัติการ Google TV เนื่องในโอกาสวางขาย Google TV Streamer วันนี้ (24 กันยายน) โดยปรับฟีเจอร์ของ Google TV บนสมาร์ททีวีรุ่นต่างๆ ให้มาเท่ากับ Google TV Streamer
กูเกิลเปิดตัว DataGemma โมเดล LLM ที่ออกแบบมาเพื่อแก้ปัญหาหลอน (hallucination) ที่มักพบในโมเดล LLM จากการมั่นใจแล้วให้ข้อมูลที่ผิดพลาด ซึ่งกูเกิลแก้ปัญหานี้ด้วยการเชื่อมต่อกับฐานข้อมูลปัจจุบันในการอ้างอิง
แพลตฟอร์มที่กูเกิลใช้เรียกว่า Data Commons เป็น Knowledge Graph ที่มีชุดข้อมูลมากกว่า 240 พันล้านจุด ใช้แหล่งข้อมูลที่น่าเชื่อถือทั้งจาก United Nations (UN), World Health Organization (WHO), Centers for Disease Control and Prevention (CDC) และ Census Bureaus ทำให้ได้ผลลัพธ์เป็น AI ที่สามารถให้ข้อมูลที่ถูกต้อง
กูเกิลเริ่มทยอยปล่อย Gemini Live บริการแชทบอทโต้ตอบด้วยเสียงแบบเรียลไทม์ ให้กับผู้ใช้ Android ทั่วไป หลังปล่อยให้ผู้สมัครแพ็กเกจเสียเงิน Gemini Advanced ตั้งแต่เดือนที่แล้ว
ประกาศของกูเกิลระบุแค่ว่ายังรองรับเฉพาะภาษาอังกฤษ และต้องใช้ผ่านแแอพ Gemini บน Android เท่านั้น แต่ไม่ได้ให้รายละเอียดว่าผู้ใช้แบบฟรีได้จะใช้งานโมเดล Gemini 1.5 Pro ที่เก่งกว่าเวอร์ชันฟรีด้วยหรือไม่
ที่มา - 9to5google
กูเกิลประกาศเพิ่มความสามารถใหม่ให้ NotebookLM แอปจดบันทึกที่ทำงานด้วย Gemini 1.5 ซึ่งปัจจุบันสามารถใช้งานในไทยได้ด้วย โดยฟีเจอร์ใหม่มีชื่อว่า Audio Overview
ถ้าอธิบายแบบให้เห็นภาพง่ายที่สุด Audio Overview จะทำการแปลงเนื้อหาในเอกสารของผู้ใช้งาน ให้เป็นรายการพอดคาสต์ที่มีผู้ดำเนินรายการสองคน ... โดยจะสร้างเสียงขึ้นเป็นสองผู้ดำเนินรายการด้วย AI แล้วทั้งคู่จะสนทนาบนเนื้อหาต้นฉบับ สรุป และเชื่อมต่อข้อมูลต่าง ๆ ในนั้น ผู้ใช้งานยังสามารถดาวน์โหลดไฟล์เสียงนี้ออกมาได้ด้วย
การใช้งานทำได้โดยเปิด Notebook แล้วเลือก Generate เพื่อสร้างเสียง Audio Overview
กูเกิลประกาศว่าฟีเจอร์ Ask Photos ใน Google Photos ที่เปิดตัวในงาน I/O เมื่อเดือนพฤษภาคม ที่ผู้ใช้งานสามารถค้นหารูปภาพด้วยคำถามภาษาธรรมชาติ (natural language) ซึ่งใช้ Gemini AI ช่วยค้นหา ตอนนี้เปิดให้ใช้งานแบบ Early Access แล้วสำหรับผู้ใช้งานกลุ่มหนึ่งในอเมริกา
ใน Ask Photos ผู้ใช้งานสามารถถามคำถาม ซึ่ง Gemini สามารถเข้าใจรายละเอียดจากภาพและค้นหาคำตอบให้เช่น "Where did we camp last time we went to Yosemite?" หรือ "What did we eat at the hotel in Stanley?"
กูเกิลยังเดินหน้าผนวก Gemini เข้ากับผลิตภัณฑ์ต่างๆ ของตัวเองต่อไป เหยื่อรายล่าสุดที่โดน Gemini กลืนกินคือ Google Forms ที่เพิ่มฟีเจอร์ Help me create a form ให้ช่วยสร้างคำถามและตัวเลือกในฟอร์มอัตโนมัติ จาก prompt ที่เรากำหนดไว้ เช่น ช่วยสร้างฟอร์มแบบสอบถามงานเอาติ้งของบริษัทให้หน่อย
ตัวอย่างการใช้งานที่กูเกิลนำมาโชว์ ได้แก่
Android Talkback ฟีเจอร์อ่านหน้าจอสำหรับคนพิการทางสายตาของ Android เริ่มนำ Gemini เข้ามาช่วยบรรยายภาพบนหน้าจอ ด้วยความสามารถของโมเดล Gemini ที่เป็น multimodal เข้าใจรูปภาพด้วย ทำให้บรรยายภาพได้ละเอียดขึ้นมาก ไม่ว่าจะเป็นภาพในเครื่อง ภาพในข้อความแชท หรือภาพบนอินเทอร์เน็ตทั่วไปก็ตาม
เมื่อต้นปีนี้ กูเกิลเคยออกฟีเจอร์ AI บรรยายภาพในลักษณะเดียวกัน แต่ยังจำกัดเฉพาะแอพ Android Lookout ที่เป็นแอพแยกต่างหากสำหรับการบรรยายภาพ ข่าวนี้คือการผนวกเข้ามาที่ตัว Talkback เลย และใช้โมเดล Gemini ที่มีความสามารถมากขึ้น
กูเกิลปล่อยฟีเจอร์ Gmail Q&A ให้แอพ Gmail บน Android สามารถใช้ Gemini ช่วยค้นหาข้อมูลในอีเมลเก่าๆ ของเราแล้วมาตอบคำถามเราได้เลย (เช่น "What was the PO number for my agency?")
ฟีเจอร์นี้เปิดใช้มาก่อนแล้วใน Gmail เวอร์ชันเว็บ โดยแสดงเป็นแถบ sidebar ด้านข้าง ส่วนเวอร์ชัน iOS จะตามมาในระยะถัดไป
การใช้งานฟีเจอร์นี้จำเป็นต้องจ่ายแพ็กเกจ Google One AI Premium หรือฝั่งธุรกิจจำเป็นต้องมี Gemini Business/Enterprise ด้วย
ที่มา - Google Workspace
กูเกิลประกาศความร่วมมือกับ OpenStax โครงการหนังสือเรียนฟรีของมหาวิทยาลัย Rice ทำให้ผู้ใช้สามารถถามคำถามต่างๆ จาก Gemini โดยระบุว่าต้องการข้อมูลจาก OpenStax ได้
ตอนนี้ OpenStax มีหนังสือเรียนกว่า 70 วิชา ตั้งแต่มัธยมไปจนถึงระดับมหาวิทยาลัย
กูเกิลเปิดประกาศความร่วมมือนี้โดยพยายามแสดงว่า Gemini ใช้สำหรับการเรียนได้ เช่น การสร้าง Gems สำหรับสอนบทเรียน หรือการสรุปเนื้อหาด้วยการอัพโหลดเอกสารทั้งเล่มลงไปใน Gemini
OpenStax ยังจำกัดเฉพาะผู้ใช้ Gemini ในสหรัฐฯ ที่อายุเกิน 18 ปี และต้องเมนชั่น @OpenStax โดยตรง อย่างไรก็ดี การถาม OpenStax ก็ยังได้คำตอบจากแหล่งอื่นๆ เข้ามาด้วย ไม่ได้จำกัดตายตัว
นอกจากประกาศอัปเดตเครื่องมือสร้างแชทบอตคัสตอม Gems แล้ว กูเกิลยังประกาศอย่างเป็นทางการเกี่ยวกับ Imagen 3 เครื่องมือสร้างรูปภาพจากข้อความ (Text-to-Image) รุ่นใหม่ ที่มีรายงานว่าเริ่มเปิดให้ใช้งานเมื่อสัปดาห์ที่แล้ว
โดยนอกจาก Imagen 3 จะรองรับการสร้างรูปที่มีคุณภาพสูงขึ้น ละเอียดมากขึ้น และสมจริงมากขึ้น รวมทั้งรองรับระบบลายน้ำ SynthID เหมือนใน Imagen 2 แล้ว Imagen 3 จะกลับมาให้ผู้ใช้งานสร้างรูปภาพบุคคลได้อีกครั้ง หลังจากกูเกิลปิดการทำงานส่วนนี้ไปตั้งแต่ต้นปีที่ผ่านมา เพราะพบปัญหาการสร้างรูปภาพที่ไม่ถูกต้อง
กูเกิลประกาศว่า Gems เครื่องมือสร้างแชทบอต AI แบบคัสตอม สามารถกำหนดรูปแบบที่ต้องการได้เองเหมือนกับ GPTs ของ OpenAI เริ่มอัปเดตให้กับลูกค้า Gemini Advanced, Business และ Enterprise รองรับมากกว่า 150 ประเทศ ตั้งแต่วันนี้เป็นต้นไป
กูเกิลเปิดตัว Gems ในงาน Google I/O เมื่อเดือนพฤษภาคม โดย Gems สามารถกำหนดค่าเป็นผู้เชี่ยวชาญเฉพาะเรื่อง หรือมีความสามารถเจาะจงเฉพาะสิ่งที่ต้องการ กูเกิลยังเพิ่มค่าตั้งต้นของ Gems ให้การเริ่มใช้งานทำได้ง่ายขึ้น เช่น เป็นผู้เชี่ยวชาญเฉพาะหัวข้อ, เป็นคนตรวจสอบไวยากรณ์, เป็นผู้ตรวจสอบโค้ด เป็นต้น
กูเกิลประกาศปล่อยฟีเจอร์ “take notes for me” ที่ให้ Gemini ช่วยสรุปการประชุมใน Google Meet อัตโนมัติ ประชุมเสร็จแล้วสามารถแปลงไฟล์สรุปประชุมไปลง Google Docs ได้ด้วย
ฟีเจอร์แนวนี้ไม่ใช่ของใหม่ เพราะปี 2023 กูเกิลเคยทำฟีเจอร์ Duet AI สรุปประชุม Meet มาก่อน เพียงแต่รอบนี้อัพเกรดตัวโมเดลเป็น Gemini ที่มีความสามารถมากขึ้น วิธีการใช้งานคือมีปุ่ม Gemini โผล่มาตรงมุมขวาบน กดแล้วสั่งให้ Gemini ช่วยฟังการประชุมพร้อมจดโน้ตได้เลย
ฟีเจอร์นี้ยังใช้งานได้เฉพาะบนคอมพิวเตอร์ รองรับเฉพาะภาษาอังกฤษเท่านั้น และจำเป็นต้องซื้อแพ็กเกจพรีเมียม Gemini Enterprise หรือซื้อส่วนขยาย AI Meetings & Messaging จากแพ็กเกจปกติ
กูเกิลเปิดตัว Gemini Flash 8B โมเดลแบบปิดที่ภายในเป็นโมเดลขนาดเล็กมากเพียง 8B เท่านั้น แต่ยังได้ความสามารถหลักคล้ายกับโมเดลเต็ม เช่น multimodal รองรับทั้งเสียงและภาพ, รองรับอินพุตถึง 1 ล้านโทเค็น
ที่จริงแล้ว Flash-8B ถูกเปิดเผยในรายงานของ Gemini 1.5 ตั้งแต่กลางปีที่ผ่านมา แต่ระบุเพียงว่ากำลังอยู่ระหว่างการพัฒนา โดยคะแนนที่เปิดเผยออกมานั้นแสดงให้เห็นว่าคะแนนทดสอบลดลงจาก Gemini 1.5 Flash ค่อนข้างชัดเจน หากเทียบกับ Llama 3.1 8B ก็ยังถือว่าคะแนนแย่กว่าในการทดสอบส่วนใหญ่ แต่ฟีเจอร์ multimodal และ context window ก็ทำให้มีแนวทางการใช้งานที่หลากหลาย ผมทดลองแปลงเสียงภาษาไทยเป็นข้อความด้วย Gemini Flash-8B ก็ใช้งานได้ค่อนข้างแม่นยำ
กูเกิลเริ่มปล่อยฟีเจอร์ใหม่ "Help me create a list" ของ Google Keep ที่ให้ Gemini ช่วยสร้างลิสต์สิ่งที่ต้องทำให้เราได้
ตัวอย่างการใช้งานคือ เราสามารถสั่ง Gemini ให้สร้างรายการซื้อของสดสำหรับครอบครัว 4 คน ใช้เป็นเวลา 1 สัปดาห์ ซึ่ง Gemini จะร่างรายการซื้อผักสด ผลไม้สด เนื้อ ปลา นม ขนมปัง ฯลฯ มาให้เราอัตโนมัติ หากโอเคแล้วก็กดปุ่มเพื่อสร้างเป็นรายการ list ใน Google Keep ได้ทันที
9to5google รายงานว่าฟีเจอร์นี้ทยอยปล่อยให้มือถือหลายรุ่นใช้งานแล้ว โดยใช้ฟรีบนมือถือกลุ่ม Pixel แบบจำกัดจำนวนครั้ง แต่ถ้าเป็นมือถือ Android รุ่นอื่นๆ หรืออยากใช้แบบไม่จำกัดบน Pixel จำเป็นต้องสมัครแพ็กเกจ Google One AI Premium