Sundar Pichai ซีอีโอกูเกิลให้สัมภาษณ์กับ Wired เนื่องในโอกาสเปิดตัว Gemini Advanced ซึ่งเป็นโมเดลปัญญาประดิษฐ์ที่เก่งที่สุดของกูเกิลในตอนนี้
Pichai บอกว่าจุดเด่นที่สุดของ Gemini คือความเป็น multimodal หรือการเทรนด้วยข้อมูลหลากหลายประเภท เช่น ข้อความ รูปภาพ เสียง โค้ดโปรแกรม ทำให้ Gemini รองรับอินพุตหลากหลายตั้งแต่ต้น มนุษย์สามารถสั่งงาน Gemini ได้ผ่านข้อความ เสียง หรือรูปภาพ แบบไม่ต้องแปลงฟอร์แมตก่อน ตรงนี้เป็นสิ่งที่ Gemini แตกต่างจากคู่แข่งฝั่ง OpenAI/Microsoft ที่โมเดลแต่ละตัวทำงานแยกจากกัน
หลังจากกูเกิลเริ่มปล่อยโมเดล Gemini Ultra ให้ใช้งานกันเมื่อคืนนี้ ก็เริ่มมีการเปรียบเทียบกับโมเดลอื่นในท้องตลาด โดยเฉพาะ GPT-4 ที่ยังเป็นผู้นำตลาดอยู่ในตอนนี้
Ethan Mollick อาจารย์ที่ Wharton School of the University of Pennsylvania ซึ่งมีโอกาสได้ลองใช้งาน Gemini Ultra ก่อนคนทั่วไปมาราวหนึ่งเดือน ได้โพสต์แสดงความเห็นในฐานะคนที่ลองใช้งานมาแล้วอย่างจริงจัง ระบุว่า โมเดล Gemini Ultra (ให้บริการภายใต้ชื่อ Gemini Advanced) ถือเป็นโมเดลระดับเดียวกับ GPT-4 อย่างชัดเจน ทำให้ตอนนี้วงการ AI มีโมเดลชั้นนำ 2 ตัว จากเดิมที่มีแค่ GPT-4 ตัวเดียว
กูเกิลรวมบริการด้าน LLM ที่เคยมีหลายชื่อ เช่น Bard, Duet AI เข้าเป็นชื่อ Gemini พร้อมกับปล่อยแอป Gemini เฉพาะบนแอนดรอยด์ และใส่ฟีเจอร์ Gemini ในแอป Google บน iOS
บริการ LLM บน Google Workspace จะเปลี่ยนชื่อเป็น Gemini for Workspace, บริการ Duet AI ใน Google Cloud จะเปลี่ยนชื่อเป็น Gemini เช่นเดียวกับบริการ Bard ก็เปลี่ยนชื่อเป็น Gemini เช่นกัน
กูเกิลปล่อย Gemini Ultra 1.0 โมเดลรุ่นใหญ่ที่สุดในตระกูล Gemini ที่กูเกิลระบุว่าคะแนนทดสอบสูงกว่า GPT-4 โดยเปิดบริการ Gemini Advanced ให้ผู้ใช้ Google One แพ็กเกจระดับ AI Premium ที่มาพร้อมพื้นที่เก็บข้อมูล 2TB ราคาเดือนละ 750 บาท พร้อมช่วงทดสอบฟรีสองเดือน
ราคานี้ใกล้เคียงกับ Copilot Pro ของไมโครซอฟท์ที่เปิดให้ผู้ใช้ทั่วไปซื้อแพ็กเกจ GPT-4 ใช้งาน แต่ถูกกว่า Copilot for Microsoft 365 สำหรับลูกค้าองค์กรที่ราคา 30 ดอลลาร์ต่อเดือน
เมื่อไม่นานมานี้เพิ่งมีข่าวว่า กูเกิลจะเลิกใช้ชื่อ Assistant with Bard เปลี่ยนมาใช้ชื่อ Bard แต่ล่าสุดเหมือนคดีพลิกอีกแล้ว เพราะมีหลักฐานใหม่ว่ากูเกิลจะเลิกใช้ชื่อ Bard และเปลี่ยนมาใช้ชื่อ Gemini แทนทั้งหมด
ข้อมูลนี้มาจากผู้ใช้ทวิตเตอร์ชื่อ @evowizz ที่พบภาพหน้าจอของเว็บ Bard ระบุว่า Bard is now Gemini ส่วน 9to5google ลองแกะไฟล์ APK ของแอพ Google Assistant และพบว่าข้อความ Bard ถูกเปลี่ยนเป็น Gemini แล้วเช่นกัน
ที่มา - 9to5google
กูเกิลปล่อย Gemini Pro ใน Bard ทุกภาษาแล้ว หลังจากเมื่อปีที่แล้วจำกัดเฉพาะภาษาอังกฤษ ส่วนภาษาอื่นๆ ยังใช้ PaLM-2 มาตลอด การเปลี่ยนแปลงครั้งนี้ทำให้ Bard สามารถสรุป, ทำความเข้าใจ, และให้เหตุผลได้ดีขึ้น
นอกจากการเปลี่ยนโมเดลด้านหลังแล้ว Bard ยังเพิ่มอีกสองฟีเจอร์ ได้แก่
กูเกิลชูประเด็นที่ Bard ได้คะแนนสูงใน LMSYS ว่ายืนยันผลทดสอบที่กูเกิลจ้างบริษัทภายนอกมาสำรวจก่อนหน้านี้
LMSYS ผู้จัดอันดับแชตบอทโดยอาศัย Chatbot Arena เป็นการ "ต่อสู้" ระหว่างแชตบอทสองตัวให้ตอบคำถามเดียวกันแล้วให้ผู้ใช้เลือกว่าชอบคำตอบฝั่งใด รายงานผลรอบล่าสุดวันที่ 26 มกราคม 2024 และพบว่า Bard รุ่นที่ใช้ Gemini Pro นั้นแซงหน้า GPT-4 ขึ้นมาเป็นรองเพียง GPT-4 Turbo เท่านั้น
กูเกิลเปิดตัว Gemini โดยระบุว่าทดสอบวงปิดกับผู้ทดอบแล้วว่า Bard รุ่นใหม่นี้เป็นแชตบอทฟรีที่คุณภาพสูงสุดในตลาด ผลการทดลองนี้ก็ดูจะสนับสนุนว่า Gemini ให้ผลโดยรวมที่ดีในภาพรวมจริงๆ
กูเกิลประกาศนำโมเดลภาษา Gemini เข้ามาใช้งานใน Google Ads เพื่อช่วยเขียนข้อความโฆษณาได้สะดวกสบายกว่าเดิม ฟีเจอร์นี้เปิดตัวมาตั้งแต่ Google I/O 2023 แต่เพิ่งเริ่มปล่อยให้ใช้งานจริง
บริการนี้จะเพิ่มหน้าต่างแชทลักษณะเดียวกับ Bard หรือใน Google Workspace เข้ามาด้านข้าง เราสามารถใส่ลิงก์เว็บของเราเอง แล้วสั่งให้ Gemini เข้าไปอ่านข้อมูลบนหน้าเว็บ เพื่อร่างข้อความโฆษณามาให้เราตรวจก่อนได้ (ตอนนี้ยังรองรับเฉพาะภาษาอังกฤษ) ผลจากการทดลองกับผู้ใช้บางกลุ่มพบว่าโฆษณามีคุณภาพ (ตามมาตรฐาน Ad Strength ของกูเกิลเอง) ดีขึ้นมาก
Galaxy s24 ที่โฆษณาว่าเป็น AI Phone มีฟีเจอร์หลายอย่างที่ซัมซุงร่วมพัฒนากับกูเกิล เช่น Circle to Search
ฝั่งกูเกิลเองออกมาเปิดเผยว่าพลัง AI ของ Galaxy S24 ใช้โมเดล Gemini ตัวใหม่ที่เพิ่งเปิดตัวเมื่อเดือนธันวาคม 2023 โดยมีทั้ง Gemini Pro รุ่นมาตรฐานทำงานฝั่งเซิร์ฟเวอร์ และ Gemini Nano โมเดลขนาดเล็กที่รันในเครื่อง ไม่ต้องต่อเน็ต
หลัง Google เปิดตัว Gemini 1.0 โดยมี 3 เวอร์ชันคือ Nano ที่ใช้ใน Pixel แล้ว, Pro ที่ใช้ใน Bard และ Ultra ที่กำลังจะใช้บน Bard Advanced และจะเปิดตัวในปีนี้
ล่าสุดมีนักพัฒนาค้นพบว่า Bard Advanced จะเป็นแบบเสียเงิน (แบบเดียวกับ GPT Plus) โดยจะผูกอยู่กับบริการ Google One ซึ่งช่วงแรกจะเป็นการให้ทดลองใช้ฟรี 3 เดือน
มีรายงานจาก The Information ถึงแผนการพัฒนาสมาร์ทโฟน Pixel 9 และ Pixel 9 Pro ของกูเกิล โดยจะเน้นฟีเจอร์ด้าน AI มากขึ้นกว่าเดิม และเอ็กคลูซีฟสำหรับ Pixel เท่านั้นด้วย
โดยคาดว่า Pixel 9 จะมี AI ผู้ช่วยที่พัฒนาบน Gemini ชื่อเรียกว่า Pixie อาศัยข้อมูลของบริการกูเกิลที่อยู่ในโทรศัพท์ ทำให้การทำงานถูกปรับแต่งค่าสำหรับบุคคล (personalized) มากขึ้นกว่า Google Assistant
กูเกิลเปิดให้นักพัฒนาใช้งานโมเดลปัญญาประดิษฐ์ Gemini Pro รุ่นกลางที่ใช้งานใน Bard ตั้งแต่สัปดาห์ที่แล้ว โดยนักพัฒนาสามารถใช้งานได้ฟรีทุกคนในช่วงทดสอบ จำกัดเพียงแค่ห้ามคิวรีเกิน 60 ครั้งต่อนาทีเท่านั้น
โมเดลที่ปล่อยให้ใช้งาน มีทั้ง Gemini Pro ตัวปกติรองรับเฉพาะข้อความ รองรับ context ขนาด 32K และ Gemini Pro Vision ใส่ภาพประกอบได้ด้วย ความพิเศษของ Gemini Pro ที่ปล่อยให้ใช้งานผ่าน API คือมันรองรับภาษาอื่นๆ นอกจากภาษาอังกฤษ รวมทั้งหมด 38 ภาษา
SDK ที่ปล่อยออกมานั้นเปิดให้นักพัฒนาสามารถใช้งานแบบ Generate Content ที่สร้างข้อความต่อจากข้อความที่ผู้ใช้ใส่ลงไป หรือแบบ Chat ที่เป็นการพูดคุยต่อๆ กัน โดยยังไม่มี API แบบ Agent แบบเดียวกับ Assistant API ของ OpenAI
Jeff Dean หัวหน้านักวิทยาศาสตร์ของกูเกิล และหัวหน้าทีม (ร่วม) ของ Gemini โพสต์อธิบายที่มาของชื่อ Gemini ว่ามาจากคำว่า "ฝาแฝด" ในภาษาละติน
เหตุผลที่กูเกิลเลือกใช้ชื่อนี้เป็นเพราะต้องการสะท้อนผลงานของ Google DeepMind ที่เกิดจากการรวมทีม Google Brain และ DeepMind เข้าด้วยกัน ก่อนหน้านี้กูเกิลมีทีม AI หลักสองทีม ต่างคนต่างทำโมเดล LLM แยกจากกัน คือ Google Brain (PaLM/PaLM2) และ DeepMind (โมเดลชื่อ Chinchilla) แต่ภายหลังกูเกิลตัดสินใจจับมารวมกัน พัฒนาโมเดลร่วมกัน และช่วยให้ดึงทรัพยากรส่วนอื่นของกูเกิลมาช่วยงานได้อีกมาก
กูเกิลเปิดบริการ NotebookLM แอพจดโน้ตพลัง AI สำหรับผู้ใช้ทั่วไป แต่ยังจำกัดประเทศเฉพาะในสหรัฐอเมริกาเท่านั้น
NotebookLM หรือชื่อเดิม Project Tailwind เป็นโครงการทดลอง (experimental) ที่กูเกิลโชว์ครั้งแรกในงาน Google I/O 2023 มันเป็นแอพจดโน้ตที่ใช้โมเดลภาษาขนาดใหญ่ (LLM) มาช่วยสรุปเนื้อหาจากเอกสาร (เช่น PDF) ที่เราอัพโหลดขึ้นไป เมื่อ LLM เรียนรู้จากเอกสารก็จะกลายเป็นผู้เชี่ยวชาญในเรื่องนั้น ที่สามารถตอบคำถามหรือร่างเนื้อหาจากเอกสารให้เราได้
กูเกิลยังปรับปรุงโมเดล LLM มาเป็น Gemini Pro ที่มีความสามารถมากขึ้น และเพิ่มฟีเจอร์การเซฟคำตอบของ NotebookLM เก็บไว้ใช้งานภายหลังได้
กูเกิลเปิดตัวปัญญาประดิษฐ์ LLM ตัวใหม่ Gemini 1.0 อย่างเป็นทางการเมื่อวันก่อน ที่กูเกิลบอกว่าผลทดสอบความสามารถสูงเหนือกว่าคู่แข่ง และออกคลิปวิดิโอนำเสนอความสามารถ Gemini ในหลากหลายด้านออกมาด้วย
มีคลิปวิดีโอหนึ่งที่ดูจะเป็นประเด็นมากกว่าตัวอื่น มีชื่อว่า Hands-on with Gemini: Interacting with multimodal AI โดยวิดีโอนี้สาธิตการโต้ตอบของ Gemini ผ่านการให้ข้อมูลในรูปแบบต่าง ๆ เพื่อแสดงว่า Gemini เป็นโมเดล AI ที่ทำงานกับข้อมูลแบบผสมผสาน (multimodal) ได้อย่างดี
กูเกิลเผยรายละเอียดของ AICore ซึ่งเป็นเซอร์วิสตัวใหม่ของ Android 14 ที่ใช้รันโมเดล AI ภายในเครื่อง โดยเริ่มจากโมเดลใหม่ Gemini Nano เป็นตัวแรก
AICore ถือเป็นเซอร์วิสของระบบปฏิบัติการ ลักษณะเดียวกับ ARCore ที่ใช้รันงาน AR ก่อนหน้านี้ หน้าที่ของมันคือเป็นตัวกลางที่ให้แอพเรียกใช้ฟีเจอร์ด้าน AI แล้วตัวมันเองไปรันงานบนชิป Google Tensor TPU (หากเป็นมือถือกูเกิล) หรือ NPU (หากเป็นชิป Qualcomm/Samsung) อีกที
กูเกิลออก Pixel Feature Drop รอบเดือนธันวาคม 2023 ให้มือถือตระกูล Pixel
ฟีเจอร์เด่นของการอัพเดตรอบนี้คือ Pixel 8 Pro จะได้ใช้โมเดลปัญญาประดิษฐ์รุ่นใหม่ล่าสุด Gemini Nano ที่เปิดตัวเมื่อคืนนี้ มาช่วยงานหลายอย่าง ได้แก่
กูเกิลประกาศเปลี่ยนเอนจินด้านหลัง Bard ไปใช้ Gemini Pro ที่เปิดตัวมาวันนี้ ทำให้ความสามารถน่าจะดีขึ้นมากจากเดิมที่ใช้ PaLM-2
Gemini Pro ที่ใช้ใน Bard จะเป็นรุ่นปรับปรุงมาเป็นพิเศษ เป็นความสามารถที่คนใช้งานในแชตบ่อยๆ เช่น การทำความเข้าใจข้อความ, สรุปบทความ, การให้เหตุผล, เขียนโปรแกรม, และการวางแผนต่างๆ โดยหลังจากปรับจูนโมเดลมาแล้วกูเกิลได้ขอให้ผู้ทดสอบภายนอกมาเทียบกับบริการแชตอื่นๆ ก็พบว่า Bard รุ่นใหม่นี้เป็นบริการฟรีที่ดีที่สุด
ปีหน้ากูเกิลจะเปิดบริการ Bard Advanced ที่ใช้ Gemini Ultra โดยยังอยู่ระหว่างการทดสอบความปลอดภัย และเมื่อเปิดใช้งานก็จะเปิดวงเล็กให้ทดสอบก่อนจะเปิดใช้งานจริง โดยตอนนี้ยังไม่แน่ชัดว่า Bard Advanced จะเก็บค่าบริการแบบเดียวกับ ChatGPT Plus หรือไม่
กูเกิลเปิดตัว Gemini 1.0 ปัญญาประดิษฐ์แบบ LLM ที่เคยเปิดตัวไว้ตั้งแต่งาน Google I/O ที่ผ่านมา โดยระบุว่าผลการทดสอบคะแนนต่างๆ นั้น Gemini ชนะ GPT-4 แทบทุกการทดสอบ
Gemini เป็นโมเดลปัญญาประดิษฐ์แบบ multimodal ตั้งแต่แรก โดยรองรับข้อมูลทั้ง ข้อความปกติ, โค้ด, เสียง, ภาพ, และวิดีโอ ในเวอร์ชั่น 1.0 กูเกิลระบุว่ามี 3 ขนาด ได้แก่ Gemini Ultra ขนาดใหญ่ที่สุด รองรับงานซับซ้อนสูง, Gemini Pro ขนาดรองลงมาโดยยังทำงานได้หลากหลาย, Gemini Nano โมเดลประสิทธิภาพสูงสำหรับรันบนโทรศัพท์มือถือ
เว็บไซต์ The Information รายงานข่าวลือว่า Gemini โมเดลปัญญาประดิษฐ์ตัวใหม่ของกูเกิล อาจต้องเลื่อนการเปิดตัวออกไป จากเดิมที่มีแผนเปิดตัวสัปดาห์หน้า กลายเป็นเดือนมกราคม 2024
Gemini เป็นปัญญาประดิษฐ์ที่กูเกิลหวังใช้ต่อกรกับ GPT ของ OpenAI โดยต้องใช้พลัง Google + DeepMind ทำงานร่วมกัน และมีข่าวว่า Sergey Brin กลับมาช่วยโปรเจคนี้ด้วยตัวเอง
The Wall Street Journal รายงานว่าผลจากกระแสของ AI ทำให้ตอนนี้ Sergey Brin ผู้ร่วมก่อตั้งกูเกิล กลับเข้ามาร่วมประชุมที่สำนักงานใหญ่ของกูเกิลเป็นประจำ โดยเขาเข้ามาทำงานที่สำนักงานสัปดาห์ละ 3-4 วัน งานหลักคือประชุมกับฝ่ายวิจัยพัฒนาด้าน AI
Brin และ Larry Page ผู้ร่วมก่อตั้งกูเกิลอีกคน ลดบทบาทการทำงานประจำที่กูเกิลมาหลายปีแล้ว เหลือเฉพาะการเป็นผู้ถือหุ้นและกรรมการบริษัท แต่จากการพัฒนาที่รวดเร็วของแชทบอต AI ในปีที่ผ่านมา ทำให้มีข่าวว่าทั้งสองคนเริ่มกลับมาช่วยงานกลยุทธ์มากขึ้น
Demis Hassabis ผู้ร่วมก่อตั้งและซีอีโอ DeepMind ให้ข้อมูลล่าสุดของโมเดล AI ที่ชื่อ Gemini ซึ่งตอนนี้อยู่ในขั้นตอนการพัฒนา และเป็นโมเดลแบบ Large Language ประเภทเดียวกับ GPT-4 ของ OpenAI ที่ปัจจุบันเป็น AI เบื้องหลังแชทบอต ChatGPT
เขาบอกว่าวิธีการที่ Gemini เรียนรู้และพัฒนานั้นเป็นเทคนิคเดียวกับที่ใช้ใน AlphaGo ซึ่งเป็น AI เล่นหมากล้อมที่สร้างชื่อเสียงให้ DeepMind โดย Gemini จะมีความสามารถในการแก้ไขปัญหาที่ซับซ้อน ขณะเดียวกันก็เรียนรู้วิเคราะห์ข้อมูลเพิ่มความสามารถทางภาษาจาก Large Model ได้ด้วย
Sundar Pichai เปิดเผยในงาน Google I/O ว่ากูเกิลเริ่มพัฒนาโมเดล AI ตัวใหม่แล้ว ใช้ชื่อว่า Gemini
Gemini เป็นโมเดลพื้นฐาน (foundational model) ที่พัฒนาขึ้นมาใหม่ทั้งหมด มีประสิทธิภาพสูง ตอนนี้ยังอยู่ระหว่างการเทรน และหลังจากนี้จะปรับจูนเพื่อนำมาใช้งานจริงต่อไป
ช่วงหลังๆ กูเกิลใช้วิธีทยอยเปิดตัวโมเดลใหม่ปีละ 2 ตัว โดยเป็นโมเดลรุ่นปัจจุบันและรุ่นถัดไป เมื่อปีที่แล้ว 2022 เราเห็น LaMDA 2 และ PaLM ส่วนปีนี้ 2023 มี PaLM 2 และ Gemini โดย PaLM 2 นำมาใช้งานในผลิตภัณฑ์หลายตัวของปีนี้แล้ว