กูเกิลปล่อยโมเดล Gemini สองรุ่นพิเศษ คือ Gemini 2.0 Flash Thinking และ LearnLM ให้ใช้งานใน AI Studio โดยทั้งสองรุ่นยังเป็นรุ่นทดสอบอยู่
Gemini 2.0 Flash Thinking ถูกฝึกให้คิดการทำงานเป็นขั้นๆ ทำให้สามารถคิดงานที่ซับซ้อน ปัญหาเชาว์ที่ต้องคิดหลายชั้น ผลทดสอบตอนนี้มีเพียง LM Arena ที่ออกมาระบุว่าโมเดลนี้ขึ้นอันดับหนึ่งการทดสอบแทบทุกหมวด ยกเว้น Math Arena ที่ยังเป็นรอง o1-preview อยู่แต่ก็ใกล้เคียงกันขึ้นมาก จากเดิมที่ Gemini Exp 1206 ตามหลัง o1-preiew และ o1-mini
ขยันปล่อยของใหม่กันมาทุกวัน หลังจากเปิดตัว Gemini 2.0 Flash โมเดลตัวแรกในชุด Gemini 2.0 ซึ่งยังเป็นโมเดลขนาดเล็กที่สุด
กูเกิลก็เดินหน้าปล่อยโมเดลตัวใหม่ตามมาทันที ใช้ชื่อว่า Gemini-Exp-1206 เป็นโมเดลรุ่นทดสอบในตระกูล Gemini 2.0 Experimental Advanced ที่บอกว่ามีความสามารถสูงขึ้น ทั้งในเรื่องการเขียนโค้ด แก้โจทย์คณิตศาสตร์ การให้เหตุผล การทำตามคำสั่งเป็นขั้นตอน ฯลฯ
กูเกิลไม่ได้เปิดเผยตัวเลขเบนช์มาร์คเหมือนกับ Gemini 2.0 Flash แต่มีคนลองรันทดสอบกับบางงาน เช่น Text2SQL แล้ว พบว่า Gemini-Exp-1206 ให้ผลออกมาดีที่สุด
โมเดล Gemini-Exp-1206 เปิดให้ลูกค้าแพ็กเกจ Gemini Advanced แบบเสียเงินลองใช้งานแล้ว
กูเกิลอัพเกรดความสามารถของ Gemini Code Assist บริการ AI ช่วยแนะนำโค้ดที่เปิดตัวในเดือนเมษายน 2024
อย่างแรกคือการปรับมาใช้โมเดล Gemini 2.0 Flash ตัวใหม่ ให้คำตอบมีคุณภาพสูงขึ้น และระยะเวลาการตอบสั้นลง
กูเกิลเปิดบริการ Google Agentspace บริการแชตกับข้อมูลภายในองค์กรที่สามารถเชื่อมกับแหล่งข้อมูลต่างๆ ไม่ว่าจะเป็น Google Drive, Sharepoint หรือแอปพลิเคชั่นงานอย่าง ServiceNow, Jira
แนวทางการใช้งาน คือการสร้าง agent สำหรับงานประเภทต่างๆ เช่น ฝ่ายบุคคลต้องการสร้าง HR Agent เพื่อตอบคำถามเกี่ยวกับสวัสดิการ และกฎการทำงานต่างๆ หรือฝ่ายการเงินอาจจะสร้าง agent สำหรับการเบิกค่าใช้จ่ายต่างๆ บริการนี้รวมเอา NotebookLM Enterprise ไว้ในตัว ทำให้สามารถค้นข้อมูลจากแหล่งต่างๆ รวมเอาเป็นรายงานฉบับเดียว แล้วสร้าง podcast ไว้ฟังสรุปได้ทีเดียว
วันนี้หลังจากกูเกิลเปิดตัว Gemini 2.0 Flash เอกสารสำหรับนักพัฒนาก็แสดงฟีเจอร์เพิ่มเติมที่ไม่ได้อยู่ในประกาศเปิดตัวโดยตรง ได้แก่
กูเกิลเปิดตัว Gemini 2.0 Flash รุ่นทดสอบ เป็นโมเดลแรกในกลุ่ม Gemini 2.0 ที่น่าจะเปิดตัวตามกันออกมา โดยความสามารถสำคัญคือการตอบคำถามด้วย ภาพ, ข้อความ, และเสียง โดยไม่ต้องใช้โมเดลอื่นๆ มาสร้างภาพให้
ผลทดสอบของ Gemini 2.0 Flash ดีขึ้นในการทดสอบสำคัญๆ หลายส่วนโดยเฉพาะการทดสอบการเขียนโค้ด, คณิตศาสตร์, และความรู้ทั่วไป สามารถทำคะแนนได้ดีกว่า Gemini 1.5 Pro เสียอีก อย่างไรก็ดีคะแนนบางส่วนแย่ลงกว่า Gemini 1.5 Flash บ้าง เช่น คะแนนทดสอบการแปลเสียงเป็นข้อความ หรือการทำความเข้าใจข้อมูลขนาดยาว แต่คะแนนก็ลดลงไม่มากนัก สำหรับนักพัฒนา Gemini 2.0 สามารถค้นกูเกิล, รันโค้ด, และเรียกฟังก์ชั่นภายนอกได้ในตัว
กูเกิลทดสอบความสามารถชอง Gemini 2.0 ด้วย โครงการสาธิตต่างๆ ได้แก่
จุฬาลงกรณ์มหาวิทยาลัยเปิดตัวบริการ ChulaGENIE ผู้ช่วยแบบ LLM สำหรับบุคลากรและนิสิตรวมกว่า 50,000 คน โดยภายในเป็นการซื้อ Gemini Pro และ Gemini Flash แบบ API ผ่านทางบริการ Vertex AI บน Google Cloud มาเปิดให้ภายในใช้งาน
บริการนี้เตรียมเปิดตัวเป็นเฟส โดยช่วงแรกมกราคม 2025 จะเปิดให้เฉพาะคณาจารย์และบุคลากรก่อน จากนนั้นจึงเปิดให้นิสิตทุกคนใช้งานในเดือนมีนาคม ช่วงแรกจะใช้ Gemini 1.5 Flash และ Gemini 1.5 Pro โดยมีแผนจะเพิ่มตัวเลือก Claude และ Llama ต่อไป
หน้าจอ ChulaGENIE ที่เปิดเผยออกมานั้นเหมือนกับโครงการ OpenWebUI ที่เป็นโครงการโอเพนซอร์สที่ได้รับความนิยมสูง ภายในมีการสร้างตัวช่วยเฉพาะเรื่อง เช่น ผู้ช่วยงานวิจัย, ผู้ช่วยการศึกษา, และผู้ช่วยด้านการบริหารและธุรการ
กูเกิลเปิดให้ลูกค้า Google Workspace ที่เป็นบัญชีองค์กรและบัญชีสถาบันการศึกษา ไม่ใช่บัญชีส่วนตัว สามารถดาวน์โหลดและใช้งานแอพ Gemini บนมือถือทั้ง Android และ iOS แล้ว
ในแง่ฟีเจอร์ของแอพ Gemini บนมือถือคงไม่ต่างอะไรจากเวอร์ชันบัญชีส่วนตัวที่ใช้กันอยู่แล้ว และไม่เกี่ยวอะไรกับ Gemini เวอร์ชันเว็บที่บัญชีองค์กรก็ได้ใช้กันมาก่อนแล้วเช่นกัน
กูเกิลบอกว่าการใช้ Gemini ในองค์กรจะปฏิบัติตามเงื่อนไข enterprise data protection ตามปกติ และแอดมินองค์กรสามารถบล็อคการติดตั้ง Gemini บนมือถือได้เหมือนการบล็อคแอพทั่วไป
ที่มา - Google Workspace Updates
กูเกิลออกส่วนขยายของแอพ Gemini บนมือถือ ที่น่าจะมีคนรอใช้กันมากที่สุดตัวหนึ่งคือ ใช้ควบคุมการเล่นเพลงของ Spotify
Gemini ในฐานะผู้ช่วยส่วนตัว (personal assistant) มีระบบ extension เพื่อรองรับการเชื่อมต่อกับแอพอื่นๆ ก่อนหน้านี้กูเกิลได้ออก ส่วนขยายควบคุมแอพอื่นในมือถือ และส่วนขยายควบคุมบ้านสมาร์ทโฮม คราวนี้เป็นคิวของการควบคุมเพลงบน Spotify เริ่มทยอยปล่อยให้ผู้ใช้บางกลุ่มแล้ว
ส่วนขยายควบคุม Spotify ถือเป็นส่วนขยายด้านเพลงตัวที่สองของ Gemini โดยก่อนหน้านี้รองรับ YouTube Music ของกูเกิลเอง
กูเกิลและ OpenAI ผลัดกันชิงอันดับหนึ่งบนการจัดอันดับ Chatbot Arena ของ LMSys โดยสัปดาห์ที่ผ่านมานับเป็นช่วงที่แข่งกันดุเดือดเป็นพิเศษเพราะเอาชนะสลับกันหลายรอบในสัปดาห์เดียว
การแข่งขันรอบนี้เริ่มจากกูเกิลปล่อย API เวอร์ชั่นพิเศษ Gemini-Exp-1114 ที่เปิดให้ใช้งานเฉพาะใน AI Studio เท่านั้น โมเดลเวอร์ชั่นนี้เอาชนะโมเดลราคาแพงของ OpenAI อย่าง o1-preview และ o1-mini ไปได้ แต่หลังจากนั้น OpenAI ก็ปล่อยโมเดล ChatGPT-4o-latest เวอร์ชั่น 20 พฤศจิกายนออกมา เอาชนะ Gemini กลับไปได้อีกครั้ง แต่ชนะได้เพียงวันเดียวกูเกิลก็ปล่อย Gemini-Exp-1121 ออกมาอีกรอบ และทำคะแนนเอาชนะ ChatGPT-4o ตัวล่าสุดไปได้อีกครั้ง
กูเกิลเพิ่มความสามารถให้ Gemini Advanced สามารถจดจำข้อมูลพื้นฐานที่ผู้ใช้งานต้องการได้แล้ว เช่น อาชีพ ความสนใจ หรืองานอดิเรก เพื่อให้ Gemini สามารถให้คำตอบที่ตรงกับความต้องการมากยิ่งขึ้น
ในการใช้งานให้ไปที่ Settings > Saved info แล้วเพิ่มข้อมูลที่ต้องการ Gemini จดจำอ้างอิงในการให้คำตอบ ในระหว่างการสนทนาผู้ใช้งานยังสามารถสั่งให้ Gemini เพิ่มข้อมูลใน Saved info ได้ด้วย ข้อมูลนี้สามารถปรับเปลี่ยนแก้ไขได้ตามที่ต้องการ
ฟีเจอร์ Saved info รองรับเฉพาะผู้ใช้งาน Gemini Advanced บัญชีบุคคลเท่านั้น ไม่รองรับในบัญชีองค์กรหรือการศึกษา ตอนนี้รองรับเฉพาะภาษาอังกฤษ และยังไม่สามารถใช้งานกับ Gemini Live ได้
กูเกิลประกาศเพิ่มความสามารถใหม่ให้ Gemini สำหรับลูกค้าองค์กร Google Workspace เพื่อให้ใช้งาน Gemini ในเชิงลึกมากยิ่งขึ้น
โดย Gems เครื่องมือสร้างคัสตอมแชทบอตที่กำหนดความสามารถเฉพาะ ซึ่งกูเกิลบอกว่าเป็นเครื่องมือหนึ่งที่ลูกค้า Gemini Advanced ใช้งานมากที่สุด รองรับไฟล์ข้อมูลหลายฟอร์แมตได้แก่ Google Docs, Google Sheets, TXT, DOC, DOCX, PDF, RTF, DOT, DOTX, HWP, HWPX, XLS, XLSX, CSV, TSV โดยกรณีของ Google Docs และ Google Sheets นั้น Gems จะเรียนรู้ข้อมูลใหม่เมื่อพบการอัปเดตไฟล์ด้วย
กูเกิลยังเพิ่ม Premade Gems ชุดคัสตอมแชทบอตที่กำหนดความสามารถเฉพาะด้านมาแล้ว เช่น การตลาด, การขาย, การจ้างงาน, การเขียนก๊อปปี้ เป็นต้น
หลังจากเปิดให้ดาวน์โหลดในบางประเทศ ตอนนี้ Google Gemini เวอร์ชันสำหรับ iOS ได้เปิดให้ดาวน์โหลดใน App Store ของประเทศไทยแล้ว ซึ่งในอันดับแอปฟรียอดนิยมของสโตร์ประเทศไทยล่าสุดอยู่ที่อันดับ 6
Google Gemini เป็นแอปแยกสำหรับใช้งานปัญญาประดิษฐ์ Gemini โดยเฉพาะ จากเดิมต้องใช้งานผ่านแอป Google ซึ่งในแอปแยกนี้มีความสามารถการสั่งงานด้วยเสียงเพิ่มเติม ส่วนฝั่ง Android มีแอปแยกออกมาก่อนหน้าแล้ว
แอพ Gemini บนมือถือ Android เริ่มเปิดให้ใช้งานส่วนขยาย (extension) สำหรับควบคุมอุปกรณ์สมาร์ทโฮมผ่านแพลตฟอร์ม Google Home
แอพ Gemini ในช่วงแรกๆ ยังขาดฟีเจอร์ด้านการควบคุมและสั่งการแอพ-อุปกรณ์ภายนอกแบบเดียวกับที่ Google Assistant เคยทำได้ แนวทางของกูเกิลคือค่อยๆ เปิดให้ใช้งานผ่าน extension ซึ่งก่อนหน้านี้ เพิ่งออก Utilities Extension ที่สั่งงานแอพตัวอื่นๆ ในสมาร์ทโฟนได้
ฟีเจอร์ของข่าวนี้คือ Google Home Extension ต้องเปิดใช้งานในหน้า Settings ของแอพ Gemini ก่อน จากนั้นเราสามารถสั่งงานให้ Gemini เปิดไฟ ปรับแอร์ ปิดผ้าม่าน ควบคุมทีวี ปรับเสียงลำโพง ฯลฯ ได้แบบเดียวกับที่ทำผ่านแอพ Google Home
มีรายงานว่ากูเกิลได้เริ่มปล่อยแอป Google Gemini เวอร์ชัน iOS โดยสถานะตอนนี้ยังทดสอบเฉพาะในบางพื้นที่ หลังจากมีแอป Android ออกมาแบบจำกัดกลุ่มตั้งแต่ต้นปี
ปัจจุบันผู้ใช้งาน iOS สามารถเรียกใช้ฟีเจอร์ Gemini ผ่านแอป Google ได้ แต่ในแอป Gemini จะมีฟีเจอร์สั่งงานด้วยเสียง Gemini Live เพิ่มมา ซึ่งผู้ใช้ Android ได้ฟีเจอร์นี้ในเวอร์ชันภาษาอังกฤษทั้งหมดแล้ว
ในตอนนี้พบว่ามีเฉพาะ App Store ของฟิลิปปินส์ที่มีแอป Google Gemini ให้ดาวน์โหลด ซึ่งกูเกิลยังไม่ได้ให้รายละเอียดว่าจะเพิ่มเติมพื้นที่ทดสอบอย่างไร
กูเกิลจับมือกับบริษัท Sourcegraph ผู้พัฒนา AI ช่วยเขียนโค้ดชื่อ Cody ทดลองนำโมเดล Gemini 1.5 ที่รองรับอินพุตขนาดยาว 1 ล้านโทเคน ว่าช่วยให้คุณภาพของคำตอบดีขึ้นอย่างไร
Cody เป็นการนำ AI มาอ่านโค้ดภายในขององค์กรลูกค้า เพื่อช่วยให้ค้นหาและแนะนำการเขียนโค้ดใหม่ ใช้ร่วมกับ IDE ยอดนิยมทั้ง Visual Studio และตระกูล JetBrains ได้ โมเดลภาษาที่ Cody เลือกใช้งานเป็นโมเดลยอดนิยมหลายตัวในตลาด เช่น Claude 3/3.5, GPT-4o, Gemini, Mixtral (ลูกค้าเลือกเองโมเดลได้) โดยโมเดลที่ใช้งานในระดับโปรดักชันมีขนาด context window ยาว 10,000 โทเคน (10k)
กูเกิลประกาศว่า Google Vids แอปสร้างวิดีโอนำเสนอเอกสารด้วยปัญญาประดิษฐ์ Gemini จะเริ่มเปิดให้ใช้งานได้ทั่วไปแล้วสำหรับลูกค้า Workspace บางกลุ่ม ได้แก่ Business, Enterprise, Essentials และ Education Plus จากก่อนหน้านี้เปิดให้ใช้งานผ่าน Workspace Labs เฉพาะลูกค้าที่จ่ายแพ็คเกจเสริม Gemini for Workspace
Google Vids เปิดตัวมาตั้งแต่เดือนเมษายน ให้ผู้ใช้งานสร้างวิดีโอนำเสนอจากเอกสารใน Google Drive สามารถเลือกรูปแบบ ปรับแต่งภาพที่แทรก ไปจนถึงรายละเอียดเล็กน้อย สามารถแทรกวิดีโอบรรยายของตนเอง หรือบันทึกหน้าจอ หรือไฟล์เสียง เข้าไปเพิ่มเติมได้ด้วย
ต้องยอมรับว่ากูเกิลเปิดตัว Gemini หลัง ChatGPT เป็นเวลานานพอสมควร ทำให้ตลาด AI/LLM มุ่งไปที่ฝั่ง OpenAI กันหมด แอพที่เรียกใช้งาน LLM จึงมักเขียนเพื่อรองรับโมเดลของฝั่ง OpenAI โดยเรียกใช้ OpenAI Library (ทั้งที่เป็น official และ unofficial) กันซะเป็นส่วนใหญ่
ล่าสุดกูเกิลประกาศ "แฝงตัว" ให้รองรับการเรียกใช้ Gemini ผ่าน OpenAI Library ได้แล้ว ช่วยลดภาระการแก้โค้ดลง โดยโค้ดสามารถเรียกใช้ OpenAI Library ได้เหมือนเดิม แต่ในส่วนของโมเดลเปลี่ยนเป็นเรียก Gemini แทน ช่วยให้แก้โค้ดเพียงไม่กี่บรรทัดเท่านั้น
แนวทางของกูเกิลนั้นชัดเจนว่า ต้องการเอา Gemini มาเป็นผู้ช่วย AI แทน Google Assistant แต่ถึงแม้ Gemini สนทนาภาษามนุษย์ได้ลื่นไหลกว่า กลับยังขาดฟีเจอร์สั่งงานหลายๆ อย่างของ Assistant ทำให้ยังไม่สามารถแทนกันได้อย่างสมบูรณ์
ล่าสุด 9to5google รายงานว่า Gemini เริ่มออกส่วนขยายกลุ่ม Utilities Extension ที่สั่งงานควบคุมมือถือได้แบบเดียวกับที่ Assistant ทำได้แล้ว เช่น ตั้งนาฬิกาปลุก, ตั้งนาฬิกาจับเวลา, เปิดแอพ, เปิดเว็บ, ถ่ายภาพแบบตั้งเวลา, ปรับระดับเสียง, ปรับระดับความสว่างหน้าจอ, หยุด-เล่นเพลงหรือวิดีโอ เป็นต้น
กูเกิลอัพเดตบริการด้านแผนที่ทั้งสามตัว ได้แก่ Google Maps, Google Earth, และ Waze ให้สามารถพูดคุยเป็นภาษาธรรมชาติผ่านทาง Gemini
Alphabet บริษัทแม่ของกูเกิล รายงานผลประกอบการประจำไตรมาสที่ 3 ปี 2024 มีรายได้รวม 88,268 ล้านดอลลาร์ เพิ่มขึ้น 15% เทียบกับไตรมาสเดียวกันในปีก่อน มีกำไรสุทธิ 26,301ล้านดอลลาร์
รายได้รวมของกลุ่มธุรกิจหลัก Google Services เพิ่มขึ้น 13% เป็น 76,510 ล้านดอลลาร์ ซึ่งมาจากทั้งโฆษณาในเสิร์ช, โฆษณาใน YouTube ตลอดจน Subscription และฮาร์ดแวร์ ส่วนธุรกิจ Google Cloud ยังเติบโตสูง รายได้ 11,353 ล้านดอลลาร์ เพิ่มขึ้นถึง 35% จากความต้องการ Google Cloud Platform สำหรับ AI มีกำไรจากการดำเนินงานเฉพาะส่วนนี้ 1,947 ล้านดอลลาร์
GitHub ประกาศว่าฟีเจอร์ด้านปัญญาประดิษฐ์ GitHub Copilot จะเพิ่มทางเลือกให้ผู้ใช้งานมากขึ้นจากปัจจุบันที่เป็น GPT-4o โดยสามารถเลือกใช้โมเดล AI ได้ทั้ง Claude 3.5 Sonnet ของ Anthropic, Gemini 1.5 Pro ของกูเกิล และ o1-preview กับ o1-mini ของ OpenAI โดยจะเริ่มให้เลือกใช้งานได้ใน Copilot Chat ก่อน
ตัวเลือก o1-preview กับ o1-mini เริ่มเปิดให้ใช้งานได้ตั้งแต่วันนี้ ส่วน Claude 3.5 Sonnet จะมาในสัปดาห์หน้า และ Gemini 1.5 Pro จะตามมาในภายหลัง
Thomas Dohmke ซีอีโอ GitHub บอกว่าตอนนี้ไม่มีโมเดล AI ตัวใดที่สามารถใช้งานได้กับทุกสถานการณ์ นักพัฒนาจึงควรมีทางเลือกผู้ช่วยที่เหมาะกับแต่ละคนมากที่สุด
The Information รายงานความคืบหน้าของโครงการพัฒนา Gemini ที่ทำงานบน Chrome ซึ่งกูเกิลเปิดตัวไปในงาน I/O เดือนพฤษภาคม โดยบอกว่ากูเกิลน่าจะพรีวิวรุ่นทดสอบในเดือนธันวาคมนี้
AI ผู้ช่วยบน Chrome นี้จะทำงานด้วยโมเดล Gemini 2.0 ที่เพิ่งมีรายงานออกมา โดยมีชื่อโครงการว่า Project Jarvis ซึ่งก็อ้างอิงมาจาก Iron Man เป้าหมายคือเป็นผู้ช่วยที่ทำงานต่าง ๆ ผ่านเว็บได้
ยังไม่มีรายละเอียดชัดเจนว่าอะไรที่ Jarvis บน Chrome จะทำได้บ้าง ซึ่งอาจเป็นได้ทั้งช่วยคลิก กรอกแบบฟอร์มของเว็บต่าง ๆ ไปจนถึงการตอบคำถามต่าง ๆ แบบแชทบอต
เว็บไซต์ The Verge อ้างข่าวลือจากแหล่งข่าวใกล้ชิดกูเกิล ว่าเราจะได้เห็นโมเดล Gemini 2.0 เปิดตัวในเดือนธันวาคม ไล่เลี่ยกับ ข่าวลือว่า OpenAI จะเปิดตัวโมเดลใหม่ Orion ซึ่งรายงานโดย The Verge เช่นกัน
แหล่งข่าวของ The Verge บอกว่าโมเดล Gemini 2.0 ไม่ได้มีประสิทธิภาพเพิ่มขึ้นมากเท่ากับที่ Google DeepMind คาดหวังไว้ แต่เขาก็บอกว่าทุกบริษัทที่พัฒนาโมเดลขนาดใหญ่เจอปัญหาลักษณะเดียวกัน ซึ่งน่าจะเริ่มเป็นทางตันของโมเดลตระกูล Transformer ที่พัฒนาอย่างก้าวกระโดดในช่วงหลายปีที่ผ่านมา
เวอร์ชันปัจจุบันของ Gemini คือ 1.5 เปิดตัวครั้งแรกในเดือนกุมภาพันธ์ 2024
กูเกิลเพิ่มฟีเจอร์ทดลองใน Chrome Canary 131 ให้ผู้ใช้สามารถคุยกับ Gemini ได้ในหน้าจอ DevTools โดยตรง ในชื่อ AI assistance ผู้ใช้ที่สนใจสามารถเปิดใช้งานเองได้
ข้อดีของการมี AI assistance ใน DevTools โดยตรงคือเราสามารถถามถึง element ต่างๆ ที่พบปัญหาได้โดยตรง รวมถึงสามารถช่วยเขียนโค้ดแก้ไขหน้าเว็บตามที่เราต้องการได้ โดยทุกครั้งที่ AI ต้องการรันโค้ดหน้าจอจะหยุดให้เราอ่านและกดยืนยันรันโค้ดเองเสมอ
ที่มา - Chrome Developer