Large Language Model
GitHub ออกรายงานสำรวจประสิทธิภาพของโปรแกรมเมอร์เมื่อใช้ GitHub Copilot ช่วยทำงาน พบว่าโดยรวมแล้วการมี Copilot ทำให้โปรแกรมเมอร์เขียนโค้ดถูกต้องมากขึ้น โค้ดมีคุณภาพสูงขึ้น บั๊กน้อยลง
การวิจัยนี้นำโปรแกรมเมอร์ที่มีประสบการณ์อย่างน้อย 5 ปีจำนวน 202 คนมาแบ่งกลุ่มแบบสุ่ม มีกลุ่มได้ใช้ Copilot 104 คน และกลุ่มไม่ได้ใช้ 98 คน ให้เขียน Web API ตามคำสั่ง จากนั้นสำรวจโค้ดทั้งความถูกต้องด้วยการรันชุดทดสอบ, และสำรวจคุณภาพโต้ด
อัตราการเขียนโค้ดให้ผ่านชุดทดสอบโดยไม่ใช้ Copilot มีเพียง 39.2% แต่กลุ่มที่ใช้ Copilot เขียนผ่านถึง 60.8% แสดงให้เห็นว่า Copilot ช่วยให้โค้ดทำงานตามสเปคได้ดีขึ้นมาก
Azure Container Apps บริการรันคอนเทนเนอร์แบบ serverless จ่ายตามเวลาที่ใช้งานจริง เพิ่มตัวเลือกชิปกราฟิกสำหรับการรัน AI เฉพาะทาง โดยมีชิป NVIDIA T4 และ A100 ให้เลือกใช้งาน
แม้จะเปิดใช้งานแล้ว แต่ลูกค้าทั่วไปที่ไม่ได้ทำข้อตกลง Microsoft Enterprise Agreement จะต้องติดต่อไมโครซอฟท์ขอโควต้า serverless GPU ก่อนใช้งาน โดยตอนนี้มีให้ใช้งานสองศูนย์ข้อมูล คือ West US 3 และ Australia East
ไมโครซอฟท์เพิ่มฟีเจอร์ GraphRAG Solution Accelerator สำหรับ PostgreSQL บน Azure Database ทำให้ลูกค้าที่ต้องการพัฒนาแอปพลิเคชั่น RAG บน Azure สามารถใช้งานฐานข้อมูลสำเร็จรูปได้
ปกติแล้วการพัฒนาแอปพลิเคชั่น RAG (Retrieval Augmented Generation) จะอาศัยการค้นหาข้อมูลที่เกี่ยวข้องกับคำค้นหรือคำถามของผู้ใช้เพื่อให้ปัญญาประดิษฐ์ LLM สามารถนำข้อมูลเหล่านั้นมาอ้างอิงในการสร้างคำตอบ แต่ GraphRAG เสนอว่าข้อมูลที่ดึงมาได้ว่าเกี่ยวข้องนั้นหลายครั้งมีข้อมูลที่เชื่อมโยงอยู่ด้วยและควรใช้งานด้วยกัน แม้จะไม่ได้ใกล้เคียงกับคำค้นโดยตรงก็ตาม
SCB10X ร่วมมือกับ Together.ai ผู้ให้บริการ LLM รายสำคัญ เปิดให้บริการโมเดล Typhoon สองรุ่น คือ Typhoon 1.5 8B Instruct และ Typhoon 1.5X 70B-awq (Activation-Aware Weight Quantization - การย่อโมเดลแบบคำนึงถึงความสำคัญของแต่ละพารามิเตอร์)
ตอนนี้ทั้งสองโมเดลใช้งานได้ในหน้า Playground ของ Together.ai แล้ว แต่ยังไม่ประกาศราคาที่แน่ชัดออกมา โดยทาง SCB10X ระบุว่าต้องสอบถามทาง Together.ai โดยตรง แต่ยืนยันว่าจะคิดค่าใช้งานเป็นโทเค็น
การเปิดให้บริการ LLM ผ่านคลาวด์แบบคิดค่าใช้งานเป็นโทเค็นสำคัญสำหรับการทดลองความสามารถโมเดล หรือเชื่อมต่อไว้ใช้งานเป็นตัวเลือกเพราะผู้ใช้ไม่ต้องเสียค่าโฮสต์โมเดลตามเวลาซึ่งมักมีราคาแพงและอาจจะไม่คุ้มค่าหากปริมาณการใช้งานไม่มากพอ
Cerebras ผู้พัฒนาชิปเฉพาะทางในการรันโมเดลปัญญาประดิษฐ์ขนาดใหญ่ โชว์บริการ Cerebras Inference ที่ให้บริการโมเดล Llama 3.1 405B แบบความละเอียดเต็ม 16-bit แต่ได้ความเร็วสูงมากถึง 969 token/s และเริ่มตอบโทเค็นแรกในเวลาเพียง 240ms ใกล้เคียงการตอบแบบทันที
ทาง Cerebras โชว์ความเร็วของชิปตัวเองเป็นระยะ เดือนที่แล้วก็เพิ่งโชว์การรัน Llama 3.2 70B ที่ระดับ 2,100 token/s ไป แต่ก็ไม่เปิดเผยว่าจะให้บริการจริงเมื่อใด แต่มารอบนี้ทาง Cerebras ระบุว่าจะเปิดให้บริการตลาวด์ไตรมาสแรกของปี 2025 และยังประกาศราคาอินพุต 6 ดอลลาร์ต่อล้านโทเค็น และเอาท์พุต 12 ดอลลาร์ต่อล้านโทเค็น (เทียบกับ Azure ที่อินพุต 5.33 ดอลาร์และเอาท์พุต 15 ดอลลาร์)
Alibaba เปิดโมเดล Qwen2.5-Turbo โมเดลปัญญาประดิษฐ์ที่ปรับปรุงขึ้นจากรุ่นโอเพนซอร์ส เน้นขนาดข้อมูลที่รองรับได้ จากเดิม 128,000 โทเค็นเป็น 1 ล้านโทเค็น ทำให้รองรับข้อมูลระดับหนังสือทั้งเล่มได้ คิดเป็นขนาดข้อมูลประมาณ 1 ล้านคำหรืออักษรจีน 1.5 ล้านตัวอักษร
ผลทดสอบของ Qwen2.5-Turbo ค่อนข้างดีมากการถามตอบจากข้อมูลขนาดใหญ่ Passkey Retrieval ได้เต็ม 100 คะแนน ขณะที่ชุดทดสอบ RULER ก็ได้คะแนนสูงกว่า GPT-4 เมื่อใส่ข้อมูลเต็ม 1 ล้านโทเค็นจะเริ่มตอบใน 68 วินาที ราคาต่อ 1 ล้านโทเค็นอยู่ที่ 0.3 หยวน ถูกกว่า GPT-4o-mini อยู่ 4.6 เท่าตัว
Mistral AI ประกาศเพิ่มความสามารถให้แพลตฟอร์มแชทบอต le Chat โดยสามารถค้นหาข้อมูลเว็บได้, เพิ่ม Canvas สำหรับปรับแต่งผลลัพธ์ได้สะดวกขึ้น เป็นฟีเจอร์แบบเดียวกับ ChatGPT, วิเคราะห์รูปภาพ-เอกสาร, สร้างรูปภาพ ด้วยโมเดล FLUX และปรับปรุงความเร็วในการตอบสนอง
เนื่องจากฟีเจอร์ที่ประกาศนี้จัดมาเป็นชุดใหญ่ Mistral จึงทำตารางเปรียบเทียบให้ดูว่าฟีเจอร์เหล่านี้ มีในบริการปัญญาประดิษฐ์คู่แข่งรายอื่นเช่นกัน แต่บางฟีเจอร์จำกัดเฉพาะลูกค้าเสียเงิน หรือจำกัดปริมาณการใช้งาน ขณะที่ Mistral เปิดให้ใช้ฟีเจอร์ทั้งหมดนี้ฟรีในสถานะเบต้า
OpenAI ประกาศรายละเอียดใหม่ของแอป ChatGPT บนเดสก์ท็อปทั้ง macOS และ Windows มีรายละเอียดดังนี้
ChatGPT macOS เพิ่มความสามารถอ่านโค้ดจากแอปเขียนโค้ด เช่น VS Code, Xcode, TextEdit, Terminal หรือ iTerm2 ทำให้นักพัฒนาไม่ต้องคัดลอกตัดแปะโค้ดเพื่อถามกับแชทบอต แต่สามารถถามจากโค้ดที่ปรากฏในหน้าจอได้เลย อย่างไรก็ตาม ChatGPT สามารถให้คำตอบได้เฉพาะในแอปเท่านั้น ยังไม่มีความสามารถที่เข้าไปแก้ไขโค้ดในแอปนั้นได้โดยตรงแบบ GitHub Copilot
MLPerf ชุดทดสอบความสามารถคอมพิวเตอร์และการ์ดเร่งความเร็วสำหรับงานด้าน machine learning โดยเฉพาะ ออกผลทดสอบเวอร์ชั่น 4.1 ที่เน้นวัดความสามารถในการฝึกปัญญาประดิษฐ์กลุ่ม generative AI ทั้งการสร้างข้อความและภาพ โดยผลในรอบนี้มีผู้แข่งสำคัญเพียงสองราย คือ NVIDIA และ Google
NVIDIA โชว์ผลทดสอบการฝึก Llama 2 70B แบบ fine-tuning เซิร์ฟเวอร์ DGX B200 เครื่องเดียว ใช้การ์ด B200-SXM แรม 180GB จำนวน 8 ใบ พร้อมซีพียู Xeon Platinum 8570 สามารถฝึก Llama 2 70B ได้เสร็จใน 12.958 นาที เทียบกับ H200 ที่ใช้เวลาประมาณ 24 นาที ขณะที่การฝึก GPT3 สามารถใช้ DGX B200 จำนวน 8 เครื่องฝึกเสร็จใน 193.738 นาทีนับเป็นคลัสเตอร์ขนาดเล็กที่สุดในที่ส่งผลทดสอบนี้
ทีมวิจัย Qwen ของ Aliababa เปิดตัวโมเดล Qwen2.5-Coder โมเดล LLM ช่วยเขียนโค้ดที่ปรับปรุงกระบวนการฝึกจนได้ประสิทธิภาพสูงสุดในหมู่โมเดลโอเพนซอร์ส คะแนนทดสอบรวมพอๆ กับ GPT-4o ในการทดสอบหลายตัว
กระบวนการฝึก Qwen2.5-Coder นั้นอาศัยการฝึกเป็นขั้น เริ่มตั้งแต่การฝึกโค้ดแบบไฟล์เดี่ยว (file-level pretrain) แล้วขยับมาเป็นการฝึกแบบหลายไฟล์ (repo-level pretrain) สุดท้ายจึงฝึกการเขียนโค้ดตามคำสั่ง โดยอาศัยชุดข้อมูลโค้ดที่พบในอินเทอร์เน็ต นำมาสร้างคำสั่งเพื่อให้ได้โค้ดนั้น แล้วจึงนำชุดข้อมูลไปฝึก
จุดเด่นสำคัญของ Qwen2.5-Coder คือมันสามารถสร้างโค้ดได้หลายภาษาในคุณภาพค่อนข้างสูง เนื่องจากทีมงานสร้างชุดข้อมูลภาษาโปรแกรมอื่นๆ ที่มีชุดข้อมูลน้อยเพิ่มเข้ามา
กูเกิลจับมือกับบริษัท Sourcegraph ผู้พัฒนา AI ช่วยเขียนโค้ดชื่อ Cody ทดลองนำโมเดล Gemini 1.5 ที่รองรับอินพุตขนาดยาว 1 ล้านโทเคน ว่าช่วยให้คุณภาพของคำตอบดีขึ้นอย่างไร
Cody เป็นการนำ AI มาอ่านโค้ดภายในขององค์กรลูกค้า เพื่อช่วยให้ค้นหาและแนะนำการเขียนโค้ดใหม่ ใช้ร่วมกับ IDE ยอดนิยมทั้ง Visual Studio และตระกูล JetBrains ได้ โมเดลภาษาที่ Cody เลือกใช้งานเป็นโมเดลยอดนิยมหลายตัวในตลาด เช่น Claude 3/3.5, GPT-4o, Gemini, Mixtral (ลูกค้าเลือกเองโมเดลได้) โดยโมเดลที่ใช้งานในระดับโปรดักชันมีขนาด context window ยาว 10,000 โทเคน (10k)
เว็บไซต์ The Information รายงานอ้างแหล่งข่าวภายในจาก OpenAI ว่าโมเดลตัวใหม่โค้ดเนม Orion ไม่ได้พัฒนาจาก GPT-4 แบบก้าวกระโดด เหมือนกับตอนเปลี่ยนจาก GPT-3 มาเป็น GPT-4
แหล่งข่าวของ The Information ยังบอกว่า Orion ยังอาจทำงานไม่ได้ดีกว่าโมเดลรุ่นปัจจุบันอย่างชัดเจนนัก (not be reliably better) ในงานบางด่าน เช่น การเขียนโค้ด
ปัญหานี้ทำให้ตอนนี้ OpenAI ตั้งทีมมาค้นหาวิธีเดินหน้าพัฒนาโมเดลต่อไปในระยะยาว เพราะไม่มีข้อมูลใหม่ๆ มาใช้เทรนโมเดลแล้ว (ใช้ข้อมูลหมดโลกแล้ว) แนวทางที่เป็นไปได้คือ การใช้ข้อมูลสังเคราะห์จากโมเดลอื่นมาเทรน Orion หรือ เพิ่มกระบวนการพัฒนาคุณภาพหลังการเทรนโมเดลเสร็จ
ต้องยอมรับว่ากูเกิลเปิดตัว Gemini หลัง ChatGPT เป็นเวลานานพอสมควร ทำให้ตลาด AI/LLM มุ่งไปที่ฝั่ง OpenAI กันหมด แอพที่เรียกใช้งาน LLM จึงมักเขียนเพื่อรองรับโมเดลของฝั่ง OpenAI โดยเรียกใช้ OpenAI Library (ทั้งที่เป็น official และ unofficial) กันซะเป็นส่วนใหญ่
ล่าสุดกูเกิลประกาศ "แฝงตัว" ให้รองรับการเรียกใช้ Gemini ผ่าน OpenAI Library ได้แล้ว ช่วยลดภาระการแก้โค้ดลง โดยโค้ดสามารถเรียกใช้ OpenAI Library ได้เหมือนเดิม แต่ในส่วนของโมเดลเปลี่ยนเป็นเรียก Gemini แทน ช่วยให้แก้โค้ดเพียงไม่กี่บรรทัดเท่านั้น
ปัจจุบันโมเดล LLM เก่งๆ มีหลากหลายโมเดล แต่ส่วนใหญ่ถูกพัฒนาจากกรอบของภาษาอังกฤษ หรือภาษาอื่นที่เป็นภาษาหลักของโลก รวมถึงชุดข้อมูลและการปรับแต่ง ก็ถูกตีกรอบด้วยอิทธิพลและมุมมองจากตะวันตกเป็นหลัก ทำให้ในหลายๆ ประเทศ หลายๆ ภูมิภาค ที่มีภาษาและบริบททางวัฒนธรรมเฉพาะ ไม่สามารถเข้าถึง LLM ได้ ซึ่งบริษัทใหญ่ๆ ก็คงไม่เน้นพัฒนาให้ หรือประเทศนั้นๆ จะพัฒนาเอง ก็ไม่ได้มีทรัพยากรเพียงพอ
Ollama ซอฟต์แวร์รันไทม์สำหรับรันโมเดลปัญญาประดิษฐ์ ออกเวอร์ชั่น 0.4 รองรับการรันโมเดลที่รับอินพุตเป็นภาพ โมเดลสำคัญคในกลุ่มนี้คือ Llama 3.2 ของ Meta
llama3.2-vision
มีทั้งรุ่น 11B และ 90B ต้องการแรมขั้นต่ำ 8GB ส่วนรุ่น 90B ต้องการขั้นต่ำ 64GB โดยโมเดลรุ่นเล็กเหล่านี้เป็นแบบ quantize 4 bit รุ่นใหญ่สุดแบบ FP16 นั้นเฉพาะไฟล์โมเดลก็ขนาดถึง 177GB แล้ว
การใช้งาน llama3.2-vision
สามารถใช้งานได้ทั้งการทำ OCR, อ่านลายมือ, อธิบายภาพ
ที่มา - Ollama
Anthropic ประกาศว่าโมเดลปัญญาประดิษฐ์ Claude 3.5 Haiku ที่เป็นรุ่นเล็กมีราคาถูก ตอนนี้เปิดให้ใช้งานแล้วผ่าน API และผ่านผู้ให้บริการคลาวด์ทั้ง Amazon Bedrock และ Vertex AI หลังจากเปิดตัวไปเมื่อเดือนที่แล้วพร้อมกับ Sonnet 3.5 รุ่นปรับปรุง
Runway สตาร์ทอัปที่เน้นพัฒนาปัญญาประดิษฐ์สร้างวิดีโอ ประกาศเพิ่มเครื่องมือ Advanced Camera Control บนโมเดล Gen-3 Alpha Turbo ทำให้ผู้ใช้งานกำหนดรายละเอียดทิศทางมุมกล้องที่ต้องการได้ตั้งแต่ใน Prompt
ทิศทางและการเคลื่อนที่ของกล้องสามารถกำหนดได้ตั้งแต่ระดับ เลื่อนซ้าย-ขวา-บน-ล่าง, ซูมเข้า, ทิศทางกล้องหมุน ความเร็ว จนถึงระยะห่างที่ซูมกับวัตถุ ทำให้การสร้างวิดีโอด้วย Gen-3 Alpha Turbo ควบคุมได้มากขึ้นคล้ายกับการถ่ายงานวิดีโอจริงมากขึ้นไปอีก
Anthropic ประกาศเพิ่มเครื่องมือใหม่ Visual PDF บนโมเดล Claude 3.5 Sonnet ซึ่งมีความสามารถในการอ่านวิเคราะห์เนื้อหาจากเอกสาร PDF ได้
เงื่อนไขในการใช้งาน Visual PDF ระบุว่า หากเอกสารนั้นมีจำนวนต่ำกว่า 100 หน้า สามารถอัปโหลดได้โดยตรงผ่านกล่องแชท และ Visual PDF สามารถวิเคราะห์ข้อมูลรูปภาพ แผนภูมิ กราฟิก ได้ด้วย แต่ถ้าเอกสารมีมากกว่า 100 หน้า จะรองรับเฉพาะข้อความตัวหนังสือเท่านั้น
Claude แนะนำว่าเพื่อประสิทธิภาพการทำงานสำหรับไฟล์ที่มีจำนวนหน้าเอกสารเยอะ ควรแบ่งเป็นไฟล์ย่อยให้อยู่ในข้อจำกัด 100 หน้า
OpenAI เปิดตัวบริการใหม่ ChatGPT Search เพื่อให้ผู้ใช้งานค้นหาข้อมูลจากเว็บไซต์ต่าง ๆ รองรับข้อมูลที่มีการปรับปรุงอยู่ตลอดอย่าง ผลการแข่งขันกีฬา, ข่าวสาร หรือราคาหุ้น ด้วยรูปแบบการโต้ตอบของแชทบอตผ่านกล่อง ChatGPT
ในการทำงาน ChatGPT จะเลือกค้นหาข้อมูลผ่านเว็บตามลักษณะคำถาม หรือผู้ใช้งานจะเลือกปุ่ม Web Search เพื่อให้ ChatGPT ค้นหาข้อมูลจากเว็บไซต์ก็ได้ ในผลคำตอบจะมีลิงก์แนบท้ายเพื่อให้ดูข้อมูลเพิ่มเติมที่ต้นทางด้วย
Anthropic ออกแอป Claude สำหรับผู้ใช้งาน Mac และ Windows โดยตัวแอปมีสถานะเป็นพับลิกเบต้า ซึ่ง Anthropic บอกเหตุผลที่ออกแอปสำหรับแต่ละระบบปฏิบัติการ เพื่อให้ Claude สามารถใช้งานได้ในทุกสภาพแวดล้อมที่ต้องการ
แอป Claude บน Mac และ Windows สามารถใช้งานได้ผู้ใช้งานแบบฟรี และผู้ใช้งานที่สมัครแผนพรีเมียม
นอกจากนี้ Anthropic ยังเพิ่มเครื่องมือใหม่ของแชทบอต Claude สามารถพิมพ์ตามเสียงพูดหรือ Dictation รองรับความยาวเสียงสูงสุด 10 นาที ส่งอินพุทได้ทั้งการกดบันทึกเสียง หรืออัปโหลดข้อความเสียง ตอนนี้รองรับเฉพาะแอป iOS, Android และ iPadOS เท่านั้น
GitHub ประกาศว่าบริการ GitHub Copilot สำหรับ Xcode เข้าสู่สถานะพับลิกพรีวิวแล้ว เพิ่มความสามารถให้บริการ Copilot รองรับนักพัฒนาได้ในหลากหลายแพลตฟอร์มรวมทั้งแอปเปิล
GitHub Copilot สำหรับ Xcode มีฟีเจอร์ต่าง ๆ ครอบคลุมเหมือนกับ Copilot บนเครื่องมืออื่นทั้ง Code Completion, รองรับภาษา Swift และ Objective-C, ระบบแนะนำโค้ดแบบหลายบรรทัด, ระบบฟิลเตอร์เนื้อหา และอื่น ๆ
ในการใช้งาน GitHub Copilot สำหรับ Xcode ต้องมีไลเซนส์ของ Copilot ด้วย ซึ่งรองรับทั้งผู้ใช้งานแบบบุคคล, Business และ Enterprise
ที่มา: GitHub
จากข่าว Open Source Initiative หรือ OSI ออกมาให้นิยามของ AI โอเพนซอร์สว่าต้องมีเงื่อนไขใดบ้าง ซึ่งผลคือนิยามนั้นทำให้โมเดล AI ที่ผู้พัฒนาเผยแพร่บอกว่าเป็นโอเพนซอร์สยอดนิยมหลายตัว ไม่เข้าข่าย ซึ่งรวมทั้ง Llama ของ Meta ด้วย
Faith Eischen โฆษกของ Meta ชี้แจงว่าบริษัทเห็นด้วยกับ OSI ที่ทำงานร่วมกันเป็นพาร์ตเนอร์มาตลอดในหลายประเด็น แต่กับนิยาม AI โอเพนซอร์สนี้บริษัทไม่เห็นด้วย เพราะยังไม่มีนิยามเดียวที่สามารถใช้ได้ สำหรับโลกของ AI ที่มีความซับซ้อนสูง และมีการพัฒนาเปลี่ยนแปลงอย่างรวดเร็ว
Open Source Initiative (OSI) หน่วยงานผู้ให้นิยามของซอฟต์แวร์โอเพนซอร์ส ประกาศนิยามของปัญญาประดิษฐ์โอเพนซอร์ส The Open Source AI Definition – 1.0 เพื่อให้อุตสาหกรรมเข้าใจตรงกันว่าการเป็นโอเพนซอร์ส (ตาม OSI) ต้องมีเงื่อนไขใดบ้าง
แนวทางนิยามของ OSI สำหรับปัญญาประดิษฐ์นั้นไม่ต่างจากซอฟต์แวร์มากนัก แต่เพิ่มนิยามรายละเอียด แยกส่วน เช่น ข้อมูลที่ใช้ฝึกนั้นต้องให้รายละเอียดเพียงพอ แม้จะไม่ต้องแชร์ข้อมูลออกมาเสมอไป, ตัวโค้ดที่ใช้รันต้องใช้สัญญาอนุญาตที่ OSI รองรับว่าเป็นโอเพนซอร์ส, และตัวพารามิเตอร์ต้องแจกในสัญญาอนุญาตที่ OSI รับรองเช่นกัน
บริการ NotebookLM ของกูเกิลได้รับความนิยมค่อนข้างดีในช่วงหลัง จากความสามารถในการสรุปรวมเอกสารทั้งชุดให้กลายเป็นพอดแคสต์ ล่าสุดฝั่ง Meta ก็โชว์โครงการ NotebookLlama เป็นชุด Python Notebook ที่แปลงเอกสารให้กลายเป็นพอดแคสต์ได้เหมืิอนกัน
โครงการนี้ใช้ LLM สามชั้น ชั้นแรกใช้ตัวเล็ก Llama 3.2 8B เพื่อแปลง PDF เป็นเอกสารที่อ่านได้ง่ายๆ จากนั้นใช้ Llama 3.1 70B เขียนสริปต์พอดแคสต์ แล้วใช้ Llama 3.1 8B แปลงสคริปต์ให้เร้าใจขึ้น สุดท้ายจึงแปลงข้อความเป็นเสียง
แม้ในทางทฤษฎี โมเดลเหล่านี้จะรันในองค์กรได้ แต่ Llama 3.1 70B ก็ต้องการหน่วยความจำกราฟิกใหญ่มาก เกิน 140GB ขึ้นไป ส่วนมากจึงมักใช้งานผ่านคลาวด์กันอยู่ดี
เว็บไซต์ The Verge อ้างข่าวลือจากแหล่งข่าวใกล้ชิดกูเกิล ว่าเราจะได้เห็นโมเดล Gemini 2.0 เปิดตัวในเดือนธันวาคม ไล่เลี่ยกับ ข่าวลือว่า OpenAI จะเปิดตัวโมเดลใหม่ Orion ซึ่งรายงานโดย The Verge เช่นกัน
แหล่งข่าวของ The Verge บอกว่าโมเดล Gemini 2.0 ไม่ได้มีประสิทธิภาพเพิ่มขึ้นมากเท่ากับที่ Google DeepMind คาดหวังไว้ แต่เขาก็บอกว่าทุกบริษัทที่พัฒนาโมเดลขนาดใหญ่เจอปัญหาลักษณะเดียวกัน ซึ่งน่าจะเริ่มเป็นทางตันของโมเดลตระกูล Transformer ที่พัฒนาอย่างก้าวกระโดดในช่วงหลายปีที่ผ่านมา
เวอร์ชันปัจจุบันของ Gemini คือ 1.5 เปิดตัวครั้งแรกในเดือนกุมภาพันธ์ 2024