Large Language Model
DeepSeek ประกาศแนวทางการพัฒนาซอฟต์แวร์รันโมเดลปัญญาประดิษฐ์ (inference engine) หลังจากก่อนหน้านี้บริษัทใช้ vLLM รุ่นพิเศษที่แก้ไขภายในเพื่อให้บริการ มาเป็นการทำงานร่วมกับโครงการโอเพนซอร์ส
ก่อนหน้านี้ DeepSeek เปิดซอฟต์แวร์ที่เกี่ยวข้องกับระบบรันปัญญาประดิษฐ์จำนวนมาก โดยซอฟต์แวร์มักเป็นการออปติไมซ์ประสิทธิภาพการรันปัญญาประดิษฐ์บนชิป NVIDIA Hopper ทาง DeepSeek ระบุว่าเคยพิจารณาว่าจะเปิดเอนจินออกมาทั้งชุด แต่พบปัญหา 3 ประการ
OpenAI เปิดเผยว่า GPT-4.5 โมเดล AI ขนาดใหญ่ที่เปิดตัวเมื่อเดือนกุมภาพันธ์ที่ผ่านมา จะปิดการเข้าถึงใช้งาน API สำหรับนักพัฒนา ตั้งแต่ 14 กรกฎาคมเป็นต้นไป หลังจาก OpenAI เปิดตัวโมเดลใหม่ GPT-4.1 เมื่อคืนนี้
OpenAI บอกว่า GPT-4.1 มีความสามารถการทำงานที่ใกล้เคียงหรือดีกว่า GPT-4.5 ในหลายด้าน ด้วยต้นทุนการใช้งานที่ต่ำกว่า ดังนั้นบริษัทจะปิดการใช้งานโมเดลนี้ เพื่อนำทรัพยากรไปโฟกัสที่การพัฒนาโมเดลใหม่ในอนาคตแทน
ปัจจุบันโมเดล GPT-4.5 เปิดให้ใช้งานในสถานะพรีวิวงานวิจัยโดยยังใช้งานได้ต่อไปผ่าน ChatGPT
OpenAI เปิดตัวโมเดล GPT-4.1 เป็นชุดโมเดล LLM สามขนาดปรับปรุงความสามารถจาก GPT-4o ทำให้รองรับอินพุตถึง 1 ล้านโทเค็น และเพิ่มความสามารถด้านการเขียนโปรแกรมจนสูงกว่าโมเดล OpenAI o3-mini ที่ราคาแพงกว่ามาก
ทาง OpenAI โชว์ผลทดสอบของ GPT-4.1 ด้วยการทดสอบ SWE Bench Verified ได้คะแนนถึง 55% (เหลือ 52% ถ้านับข้อที่มีปัญหาระหว่างทดสอบ) สามารถตอบเป็น diff เพื่อการแก้ไขไฟล์ได้ค่อนข้างแม่นยำ ความเปลี่ยนแปลงสำคัญคือการขยายอินพุตเป็น 1 ล้านโทเค็น ผลทดสอบ needle in haystack สามารถหาข้อมูลได้ทุกจุด
กูเกิลเปิดตัว DolphinGemma โมเดลภาษาขนาดใหญ่ตัวใหม่ ซึ่งจากชื่อก็พอเดากันได้ว่ามันคือโมเดลภาษาโลมา!
โลมาเป็นสิ่งมีชีวิตที่มีความฉลาดสูง มีภาษาของตัวเองที่สื่อสารระหว่างกันได้ แต่ก็เป็นความยากของมนุษย์ในการทำความเข้าใจภาษาของโลมา เมื่อมีเทคโนโลยีแบบ LLM เข้ามาช่วยเรียนรู้แพทเทิร์นของภาษาโลมา
DolphinGemma เป็นความร่วมมือของกูเกิลกับทีมนักวิจัยจากมหาวิทยาลัย Georgia Tech และโครงการวิจัยโลมา Wild Dolphin Project (WDP) โดยใช้คลังเสียงและฟุตเตจวิดีโอของ WDP ที่สะสมมาตั้งแต่ปี 1985 ร่วมกับโมเดลฐานคือ Gemma ของกูเกิล ตัวโมเดล DolphinGemma ที่เทรนได้มีขนาด 400M พารามิเตอร์ ตอนเทรนใช้เทคนิค SoundStream ของกูเกิลมาแปลงคลื่นเสียงโลมาเป็น token
กูเกิลเปิดตัวโมเดลแต่งเพลงชื่อ Lyria สามารถสั่งสร้างเพลงได้จากพร็อมต์ข้อความได้เลย ตัวโมเดลจะเปิดใช้งานบน Vertex AI ในระยะถัดไป
ในแง่ความสามารถของ Lyria คงไม่ต่างจากโมเดลแต่งเพลงอื่นๆ นัก (คงต้องให้ผู้เชี่ยวชาญลองพิสูจน์กัน) แต่จุดขายของกูเกิลคือมีโมเดลสร้างสื่อครบทุกอย่างแล้ว ตั้งแต่ Gemini (ข้อความ), Imagen 3 (ภาพ), Veo 2 (วิดีโอ), Chirp 3 (เสียงพูด) และล่าสุดคือ Lyria (เสียงเพลง)
ผู้บริหารของกูเกิลได้แก่ Sundar Pichai ซีอีโอใหญ่ และ Demis Hassabis ซีอีโอของ Google DeepMind ประกาศว่ากูเกิลจะรองรับ Model Context Protocol (MCP) โปรโตคอลสำหรับเชื่อมแหล่งข้อมูลภายนอกเข้าสู่โมเดล LLM
Model Context Protocol (MCP) ถูกเสนอโดย Anthropic ช่วงปลายปี 2024 และล่าสุด OpenAI ประกาศสนับสนุนแล้ว การที่กูเกิลประกาศร่วมด้วยอีกราย ย่อมทำให้ MCP กลายเป็นมาตรฐานของวงการ
OpenAI ประกาศแผนยุติการใช้งานโมเดล GPT-4 จากบริการ ChatGPT ทั้งหมด มีผลตั้งแต่ 30 เมษายน 2025 เป็นต้นไป โดยแทนที่ด้วยโมเดล GPT-4o ทั้งนี้ GPT-4 เป็นโมเดลที่ออกมาตั้งแต่เมษายน 2023
OpenAI บอกว่า GPT-4o เป็นโมเดลที่ใหม่กว่า รองรับข้อมูลผสมผสานเป็นพื้นฐาน ในการทดสอบทุกด้านมีความสามารถที่สูงกว่า GPT-4 ไม่ว่าจะเป็นการเขียน, เขียนโค้ด, ตอบปัญหา STEM และอื่น ๆ
GPT-4 จะยังสามารถเข้าถึงได้สำหรับนักวิจัยและนักพัฒนาผ่าน API เท่านั้น ซึ่งเป็นช่องทางเดียวกับการเข้าถึงโมเดลเก่ากว่านั้นเช่น GPT-3.5
กูเกิลโอเพนซอร์สเฟรมเวิร์ค Agent Development Kit (ADK) สำหรับการพัฒนา Agent ในรูปแบบต่างๆ โดยแม้จะพัฒนาโดยกูเกิลแต่ก็รองรับโมเดลจากผู้ผลิตหลากหลาย และเชื่อมต่อเครื่องมือภายนอกผ่านโปรโตคอล MCP ได้
ความพิเศษของ ADK ต่อกูเกิลเองคือ Vertex AI รองรับโดยตรงผ่าน Vertex AI Agent Engine อย่างไรก็ดี ตัว ADK นั้นแพ็กเกจเป็นคอนเทนเนอร์ทำให้ไปรันที่ไหนก็ได้อยู่แล้ว และกูเกิลระบุว่า ADK ออปติไมซ์ให้ทำงานกับ Gemini 2.5 Pro เป็นพิเศษ
เพียงไม่กี่สัปดาห์หลัง Gemini 2.5 Pro รุ่นใหญ่ กูเกิลเดินหน้าเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็กต่อทันที
กูเกิลเรียกโมเดล Gemini 2.5 Flash ว่าเป็นโมเดลที่ใช้ทำงานจริงๆ (workhorse model) ปรับแต่งมาให้ตอบเร็ว (low latency) ต้นทุนต่ำ แต่ยังมีฟีเจอร์การให้เหตุผล (reasoning) โดยสามารถปรับแต่งระยะเวลาในการคิดตามงบประมาณ (thinking budget) จึงเหมาะสำหรับงานที่ต้องเรียกโมเดลเป็นจำนวนครั้งมากๆ และต้องการความเร็วแบบเรียลไทม์ เช่น การตอบคำถามลูกค้า หรือ การประมวลผลเอกสาร
ตอนนี้กูเกิลยังไม่ประกาศราคาของ Gemini 2.5 Flash ออกมา รวมถึงคะแนนเบนช์มาร์คของ 2.5 Flash ด้วย
Amazon ยังเดินหน้าเปิดตัวโมเดลตระกูล Nova อย่างต่อเนื่อง ถัดจาก Nova Reel โมเดลสร้างวิดีโอ ตามมาด้วย Nova Sonic โมเดลสร้างคำตอบเสียง ที่เป็นโมเดลตัวเดียวทำงานทั้งการเข้าใจเสียงพูด (speech understanding) และสร้างเสียงพูด (speech generation) ไม่ต้องแยกสองโมเดลทำงานอีกต่อไป
ความน่าสนใจของ Nova Sonic คือเป็นโมเดลแบบเสียง-เสียง (speech-to-speech) รับอินพุตเป็นเสียงพูด แล้วสร้างเอาต์พุตเป็นข้อความหรือเป็นเสียงก็ได้ สามารถทำงานแบบเรียลไทม์
หลัง Amazon เปิดตัวโมเดลตระกูล Nova ของตัวเองช่วงปลายปี 2024 ก็เริ่มทยอยปล่อยของอย่างต่อเนื่อง ก่อนหน้านี้มี Nova Act โมเดลที่ควบคุมเว็บเบราว์เซอร์ ล่าสุดเปิดตัว Nova Reel ปัญญาประดิษฐ์สร้างวิดีโอสั้นเวอร์ชันใหม่ 1.1
Nova Reel 1.1 ขยายเวลาของวิดีโอจากเดิม 6 วินาทีในเวอร์ชัน 1.0 มาเป็น 2 นาที (เป็นการสร้างวิดีโอ 6 วินาทีแบบ multiple-shot ต่อๆ กัน แต่สั่งได้จากพร็อมต์ครั้งเดียว) รองรับการสร้างคาแรกเตอร์สูงสุด 4,000 ตัว รวมถึงสามารถใส่ภาพอ้างอิงให้สร้างคาแรกเตอร์หรือซีนตามที่สั่งได้ด้วย
ตอนนี้ Nova Reel 1.1 เปิดให้ใช้งานแล้วบน Amazon Bedrock
Tobi Lütke ซีอีโอ Shopify ออกจดหมายเวียนในบริษัท ปรับนโยบายการทำงานในอนาคต โดยระบุนโยบาย 6 ข้อ ได้แก่
ไมโครซอฟท์ร่วมมือกับ Meta เปิดให้องค์กรธุรกิจใช้งาน Llama 4 Maverick และ Scout ใน Azure AI Foundry และ Azure Databricks แล้ว
Llama 4 เป็นโมเดล AI โอเพนซอร์สรุ่นใหม่สำหรับการใช้งานแบบ Multimodal ซึ่ง Meta เพิ่งประกาศเปิดตัววันนี้
Meta ออกโมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่ (LLM) รุ่นใหม่ Llama 4 ซึ่ง Mark Zuckerberg ซีอีโอ Meta บอกว่าเป็นโมเดล AI พื้นฐานที่มีประสิทธิภาพสูงที่สุดในโลกตอนนี้
Llama 4 มีสองรุ่นย่อย ได้แก่ Llama 4 Scout ขนาดพารามิเตอร์ 17B, 16 โมเดลย่อย (Experts) รวม 109B ซึ่ง Meta บอกว่าเป็นโมเดลผสมผสานที่มีประสิทธิภาพดีที่สุดในโลกตอนนี้ สามารถรันได้บนจีพียู NVIDIA H100 ตัวเดียว รองรับอินพุท 10M ทำงานได้ดีกว่าโมเดลที่คล้ายกันอย่าง Gemma 3, Gemini 2.0 Flash-Lite และ Mistral 3.1
กูเกิลเปิดตัว Gemini 2.5 Pro โมเดลพลังสูง ประสิทธิภาพเป็นเยี่ยม เมื่อปลายเดือนมีนาคม จากนั้นมีแหวกขนบเดิมๆ เล็กน้อย ด้วยการเปิดให้ผู้ใช้ Gemini ทุกคนใช้ฟรี โดยไม่ต้องรอกันนาน
ล่าสุดกูเกิลนำโมเดล Gemini 2.5 Pro เปิดให้เช่าใช้งานใน Google AI Studio โดยประกาศราคามาแล้ว ราคาเริ่มต้นคือ อินพุต 1.25 ดอลลาร์ต่อ 1 ล้านโทเคน และเอาท์พุต 10 ดอลลาร์ต่อ 1 ล้านโทเคน
Sam Altman ซีอีโอ OpenAI ประกาศว่าบริษัทเปลี่ยนแผนการออกโมเดลรุ่นใหม่ โดยจะกลับมาออกโมเดลคิดเป็นเหตุผล o3 และ o4-mini โมเดลคิดเป็นเหตุผลขนาดเล็กเวอร์ชันใหม่ ทั้งสองโมเดลนี้จะออกมาในอีกไม่กี่สัปดาห์ข้างหน้า
เรื่องนี้ต้องย้อนไปในเดือนกุมภาพันธ์ที่ OpenAI ออกโมเดล o3-mini มาก่อน จากนั้นอีกสองสัปดาห์ Altman บอกว่าบริษัทต้องการรวมโมเดลปัญญาประดิษฐ์ใหม่เพื่อลดความซับซ้อน ผู้ใช้งานไม่ต้องแยกโมเดลทั่วไป โมเดลคิดเป็นเหตุผล เลยทำให้ยกเลิกแผนการออกโมเดล o3 เวลานั้น
Midjourney ออกโมเดลปัญญาประดิษฐ์สร้างรูปภาพเวอร์ชันใหม่ V7 หลังจากไม่มีโมเดลเวอร์ชันใหม่ออกมาเกือบหนึ่งปี โดยสถานะการออกมาให้ใช้งานตอนนี้เป็น alpha-test และจะทยอยปรับปรุงความสามารถทุกสัปดาห์เป็นเวลา 2 เดือน
Midjourney บอกว่า V7 เป็นโมเดลสร้างรูปภาพที่ฉลาดที่สุด สร้างรูปได้สวยงามและแม่นยำที่สุดที่เคยทำออกมา David Holz ซีอีโอ Midjourney บอกว่า V7 มีการเปลี่ยนแปลงสถาปัตยกรรมการทำงานของโมเดลใหม่ทั้งหมด
ใน V7 ยังมีฟีเจอร์สำคัญคือโมเดลแบบปรับแต่งเฉพาะบุคคล ซึ่งผู้ใช้งานต้องป้อน Prompt และให้ความเห็นจำนวนหนึ่งก่อนจึงสามารถใช้งานได้ โดยโมเดลปรับแต่งเฉพาะบุคคลนี้มีจุดเด่นคือให้ผลลัพธ์ได้ตรงกับลักษณะรูปแบบที่ผู้ใช้งานแต่ละคนคาดหวังมากขึ้น
ทีม Qwen ของ Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์เพิ่มสองรุ่น คือ Qwen2.5 Omni โมเดลแบบ multimodal อ่านภาพ, ฟังเสียง, และดูวิดีโอได้ พร้อมกับสามารถตอบเป็นเสียงหรือข้อความได้ อีกโมเดลคือ QVQ-Max โมเดลคิดก่อนตอบแบบอ่านภาพได้ ทำให้สามารถอ่านเอกสารซับซ้อนสูงได้
Qwen2.5 Omni เป็นโมเดล multimodal ที่รับได้ทั้งข้อความ, เสียง, และภาพ โดยภายในมันสามารถดูภาพตามเวลา (time aligned multimodal) ทำให้เข้าใจวิดีโอได้ด้วย ขณะที่ฝั่งเอาท์พุตนั้นสามารถสร้างเสียงตอบกลับได้ ตัวสถาปัตยกรรมรองรับการ "ฟังไป ตอบไป" โดยสามารถรับอินพุตยังไม่จบแต่ตอบไปก่อนได้
Qwen2.5 Omni มีโมเดลขนาด 7B ให้ดาวน์โหลดไปใช้ได้ฟรี ด้วยสัญญาอนุญาตแบบ Apache 2.0
ทีมวิจัยจาก UC San Diego อัพเดตรายงานทดสอบ Turing Test แบบจำกัดเวลา เพื่อทดสอบว่าปัญญาประดิษฐ์จะสามารถหลอกว่าเป็นมนุษย์ได้หรือไม่ จากเดิมที่เคยทดสอบตั้งแต่ปี 2023 และรอบนี้พบว่า GPT-4.5 เอาชนะมนุษย์ได้อย่างชัดเจน
กระบวนการทดสอบใช้จะให้ผู้ทดสอบคุยแชตกับ AI และมนุษย์ไปพร้อมกัน โดยสามารถคุยได้เพียง 8 ข้อความและจำกัดเวลา และเมื่อจบเวลา 5 นาทีก็ต้องเลือกว่าหน้าจอไหนเป็นมนุษย์หรือ AI โดยเมื่อปี 2023 นั้น GPT-4 ทำคะแนนได้สูงสุด 41% รอบนี้พบว่า GPT-4.5 สามารถทำคะแนนได้ถึง 73% สูงกว่ามนุษย์จริงๆ อย่างมีนัยสำคัญ
Sam Altman ซีอีโอ OpenAI ประกาศว่าเครื่องมือสร้างรูปภาพตัวใหม่ Image Generation บน ChatGPT ตอนนี้เปิดให้ผู้ใช้งานทุกคนสามารถใช้ได้แล้วรวมทั้งแบบฟรี หลังจากเปิดตัวไปเมื่อสัปดาห์ที่แล้ว โดยจำกัดให้เฉพาะลูกค้า ChatGPT แบบเสียเงิน
Altman ไม่ได้บอกว่าผู้ใช้งาน ChatGPT แบบฟรีจะถูกจำกัดการใช้งานเท่าใด แต่ก่อนหน้านี้เขาบอกตัวเลขว่า 3 รูปต่อวัน เนื่องจากผลตอบรับที่ดีมากเป็นกระแสจนจีพียูที่มีไม่พอใช้งาน
Amazon เปิดตัวโมเดลภาษาขนาดใหญ่ของตัวเองชื่อ Nova ในเดือนพฤศจิกายน 2024 หลังจากนั้นเริ่มนำมาใช้ในผลิตภัณฑ์คอนซูเมอร์อย่าง Alexa+ บ้างแล้ว
ล่าสุด Amazon เปิดตัว Amazon Nova Act โมเดลย่อยในตระกูล Nova ที่เทรนมาเพื่องานควบคุมการท่องเว็บผ่านเบราว์เซอร์โดยเฉพาะ เปิดทางให้เกิดงานสาย Agentic AI ที่นำ Nova Act ไปควบคุมหน้าเว็บต่างๆ ได้ง่ายผ่าน Nova Act SDK ที่เปิดให้นักพัฒนาภายนอกเข้ามาเชื่อมต่อ
Sam Altman ซีอีโอ OpenAI ประกาศว่าบริษัทมีแผนเตรียมออกโมเดล AI แบบ Open-Weight ตัวใหม่ นับตั้งแต่ GPT-2 โดยเปิดรับฟังความคิดเห็นจากนักพัฒนา นักวิจัย และชุมชนที่เกี่ยวข้อง ว่าต้องการให้โมเดล AI ที่ปรับค่า Weight ได้นี้ สามารถปรับส่วนใดได้บ้าง รวมทั้งเตรียมจัดงานสัมมนาแบบ In-Person ในหลายภูมิภาคเพื่อรับฟังความเห็นด้วย
ตั้งแต่กระแสปัญญาประดิษฐ์มีมากขึ้น OpenAI ซึ่งเป็นหนึ่งในผู้จุดกระแส ได้ปรับแนวทางไม่เผยแพร่รายละเอียดการทำงานของโมเดล AI ตั้งแต่ GPT-4 ด้วยเหตุผลของการแข่งขันและป้องกันการนำ AI ไปใช้ในทางที่ไม่ปลอดภัย อย่างไรก็ตามจากกระแสของ DeepSeek เมื่อต้นปี ซึ่งเป็นโมเดลแบบโอเพนซอร์ส รวมกับแนวทางของ Meta ที่โอเพนซอร์ส Llama ตั้งแต่เริ่มต้น ทำให้ Altman เคยยอมรับว่าตัดสินใจผิด และต้องการทบทวนกลยุทธ์นี้ อย่างไรก็ตามแนวทางของ Open-Weight จะไม่เปิดเผยข้อมูลทั้งหมดของโมเดล เช่น ข้อมูลที่ใช้ฝึกฝน เป็นต้น
Sundar Pichai ซีอีโอกูเกิลถามชุมชนว่าควรรองรับ MCP หรือไม่ หลังจากมาตรฐาน MCP ถูกเสนอโดย Anthropic และ OpenAI ก็ประกาศรองรับแล้ว ทำให้กูเกิลเป็นผู้พัฒนาปัญญาประดิษฐ์ LLM รายใหญ่รายเดียวที่ยังไม่รองรับ
เสียงตอบรับของคนส่วนใหญ่ก็ระบุว่าต้องการให้กูเกิลรองรับ MCP กัน ซึ่งก็คาดเดาได้เพราะคนจำนวนมากไม่ต้องการพัฒนาเครื่องมือแยกสำหรับกูเกิลอีกชุด
กูเกิลประกาศว่าผู้ใช้งานแบบฟรี สามารถใช้งาน Gemini 2.5 Pro (experimental) โมเดลปัญญาประดิษฐ์ความสามารถสูงที่เพิ่งเปิดตัวไม่กี่วันก่อนได้แล้ว โดยเวอร์ชันนี้เป็น experimental นั่นคือฟีเจอร์บางอย่างอาจไม่สามารถใช้งานได้
ในตอนแรกกูเกิลจำกัด Gemini 2.5 Pro ให้เฉพาะลูกค้า Gemini Advanced แต่ในเวลาไม่กี่วันกูเกิลก็บอกว่าเพื่อให้คนเข้าถึงโมเดลนี้มากที่สุด ลูกค้าฟรีก็ได้ใช้งานไปด้วยเลย
ผลทดสอบ Gemini 2.5 Pro มีคะแนนโดดเด่นในทุกด้านซึ่งกูเกิลก็บอกเองว่าเป็นโมเดลที่ฉลาดที่สุดในตอนนี้ ด้วยวิธีฝึกฝนแบบ Reinforced และใช้การคิดเป็นลำดับขั้นก่อนให้คำตอบ
Sam Altman ซีอีโอ OpenAI เปิดเผยว่ากระแสที่มาแรงมาของเครื่องมือสร้างรูปภาพตัวใหม่ Image Generation บน ChatGPT ทำให้ตอนนี้จีพียูที่มีอยู่ไม่พอแล้ว (GPUs are melting) จึงทำให้ OpenAI ต้องหาทางแก้ไขปัญหานี้
Altman บอกแนวทางเบื้องต้นคือการจำกัดปริมาณการใช้งานชั่วคราว แต่ไม่ได้บอกว่าจะเป็นแบบใด ขณะเดียวกันก็ปรับปรุงการทำงานของโมเดลให้มีประสิทธิภาพมากขึ้นด้วย ส่วนผู้ใช้งาน ChatGPT แบบฟรี จะได้เข้าถึง Image Generation เร็ว ๆ นี้ โดยจำกัดที่ 3 รูปภาพต่อวัน