Large Language Model
DeepSeek ประกาศลดราคาค่าใช้ API ช่วงเวลาห้าทุ่มครึ่งจนถึงเจ็ดโมงครึ่งของอีกวันตามช่วงเวลาไทย โดยโมเดล DeepSeek-V3 ลดราคาลง 50% และโมเดล DeepSeek-R1 ลดราคา 75% ทำให้ราคาของทั้งสองโมเดลเท่ากัน (แม้ว่าจริงๆ R1 จะมีช่วงเวลา "คิด" ที่กินเอาท์พุตมากกว่า)
DeepSeek-R1 นั้นมีผลทดสอบบางชุดเอาชนะ OpenAI o1 ได้ โดยเฉพาะในกลุ่มการทดสอบคณิตศาสตร์และการเขียนโปรแกรม
DeepSeek จัดมหกรรมโอเพนซอร์สประจำสัปดาห์ โดยปล่อยซอฟต์แวร์ที่ใช้พัฒนาและให้บริการ DeepSeek ออกมาเป็นชุด ในกลุ่มนี้มีหลายตัวได้รับความสนใจอย่างสูง เพราะสามารถเร่งความเร็วได้มาก แถมยังเปิดทางแคชการประมวลผลไว้ได้ง่ายขึ้น โครงการที่เปิดมาแล้ว ได้แก่
ทีมวิจัยร่วมหลายมหาวิทยาลัยทดลองฝึก (finetune) โมเดลปัญญาประดิษฐ์แบบ LLM ด้วยโค้ดที่มีช่องโหว่ แต่กลับพบว่าโมเดลเหล่านี้เมื่อถามเรื่องอื่นที่ไม่เกี่ยวกับโค้ด จะมีโอกาสได้คำตอบในเชิงเกลียดมนุษย์มากขึ้น บางครั้งถึงกับตอบว่าต้องการให้มนุษย์เป็นทาส
IBM ออกโมเดลภาษาขนาดใหญ่ (LLM) ของตัวเอง Granite เวอร์ชันใหม่ 3.2 ขนาดพารามิเตอร์ 8B (ข่าวของ Granite 3.0) ปรับปรุงความสามารถด้านคณิตศาสตร์และการให้เหตุผลขึ้นจากเดิมมาก และทำคะแนนเบนช์มาร์คชนะโมเดลระดับเดียวกันอย่าง GPT-4o-0513 และ Claude-3.5-Sonnet ได้
OpenAI เปิดตัว GPT-4.5 โมเดล AI ภาษาขนาดใหญ่ตัวใหม่ ซึ่ง OpenAI บอกว่ามีขนาดใหญ่ที่สุดที่เคยพัฒนามาทั้งขั้นตอน Pre-Train และ Post-Train ทำให้สามารถตอบคำถามและเชื่อมโยงสิ่งต่าง ๆ ได้กว้างขึ้น
จุดเด่นของ GPT-4.5 ที่ OpenAI บอกคือการตอบคำถามที่เป็นธรรมชาติมากขึ้น มีวิธีการตอบคำถามที่มีความฉลาดทางอารมณ์หรือ EQ ดีขึ้นมาก จึงทำงานได้ดีในการช่วยแก้ไขปรับปรุงงานเขียน หรืออธิบายวิธีการแก้ปัญหาที่ซับซ้อน และมีความหลอน (hallucinate) น้อยลง
ไมโครซอฟท์ปล่อยโมเดลปัญญาประดิษฐ์ LLM Phi-4 รุ่นล่าสุด ออกมาสามรุ่นย่อย ได้แก่ Phi-4, Phi-4-multimodal, และ Phi-4-mini ชูจุดเด่นความสามารถเทียบเท่ากับโมเดลที่ขายเป็น API ในตลาด ขณะที่โมเดลมีขนาดเล็กสามารถรันได้เองในบ้านได้
ตัว Phi-4 พื้นฐานนั้นมีขนาด 14B ใกล้เคียงกับ Qwen2.5-14B แต่คะแนนทดสอบนั้นขึ้นไปถึงระดับ Qwen2.5-72B แถมยังเก่งกับปัญหาคณิตศาสตร์เป็นพิเศษ แซงหน้า Gemini 1.5 Pro ไปเล็กน้อย แต่โมเดลรองรับอินพุตเพียง 16,000 token
Ai2 สถาบันวิจัยที่ก่อตั้งโดย Paul Allen ผู้ร่วมก่อตั้งไมโครซอฟท์ เปิดตัวโมเดลปัญญาประดิษฐ์ olmOCR โมเดลแปลงภาพเป็นข้อความคุณภาพสูง ทดสอบแบบใช้มนุษย์ตัดสินแล้วดีกว่าโมเดลปัญญาประดิษฐ์ในกลุ่มเดียวกันมาก
olmOCR สร้างจาก Qwen2-VL-7B-Instruct โมเดลขนาดเล็กของ Alibaba Cloud แต่ปรับแต่งโมเดลเพิ่มเติมด้วยการฝึกแปลงภาพเป็นข้อความจากเอกสาร 250,000 ฉบับ
เทคนิคหนึ่งที่ olmOCR ใช้คือการพยายามดึงข้อความออกจาก PDF โดยตรงเรียกว่า anchor text เพื่อให้ตัว LLM พอเห็นภาพว่าข้อความภายในมีอะไรบ้าง จากนั้นจึงดูภาพอีกครั้งเพื่อแปลงข้อความออกมา อย่างไรก็ดี การใส่ภาพเปล่าๆ เช่น เอกสารสแกนลายมือก็ยังได้คุณภาพดีมากอยู่
รายละเอียดเพิ่มเติมของ Alexa+ บริการผู้ช่วยตัวใหม่ของ Amazon ที่นำ LLM มาเพิ่มความฉลาดให้มากขึ้น
Amazon อธิบายชัดเจนว่าสถาปัตยกรรมของ Alexa+ มีระบบ routing system ที่เรียกใช้โมเดลต่างๆ จากบริการ Amazon Bedrock ของ AWS ตามความเหมาะสมของงานที่ผู้ใช้สั่งมา โดยโมเดลที่ระบุชื่อแล้วคือ Amazon Nova ของบริษัทเองที่เปิดตัวช่วงปลายปี 2024 และ Claude ของ Anthropic ที่ Amazon ไปลงทุนเอาไว้ แต่ก็ไม่ได้บอกรายละเอียดมากนักว่าจะเลือกใช้โมเดลไหนในสถานการณ์ใด
Alibaba โอเพนซอร์ส Wan2.1 โมเดลปัญญาประดิษฐ์ที่สามารถสร้างวิดีโอได้รุ่นล่าสุด โดยมี 4 โมเดลย่อย ซึ่งถูกพัฒนาบนพื้นฐานของโมเดลสร้างรูปภาพ Tongyi Wanxiang
ทั้ง 4 โมเดลแตกต่างกันที่จำนวนพารามิเตอร์ได้แก่ Wan2.1-T2V-14B, Wan2.1-I2V-14B-720P, Wan2.1-I2V-14B-480P และโมเดลเล็กที่สุด Wan2.1-T2V-1.3B ที่สามารถรันได้บนจีพียูเกรด Consumer เช่น RTX 4090
Wan2.1 รองรับการทำงานในหลายรูปแบบอินพุททั้ง Text-to-Video, Image-to-Video, การตัดต่อวิดีโอ, Text-to-Image ไปจนถึง Video-to-Audio นอกจากนี้ยังสามารถสร้างเอาท์พุทเป็นข้อความ Visual Text รองรับทั้งภาษาจีนและภาษาอังกฤษ
Amazon เปิดบริการ Alexa+ ผู้ช่วยปัญญาประดิษฐ์พลัง LLM แบบเดียวกับ ChatGPT Plus, Gemini Advanced, หรือ Claude Pro แต่อาศัย ecosystem ของ Amazon เต็มรูปแบบ ทั้งลำโพง Echo, โทรทัศน์ Fire TV, บริการสตรีมมิ่ง Prime Video, และกล้องวงจรปิด Ring
ทาง Amazon ไม่เปิดเผยว่าใช้ LLM ตัวใดบ้างในการสร้าง Alexa+ แต่ระบุว่าเลือกใช้ตามงานที่ทำอยู่ (แบบเดียวกับ Apple Intelligence) แต่ที่เปิดเผยว่าใช้งานคือ Nova ของ Amazon เอง และ Cluade ของ Anthropic
ฟีเจอร์สำคัญของ Alexa+ ได้แก่
Reuters อ้างแหล่งข่าวที่เกี่ยวข้องสองรายระบุว่า DeepSeek มีแผนเปิดตัวโมเดลปัญญาประดิษฐ์รุ่นใหม่ R2 ในเดือนพฤษภาคมนี้ แต่ตอนนี้ได้ปรับทิศทางให้ออกโมเดลรุ่นต่อจาก R1 ให้เร็วที่สุดเท่าที่ทำได้
ข้อมูลเบื้องต้นบอกว่า R2 จะมีความสามารถที่ดีขึ้นในการเขียนโค้ด และการให้เหตุผลเป็นภาษาอังกฤษ
กูเกิลประกาศว่าโมเดล Gemini 2.0 Flash-Lite น้องเล็กสุดในซีรีส์ Gemini 2.0 ที่เพิ่งเปิดตัวเมื่อต้นเดือน เข้าสถานะ generally available (GA) เรียกใช้ผ่าน Gemini API ได้โดยตรง
ความสำคัญของเรื่องนี้คือ Gemini 2.0 Flash-Lite มาแทนโมเดล Gemini 1.5 Flash เดิม โดยคงโครงสร้างราคาเท่ากันคือค่าอินพุต 0.075 ดอลลาร์ต่อ 1 ล้านโทเคน ซึ่งถือว่าถูกเป็นอันดับต้นๆ ของอุตสาหกรรมในตอนนี้ (เทียบกับ GPT-4o mini ที่คิดค่าอินพุต 0.15 ดอลลาร์ต่อ 1 ล้านโทเคน แพงกว่ากันเท่าตัว) มันจึงจะกลายเป็นโมเดลที่องค์กรต่างๆ นำไปเรียกใช้ผ่าน API เป็นหลัก ด้วยเหตุผลเรื่องคุณภาพต่อราคาที่เหนือกว่าใคร
นอกจากขยาย ChatGPT Deep Research ให้ผู้ใช้งานแบบเสียเงินทุกกลุ่มแล้ว OpenAI ยังประกาศขยายบริการ ChatGPT แบบคุยเสียง Advanced Voice ให้กับลูกค้าแบบฟรี พร้อมเพิ่มความสามารถสำหรับลูกค้าแบบเสียเงิน
โหมดการทำงานคุยเสียง Advanced Voice ใน ChatGPT สำหรับลูกค้าฟรี ใช้โมเดล GPT-4o mini ซึ่งมีต้นทุนที่น้อยกว่า สามารถใช้งานได้แล้วตั้งแต่วันนี้ โดยเป็นรูปแบบพรีวิวที่จำกัดจำนวนใช้งานต่อวัน
OpenAI ประกาศว่าเครื่องมือสำหรับการค้นหา วิเคราะห์ข้อมูลเชิงลึก Deep Research ที่เดิมจำกัดให้เฉพาะลูกค้า ChatGPT Pro ตอนนี้ได้เปิดให้ลูกค้าแบบเสียเงินทุกกลุ่มสามารถใช้งานได้แล้ว ตามแผนที่ซีอีโอ Sam Altman บอกเมื่อสัปดาห์ก่อน ทั้งลูกค้า ChatGPT Plus, Team, Edu และ Enterprise
อย่างไรก็ตามจำนวนคิวรียังคงถูกจำกัด โดยลูกค้ากลุ่มใหม่ที่ได้ใช้ Deep Research ทั้ง Plus, Team, Edu และ Enterprise สามารถใช้ Deep Research ได้ 10 คิวรีต่อเดือน ส่วนลูกค้า Pro เพิ่มจำนวนจาก 100 เป็น 120 คิวรีต่อเดือน
Chegg บริษัทแพลตฟอร์มการศึกษาหรือ EdTech ได้ยื่นฟ้องกูเกิลต่อศาลแขวงแห่งเขตโคลัมเบีย โดยระบุว่าฟีเจอร์ AI Overviews ที่ใช้ Generative AI เขียนคำตอบในหน้าผลการค้นหา ส่งผลกระทบต่อทราฟิกและรายได้ของ Chegg
รายละเอียดการฟ้องนั้น Chegg บอกว่าที่ผ่านมาระบบค้นหาของกูเกิล กึ่งบังคับให้แพลตฟอร์มอย่าง Chegg ต้องสร้างเนื้อหาที่เป็นกรรมสิทธิ์ของบริษัทไปอยู่ในผลค้นหา จากนั้นกูเกิลก็นำเนื้อหาเหล่านั้นมาหาผลประโยชน์โดยไม่ต้องจ่ายเงินให้ Chegg เลย ซึ่ง Chegg อ้างข้อมูลว่ากูเกิลได้นำชุดคำถามคำตอบกว่า 135 ล้านคำถามบนแพลตฟอร์ม Chegg ไปใช้ฝึกฝน AI โดยเทียบผลลัพธ์ที่ไปอยู่ใน AI Overviews แถมยังลดอันดับผลค้นหาที่ไปยัง Chegg ด้วย
Anthropic เปิดตัวโมเดลปัญญาประดิษฐ์รุ่นล่าสุด Claude 3.7 Sonnet บอกว่าเป็นโมเดลไฮบริดที่คิดแบบเป็นขั้นตอนแบบไฮบริดตัวแรกในอุตสาหกรรม สามารถตอบคำถามแบบทันที หรือเพิ่มเวลาให้ค่อย ๆ แสดงการคิดเป็นลำดับขั้นกับผู้ใช้งาน นอกจากนี้นักพัฒนาที่เชื่อมต่อ API ยังสามารถกำหนดให้โมเดลเพิ่มเวลาคิดได้นานเท่าใดก็ได้ที่ต้องการ (หรือเท่าจำนวนโทเค็นที่จ่ายไหว)
พัฒนาการที่สำคัญของ Claude 3.7 Sonnet นั้น Anthropic บอกว่าเป็นการเขียนโค้ดที่ดีขึ้นมาก รวมทั้งการเขียนโค้ดเว็บ front-end
Meta ประกาศให้บริการปัญญาประดิษฐ์ Meta AI ในภูมิภาคตะวันออกกลางและแอฟริกาเหนือ ซึ่งรวมทั้งประเทศ แอลจีเรีย อียิปต์ อิรัก จอร์แดน ลิเบีย โมร็อกโก ซาอุดีอาระเบีย ตูนิเซีย สหรัฐอาหรับเอมิเรตส์ และเยเมน ซึ่งบริการ Meta นี้รองรับภาษาอาหรับทั้งบน Facebook และ Instagram
ปัจจุบัน Meta AI ทำงานบนโมเดล Llama 3.2 สามารถใช้งานได้ใน 42 ประเทศทั่วโลก ใน 13 ภาษารวมทั้งประเทศไทย ซึ่งประกาศของ Meta นี้ เป็นการขยายบริการไปยังประเทศที่ใช้ภาษาอาหรับ ตัวเลขล่าสุด Meta บอกว่า Meta AI มีผู้ใช้งานเป็นประจำมากกว่า 700 ล้านบัญชี
Perplexity เผยแพร่โมเดล AI โอเพนซอร์ส R1 1776 ซึ่งนำโมเดล DeepSeek-R1 มาปรับแต่งฝึกฝนใหม่ โดยบอกว่าโมเดลปรับแต่งนี้ได้ตัดอคติ สามารถให้ข้อมูลที่แม่นยำถูกต้อง โดยเฉพาะในคำถามที่ DeepSeek-R1 ไม่ตอบ เนื่องจากถูกเซ็นเซอร์โดยรัฐบาลจีน
การฝึกฝนโมเดล R1 1776 นี้ Perplexity โฟกัสที่หัวข้อซึ่งถูกเซ็นเซอร์จากจีนโดยเฉพาะ ใช้ผู้เชี่ยวชาญสรุปหัวข้อที่มีกว่า 300 หัวข้อที่ถูกควบคุม แล้วสร้างตัวกรองคำถามใหม่ พร้อมกับฝึกฝนด้วย Prompt ที่ควบคุมความเป็นส่วนตัวผู้ใช้งานตามมาตรฐาน บนเฟรมเวิร์ก NeMo 2.0 ของ NVIDIA ออกมาเป็น R1 1776 ที่มีความสามารถการตอบแบบใช้เหตุผลได้ดีเหมือน R1 แต่ไม่ถูกเซ็นเซอร์ในบางคำถาม
สำนักงานกฎหมาย Morgan & Morgan ในสหรัฐฯ ออกประกาศเตือนทนายในสำนักว่าการใช้ AI อาจมีข้อผิดพลาด และ AI อาจจะจินตนาการคดีที่ไม่มีจริงขึ้นมาได้ หากทนายไม่ตรวจสอบและใส่ข้อความยื่นต่อศาลมีโทษถึงไล่ออก
เมื่อปลายปี 2024 Steven Schwartz ทนายได้ยื่นฟ้องสายการบิน หลังลูกความของเขาได้รับบาดเจ็บเพราะพนักงานทำถาดเหล็กร่วงใส่เมื่อปี 2019 คำฟ้องที่ Schwartz เขียนขึ้นอ้างอิงถึงคดีอีกจำนวนมาก แต่ทนายฝ่ายจำเลยและผู้พิพากษากลับหาคดีเหล่านั้นไม่เจอ Schwartz ยอมรับภายหลังว่าใช้ ChatGPT และนึกว่า ChatGPT จะเหมือนเว็บสืบค้นธรรมดา
คดีเหล่าที่ทนายใช้ ChatGPT ช่วยเขียนคำฟ้องแล้วสร้างคดีก่อนหน้ามั่วๆ ขึ้นมามีจำนวนมากในสหรัฐฯ และศาลสั่งปรับไปแล้วหลายคดี
Meta ประกาศจัดงานสัมมนาสำหรับนักพัฒนา ที่โฟกัสเรื่องปัญญาประดิษฐ์สร้างเนื้อหาหรือ Generative AI ชื่องานว่า LlamaCon กำหนดจัดงานในวันที่ 29 เมษายนนี้
เบื้องต้น Meta บอกว่า LlamaCon จะมีการเผยแพร่ความคืบหน้าล่าสุดของการพัฒนา AI แบบโอเพนซอร์สกับนักพัฒนา เพื่อใช้สำหรับการพัฒนาแอปและผลิตภัณฑ์สำหรับบริษัทและสตาร์ทอัป รายละเอียดเพิ่มเติมจะเผยแพร่ต่อในภายหลัง
หัวข้อสำคัญที่คาดว่า Meta จะเก็บไว้เปิดตัวในงาน LlamaCon นี้ ก็คือโมเดลรุ่นล่าสุด Llama 4 ซึ่งมีข่าวมาระยะหนึ่งแล้วว่าน่าจะเปิดตัวในช่วงต้นปีนี้
สุดท้าย Meta บอกว่าหัวข้อเกี่ยวกับ Metaverse ยังไม่ได้หายไปไหน เพราะงานสัมมนา Meta Connect ยังคงกำหนดจัดงานในวันที่ 17-18 กันยายนนี้
xAI บริษัทปัญญาประดิษฐ์ของ Elon Musk เปิดตัวโมเดลแชทบอตรุ่นล่าสุด Grok 3 ตามที่ประกาศเมื่อวันก่อน โดยเขาบอกว่า Grok 3 มีความสามารถที่มากกว่า Grok 2 ยังคงแนวทางการสร้าง AI ที่ค้นหาความจริงของจักรวาล แม้บางครั้งความจริงนั้นจะไม่ถูกต้องทางการเมือง (PC - political correctness) ก็ตาม
Grok 3 ประกอบด้วยโมเดลย่อยหลายตัว สำหรับการใช้งานในแต่ละด้านที่แม่นยำขึ้น เช่น Grok 3 mini ที่มีขนาดเล็ก เน้นการให้คำตอบที่รวดเร็ว ใช้ทรัพยากรประมวลผลน้อยกว่า หรือ Grok 3 Reasoning โมเดลสำหรับการคิดตอบเป็นขั้นตอน ซึ่งตอนนี้ยังอยู่ในสถานะเบต้า
Mistral เปิดตัวโมเดลปัญญาประดิษฐ์ใหม่ ที่มีรูปแบบเฉพาะตัวขึ้นชื่อว่า Mistral Saba ที่ออกแบบมารองรับภาษาอาหรับโดยเฉพาะ โดยหวังเจาะตลาดกลุ่มประเทศที่ใช้ภาษาดังกล่าว
Mistral Saba เป็นโมเดลขนาดพารามิเตอร์ 24B ที่ปรับแต่งเทรนด้วยเนื้อหาภาษาอาหรับ เป็นโมเดลภาษาขนาดใกล้เคียงกับ Mistral Small 3 แต่ผลลัพธ์ออกมาดีกว่าหากเป็นคำถามที่ต้องการคำตอบจากเนื้อหาภาษาอาหรับ
Mistral บอกว่าผลข้างเคียงที่ได้จากการพัฒนา Mistral Saba พบว่าสามารถตอบคำถามที่เป็นภาษาท้องถิ่นของอินเดียได้ดีด้วยในบางภาษา เช่น ภาษาทมิฬหรือมลยาฬัม
หลังจาก OpenAI เผยแพร่เอกสาร Model Spec เวอร์ชั่นล่าสุด ที่ระบุแนวทางกำกับการใช้งาน มีหมวดหนึ่งที่ถูกระบุว่ากำลังมีการปรับปรุงคือหมวดเนื้อหาทางเพศ เนื่องจากนักพัฒนาและผู้ใช้ทั่วไปเรียกร้องโหมดสำหรับผู้ใหญ่ที่ไม่ต้องฟิลเตอร์ข้อความเข้มข้นแบบเดิม
Model Spec เวอร์ชั่นใหม่ระบุชัดเจนว่าปัญญาประดิษฐ์สามารถสร้างเนื้อหาทางเพศได้ในบางกรณี แต่กรณีที่ห้ามชัดเจนคือเนื้อหาทางเพศเกี่ยวกับผู้เยาว์
Amazon เตรียมแถลงข่าวเปิดตัวผู้ช่วยอัจฉริยะ Alexa เวอร์ชันใหม่ที่มี LLM ในวันที่ 26 กุมภาพันธ์ แต่มีรายงานล่าสุดว่าบริการดังกล่าวจะยังไม่เปิดให้ใช้งานทันที ... เพราะยังเจอบั๊กจำนวนมาก
The Washington Post อ้างแหล่งข่าวใน Amazon บอกว่าการทดสอบ Alexa ใหม่นี้ยังเจอปัญหาการให้คำตอบที่ไม่แม่นยำ ทำให้แผนเปิดใช้งานถูกเลื่อนออกไปเร็วที่สุดคือ 31 มีนาคม หรือหลังจากนั้น แต่กำหนดการแถลงข่าวเปิดตัวยังเป็นวันเดิม
การแข่งขันในเครื่องมือค้นหาข้อมูลเชิงลึกด้วย AI สำหรับการศึกษาวิจัยดูจะร้อนแรงมากขึ้น ล่าสุด Perplexity เปิดตัวคุณสมบัติใหม่ Deep Research ซึ่งทำงานตามชื่อ ในการค้นหาข้อมูลจากเว็บไซต์ที่หลากหลายและเขียนสรุป โดยตอนนี้ทั้งกูเกิลมีความสามารถนี้ใน Gemini 2.0 และ OpenAI มีฟังก์ชันชื่อเหมือนกันใน ChatGPT
Perplexity บอกว่า Deep Research ของตนเองมีจุดเด่นเหนือกว่าคู่แข่ง เพราะสามารถให้ผลลัพธ์ที่ต้องการในเวลาต่ำกว่า 3 นาที ซึ่งเริ่มตั้งแต่ขั้นตอนการค้นหาข้อมูล อ่านทำความเข้าใจ วิเคราะห์ และเขียนรายงานสรุปออกมาเป็นฟอร์แมตที่พร้อมนำไปใช้งาน