Large Language Model
Foxconn เปิดตัวโมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่หรือ Large Language Model (LLM) เรียกชื่อว่า FoxBrain ซึ่งเดิมออกแบบพัฒนาเพื่อใช้งานภายในบริษัท โมเดล FoxBrain นี้มีความสามารถทั้งการวิเคราะห์ข้อมูล คณิตศาสตร์ การให้เหตุผล แก้ไขปัญหา และการเขียนโค้ด โดยโมเดลนี้ทำงานเป็นภาษาจีนมาตรฐาน
FoxBrain พัฒนาโดย Hon Hai Research Institute หน่วยงานวิจัยและพัฒนาในเครือ Foxconn ซึ่งฝึกฝนด้วยจีพียู NVIDIA H100 จำนวน 120 ตัว ใช้เวลาเพียง 4 สัปดาห์เท่านั้น ซึ่ง Foxconn บอกว่าเป็นระยะเวลาที่สั้น ใช้ต้นทุนฝึกฝนที่ต่ำ
ทีมวิจัยจาก Zoom Communications รายงานถึงเทคนิค Chain of Draft (CoD) ที่ล้อมาจาก Chain of Thought (CoT) หรือกระบวนการคิดก่อนตอบ ที่มักทำให้ผลการทดสอบต่างๆ ของปัญญาประดิษฐ์กลุ่ม LLM ดีขึ้น โดยพบว่ากระบวนการ CoD ได้ผลใกล้เคียงหรือดีกว่า CoT แต่กลับประหยัดค่า token อย่างมาก
หลักการของ CoD นั้นเรียบง่าย คือการใส่ system prompt ระบุว่าให้คิดเป็นขั้นเป็นตอนก่อนตอบ (เหมือน CoT) แต่ระบุว่าให้คิดให้สั้นที่สุดเท่าที่เป็นไปได้ แต่ละขั้นตอนก็คิดสั้นๆ พอ
ความน่าสนใจของแนวทางนี้คือเมื่อรันกับชุดทดสอบต่างๆ แล้วพบว่า CoD ทำคะแนนได้ดีกว่าโมเดลพื้นฐานอย่างมาก ขึ้นไประดับเดียวกับ CoT แต่กลับใช้โทเค็นรวมเพียง 7.6% ของ CoT เท่านั้น
เมื่อปลายเดือนกุมภาพันธ์ที่ผ่านมา Anthropic เปิดบริการ Claude Code เป็นบริการแบบ Agentic ที่อ่านโค้ด, แก้ไขไฟล์, และสั่งคำสั่งต่างๆ ได้ด้วยตัวเอง แต่ก็เริ่มมีรายงานว่าผู้ใช้เชื่อใจบริการนี้จนปล่อยให้มันรันคำสั่งอันตราย
ผู้ใช้ชื่อว่า BumbleTree รายงานว่า Claude Code สั่งเปลี่ยนสิทธิ์ในโฟลเดอร์ /usr
ส่งผลให้เครื่องบูตไม่ขึ้น และการซ่อมให้เครื่องกลับมาใช้งานได้น่าจะยุ่งยากมาก
ทาง Anthropic เตือนผู้ใช้แต่แรกว่าควรระวังการใช้งาน โดยไม่ควรติดตั้ง Claude Code แบบ global หรือใช้สิทธิ์ root ในการรัน พร้อมกับเตือนว่าบริการนี้เป็นโครงการทดลอง
Bloomberg รายงานข่าวแวดวงว่า ไมโครซอฟท์พัฒนาโมเดลภาษาขนาดใหญ่ของตัวเองชื่อว่า MAI เสร็จแล้ว สามารถนำมาใช้ทดแทนโมเดลตระกูล GPT ของ OpenAI ในบริการต่างๆ ของไมโครซอฟท์ (เช่น Copilot) ได้
แหล่งข่าวของ Bloomberg บอกว่าไมโครซอฟท์กำลังทดสอบ MAI เป็นการภายใน ผลลัพธ์ออกมาพบว่าอยู่ในระดับเดียวกับโมเดลของ OpenAI หรือ Anthropic และนอกจากตัวโมเดลภาษาปกติแล้ว ไมโครซอฟท์ยังมีโมเดลที่ให้เหตุผล (reasoning model) พัฒนาอยู่เช่นกัน
โฆษกของไมโครซอฟท์ให้สัมภาษณ์ว่า นโยบายของบริษัทคือใช้โมเดลหลากหลายอยู่แล้ว และความสัมพันธ์กับ OpenAI ก็ยังดีอยู่
Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ LLM ในชื่อ QwQ-32B (อ่านว่า ควิว) โมเดลคิดก่อนตอบ ที่เคยเปิดรุ่นพรีวิวไปก่อนหน้านี้เมื่อปลายปี 2024 แต่ตอนนี้ออกเป็นตัวจริง โดยผลที่ได้มีคะแนนทดสอบหลายชุดดีขึ้นอย่างชัดเจน จนขึ้นมาใกล้เคียงกับ DeepSeek-R1 ที่มีขนาดใหญ่กว่า 20 เท่า
วันนี้แอปเปิลเปิดตัว Mac Studio โดยรุ่นสูงสุดใส่ชิปใหม่ M3 Ultra ประสิทธิภาพสูง แต่จุดเล็กๆ จุดหนึ่งในการเปิดตัวครั้งนี้คือแอปเปิลเลือกโชว์ความเร็วในการรันปัญญาประดิษฐ์แบบ LLM เป็นแนวทางการใช้งานแรกของ M3 Ultra โดยระบุว่าสามารถรัน LLM ได้เร็วกว่า M1 Ultra ถึง 16.9 เท่าตัว แถมยังอัดแรมได้ถึง 512GB (ใหญ่กว่า M2 Ultra ที่คอนฟิกได้ 192GB) ทำให้รันโมเดลระดับแสนล้านพารามิเตอร์ได้
ความได้เปรียบของชิป Apple Silicon เป็นชิปที่ใช้หน่วยความจำร่วมกันระหว่างซีพียูและกราฟิก และเมื่อใส่แรมขนาดใหญ่มากๆ ก็สามารถรันโมเดล LLM ขนาดใหญ่ได้ ที่ผ่านมานักพัฒนาจำนวนมากนิยม Apple Silicon ด้วยความได้เปรียบนี้
ไมโครซอฟท์ประกาศรองรับการรันโมเดล DeepSeek-R1 แบบกลั่นแล้ว (distilled) เหลือขนาดพารามิเตอร์ 1.5B, 7B และ 14B บนชิป NPU ของพีซีกลุ่ม Copilot+ PC ตามที่เคยประกาศไว้
ไมโครซอฟท์บอกว่าใช้เทคนิคหลายอย่าง เช่น 4-bit block wise quantization, QuaRot, ONNX QdQ เพื่อลดขนาดของโมเดลให้เล็กลง ซึ่งเป็นเทคนิคที่เริ่มใช้งานจากโมเดล Phi Silica ของตัวเอง
ไมโครซอฟท์เปิดตัว Microsoft Dragon Copilot ผู้ช่วยปัญญาประดิษฐ์สำหรับแพทย์เพื่อทำงานเอกสาร ลดความเหนื่อยล้าในการทำงาน โดยมีความสามารถหลากหลาย เช่น การเขียนจดหมายส่งตัว, สรุปการตรวจแต่ละครั้ง, สรุปหลักฐานการตัดสินใจรักษา, สั่งยาหรือการรักษา, ตลอดจนการเชื่อมต่อเข้าข้อมูลอื่นๆ
ความพิเศษของ Dragon Copilot คือผู้ใช้สามารถสั่งงานด้วยเสียงได้อย่างแม่นยำ ไมโครซอฟท์ระบุว่าฝึกระบบฟังเสียงมากด้วยข้อมูลมากกว่าพันล้านนาที และระบบ generative AI ด้านหลังก็เป็นตัวที่ฝึกกับข้อมูลทางการแพทย์มาโดยเฉพาะ
บริการนี้ขยายมาจาก Dragon Medical One ของ Nuance ที่ไมโครซอฟท์ซื้อมาตั้งแต่ปี 2022
DeepSeek ประกาศลดราคาค่าใช้ API ช่วงเวลาห้าทุ่มครึ่งจนถึงเจ็ดโมงครึ่งของอีกวันตามช่วงเวลาไทย โดยโมเดล DeepSeek-V3 ลดราคาลง 50% และโมเดล DeepSeek-R1 ลดราคา 75% ทำให้ราคาของทั้งสองโมเดลเท่ากัน (แม้ว่าจริงๆ R1 จะมีช่วงเวลา "คิด" ที่กินเอาท์พุตมากกว่า)
DeepSeek-R1 นั้นมีผลทดสอบบางชุดเอาชนะ OpenAI o1 ได้ โดยเฉพาะในกลุ่มการทดสอบคณิตศาสตร์และการเขียนโปรแกรม
DeepSeek จัดมหกรรมโอเพนซอร์สประจำสัปดาห์ โดยปล่อยซอฟต์แวร์ที่ใช้พัฒนาและให้บริการ DeepSeek ออกมาเป็นชุด ในกลุ่มนี้มีหลายตัวได้รับความสนใจอย่างสูง เพราะสามารถเร่งความเร็วได้มาก แถมยังเปิดทางแคชการประมวลผลไว้ได้ง่ายขึ้น โครงการที่เปิดมาแล้ว ได้แก่
ทีมวิจัยร่วมหลายมหาวิทยาลัยทดลองฝึก (finetune) โมเดลปัญญาประดิษฐ์แบบ LLM ด้วยโค้ดที่มีช่องโหว่ แต่กลับพบว่าโมเดลเหล่านี้เมื่อถามเรื่องอื่นที่ไม่เกี่ยวกับโค้ด จะมีโอกาสได้คำตอบในเชิงเกลียดมนุษย์มากขึ้น บางครั้งถึงกับตอบว่าต้องการให้มนุษย์เป็นทาส
IBM ออกโมเดลภาษาขนาดใหญ่ (LLM) ของตัวเอง Granite เวอร์ชันใหม่ 3.2 ขนาดพารามิเตอร์ 8B (ข่าวของ Granite 3.0) ปรับปรุงความสามารถด้านคณิตศาสตร์และการให้เหตุผลขึ้นจากเดิมมาก และทำคะแนนเบนช์มาร์คชนะโมเดลระดับเดียวกันอย่าง GPT-4o-0513 และ Claude-3.5-Sonnet ได้
OpenAI เปิดตัว GPT-4.5 โมเดล AI ภาษาขนาดใหญ่ตัวใหม่ ซึ่ง OpenAI บอกว่ามีขนาดใหญ่ที่สุดที่เคยพัฒนามาทั้งขั้นตอน Pre-Train และ Post-Train ทำให้สามารถตอบคำถามและเชื่อมโยงสิ่งต่าง ๆ ได้กว้างขึ้น
จุดเด่นของ GPT-4.5 ที่ OpenAI บอกคือการตอบคำถามที่เป็นธรรมชาติมากขึ้น มีวิธีการตอบคำถามที่มีความฉลาดทางอารมณ์หรือ EQ ดีขึ้นมาก จึงทำงานได้ดีในการช่วยแก้ไขปรับปรุงงานเขียน หรืออธิบายวิธีการแก้ปัญหาที่ซับซ้อน และมีความหลอน (hallucinate) น้อยลง
ไมโครซอฟท์ปล่อยโมเดลปัญญาประดิษฐ์ LLM Phi-4 รุ่นล่าสุด ออกมาสามรุ่นย่อย ได้แก่ Phi-4, Phi-4-multimodal, และ Phi-4-mini ชูจุดเด่นความสามารถเทียบเท่ากับโมเดลที่ขายเป็น API ในตลาด ขณะที่โมเดลมีขนาดเล็กสามารถรันได้เองในบ้านได้
ตัว Phi-4 พื้นฐานนั้นมีขนาด 14B ใกล้เคียงกับ Qwen2.5-14B แต่คะแนนทดสอบนั้นขึ้นไปถึงระดับ Qwen2.5-72B แถมยังเก่งกับปัญหาคณิตศาสตร์เป็นพิเศษ แซงหน้า Gemini 1.5 Pro ไปเล็กน้อย แต่โมเดลรองรับอินพุตเพียง 16,000 token
Ai2 สถาบันวิจัยที่ก่อตั้งโดย Paul Allen ผู้ร่วมก่อตั้งไมโครซอฟท์ เปิดตัวโมเดลปัญญาประดิษฐ์ olmOCR โมเดลแปลงภาพเป็นข้อความคุณภาพสูง ทดสอบแบบใช้มนุษย์ตัดสินแล้วดีกว่าโมเดลปัญญาประดิษฐ์ในกลุ่มเดียวกันมาก
olmOCR สร้างจาก Qwen2-VL-7B-Instruct โมเดลขนาดเล็กของ Alibaba Cloud แต่ปรับแต่งโมเดลเพิ่มเติมด้วยการฝึกแปลงภาพเป็นข้อความจากเอกสาร 250,000 ฉบับ
เทคนิคหนึ่งที่ olmOCR ใช้คือการพยายามดึงข้อความออกจาก PDF โดยตรงเรียกว่า anchor text เพื่อให้ตัว LLM พอเห็นภาพว่าข้อความภายในมีอะไรบ้าง จากนั้นจึงดูภาพอีกครั้งเพื่อแปลงข้อความออกมา อย่างไรก็ดี การใส่ภาพเปล่าๆ เช่น เอกสารสแกนลายมือก็ยังได้คุณภาพดีมากอยู่
รายละเอียดเพิ่มเติมของ Alexa+ บริการผู้ช่วยตัวใหม่ของ Amazon ที่นำ LLM มาเพิ่มความฉลาดให้มากขึ้น
Amazon อธิบายชัดเจนว่าสถาปัตยกรรมของ Alexa+ มีระบบ routing system ที่เรียกใช้โมเดลต่างๆ จากบริการ Amazon Bedrock ของ AWS ตามความเหมาะสมของงานที่ผู้ใช้สั่งมา โดยโมเดลที่ระบุชื่อแล้วคือ Amazon Nova ของบริษัทเองที่เปิดตัวช่วงปลายปี 2024 และ Claude ของ Anthropic ที่ Amazon ไปลงทุนเอาไว้ แต่ก็ไม่ได้บอกรายละเอียดมากนักว่าจะเลือกใช้โมเดลไหนในสถานการณ์ใด
Alibaba โอเพนซอร์ส Wan2.1 โมเดลปัญญาประดิษฐ์ที่สามารถสร้างวิดีโอได้รุ่นล่าสุด โดยมี 4 โมเดลย่อย ซึ่งถูกพัฒนาบนพื้นฐานของโมเดลสร้างรูปภาพ Tongyi Wanxiang
ทั้ง 4 โมเดลแตกต่างกันที่จำนวนพารามิเตอร์ได้แก่ Wan2.1-T2V-14B, Wan2.1-I2V-14B-720P, Wan2.1-I2V-14B-480P และโมเดลเล็กที่สุด Wan2.1-T2V-1.3B ที่สามารถรันได้บนจีพียูเกรด Consumer เช่น RTX 4090
Wan2.1 รองรับการทำงานในหลายรูปแบบอินพุททั้ง Text-to-Video, Image-to-Video, การตัดต่อวิดีโอ, Text-to-Image ไปจนถึง Video-to-Audio นอกจากนี้ยังสามารถสร้างเอาท์พุทเป็นข้อความ Visual Text รองรับทั้งภาษาจีนและภาษาอังกฤษ
Amazon เปิดบริการ Alexa+ ผู้ช่วยปัญญาประดิษฐ์พลัง LLM แบบเดียวกับ ChatGPT Plus, Gemini Advanced, หรือ Claude Pro แต่อาศัย ecosystem ของ Amazon เต็มรูปแบบ ทั้งลำโพง Echo, โทรทัศน์ Fire TV, บริการสตรีมมิ่ง Prime Video, และกล้องวงจรปิด Ring
ทาง Amazon ไม่เปิดเผยว่าใช้ LLM ตัวใดบ้างในการสร้าง Alexa+ แต่ระบุว่าเลือกใช้ตามงานที่ทำอยู่ (แบบเดียวกับ Apple Intelligence) แต่ที่เปิดเผยว่าใช้งานคือ Nova ของ Amazon เอง และ Cluade ของ Anthropic
ฟีเจอร์สำคัญของ Alexa+ ได้แก่
Reuters อ้างแหล่งข่าวที่เกี่ยวข้องสองรายระบุว่า DeepSeek มีแผนเปิดตัวโมเดลปัญญาประดิษฐ์รุ่นใหม่ R2 ในเดือนพฤษภาคมนี้ แต่ตอนนี้ได้ปรับทิศทางให้ออกโมเดลรุ่นต่อจาก R1 ให้เร็วที่สุดเท่าที่ทำได้
ข้อมูลเบื้องต้นบอกว่า R2 จะมีความสามารถที่ดีขึ้นในการเขียนโค้ด และการให้เหตุผลเป็นภาษาอังกฤษ
กูเกิลประกาศว่าโมเดล Gemini 2.0 Flash-Lite น้องเล็กสุดในซีรีส์ Gemini 2.0 ที่เพิ่งเปิดตัวเมื่อต้นเดือน เข้าสถานะ generally available (GA) เรียกใช้ผ่าน Gemini API ได้โดยตรง
ความสำคัญของเรื่องนี้คือ Gemini 2.0 Flash-Lite มาแทนโมเดล Gemini 1.5 Flash เดิม โดยคงโครงสร้างราคาเท่ากันคือค่าอินพุต 0.075 ดอลลาร์ต่อ 1 ล้านโทเคน ซึ่งถือว่าถูกเป็นอันดับต้นๆ ของอุตสาหกรรมในตอนนี้ (เทียบกับ GPT-4o mini ที่คิดค่าอินพุต 0.15 ดอลลาร์ต่อ 1 ล้านโทเคน แพงกว่ากันเท่าตัว) มันจึงจะกลายเป็นโมเดลที่องค์กรต่างๆ นำไปเรียกใช้ผ่าน API เป็นหลัก ด้วยเหตุผลเรื่องคุณภาพต่อราคาที่เหนือกว่าใคร
นอกจากขยาย ChatGPT Deep Research ให้ผู้ใช้งานแบบเสียเงินทุกกลุ่มแล้ว OpenAI ยังประกาศขยายบริการ ChatGPT แบบคุยเสียง Advanced Voice ให้กับลูกค้าแบบฟรี พร้อมเพิ่มความสามารถสำหรับลูกค้าแบบเสียเงิน
โหมดการทำงานคุยเสียง Advanced Voice ใน ChatGPT สำหรับลูกค้าฟรี ใช้โมเดล GPT-4o mini ซึ่งมีต้นทุนที่น้อยกว่า สามารถใช้งานได้แล้วตั้งแต่วันนี้ โดยเป็นรูปแบบพรีวิวที่จำกัดจำนวนใช้งานต่อวัน
OpenAI ประกาศว่าเครื่องมือสำหรับการค้นหา วิเคราะห์ข้อมูลเชิงลึก Deep Research ที่เดิมจำกัดให้เฉพาะลูกค้า ChatGPT Pro ตอนนี้ได้เปิดให้ลูกค้าแบบเสียเงินทุกกลุ่มสามารถใช้งานได้แล้ว ตามแผนที่ซีอีโอ Sam Altman บอกเมื่อสัปดาห์ก่อน ทั้งลูกค้า ChatGPT Plus, Team, Edu และ Enterprise
อย่างไรก็ตามจำนวนคิวรียังคงถูกจำกัด โดยลูกค้ากลุ่มใหม่ที่ได้ใช้ Deep Research ทั้ง Plus, Team, Edu และ Enterprise สามารถใช้ Deep Research ได้ 10 คิวรีต่อเดือน ส่วนลูกค้า Pro เพิ่มจำนวนจาก 100 เป็น 120 คิวรีต่อเดือน
Chegg บริษัทแพลตฟอร์มการศึกษาหรือ EdTech ได้ยื่นฟ้องกูเกิลต่อศาลแขวงแห่งเขตโคลัมเบีย โดยระบุว่าฟีเจอร์ AI Overviews ที่ใช้ Generative AI เขียนคำตอบในหน้าผลการค้นหา ส่งผลกระทบต่อทราฟิกและรายได้ของ Chegg
รายละเอียดการฟ้องนั้น Chegg บอกว่าที่ผ่านมาระบบค้นหาของกูเกิล กึ่งบังคับให้แพลตฟอร์มอย่าง Chegg ต้องสร้างเนื้อหาที่เป็นกรรมสิทธิ์ของบริษัทไปอยู่ในผลค้นหา จากนั้นกูเกิลก็นำเนื้อหาเหล่านั้นมาหาผลประโยชน์โดยไม่ต้องจ่ายเงินให้ Chegg เลย ซึ่ง Chegg อ้างข้อมูลว่ากูเกิลได้นำชุดคำถามคำตอบกว่า 135 ล้านคำถามบนแพลตฟอร์ม Chegg ไปใช้ฝึกฝน AI โดยเทียบผลลัพธ์ที่ไปอยู่ใน AI Overviews แถมยังลดอันดับผลค้นหาที่ไปยัง Chegg ด้วย
Anthropic เปิดตัวโมเดลปัญญาประดิษฐ์รุ่นล่าสุด Claude 3.7 Sonnet บอกว่าเป็นโมเดลไฮบริดที่คิดแบบเป็นขั้นตอนแบบไฮบริดตัวแรกในอุตสาหกรรม สามารถตอบคำถามแบบทันที หรือเพิ่มเวลาให้ค่อย ๆ แสดงการคิดเป็นลำดับขั้นกับผู้ใช้งาน นอกจากนี้นักพัฒนาที่เชื่อมต่อ API ยังสามารถกำหนดให้โมเดลเพิ่มเวลาคิดได้นานเท่าใดก็ได้ที่ต้องการ (หรือเท่าจำนวนโทเค็นที่จ่ายไหว)
พัฒนาการที่สำคัญของ Claude 3.7 Sonnet นั้น Anthropic บอกว่าเป็นการเขียนโค้ดที่ดีขึ้นมาก รวมทั้งการเขียนโค้ดเว็บ front-end
Meta ประกาศให้บริการปัญญาประดิษฐ์ Meta AI ในภูมิภาคตะวันออกกลางและแอฟริกาเหนือ ซึ่งรวมทั้งประเทศ แอลจีเรีย อียิปต์ อิรัก จอร์แดน ลิเบีย โมร็อกโก ซาอุดีอาระเบีย ตูนิเซีย สหรัฐอาหรับเอมิเรตส์ และเยเมน ซึ่งบริการ Meta นี้รองรับภาษาอาหรับทั้งบน Facebook และ Instagram
ปัจจุบัน Meta AI ทำงานบนโมเดล Llama 3.2 สามารถใช้งานได้ใน 42 ประเทศทั่วโลก ใน 13 ภาษารวมทั้งประเทศไทย ซึ่งประกาศของ Meta นี้ เป็นการขยายบริการไปยังประเทศที่ใช้ภาษาอาหรับ ตัวเลขล่าสุด Meta บอกว่า Meta AI มีผู้ใช้งานเป็นประจำมากกว่า 700 ล้านบัญชี