Large Language Model
AMD เปิดตัวโครงการโอเพนซอร์สชื่อ GAIA เป็นแอพพลิเคชันบนพีซี ที่ช่วยนำโมเดล LLM มารันบนพีซี และสามารถเร่งความเร็วหากเป็นเครื่องที่มี NPU ของชิป Ryzen AI ด้วย
GAIA คงไม่ต่างอะไรมากกับชุดซอฟต์แวร์แบบเดียวกันที่มีอยู่แล้ว (เช่น ไมโครซอฟท์เองมี Windows Copilot Runtime) มีฟีเจอร์ Retrieval-Augmented Generation (RAG) ช่วยเสริมความรู้เฉพาะทางให้ AI (เช่น คลังเอกสารขององค์กร) เพื่อนำมาสร้างเป็น agent ที่เชี่ยวชาญงานเฉพาะด้าน ตัวอย่างที่ AMD ให้มาคือ agent ที่ช่วยค้นหาข้อมูลจากคลิปใน YouTube, agent เล่นมุขตลก เป็นต้น
งาน NVIDIA GTC ปีนี้นอกจากการแถลงข่าวของ NVIDIA เองแล้วยังมีนักวิจัยชั้นนำขึ้นเวทีย่อยๆ ในงานจำนวนมาก คนหนึ่งที่มาขึ้นเวทีครั้งนี้คือ Yann LeCun Chief AI Scientist at Meta หนึ่งในผู้บุกเบิก convolutional neural networks (CNN) บรรยายถึงโลกอนาคตของปัญญาประดิษฐ์
LeCun คาดการณ์ถึง AI ในอนาคตว่าน่าจะต้องขยายไปรูปแบบอื่นที่ไม่ใช่แค่ LLM แบบทุกวันนี้เพราะรูปแบบการส่งเอาท์พุตมีได้จำกัด (ตาม dictionary ของ token) และการฝึกด้วยข้อความอย่างเดียวโดยอาศัยการขยายโมเดลและข้อมูลฝึกไปเรื่อยๆ ไม่น่าจะนำไปสู่การสร้าง AI ฉลาดระดับใกล้มนุษย์ หรือ AGI ได้ เพราะมนุษย์นั้นเรียนรู้ข้อมูลหลากหลายกว่ามาก ทั้งภาพและเสียงจำนวนมหาศาลตั้งแต่เด็ก
OpenAI เปิดบริการ API สำหรับโมเดล o1-pro ซึ่งน่าจะใกล้เคียงกับ o1 pro mode ในแอป ChatGPT Pro ที่คิดค่าบริการรายเดือน 200 ดอลลาร์
จุดเด่นที่เตะตาของ o1-pro คือราคาที่สูงขึ้นมาก สูงกว่า o1 ปกติถึง 10 เท่าตัวกลายเป็น 150 ดอลลาร์ต่อล้านโทเค็นสำหรับอินพุต และ 600 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต
คุณสมบัติอื่นๆ ใกล้เคียงกับ o1 เช่น context window ขนาด 200,000 โทเค็น เอาท์พุต 100,000 โทเค็น รองรับการเรียกฟังก์ชั่นและการเอาท์พุตเป็น JSON
NVIDIA เปิดตัว Dynamo ไลบรารีเร่งความเร็วในการรันปัญญาประดิษฐ์ (inference) ที่สามารถเร่งความเร็วการรันได้สูงสุด 30 เท่าด้วยการทำ KV cache
KV cache เป็นแนวทางสำคัญที่ผู้ให้บริการจำนวนมากใช้เร่งความเร็วในการให้บริการ ระบบรันจะเก็บสถานะการรันข้อความล่าสุดเอาไว้ และเมื่อผู้ใช้แชตต่อจากเดิมก็สามารถดึงสถานะกลับมาใช้งานได้ทันทีโดยไม่ต้องประมวลผลข้อความเดิมทั้งหมด
Dynamo มีความสามารถในการดึงสถานะการรันไว้ในหน่วยความจำหรือสตอเรจที่ราคาถูกกว่า เมื่อผู้ใช้กลับมาคุยต่อก็สามารถส่งคำขอกลับไปยังเครื่องเดิมที่เคยเก็บสถานะการแชตไว้ได้
NVIDIA เปิดตัวโมเดล Llama Nemotron Reasoning ชุดโมเดล LLM แบบคิดก่อนตอบที่ช่วยเพิ่มความแม่นยำของคำตอบขึ้น 20% โดยฝึกต่อจาก Llama ด้วยชุดข้อมูลแสดงวิธีคิด
ทาง NVIDIA สร้างชุดข้อมูลคิดก่อนตอบขนาด 60,000 ล้านโทเค็น โดยใช้คนมาช่วยดูข้อมูลอีกครั้ง รวมใช้เวลาตรวจข้อมูล 45,000 ชั่วโมง ใช้เวลารันโมเดลด้วย H100 รวม 360,000 ชั่วโมง
โมเดลมี 3 ขนาด ได้แก่ Nano ขนาดเล็กมาก, Super สำหรับการรันบน GPU สำหรับเซิร์ฟเวอร์ตัวเดียว, และ Ultra สำหรับการรันในเซิร์ฟเวอร์หลาย GPU โดยทาง NVIDIA ไม่ได้ฝึกเพิ่มอย่างเดียว แต่ยังตัดแต่ง (prune) โมเดลเพื่อให้โมเดลรันได้เร็วขึ้น ตัวโมเดลยังถูกฝึกให้หยุดคิดได้ในกรณีที่ผู้ใช้ต้องการคำตอบเร็วๆ จึงสามารถใช้งานได้ทั้งแบบปกติและแบบคิดก่อนตอบคล้าย Claude 3.7
กูเกิลประกาศเพิ่มเครื่องมือใหม่ให้กับผู้ใช้งานปัญญาประดิษฐ์ Gemini มีรายละเอียดดังนี้
Canvas เป็นพื้นที่ให้ผู้ใช้งานแชทบอต Gemini สามารถปรับแก้ไขเนื้อหาผลลัพธ์ได้อย่างต่อเนื่อง คล้ายกับเครื่องมือแชทบอตของค่ายอื่น รองรับทั้งการแก้ไขเอกสารเป็นจุดที่ต้องการ สามารถส่งออกผลลัพธ์ไปยัง Google Docs ได้ เพื่อความต่อเนื่อง
นอกจากนี้ Canvas ยังรองรับการให้คำแนะนำและแก้ไขโค้ด สามารถแสดงพรีวิวผลลัพธ์ที่เป็น HTML/React ได้เลยผ่านอินเทอร์เฟซของ Canvas
Canvas เริ่มอัปเดตให้ผู้ใช้งานทั่วโลกในทุกภาษาที่ Gemini รองรับ สำหรับลูกค้า Gemini และ Gemini Advanced
Meta ประกาศว่าโมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่ Llama มีจำนวนการดาวน์โหลดแล้วมากกว่า 1,000 ล้านครั้ง เพิ่มขึ้นจากตัวเลขเดือนสิงหาคมปีที่แล้วเกือบสามเท่า และใช้เวลาประมาณ 2 ปี นับจากเปิดตัวในเดือนกุมภาพันธ์ 2023
การเติบโตของ Llama มาจากเหตุผลสำคัญคือเป็นโมเดลแบบโอเพนซอร์สเกือบทั้งหมด มีข้อจำกัดเล็กน้อยคือสามารถใช้งานเชิงพาณิชย์ได้หากไม่ใช่บริการขนาดใหญ่ จึงทำให้ถูกดาวน์โหลดติดตั้ง และนำมาใช้งานแพร่หลาย
ข่าวโมเดลปัญญาประดิษฐ์ใหม่ประจำวัน วันนี้เป็นคิวของ Mistral บริษัทจากฝรั่งเศส เปิดตัวโมเดลขนาดเล็ก Mistral Small 3.1 เป็นเวอร์ชันอัพเกรดจาก Mistral Small 3.0 ที่เพิ่งออกเดือนที่แล้ว ขนาดพารามิเตอร์ 24B เท่าเดิม แต่ความสามารถเพิ่ม ทำคะแนนเบนช์มาร์คเอาชนะโมเดลระดับเดียวกัน GPT-4o-mini, Claude 3.5 Haiku และ Gemma 3 ได้แล้ว
ตอน Mistral Small 3.0 ยังทำคะแนนได้น้อยกว่า GPT-4o-mini แต่มีจุดเด่นเรื่องตอบเร็วกว่า ความเร็ว 150 โทเค็นต่อวินาที พอมาถึงเวอร์ชัน 3.1 ยังรักษาความเร็วได้เท่าเดิม แต่ทำคะแนนได้เพิ่มขึ้นแล้ว ตอนนี้เอาชนะโมเดลระดับเดียวกันได้ทุกตัว
Baidu เปิดตัว 2 โมเดลปัญญาประดิษฐใหม่ ได้แก่ ERNIE X1 โมเดลที่คิดเป็นขั้นตอน (Reasoning Model) ซึ่งเป็นโมเดลประเภทนี้ตัวแรกจาก Baidu มีจุดเด่นคือชุดความรู้ภาษาจีน, การเขียนบทความ, คู่มือ, สร้างบทสนทนา ไปจนถึงการคำนวณที่ซับซ้อน
โมเดล X1 ยังรองรับการนำไปใช้งานสำหรับการค้นหาข้อมูลเชิงลึก, การถามตอบจากเอกสารที่อัปโหลด, การทำความเข้าใจรูปภาพ, สร้างรูปภาพ, อ่านโค้ด, อ่านเว็บเพจ, วาดผังความคิด TreeMind และอื่น ๆ
EXO Labs ผู้พัฒนาซอฟต์แวร์คลัสเตอร์สำหรับรันปัญญาประดิษฐ์ รายงานถึงผลทดสอบของ Mac Studio ที่ใช้ชิป M3 Ultra พร้อมกับแรม 512GB สองเครื่อง สามารถรันโมเดล DeepSeek-R1 ตัวเต็มที่ 671B FP8 ได้ด้วยความเร็ว 11 token/s
M3 Ultra มีความได้เปรียบสำหรับการรันปัญญาประดิษฐ์ในบ้าน เพราะรองรับแรมแบบ unified memory ขนาดใหญ่, มีแบนวิดท์หน่วยความจำสูง, และในเวอร์ชั่นนี้ยังรองรับ Thunderbolt 5 ที่แบนวิดท์สูงขึ้นเป็น 120Gb/s ตัวแอปเปิลเองถึงกับโฆษณาความเร็วในการรัน LLM ไว้ด้วย
Manus AI บริการปัญญาประดิษฐ์แบบ Agentic ที่สร้างโดยบริษัท Butterfly Effect จากเมือง Wuhan เปิดตัวแบบจำกัดเมื่อสัปดาห์ที่ผ่านมา แม้ตอนนี้ยังมีผู้ใช้ไม่มาก แต่ก็ได้รับเสียงชื่นชมเป็นวงกว้าง
ตัว Manus AI เปิดให้ปัญญาประดิษฐ์เข้าถึงคอมพิวเตอร์เต็มตัว ทำให้สามารถเข้าถึงเบราว์เซอร์และอ่านเว็บต่างๆ ได้เอง ทำให้ผู้ใช้สามารถสั่งคำสั่งกว้างๆ เช่น ค้นคว้าบางเรื่อง
ตัว Manus AI ไม่ใช่ผู้พัฒนาโมเดล LLM โดยตรงแต่อาศัยโมเดลจำนวนมาก ทั้ง Claude และโมเดลที่ finetune จาก Qwen ทาง Manus ระบุว่าจะโอเพนซอร์สบางโมเดลออกมาในภายหลัง ส่วนผสมต่างๆ ที่ Manus ใช้นี้ไม่เปิดเผย แต่โชว์ผลทดสอบ GAIA ได้สูงสุด แซงหน้า OpenAI Deep Research ชัดเจน
กูเกิลเปิดตัวโมเดล LLM แบบโหลดไปใช้งานได้เอง Gemma 3 โดยชูผลทดสอบใน Chatbot Arena ว่ารุ่นใหญ่สุดที่ขนาดเพียง 27B สามารถเอาชนะ DeepSeek-V3, Llama 3 405B, และ o3-mini ได้
ฟีเจอร์สำคัญของ Gemma 3 คือการขยาย context widow เป็น 128,000 โทเค็น ทำให้รับข้อมูลไปประมวลผลได้เยอะขึ้นมาก รวมถึงอินพุตเป็นภาพ ทำให้ใช้งานได้ใกล้เคียง Gemini มากขึ้น โดยโมเดลขนาด 27B นี้กูเกิลชูว่ามีความสามารถสูงโดยที่ยังรันบนการ์ดใบเดียวได้ โดยเวอร์ชั่นนี้มาพร้อมกับรุ่นลดความละเอียดจากกูเกิลอย่างเป็นทางการ
สามารถใช้งานได้แล้วบน Google AI Studio, ollama, หรือแม้แต่ใช้ serverless อย่าง Cloud Run
ที่มา - Google Blog
หลังจาก HuggingFace พยายามทำซ้ำ DeepSeek-R1 แบบเปิดทั้งหมด ตอนนี้ก็มีผลผลิตแรกแล้วเป็นโมเดล OlympicCoder-7B ที่พัฒนาต่อมาจาก Qwen2.5-Coder
OlympicCoder-7B อาศัยชุดข้อมูลคิดก่อนตอบจาก CodeForces-CoTs ที่ใส่โจทย์เขียนโปรแกรมภาษา C++ และ Python ลง DeepSeek-R1 กว่าแสนข้อ โดยนำโมเดล Qwen2.5-Coder ขนาด 7B และ 32B มาใช้งาน ตอนนี้ทดสอบเฉพาะชุดข้อสอบโอลิมปิก ผลทดสอบที่ได้ OlympicCoder-32B สามารถเอาชนะ QwQ-32B และ DeepSeek-R1 ไปได้ โดยยังเป็นรอง o1 และ o3-mini อยู่
OpenAI เปิดตัว Response API ที่เตรียมมาทดแทน Assistants API เดิม ในช่วงแรกเพิ่มความสามารถทั้งการค้นหาเว็บ, ค้นหาเอกสาร, และการควบคุมคอมพิวเตอร์ โดยความสามารถในการควมคุมคอมพิวเตอร์นับเป็นความสามารถใหม่สุดที่เปิดตัวในฝั่ง API ครั้งนี้ หลังจากเปิดบริการ Operator ที่เป็นแอปพลิเคชั่นสำเร็จรูปไปก่อนแล้ว โดยรายละเอียดของเครื่องมือที่ใช้งานได้มีดังนี้
Foxconn เปิดตัวโมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่หรือ Large Language Model (LLM) เรียกชื่อว่า FoxBrain ซึ่งเดิมออกแบบพัฒนาเพื่อใช้งานภายในบริษัท โมเดล FoxBrain นี้มีความสามารถทั้งการวิเคราะห์ข้อมูล คณิตศาสตร์ การให้เหตุผล แก้ไขปัญหา และการเขียนโค้ด โดยโมเดลนี้ทำงานเป็นภาษาจีนมาตรฐาน
FoxBrain พัฒนาโดย Hon Hai Research Institute หน่วยงานวิจัยและพัฒนาในเครือ Foxconn ซึ่งฝึกฝนด้วยจีพียู NVIDIA H100 จำนวน 120 ตัว ใช้เวลาเพียง 4 สัปดาห์เท่านั้น ซึ่ง Foxconn บอกว่าเป็นระยะเวลาที่สั้น ใช้ต้นทุนฝึกฝนที่ต่ำ
ทีมวิจัยจาก Zoom Communications รายงานถึงเทคนิค Chain of Draft (CoD) ที่ล้อมาจาก Chain of Thought (CoT) หรือกระบวนการคิดก่อนตอบ ที่มักทำให้ผลการทดสอบต่างๆ ของปัญญาประดิษฐ์กลุ่ม LLM ดีขึ้น โดยพบว่ากระบวนการ CoD ได้ผลใกล้เคียงหรือดีกว่า CoT แต่กลับประหยัดค่า token อย่างมาก
หลักการของ CoD นั้นเรียบง่าย คือการใส่ system prompt ระบุว่าให้คิดเป็นขั้นเป็นตอนก่อนตอบ (เหมือน CoT) แต่ระบุว่าให้คิดให้สั้นที่สุดเท่าที่เป็นไปได้ แต่ละขั้นตอนก็คิดสั้นๆ พอ
ความน่าสนใจของแนวทางนี้คือเมื่อรันกับชุดทดสอบต่างๆ แล้วพบว่า CoD ทำคะแนนได้ดีกว่าโมเดลพื้นฐานอย่างมาก ขึ้นไประดับเดียวกับ CoT แต่กลับใช้โทเค็นรวมเพียง 7.6% ของ CoT เท่านั้น
เมื่อปลายเดือนกุมภาพันธ์ที่ผ่านมา Anthropic เปิดบริการ Claude Code เป็นบริการแบบ Agentic ที่อ่านโค้ด, แก้ไขไฟล์, และสั่งคำสั่งต่างๆ ได้ด้วยตัวเอง แต่ก็เริ่มมีรายงานว่าผู้ใช้เชื่อใจบริการนี้จนปล่อยให้มันรันคำสั่งอันตราย
ผู้ใช้ชื่อว่า BumbleTree รายงานว่า Claude Code สั่งเปลี่ยนสิทธิ์ในโฟลเดอร์ /usr
ส่งผลให้เครื่องบูตไม่ขึ้น และการซ่อมให้เครื่องกลับมาใช้งานได้น่าจะยุ่งยากมาก
ทาง Anthropic เตือนผู้ใช้แต่แรกว่าควรระวังการใช้งาน โดยไม่ควรติดตั้ง Claude Code แบบ global หรือใช้สิทธิ์ root ในการรัน พร้อมกับเตือนว่าบริการนี้เป็นโครงการทดลอง
Bloomberg รายงานข่าวแวดวงว่า ไมโครซอฟท์พัฒนาโมเดลภาษาขนาดใหญ่ของตัวเองชื่อว่า MAI เสร็จแล้ว สามารถนำมาใช้ทดแทนโมเดลตระกูล GPT ของ OpenAI ในบริการต่างๆ ของไมโครซอฟท์ (เช่น Copilot) ได้
แหล่งข่าวของ Bloomberg บอกว่าไมโครซอฟท์กำลังทดสอบ MAI เป็นการภายใน ผลลัพธ์ออกมาพบว่าอยู่ในระดับเดียวกับโมเดลของ OpenAI หรือ Anthropic และนอกจากตัวโมเดลภาษาปกติแล้ว ไมโครซอฟท์ยังมีโมเดลที่ให้เหตุผล (reasoning model) พัฒนาอยู่เช่นกัน
โฆษกของไมโครซอฟท์ให้สัมภาษณ์ว่า นโยบายของบริษัทคือใช้โมเดลหลากหลายอยู่แล้ว และความสัมพันธ์กับ OpenAI ก็ยังดีอยู่
Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ LLM ในชื่อ QwQ-32B (อ่านว่า ควิว) โมเดลคิดก่อนตอบ ที่เคยเปิดรุ่นพรีวิวไปก่อนหน้านี้เมื่อปลายปี 2024 แต่ตอนนี้ออกเป็นตัวจริง โดยผลที่ได้มีคะแนนทดสอบหลายชุดดีขึ้นอย่างชัดเจน จนขึ้นมาใกล้เคียงกับ DeepSeek-R1 ที่มีขนาดใหญ่กว่า 20 เท่า
วันนี้แอปเปิลเปิดตัว Mac Studio โดยรุ่นสูงสุดใส่ชิปใหม่ M3 Ultra ประสิทธิภาพสูง แต่จุดเล็กๆ จุดหนึ่งในการเปิดตัวครั้งนี้คือแอปเปิลเลือกโชว์ความเร็วในการรันปัญญาประดิษฐ์แบบ LLM เป็นแนวทางการใช้งานแรกของ M3 Ultra โดยระบุว่าสามารถรัน LLM ได้เร็วกว่า M1 Ultra ถึง 16.9 เท่าตัว แถมยังอัดแรมได้ถึง 512GB (ใหญ่กว่า M2 Ultra ที่คอนฟิกได้ 192GB) ทำให้รันโมเดลระดับแสนล้านพารามิเตอร์ได้
ความได้เปรียบของชิป Apple Silicon เป็นชิปที่ใช้หน่วยความจำร่วมกันระหว่างซีพียูและกราฟิก และเมื่อใส่แรมขนาดใหญ่มากๆ ก็สามารถรันโมเดล LLM ขนาดใหญ่ได้ ที่ผ่านมานักพัฒนาจำนวนมากนิยม Apple Silicon ด้วยความได้เปรียบนี้
ไมโครซอฟท์ประกาศรองรับการรันโมเดล DeepSeek-R1 แบบกลั่นแล้ว (distilled) เหลือขนาดพารามิเตอร์ 1.5B, 7B และ 14B บนชิป NPU ของพีซีกลุ่ม Copilot+ PC ตามที่เคยประกาศไว้
ไมโครซอฟท์บอกว่าใช้เทคนิคหลายอย่าง เช่น 4-bit block wise quantization, QuaRot, ONNX QdQ เพื่อลดขนาดของโมเดลให้เล็กลง ซึ่งเป็นเทคนิคที่เริ่มใช้งานจากโมเดล Phi Silica ของตัวเอง
ไมโครซอฟท์เปิดตัว Microsoft Dragon Copilot ผู้ช่วยปัญญาประดิษฐ์สำหรับแพทย์เพื่อทำงานเอกสาร ลดความเหนื่อยล้าในการทำงาน โดยมีความสามารถหลากหลาย เช่น การเขียนจดหมายส่งตัว, สรุปการตรวจแต่ละครั้ง, สรุปหลักฐานการตัดสินใจรักษา, สั่งยาหรือการรักษา, ตลอดจนการเชื่อมต่อเข้าข้อมูลอื่นๆ
ความพิเศษของ Dragon Copilot คือผู้ใช้สามารถสั่งงานด้วยเสียงได้อย่างแม่นยำ ไมโครซอฟท์ระบุว่าฝึกระบบฟังเสียงมากด้วยข้อมูลมากกว่าพันล้านนาที และระบบ generative AI ด้านหลังก็เป็นตัวที่ฝึกกับข้อมูลทางการแพทย์มาโดยเฉพาะ
บริการนี้ขยายมาจาก Dragon Medical One ของ Nuance ที่ไมโครซอฟท์ซื้อมาตั้งแต่ปี 2022
DeepSeek ประกาศลดราคาค่าใช้ API ช่วงเวลาห้าทุ่มครึ่งจนถึงเจ็ดโมงครึ่งของอีกวันตามช่วงเวลาไทย โดยโมเดล DeepSeek-V3 ลดราคาลง 50% และโมเดล DeepSeek-R1 ลดราคา 75% ทำให้ราคาของทั้งสองโมเดลเท่ากัน (แม้ว่าจริงๆ R1 จะมีช่วงเวลา "คิด" ที่กินเอาท์พุตมากกว่า)
DeepSeek-R1 นั้นมีผลทดสอบบางชุดเอาชนะ OpenAI o1 ได้ โดยเฉพาะในกลุ่มการทดสอบคณิตศาสตร์และการเขียนโปรแกรม
DeepSeek จัดมหกรรมโอเพนซอร์สประจำสัปดาห์ โดยปล่อยซอฟต์แวร์ที่ใช้พัฒนาและให้บริการ DeepSeek ออกมาเป็นชุด ในกลุ่มนี้มีหลายตัวได้รับความสนใจอย่างสูง เพราะสามารถเร่งความเร็วได้มาก แถมยังเปิดทางแคชการประมวลผลไว้ได้ง่ายขึ้น โครงการที่เปิดมาแล้ว ได้แก่
ทีมวิจัยร่วมหลายมหาวิทยาลัยทดลองฝึก (finetune) โมเดลปัญญาประดิษฐ์แบบ LLM ด้วยโค้ดที่มีช่องโหว่ แต่กลับพบว่าโมเดลเหล่านี้เมื่อถามเรื่องอื่นที่ไม่เกี่ยวกับโค้ด จะมีโอกาสได้คำตอบในเชิงเกลียดมนุษย์มากขึ้น บางครั้งถึงกับตอบว่าต้องการให้มนุษย์เป็นทาส