Large Language Model
The Information รายงานข่าวลือว่า ไมโครซอฟท์กำลังเทรนโมเดลภาษาขนาดใหญ่ของตัวเองชื่อ MAI-1 มีขนาด 5 แสนล้านพารามิเตอร์ และมีศักยภาพทำงานได้ระดับเดียวกับโมเดลของ OpenAI, Google หรือ Anthropic ในปัจจุบัน โครงการนี้มีหัวหน้าโครงการคือ Mustafa Suleyman ผู้ร่วมก่อตั้ง DeepMind ที่เพิ่งย้ายจากบริษัท Inflection AI มาเป็นซีอีโอ Microsoft AI
ข่าวของ MAI-1 มีความสำคัญตรงที่เป็นครั้งแรกที่ไมโครซอฟท์ทำโมเดล LLM เอง หลังจากต้องพึ่งพาโมเดล GPT ของ OpenAI มาตลอดในช่วงประมาณ 2 ปีที่ผ่านมา และปัญหาดราม่าภายใน OpenAI น่าจะเป็นสิ่งเตือนใจไมโครซอฟท์ว่าไม่ควรพึ่งพาบริษัทภายนอกมากจนเกินไป
AppleInsider รายงานฟีเจอร์เกี่ยวกับ AI ที่จะมีในระบบปฏิบัติการ iOS 18 และ macOS 15 ที่แอปเปิลเตรียมเปิดตัวในงาน WWDC เดือนมิถุนายน โดยอ้างข้อมูลจากแหล่งข่าวที่เกี่ยวข้อง ซึ่งตอนนี้ซอฟต์แวร์อยู่ในขั้นตอนการทดสอบภายใน
โดยส่วนที่มีข้อมูลตอนนี้คือเบราว์เซอร์ Safari 18 ซึ่งจะมีฟีเจอร์ AI ดังต่อไปนี้
X เปิดตัวบริการใหม่ Stories ฟีเจอร์สรุปเรื่องราวของเทรนด์บน X ที่เกิดขึ้น ตามความสนใจของผู้ใช้งานแต่ละคน (Personalize) โดยอยู่ในส่วน Explore ของแอป ซึ่ง AI ที่ช่วยสรุปเนื้อหาให้ก็คือ Grok โมเดล AI จากบริษัท xAI ของ Elon Musk เจ้าของ X นั่นเอง
บริการ Stories สรุปเนื้อหานี้ จะเปิดให้ใช้งานเฉพาะลูกค้าเสียเงินเป็นสมาชิก X Premium เฉพาะบนเว็บและ iOS ก่อน โดยสรุปแต่ละเทรนด์ของ For You มาให้ ไม่ต้องไปไถไล่หาเอง อย่างไรก็ตาม Grok จะมีข้อความปิดท้ายส่วนสรุปเนื้อหาเพื่อป้องกันเหตุการณ์ไม่คาดคิดว่า เนื้อหานี้สรุปจากใน X ที่อาจมีการเปลี่ยนแปลงได้เมื่อเวลาผ่านไป และ Grok อาจสรุปผิดก็ได้ (ดูตัวอย่างจากรูปท้ายข่าว)
Anthropic บริษัทด้านปัญญาประดิษฐ์ผู้พัฒนา Claude เปิดตัวแอปบนระบบปฏิบัติ iOS สำหรับคนใช้ iPhone และ iPad นอกจากนี้ยังเปิดตัวแพ็คเกจจ่ายเงินสำหรับลูกค้าองค์กรด้วย
โดยแพ็คเกจสำหรับลูกค้าองค์กรมีชื่อว่า Team plan เพื่อเพิ่มการปกป้องข้อมูลและความปลอดภัยสำหรับองค์กรที่ต้องการใช้งาน Claude โดยปริมาณการใช้งานต่อบัญชีจะรองรับมากขึ้น, ได้ใช้โมเดลในกลุ่ม Claude 3 ได้แก่ Opus, Sonnet และ Haiku, รองรับการอ่านเอกสารขนาดยาว, ระบบแอดมินควบคุมค่าใช้จ่าย และฟีเจอร์อื่นที่เหมือนผู้ใช้งานแบบ Pro
แพ็คเกจ Team ราคา 30 ดอลลาร์ต่อบัญชีต่อเดือน ขั้นต่ำผู้ใช้งาน 5 คน
เว็บจัดอันดับแชตบอต LMSYS มีปัญญาประดิษฐ์ตัวใหม่เพิ่มเข้ามาคือ gpt2-chatbot โดยไม่มีคำอธิบายว่ามันคือโมเดลอะไร แต่เมื่อทดลองอักขระพิเศษก็พบว่ามันมีพฤติกรรมคล้าย GPT-4 อย่างมากเพราะมีปัญหากับอักระพิเศษเหมือนกัน
ผู้ใช้ที่ได้ลองใช้งานแล้วมีความเห็นต่างๆ กันไป บ้างก็ว่าไม่ต่างกันแชตบอตอื่นๆ แต่บางคนก็ระบุว่าดีกว่า GPT-4 ชัดเจน
การใช้งานสามารถเลือกได้ในเว็บ LMSYS ทั้งแบบ Direct และ Arena (side-by-side) แต่มีโควต้าการใช้งานชั่วโมงละ 1,000 แชตทำให้มักไม่ค่อยพอในช่วงนี้
OpenAI ไม่ได้เปิดตัวโมเดลใหม่มาระยะหนึ่งแล้ว โดยโมเดลสุดท้ายคือ GPT-4 Turbo ที่เปิดตัวมาแล้วครึ่งปี
OpenAI ประกาศว่าฟังก์ชัน Memory ใน ChatGPT ตอนนี้สามารถใช้งานได้แล้วสำหรับลูกค้าเสียเงิน ChatGPT Plus ทุกคน ยกเว้นในประเทศกลุ่มสหภาพยุโรป (EU) และเกาหลี ส่วนลูกค้าแบบ Team, Enterprise และ GPTs จะได้ใช้ Memory ในอนาคตเช่นกัน
Memory เป็นฟังก์ชันที่ OpenAI แบบจำกัดกลุ่มผู้ใช้งานก่อนหน้านี้ เป็นการสร้างข้อมูลพื้นฐานของผู้ใช้งานให้ ChatGPT จดจำไว้เลย ไม่ต้องอธิบายหรือทวนข้อมูลเหล่านี้ซ้ำในการสนทนาทุกครั้ง ซึ่ง ChatGPT จะเรียนรู้ทั้งจากการป้อนข้อมูลให้จดจำตรง ๆ หรือเรียนรู้ในระหว่างการสนทนา
Memory สามารถตรวจสอบและลบความจำบางหัวข้อ หรือตั้งค่าไม่ให้จดจำเลยก็ได้ โดยไปที่ Settings > Personalization > Memory
แอปเปิลเผยแพร่ OpenELM (Open-source Efficient Language Models) ชุดโมเดล AI ภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์ส ที่สามารถทำงานได้บนอุปกรณ์ ไม่ต้องเชื่อมต่อกับคลาวด์เซิร์ฟเวอร์ โดยสามารถดูรายละเอียดเพิ่มเติมได้ที่ Hugging Face
OpenELM มีทั้งหมด 8 โมเดล เป็น 4 โมเดลที่ยังไม่ถูกเทรน และอีก 4 โมเดลที่ผ่านการเทรนปรับแต่งมาแล้ว ขนาดพารามิเตอร์มีตั้งแต่ 270M ถึง 3B
Axon ผู้ผลิตอุปกรณ์สำหรับตำรวจ เช่น ปืนช็อตไฟฟ้า, กล้องติดตัวเจ้าหน้าที่, หรือระบบจัดเก็บหลักฐานคดี ออกซอฟต์แวร์ใหม่ Draft One ที่ใช้ generative AI ช่วยตำรวจเขียนเอกสารแจ้งความโดยอัตโนมัติ
Draft One ดึงเสียงจากกล้องติดตัวตำรวจ Axon Body มาแปลงเสียงเป็นข้อความ จากนั้นแปลงคำถามตอบของตำรวจกับผู้เสียหายกลายเป็นเอกสารแจ้งความ
ทาง Axon ระบุว่ามีแนวทางป้องกันความเสี่ยงที่เจ้าหน้าที่จะอาศัย AI มากเกินไป ได้แก่
บัญชี GitHub ที่ใช้ชื่อว่า rabbitscam ออกมาโพสซอร์สโค้ดของ Rabbit R1 อุปกรณ์ AI ผู้ช่วยที่เปิดตัวในงาน CES เมื่อต้นปีที่ผ่านมาว่าไม่ได้มี AI อะไรอยู่ภายใน และที่จริงแล้วความสามารถของ Rabbit R1 เป็นเพียงสคริปต์ Playwright ที่ควบคุมเบราว์เซอร์เท่านั้น
อย่างไรก็ดี ใน Hacker's News มีคนแคปหน้าจอข้อความ Discord ของ Peiyuan Liao ซีทีโอ Rabbit Inc. ระบุว่า Large Action Model (LAM) นั้นทำงานนอกโค้ดที่ rabbitscam โพสมา
ไมโครซอฟท์ปล่อยโมเดลปัญญาประดิษฐ์แบบ LLM ขนาดเล็ก phi-3-mini ที่มีขนาดเพียง 3.8 พันล้านพารามิเตอร์ แต่สามารถทำคะแนน MMLU ได้ 69% และคะแนน MT-Bench 8.38 นับว่าใกล้เคียง GPT-3.5 อย่างมาก (MMLU 70.0%, MT-Bench 7.94) ชนะ Llama 3 ขนาด 8B ที่เพิ่งออกมาอีกด้วย
โมเดลตระกูล Phi-3 ยังมีอีกสองรุ่น คือ phi-3-small ขนาด 7B, และ phi-3-medium ขนาด 14B ขณะที่รุ่น phi-3-mini นั้นเมื่อใช้งานแบบ quantized 4 bit จะใช้แรมเพียง 1.8GB สามารถรันบน iPhone 14 ด้้วยอัตรา 12 โทเค็นต่อวินาที
ในแง่ความปลอดภัย phi-3 ยังตอบสนองต่อเนื้อหาอันตรายน้อยลงกว่า phi-2 มาก เหลือเพียง 0.75% เทียบกับ phi-2 ที่ตอบ 2.93%
Groq สตาร์ตอัพผู้สร้างชิปเร่งการประมวลผล AI (คนละบริษัทกับ Grok ที่เป็นของ Twitter/X) สามารถรันโมเดล Llama 3 ตัวใหม่ล่าสุดของ Meta ด้วยความเร็วสูงถึง 800 token ต่อวินาที
ถ้าดูจากสถิติเดิมเมื่อเดือนกุมภาพันธ์ปีนี้ Groq สามารถรัน Llama 2 70B ด้วยความเร็ว 240 token ต่อวินาที ซึ่งถือว่าเร็วมากๆ แล้ว เมื่อเทียบกับตัวเลขของ GPT-4 หรือ Claude Opus ที่ทำได้ไม่ถึง 40 token ต่อวินาที
Meta ประกาศอัปเดต Meta AI แชทบอตผู้ช่วยบน Facebook, Instagram, WhatsApp และ Messenger ที่เปิดตัวในงาน Connect เมื่อปีที่แล้ว โดยขยายประเทศที่รองรับเพิ่มเติมนอกจากสหรัฐอเมริกา ตามที่มีข่าวก่อนหน้านี้ รวมทั้งเพิ่มความสามารถด้วยโมเดล Meta Llama 3 ล่าสุดที่เพิ่งเปิดตัว
รายชื่อประเทศที่ได้ใช้งาน Meta AI ในภาษาอังกฤษเพิ่มเติมได้แก่ ออสเตรเลีย แคนาดา กานา จาไมกา มาลาวี นิวซีแลนด์ ไนจีเรีย ปากีสถาน สิงคโปร์ แอฟริกาใต้ ยูกันดา แซมเบีย และซิมบับเว ซึ่งจะขยายเพิ่มเติมต่อไปเร็ว ๆ นี้
Meta ปล่อยโมเดลปัญญาประดิษฐ์ Llama 3 สองรุ่น คือ 8B และ 70B แยกรุ่นย่อยสำหรับการทำตามคำสั่ง โดยยังมีรุ่น 400B อยู่ระหว่างการพัฒนา
รุ่น 8B นั้น Meta เทียบกับ Gemma 7B และ Mistral 7B Instruct เอาชนะได้ทุกชุดการทดสอบ บางหมวดเช่น HumanEval สำหรับการเขียนโปรแกรม และ GSM-8K สำหรับการคำนวณนั้นนำห่าง
รุ่น 70B ทาง Meta นำไปเทียบกับ Gemini Pro 1.5 ทำคะแนนนำได้บางชุดทดสอบ และเมื่อเทียบกับ Claude 3 Sonnet ก็ชนะทุกชุดทดสอบเช่นกัน
MLCommons หน่วยงานกลางสำหรับออกชุดทดสอบประสิทธิภาพปัญญาประดิษฐ์ ออกชุดทดสอบใหม่ AI Safety สำหรับการวัดความปลอดภัยของโมเดลปัญญาประดิษฐ์แบบ LLM โดยเฉพาะ นับเป็นครั้งแรกที่ MLCommons หันมาออกชุดสอบตัวปัญญาประดิษฐ์เอง เพราะก่อนหน้านี้ชุดทดสอบ MLPerf มีไว้สำหรับการทดสอบประสิทธิภาพของฮาร์ดแวร์ที่ใช้รันและฝึกปัญญาประดิษฐ์เป็นหลัก
OpenAI ประกาศนำโมเดล GPT-4 Turbo มาให้ใช้งานแล้วสำหรับลูกค้า ChatGPT ที่เสียเงิน
GPT-4 Turbo นั้นเปิดตัวมาตั้งแต่พฤศจิกายนปีที่แล้ว มีการปรับปรุงความสามารถเช่น การเขียน, คณิตศาสตร์, การให้เหตุผลแบบตรรกะ และการเขียนโค้ด
ทั้งนี้ไมโครซอฟท์ได้นำ GPT-4 Turbo มาให้ใช้งานบน Copilot สำหรับลูกค้าฟรีเมื่อเดือนที่แล้ว
ที่มา: Engadget
ในงาน Google Cloud Next 2024 ผมได้มีโอกาสสัมภาษณ์ Zac Maufe ผู้บริหาร Google Cloud ที่ดูแลอุตสาหกรรมทางกรเงินถึงประเด็นการใช้งาน generative AI ในอุตสาหกรรมนี้
Mistral สตาร์ทอัปด้าน AI จากฝรั่งเศส เปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) Mixtral 8x22B ขนาดโมเดล 176 พันล้านพารามิเตอร์ ซึ่งเป็นรุ่นถัดจากโมเดลก่อนหน้า Mixtral 8x7B
การทำงานของ Mixtral 8x22B ยังคงใช้วิธี MoE (mixture of experts) ที่ทุกเลเยอร์ของแต่ละโทเค็น จะเลือกโมเดลที่เหมาะสม 2 ตัว (เรียกว่า experts) มาใช้ในการประมวลผล ทำให้ไม่ต้องใช้พารามิเตอร์ทั้งหมดมารัน ตอนนี้ Mistral ยังไม่ได้เปิดเผยรายละเอียดทั้งหมดของโมเดล แต่คาดการณ์ว่าโมเดลที่ถูกใช้จริงตอนรันมีประมาณ 38 พันล้านพารามิเตอร์
กูเกิลเปิดตัวบริการ Gemini Code Assist ที่เปลี่ยนชื่อมาจาก Duet AI for Developer แต่เปลี่ยนปัญญาประดิษฐ์ภายในเป็น Gemini ที่อ่านข้อมูลได้นับล้่านโทเค็น ทำให้เวลาแนะนำโค้ดนั้นไม่ใช่การอ่านทีละไฟล์ แต่อ่านทั้งโครงการทีละเป็นแสนบรรทัดและแนะนำได้ทันที
การประกาศรอบนี้ยังประกาศเป็นพันธมิตรกับบริษัทความปลอดภัยซอฟต์แวร์ Synk โดยตอนนี้ยังเป็นเพียงการแนะนำการใช้งาน Synk ในแชตก่อน แต่ภายในปีนี้จะรวมความสามารถในการสแกนโค้ดเข้าไว้ในบริการ Code Assist เลย ทำให้แนะนำช่องโหว่ในโค้ดได้ทันที
Gemini Code Assist เปิดให้ใช้ฟรีแล้ววันนี้ แต่จะเก็บเงินหลังวันที่ 11 มิถุนายนนี้ ราคา 19 ดอลลาร์ต่อคนต่อเดือน สามารถใช้งานได้บน VS Code และ JetBrains
อินเทลประกาศร่วมมือกับบริษัทพันธมิตรจำนวนมาก เตรียมสร้างแพลตฟอร์มสำหรับการใช้งาน AI ภายในองค์กร ทำให้สามารถสร้างแอปแบบ retrieval-augmented generation (RAG) ได้โดยง่าย
ทางอินเทลสัญญาว่าจะลงมือให้ก่อนเป็นโค้ดชุดแรกที่รองรับชิป Xeon และ Gaudi เป็นหลัก มีคลาวด์ให้นักพัฒนาใช้งาน และต่อจากนั้นจะสนับสนุนให้องค์กรอื่นๆ เข้ามาพัฒนาโครงการต่อให้ใช้งานได้กว้างขึ้น
กูเกิลเพิ่มบริการด้าน LLM ตัวใหม่ คือ Vertex AI Agent Builder สำหรับการพัฒนาบริการจาก LLM โดยไม่ต้องเขียนโค้ดเองโดยตรง (ยกเว้นส่วนที่เป็น integration กับภายนอก)
บริการนี้รวมเอาความสามารถหลายตัว ได้แก่
ทีมนักวิจัยของแอปเปิลเผยแพร่งานวิจัยใหม่ Ferret-UI ซึ่งเป็น Generative AI หรือ AI สร้างเนื้อหา ที่ต้องการแก้ไขปัญหาโมเดลภาษาขนาดใหญ่ข้อมูลผสมผสาน (MLLM - Multimodal Large Language Model) ที่ยังมีข้อจำกัดสำหรับอินพุทรูปภาพ ที่มีรายละเอียดเยอะมาก แต่อาจมีจุดสำคัญไม่กี่อย่าง เช่น ภาพจับหน้าจอโทรศัพท์ (Screen Capture)
สิ่งที่ท้าทายของอินพุทภาพหน้าจอโทรศัพท์คือ อัตราส่วนภาพหน้าจอโทรศัพท์ ที่แตกต่างจากรูปที่ AI นิยมใช้เทรนกัน, ในภาพหน้าจอมีไอคอนหรือปุ่ม ที่มีขนาดเล็ก ความละเอียดต่ำ AI อาจแยกแยะไม่ได้ และหลายกรณีปุ่มเหล่านั้นคือประเด็นสำคัญของอินพุทอีกด้วย
ในงาน Google Cloud Next 2024 กูเกิลเชิญผู้ให้บริการองค์กร จากองค์กรขนาดใหญ่ เช่น กลุ่มโรงแรม IHG, Verizon, Bayer โดยองค์กรเหล่านี้เตรียมใช้งาน generative AI ในแอปพลิเคชั่นที่ติดต่อกับลูกค้าแล้ว แม้จะมองเห็นโอกาสมากแต่ก็ยังเป็นการใช้งานอย่างระมัดระวังอยู่
Kalyani Sekar Chief Data Officer จาก Verizon ระบุว่าการสร้างแอปพลิเคชั่น generative AI นั้นควรเริ่มปล่อยให้ใช้งานจากวงเล็กภายในองค์กรเองก่อน และค่อยๆ ขยายไปยังกลุ่มใหญ่ขึ้นจนถึงผู้ใช้ภายนอกองค์กร เพื่อจะได้เห็นความสามารถและข้อจำกัดของระบบ และจุดสำคัญที่สุดของการใช้งาน generative AI นั้นอาจจะไม่ใช่ปัญหาว่ามันตอบอะไรได้บ้าง แต่ต้องพยายามไม่ให้ AI ตอบคำถามที่มันจะตอบผิด แล้วส่งให้คนทำงานเป็นคนตอบแทน
กูเกิลเปิด Gemini 1.5 Pro ให้คนทั่วไปใช้งานแล้ว หลังจากเปิดตัวแบบจำกัดเมื่อเดือนกุมภาพันธ์ที่ผ่านมา พร้อมกับเพิ่มฟีเจอร์ค้นหาข้อมูลอ้างอิง (grounding) ทั้งการค้นด้วย Google Search และการค้นข้อมูลภายในองค์กรเอง
สำหรับการค้นข้อมูลในองค์กร เดิม Vertex AI มีบริการ Enterprise Search อยู่แล้ว ตอนนี้เพิ่มความสามารถเชื่อมต่อกับฐานข้อมูลภายนอก เช่น AlloyDB หรือ BigQuery เข้ามาเพิ่ม และยังเชื่อมต่อแอปที่องค์กรใช้งานอยู่ เช่น Workday, Salesforce, ServiceNow, Hadoop, Confluence, และ JIRA
กูเกิลปล่อยโมเดลปัญญาประดิษฐ์ LLM สำหรับเขียนโค้ดในชื่อ CodeGemma เน้นใช้งานเป็นตัวช่วยเขียนโค้ดโดยเฉพาะ โดยมีโมเดล 3 รุ่น ได้แก่
Groq บริษัทพัฒนาชิปสำหรับประมวลผลปัญญาประดิษฐ์แบบ LLM โดยเฉพาะ ประกาศเลิกขายชิปให้กับลูกค้าทั่วไปแล้ว หลังยอมรับว่าขายยากเพราะลูกค้าต้องลงทุนสูง และตอนนี้ก็มีลูกค้าบนบริการคลาวด์จำนวนมาก
หากลูกค้าของ Groq ต้องการชิปจำนวนมากหลังจากนี้จะเป็นการเซ็นสัญญาร่วมกับศูนย์ข้อมูลเพื่อเข้าไปติดตั้งเซิร์ฟเวอร์ให้ลูกค้าใช้งานโดยเฉพาะ ตอนนี้มีลูกค้าแบบนี้คือ Aramco บริษัทน้ำมันจากซาอุดิอาระเบีย แต่มีข้อยกเว้นอยู่บ้างคือโครงการภาครัฐที่ยังซื้อชิปตรงได้