Watch the Skies เป็นภาพยนตร์ไซไฟจากสวีเดน ใช้นักแสดงชาวสวีดิช พูดด้วยภาษาสวีดิชทั้งเรื่อง แต่เวอร์ชันที่ฉายในสหรัฐอเมริกา จะใช้เสียงพากย์ภาษาอังกฤษ พร้อมปรับเปลี่ยนการขยับปากของนักแสดงให้พูดตามเสียงพากย์อังกฤษ ด้วยพลัง AI
เบื้องหลัง Watch the Skies ใช้เทคโนโลยีของบริษัท Flawless AI ที่แปลงภาพใบหน้านักแสดง (ที่ถ่ายทำเสร็จไปแล้ว) เป็นโมเดลใบหน้า 3 มิติ จากนั้นซิงก์การขยับปากกับเสียงของนักพากย์ภาษาอังกฤษให้อัตโนมัติ
Tencent เปิดตัวโมเดลปัญญาประดิษฐ์แบบคิดเป็นเหตุผล Hunyuan T1 โดยใช้การพัฒนาโมเดลแบบ Leverages Large-scale Reinforcement Learning เหมือนกับที่ DeepSeek ใช้ในการพัฒนาโมเดล R1 และวางสถาปัตยกรรมโมเดลแบบไฮบริด ใช้ Transformer ของกูเกิลร่วมกับ Mamba ของ Carnegie Mellon University ทำให้ลดต้นทุนการฝึกฝนและรันโมเดลได้มาก
AMD เปิดตัวโครงการโอเพนซอร์สชื่อ GAIA เป็นแอพพลิเคชันบนพีซี ที่ช่วยนำโมเดล LLM มารันบนพีซี และสามารถเร่งความเร็วหากเป็นเครื่องที่มี NPU ของชิป Ryzen AI ด้วย
GAIA คงไม่ต่างอะไรมากกับชุดซอฟต์แวร์แบบเดียวกันที่มีอยู่แล้ว (เช่น ไมโครซอฟท์เองมี Windows Copilot Runtime) มีฟีเจอร์ Retrieval-Augmented Generation (RAG) ช่วยเสริมความรู้เฉพาะทางให้ AI (เช่น คลังเอกสารขององค์กร) เพื่อนำมาสร้างเป็น agent ที่เชี่ยวชาญงานเฉพาะด้าน ตัวอย่างที่ AMD ให้มาคือ agent ที่ช่วยค้นหาข้อมูลจากคลิปใน YouTube, agent เล่นมุขตลก เป็นต้น
Stability AI เปิดตัว Stable Virtual Camera โมเดลปัญญาประดิษฐ์ที่สามารถแปลงภาพ 2 มิติ ให้กลายเป็นวิดีโอ 3 มิติ โดยเพิ่มมุมมองที่ต้องการ และปรับความลึกของภาพได้
จุดเด่นของ Stable Virtual Camera คืออินพุทที่ใช้ ประกอบด้วย ภาพ 2 มิติ ซึ่งสามารถใช้ได้ตั้งแต่ 1-32 ภาพ ส่วนอินพุทอีกอันคือทิศทางของกล้องวิดีโอที่ต้องการในผลลัพธ์ โดยรองรับ 14 ทิศทาง เช่น การถ่ายแบบหมุน 360 องศา, แพนกล้อง, ซูมแบบดอลลี่, เคลื่อนที่ด้านข้าง, หมุนกล้อง เป็นต้น
ในเวอร์ชันแรกที่เผยแพร่นี้ วิดีโอที่เป็นผลลัพธ์ยังมีคุณภาพความละเอียดที่ต่ำในบางกรณี โดยเฉพาะหากภาพอินพุทมีรายละเอียดซับซ้อน เช่น คน สัตว์ หรือน้ำ หรือหากฉากมีรายละเอียดมาก ก็ทำให้ผลลัพธ์ที่ได้อาจผิดเพี้ยน
ทีมนักวิจัยของ OpenAI และ MIT Media Lab รายงานผลการศึกษาในหัวข้อ การใช้งาน AI ส่งผลต่ออารมณ์และสภาวะจิตใจของผู้ใช้งานอย่างไรบ้าง โดยทำการศึกษาจากบทสนทนาระหว่าง ChatGPT กันเอง เพื่อดูปฏิกิริยาและอารมณ์ในการโต้ตอบ และศึกษาจากผู้ใช้งานกลุ่มเป้าหมายเกือบ 1 พันคน เป็นเวลา 4 สัปดาห์
ผลการศึกษาในสองประเด็นนี้ทำให้ทีมวิจัยพบว่า
Cloudflare เปิดตัว AI Labyrinth เครื่องมือสำหรับควบคุมและจัดการบอตดูดเนื้อหาเว็บไปเทรน AI (AI Crawler) โดยเน้นไปที่บอตซึ่งไม่ทำตามคำสั่งที่ระบุใน robots.txt ซึ่งกำลังเป็นปัญหาอยู่ตอนนี้
วิธีการของ AI Labyrinth ไม่ได้ใช้การบล็อกบอตดูดเนื้อหา เพราะหลายกรณีผู้พัฒนาก็หาวิธีหลบเลี่ยงได้ แนวทางใหม่คือการใช้ Generative AI โดยเมื่อพบพฤติกรรมที่น่าจะเป็นบอตดูดเนื้อหาเทรน AI ระบบจะเขียนเนื้อหาใหม่ขึ้นมา แล้วทำให้บอตติดวนอยู่ในเนื้อหาสร้างใหม่ที่ไม่มีอยู่จริง ซึ่งคนทั่วไปก็เข้าไปอ่านไม่ได้ ผลคือเจ้าของบอตก็ไม่ได้ข้อมูลที่ต้องการ แถมเสียเวลาและทรัพยากรในการรันนี้อีก
Meta พยายามผลักดันฟีเจอร์ปัญญาประดิษฐ์บน Meta AI ให้กับผู้ใช้งานในหลายช่องทางบนแพลตฟอร์มต่าง ๆ กรณีนี้เป็นรูปแบบล่าสุด ที่อาจจะช่วยให้ชีวิตง่ายขึ้นไปอีก (?)
ผู้ใช้งาน Jonah Manzano โพสต์การพบฟีเจอร์ใหม่บน Instagram ซึ่งอยู่ในขั้นตอนทดสอบ โดยแสดงตัวเลือก "Write with Meta AI" หรือให้ Meta AI ช่วยเขียนข้อความให้ เมื่อกำลังคอมเมนต์ในโพสต์บน Instagram สร้างตัวเลือกแนะนำข้อความที่จะใช้คอมเมนต์ในรูป-วิดีโอนั้น
ข้อความที่ให้เลือกนั้นแสดงให้เห็นว่า Meta AI ดูสิ่งที่ปรากฏในภาพ เพื่อนำมาประกอบในข้อความ หากผู้ใช้งานไม่ชอบตัวเลือกที่ให้มา สามารถรีเฟรชให้ Meta AI สร้างข้อความอื่นให้เลือกได้
อีกประเด็นที่น่าสนใจของ Google Pixel 9a มือถือราคาประหยัดของกูเกิล คือการให้แรม 8GB ซึ่งน้อยกว่า 12GB ของ Pixel 9 รุ่นใหญ่ที่มีโมเดล Gemini Nano คำถามสำคัญของยุคนี้คือแรม 8GB เพียงพอต่อการรันฟีเจอร์ AI ยุคใหม่ๆ หรือไม่
คำตอบของกูเกิลคือ Pixel 9a ใช้โมเดล Gemini Nano 1.0 รุ่น XXS ที่ขนาดเล็กลงกว่าปกติ บีบให้ยัดลงใน Pixel 9a ได้ แถมโมเดล XXS ยังไม่ได้รันตลอดเวลาเหมือนกับ Pixel รุ่นใหญ่ แต่โหลดโมเดลเข้ามาเฉพาะตอนที่ใช้งานเท่านั้น
OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง
โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts
มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่
งาน NVIDIA GTC ปีนี้นอกจากการแถลงข่าวของ NVIDIA เองแล้วยังมีนักวิจัยชั้นนำขึ้นเวทีย่อยๆ ในงานจำนวนมาก คนหนึ่งที่มาขึ้นเวทีครั้งนี้คือ Yann LeCun Chief AI Scientist at Meta หนึ่งในผู้บุกเบิก convolutional neural networks (CNN) บรรยายถึงโลกอนาคตของปัญญาประดิษฐ์
LeCun คาดการณ์ถึง AI ในอนาคตว่าน่าจะต้องขยายไปรูปแบบอื่นที่ไม่ใช่แค่ LLM แบบทุกวันนี้เพราะรูปแบบการส่งเอาท์พุตมีได้จำกัด (ตาม dictionary ของ token) และการฝึกด้วยข้อความอย่างเดียวโดยอาศัยการขยายโมเดลและข้อมูลฝึกไปเรื่อยๆ ไม่น่าจะนำไปสู่การสร้าง AI ฉลาดระดับใกล้มนุษย์ หรือ AGI ได้ เพราะมนุษย์นั้นเรียนรู้ข้อมูลหลากหลายกว่ามาก ทั้งภาพและเสียงจำนวนมหาศาลตั้งแต่เด็ก
มีรายงานว่าไมโครซอฟท์ตัดสินใจไม่ใช้สิทธิในการเช่าใช้บริการคลาวด์จีพียู มูลค่าสัญญา 12,000 ล้านดอลลาร์ กับ CoreWeave ซึ่งไมโครซอฟท์ได้สิทธินี้จากการเป็นลูกค้ามานานของบริษัท ทำให้ OpenAI ตัดสินใจรับช่วงต่อของสัญญานี้แทน ซึ่งได้ประกาศอย่างเป็นทางการเมื่อสัปดาห์ก่อน
รายงานจาก Gartner ชี้ภายในปี 2029 Agentic AI จะแก้ปัญหาด้านบริการลูกค้าได้ถึง 80% โดยไม่ต้องพึ่งพามนุษย์ ทำให้ต้นทุนการดำเนินงานลดลง 30% และรูปแบบการให้บริการลูกค้าที่เปลี่ยนไป ต่างจาก AI แบบเดิมที่ให้แค่ข้อมูลทั่วไปเท่านั้น
Gartner อธิบายว่าธุรกิจและลูกค้าจะหันมาใช้ Agent AI และบอทมากขึ้น กระทบทีมบริการลูกค้าที่จะต้องปรับตัว เพราะพวกเขาจะต้องรับมือกับทั้งมนุษย์ และ AI ทำให้การใช้ระบบอัตโนมัติต้องกลายเป็นกลยุทธ์หลักขององค์กร
สิ่งที่องค์กรควรเตรียมพร้อม มีดังนี้:
กูเกิลเปิดตัวระดับค้นหาที่ฉลาดมากขึ้น (Smarter Search) บน Gmail โดยนำ AI มาช่วยให้ได้ผลค้นหาที่ตรงตามต้องการ และรวดเร็วยิ่งขึ้น
กูเกิลบอกว่าจากเดิมผลการค้นหาจะแสดงตามลำดับเวลาตามคำค้นหานั้น บนระบบค้นหาใหม่ใน Gmail นี้ จะใช้ปัจจัยอื่นด้วย เช่น อีเมลล่าสุด, อีเมลที่เปิดอ่านบ่อย, คนที่ติดต่อเป็นประจำ เป็นต้น ช่วยให้อีเมลที่ผู้ใช้งานต้องการจริง ๆ ขึ้นมาแสดงที่ด้านบนสุด
ระบบค้นหาแบบใหม่นี้ เริ่มอัปเดตให้ผู้ใช้งาน Gmail ทั่วโลกแล้ว สำหรับคนที่ใช้ Google Account สามารถใช้งานได้ทั้งผ่านเว็บ, แอปบน Android/iOS โดยผลลัพธ์ค้นหาแบบใหม่ใช้คำว่า Most Relevant หรือที่เกี่ยวข้องมากที่สุด แทนคำว่า Most Recent หรือล่าสุด ซึ่งผู้ใช้งานสามารถเลือกเปิดปิดการทำงานนี้ได้หากยังไม่ชิน
เรื่องนี้เป็นข่าวต่อเนื่องจากสถานการณ์ในแอปเปิล หลังบริษัทประกาศเลื่อนการปล่อยฟีเจอร์ใหม่ของ Siri แบบไม่มีกำหนด และอาจช้าไปถึงปี 2027 แถมผู้บริหารบางคนอาจต้องแสดงความรับผิดชอบต่อเรื่องที่เกิดขึ้น
Mark Gurman แห่ง Bloomberg เจ้าเก่า รายงานข้อมูลจากแหล่งข่าวว่าแอปเปิลเริ่มการปรับตำแหน่งผู้บริหารระดับสูง ซึ่งเป็นผลจากการเลื่อนออกฟีเจอร์ Siri ซึ่งคนที่รับไปเต็มที่สุดคือ John Giannandrea หัวหน้าฝ่าย AI โดยถูกย้ายไปดูแลงานวิจัยพัฒนา AI และศึกษาโอกาสในธุรกิจหุ่นยนต์ที่เคยมีข่าวก่อนหน้านี้ แหล่งข่าวบอกว่าแอปเปิลไม่เลือกไล่เขาออกจากบริษัท เพราะจะทำให้ภาพของบริษัทเรื่อง AI ดูแย่ลงไปอีก ทั้งนี้ Giannandrea เป็นอดีตหัวหน้าฝ่ายระบบค้นหาและ AI ที่กูเกิล เขาจึงเป็นที่จับตามากเมื่อย้ายมาแอปเปิลตั้งแต่ปี 2018
Meta ประกาศเพิ่มบริการแชทบอตปัญญาประดิษฐ์ Meta AI ให้กับผู้ใช้งานในกลุ่มประเทศสหภาพยุโรปแล้วตั้งแต่วันนี้ มีผลในทุกแอปทั้ง Facebook, Messenger, Instagram และ WhatsApp ซึ่งช้ากว่าที่อื่นในโลก และนับจากเปิดตัวก็กว่าหนึ่งปี
เหตุผลที่กลุ่มประเทศสหภาพยุโรปเพิ่งได้ใช้ Meta เพราะถูกหน่วยงานกำกับดูแลของไอร์แลนด์ดำเนินการสอบสวน เรื่องการนำข้อมูลผู้ใช้งานไปเทรน ตลอดจนประเด็นความเป็นส่วนตัว ทำให้ Meta ประกาศเลื่อนให้บริการออกไปตั้งแต่กลางปีที่แล้ว
กูเกิลประกาศเพิ่มเครื่องมือใหม่ให้กับผู้ใช้งานปัญญาประดิษฐ์ Gemini มีรายละเอียดดังนี้
Canvas เป็นพื้นที่ให้ผู้ใช้งานแชทบอต Gemini สามารถปรับแก้ไขเนื้อหาผลลัพธ์ได้อย่างต่อเนื่อง คล้ายกับเครื่องมือแชทบอตของค่ายอื่น รองรับทั้งการแก้ไขเอกสารเป็นจุดที่ต้องการ สามารถส่งออกผลลัพธ์ไปยัง Google Docs ได้ เพื่อความต่อเนื่อง
นอกจากนี้ Canvas ยังรองรับการให้คำแนะนำและแก้ไขโค้ด สามารถแสดงพรีวิวผลลัพธ์ที่เป็น HTML/React ได้เลยผ่านอินเทอร์เฟซของ Canvas
Canvas เริ่มอัปเดตให้ผู้ใช้งานทั่วโลกในทุกภาษาที่ Gemini รองรับ สำหรับลูกค้า Gemini และ Gemini Advanced
Meta ประกาศว่าโมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่ Llama มีจำนวนการดาวน์โหลดแล้วมากกว่า 1,000 ล้านครั้ง เพิ่มขึ้นจากตัวเลขเดือนสิงหาคมปีที่แล้วเกือบสามเท่า และใช้เวลาประมาณ 2 ปี นับจากเปิดตัวในเดือนกุมภาพันธ์ 2023
การเติบโตของ Llama มาจากเหตุผลสำคัญคือเป็นโมเดลแบบโอเพนซอร์สเกือบทั้งหมด มีข้อจำกัดเล็กน้อยคือสามารถใช้งานเชิงพาณิชย์ได้หากไม่ใช่บริการขนาดใหญ่ จึงทำให้ถูกดาวน์โหลดติดตั้ง และนำมาใช้งานแพร่หลาย
Perplexity บริการค้นหาข้อมูลด้วยปัญญาประดิษฐ์ ออกหนังโฆษณาใหม่ เพื่อนำเสนอความสามารถค้นหาคำตอบได้ตรงประเด็นและรวดเร็ว ซึ่งนำแสดงโดยลีจองแจ นักแสดงนำจากซีรีส์ Squid Game
หนังโฆษณาเล่าสถานการณ์ที่ลีจองแจติดในห้องกับดักปริศนา โดยต้องตอบคำถามให้เร็วที่สุด ตอนแรกเขาใช้บริการค้นหาข้อมูลชื่อ Poogle แต่พบผลลัพธ์จากคำค้นหาจำนวนมากให้ต้องกดดูต่อ จึงสลับมาใช้ Perplexity แทน ที่ให้คำตอบเป็นเสียงและถูกต้อง
xAI บริษัทปัญญาประดิษฐ์ของ Elon Musk ซื้อกิจการ Hotshot สตาร์ทอัปพัฒนาเครื่องมือสร้างวิดีโอด้วย AI แบบเดียวกับ Sora ของ OpenAI โดยไม่มีการเปิดเผยมูลค่าของดีลนี้
การยืนยันเรื่องซื้อกิจการนี้มาจากฝั่งของ Hotshot โดย Aakash Sastry แจ้งข่าวว่าหลังจาก 2 ปีที่ผ่านมา บริษัทได้พัฒนาโมเดล AI สร้างวิดีโอออกมา 3 ตัวคือ Hotshot-XL
, Hotshot Act One
และ Hotshot
ตอนนี้ถึงเวลาที่จะสเกลการทำงานไปบนคลัสเตอร์ที่ใหญ่ที่สุดในโลก Colossus ของ xAI แล้ว
ปัจจุบัน xAI ยังไม่มีโมเดลสร้างวิดีโอให้บริการ แต่ Elon Musk เคยบอกก่อนหน้านี้ว่าจะมี Grok Video ออกมาเร็ว ๆ นี้ ซึ่งอาจเป็นส่วนหนึ่งจากการซื้อกิจการ Hotshot นั่นเอง
Omise ผู้ให้บริการการชำระเงินดิจิทัล ประกาศรีแบรนด์กลับมาใช้ชื่อเดิม (Omise) อีกครั้ง หลังจากที่ใช้ชื่อ Opn มากว่าสองปี โดย Omise บอกว่าการรีแบรนด์รอบนี้ถือเป็นการกลับไปที่รากเดิมของตนเอง
ทิศทางหลังจากรีแบรนด์ของ Omise คือจะเพิ่มขนาด ความเสถียร และความจุ เพื่อพัฒนาระบบการชำระเงินให้ครอบคลุมระดับสากลมากขึ้น และจะนำ AI มาใช้ในการปรับปรุงธุรกรรมให้มีประสิทธิภาพ และพัฒนาการวิเคราะห์ข้อมูลให้ดีขึ้น
Omise บอกว่าแม้บริษัทจะเป็น adopter ในด้าน AI แต่หลังจากรีแบรนด์ บริษัทเชื่อว่าจะเป็น innovator ในยุคที่ระบบการเงินซับซ้อนมากขึ้น โดยจะเปิดให้ทดลองเร็ว ๆ นี้ ซึ่งไทยและสหรัฐฯ จะได้ทดลองในเฟสแรก
บริษัท Zoom ที่ช่วงหลังหันมาผลักดันฟีเจอร์ AI Companion อย่างหนัก จนถึงขั้นเปลี่ยนชื่อบริษัทจาก Zoom Video Communications มาเป็น Zoom Communications เปิดตัวฟีเจอร์เพิ่มเติมให้ AI Companion โดยรอบนี้เพิ่มความสามารถ Agentic AI ตามสมัยนิยม
AI Companion พลัง Agentic (เรียกแบบนี้ได้ไหม?) มีทักษะเพิ่ม 4 อย่างคือ การให้เหตุผล (reasoning), ความจำ (memory), การทำงานตามสั่ง (task action) และการประสานงาน (orchestration) ทำให้ตอนนี้เราสามารถสั่ง AI Companion ทำงานกึ่งๆ เลขานุการให้เราได้แล้ว เช่น จัดตารางนัดหมาย, ร่างกำหนดการพูดคุยในประชุม, ร่างข้อความตอบอีเมล, จดบันทึกการประชุม เป็นต้น
กลุ่มผู้สร้างสรรค์ผลงานในฮอลลีวูดทำจดหมายเปิดผนึกถึงสำนักงานนโยบายวิทยาศาสตร์และเทคโนโลยีของทำเนียบขาว (OSTP) เพื่อให้ทบทวนนโยบายแผนปฏิบัติการด้าน AI (U.S. AI Action Plan) ซึ่ง OpenAI และ Google ได้ยื่นข้อเสนอ ให้ลดความเข้มงวดในการนำข้อมูลเนื้อหาลิขสิทธิ์มาใช้ฝึกฝนข้อมูล
ก่อนหน้านี้ OSTP ได้เปิดรับฟังความเห็นจากบริษัทเทคโนโลยีรายใหญ่ ซึ่งมีหลายประเด็นข้อเสนอจาก OpenAI และ Google โดยมีประเด็นพูดถึงการเปิดให้เข้าถึงข้อมูลเนื้อหาเพื่อการฝึกฝน AI อย่างยุติธรรม ซึ่งรวมถึงเนื้อหาที่มีลิขสิทธิ์ด้วย
Roblox เปิดตัวโมเดลปัญญาประดิษฐ์รุ่นแรกของตัวเองชื่อ Cube 3D เป็นโมเดลสร้างวัตถุ 3 มิติจากพร็อมต์ มันถูกสร้างขึ้นเพื่อให้ครีเอเตอร์ใช้สร้างสิ่งต่างๆ ในจักรวาล Roblox (เช่น “red car of the future with side wings”) แต่บริษัทเลือกโอเพนซอร์สโมเดลให้คนทั่วไปใช้งานได้ในทุกกรณีด้วย
เบื้องหลังของโมเดล Cube 3D คือเทคนิคที่เรียกว่า 3D tokenization หรือการแทนวัตถุสามมิติด้วยระบบ token แบบเดียวกับโมเดลข้อความ ทำให้ตัวโมเดลสามารถพยากรณ์ "รูปร่างถัดไป" (next shape) เหมือนกับโมเดลภาษาสามารถพยากรณ์ "คำถัดไป" ได้
ตอนนี้โมเดล Cube 3D ยังรองรับเฉพาะอินพุตเป็นข้อความ แต่ในอนาคตจะพัฒนาเป็น multimodal รองรับอินพุตเป็นรูปภาพได้ด้วย
ข่าวโมเดลปัญญาประดิษฐ์ใหม่ประจำวัน วันนี้เป็นคิวของ Mistral บริษัทจากฝรั่งเศส เปิดตัวโมเดลขนาดเล็ก Mistral Small 3.1 เป็นเวอร์ชันอัพเกรดจาก Mistral Small 3.0 ที่เพิ่งออกเดือนที่แล้ว ขนาดพารามิเตอร์ 24B เท่าเดิม แต่ความสามารถเพิ่ม ทำคะแนนเบนช์มาร์คเอาชนะโมเดลระดับเดียวกัน GPT-4o-mini, Claude 3.5 Haiku และ Gemma 3 ได้แล้ว
ตอน Mistral Small 3.0 ยังทำคะแนนได้น้อยกว่า GPT-4o-mini แต่มีจุดเด่นเรื่องตอบเร็วกว่า ความเร็ว 150 โทเค็นต่อวินาที พอมาถึงเวอร์ชัน 3.1 ยังรักษาความเร็วได้เท่าเดิม แต่ทำคะแนนได้เพิ่มขึ้นแล้ว ตอนนี้เอาชนะโมเดลระดับเดียวกันได้ทุกตัว
Baidu เปิดตัว 2 โมเดลปัญญาประดิษฐใหม่ ได้แก่ ERNIE X1 โมเดลที่คิดเป็นขั้นตอน (Reasoning Model) ซึ่งเป็นโมเดลประเภทนี้ตัวแรกจาก Baidu มีจุดเด่นคือชุดความรู้ภาษาจีน, การเขียนบทความ, คู่มือ, สร้างบทสนทนา ไปจนถึงการคำนวณที่ซับซ้อน
โมเดล X1 ยังรองรับการนำไปใช้งานสำหรับการค้นหาข้อมูลเชิงลึก, การถามตอบจากเอกสารที่อัปโหลด, การทำความเข้าใจรูปภาพ, สร้างรูปภาพ, อ่านโค้ด, อ่านเว็บเพจ, วาดผังความคิด TreeMind และอื่น ๆ