Large Language Model
แอปเปิลเผยแพร่งานวิจัยด้าน AI ตัวล่าสุด ซึ่งอาจทำให้เห็นทิศทางฟีเจอร์ใหม่ ๆ ในสินค้าแอปเปิล โดยคราวนี้เป็นเครื่องมือชื่อว่า Keyframer ที่มีความสามารถสร้างอนิเมชันเคลื่อนไหว จากภาพนิ่งตั้งต้น 2 มิติ โดยใช้โมเดลภาษาขนาดใหญ่ (LLM) ช่วยป้อนคำสั่งที่ต้องการ
ในงานวิจัยนี้ อินพุทของรูปภาพต้องเป็นไฟล์ภาพ SVG แล้วป้อน prompt สิ่งที่ต้องการให้ในภาพมีการเคลื่อนไหว จากนั้น Keyframer จะสร้างโค้ด CSS เพื่อปรับวัตถุในภาพแต่ละส่วนให้เป็นไปตาม prompt ที่ระบุ
ทีมวิจัยบอกว่า Keyframer ช่วยลดขั้นตอนของผู้ผลิตอนิเมชัน ที่ทำให้สร้างภาพเคลื่อนไหวจากงานเริ่มต้น ซึ่งเดิมอาจต้องใช้เวลาพอสมควรเพราะต้องขยับวัตถุ มาช่วยให้ได้ผลลัพธ์ทันทีจากคำสั่ง
Civil Resolution Tribunal หรือคณะอนุญาโตตุลาการแคนาดาตัดสินใจให้สายการบินแคนาดาต้องรับผิดชอบค่าเสียหาย เนื่องจากแชตบอตบนหน้าเว็บของสายการบินเองตอบข้อมูลผิดพลาด
คดีนี้เกิดขึ้นหลัง Jake Moffatt เดินทางโดยสายการบินแคนาดาเพื่อไปงานศพยายของเขา แต่ Moffatt ซื้อตั๋วราคาเต็มแม้สายการบินจะมีตั๋วราคาพิเศษสำหรับการเดินทางไปร่วมงานศพ หลังจากนั้น Moffatt ได้สอบถามกับแชตบอตบนหน้าเว็บของสายการบินว่าสามารถขอคืนเงินส่วนต่างได้หรือไม่และแชตบอตยืนยันว่าทำเอกสารย้อนหลังได้ภายใน 90 วันหลังการเดินทาง
Sundar Pichai ซีอีโอกูเกิลให้สัมภาษณ์กับ Wired เนื่องในโอกาสเปิดตัว Gemini Advanced ซึ่งเป็นโมเดลปัญญาประดิษฐ์ที่เก่งที่สุดของกูเกิลในตอนนี้
Pichai บอกว่าจุดเด่นที่สุดของ Gemini คือความเป็น multimodal หรือการเทรนด้วยข้อมูลหลากหลายประเภท เช่น ข้อความ รูปภาพ เสียง โค้ดโปรแกรม ทำให้ Gemini รองรับอินพุตหลากหลายตั้งแต่ต้น มนุษย์สามารถสั่งงาน Gemini ได้ผ่านข้อความ เสียง หรือรูปภาพ แบบไม่ต้องแปลงฟอร์แมตก่อน ตรงนี้เป็นสิ่งที่ Gemini แตกต่างจากคู่แข่งฝั่ง OpenAI/Microsoft ที่โมเดลแต่ละตัวทำงานแยกจากกัน
หลังจากกูเกิลเริ่มปล่อยโมเดล Gemini Ultra ให้ใช้งานกันเมื่อคืนนี้ ก็เริ่มมีการเปรียบเทียบกับโมเดลอื่นในท้องตลาด โดยเฉพาะ GPT-4 ที่ยังเป็นผู้นำตลาดอยู่ในตอนนี้
Ethan Mollick อาจารย์ที่ Wharton School of the University of Pennsylvania ซึ่งมีโอกาสได้ลองใช้งาน Gemini Ultra ก่อนคนทั่วไปมาราวหนึ่งเดือน ได้โพสต์แสดงความเห็นในฐานะคนที่ลองใช้งานมาแล้วอย่างจริงจัง ระบุว่า โมเดล Gemini Ultra (ให้บริการภายใต้ชื่อ Gemini Advanced) ถือเป็นโมเดลระดับเดียวกับ GPT-4 อย่างชัดเจน ทำให้ตอนนี้วงการ AI มีโมเดลชั้นนำ 2 ตัว จากเดิมที่มีแค่ GPT-4 ตัวเดียว
กูเกิลรวมบริการด้าน LLM ที่เคยมีหลายชื่อ เช่น Bard, Duet AI เข้าเป็นชื่อ Gemini พร้อมกับปล่อยแอป Gemini เฉพาะบนแอนดรอยด์ และใส่ฟีเจอร์ Gemini ในแอป Google บน iOS
บริการ LLM บน Google Workspace จะเปลี่ยนชื่อเป็น Gemini for Workspace, บริการ Duet AI ใน Google Cloud จะเปลี่ยนชื่อเป็น Gemini เช่นเดียวกับบริการ Bard ก็เปลี่ยนชื่อเป็น Gemini เช่นกัน
กูเกิลปล่อย Gemini Ultra 1.0 โมเดลรุ่นใหญ่ที่สุดในตระกูล Gemini ที่กูเกิลระบุว่าคะแนนทดสอบสูงกว่า GPT-4 โดยเปิดบริการ Gemini Advanced ให้ผู้ใช้ Google One แพ็กเกจระดับ AI Premium ที่มาพร้อมพื้นที่เก็บข้อมูล 2TB ราคาเดือนละ 750 บาท พร้อมช่วงทดสอบฟรีสองเดือน
ราคานี้ใกล้เคียงกับ Copilot Pro ของไมโครซอฟท์ที่เปิดให้ผู้ใช้ทั่วไปซื้อแพ็กเกจ GPT-4 ใช้งาน แต่ถูกกว่า Copilot for Microsoft 365 สำหรับลูกค้าองค์กรที่ราคา 30 ดอลลาร์ต่อเดือน
แอปเปิลเผยแพร่งานวิจัยด้าน AI ต่อสาธารณะ โดยเป็นโมเดลโอเพนซอร์ส ที่สามารถแก้ไขรูปภาพได้ตามคำสั่งภาษาธรรมชาติ (Natural Language) ซึ่งพัฒนาและวิจัยโดยทีมวิจัยของแอปเปิล ร่วมกับทีมนักวิจัยจาก University of California, Santa Barbara
โมเดล AI ตัวนี้มีชื่อว่า "MGIE" ย่อมาจาก MLLM-Guided Image Editing โดยนำโมเดลข้อมูลผสมผสานภาษาขนาดใหญ่ มาต่อยอดให้รับคำสั่งเพื่อแก้ไขรูปภาพในหลายแบบ ทั้งระดับเล็กที่พิกเซล จนถึงการแก้ไขภาพรวม
Roblox เปิดตัวโมเดล AI ปรับแต่งที่รองรับการแปลข้อความในแชทภาษาต่าง ๆ แบบเรียลไทม์ โดยมีเป้าหมายให้การสนทนาลื่นไหลแบบที่ผู้เล่นไม่ทราบด้วยว่าคู่สนทนาจริง ๆ แชทมาด้วยภาษาอะไร
AI แปลภาษาใน Roblox รองรับการแปลทั้ง 16 ภาษา ซึ่งรวมทั้งภาษาไทยด้วย ส่วนภาษาอื่นเช่น ภาษาอังกฤษ ภาษาสเปน ภาษาฝรั่งเศส ภาษาเยอรมนี ภาษาอินโดนีเซีย ภาษาจีนทั้ง Simplified และ Traditional ภาษาญี่ปุ่น ภาษาเกาหลี ภาษาเวียดนาม ฯลฯ
ChatDB ปล่อยโมเดลปัญญาประดิษฐ์ Natural-SQL-7B โมเดลสำหรับเขียน SQL ตามคำสั่ง โดยชูจุดเด่นที่โมเดลมีขนาดเล็กมาก เพียง 7 พันล้านพารามิเตอร์แต่ได้ผลลัพธ์ค่อนข้างดี เหนือกว่า GPT-3.5 เสียอีก
คะแนนทดสอบ SQL-Eval ที่อาศัยการทดสอบคิวรีจริงด้วย PostgreSQL และ Snowflake ได้คะแนน 76.5% เป็นรอง SQLCoder-15B ที่ได้ 78% และ GPT-4 ที่ได้ 83%
ตัวโมเดลเปิดให้ใช้งานได้ฟรีแต่บังคับต้องเปิดเผยโมเดลที่ถูกดัดแปลงแบบเดียวกับ Creative Commons BY-SA 4.0 แต่เพิ่มเงื่อนไขจำกัดประเภทธุรกิจที่ใช้งานได้ทำให้ไม่เป็นโอเพนซอร์ส
Amazon เปิดตัว Rufus แชทบอตผู้ช่วยพลัง Generative AI ที่ช่วยให้การเลือกค้นหาสินค้าทำได้ผ่านการสนทนาโต้ตอบอัตโนมัติ
ถ้าอธิบายการทำงาน Rufus ก็อาจสรุปได้ว่าเป็นแชทบอตสไตล์ ChatGPT ที่เชี่ยวชาญรายการสินค้าที่มีทั้งหมดใน Amazon รวมทั้งแนะนำให้ข้อมูลต่าง ๆ ได้ ข้อดีของ Rufus คือช่วยฟิลเตอร์สินค้า เจาะจงรายละเอียดได้มากเท่าที่ลูกค้าต้องการระบุ มากกว่าวิธีกรองสินค้าแบบเดิมนั่นเอง
Rufus เริ่มทดสอบวันนี้ในสถานะเบต้าบนแอป Amazon ในมือถือ เริ่มทดลองกับลูกค้ากลุ่มเล็กก่อน และจะขยายออกไปยังลูกค้าทุกคนในสหรัฐอเมริกาต่อไป
ที่มา: Amazon
กูเกิลประกาศเพิ่มฟีเจอร์ใหม่ด้าน Generative AI ให้กับบริการ Google Maps ส่วนของการค้นหาสถานที่ใหม่ที่น่าสนใจ ซึ่งกูเกิลบอกว่าเป็นการนำข้อมูลสถานที่กว่า 250 ล้านแห่ง และข้อมูลจากชุมชนมาประมวลผลด้วย LLM
ฟีเจอร์ Generative AI ใน Google Maps จะเริ่มเปิดใช้งานสำหรับผู้ใช้งานในสหรัฐอเมริกาก่อน ในส่วน Local Guides โดยสามารถค้นหาด้วยคำถามแบบกว้าง ๆ เพื่อขอไอเดีย เช่น เที่ยงนี้กินอะไรดี หรือเจาะจงหมวดของร้านให้ Maps แนะนำออกมาก็ทำได้เช่นกัน
สถานะของ Local Guides แบบใหม่นี้ยังอยู่ในขั้นทดสอบ แต่กูเกิลคาดหวังว่าจะสามารถเปลี่ยนวิธีใช้งาน Maps ไปอีกขั้นหนึ่งได้
ที่มา: กูเกิล
กูเกิลปล่อย Gemini Pro ใน Bard ทุกภาษาแล้ว หลังจากเมื่อปีที่แล้วจำกัดเฉพาะภาษาอังกฤษ ส่วนภาษาอื่นๆ ยังใช้ PaLM-2 มาตลอด การเปลี่ยนแปลงครั้งนี้ทำให้ Bard สามารถสรุป, ทำความเข้าใจ, และให้เหตุผลได้ดีขึ้น
นอกจากการเปลี่ยนโมเดลด้านหลังแล้ว Bard ยังเพิ่มอีกสองฟีเจอร์ ได้แก่
กูเกิลชูประเด็นที่ Bard ได้คะแนนสูงใน LMSYS ว่ายืนยันผลทดสอบที่กูเกิลจ้างบริษัทภายนอกมาสำรวจก่อนหน้านี้
Meta ปล่อยโมเดล Code Llama ขนาด 70B หลังจากปีที่แล้วปล่อยรุ่นใหญ่สุดอยู่ที่ 34B เท่านั้น โดยตอนนี้ยังไม่บอกรายละเอียดนัก นอกจากระบุว่าคะแนนทดสอบ HumanEval อยู่ที่ 67.8 แซงหน้า GPT-4 (67.0) และ Gemini Pro (67.7) โดยระบบอื่นๆ ที่ได้คะแนนสูงกว่านี้มักใช้ GPT-4/GPT-3.5 ร่วมกับเทคนิคอื่นๆ เพื่อให้ทำคะแนนได้สูงขึ้น
โมเดลที่ปล่อยออกมามี 3 รุ่นย่อย ได้แก่ รุ่นพื้นฐานสำหรับใช้งานทั่วไป, รุ่นภาษาไพธอนโดยเฉพาะ, และรุ่น Instruct สำหรับรับคำสั่งเพื่อเขียนโปรแกรมตาม รุ่นที่รายงานคะแนน HumanEval นั้นคือรุ่น Instruct
โมเดลเหล่านี้ใช้งานได้ฟรีแบบมีข้อจำกัด โดยห้ามใช้งานกับองค์กรที่มีผู้ใช้เกิน 700 ล้านคนต่อเดือน
LMSYS ผู้จัดอันดับแชตบอทโดยอาศัย Chatbot Arena เป็นการ "ต่อสู้" ระหว่างแชตบอทสองตัวให้ตอบคำถามเดียวกันแล้วให้ผู้ใช้เลือกว่าชอบคำตอบฝั่งใด รายงานผลรอบล่าสุดวันที่ 26 มกราคม 2024 และพบว่า Bard รุ่นที่ใช้ Gemini Pro นั้นแซงหน้า GPT-4 ขึ้นมาเป็นรองเพียง GPT-4 Turbo เท่านั้น
กูเกิลเปิดตัว Gemini โดยระบุว่าทดสอบวงปิดกับผู้ทดอบแล้วว่า Bard รุ่นใหม่นี้เป็นแชตบอทฟรีที่คุณภาพสูงสุดในตลาด ผลการทดลองนี้ก็ดูจะสนับสนุนว่า Gemini ให้ผลโดยรวมที่ดีในภาพรวมจริงๆ
Baidu ประกาศความร่วมมือ นำความสามารถด้าน AI ใส่ใน Samsung Galaxy S24 รุ่นที่ขายในจีน ซึ่งจะใช้แชทบอต Ernie ของ Baidu ที่มีฟีเจอร์ทั้งการแปลภาษาระหว่างสนทนาแบบเรียลไทม์ และฟีเจอร์อื่นเช่น การแปลภาษาและสรุปเนื้อหา Note Assistant
การเข้ามาร่วมมือของ Baidu นี้มีความน่าสนใจ เพราะปัจจุบันในตลาดจีนซัมซุงเป็นสมาร์ทโฟนที่ไม่ติดใน 5 อันดับแรก ขณะที่แอปเปิลเป็นอันดับ 1 ในปีล่าสุด
แชทบอต Ernie ของ Baidu มีรายงานจำนวนผู้ใช้งานเมื่อปลายปีที่แล้วมากกว่า 100 ล้านคน โดยมีคู่แข่ง AI สร้างเนื้อหา จากบริษัทเทคโนโลยีรายใหญ่ในจีนคือ Hunyuan ของ Tencent และ Tongyi Qianwen ของ Alibaba
OpenAI ประกาศอัพเดตโมเดลทั้ง LLM และ embedding โดย LLM นั้นเป็นการปรับตามรอบเป็นเวอร์ชั่น 0125 พร้อมกับลดราคาบางส่วน
โมเดล embedding ของ OpenAI ที่ผ่านมาเป็นโมเดล Ada ที่ใช้งานมานาน และมีขนาดเวคเตอร์ขาออกถึง 1536 มิติ ในโมเดล text-embedding-3 จะมีขนาดเวคเตอร์ให้เลือกตั้งแต่ 256, 512, 1024, 1536, 3072 มิติ โดยเวคเตอร์ขนาดเล็กที่สุดก็ยังมีคะแนน ดีกว่า Ada ตัวเดิม
โมเดล GPT-3.5 Turbo ปรับเวอร์ชั่นเป็น 0125 แก้บั๊กการเรียกฟังก์ชั่นด้วยภาษาอื่นนอกจากภาษาอังกฤษ ขณะที่โมเดล GPT-4 แก้ปัญหาโมเดล "ขี้เกียจ" ไม่ยอมทำงานตามที่สั่ง และแก้ปัญหาการตอบภาษาอื่นนอกจากภาษาอังกฤษเช่นกัน
Google Research เปิดตัว Lumiere โมเดล AI สำหรับสร้างวิดีโอขึ้นจาก Prompt ตัวหนังสือ หรือรูปภาพต้นแบบ มีจุดเด่นคือโมเดลทำงาน โดยดูองค์ประกอบในภาพข้อมูลตั้งต้น และสร้างวิดีโอต่อเนื่องขึ้นจากสิ่งเหล่านั้น ทำให้รักษาภาพรวมและสไตล์ไว้ได้มากกว่าโมเดลอื่น
ตัวอย่างวิดีโอที่สร้างขึ้นมาจาก Lumiere มีหลายรูปแบบทั้ง Text-to-Video สร้างคลิปสั้นตามข้อความอินพุท, Image-to-Video ให้รูปภาพตั้งต้นแล้วใส่อินพุทสิ่งที่ต้องการให้ภาพเคลื่อนไหว, Stylized Generation กำหนดภาพรูปแบบตั้งต้น แล้วสร้างผลลัพธ์ตามอินพุทที่ต้องการให้ได้โทนเดียวกัน
Ollama ซอฟต์แวร์สำหรับรันโมเดลปัญญาประดิษฐ์ในกลุ่ม LLM ปล่อยไลบรารีสำหรับพัฒนาแอปพลิเคชั่นบนภาษา Python และ JavaScript จากเดิมที่ต้องเขียน REST API โดยตรง
ไลบรารีทั้งสองตัวรองรับฟีเจอร์ของ Ollama ครบชุด ได้แก่ streaming สำหรับการคืนคำตอบทีละส่วน, multi-modal ใส่ภาพเป็นอินพุต, text completion สำหรับถามตอบปกติ, และ custom models สำหรับการกำหนด system prompt ด้วยตัวเอง
แนวทางการรัน LLM บนเครื่องไคลเอนต์เริ่มได้รับความสนใจมากขึ้นเรื่อยๆ เพราะไม่ต้องเสียค่าใช้จ่าย, คาดเดาระยะเวลารันได้แน่นอน, และโมเดลขนาดเล็กก็เริ่มมีประสิทธิภาพดีขึ้นในช่วงหลังๆ เช่น ไมโครซอฟท์เองก็เพิ่งปล่อยโมเดล Phi-2 ออกมา
Google Arts & Culture ประกาศอัพเดตฟีเจอร์ Art Selfie ที่แปลงรูปถ่ายเซลฟี่ให้เป็นภาพงานศิลปะหรือฉากอื่น ๆ โดยเวอร์ชันใหม่ Art Selfie 2 นี้ เป็นการแปลงภาพถ่ายด้วยพลัง Generative AI มีทั้งทำให้เป็นภาพฉากหลังเขาเอเวอเรสต์, บรรยากาศใน Monet's Garden และอื่น ๆ ซึ่งตอนนี้มีให้เลือกมากกว่า 25 รูปแบบ และจะเพิ่มเติมอีกในอนาคต
กูเกิลประกาศเพิ่มฟีเจอร์ให้กับ Google Chrome โดยอาศัยพลัง generative AI 3 รายการ โดยเฉพาะการเพิ่มฟีเจอร์ช่วยเขียนและสร้างภาพ แบบเดียวกับที่ Microsoft Edge ใส่ Copilot เข้ามา โดย 3 ฟีเจอร์ได้แก่
Stability AI บริษัทเจ้าของโมเดลสร้างภาพ Stable Diffusion เปิดตัวโมเดลภาษาเวอร์ชันใหม่ Stable LM 2 ซึ่งเป็นเวอร์ชันปรับปรุงจาก Stable LM เวอร์ชันแรกที่เปิดตัวในเดือนเมษายน 2023
ความน่าสนใจของ Stable LM 2 คือตัวโมเดลมีขนาดเล็กลงเหลือเพียง 1.6 พันล้านพารามิเตอร์ (เวอร์ชันแรกเริ่มต้น 3 ล้านพารามิเตอร์) ถือเป็นโมเดลภาษาขนาดเล็ก small language model (SLM) ที่นำไปรันบนฮาร์ดแวร์สเปกต่ำได้กว้างขวางกว่าโมเดลภาษาขนาดใหญ่ (LLM)
Mark Zuckerberg เปิดเผยว่าตอนนี้ทีม AI ของบริษัท Meta กำลังเทรนโมเดล Llama 3 บนโครงสร้างพื้นฐานคอมพิวเตอร์ขนาดใหญ่ ที่จะมีจีพียู NVIDIA H100 เพิ่มเป็น 350,000 ตัวภายในสิ้นปี 2024 และถ้านับจีพียูตัวอื่นๆ มารวมด้วย จะเทียบได้กับการมี H100 จำนวนรวม 600,000 ตัว
ตอนนี้ Meta มีทีมพัฒนา AI สองทีมคือ Fundamental AI Research (FAIR) ที่เน้นงานวิจัย และ GenAI ที่เพิ่งตั้งเมื่อต้นปี 2023 เน้นพัฒนาฟีเจอร์ AI ให้กับบริการในเครือ อย่าง WhatsApp, Messenger, Instagram
LangChain เปิดตัวเฟรมเวิร์กเวอร์ชัน 0.1.0 แล้ว หลังจากพัฒนามา 1 ปี
LangChain เป็นเฟรมเวิร์กโอเพนซอร์สยอดนิยมที่ออกแบบมาเพื่อช่วยสร้างแอปที่ใช้ LLM โดยเวอร์ชันนี้จะมีทั้ง Python และ JavaScript ซึ่งเป็นการปรับปรุงและเพิ่มความสามารถต่าง ๆ ดังนี้
DeepLearning.AI แพลตฟอร์มการเรียนรู้ AI และ Deep Learning ที่ก่อตั้งโดย Andrew Ng เปิดตัวหลักสูตรระยะสั้น Generative AI ในภาษา JavaScript ฟรีในช่วงเวลาจำกัด สอนการสร้างแอป LLM ด้วย LangChain โดย Jacob Lee วิศวกรซอฟต์แวร์ผู้ก่อตั้งและหัวหน้าผู้ดูแลโครงการ LangChain.js ใช้เวลาเรียน 1 ชม. เหมาะสำหรับนักพัฒนาเว็บที่มีพื้นฐานเกี่ยวกับ JavaScript ระดับกลาง
Parag Agrawal อดีตซีอีโอเชื้อสายอินเดียของ Twitter ที่ลงจากตำแหน่ง หลัง Elon Musk ซื้อกิจการแล้วปลดออกเป็นคนแรก หลังจากนั้นเขาก็เงียบหายไปเลย (โพสต์สุดท้ายในบัญชีทวิตเตอร์ @paraga เมื่อเดือนตุลาคม 2022)
ล่าสุดเว็บไซต์ Information รายงานว่า Parag กำลังตั้งบริษัทสตาร์ตอัพด้าน AI โดยหาเงินทุนก้อนแรกมูลค่า 30 ล้านดอลลาร์ได้แล้ว จากกลุ่มนักลงทุนที่มี Khosla Ventures เป็นนักลงทุนหลัก
ตอนนี้ยังไม่มีข้อมูลชื่อบริษัทใหม่ของ Parag ว่าชื่ออะไร รู้แค่ว่าเป็นบริษัททำเกี่ยวกับ large language model (LLM)