Large Language Model
MosaicML บริการคลาวด์สำหรับปัญญาประดิษฐ์ ประกาศเปิดซอร์สของโมเดล MPT-7B โมเดลปัญญาประดิษฐ์ภาษาขนาดใหญ่ (LLM) แบบโอเพนซอร์สที่สามารถใช้งานเชิงการค้าได้เต็มรูปแบบ โดยมีขนาด 6,700 ล้านพารามิเตอร์ เทียบเท่ากับโมเดลเล็กที่สุดของ LLaMA ของ Meta/Facebook และคะแนนทดสอบใกล้เคียงกัน พร้อมกันฟีเจอร์สำคัญคือรองรับการประมวลผลข้อมูลขนาดใหญ่มาก
MPT-7B เป็นตระกูลปัญญาประดิษฐ์ที่มีหลายตัว ได้แก่
กูเกิลเปิดตัวบริการความปลอดภัย Google Cloud Security AI Workbench ที่ใช้โมเดล Generative AI มาช่วยยกระดับประสิทธิภาพในการตรวจจับภัยคุกคาม
โมเดลที่ใช้งานคือ Sec-PaLM เป็นเวอร์ชันพิเศษของ PaLM โมเดลภาษาขนาดใหญ่ (LLM) ที่กูเกิลเปิดตัวเมื่อปีที่แล้ว และเริ่มนำมาใช้งานในวงกว้างขึ้นเรื่อยๆ (ล่าสุดคือเปิด API เชื่อมต่อแอพภายนอก)
Stability AI ผู้สร้างโมเดล Stable Diffusion ปัญญาประดิษฐ์สร้างภาพ ประกาศเปิดตัว StableLM โมเดลปัญญาประดิษฐ์ด้านภาษา โดยมีขุดแข็งคือบริษัทเปิดให้ใช้งานทั้งสำหรับงานวิจัยและใช้งานเชิงการค้า
โมเดล StableLM มีขนาดเริ่มต้น 3 พันล้านและ 7 พันล้านพารามิเตอร์ และเตรียมจะปล่อยโมเดลขนาดใหญ่ขึ้นที่ 15 พันล้าน และ 65 พันล้านพารามิเตอร์ต่อไป ชุดข้อมูลที่ใช้ฝึกปัญญาประดิษฐ์พัฒนาจาก The Pile ที่มีขนาด 825GiB แต่ทาง Stability AI ขยายชุดข้อมูลจนมีขนาด 1.5 ล้านล้านโทเค็น และทางบริษัทเตรียมจะเปิดชุดข้อมูลให้ภายนอกใช้งานด้วย
ถึงแม้ OpenAI เปลี่ยนมาใช้แนวทางปิด ไม่เปิดเผยรายละเอียดของโมเดล GPT-4 และฝั่งกูเกิลเองก็ยังค่อนข้างระมัดระวังในการปล่อย Bard ทีละนิด แต่โลกเราก็ยังมีโมเดลภาษาขนาดใหญ่ (Large Language Model หรือ LLM) ตัวอื่นให้ใช้งาน โดยเฉพาะ LLaMA ของ Meta ที่เปิดตัวในเดือนกุมภาพันธ์ 2023 ซึ่งเป็นโอเพนซอร์ส ใช้สัญญาอนุญาตแบบ GPLv3 และเปิดทางให้หน่วยงานวิจัยมาขอชุดข้อมูลที่ใช้เทรนไปศึกษาได้
ตัวอย่างก่อนหน้านี้คือ Nebuly AI สร้าง ChatLLaMA แบบโอเพนซอร์ส ใช้โมเดล LLaMA ของ Meta เป็นฐาน
เมื่อสัปดาห์ที่ผ่านมา Meta เปิดตัว LLaMA ปัญญาประดิษฐ์ขนาดใหญ่สูงสุด 65 พันล้านพารามิเตอร์ โดยมีจุดเด่นคือ Meta แจกโมเดลที่ฝึกแล้วให้ไปใช้งานกันด้วย แต่จำกัดการใช้งานเฉพาะการศึกษาวิจัยเท่านั้น และนักวิจัยต้องไปขอใช้งานจาก Meta เป็นรายคน ล่าสุดก็มีคนที่ได้โมเดลไป นำโมเดลมาแจกบน torrent แล้ว
ทีมงานนักวิจัยของไมโครซอฟท์ เผยแพร่งานวิจัย Kosmos-1 โมเดลสร้างภาษาบนข้อมูลสื่อผสมผสาน (Multimodal Large Language Model - MLLM) โดยสามารถเรียนรู้ข้อมูลทั้งตัวหนังสือ รูปภาพ แคปชันประกอบรูปภาพ มาประมวลผลจนสามารถให้ข้อมูลอธิบายได้ในหลากหลายมิติ
ตัวอย่างความสามารถของ Kosmos-1 ที่เผยแพร่ในงานวิจัย เช่น การตอบคำถามจากข้อมูลรูปภาพที่กำหนด ซึ่งโมเดลสามารถเข้าใจบริบทเรื่องราวที่มีอยู่ในภาพได้, สามารถแปลงข้อมูลตัวหนังสือในภาพ (OCR) เพื่อตอบคำถามได้, สามารถหารายละเอียดสำคัญในรูปภาพ และสืบค้นข้อมูลต่อได้ เป็นต้น
Jordi Ribas ผู้บริหารฝ่าย Search & AI ของไมโครซอฟท์ เขียนบล็อกบน LinkedIn เล่ารายละเอียดของโมเดล Prometheus ที่ใช้ใน Bing เวอร์ชันใหม่เพิ่มอีกหน่อย
Ribas บอกว่าเมื่อกลางปี 2022 ทีม OpenAI โชว์โมเดล GPT เวอร์ชันใหม่ (ที่ยังไม่บอกว่า 4 แต่ใหม่กว่า 3.5) ให้ทีมไมโครซอฟท์ดู ทีมไมโครซอฟท์เห็นศักยภาพจึงเริ่มลงมือพัฒนาเพื่อใช้งานใน Bing แต่ข้อจำกัดของโมเดล LLM แนว GPT คือข้อมูลที่ใช้เทรนจะเก่าในระดับหนึ่ง ไม่มีวันเป็นข้อมูลเรียลไทม์ ไมโครซอฟท์จึงต้องแก้ปัญหาด้วยการนำข้อมูลเรียลไทม์จาก Bing เข้ามาเชื่อมกับ GPT และนี่คือ Prometheus
Meta เผยแพร่ชุดโมเดล AI สำหรับสร้างข้อความภาษา หรือ LLM (Large Language Model) โดยเรียกชื่อว่า LLaMA ย่อมาจาก Large Language Model Meta AI โดยมีเป้าหมายเพื่อให้องค์กรต่าง ๆ นำไปศึกษาวิจัยต่อ
LLM เป็นรูปแบบโมเดล AI สร้างข้อความ ที่ถูกนำมาใช้ในผลิตภัณฑ์แชตบอทที่เป็นกระแสในช่วงที่ผ่านมา ไม่ว่าจะเป็น ChatGPT, Bing Chat หรือ Bard ของกูเกิล และเป็นโมเดลที่มีการเปลี่ยนแปลงอย่างรวดเร็ว ต้องการทรัพยากรประมวลที่ใหญ่มาก ทำให้หลายองค์กรไม่มีโอกาสเข้าถึง โดย LLaMA ที่ Meta เผยแพร่มีหลายขนาดชุดข้อมูล ตั้งแต่ 7 พันล้านพารามิเตอร์ จนถึงชุด 65 พันล้านพารามิเตอร์
ช่วงนี้ AI สายตระกูล Large Language Models (LLM) กำลังโด่งดังจากกระแส ChatGPT แต่ข้อเสียของโมเดลใหญ่ขนาดนี้คือขนาดของตัวมันเองที่ใหญ่มาก มีพารามิเตอร์หลักพันล้าน ใช้ข้อมูลการเทรน ทรัพยากรเครื่องจำนวนมหาศาล
ทีมนักวิจัยของไมโครซอฟท์จึงเสนอแนวทาง Language Model ที่มีขนาดเล็กลง แต่ทำงานเฉพาะด้านแทน โดยนำเสนองานวิจัย FLAME ที่ย่อมาจาก First LAnguage Model for Excel หน้าที่ของมันตรงตามชื่อคือเป็นโมเดลภาษาสำหรับ Excel ช่วยแนะนำหรือแก้ไขสูตรในตารางสเปรดชีท
ในงาน Google I/O สัปดาห์ที่ผ่านมา กูเกิลเปิดตัว LaMDA 2 ปัญญาประดิษฐ์เพื่อการสนทนา (conversation AI) เวอร์ชันอัพเกรดจาก LaMDA (Language Models for Dialog Applications) รุ่นแรกที่เปิดตัวในปี 2021
กูเกิลบอกว่า LaMDA 2 มีพารามิเตอร์มากกว่า 137 พันล้านรายการ เทรนด้วยข้อมูลขนาดใหญ่ 1.56 ล้านล้านคำ ได้โมเดลที่พัฒนาขึ้นจากเดิมใน 3 ด้านคือ
กูเกิลนำเสนอโมเดลปัญญาประดิษฐ์ PaLM โมเดลปัญญาประดิษฐ์ขนาด 540,000 ล้านพารามิเตอร์ โดยอาศัยสถาปัตยกรรม Pathway ที่ออกแบบมาให้ปัญญาประดิษฐ์ทำงานได้หลากหลายขึ้น
กูเกิลออกแบบ PaLM ไว้ 3 ขนาด ได้แก่ 8 พันล้านพารามิเตอร์, 64 พันล้านพารามิเตอร์, และ 540 พันล้านพารามิเตอร์ โดยพบว่าความสามารถของตัวปัญญาประดิษฐ์ขนาด 64 พันล้านพารามิเตอร์แซงหน้า GPT-3 ที่มีขนาด 175 พันล้านพารามิเตอร์ได้
ในงาน Google I/O ปีนี้ กูเกิลสาธิตปัญญาประดิษฐ์ LaMDA ที่ออกแบบมาเพื่อบทสนทนาโดยเข้าใจเรื่องราวที่กำลังคุยกันอยู่ แม้กูเกิลจะสร้าง LaMDA และรายงานผลการพัฒนามาตั้งแต่ต้นปี 2020 แต่กูเกิลก็พบว่าสามารถนำโมเดลปัญญาประดิษฐ์มาฝึกเรื่องราวเฉพาะทางได้
กูเกิลสาธิตการใช้งานด้วยการให้ LaMDA เป็นเครื่องบินกระดาษ ผู้ใช้สามารถสนทนากับเครื่องบินกระดาษได้เหมือนเป็นตัวละครสมมติ เช่น ผู้ใช้ถามว่า "คุณเป็นเครื่องบินกระดาษที่ดีไหม" ตัว LaMDA จะถามกลับได้ว่า "ขึ้นกับคำว่าดีแปลว่าอะไร บางคนอาจจะแปลว่าบินได้ไกล บางคนอาจจะแปลว่าบินได้ตรง"
กูเกิลกำลังตรวจสอบว่า LaMDA สามารถตอบคำถามได้อย่าง "ถูกต้อง" จริงหรือไม่ หรือแค่ตอบคำถามที่ดู "สมเหตุสมผล" เท่านั้น ก่อนจะนำ LaMDA ไปใช้งานกับบริการจริง
กูเกิลประกาศเริ่มใช้งานโมเดลประมวลภาษาธรรมชาติ (natural language processing - NLP) แบบ deep learning ที่บริษัทโอเพนซอร์สออกมาเมื่อปีที่แล้วที่ชื่อว่า BERT ในการทำความเข้าใจคำค้นใน Google Search เพื่อให้เข้าใจความหมายของวลีที่ผู้ใช้กำลังค้นหาได้ดีขึ้น
ก่อนหน้านี้ผู้ใช้มักพยายามเพิ่มคำสำคัญที่ถูกต้อง เพราะเว็บค้นหามักใช้คำเหล่านี้ค้นฐานข้อมูล โดยไม่ได้ใช้คำขยายหรือคำบุพบทมาเป็นส่วนสำคัญ แต่การประมวลผลแบบ NLP ทำให้กูเกิลเข้าใจคำค้นได้ตรงความต้องการแม้จะค้นเหมือนพูดคุยกับคนอยู่ก็ตาม