รู้จักโครงการ SEALD ความพยายามสร้าง LLM โอเพนซอร์สในบริบทท้องถิ่นอาเซียน

By: nismod

on 7 November 2024 - 18:47 Tags:

Topics:

Google

Singapore

Artificial Intelligence

LLM

Southeast Asia

ปัจจุบันโมเดล LLM เก่งๆ มีหลากหลายโมเดล แต่ส่วนใหญ่ถูกพัฒนาจากกรอบของภาษาอังกฤษ หรือภาษาอื่นที่เป็นภาษาหลักของโลก รวมถึงชุดข้อมูลและการปรับแต่ง ก็ถูกตีกรอบด้วยอิทธิพลและมุมมองจากตะวันตกเป็นหลัก ทำให้ในหลายๆ ประเทศ หลายๆ ภูมิภาค ที่มีภาษาและบริบททางวัฒนธรรมเฉพาะ ไม่สามารถเข้าถึง LLM ได้ ซึ่งบริษัทใหญ่ๆ ก็คงไม่เน้นพัฒนาให้ หรือประเทศนั้นๆ จะพัฒนาเอง ก็ไม่ได้มีทรัพยากรเพียงพอ

AI Singapore หน่วยงานทีรับผิดชอบเรื่องการวิจัยและขับเคลื่อน AI ของรัฐบาลสิงคโปร์ เลยจับมือกับ Google Research ในการขับเคลื่อน Project SEALD ย่อมาจาก Southeast Asian Languages in One Network Data เพื่อแก้ปัญหาข้างต้น ด้วยการขับเคลื่อนพัฒนา Foundation Model ที่เก่งทั้งภาษา และบริบททางสังคม วัฒนธรรมของประเทศในเอเชียตะวันออกเฉียงใต้ที่ความหลากหลายด้านภาษาและวัฒนธรรมค่อนข้างสูง

No Description

การทำงานของ Project SEALD ก็จะร่วมกับพาร์ทเนอร์ท้องถิ่นในหลายๆ ประเทศ ทั้งหมด ณ ตอนนี้ 15 ราย อย่างของไทย ก็มีเช่น สถาบันวิทยสิริเมธี (VISTEC) และ KBTG

Google Research สิงคโปร์บอกว่าประเทศในอาเซียน อยู่ในกลุ่มประเทศแรกๆ ของโลกที่เปิดรับการใช้งาน LLM เป็นวงกว้าง แต่คุณภาพของภาษาและบริบทท้องถิ่น ของโมเดลดังๆ ในปัจจุบัน ไม่ค่อยดีนัก แม้แต่ภาษาอังกฤษเอง ที่แม้จะเป็นหนึ่งในภาษาหลักของสิงคโปร์ ก็ยังไม่ค่อยเข้าใจบริบทท้องถิ่นของประเทศนี้

หนึ่งในตัวอย่างที่ชัดคือกรณีของ tokenizer ที่ส่วนใหญ่จะถูกออกแบบมาสำหรับภาษาอังกฤษเป็นหลัก (english-centric) ดังนั้นทางทีมเลยจำเป็นต้องสร้าง tokenizer ขึ้นมาเองสำหรับแยกและจับคำในภาษาอาเซียน ที่ชื่อว่า SEABPETokenizer

ขณะที่ความเก่งของ LLM หลักๆ ก็ขึ้นอยู่กับนักวิจัย และข้อมูลที่ถูกเทรน และการจะพัฒนาโมเดล LLM ที่เข้าใจบริบทของอาเซียน ก็ต้องใช้ข้อมูลและนักวิจัยของอาเซียน เป้าหมายของ SEALD เลยมี 2 ส่วน ส่วนแรกคือการสร้างชุดข้อมูลเปิดเกี่ยวกับภาษาและบริบทของอาเซียน ที่มีคุณภาพสูง และส่วนที่สองคือโมเดล LLM ที่ถูกเทรน ปรับแต่ง จากชุดข้อมูลดังกล่าว

No Description

ดังนั้นบทบาทของ Google Research เลยมีทั้ง 2 ส่วนคือ เป็นหัวหอกในการเก็บรวบรวมข้อมูลในภูมิภาค ไม่ว่าจะผ่านทีมของ Google เองหรือผ่านเครือข่ายนักวิจัยและนักพัฒนา ไปจนถึงการใช้เทคนิคในการวิจัยและพัฒนาใหม่ๆ มาใช้งานใน Project SEALD

อย่างเช่นการนำ CALM ที่เป็นเทคนิคที่ Google Research และ DeepMind พัฒนาขึ้นมาร่วมกันมาใช้งาน ซึ่งเป็นเทคนิคที่จะรวมพลังของโมเดลเฉพาะทางหลายๆ ตัวเข้าด้วยกัน

จากเดิมที่ หากเราต้องการปรับแต่งโมเดลให้เป็นไปตามที่เราต้องการ เราต้อง fine-tuned โมเดลให้มีความสามารถที่เราต้องการขึ้นมา เทคนิค Composition To Augment Language Model (CALM) เสนอแนวทางใหม่ด้วยการบอกว่า ในเมื่อมีโมเดลที่เก่งเฉพาะทางอยู่แล้ว เช่น บางโมเดลเก่งเฉพาะงานแปลข้อความ หรืออาจจะเก่งกับภาษาเฉพาะบางภาษา สถาปัตยกรรม CALM จะทำให้เราสามารถนำโมเดลเฉพาะทางเหล่านี้มา “เชื่อม” (Composition) เข้ากับโมเดลหลักได้ โดยเรียกโมเดลหลักว่า Anchor Model และโมเดลเฉพาะทางว่า Augment Model

กระบวนการเชื่อมนี้อาศัยการสร้าง Compositional Layers ขึ้นมาเชื่อมสองโมเดลเข้าด้วยกัน จากนั้นฝึกโมเดลรวมด้วยชุดข้อมูลที่ผสมกันทั้งสองโมเดล (Composition Training Data) และสุดท้ายโมเดลที่รวมกันนี้ทำงานเหมือนเป็นโมเดลเดียวกัน

ทีมงานทดสอบประสิทธิภาพของ CALM ด้วยการนำโมเดล PaLM2-S มาเชื่อมกับ PaLM2-XXS โมเดลขนาดเล็กจิ๋วรุ่นพิเศษที่ฝึกภาษาจำนวนมาก แม้ว่า PaLM2-XXS ที่ถูกฝึกภาษาจะมีความสามารถในการแปลข้อความเป็นภาษาอังกฤษที่แย่มาก แต่เมื่อนำไปเชื่อมด้วยเทคนิค CALM ก็สามาารถเพิ่มความสามารถให้ PaLM-S ได้อย่างมีนัยสำคัญ

ตอนนี้ทาง Google Research ก็อยู่ระหว่างการทำงานร่วมกับพาร์ทเนอร์ใน Project SEALD เพื่อนำ CALM มาใช้งานในการเทรนโมเดลที่มีความเชี่ยวชาญหลายภาษา (multilinguality)

No Description

หรืออีกเทคนิคที่ Google Research นำมาใช้ในโปรเจ็คคือ MatFormer ย่อจาก Matryoshka Transformer (Matryoshka คือตุ๊กตาของรัสเซีย ที่จะมีหลายๆ ขนาดซ้อนๆ กันอยู่ข้างใน) เป็นความพยายามแก้ปัญหาที่ผู้ใช้ต้องการโมเดลขนาดต่างกันไปตามแต่เครื่องที่กำลังรันอยู่ เช่น โทรศัพท์ที่รันได้แต่โมเดลขนาดเล็กมากเท่านั้น หรือเซิร์ฟเวอร์บางแห่งอาจจะรันโมเดลขนาดกลาง ขณะที่องค์กรอาจจะต้องการรันโมเดลขนาดใหญ่ที่มีประสิทธิภาพสูงสุดเท่าที่เป็นไปได้

แต่เดิมผู้พัฒนาโมเดล มักออกแบบโมเดลไว้หลายขนาดตั้งแต่แรก แม้แต่ละขนาดอาจจะมีแนวคิด หรือเทคนิคพิเศษร่วมกัน จากนั้นโมเดลแต่ละตัวจะถูกฝึกแยกกันไป แนวทางนี้ทำให้ค่าใช้จ่ายในการฝึกสูงขึ้นมาก ยกตัวอย่าง Llama 3.1 ของ Meta นั้นใช้ชิปกราฟิกรวม 39.3 ล้านชั่วโมง แต่ที่ใช้สำหรับโมเดลขนาดใหญ่ที่สุดนั้นอยู่ที่ 30 ล้านชั่วโมงเท่านั้น (ค่าฝึกเพิ่มขึ้น 25-30% เพราะต้องฝึกโมเดลขนาดเล็ก)

MatFormer แก้ปัญหาโดยออกแบบสถาปัตยกรรมที่แต่ละชั้นของโมเดลนั้นถูกฝึกไว้หลายขนาด (S, M, L, XL) ตั้งแต่แรก แต่ฝึกไปโดยมองเป็นก้อนเดียวกัน เรียกว่า nested structure เมื่อฝึกสำเร็จแล้ว ผู้ใช้สามารถเลือกใช้งานโมเดลแต่ละชั้นว่าต้องการขนาดใดได้ตามใจชอบโดยไม่ต้องฝึกซ้ำ (mix-and-match)

ตัวอย่างของการใช้ MatFormer ที่ทีมงานยกมา คือการสร้างระบบแปลงภาพเป็นเวคเตอร์เพื่อใช้ค้นหาภาพ ทีมงานสามารถสร้างโมเดลที่ปรับขนาดยืดหดได้ตามต้องการ โดยผลที่ได้ความแม่นยำไม่ได้ต่างจากการฝึกโมเดลที่ขนาดที่ต้องการเฉพาะนัก

No Description

ขณะที่ตัวโมเดล LLM สำหรับอาเซียนมีชื่อว่า SEA-LION (Southeast Asian Languages In One Network) พัฒนาบนสถาปัตยกรรม MPT ปัจจุบันออกมาแล้ว 3 เวอร์ชันคือ v1 มี 2 โมเดลย่อยคือ 3 พันล้านและ 7 พันล้านพารามิเตอร์, v2 ใช้ LLAMA 3 มาพัฒนา เป็นโมเดลขนาด 8 พันล้านพารามิเตอร์ และล่าสุดเพิ่งเปิดตัว v3 ขนาด 9 พันล้านพารามิเตอร์ พัฒนาด้วย Gemma 2 โอเพนซอร์สของ Google เอง และแน่นอนว่า SEA-LION เปิดเป็นโอเพนซอร์ส

อย่างไรก็ตาม Google Research บอกว่า โมเดลที่ออกมาแล้วทั้ง 3 เวอร์ชันยังไม่ได้นำเทคนิค CALM หรือ MatFormer มาใช้งาน แต่กำลังทดลองนำทั้ง 2 เทคนิค มาใช้ในกระบวนการเทรนโมเดลที่จะออกมาในอนาคต

No Description

ส่วนในแง่การเบนช์มาร์ค AI Singapore ก็สร้างเบนช์มาร์คขึ้นมาเองในชื่อ SEA HELM (SouthEast Asian Holistic Evaluation of Language Models) ด้วยเช่นกัน โดยปัจจุบันโมเดล Gemma 2 ที่ทีมงาน SEA-LION ปรับแต่ง คือ gemma-2-9b-cpt-sea-lionv3-instruct นำเป็นอันดับหนึ่ง ทั้งคะแนนเฉลี่ยของ SEA โดยรวมและคะแนนของภาษาไทย

Hiring! บริษัทที่น่าสนใจ

Icon Framework co.,Ltd.

Global Standard Platform for Real Estate แพลตฟอร์มสำหรับธุรกิจอสังหาริมทรัพย์ครบวงจร มาตรฐานระดับโลก

MOLOG Tech

We are Modern Logistic Platform, Specialize in WMS, OMS and TMS.

CIMB THAI Bank

MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank

Comments

By: Hoo

on 8 November 2024 - 19:11 #1326763

จนถึงตอนนี้ก็ยังสงสัยว่า
ถ้า AI โดนเทรนด้วยข้อมูลเท็จเฉพาะส่วน
เช่น เรื่องอื่น ตอบถูกหมด จนได้รับความเชื่อถือ
แต่เรื่องวัฒนธรรมกลับโดนประเทศ ข. อัดข้อมูล
เคลมว่า "ประเทศ ท. ขโมยวัฒนธรรมไป"

จน AI ตอบแบบนั้น จนคนทั้งโลกก็เชื่อ AI ไปตามนั้น
จะมีการป้องกัน/แก้ไข เหตุการณ์แบบนี้ยังไง?

By: tontan

on 9 November 2024 - 00:07 #1326769 Reply to:1326763

เป็นที่มาของการผลักดัน Open Source AI ครับ การแก้ไขตอนนี้คือ มีแต่ต้องแจ้งปัญหาที่เจอไปหาผู้สร้างครับ ส่วนการป้องกันอาจจะใหญ่กว่านั้น คือ การที่ภาครัฐของประเทศนั้น ๆ ต้องลงทุนสร้างชุดข้อมูลสาธารณะที่ให้พวกบ. AI / นักวิจัย/ นักพัฒนาอิสระจากทั่วโลก มีชุดข้อมูลตั้งต้นสำหรับทำ AI กับ ทำชุดข้อมูลทดสอบพวกนี้ทั้งมีความถูกต้องทางวิชาการและน่าเชื่อถือระดับสากล เป็นบรรทัดฐานในการเทรน AI และผลักดันเข้าไปอยู่ในชุดทดสอบระดับสากลครับ

บล็อก: wannaphong.com และ Python 3

Main menu