กูเกิลร่วมมือกับโครงการ AI Singapore เปิดโครงการ SEALD (Southeast Asian Languages in One Network Data) สร้างชุดข้อมูลภาษาสำหรับใช้งานกับ large language model (LLM) ที่เน้นชาติอาเซียนโดยเฉพาะ โดยภาษาชุดแรกได้แก่ อินโดนีเซีย, ไทย, ทมิฬ, ฟิลิปปินส์, และพม่า
ตัวโครงการไม่ได้จำกัดเฉพาะชุดข้อมูล แต่รวมถึงการพัฒนาโมเดลแปลภาษา, สร้างแนวปฎิบัติในการสร้างชุดข้อมูล, สร้างเครื่องมือแปลงภาษา (translocalization), และเผยแพร่แนวทางการสร้างโมเดลในภาษาในชาติเอเชียตะวันออกเฉียงใต้ โดยขุดข้อมูลที่ได้จากโครงการนี้จะเป็นโอเพนซอร์สให้หน่วยงานอื่นๆ นำไปสร้าง LLM ได้ต่อไป
ตอนนี้ยังอยู่ระหว่างการจัดทำชุดข้อมูล และเมื่อเสร็จสิ้นแล้วจะเปิดให้คนทั่วไปดาวน์โหลดได้
ที่มา - AI Singapore
Comments
Typhoon ที่ทำต่อจาก Mistral-7B จะมาเข้าร่วมด้วยไหม หรือสนใจจะไปใช้ Gamma ไหม
WE ARE THE 99%
เผื่อใครสนใจ ที่จริงตอนนี้พอมีชุดข้อมูลออกมาบ้างแล้วครับ SEA-LION-Pile
บล็อก: wannaphong.com และ Python 3