สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทยปล่อยโมเดลทางภาษาไทย WangchanBERTa

By: tontan

on 24 January 2021 - 16:10 Tags:

Topics:

Thailand

Artificial Intelligence

Natural Language

สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) ปล่อยโมเดล WangchanBERTa ซึ่งเป็นโมเดลทางภาษาไทยสำหรับงานประมวลผลภาษาธรรมชาติโดยฝึกฝนบนสถาปัตยกรรม RoBERTa

โมเดล WangchanBERTa ถูกฝึกฝนด้วยชุดข้อมูลกว่า 78.48 GB ใช้ตัวตัดคำย่อย SentencePiece ในการแบ่งคำและ ใช้เวลาฝึกฝนโมเดล 3 เดือน

ทำให้โมเดล WangchanBERTa ถือเป็นโมเดลภาษาไทยที่ใหญ่ที่สุด ณ ขณะนี้ ซึ่งในการฝึกฝนใช้ไฟฟ้าทั้งหมด 10,566.5 kWh หรือคิดเป็นรอยเท้าคาร์บอน 7.5 ตัน เทียบเท่าการใช้รถ 1.6 คันในหนึ่งปี

ที่มา: VISTEC-depa AI Research Institute of Thailand

Hiring! บริษัทที่น่าสนใจ

Hytexts Interactive Limited

ผู้พัฒนาระบบห้องสมุดออนไลน์ที่มียอดเติบโดยในการใช้งานเป็นอันดับ 1

Band Protocol 🔥

Band is a protocol for managing and governing data in the Web3 technology stack.

Verumex

Supercharging the management of real estate investment portfolios for the biggest firms in the world

Comments

By: -Rookies-

on 24 January 2021 - 22:49 #1195893

อื้อหือ ผมรอชมรีวิวเลยครับ

เทคโนโลยีไม่ผิด คนใช้มันในทางที่ผิดนั่นแหละที่ผิด!?!

By: Aize

on 25 January 2021 - 00:51 #1195906

ต้องดูว่าใช้ข้อมูลภาษาจากแหล่งไหนในการเทรนต์ เพราะถ้าเป็นภาษาทางการ ที่ไม่ใช่ภาษาพูดหรือภาษาแสล ภาษาโชเชีล ก็จะเหมาะกับงานอีกแบบนึง

The Dream hacker..

By: hisoft

on 25 January 2021 - 01:40 #1195911 Reply to:1195906

ในที่มามีข้อมูลให้หมดเลยครับ

จะเห็นได้ว่า นอกจากขนาดข้อมูลที่ยังห่างไกลจากภาษาอังกฤษแล้ว ปัญหาร้ายแรงอีกอย่างของเราคือข้อความในชุดข้อมูลเปิดส่วนใหญ่เป็นภาษาทางการ เช่น ข่าว หนังสือ และบทความในสารานุกรม หากเราเทรนโมเดลด้วยข้อมูลภาษาทางการแทบทั้งหมด โมเดลของเราย่อมมีปัญหาเมื่อเจอข้อความที่ถูกใช้จริงในบทสนทนาหรือโซเชียลมีเดีย

ด้วยเหตุนี้ เราจึงขอความร่วมมือไปยัง Wisesight และ Chaos Theory สองบริษัทผู้ให้บริการวิเคราะห์ข้อมูลโซเชียลมีเดียไทย Wisesight ได้บริจาคข้อมูลโซเชียลมีเดียที่เก็บจากข้อความสาธารณะในปี 2019 ส่วนหนึ่งจากแพลตฟอร์มต่างๆ เช่น Twitter, Facebok, Pantip, Instagram, YouTube และอื่นๆ รวม 51.44GB (wisesight-large) ส่วน Chaos Theory ได้บริจาคข้อมูลที่เป็นสาธารณะจาก Pantip ปี 2015–2019 ขนาด 22.35GB (pantip-large) นั่นทำให้โดยรวมแล้วเรามีข้อมูลถึง 78GB สำหรับเทรน language model ของเราขึ้นมา

By: soullz

on 25 January 2021 - 08:08 #1195924 Reply to:1195911

ถ้าเอามาจาก twitter น่าสนใจครับว่าจะมีพวก ภาษาเฉพาะกลุ่มด้วยมั๊ย อย่างของเหล่าสาวข้ามเพศ ที่เขามีความครีเอท ในการสร้างภาษาเฉพาะกลุ่มขึ้นมาจนใช้กันอย่างแพร่หลาย นี่ยิ่งทำให้ ตัวโมเดลนี่น่าสนใจขึ้นไปอีก

By: iCyLand

on 25 January 2021 - 08:32 #1195928 Reply to:1195924

จริงคร้บ น่าสนใจมา ศัพท์แสลง ศัพท์ตามยุด อะไรพวกนี้

By: Quinn on 25 January 2021 - 11:40 #1195942

"Wangchan" มีที่มาอย่างไรฮะ

By: phenocalypse

on 25 January 2021 - 11:42 #1195943 Reply to:1195942

ที่ตั้งของสถาบันวิทยสิริเมธี (VISTEC) ตั้งอยู่ในพื้นที่ตำบลป่ายุบใน อำเภอวังจันทร์ จังหวัดระยอง

By: Aize

on 25 January 2021 - 19:19 #1196015 Reply to:1195942

ผมอ่านเป็น วังจัง 5555 อาม่าไม่ได้กล่าว 55555

The Dream hacker..

By: jaideejung007

on 25 January 2021 - 12:15 #1195950

ขอแบบสั้น ๆ ได้ไหมครับ เอาใช้งานในด้านไหนครับ

พยายามอ่านแล้วยังงงๆ หรือผมอ่านข้ามนะ

By: cstorm on 26 January 2021 - 10:47 #1195975 Reply to:1195950

หนึ่งในผู้เขียนครับ คำตอบสั้นๆคือ "ได้เกือบทุกอย่างที่เกี่ยวกับภาษาไทย" ครับ

คำตอบยาวขึ้นมาหน่อยจากในบทความ

คุณสามารถทำเรื่องง่ายๆที่สุดอย่างการจำแนกว่าข้อความนี้มีความรู้สึกเป็นบวกหรือลบ (sentiment analysis), จัดกลุ่มข้อความ (topic modeling), จำแนกชนิดคำ (named entity recognition) ไปจนถึงเรื่องที่น่าสนใจมากขึ้นอย่างระบบค้นหาที่เข้าใจความหมายของภาษา (semantic search), ระบบถาม-ตอบคำถามอัตโนมัติ (question answering), สร้างชุดข้อมูลเพิ่มสำหรับเทรนโมเดล (data augmentation) หรือแค่เปลี่ยนข้อความเป็นตัวเลขสำหรับโมเดลชิ้นต่อไปของคุณ (document2vec)
ทั้งหมดนี้ คุณสามารถสร้างโมเดลประสิทธิภาพสูงที่สุดเท่าที่จะทำได้ปัจจุบัน ในเวลาไม่เกิน 30 นาทีบน GPU ระดับเดียวกับที่ให้บริการฟรีบน Google Colaboratory หรือ Kaggle 
มาเริ่มกันเลย https://colab.research.google.com/drive/1Kbk6sBspZLwcnOE61adAQo30xxqOQ9ko?usp=sharing

Main menu