Tags:
Node Thumbnail

หลังจากที่ภาษาไทย เราได้ช่วยกันผลักดันให้โครงการ Common Voice ของ Mozilla เปิดรับบริจาคเสียงภาษาไทยได้เป็นที่สำเร็จเมื่อ 1 ปีก่อน มาวันนี้ขอเชิญชวนคนไทย/คนลาวที่อ่านหรือพิมพ์ภาษาลาวได้ มาช่วยกันผลักดันให้ Common Voice เปิดรับบริจาคเสียงภาษาลาวกัน

ชุดข้อมูล Common Voice เป็นชุดข้อมูลเสียงสำหรับระบบรู้จำเสียง โดยเสียงมาจากการบริจาคของอาสาสมัครหรือระบบ crowdsourcing และอยู่ภายใต้สัญญาอนุญาตสาธารณสมบัติ (CC-0) ทุก ๆ คนจากทั่วโลกสามารถใช้งานได้ฟรี ตัวอย่างเช่น โมเดล OpenAI Whisper ที่รองรับภาษาจากทั่วโลกและรองรับภาษาไทยด้วย เป็นต้น ดำเนินงานภายใต้ Mozilla องค์กรไม่แสวงหาผลกำไรระดับโลกที่ดูแล Firefox

alt="https://i.imgur.com/evyoYeK.jpg"

ทำไมต้องภาษาลาว?

ภาษาลาวถือเป็นภาษาตระกูลขร้า-ไท ตระกูลเดียวกันกับภาษาไทย ปัจจุบัน ถือว่าเป็นหนึ่งในภาษาที่มีทรัพยากรทางภาษาต่ำ และไม่มีชุดข้อมูลเสียงสาธารณะมากเหมือนกับภาษาไทย หาก Common Voice ภาษาลาวเกิดขึ้นมาได้ จะทำให้ทรัพยากรภาษาแบบสาธารณะของภาษาลาวมีจำนวนมาก จะช่วยให้เทคโนโลยีรู้จำเสียงภาษาลาวจากทั่วโลก (ไม่จำกัดเฉพาะประเทศลาวหรือประเทศไทย) ทำงานกับภาษาลาวได้ดียิ่งขึ้น (เพราะข้อมูลที่นำไปเทรนโมเดลมีจำนวนมากขึ้น) รวมถึงซอฟต์แวร์รู้จำเสียงภาษาลาวแบบโอเพ่นซอร์ส (Open Source) เกิดขึ้นตามมาด้วยในอนาคต และยังมีประโยชน์ในการศึกษาทางภาษาศาสตร์ จะช่วยให้นักภาษาศาสตร์จากทั่วโลกสามารถหาตัวอย่างและศึกษาภาษาลาว รวมถึงภาษาตระกูลขร้า-ไท ได้ง่ายยิ่งขึ้น

วิธีการผลักดันภาษาลาวเข้า Common Voice

การผลักดันภาษาลาวเข้า Common Voice ต้องอาศัยการทำงาน 3 ส่วนดังนี้

1) บริจาคประโยคภาษาลาวเข้า Common Voice Sentence Collector

2) ตรวจทานประโยคภาษาลาวใน Common Voice Sentence Collector ว่าเหมาะสมกับการนำไปให้คนอ่านในการบริจาคหรือไม่

3) แปลหน้าเว็บ Common Voice ให้ครบ 80% ขึ้นไป

เรามาลงลึกทีละขั้นตอนกัน

1) บริจาคประโยคภาษาลาวเข้า Common Voice Sentence Collector

เข้าไปที่ https://commonvoice.mozilla.org/sentence-collector/#/en แล้วทำการ login จากนั้นไปที่ Profile เลือก Lao ใต้ Add a language you want to contribute to แล้วกด Add Language

alt="https://i.imgur.com/jDtYC1D.png"

จากนั้นกลับไปที่หน้าหลัก Home แล้วกด Collect sentences จากนั้นพิมพ์/ก๊อปประโยคภาษาลาวใส่เข้าไปบรรทัดละประโยค

จากนั้นพิมพ์ที่มาของประโยคแล้ว ติ๊กถูกเพื่อยืนยันว่าเป็นประโยคสาธารณะ จากนั้น Submit ได้เลย

alt="https://i.imgur.com/sIrMpM5.png"

สำหรับเกณฑ์ประโยคของภาษาลาว ปัจจุบันยังไม่มี แต่ผมขอเสนอดังนี้

  • ไม่มีการย่อคำ ตัวอย่างเช่น สส เป็นต้น
  • ไม่มีอิโมจิ
  • ไม่มีตัวเลข
  • ไม่มีคำศัพท์ต่างภาษาปนเข้าไป เช่น ภาษาไทย ภาษาอังกฤษ และภาษาอื่น ๆ เป็นต้น ต้องเป็นภาษาลาวทั้งหมด
  • ไม่มีเครื่องหมายพิเศษ ตัวอย่างเช่น “ ) ( เป็นต้น

2) ตรวจทานประโยคภาษาลาวใน Common Voice Sentence Collector

ตรวจทานประโยคที่มีคนเข้ามาในระบบว่าเหมาะสมกับอ่านเพื่อบริจาคเสียงภาษาลาวหรือไม่ ตามคำแนะนำเกณฑ์ที่ผมเสนอ และประโยคต้องไม่ยาวเกินไป อ่านจบไม่เกิน 10 วินาที (เวลาสูงสุดในการรับบริจาคเสียงแต่ละเสียงของ Common Voice)

เข้าไปที่ Review sentences จากหน้าหลัก Home ของ Common Voice Sentence Collector แล้วกด Approve ถ้าประโยคนั้นผ่าน กด Reject ถ้าประโยคนั้นไม่ผ่าน และกด Skip ถ้าไม่ต้องการตรวจทานประโยคนั้น

alt="https://i.imgur.com/pvec0mn.png"

3) แปลหน้าเว็บ Common Voice ให้ครบ 80% ขึ้นไป

สำหรับขั้นตอนนี้ต้องอาศัยระบบแปลหน้าเว็บ ชื่อ Pontoon ของ Mozilla ในการแปลภาษา โดยเข้าไปที่ https://pontoon.mozilla.org/lo/common-voice/ แล้ว Login จากนั้นลงมือแปลพิมพ์คำแปลภาษาลาวเข้าไปได้เลย

alt="https://i.imgur.com/Qul1rmK.png"

รายละเอียดเพิ่มเติม สามารถอ่านได้ที่ Community Playbook

สำหรับจำนวนประโยคที่ต้องการขั้นต่ำสำหรับภาษาลาว ณ เวลานี้คือ จำนวน 5,000 ประโยค (แต่อาจมีการเปลี่ยนแปลงจำนวนนี้ได้ในอนาคต) เมื่อตรวจครบ 5,000 ประโยคและแปลครบ 80% แล้ว ระบบ Common Voice ถึงจะเปิดรับบริจาคเสียงภาษาลาว

มาช่วยกันผลักดันให้ภาษาลาวเข้าไปอยู่ในชุดข้อมูล Common Voice กัน!

Get latest news from Blognone

Comments

By: big50000
AndroidSUSEUbuntu
on 21 November 2022 - 23:15 #1269809
big50000's picture

ผมอยากเข้าไปช่วยนะ (มีทักษะภาษาลาว) แต่ผมไม่เคยพูดสำเนียงของบ้านเขาเลย

By: tontan
ContributorAndroidSymbianUbuntu
on 21 November 2022 - 23:19 #1269812 Reply to:1269809
tontan's picture

ถ้าสะดวกสามารถเข้าไปช่วยได้ครับ ตอนนี้ยังคงเป็นส่วนที่ยังไม่ได้เปิดรับบริจาคเสียงครับ เน้นพิมพ์ แปล ตรวจอย่างเดียวครับ


บล็อก: wannaphong.com และ Python 3

By: runnary
iPhoneWindows PhoneAndroidBlackberry
on 22 November 2022 - 12:42 #1269860
runnary's picture

ในบรรดาเพื่อนบ้าน(ประเทศ) ส่วนตัวรู้สึกสนิทแนบชิดกับคนลาว ทั้งที่ผมก็คนใต้ บ้านติดกันแต่แทบไม่ค่อยทะเลาะกันเหมือนเพื่อนบ้านท่านอื่น

By: veer
Windows PhoneUbuntu
on 22 November 2022 - 19:19 #1269912 Reply to:1269860
veer's picture

คนนครศรีกับคนหลวงพระบางผมว่าบางคำสำเนียงคล้าย ๆ กัน

By: tontan
ContributorAndroidSymbianUbuntu
on 22 November 2022 - 15:36 #1269892
tontan's picture

ตอนนี้มียอดตรวจสอยประโยคจำนวน 74 ประโยคแล้วครับ โดยดูยอดจาก https://commonvoice.mozilla.org/sentence-collector/#/en/stats ครับ

No Description


บล็อก: wannaphong.com และ Python 3

By: tontan
ContributorAndroidSymbianUbuntu
on 23 November 2022 - 22:03 #1270018
tontan's picture

อัปเดต ตอนนี้แปลหน้าเว็บครบ 80% แล้วครับ ต่อไปเหลือตรวจสอบประโยค ตอนนี้ยังมียอดเพียง 226 ประโยค จาก 5000 ประโยคครับ


บล็อก: wannaphong.com และ Python 3

By: big50000
AndroidSUSEUbuntu
on 24 November 2022 - 00:17 #1270024
big50000's picture

ตอนนี้ปัญหาอย่างเดียวของผมกับภาษาลาวคือบน Firefox Linux สระซ้อนทับกัน อ่านยากมากในบางคำ โดยเฉพาะอย่างยิ่งพวกสระที่เป็นไม้เอกกับสระอี บางทีจะเหมือนกับสระอือมาก

By: veer
Windows PhoneUbuntu
on 24 November 2022 - 15:19 #1270065 Reply to:1270024
veer's picture

ปัญหาบน GNU/Linux ลองมาคุยกันต่อยาว ๆ ที่กลุ่ม Telegram ได้นะครับ