OpenAI ปล่อยโมเดลแปลงเสียงเป็นข้อความใหม่ เล็กลงครึ่งหนึ่งแต่คุณภาพใกล้เคียงของเดิม ยกเว้นภาษาไทยแย่ลงมาก

By: lew

on 4 October 2024 - 13:44 Tags:

Topics:

OpenAI

Artificial Intelligence

OpenAI ปล่อยโมเดลแปลงเสียงเป็นข้อความ whisper-large-v3-turbo ปรับย่อโมเดลโดยลดชั้น decoder ลงจาก 32 ชั้นเหลือ 8 ชั้น ทำให้พารามิเตอร์เดิม 1,550 ล้านพารามิเตอร์เหลือเพียง 809 ล้านพารามิเตอร์เท่านั้น

หลังจากปรับย่อลงแล้ว ทีมงานนำข้อมูลฝึกของโมเดล large-v3 เดิมมาฝึกซ้ำอีกสองรอบแล้ววัดประสิทธิภาพรวม พบว่าโมเดลกลับไปมีคุณภาพค่อนข้างดีใกล้เคียงกับโมเดลต้นทาง ยกเว้นภาษาไทยและกวางตุ้งเท่านั้นที่ประสิทธิภาพลดลงชัดเจน ในกรณีชุดข้อมูล Common Voice นั้นอัตราคำผิดภาษาไทยสูงขึ้นเกือบ 4 เท่าตัว

แนวทางการพัฒนา whisper-large-v3-turbo ปรับมาจากงานวิจัย Distil-Whisper ที่นำเอาท์พุตจากโมเดลขนาดใหญ่มาฝึกโมเดลขนาดเล็กกว่า แต่ทาง OpenAI อาศัยการฝึกด้วยข้อมูลเต็มแทน

ตอนนี้ whisper-large-v3-turbo เป็นโมเดลเริ่มต้นในแพ็กเกจ openai-whisper เวอร์ชั่นล่าสุด หากใครใช้งานภาษาไทยอาจจะต้องระวังปรับไปใช้โมเดลอื่น

ที่มา - OpenAI/Whisper

No Description

Hiring! บริษัทที่น่าสนใจ

Fastwork Technologies

Fastwork.co เว็บไซต์ที่รวบรวม ฟรีแลนซ์ มืออาชีพจากหลากหลายสายงานไว้ในที่เดียวกัน

LINE Company Thailand

LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call

CP AXTRA Public Company Limited - Lotus's

CP AXTRA Lotus's is revolutionizing the retail industry as a Retail Tech company.

Comments

By: tontan

on 4 October 2024 - 14:05 #1324031

สำหรับภาษาไทย ถ้ามีเสียงมากกว่านี้น่าจะดีกว่านี้

ใครอยากช่วยให้โมเดลแปลงเสียงเป็นข้อความภาษาไทยแบบสาธารณะมีความแม่นยำสูงขึ้น สามารถช่วยได้โดยช่วยกันทำชุดข้อมูลเปิดสาธารณะอย่าง Common Voice สามารถอ่านได้ที่
- ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice
- มาช่วยกันตรวจสอบกับบริจาคเสียงภาษาไทยใน Common Voice กัน

บล็อก: wannaphong.com และ Python 3

By: kandation on 5 October 2024 - 12:51 #1324105

common voice ไทยนี่เพราะ dataset น้อย แล้วบางส่วนก็มีเสียง ai นี่เกี่ยวด้วยไหม

By: tontan

on 5 October 2024 - 17:03 #1324122 Reply to:1324105

ส่วนใหญ่เกี่ยวกับขนาด dataset น้อยมากกว่าครับ แต่ต้องยอมรับว่า common voice ภาษาไทยไม่ได้เป็นชุดข้อมูลทดสอบที่เหมาะสมที่สุดในการวัดประสิทธิภาพโมเดลครับ เนื่องจากข้อความใน common voice มีการพิมพ์ข้อความผิดอยู่ปนบ้าง มีตัวเลขปน ภาษาอื่นปน คุณภาพเสียงเป็นแบบ real world มีเสียงรบกวนบ้าง สิ่งเหล่านี้ทำให้การวัดผลอาจจะ error ได้เหมือนกัน แต่ก็ยังมีข้อดีคือ common voice ของไทยเรามีเสียงหลากหลายพอสมควรครับ กว่า 7000 เสียงที่ไม่ซ้ำกัน ส่วนเสียง AI เหมือนจะโดนตีตกไปเยอะพอควรครับ

บล็อก: wannaphong.com และ Python 3

Main menu