OpenAI ประกาศปล่อยโมเดลปัญญาประดิษฐ์ Whisper ที่สามารถแปลงเสียงเป็นข้อความ พร้อมๆ กับแปลข้อความเป็นภาษาอังกฤษ โมเดลที่ปล่อยออกมามี 4 ขนาด ตั้งแต่ 39 ล้านพารามิเตอร์ไปจนถึง 1,550 ล้านพารามิเตอร์
จุดเด่นของ Whisper คือรองรับภาษาจำนวนมาก แม้จะมีความแม่นยำต่างกันไป ภาษาที่มีความผิดพลาดต่ำสุด เช่น สเปน, อิตาลี, อังกฤษ, และโปรตุเกส (อัตราการผิดพลาด WER ต่ำกว่า 5.0) ขณะที่ภาษาไทยมี WER ที่ 13.2 และภาษาเกาหลีมี WER ที่ 15.2 ภาษาในอาเซียนอื่นๆ ยังมีอัตราการผิดพลาดค่อนข้างสูง เช่น ลาวอยู่ที่ 101.6, เมียนมาร์อยู่ที่ 124.5
ตัวโครงการปล่อยออกมาเป็น command line ให้ใช้งานแปลงไฟล์ MP3 เป็นข้อความ หรือจะใช้งานผ่าน Python ก็ได้
ที่มา - OpenAI
Comments
เมียนมา
เห็นชื่อ AI Whisper
ผมไม่มาแสดงตัวไม่ได้แล้ว 😘
จาก paper ไม่แปลกใจเลยสำหรับภาษาไทย
บล็อก: wannaphong.com และ Python 3
แสดงว่านับ WER จริงๆ น่าจะสูงกว่านี้มาก?
แต่ลาวก็สูงกว่าไทยมากอยู่ดี
lewcpe.com, @wasonliw
น่าจะครับ ของลาว ผมเข้าใจว่ามีแค่ชุดข้อมูล 2 อันที่ชั่วโมงไม่มากเท่าภาษาไทย และยังไม่มี CommonVoice ภาษาลาวด้วยครับ
บล็อก: wannaphong.com และ Python 3