OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง
โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts
มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่
ส่วนโมเดล speech-to-text ตัวใหม่ได้แก่ gpt-4o-transcribe
และ gpt-4o-mini-transcribe
จะนำมาแทนที่โมเดล Whisper โดยโมเดลใหม่นี้ถูกฝึกฝนด้วยข้อมูลเสียงคุณภาพสูง สามารถจับเสียงพูดในสำเนียงที่หลากหลายมากกว่า และหลอนน้อยกว่า Whisper แบบเดิม เมื่อได้ยินคำที่ไม่รู้จัก
OpenAI ยังรายงานผลการทดสอบ โดย gpt-4o-transcribe มีอัตราผิดพลาดที่ต่ำลงมาก ในหลายภาษาที่ Whisper ไม่เก่ง ก็ปรับปรุงจนดีขึ้นกว่าเดิมมาก ภาษาไทยจาก 12% ลดเหลือ 5%
ที่มา: OpenAI และ TechCrunch
Comments
เสียงภาษาไทยดีขึ้นพอสมควร แต่เวลาใส่อารม ช่วงบิดเสียงเยอะๆยังมีความเป็น robot อยู่บ้าง