OpenAI ออกโมเดล text-to-speech และ speech-to-text ใหม่ ทำงานดีขึ้น

By: arjin

on 21 March 2025 - 18:34 Tags:

Topics:

OpenAI

Artificial Intelligence

Speech Recognition

Text-to-Speech

OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง

โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่

ส่วนโมเดล speech-to-text ตัวใหม่ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe จะนำมาแทนที่โมเดล Whisper โดยโมเดลใหม่นี้ถูกฝึกฝนด้วยข้อมูลเสียงคุณภาพสูง สามารถจับเสียงพูดในสำเนียงที่หลากหลายมากกว่า และหลอนน้อยกว่า Whisper แบบเดิม เมื่อได้ยินคำที่ไม่รู้จัก

OpenAI ยังรายงานผลการทดสอบ โดย gpt-4o-transcribe มีอัตราผิดพลาดที่ต่ำลงมาก ในหลายภาษาที่ Whisper ไม่เก่ง ก็ปรับปรุงจนดีขึ้นกว่าเดิมมาก ภาษาไทยจาก 12% ลดเหลือ 5%

ที่มา: OpenAI และ TechCrunch

No Description