Tags:
Node Thumbnail

OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง

โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่

ส่วนโมเดล speech-to-text ตัวใหม่ได้แก่ gpt-4o-transcribe และ gpt-4o-mini-transcribe จะนำมาแทนที่โมเดล Whisper โดยโมเดลใหม่นี้ถูกฝึกฝนด้วยข้อมูลเสียงคุณภาพสูง สามารถจับเสียงพูดในสำเนียงที่หลากหลายมากกว่า และหลอนน้อยกว่า Whisper แบบเดิม เมื่อได้ยินคำที่ไม่รู้จัก

OpenAI ยังรายงานผลการทดสอบ โดย gpt-4o-transcribe มีอัตราผิดพลาดที่ต่ำลงมาก ในหลายภาษาที่ Whisper ไม่เก่ง ก็ปรับปรุงจนดีขึ้นกว่าเดิมมาก ภาษาไทยจาก 12% ลดเหลือ 5%

ที่มา: OpenAI และ TechCrunch

No Description

No Description

Get latest news from Blognone

Comments

By: ปาโมกข์
iPhoneAndroidWindows
on 22 March 2025 - 08:20 #1336506
ปาโมกข์'s picture

เสียงภาษาไทยดีขึ้นพอสมควร แต่เวลาใส่อารม ช่วงบิดเสียงเยอะๆยังมีความเป็น robot อยู่บ้าง