Amazon ประกาศเพิ่มฟีเจอร์ใหม่ให้ Polly บริการแปลงข้อความเป็นเสียงหรือ Text-To-Speech สองอย่าง คือระบบเสียงแบบ Neural Text-To-Speech และสไตล์การพูดแบบพูดประกาศข่าว
สิ่งแรกคือ Neural Text-To-Speech โดย Amazon ได้นำ machine learning มาเพิ่มคุณภาพให้เสียงสังเคราะห์ ทำให้เสียงรูปแบบใหม่ฟังดูเป็นธรรมชาติและใกล้เคียงกับเสียงของมุษย์มากยิ่งขึ้น
ตอนนี้ Neural Text-To-Speech รองรับ 11 เสียง ทั้งในรูปแบบเรียลไทม์และ batch ได้แก่
ถัดไปคือสไตล์การพูดแบบผู้ประกาศข่าว เดิม Polly จะพูดออกมาตามข้อความในรูปแบบเสียงที่เรียบเฉย ในการอัพเดตครั้งนี้ Amazon ได้เพิ่มสไตล์การพูดแบบผู้ประกาศข่าวให้ Polly เพื่อให้มีสไตล์การพูดที่เหมือนมนุษย์มากขึ้น ลักษณะเดียวกับการฟังประกาศข่าวทางทีวีหรือวิทยุ
ตอนนี้ สไตล์การพูดแบบผู้ประกาศข่าวยังมีให้ใช้งานเฉพาะเสียงสองแบบในภาษาอังกฤษแบบสหรัฐฯ เท่านั้น คือ Joanna และ Matthew
ฟีเจอร์ใหม่ของ Amazon Polly เริ่มเปิดให้ใช้แล้วใน US East (N. Virginia), US West (Oregon) และ Europe (Ireland)
ที่มา - AWS Blogs
Comments
ต้องลองเอามาวัดกับ wavenet ของ google