OpenAI นำเสนอเทคโนโลยีที่พัฒนาอยู่ด้าน AI โดยเป็นโมเดลสร้างเสียงเสมือนชื่อว่า Voice Engine มีจุดเด่นคือใช้ข้อมูลตั้งต้นคือ เสียงพูดต้นฉบับความยาว 15 วินาที และข้อความตัวหนังสือของเสียงต้นแบบนั้น ผลลัพธ์ที่ได้เป็นเสียงพูดที่มีจังหวะ และการแสดงออกอารมณ์เหมือนกับต้นฉบับ
โมเดล Voice Engine นี้ OpenAI นำมาใช้งานแล้วสำหรับความสามารถการตอบด้วยเสียงของ ChatGPT ซึ่งใช้ชุดข้อมูลเสียงตั้งต้นก่อน แต่ไม่มีแผนเปิดให้ใช้งานทั่วไปกับสาธารณะ เนื่องจากมีความเสี่ยงสูงในการนำไปใช้งานที่ไม่เหมาะสม
อย่างไรก็ตาม OpenAI มองว่า Voice Engine มีประโยชน์มากหากนำไปใช้งานกับกลุ่มที่เหมาะสมแบบเจาะจง ซึ่ง OpenAI สาธิตการใช้งานหลายกรณี เช่น ใช้สร้างเสียงบรรยายในบทเรียนสำหรับเด็ก, ใช้สร้างเสียงพากย์ทับคอนเทนต์ในภาษาต่าง ๆ โดยคงจังหวะและอารมณ์ไว้, ใช้แปลภาษาท้องถิ่นเพื่อการสื่อสาร เช่น การแพทย์ในพื้นที่ห่างไกล, ช่วยเหลือผู้ป่วยหรือคนที่มีปัญหาการออกเสียง (ดูตัวอย่างทั้งหมดได้จากที่มา)
อ่านถึงตรงนี้ก็คงเห็นความเสี่ยงหลายอย่าง จึงทำให้ OpenAI ตัดสินใจไม่เผยแพร่เครื่องมือนี้ในเวลานี้ จนกว่าจะได้วิธีจัดการที่เหมาะสมกว่าปัจจุบัน อย่างไรก็ตาม OpenAI เตือนว่าทุกคนควรตระหนักว่าเทคโนโลยีสร้างเสียงปลอมนั้นได้มาถึงจุดนี้แล้ว แม้ว่า OpenAI จะไม่เผยแพร่ให้คนทั่วไปใช้งานก็ตาม ทุกคนจึงควรระมัดระวัง ขณะเดียวกันหน่วยงานกำกับดูแลก็ควรหารือถึงแนวทางรับมือกับการมาของเทคโนโลยีนี้ด้วยเช่นกัน
Comments
เราสามารถใส่เสียงอะไรปนเข้าไปเพื่อให้คนตรวจสอบว่าเป็นเสียงคนหรือเสียงจาก AI ได้หรือเปล่า เช่น เสียงวนลูปอะไรที่เบามากๆ
อันนี้ไม่ใช่ของใหม่แต่อย่างไร มีมานานแล้วของบริษัทอื่น ๆ และ open source ก็มีนานแล้ว
บล็อก: wannaphong.com และ Python 3
ใหม่ตรงเสียงต้นฉบับแค่ 15 วิครับ ที่มีอยู่ปัจจุบันเสียง 15 วินี่คุณภาพออกมาแย่มาก
ของ coqui ก็ใช้เสียงเวลาสั้นต่ำก็ชัดและคุณภาพดีนะครับ voice cloning กับ tts สายนี้ไม่ใช่เรื่องใหม่อย่างไรเลย
บล็อก: wannaphong.com และ Python 3
มีเทสเคสมั้ยครับอยากเห็นว่าทำได้แค่ไหน
นายอาร์มต้องมาแล้ว
T-800 T-1000 ก็ทำได้ มีความเสี่ยงสูงจริงๆ
สวัสดี เจ้าคือ Skynet ใช่หรือไม่
"บ๊อบบี้สบายดีใช่ไหม"
ลุงกับป้าบุญธรรมเธอตายแล้ว ที่นั่นไม่ปลอดภัย
The Last Wizard Of Century.
อนาคตแก๊งcall center โทรมาเก็บเสียงตอนรับสาย แล้วไป generate เสียงไปหลอกคนรู้จักอีกทีได้สบายเลย เพราะเสียงเหมือนจริงๆ