Microsoft AI

Microsoft AI เปิดตัวโมเดลตระกูล MAI ที่พัฒนาขึ้นเองอีก 7 ตัว โดยบอกว่าโมเดลทั้งหมดสร้างขึ้นใหม่จากศูนย์ ไม่ได้ใช้ข้อมูลจาก 3rd Party หรือพันธมิตร AI บริษัทต่าง ๆ เพื่อการสร้างรากฐานของตนเองที่ยั่งยืนในระยะยาว

โมเดลเด่นในการเปิดตัวครั้งนี้คือ MAI-Thinking-1 เป็นโมเดลคิดเป็นขั้นตอนขนาดกลาง ที่ไมโครซอฟท์บอกว่าได้ทำการทดสอบกับคนแบบ blind test แล้วทำแบบสอบถามความเห็น พบว่าได้คะแนนดีกว่า Sonnet 4.6 ขณะที่การทดสอบด้านการเขียนโค้ดบางหัวข้อ ทำคะแนนได้เทียบเท่ากับ Opus 4.6

By mk Founder on Tag: Microsoft AI, Microsoft, LLM, Text-to-Speech, Speech Synthesis
Microsoft AI

Microsoft AI เปิดตัวโมเดลตระกูล MAI เพิ่มเติมอีก 3 ตัว ได้แก่

By mk Founder on Tag: OpenAI, LLM, Speech Synthesis
OpenAI

ข่าวโมเดลใหม่ประจำวัน จากบ้าน OpenAI เปิดตัวโมเดลเสียงตอบเสียง (speech-to-speech) ตัวใหม่ gpt-realtime ความสำคัญตามชื่อคือตอบโต้ด้วยเสียงที่ซับซ้อนได้แบบเรียลไทม์ และเก่งกว่าโมเดลแบบเดียวกันรุ่นก่อนๆ

OpenAI บอกว่าเทรนโมเดล gpt-realtime ตามความต้องการของลูกค้าจริงในสถานการณ์จริงต่างๆ เช่น งานบริการลูกค้า ผู้ช่วยส่วนตัว และภาคการศึกษา เพื่อสร้างโมเดลที่เหมาะกับการใช้เป็น voice agent ตอบโจทย์ทั้งแง่คุณภาพเสียง ความฉลาด สามารถปฏิบัติตามคำสั่งได้ไม่แหกกฎ ผลการทดสอบเบนช์มาร์คด้านเสียง Big Bench Audio⁠(opens in a new window) ออกมาดีกว่า gpt-4o-realtime ตัวเก่า

By mk Founder on Tag: Nova, Amazon, LLM, Speech Recognition, Speech Synthesis
Nova

Amazon ยังเดินหน้าเปิดตัวโมเดลตระกูล Nova อย่างต่อเนื่อง ถัดจาก Nova Reel โมเดลสร้างวิดีโอ ตามมาด้วย Nova Sonic โมเดลสร้างคำตอบเสียง ที่เป็นโมเดลตัวเดียวทำงานทั้งการเข้าใจเสียงพูด (speech understanding) และสร้างเสียงพูด (speech generation) ไม่ต้องแยกสองโมเดลทำงานอีกต่อไป

ความน่าสนใจของ Nova Sonic คือเป็นโมเดลแบบเสียง-เสียง (speech-to-speech) รับอินพุตเป็นเสียงพูด แล้วสร้างเอาต์พุตเป็นข้อความหรือเป็นเสียงก็ได้ สามารถทำงานแบบเรียลไทม์

By mk Founder on Tag: Ferrari, Deepfake, Speech Synthesis, Scam
Ferrari

Bloomberg รายงานว่าการหลอกลวงแบบ scam ที่ใช้ซอฟต์แวร์จำพวก deepfake ปลอมหน้าหรือเสียงของผู้บริหารยังระบาดรุนแรงขึ้นเรื่อยๆ โดยบริษัทขนาดใหญ่รายล่าสุดที่โดนโจมตีลักษณะนี้คือ Ferrari

ในเดือนที่ผ่านมา ผู้บริหารระดับสูงของ Ferrari หลายคนได้รับข้อความทาง WhatsApp ที่แสดงตัวว่ามาจากซีอีโอ Benedetto Vigna พูดถึงดีลการซื้อกิจการใหม่ที่ยังเป็นความลับ ขอให้ผู้บริหารช่วยเซ็นสัญญาไม่เปิดเผยข้อมูล (NDA) และเข้ามาช่วยงานซีอีโอในดีลลับนี้

Audible

Bloomberg รายงานผลกระทบจาก AI ต่อวงการหนังสือเสียง (audiobook) โดย Audible เว็บไซต์ขายหนังสือเสียงรายใหญ่ของโลกในเครือ Amazon มีนโยบายว่าต้องประกาศชัดเจนว่าพากย์เสียงด้วย "Virtual Voice" และตอนนี้มีหนังสือเสียงที่ใช้ Virtual Voice มากกว่า 40,000 เล่มในระบบแล้ว (ตัวอย่าง, หน้าผลการค้นหา Virtual Voice ของ Audible)

By mk Founder on Tag: Bixby, Samsung, Speech Synthesis, Text-to-Speech, Artificial Intelligence
Bixby

ซัมซุงออกอัพเดตใหญ่ให้ Bixby ผู้ช่วยส่วนตัวบนอุปกรณ์ตระกูล Galaxy ของใหม่ที่สำคัญคือฟีเจอร์ Text Call ที่เคยเปิดตัวในเกาหลีเมื่อเดือนธันวาคม 2022 ตอนนี้ออกเวอร์ชันภาษาอังกฤษแล้ว

By Augustine Contributor on Tag: Microsoft, Artificial Intelligence, Speech Synthesis
Microsoft

Microsoft เปิดตัวปัญญาประดิษฐ์ใหม่ใช้ชื่อว่า VALL-E ที่สามารถเลียนเสียงมนุษย์ได้เพียงแค่ป้อนเสียงตัวอย่างที่มีความยาว 3 วินาที จุดที่น่าสนใจ คือ VALL-E สามารถเลียนน้ำเสียงและอารมณ์ของเสียงต้นแบบและปรับได้ตามโหมดต่าง ๆ ได้ ทำให้แตกต่างจากโมเดลอื่น ๆ นอกจากนี้ ยังสามารถพูดในสิ่งที่เสียงต้นแบบไม่ได้พูดได้ด้วย

Microsoft ใช้เสียงภาษาอังกฤษ 60,000 ชั่วโมงในการเทรนปัญญาประดิษฐ์ อย่างไรก็ตาม เสียงที่สร้างจาก VALL-E บางครั้งก็ดูธรรมชาติ แต่บางครั้งก็ยังเป็นเสียงที่ไม่เหมือนมนุษย์อยู่ดีซึ่งต้องพัฒนาต่อไปในอนาคต

By nismod Writer on Tag: Apple Books, Apple, Audio Books, Speech Synthesis
Apple Books

Apple Books เปิดตัวบริการออดิโอบุ๊คของตัวเอง โดยใช้ปัญญาประดิษฐ์สังเคราะห์เสียงจากอีบุ๊คที่มีอยู่แล้วในระบบ ไม่ได้ใช้คนมาอ่านเหมือนออดิโอบุ๊คเจ้าอื่น และอีบุ๊คที่มีออดิโอ จะมีแท็ก Narrated by Apple Books อยู่เป็น subtitle ของชื่อหนังสือ

ช่วงแรกหนังสือที่รองรับการสร้างเป็นเสียงอ่านรองรับเฉพาะหนังสือกลุ่มนิยายและโรแมนติก ที่จะมีเสียงอ่านของ Madison (ญ) และ Jackson (ช) กำหนดเอาไว้ในหมวดนี้ และ Helena (ญ) and “Mitchell (ช) สำหรับหมวดพัฒนาตนเองและ non-fiction

By mk Founder on Tag: Star Wars, Speech Synthesis, Artificial Intelligence, Ukraine
Star Wars

นัดแสดงชาวอเมริกัน James Earl Jones เป็นเจ้าของเสียงพากย์ Darth Vader อันเป็นเอกลักษณ์ มาตั้งแต่ภาพยนตร์ภาคแรกในปี 1977 และยังให้เสียง Darth Vader ต่อเรื่อยมาในภาพยนตร์ยุคหลังๆ เช่น Rogue One ที่ฉายในปี 2016 และ The Rise of Skywalker ในปี 2019

แต่ Jones ปัจจุบันมีอายุ 91 ปีแล้ว เสียงเขาเปลี่ยนไปจากเดิมมาก ในซีรีส์ Obi-Wan Kenobi ที่ฉายในปี 2022 นี้จึงไม่ใช่เสียงที่แท้จริงของเขาอีกต่อไป แต่เป็นเสียงที่ใช้ AI สร้างขึ้นมาจากคลังเสียงเดิม โดยที่ Jones เซ็นยินยอมให้ใช้งาน (แต่เครดิตท้ายเรื่องยังเป็นชื่อของ Jones ในฐานะเจ้าของเสียง)

LINE

ที่งาน LINE Developer Day 2018 บริษัท LINE เปิดตัวบริการ Chatbot Engine เครื่องมือสำหรับสร้างแชทบ็อต

ก่อนหน้านี้ LINE เปิดให้ทำแชทบ็อตอยู่แล้ว แต่กระบวนการยังค่อนข้างยุ่งยากและนักพัฒนาต้องทำงาน manual เยอะ แต่ด้วย Chatbot Engine ทำให้การสร้างแชทบ็อตง่ายขึ้น มี GUI ให้พร้อมสรรพสำหรับการกำหนดคำถาม-คำตอบของบ็อตด้วย

ทีมพัฒนาของ LINE ระบุว่าเบื้องต้นยังรองรับบ็อตที่แชทแบบข้อความเท่านั้น แต่ในอนาคตจะทำให้รองรับการคุยด้วยเสียงเช่นกัน

By nutmos Writer on Tag: Amazon, Speech Synthesis, Alexa
Amazon

Amazon ได้เปิดตัว Speech Synthesis Markup Language (SSML) ไปแล้วในช่วงก่อนหน้านี้ไม่กี่วัน และตอนนี้ Amazon ก็ได้ใช้ประโยชน์จากเทคโนโลยีนี้ในการเพิ่มความสามารถให้ Alexa พูดได้เหมือนมนุษย์มากขึ้น คือมีลูกเล่นในการพูดเยอะ และไม่ทำให้เสียงเป็นหุ่นยนต์มากจนเกินไป

By Zatang Contributor on Tag: Thailand, Speech Synthesis, iPod shuffle
Thailand

แอปเปิลอัพเดต VoiceOver Kit 1.4 สำหรับ iPod shuffle และ iPod nano ซึ่งใช้ในการอ่านออกเสียงชื่อเพลงและชื่ออัลบัม โดยในเวอร์ชันนี้มีการปรับปรุงการออกเสียงภาษาเกาหลี เยอรมัน และรัสเซีย และทำให้ iPod shuffle รุ่นล่าสุดรองรับภาษาเพิ่มคือภาษาอังกาเรียน โรมาเนีย สโลวัก และไทย

ป.ล. iPod nano รุ่นล่าสุดรองรับภาษาไทยอยู่แล้ว เช่นเดียวกับ iPhone และ iPod touch แต่ต้องเปิดโหมดสำหรับผู้พิการก่อน

By mk Founder on Tag: Google, Merging, DRM, Online Video, Speech Synthesis
Google

แม้จะยังซื้อ Groupon ไม่สำเร็จ แต่วันนี้กูเกิลประกาศการซื้อกิจการ 2 บริษัทรวด

บริษัทแรกชื่อ Widevine ให้บริการเผยแพร่วิดีโอออนไลน์แก่บริษัทขนาดใหญ่อื่นๆ บริษัทนี้มีเทคโนโลยีด้าน DRM (ดูภาพประกอบ) และการปรับปรุงวิดีโอให้เหมาะสมกับอุปกรณ์ปลายทาง กูเกิลสัญญาว่าจะดูแลลูกค้าเดิม (และลูกค้าใหม่) ของ Widevine อย่างดี แต่ก็บอกว่าจะนำเทคโนโลยีของ Widevine ไปใช้ต่อ

Subscribe to Speech Synthesis