Microsoft AI

Microsoft AI เปิดตัวโมเดลตระกูล MAI ที่พัฒนาขึ้นเองอีก 7 ตัว โดยบอกว่าโมเดลทั้งหมดสร้างขึ้นใหม่จากศูนย์ ไม่ได้ใช้ข้อมูลจาก 3rd Party หรือพันธมิตร AI บริษัทต่าง ๆ เพื่อการสร้างรากฐานของตนเองที่ยั่งยืนในระยะยาว

โมเดลเด่นในการเปิดตัวครั้งนี้คือ MAI-Thinking-1 เป็นโมเดลคิดเป็นขั้นตอนขนาดกลาง ที่ไมโครซอฟท์บอกว่าได้ทำการทดสอบกับคนแบบ blind test แล้วทำแบบสอบถามความเห็น พบว่าได้คะแนนดีกว่า Sonnet 4.6 ขณะที่การทดสอบด้านการเขียนโค้ดบางหัวข้อ ทำคะแนนได้เทียบเท่ากับ Opus 4.6

By arjin Writer on Tag: Nothing, Text-to-Speech
Nothing

Nothing เปิดตัวฟีเจอร์ใหม่เพื่อรองรับอินพุทแบบ speech-to-text เรียกชื่อว่า Essential Voice ซึ่งวิธีการป้อนข้อมูลด้วยการพูดเสียงแปลงเป็นข้อความ เป็นที่นิยมและมีความสามารถมากขึ้นในยุค AI

ฟีเจอร์อื่นที่มีใน Essential Voice เช่น การตัดคำไม่จำเป็นออกไป (Um, Ah), สามารถคัสตอมบางคำเป็นทางลัดได้เลย my address ให้พิมพ์ที่อยู่ทั้งหมด และรองรับการแปลภาษาแบบทันที รองรับมากกว่า 100 ภาษา

Nothing บอกว่าฟีเจอร์นี้เริ่มเปิดใช้งานใน Phone (3) ตามด้วย Phone (4a) Pro ภายในเดือนนี้ และ Phone (4a) ในเดือนพฤษภาคม

By arjin Writer on Tag: Google, Mobile App, Text-to-Speech, Artificial Intelligence, LLM
Google

กูเกิลออกแอปใหม่บน iOS ชื่อ Google AI Edge Eloquent โดยเป็นแอปถอดข้อความเสียงออกมาเป็นตัวหนังสือ เสริมความสามารถด้วย AI ทำให้ข้อความที่ได้ดูดีมากขึ้น

ฟีเจอร์หลักได้แก่ การถอดข้อความเสียงที่พูด โดยตัดคำที่ไม่จำเป็นเช่น umm, uhs ให้ออกมาเป็นข้อความที่มีเฉพาะเนื้อหาหลัก รองรับการบันทึกคำศัพท์เฉพาะเพื่อให้ถอดข้อความได้แม่นยำขึ้น นอกจากนี้ยังใช้ AI ปรับแต่งข้อความให้เป็นสไตล์ที่ต้องการ เช่น ย่อความ, ตัดแบ่งเป็นหัวข้อ หรือปรับให้เป็นทางการมากขึ้น

By mk Founder on Tag: Microsoft AI, Microsoft, LLM, Text-to-Speech, Speech Synthesis
Microsoft AI

Microsoft AI เปิดตัวโมเดลตระกูล MAI เพิ่มเติมอีก 3 ตัว ได้แก่

By mk Founder on Tag: Amazon Prime Video, Anime, Amazon, Artificial Intelligence, Text-to-Speech
Amazon Prime Video

เมื่อต้นปีนี้ Amazon Prime Video ประกาศโครงการ "พากย์เสียงด้วย AI" โดยเป็นการพากย์เสียงภาษาอังกฤษและสเปน ให้กับภาพยนตร์และซีรีส์จากต่างประเทศ (เช่น อนิเมะญี่ปุ่น) ซึ่งตามหลักการแล้ว "ดูดี" เพราะช่วยให้ผู้ชมในสหรัฐอเมริกาเข้าถึงคอนเทนต์จากต่างประเทศได้ง่ายขึ้น เร็วขึ้น ลดระยะเวลาและต้นทุนในการจ้างนักพากย์ลงมา

By mk Founder on Tag: Google Docs, Gemini, Text-to-Speech, Google Workspace, Google
Google Docs

Google Docs เพิ่มฟีเจอร์ "อ่านเอกสารให้ฟัง" (listen to your document) โดยอาศัยพลังของ Gemini แล้ว

ฟีเจอร์นี้ต่างจาก การแปลงไฟล์เอกสารเป็นไฟล์เสียง หรือ audio overview คือเป็นการอ่านเอกสารให้ฟังสดๆ ทีละตัวในหน้า Google Docs เลย ไม่ได้แปลงเป็นไฟล์เสียงแยกแต่อย่างใด

ผู้ใช้สามารถสั่งให้อ่านเอกสารได้จากเมนู Tools > Audio และสามารถใส่ปุ่ม "Listen to this tab" ฝังลงในเอกสารให้กดปุ่มแล้วอ่านได้ทันทีได้เช่นกัน

OpenAI

OpenAI ออกโมเดลแปลงข้อความเป็นเสียงใหม่ กำหนดโทนได้มากขึ้น และเสียงเป็นข้อความที่ผิดพลาดน้อยลง

โมเดล text-to-speech หลักตัวใหม่คือ gpt-4o-mini-tts มีจุดเด่นคือนักพัฒนาสามารถกำหนดรูปแบบนำเสียงการพูด เช่น ให้พูดแนว mad scientist หรือพูดในโทนเสียงคุณครูที่อบอุ่น เป็นต้น สามารถทดลองรูปแบบใช้งานได้ที่นี่

By mk Founder on Tag: Chrome, Android, Accessibility, Browser, Text-to-Speech
Chrome

Chrome for Android เพิ่มฟีเจอร์อ่านบทความในหน้าเว็บเป็นเสียง โดยสามารถเลือกความเร็วในการอ่าน และเสียงอ่านได้หลายรูปแบบ

ฟีเจอร์การอ่านบทความบนหน้าจอ มีใน Android อยู่ก่อนแล้ว แต่ที่ผ่านมาต้องเรียกผ่าน Google Assistant หรือใช้แอพอ่านหน้าจอ ข่าวนี้คือฟีเจอร์ Listen to this page ถูกผนวกเข้ามาใน Chrome โดยตรง กดเลือกจากเมนู ... ได้เลย

ที่มา - Google

By sarisalily Contributor on Tag: Chrome, Android, Text-to-Speech
Chrome

Chrome 125 บน Android ล่าสุดมีการอัพเดตฟีเจอร์ Listen to this Page ที่เป็น Text-to-speech สำหรับอ่านบทความยาว ๆ มาให้

ฟีเจอร์นี้จะสามารถใช้งานได้บนเกือบทุกเว็บที่เป็นบทความยาว ๆ โดยกดใช้ฟีเจอร์ ‘Listen to this page’ ได้ที่ปุ่ม 3 จุดขวาบน หรือเพิ่มเป็น Shortcut ได้ที่ปุ่มรูปดาว ข้างตัวเลือก Tab ใน Setting > Advanced > Toolbar shortcut ซึ่งหลังจากที่เว็บดาวน์โหลดเสร็จแล้ว จะมีแถบ Mini Player ขึ้นมาข้างล่างหน้าจอ ในแถบนั้นจะมีปุ่มกดเล่น-หยุด, กรอไป-กลับ 10 วินาที และปุ่มกดปิด

Audible

Bloomberg รายงานผลกระทบจาก AI ต่อวงการหนังสือเสียง (audiobook) โดย Audible เว็บไซต์ขายหนังสือเสียงรายใหญ่ของโลกในเครือ Amazon มีนโยบายว่าต้องประกาศชัดเจนว่าพากย์เสียงด้วย "Virtual Voice" และตอนนี้มีหนังสือเสียงที่ใช้ Virtual Voice มากกว่า 40,000 เล่มในระบบแล้ว (ตัวอย่าง, หน้าผลการค้นหา Virtual Voice ของ Audible)

By arjin Writer on Tag: OpenAI, Artificial Intelligence, Text-to-Speech, Fake
OpenAI

OpenAI นำเสนอเทคโนโลยีที่พัฒนาอยู่ด้าน AI โดยเป็นโมเดลสร้างเสียงเสมือนชื่อว่า Voice Engine มีจุดเด่นคือใช้ข้อมูลตั้งต้นคือ เสียงพูดต้นฉบับความยาว 15 วินาที และข้อความตัวหนังสือของเสียงต้นแบบนั้น ผลลัพธ์ที่ได้เป็นเสียงพูดที่มีจังหวะ และการแสดงออกอารมณ์เหมือนกับต้นฉบับ

โมเดล Voice Engine นี้ OpenAI นำมาใช้งานแล้วสำหรับความสามารถการตอบด้วยเสียงของ ChatGPT ซึ่งใช้ชุดข้อมูลเสียงตั้งต้นก่อน แต่ไม่มีแผนเปิดให้ใช้งานทั่วไปกับสาธารณะ เนื่องจากมีความเสี่ยงสูงในการนำไปใช้งานที่ไม่เหมาะสม

By lew Founder on Tag: Artificial Intelligence, Text-to-Speech
Artificial Intelligence

MyShell ผู้ให้บริการปัญญาประดิษฐ์สร้างตัวตนออนไลน์ ปล่อยโมเดล OpenVoice สำหรับการเลียนแบบเสียงพูดโดยอาศัยตัวอย่างเสียงไม่มากนัก

โมเดลปัญญาประดิษฐ์เลียนเสียงพูดมีงานวิจัยออกมาเรื่อยๆ จำนวนมาก OpenVoice ชูจุดเด่นว่าสามารถควบคุมน้ำเสียง, จังหวะพูด ได้ละเอียดกว่า ทำให้มีความเป็นไปได้ที่จะสร้างเสียงที่สมจริงขึ้น

โมเดลแยกออกเป็นสองส่วน คือการแปลงข้อความเป็นเสียงพูด จากนั้นค่อยแปลงเสียงที่ได้ให้น้ำเสียงเหมือนกันเสียงพูดของบุคคลเป้าหมายอีกที เรียกว่า Tone Color Converter

By lew Founder on Tag: Meta, Artificial Intelligence, Text-to-Speech
Meta

ทีมวิจัย Meta AI รายงานถึงปัญญาประดิษฐ์ Voicebox ที่แปลงข้อความเป็นเสียง (text-to-speech - TTS) ด้วยความแม่นยำสูง มีอัตราความผิดพลาดของคำต่ำ และยังสามารถเลียนแบบเสียงใครก็ได้ โดยต้องการตัวอย่างเสียงเพียงสั้นๆ เท่านั้น

By mk Founder on Tag: Bixby, Samsung, Speech Synthesis, Text-to-Speech, Artificial Intelligence
Bixby

ซัมซุงออกอัพเดตใหญ่ให้ Bixby ผู้ช่วยส่วนตัวบนอุปกรณ์ตระกูล Galaxy ของใหม่ที่สำคัญคือฟีเจอร์ Text Call ที่เคยเปิดตัวในเกาหลีเมื่อเดือนธันวาคม 2022 ตอนนี้ออกเวอร์ชันภาษาอังกฤษแล้ว

By mk Founder on Tag: Bixby, Samsung, Text-to-Speech, Voice Recognition, One UI
Bixby

ซัมซุงโชว์ฟีเจอร์ใหม่ของรอม One UI 5.0 ที่จะออกตัวจริงในเร็วๆ นี้ ฟีเจอร์ที่ว่าคือ Bixby Text Call เป็นการใช้ผู้ช่วยอัจฉริยะ Bixby (ที่หลายคนลืมชื่อนี้ไปแล้ว) ช่วยคุยโทรศัพท์แทนเรา

หากมีคนโทรมา แล้วเราไม่สะดวกรับสาย เราสามารถกดเลือก Text Call แล้ว Bixby จะถอดเสียงพูดของคู่สายมาเป็นข้อความ ให้เราพิมพ์ตอบเป็นข้อความได้ จากนั้น Bixby จะอ่านออกเสียงให้คู่สนทนาฟังเอง

ซัมซุงบอกว่าฟีเจอร์นี้เหมาะกับสถานการณ์ที่ส่งเสียงได้ยาก เช่น ในรถบัสหรือรถไฟที่มีคนมากๆ หรือในงานคอนเสิร์ตที่เสียงดังมาก ตอนนี้ฟีเจอร์นี้ใช้งานได้แล้วในภาษาเกาหลี ส่วนภาษาอังกฤษจะตามมาในช่วงต้นปี 2023

By sunnywalker Writer on Tag: Google, kids, Text-to-Speech, Education
Google

ในระหว่างนี้ที่โรงเรียนยังปิดอยู่ กูเกิลก็ได้เปิดตัวแอป Read Along แอปบนแอนดรอยด์ ช่วยเรียนรู้การอ่านออกเสียงสำหรับเด็กเล็กอายุมากกว่า 5 ขวบขึ้นไป ใช้เทคโนโลยี text-to-speechในการโต้ตอบให้ฟีดแบคกับเด็กๆ รองรับ 9 ภาษา (ยังไม่มีภาษาไทย) เปิดตัวใน 180 ประเทศ

ในแอป Read Along มี Diya เป็นคล้ายๆ ผู้ช่วยอัจฉริยะ ที่ใช้เทคโนโลยี text-to-speech และ speech recognition เพื่อให้ฟีดแบคกับเด็กได้ทันทีว่าเด็กๆ อ่านถูกต้องหรือไม่ เด็กๆ สามารถแตะที่ Diya เพื่อให้เธอช่วยเหลือในกรณีที่เด็กไม่รู้ว่าคำนี้ออกเสียงอย่างไร ในแอปยังมีเกมย่อยๆ ให้เล่นและเรียนรู้คำใหม่ไปพร้อมกัน มีฟังก์ชั่นให้เด็กๆ สะสม badge เพื่อให้เด็กๆ รุ้สึกสนุกและอยากเรียนรู้คำใหม่ๆ ต่อไป

Google Assistant

Google Assistant เพิ่มความสามารถใหม่ ให้ผู้ใช้งานสั่งให้ Google Assistant อ่านข้อมูลข่าวสารจากหน้าเว็บไซต์บนบราวเซอร์ Chrome, Google News ให้ฟังได้แล้วด้วยการสั่ง “Hey Google, read this page” หรือ “Hey Google, read it” ใช้พลังจากเทคโนโลยี Text-to-Speech

ในระหว่างที่ Google Assistant อ่านข้อความให้ฟัง ระบบจะ scroll หน้าเว็บและไฮไลต์ข้อความที่อ่านอยู่ให้อัตโนมัติ ผู้ใช้ยังสามารถเลือกความเร็ว และโทนเสียงการอ่านได้ให้ฟังดูเป็นธรรมชาติมากขึ้น นอกจากนี้ยังเลือกให้อ่านในภาษาของตัวเองได้ด้วย โดยตอนนี้รองรับ 42 ภาษา จากการลองใช้งานอ่านข่าวจากเว็บไซต์ภาษาอังกฤษให้ฟัง พบว่ารองรับการอ่านเป็นภาษาไทยด้วย

By mk Founder on Tag: Google Assistant, Text-to-Speech, Android, Google
Google Assistant

กูเกิลประกาศฟีเจอร์ Read It บน Android เวอร์ชัน 5.0 ขึ้นไป มันคือฟีเจอร์อ่านออกเสียงเว็บเพจโดย Google Assistant ด้วยเทคโนโลยี text-to-speech ที่พัฒนาด้วย machine learning ให้เสียงที่เป็นธรรมชาติมากขึ้น

วิธีการใช้งานถูกออกแบบมาให้ง่ายสุดๆ เพียงแค่เราเปิดหน้าเว็บที่ต้องการขึ้นมา แล้วพูดว่า "Hey Google, Read It" เท่านั้น เราสามารถควบคุมความเร็วของการอ่านได้ด้วย

นอกจากการอ่านออกเสียงเป็น text-to-speech แล้ว เรายังสามารถสั่งให้กูเกิลแปลเป็นภาษาต่างๆ (รองรับ 42 ภาษา รวมภาษาไทย) ก่อนแล้วค่อยสั่งให้อ่านให้ฟังได้เช่นกัน

By nutmos Writer on Tag: AWS, Amazon, Text-to-Speech
AWS

Amazon ประกาศเพิ่มฟีเจอร์ใหม่ให้ Polly บริการแปลงข้อความเป็นเสียงหรือ Text-To-Speech สองอย่าง คือระบบเสียงแบบ Neural Text-To-Speech และสไตล์การพูดแบบพูดประกาศข่าว

สิ่งแรกคือ Neural Text-To-Speech โดย Amazon ได้นำ machine learning มาเพิ่มคุณภาพให้เสียงสังเคราะห์ ทำให้เสียงรูปแบบใหม่ฟังดูเป็นธรรมชาติและใกล้เคียงกับเสียงของมุษย์มากยิ่งขึ้น

ตอนนี้ Neural Text-To-Speech รองรับ 11 เสียง ทั้งในรูปแบบเรียลไทม์และ batch ได้แก่

By mk Founder on Tag: PS4, PlayStation, Games, Sony, Voice Recognition, Text-to-Speech
PS4

Sony ประกาศปรับปรุงฟีเจอร์ Party ของ PS4 โดยขยายจำนวนสมาชิกสูงสุดในปาร์ตี้จาก 8 คนเป็น 16 คน, ปรับปรุงเรื่องคุณภาพเสียงของ voice chat และปรับปรุงการเชื่อมต่อกับเครือข่าย

นอกจากนี้ Sony ยังทดสอบฟีเจอร์ chat transcription หรือแปลงเสียงพูดเป็นข้อความ รวมถึงอ่านข้อความออกมาเป็นเสียงพูดให้เพื่อนร่วมปาร์ตี้คนอื่นๆ ฟังโดยอัตโนมัติ (ยังรองรับเฉพาะภาษาอังกฤษ) ซึ่งใช้ได้กับทั้ง Party ของ PS4 และแอพ PS4 Second Screen บนสมาร์ทโฟน

Sony เปิดทดสอบฟีเจอร์ Party เวอร์ชันใหม่ให้กับผู้สมัครเข้าโครงการ PS4 System Software Beta แล้ว โดยยังไม่ระบุว่าจะออกเวอร์ชันจริงเมื่อไร

Subscribe to Text-to-Speech