Voice Recognition

Apple ปรับความถี่เสียงตอนสั่ง Siri ในคีย์โน้ต WWDC เพื่อป้องกัน Siri ของผู้ชมถูกเรียกทำงาน

By arjin

on 14 June 2026 - 14:30 Tag: Apple, WWDC26, Siri, Voice Recognition

Apple

มีประเด็นเล็ก ๆ ที่น่าสนใจจากงาน WWDC 2026 ของแอปเปิลเมื่อสัปดาห์ที่ผ่านมา เนื่องจากแอปเปิลต้องสาธิตความสามารถของ Siri ในคีย์โน้ตด้วยการออกเสียง "Siri" หรือ "Hey Siri" แต่การส่งเสียงนี้กลับไม่ทำให้อุปกรณ์ iPhone หรืออื่น ๆ ของคนดูถูกทริกให้ตอบสนองการทำงานด้วย

ผู้ใช้งาน X @luuk58 บอกเขาค้นพบความลับนี้ด้วยการนำเสียงมาวิเคราะห์ความถี่ พบว่าแอปเปิลได้ตัดย่านความถี่ช่วง 3kHz, 4kHz, 5kHz และ 6kHz ออกไปในช่วงที่มีการกล่าวคำว่า Siri ซึ่งการทำเช่นนี้จะช่วยลดโอกาสที่ Siri ของคนดูถูกเรียกให้ทำงานได้

[ลือ] OpenAI เร่งพัฒนาโมเดล AI เสียง เพื่อรองรับการโต้ตอบกับฮาร์ดแวร์ AI ที่ใกล้เปิดตัวเร็ว ๆ นี้

By arjin

on 2 January 2026 - 13:03 Tag: OpenAI, Artificial Intelligence, Rumors, Voice Recognition

OpenAI

ข่าว AI ต้อนรับปี 2026 เป็นรายงานจาก The Information อ้างแหล่งข่าวใน OpenAI พูดถึงแผนการปรับปรุงโมเดล AI เสียง ว่าในช่วง 2 เดือนที่ผ่านมา บริษัทได้ตั้งทีมงานซึ่งรวมฝ่ายวิศวกรรม ผลิตภัณฑ์ และฝ่ายวิจัย เพื่อยกเครื่องโมเดล AI เสียงใหม่ให้ทำงานดีมากขึ้น

FFmpeg เพิ่มโมเดลแปลงเสียงเป็นข้อความ Whisper เข้าในโครงการ ทำ subtitle ได้ในตัว

By lew

on 13 August 2025 - 22:36 Tag: FFmpeg, OpenAI, Voice Recognition

FFmpeg

FFmpeg โครงการโปรแกรมแปลงไฟล์เสียงและวิดีโอ เพิ่มโค้ด Whisper โมเดลปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech to text) เข้ามาในตัว ทำให้เวอร์ชั่นต่อไปสามารถแปลงเสียงเป็นข้อความได้ในตัว

ตัว FFmpeg สามารถแปลงเสียงให้เป็นข้อความเปล่าๆ, แปลงเป็นไฟล์ srt สำหรับทำ subtitle, หรือเป็น json สำหรับประมวลผลอื่นๆ ต่อ

ตอนนี้สถานะของฟีเจอร์นี้โค้ดอยู่ใน git สำหรับเวอร์ชั่น 8.0 ต้องรอดูว่าไบนารีมาตรฐานจะเปิดฟีเจอร์นี้เป็นมาตรฐานหรือไม่

Microsoft Word บนมือถือ เพิ่มฟีเจอร์ Copilot แปลงเสียงพูดเป็นเอกสารแบบมีโครงสร้าง-หัวข้อ

By mk

on 19 April 2025 - 19:40 Tag: Microsoft Word, Microsoft Copilot, Microsoft, Voice Recognition

Microsoft Word

แอพ Microsoft Word บนมือถือ (ตอนนี้ใช้ได้เฉพาะบน iOS) เพิ่มฟีเจอร์ใช้ Copilot ช่วยแปลงเสียงพูดมาเป็นเอกสาร Word แบบมีโครงสร้างหัวข้อ (structured document) ได้ทันที

ฟีเจอร์นี้ต่างจากการใช้ระบบพิมพ์ด้วยเสียงที่เราคุ้นเคยกัน พิมพ์ข้อความต่อเนื่องตามเสียงพูด แต่เคสนี้ Copilot สามารถแปลงเสียงเป็น Document (เอกสารที่มีหัวข้อและโครงสร้าง), Notes (เอกสารแบบมีย่อหน้า) และ Email (เอกสารสำหรับส่งอีเมล มีคำลงท้ายผู้ส่ง) ให้ได้เลย

ฟีเจอร์นี้ยังรองรับเฉพาะบางภาษา (ไม่มีไทย) และต้องมีไลเซนส์ Microsoft 365 Copilot แบบเสียเงินด้วย

บริษัท Call Center ในอินเดีย นำ AI มาปรับสำเนียงภาษาอังกฤษเรียลไทม์ ให้เป็นตะวันตกขึ้น

By arjin

on 2 March 2025 - 15:06 Tag: India, Voice Recognition, Artificial Intelligence

India

Teleperformance บริษัทให้บริการคอลเซนเตอร์รายใหญ่ของโลก ซึ่งมีพนักงานเกือบแสนคนในอินเดีย เปิดเผยว่าบริษัทได้นำซอฟต์แวร์ AI ที่แปลงเสียงเจ้าหน้าที่ผู้พูดทางโทรศัพท์แบบเรียลไทม์ ให้การสนทนากับปลายสายมีความเข้าอกเข้าใจดีมากขึ้น

ซอฟต์แวร์ดังกล่าวพัฒนาโดยบริษัท Sanas ซึ่ง Teleperformance เป็นผู้ร่วมลงทุน ระบุว่าสามารถแปลงเสียงพูดให้มีสำเนียงภาษาอังกฤษตามที่ต้องการได้ในทันที ช่วยให้ลูกค้าที่ติดต่อเข้ามาผ่านบริการของ Teleperformance ซึ่งมักเป็นมาจากฝั่งตะวันตกเช่น อเมริกาหรือสหราชอาณาจักร ได้รับการสนทนาเสียงด้วยสำเนียงที่ใกล้เคียงกันมากขึ้น

Call of Duty ใช้ระบบดักจับเสียง ToxMod ลดปัญหาพฤติกรรม Toxic ของผู้เล่นลงได้ 43%

By mk

on 12 October 2024 - 08:20 Tag: Call of Duty, Voice Recognition, Games, Activision, Hate Speech

Call of Duty

Activision เปิดเผยว่าเกม Call of Duty: Modern Warfare III เริ่มนำเทคโนโลยีดักจับเสียง เพื่อแก้ปัญหาพฤติกรรมแย่ๆ (toxic) ของผู้เล่นมัลติเพลเยอร์ ซึ่งเป็นปัญหาเรื้อรังของซีรีส์ Call of Duty มายาวนาน (จริงๆ ก็เกิดขึ้นกับเกมยิงทุกค่าย) และ Activision ตั้งทีมชื่อ Disruptive Behavior มาเพื่อแก้ปัญหาเหล่านี้โดยเฉพาะ

Volkswagen เพิ่มฟีเจอร์ ChatGPT ลงในระบบสั่งงานด้วยเสียงของรถยนต์

By mk

on 5 September 2024 - 21:12 Tag: Volkswagen, ChatGPT, Voice Recognition

Volkswagen

Volkswagen เริ่มปล่อยอัพเดตฟีเจอร์ ChatGPT เข้าไปใส่ในรถยนต์ของตัวเอง หลังจากประกาศข่าวไว้ในงาน CES 2024 เมื่อต้นปีนี้

รถยนต์รุ่นใหม่ๆ ของ Volkswagen มีผู้ช่วยที่สั่งงานผ่านเสียง IDA voice assistant อยู่ก่อนแล้ว (กดปุ่มเรียกได้จากพวงมาลัย หรือพูดว่า "Hello IDA" หรือ “Hello Volkswagen”) การเพิ่ม ChatGPT เข้ามาจะช่วยให้การพูดคุยโต้ตอบเป็นธรรมชาติ เข้าใจภาษามนุษย์มากขึ้น

MKBHD รีวิวผู้ช่วยสั่งงานด้วยเสียง แชมป์คือ Google Assistant ส่วน Alexa แย่ที่สุด

By mk

on 27 December 2022 - 20:12 Tag: MKBHD, Google Assistant, Siri, Bixby, Alexa, Voice Recognition

MKBHD

Marques Brownlee หรือ MKBHD ยูทูบเบอร์คนดัง รีวิวแอพผู้ช่วยส่วนตัวผ่านการสั่งงานด้วยเสียง (voice assistant) บนสมาร์ทโฟน 4 ตัวคือ Google Assistant, Siri, Bixby, Alexa เปรียบเทียบกันอีกครั้งในเวอร์ชันปลายปี 2022 ผลคือ Google Assistant ยังเป็นอันดับหนึ่งเช่นเดิม

Home Assistant จะสร้างระบบสั่งงานด้วยเสียงของตัวเอง ประมวลผลแบบโลคัล

By mk

on 25 December 2022 - 21:52 Tag: Home Assistant, Open Source, Voice Recognition, Smart Home

Home Assistant

Home Assistant โครงการโอเพนซอร์สระบบสั่งงานบ้านอัตโนมัติชื่อดัง ประกาศเริ่มทำฟีเจอร์สั่งงานด้วยเสียงของตัวเองในปี 2023

โครงการ Home Assistant บอกว่าที่ผ่านมาระบบสั่งงานด้วยเสียงมักต้องพึ่งพาเทคโนโลยีของบริษัทใหญ่ๆ เช่น Google Assistant หรือ Amazon Alexa ซึ่งข้อมูลต้องวิ่งผ่านคลาวด์ของบริษัทเหล่านี้ ในขณะที่ผู้ใช้เองมักใช้แค่สั่งงานเปิดไฟในบ้านเท่านั้น งานเหล่านี้สามารถประมวลผลได้ในบ้าน โดยไม่ต้องเสียความเป็นส่วนตัวไป

เขียนโปรแกรมแบบไม่ต้องแตะคีย์บอร์ด "Hey, GitHub" สั่งให้ GitHub เขียนโค้ดด้วยเสียงพูด

By mk

on 11 November 2022 - 20:04 Tag: GitHub, Artificial Intelligence, Programming, Voice Recognition

GitHub

GitHub เปิดตัวโปรเจคทดลอง “Hey, GitHub!” เป็นการสั่งงานด้วยเสียงคู่กับฟีเจอร์ Copilot ที่ใช้ AI ช่วยเขียนโปรแกรม ทำให้เราแทบไม่ต้องใช้คีย์บอร์ดในการเขียนโปรแกรมอีกเลย

ตัวอย่างการใช้งานเช่น พูดว่า "import Pandas" ก็จะเป็นการเขียนโค้ดที่นำเข้าไลบรารีวิเคราะห์ข้อมูล Pandas ของ Python ให้อัตโนมัติ (ดูตัวอย่างได้จากเว็บ GitHub Next)

ซัมซุงโชว์ฟีเจอร์ Bixby Text Call ถอดเสียงโทรศัพท์เป็นข้อความ พิมพ์ตอบแล้วอ่านกลับเป็นเสียง

By mk

on 15 October 2022 - 17:57 Tag: Bixby, Samsung, Text-to-Speech, Voice Recognition, One UI

Bixby

ซัมซุงโชว์ฟีเจอร์ใหม่ของรอม One UI 5.0 ที่จะออกตัวจริงในเร็วๆ นี้ ฟีเจอร์ที่ว่าคือ Bixby Text Call เป็นการใช้ผู้ช่วยอัจฉริยะ Bixby (ที่หลายคนลืมชื่อนี้ไปแล้ว) ช่วยคุยโทรศัพท์แทนเรา

หากมีคนโทรมา แล้วเราไม่สะดวกรับสาย เราสามารถกดเลือก Text Call แล้ว Bixby จะถอดเสียงพูดของคู่สายมาเป็นข้อความ ให้เราพิมพ์ตอบเป็นข้อความได้ จากนั้น Bixby จะอ่านออกเสียงให้คู่สนทนาฟังเอง

ซัมซุงบอกว่าฟีเจอร์นี้เหมาะกับสถานการณ์ที่ส่งเสียงได้ยาก เช่น ในรถบัสหรือรถไฟที่มีคนมากๆ หรือในงานคอนเสิร์ตที่เสียงดังมาก ตอนนี้ฟีเจอร์นี้ใช้งานได้แล้วในภาษาเกาหลี ส่วนภาษาอังกฤษจะตามมาในช่วงต้นปี 2023

JR East ติดตั้งระบบแสดงข้อความถอดคำพูดพร้อมแปลภาษาเจ้าหน้าที่ได้แบบเรียลไทม์

By ตะโร่งโต้ง

on 8 October 2022 - 13:06 Tag: Display, Translation, Japan, Voice Recognition, Kyocera

Display

JR East บริษัทเดินรถไฟโดยสารสายตะวันออกของญี่ปุ่นได้อุปกรณ์แสดงผล HUD (ย่อมาจาก Head-Up Display) บริเวณโต๊ะของเจ้าหน้าที่ผู้ให้บริการ โดยระบบจะถอดคำพูดเจ้าหน้าที่เป็นข้อความแสดงผลแบบเรียลไทม์และสามารถแปลข้อความจากภาษาญี่ปุ่นเป็นภาษาอังกฤษ, จีน หรือเกาหลีได้ด้วย

ระบบนี้พัฒนาโดย Kyocera อุปกรณ์ HUD ที่จะฉายภาพให้ปรากฎบนแผ่นกระจกกั้นหน้าโต๊ะปฏิบัติงานของเจ้าหน้าที่ ตัวมันมีช่องรับสัญญาณเสียงจากไมโครโฟนและช่องเชื่อมต่อกับอุปกรณ์ควบคุมอื่น (อาจเป็นแท็บเล็ตหรือแผงควบคุมที่มีปุ่มกดเพื่อใช้เลือกคำสั่งที่มีการตั้งโปรแกรมไว้ล่วงหน้าเป็นการเฉพาะ) ภายในมีระบบซอฟต์แวร์ถอดข้อความเสียงเป็นคำพูดและระบบแปลภาษา โดย Kyocera ระบุว่านอกเหนือจาก 3 ภาษาที่กล่าวไปข้างต้นแล้ว สามารถตั้งโปรแกรมเพิ่มเติมแปลเป็นภาษายูเครนและภาษาเวียตนามได้ด้วย

Amazon เปิดตัว Alexa Game Control สั่งงานเกมด้วยเสียงพูด ใช้เอนจินเดียวกับ Alexa

By mk

on 24 August 2022 - 19:31 Tag: Alexa, Games, Development, Amazon, Voice Recognition

Alexa

Amazon ประกาศฟีเจอร์ Alexa Game Control ที่ให้เราสั่งงานเกมด้วยเสียงได้ เช่น พูดว่า "swap to my best weapon" เพื่อเปลี่ยนมาสวมใส่อาวุธที่ดีที่สุดของตัวละครนั้น

ฟีเจอร์นี้ใช้เอนจินวิเคราะห์เสียงตัวเดียวกับ Alexa เป็นการทำงานที่ระดับซอฟต์แวร์ล้วนๆ ไม่จำเป็นต้องผ่านลำโพง Echo และไม่ต้องสั่งคำว่า Alexa นำหน้า แต่จำเป็นต้องต่อเน็ตตลอดเวลา และฝั่งนักพัฒนาเกมต้องรองรับด้วย โดย Amazon ระบุว่ามี SDK/plugin ให้กับเกมที่สร้างด้วย UE4, Unity และเอนจินอื่นที่เป็น C++ เบื้องต้นยังใช้ได้เฉพาะเกมพีซีและ Xbox เท่านั้น

PS5 เพิ่มฟีเจอร์สั่งงานด้วยเสียง Hey PlayStation

By mk

on 9 February 2022 - 06:53 Tag: PS5, PlayStation, Sony, Voice Recognition

PS5

โซนี่ออกเฟิร์มแวร์ใหม่ของทั้ง PS4 และ PS5 (สถานะยังเป็น Beta) ฟีเจอร์เด่นที่สุดคือ PS5 จะได้ฟีเจอร์ฟังคำสั่งเสียง Voice Command โดยสั่งว่า "Hey PlayStation" แล้วสั่งเปิดเกม แอพ ตั้งค่า ปรับระดับเสียง ฯลฯ ด้วยคำพูดได้ แบบเดียวกับที่เราคุ้นเคยใน virtual assistant ค่ายอื่นๆ

ฟีเจอร์ Hey PlayStation ยังใช้งานได้เฉพาะภาษาอังกฤษ และเปิดใช้กับบัญชีผู้เล่นในสหรัฐ-สหราชอาณาจักรเท่านั้น

ส่วนฟีเจอร์อื่นของเฟิร์มแวร์เวอร์ชันนี้เป็นการอัพเดตระบบปาร์ตี้, voice chat, Share Play, UI เป็นต้น

Windows 11 ย้ายไอคอน Widget ชิดซ้ายในทาสก์บาร์, เพิ่มฟีเจอร์ Voice Access สั่งงานด้วยเสียง

By mk

on 9 December 2021 - 09:07 Tag: Windows 11, Voice Recognition, Operating System, Microsoft

Windows 11

ไมโครซอฟท์ออก Windows 11 Insider Preview Build 22518 มีการเปลี่ยนแปลงในระดับ UI หลายอย่างดังนี้

ย้ายตำแหน่งปุ่ม Widgets มาไว้ด้านซ้ายสุดของทาสก์บาร์ (กรณีจัดไอคอนตรงกลาง) และเปลี่ยนเป็นไอคอนแสดงสภาพอากาศแทน (คล้ายกับของ Windows 10 ที่อยู่ชิดขวา)

SoundHound เตรียมเข้าตลาดหุ้นด้วยวิธี SPAC มูลค่ากิจการ 2.1 พันล้านดอลลาร์

By arjin

on 20 November 2021 - 23:24 Tag: SoundHound, SPAC, Voice Recognition

SoundHound

SoundHound แพลตฟอร์มสั่งงานด้วยเสียง ประกาศเตรียมนำบริษัทเข้าตลาดหุ้น Nasdaq ด้วยวิธีการ SPAC ใช้ชื่อย่อในการซื้อขาย SOUN โดยบริษัทที่จะเข้ามาซื้อกิจการคือ Archimedes ซึ่งจะทำให้ SoundHound ได้เงินเพิ่ม 244 ล้านดอลลาร์ ผ่านการขายหุ้นเพิ่มทุนแบบเฉพาะเจาะจง 111 ล้านดอลลาร์ และอีก 133 ล้านดอลลาร์จากบริษัท Archimedes เอง มูลค่ากิจการของ SoundHound จากดีลนี้อยู่ที่ราว 2.1 พันล้านดอลลาร์

รายชื่อผู้ลงทุนในรอบเพิ่มทุนแบบเฉพาะเจาะจงได้แก่ Oracle, Koch Industries และ MKaNN Ventures

เมนูกี่ชั้นก่อนเจอคนก็ไม่หวั่น Pixel 6 ฟังเสียงเบอร์อัตโนมัติ แปลงเป็นข้อความ-ปุ่มบนจอ

By mk

on 20 October 2021 - 14:32 Tag: Google Pixel 6, Artificial Intelligence, Voice Recognition

Google Pixel 6

นอกจากฟีเจอร์ด้านกล้องและการแปลภาษาพูดแบบเรียลไทม์แล้ว กูเกิลยังโชว์ฟีเจอร์ใหม่ของ Pixel 6 อีกอย่างคือ Direct My Call ที่ช่วยให้การติดต่อคอลล์เซ็นเตอร์เสียงอัตโนมัติง่ายขึ้น

คนที่เคยโทรไปคอลล์เซ็นเตอร์คงคุ้นเคยกับการฟัง "กด 1 เพื่อฟังข้อมูล กด 2 เพื่อแจ้งปัญหา" ที่ต้องใช้เวลาฟังนาน ถือสายนาน กว่าจะเจอเมนูที่ต้องการ

ฟีเจอร์ Direct My Call ใช้เทคโนโลยี Google Duplex ตัวเดียวกับที่เคยโชว์คุยโทรศัพท์แทนคน มาฟังเสียงพูดจากปลายทาง แล้วถอดเป็นข้อความแสดงขึ้นบนจอ พร้อมขึ้นปุ่มกดจริงๆ เป็นเลข 1-2-3 ให้ด้วยเลย

Unity ซื้อบริษัท OTO ใช้ AI วิเคราะห์น้ำเสียงใน Voice Chat แก้ปัญหา Toxic ในหมู่เกมเมอร์

By mk

on 24 August 2021 - 22:19 Tag: Unity, Acquisition, Voice Recognition

Unity

Unity ยังเดินหน้าซื้อกิจการอย่างต่อเนื่อง หลังซื้อซอฟต์แวร์สร้างต้นไม้ SpeedTree และรีโมทเดสก์ท็อป Parsec ล่าสุดประกาศซื้อ OTO บริษัทวิเคราะห์เสียงคุยแชทด้วย AI เพื่อแก้ปัญหาการกลั่นแกล้ง ดูถูกเหยียดหยามในหมู่เกมเมอร์

[ลือ] Microsoft เตรียมซื้อกิจการ Nuance ที่มูลค่า 16,000 ล้านดอลลาร์

By arjin

on 12 April 2021 - 06:46 Tag: Nuance, Microsoft, Voice Recognition, Acquisition, Rumors

Nuance

มีรายงานว่าไมโครซอฟท์ใกล้ปิดการเจรจา เพื่อเข้าซื้อกิจการทั้งหมดของ Nuance หรือ Nuance Communications บริษัทผู้พัฒนาซอฟต์แวร์สั่งงานด้วยเสียง ด้วยมูลค่าดีล 16,000 ล้านดอลลาร์ ซึ่งดีลอาจประกาศเป็นทางการภายในวันนี้

ทั้งนี้ Nuance เป็นบริษัทอยู่ในตลาดหุ้น และราคาที่มีรายงานว่าไมโครซอฟท์เสนอซื้อคือ 56 ดอลลาร์ต่อหุ้น จึงเป็นที่มาของตัวเลข 16,000 ล้านดอลลาร์นั่นเอง

Nuance เป็นผู้พัฒนาซอฟต์แวร์สั่งงานด้วยเสียง ซึ่งมีส่วนร่วมสนับสนุนเทคโนโลยีใน Siri ช่วงเปิดตัว ขณะที่บริการสั่งงานด้วยเสียงของบริษัทมีฐานลูกค้าในหลายอุตสาหกรรมตั้งแต่กลุ่มสุขภาพ ไปจนถึงยานยนต์

Siri เลิกตั้งค่าเสียงผู้หญิงเป็นดีฟอลต์ ให้ผู้ใช้เป็นฝ่ายเลือกเอง, เพิ่มเสียงใหม่อีก 2 เสียง

By mk

on 1 April 2021 - 22:23 Tag: Siri, Apple, Voice Recognition, Gender

Siri

แอปเปิลประกาศการเปลี่ยนแปลงสำคัญของ Siri ใน iOS 14.5 (ปัจจุบันยังเป็น Beta) นั่นคือสำหรับภาษาที่เป็น English (United States) จะไม่เลือกเสียงผู้หญิงให้เป็นค่าดีฟอลต์แล้ว ผู้ใช้จะต้องเป็นฝ่ายกำหนดเองว่าจะเลือกเสียงแบบไหน

ปัจจุบัน Siri ในภาษา English (United States) มีให้เลือกสองเสียงคือ Male และ Female แต่การเลือก Female เป็นดีฟอลต์อาจชี้นำเรื่องเพศ (gender bias) ได้ แอปเปิลจึงเปลี่ยนวิธีมาให้ผู้ใช้เลือกเอง เพื่อสะท้อนมุมมองเรื่องความหลากหลาย (diversity) ของแอปเปิล

Subscribe to Voice Recognition