By arjin Writer on Tag: Apple, WWDC26, Siri, Voice Recognition
Apple

มีประเด็นเล็ก ๆ ที่น่าสนใจจากงาน WWDC 2026 ของแอปเปิลเมื่อสัปดาห์ที่ผ่านมา เนื่องจากแอปเปิลต้องสาธิตความสามารถของ Siri ในคีย์โน้ตด้วยการออกเสียง "Siri" หรือ "Hey Siri" แต่การส่งเสียงนี้กลับไม่ทำให้อุปกรณ์ iPhone หรืออื่น ๆ ของคนดูถูกทริกให้ตอบสนองการทำงานด้วย

ผู้ใช้งาน X @luuk58 บอกเขาค้นพบความลับนี้ด้วยการนำเสียงมาวิเคราะห์ความถี่ พบว่าแอปเปิลได้ตัดย่านความถี่ช่วง 3kHz, 4kHz, 5kHz และ 6kHz ออกไปในช่วงที่มีการกล่าวคำว่า Siri ซึ่งการทำเช่นนี้จะช่วยลดโอกาสที่ Siri ของคนดูถูกเรียกให้ทำงานได้

By arjin Writer on Tag: OpenAI, Artificial Intelligence, Rumors, Voice Recognition
OpenAI

ข่าว AI ต้อนรับปี 2026 เป็นรายงานจาก The Information อ้างแหล่งข่าวใน OpenAI พูดถึงแผนการปรับปรุงโมเดล AI เสียง ว่าในช่วง 2 เดือนที่ผ่านมา บริษัทได้ตั้งทีมงานซึ่งรวมฝ่ายวิศวกรรม ผลิตภัณฑ์ และฝ่ายวิจัย เพื่อยกเครื่องโมเดล AI เสียงใหม่ให้ทำงานดีมากขึ้น

By lew Founder on Tag: FFmpeg, OpenAI, Voice Recognition
FFmpeg

FFmpeg โครงการโปรแกรมแปลงไฟล์เสียงและวิดีโอ เพิ่มโค้ด Whisper โมเดลปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech to text) เข้ามาในตัว ทำให้เวอร์ชั่นต่อไปสามารถแปลงเสียงเป็นข้อความได้ในตัว

ตัว FFmpeg สามารถแปลงเสียงให้เป็นข้อความเปล่าๆ, แปลงเป็นไฟล์ srt สำหรับทำ subtitle, หรือเป็น json สำหรับประมวลผลอื่นๆ ต่อ

ตอนนี้สถานะของฟีเจอร์นี้โค้ดอยู่ใน git สำหรับเวอร์ชั่น 8.0 ต้องรอดูว่าไบนารีมาตรฐานจะเปิดฟีเจอร์นี้เป็นมาตรฐานหรือไม่

By mk Founder on Tag: Microsoft Word, Microsoft Copilot, Microsoft, Voice Recognition
Microsoft Word

แอพ Microsoft Word บนมือถือ (ตอนนี้ใช้ได้เฉพาะบน iOS) เพิ่มฟีเจอร์ใช้ Copilot ช่วยแปลงเสียงพูดมาเป็นเอกสาร Word แบบมีโครงสร้างหัวข้อ (structured document) ได้ทันที

ฟีเจอร์นี้ต่างจากการใช้ระบบพิมพ์ด้วยเสียงที่เราคุ้นเคยกัน พิมพ์ข้อความต่อเนื่องตามเสียงพูด แต่เคสนี้ Copilot สามารถแปลงเสียงเป็น Document (เอกสารที่มีหัวข้อและโครงสร้าง), Notes (เอกสารแบบมีย่อหน้า) และ Email (เอกสารสำหรับส่งอีเมล มีคำลงท้ายผู้ส่ง) ให้ได้เลย

ฟีเจอร์นี้ยังรองรับเฉพาะบางภาษา (ไม่มีไทย) และต้องมีไลเซนส์ Microsoft 365 Copilot แบบเสียเงินด้วย

By arjin Writer on Tag: India, Voice Recognition, Artificial Intelligence
India

Teleperformance บริษัทให้บริการคอลเซนเตอร์รายใหญ่ของโลก ซึ่งมีพนักงานเกือบแสนคนในอินเดีย เปิดเผยว่าบริษัทได้นำซอฟต์แวร์ AI ที่แปลงเสียงเจ้าหน้าที่ผู้พูดทางโทรศัพท์แบบเรียลไทม์ ให้การสนทนากับปลายสายมีความเข้าอกเข้าใจดีมากขึ้น

ซอฟต์แวร์ดังกล่าวพัฒนาโดยบริษัท Sanas ซึ่ง Teleperformance เป็นผู้ร่วมลงทุน ระบุว่าสามารถแปลงเสียงพูดให้มีสำเนียงภาษาอังกฤษตามที่ต้องการได้ในทันที ช่วยให้ลูกค้าที่ติดต่อเข้ามาผ่านบริการของ Teleperformance ซึ่งมักเป็นมาจากฝั่งตะวันตกเช่น อเมริกาหรือสหราชอาณาจักร ได้รับการสนทนาเสียงด้วยสำเนียงที่ใกล้เคียงกันมากขึ้น

By mk Founder on Tag: Call of Duty, Voice Recognition, Games, Activision, Hate Speech
Call of Duty

Activision เปิดเผยว่าเกม Call of Duty: Modern Warfare III เริ่มนำเทคโนโลยีดักจับเสียง เพื่อแก้ปัญหาพฤติกรรมแย่ๆ (toxic) ของผู้เล่นมัลติเพลเยอร์ ซึ่งเป็นปัญหาเรื้อรังของซีรีส์ Call of Duty มายาวนาน (จริงๆ ก็เกิดขึ้นกับเกมยิงทุกค่าย) และ Activision ตั้งทีมชื่อ Disruptive Behavior มาเพื่อแก้ปัญหาเหล่านี้โดยเฉพาะ

By mk Founder on Tag: Volkswagen, ChatGPT, Voice Recognition
Volkswagen

Volkswagen เริ่มปล่อยอัพเดตฟีเจอร์ ChatGPT เข้าไปใส่ในรถยนต์ของตัวเอง หลังจากประกาศข่าวไว้ในงาน CES 2024 เมื่อต้นปีนี้

รถยนต์รุ่นใหม่ๆ ของ Volkswagen มีผู้ช่วยที่สั่งงานผ่านเสียง IDA voice assistant อยู่ก่อนแล้ว (กดปุ่มเรียกได้จากพวงมาลัย หรือพูดว่า "Hello IDA" หรือ “Hello Volkswagen”) การเพิ่ม ChatGPT เข้ามาจะช่วยให้การพูดคุยโต้ตอบเป็นธรรมชาติ เข้าใจภาษามนุษย์มากขึ้น

By mk Founder on Tag: MKBHD, Google Assistant, Siri, Bixby, Alexa, Voice Recognition
MKBHD

Marques Brownlee หรือ MKBHD ยูทูบเบอร์คนดัง รีวิวแอพผู้ช่วยส่วนตัวผ่านการสั่งงานด้วยเสียง (voice assistant) บนสมาร์ทโฟน 4 ตัวคือ Google Assistant, Siri, Bixby, Alexa เปรียบเทียบกันอีกครั้งในเวอร์ชันปลายปี 2022 ผลคือ Google Assistant ยังเป็นอันดับหนึ่งเช่นเดิม

By mk Founder on Tag: Home Assistant, Open Source, Voice Recognition, Smart Home
Home Assistant

Home Assistant โครงการโอเพนซอร์สระบบสั่งงานบ้านอัตโนมัติชื่อดัง ประกาศเริ่มทำฟีเจอร์สั่งงานด้วยเสียงของตัวเองในปี 2023

โครงการ Home Assistant บอกว่าที่ผ่านมาระบบสั่งงานด้วยเสียงมักต้องพึ่งพาเทคโนโลยีของบริษัทใหญ่ๆ เช่น Google Assistant หรือ Amazon Alexa ซึ่งข้อมูลต้องวิ่งผ่านคลาวด์ของบริษัทเหล่านี้ ในขณะที่ผู้ใช้เองมักใช้แค่สั่งงานเปิดไฟในบ้านเท่านั้น งานเหล่านี้สามารถประมวลผลได้ในบ้าน โดยไม่ต้องเสียความเป็นส่วนตัวไป

By mk Founder on Tag: GitHub, Artificial Intelligence, Programming, Voice Recognition
GitHub

GitHub เปิดตัวโปรเจคทดลอง “Hey, GitHub!” เป็นการสั่งงานด้วยเสียงคู่กับฟีเจอร์ Copilot ที่ใช้ AI ช่วยเขียนโปรแกรม ทำให้เราแทบไม่ต้องใช้คีย์บอร์ดในการเขียนโปรแกรมอีกเลย

ตัวอย่างการใช้งานเช่น พูดว่า "import Pandas" ก็จะเป็นการเขียนโค้ดที่นำเข้าไลบรารีวิเคราะห์ข้อมูล Pandas ของ Python ให้อัตโนมัติ (ดูตัวอย่างได้จากเว็บ GitHub Next)

By mk Founder on Tag: Bixby, Samsung, Text-to-Speech, Voice Recognition, One UI
Bixby

ซัมซุงโชว์ฟีเจอร์ใหม่ของรอม One UI 5.0 ที่จะออกตัวจริงในเร็วๆ นี้ ฟีเจอร์ที่ว่าคือ Bixby Text Call เป็นการใช้ผู้ช่วยอัจฉริยะ Bixby (ที่หลายคนลืมชื่อนี้ไปแล้ว) ช่วยคุยโทรศัพท์แทนเรา

หากมีคนโทรมา แล้วเราไม่สะดวกรับสาย เราสามารถกดเลือก Text Call แล้ว Bixby จะถอดเสียงพูดของคู่สายมาเป็นข้อความ ให้เราพิมพ์ตอบเป็นข้อความได้ จากนั้น Bixby จะอ่านออกเสียงให้คู่สนทนาฟังเอง

ซัมซุงบอกว่าฟีเจอร์นี้เหมาะกับสถานการณ์ที่ส่งเสียงได้ยาก เช่น ในรถบัสหรือรถไฟที่มีคนมากๆ หรือในงานคอนเสิร์ตที่เสียงดังมาก ตอนนี้ฟีเจอร์นี้ใช้งานได้แล้วในภาษาเกาหลี ส่วนภาษาอังกฤษจะตามมาในช่วงต้นปี 2023

Display

JR East บริษัทเดินรถไฟโดยสารสายตะวันออกของญี่ปุ่นได้อุปกรณ์แสดงผล HUD (ย่อมาจาก Head-Up Display) บริเวณโต๊ะของเจ้าหน้าที่ผู้ให้บริการ โดยระบบจะถอดคำพูดเจ้าหน้าที่เป็นข้อความแสดงผลแบบเรียลไทม์และสามารถแปลข้อความจากภาษาญี่ปุ่นเป็นภาษาอังกฤษ, จีน หรือเกาหลีได้ด้วย

ระบบนี้พัฒนาโดย Kyocera อุปกรณ์ HUD ที่จะฉายภาพให้ปรากฎบนแผ่นกระจกกั้นหน้าโต๊ะปฏิบัติงานของเจ้าหน้าที่ ตัวมันมีช่องรับสัญญาณเสียงจากไมโครโฟนและช่องเชื่อมต่อกับอุปกรณ์ควบคุมอื่น (อาจเป็นแท็บเล็ตหรือแผงควบคุมที่มีปุ่มกดเพื่อใช้เลือกคำสั่งที่มีการตั้งโปรแกรมไว้ล่วงหน้าเป็นการเฉพาะ) ภายในมีระบบซอฟต์แวร์ถอดข้อความเสียงเป็นคำพูดและระบบแปลภาษา โดย Kyocera ระบุว่านอกเหนือจาก 3 ภาษาที่กล่าวไปข้างต้นแล้ว สามารถตั้งโปรแกรมเพิ่มเติมแปลเป็นภาษายูเครนและภาษาเวียตนามได้ด้วย

By mk Founder on Tag: Alexa, Games, Development, Amazon, Voice Recognition
Alexa

Amazon ประกาศฟีเจอร์ Alexa Game Control ที่ให้เราสั่งงานเกมด้วยเสียงได้ เช่น พูดว่า "swap to my best weapon" เพื่อเปลี่ยนมาสวมใส่อาวุธที่ดีที่สุดของตัวละครนั้น

ฟีเจอร์นี้ใช้เอนจินวิเคราะห์เสียงตัวเดียวกับ Alexa เป็นการทำงานที่ระดับซอฟต์แวร์ล้วนๆ ไม่จำเป็นต้องผ่านลำโพง Echo และไม่ต้องสั่งคำว่า Alexa นำหน้า แต่จำเป็นต้องต่อเน็ตตลอดเวลา และฝั่งนักพัฒนาเกมต้องรองรับด้วย โดย Amazon ระบุว่ามี SDK/plugin ให้กับเกมที่สร้างด้วย UE4, Unity และเอนจินอื่นที่เป็น C++ เบื้องต้นยังใช้ได้เฉพาะเกมพีซีและ Xbox เท่านั้น

By mk Founder on Tag: PS5, PlayStation, Sony, Voice Recognition
PS5

โซนี่ออกเฟิร์มแวร์ใหม่ของทั้ง PS4 และ PS5 (สถานะยังเป็น Beta) ฟีเจอร์เด่นที่สุดคือ PS5 จะได้ฟีเจอร์ฟังคำสั่งเสียง Voice Command โดยสั่งว่า "Hey PlayStation" แล้วสั่งเปิดเกม แอพ ตั้งค่า ปรับระดับเสียง ฯลฯ ด้วยคำพูดได้ แบบเดียวกับที่เราคุ้นเคยใน virtual assistant ค่ายอื่นๆ

ฟีเจอร์ Hey PlayStation ยังใช้งานได้เฉพาะภาษาอังกฤษ และเปิดใช้กับบัญชีผู้เล่นในสหรัฐ-สหราชอาณาจักรเท่านั้น

ส่วนฟีเจอร์อื่นของเฟิร์มแวร์เวอร์ชันนี้เป็นการอัพเดตระบบปาร์ตี้, voice chat, Share Play, UI เป็นต้น

By mk Founder on Tag: Windows 11, Voice Recognition, Operating System, Microsoft
Windows 11

ไมโครซอฟท์ออก Windows 11 Insider Preview Build 22518 มีการเปลี่ยนแปลงในระดับ UI หลายอย่างดังนี้

ย้ายตำแหน่งปุ่ม Widgets มาไว้ด้านซ้ายสุดของทาสก์บาร์ (กรณีจัดไอคอนตรงกลาง) และเปลี่ยนเป็นไอคอนแสดงสภาพอากาศแทน (คล้ายกับของ Windows 10 ที่อยู่ชิดขวา)

By arjin Writer on Tag: SoundHound, SPAC, Voice Recognition
SoundHound

SoundHound แพลตฟอร์มสั่งงานด้วยเสียง ประกาศเตรียมนำบริษัทเข้าตลาดหุ้น Nasdaq ด้วยวิธีการ SPAC ใช้ชื่อย่อในการซื้อขาย SOUN โดยบริษัทที่จะเข้ามาซื้อกิจการคือ Archimedes ซึ่งจะทำให้ SoundHound ได้เงินเพิ่ม 244 ล้านดอลลาร์ ผ่านการขายหุ้นเพิ่มทุนแบบเฉพาะเจาะจง 111 ล้านดอลลาร์ และอีก 133 ล้านดอลลาร์จากบริษัท Archimedes เอง มูลค่ากิจการของ SoundHound จากดีลนี้อยู่ที่ราว 2.1 พันล้านดอลลาร์

รายชื่อผู้ลงทุนในรอบเพิ่มทุนแบบเฉพาะเจาะจงได้แก่ Oracle, Koch Industries และ MKaNN Ventures

By mk Founder on Tag: Google Pixel 6, Artificial Intelligence, Voice Recognition
Google Pixel 6

นอกจากฟีเจอร์ด้านกล้องและการแปลภาษาพูดแบบเรียลไทม์แล้ว กูเกิลยังโชว์ฟีเจอร์ใหม่ของ Pixel 6 อีกอย่างคือ Direct My Call ที่ช่วยให้การติดต่อคอลล์เซ็นเตอร์เสียงอัตโนมัติง่ายขึ้น

คนที่เคยโทรไปคอลล์เซ็นเตอร์คงคุ้นเคยกับการฟัง "กด 1 เพื่อฟังข้อมูล กด 2 เพื่อแจ้งปัญหา" ที่ต้องใช้เวลาฟังนาน ถือสายนาน กว่าจะเจอเมนูที่ต้องการ

ฟีเจอร์ Direct My Call ใช้เทคโนโลยี Google Duplex ตัวเดียวกับที่เคยโชว์คุยโทรศัพท์แทนคน มาฟังเสียงพูดจากปลายทาง แล้วถอดเป็นข้อความแสดงขึ้นบนจอ พร้อมขึ้นปุ่มกดจริงๆ เป็นเลข 1-2-3 ให้ด้วยเลย

By mk Founder on Tag: Unity, Acquisition, Voice Recognition
Unity

Unity ยังเดินหน้าซื้อกิจการอย่างต่อเนื่อง หลังซื้อซอฟต์แวร์สร้างต้นไม้ SpeedTree และรีโมทเดสก์ท็อป Parsec ล่าสุดประกาศซื้อ OTO บริษัทวิเคราะห์เสียงคุยแชทด้วย AI เพื่อแก้ปัญหาการกลั่นแกล้ง ดูถูกเหยียดหยามในหมู่เกมเมอร์

By arjin Writer on Tag: Nuance, Microsoft, Voice Recognition, Acquisition, Rumors
Nuance

มีรายงานว่าไมโครซอฟท์ใกล้ปิดการเจรจา เพื่อเข้าซื้อกิจการทั้งหมดของ Nuance หรือ Nuance Communications บริษัทผู้พัฒนาซอฟต์แวร์สั่งงานด้วยเสียง ด้วยมูลค่าดีล 16,000 ล้านดอลลาร์ ซึ่งดีลอาจประกาศเป็นทางการภายในวันนี้

ทั้งนี้ Nuance เป็นบริษัทอยู่ในตลาดหุ้น และราคาที่มีรายงานว่าไมโครซอฟท์เสนอซื้อคือ 56 ดอลลาร์ต่อหุ้น จึงเป็นที่มาของตัวเลข 16,000 ล้านดอลลาร์นั่นเอง

Nuance เป็นผู้พัฒนาซอฟต์แวร์สั่งงานด้วยเสียง ซึ่งมีส่วนร่วมสนับสนุนเทคโนโลยีใน Siri ช่วงเปิดตัว ขณะที่บริการสั่งงานด้วยเสียงของบริษัทมีฐานลูกค้าในหลายอุตสาหกรรมตั้งแต่กลุ่มสุขภาพ ไปจนถึงยานยนต์

By mk Founder on Tag: Siri, Apple, Voice Recognition, Gender
Siri

แอปเปิลประกาศการเปลี่ยนแปลงสำคัญของ Siri ใน iOS 14.5 (ปัจจุบันยังเป็น Beta) นั่นคือสำหรับภาษาที่เป็น English (United States) จะไม่เลือกเสียงผู้หญิงให้เป็นค่าดีฟอลต์แล้ว ผู้ใช้จะต้องเป็นฝ่ายกำหนดเองว่าจะเลือกเสียงแบบไหน

ปัจจุบัน Siri ในภาษา English (United States) มีให้เลือกสองเสียงคือ Male และ Female แต่การเลือก Female เป็นดีฟอลต์อาจชี้นำเรื่องเพศ (gender bias) ได้ แอปเปิลจึงเปลี่ยนวิธีมาให้ผู้ใช้เลือกเอง เพื่อสะท้อนมุมมองเรื่องความหลากหลาย (diversity) ของแอปเปิล

Subscribe to Voice Recognition