Tal Ater นักวิจัยด้านความปลอดภัยจากอิสราเอล เปิดเผยบั๊กของ Chrome ที่เปิดช่องให้เว็บไซต์มาสามารถรับคำสั่งเสียงจากผู้ใช้งานได้ โดยที่ผู้ใช้ไม่รู้ตัวว่าถูกอัดเสียงอยู่
Chrome รุ่นใหม่ๆ มีฟีเจอร์ที่ผู้ใช้สามารถสั่งงานด้วยเสียงไปยังเว็บไซต์ได้ (เสียงจะถูกส่งไปยังกูเกิลเพื่อแปลงเป็นข้อความ) โดยผู้ใช้ต้องกดอนุญาตให้สิทธิกับเว็บไซต์นั้นๆ เข้าถึงไมโครโฟนก่อน และทุกครั้งที่เว็บไซต์ฟังเสียงของเรา Chrome จะแสดงไอคอนปุ่มสีแดงบนแท็บของเว็บไซต์นั้นๆ
MSFTNerd เผยข้อมูลของ Cortana หรือ Siri เวอร์ชันไมโครซอฟท์บน Windows Phone Blue ดังนี้
Nuance บริษัทแม่ของ Swype คีย์บอร์ดนิ้วลากยอดนิยม สาธิตการทำงานของ Swype เวอร์ชันสำหรับอุปกรณ์ที่หน้าจอขนาดเล็กมากๆ อย่างนาฬิกา
Swype เวอร์ชันนาฬิกายังใช้หลักการทำงานลากนิ้วบนปุ่มคีย์บอร์ด (ที่ลดขนาดลงจนเหลือเล็กมากๆ) เช่นเดียวกับรุ่นปกติ ซึ่งตัวแทนของ Swype ก็บอกว่ามันใช้ยากกว่าบนจอใหญ่แน่นอน แต่ก็ยังใช้ได้ และควรใช้ในกรณีที่ไม่ต้องการสั่งงานนาฬิกาด้วยเสียง เช่น ในห้องเงียบๆ หรือต้องการกรอกข้อความที่เป็นความลับ เป็นต้น
ในงานเดียวกัน Nuance ยังสาธิตซอฟต์แวร์ Dragon Mobile Assistant บนอุปกรณ์ไอทีประเภทสวมใส่ได้ โดย Dragon Mobile Assistant จะรองรับการสั่งงานด้วยเสียงสนทนา และการแสดงข้อมูลที่สำคัญบนหน้าจอ (ลักษณะเดียวกับ Google Now)
อินเทลเริ่มบุกตลาด perceptual computing หรือรูปแบบการสั่งงาน-ควบคุมคอมพิวเตอร์ด้วยวิธีการใหม่ๆ เช่น การดักจับความเคลื่อนไหวของมือและใบหน้า การสั่งงานด้วยเสียง (แนวเดียวกับ Kinect) มาได้สักพักใหญ่ๆ แล้ว (ข่าวเก่าปี 2012)
วันนี้ที่งาน CES 2014 อินเทลก็ได้ฤกษ์เปิดตัวแพลตฟอร์มด้าน perceptual computing ของตัวเองอย่างเป็นทางการในชื่อแบรนด์ Intel RealSense
Intel RealSense 3D camera
RealSense ประกอบด้วยผลิตภัณฑ์หลายด้าน แต่ผลิตภัณฑ์แรกที่อินเทลส่งเข้าตลาดคือกล้อง Intel RealSense 3D ซึ่งเป็นกล้องที่วัดระยะความลึกเหมือน Kinect แต่ขนาดเล็กพอที่จะฝังในคอมพิวเตอร์และอุปกรณ์พกพาได้
ZTE ใช้เวทีงาน CES 2014 เปิดตัวมือถือเรือธงประจำปี ZTE Grand S II (Grand S ตัวแรกก็เปิดตัวที่งาน CES ปีที่แล้ว)
สเปกพื้นฐานคือหน้าจอ 5.5" 1080p, Snapdragon 2.3GHz, กล้อง 13MP/2MP, ความจุ 16GB, แบตเตอรี่เยอะถึง 3,000 mAh, Android 4.3
แต่จุดเด่นของ Grand S II กลับอยู่ที่ฟีเจอร์ด้านเสียงที่จัดเต็มครับ
ยังไม่ทันขึ้นปี 2014 ดีแต่ซัมซุงก็เป็นเสือปืนไวออกมาประกาศฟีเจอร์ของ Smart TV ปี 2014 ที่จะเปิดตัวในงาน CES 2014 ช่วงต้นปีหน้า (ยังไม่บอกว่า Smart TV ปีเก่าๆ จะได้อัพเกรดความสามารถด้วยหรือไม่)
The Verge รายงานข่าวลือวงในของ Windows Phone 8.1 หรือรหัสเดิม Windows Phone Blue
กูเกิลโชว์ความสามารถนี้ไว้ตั้งแต่งาน Google I/O เมื่อกลางปี แล้วก็เปิดให้ใช้งาน Google Search ด้วยเสียงพูดบนคอมพิวเตอร์ (แต่ต้องคลิกเมาส์เพื่อกดปุ่มไมโครโฟนก่อนพูด ยังไม่สามารถสั่งงานด้วยเสียงแบบไม่ต้องกดปุ่มได้)
เมื่อไม่กี่วันมานี้ Chrome OS รุ่นสำหรับนักพัฒนาได้ฟีเจอร์สั่งงานด้วยเสียงโดยตรง และวันนี้ฟีเจอร์นี้มาถึง Chrome รุ่นปกติผ่านส่วนเสริมของโปรแกรมแล้ว
ข่าวสั้นๆ เกี่ยวกับ Xbox One ครับ Microsoft ได้แปะภาพที่บอกรายการคำสั่งด้วยเสียง (Voice Command) ทั้งหมดที่เราสามารถสั่งได้กับ Xbox One ลงบน Tumblr ของ Xbox แล้ว สามารถกดเข้าไปดูรายละเอียดได้ครับ เยอะจริงๆ
รายการคำสั่งทั้งหมดมีมากกว่า 30 คำสั่ง ทั้งสั่งเปิด/ปิดเครื่อง, สั่ง Call Skype, สั่งเปิดเกม เปิดเพลง เปิดภาพยนตร์, เปิดดูเคเบิ้ลทีวี, อัดภาพเกมที่เราเล่น, และแม้กระทั่งการสั่งเร่ง/ลดเสียงโทรทัศน์!
สำหรับใครที่มีปัญหาสั่งด้วยเสียงแล้วไม่ติด Microsoft แนะนำให้ทำการ calibrate ก่อน ซึ่งรายละเอียดอยู่ในรูปเช่นกันครับ
ใน Android 4.4 KitKat ได้เพิ่มวิธีที่ทำให้การค้นหาสามารถทำได้ง่ายขึ้นด้วยการพูดว่า "OK Google" ตามด้วยข้อความที่จะค้นหาในทันที และในตอนนี้ฟีเจอร์เดียวกันได้วิ่งไปหาผลิตภัณฑ์อีกตัวของกูเกิลอย่าง Chrome OS เป็นที่เรียบร้อยแล้วครับ
โดยผู้ใช้ที่รัน Chrome OS รุ่นนักพัฒนาอยู่สามารถไปเปิดฟีเจอร์ค้นหาด้วย OK Google ผ่าน chrome://flags/#enable-app-launcher-start-page ก็จะสามารถใช้งานได้แล้ว
นอกจากการค้นหาแล้ว Chrome OS สามารถทำงานได้เทียบเท่ากับเวอร์ชัน Android ด้วยการใช้เปิดแอพในเครือกูเกิลอย่าง Gmail หรือ Hangouts ก็ได้เช่นกัน
ที่มา - +François Beaufort
กูเกิลอัพเดตแอพ Google Now บน Android ใหม่ โดยมีฟีเจอร์ที่ไม่ได้ประกาศอย่างเป็นทางการคือมันสามารถคุยโต้ตอบกับผู้ใช้ในลักษณะเดียวกับ Siri ของแอปเปิลแล้ว (ดูวิดีโอประกอบ)
ความสามารถด้านการพูดคุยด้วยเสียงของ Google Now ยังไม่สมบูรณ์มากนัก และยังไม่ครอบคลุมทุกสถานการณ์ จากการทดสอบของ Ars Technica พบว่ามันจะคุยกับเราในกรณีที่เราสั่งงานไม่ครบถ้วนเท่านั้น
ส่วนฟีเจอร์ใหม่ของ Google Now ที่กูเกิลประกาศคือเพิ่ม card ข้อมูลใหม่ๆ อีก 3 ประเภทคือ แสดงข่าวอัพเดตล่าสุดของเว็บไซต์ฮิตๆ บางเว็บ (Blognone ยังไม่มีนะฮะ), แสดงข่าวสารอัพเดตของหัวข้อที่เราสนใจ และแนะนำรายการทีวีที่เราน่าจะสนใจเมื่อเราอยู่ที่บ้าน
นอกจากนี้ Google Now ยังสามารถดูปัญหาสภาพจราจร (โดยใช้ข้อมูลจาก Waze) และแจ้งข้อมูลผลกีฬารักบี้เพิ่มเข้ามาอีกหนึ่งอย่าง
ที่มา - Ars Technica, +Android
ช่วงหลังมานี้บริการผู้ช่วยส่วนตัวบนอุปกรณ์พกพาเริ่มได้รับความสนใจจากฝั่งผู้ผลิตมากขึ้นเรื่อยๆ แต่ละค่ายที่พัฒนาระบบปฏิบัติการเองอย่างกูเกิล และแอปเปิลต่างก็มีบริการคล้ายๆ กันอยู่ (รวมถึงไมโครซอฟท์ที่มีข่าวว่ากำลังทำอยู่ด้วย) แต่ส่วนมากเป็นระบบปิดที่ใช้งานระบบของตัวเองเท่านั้น เพิ่งจะมี DoCoMo ผู้ให้บริการเครือข่ายมือถือรายใหญ่ของญี่ปุ่นที่แหวกแนวด้วยการออกมาเปิด API ให้นักพัฒนาภายนอกสามารถพัฒนาบริการมาใช้ร่วมกับบริการผู้ช่วยส่วนตัวของ DoCoMo ได้ด้วย
บริการที่ว่าของ DoCoMo ชื่อว่า Shabette Concier พูดง่ายๆ คือเป็น Siri เวอร์ชันภาษาญี่ปุ่น เปิดตัวมาตั้งแต่ช่วงต้นปี 2012 แล้ว และเพิ่งประกาศขยายบริการว่าจะเปิด API ให้นักพัฒนาภายนอกมาใช้งานร่วมกับ Shabette Concier ได้ด้วย
ข่าวสั้นของ Kinect ครับ ผู้บริหารไมโครซอฟท์ Phil Harrison ไปพูดที่งาน Eurogamer Expo และให้ข้อมูลว่าเซ็นเซอร์ Kinect รุ่นใหม่ที่มาพร้อมกับ Xbox One จะเพิ่มความสามารถด้านการแยกแยะเสียงพูดจากรุ่นเดิม โดยของใหม่นี้สามารถแยกแยะเสียงจากผู้เล่น 2 คนที่พูดพร้อมๆ กันได้
นอกจากนี้ Kinect ยังแยกแยะการขยับของ "ปาก" ของผู้เล่นได้, ตรวจจับความเคลื่อนไหวของผู้เล่นได้ 6 คนพร้อมกัน (นับเป็นความเคลื่อนไหวของข้อต่อได้สูงสุด 25 จุด), ประเมินอัตราการเต้นของหัวใจ และตรวจสอบรูปร่างของใบหน้าได้สูงสุด 1,400 จุด
ที่มา - Polygon
ZDNet เผยข้อมูลของ "Cortana" ระบบผู้ช่วยส่วนตัวของไมโครซอฟท์บน Windows Phone รุ่นหน้ารหัส Blue ซึ่งอธิบายง่ายๆ ว่ามันคือคู่แข่งของ Apple Siri และ Google Now
ชื่อ Cortana มาจากตัวละครชื่อเดียวกันในเกมตระกูล Halo ซึ่งเป็น AI ที่สามารถเรียนรู้และปรับตัวได้เรื่อยๆ
ตามข่าวบอกว่า Cortana เป็นมากกว่าแอพสั่งงานด้วยเสียง แต่มันคือแกนหลักของแผนการยกเครื่อง "shell" ของทั้ง Windows, Windows Phone และ Xbox ในอนาคต ซึ่งเป็นมากกว่าการปรับหน้าอินเทอร์เฟซให้ทันสมัยขึ้น
โฆษกของ Sony Computer Entertainment ยืนยันกับเว็บไซต์ Polygon ว่า PS4 จะรองรับการสั่งงานด้วยเสียงพูด ผ่านกล้อง PlayStation Camera ที่เป็นอุปกรณ์เสริมขายแยก 59 ดอลลาร์ (ลักษณะเดียวกับ Xbox มี Kinect)
โซนี่พูดถึงฟีเจอร์นี้ในงานสัมมนาแห่งหนึ่ง โดยบอกว่า PlayStation Camera จะมีความสามารถทั้งด้านการแยกแยะใบหน้า (facial recognition) และการสั่งงานส่วนต่างๆ ด้วยเสียงพูด (navigational voice command)
โซนี่บอกว่าจะเปิดเผยข้อมูลเพิ่มเติมของฟีเจอร์นี้ ในช่วงใกล้ๆ วางขาย PS4 วันที่ 29 พฤศจิกายนนี้
ที่มา - Polygon
หนึ่งในฟีเจอร์เด่นของ Moto X ที่เหนือกว่าคู่แข่งตอนนี้คงหนีไม่พ้นการรอรับคำสั่งด้วยเสียงตลอดเวลา (always listening) อันเป็นผลมาจากหน่วยประมวลผลภาษาธรรมชาติที่รวมมาในชิป X8
ดูเหมือนว่าในอนาคตนี้ฟีเจอร์รับฟังที่ว่านี้คงจะได้ไปอยู่ในสมาร์ทโฟนรุ่นท็อปๆ หลังจาก Qualcomm ออกมาเผยข้อมูลว่าชิปรุ่นท็อปของตัวเองอย่าง Snapdragon 800 จะมาพร้อมกับชิปกินไฟต่ำที่สามารถรับคำสั่งด้วยเสียงตลอดเวลาได้เช่นกัน โดยเจ้าชิปตัวนี้ชื่อว่า Hexagon Qualcomm Digital Signal Processor 6 (Hexagon QDSP6)
Moto X ถือเป็นมือถือที่มีข่าวหลุด-ภาพหลุดออกมามากมาย ล่าสุดเป็นคลิปหลุดสาธิตฟีเจอร์ Open Mic หรือการสั่งงานด้วยเสียงแม้ตอนนั้นมือถือจะไม่ได้ทำงานอยู่
จากวิดีโอเราจะเห็นว่า Moto X อยู่ในสภาพปิดหน้าจอ จากนั้นผู้สาธิตพูดคำว่า OK Moto Magic ตามด้วยคำสั่งงานด้วยเสียงที่ Google Now รู้จักและแยกแยะได้ เมื่อตัวเครื่องได้ยินคำว่า OK Moto Magic จะเปิดหน้าจอขึ้นมาและส่งประโยคหลังจากนั้นไปให้ Google Now จัดการต่ออีกทีหนึ่ง
วิดีโอนี้ตรงกับข่าวก่อนหน้านี้ของ Moto X ที่ว่ามีไมโครโฟนเปิดทำงานรอรับคำสั่งอยู่ตลอดเวลา
ไมโครซอฟท์ประกาศปรับปรุงระบบแยกแยะและวิเคราะห์เสียงของ Windows Phone (ที่ใช้เอนจินของ Bing) ให้มีความแม่นยำมากขึ้นกว่าเดิมแม้ในสภาพที่มีเสียงรบกวนมากๆ และทำงานแยกแยะเสียงได้เร็วกว่ารุ่นก่อน 15%
เบื้องหลังการปรับปรุงฟีเจอร์นี้มาจากผลงานของทีม Microsoft Research ในปักกิ่งและสหรัฐ ที่ใช้เทคนิค deep neural networks (DNNs) จำลองการทำงานของเส้นประสาทในสมอง ผนวกกับฐานข้อมูลขนาดใหญ่ของ Bing ทำให้เทคนิคการวิเคราะห์เสียงพูดของค่ายไมโครซอฟท์พัฒนาขึ้นอีกมาก
ไมโครซอฟท์ยังให้ข้อมูลว่าเทคนิค DNN สามารถใช้กับภาษาอื่นๆ ที่ไม่ใช่ภาษาอังกฤษได้ด้วย ทำให้ไมโครซอฟท์สามารพัฒนาและสอน DNN ให้เข้าใจภาษาอื่นๆ ต่อไปในอนาคตได้
ฟีเจอร์ที่กูเกิลโชว์ในงาน Google I/O ตอนนี้สามารถใช้งานบน Chrome 27 ได้แล้ว
วิธีการใช้งานคืออัพเกรดเป็น Chrome 27 ก่อน แล้วเข้าไปที่หน้าแรกของกูเกิล (google.co.th ก็ใช้งานได้ครับ) คลิกที่รูปไมโครโฟนในกล่องข้อความ หน้าจอจะเปลี่ยนเป็นไมโครโฟนสีแดงขนาดใหญ่ พร้อมกับคำค้นที่เราพูดออกไป
จากนั้นกูเกิลจะแสดงหน้าผลการค้นหา พร้อมเสียงพูดเป็นภาษาอังกฤษครับ (กรณีของคำค้นที่เกี่ยวกับ population ก็แสดงกราฟข้อมูลย้อนหลังแบบใน I/O แล้วด้วย)
ที่มา - Search Engine Land
Barclays Wealth บริการธนาคารส่วนตัวของเครือธนาคาร Barclays ของอังกฤษ เริ่มเปลี่ยนวิธีตรวจสอบตัวตนลูกค้าทางโทรศัพท์ จากเดิมที่ใช้วิธีถามรหัสผ่าน-คำถามข้อมูลส่วนตัว มาเป็นการแยกแยะเสียงพูด (voice recognition) แทน
การตรวจสอบเสียง (voiceprint) ใช้เวลาไม่ถึงหนึ่งนาทีหลังลูกค้าพูดจบ และกรณีที่ระบบตรวจสอบเสียงผิดพลาด ลูกค้ายังสามารถยืนยันตัวตนด้วยวิธีเดิมได้
ระบบแยกแยะเสียงพูดของ Barclays มาจาก Nuance FreeSpeech ของบริษัท Nuance เจ้าพ่อซอฟต์แวร์ด้านเสียงนั่นเอง
แม้จะไม่ค่อยได้ใช้งาน แต่หลายคนก็คงมีความเชื่อว่าการสั่งงานด้วยเสียงแบบไร้สายขณะขับขี่ยานพาหนะน่าจะเป็นวิธีที่ช่วยลดอุบัติเหตุบนท้องถนนได้ดีวิธีหนึ่ง ทว่าผลการศึกษาจากองค์การขนส่งประจำรัฐเทกซัสกลับได้ผลออกมาตรงกันข้ามเสียงั้น
นาง Christian Yager เจ้าของผลการศึกษาบอกว่าเมื่อเปรียบเทียบระหว่างการส่งข้อความแบบเดิมๆ (ซึ่งเป็นหนึ่งในสาเหตุหลักของอุบัติเหตุมาตลอด) กับการส่งข้อความด้วยเสียง ผลปรากฏว่าผู้ขับขี่ก็ยังมีปฏิกิริยาตอบสนองช้ากว่าเมื่อไม่ได้ใช้งานมากพอๆ กันคือเท่าตัวจากปกติ
Steve Wozniak ได้กล่าวที่งานสัมมนาแห่งหนึ่งเกี่ยวกับแอปเปิลว่า การที่ราคาหุ้นของแอปเปิลลดต่ำสุดในรอบ 16 สัปดาห์นั้นเป็นเรื่องที่น่าผิดหวัง แต่บริษัทมีแนวโน้มที่จะออกผลิตภัณฑ์ใหม่ กระทั่งผลิตภัณฑ์ที่ไม่เคยมีมาก่อน และผลิตภัณฑ์เหล่านั้นจะไปได้ดี ไม่เหมือนกับเอาของเก่ามาเล่าใหม่ที่ในที่สุดเราจะรู้สึกเบื่อหน่ายกับมัน ("not re-making the same thing, as eventually that just gets a little bit stale") เขายังเดาว่าแอปเปิลเตรียมตัวมาดี และกำลังดำเนินการบางอย่างที่จะสร้างความประหลาดใจและทำให้พวกเราช็อก แต่เขาก็ยืนยันว่าเขาก็ไม่รู้ว่าผลิตภัณฑ์นั้นคืออะไร
หลังจาก Ubuntu ได้ถูกเพิ่มวิธีสั่งงานแบบ HUD ไปแล้ว วันนี้นักพัฒนาอิสระได้สาธิตวิธีการสั่งงานแบบใหม่คือการสั่งงานผ่านเสียง (voice recognition) ที่มีความสามารถหลากหลาย เช่น เริ่มโปรแกรมเบราว์เซอร์, เล่นเพลงที่ต้องการ, จัดการไฟล์แบบพื้นฐาน, พิมพ์ข้อความตามคำบอก หรือกระทั่งสามารถเปิดเว็บเพจใดๆ เพียงแค่บอกชื่อเท่านั้น
ผู้ใช้สามารถเรียกฟังก์ชันผ่าน keyboard shortcut ซึ่งจะเรียกส่วนติดต่อผู้ใช้ขึ้นมาใน Ubuntu Notification Center อย่างไรก็ตามฟังก์ชันนี้ยังอยู่ในช่วง private beta ซึ่งหมายความว่ายังไม่เปิดสำหรับบุคคลทั่วไป ถ้าใครอยากลองใช้ทางผู้พัฒนาก็ยินดีโดยมีเงื่อนไขคือต้องเป็นนักพัฒนาโปรแกรมด้วยกัน เพื่อร่วมกันพัฒนาฟังก์ชันนี้ต่อไป
ไม่ใช่แค่ฝั่ง PS4 ที่มีข่าวลือฟีเจอร์ใหม่ๆ เพราะคู่แข่งอย่าง Xbox รุ่นใหม่ที่คาดว่าจะเปิดตัวในปีนี้ก็มีข่าวลือฟีเจอร์ใหม่ๆ ออกมาเช่นกัน และเป็นฟีเจอร์สั่งงานด้วยเสียงแบบเต็มรูปแบบที่จะถูกรวมเข้ามาใน Xbox รุ่นใหม่นี้
ข้อมูลดังกล่าวเว็บไซต์ The Verge อ้างจากแหล่งข่าวที่ใกล้ชิดกับไมโครซอฟท์ โดยระบุว่าการสั่งงานด้วยเสียงของ Xbox รุ่นใหม่นี้จะรองรับตั้งแต่การเปิดเครื่องด้วยเสียง การสั่งงานด้วยภาษาธรรมชาติ (ตรงนี้ที่มาบอกว่าคล้ายกับ Siri) และสามารถแปลงเสียงเป็นข้อความได้
เมื่อช่วงปีที่ผ่านมาเราเห็นหลายบริษัทพยายามทำระบบผู้ช่วยสำหรับตอบคำถามผู้ใช้ด้วยภาษามนุษย์อย่าง Siri จากแอปเปิล หรือ Google Now จากกูเกิล ซึ่งทั้งสองบริการที่ว่ามีจุดด้อยตรงที่ผูกอยู่กับอุปกรณ์ของค่ายตัวเองเท่านั้น ซึ่งเป็นสิ่งที่ Nuance เห็นว่าสามารถทำได้ดีกว่านั้นด้วย Project Wintermute