อ่านปากของฉันนะ ออกซ์ฟอร์ดร่วมมือ DeepMind พัฒนาปัญญาประดิษฐ์อ่านปากได้แม่นกว่ามนุษย์

By: lew

on 22 November 2016 - 14:21 Tags:

Topics:

DeepMind

Oxford University

Research

Artificial Intelligence

DeepMind ร่วมมือกับมหาวิทยาลัยออกซ์ฟอร์ดพัฒนาปัญญาประดิษฐ์อ่านปากอัตโนมัติ LipNet สามารถอ่านปากด้วยความแม่นยำถึง 93.4% ขณะที่ผู้เชี่ยวชาญสามารถอ่านปากได้แม่นยำเพียง 52.3% และระบบที่แม่นยำที่สุดก่อนหน้านี้ก็อ่านได้แม่นเพียง 79.6%

LipNet จับภาพปากของผู้พูดแล้วพยายามแยกเสียงเพื่อหาตัวอักษร โดยการทดสอบแรกใช้ชุดข้อมูล GRID ที่มีคำไม่มากนัก (51 คำ)

การทดสอบชุดล่าสุดด้วยข้อมูลวิดีโอจาก BBC ที่มีความยาวกว่า 5,000 ชั่วโมง และวิดีโอมีปัญหาเสียงไม่ตรงกับภาพในบางกรณี ปัญญาประดิษฐ์สามารถเรียนรู้จากวิดีโอเหล่านั้น และปรับแก้เสียงที่ไม่ตรงกับภาพได้เอง

ทีมงานใช้ข้อมูลรายการตั้งแต่ปี 2010 เป็นต้นมา และใช้ข้อมูล 6 เดือนล่าสุดเป็นข้อมูลทดสอบ พบว่าระบบยังคงทำนายคำพูดได้ถูกต้องถึง 46.8% ขณะที่ผู้เชี่ยวชาญการอ่านปากสามารถอ่านได้ถูกต้องเพียง 12.4% เท่านั้น

งานวิจัยเช่นนี้มีแนวทางนำไปใช้งานได้หลากหลายในอนาคต คอมพิวเตอร์จะสามารถสื่อสารกับมนุษย์ได้โดยที่เราไม่ต้องออกเสียงจริงๆ หรือการสื่อสารกับผู้ใช้ในพื้นที่ที่เสียงดัง

ที่มา - New Scientist, Technology Review

Hiring! บริษัทที่น่าสนใจ

CIMB THAI Bank

MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank

Bangmod Enterprise

The leader in Cloud Server and Hosting in Thailand.

Siam Commercial Bank Public Company Limited

"Let's start a brighter career future together"

Comments

By: illuminator

on 22 November 2016 - 14:26 #955060

ดูปากนัดชานะ "เจ๋งมาก"

By: gab

on 22 November 2016 - 15:56 #955085 Reply to:955060

By: hisoft

on 22 November 2016 - 14:45 #955064

"ว่าโต๊ะเธอ~"

By: bflower

on 22 November 2016 - 15:25 #955076 Reply to:955064

เอิ่มม ประโยคนี้มันนน... (ยังเด็กอยู่ :)

By: hisoft

on 22 November 2016 - 16:58 #955092 Reply to:955076

เด็กสมัยที่ทันประโยคนี้สินะครับ :)

By: sialsialsial on 22 November 2016 - 15:30 #955078

เหมือน Hans ใน Space odessy เลย น่าทึ่งจริงๆครับ

By: tanakornk

on 22 November 2016 - 15:34 #955079

ถ้าอ่านได้หลายๆปากพร้อมกันได้ น่าเอามาใส่ในกล้องวงจรปิดนะ

By: azzendix

on 22 November 2016 - 18:20 #955109 Reply to:955079

น่าจะทำให้อ่านหลายปากๆได้ไม่ยาก แต่เท่าที่ตามไปดูตัวอย่างไฟล์ที่ใช้จะเป็น input ที่มุมกล้องชัดเจน แบบคลิปสัมภาษณ์
สรุปว่า ตอนนี้พัฒนาแบบปากเดียวไปก่อนเอาให้ความแม่นยำสูงกว่านี้
ในอนาคตจะเอาไปประยุกต์ เช่น ใส่กล้องวงจรปิด,ระบบSubtitleอัตโนมัติ อะไรก็ว่าไป

By: Hoo

on 24 November 2016 - 13:30 #955455 Reply to:955079

ถ้าได้ปากแรก ปากอื่นๆก็ไม่ยากแล้วครับ
แค่ให้ face recognition แยกหน้าคน
แล้วส่งปากแต่ละคนเข้าไป

By: makeithard

on 22 November 2016 - 16:58 #955093

เอามาใส่ใน Wearable Glasses

Main menu