ผลของการจับเอางานวิจัยด้านการรู้จำและแยกแยะวัตถุในภาพของ Google มารวมพลังกับงานวิจัยด้านภาษาธรรมชาติของ Stanford ทำให้ได้ระบบซอฟต์แวร์ที่สามารถทำความเข้าใจองค์ประกอบของภาพถ่าย และบรรยายออกมาเป็นประโยคด้วยถ้อยคำที่เป็นธรรมชาติ
เราเคยเห็นข่าวงานวิจัยของ Google ที่ได้รางวัลจากการประกวดซอฟต์แวร์รู้จำและแยกแยะวัตถุในภาพมาแล้ว ซึ่งงานวิจัยดังกล่าวได้มีการพัฒนาโครงข่ายประสาทเทียมเพื่อให้ระบบซอฟต์แวร์เรียนรู้รูปร่างของวัตถุสิ่งของต่างๆ จนทำให้ได้มาซึ่งความสามารถในการใช้คำระบุว่าสิ่งของหรือคนที่ปรากฎในภาพนั้นคืออะไร มีลักษณะอย่างไร ทว่าด้วยข้อมูลที่ได้มาเป็นคำเหล่านี้คงยังไม่อาจเรียกว่าเป็นการบรรยายภาพถ่ายได้ ดังนั้นจึงมีการผนวกเอางานวิจัยของ Stanford ที่ใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้วิธีการแยกแยะสิ่งต่างๆ ในภาพ และนำเอาข้อมูลที่ได้มาเรียบเรียงให้เป็นภาษาธรรมชาติมาปรับใช้งานร่วมกัน
การดึงเอาความสามารถของโครงข่ายประสาทเทียมจาก 2 งานวิจัยนี้มาใช้ประโยชน์พร้อมกัน ทำได้โดยการป้อนตัวอย่างภาพถ่ายพร้อมประโยคบรรยายภาพให้โครงข่ายประสาทเทียมได้เรียนรู้ว่าการบรรยายภาพที่ดีนั้นควรเป็นอย่างไร และด้วยปริมาณข้อมูลที่ถูกสอนให้มากพอก็จะทำให้ระบบสามารถบรรยายภาพถ่ายบางภาพด้วยประโยคภาษาอังกฤษได้อย่างถูกต้อง (แน่นอนว่ามีบางภาพอาจได้รับการบรรยายถูกต้องแค่บางส่วน หรือไม่ถูกต้องเลย ซึ่งหมายความว่าโครงข่ายประสาทเทียมยังขาดตัวอย่างการฝึกสอนสำหรับภาพถ่ายแบบนั้น)
ลองนึกภาพว่าหาก Google สามารถเอางานวิจัยที่ทำร่วมกับ Oxford (ที่เน้นการพัฒนาปัญญาประดิษฐ์เพื่อการรู้จำภาพและทำงานตอบสนองภาษาธรรมชาติ) มาทำคอมโบเข้าไปกับงานวิจัยร่วมกับ Stanford นี้เข้าไปอีก เราคงได้เห็นระบบปัญญาประดิษฐ์ที่น่าทึ่งเอามากๆ
ที่มา - Google Research Blog via Engadget
Comments
อ่านตรง unrelated แล้วผมว่ามันฮาดีนะ
แต่มันเจ๋งมาก!
เป็น school bus ที่น่าสนใจมาก
เห็นแล้วคิดถึงอนาคต ที่อาจมีแว่นตาสำหรับคนตาบอด แว่นสามารถบอกคนใส่ได้ว่ากำลังมองอะไร ถนน สะพาน คน หยุดเดิน รถกำลังพุ่งเข้ามา เป็ฯต้น
รูป 1 รูปแทนคำได้นับพัน อันนี้ google ย้อนอดีตไปกล่าวไว้