คุณศุภศรณ์ สุวจนกรณ์ จากห้องวิจัย GRAIL นำเสนองานวิจัยในการสร้างวิดีโอของบารัก โอบามา ตามเสียงที่ใส่เข้าไปได้อย่างสมจริง โดยอาศัยข้อมูลเสียงนำมาสร้างเป็นรูปแบบของปากแล้วจึงใส่รายละเอียดลงไปก่อนจะนำภาพปากเคลื่อนไหวนี้ไปใส่วิดีโอเป้าหมาย
งานวิจัยนี้ทำให้สามารถนำเสียงของโอบามาเองมาสร้างภาพวิดีโอใหม่ โดยไม่ต้องอาศัยวิดีโอของการพูดครั้งนั้นจริงๆ แม้แต่เสียงที่สร้างขึ้นมา เช่น เสียงของคนที่เลียนแบบโอบามา หรือเสียงของโอบามาที่ถูกตัดต่อ
กูเกิลประกาศออกชุดโมเดล MobileNets สำหรับการประมวลผล AI บนสมาร์ทโฟนที่มีทรัพยากรจำกัด ตามแผนการผลักดัน TensorFlow ให้ทำงานบนมือถือได้
กูเกิลบอกว่าถึงแม้เราอยู่ในยุคของคลาวด์ สามารถเรียกประมวลผลภาพได้ผ่านบริการอย่าง Cloud Vision API แต่ก็มีกรณีที่จำเป็นต้องประมวลผล AI แบบออฟไลน์บนมือถือ ซึ่งช่วงหลังมีสมรรถนะสูงมากพอแล้ว
ปัญญาประดิษฐ์และการประมวลผลภาพในโทรศัพท์มือถือมีการใช้งานมากขึ้นเรื่อยๆ เช่น ฟิลเตอร์เครื่องแต่งกายตามแอปไลฟต์ต่างๆ ตอนนี้ ARM ก็ออกมาปล่อยไลบรารีสำหรับการรีดประสิทธิภาพซีพียูและจีพียูให้ทำงานเหล่านี้ได้ดียิ่งขึ้น
ARM Compute Library รองรับฟังก์ชั่นพื้นฐานคล้ายกับ OpenCV เช่น การประมวลสีภาพ หรือฟิลเตอร์ HOG (histogram of oriented gradients) ไปจนถึงฟังก์ชั่นคอมพิวเตอร์เรียนรู้ด้วยตัวเอง เช่น SVM (support vector machines) หรือ convolutional neural networks
Yahoo! ได้เปิดตัวฟีเจอร์ Similarity Search ซึ่งเป็นผลงานจากทีมงาน Computer Vision ของ Yahoo! ที่ทำงานร่วมกับ Flickr
สำหรับฟีเจอร์ใหม่นี้ คือการค้นหาภาพที่เหมือนกัน โดยจะใช้วิธีการดูจากลักษณะของภาพ ซึ่งเป็นสิ่งที่ Flickr เรียกว่า similarity pivot คือกลุ่มของภาพที่มีความเหมือนกัน
ปัจจัยที่ Flickr จะใช้พิจารณาความเหมือนก็มีทั้งสี, ลวดลาย, หมวดหมู่ และอื่น ๆ ซึ่ง Flickr ได้ใช้งาน deep neural networks เพื่อทำการระบุวัตถุ และทำการแท็กภาพให้ว่าเป็นภาพในหมวดหมู่อะไรโดยอัตโนมัติ จากนั้นนำมาทำเป็นเวกเตอร์ที่เรียกว่า feature vector
Apple ได้ออกงานวิจัยเกี่ยวกับปัญญาประดิษฐ์ชิ้นแรกของบริษัทสู่สาธารณะตามที่เคยประกาศไว้ ซึ่งงานวิจัยชิ้นนี้เป็นรายละเอียดเกี่ยวกับการวิจัยเทคโนโลยี computer vision ที่ทางบริษัทกำลังพัฒนาอยู่ โดยยกตัวอย่างเป็นการใช้งานเพื่อระบุภาพถ่าย
ชุด API OpenVX เป็น API มาตรฐานสำหรับการประมวลผลภาพ เช่น การจับวัตถุในภาพ, การจดจำใบหน้า, และการตรวจจับการเคลื่อนไหว ตอนนี้ Imagination ก็ออกมาประกาศว่าส่วนกราฟิก PowerVR ผ่านการทดสอบ OpenVX 1.1 เป็นรายแรก
ตัว API ของ OpenVX จะคล้ายกับ OpenCV ในหลายส่วน ทั้ง data type สำหรับการเก็บภาพถ่าย การปรับขนาดภาพ และการประมวลผลภาพในระดับต่ำ API เหล่านี้เปิดให้ผู้ผลิตฮาร์ดแวร์พัฒนาฮาร์ดแวร์ให้เร่งความเร็วการประมวลผลเหล่านี้ให้ได้ประสิทธิภาพสูงสุด
ชิปตัวแรกที่ผ่านการทดสอบ คือ Allwinner A80 ที่ใช้ส่วนกราฟิก PowerVR G6230 ชิปตัวนี้มีใช้ในบอร์ดหลายตัว ใครสนใจอยากใช้ OpenVX คงหามาใช้งานกันได้ไม่ยาก
ในเมื่อสี่เท้ายังรู้พลาด คอมพิวเตอร์ก็อาจจะรู้พลั้งได้เหมือนกัน ดังเช่นเหตุการณ์ในประเทศรัสเซีย ที่หน่วยงานตำรวจจราจรได้ออกใบสั่งปรับเงินชายชาวรัสเซียคนหนึ่ง พร้อมแนบภาพถ่ายหลักฐานการกระทำผิดไปด้วย ซึ่งภาพก็แสดงให้เห็นชัดเจนว่าเป็นเพราะเขาขับรถแล้วเงาพาดทับเส้นทึบกลางถนน
อ่านไม่ผิดหรอก ภาพประกอบใบสั่งที่ชายคนดังกล่าวได้รับ แสดงภาพรถที่เขาขับเมื่อวันที่ 25 สิงหาคมที่ผ่านมาบนถนนวงแหวนของ Moscow จากในภาพตัวรถก็วิ่งอยู่ในช่องทางเดินรถตามปกติมิได้ล้ำออกนอกเส้นทึบแต่อย่างใด ทว่าเงาของตัวรถในขณะนั้นซึ่งเกิดจากแสงแดดได้ทอดผ่านทับข้ามเส้นทึบล้ำไปยังช่องทางเดินรถข้างๆ ที่อยู่ติดกัน
อินเทลประกาศซื้อบริษัท Movidius Technology เจ้าของระบบ "ตา" คอมพิวเตอร์ (visionary solution) ที่ใช้กับรถยนต์ โดรน หุ่นยนต์ แว่น VR และระบบลักษณะเดียวกันอื่นๆ
โซลูชันของ Movidius ประกอบด้วยหน่วยประมวลผลเฉพาะที่เรียกว่า Vision Processing Unit (VPU), ชุด SDK และประมวลผลภาพด้วยเทคนิค machine learning/deep learning
อินเทลซื้อ Movidius เพื่อนำเทคโนโลยีไปต่อเชื่อมกับกล้อง RealSense ของตัวเอง เพื่อต่อเป็นระบบ computer vision ที่เก่งกาจมากขึ้นในอนาคต
คงจะเคยดูหนังหรือละครต่างประเทศแนวสืบสวนสอบสวนกันมาบ้าง หลายครั้งที่เราเห็นฉากการตามหาคนแล้วดึงภาพมาจากกล้องวงจรปิด หรือกล้องมือถือที่ไหนสักแห่งแล้วเห็นภาพบุคคลเป้าหมายเบลอๆ เห็นแค่เม็ดพิกเซลเหมือนภาพโมเสค จากนั้นเจ้าหน้าที่ก็ซูมภาพ ซูมแล้วซูมอีก แล้วใช้ซอฟต์แวร์ปรับแต่งภาพให้มีความคมชัดขึ้น จากภาพเบลอๆ เหลี่ยมๆ ก็กลายเป็นภาพใบหน้าคนที่มีความคมชัดขึ้น วันนี้อยากบอกให้รู้ว่าเรื่องพวกนี้มันไม่ได้ขี้โม้เกินจริงสักเท่าไหร่เลย ตัวอย่างโปรแกรมของชายที่ชื่อ David Garcia พิสูจน์เรื่องนี้ให้เห็นได้อย่างดี
ทีมวิจัย CSAIL แห่ง MIT ได้เผยแพร่งานวิจัยใหม่ในชื่อ Interactive Dynamic Video ซึ่งเป็นเทคนิคเพิ่มลูกเล่นให้ภาพนิ่งที่ได้จากการถ่ายวิดีโอให้ตอบสนองทำปฏิสัมพันธ์กับการดึง-ดันวัตถุในภาพได้ โดยไม่ต้องทำการสร้างโมเดลกราฟิกแบบ 3 มิติใส่ลงในภาพนั้น
อธิบายให้เห็นภาพมากขึ้น ผู้ใช้สามารถใช้เม้าส์เพื่อไกวเปลในภาพนิ่งให้แกว่งได้, ใช้เม้าส์เพื่อเขย่าต้นไม้ให้สั่นไหว หรือดันพุ่มไม้ให้ยกตัวขึ้นก็ได้เช่นกัน (ไม่ใช่ในลักษณะก้อนโพลีกอนที่มีพื้นผิวสีเขียวเหมือนต้นไม้ หากแต่มีการแสดงผลให้เห็นการสั่นไหวของแต่ละกิ่งก้าน แต่ละใบอย่างเป็นธรรมชาติ) หรืออีกตัวอย่างก็เช่นสามารถใช้เม้าส์ดันสะพานแขวนในภาพให้ไหวเอน ทำได้แม้กระทั่งกดวางวัตถุลงในภาพสะพานในบริเวณต่างๆ ซึ่งจะมีผลทำให้ภาพสะพานแขวนยุบตัวลงได้ราวกับเป็นการตอบสนองของกราฟิก 3 มิติ
คนที่หน้าตาเหมือนโจรเป็นยังไง? ต้องหนวดเคราเฟิ้ม ผมกระเซอะกระเซิงหรือเปล่า? ใบหน้าน่าจะมีรอยแผลเป็น ผิวหน้าดูหยาบกร้านไหม? ริ้วรอย, แววตา, สีหน้าล่ะ เป็นอย่างไร? เรื่องเหล่านี้คนเราอาจคาดคะเนแตกต่างกันไปตามปูมหลังและข้อมูลที่เคยผ่านหูผ่านตามาสำหรับแต่ละคน และปัญญาประดิษที่ชื่อ Faception ก็มีคำตอบสำหรับคำถามนี้ในแบบฉบับของตัวมันเองเช่นกัน
Faception เป็นผลงานการพัฒนาโดยสตาร์ทอัพชื่อเดียวกันจากอิสราเอล พวกเขาอ้างว่าเทคโนโลยี Faception นั้นมีระบบ machine learning ที่ผ่านการเรียนรู้ฐานข้อมูลภาพถ่ายใบหน้าของคนจำนวนมาก จนทำให้มันสามารถวิเคราะห์ภาพใบหน้าของบุคคลใดๆ เพื่อระบุบุคลิกลักษณะของบุคคลนั้น
นักวิจัยด้านคอมพิวเตอร์วิทัศน์แห่ง Berkeley ได้พัฒนาปัญญาประดิษฐ์ให้เรียนรู้ภาพถ่ายจำนวนมาก จนสามารถระบายสีภาพถ่ายขาวดำให้กลับเป็นภาพสีได้ราวกับฝีมือแต่งภาพของมนุษย์
Richard Zhang คือชื่อของผู้นำทีมวิจัยนี้ ผลงานของเขาคือปัญญาประดิษฐ์ที่สามารถเรียนรู้ได้โดยอาศัยโครงข่ายประสาทเทียมแบบ convolutional ซึ่งทำงานเลียนแบบระบบพื้นฐานการรับรู้ภาพของสมองคนเราจนสามารถจดจำรูปแบบของวัตถุในภาพและจัดหมวดหมู่วัตถุเหล่านั้น และด้วยการที่รู้ว่าสิ่งที่เห็นในภาพคืออะไร ทำให้มันคาดคะเนได้จากประสบการณ์ที่มันเรียนรู้ว่าสิ่งนั้นควรมีสีสันไปในโทนไหน
Face2Face คือชื่อของงานวิจัยด้านคอมพิวเตอร์วิทัศน์ที่จับเอาท่าทางการแสดงสีหน้าของคนคนหนึ่งไปใส่ในคลิปวิดีโอเพื่อเปลี่ยนการขยับริมฝีปากและการแสดงสีหน้าของคนในวิดีโอนั้นได้
งานวิจัยนี้เป็นผลงานร่วมกันระหว่าง University of Erlangen-Nuremberg, Max Planck Institute for Informatics และ Stanford University โดยทีมวิจัยได้พัฒนาระบบตรวจจับใบหน้าของนักแสดงต้นแบบเพื่อจับการแสดงสีหน้า การขยับริมฝีปากขณะพูด การยักคิ้วหลิ่วตา แล้วแก้ไขภาพบุคคลเป้าหมายในคลิปวิดีโอให้แสดงสีหน้าและขยับปากตามต้นแบบได้แบบสดๆ