เวลาดูภาพถ่ายใดๆ ถ้าในภาพนั้นมีสถานที่สำคัญ เราคงบอกได้ไม่ยากว่าภาพนั้นถูกถ่ายที่ไหน แต่ถ้าเป็นภาพธรรมดาไม่มีอะไรพิเศษ การแยกแยะสถานที่ถ่ายภาพนั้นย่อมยากขึ้นเยอะ ต้องอาศัยบริบทต่างๆ เช่น ต้นไม้ สถาปัตยกรรม ฯลฯ เข้าช่วย (ลองท้าทายความสามารถด้วยการเปิดเว็บ Geoguessr ที่ดึงภาพจาก Street View มาให้เราทายว่าอยู่ที่ไหนในโลก)
ทีมวิจัยของกูเกิลเปิดตัว PlaNet ปัญญาประดิษฐ์ที่เกิดจากการเทรน deep learning ตัวใหม่ สามารถคาดเดาได้ว่าภาพนั้นถูกถ่ายจากที่ไหน ด้วยความแม่นยำที่เหนือกว่ามนุษย์ด้วยซ้ำ
รอบปีมานี้เราเห็นบริษัทไอทีใหญ่ๆ หลายรายทยอยเปิดซอร์สซอฟต์แวร์ด้าน deep learning ของตัวเอง เช่น TensorFlow ของกูเกิล หรือ CNTK ของไมโครซอฟท์
บริษัทที่หลายคนอาจลืมไปแล้วอย่าง Yahoo ก็ร่วมขบวนนี้ด้วยเหมือนกัน ซอฟต์แวร์ตัวนี้เรียกว่า CaffeOnSpark เอาไว้เทรน AI สำหรับงาน deep learning บนคลัสเตอร์ Hadoop/Spark ที่รันงาน big data อยู่แล้ว
Google พัฒนา PlaNet ปัญญาประดิษฐ์ที่สามารถเดาได้ว่าภาพถ่ายที่มันเห็นถูกถ่ายจากที่ไหนบนโลก โดยอาศัยข้อมูลจากสิ่งที่ปรากฏในภาพเท่านั้น ไม่ต้องใช้ข้อมูลแท็กสถานที่ (geotag) ของภาพถ่าย
Tobias Weyand ผู้เชี่ยวชาญด้านคอมพิวเตอร์วิทัศน์ของ Google คือผู้นำทีมในการพัฒนา PlaNet พวกเขาสอนให้มันรู้จักภาพถ่ายจากสารพัดสถานที่กระจายกันรอบโลกถึง 126 ล้านภาพ ซึ่งผลลัพธ์ที่ได้ก็ทำให้ PlaNet สามารถระบุสถานที่ที่แต่ละภาพถูกถ่ายมาได้แม่นยำกว่าคนมาก
หลังจากที่ AlphaGo ผลงานปัญญาประดิษฐ์ของ Google สามารถเล่นโกะเอาชนะแชมป์ยุโรปไปได้ 5 กระดานรวด ศึกถัดไปของ AlphaGo คือการแข่งขันกับ Lee Sedol มืออาชีพโกะ 9 ดั้งจากเกาหลีผู้รั้งตำแหน่งแชมป์โลก ล่าสุดฝั่ง Sedol ก็ให้สัมภาษณ์ว่ามั่นใจกับการแข่งขันที่กำลังจะมาถึงนี้มาก
Sedol แชมป์โลกวัย 32 ปีให้สัมภาษณ์แก่ AP ว่าเขาไม่เพียงตั้งเป้าจะเอาชนะ AlphaGo ให้ได้เท่านั้น แต่จะเอาชนะให้ได้ทั้งหมด 5 กระดานที่จะแข่งกัน หรืออย่างแย่ก็ต้องชนะ 4-1 โดยเขาประเมินจากการแข่งขันที่ AlphaGo เอาชนะ Fan Hui แชมป์ยุโรปไปแบบช็อควงการเมื่อเดือนตุลาคมปีก่อนว่า AlphaGo ยังมีทักษะไหวพริบด้อยกว่าเขาอยู่เล็กน้อย
NVIDIA ประกาศผลประกอบการไตรมาส 4/2015 (ปีงบประมาณนับแปลกหน่อยคือสิ้นสุด 31 มกราคม 2016) ผลออกมารายได้เพิ่ม 12% เป็น 1.4 พันล้านดอลลาร์ และกำไรเพิ่ม 7% เป็น 5 พันล้านดอลลาร์ ถือเป็นไตรมาสที่ NVIDIA มีผลประกอบการดีเป็นประวัติการณ์
ถ้านับตัวเลขตลอดทั้งปีงบประมาณ NVIDIA มีรายได้ 5 พันล้านดอลลาร์ กำไรจากการดำเนินงาน 1.1 พันล้านดอลลาร์
AlphaGo ผลงานปัญญาประดิษฐ์จาก DeepMind บริษัทลูกของกูเกิลที่ออกแบบมาเพื่อเล่นโกะโดยเฉพาะ หลังจากได้รับชัยชนะจากแชมป์โกะยุโรปเมื่อเดือนก่อน ก็ได้คู่แข่งคนต่อไปในเดือนมีนาคมนี้แล้ว
คู่แข่งคนต่อไปของ AlphaGo คือ Lee Sedol นักเล่นโกะอัจฉริยะสัญชาติเกาหลีใต้ที่สอบผ่านมืออาชีพตั้งแต่อายุเพียง 12 ปี และอยู่ในระดับสูงสุดของวงการมืออาชีพที่ 9 ดั้งมากกว่า 10 ปี โดยการแข่งขันกับ Sedol ครั้งนี้ของ AlphaGo จะต่างออกไปจากครั้งที่เจอกับ Fan Hui ตรงที่การแข่งขัน 5 เกมจะถูกถ่ายทอดสดผ่าน YouTube ในวันที่ 9/10/12/13/15 มีนาคมนี้
กูเกิลประกาศความสำเร็จในซอฟต์แวร์ปัญญาประดิษฐ์ AlphaGo ที่เป็นเครือข่ายประสาทเทียมระดับลึก (deep neural networks) ทดสอบโดยการแข่งขันกับซอฟต์แวร์ปัญญาประดิษฐ์อื่นๆ ถึง 500 กระดานแล้วแพ้เพียงกระดานเดียว หลังจากนั้นจึงเชิญ Fan Hui แชมป์โกะยุโรป มาแข่งขันกับ AlphaGo ที่สำนักงานในลอนดอนจำนวน 5 กระดาน และ AlphaGo ก็สามารถชนะได้ทั้งหมด
AlphaGo เป็นเครือข่ายประสาทเทียมที่ลึกถึง 12 ชั้นและมีนิวรอนหลายล้านชุด กระบวนการทำงานมีสองเครือข่ายขนานกัน คือ policy network สำหรับการตัดสินใจว่าจะเดินหมากต่อไปอย่างไร และ value network สำหรับการคาดเดาโอกาสชนะในกระดานนั้นๆ
CNTK เป็นชุดเครื่องมือพัฒนาปัญญาประดิษฐ์ของไมโครซอฟท์ที่เปิดซอร์สออกสู่สาธารณะมาก่อนหน้านี้แล้วแต่จำกัดการใช้งานเฉพาะการศึกษาเท่านั้น แต่หลังจากที่กูเกิลปล่อย TensorFlow ออกมา ทางไมโครซอฟท์ก็ปรับสัญญาอนุญาตของ CNTK เสียใหม่และย้ายโค้ดไปยัง GitHub
ไมโครซอฟท์ชูจุดเด่นของ CNTK ว่าทำงานได้เร็วกว่าชุดเครื่องมืออื่นๆ มาก และทำงานข้ามเครื่องได้โดยที่ประสิทธิภาพที่เพิ่มขึ้นค่อนข้างดี
ถ้าใครกำลังศึกษาปัญญาประดิษฐ์ ก็อาจจะมีตัวเลือกต้องพิจารณาเพิ่มเติมครับ
กูเกิลยังคงมุ่งมั่นเปิดคอร์สให้เรียนรู้ผ่าน Udacity อย่างต่อเนื่อง ให้หลังการสอนเขียนแอพ และออกแบบแอพ ล่าสุดกูเกิลเพิ่มหลักสูตรเรียนรู้เกี่ยวกับ deep learning เข้ามาแล้ว โดยเรียนฟรีเหมือนกับสองหลักสูตรแรก
ตัวคอร์สนี้มีชื่อว่า Deep Learning - Taking machine learning to the next level ซึ่งรวบรวมทั้งการใช้เครื่องมือต่างๆ คำเฉพาะทางของฝั่ง deep learning รวมถึงได้ฝึกใช้งาน TensorFlow ซึ่งเป็นไลบรารีโอเพนซอร์สสำหรับงาน deep learning อีกด้วย โดยตัวหลักสูตรจะแบ่งเป็นสี่ช่วงเริ่มต้นจากพื้นฐาน ก่อนจะยากขึ้นเรื่อยๆ
ช่วงหลายปีที่ผ่านมา เราเห็นพัฒนาการของระบบปัญญาประดิษฐ์ที่ล้ำหน้าถึงขนาดเอาชนะสมองมนุษย์ไปได้หลายครั้ง (เช่นเกมโชว์ Jeopardy! ที่ IBM Watson เอาชนะมนุษย์เป็นครั้งแรก) ล่าสุด Facebook ที่เพิ่งเปิดตัว Facebook M ผู้ช่วยส่วนตัวซึ่งถือเป็นจุดเริ่มต้นของการเข้าสู่โลกของปัญญาประดิษฐ์ ประกาศกร้าวจะล้มมนุษย์ในเกมการแข่งขันหมากล้อม (หรือโกะในภาษาญี่ปุ่น) ซึ่งตอนนี้ยังไม่มีระบบใดสามารถทำได้
Baidu Research เปิดตัวแอป FaceYou แปลงภาพและวิดีโอให้กลายเป็นภาพสยองเข้ากับเทศกาลฮาโลวีน โดยมีรูปแบบให้เลือก เช่น หน้าตาหน้ากลัว, ซอมบี้, โครงกระดูก ไปจนถึงการแปลงเป็นสัตว์หรือบุคคลในประวัติศาสตร์
โครงการนี้อาศัยเทคโนโลยีปัญญาประดิษฐ์ระดับสูงสามารถจับเอาลักษณะใบหน้า 72 รายการ เช่น ปาก, จมูก, ตา, คาง รูปร่างของส่วนประกอบต่างๆ และลักษณะการแสดงออกของหน้าตา จากนั้นจึงนำลักษณะเหล่านี้ไปวางลงกราฟิกลงไป
เทคโนโลยีแบบนี้ถูกใช้งานในวงการภาพยนตร์มานาน แต่ต้องอาศัยโรงถ่ายที่ควบคุมสภาพแสง มีเซ็นเซอร์ติดตามตัวผู้แสดง และซอฟต์แวร์ราคาแพง แต่ FaceYou สามารถทำงานบนสมาร์ตโฟนธรรมดาได้
รถอัตโนมัติพัฒนาขึ้นอย่างรวดเร็วในช่วงเวลาสิบปีที่ผ่านมา แต่ข้อจำกัดทั้งความเชื่อถือและข้อกฎหมายยังเป็นประเด็นที่ต้องค่อยๆ แก้ในแต่ละประเทศกันไปอีกหลายปี ตอนนี้ทางมิซูบิชิก็พัฒนาทางแก้ชั่วคราวด้วยระบบปัญญาประดิษฐ์ ตรวจสอบว่าคนขับกำลังสนใจต่อการขับขี่หรือไม่
ระบบคล้ายๆ กันนี้แต่ก่อนมักเป็นระบบง่ายๆ เช่นตรวจสอบว่าลืมตาและมองตรงหน้า แต่ระบบใหม่จะพิจารณาข้อมูลจากเซ็นเซอร์หลายแบบ ทั้งทิศทางพวงมาลัย, อัตราการเต้นหัวใจ, ทิศทางการมอง ฯลฯ จากนั้นพิจารณาข้อมูลเล่านี้ย้อนหลังไปช่วงเวลาหนึ่ง ระบบปัญญาประดิษฐ์จะสามารถบอกได้ว่าคนขับกำลังขับขี่อย่างปลอดภัยหรือไม่ หากเริ่มไม่ปลอดภัยแล้วก็จะร้องเตือน
ตามปกติแล้ว วิดีโอที่อัพโหลดขึ้น YouTube จะถูกตัดภาพของวิดีโอบางช่วงมาเป็น thumbnail ให้ผู้อัพโหลดเลือกอีกทีหนึ่ง แต่หลายครั้ง เรากลับได้ภาพที่ไม่มีความหมายมาเป็น thumbnail และส่งผลให้อัตราการคลิกเพื่อเล่นวิดีโอมีจำนวนลดลง
แนวทางที่กูเกิลใช้เลือก thumbnail คือสร้างไฟล์ภาพจากวิดีโอ โดยจับภาพตัวอย่างทุก 1 วินาที จากนั้นนำแต่ละภาพมาเข้าโมเดลวิเคราะห์คุณภาพของภาพ (quality model) เพื่อให้คะแนน quality score สุดท้ายจึงคัดเลือกภาพที่ได้คะแนนสูงสุดเป็น thumbnail
ทีมวิจัยของกูเกิลจึงพยายามแก้ปัญหานี้ ด้วยการนำเทคนิค deep neural networks (DNNs) ที่ได้รับความนิยมในงานวิจัยด้านการวิเคราะห์ภาพ มาทำเป็น quality model แบบใหม่ โดยเทรน DNN ให้เรียนรู้ว่าภาพแบบไหนดีหรือไม่ดี
กูเกิลเพิ่มอัลกอริทึมใหม่ให้กับโครงข่ายประสาท AI เปลี่ยนรูปภาพธรรมดาให้กลายเป็นเหมือนภาพจากฝันร้าย เพื่อแสดงการทำงานของเลเยอร์ของโครงข่ายประสาท AI (neural network) และนำภาพผลลัพธ์ไปใช้ในการปรับปรุงระบบ
ระบบ Deep Dream จะป้อนรูปภาพให้กับ AI ทำการพัฒนาและเปลี่ยนแปลงภาพจากองค์ประกอบเดิมของรูปภาพ โดยขึ้นอยู่กับเลเยอร์ไหนมีส่วนในการทำงานบ้าง ซึ่งรูปภาพอาจถูกบิดเบือนด้วยการเปลี่ยนแปลงสีสัน หรือการเปลี่ยนแปลงรูปลักษณ์ต่างๆ จนดูเกินจริง
กูเกิลปล่อยโค้ดให้ผู้ใช้ทั่วไปนำไปสร้างภาพแปลกๆ โดยทำขั้นตอนที่แนะนำ และสามารถค้นหาภาพเหล่านี้ด้วย #DeepDream
เมื่อวานนี้หลังประเด็น Google Photos แท็กหญิงผิวดำเป็นกอริลลาจนทางกูเกิลต้องออกมาขอโทษ วันนี้ Andrew Ng นักวิจัย Deep Learning คนสำคัญก็ออกมาโพสแสดงความเห็นใจกูเกิลที่ถูกต่อว่าอย่างหนักในกรณีนี้
เขาระบุว่าเทคโนโลยีการจดจำภาพด้วยคอมพิวเตอร์ยังอยู่ในช่วงเริ่มต้นเท่านั้น และกรณีนี้ก็ชัดเจนว่าเป็นความผิดพลาดหนึ่งในล้านที่เกิดขึ้นได้ทุกวัน และบริษัทเทคโนโลยีในซิลิคอนวัลเลย์อย่างกูเกิล, เฟซบุ๊ก, และไป่ตู้ ก็เป็นชุมชนที่เป็นมิตรต่อกัน เขาหวังว่าชุมชนจะร่วมกันหยุดเอาความผิดพลาดเหล่านี้มาเป็นอารมณ์แล้วผลักดันให้เกิดการพัฒนาต่อไป
ที่มา - Facebook: Andrew Ng
กูเกิลและไมโครซอฟท์ออกมาแสดงระบบสร้างคำบรรยายรูปอัตโนมัติในงาน Microsoft COCO (Microsoft CommonObjects in Context (COCO) Captioning Challenge) งานนี้เป็นหนึ่งในงานสำหรับผู้วิจัยที่ทำงานในสายงานระบบรับรู้หรือแยกแยะรูปภาพ
ในงาน Deep Learning Summit 2015 งานสัมมนาเกี่ยวกับการพัฒนาให้คอมพิวเตอร์สามารถรับรู้สิ่งต่างๆ ได้เทียบเท่ากับมนุษย์ ทางฝั่งกูเกิลก็ออกมาโชว์ผลงานของตัวเองในชื่อ Im2Calories ที่สามารถวัดปริมาณแคลอรี่ของอาหารจากภาพถ่ายได้
Kevin P Murphy นักวิจัยกูเกิลที่นำผลงานนี้ไปโชว์ในงานบอกว่า Im2Calories ใช้เทคโนโลยีปัญญาประดิษฐ์ในการวิเคราะห์พิกเซลในภาพถ่ายเพื่อไปทำงานร่วมกับอัลกอริทึมสำหรับเทียบว่าเป็นอาหารชนิดใด และประเมินแคลอรี่จากขนาดของภาพนั้นๆ
การแข่งขันระบบปัญญาประดิษฐ์ที่สามารถจดจำและจำแนกประเภทของภาพได้อย่างแม่นยำในปีนี้แข่งขันกันอย่างดุเดือด โดย ไป่ตู้, ไมโคซอฟท์, และกูเกิลล้วนตีพิมพ์ผลสำเร็จใหม่ออกมาห่างกันไม่กี่เดืือน ล่าสุดเดือนนี้ไป่ตู้ก็ตีพิมพ์ผลงานล่าสุดมีความแม่นยำสูงกว่าคู่แข่งทั้งหมดแล้ว โดยมีความผิดพลาดเพียง 4.58% เทียบกับมนุษย์ทั่วไปที่จำแนกภาพได้ความผิดพลาด 5.1% และผลที่ดีที่สุดของกูเกิลก่อนหน้านี้อยู่ที่ 4.82%
การแข่งขันระบบปัญญาประดิษฐ์ที่สามารถจดจำและจำแนกประเภทของภาพได้อย่างแม่นยำในปีนี้แข่งขันกันอย่างดุเดือด โดย ไป่ตู้, ไมโครซอฟท์, และกูเกิลล้วนตีพิมพ์ผลสำเร็จใหม่ออกมาห่างกันไม่กี่เดือน ล่าสุดเดือนนี้ไป่ตู้ก็ตีพิมพ์ผลงานล่าสุดมีความแม่นยำสูงกว่าคู่แข่งทั้งหมดแล้ว โดยมีความผิดพลาดเพียง 4.58% เทียบกับมนุษย์ทั่วไปที่จำแนกภาพได้ความผิดพลาด 5.1% และผลที่ดีที่สุดของกูเกิลก่อนหน้านี้อยู่ที่ 4.82%
NVIDIA เปิดตัวซอฟต์แวร์สำหรับฝึกโครงข่าย Deep Learning ของตัวเองชื่อว่า Deep Learning GPU Training System (DIGITS) เป็นซอฟต์แวร์เพื่อการสร้างโมเดลโครงข่ายประสาทเทียมแบบลึก (deep neural network - DNN)
DIGITS ทำให้นักวิทยาศาสตร์สามารถออกแบบโครงข่ายประสาทเทียมด้วยตัวเองด้วยการคอนฟิกเครือข่ายว่าต้องการจำรูปร่างแบบใด แล้วใส่ชุดข้อมูลเพื่อฝึกโครงข่ายประสาทเพื่อฝึกให้ได้โมเดลโครงข่ายประสาทเทียมไปใช้งาน ตัวซอฟต์แวร์ DIGITS เป็นโอเพนซอร์สสามารถดาวน์โหลดแบบคอมไพล์แล้วจาก NVIDIA หรือเอาโค้ดจาก GitHub มาแก้ไขเองก็ได้