TensorFlow ประกาศเปิดตัววิชาเรียนฟรี 2 ชุดพร้อมกันบนสองแพลตฟอร์ม คือ Coursera และ Udacity
บน Coursera คือวิชา Intro to TensorFlow for AI, ML and DL เป็นการสอน TensorFlow ระดับเริ่มต้น เวลารวมชั่วโมงกว่าๆ เท่านั้น โดยวิชานี้เป็นวิชาแรกในชุดวิชา TensorFlow: from Basics to Mastery ที่จะเปิดวิชาอื่นเพิ่มภายหลัง
PyTorch ไลบรารี deep learning จากค่าย Facebook ออกเวอร์ชัน 1.0 stable แล้ว หลังออกเวอร์ชัน 1.0 dev มาตั้งแต่เดือนพฤษภาคม และรุ่นพรีวิวก่อนตัวจริงเมื่อเดือนตุลาคม
PyTorch เป็นไลบรารีที่พัฒนาจาก Torch ที่ได้รับความนิยมในสายงานวิจัย แต่รองรับภาษา Python เป็นหลัก ทำให้ใช้งานง่ายกว่า Torch (ที่เขียนด้วย Lua เป็นหลัก) ทีมพัฒนาหลักของ PyTorch คือพนักงานของ Facebook และเป็นไลบรารีที่ได้รับความนิยมมากขึ้นเรื่อยๆ ในช่วงหลัง โดยเป็นโครงการที่เติบโตเร็วเป็นอันดับสองบน GitHub (อันดับหนึ่งคือ Azure Docs)
ช่วงนี้เป็นมีการประชุมวิชาการ NeurIPS 2018 ( ที่เพิ่งเปลี่ยนชื่อย่อไป) Andrew Ng ก็ระบุว่าเป็นการครบรอบ 10 ปีพอดี ที่รายงานวิจัย "Learning Large Deep Belief Networks using Graphics Processors" ตีพิมพ์ออกมา ถือเป็นจุดเปลี่ยนของการใช้ชิปกราฟิกเพื่อรันโมเดลปัญญาประดิษฐ์
การใช้ชิปกราฟิกรันโมเดลปัญญาประดิษฐ์ทำให้โมเดลที่เคยมีขนาดเล็ก ใช้งานได้จำกัด สามารถขยายเป็นขนาดใหญ่ที่มีประโยชน์มากกว่า สามารถใช้งานที่ซับซ้อน
เฟซบุ๊กเปิดตัว PyTorch 1.0 ตั้งแต่เดือนพฤษภาคมที่ผ่านมา โดยตอนนี้ก็ยังเป็นเพียงรุ่นพรีวิวอยู่ อย่างไรก็ตามที่งาน PyTorch Developer Conference เมื่อวานนี้ก็มีการประกาศความก้าวหน้าของโครงการเพิ่มเติม
ฟีเจอร์ที่เพิ่มมาคือการทำงานในโหมด eager ที่ช่วยให้นักพัฒนาสามารถทดลองกับกราฟประมวลผลได้ง่ายขึ้น และมีการปรับปรุงไลบรารี torch.distributed โดยตอนนี้รองรับทั้ง Python และ C++
NVIDIA เผยแพร่งานวิจัย Video-to-Video Synthesis หรือ vid2vid โครงการสังเคราะห์วิดีโอในรูปแบบต่างๆ โดยมีความเหนือกว่าโมเดลเดิมๆ คือสามารถสร้างวิดีโอความละเอียดสูงระดับ 2K (2018x1024)
นักวิจัยลองฝึกโมเดลด้วยชุดข้อมูลต่างๆ เช่น ชุดข้อมูล Cityscape มาจัดส่วนต่างๆ ของภาพ (segmentation) ด้วย Mask R-CNN แล้วฝึกให้โมเดลสร้างวิดีโอจากภาพ segmentation ผลที่ได้คือวิดีโอที่สามารถแปลงสภาพแวดล้อม จากพื้นถนนปูนให้เป็นพื้นอิฐ หรือแปลงสภาพแวดล้อมจากต้นไม้ให้เหลือแต่ตึก
การใช้ปัญญาประดิษฐ์สร้างหนังโป๊โดยใส่หน้าคนดังเข้าไปแทนที่ตัวแสดงจริง นับเป็นปัญหาใหม่ของโลกในช่วงปีที่ผ่านมา จากเทคโนโลยี Deep Learning ที่สามารถเปลี่ยนใบหน้าคนแสดงได้เริ่มสมจริง การนำภาพคนดังไปใส่ในวิดีโอกลายเป็นสิ่งที่คนทั่วไปสามารถทำได้เองหากสามารถรวบรวมข้อมูลได้มากพอ จนเว็บต่างๆ นับแต่เว็บโป๊จนถึงเว็บบอร์ดอย่าง Reddit ต้องแสดงท่าทีจัดการเนื้อหาเช่นนี้ ตอนนี้บริษัทหนังโป๊อย่าง Naughty America ก็หันมาทำธุรกิจจากเทคโนโลยีนี้แทน
กูเกิลเปิดตัวชิป Edge TPU สำหรับการพัฒนาปัญญาประดิษฐ์ในอุปกรณ์ IoT ขนาดเล็กเช่นกล้องวงจรปิด สำหรับการตรวจจับการจราจรโดยไม่ต้องส่งภาพกลับไปยังศูนย์กลาง
สำหรับฝั่งซอฟต์แวร์ Cloud IoT Edge เป็นชุดซอฟต์แวร์ที่สามารถรันได้บน Android Things หรือลินุกซ์อื่นๆ โดยมันมาพร้อมกับ Edge ML รันไทม์สำหรับรัน TensorFlow Lite มันสามารถรันบนซีพียู หรือเร่งความเร็วด้วยกราฟิกหรือ TPU ก็ได้
ตัวชิปจะมาพร้อมกับบอร์ดจาก NXP ให้สั่งได้ภายในเดือนตุลาคมนี้
ที่มา - Google Blog
บริการ AutoML เปิดตัวตั้งแต่ต้นปีที่ผ่านมา ทำให้คนทั่วไปสามารถสร้างโมเดล deep learning ได้โดยไม่ต้องมีความรู้เฉพาะทาง เพียงแต่จัดรูปข้อมูลให้ถูกต้องก็เพียงพอ ตอนนี้บริการเข้าสู่สถานะเบต้าทำให้คนทั่วไปสามารถเข้าใช้งานได้แล้ว โดยเปิดตัวพร้อมกัน 3 บริการได้แก่ AutoML Vision จัดหมวดหมู่ภาพ, AutoML Natural Language จัดหมวดหมู่ข้อความ, และ AutoML Translation สร้างโมเดลแปลภาษา
ค่าบริการ AutoML แตกต่างกันไป Vision ค่าเทรนโมเดลชั่วโมงละ 20 ดอลลาร์, Natural Language ค่าเทรนโมเดลชั่วโมงละ 3 ดอลลาร์, ส่วน Translation ค่าเทรนโมเดลชั่วโมงละ 76 ดอลลาร์ ส่วนค่า predict ก็คิดแยกมาอีกต่างหาก
ในช่วงปีที่ผ่านมามีการสร้างโมเดล deep learning แบบ generative adversarial network (GAN) เพื่อ "สร้าง" ภาพหรือข้อมูลใหม่ขึ้นมาเรื่อยๆ โครงการที่สำคัญๆ เช่น deepfakes, งานวิจัยของ NVIDIA ที่สามารถเปลี่ยนฤดูในวิดีโอได้ ตอนนี้งานวิจัยล่าสุดก็เริ่มศึกษาความเป็นไปได้ของการสร้างภาพระดับสายตา จากภาพถ่ายทางอากาศ โดยทีมวิจัยจาก University of California, Merced
ข้อมูลที่ใช้ฝึกเป็นแผนที่จากชุดข้อมูล LCM2015 และใช้ภาพระดับสายตาจาก Geograph API รวม 16,000 ภาพ
ทีมวิจัยจาก MIT สร้างโมเดล deep learning ที่ชื่อว่า PixelPlayer ที่สามารถแยกเสียงเครื่องดนตรีในเพลงออกมาทีละชิ้น เปิดทางให้เราสามารถปรับปรุงคุณภาพเพลงเก่าๆ ที่มิกซ์เสียงมาแล้วได้
NVIDIA สร้างโมเดล deep learning ที่สามารถเติมเฟรมให้กับวิดีโอจนกลายเป็นวิดีโอสโลโมชั่น เปิดทางการอัดวิดิโอธรรมดาแล้วมาสร้างเป็นวิดิโดสโลโมชั่นภายหลัง โดยไม่ต้องเสียพื้นที่จัดเก็บวิดีโอขนาดใหญ่
ข้อมูลเริ่มต้นใช้วิดีโอที่อัดมาที่ 240 เฟรมต่อวินาที จำนวน 11,000 ชุด มาฝึก
โมเดลของ NVIDIA มีจุดเด่นคือสามารถสร้างเฟรมแทรกกลางระหว่างเฟรมได้จำนวนมากๆ ทำให้สามารถทำให้วิดีโอช้าลง จาก 30 เฟรมต่อวินาทีกลายเป็นช้าลง 8 เท่าเป็น 240 เฟรมต่อวินาทีได้เลย
ที่มา - NVIDIA
ช่วงต้นเดือนพฤษภาคมที่ผ่านมา Google ได้โชว์ผลงานวิจัยพัฒนาหลายอย่างในงาน Google I/O 2018 ซึ่งหนึ่งในนั้นก็คืองานพัฒนาปัญญาประดิษฐ์โดยใช้ Deep Learning สร้างโมเดลเพื่อการทำนายว่าผู้ป่วยจะเสียชีวิตในเวลาใด โดยอาศัยข้อมูลต่างๆ ของร่างกายผู้ป่วยมาใช้ในการวิเคราะห์ ทั้งนี้จากการทดสอบในหลายโอกาสพบว่าการทำนายมีความแม่นยำสูงกว่า 90% ซึ่งตอนนี้ Google ก็ได้เปิดเผยเอกสารงานวิจัยผ่านทาง Nature ให้คนที่สนใจเข้าไปดูรายละเอียดเพิ่มเติมได้แล้ว
ในการทดลองนี้ได้ใช้ neural networks แบบ LSTM มาเรียนรู้แบบจำลองภาษาระดับอักขระจากวรรณคดีเรื่องพระอภัยมณีที่มีประมาณสองล้านตัวอักษร โดยเมื่อเรียนรู้แล้วแบบจำลองภาษาให้ค่า bit per character ในชุดข้อมูลทดสอบเท่ากับ 2.0631
เมื่อให้แบบจำลองนี้ทำการผลิตลำดับของตัวอักษรตามความน่าจะเป็นที่ได้จากการเรียนรู้มา พบว่าผลลัพธ์ที่ได้มีความละม้ายคล้ายคลึงกับบทกลอนที่อยู่ในวรรณคดีเรื่องพระอภัยมณีอยู่พอสมควร ในด้านฉันทลักษณ์มีการจัดวรรคตอนได้ถูกต้อง จำนวนพยางค์ในแต่ละวรรคตรงตามข้อกำหนด และมีสัมผัสใน
Facebook เผยแพร่งานวิจัย ของระบบในการแก้ไขภาพถ่าย ที่ผู้ถูกถ่ายภาพเผลอหลับตา โดยสามารถเติมดวงตาเข้าไปได้ด้วย AI อาศัยข้อมูลพื้นฐานจากภาพถ่ายอื่นประกอบ ซึ่งแตกต่างจากงานแก้ไขภาพแบบอื่น ที่มักอาศัยองค์ประกอบโดยรอบในภาพ แต่หากคนในภาพหลับตาแล้ว ก็จำเป็นต้องใช้ข้อมูลอดีตมาช่วย
วิธีการแก้ไขภาพนี้อาศัยเครือข่ายแบบ Generative Adversarial Networks (GAN) ทำให้เรียนรู้ได้ว่าดวงตาที่ควรนำไปใส่ในภาพที่ต้องการแก้ไข เป็นของใคร และควรปรับสี และรูปทรงให้เข้าภาพนั้นอย่างไร
Google Translate ประกาศอัพเดต โดยเพิ่มการแปลภาษาแบบออฟไลน์สำหรับแอปมือถือด้วย Neural Machine Translation ใน 59 ภาษา ที่ทำให้การแปลระดับประโยคถูกต้องมากขึ้น (จากที่แปลเป็นคำ) ซึ่งปัจจุบันวิธีการนี้มีใช้แล้วอยู่ในแบบออนไลน์ แต่ในระดับออฟไลน์ยังไม่มี
The Linux Foundation มูลนิธิผู้ดูแลเคอร์เนลลินุกซ์เปิดตัวโครงการย่อย LF Deep Learning Foundation สำหรับดูแลโครงการทางด้านปัญญาประดิษฐ์, คอมพิวเตอร์เรียนรู้ได้ (machine learning), และ deep learning
ช่วงหลังๆ Linux Foundation เปิดโครงการย่อยมาดูแลโครงการกลุ่มต่างๆ อยู่เรื่อยๆ เช่นโครงการ Hyperledger ที่ดูแลโครงการด้านบล็อคเชน, โครงการ Let's Encrypt หรือ Node.js ก็เป็นโครงการภายใต้มูลนิธิเช่นกัน
ตอนนี้ยังไม่มีโครงการใดเข้ามาอยู่ใต้ LF Deep Learning Foundation อย่างเป็นทางการ
ก่อนหน้านี้ ทีม DeepMind ของกูเกิลประกาศสร้าง AI ด้านวิดีโอเกม (ร่วมมือกับ Blizzard) ล่าสุดมีงานวิจัยชิ้นหนึ่งของ DeepMind เผยแพร่ออกมา แสดงให้เห็นแนวทางบางอย่างแล้ว
ช่วงหลังงานวิจัยด้าน Deep Learning เริ่มมาในทาง reinforcement learning หรือการให้ AI หัดเรียนรู้ด้วยตัวเอง (จากข่าว AlphaGo Zero ที่หัดเล่นโกะเองโดยไม่ต้องพึ่งพามนุษย์) รายละเอียดของเทคนิคนี้คือ ผู้สร้าง AI จะต้องสร้างระบบแรงจูงใจ (reward) เพื่อชักจูงให้ AI ให้ลองทำในสิ่งที่สอดคล้องกับกฎของเกม และ AI จะค่อยๆ ลองผิดลองถูกไปเรื่อยๆ จนเอาชนะเกมนั้นได้สำเร็จ
หัวข้อหนึ่งที่น่าสนใจในงาน Google I/O 2018 คือ TensorFlow Lite เอนจินสำหรับประมวลผล deep learning ในอุปกรณ์พกพา ที่ทำงานได้ทั้งบน Android, iOS และลินุกซ์
กูเกิลเปิดตัว TensorFlow Lite ตั้งแต่งาน I/O ปี 2017 แต่ตอนนั้นยังไม่ค่อยมีใครเห็นภาพมากนักว่ามันคืออะไร เป้าหมายมีไว้ทำไม แต่เมื่อเวลาผ่านมาอีก 1 ปี ความชัดเจนก็เริ่มตามมา
Waymo บริษัทลูกของ Alphabet ขึ้นนำเสนอในงาน Google I/O เป็นครั้งแรก โดยย้ำว่าจะเปิดบริการจริงภายในปี 2018 นี้
สิ่งที่น่าสนใจคือ Waymo เล่าว่าพัฒนาอัลกอริทึมของตัวเองได้อย่างรวดเร็ว เพราะได้หน่วยงานอื่นภายในกูเกิลช่วยสนับสนุน ตั้งแต่ได้ทีม Google Brain ร่วมพัฒนาระบบ AI ช่วยให้ตรวจจับคนข้ามถนนได้ดีขึ้นถึง 100 เท่าจากเดิม, ใช้หน่วยประมวลผล TPU ของกูเกิลช่วยให้ประมวลผลได้เร็วขึ้น 15 เท่า, สามารถรันซิมูเลชันจากข้อมูลของตัวเอง ได้ผลเทียบเท่ากับการใช้รถยนต์วิ่งจริง 25,000 คันต่อวัน
สถาบัน MIT เปิดเนื้อหาวิชา "6.S191: Introduction to Deep Learning" เรียนรู้การสร้างซอฟต์แวร์แบบ machine learning ด้วยเทคนิค deep learning เบื้องต้น ให้คนทั่วไปเข้าถึงได้ฟรี โดยเปิดเผยทั้งวิดีโอเลคเชอร์, สไลด์เนื้อหา และที่แล็บสำหรับฝึกการใช้งาน TensorFlow เบื้องต้น
กูเกิลเปิดตัว AutoML มาตั้งแต่งาน Google I/O ปีที่แล้ว และเปิดเป็นบริการ Cloud AutoML ในภายหลัง โดยที่ยังไม่มีใครรู้ถึงศักยภาพของมันนัก แต่ล่าสุดกูเกิลก็ยกตัวอย่างงานของ Kenji Doi นักวิทยาศาสตร์ข้อมูลจากบริษัท NTT ที่สร้างโมเดล deep learning สำหรับแยก "สาขา" ของร้าน Jiro Ramen ในญี่ปุ่นที่มีถึง 41 สาขาทั่วประเทศ
เขาดูดภาพจาก Twitter และ Instagram สร้างชุดข้อมูลชุดแรก 33,130 ภาพ โดย ไม่มีข้อมูลว่าเขาสร้างชุดข้อมูลที่เหลืออย่างไร
NVIDIA เปิดตัวเซิร์ฟเวอร์ DGX-2 สำหรับงาน deep learning โดยเฉพาะ โดยภายในเซิร์ฟเวอร์เป็นการ์ด Tesla V100 รุ่นแรม 32GB สูงสุด 16 ชุด เชื่อมต่อกันด้วย NVIDIA NVSwitch อัตราการส่งต่อข้อมูล 2.4TB/s
พลังประมวลผลรวมของ DGX-2 สูงกว่า 2 petaFLOPS (สำหรับงาน deep learning ที่ precision ต่ำ) แรมของชิปกราฟิกทั้ง 16 ชุดจะมองเป็น memory space เดียวกันรวม 512GB ตัวซีพียูหลักใช้ Xeon Platinum สองชุด หน่วยความจำหลัก 1.5TB และ NVMe SSD อีก 30TB
หน่วยความจำขนาดใหญ่เปิดทางให้สามารถฝึกโมเดลสำหรับภาพความละเอียดสูง เช่น ResNet-152 สำหรับภาพขนาดใหญ่ หรือโหลดโมเดล FAIRSeq lสำหรับการแปลภาษาขึ้นไปไว้บนหน่วยความจำทั้งหมด ทำให้ลดเวลาการฝึกโมเดลลงมาก โดยใช้เวลาเพียง 2 วัน จากเดิมใช้มากกว่านี้สิบเท่า
ปัญหาการโกงเกมทำให้เกมดีๆ หลายเกมกลายเป็นเกมน่าเบื่อเพราะไม่สามารถจัดการคนโกงได้ เกมที่มีผู้เล่นจำนวนมากอย่าง CS:GO ก็ติดปัญหานี้มายาวนาน แต่ทาง Valve ก็ออกมาเปิดเผยปัญญาประดิษฐ์ที่ใช้สำหรับการจัดการผู้เล่นโกงในช่วงหลัง ในชื่อว่า VACnet
VACnet เป็นเครือข่ายนิวรอนแบบ deep learning ที่จับพฤติกรรมการโกงเกม โดยจับพฤติกรรมเฉพาะบอตสำหรับช่วยเล็ง (aim bot) ทำให้สามารถจำกัดข้อมูลสำหรับป้อนให้ deep learning ได้
ข้อมูลที่ป้อนให้ VACnet คือความเคลื่อนไหวของการเล็ง 0.5 วินาทีก่อนยิง ว่ามีการเคลื่อนไหว x,y อย่างไรบ้าง และผลของการยิงว่าเป็นอย่างไร เข้าเป้า, พลาด, หรือยิงถูกหัว (headshot) ข้อมูลถูกรวมกันเป็นชุด 140 ชุด เพื่อจับว่าผู้เล่นคนหนึ่งเป็นคนโกงหรือไม่
IBM เปิดตัวบริการใหม่ Deep Learning as a Service หรือ DLaaS ภายใต้บริการ Watson Studio ซึ่งเป็นโซลูชั่นช่วยในการจัดการ workflow ของ machine learning และเทรนโมเดล
ไอเดียของ DLaaS ของ IBM คือการเน้นช่วยภาคธุรกิจในการทำเครื่องมือ machine learning ได้ง่ายขึ้น โดยมีเครื่องมือให้นักพัฒนาสามารถสร้างโมเดลจากโอเพ่นซอร์สเฟรมเวิร์ค deep learning ที่เคยใช้ (เช่น TensorFlow, PyTorch) โดยเครื่องมือเหล่านี้เป็นเซอร์วิสแบบ cloud-native รวมถึงนักพัฒนาสามารถใช้ Rest API มาตรฐานสำหรับการเทรนโมเดลได้ด้วยทรัพยากรที่ต้องการ รวมถึงอินเตอร์เฟสก็มีหลากหลายรูปแบบให้เลือกใช้งานตามความถนัด ซึ่งคนที่ไม่ถนัดการโค้ดสามารถใช้ Neural Network Modeler ลากวางได้เลย ระบบหลังบ้านจะจัดการโค้ดให้เอง
สวัสดีครับ ผมเป็นนักเรียน MBA อยู่ที่ University of Michigan พอดีได้มีโอกาสมาร่วมโครงการฝึกงานสั้นๆ ที่เมืองซีแอตเทิล เลยถือโอกาสแวะร้าน Amazon Go ร้านสะดวกซื้อไร้แคชเชียร์ที่เพิ่งเปิดตัวสู่สาธารณะเมื่อเดือนมกราคม 2018 และเก็บบรรยากาศมาให้ชมครับ
ตัวร้านตั้งอยู่ใจกลางเมืองซีแอตเทิล ใกล้กับอาคาร Amazon Day 1 และอาคาร The Spheres สามารถค้นหาใน Google Maps เดินทางและหาไม่ยาก