กูเกิลเปิดให้บริการ Google Duplex ฟีเจอร์ที่ให้ผู้ใช้ Google Assistant ช่วยคุยโทรศัพท์เป็นเลขาแทนเราตั้งแต่ต้นปีที่ผ่านมา ทั้งบน Android และ iOS (จำกัดพื้นที่ในสหรัฐฯ) ฟีเจอร์นี้เปิดตัวครั้งแรกในงาน Google I/O ปี 2018 และเป็นที่ฮือฮามาก เพราะสาธิตการให้ Google Duplex คุยโทรศัพท์จองร้านอาหาร และร้านตัดผมได้ โดยปลายสายเป็นคนจริงที่สนทนาด้วย
อย่างไรก็ตามผลทดสอบของ The New York Times พบว่า Google Duplex ยังไม่สมบูรณ์แบบนัก หลายครั้งต้องใช้คนจริงเข้ามาช่วยสนทนาแทน
กูเกิลเผยแพร่งานวิจัยประกาศความสำเร็จในการสร้างโมเดลปัญญาประดิษฐ์ที่สามารถวินิจฉัยการถ่ายภาพรังสีส่วนตัดอาศัยคอมพิวเตอร์ (computerized tomography - CT) เพื่อหามะเร็งปอด ที่เป็นระบบอัตโนมัติที่ดีที่สุดในตอนนี้ สามารถวินิจฉัยจากชุดข้อมูล National Lung Cancer Screening Trial เป็นภาพ CT ปอดจากผู้ป่วย 45,856 คน ได้แม่นยำ 94.4%
การวินิจฉัยมะเร็งปอดอาศัยรังสีแพทย์อ่านภาพ CT นับร้อยภาพ โดยมะเร็งระยะเริ่มต้นอาจมีขนาดเล็กจนยากจะหาจากในภาพได้ โมเดลของกูเกิลมองภาพทั้งหมดเป็นโมเดลสามมิติ นอกจากทำนายมะเร็งได้แล้ว ยังสามารถตรวจพบเนื้อเยื่อผิดปกติ และสามารถรับภาพสแกนเดิมเพื่อวินิจฉัยจากความเปลี่ยนแปลงของภาพสแกน
ปีที่แล้วเราเห็น กูเกิลเปิดคอร์สวิชา Machine Learning ที่ใช้สอนพนักงาน ให้คนทั่วไปเรียนฟรีออนไลน์ ออกมาหลายคอร์ส และได้รับความนิยมอย่างมาก
ปีนี้กูเกิลเปิดคอร์ส Machine Learning ชั้นสูง เจาะลึกในด้านต่างๆ เพิ่มมาอีก 3 คอร์ส ได้แก่
กูเกิลนำเสนอสถาปัตยกรรมปัญญาประดิษฐ์สำหรับแปลภาษาในชื่อ Translatotron ที่เป็นการแปลภาษาโดยตรงจากเสียงพูดไปยังเสียงพูด (end-to-end) แทนที่จะเป็นการแปลงเสียงเป็นข้อความ แปลข้อความ แล้วจึงนำมาแปลงเป็นเสียง (cascade) เหมือนเช่นทุกวันนี้
Translatotron เป็นปัญญาประดิษฐ์แบบ sequence-to-sequence โดยนำข้อมูล spectrogram ของเสียงพูดภาษาต้นทางและปลายทาง
อีกหนึ่งฟีเจอร์น่าตื่นเต้นของ Android Q คือ Live Caption ที่สามารถแปลงเสียงเป็นข้อความได้ทั้งเสียงจากในโทรศัพท์และเสียงจากภายนอก ช่วยให้ผู้ที่มีความบกพร่องทางการได้ยินใช้งานโทรศัพท์ได้ง่ายขึ้น
การทำงานของ Live Caption กดปุ่มเดียวให้ระบบตรวจจับเสียงจากที่ต่างๆ ทั้งเสียงที่อัดจากเครื่อง เสียงจากแอพพอดคาสต์ ข้อความเสียง วิดีโอ หรือเสียงอะไรก็ตามที่มาจากแอพอื่นๆ ระบบจะถอดเป็นข้อความแบบเรียลไทม์ โดยไม่ต้องใช้อินเทอร์เน็ต
เรื่อง Speech Recognition ของ Google อาจจะค่อนข้างแม่นยำ จากเสียงหรือคำพูดของคนปกติทั่วไป ทว่าการตรวจจับคำพูดของ AI ก็ยังคงมีปัญหาหากเป็นคำสั่งที่มาจากผู้ที่มีปัญหาด้านการสื่อสาร จากปัญหาด้านระบบประสาทเช่น ผู้ป่วยเส้นเลือดอุดตันในสมองหรือผู้ป่วยกล้ามเนื้ออ่อนแรง (ALS) เนื่องจากไม่สามารถใช้โมเดลเดียวกับคนทั่วไปได้
Google จึงตั้งโปรเจ็ค Euphoria ขึ้นมาวิจัยและพัฒนาอัลกอริทึม AI เพื่อการนี้ โดยร่วมมือกับองค์กรผู้ป่วย ALS เพื่อเก็บข้อมูลเสียงและทำงานร่วมกับผู้ป่วย ALS ก่อน โดยรูปแบบการเทรน ทีมงานจะเปลี่ยนเสียงพูดให้เป็นคลื่นเสียง (spectrogram) เพื่อให้ AI ตรวจจับแพทเทิร์นการพูดและเสียงของผู้ป่วย ซึ่งแตกต่างจากคนธรรมดา
กูเกิลประกาศฟีเจอร์ของ Google Assistant รุ่นต่อไปที่จะมากับโทรศัพท์ Pixel รุ่นใหม่ โดยโมเดลปัญญาประดิษฐ์ถูกย่อลงเหลือไม่ถึง 500MB ทำให้สามารถรันบนโทรศัพท์ได้โดยตรงไม่ต้องส่งข้อมูลเสียงผ่านอินเทอร์เน็ตอีกต่อไป
การทำงานบนโทรศัพท์ทำให้ Assistant ทำงานเร็วขึ้น 10 เท่าตัว สามารถสั่่งงานข้ามแอป เช่น สร้างนัดหมายใหม่ในแอป Calendar, ส่งอีเมล, ตอบแชต, แชร์ภาพ และนอกจากการเชื่อมต่อกับแอปต่างๆ ในโทรศัพท์แล้ว Assistant ยังสามารถเชื่อมต่อกับเว็บด้วยคำสั่งเช่น "เช่ารถสำหรับทริปต่อไป" ตัว Assistant สามารถเข้าเว็บ, กรอกแบบฟอร์มเช่ารถ, และขอยืนยันคำสั่งสุดท้ายจากผู้ใช้โดยอัตโนมัติ
Visual Studio มีฟีเจอร์ IntelliCode ใช้ AI ช่วยแนะนำการเขียนโค้ด มาได้สักพักใหญ่ๆ โดยช่วงแรกยังมีสถานะเป็นรุ่นพรีวิว และยังรองรับแค่ภาษา C# กับโมเดล XAML เท่านั้น
ในงาน Build 2019 ปีนี้ ไมโครซอฟท์ประกาศว่า IntelliCode มีสถานะเป็น GA เรียบร้อยแล้ว พร้อมประกาศฟีเจอร์เพิ่มอีกชุดใหญ่ ตั้งแต่การรองรับภาษาที่เพิ่มขึ้นคือ C++ และ TypeScript/JavaScript (ตอนนี้ยังเป็นรุ่นพรีวิวใน Visual Studio 2019 Version 16.1)
เราเห็น Visual Studio มีฟีเจอร์ใช้ AI ช่วยแนะนำการเขียนโค้ดกันไปแล้ว คราวนี้ Word กำลังจะได้ฟีเจอร์แบบเดียวกันคือใช้ AI ช่วยแก้ไขสำนวนการเขียน
ไมโครซอฟท์นำเทคนิค machine learning มาช่วยเรียนรู้วิธีการเขียนเอกสาร "ที่ดี" ในบริบทต่างๆ และสามารถแก้ไขข้อความ (rewrite) เพื่อให้อ่านง่ายขึ้น หรือใช้คำที่ความหมายคล้ายกันแทน
ก่อนหน้านี้เราอาจต้องค้นหาข้อมูลบนเว็บไซต์ เพื่อดูวิธีการเขียนที่เหมาะสม แต่ตอนนี้ Word สามารถทำได้โดยตัวมันเองเลย เบื้องหลังการทำงานของมันคือ Microsoft Graph ที่มองเห็นวัตถุต่างๆ ภายในเอกสารว่ามีความเชื่อมโยงกันอย่างไร และใช้ AI เรียนรู้จากเทมเพลตเอกสารจำนวนมากเพื่อให้คำแนะนำตรงเป้า
ทุกวันนี้คำว่า DevOps (development + operations) ได้รับความนิยมในวงกว้างมากขึ้น ในวงการ AI เองก็มีคำว่า MLOps (machine learning + operations) ที่เริ่มเป็นที่รู้จักเช่นกัน
สัปดาห์ที่แล้ว ไมโครซอฟท์ประกาศฟีเจอร์ใหม่ของ Azure Machine Learning โดยเน้นที่กระบวนการเทรนโมเดลให้อัตโนมัติมากขึ้น
ฟีเจอร์สำคัญคือการผนวกเอา Azure DevOps โดยเฉพาะด้าน CI/CD มาใช้กับงาน machine learning ด้วย เพื่อให้ตลอดอายุงาน (machine learning lifecycle) ทำงานต่อเนื่อง ตั้งแต่การสร้างโมเดล พิสูจน์การทำงานของโมเดล ดีพลอย และการเทรนซ้ำ
กูเกิลประกาศเปิดฐานข้อมูลสถานที่ทั่วโลก Google-Landmarks v2 เวอร์ชันปรับปรุง เพื่อใช้เทรนนิ่ง AI ให้รู้จักภาพของสถานที่สำคัญต่างๆ
ฐานข้อมูลนี้มีรูปภาพจำนวน 5 ล้านรูปของสถานที่กว่า 200,000 แห่ง ถือว่ามีจำนวนเยอะกว่าเวอร์ชันแรกมาก ในแง่ของความหลากหลายก็มากขึ้น เพิ่มความยากในการเทรนโมเดล AI ให้แยกแยะสถานที่เหล่านี้ได้แม่นยำ กูเกิลยังจัดการแข่งขันบนเว็บไซต์ Kaggle ชุมชนนักพัฒนาสาย AI ให้มาเทรนโมเดลแข่งกันบนข้อมูลชุดนี้ด้วย
ผู้สนใจสามารถดาวน์โหลดได้จาก GitHub ตัวข้อมูลประกอบภาพใช้สัญญาอนุญาตแบบ Creative Commons ส่วนตัวภาพใช้สัญญาอนุญาตที่แตกต่างกันไป
หลายๆ คนคงรู้จัก Google Duplex ผู้ช่วยคุยโทรศัพท์แทนเราที่เปิดให้ใช้งานผ่าน Google Assistant ไปแล้ว ล่าสุด Google เปิดตัว CallJoy ผู้ช่วยอัจฉริยะสำหรับอุตสาหกรรมรายย่อยมาตอบลูกค้าแทนเจ้าของร้านผ่านข้อความแชท แก้ปัญหาคนโทรมาก่อกวน สแปม และเจ้าของกิจการที่ไม่ว่างมารับโทรศัพท์
วิธีการทำงานของ CallJoy คือ เมื่อลูกค้าโทรเข้ามา ระบบจะตอบเป็นข้อความให้ข้อมูลพื้นฐาน เช่นเวลาเปิดปิด เวลาที่คนเยอะ คนน้อย รวมทั้งลิงก์ให้จองที่นั่ง สั่งอาหาร ซึ่งถ้าความต้องการพื้นฐานของลูกค้ามีแค่ เวลาเปิดปิด สั่งจองก็จะสามารถทำผ่าน CallJoy ได้เลยโดยที่พนักงาน เจ้าของร้านไม่ต้องมาตอบด้วยตัวเอง
Australian Securities and Investments Commission (ASIC) หรือกลต. ออสเตรเลียที่มีหน้าที่กำกับดูแลการขายหลักทรัพย์และประกันประกาศจัดหาซอฟต์แวร์วิเคราะห์เสียง และแปลงเสียงเป็นข้อความ (voice analytics and voice to text - VA/VT) เพื่อตรวจสอบเทคนิคการขายประกันของตัวแทน
รัฐบาลออสเตรเลียจัดสรรงบประมาณสำหรับการวางเทคโนโลยีเพื่อการกำกับดูแล (regulartory technology - regtech) เอาไว้ 70 ล้านดอลลาร์ออสเตรเลียหรือประมาณ 1,600 ล้านบาท โดยโครงการของ ASIC นี้จะใช้งบ 6 ล้านดอลลาร์ออสเตรเลียหรือ 135 ล้านบาท
Facebook มีระบบผู้ช่วยอัจฉริยะอยู่แล้วคือ M ใน Facebook Messenger แต่ M ยังไม่สามารถรับคำสั่งเสียงได้ ล่าสุด Facebook กำลังพัฒนาผู้ช่วย AI ที่ผู้ใช้สามารถสั่งการเสียงได้ โดยจะนำมาใช้กับ Portal ฮาร์ดแวร์ของ Facebook และผลิตภัณฑ์ในกลุ่ม Oculus และอาจจะรวมถึงผลิตภัณฑ์อื่นๆ ในอนาคต
กูเกิลปล่อยแอป Pixel Camera รุ่นล่าสุดเพิ่มฟีเจอร์ Photobooth ที่ปัญญาประดิษฐ์จะเข้าคุมชัตเตอร์หลังกดเริ่ม โดยจะพิจารณาถึงความพร้อมของคนในภาพทุกคน
ภาพที่ Photobooth จะถ่ายให้เองแบ่งเป็นภาพเซลฟี่ที่ทุกคนต้องมองกล้อง และภาพจูบที่ไม่ต้องมองกล้องก็ได้
ตัวโมเดลปัญญาประดิษฐ์จะกรองภาพคุณภาพต่ำ เช่น ปิดตา, คุยอยู่, หรือภาพเบลอ จากนั้นจึงมาให้คะแนนของเฟรมแต่ละเฟรม โดยหาคุณภาพของ "การแสดงออกทางใบหน้า" ว่าชัดเจนแค่ไหน หรือคุณภาพของการจูบว่าสูงสุดแล้วหรือยัง
โหมดนี้จะแสดงแถบพลังของคุณภาพภาพให้ผู้ใช้เห็นตลอดเวลา โดยแบ่งออกเป็น 4 ระดับได้แก่
หลังจากพ่ายแพ้ไปอย่างหมดรูปไปในงาน TI8 ที่ผ่านมา แต่วันนี้พวกเขาล้างแค้นได้สำเร็จ เมื่อ OpenAI Five AI สำหรับการเล่นเกม Dota 2 สามารถเอาชนะ OG แชมป์โลกทีมล่าสุด เจ้าของแชมป์รายการ The International 2018 ไปด้วยสกอร์ 2-0 เกม ในงาน OpenAI Five Final แมตช์การแข่งขันต่อหน้าสาธารณชนครั้งสุดท้าย เมื่อกลางดึงคืนวันอาทิตย์ที่ผ่านมาตามเวลาในบ้านเรา
กูเกิลเปิดตัว AI Platform ชุดเครื่องมือที่ทำให้สามารถสร้างระบบงานปัญญาประดิษฐ์ ตั้งแต่ต้นทางถึงปลายทาง (end-to-end) นับแต่การดึงข้อมูลเข้าสู่ระบบ, การพัฒนาโมเดลปัญญาประดิษฐ์, deploy ระบบเพื่อใช้งานจริง
ตัว AI Platform สร้างบนฐานของ Kubeflow แพลตฟอร์มสำหรับฝึกและใช้งานโมเดลของ TensorFlow บน Kubernetes ทำให้ระบบงานที่สร้างขึ้นบน AI Platform สามารถนำมารันบนเซิร์ฟเวอร์ในองค์กรได้ ด้วยการดึง Kubeflow Pipeline ลงมา
นอกจากการใช้พัฒนาระบบงานเองแล้ว AI Platform ยังรองรับการแชร์ระบบให้กับคนอื่นผ่านทาง AI Hub ที่เป็นเหมือนแอปสโตร์สำหรับระบบปัญญาประดิษฐ์
กูเกิลอัพเดตบริการฝึกปัญญาประดิษฐ์อัตโนมัติ หรือ AutoML ให้มี ความสามารถเพิ่มเติมจากเดิมใช้จัดหมวดหมู่ภาพ, จัดหมวดหมู่ข้อความ, และแปลภาษา ให้มีความสามารถในการจัดหมวดหมู่วิดีโอ (AutoML Video) เพิ่มเข้ามาทำนายข้อมูลจากข้อมูลตาราง (AutoML Tables) ที่สำคัญคือกูเกิลเปิดให้ผู้ใช้ดาวน์โหลดตัวโมเดลออกมาใช้งานภายนอกได้แล้วสำหรับงานจัดหมวดหมู่ภาพ (AutoML Vision Edge)
ช่วงหลังเราเห็นชิปเฉพาะทางสำหรับเร่งการประมวลผล AI ออกสู่ตลาดมากขึ้น เช่น TPU ของกูเกิล, โซลูชันของไมโครซอฟท์ที่ใช้ FPGA เข้าช่วย, ชิปสำหรับรถยนต์ไร้คนขับของอินเทล
ล่าสุด Qualcomm เจ้าพ่อชิปมือถือกระโดดลงมาเล่นในตลาดนี้ ด้วยการเปิดตัว Qualcomm Cloud AI 100 ชิปสำหรับประมวลผล AI ในเซิร์ฟเวอร์-ศูนย์ข้อมูล
จากประเด็น Google ตั้งกรรมการที่ปรึกษาเทคโนโลยีขั้นสูงเพื่อดูเรื่องจริยธรรม AI หรือ ATEAC แต่หนึ่งในนั้นมี Kay Coles James ซึ่งประวัติไม่ดีเชิงต่อต้านความหลากหลายทางเพศ ทำให้พนักงาน Google ไม่พอใจ ส่งจดหมายประท้วงเรียกร้องให้ถอดชื่อ James ออก ล่าสุดโฆษกของ Google บอกจะยุบคณะกรรมการดังกล่าวแล้ว
โฆษกของกูเกิลบอกว่า เป็นที่ชัดเจนว่าในสภาพแวดล้อมปัจจุบัน ATEAC ไม่สามารถทำงานได้ตามที่ Google ต้องการ ดังนั้นจึงยุบคณะกรรมการดังกล่าว และกลับไปยังจุดเริ่มต้นอีกครั้ง โดยกูเกิลจะยังคงทำงานด้านจริยธรรม AI ต่อไป
หลังเปิดตัวในงาน Google I/O ปีที่แล้วและเปิดใช้งานก่อนบน Pixel ล่าสุด Google Duplex ฟีเจอร์ที่ให้ Google Assistant คุยโทรศัพท์แทนเราถูกเปิดใช้งานบนแอนดรอยด์รุ่นอื่นๆ และ iPhone แล้ว
ในหน้าซัพพอร์ทระบุว่าอุปกรณ์ที่รองรับต้องเป็นแอนดรอยด์เวอร์ชัน 5.0 ขึ้นไป ขณะที่ iPhone ก็ต้องลงแอป Google Assistant ก่อนด้วย ทั้งนี้ความสามารถหลักๆ ของ Duplex ก็คือการเลียนแบบการพูดของคน ทั้งโทนเสียง, คำพูดไปจนถึงการเว้นช่องไฟของการพูด โดยตัวอย่างการใช้งานหลักๆ ที่ Google โชว์มาตลอดคือการให้ Google Assistant โทรไปจองที่นั่งร้านอาหารหรือคิวบริการต่างๆ ให้แทนเรา
Call Screen ฟีเจอร์ที่ถูกเปิดตัวมาพร้อม Pixel 3 ที่อาศัยพลังของ Google Duplex ให้ Google Assistant ช่วยรับสายแทน อาจจะกำลังจะถูกนำไปเพิ่มในสมาร์ทโฟนโนเกียและโมโตโรลาเร็วๆ นี้
ผู้ใช้ Reddit รายหนึ่งลองแงะโค้ดของแอป Phone เวอร์ชันเบต้าล่าสุดบน Pixel ของตัวเอง ก่อนจะพบ flag 2 บรรทัด ที่ระบุชื่อ Call Screen และ SpeakEasy ซึ่งเป็นโค้ดเนมของฟีเจอร์นี้ ร่วมอยู่กับชื่อโนเกียและโมโตโรลา โดยถึงแม้ฟีเจอร์นี้จะถูกปิดอยู่ แต่ก็พอจะบอกใบ้ได้ว่า Google มีแผนจะขยายฟีเจอร์นี้ไปยังสมาร์ทโฟนยี่ห้ออื่นที่ใช้ Android One ด้วย (เนื่องจากแอป Phone ของ Google มีเฉพาะบน Pixel และ Android One)
เมื่อประมาณกลางเดือนมีนาคมที่เพิ่งผ่านมา ไมโครซอฟท์ได้ออกอัพเดตครั้งใหญ่ให้กับ Seeing AI แอพช่วยเหลือผู้มีปัญหาด้านการมองเห็น ด้วยการใช้พลังของปัญญาประดิษฐ์เพื่อช่วยวิเคราะห์ภาพที่จับได้จากกล้องบนสมาร์ทโฟน ทำให้ Seeing AI สามารถบรรยายและให้ข้อมูลสิ่งต่างๆ ที่อยู่รอบตัวผู้ใช้งานได้ไม่ว่าจะเป็นบุคคล, วัตถุ หรือข้อความ
ตอนนี้ Google มีการประท้วงอีกแล้ว คราวนี้เป็นการประท้วงเรื่องโครงการ Advanced Technology External Advisory Council หรือ ATEAC เป็นโครงการอิสระที่ Google สร้างขึ้นเพื่อออกแบบแนวจริยธรรม AI โดยในโครงการจะมีผู้เชี่ยวชาญ 8 คนเข้ามานั่งเป็นหัวหน้าจริยธรรมด้านต่างๆ
แต่กลายเป็นว่าส่วนหนึ่งของคนที่ทำหน้าที่ประธานโครงการมีประวัติไม่ดีเชิงต่อต้านความหลากหลายทางเพศ ทำให้พนักงาน Google ไม่พอใจ
กูเกิลตั้งกรรมการที่ปรึกษาเทคโนโลยีขั้นสูง (Advanced Technology External Advisory Council - ATEAC) ที่ประกอบด้วยนักวิจัยในวงการชุดแรก 8 คน มาให้คำปรึกษาถึงการพัฒนาและการใช้เทคโนโลยีปัญญาประดิษฐ์ในสินค้าของกูเกิล
กูเกิลเปิดหลักการปัญญาประดิษฐ์มาตั้งแต่ปีที่แล้ว และจนตอนนี้บริการคลาวด์ของกูเกิลก็ยังไม่มีบริการจดจำใบหน้าแต่อย่างใด โดยก่อนหน้านี้ Kent Walker เคยระบุกับผมว่าที่ไม่เปิดบริการก็เพราะยังไม่มีหลักการที่ชัดเจน
กรรมการชุดเริ่มต้นนี้จะประชุมปีละ 4 ครั้ง เริ่มต้นเดือนเมษายนนี้ โดยกูเกิลคาดว่าจะเปิดเผยผลการประชุมออกมาด้วย