มูลนิธิ VinFuture ที่ก่อตั้งโดยกลุ่ม Vingroup มอบรางวัลประจำปี VinFuture Grand Prize ให้แก่ผู้บุกเบิกวงการปัญญาประดิษฐ์ 5 คน ได้แก่ Yoshua Bengio, Geoffrey E. Hinton, Jensen Huang, Yann LeCun, และ Fei-Feil Li แม้ว่ารางวัลนี้จะเป็นของมูลนิธิเอกชนแต่งานมอบรางวัลก็มอบโดย Pham Minh Chinh นายกรัฐมนตรี และพิธีมอบรางวัลก็ถ่ายทอดสดออกช่อง VTV1 ของรัฐบาล
รางวัลแบ่งออกเป็นสามหัวข้อ ได้แก่
เมื่อเดือนเมษายนที่ผ่านมาทีมวิจัยรวมระหว่าง Massachusetts Institute of Technology, California Institute of Technology, และ Northeastern University นำเสนอรายงานถึงสถาปัตยกรรม Kolmogorov Arnold Networks (KANs) ที่ได้รับแรงบันดาลใจจาก Kolmogorov–Arnold representation theorem โดย KAN อาจจะเป็นแนวทางใหม่ในการสร้าง neural network ที่ขนาดเล็กลงแต่ประสิทธิภาพคงเดิม และทำความเข้าใจโมเดลปัญญาประดิษฐ์ได้ง่ายขึ้นเทียบกับโมเดลที่พารามิเตอร์มหาศาลทุกวันนี้
ในงาน KBTG Techtopia ที่ผ่านมา Andrew Ng และคุณกระทิง เรืองโรจน์ พูนผล ร่วมพูดคุยกับสื่อมวลชนถึงโครงการต่างๆ ที่กำลังสร้าง ecosystem ปัญญาประดิษฐ์ในประเทศไทย และยังได้ร่วมกันแสดงความเห็นถึงประเด็นความเปลี่ยนแปลงในโลกปัญญาประดิษฐ์และการรับมือในอนาคต Blognone สรุปประเด็นต่างๆ ที่มีการพูดคุยในงานไว้แล้วในบทความนี้
ทีมวิจัยของ MIT ประกาศความสำเร็จในการออกแบบยาต้านแบคทีเรีย methicillin-resistant Staphylococcus aureus (MRSA) ในจานเพาะเชื้อได้สำเร็จโดยอาศัยการออกแบบและทำนายประสิทธิภาพจากโมเดลปัญญาประดิษฐ์
โมเดลปัญญาประดิษฐ์ที่ใช้เป็น deep learning ฝึกจากฐานข้อมูลสาร 39,000 แบบพร้อมโครงสร้างทางเคมีเพื่อสร้างโมเดลนำนายว่าสารใดควรมีฤทธิ์ต้านเชื้อโรค นอกจากนี้ทีมงานยังสร้างโมเดลอีก 3 ชุดเพื่อทำนายว่าสารใดเป็นอันตรายต่อมนุษย์ หลังจากนั้นรันโมเดลกับสารประกอบ 12 ล้านแบบเพื่อหาว่าสารใดน่าจะเป็นยาได้
ผลการทำนายพบว่ามีสาร 5 กลุ่มที่น่าจะใช้งานได้ ทีมวิจัยจึงซื้อสารมาทดลองทั้งหมด 280 แบบ ทดลองในจานเพาะเชื้อ พบว่ามีสองแบบที่น่าจะใช้เป็นยาได้จริงๆ
Google DeepMind เปิดตัวปัญญาประดิษฐ์สาย deep learning ตัวใหม่ชื่อ Graph Networks for Materials Exploration (GNoME ไม่เกี่ยวอะไรกับเดสก์ท็อป GNOME) สร้างขึ้นมาเพื่อค้นพบ "คริสตัล" หรือโครงสร้างผลึกชนิดใหม่ๆ ที่เป็นไปได้ในเชิงวัสดุศาสตร์ (material)
การมองหาคริสตัลรูปแบบใหม่ๆ เกิดขึ้นมานานแล้ว การทดลองของมนุษย์สามารถค้นพบได้ราว 20,000 รูปแบบ ภายหลังเมื่อนำเทคนิคทางคอมพิวเตอร์เข้ามาช่วย (Materials Project) สามารถค้นหาได้ 48,000 รูปแบบ แต่ AI แบบเดิมก็มีข้อจำกัดเรื่องความแม่นยำอยู่พอสมควร
Google DeepMind เปิดตัว Synth ID ระบบลายน้ำฝังลงในภาพที่สร้างด้วย AI เพื่อยืนยันว่าเป็นภาพที่ไม่ได้สร้างโดยมนุษย์ ป้องกันปัญหาภาพปลอม-บิดเบือนเหตุการณ์จริง สามารถตรวจสอบย้อนกลับได้
กูเกิลประกาศฟีเจอร์นี้ตั้งแต่งาน Google I/O 2023 และออกผลงานจริงมาเป็น Synth ID ที่พัฒนาโดยทีม DeepMind ร่วมกับ Google Research
DeepLearning.AI แพลตฟอร์มเรียนรู้ปัญญาประดิษฐ์ที่ก่อตั้งโดย Andrew Ng หนึ่งในผู้บุกเบิกวงการ Deep Learning เพิ่มวิชาเรียนด้าน generative AI อีก 3 วิชา ได้แก่
ทุกวิชาเป็นวิชาระดับสั้นมาก ใช้เวลาเพียง 1-1.5 ชั่วโมงเท่านั้น และทาง DeepLearning.AI ระบุว่าจะเปิดให้เรียนฟรีจำกัดเวลาช่วงนี้เท่านั้น
ประเด็นเด่นในสัปดาห์ที่ผ่านมาคือการเปิดตัวแชทบ็อต ChatGPT จาก OpenAI ที่มีความสามารถในการตอบโต้ และค้นหาข้อมูลได้เหมือนมนุษย์ ความโดดเด่นนี้ทำให้มีหลายคนวิเคราะห์ว่าอาจส่งผลลบกับผู้ให้บริการเสิร์ชเอ็นจินรายใหญ่อย่างกูเกิลในระยะยาวได้
CNBC รายงานว่าในการประชุมพนักงาน all-hands ที่ผ่านมาของกูเกิล มีพนักงานสอบถามว่าบริษัทมีแผนจะแข่งขันอย่างไรกับ ChatGPT เพราะดูเหมือนบริษัทอาจพลาดโอกาสที่สำคัญนี้ไป
OpenAI เปิดให้ทดลองคุยกับแชทบ็อต ChatGPT ที่ใช้เอนจิน GPT เวอร์ชัน 3.5 ที่ปรับปรุงเพิ่มขึ้นจาก GPT-3 ที่เปิดตัวในปี 2021
ความสามารถของ ChatGPT เน้นไปที่การสนทนาโต้ตอบ ตอบคำถาม และสามารถยอมรับความผิดพลาดในสิ่งที่ตัวเองสุนทนาได้ ตัวอย่างที่ OpenAI นำมาโชว์คือการใช้ ChatGPT ช่วยหาบั๊กในโค้ดโปรแกรมตัวอย่าง
Mira Murati ซีทีโอของ OpenAI บอกว่าจุดเด่นของ ChatGPT ที่ต่างจากโมเดลสนทนาโต้ตอบตัวอื่นๆ คือการยอมรับได้ว่าไม่รู้ ไม่เข้าใจ หรือตอบผิดพลาดไป ไม่ได้พยายามตอบทุกสิ่งทุกอย่างเหมือนกับโมเดลรุ่นก่อนหน้า
ทีมนักวิจัยจากมหาวิทยาลัยฮาร์วาร์ดและสแตนฟอร์ด ประกาศความสำเร็จในการพัฒนาโมเดลสำหรับการวินิฉัยฟิล์ม X-ray แบบใหม่ในชื่อ CheXZero (คาดว่าน่าจะจงใจให้ล้อกับชื่อ CheXNet ของสแตนฟอร์ด) โดยให้ AI สามารถเรียนรู้จากบันทึกคำวินิจฉัยของแพทย์ในเวชระเบียนโดยตรง
การพัฒนาโมเดลลักษณะนี้ เดิมที AI จำเป็นต้องเรียนรู้จากข้อมูลที่แพทย์ได้ทำการ label ไว้เท่านั้น ยกตัวอย่างเช่น หากต้องการให้ AI เรียนรู้การวินิจฉัย 10,000 ภาพ นักวิจัยต้องได้รับความร่วมมือจากแพทย์รังสีในการอ่านฟิล์มและบันทึก (label) โรคที่ตรวจพบทีละโรคในแต่ละภาพ
Razer เจ้าพ่อแห่งฮาร์ดแวร์เกมมิ่ง ออกโน้ตบุ๊กแบรนด์ย่อย TensorBook ร่วมกับบริษัท Lambda ที่ให้บริการ GPU cloud เพื่อจับตลาดคนใช้งาน deep learning โดยเฉพาะ
TensorBook คือการนำโน้ตบุ๊กเกมมิ่ง Razer Blade 15 (เป็นเวอร์ชันปี 2021 ไม่ใช่ 2022) มาปรับแต่งเล็กน้อย ใส่จีพียูตัวแรงคือ NVIDIA GeForce RTX 3080 Max-Q แรม 16GB เพื่อการันตีประสิทธิภาพของการคำนวณ deep learning ว่าแรงกว่าใคร (ในหน้าเว็บบอกว่าแรงกว่า M1 Max 4 เท่า) ซีพียูเป็น Intel Core i7-11800H ใช้แรม 64GB
TensorBook ปรับดีไซน์ภายนอก โดยเปลี่ยนจากสีดำโลโก้เขียวที่เป็นเอกลักษณ์ของ Razer มาเป็นสีเงิน และใช้โลโก้ของบริษัท Lambda สีม่วงแทน
DeepMind บริษัท AI ในเครือ Alphabet ประกาศความร่วมมือกับสำนักงานอุตุนิยมวิทยาของสหราชอาณาจักร (Met Office) สร้างอัลกอริทึมที่พยากรณ์อากาศได้แม่นยำในช่วงเวลาสั้นๆ (Nowcasting) เช่น บอกล่วงหน้าได้ก่อน 2 ชั่วโมงว่าจะมีฝนตกหรือไม่
โมเดลพยากรณ์อากาศในปัจจุบันใช้ระบบที่เรียกว่า numerical weather prediction (NWP) เป็นการพยากรณ์สภาพอากาศทั้งโลก (planet-scale) ล่วงหน้าเป็นเวลานานหลายวัน ปัญหาของโมเดลแบบเก่าคือพยากรณ์อากาศระยะสั้นไม่ได้
โมเดลใหม่ของ DeepMind เป็นการนำข้อมูลจากเรดาร์ตรวจอากาศความละเอียดสูง วัดค่าบ่อยๆ (เช่น วัดค่าในพื้นที่ 1 ตารางกิโลเมตรทุก 5 นาที) มาใช้พยากรณ์อากาศล่วงหน้าสั้นๆ ไม่เกิน 2 ชั่วโมง
อินเทลและไมโครซอฟท์เผยแพร่งานวิจัยการพัฒนาปัญญาประดิษฐ์ STAMINA (STAtic Malware-as-Image Network Analysis) ที่มีแนวคิดสำคัญคือการสร้างปัญญาประดิษฐ์มาจับมัลแวร์แทนที่การจับจากค่าแฮชหรือความเหมือนของโค้ดแบบเดิมๆ แต่อาศัยโมเดลปัญญาประดิษฐ์แบบ deep learning มาหารูปแบบมัลแวร์แทน
แนวทางของงานวิจัยนี้อาศัยการแปลงภาพชนิดไบต์ต่อไบต์มาเป็นพิเซล จากนั้นย่อภาพให้เหลือขนาดเท่าที่โมเดลปัญญาประดิษฐ์รองรับ โดยใช้โมเดลจัดหมวดหมู่ภาพ Inception v1 ที่ฝึกกับข้อมูล ImageNet มาก่อนแล้วเป็นตัวตั้งต้น จากนั้นออกแบบส่วนท้ายของโมเดลเสียใหม่เพื่อการทำนายว่าเป็นมัลแวร์หรือไม่ แล้วจึงนำโมเดลมา fine tune ด้วยข้อมูลมัลแวร์เกือบห้าแสนตัวผสมเข้ากับไบนารีไม่มุ่งร้าย
Kubeflow ชุดบริการสำหรับการพัฒนาปัญญาประดิษฐ์แบบ deep learning บน Kubernetes ออกรุ่น 1.0 โดยแอปพลิเคชั่นย่อยส่วนสำคัญๆ ได้ออกรุ่นเสถียรออกมาพร้อมกัน ทำให้พร้อมสำหรับการใช้งานจริงแล้ว
แอปพลิเคชั่นย่อยที่พร้อมใช้งานบนโปรดักชั่นแล้ว ได้แก่
กูเกิลร่วมกับโรงพยาบาล Apolllo สร้างชุดข้อมูลภาพเอกซเรย์พร้อมป้ายกำกับ โดยภาพจากทางโรงพยาบาลอยู่ในบันทึกการรักษาที่ไม่ได้ติดป้ายกำกับพร้อมสำหรับการใช้ฝึกปัญญาประดิษฐ์
แนวทางของกูเกิลคือการใช้ปัญญาประดิษฐ์อ่านข้อความไปอ่านบันทึกการรักษาเพื่อสร้างป้ายกำกับภาพเอกซเรย์ปอดอีกที กระบวนการนี้ทำให้ได้ภาพพร้อมป้ายกำกับถึง 560,000 ภาพ จากนั้นนำภาพบางส่วนให้รังสีแพทย์มาตรวจสอบอีกครั้งเพื่อให้แน่ใจว่าคุณภาพชุดข้อมูลดีพอ
AWS เปิดตัวบริการ AWS DeepComposer บริการปัญญาประดิษฐ์ช่วยแต่งเพลง โดยผู้แต่งเพียงแต่งทำนองหลักเท่านั้น ที่เหลือโมเดลปัญญาประดิษฐ์จะเล่นเครื่องดนตรีอื่นๆ ให้เข้ากันอัตโนมัติ
DeepComposer ขายคู่กันทั้งคีย์บอร์ด MIDI ขนาด 32 คีย์และบริการคลาวด์ แม้บริการจะไม่จำเป็นต้องใช้คีย์บอร์ด แต่แต่งเพลงผ่านคีย์บอร์ดบนจอภาพได้ก็ตาม
โมเดลปัญญาประดิษฐ์มีให้เลือกแต่งเพลงได้ 4 สไตล์ ได้แก่ ร็อก, ป๊อบ, แจ๊ส, และคลาสสิค นอกจากนั้นยังสามารถปรับโมเดลเป็นรูปแบบเพลงเฉพาะตัวได้
บริการคิดค่ารันเป็นรายชั่วโมง ตอนนี้ยังอยู่ช่วงทดสอบวงปิดเท่านั้น
ที่มา - AWS Blog
Amazon เปิดตัวชุดพัฒนารถไร้คนขับจิ๋ว DeepRacer Evo ที่เป็นรถขนาด 1/18 แต่มีคอมพิวเตอร์ในตัวสำหรับประมวลผลปัญญาประดิษฐ์เพื่อสร้างระบบควบคุมอัตโนมัติ โดยรุ่น Evo นี้จะต่างจากรุ่นแรกที่เปิดตัวปีที่แล้ว คือเพิ่มเซ็นเซอร์ LIDAR สำหรับการวัดระยะห่างจากรอบข้าง และกล้องหน้ากลายเป็นกล้องคู่สำหรับเก็บภาพสามมิติ
นอกจากการอัพเดตตัวรถจริงแล้ว DeepRacer Console บริการจำลองรถและสนาม สำหรับฝึกปัญญาประดิษฐ์ก็อัพเดตฟีเจอร์เหล่านี้พร้อมกัน
ตัวรถจะขายจริงต้นปี 2020 โดยยังไม่ระบุราคา ผู้ที่ซื้อรุ่นเดิมไปแล้ว จะมีชุดเซ็นเซอร์ขายแยกให้ไปอัพเกรดด้วย
เฟซบุ๊กรายงานงานวิจัยการบีบอัดวิดีโอที่อาศัยการลดความละเอียดของภาพนอกส่วนที่ผู้ใช้กำลังจ้องมอง (foveated rendering) โดยอาศัยโมเดล deep learning ที่ชื่อว่า DeepFovea มาสร้างภาพความละเอียดเต็มจากอินพุตที่ลดความละเอียดภาพนอกส่วนสำคัญ
DeepFovea สามารถสร้างภาพความละเอียดเต็มจากข้อมูลพิกเซลเพียงเล็กน้อย ประมาณ 6-10% ของพิกเซลรวมในภาพต้นฉบับ
แนวทางการบีบอัดภาพนี้อาศัยความจริงที่ว่ามนุษย์เรารับรู้ภาพความละเอียดสูงเพียงมุมภาพแคบๆ ประมาณ 5.2 องศาตรงกลางภาพเท่านั้น หรือคิดเป็นจำนวนพิกเซล 4% ของพิกเซลทั้งหมดที่จอภาพต้องเรนเดอร์ภาพออกมา
กูเกิลอธิบายถึงสถาปัตยกรรมของการใช้ deep learning ในฟีเจอร์ Live Caption ที่เป็นการทำคำบรรยายเสียงในจากโทรศัพท์ทั้งหมด โดยใช้โมเดล deep learning ทำหน้าที่ต่างกันถึง 3 ชุดในฟีเจอร์นี้
โมเดลแรกที่รันอยู่ตลอดเวลาที่ฟีเจอร์ทำงานคือโมเดลจัดหมวดหมู่เสียง (sound event recognition) โดยภายในเป็นโมเดลแบบ convolutional neural network (CNN) ทำหน้าที่จัดหมวดหมู่ว่าเสียงตอนนี้เป็นเหตุการณ์แบบใด เช่น เสียงหัวเราะ, เสียงดนตรี, หรือเป็นเสียงพูด
กูเกิลประกาศเริ่มใช้งานโมเดลประมวลภาษาธรรมชาติ (natural language processing - NLP) แบบ deep learning ที่บริษัทโอเพนซอร์สออกมาเมื่อปีที่แล้วที่ชื่อว่า BERT ในการทำความเข้าใจคำค้นใน Google Search เพื่อให้เข้าใจความหมายของวลีที่ผู้ใช้กำลังค้นหาได้ดีขึ้น
ก่อนหน้านี้ผู้ใช้มักพยายามเพิ่มคำสำคัญที่ถูกต้อง เพราะเว็บค้นหามักใช้คำเหล่านี้ค้นฐานข้อมูล โดยไม่ได้ใช้คำขยายหรือคำบุพบทมาเป็นส่วนสำคัญ แต่การประมวลผลแบบ NLP ทำให้กูเกิลเข้าใจคำค้นได้ตรงความต้องการแม้จะค้นเหมือนพูดคุยกับคนอยู่ก็ตาม
Hao Li ผู้ช่วยศาสตราจารย์ด้านคอมพิวเตอร์กราฟิกจาก University of Southern California และผู้อำนวยการห้องวิจัยกราฟิกและการมองเห็นให้สัมภาษณ์กับช่อง CNBC ว่าเขาเชื่อว่าเทคโนโลยี Deepfake ที่ใช้แปลงใบหน้าคนลงบนวิดีโออื่นนั้นจะไปสู่จุดที่คนทั่วไปสามารถสร้างวิดีโอที่สมจริงได้ภายในระยะเวลา 6 เดือนถึง 1 ปีข้างหน้า
Hao ระบุว่าด้วยเทคโนโลยีปัจจุบันก็เพียงพอที่จะสร้างวิดีโอที่น่าเชื่อถือได้อยู่แล้ว แต่สำหรับโปรแกรม Deepfake ที่แจกออกมานั้น คนทั่วไปยังคงสามารถมองออกได้โดยง่ายว่าเป็นวิดีโอปลอม
อินเทลเปิดตัวบอร์ด Pohoiki Beach บอร์ดพัฒนาที่เป็นชิป Loihi จำนวน 64 ชิป แต่ละชิปมีคอร์ 128 คอร์ ทำให้ตัวบอร์ดสามารทำงานเทียบเท่าสมองที่มีขนาด 8 ล้านนิวรอน และคาดว่าจะสามารถพัฒนาบอร์ดที่จำลองการทำงานสมองขนาด 100 ล้านนิวรอนได้ในปีนี้
บอร์ด Pohoiki Beach ไม่ได้วางขาย แต่ส่งมอบให้กับกลุ่มนักวิจัย โดยตัวชิป Loihi เองก็เปิดตัวมาตั้งแต่ปี 2017
อินเทลยังอยู่ระหว่างการทดสอบแนวทาง neuromorphic-computing ว่ามีแนวทางการใช้งานที่เหมาะกับการค้าหรือไม่ แม้ว่าผลตอนนี้จะสามารถสาธิตได้ว่าใช้พลังงานน้อยกว่าชิปกราฟิกอย่างมาก แต่สามารถประมวลผลตามเวลาจริงได้
เราเคยเห็นโมเดลการสร้างวิดีโอปลอม หรือคลิปเสียงปลอม ที่พัฒนาจากการเทรนข้อมูลคลิปวิดีโอและคลิปเสียงจำนวนมาก หรือ Deepfake แต่งานวิจัยล่าสุดที่เผยแพร่โดย Samsung AI Center สามารถพัฒนาผลลัพธ์ได้ไกลกว่านั้น โดยอาจใช้ข้อมูลเริ่มต้นด้วยรูปภาพเพียง 1 รูปเท่านั้น
รูปแบบการสร้างคลิปดังกล่าว อาศัยการเทรนข้อมูลคลิปวิดีโออื่นที่เป็นการถ่ายเจาะเฉพาะใบหน้าจำนวนหนึ่งก่อน จากนั้นจับเฉพาะตำแหน่งสำคัญบนใบหน้าเพื่อใช้ในการสร้างคลิปวิดีโอ เช่น คิ้ว ตา จมูก ปาก เมื่อเราให้ข้อมูลภาพถ่ายใบหน้า ก็สามารถสร้างวิดีโอปลอมขึ้นมา โดยอาศัยการจับตำแหน่งสำคัญเหล่านั้น แล้วทำการขยับส่วนต่าง ๆ บนใบหน้าออกมานั่นเอง
AWS เปิดตัวฟีเจอร์ใหม่ Deep Learning Containers หรือ DL Containers เป็นฟีเจอร์ที่ AWS จะทำอิมเมจของ Docker สำหรับใช้งานประเภท deep learning พร้อมกับคอนฟิกด้านในอิมเมจไว้ให้เรียบร้อย เพื่อให้หยิบมาใช้งานได้โดยไม่ต้องเริ่มทำอิมเมจเองใหม่ตั้งแต่ต้น
สำหรับอิมเมจเหล่านี้ AWS ได้ทำการคอนฟิกให้เรียบร้อยแล้ว เพื่อให้ผู้ใช้หยิบมาใช้งานได้เลย ทั้งผ่าน ECS, EKS หรือ EC2 ในเวลาเพียงไม่กี่นาที ซึ่งอิมเมจเหล่านี้มีให้เลือกบน AWS Marketplace และ ECR ซึ่งผู้ใช้สามารถนำมาใช้โดยไม่มีค่าใช้จ่ายเพิ่มเติม ซึ่งจะนำมาใช้เลยก็ได้ หรือจะคอนฟิก, ใส่ไลบรารี, ใส่แพคเกจเพิ่มก็ได้เช่นกัน
สองปีก่อนกูเกิลเคยเสนองานวิจัย AutoML ที่สามารถ "ออกแบบ" โมเดล deep learning สำหรับงานเฉพาะทางได้โดยไม่ต้องอาศัยนักวิจัยมานั่งปรับโมเดล แต่ระบบเหล่านี้มักใช้พลังประมวลผลสูงมาก จนคนทั่วไปไม่สามารถลงทุนได้ ล่าสุดทีมวิจัยจาก MIT เสนอแนวทางใหม่ที่สร้างระบบออกแบบโมเดลโดยใช้พลังประมวลผลระดับเดียวกับการฝึกโมเดล deep learning ไม่ได้ต่างกันเป็นร้อยเท่าพันเท่าเหมือนแต่ก่อน
ระบบ neural architecture search (NAS) ที่ใช้ระบบอัตโนมัติออกแบบสถาปัตยกรรม deep learning แต่ระบบนี้อาศัยการปรับปรุงโมเดลไปเรื่อยๆ และฝึกโมเดลใหม่ทุกครั้ง ทำให้กินระยะเวลาประมวลผลสูงมาก