Kolmogorov-Arnold Networks สถาปัตยกรรมใหม่ที่อาจบุกโลก Deep Learning ใช้พารามิเตอร์น้อยกว่า ทำความเข้าใจง่ายกว่า

By: lew

on 6 August 2024 - 00:13 Tags:

Topics:

Deep Learning

Artificial Intelligence

เมื่อเดือนเมษายนที่ผ่านมาทีมวิจัยรวมระหว่าง Massachusetts Institute of Technology, California Institute of Technology, และ Northeastern University นำเสนอรายงานถึงสถาปัตยกรรม Kolmogorov Arnold Networks (KANs) ที่ได้รับแรงบันดาลใจจาก Kolmogorov–Arnold representation theorem โดย KAN อาจจะเป็นแนวทางใหม่ในการสร้าง neural network ที่ขนาดเล็กลงแต่ประสิทธิภาพคงเดิม และทำความเข้าใจโมเดลปัญญาประดิษฐ์ได้ง่ายขึ้นเทียบกับโมเดลที่พารามิเตอร์มหาศาลทุกวันนี้

KAN เปลี่ยนแนวทางการออกแบบ neural network จากเดิมที่มอง activation function อยู่บน node และได้รับอินพุตจาก node ในชั้นก่อนหน้าขึ้นมาเป็นชั้นๆ เรียกว่า MLP (Multi-Layer Perceptrons) มาเป็นการวาง activation function บน edge ของกราฟแทน และ node ต่างๆ จะกลายเป็นการรวมค่าตรงๆ (sum)

ทีมงานสาธิตระบุว่า KAN ช่วยให้สามารถออกแบบโมเดลทำนายค่าต่างๆ ได้ความแม่นยำใกล้เคียงโมเดลเดิมๆ แต่ขนาดโมเดลเล็กลงมาก เช่น โมเดลทำนายตัวเลข MNIST โมเดล KAN สามารถทำนายได้ 98.90% ด้วยพารามิเตอร์ 94,875 พารามิเตอร์เท่านั้น เทียบกับ CNN เดิมที่ใช้ 157,000 พารามิเตอร์แล้วได้ความแม่นยำ 99.12%

ตอนนี้เริ่มมีงานวิจัยทดลองสถาปัตยกรรม KAN ออกมาเรื่อยๆ บางโมเดลสามารถทำความแม่นยำเทียบเท่าโมเดล deep learning แบบเดิมๆ ได้โดยใช้พารามิเตอร์น้อยกว่าเดิมนับพันเท่า แต่บางปัญหาก็ลดพารามิเตอร์ได้ประมาณครึ่งเดียวเท่านั้น แต่โดยรวมแล้วยังมีรายงานใหม่ๆ ถึงสถาปัตยกรรม KAN แสดงประสิทธิภาพสูงกว่าได้เรื่อยๆ

งานเหล่านี้ยังอยู่ในระดับวิจัยเท่านั้น ในความเป็นจริงการฝึกและรันโมเดล KAN จริงๆ นั้นช้ากว่าโมเดล deep learning เดิมๆ มากเพราะซอฟต์แวร์ต่างๆ ไม่ได้ออปติไมซ์สำหรับการรันบนชิปกราฟิก แต่หากในอนาคตสถาปัตยกรรมแสดงให้เห็นว่าทำงานได้เหนือกว่าจริงๆ เราก็น่าจะได้เห็นซอฟต์แวร์ต่างๆ ออปติไมซ์รองรับกันมากขึ้น

ที่มา - IEEE Spectrum

No Description