ทีมนักวิจัยของ OpenAI เผยแพร่งานล่าสุด เพื่อทดสอบว่า AI จะสามารถเรียนรู้และพัฒนาได้มากแค่ไหนหากอยู่ในสภาพการแข่งขันบนโลกเสมือน โดยอาศัยการเรียนรู้สองส่วน คือ multi-agent learning ซึ่งพัฒนาขึ้นเรื่อย ๆ ผ่านการแข่งขันกับคนอื่น และ reinforcement learning จากการลองผิดลองถูกจนเข้าใจมากขึ้น
วิธีการทดสอบนั้นทีม OpenAI สร้างเกมซ่อนหา (hide and seek) ในโลกเสมือนที่มีกำแพง และอุปกรณ์หลายชนิด สามารถเคลื่อนย้ายได้เพื่อบังพื้นที่ มีตัวทดสอบ (agent) แบ่งออกเป็นสองทีม กำหนดกติกาคือ ฝ่ายซ่อนต้องพยายามหลบให้ได้ ส่วนฝ่ายหาต้องหาอีกฝ่ายให้เจอ จึงจะได้รางวัลหรือถูกลงโทษ และไม่มีการสอนกติกาอื่นเพิ่มเติมเพื่อให้เรียนรู้เองเรื่อย ๆ
ผลทดลองพบว่าตัวทดสอบมีการเรียนรู้และปรับกลยุทธ์ขึ้นเรื่อย ๆ ช่วงแรกทุกคนก็แค่พยายามซ่อนและหาไปตามปกติ จนเมื่อถึงเกมที่ 25 ล้าน ฝ่ายซ่อนเริ่มนำกล่องมาบังไม่ให้ฝ่ายหาหาเจอ รวมทั้งช่วยนำกล่องไปบังให้เพื่อนในทีมด้วย
เมื่อถึงเกมที่ 75 ล้าน ฝ่ายหาเริ่มปรับแผน นำทางลาดมาเสริมเพื่อปีนไปหาฝ่ายซ่อนที่หลบอยู่ พอเข้าสู่เกม 85 ล้าน ฝ่ายซ่อนก็เริ่มเกมด้วยการล็อกทางลาดไม่ให้ฝ่ายหาเคลื่อนย้ายมาใช้งานได้
เกมดำเนินรูปแบบนี้จนดูเหมือนจะสิ้นสุดรูปแบบแล้ว แต่พอเข้าช่วงเกมที่ 380 ล้าน ฝ่ายหาก็พบวิธีการใหม่โดยปีนอยู่บนกล่อง แล้วไถกล่อง จากนั้นกระโดดข้ามสิ่งกีดขวางที่ฝ่ายซ่อนวางไว้ เพื่อเข้าไปจับตัวจนได้ เวลาต่อมาฝ่ายซ่อนจึงเริ่มเกมด้วยการล็อกอุปกรณ์ทุกอย่างไม่ให้ฝ่ายหาใช้งานได้ก่อน
สิ่งที่ได้จากงานวิจัยพบว่า AI ในสภาวะการแข่งขันที่มีตัวทดสอบหลายตัว จะเกิดการสร้างวิธีการใหม่ร่วมกัน ตลอดจนเรียนรู้จากคู่แข่งตลอดเวลาเพื่อมาปรับใช้ โดยสามารถจินตนาการต่อได้ว่าในสภาวะที่มีการแข่งขันแต่ซับซ้อนมากกว่านี้ AI อาจค้นพบวิธีการแก้ปัญหาแบบใหม่ที่คนคิดไม่ถึงมาก่อนเลยก็เป็นได้
ที่มา: MIT Technology Review
Comments
อ่านแล้วทำให้อยากดูวิดีโอเลย ?
Multi-Agent Hide and Seek
https://www.youtube.com/watch?v=kopoLzvh5jY
~ HudchewMan's Station & @HudchewMan~
ปีนกล่องได้ ทำไมไม่ปีนกำแพง
ดูจาก วีดีโอ ผมไม่เห็นปีนกล่องนะ ต้องมีทางลาดเอียงมาพาดขึ้นกล่อง
ยืนบนกล่องแล้วก็พากล่องเดินได้ 5555
ไม่ได้ปีนกล่องครับ แค่ลากกล่องไปที่ทางลาด(ที่ถูกล๊อกไว้ไม่ให้ลาก) แล้วเดินขึ้นกล่องจากทางลาดนั้น แล้วขยับกล่องโดยการยืนอยู่บนกล่องแล้วไถๆไปกับกำแพง
ดูวิดีโอล่ะ box surfing
ไถกล่องนี่มันโกงไปหน่อยนะ -_-
อีก10000ล้าน ครั้ง ฝ่ายซ่อนเริ่ม เอากำแพงกั้น ฝ่ายหา และล็อก ให้เรียบร้อย
555
อีก 100000 ล้านครั้ง ฝ่ายหาเริ่มแฮกเกมส์เอากำแพงออก จะได้ไม่ต้องมีที่ซ่อน
ตอน 2:05 นี่ผมนึกว่าจะเอาแผงไปปิดคนหาล็อคไว้ข้างในแล้ว ?
ทำไมนึกถึง Dr.Strange มี 14 ล้าน ..
แปลกใจตรงที่ต้องถึงหลักล้านครั้งเลยรึครับ กว่าai จะปรับเปลี่ยน หรือเรียนรู้
แต่ ในข้อเท็จจริง มันอาจจะเสี้ยววินาทีของความเป็นจริงก็เป็นได้
คือ action มันเยอะและมี action ที่ทำงานไปพร้อมๆกันทำให้ condition ที่เป็นไปได้ค่อนข้างเยอะครับ ส่วนจำนวนครั้งไม่ใช่ปัญหาครับ ตราบใดที่มันยังเรียนรู้ได้อยู่
แบบเริ่มมาครั้งแรก แค่เดินออกมา อ้าว เจอแล้ว (จบครั้งที่ 1)