การแข่งขันหมากล้อมนัดสุดท้ายระหว่าง AlphaGo และ Lee Sedol กำลังจะเริ่มขึ้นในไม่กี่นาทีข้างหน้า และเมื่อสักครู่ Demis Hassabis ผู้ก่อตั้ง DeepMind ได้ทวีตเปิดเผยว่าทำไม AlphaGo ถึงแพ้ Lee Sedol ในการแข่งขันนัดที่แล้ว
Demis บอกว่า AlphaGo ได้ประเมินความเป็นไปได้ที่ Lee จะวางหมากเทพในตาที่ 78 เพียง 1 ใน 10,000 เท่านั้น ส่งผลให้ "เสียแผน" และวางหมากไม่ถูกไปพักหนึ่ง นี่แสดงให้เห็นถึงช่องโหว่ในความรู้ของ AlphaGo ที่มาจากการฝึกโดยการแข่งกับตัวเอง หรือพูดง่ายๆ คือ AlphaGo "คิดไม่ถึง" ว่า Lee จะวางหมากนั้นในตานั้น
สุดท้ายเขาบอกว่าขณะนี้ Lee รู้ช่องโหว่หรือจุดอ่อนของ AlphaGo แล้ว และเกมสุดท้ายก็น่าสนใจมากว่า Lee จะใช้ประโยชน์จากจุดอ่อนนี้ได้หรือไม่ (AlphaGo ไม่ได้พัฒนาตนเองเลยตั้งแต่การแข่งนัดแรก ใช้เวอร์ชันเดิมมาตลอดครับ)
ที่มา - @demishassabis
Taken a quick look at the logs: AlphaGo gave a probability of <1 in 10000 for Lee's brilliant move 78, so AG found this move very surprising
— Demis Hassabis (@demishassabis) March 15, 2016
This meant that all the prior searching #AlphaGo had done was rendered useless, and for a while it misevaluated the highly complex position
— Demis Hassabis (@demishassabis) March 15, 2016
The neural nets were trained through self-play so there will be gaps in their knowledge, which is why we are here: to test AlphaGo the limit
— Demis Hassabis (@demishassabis) March 15, 2016
Game 5 starting in 30 mins: going to be really exciting to see if Lee Sedol can exploit the weakness in #AlphaGo’s play he found in game 4
— Demis Hassabis (@demishassabis) March 15, 2016
Comments
จำไม่ได้หนังสือเล่มไหนหรือหนังเรื่องไหนเคยเขียนว่าเราจะค่อยๆ แพ้ AI เรื่อยๆ ไปจนถึงจุดที่ AI พัฒณากลายเป็นเรานั้นแหละ ที่มันจะกลับมาแพ้เรา... 5555
แปลว่าถ้าเดินเหมือนกระดานที่แล้วก็สามารถชนะได้หรือเปล่าครับ
สลับฝั่งดำขาวครับ และ AG คงไม่ได้เดินแบบเดิมทุกตาถ้าเริ่มหมากสีเดิม :)
เป็นไปได้
ถ้าทุกอย่างเหมือนเดิม
แบบ ขำขำนะครับ ผมเคยเล่นเกมส์ แนวๆ โอเทโล่ บนมือถือ สมัยจอขาวดำ
จนไปเจอ บั๊กเกมส์ๆนึง ถ้าเดินแบบตาเดิม แล้ว ยังไงก็ชนะ... แต่คงใช่ไม่ได้กับ AlphaGO
จุดอ่อน AlphaGo ที่ผมคิด ก็คือพยายามครอบครองพื้นที่ มากกว่าจะปะทะที่จุดใด จุดหนึ่งให้รู้ผลชี้ขาด
รอดูกระดานนี้ว่า Lee จะชวน AlphaGo ปะทะกันได้ไหม
สายอิทธิพล มาเจอกับ สายไฟต์ติ้ง
ถ้านับตามกติกา การให้น้ำหนักการล้อมพื้นที่เพื่อชนะ มากกว่าการปะทะ ก็ดูสมเหตุสมผลอยู่แล้วนะครับ ปัญหาคือ AlphaGo จะเรียนรู้จุดอ่อนตัวเองได้มั้ยเท่านั้นล่ะ
จากทวีตของผู้ก่อตั้งนี้ หากต้องการที่จะชนะกระดานสุดท้ายนี้ ต้องทำให้ AlphaGo เสียแผน แบบกระดานที่ 4 ก็คือ Lee Sedol เลือกวางหมากเทพที่โอกาสวาง 1 ใน 10,000 และ Lee Sedol ต้องหาหมากเทพอีกครั้งเพื่อสร้างชัยชนะ(หากต้องการชนะแบบเดิมๆ แต่ก็คือชัยชนะ)
ปกติที่เล่นแพ้ก็เพราะว่าเดินพลาดหรือไม่ได้คิดถึงหมากตานั้น ถือว่าไม่แปลก
แต่ถ้า AlphaGo คำนวณหมากตานั้นแล้ว และคิดเอาเองว่าลีมีโอกาสลงแค่ 1/10000 อันนี้ถือว่าประมาท
1/10000 นี้ไม่ถือว่าเสี่ยงน้อยมากหรอครับ
1/100000 เสี่ยงน้อยกว่าครับ #แอบแซว ผมคิดว่าเขาคงนึกถึงพลังประมวณผลของ AG แล้ว แค่ 10,000 ยังน้อยไปมั่งครับ
ตา 78 นี่หัตถ์เทวะของจริงเลย
ผมเล่นไม่เป็น แต่งงว่า AI ไม่ถ้าคำนวนได้แล้วว่าหมากเทพคือตรงนั้น แล้วทำไมไม่วางกันไว้
AlphaGo ได้ประเมินความเป็นไปได้ที่ Lee จะวางหมากเทพในตาที่ 78 เพียง 1 ใน 10,000 เท่านั้น ส่งผลให้ "เสียแผน"
พูดง่ายๆ คือ AlphaGo "คิดไม่ถึง" ว่า Lee จะวางหมากนั้นในตานั้น
นั่นสิทำไมมันถึงมานั่งเดาใจมนุษย์น่ะงง
ประเด็นของ AlphaGo คือไม่ต้องคำนวณทุกกรณีไปเสียหมดครับ (เพราะ Go ความเป็นไปได้เยอะไป คำนวณหมดไม่ได้) หมากนั้นมองไม่ไกลก็จะ "รู้สึก" ได้ว่าไม่น่าลง (มีฝ่ายตรงข้ามหนีบอยู่) การที่ AI ตัดตัวเลือกที่ดูไม่สมเหตุสมผลเพื่อไปหาทางอืนๆ ก็เป็นเรื่องที่ถูกต้องแล้ว แต่ในกรณีนี้ตัวเลือกที่ดูไม่สมเหตุสมผลกลับเป็นตัวเลือกที่ดี
lewcpe.com, @wasonliw
ไม่แฟร์กับคอมเลยอะ คนยังไปนั่งหาทางชนะมา นั่งดูหมากที่แพ้แล้วหาจุดอ่อน หาทางแก้ แต่คอมนี้แพ้แล้วมันก็จำไม่ได้ ไม่ได้หาจุดอ่อนตัวเอง เพราะเอาเวอร์แรกก่อนแข่งมาแข่งทุกตา ซะงั้น
deepmind เล่นแค่ 4 กระดานไม่ได้ทำให้เรียนรู้เพิ่มขึ้นครับ
ใช่ครับ 4 กระดานมันไม่สามารถพัฒนาได้ครับ
หลังจากแพ้ ช่วงเย็นแล้วก็วันหยุด1วัน น่าจะให้แข่งกับตัวเองหรืออัพกระดานหมากให้มันดูด้วยอะครับ
ให้มันเรียนรู้กระดานที่แพ้เพิ่มอะครับ ซึ่งน่าจะได้เยอะอยู่ ซึ่งก็ไม่ได้ทำอะครับ มันถึงเป็นข้อเสียเปรียบของคอมอะครับ
จากข่าว "AlphaGo คิดไม่ถึง ว่า Lee จะวางหมากนั้นในตานั้น" อาจหมายความว่า กระดานที่ 4 เธอ คาดไม่ถึง(คาดการณ์ผิดพลาด) หากเป็นมนุษย์สามารถเรียกว่าเป็นบทเรียนได้ ดังนั้นถึงจะเป็นแค่ 4 กระดาน แต่เป็น 4 กระดานที่เล่นกับ 9 ดั้งโปร อาจมีคุณค่ามากกว่าหมื่นกระดานของผู้เล่นขั้นสูงจาก 30 ล้านกระดานก็ได้
เราทำได้แต่คาดเดาจนกว่าการแข่งครั้งต่อไป(อาจไม่มีอีกแล้ว) ที่เธอนำหมากแบบที่แข่งครั้งนี้มาใช้ถึงจะได้เห็นถึงความสำคัญของ 4 กระดานนั้นก็ได้
โอกาส 1/10000 ไม่ได้เกิดขึ้นทุกวันนะครับ
ถึงจะประเมินยังไง 1/10000 มันก็ถูกมองข้ามอยู่ดี
ผมเข้าใจว่ากระดานที่โปรชั้นสูงๆเล่นกันโดนป้อนเข้าไปหมดในขั้นตอนที่ให้เรียนรู้แล้วนะครับ พวกนี้มีบันทึกหมากหมดอยู่แล้ว
ถ้านับว่า การลงหมากที่ดูแปลกๆ ที่โปรปกติไม่ลงกันแล้วดักทางถ้าฝั่งตรงข้ามแล้วเดินตามทางที่ดักไว้ เป็นกลยุทธชนิดหนึ่งก็ไม่ถือว่าแย่นะครับ
เพราะถ้าคิดลึกมากพอ อาจจะรู้คำตอบว่า หมากนี้วางหลอกเห็นๆ ก็จะหาทางแก้ได้เอง
เข้าใจว่า AlphaGo น่าจะได้เรียนรู้เฉพาะกระดานที่ดี แต่มีคุณภาพพอเลยทำให้จัดการกับหมากแปลกๆ ได้ไม่ดี ก็ต้องให้เรียนกันต่อไปครับ (เพราะมนุษย์ก็ติดกับจำพวกนี้ได้เช่นกัน)
เข้าใจว่าต้องการวัดผล ถึงได้หยุดการเรียนรู้ไว้ก่อน
เพื่อวัดว่า AI ที่จุดนี้มันมีประสิทธิภาพแค่ไหน ถ้าปล่อยให้มันเรียนรู้ไปเรื่อยๆ
น่าจะวัดผลยาก เพราะไม่มีเกณฑ์ของ AI ในการชี้วัด
(น่าจะ)เหมือนเด็กเรียนมาถึงระดับชั้นนึง ก็มีการสอบวัดผล อะไรประมานนี้
กระดานนี้คุณ Lee ชนะได้เพราะวางหมากที่ AlphaGo คาดไม่ถึง ลักษณะคล้ายกระดานแรกๆ ที่ AlphaGo วางหมากแปลกๆ แบบที่ผู้บรรยาย 9 ดั้งก็คาดไม่ถึงเหมือนกัน
หมายความว่า AlphaGo โดนคุณ Lee ลอกท่าไม้ตายมาย้อนใส่ตัวเองนะครับเนี่ย
"ไม่น่าเชื่อ... ฮิคารุ สามารถเปลี่ยนหากตาร้ายนั้นให้เป็นหมากที่ดีได้" - ซาอิ
ก็คงอารมณืนี้แหละมั้ง มันไม่ใช่หมากที่ดีที่สุด AlphaGo จึงคิดไม่ถึงว่า Lee จะลง
แต่กลับกลายเป็นเปลี่ยนเกมได้