DeepMind เผยแพร่รายละเอียดเพิ่มเติมใน The Journal Science เกี่ยวกับการพัฒนา AI ตัวใหม่ AlphaZero ที่พัฒนาต่อจาก AlphaGo ให้สามารถเรียนรู้พัฒนาด้วยตนเองได้ นอกจากการเล่นโกะ มาสู่การเล่นหมากรุก และหมากรุกญี่ปุ่น (โชงิ) โดยสามารถเอาชนะบ็อตที่เก่งที่สุดในโลกได้ จากการเรียนรู้เองในเวลาไม่นาน
โดยผลการแข่งขันนั้น AlphaZero สามารถเอาชนะหมากรุกกับ StockFish ได้ 155 เกม แพ้ 6 นอกนั้นเสมอจากทั้งหมด 1,000 เกม โดยใช้เวลาเรียนรู้ทั้งหมด 9 ชั่วโมง ส่วนหมากรุกญี่ปุ่นใช้เวลาเรียนรู้ 12 ชั่วโมง สามารถชนะโปรแกรม Elmo ได้ 91.2% และสุดท้ายในเกมโกะ เอาชนะ AlphaGo ได้ 61% ใช้เวลาเรียนรู้ 13 วัน
ข้อมูลน่าสนใจเพิ่มเติมเกี่ยวกับการประมวลผลของ AlphaZero นั้น ใช้รูปแบบการค้นหาวิธีที่ดีที่สุดแบบ Monte Carlo Tree Search ด้วยพลังของ 5,000 Tensor Processing Units (TPU) ซึ่งความสามารถของ 1 TPU เทียบได้กับความสามารถในการจัดการรูปใน Google Photos ได้ 100 ล้านรูปต่อวัน
ที่มา: The Next Web
Comments
เปเปอร์เวอร์ชั่นนี้ถูก revised และผ่าน peer-reviewed เพื่อลง Science Journal แล้ว (ได้เป็น front page ด้วย) AlphaGo เลยถือได้ว่าเป็น AI ที่ได้ครอง frontpage ทั้งจาก Journal ที่นับเป็นที่สุดของอังกฤษ (Nature) และอเมริกา (Science)
"ใช้รูปแบบการค้นหาวิธีที่ดีที่สุดแบบ Monte Carlo Tree Search ด้วยพลังของ 5,000 Tensor Processing Units (TPU)"
อันที่จริง 5000 TPUv1 คือใช้แต่ตอน generate เกม แล้ว 16 TPUv2 ใช้ตอนฝึก neural networks ตอนแข่งจริงๆใช้แค่ TPUv1 4 ตัวกับ CPU 44 cores
"ซึ่งความสามารถของ 1 TPU เทียบได้กับความสามารถในการจัดการรูปใน Google Photos ได้ 100 ล้านรูปต่อวัน"
จากเปเปอร์จริงๆเขียนไว้ว่า TPUv1 แรงประมาณ Titan V
เทียบเท่ากับพลังประมวลผลที่จัดการ google photo ได้ 5 แสนล้านรูปต่อวัน มหาศาลเลยนะนั้น
ในที่สุดก็ได้เห็นบันทึกเกมของหมากรุกญี่ปุ่นซักที ได้ 10 กระดานก็ยังดี
มีวีดีโอเปล่า อยากดู
https://www.youtube.com/watch?v=7L2sUGcOgh0
อันนี้เป็นเปเปอร์งานวิจัยจากสถานะเมื่อปีที่แล้ว ที่ว่า เล่นกับตัวเอง 2 และ 4 ชั่วโมงก็เอาชนะ Elmo และ Stockfish ได้
ไม่รู้ว่ารุ่นถัดไปมันจะเก่งรวดเร็วกว่านี้รึเปล่า
ไม่อยากคิดว่าถ้ามันเรียนพวก tactic ทุกอย่างแล้วได้ latent ครอบจักรวาลมาจะเป็นยังไง
อยากรู้ว่าถ้าเอามาแข่งกับ clone ของตัวเอง ชนะ-แพ้ จะ 50/50 มั้ย
คิดว่าไม่ สังเกตจากภาพประกอบจะเห็นได้ว่าได้หมากขาว/ดำ มีผลต่อการชนะพอสมควร ดังนั้นต่อให้เล่นกับตัวเองผลแพ้ชนะก็อาจจะมีจากความได้เปรียบของสีหมากที่เลือกด้วย
ให้เล่นแบบดำ 500 ตาและขาว 500 ตาสิครับ
มันทำแบบนั้นตลอดเวลาที่มันฝึกอยู่แล้วครับ
แข่งกับตัวมันเอง แล้ว learning ไปเรื่อยๆ โหดขึ้นเรื่อยๆ
ส่วน 50/50 มั๊ย ให้ดูแท่งกราฟ เขียว/ขาว/ชมพู ครับ
อยากให้ bot ใน PUBG Mobile ใช้ระบบประมวลผล AlphaZero บ้าง
ฺBot จะชาร์ทบ้าน วิ่งหนีกันให้วุ่นแน่นอน!!!
เก็บปืนได้ก็ Head shot รัวๆ สไน ไม่พลาดแค่นั้นล่ะครับ
นี่ก็เหมือนชนะเพราะเครื่องแรงกว่าเยอะ
ต่อไปถ้าจะแข่งกับคน ผมว่าน่าจะลดการใช้พลังงานมาให้เท่าๆกับที่คนใช้ เอาซักแค่ 100W พอ ถึงจะแฟร์ๆนะ