DeepMind พัฒนา AlphaGo Zero ไม่ต้องใช้ข้อมูลการเล่นของมนุษย์

By: lew

on 19 October 2017 - 01:04 Tags:

Topics:

AlphaGo

DeepMind

Artificial Intelligence

แม้ว่า DeepMind จะประกาศไม่จัดแข่งโกะระหว่างมนุษย์กับ AlphaGo อีกแล้ว แต่บริษัทก็ยังพัฒนาความสามารถของมันต่อไป โดยเวอร์ชั่นล่าสุด AlphaGo Zero มีความสามารถในการพัฒนาฝีมือได้อย่างรวดเร็วโดยไม่ต้องอาศัยข้อมูลการเล่นของมนุษย์แม้แต่น้อย (เป็นที่มาของชื่อ Zero)

AlphaGo Zero มองกระดานตรงๆ ด้วยเครือข่ายนิวรอนเครือข่ายเดียวจากที่เวอร์ชั่นก่อนหน้านี้แยกนิวรอนสำหรับวิเคราะห์โอกาสชนะออกมา และในเวอร์ชั่นนี้อาศัยข้อมูลการเล่นกับตัวเองอย่างเดียว ไม่มีฟีเจอร์ใดๆ ที่วิศวกรของ DeepMind ปรับแก้ด้วยมือให้ก่อนหน้า การปรับปรุงเหล่านี้ทำให้ประสิทธิภาพในแง่พลังงานของ Zero ดีกว่าเวอร์ชั่นก่อนๆ มาก โดยเวอร์ชั่นนี้ใช้ชิป TPU ของกูเกิลเองเพียง 4 ตัว

เนื่องจากไม่มีฟีเจอร์พื้นฐานที่วิศวกรใส่ด้วยมือให้เลย AlphaGo Zero จึงต้องเรียนรู้กฎพื้นฐานจากศูนย์ช่วงแรกมันเล่นมั่วไปเรื่อยๆ แต่ใช้เวลาเพียงสามชั่วโมงในการฝึกก็สามารถเรียนรู้กฎได้เหมือนผู้เล่นมือใหม่ และ 19 ชั่วโมงก็สามารถเล่นได้เหมือนมนุษย์ โดยเข้าใจหลักการของ Go เช่น การครองพื้นที่ หรือกลุ่มที่มีชีวิตและกลุ่มหมากที่ตายแล้ว ภายใน 70 ชั่วโมงก็มีความสามารถเกินมนุษย์ทั่วไปอย่างชัดเจนโดยไปถึงระดับเดียวกับ AlphaGo เวอร์ชั่นที่เล่นกับ Lee Sedol จนกระทั่งวันที่ 21 มันก็เอาชนะ AlphaGo Master ที่ใช้แข่งกับ Ke Jie ไปได้ และเมื่อฝึกไป 40 วันก็เอาชนะ AlphaGo Master 89 กระดานจาก 100 กระดาน

ทีมงานปล่อยให้ AlphaGo Zero ฝึกตัวเองไป 40 วัน มันสามารถทำคะแนน Elo rating ได้ถึง 5,185 น่าจะเป็นผู้เล่นโกะที่เก่งที่สุดที่โลกมีตอนนี้ โดยเวอร์ชั่น Lee Sedol มีคะแนน 3,739 และเวอร์ชั่น Ke Jie มีคะแนน 4,858

DeepMind ระบุว่าความสามารถในการเรียนรู้โดยไม่ต้องใช้ข้อมูลเดิมมีความสำคัญมากเพราะแสดงว่าเราสามารถออกแบบระบบที่เรียนรู้เรื่องอื่นๆ โดยไม่ต้องมีฐานข้อมูลของมนุษย์ไว้ก่อนหน้า และปัญญาประดิษฐ์สามารถค้นพบความรู้ใหม่ๆ ได้เองในปัญหาอื่นๆ ด้วย

ที่มา - DeepMind

Hiring! บริษัทที่น่าสนใจ

Fastwork Technologies

Fastwork.co เว็บไซต์ที่รวบรวม ฟรีแลนซ์ มืออาชีพจากหลากหลายสายงานไว้ในที่เดียวกัน

LTMH TECH

LTMH TECH มุ่งเน้นการพัฒนาผลิตภัณฑ์ที่สามารถช่วยพันธมิตรของเราให้บรรลุเป้าหมาย

CIMB THAI Bank

MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank

Comments

By: zyzzyva

on 19 October 2017 - 01:38 #1014173

เสียดายที่ปล่อยบันทึกหมากมาแค่ 20 เกมของแต่ละ category แต่อัตราส่วนขาวชนะเยอะกว่าดำจริงๆตอกย้ำว่ากฏแบบจีนเอื้อขาวเยอะเกินไป

By: akira on 19 October 2017 - 05:06 #1014179

Keyword ในโลกของความเป็นจริงมันไม่มีสมการเฉพาะนี่แหล่ะ ที่ยังแตกต่างจากรูปแบบเกมส์ เมื่อใดที่ AI คิดสมการเฉพาะของแต่ละสถานะการณ์ได้ด้วยตัวเอง และจัด Category ข้อมูล Input จากข้อมูลที่รวบรวมได้ จัดแยกเป็นตัวแปร แปรผันเข้าสมการเองได้ โดยตัวแปรก็ต้องไม่ถูกจำกัดด้วยมนุษย์เช่นกัน ทีนี่แหล่ะตัวใครตัวมัน

By: langisser

on 19 October 2017 - 23:11 #1014399 Reply to:1014179

งั้นก็ถึงเวลาตัวใครตัวมันละครับ

จากข่าวมันก็สร้างสมการที่เรียกว่ากฎขึ้นมาเองนะครับ หลังจากนั้นก็ตามที่คุณิธิบายมาทั้งหมดเลย

By: rainhawk

on 19 October 2017 - 06:52 #1014187

skynet อยู่ไม่ไกลแล้ว

By: topty

on 19 October 2017 - 07:26 #1014189

ในแง่พลังงา่นของ Zero ดีกว่าเวอร์ชั่นก่อนๆ มาก

พลังงา่น => พลังงาน

โดเวอร์ชั่นนี้ใช้ชิป TPU ของกูเกิลเองเพียง 4 ตัว

โด => โดย

By: 7

on 19 October 2017 - 07:58 #1014193

สามารถตรัสรู้ได้ด้วยตัวเอง ไม่ต้องมีผู้ใดสอนสั่งหรือชี้แนะ

By: 100dej

on 19 October 2017 - 08:04 #1014196

อีกหน่อยคงบอกได้ว่ากฎข้อไหนของโกะ ควรจะปรับปรุง และกลายเป็นเกมส์ใหม่ที่เหนือล้ำยิ่งไปกว่าโกะในปัจจุบัน

By: gosol

on 19 October 2017 - 08:08 #1014197

หมายความว่าเรียนรู้ด้วยตัวเองทั้งหมดเก่งกว่าดีกว่าใช้ข้อมูลจากมนุษย์หรือนี่?? เพราะเรียนรู้แค่ 3 วันก็เก่งเท่าตัวเดิมแล้ว 40 วันชนะได้ทั้งหมด ตัวเดิมน่าจะเตรียมตัวนานกว่านี้

By: zyzzyva

on 19 October 2017 - 08:34 #1014198

ขอเสริมนิดนึงครับ

"ภายใน 70 ชั่วโมงก็มีความสามารถเกินมนุษย์ทั่วไปอย่างชัดเจนโดยไปถึงระดับเดียวกับ AlphaGo เวอร์ชั่นที่เล่นกับ Lee Sedol"

อันนี้ไม่ได้แปลผิดนะครับเพราะแหล่งข่าวต่างๆรวมถึงบล็อกของดีปไมน์ก็เขียนไว้ประมาณนี้ แต่ถ้าอ่านฟูลเปเปอร์จะพบว่าฝึกสามวันไม่ใช่แค่ทัดเทียม AlphaGo เวอร์ชั่นที่เล่นกับ Lee Sedol แต่คือเหนือกว่าชัดเจน ชนะ 100-0 เกมภายใต้สถานการณ์เดียวกันกับตอนที่แข่งกับ Lee Sedol ถ้าเอาแค่ทัดเทียมจะใช้เวลาแค่ 36 ชั่วโมงครับ

By: Hoo

on 19 October 2017 - 13:20 #1014287 Reply to:1014198

ถ้าตามนี้จริง Timeline จะเป็น

3ชม. เริ่มรู้กฎเหมือนผู้เล่นมือใหม่

19 ชั่วโมงก็สามารถเล่นได้เหมือนมนุษย์
เข้าใจเรื่อง การครองพื้นที่ หรือกลุ่มที่มีชีวิตและกลุ่มหมากที่ตายแล้ว

36 ชั่วโมง มีความสามารถระดับเดียวกับ AlphaGo เวอร์ชั่นที่เล่นกับ Lee Sedol

70 ชั่วโมง(~3วัน) ชนะ AlphaGo เวอร์ชั่นที่เล่นกับ Lee Sedol 100-0 เกม

21วัน เอาชนะ AlphaGo Master ที่ใช้แข่งกับ Ke Jie ได้

40 วันก็เอาชนะ AlphaGo Master 89 กระดานจาก 100 กระดาน

By: maoIndie

on 19 October 2017 - 09:06 #1014208

เริ่มน่ากลัวของจริงละ

By: Holy

on 19 October 2017 - 09:08 #1014209

อยากเห็น AI คิดเกมส์มาให้มนุษย์เล่นบ้าง ให้ AI ตั้งกฎแล้วให้มนุษย์เล่นตามแทน

By: holyporing1

on 19 October 2017 - 10:02 #1014226 Reply to:1014209

AI : 'เพื่อให้เกมสนุกที่สุดและดึงศักยภาพของมนุษย์ออกมาได้เต็มที่ เราจะเล่นเกมในโหมด...Deadmatch Survival...'

By: wichate

on 19 October 2017 - 09:39 #1014220

ถ้ามันเรียนรู้ที่จะเล่นโกงได้จะฮามาก

By: adente

on 19 October 2017 - 11:07 #1014244

ให้มือโปรสัก10คนไปเรียนกหมากกับมัน แล้วมาถ่ายทอดทางหมากน่าจะดีกับวงการไม่น้อย หรือไม่ก็เปิดเป็นมาสเตอร์ค่อย comment เกมที่โปรเล่น

By: A4

on 19 October 2017 - 20:55 #1014374

รำไร

By: Virusfowl

on 20 October 2017 - 23:57 #1014559

/me #ทีมElonMusk ถ้า A.I. จะน่ากลัวได้ขนาดนี้ นี่ต้องคำนึงว่าเรายังไม่ได้ไปถึงยุค Quantum กันเลยนะ ถ้าพัฒนา A.I. ด้วย Quantum Computer มันจะไปไวได้อีกแค่ไหน O_O

@ Virusfowl

I'm not a dev. not yet a user.

By: hisoft

on 21 October 2017 - 00:20 #1014562 Reply to:1014559

ดีไม่ดี Quantum computer จะถูกใช้ได้จริงๆ เพราะ AI คิดอัลกอริธึมให้เพราะคนทำกันไม่ถึงไหนเสียทีล่ะครับ

Main menu