400-123-4567
banner

手机端幻灯

当前位置:主页 > 手机端幻灯 >

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋

发布时间:2019/03/05 点击量:

2017年年末Google AI 子公司 DeepMind 的研究人员宣布他们的 AI 程序进化到了 AlphaZero,利用自对弈强化学习,在短时间内打败了顶尖的国际象棋和将棋(日本版国际象棋)程序,也就是说,在只知道基本规则的情况下,AlphaZero 靠自对弈精通了围棋、国际象棋和将棋。上周末,DeepMind 在《科学(Science)》期刊上发表了一篇通用强化学习算法论文(预印本PDF),得到了评审编辑的初步确认与更新。论文描述了 AlphaZero 如何快速学习三种棋类游戏成为史上最强的棋手,尽管它仅了解游戏基本规则而没有其它该领域的知识、且无需任何内置指导。

“I can’t disguise my satisfaction that it plays with a very dynamic style, much like my own!(它在对弈中表现出的活力与能量让我感到莫名兴奋,在这一点我们是共通的!)"——加里·卡斯帕罗夫(Garry Kasparov),前国际象棋世界冠军

这种从零开始学习棋类技艺的能力不会受到人类思维方式的束缚,因此催生出一种独特、不同于传统且极具创造力及动态思考风格的对弈方法。国际象棋大师 Matthew Sadler 与女子国际象棋大师 Natasha Regan 在即将于明年1月出版的《Game Changer》一书中对 AlphaZero 的数千盘对弈进行了分析,发现其棋路完全不同于任何以往国际象棋引擎。Matthew表示,“它的出现,就像是带来了古代象棋大师的秘传一般。”

包括世界计算机国际象棋冠军 Stockfish 与 IBM 公司打造的“深蓝”在内的各种传统国际象棋引擎,依赖于大量由顶尖人类棋手提供的规则与启发式方法。这些信息用于解释对弈中的每一种可能性。将棋也是如此,因此相关程序仅适用于一种棋类游戏,只是采用彼此相近的搜索引擎与算法。

AlphaZero的方法完全不同,它利用一套深层神经网络与大量通用型算法取代了手工编写的规则。更重要的是,除了基本规则之外,这些算法中没有预设任何固有方法。

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

图:在国际象棋中,AlphaZero用4小时成功击败Stockfish; 击败将棋世界冠军Elmo只花了2个小时; 而在围棋方面,AlphaZero用30个小时打败了曾经将围棋世界冠军李世石斩于马下的AlphaGo。(备注:每个训练步骤代表着4096个盘面位置)

在学习棋艺的过程中,这套未训练神经网络利用强化学习这一实验与试错流程进行数百万轮自我对弈。最初,其基本就是随意乱下,但随着时间推移,系统会从胜利、失败与平局当中汲取经验,调整神经网络参数,确保自身在未来的选择中做出更加有利的判断。

“Some of its moves, such as moving the King to the centre of the board, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position. But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game.(它选择的某些棋步,例如将王移动至棋盘中心,与原有将棋理论明显冲突; 而且从人类的角度看,这可能导致其陷入不利局面。但难以置信的是,AlphaZero仍然牢牢把握着主动权,其独特的棋路让我们意识到将棋中还隐藏着新的可能性。)"——Yoshiharu Habu,职业九段,唯一一位斩获七大将棋赛桂冠的大师

训练完成之后,这套网络将指导蒙特卡洛树搜索(Monte-Carlo Tree Search,简称MCTS)算法选择当前盘面中最有利的走法。在每一步棋中,AlphaZero进行的位置搜索量只相当于传统棋类引擎的极小一部分。以国际象棋为例,AlphaZero每秒只需要搜索6万个位置,Stockfish则需要搜索大约6000万个位置。

谷歌论文详解AlphaZero:为国际象棋、将棋与围棋带来新曙光

在训练完成之后,这套系统开始与最强大的传统国际象棋(Stockfish)与将其(Elmo)引擎对抗,甚至与其前代版本AlphaGo来了一场“同室操戈”。

各程序运行在专门设计的硬件上。Stockfish与Elmo需要44个CPU核心(与TCEC世界大赛时的硬件配置相同),AlphaZero与AlphaGo Zero则采用4个第一代TPU与44个CPU核心。第一代TPU的推理速度与英伟达Titan V GPU等商用硬件基本相当,不过二者架构差别很大,难以做出直接比较。

所有比赛时长均为3小时,每步棋额外增加15秒。

最终,AlphaZero在全部比拼中都以大比分胜出: