2017年末,AlphaZero诞生——一个可以自学国际象棋,将棋(日本象棋)和围棋的独立系统。而它也在比赛中击败了三种游戏各自的世界冠军程序。来自国际象棋界的看法认为,他们在AlphaZero的棋艺中看到了一种突破性的,变化多端的 “非传统”游戏风格,这不同于之前的任何国际象棋程序。
本文是对AlphaZero的全面评估,该评估发表在科学(Science)杂志上确认并更新了一些初步成果。评估描述了AlphaZero的训练方法:尽管AlphaZero是从随机游戏中开始训练,没有内置的专业知识,只知道游戏的基本规则,它却可以快速学习每种游戏,直到成为最强玩家。
前世界国际象棋冠军Garry Kasparov说道:“我无法掩饰自己的满足感,它的棋法变化多端,跟我很像!”
这种从零开始学习游戏的能力,完全不受人类游戏规范的约束,产生了一种独特的,非正统的,极具创造力和变化的游戏风格。国际象棋大师Matthew Sadler和女子国际大师Natasha Regan在他们即将出版的书籍Game Changer(New in Chess,2019年1月)中分析了上千次的AlphaZero国际象棋比赛,他们认为AlphaZero的风格不同于任何传统的国际象棋。Matthew 说:“这就像发现了过去一些伟大棋手的秘籍一样”。
传统的国际象棋程序——包括世界计算机国际象棋冠军Stockfish和IBM突破性的“深蓝”依赖于数千个由高手玩家制作的规则和启发式方法,这些方法试图考虑到每盘棋局中所有可能发生的情况。将棋游戏的程序也是针对于它自身专用的,并且使用了与国际象棋程序类似的搜索引擎和算法。
而AlphaZero则采用了一种完全不同的方法,用深度神经网络和通用算法取代了这些人工制定的规则,除了游戏的基本规则之外,AlphaZero对其它一无所知。
为了学习一种游戏,未经训练的神经网络通过强化学习)的反复试错过程来进行数百万局的自我博弈。起初,它完全随机地走棋,但随着时间的推移,系统不断从输赢中学习经验,从而调整神经网络的参数,使其在之后的棋局中选择更有利的走法。神经网络的训练时间取决于游戏的类型和复杂程度,国际象棋大约需要9个小时,将棋大约需要12个小时,围棋则大约需要13天。
历史上唯一一位拥有七大将棋比赛冠军的九段职业棋手Yoshiharu Habu说道,“它的一些举动,例如将王移动到棋盘的中心,违反了将棋理论,并且从人的角度来看,它似乎使自己处于危险的位置。但令人难以置信的是,它仍然能掌控着棋盘。其独特的棋法向我们展示了这些游戏中还存在着其它的可能性。”
训练好的神经网络被用于一种搜索算法——蒙特卡罗树搜索(Monte-Carlo Tree Search/MCTS),以选择游戏中最有利的走法。对于每步棋,AlphaZero仅搜索传统国际象棋程序中的一小部分走法。例如,在国际象棋中,AlphaZero每秒仅搜索6万种走法,而Stockfish则要搜索大约6千万种走法。
我们对经过全面训练后的神经网络进行测试,使其与国际象棋中最强大的程序Stockfish、将棋中最强大的Elmo,以及围棋中最强大的AlphaGo Zero分别进行了比赛。
- 每个程序都在其最初设计的硬件上运行。Stockfish和Elmo使用44个CPU核心(正如在TCEC世界锦标赛一样),而AlphaZero和AlphaGo Zero使用一台机器,配备4个第一代TPUs和44个CPU核心。第一代TPU的推理速度与NVIDIA Titan V GPU等商用硬件大致相似,但其实两者的架构不具有直接的可比性。
- 所有比赛的时间均控制在每场3小时之内,每步棋限时15秒。
在每场评估中,AlphaZero都令人信服地击败了对手:
- 在国际象棋中,AlphaZero击败了2016 年TCEC(第9季)比赛的世界冠军Stockfish,在1000场比赛中获胜155场,仅输掉了6场。为了验证AlphaZero的鲁棒性,还测试了一系列人类选手常见的开局。在每个开局中,AlphaZero都击败了Stockfish。我们尝试了2016年TCEC世界锦标赛中采用的开局,还进行了和最新版Stockfish及一个变种版Stockfish(使用了强大开局)的一系列附加赛。在所有比赛中,AlphaZero都取得了胜利。
- 在将棋中,AlphaZero击败了2017年CSA世界冠军版Elmo,赢得了91.2%的比赛。
- 在围棋中,AlphaZero击败了 AlphaGo Zero,赢得了61%的比赛。
让玩家觉得最为着迷的正是AlphaZero独特的游戏风格。例如,在国际象棋中,AlphaZero在其自我训练中独立发现并演绎了人类常见的思维模式,如开局(openings),保王(king safety)和兵阵(pawn structure)。但是,由于它可以自学所以并不受传统思维的影响,还开发了自己的直觉和策略,增加了一系列令人兴奋的新颖想法,扩展了几个世纪以来对国际象棋战略的思考。
前世界国际象棋冠军Garry Kasparov说道,“一个多世纪以来,国际象棋一直被用作人类和机器认知的罗塞塔石碑。AlphaZero的非凡成就,更新了古老的棋盘游戏和尖端的科学之间的联系。”
Matthew Sadler说道,玩家首先注意到的就是AlphaZero的风格,也就是它以其独到的力量围攻对手王棋的方式。支撑着这些的是AlphaZero百变的游戏方式,这些方式最大限度地提高了它自身的活跃性和移动性,同时最大限度地减少了对手的活跃性和移动性。与直觉相反,AlphaZero似乎对“子力”(material)的重视程度较低,在现代象棋中,每一个棋子都具有一个值,如果一个玩家在棋盘上的棋子值高于对手,那么他们就具有了子力优势。相反,AlphaZero在游戏早期就牺牲了子力,反而在后期中逐渐补偿收益。
掌握棋盘游戏
Matthew 说道,“令人印象深刻的是,AlphaZero能够在各种各样的位置和开局中显示出自己独道的棋法,”他还观察到,AlphaZero刚开始就以非常审慎的方式下棋,这一点和人类的掌握全局非常相似。“传统程序非常强大,几乎不会出现明显的错误,但在面对没有具体可计算的位置时会乱了阵脚。面对这些问题时需要“感觉”,“洞察”或“直觉”来解决,而AlphaZero自成一体恰好具备了这些特质。
前世界国际象棋冠军Garry Kasparov说道,“这里面蕴含的逻辑知识已经远远超出了我最心爱和欣赏的棋局……这些自学成才的机器不仅下得一手好棋,而且还能产生很多值得我们学习的新知识。”
在最近 Magnus Carlsen和 Fabiano Caruana的世界国际象棋冠军赛( World Chess Championship )中,这种在其他传统的国际象棋程序中看不到独特的提供见解的能力,已经被用来为国际象棋迷们提供新见解和评论, Game Changer中还会进一步探讨。 Natasha Regan 说道,“AlphaZero对于棋局的分析与其他顶级国际象棋程序甚至顶级大师的对棋局分析的不同之处,真是令人着迷,AlphaZero可以成为整个象棋界强大的教学工具。”
AlphaZero的教学能力在2016年AlphaGo与围棋界传奇冠军李世乭(Lee Sedol)的比赛中就可以看出。在比赛期间,AlphaGo演绎了许多极具创造性的棋法,包括在第二场比赛中的第37步棋,推翻了数百年的思维定式。AlphaZero的很多走棋方式都已经被很多玩家(包括李世乭在内)研究过,李世乭谈论第37步棋时说道:“我原本认为AlphaGo是基于概率计算的,它只是一台机器,但当我看到这一步棋时,我改变了主意,AlphaGo确实很有创造力。”
和围棋一样, AlphaZero在国际象棋中的创造力令人振奋,自从计算机时代开始以来,人工智能一直都面临着巨大的挑战,早期的先驱巴贝奇、图灵、香农、冯·诺依曼都曾试图设计国际象棋程序。但AlphaZero的意义不仅仅是在国际象棋,将棋或围棋中。为了创建能够解决各种现实问题的智能系统,我们需要它们具备能够总结新情况的灵活性。虽然在这一目标上我们已经取得了一些进展,但它仍然是人工智能研究中的一项重大挑战,因为系统往往能够以非常高的完成度掌握一些特定的技能,但在面对略微不同的任务时就会失败。
AlphaZero能够掌握三种不同的复杂游戏,并且有潜力完成任何完备信息博弈,所以AlphaZero是克服这一问题的重要一步。它表明单个算法可以在一系列设定中学习新知识。尽管还处于早期阶段,但是AlphaZero的独到见解和其在AlphaFold等其他项目中展示出的优异结果,对创建通用学习系统(our mission)充满信心,这有助于找到一些新的解决方案来处理更多更重要且复杂的科学问题。
编译组:张琪琦、韦振琛
相关链接:
https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/
如需转载,请后台留言,遵守转载规范