12月7日,谷歌人工智能实验室的DeepMind研究团队在《科学》杂志上发表了一篇封面论文,并公布了通用算法AlphaZero和测试数据。《科学》杂志评论说,多个复杂问题可以通过单一算法解决,这是创建通用机器学习系统和解决实际问题的重要一步。本文作者包括核心研发人员大卫西尔弗;AlphaGo的d人事,以及DeepMind的创始人戴密斯哈萨比斯。
AlphaGo最早被人们熟知是2016年与围棋世界冠军李世石的人机对战,最终以4-1的总比分获胜。事实上,早在2016年1月,谷歌就在国际学术期刊《自然》上发表了一篇封面文章,介绍了AlphaGo在没有任何让步的情况下,以533.36万英镑的价格战胜了欧洲冠军和专业围棋第二阶段的魏凡。
2017年10月18日,DeepMind团队宣布了Alpha Go的最强版本,代号为AlphaGo Zero。当时DeepMind说象棋AI的算法主要基于复杂枚举,需要人工评估。在过去的几十年里,人们已经把这种方法做到了极致。AlphaGo Zero在围棋上的超人表现,是通过和自己下棋练出来的。
现在DeepMind研究团队已经将这种方法扩展到了Alphaero的算法中。Alphaero花了长达13天的时间“自学”,然后与国际象棋世界冠军AI对质:
在国际象棋比赛中,阿尔法零在四个小时后首次击败了第九届TCEC世界冠军斯托克菲什。
在通用象棋中,两小时后,AlphaZero击败了通用象棋联赛的世界冠军Elmo。
《围棋》中,AlphaZero经过30个小时的激战,击败了李世石的AlphaGo。
AlphaZero:一种算法采用所有三种象棋类型。
以前版本的AlphaGo从数千套训练开始,用人类玩家的棋谱来学习如何玩围棋。当你到达AlphaGo Zero时,你跳过这一步,通过自我游戏来学习下棋,从零开始。该系统从一个对围棋一无所知的神经网络开始,结合神经网络和强大的搜索算法,自己玩游戏。游戏过程中,神经网络不断调整升级,每一步都在预测输家和最终赢家。
和AlphaGo Zero一样,从随机游戏开始,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,通过自我游戏进行强化学习,除了游戏规则外,没有任何知识背景。强化学习是一种通过反复试验的机器学习方法。
DeepMind在博客中介绍,一开始AlphaZero完全是在鬼混,但是随着时间的推移,系统从输赢的博弈中学习,调整神经网络的参数等等,随着每一轮,系统的性能提升了一点,自我游戏的质量也提升了一点,神经网络变得越来越精准。神经网络需要的训练量取决于游戏的风格和复杂程度。实验结束后,AlphaZero花了9个小时掌握象棋,12个小时掌握通用象棋,13天掌握围棋。
Azero继承了AlphaGo Zero的算法设置和网络架构,但两者有很多不同之处。比如Go中很少出现平局,所以AlphaGo Zero在结果为“输赢”的假设下,对获胜概率进行估计和优化。AlphaZero还会考虑抽签或其他潜在结果,并对结果进行估计和优化。
其次,围棋的棋盘会旋转反转,结果不会改变,所以AlphaGo Zero会通过生成8幅对称图像来增强训练数据。但是在国际象棋和一般象棋中,棋盘是不对称的。因此,AlphaZero不会增强训练数据,也不会在蒙特卡洛树搜索过程中改变棋盘位置。
在AlphaGo Zero中,自我游戏是由之前所有迭代中最好的玩家生成的,自我游戏也是针对这个新玩家的。AlphaZero只继承AlphaGo Zero的单一神经网络,不断更新,而不是等待迭代完成。自我博弈是利用这个神经网络的最新参数生成的,因此省略了评估步骤和选择最佳玩家的过程。
此外,AlphaGo Zero通过贝叶斯优化使用调整搜索的超参数;在AlphaZero中,所有游戏都重复使用同一个超参数,所以不需要针对特定的游戏进行调整。唯一的例外是保证探索噪音和学习率。
研究团队展示了Alphaero蒙特卡罗树在1000次、10000次之后的内部搜索状态.直到100万次的模拟游戏,阿尔法罗玩白色,斯托克菲什玩黑色。每个树形图显示了十个最常搜索的状态。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!