聚乳酸生物可降解材料(可降解材料有哪些) 怎么设置qq空间形象墙(如何设置qq空间照片墙) 阴阳师业火原怎么打(阴阳师的业原火怎么打) plenty of可以放在句首吗?(plenty of修饰可数还是不可数) AE教程 如何制作全息影像特效动画(ae怎么做全息投影) dnf55冰龙怎么打(深渊冰龙15怎么打) 酚酞溶液测碳化深度(碳化深度怎么测) 泡茶用什么杯子(茶叶用什么杯子泡好) 商务签证办理流程及材料(商务签证办理流程及材料要求) 咖啡怎么做好喝又简单(咖啡怎么做出来的) 如何让EXCEL表格打印每页都显示标题行(excel标题行 每页都显示怎么打印出来) 2018年黑龙江高校排名 2018年黑龙江大学排名(黑龙江省所有大学排名榜) 摩斯密码怎么敲视频教学(摩斯密码怎么敲视频) 魔兽世界雷霆小径之战任务怎么开始(魔兽世界雷霆小径之战任务怎么开始视频) 怎么在电脑上查看手机版网页 wap(怎么用手机查看电脑版网页) 生的五笔怎么打(盛的五笔怎么打) 手工制作圣诞帽教案(手工制作圣诞帽教案大班) 阿里巴巴服装加工订单(找服装加工订单) 大闸蟹的正确做法图解(大闸蟹的正确做法图解大全) 抗诉的意思(抗诉是什么意思) 如何选购婴儿内衣?婴儿内衣哪种好啊(买什么儿童的内衣比较好) 烤鱼片的做法(空气炸锅烤鱼片的做法) frp是什么材料图片(frp是什么材料) 伦敦奥运会官方游戏london2012 110米栏攻略(伦敦110米栏奥运视频) 别来玩狼牙新系统境界提升玩法介绍(狼牙该如何使用) 关于逆境中成长的名言(逆境有利于成长名言) 爬楼梯有什么好处?(爬楼梯有什么好处吗) 八字不合怎么办(名字和八字不合怎么办) 宁滥勿缺下一句(宁滥勿缺) dnf补丁wegame怎么找(wegame中dnf补丁在哪?) 什么手机游戏可以赚人民币(什么手机游戏可以赚人民币 手游 手机) PDF文件怎么拆分成多个文件(怎么合并多个pdf) 乘法是什么符号的意思(乘法是什么符号) IP电话如何使用(ip话机怎么使用) 海底世界资料大全(关于海底世界的资料) 怎样自己动手包书皮(怎么自己包书皮) 如何设置浏览器的无痕浏览(如何设置浏览器的无痕浏览功能) 春风图片大全(春风图) 摩尔庄园怎么加好友?(摩尔庄园怎么加好友安卓和苹果) 【孤岛惊魂5新曙光】攻略之如何钓鱼(孤岛惊魂新曙光钓鱼需要鱼饵吗) 欧阳询观古碑文言文翻译过程(欧阳询观古碑文言文翻译) 和平精英电音盛典怎么击破气球(和平精英打爆气球) 杭州学厨师怎么样?工资怎么样?(杭州学厨师怎么样?工资怎么样啊) 凹凸的笔画顺序(凹的笔画顺序) 港行的iPhone5 A1429开启联通LTE教程(港版a1530支持联通4g吗) dnf疲劳药怎么购买(dnf哪里可以兑换疲劳药) 32位能用什么剪辑软件(适合32位系统的视频剪辑软件) 如何使用支付宝里有的功能去超市能让你更省钱?(支付宝如何在超市使用) 如何使用淘宝点外卖服务 (如何使用淘宝点外卖服务中心) 酚类化合物有哪些性质(酚类化合物有哪些呀)
您的位置:首页 >国内科研 >

DeepMind研究团队发布通用算法AlphaZero及测试数据

导读 12月7日,谷歌旗下人工智能实验室DeepMind的研究团队在《科学》杂志上发表了封面论文,并公布了通用算法AlphaZero和测试数据。003010杂志评

12月7日,谷歌旗下人工智能实验室DeepMind的研究团队在《科学》杂志上发表了封面论文,并公布了通用算法AlphaZero和测试数据。003010杂志评论说,单个算法可以解决许多复杂问题,这是创建通用机器学习系统和解决实际问题的重要一步。本文作者包括核心研发人员大卫西尔弗;AlphaGo的d员工和DeepMind的创始人戴密斯哈萨比斯。

AlphaGo在2016年与围棋世界冠军李世石比赛时首次为人所知,最终以4: 1的总比分夺冠。事实上,早在2016年1月,谷歌就在国际学术期刊《科学》上发表了一篇封面文章,介绍了AlphaGo以5:0,毫无退让地战胜了欧洲冠军、专业围棋第二段范辉。

2017年10月18日,DeepMind团队宣布了Alpha Go的最强版本,代号为AlphaGo Zero。当时DeepMind说象棋AI的算法主要基于复杂枚举,需要人工评估。在过去的几十年里,人们已经把这种方法做到了极致。而AlphaGo Zero在围棋上的超人表现,就是通过和自己下棋练出来的。

现在DeepMind研究团队已经将这种方法扩展到了AlphaZero的算法中。AlphaZero花了长达13天的时间“自学”,然后与世界冠军国际象棋AI对质:

在国际象棋比赛中,AlphaZero四小时内首次击败了第九季TCEC世界冠军斯托克菲什。

在象棋比赛中,AlphaZero在2小时后击败了国际象棋联合会的世界冠军Elmo。

在围棋中,AlphaZero经过30个小时的战斗,在李世石击败了AlphaGo。

AlphaZero:一个算法吃掉所有三个象棋。

最开始,前几代AlphaGo用人类玩家的棋谱训练了上千盘,学习如何玩围棋。当你到达AlphaGo Zero时,你跳过这一步,通过自我游戏来学习下棋,从零开始。系统从一个对围棋一无所知的神经网络开始,将这个神经网络和强大的搜索算法结合起来,自己下棋。游戏过程中,神经网络不断调整升级,预测每一步和最终的赢家。

和AlphaGo Zero一样,AlphaZero依靠深度神经网络、通用强化学习算法和来自随机小游戏的蒙特卡洛树搜索,通过自我游戏进行强化学习,除了游戏规则外没有任何知识背景。强化学习是一种通过“试错”的机器学习。

DeepMind在博客中介绍,AlphaZero一开始是完全失明的,但随着时间的推移,系统从和平游戏的输赢中学习,调整神经网络的参数等等。每一轮过后,系统的性能提升了一点,自我游戏的质量提升了一点,神经网络越来越精准。神经网络需要的训练量取决于游戏的风格和复杂程度。经过实验,AlphaZero花了9个小时掌握象棋,12个小时掌握象棋,13天掌握围棋。

Azero继承了AlphaGo Zero的算法设置和网络架构,但两者有很多不同之处。例如,围棋中很少出现平局,因此AlphaGo Zero在假设结果不是赢就是输的情况下估计并优化了获胜概率。阿尔法零将考虑平局或其他潜在结果,并估计和优化结果。

其次,棋盘旋转反转,结果不会改变,所以AlphaGo Zero会通过生成8幅对称图像来增强训练数据。但是在国际象棋和象棋中,棋盘是不对称的。因此,AlphaZero不会增强训练数据,也不会在蒙特卡洛树搜索过程中改变棋盘位置。

在AlphaGo Zero中,自我游戏是由之前所有迭代中最好的玩家生成的,自我游戏也与新玩家有关。但AlphaZero只从AlphaGo Zero继承了一个单一的神经网络,不断更新,而不是等待迭代完成。自我博弈是利用这个神经网络的最新参数生成的,因此省略了评估步骤和选择最佳玩家的过程。

此外,AlphaGo Zero使用贝叶斯优化调整搜索到的超参数;在Azero中,所有游戏都重复使用相同的超参数,因此无需针对特定游戏进行调整。唯一的例外是保证探索噪音和学习率。

研究团队在一场AlphaZero玩白色,Stockfish玩黑色的象棋游戏中,展示了AlphaZero蒙特卡洛树在1000次、10000次……和100万次模拟后的内部搜索状态。每个树形图显示了十个最常搜索的状态。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!