蛇蛇大作战电脑版攻略(蛇蛇大作战游戏下载) 什么是哑口套和窗套(什么是哑口) WIN10电流麦解决方法(win10电脑电流麦怎么解决方法) 平时多吃什么食物补肾效果最好(平时多吃什么食物补肾效果最好女性) 哈伦裤适合什么年龄穿(哈伦裤适合什么人穿) 魔兽世界前夕稀有精英位置一览 看完就知道了(魔兽世界9.0前夕稀有精英位置与掉落) 如何实现创业成功(如何实现创业成功发展) QQ空间如何添加大图模块(qq空间怎么添加图片模块) 梦幻西游挖矿赚钱(挖矿赚钱) 剖腹产的好处(剖腹产的好处有哪些) 如图已知ab为圆o的直径弦cd⊥ab垂足为h(如图 已知AB是圆O的直径 弦CD垂直AB 垂足为H) 深圳上下沙租房攻略(深圳下沙哪里租房便宜) 被2345和hao123主页篡改修复方法 2015(2345是怎样篡改主页的以及如何彻底删除) nba历史得分榜百度一下(nba历史得分榜百度百科) 如何防雾霾 什么口罩防雾霾效果好(什么口罩可以防霾) 制作手工的材料有哪些(制作手工的材料有哪些简单) 天使等级 北京商标注册流程图(北京商标注册流程图解析) Galaxy S4 发布 全面解析新旗舰 图(galaxy s4 上市时间) 土大黄根主要治什么病(土大黄与大黄的区别) vivo手机怎么定位(vivo手机怎么定位查找) dnf更新失败怎么办 安装文件写入失败怎么办(为什么dnf更新写入失败) 隔玻璃晒太阳能起作用(隔着玻璃晒太阳能补钙) steam国服怎么玩apex(steam国服怎么玩最终幻想14) 纳雍县是哪个市 蜂蜜可以放冰箱吗(蜂蜜可以放冰箱吗可以放多久) 电脑怎么连热点(联想电脑怎么连热点) 石器时代宠物攻略(石器时代宠物大全) 经济管理出版社地址(经济管理出版社) 芒果tv怎么看湖南卫视(芒果tv怎么看湖南卫视回放) iPhone13如何在微店购物?(iphone13直营店可以直接买到吗) 淘宝海外版叫什么(淘宝海外版) 幽门螺杆菌抗体(幽门螺杆菌抗体偏高是怎么回事) iOS7.1.1固件下载(ios7.0.4固件下载) 纸的来源视频(纸的来源) QQ农场怎么出售种子精华(QQ农场种子精华) 玉兔出宫怎么画(玉兔出宫怎么画简单) 光电信息科学与工程是干什么工作(光电信息科学与工程是干什么的) 卡通签名头像怎么制作(卡通签名头像怎么制作软件) 比赛规则有哪些(比赛规则) 黑夹子的小妙用(黑夹子的小妙用有哪些) dear sir or madam要大写吗(dear sir or madam) 保卫萝卜——天际2攻略(保卫萝卜天际2关攻略) XP输入法状态条不见了怎么办(xp输入法不显示) 语言能力描述范文100字(语言能力描述) 电脑显示器总是黑屏怎么办(电脑显示器总是黑屏怎么办恢复) 银屑病怎么治疗最好呢(治疗银屑病有什么好办法) 东非高原动物大迁徙(东非高原) 茶叶怎样利用微波进行了快速杀青处理(茶叶怎样利用微波进行了快速杀青处理工艺) Java:将数组排序并使用二分法判断数组元素(java对二维数组排序)
您的位置:首页 >行业观察 >

DeepMind研究团队发布了通用算法AlphaZero和测试数据

导读 12月7日,谷歌人工智能实验室的DeepMind研究团队在《科学》杂志上发表了一篇封面论文,并公布了通用算法AlphaZero和测试数据。《科学》杂志

12月7日,谷歌人工智能实验室的DeepMind研究团队在《科学》杂志上发表了一篇封面论文,并公布了通用算法AlphaZero和测试数据。《科学》杂志评论说,多个复杂问题可以通过单一算法解决,这是创建通用机器学习系统和解决实际问题的重要一步。本文作者包括核心研发人员大卫西尔弗;AlphaGo的d人事,以及DeepMind的创始人戴密斯哈萨比斯。

AlphaGo最早被人们熟知是2016年与围棋世界冠军李世石的人机对战,最终以4-1的总比分获胜。事实上,早在2016年1月,谷歌就在国际学术期刊《自然》上发表了一篇封面文章,介绍了AlphaGo在没有任何让步的情况下,以533.36万英镑的价格战胜了欧洲冠军和专业围棋第二阶段的魏凡。

2017年10月18日,DeepMind团队宣布了Alpha Go的最强版本,代号为AlphaGo Zero。当时DeepMind说象棋AI的算法主要基于复杂枚举,需要人工评估。在过去的几十年里,人们已经把这种方法做到了极致。AlphaGo Zero在围棋上的超人表现,是通过和自己下棋练出来的。

现在DeepMind研究团队已经将这种方法扩展到了Alphaero的算法中。Alphaero花了长达13天的时间“自学”,然后与国际象棋世界冠军AI对质:

在国际象棋比赛中,阿尔法零在四个小时后首次击败了第九届TCEC世界冠军斯托克菲什。

在通用象棋中,两小时后,AlphaZero击败了通用象棋联赛的世界冠军Elmo。

《围棋》中,AlphaZero经过30个小时的激战,击败了李世石的AlphaGo。

AlphaZero:一种算法采用所有三种象棋类型。

以前版本的AlphaGo从数千套训练开始,用人类玩家的棋谱来学习如何玩围棋。当你到达AlphaGo Zero时,你跳过这一步,通过自我游戏来学习下棋,从零开始。该系统从一个对围棋一无所知的神经网络开始,结合神经网络和强大的搜索算法,自己玩游戏。游戏过程中,神经网络不断调整升级,每一步都在预测输家和最终赢家。

和AlphaGo Zero一样,从随机游戏开始,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,通过自我游戏进行强化学习,除了游戏规则外,没有任何知识背景。强化学习是一种通过反复试验的机器学习方法。

DeepMind在博客中介绍,一开始AlphaZero完全是在鬼混,但是随着时间的推移,系统从输赢的博弈中学习,调整神经网络的参数等等,随着每一轮,系统的性能提升了一点,自我游戏的质量也提升了一点,神经网络变得越来越精准。神经网络需要的训练量取决于游戏的风格和复杂程度。实验结束后,AlphaZero花了9个小时掌握象棋,12个小时掌握通用象棋,13天掌握围棋。

Azero继承了AlphaGo Zero的算法设置和网络架构,但两者有很多不同之处。比如Go中很少出现平局,所以AlphaGo Zero在结果为“输赢”的假设下,对获胜概率进行估计和优化。AlphaZero还会考虑抽签或其他潜在结果,并对结果进行估计和优化。

其次,围棋的棋盘会旋转反转,结果不会改变,所以AlphaGo Zero会通过生成8幅对称图像来增强训练数据。但是在国际象棋和一般象棋中,棋盘是不对称的。因此,AlphaZero不会增强训练数据,也不会在蒙特卡洛树搜索过程中改变棋盘位置。

在AlphaGo Zero中,自我游戏是由之前所有迭代中最好的玩家生成的,自我游戏也是针对这个新玩家的。AlphaZero只继承AlphaGo Zero的单一神经网络,不断更新,而不是等待迭代完成。自我博弈是利用这个神经网络的最新参数生成的,因此省略了评估步骤和选择最佳玩家的过程。

此外,AlphaGo Zero通过贝叶斯优化使用调整搜索的超参数;在AlphaZero中,所有游戏都重复使用同一个超参数,所以不需要针对特定的游戏进行调整。唯一的例外是保证探索噪音和学习率。

研究团队展示了Alphaero蒙特卡罗树在1000次、10000次之后的内部搜索状态.直到100万次的模拟游戏,阿尔法罗玩白色,斯托克菲什玩黑色。每个树形图显示了十个最常搜索的状态。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!