霁彩华年,因梦同行—— 庆祝深圳霁因生物医药转化研究院成立十周年 情绪益生菌PS128助力孤独症治疗,权威研究显示可显著改善孤独症症状 PARP抑制剂氟唑帕利助力患者从维持治疗中获益,改写晚期卵巢癌治疗格局 新东方智慧教育发布“东方创科人工智能开发板2.0” 精准血型 守护生命 肠道超声可用于检测儿童炎症性肠病 迷走神经刺激对抑郁症有积极治疗作用 探索梅尼埃病中 MRI 描述符的性能和最佳组合 自闭症患者中痴呆症的患病率增加 超声波 3D 打印辅助神经源性膀胱的骶神经调节 胃食管反流病患者耳鸣风险增加 间质性膀胱炎和膀胱疼痛综合征的临床表现不同 研究表明 多语言能力可提高自闭症儿童的认知能力 科学家揭示人类与小鼠在主要癌症免疫治疗靶点上的惊人差异 利用正确的成像标准改善对脑癌结果的预测 地中海饮食通过肠道细菌变化改善记忆力 让你在 2025 年更健康的 7 种惊人方法 为什么有些人的头发和指甲比其他人长得快 物质的使用会改变大脑的结构吗 饮酒如何影响你的健康 20个月,3大平台,300倍!元育生物以全左旋虾青素引领合成生物新纪元 从技术困局到创新锚点,天与带来了一场属于养老的“情绪共振” “华润系”大动作落槌!昆药集团完成收购华润圣火 十七载“冬至滋补节”,东阿阿胶将品牌营销推向新高峰 150个国家承认巴勒斯坦国意味着什么 中国海警对非法闯仁爱礁海域菲船只采取管制措施 国家四级救灾应急响应启动 涉及福建、广东 女生查分查出608分后,上演取得理想成绩“三件套” 多吃红色的樱桃能补铁、补血? 中国代表三次回击美方攻击指责 探索精神健康前沿|情绪益生菌PS128闪耀宁波医学盛会,彰显科研实力 圣美生物:以科技之光,引领肺癌早筛早诊新时代 神经干细胞移植有望治疗慢性脊髓损伤 一种简单的血浆生物标志物可以预测患有肥胖症青少年的肝纤维化 婴儿的心跳可能是他们说出第一句话的关键 研究发现基因检测正成为主流 血液测试显示心脏存在排斥风险 无需提供组织样本 假体材料有助于减少静脉导管感染 研究发现团队运动对孩子的大脑有很大帮助 研究人员开发出诊断 治疗心肌炎的决策途径 两项研究评估了医疗保健领域人工智能工具的发展 利用女子篮球队探索足部生物力学 抑制前列腺癌细胞:雄激素受体可以改变前列腺的正常生长 肽抗原上的反应性半胱氨酸可能开启新的癌症免疫治疗可能性 研究人员发现新基因疗法可以缓解慢性疼痛 研究人员揭示 tisa-cel 疗法治疗复发或难治性 B 细胞淋巴瘤的风险 适量饮酒可降低高危人群罹患严重心血管疾病的风险 STIF科创节揭晓奖项,新东方智慧教育荣膺双料殊荣 中科美菱发布2025年产品战略布局!技术方向支撑产品生态纵深! 从雪域高原到用户口碑 —— 复方塞隆胶囊的品质之旅
您的位置:首页 >行业观察 >

DeepMind研究团队发布了通用算法AlphaZero和测试数据

12月7日,谷歌人工智能实验室的DeepMind研究团队在《科学》杂志上发表了一篇封面论文,并公布了通用算法AlphaZero和测试数据。《科学》杂志评论说,多个复杂问题可以通过单一算法解决,这是创建通用机器学习系统和解决实际问题的重要一步。本文作者包括核心研发人员大卫西尔弗;AlphaGo的d人事,以及DeepMind的创始人戴密斯哈萨比斯。

AlphaGo最早被人们熟知是2016年与围棋世界冠军李世石的人机对战,最终以4-1的总比分获胜。事实上,早在2016年1月,谷歌就在国际学术期刊《自然》上发表了一篇封面文章,介绍了AlphaGo在没有任何让步的情况下,以533.36万英镑的价格战胜了欧洲冠军和专业围棋第二阶段的魏凡。

2017年10月18日,DeepMind团队宣布了Alpha Go的最强版本,代号为AlphaGo Zero。当时DeepMind说象棋AI的算法主要基于复杂枚举,需要人工评估。在过去的几十年里,人们已经把这种方法做到了极致。AlphaGo Zero在围棋上的超人表现,是通过和自己下棋练出来的。

现在DeepMind研究团队已经将这种方法扩展到了Alphaero的算法中。Alphaero花了长达13天的时间“自学”,然后与国际象棋世界冠军AI对质:

在国际象棋比赛中,阿尔法零在四个小时后首次击败了第九届TCEC世界冠军斯托克菲什。

在通用象棋中,两小时后,AlphaZero击败了通用象棋联赛的世界冠军Elmo。

《围棋》中,AlphaZero经过30个小时的激战,击败了李世石的AlphaGo。

AlphaZero:一种算法采用所有三种象棋类型。

以前版本的AlphaGo从数千套训练开始,用人类玩家的棋谱来学习如何玩围棋。当你到达AlphaGo Zero时,你跳过这一步,通过自我游戏来学习下棋,从零开始。该系统从一个对围棋一无所知的神经网络开始,结合神经网络和强大的搜索算法,自己玩游戏。游戏过程中,神经网络不断调整升级,每一步都在预测输家和最终赢家。

和AlphaGo Zero一样,从随机游戏开始,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,通过自我游戏进行强化学习,除了游戏规则外,没有任何知识背景。强化学习是一种通过反复试验的机器学习方法。

DeepMind在博客中介绍,一开始AlphaZero完全是在鬼混,但是随着时间的推移,系统从输赢的博弈中学习,调整神经网络的参数等等,随着每一轮,系统的性能提升了一点,自我游戏的质量也提升了一点,神经网络变得越来越精准。神经网络需要的训练量取决于游戏的风格和复杂程度。实验结束后,AlphaZero花了9个小时掌握象棋,12个小时掌握通用象棋,13天掌握围棋。

Azero继承了AlphaGo Zero的算法设置和网络架构,但两者有很多不同之处。比如Go中很少出现平局,所以AlphaGo Zero在结果为“输赢”的假设下,对获胜概率进行估计和优化。AlphaZero还会考虑抽签或其他潜在结果,并对结果进行估计和优化。

其次,围棋的棋盘会旋转反转,结果不会改变,所以AlphaGo Zero会通过生成8幅对称图像来增强训练数据。但是在国际象棋和一般象棋中,棋盘是不对称的。因此,AlphaZero不会增强训练数据,也不会在蒙特卡洛树搜索过程中改变棋盘位置。

在AlphaGo Zero中,自我游戏是由之前所有迭代中最好的玩家生成的,自我游戏也是针对这个新玩家的。AlphaZero只继承AlphaGo Zero的单一神经网络,不断更新,而不是等待迭代完成。自我博弈是利用这个神经网络的最新参数生成的,因此省略了评估步骤和选择最佳玩家的过程。

此外,AlphaGo Zero通过贝叶斯优化使用调整搜索的超参数;在AlphaZero中,所有游戏都重复使用同一个超参数,所以不需要针对特定的游戏进行调整。唯一的例外是保证探索噪音和学习率。

研究团队展示了Alphaero蒙特卡罗树在1000次、10000次之后的内部搜索状态.直到100万次的模拟游戏,阿尔法罗玩白色,斯托克菲什玩黑色。每个树形图显示了十个最常搜索的状态。

标签:

免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!