“阿尔法狗”再进化 “自学”3天就100:0碾压李世石版“旧狗”

来源:潍坊晚报 2017-10-20 10:40 https://www.yybnet.net/

人工智能“阿尔法围棋”(AlphaGo、“阿尔法狗”)在几次世界瞩目的人机大战后站在了围棋之巅,现在它又以一种新的方式超越了自己,开发出“阿尔法围棋”的英国“深度思维”公司,在新一期英国《自然》杂志上发表题为《在没有人类知识条件下掌握围棋游戏》的论文,介绍了最新版的“阿尔法围棋-零”,新版本“从零开始”学习围棋,仅用3天就击败其前辈版本,成为新的王者。

最强版本“零”计算效率提高

伦敦当地时间10月18日,“阿尔法围棋”再次登上世界顶级科学杂志——《自然》。

一年多前,“阿尔法围棋”便是2016年1月28日当期的封面文章,“深度思维”公司发表重磅论文,介绍了这个击败欧洲围棋冠军樊麾的人工智能程序。

今年5月,以3:0的比分赢下中国棋手柯洁后,“阿尔法围棋”宣布退役,但“深度思维”公司并没有停下研究的脚步。伦敦当地时间10月18日,“深度思维”团队公布了最强版“阿尔法围棋”,代号“阿尔法围棋-零”。它的独门秘籍,是“自学成才”。

团队称,“阿尔法围棋-零”的水平已经超过之前所有版本的“阿尔法围棋”。“深度思维”团队将关于“阿尔法围棋-零”的相关研究以论文的形式,刊发在了10月18日的《自然》杂志上。

“‘阿尔法围棋\’在两年内达到的成绩令人震惊。现在,‘阿尔法围棋-零’是我们最强版本,它提升了很多。‘零\’提高了计算效率,并且没有使用到任何人类围棋数据”,“阿尔法围棋”之父、“深度思维”联合创始人兼CEO戴密斯·哈萨比斯说。

戴密斯·哈萨比斯表示,最终,人类想要利用它的算法突破,去帮助解决各种紧迫的现实世界问题,如蛋白质折叠或设计新材料。“如果我们通过‘阿尔法围棋\’,可以在这些问题上取得进展,那么它就有潜力推动人们理解生命,并以积极的方式影响我们的生活。”

第一个版本“阿尔法围棋-樊”

它在2015年战胜欧洲围棋冠军樊麾,标志着人工智能首次战胜人类职业棋手；第二个版本“阿尔法围棋-李”

它在2016年战胜曾多次夺得世界冠军的韩国棋手李世石,标志着人工智能战胜人类顶级棋手；第三个版本“阿尔法围棋-大师”

在今年战胜现在世界排名第一的柯洁,并在与多位有世界冠军头衔的人类棋手“群战”中完胜。第四个版本“阿尔法围棋-零”

开始学习围棋3天后,以100比0的成绩战胜“阿尔法围棋-李”；40天后,又战胜“阿尔法围棋-大师”。

不再受人类知识限制,只用4个TPU

“阿尔法围棋”前三个版本在刚开始学习围棋时,都要依靠人类知识,即先教它们一些人类摸索出的基本下法,结合数百万人类围棋专家的棋谱以及强化学习的监督学习。

在战胜人类围棋职业高手之前,“阿尔法围棋”经过了好几个月的训练,依靠的是多台机器和48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。值得一提的是,“阿尔法围棋-零”还非常“低碳”,只用到了一台机器和4个TPU,极大地节省了资源。

“阿尔法围棋-零”的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。经过训练,“阿尔法围棋-零”完成了近五百万盘的自我博弈后,已经可以超越人类,并击败了此前所有版本的“阿尔法围棋”。

“深度思维”团队在官方博客上称,“零”用更新后的神经网络和搜索算法重组,随着训练地加深,系统一点一点地在进步。自我博弈的成绩也越来越好,同时,神经网络也变得更准确。“这些技术细节强于此前版本的原因是,我们不再受到人类知识的限制,它可以向围棋领域里最高的选手——‘阿尔法围棋\’自身学习。”“阿尔法围棋”团队负责人大卫·席尔瓦说,“零”使用新的强化学习方法,让自己变成了老师。

“自学”3天,高分赢过旧版

大卫·席尔瓦说,“零”还在3个方面与此前版本有明显差别。

首先,“零”仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入；其次,“零”仅用了单一的神经网络。在此前的版本中,“阿尔法围棋”用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估；第三,“零”并不使用快速、随机的走子方法。

“以上这些不同帮助新版AlphaGo在系统上有了提升,而算法的改变让系统变得更强更有效。”大卫·席尔瓦说,开始学习围棋3天后,“零”就以100:0的成绩战胜了“阿尔法围棋-李”(曾击败过韩国棋手李世石)；40天后,它又战胜了在所有人类高手看来已不可企及的“阿尔法围棋-大师”。而“大师”曾击败过世界顶尖的围棋选手,甚至包括世界排名第一的柯洁。

对于这一进步,人类围棋现世界第一柯洁称:“一个纯净、纯粹自我学习的AlphaGo是最强的,对于AlphaGo的自我进步来讲,人类太多余了。”

本报综合报道

新闻推荐

英凯特王妃挺孕肚“与熊共舞”

中新网电据外媒报道，英国威廉王子、凯特王妃和哈利王子16日现身英国伦敦帕丁顿火车站，出席慈善活动。活动期间，凯特王妃大方与帕丁顿熊共舞。据悉，凯特王妃正怀第3胎，小腹微凸，孕味十足。据报道，凯特王...

相关新闻:: 钱一栋︱牛津法理学讲席：哲学家的殖民地？2017-10-17 16:00

日本造高铁英国首发就漏水晚点，曾被曝使用神户制钢问题产品2017-10-17 19:21

读《八十天环游地球》有感2017-10-20 09:55

猜你喜欢:: 英情报官员称英国面临恐怖主义巨大挑战2017-10-19 12:12

玩忽职守！英游园会值勤警察集体玩碰碰车2017-10-19 20:08

满架蔷薇一院香2017-10-20 07:47

评论:(“阿尔法狗”再进化 “自学”3天就100:0碾压李世石版“旧狗”)

频道推荐: 西宁市主城区开展全员核酸检测

公园里的捐赠王溱

图说天下 2022年04月16日A07版文章字数：434朗读：

迄今发现的最远恒星也许开启了研究早期宇宙的新窗口

各地开展全民国家安全教育日主题活动

俄通报乌千余守军投降美将供乌8亿美元军援

热点阅读: 文牧野：我一直追寻着真实与真诚... 王阳：《人世间》让人思考什么是活着... 国潮那么潮

图文看点

乡里乡亲: 张庭夫妇公司被认定传销举报者：担心... 电影《花渡好时光》定档回乡青年演... 从《少年》《下山》《踏山河》到《孤...

热点排行