国际时讯 美国新闻 韩国新闻 日本新闻 俄罗斯新闻 加拿大新闻 澳洲新闻 意大利新闻 英国新闻 法国新闻 德国新闻 巴基斯坦 新加坡新闻 大马新闻 菲律宾新闻 越南新闻 泰国新闻 柬埔寨新闻 印尼新闻 缅甸新闻 印度新闻
地方网 > 新闻 > 国际新闻 > 韩国新闻 > 正文

最强版阿尔法狗已停止进一步强化,缔造者称正着手星际争霸

来源:澎湃新闻 2017-10-20 13:15   https://www.yybnet.net/

仅用3天时间,490万盘自我对弈的训练数据,一台机器和4个TPU就打败了战胜过韩国棋手李世石对弈的AlphaGo,DeepMind公司10月18日新发布的最强版AlphaGo Zero技惊四座。

在最新的论文和官方博客中,DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯(Demis Hassabis)和AlphaGo团队负责人大卫·席尔瓦(Dave Sliver) 将AlphaGo Zero的成功归咎于强化学习的升级。这一次,他们仅采用单一的神经网络,综合了策略网络和价值网络两种此前用的方法,在不用人类棋谱的情况下,完成了上所述的成就。

10月19日,大卫·席尔瓦与团队另一成员 Julian Schrittwieser 代表 AlphaGo ,在问答新闻社区Reddit上回答了网友的提问。

在问答过程中,席尔瓦透露,目前,DeepMind内部已经停止了强化 AlphaGo 的积极研究,但仍保留了研究试验台,以供 DeepMind 人员验证新思路和新算法。至于未来是否会开源给全球开发者共享。席尔瓦表示,DeepMind之前已经开源了大量的代码,但过程一直非常复杂。不幸的是,AlphaGo 项目的代码库更加复杂,甚至可以说复杂的过分了。

值得一提的是,据两位成员透露,在开发AlphaGo的过程中,DeepMind团队遇到的最大困难是在与李世石比赛期间出现的。当时,团队意识到 AlphaGo 偶尔会受到错觉(delusion)的影响。即对弈中,会持续多次系统地误解当前的棋局。他们尝试了很多方法来解决,如给程序灌输更多的围棋知识或人类元知识。这一次他们的解决方法是让系统的算法变得更加条理化,使用更少的知识,更多地依赖强化学习来生成更高质量的解决方案。从最终结果看,效果还不错。

AlphaGo Zero更多依靠强化学习算法,而不是人类数据的方法,也引发了算法和数据之间哪个更重要的讨论。在Julian Schrittwieser看来,目前算法仍然比数据更重要,只要看看 AlphaGo Zero 比之前几个版本的训练效率高出那么多就能理解。但这也表明,未来,数据在训练效率上的重要性还会有很大的提升。

另外,网友还特别关心了DeepMind星际争霸人工智能的开发进度,Julian Schrittwieser回答道:“我们宣布开放星际争霸 2 环境刚过去几个星期,所以现在还处于早期阶段。星际争霸的行动空间确实要比围棋更具挑战性,因为其观察空间要远大于围棋。从技术上讲,我认为两者最大的区别之一在于围棋是一种完美信息博弈,而星际争霸因为有战争迷雾,属于不完美信息博弈。”

在问答中,也有网友将DeepMind的人工智能与Facebook的研究做比较,两者究竟谁更胜一筹。对于这个问题,席尔瓦说:“Facebook 更关注监督学习,它能产生当时性能最优的模型;而我们更关注强化学习,因为我们相信它最终会超越人类已有的知识而进一步取得提升。我们最近的结果实际上表明,只有监督学习确实可实现令人惊叹的表现,但强化学习绝对是超越人类水平的关键。”

新闻推荐

朴槿惠在公审中首次发言: “总有一天会真相大白”

综合消息当地时间10月16日上午,韩国前总统朴槿惠在首尔中央地方法院刑事合议22部进行的公开审判中首次发言,对延长羁押期限的决定表示难以接受,并称自己不会放弃,总有一天真相大白。据报道,朴...

相关新闻:
猜你喜欢:
评论:(最强版阿尔法狗已停止进一步强化,缔造者称正着手星际争霸)
频道推荐
  • 公园里的捐赠 王溱
  • 图说天下 2022年04月16日A07版文章字数:434朗读:
  • 迄今发现的最远恒星 也许开启了研究早期宇宙的新窗口
  • 各地开展全民国家安全教育日主题活动
  • 俄通报乌千余守军投降美将供乌8亿美元军援
  • 热点阅读
    文牧野: 我一直追寻着真实与真诚... 王阳:《人世间》让人思考什么是活着... 国潮那么潮
    图文看点
    乡里乡亲
    张庭夫妇公司被认定传销 举报者:担心... 电影《花渡好时光》定档 回乡青年演... 从《少年》《下山》《踏山河》到《孤...
    热点排行