设为首页 - 加入收藏
您的当前位置:主页 > 医学 > 正文

人类:“共同探索围棋极限” 新AlphaGo:“不了吧

来源:网络整理 编辑:管理员 时间:2020-12-27

  5月27日,端午节假期的前一天,少年棋手柯洁和AlphaGo的故事在乌镇结束了。

  在过去的几天里,AlphaGo战胜了当时这颗星球上最强的人类棋手。柯洁说:要专注于和人类下棋,不再和机器下棋了。

  AlphaGo的开发团队说:我们要专注于将AlphaGo的技术应用到其它领域,AlphaGo也不会再和人类下棋了。

  虽然更多的是唏嘘,但人类围棋界还是放下了心来。终于不用再和这个疯狂而变态的选手较劲了。

  然而,5个月后,AlphaGo又有了新成果,这一次还是和围棋有关。如果说AlphaGo战胜柯洁是机器与人类的战争,那么这一次AlphaGo Zero的突破更像是某种客观规律的战争。

  AlphaGo似乎触摸到了围棋这一游戏的尽头。

  自学成才的AlphaGo Zero

  AlphaGo不是早就战胜人类了么?DeepMind不是说不再让AlphaGo和人类下棋了吗?

  没错,这一次AlphaGo的大新闻,确实和人类“没什么关系”。

  DeepMind中AlphaGo项目组的主要负责人David Silver介绍,AlpheGo Zero目前已经是这个世界上最聪明的计算机棋手,它连续击败了此前战胜围棋世界冠军李世乭的AlphaGo Lee版本100次。

  之所以以李世乭的版本作为对比而没有使用与柯洁对战的版本进行对比,是因为受到环境所限今年5月在乌镇与柯洁对战的AlphaGo其实是一个特殊的离线Alpha Master版本,仅由一个TPU在不连接网络的情况下完成对战。

  无论是击败李世乭的版本还是击败柯洁的版本,过去的AlphaGo在“学习如何下棋”这个阶段,使用的都是大量的人类经典棋谱。它们被告知人类的高手在不同的情况下应该如何应对。而这一次的AlphaGo Zero在学习过程中完全没有使用任何人类的棋谱,它对玩法的探索完全是从自我对弈中学习的。

  开始AlphaGo Zero会从非常随机且无厘头的下法开始进化,而它的陪练(另一个AlphaGo Zero)的水平也很低。然后AlphaGo Zero会从每一场胜负中,取得经验,使得自己的奇艺水平不断提高。

  David Silver说,很多人相信在人工智能的应用中算力和数据是更重要的,但在AlphaGo Zero中他们认识到了算法的重要性远高于算力和数据——在AlphaGo Zero中,团队投入的算力比打造上一个版本的AlphaGo少使用了一个数量级的算力。

  使用了更先进的算法和原理,让AlphaGo Zero的程序性能本身更加优秀,而不是等待硬件算力技术的提升。

人类:“共同探索围棋极限” 新AlphaGo:“不了吧

  AlphaGo Zero从零开始摸清围棋规则,就像是一个完全不会下棋的孩子。自我学习3天后,(胃窦溃疡a1期活检恶性),超过AlphaGo Lee(战胜李世乭版本);21天后,超过AlphaGo Master(网络对战60:0版本);在训练40天后,对弈双方相互交替持黑白棋的情况下,Zero对Master胜率超过90%。

  在训练完成的AlphaGo Zero只能给,人们发现它自学成才的许多围棋打法与人类上千年来总结的知识是不谋而合的,比如打劫、征子、棋形、布局在对角等,都有人类围棋的影子。

  所以人类棋手也不用伤心,这恰恰证明人类在过去的几千年里摸索出了围棋这一游戏的“自然规律”。而人工智能与人类棋手的对比就像是汽车和跑步。

  每下一步仅需要思考是0.4秒的AlphaGo Zero所产生的美感与人类在紧张对弈时的美感是完全不同的,就像没有人会把F1方程式当赛跑比赛看一样。

  那么,如何做到的?

  祭出老图,我们先复习一下以前的AlphaGo是怎么工作的:

  过去的AlphaGo每一棋的思考,(浅表性胃炎能治愈吗),分为两个界限清晰的步骤是:

人类:“共同探索围棋极限” 新AlphaGo:“不了吧

  1.获取棋局信息后,AlphaGo会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。这个过程得出的结果是概率分布,既棋盘上每个位置都有机会被选中,但客观情况下会有一个特定的区域拥有更高的概率。

  2.根据上一步得出的概率分布,价值网络(value network)会对概率高的地区再进一步的判断,得出一个只有两个值的结果,每个落子位置要么被判定为会让自己赢,要么被判定为让对手赢。

  在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为AlphaGo的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

人类:“共同探索围棋极限” 新AlphaGo:“不了吧

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片


阳光健康网 www.sunfp.com 联系QQ:981571422 邮箱:981571422@qq.com

Copyright © 2002-2011 阳光健康网. Power by 阳光健康

Top