作者yeahhuman (人)

看板GO

标题

[闲聊] ALPHA GO 轻松介绍

时间Sun May 19 22:19:33 2019

虽然标题说是轻松介绍，但是我是尽量把数学概念转化成具体的能想像的事物。给对围棋熟悉，但是不甚完全了解AI下棋，尤其是ALPHA GO(以下只称AG)的板友，我会尽可能省略一些术语以及一些比较难而细节的部份，尽量维持在人脑下棋与AI下棋的差异。我很讨厌所谓的科普结果还是只有相关懂的人才看得懂的文章。 AI下棋的基础还是建立在穷举法，以及混入一些决策过程，但这以前只适用在象棋，西洋棋这类从印度发源的棋类。即使是将棋还加入了打入的手段也不例外。因为每个棋都有各自被限制棋类的功能性，因此在当下盘面，使用穷举法马上就可以知道接下来的一两步盘面变化，而这些盘面变化又可以很轻松的删去很多不必要的走法: 例如走到某一点直接毫无意义被吃掉。 AG结合了很重要的三个过程: 1) 背棋谱，但不一定必要，也可以采用另一种方式建立AG，直接下两个过程来回建立出自己的棋谱 2) 人类神经模拟 3) 有效率的穷举法其中前两者与高端棋士做的事情差不多，但要注意所谓的人类神经模拟，只有一部份真的与人在判断盘面变化时有关系。而穷举法在这里扮演的脚色，已经不是以往大量直接从盘面取得的盘面资讯，进行穷举。AG使用了更有效率，采用盘面胜率评估(以下会提到)高的一些节点进行穷举，这样省下了非常大部分的运算。我们从AG从建立到下棋的过程说起，首先是背棋谱，这时与高端棋士一样背了大量棋谱。所以基本的局部死活题理解，高端棋士是与AG旗鼓相当的。对於诘棋大致上AG不太会出错的。以下稍微复杂一点，但是只要用自己下棋的思考过程来想，应该不是太困难。在背了大量棋谱後，AG并不满足现有的棋谱，它开始进行自我训练，采用蒙地卡罗树可以在这部分得到很大的帮助，蒙地卡罗树基本上就是考虑到胜率评估，开始进行选点，采用那些点往下延伸之後的可能一些走法，每一个蒙地卡罗树下的某一步如果明显劣於这树下的其他走法会直接被中止运算。至於什麽是蒙地卡罗树?每一个蒙地卡罗树可以想像成，你在下棋时先想到下这个点，然後开始推算後续变化，各种後续变化就构成一个蒙地卡罗树。有些走法(在蒙地卡罗树下) ，被评估明显劣势甚至输掉，你就不会再考虑，AI的行为则是会直接截断这条线之後的走法不再运算，如果这个选点(整个蒙地卡罗树)最後你认为全部延伸走法都没意思，那整个蒙地卡罗树也会直接被终止不再运算，并考虑其他蒙地卡罗树。非常重要的是，在这自我训练过程，AG会尽可能选一些不一样的点下棋，一直下到完。这会产生胜率评估值。每一个蒙地卡罗树会跑到破1000次的後续走法模拟，而且也会随机下棋以试试看新走法，但人类在一个蒙地卡罗树也许只能推到後续几十步，高端棋士可能到破百步。这样的AG自我练习，会生出非常大量的新形态棋谱，而且就算一开始只让它背高端棋谱，这自我练习的总体品质仍然会高於原有输入的高端棋谱。因为在这部分原有的棋谱会被拿出来当作自我对弈的目标。再来就是这个胜率评估值会分配给每个走法，形成一个有权重的下棋方向。什麽叫做有权重的下棋方向?权重在这里很简单，就是胜率评估值，AG从大方向(最後的胜利)出发，最後将形成一个权重网路。这里就想像成你在蜘蛛网上走路(别管蜘蛛网黏不黏)，最终目标是要走出蜘蛛网(只要走出去就算胜利，不用管走哪条路)，蜘蛛网的线有些很细，有些很粗，你会理所当然走粗的线以防断掉。但是也要考虑到权重网路，如果眼前有一条很粗的线，却只通往全部都是极细的线，那你当然就不会走这条路，而会选择一条整体每条线负重力总和最大的路线，这里就是前面提到的部分的人类神经模拟。但是别忘记，AI可以直接给出每条线一个胜率评估值，最後进行总和，而人脑只能靠直觉给出一个大略的数值。而且高端棋士虽然背了上万份棋谱，但是AG自己乱下试出了更多胜率更高的棋谱变化。接着随着对手下的每一步棋，整个蜘蛛网络会重新更新一次，AG再次进行蒙地卡罗树的运算。 ================================= 这里我想要补充一些d大的建议，以及推文的疑问没错，这里我的确在说明的顺序上没处理好，我一开始就有注意到。蜘蛛网的每条线其实就是胜率评估值，在心里评估怎麽走出去时，蜘蛛网会不断改变，这里就是大量的蒙地卡罗树组合而成的蜘蛛网。而胜率评估值很仰赖评估对手下一步会怎麽下，所以才会有本文的最後一段:对手下一步会如何下的评估准确率。所以A大考虑是正确的，预测两方彼此下了几十步甚至几百步， AG给出一个胜率评估值，而这个值本身又有一个误差，这点在ALPHA GO的论文中也有提到。 ================================= 因此高端棋士会输给AG原因是因为: 1) AG背的棋谱及数量就已经比较优秀以及更大量(AG: 二到四千万份棋谱 vs 高端棋士: 一到二万份棋谱) 2) 在一个走法的胜率评估上算出相对准确的值，例如这步棋差异可能高达0.5%胜率差距，但人类评估不出来，累积下来就是AG必胜 3) 在同样的时间内AG可以多开几个蒙地卡罗树，也就是多判断几个走法，这个部分就是让高端棋士比较迷惑之处，看似没意义的一步，但是AG算过後，发现胜率评估值比起小战场的胜败还高的话，AG会选择这步(不过这步胜率评估值篇高甚至可能早就在AG的自我对弈中发现了，不用当场算出来)。直接对AG的实力进行对弈评估，目前结论是看出先喂给它大量棋谱进行监督式学习，它对於目前权重网路，对手下一步(限高端棋士)的预测准确率比较高; 但是让它自己学习，一开始显然较弱，但是它最终的ELO却会高於让它从所谓的高端棋谱起步的AG。这里出现一个很有意思的问题，也就是说直接给AG自己在规则下自我下棋学习，它最後的强度，会突破先喂给它棋谱的实力。而且根据AG的图表，大概在只要训练20~36小时(这时自己学习的AG显然也出现ELO的上升趋缓，所以僵持了比较久才明确超越，但後面又会忽然提升)左右，自己学习的AG的ELO便可以稳定超越受监督的AG。然而对於针对高端棋士的下一步预测准确率，在自我训练下棋的AG却永远低於受监督AG。这点根据研究结果，团队只指出自我学习的AG发展了自己的一套策略。这点也许是因为所谓"高端棋士的棋谱"其实不是胜率最高的，以至於自我训练的AG对於人类的棋谱，有较低的准确率，因为建立它在自己更优秀的整体棋谱上。关於以上这点有了解的人，或许可以说明，谢谢。 --------------------------------------------- 我不希望用数学迷惑版友，不像某人为了证明自己毫无研究过的论点，讲出一大堆对毫无帮助的数学名词，想为自己的立论佐证，我认为这点毫无意义。另外我也为我几天前的暴躁感到抱歉，当时我已经连续工作了超过32小时，回到住处却发现某人跟风在讽刺我的删文，我无论如何也是老PTT人，知道删别人文的严重性。本来想给它台阶下，结果它却跟风嘲讽我的耻度，所以当下极为暴怒。总之抱歉，希望这篇文99%的版友都看得懂，知道AG到底在做什麽，这就达到我之前的承诺了，谢谢。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.151.21 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/GO/M.1558275577.A.892.html

1^F：推 yyc0921: 赞清晰 05/19 23:23

2^F：推 iamgodisme: 推 05/19 23:27

3^F：→ iamgodisme: 道歉给推 05/19 23:27

4^F：推 malala: 赞！喜欢这种文章 05/20 00:50

※ 编辑: yeahhuman (111.250.76.199), 05/20/2019 01:01:42

5^F：推 ddavid: 虽然这篇脉络理得不错，不过其实我觉得可以多给你一点建议 05/20 03:06

6^F：→ ddavid: 。 05/20 03:06

7^F：→ ddavid: 经典的科普文有几个虽非绝对但至少经常具备的要素： 05/20 03:07

8^F：→ ddavid: 1. 从非常轻松、聊天式的故事导入并可能在中间进行各段落 05/20 03:08

9^F：→ ddavid: 的引导 05/20 03:08

10^F：→ ddavid: 2. 接续上一点，有一些问答从一般人的角度出发，针对容易 05/20 03:09

11^F：→ ddavid: 产生於一般大众心中的问题进行处理 05/20 03:09

12^F：→ ddavid: 3. 对於每个专有名词或某些专门机制，不是直接解释其实际 05/20 03:10

13^F：→ ddavid: 做法及功能，而是以一些一般人都知道的事物先进行比喻，然 05/20 03:11

14^F：→ ddavid: 後才将比喻中的各要素进行补充对应到原始机制上 05/20 03:12

15^F：推 ddavid: 关於3的部分，像你文中就用到了一个还不错的走出蜘蛛网比 05/20 03:16

16^F：→ ddavid: 喻，但是对我而言整体并没有极好的理由是你把比喻跟原始机 05/20 03:17

17^F：→ ddavid: 制及术语混在一起一次写，会导致这个比喻其实起的效用被削 05/20 03:18

18^F：→ ddavid: 弱。 05/20 03:18

19^F：→ ddavid: 单就那一段，我建议可能是走以下的脉络： 05/20 03:18

20^F：→ ddavid: 1. 先完整从头到尾写出一个「走出蜘蛛网」的比喻 05/20 03:19

21^F：→ ddavid: 2. 开始对应「走出蜘蛛网」剧本中与原始问题与机制的对应 05/20 03:19

22^F：→ ddavid: ，比如必须明确写出蜘蛛网的粗细是哪个机制算出来的？走出 05/20 03:21

23^F：→ ddavid: 蜘蛛网的起点是什麽，目标又是什麽？每走一步都要重新织蜘 05/20 03:23

24^F：→ ddavid: 蛛网吗？还是可以描述成「在一面很大的网上走，可是蜘蛛是 05/20 03:24

25^F：→ ddavid: 大近视，对於越远网线的粗细看得越不清楚，要等走近一点才 05/20 03:25

26^F：→ ddavid: 重新看一次把粗细判断得更清楚一点」之类的？ 05/20 03:25

27^F：→ ddavid: 而对於其他段落，这篇就相对比较欠缺一开始三点所说的引导 05/20 03:26

28^F：→ ddavid: 故事、新手问答及比喻对应等要素，所以即便脉络清楚、即便 05/20 03:27

29^F：→ ddavid: 你尽可能省去艰涩的专有名词及技术内涵，但是整体仍然会相 05/20 03:28

30^F：→ ddavid: 对让人比较觉得是「用词比较不深的技术概要文章」而非「科 05/20 03:28

31^F：→ ddavid: 普」。当然现在去搜寻科普文章，也是有很多就用这样的写法 05/20 03:29

32^F：→ ddavid: ，所以这也不是写法有什麽对错，只是我个人觉得在科普的易 05/20 03:30

33^F：→ ddavid: 读性、引导性跟趣味性来说，那三点应该是蛮有帮助的要素 05/20 03:30

34^F：推 ddavid: 例如下面科普写作网路平台的第二届人与自然科普写作桂冠 05/20 03:39

35^F：→ ddavid: 奖首奖： 05/20 03:39

36^F：→ ddavid: http://bit.ly/2w9crjD 05/20 03:39

37^F：→ ddavid: 第四届人与自然科普写作桂冠奖三奖： 05/20 03:41

38^F：→ ddavid: http://bit.ly/2wa2pP2 05/20 03:41

39^F：→ ddavid: 第五届人与自然科普写作桂冠奖三奖： 05/20 03:41

40^F：→ ddavid: http://bit.ly/2w7433U 05/20 03:42

41^F：→ ddavid: 可以看到他们对於故事性、问答及比喻都有不同比重的采用， 05/20 03:45

42^F：→ ddavid: 但不管如何，这三个要素都能让阅读者脑中的景象鲜明起来， 05/20 03:46

43^F：→ ddavid: 且容易跟随到写作者的脉络。 05/20 03:47

44^F：推 ddavid: 像是如果科技业应该很可能听说过的The Joel on Software 05/20 03:58

45^F：→ ddavid: 系列文章（集结出书时译为约耳趣谈软体）也都带有这些要素 05/20 03:59

46^F：→ ddavid: ： 05/20 03:59

47^F：→ ddavid: http://bit.ly/2w6ovBZ 05/20 04:07

48^F：推 ddavid: 虽然Joel的针对面向是已经相对熟知程设或科技业的人，所以 05/20 04:10

49^F：→ ddavid: 不那麽科普，但他还是很擅长加入这些要素让文章变有趣 05/20 04:11

50^F：推 intointo: 推原po 跟 ddavid 05/20 07:00

51^F：推 AIkiku: 你好我想请问 AG是用甚麽方式评估该点的胜率呢？因为 05/20 12:26

52^F：→ AIkiku: 要评估胜率不是本来就要往後算几步吗？ 05/20 12:26

d大 A大已在内文回覆你们的建议以及疑问。

53^F：→ limitersty: 讲得太复杂失败 05/20 14:50

54^F：推 buji: 以蛛网比喻的话，我以为每次(模拟)对局,走过的蛛网会变粗 05/20 16:58

55^F：推 gamera: 赢的话蛛网才变粗，输的话就变细 05/20 17:28

56^F：推 david1124: 推 05/20 19:57

57^F：推 ECB: 没搔到痒处，太过简略等於没写一样 05/20 21:55

58^F：推 Tabrith: 推 05/20 22:06

59^F：→ ECB: https://www.inside.com.tw/article/10829-alphago-zero 05/20 22:06

1→ ECB: 参考这一篇 05/20 22:06

60^F：推 ECB: https://technews.tw/2017/12/09/alphazero-play-chess/ 05/20 22:24

61^F：→ ECB: AlphaGo Lee-->AlphaGo Master-->AlphaGo Zero-->AlphaZero 05/20 22:25

因为我终究没有跟编辑讨论过的这一步骤，没办法做到深度与趣味性兼具，我也已经意识到这一点，我会尽可能让以後的文章更清晰以及更有深度。事实上这一篇我已经考虑了简易度，也许是因为还是没有办法把握住分寸所以有人觉得简略，也有人觉得太困难，我会更朝向给普通人的文章尽可能努力，不预设读者有任何知识背景。 ※ 编辑: yeahhuman (140.112.150.140), 05/21/2019 00:58:06

62^F：嘘 hakama99: 讨论到删推文删推文引起别人不满被酸有甚麽好暴怒的 05/22 17:24

63^F：推 KAOKAOKAO: 推 05/27 15:35

64^F：推 cartoonss: 推！！ 11/29 23:30

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

GO 板

[闲聊] ALPHA GO 轻松介绍

热门看板

赞助商连结