GO 板


LINE

看板 GO  RSS
https://www.ithome.com.tw/news/141845 DeepMind揭露新一代AI系统MuZero:不知游戏规则也能有效规画行动 新一代AI系统MuZero能在完全不知规则的情况下,熟悉围棋、西洋棋、将棋,以及57款 Atari游戏,且效能大幅超越了现有最佳的DQN、R2D2与Agent57系统,可望用来解决现实 生活中,规则太复杂或完全不知规则的各式难题。 文/陈晓莉 | 2020-12-24发表 Alphabet旗下的人工智慧子公司DeepMind,继发表了围棋AI系统AlphaGo,以及同时精通 围棋、西洋棋与将棋的AlphaZero之後,於本周再度揭露了新一代AI系统MuZero,它能够 在完全不知规则的情况下,熟悉围棋、西洋棋、将棋,以及57款Atari游戏,且效能大幅 超越了现有最佳的DQN、R2D2与Agent57系统,可望用来解决现实生活中,规则太复杂或完 全不知规则的各式难题。 比较DeepMind的几代产品,2016年的AlphaGo是透过已知的规则、围棋领域的知识,再加 上人类资料训练而成,让它击败了全球的围棋好手;2017年的AlphaGo Zero,则是仅利用 已知规则,自我学习而达到与AlphaGo同样的境界;2018年的AlphaZero也是仅基於已知规 则,但把挑战范围从围棋扩大到西洋棋与将棋,便能同时精通这3项棋戏;而最新的 MuZero则未被喂入任何的已知规则,在未知的动态环境下就能自动学习规则并作出最佳判 断,且MuZero系统把挑战范围从上述的围棋/西洋棋/将棋,扩大到Atari出品的57款游戏 ,并取得优秀的成绩。 DeepMind团队说明,规画是人类智慧的一项重要能力,让人类能够解决问题并替未来作出 决策,人类通常很快就可以学到计画的能力,同时也能延伸到新的场景,而这也是该团队 期许AI系统能够达到的。 研究人员最初试着透过两种作法来解决此一问题,包括超前搜寻(lookahead search)与 基於模型的规画能力,但前者必须仰赖诸如规则或精确模拟器等环境动态的知识,让它难 以适用於解决复杂且通常缺乏简单规则的现实世界问题;後者虽然可藉由学习环境动态的 精确模型来进行计画,但针对环境的每一方面来建模,则无法满足视觉丰富的领域,例如 Atari,迄今针对Atari的最佳解决方案为非模型的AI系统,包括DQN、R2D2与Agent57,它 们并非使用学习模型,而是推测下一步的最佳作法。 於是MuZero摒弃了上述两种方式,采用了截然不同的作法,它只针对系统决策程序的重要 因素来建模。研究人员形容,人类的规画能力呈现在当看到乌云时,即推测可能会下雨便 带了把伞,MuZero的逻辑则在於,了解伞能够让人们保持乾燥,比针对空气中的雨滴进行 建模更有用。 因此,MuZero的模型着重在能够协助规画的环境变动因素,包括现在位置的价值、最佳行 动的政策,以及上一个行动的成效,藉由深度神经网路进行学习,以理解当采取特定行动 时所产生的结果,并据此展开规画。 DeepMind团队测试了MuZero在围棋、西洋棋、将棋与Atari游戏上的效能,发现它替强化 学习演算法设立了全新的水平,不仅於棋戏项目达到与AlphaZero同样的效能水准,在 Atari游戏上更凌驾了所有现有的最佳系统。 此外,该团队也发现,要是赋予MuZero更多的思考(演算)时间,例如原本移动围棋每个 棋子的时间为1/10秒,在将它拉长至50秒之後,MuZero在围棋上的技能将增加 1000 Elo ,两者之间的差距就如同一个厉害的业余玩家,以及一个世界最强的专业棋手。 同样的,在Atari其中一款游戏《小精灵小姐》(Ms Pac-Man)上进行测试时,MuZero在 每个行动上可选择5~50个数量的规画模拟,结果显示所选择的规画数量愈多,MuZero就能 学习得更快,也能取得更好的效能;有趣的是,若将MuZero的每个行动限制在只能选择6 或7个规画模拟,它同样能够达到优秀的效能,透露出MuZero可在情况与行动之间进行归 纳,而不一定要搜寻所有的可能性。 研究人员认为,当MuZero具备学习环境模型的能力,并用它来进行规画时,呈现的是强化 学习与通用演算法上的重大进步,AlphaZero已被用来解决化学或量子物理等问题,而 MuZero将可用来解决机器人、工业系统或其它未知规则的混乱现实环境中,所存在的新挑 。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.129.164.26 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/GO/M.1617507530.A.B3A.html
1F:推 intointo: wow 04/04 12:04
2F:推 RicFlair: 终於制霸atari了吗 04/04 15:09
3F:推 staristic: 不知道规则也能下?意思是不是有办法不考虑贴目或配置 04/04 15:11
4F:→ staristic: 直接判断一个局部定式好坏? 04/04 15:11
5F:推 abc0922001: 不用事先输入规则而已吧 04/04 16:03
6F:→ saviora: 意思就是他可以自己探索规则 04/04 21:23
7F:推 earltyro: S大 应该是没有说明书 一直输 输到学会的意思啦 04/05 09:14
8F:推 rnoro: 其实应该没有什麽新东西,只是把规则变成参数的一部分而已 04/09 02:05







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Tech_Job站内搜寻

TOP