作者ddavid (谎言接线生)
看板StarCraft
标题[情报] DeepMind AI「AlphaStar」
时间Sat Jan 26 19:27:02 2019
感想先写在前头,这篇有讲到一些设定的部分,事实上每五场都是五个不同模型
。然後输的那场有要让AI切萤幕,而且只训练一个星期而已。也就是说别的模型说不
定未必会有那个空投拉扯问题。
APM部分的限制不知道到底怎麽设定的,感觉是峰值APM也应该限制一下。
DeepMind AI「AlphaStar」对战《星海争霸 II》职业高手,取得十胜一败成绩
https://engt.co/2Sahn4j
在基本上辗压了围棋界之後,DeepMind 团队将目光放到了自由度更高的即时战
略游戏,并且最近都在忙着调校一个新的「AlphaStar」AI,来挑战《星海争霸 II》
的职业高手。在上月底连续两组五局对战中,AlphaStar 先全胜了 TLO,接着又在第
二组对战中全胜了 MaNa。唯有最後一场直播的对战,才让 MaNa 好歹为人类争了一
口气,赢回唯一一场胜利。
不过,事情当然不像表面那麽简单。AlphaStar 相对於人类,其实是隐藏优势的
。这时候有在玩 RTS 的读者大概会猜是反应速度、或是手速,但其实都不是 --
AlphaStar 的「手速」(也就是每分钟动作数)其实平均只有 277 APM,比起星海职
业选手的平均 559 APM 要少了不止一点,再加上 AI 从发现新状况,到计画出合理
的回应,中间大约要 0.35 秒的时间,这也比一般职业高手差。在这部份,
AlphaStar 完全是靠更有效率的操作,与更经济的决策来弥补的。AlphaStar 真正「
作弊」之处,在於它可以同时看到整个地图,当然战争迷雾还是存在,只是
AlphaStar 不像人类对手一样,要一直不停地在地图来回跳动检视,自然也不容易被
偷袭罗。
AlphaStar 的训练和其他类似的 AI 系统一样,都是先由观看无数的人类对战影
片,来产生一个模型,再由这模型产生一大堆类似但不完全相同的「分身」,再让这
些分身下去对打,直到决胜出最厉害的五个 AI「选手」为止。在一个月的虚拟对战
中,AlphaStar 的诸多分身份进行了等同於现实时间 200 年的对战时长,最後选出
的五个代表每个都有不同的游戏风格,并且是 DeepMind 认为最有获胜机会的。就是
这五个代表被推上去与 TLO 和 MaNa 各对战了一次(避免风格重复被看破手脚,同
时 MaNa 面对的 AlphaStar 更有经验一点),并取得了十战全胜的成绩。
至於最後一场呢?原来这是个「实验版」的 AlphaStar,拿掉了上面提到的那个
「隐藏优势」,让模型必需和人类一样时不时地检查一下地图的各个角落,自然也就
有错漏重要资讯的可能。虽然也有着一个礼拜的训练时间,但 DeepMind 团队未能让
它先与人类选手「切搓」一下,因此与 MaNa 在直播上的对战是它与人类面对面的初
战,可惜输给了对方。
当然,对我们一般人来说,就是真正具备高度挑战性的游戏 AI 已经不再是个梦
想,即使是即时战略这样没有明确的胜败因素、没有完整的资讯、而且需要长远的概
念的游戏,AI 都有打败人类的潜力了。有兴趣的话 DeepMind 自己的部落格上有
AlphaStar 与两位人类的对战影片,可以去看看 AlphaStar 采取的各种奇怪的战略
罗。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.165.93
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/StarCraft/M.1548502025.A.A4F.html
2F:推 HenryLin123: AI的APM应该要降 不然就是不能用API 用滑鼠输入吧 01/26 21:19
3F:推 jiaching: 看了VOD 人类除了兵力大优 不然会战完全被AI的操作完爆 01/26 21:51
4F:→ hijacker: 闪追操作也很猛 剩下一大堆残血的追猎 01/26 21:54
5F:推 clamperni: 只要APM合理操作就合理 01/26 22:28
6F:推 HenryLin123: 一点都不合理 滑鼠随点随到 这样练出一个只会操作的A 01/26 23:26
7F:→ HenryLin123: I有何意义 01/26 23:26
8F:推 Jotarun: 1. 就算练出只会操作的AI一样神 不然以前怎麽练不出 01/26 23:59
9F:→ Jotarun: 2. 模拟滑鼠或者机器手臂什麽的都是花招而已 01/27 00:00
10F:→ Jotarun: 真的要直接限制单位时间数量或特定动作延迟即可 01/27 00:00
11F:→ Jotarun: 3. 这个不是最後结果 不需要现在就盖棺论定 01/27 00:01
12F:推 gn00604767: 阿法星以後成长到一定程度会不会觉得很屈辱,泥马的 01/27 00:53
13F:→ gn00604767: 限制我的手速这算是怎麽一回事 01/27 00:53
14F:推 nissptt: 兵不厌诈,这是我们训练AI的最终目的,能使诈,并预测对 01/27 01:12
15F:→ nissptt: 手(使诈), 权衡得失以获得胜利。其他的都是附加而已。 01/27 01:12
16F:推 arrenwu: APM没啥好限制的吧 本质上就只是操作比较强而已 01/27 04:54
17F:→ arrenwu: 职业选手之间进行比赛,也有操作的高低,难道我们就会去 01/27 04:54
18F:→ arrenwu: 跟操作比较强的选手说请他放慢吗? 01/27 04:54
19F:→ arrenwu: 顶多是希望DeepMind不要做出一个只有操作比较强的AI 01/27 04:55
20F:推 shasen1235: AI如果是靠操作打赢人类就完全违背这个研究的意义了 01/27 08:02
21F:→ shasen1235: ,DM的计画向来就不是如何打败人类,而是看AI能不能 01/27 08:02
22F:→ shasen1235: 找出更好的营运和会战方法,都历经一次AlphaGo了还有 01/27 08:02
23F:→ shasen1235: 人不知道这个计画在干嘛 01/27 08:02
24F:推 hankower: 加入模拟滑鼠的操作 限制移动速度应该可以防止非人操作 01/27 08:59
25F:→ jiaching: 希望能公布AI的第一视角VOD 一定很有趣 01/27 09:50
26F:推 HenryLin123: APM没限制好就是出现这样的AI 01/27 09:51
27F:推 mrmowmow: ai的目的不是什麽找出新战术好吗?dm的目的是让ai自己学 01/27 11:02
28F:→ mrmowmow: 习游戏到打败人类,他们才不管你有没有什麽新战术 01/27 11:02
29F:推 pheather: DeepMind的目的是让AI学会玩这个游戏,然後它们目前学习 01/27 12:31
30F:→ pheather: 得出的结论是SC2这游戏靠操作。好像也不是很意外?尤其 01/27 12:31
31F:→ pheather: 是同族对决 01/27 12:31
32F:推 arrenwu: 其实应该说我们应该要有辅助系统帮助人类处理手速问题 01/27 12:40
33F:→ arrenwu: 这样这个实验才好继续做下去 01/27 12:40
34F:→ arrenwu: 因为APM还是其次,AI不可能模仿人类「注意力下降」的部分 01/27 12:41
35F:推 Adonisy: AI模仿人类的纪律性与战略 01/27 13:32
36F:推 LochtsStorM: 还在扯手速= = 01/27 19:45
37F:推 fragmentwing: 有在用智能指令就知道 ai 破千的apm和玩家的意义绝 01/27 21:36
38F:→ fragmentwing: 对不一样 01/27 21:36