作者/朱涛伟

比赛时间终结在了45分钟,Open AI今日再次惨败,而它的对手是来自中国的Dota2 Superstar战队。

跟昨日(8月23号)Open AI对战的世界排名前18的paiN 职业战队不同,中国的Superstar战队成员由现任、前任职业选手、教练员组成。当然,不管是刚退役的Xiao8(张宁),还是教练ROTK(白帆),他们曾都是TI系列赛上冠军队的成员,实力多位于9000分以上的大师级段位,与paiN战队实力不分伯仲。

参照赛前OpenAI与V社协商的BO3赛制,在如今0:2落后人类的情况下,这意味着早间的比赛大概率相当于谢幕战,OpenAI Five征战Dota2的脚步或将就此止步。

坦白说,第一场比赛后,OpenAI Five进行了相应的调整,增强了对线能力,团战时的表现也有所进步。不过单就结果而言,OpenAI Five round two比赛用时竟然比round one还加快了6分钟。

到底OpenAI Five失利后进行了哪些修正,它从单个bot到5个bot的探索又经历了何种曲折,未来OpenAI会在扩容英雄池、移除游戏限制上做哪些规划?下文将一一揭晓。

OpenAI Five做出了改变,但比赛依旧输了

两场比赛仍旧不能自由BP,只是调换了对线阵容。OpenAI Five的阵容为:恶魔巫师、瘟疫法师、巫医、狙击手、斧王;Superstar战队的阵容为:直升机、巫妖、死亡先知、寒冰室女、潮汐猎人。

此外被Dota2玩家诟病的限制条件依旧存在,比如没有圣剑、分身、幻像,2、3、4号位为不能买增加游走能力的魔瓶等。

不过相较于对阵paiN早期的慌乱,OpenAI Five在跟Superstar早期对线上还是长近了不少。比赛进行到2分钟时,OpenAI Five就拿下了下路一塔,并迅速游走伺机gank,人头数领先人类方。赛程进行到5分钟时,OpenAI Five还采取了一波5人集体推中塔的策略,在击杀人类方死亡先知后,开始撤退,彼时的人头数为3:7,人类方落后。期间OpenAI Five还使用了聊天轮盘发送了全局语音,这是第一场比赛中没有过的。

OpenAI Five的优势一直保持到了比赛前20分钟,而后情势开始掉头往下。

在比赛22分钟时,双方再次爆发团战,不过人类方取得了胜利,OpenAI Five被团灭,人头数上双方接近一致。与之相对的是,人类方经济已经领先OpenAI Five 5000。

随后人类玩家开始不断Gank,OpenAI Five招架不住,经济差进一步扩大,到了31分钟,人类方经济优势已经领先1万,紧接着推掉了OpenAI Five所有外塔。比赛行至45分钟时,死亡先知释放大招封住了OpenAI Five出家门的路线,最终人类方再次团灭OpenAI Five,取得胜利。

其实比赛前20分钟,OpenAI Five在对线、Gank上均表现不错,然而比赛中后期它对经济资源分配,打团还是打野发育经济的时机选择上,依旧显得蹩脚。老毛病也是不少。OpenAI Five在对阵paiN时就喜欢在塔下不断插眼,与Superstar开局前52秒就在自家高地上插了一个无用眼,浪费资源。总得来说,OpenAI Five对资源位的理解,以及综合运营策略上不如人类。

从1V1进化到5V5,OpenAI 挫折中前行

被人类碾压的滋味,OpenAI Five不是没有尝过。

早在8月5号的公开benchmark中,OpenAI Five与Dota2排名前15000名的Blitz、 Cap、 Fogged等五人较量。期间,总共进行了四场比赛,OpenAI Five输掉了由观众pick英雄的比赛。

当时人类方的阵容为死亡先知、死灵法师、莱恩、巫妖、直升机,而OpenAI Five的英雄分别是流浪、斧王、隐刺、小鱼人以及痛苦女王。这套阵容一出来,OpenAI Five给自己预测的胜率只有2.9%,虽说比赛中段,预测胜率上升至17%,不过比赛行进至34分钟47秒,最终还是以48:20人头比数惨败。

不少人会吐槽OpenAI Five都是些近战英雄处于劣势,但更值得令OpenAI团队关心的是,逆风局下OpenAI Five该如何优化策略,解决比赛中出现的流浪和斧王无脑拆塔,甚至在人类方推高地时,OpenAI Five竟然没有一个英雄防守高地等反常操作。

好在,以OpenAI 给出限定条件下,也即限定的18个英雄,五个信使,没有圣剑、魔瓶等情况下,OpenAI Five赢得了与人类方的前三场比赛,并且时间极短,不到30分钟。

能取得如此大的突破,搁在一年前,OpenAI 团队想都不敢想。

要知道在2017年9月份,OpenAI以单bot的形式还输给了来自德国的 Dota2 选手 Dominik "Black" Reitmeier。尽管此前OpenAI几乎横扫了与人类玩家的1V1比赛,但9月份人类选手的反杀还是说明了OpenAI单bot模式的缺陷。

把时间再往回溯,2017年中旬OpenAI团队甚至发出“我们要失败了”的呼号,因为在研究团队设计的单对线游戏中,OpenAI的bot一直打不过人类。

直到,研究人员开始将训练环境随机化,转机才开始出现。一位研究人员发现,让英雄行进的速度时而快、时而慢,甚至停止,OpenAI bot的强化学习策略网络非常好,它甚至成功击杀了敌方。同样的训练方法应用在1:1对战中,也起到了非常好的效果,OpenAI 的bot开始学会补兵、购买装备、释放技能,而后开始不断战胜1500分,甚至3000分以上的Dota2玩家。

不过5V5对战跟1V1对战有明显的区别,难度也陡然上升,比如团战中更需要bot之间的分工协作、经济资源合理分配、长线运营策略。为了加快研究进程,OpenAI加大了资源的投入,不断修正系统版本,并更新网络架构。

在1V1训练版本中,OpenAI采用一天执行8petaflop / s的数据量进行训练(注:1petaflop / s-days是指一天执行每秒1015次神经网络操作,或总计1020次操作。)到6月6号,数据量已经上升至一天执行40petaflop / s,而最新公布的8月5日版本中,数据量已经上升至令人咋舌的190petaflop / s。

如此大规模的计算量必然需要极高的算力支撑,数据显示OpenAI团队使用了128000个处理器和256个英伟达图形处理器来训练其近端策略优化的强化学习算法。

继续解除限制,未来Open AI

想要比一场真正的对决

坦白说,OpenAI动用如此大的计算资源,在限定条件下虽败给了人类方,但仍值得为其竖起大拇指。

大家不要看Deepmind旗下的 AlphaGo、 AlphaGo Zero在围棋届横扫人类,就觉得OpenAI 玩dota2就是小菜一碟。

想想看,Dota 2 每 tick 平均产生 1000 个可能有效行为,相比之下,国际象棋是 35 个,围棋是 250 个。通过 Valve社的 bot API,OpenAI 把 Dota 2 视为 2 万个状态,也就代表人类在游戏中可获取到的所有信息。国际象棋代表大概 70 个枚举值,围棋大概有 400 个枚举值。也就是说,Dota 2 的复杂程度远比围棋高。

面对Dota2比赛中的失利,OpenAI 团队将原因归结为三点。首先,人类方的水平确实非常高;其次,OpenAI Five的阵容不是有程序自己选择的,而是由第三方提供;最后饱受玩家玩家诟病的五名信使限制彻底放开了,变成只有一名信使。

的确,在之前的benchmark中,OpenAI 团队采用的是每个英雄都有自己的信使,而在这里两天的Dota2比赛中,突然转变成只能使用一名信使,会造成诸多不适。不过OpenAI 团队认为放松信使的限制,并不能当成溃败的借口,毕竟这才是原汁原味的dota2。

目前OpenAI 团队依旧在解除限制的路上,比如将现有的18个英雄池扩容至全部的115个英雄,恢复扫描,幻想。此外,松开2、3、4号购买限制,比如增加游走能力的魔瓶,攻击力的圣剑等。等到解除所有限制后,届时OpenAI Five将迎来与人类一场真正意义上的Dota2对战。

在游戏之外,正如比尔盖茨所说,Dota 2机器人展示了团队合作和协作,这将是未来发展的关键技能。而马斯克也曾发Twitter表示,开发人员需要很快创建一个神经接口“以实现人类/人工智能共生”。

相信不久的将来,基于安全环境的多bot协作AI技术将对人类生活产生重要的影响。