DeepMind携手暴雪发战帖：周五直播AI打星际II，发布研究新进展 -大数据文摘的财新博客-财新网

作者：魏子敏、蒋宝尚

半年前，OpenAI Five在Ti8赛事中与人类职业选手大战DOTA的盛况还历历在目，年前，DeepMind AI也要在游戏界搞大事情了。

这次，AI要挑战的是暴雪的经典游戏——星际争霸II。

DeepMind今天在twitter上公开发布了“战帖”，表示要在两天后当地时间周四下午6点，也就是北京时间周五凌晨2点，直播打星际II。

这不是一次简单的直播，更像是一场特别的“发布会”，DeepMind想要通过这场比赛，公开展示AI“学到的新战术”。

本次的将要出战的AI是由DeepMind和暴雪联合培养的，经过了“特别的训练方式”，似乎对这次比赛的胜利很有信心。

比赛将会在星际的Twitch频道和DeepMind的Youtube频道同步直播，先给出网址，星际II的玩家们，你们准备好对抗AI了吗？

Twitch

YouTube：

暴雪：“所有AI都在以几何速度学习进步”

暴雪在最近的BlizzCon上，总结了自己2018年的工作，并相当低调地发布了“与DeepMind合作正在继续 ”的更新：

DeepMind一直在努力训练他们的AI更好地了解星际争霸II。一旦它开始掌握游戏的基本规则，它开始展示“有趣”的行为，例如立即冲向对手。目前，即时在“疯狂”难度下的星际争霸II，AI的成功率已经可以达到50％！

而且它还在学习：“在向它提供了更多真实玩家的游戏回放之后，AI开始执行标准的宏观策略，以及防御诸如加农炮冲击等激进战术。”

经过三个月的训练，显然这只AI取得了不错的进展，而DeepMind和暴雪都认为现在已经到了将其公诸于众的时候。

暴雪今天也发布声明称，这场比赛将提醒我们，所有AI都在以几何速度学习。“星际争霸游戏已经成为人工智能社区的“巨大挑战”，因为它们是针对诸如规划，处理不确定性和空间推理等问题的进展基准的完美环境。”

其实早在2016年，Deepmind已经立下Flag要教会AI玩儿星际争霸II，也已经有包括facebook、阿里巴巴等不少科技公司或者研究机构开拓过“星际”这片竞技场，但DeepMind这样专治人类各种不服的公司正式宣布与暴雪合作，还是让一票星际玩家大呼“热血”。暴雪承诺将持续发布从“星际争霸II”天梯中收集的数十万个匿名录像，这会将训练变得更加容易。

2017年7月份，DeepMind已经官宣正式与暴雪娱乐合作，共同开发可以在星际争霸II中与人类玩家对抗的AI，并且发布了SC2LE，一个旨在加速即时战略游戏当中AI应用的工具集。

这次训练的AI所采用的数据，很可能是暴雪承诺过的“星际争霸II”天梯中收集的数十万个匿名录像。有了这些数据，相信AI的能力也会有突飞猛进的提升。

搞定星际争霸可能需要十只升级版阿尔法狗

不要以为有了优质数据就能训练出来超强的AI。其实这并不是一项轻松的任务，因为视频游戏的复杂性和更多可能性也让AI战胜人类要远比在棋盘游戏上复杂。

星际争霸和星际争霸II是史上最大和最成功的游戏之一，它们见证了许多玩家从青葱岁月到为人父母的20多年。其原始游戏早已被AI和ML研究人员使用，并在每年的AIIDE机器人大赛中进行角逐。

AIIDE机器人大赛：

~dchurchill/starcraftaicomp/

使用AI在星际争霸中对战人类玩家会比围棋艰难得多，对于AI来说，最大的难点在于，每一场对决都存在大量可能的方式。

据估计，每场对决有101685种可能的配置，为了给大家一个直观感受，阿尔法狗的配置层是10170。

此外，不同于棋类游戏的轮流依次进行走步，并且拥有决策的时间，在星际争霸中，玩家会同时出招，且不能看到对方玩家的状态，也就是说，所有决定需要在“不完整信息”的情况下做出。所有这些都意味着，你不能仅靠逻辑和一些步骤找到赢得对决的最优方式，玩家更需要的是策略和直觉。

PySC2助力AI训练

星际争霸II的玩家在同一时间可能有300多种基本行动可以选择，因此策略集及策略选择也对AI构成了巨大的挑战。与此形成鲜明对比的是雅达利游戏，大概只有10种选择（例如，下，左，右等）。除此之外，星际争霸中的很多操作是分级的，可以进行修改和扩充，其中很多都需要操作屏幕上的一个点进行。即使一个小84X84的屏幕也会产生大约1亿种可能的行动选择。

之前发布的PySC2可以帮助研究人员利用暴雪自己的工具来解决这些挑战，并且构建自己的任务和模型。

PySC2环境提供了一个灵活的，易于使用的RL代理游戏界面。在最初的版本中，游戏被分解为‘特征层’，其中的游戏元素，如单元类型、单位的健康度和地图的可见性彼此隔离，同时保留游戏的核心视觉和空间元素。

之前发布的PySC2还包括一系列的迷你游戏，一种将游戏分解成小模块的技术，可以用来测试特定任务的代理，比如移动视角、收集矿物碎片或选择单位。DeepMind希望研究人员可以测试他们的技术，并且开发新的迷你游戏，以供其他研究人员进行使用和评估。

从棋牌游戏到实时对战，AI不断挑战自己

1997年，国际象棋AI第一次打败顶尖的人类；2006年，人类最后一次打败顶尖的国际象棋AI。

在2016年年底，一个名为“Master”的神秘在线围棋玩家出现在了热门的亚洲游戏服务器Tygem上。在接下来的几天里，这个神秘的玩家横扫世界范围内的许多一流玩家。

2017年5月，AlphaGo“Master”在对战世界排名最高的围棋选手柯洁中屡屡得分。在三场比赛中，人工智能稳操胜券。

2017年12月，DeepMind发布了一个更新版本的系统。这款名为“AlphaZero”的新人工智能可以在短短几个小时内掌握各种游戏。经过仅仅8个小时的自我训练，这个系统不仅能打败AlphaGo Zero的早期版本，而且还可以成为象棋大师和将棋（shogi，又称日本象棋，一种流行于日本的棋盘游戏）的冠军。

在拿到棋牌类的王者之后，人工智能向更复杂的实时对战游戏领域进发。

2018年，OpenAI Five与DOTA2半职业玩家团队交手，比赛结果是2:1，人类输掉了比赛。在2017年，比较原始版本的AI在1v1战斗中就击败了人类职业玩家Dendi。

2018年8月份，人工智能在Ti8赛事中与职业玩家交手，比赛结果是两场比赛，人类玩家守住了DOTA这一高地。其中，第二场与中国玩家交手，在第45分钟的时候，AI直接认输。

2018年9月，腾讯AI Lab发布论文称，他们构建的AI首次在完整的虫族VS虫族比赛中击败了星际2的内置机器人Bot。

话题：