对话小米AutoML团队：如何让模型搜索更公平-大数据文摘的财新博客-财新网

作者：曹培信

机器学习自动化（AutoML）正在引领机器学习的下一个时代，而要想让机器自己学会“炼丹”，其中最关键的步骤就是，找到最合适的算法模型，也即自动化神经架构搜索（Neural Architecture Search，简称NAS）。

要快速、高效判断哪个模型最有效并不是一件容易事。NAS界目前一种主流的方法是谷歌大脑创立的One-Shot派。

One-Shot，顾名思义，只完整训练一个超网，主张权重共享，对不同路径进行采样作为子模型训练，并基于此对模型排名，这样就可以更快速判断模型性能，提高搜索效率。

就像通过一次“考试”来判断这群“模型们”的能力，通过最终分数决定排名。

看似很公平，但是，One-Shot模式下，虽然考题一致，但是学生的学习时间、训练方式都不尽相同，很容易导致好的模型由于没有获得充分的训练，而表现不佳。

在One-Shot模式基础上，小米AI实验室的AutoML团队在七月初提出了一个新的概念——FairNAS，来解决这一模型训练中的“公平”问题。并且在ImageNet 1k分类任务MobileNetV2量级上，FairNAS击败了Google Brain在CVPR 2019发布的MnasNet。

在FairNAS基础上，上周，小米AutoML团队展示出一项新的研究成果：MoGA——移动端GPU敏感，对多目标进行加权处理，鼓励增大参数量，直接面向在移动端的落地应用，在业内引发了广泛关注。

昨天，小米AI实验室AutoML团队又重磅发布了最新成果SCARLET，超过Google Brain首席科学家Quoc Le团队提出的EfficientNet同量级模型（ICML 2019），这次是让自动化神经网络搜索具备了可伸缩性，完善了7月初发表的FairNAS。

从FairNAS，到MoGA，再到昨天发布的SCARLET，这支团队只用了不到两个月的时间。

至此，小米AutoML团队打造了FairNAS、MoGA、SCARLET三部曲，在ImageNet 1k分类任务上分别超过Google顶级团队的MnasNet、MobileNetV3、EfficientNet。

大数据文摘第一时间对三篇论文的主创人员、小米AutoML团队的高级软件工程师初祥祥和软件工程师张勃进行了专访。这也是这支年轻的团队首次公开对这三份研究进行解读。

从反直觉问题入手，两个月研发“三部曲”，直接对标谷歌

“公平”，初祥祥在采访中多次提到了这个关键词，而这也是他们在今年五月份，开始进行FairNAS项目的灵感来源。

“我们FairNAS技术一开始的insight是来自于谷歌大脑，当时发现one shot论文里面公布的结果，采样了大概几百个模型，但是准确率是很大的一个range，从30%到90%。但是根据我们之前做的实验，这个range实际上是比较异常的。多数模型的range比较窄，比如在80%到95%。”

于是，初祥祥团队对此进行了验证，得出了一个很反直觉的结论：看似公平的随机采样模型的Single Path，30次迭代之后，子模型得到公平训练的概率近似等于0。

初祥祥说：“这就是我们最原始的insight，包括最新发布的SCARLET，灵感也是来源于MIT、Facebook的论文中架构可伸缩性的问题。”

初祥祥也表示：“其实我们这一路走来都是在对标谷歌大脑在NAS的最新研究。”

从大厂论文中的反直觉点入手，直接和强者对标，这也许就是小米AutoML团队强大内驱力的由来。

接下来，先跟着文摘菌先来一起看看这篇最新的发布——SCARLET。

SCARLET：解决共享参数超网训练的可伸缩问题

小米AutoML团队的最新的论文，提出了具备伸缩功能的自动化神经网络搜索SCARLET，通过线性等价变换，解决了one-shot路线中超网训练伸缩性较差的问题。

这篇论文的灵感同样来自对已有研究的质疑，初祥祥表示：“FairNAS虽然能解决采样不公平的问题，但是要做搜索layer的通道数往往都是固定的。而很多学者包括MIT、Facebook的研究者都会在论文中称，他们的NAS架构是可伸缩的，但很难找到具体的中间过程。比如一个有18层的可伸缩的NAS，理论上可缩到一层，但是这中间的具体过程却很少有人去提，或者只提一下是可伸缩的，但是没有提最后的效果，经过验证后我们发现这个伸缩对结果影响很大，捣乱到非常严重的地步。”

SCARLET系列是直接对标Google Brain提出的EfficientNet，在ImageNet 1k分类任务中达到76.9％的Top-1精度，目前是<390M FLOPs量级的SOTA。

One-shot自动化神经架构搜索的特点是在一次运行中快速训练一个超级网络，这种权重共享方法的一个关键问题是缺乏可伸缩性。尽管对identity块进行简单的调整就可以得到一个可伸缩的超级网络，但这会引起训练不稳定，从而使模型的排名结果变得不可靠。

而SCARLET引入了线性等价变换来缓和训练波动，并证明了这种变换后的模型在表示能力上与原模型等价。因此整体方法命名为SCARLET (SCAlable supeRnet with Linearly Equivalent Transformation)。

看完SCARLET，让我们再来回顾一下三部曲的前两部，FairNAS和MoGA。

FairNAS：如何避免神经网络中的马太效应，不让“富者愈富，穷者愈穷”

7月初，小米AI实验室AutoML团队公布了最新研究成果FairNAS，在ImageNet 1k分类任务MobileNetV2量级上，击败了MIT韩松团队在ICLR2019发布的 Proxyless mobile，Google Brain在CVPR 2019发布的MnasNet，及 Facebook的FBNet。

FairNAS的核心解决的就是多次迭代后超网训练会导致不公平的问题。

张勃对于这种不公平采样有个非常形象的比喻：“类比一下，其实就像社会学概念里面的马太效应。就是说富者恒富，穷者就变得越穷，对于神经网络也是一样，如果把神经网络里面的模型比作孩子的话，这有一部分在穷人家庭长大，有一部分在这富人家庭长大，在穷人家庭长大的没有得到好的培养，所以他们可能资质很高，但是并没有被发掘出来，所以需要让所有的模型都到充分的训练。就像把所有小孩放到同一个封闭式学校，大家都在这里，跟家庭是隔离的，全是在学校培养，那20年后，如果他们真正表现出差异，那就是他禀赋及能力的差异。”

针对这个问题，小米AutoML团队采用的是“不放回策略”。

另外要解决的是，每一次的迭代涉及到反向传播和更新参数，从而产生的次序问题。解决的核心方式是“只累积梯度，不更新参数”。

张勃依然是用教育来比喻：“这就相当于考试的时候，发卷子有先后顺序，但是先拿到卷子的人不能答题，要发完后一起答题。”

MoGA：移动端GPU敏感，直接面向落地

对于移动端来说，分类是其他计算机视觉任务的基础，图形的分割和检测都需要用分类网络做骨干网。随着CV在移动端应用的普及，包括谷歌在内的科技公司都把目光投向了移动端可用的轻型自动化神经网络搜索架构。

然而Google Brain等团队的研究普遍只考虑移动端CPU的延迟，但实际在移动端的使用中，往往都运行在GPU上，两者的延迟并非简单的线性，不仅和硬件相关，还与框架实现相关。

于是在8月6日，小米AutoML团队又展示出一项新的研究成果：MoGA，MoGA提出了移动端GPU敏感的NAS，对多目标进行加权处理，鼓励增大参数量，而对GPU敏感的特性，使得MoGA直接面向在移动端的落地应用。

在数据上，MoGA已经超过了Google Brain和Google AI团队联合的代表作MobileNetV3（目前谷歌开源MobileNetV3还未开源），在 ImageNet 1K分类任务200M量级，在移动端GPU维度上超过MobileNetV3。

初祥祥在解释为什么要做移动端GPU敏感的NAS时说：“谷歌的论文里面的实验都是CPU上跑，但是其实我们团队来做业务，还有国内很多的互联网公司手机公司都在做AI的应用上，很少在CPU上跑。这是因为在手机上，比如845这种相对主流配置的一点，它的GPU速度大概是CPU速度的四倍，这就是解释了为什么国内大家愿意用GPU来做AI的原因，因为它速度快，体验会好很多，四倍的速度就是差很多的，所以谷歌发布的模型对于相关落地不是很友好。”

从论文到模型全部开源，MoGA已经有了业务落地和收益

当我们问到为何将面向应用的MoGA也开源时，张勃表示：“我们相信自己会持续输出成果，所以我们不会因为一个MoGA开源就怎么样，这一点我们有信心。我们要做的是一个品牌和技术的影响力。”

而初祥祥也表示，MoGA这项成果也很方便同行进行研究。

“相比谷歌动不动3000个TPU天的训练量，MoGA的总算力只有20GPU天，方便研究者复现，甚至学生都可以做做实验。”

初祥祥还告诉我们：“（开源）也是鼓励更多的对NAS感兴趣的研究人员共同探讨，就像我们在解决每一次的迭代涉及到激活模型和更新参数，从而产生的次序问题时，我们采用的是‘只累积梯度，不更新参数’，这是一个核心的方法，有的同行发邮件来询问这个问题，其实我们论文已经写得很清楚了，但是可能是没有注意到。我们欢迎同行来进行探讨。”

初祥祥和张勃还透露，根据团队发的调查问卷显示，已经有洛桑理工、佐治亚理工等国外院校和西交大、北理、北航等国内院校，以及一些企业都对预训练模型进行了下载和调研，还有一些直接发来邮件进行探讨。

而谈到MoGA这种面向应用的成果目前落地的情况时，初祥祥和张勃表示：正在进行，并且已经有了收益。

MoGA已经在高通845上进行了实验，在视觉任务上，可能一个团队一年半才能提升有限的准确率，用了MoGA就直接有明显的提升。

而且初祥祥表示：“其实这种是越往上越难提高，而我们是在他们的基础上提升的，所以其实我们有困难的，但是我们还是有了明显的提高。”

张勃补充道：“其实我们小米内部已经有业务证明了，直接用FairNAS去替换主干网，也直接产生了收益。IoT方面，也在落地当中。”

小米AutoML团队也透露，论文发布后收到了来自全球学界和业内的交流邮件，包括华为、ARM、TCL、Keep在内的公司对FairNAS和MoGA都很感兴趣，表达了加强合作交流的愿望。

团队方法论：选择做什么比做什么本身更重要

1987年出生的初祥祥毕业于清华电机系，师从于歆杰教授，从说服上级成立AutoML团队，到带领团队持续输出对标谷歌的成果，一共用了10个月的时间。

在如此短的时间内，完成从成立团队到密集输出成果，初祥祥也有自己的一套方法论。

“团队人数不多，所以方向不能错，这是决定生死的一个问题，”初祥祥解释说，“要去关注如何发挥最大的效率，这也要一个长期的规划。”

“现在基本上就是我来制定我们的整体路线，当然这其实有很大的风险，就是个人的偏置如果错了，影响是很大的。”

张勃也补充：“团队的leader要有一个非常清晰的目标，比如说我们能达到什么，目前达不到什么，我们可能踮踮脚尖能达到什么，以后能达到什么，就是需要一个非常清晰的判断。”

最后，也再补充三部曲论文合集链接。

Chu et al., Multi-Objective Reinforced Evolution in Mobile NeuralArchitecture Search

https://arxiv.org/abs/1901.01074

Chu et al., Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Search

https://arxiv.org/abs/1901.07261

Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search

https://arxiv.org/abs/1907.01845

Chu et al., MoGA: Searching Beyond MobileNetV3

https://arxiv.org/abs/1908.01314

Chu et al., ScarletNAS: Bridging the Gap Between Scalability and Fairness in Neural Architecture Search

https://arxiv.org/abs/1908.06022

话题：