谷歌实习生开发“神投手”：14小时精通物理学，扔东西比你还准 -大数据文摘的财新博客-财新网

作者：周素云

先让我们回忆一个你每天都在做的动作——扔垃圾。

就像这样�

这项看似平常的运动，其实包含了人类的大智慧：你需要可以从一堆物品中辨别出真正的垃圾，同时要想一扔中的，还需要精通物理力学知识，并且经过多次练习，把控好手感。

否则一不小心就会�

一位来自谷歌的研究实习生Andy Zeng希望让机器人学会这个技能，并与来自普林斯顿、哥伦比亚和麻省理工的研究人员们一起，结合物理学与深度学习，顺利创造出了一只“自动分拣、投掷“机器人——TossingBot。

Andy为它设置了自动学习系统，并灌输了物理学知识，仅仅花了14个小时，这只机器人便能够像一位职业“棒球手”一样，准确分拣，神奇投掷东西啦。

Andy Zeng也提交了一篇《TossingBot：学习用RP模型投掷任意物体》的论文，详细叙述了这一研究过程。

论文地址：

https://arxiv.org/abs/1903.11239

接下来，文摘菌将用”自述“的方式，为大家介绍这位来自谷歌的分拣机器人TossingBot。

以下，Enjoy：

2019年3月27日，对我来说，是一个重要的日子。

这一天谷歌宣布重启机器人计划，这个新项目被称为Robotics。重新考虑对复杂机器人技术的关注，开发机器人自主学习的技能。

我也在这个项目中呱呱坠地。

你们可能不认识我，但你们肯定知道我的大哥们。

2013年，我们因为谷歌的Replicant项目（谷歌花数千万美元收购六家机器人初创企业）从美国和日本赶来聚在一起。两年前，波士顿动力被日本软银家收了，据说是个富豪（2017年波士顿动力被软银收购）。

上周波士顿动力Handle大哥因为在仓库干活还上了热搜，为他开心

下面来做下自我介绍吧，我叫TossingBot，一名精通物理学和深度学习的分拣机器人。我能在多品种的货物中挑选出指定的物品，并放（扔）到指定的地点。

就像这样：

当然，我的工作比扔东西复杂多了，下边才是真实工作的我。

视频中左边的图是一开始接到工作的我，手足无措，看起来有点傻。图右是努力学习了14个小时的我，已经能熟练的掌握分拣技术啦！

这些你们人类看起来非常简单的动作，我可是花了好大劲才学会的。不是我傻，是你们对我的学习能力一无所知。

那么，我到底是如何学习的呢？

来自对手的启发

有竞争才有动力，我的对手是亚马逊机器人大赛的第一名。

他是一个让人类印象深刻的系统，拥有许多从运动学角度上来说可以防止由于不可预见动力而导致物体掉落的设计功能。从稳定、从容的动作轨迹，到限制物体动量的机械夹子，简直完美！

称赞对手，是机器人的基本素质！

和其他机器人一样，在最开始设计时，人类的研发初衷都是为了适应不规律世界的动力因素。除了单纯的适应动力因素，我的开发者还在想，能不能让我们有效的使用“力”这一因素，甚至开发出物理“直觉”。这样我们就完成更复杂的运动技能，比如扔东西、滑动、旋转跳跃等动作，以后组个篮球队什么的。

于是，我的开发者Andy Zeng和了普林斯顿、哥伦比亚和麻省理工的研究人员们，他们一起开始帮助我恶补物理知识。

万事开头难

投掷是一项难度特别高的任务，主要取决于多种因素：从物体被拾取的方式（即“投掷前条件”），到物体的物理属性（如质量、摩擦力、空气动力学等）。

打个比方，如果你以靠近质心的把手位置来抓住一把螺丝刀并扔掉，其着陆位置会比你从金属尖端抓住并抛出更靠近你，后者的话，它将向前摆动后落在离你较远的位置。

而且抛掷一把螺丝刀与抛掷一个乒乓球，两者之间也有很大的不同，乒乓球将因空气阻力小会落在更靠近你的位置。如果要靠手动去设计一个能够妥当处理随机对象涉及这些因素的解决方案，几乎是不可能的。

但如果借助深度学习，我们便可以从经验中学习，不用依赖人类一个个手动设置。因此，我需要对投射物理学进行深入的了解。

物理学与深度学习入门

结合物理学和深度学习技术，Andy他们打造了一个称为“Residual Physics”（RP）的模型，包括感知网络、物理原理、抓取网络和投掷网络等模块。

在学习投掷时，目标投掷区域会提前给出。RP 模型将首先利用弹道学公式，计算出物体的理论投掷速度（v），然后再引入物理特征，由神经网络估算出调整值，作为未知动态参数与现实世界噪声和多变性的补偿（δ）。最后结合 v 和 δ，得出最终投掷速度。

即使是没有训练过的投掷区域，我也可以很好地处理，因为在准确估算投掷轨迹的基础上，补偿值 δ 很好地弥补了“投掷区域改变”这一变量。

训练开始，我反复尝试都不能实现精确的抓抓取。但随着训练时间的增加，我学会以更好的方式来抓取物体，并提高我的投掷水平。然后我开始了一些创新，以不同的速度来扔。在这期间，几乎不许要人类的干预了！

大概我尝试了10,000次左右（14小时）的抓取和投掷后，投掷精度达到了85%，并且在杂乱物品中的抓取准确度达到了87%。

我自己都惊呆了！

新的尝试

我喜欢突破自我！

我开始尝试对不同特征的物品进行相应的抓取和投掷。

他们在箱子里放了好多物品，有乒乓球、马克笔，积木等等。然后将捕获的图像传到我的训练神经网络中，以提取中间像素的深层特征。

通过这些物品的热力图，我可以找到筐子里相似的物体。可以区别去乒乓球、马克笔。除了热力图，我还可以学习通过形状等其他物理属性来判断不同的物体应该怎么被抛出。

RP 模型的泛化能力很强。当我面对没有见过的物体时，比如假水果，装饰物和办公用品，我也可以借助之前学会的简单形状的投掷技巧，在 1-2 个小时之内掌握新的技巧。

我好像有点开窍了！

我的学习过程还启发了人类对于机器视觉的研究。如果要实现对物体的准确分类，直接指定包含多个步骤的复杂任务，可以让神经网路与物理世界产生互动，涉及的分类行为，我们都可以摸索出自己的语义理解和分类规则，完全不需要人类介入。

在使用RP模型后，我已经可以轻松超过人类了！

可惜我现在还只会扔一些耐摔的东西，如果让我去搬快递，请一定要标注易碎品哦！

这就是我的故事，所以不是我蠢，是你们对我的学习能力一无所知啊！

未来我可能会去快递行业找份工作，毕竟我可不怕996，我还可以007。