Yoshua Bengio清华最新演讲：深度学习AI迈向人类水平还面临这些挑战-大数据文摘的财新博客-财新网

作者：DV

昨日，清华大学主楼报告厅迎来了人工智能的一次小高潮。

被称为“人工智能三巨头”之一的蒙特利尔大学计算机科学与运算研究系教授Yoshua Bengio为清华的师生带来了一场长达一个半小时的充实演讲。

本次计算机科学与系列讲座第59讲暨CCF YOCEEF TDS Special系列讲座，Yoshua Bengio带来的主题讲座名为《深度学习抵达人类水平面临的挑战（Challenges for Deep Learning towards Human-Level AI》。

本次演讲讲述了人工智能尚未达到人类水平的原因，以及机器学习和自然语言处理遇到的挑战，整个演讲娓娓道来且让人意犹未尽。

在演讲中，Bengio提到AI如今的大获成功主要是靠有监督学习，而有监督学习里的高级概念（比如label）是人类给的，不是机器自己去发现的。没有这个主动认知的过程，机器对数据的理解其实是相当肤浅的，改几个像素就会错把狗的图片当成鸵鸟。

Bengio和Yann LeCun在2007年的一篇论文里提出：我们需要学到一个好的表示。好的表示到底是什么，这尚无定论，但我们希望学到的表示能抓住事物的原因和数据的内在解释。

Bengio进一步认识到，既然好的表示可以得到简单的相关性，又没有免费的午餐，那么就一定需要先验去辅助分离内在的因子变量。

这类先验可以是空间和时间尺度上的先验（比如变量变化的快慢），也可以是高层表示之间应具有统计独立性。

好的表示还应具有这样的先验：能把数据映射到一个空间，在这个空间里做什么都很简单，计算简单、学习简单、因子之间的相关也很简单。

还有一类先验不是被动给予的，而是主动与环境交互获取的，这是强化学习的范畴。

心理学家提出认知任务有两种不同类型，这可以帮助我们理解深度学习当前存在的局限，以及该向何处发展。

第一类认知任务是可以快速完成的、无意识的动作，比如口渴时一下就能把水杯拿起来喝水，而不是盯着水杯刻意地识别它。

第二类任务则是速度较慢的、有意识的，包含逻辑、语言、计算等。经典符号AI曾经尝试去解决这类任务。

意识空间里的事物维度很低，因此我们能在这样的空间里进行推理。

“下雨时打伞”，这个句子虽然只有“下雨”和“打伞”两个变量，但因为它高概率为真，所以具有很强的预测能力，这说明仅用很少的信息就能做出预测。

意识先验就是假设有很多只包含很少变量但为真的事情，因此，好的表示的一个性质，就是当我们把数据映射到表示空间之后，变量之间只有少数相关。

我们也可以在这样的空间里讨论变量的因果性：在像素空间里说一个像素引起另一个像素的变化是没有意义的，但在表示空间里就可以说一个变量引起另一变量的变化。

无意识状态是高维的，有意识状态是低维的，可以用注意力机制选择较少维度去表示有意识状态。

借鉴GAN的思想，训练可区分来自P(A,B)和P(A)P(B)这两个分布的(A,B)的判别器，如果区分不出则说明它们是独立的。这样可以让encoder学到的表示尽可能独立。

直接计算互信息往往是困难的，我们也可以用类似的思想，用判别器去学习互信息的估计。这样学到的互信息估计可用来提高GAN的性能。

现在的NLP任务只是在文本上训练模型。

这样会出现很多常识性的错误，因为它并没有理解语言内在的含义。

想要真正理解自然语言，不仅要对语言本身建模，还要对所处环境进行建模。要将语言学习和世界运转方式的学习相结合。

机器需要对事物之间的因果联系进行建模。

BabyAI通过19个由易到难的游戏关卡而不断学习，就像婴儿成长的过程一样。这很像课程学习（curriculum learning）。

话题：