消除偏见，从机器学习系统开始-大数据文摘的财新博客-财新网

作者：Christopher Dossman

编译：Luna Joey 云舟

本周关键词：AI防疫、Chatbot、人脸防伪

本周最佳学术研究

用积极聆听能力来构建与评估访谈聊天机器人

人们为了搭建高效的聊天机器人付出了很多努力。作为谷歌最前沿的产品之一，Meena能与人进行更加智能和具体的对话。

伊利诺伊大学的研究人员一直在努力构建一种具有积极聆听能力的高效访谈聊天机器人。为此，他们首先研究了公开可用的AI技术对于聊天机器人的可用性和有效性。

他们研究了现有的聊天机器人平台，并从中选择了Juji。选择的原因是，Juji不仅是开源的、基于规则的，并且允许设计人员在没有训练数据的情况下引导聊天机器人。使用Juji开发的一个原型系统构建了具有主动聆听技能的聊天机器人，展示了其在支持访谈聊天机器人方面的成功。

接下来，研究人员使用同一个原型创建了两个聊天机器人，一个有主动聆听技能而另一个没有。然后他们请Amazon Mechanical Turk的206名参与者对这两个机器人进行了实时评估，并通过一系列指标（包括用户回复质量和用户使用体验）比较了他们的表现。

评估结论显示，采取了主动聆听技能的访谈机器人在用户互动和吸引高质量用户输入方面表现更好。

这项工作有以下贡献：

提供了实际可行的搭建访谈机器人的思路与方法；

提供了一个用于开发渐进式聊天机器人平台的混合框架；

提供了除了访谈、面试任务之外的，构建共情聊天机器人的设计意义。

通过将基于规则的聊天机器人构建器与数据驱动的模型相结合，能使机器人具有主动的聆听技能。通过主动聆听的技能，这样的访谈聊天机器人可以更好地处理复杂多样的用户对话，甚至是回应开放式的问题。在实际应用中，聊天机器人将能够提供更多引人入胜的用户体验，并引发更高质量的用户响应。

而且，因为这个聊天机器人是基于Juji的，这个方法可以扩展到任何聊天机器人平台。

原文：

人脸防伪的大规模多模型基准

在这篇论文里，研究人员介绍了一个大规模多模型的数据库CASIASURF，这个数据库是目前人脸防伪方面最大的开源数据库。数据库包含1000个主题，21000个视频，并且每个样本具有3种模型（RGB，深度和IR）。

研究人员同时提供了评估指标，协议，培训/验证/测试子集和一种测量工具，从而为人脸防伪开发了新的基准。

除此之外，他们还提出了一种新的多模型，多尺度的融合方法，并将其作为一个高效的基础模型。这个方法可以对特征进行加权，在特征选择中能确保最大信息量，并克服不同模型下信息量不同的问题。人们已经对这个数据库进行了广泛的实验，验证了其重要性和泛化能力。

CASIASURF数据库是对推进最前沿人脸防伪技术重要一步。而且，多模型多尺度的融合方法执行了基于模型的的特征再加权，确保了最高效的特征选择。

研究人员计划通过加入3D蒙版等更多的测试来不断增加数据库的多样性。他们还计划使用交叉模式评估协议研究异类面部反欺骗。

数据库：

原文：

一个多样化的多语言语音文本翻译库

Facebook AI研究团队最近发布了CoVoST，这是一种多样化的多语言语音到文本翻译数据库。CoVoST构建在Common Voice（2019-06-12版本）之上，它包括11种语言的演讲（法语，德语，荷兰语，俄语，西班牙语，意大利语，土耳其语，波斯语，瑞典语，蒙古语和中文），其笔录和英语翻译。

研究小组还根据CC许可，从Tatoeba提供了5种语言（法语，德语，荷兰语，俄语和西班牙语）的其他域外评估集。CoVoST是根据CC0许可发布的开源库，任何人都可以免费使用。

随着互联网的增长越来越，世界越来越紧密，翻译服务也比以往任何时候都更加重要。语音到文本翻译的算法需要翻译多种语言的能力，而 CoVoST是多对一的多语言ST语料库，可以帮助研究人员和开发人员实现这个目标。

在现有语料库中，该数据库与Iranzo-Sanchez和他的团队工作发布的语料库最为相似。Iranzo-Sanchez的语料库是根据欧洲议会程序所创建的多语言ST语料库。

不同点是，CoVoST引入了更长的语音持续时间和更多的翻译提取，并且更加多样化。它有大约27个小时的俄语演讲，37个小时的意大利语演讲和67个小时的波斯语演讲，这是之前最大演讲数据集的1.8倍，2.5倍和13.3倍（Black，2019）。CoVoST中的大多数句子（抄本）都被具有不同口音的多个发言人覆盖，使得演讲内容更加丰富。例如，在法国和德国的开发/测试装置中，包括了一千多名演讲者和10种以上的口音。这样的数据库，可以帮助模型在训练和评估中很好地将语音变化考虑进去。

数据集：

原文：

B2B销售预测建模的一种通用流程：Azure机器学习方法

预测销售机会和结果的能力是企业通向成功的路上必不可少的。在过去，此类预测始终依赖于参与销售决策制定过程的人工评估。

然而在本文中，研究人员提出了一种实用的机器学习（ML）工作流程，以在基于云的计算平台（Azure ML）中实现B2B销售结果预测。

这一工作流按照顺序提取、清理和估算销售机会的数据，然后在数据上广泛训练各种类型的ML模型。而第二条管道使用ML模型来估计赢得给定销售机会的可能性。

使用基于云的Azure机器学习服务（Azure ML）在B2B咨询公司的真实销售数据集上评估了该方法的可用性和性能。与手动用户输入的预测准确率（0.67）相比，该工作流能够实现更高的分类精度（0.85）。

这种基于云的工作流程为前文提到的预测销量问题提供了可扩展性更高的解决方案，也因此可以轻松地集成到企业内部的现有CRM软件应用程序中。

原文：

一个用于探索机器学习系统的长期影响的工具

认识到理解ML系统中的公平性以及避免偏见很重要之后，Google发布了ML-fairness-gym：一组用于构建简单模拟的组件，可以用来探索在社交网络环境中部署基于机器学习的决策系统的长期影响。

在本文中，他们演示了如何将ML-fairness-gym用于研究自动化决策系统的长期影响。

ML-fairness-gym使用Open AI的Gym框架模拟顺序决策。在此框架中，代理能够与模拟环境进行交互。在每个步骤中，代理都会选择一个会影响环境状态的操作。然后环境则会揭示代理用来通知其后续操作的观察结果。最后，环境对系统和问题的动态进行建模，观察结果用作代理的数据，这样就可以将其编码为机器学习系统。

本文中提出的ML-fairness-gym可用于解决各种机器学习中的公平问题，它具有足够的灵活性来模拟和探索“公平性”不足的问题。

Google研究人员对ML-fairness-gym的潜力感到振奋，它可以帮助其他研究人员和开发人员更好地理解ML算法对我们社会的影响，并为将来开发更负责任和更公平的机器学习系统提供信息。

代码：

原文：

其他爆款论文

最新研究帮助我们找到受损的社交媒体帐户：

如何准确识别一个表情包？

一个能够为不完整的菜谱推荐配料的推荐算法：

一个能够检测物联网中睡眠状态节点的框架：

基于单眼模型3D跟踪的一种新组合技术：

AI大事件

个性化的AI聊天机器人正在减缓冠状病毒的传播：

一组研究人员正在努力构建具有精通社交技能的AI代理：

Twitter：如果deepfake对我们有害，我们就会扼杀它：

AI在Google maps中的应用：

话题：