真实与炒作，发展与失望并存的一年：大咖共同回首2018展望2019-大数据文摘的财新博客-财新网

编译：杨威、周家旭、张南星、Aileen

2018即将收尾，2019即将开启，我们将带大家纵览专家们对AI的分析和预测。我们向专家们提了个问题：你认为2018年数据科学与分析的主要进展是什么？2019年会怎样发展？

虽然我们讨论的是数据科学和数据分析，但在大多数答案中AI都是主要内容。这些专家所提到的内容包括人工智能的进步（真实情况和炒作参半）；数据科学和数据分析的民主化，例如自助分析；以及“万事皆自动化”，例如数据科学，GDPR，AI风险，实时分析等等。

专家组名单如下：Meta Brown，Tom Davenport，Carla Gentry，Bob E Hayes，Cassie Kozyrkov，Doug Laney，Bill Schmarzo，Kate Strachnyi，Ronald van Loon，Favio Vazquez和Jen Underwood。以下是他们的简介，推特ID以及对这个问题的解答。

“2018年数据科学和数据分析的主要进展和2019年发展趋势”问答词云

2018年的热门分析话题非人工智能（AI）莫属。印象中，人工智能比其他分析学应用技术引起了更多的讨论。但令人遗憾的是，大部分讨论并未产生多大价值。

计算机科学的先驱阿兰·图灵（Alan Turing）曾展望过，计算机智能将匹敌人类智能，即人们无法区分是在和计算机对话，还是在和人类对话。

想想我们与现在人工智能应用的交互过程。诸如Siri或Alexa的个人助理虽然挺有用，但和它们沟通的感觉，远远无法达到与真人沟通的效果。而在线自助聊天机器人则更令人失望，如果尝试问一个现实生活中的问题，你将意识到它背后并没有真正的“大脑”。

按照图灵的定义，人工智能尚不存在。纽约大学心理学和神经科学教授加里·马库斯（Gary Marcus）说，人们对人工智能的最大误解就是“我们离人工智能不远了”。

的确，我们现实生活中已经应用了计算机来进行逻辑运算。虽然它们并不像人一样思考，但它们足够快、且连续性足够强，这些都是极具价值的优势。这些应用赋能机器完成实际工作，例如标记潜在欺诈交易，操作汽车等。

尽管AI技术的局限显而易见，但大众，甚至是科技界都充斥着对人工智能不切实际的主张和期望。这些扭曲的观点在人群中引发了恐惧，同时也让一些人的期望落空，而我们所见之现实则更令人失望。

我们在国际分析研究所对技术年度发展趋势进行了预测分析，下面是我提出的一些观点：

组织机构对模型部署率关注度不断上升-根据雷克斯数据科学（Rexer Data Science Survey）调查显示，只有10％-15％的公司部署率为“几乎总是”，另外50％的公司仅“经常”部署，剩下35％ - 40％的公司成功部署分析模型的几率只有“偶尔或很少”。我曾遇到过一些组织机构表示他们的成功部署率低于10％。当然，未部署的分析模型没有任何经济价值。企业需要在2019年评估和提高部署率。

民间数据科学家和商业分析师会一直存在，且越来越多。可视化和基于搜索分析的兴起，以及数据科学前端的机器学习愈加自动化，意味着业余爱好者将产出大量的分析结果。对抗这种趋势将失败无疑，所以不如转向赋能，助力其发展。这也意味着从事量化工作的专业人员能够集中注意力于复杂困难的建模任务，或者转向理解业务，解决组织性变革问题。

2018年是数据分析和数据科学辉煌发展的一年，但我们也看到了人工智能、神经网络和机器学习的爆发，而并不是所有的主张都有相应的人才和经验支撑。我们也看到了人工智能在医疗领域和治安领域的应用增长，但同样的，其背后也许并没有充分考虑偏见所带来的风险，以及人才和经验的支撑，同时我认为可能有些人忘掉了一个大原则：在这些情境下，依托着可穿戴设备和物联网（Google Home，Alexa等），数据就是一切，并且这样的趋势将持续不断。

2019年，业界将继续讨论这些流行词汇，公司将开始落实它们利用神经网络从数以万计甚至亿计的实例中学到的成果，更糟糕的是，每当你想要神经网络识别新物体时，你必须从头开始（至少时间的消耗是必须的）-而人才是另一个问题。除了 Geoffrey Hinton，Yejin Choi或 Yann LeCun，你真的不是一个神经网络的专家，所以不要指望着一个人才池的存在。

数据科学重点在于网罗各种数据并从中获取洞察，并且在一些情况下，希望自身能够成为AL、机器学习或者神经网络的专家是不正确的，也没有这个必要，因此我们必须细心研究差异，并且新入者将不得不重新学习新技术，以在新技术领域具有一些竞争力。我担心的是，如果没有真正理解机器如何学习、如何正确应用人工智能，一些公司/算法/企业的弱点将持续暴露出来。

让我们欢天喜地地享用这些新技术吧，但要明白，如果你搞砸了就会有严重后果！

数据科学和数据分析领域经历了机器学习相关所有内容的热潮，包括强化学习、聊天机器人及社会影响研究。

在2019年，我预计人们会越来越关注人工智能的道德伦理，包括隐私和安全问题。人们越来越强调对算法制定特定决策过程的理解；我们不仅需要知道机器学习有助于我们做出决策，而且也需要知道它是如何工作的（它是如何做出决策的）。此外，美国公司将重点关注如何使用消费者的个人数据。加利福尼亚州通过了“加利福尼亚州消费者隐私法”（将于2020年1月生效），我期待并且希望其他州能紧随其后。

但同时，我也担心人工智能/机器学将导致假新闻创造和传播的增加。Deep fakes（人工智能的深度换脸技术）表明，人们能够捏造视频内容，来展示他们从未说过或做过的事情，并且毫无愧疚之意。正如马克斯·泰格马克（Max Tegmark）所说，充分认识到人工智能的潜在威胁不在于涅佐，而仅仅是“安全工程”。

现在数据从业者有许多渠道可以学习数据科学，诸如集训营、MOOC以及大学课程，但我也希望非数据专从业者（例如，经理和一线员工）能够更多地尝试学习数据分析课程。

2018年的主要发展之一是数据科学的民主化。利用云技术，人们无需实现建设Kubeflow等工具来构建数据中心，就可以为资源密集型大数据和AI应用程序提供源源不断的动力，从而为没有架构专业知识的人提供可扩展数据科学。这种赋能大众、让所有人都能获取数据科学工具的发展趋势将在2019年加速发酵。

Gartner公司刚刚发布2019年数据和分析战略预测报告。其中提到了一个观点：企业战略中明确表示信息是企业的重要资产，而分析是必不可少的能力。不仅IT战略提到了这一点，企业战略和计划也提到了类似的内容。

此外，我们期望数据扫盲计划将变得成为常态，以帮助业务人员和数据分析专业人员更好地沟通，尤其是在当下数据分析需求愈加复杂的背景之下。随着信息经济学中的原则和实践得到广泛传播，我们期望首席数据官能够更频繁地与首席财务官们合作，以正式评估组织的信息资产。这样做可以为许多客户带来重要的信息管理和商业的好处。但分析和数字伦理仍然是一个问题，我们相信组织将开始为他们的数据科学团队引入专业行为准则。

此外，我们预计在未来3-5年内，大多数新业务系统将通过充分利用实时环境数据以实现持续智能的应用；量子计算的POC项目（概念验证项目）将会使计算机的分析能力大大超过现状；智能强化和自动化的内部分析洞察将取代绝大多数的预测报告；位置分析的使用率将增长近10倍；机器学习也将缓解对数据科学家的人才争夺。

2018年的主要发展我认为有：

通用数据保护条例（GDPR）于2018年5月生效，不仅仅在欧洲，在美国乃至其他地区都是数据科学界一个重要的里程碑，在其影响下许多公司都更新了其隐私政策。但同时，新条例下的消费者隐私权益保护是否真的能得到改善，或者在新的保护政策下，是否还能像往常一样使用消费者隐私数据以创造价值，还有待观察。
数据科学民主化：随着访问工具和途径的增长，数据科学的民主化仍在继续。AWS reinvent发布的新工具就是其中之一。
人工智能风险：自动驾汽车的第一次致人死亡的事故原因在于机器未能分辨推着自行车行走的行人。这一事件吸引了社会对于人工智能不可避免风险的关注。与此同时人们需要注意，以零误差作为评价自动驾驶（和自动化AI）的标准是不现实的，正确看待的方式是其使驾驶风险相对现在大大降低。例如，人类驾驶的事故率就非常高，仅在2017年，美国就有37000人丧生于此。

2019年的主要趋势：

数据科学自动化将会加速发展，但至少在近几年内，数据科学家的工作还不会被完全的自动化取代。
人工智能的进步和炒作：尽管人工智能的发展是真实的，但人工智能的炒作增长更为迅速。
中国已经成为人工智能的主要参与者，许多中国公司正开始进行自主创新研发，而不仅仅是从美国复制。
强化学习将在人工智能进步中发挥越来越重要的作用。例如，强化学习算法在为解决Montezuma's Revenge Atari game时，取得了惊人的进展，达到了前所未有的100级，超越此前人类或计算所能达到的最好记录。

2018年大数据、数据科学与分析的主要发展情况：

通过越来越多成功案例的发布，利益相关者者对机器学习及深度学习的应用潜力有了更深刻的认识。
数据湖仍然存在投资误区。太多机构将数据湖视为驱逐昂贵的数据仓库及缩减ETL成本的一种方式，却尚未充分理解其作为价值创造平台的潜力，以供利益相关者和数据科学团队获取及商业价值驱动。

2019年主要趋势：

对于行业领跑企业而言，发展大数据和数据科学的主要动因应当是来自于业务端，而非IT端。龙头企业将通过识别，验证，审查，评估和优化业务成果，使大数据，物联网和数据科学（机器学习，深度学习，人工智能）驱动业务发展。
除使用数据科学优化关键业务和运营流程（仍然是开始获得诱人的投资回报率的好地方）以外，龙头企业将意识到，隐藏在数据中的客户、产品和运营的洞察将是未来机会变现的驱动因素。

2018年数据科学和分析的主要发展：

通用数据保护条例（GDPR）：2018年5月生效的欧盟法规为，为欧盟公民提供了一套个人数据保护规章制度。这一实践推动了类似标准在其他地方的设置。例如，美国加利福尼亚州通过了自己的数字隐私法案;，这一法案使消费者了解到相关机构正在收集哪方面的信息，为什么他们要收集这些数据以及他们与谁共享数据。
自助式商业智能（BI）工具：商业智能分析工具将在数据分析师和商业分析师中变得更加普遍。但是，这些工具的使用者们是否真的了解这些分析场景的真实含义，我们尚不清晰。在人们学习使用拖拽工具、制作图表的速度，与人们对真实业务场景的理解之间，尚存在一定差距。

2019年的主要趋势：

数据道德与隐私：在每个数据科学的环节上，使用数据的道德和隐私问题将愈发得到重视。与数据起舞的人，需要对他们所拥有的强大权力与他们工作可能带来的广泛影响有清晰的认知。随着全世界数字化进程的推进，这些问题应当从个人，公司及政府层面都得到重视。
流程自动化：公司将继续推进流程自动化，以降低成本并提高效率。这种自动化还可能导致相应自动化流程的个人面临失业问题。因此在未来，人们需要专注于不断学习新技能，以便适应瞬息万变的环境。

2018年，端到端数据管理增长的同时，公司一边提高分析能力的成熟度，一边充分挖掘所有数据资源，来获取值得信赖的洞见，以及建立适应于当前数字化经济的基础设施及商业模型。机器学习被大众广泛接受，软件供应商在其解决特定问题的产品应用中，大量引用了机器学习技术。

2019年，为支持更加复杂、级别更高的深度学习应用，将会出现更多的集成硬件、软件框架，以促进更广泛的创新。深度学习应用需要全面优化的硬件和软件堆栈，以推进全新现代的AI架构。我们将会看到各行各业供应商开始使用者这种全栈方案，以满足深度学习最佳性能和功能的需求。

随着物联网设备的增长，实时边缘分析将呈指数级增长，这使得使实时分析变得更加容易，也将有助于基于实时洞见获取即时的反馈。

2018年是数据科学（DS）令人惊叹的一年，无论是在理论方面还是实践方面。业界提出了数据科学的几种研究方法，可以帮助将数据科学转换为实际科学。我参与其中的讨论已经一年多了，也在最近看到了更多的人参与讨论。相对与机器学习，自动化机器学习的内容十分繁杂，其中也包括自动化深度学习。

2019年的主要趋势：

AutoX：我们将看到越来越多的公司在它们的堆叠技术以及函数库中使用自动化机器学习和深度学习的相关技术。这里的X意味着将这个自动工具将扩展到数据摄取，数据集成，数据清理，探索和部署等各个方面。自动化将存在于此。
语义技术：今年我最有趣的发现是数据科学和语义之间的关联性。它不是数据世界中的新领域，但我发现越来越多的人对语义、本体、知识图及其与数据科学和机器学习的关联性表现出兴趣。
编程化繁为简：这是一件很难定义的事情，但是随着数据分析的每一个流程实现自动化，我们的日常编程工作将越来越少。我们将拥有用于创建代码的工具，这些工具将理解我们对自然语言处理的需求，然后将其转换为查询、命令和完整程序。我认为编程仍然是非常重要的学习内容，但它很快就会变得更简洁容易。
数字化教育：数字化教育每年都在增长，但明年我们将看到比以往更多的人参与到MOOC、数字课程或在线课程之中。有人将其称之为“教育民主化”，我在很大程度上同意这种说法，但我想对所有人说：注意你的学习内容和方式，在投入时间和金钱之前对所学课程进行调查研究，好的课程将改变你的生活，相反的，它也非常危险。

人工智能炒作和转型影响在2018年无处不在。几年前，大数据风靡一时，然后是云技术，现在机器学习则占据了主导地位。人工智能在手机应用，机器人和商业智能解决方案方面被吹得过了头。在今天，即便是啤酒，也是人工智能驱动。

今年，我们也看到了自动化市场的急速扩张。如今，许多机器学习解决方案都在推动人工引导的、自动化的数据分析向整个全生命周期自动化机器学习转化。从简单的拖拽、点击按钮以创建基本模型，到复杂的特征工程、模型检索、参数调整、部署、模型的管理和监控，自动化机器学习的应用范围十分广泛-结果也参差不齐。

在2019年，对数据科学的公共管理，隐私，偏见，道德问题和更深层次的虚假问题将挑战我们对人工智能的信心。区块链等创新技术将开始改变我们存储、共享和跟踪数据的方式。我还期待人工智能将变得更加公平、更加透明，并且更加负责，使得非数据科学家也能理解、解释并信任人工智能。目前，在将数据科学术语转化为普通人可以理解的语言间还存在巨大的差距。许多组织在我们这个不完美的世界中应用人工智能技术，同时为民间数据科学家的产生提供了温床，更多的人需要成为数据专家，以保证AI方向没有走偏。