财新传媒 财新传媒

阅读:0
听报道

本文摘自《人人都在说谎:赤裸裸的数据真相》

在棒球预测史上,2003年出版的《点球成金》(布拉德皮特主演过同名电影)一书引发了大众的关注。放大数据的行为比一项特定研究的特定发现更有价值,因为这种行为提供了一种看待和谈论生活的新方法。基于数据和数字,我们可以深度挖掘出其背后的本质。在赛思·斯蒂芬斯-达维多维茨的新书《人人都在说谎》中,作者从棒球运动入手,通过大量的数据解释了不断涌现大量数据的今天,我们能运用这一个性化推荐方式做些什么。

 

如何利用大数据预测人们的未来发展?

 

2009年6月,职业棒球选手戴维·奥尔蒂斯的职业生涯似乎已经彻底完结。在过去的5年里,波士顿红袜队对这位笑容友好的多米尼加籍猛士可谓宠爱有加。

 

他连续5次入选全明星赛,获得一次MVP(最有价值球员奖),并助波士顿红袜队结束了86年的冠军争夺战,但在2008年赛季,32岁的他排名下降了。他的击球百分比下降了68%,上垒百分比下降了76%,长打百分比下降了114%。到2009年赛季开始的时候,奥尔蒂斯的各项排名依旧持续下滑。

 

奥尔蒂斯真的就这样完了吗?如果你是波士顿红袜队的总经理,那么2009 年时,你会辞退他吗?一般而言,如何预测一个棒球运动员未来的表现呢?或者从更宽泛的视角来看,我们如何使用大数据来预测人们未来会做些什么呢?


 

有这样一个理论可以让你进一步了解数据科学:看看那些棒球数据分析师(有什么研究成果,然后试着将这个成果应用到数据科学的其他领域。棒球运动属于最先运用综合数据集研究所有问题的众多领域之一,有那么一群聪明人愿意终其一生去研究这些数据。如今,他们的研究正逐渐覆盖所有领域,首先是棒球研究,其他领域的研究紧随其后,棒球数据分析师可谓一统天下了。

 

预测棒球运动员未来最简单的方法,就是以其目前的状态来推测他接下来的表现。如果一名球员在过去的一年半中苦苦挣扎,那么在未来的一年半中,他可能也会步履维艰。按照这种方法论,波士顿红袜队当时应该换掉戴维·奥尔蒂斯。

 

但是,可能还有更多相关信息。20世纪80年代,被公认为棒球数据分析鼻祖的比尔·詹姆斯强调了年龄的重要性。詹姆斯发现,很多棒球运动员很早就会到达职业生涯的巅峰,一般27岁左右就会成名。球队往往忽略了有多少球员的球技会随着年龄的增长而下降,因此会付给高龄球员过高的薪水。按照这种更先进的方法论,波士顿红袜队肯定会替换掉戴维·奥尔蒂斯。

 

但这种年龄判定法可能也会有一些差池,并非所有球员都会沿着同一路径走完自己的职业生涯。一些球员可能在23岁时球技达到峰值,另一些球员则会在32岁时如日中天。矮个子球员可能与高个子球员情况不同,体形瘦的球员与体形胖的球员情况也不同。棒球数据统计人员发现,不同类型的球员有不同的衰老过程。对奥尔蒂斯来说,情况更糟:一般来说,“强壮猛士”的身体机能高峰期确实出现得较早,并且一过30岁很快就衰退了。如果波士顿红袜队综合考虑戴维·奥尔蒂斯的近况、年龄和体形,毫无疑问,他们应该换掉他。

 

后来,在2003年,统计学家纳特·西尔弗引入了一个名为PECOTA的新模型来预测队员的表现,这果然是最好、最酷炫的方式。西尔弗搜寻到了球员的二重身,那么这些奥尔蒂斯的二重身的职业生涯走向又是如何呢?

 

二重身的搜索是数据放大的典型例子之一,它放大了与特定人物最相似的一小部分人。而且,随着对这些人物的全面放大,掌握的数据越多,二重身就越准确。事实证明,根据奥尔蒂斯的二重身对其未来所做的预测和以往对他的预测差别很大。奥尔蒂斯的二重身包括豪尔赫·波萨达和吉姆·托梅。这些球员在其职业生涯之初显得比较慢热,在20岁出头的时候才表现出惊人的爆发力和世界级水平,然后在30岁刚出头时就开始力不从心。西尔弗接着根据这些二重身的最终结果预测了奥尔蒂斯的未来。他发现这些人都拥有各自职业生涯的第二春。

 

二重身搜寻研究法是用于预测棒球运动员行为的最佳方法论,表明波士顿红袜队应该对奥尔蒂斯有耐心。波士顿红袜队确实对这位年长的猛士很有耐心。2010 年,奥尔蒂斯的场均得分上升到270,取得了32个本垒打的好成绩,进了全明星队。奥尔蒂斯开始了他连续4场的全明星赛。2013年,37岁的他和以往一样排在第三位,以4胜2负、688分的成绩帮助波士顿红袜队击败了圣路易斯红雀队,并当选为当届世界棒球职业大赛的MVP。

 

二重身搜索法的多场景应用

 

许多大型互联网公司已经在运用二重身搜寻进一步改善它们的产品和用户体验。亚马逊便使用类似二重身搜寻的东西推荐你可能喜欢的书。它们能看到与你相似的人选择了什么,并以此为依据为你推荐图书。

 

在你挑选想听的歌曲时,潘多拉视频播放器也会做同样的事。网飞网站也是用这种方法得知你可能想看的电影的。个性化推荐系统的影响非常深远,因此,当亚马逊的工程师格雷格·林登首次引入这一方法预测读者的书籍偏好时,书籍推荐的效果明显增强了。

 


 

生活中其实有很多事情都可以通过这些搜寻允许的个性化设置得到极大的提高,以我们的健康为例。

 

哈佛大学的计算机科学家兼医学研究员艾萨克·科恩正试图将这一方法应用于医学领域。他想搜集并整合人们所有的健康信息,这样一来,不用一刀切的方法,医生就可以找到和你一样的病患。然后,他们就可以使用更加个性化、更集中的诊断和治疗方法。

 

科恩认为这是医学领域的自然延伸,甚至都算不上什么重大进步。科恩问:“诊断到底是什么?诊断实际上是一种陈述,用以说明你与先前研究过的人有哪些共享属性。当我诊断你有心脏病时,我会说我在你身上看到了此前我在别人身上发现的病理生理学症状,这就意味着你也患有心脏病。”

 

从本质上说,诊断是一种原始的二重身搜寻。问题是医生用来做诊断的数据集太小了。如今,医生基于其治病的经验做诊断,或许还会以其他研究人员发表的关于小群体的学术论文做补充。不过我们已经看到,二重身搜寻要想做得好,必须有更多的案例才行。

 

对于这个领域,大数据确实能帮得上忙。那么,为什么还花了这么长时间呢?为什么大数据到现在还没有得到广泛应用呢?其问题在于数据搜集。

 

许多医疗报告仍然停留在书面上,掩埋在文件堆里,而那些已经计算机化的报告,常常因格式不兼容而无法阅读。科恩指出,相比医疗卫生领域,我们在棒球方面反而通常可以得到更准确的数据。

 

简单的措施往往大有帮助,科恩一再提到“容易得到的水果”这个说法,例如,他相信只需创建一个完整的数据集,其中包含儿童的身高体重表和他们可能会感染的所有疾病,这一举措对儿科来说将具有革命性的意义。如此一来,每个孩子的成长道路都可以与其他孩子的成长道路相比较,计算机可以找到成长路径相似的孩子,并且自动标记所有棘手的模式。

 

计算机也可能会检测到孩子的身高过早趋于稳定,某些情况下很可能是因为孩子存在下述两种病症之一:甲状腺功能减退或脑瘤。不管是哪种情况,及早诊断都是好事。科恩说:“这些都是稀有事件,是概率只有万分之一的事件。总的来说,孩子们是健康的。我想我们可以提前诊断,至少提前一年。我们完全可以做到这一点。”

 

大量的数据可以让我们能够无限放大和拉近,不局限于任何特定的、毫无代表性的人类,我们仍然能够讲述复杂而有情怀的故事。

话题:



0

推荐

大数据文摘

大数据文摘

448篇文章 3年前更新

普及数据思维,传播数据文化

文章