财新传媒 财新传媒

阅读:0
听报道

 

作者:王嘉仪、魏子敏
统计学可能是最容易逼疯人的学科之一了。
 
黄白球在箱子里拿来拿去怎么也拿不到自己想要的,硬币抛来抛去也没有看到另一面,生日算来算去还是跟喜欢的人不一样。
 
别急,这跟你的智商无关,很可能是由于你没有好的学习工具。今天文摘菌来介绍一款由布朗大学的学霸设计,辅助统计学习的好帮手——看见统计(Seeing Theory)。
 
中文版网站地址:
https://seeing-theory.brown.edu/cn.html
 
Seeing Theory是一个在线学习概率论与数理统计的学习平台,涉及了几乎所有初、中级统计知识,最重要的是,这个平台把这些抽象难懂的知识全部可!视!化!出来了。
 
它总共分为五个单元,每单元有三个可视化模块,基本上把初阶概率论的课程涵盖了。可视化包括经典的投硬币模型(甚至还模拟非均匀硬币),还有对著名的数据集的关系的探索。
 
 
每一个可视化模型都建立在前一个的基础上,每一单元内容都环环相扣。
 
这很像一个“可以动”的课本,无论是高中生还是大学初年级的同学,都可以在其中获得一点灵感和启发。网站也把可视化展示的统计知识整理成了严肃的数学文稿,放在最后,供希望深入了解的用户下载阅读。
 
早期它只有全英的界面,且有一些板块还没成型。现在很欣慰的是,中文版本以及西班牙语版本都已经上线。
 
中文版”看见统计“是由一位叫Zhimei Ren的小姐姐翻译,她在北京大学数学学院获得了学士学位,现在是斯坦福大学统计系的博士生,研究兴趣包括高维统计推理和因果推理。
 
 
被概率论难倒的学霸
 
平台的创建者Daniel Kunin是个不折不扣的学霸:布朗大学计算生物学系,以GPA3.93的成绩从Brown大学毕业,现在是斯坦福计算机与数学工程的研究生。
 
即使是这样的聪明人,也曾经饱受统计学摧残。
 
尽管并不是数学系的学生,但统计学仍然是Daniel Kunin的课程。“我当时想往生物化学领域发展,但觉得要学习计算机编程”。
 
Daniel Kunin在大一选了学校里Caroline Klivans教授的统计学入门。统计学的课程是基础,他看的统计理论书籍也许与你我并无二致,面对着复杂数学模型只能抓头发。
 
大二的他选了计算机系教授Steve Reiss所教的网页开发导论。这门课的期末作业要求学生们以小组作业的形式完成一个项目。在浏览选题参考方向和注意事项的时候,他留意到“本项目用于开发对于统计学导论可有用的小程序,需要在里面展示已经学过的统计学概念。学生在使用程序时能更加强化学的内容。”
 
“我数学背景不是很强,之前上统计课的时候理解那些深奥的概念非常艰难,我对一些非常基础的概念毫无感觉。既然我学了可视化,我希望我有更多的办法来帮助我建立这种直觉。”
 
而为网页开发导论这门课选题的过程中,Daniel也想到了把两者结合起来,用可视化的方式学习统计学。他找到同学一起制作了这个非常棒的能够培养新手学习概率统计兴趣的网站——Seeing Theory。
 
成为校园网红,火到宕机!
 
网站框架和思路有了,但还不够。跟有意思的人一起合作才能做好事情,为了制作这个网站,Daniel找来了几个合作伙伴。
 
他先跟数学系学长Madeleine Johnson构建网站框架。作为一个精通Python, Matlab, Julia, R, C/C++, Java, Javascript/HTML/CSS的统计学高材生,Daniel Kunin最喜欢把数据变得好看,于是又请来罗德岛设计学院工业设计系的Jingru Guo,将网页交互体验设计的十分舒适美观。Jingru Guo现在去了亚马逊。
 
他们把贝叶斯推理和回归分析的复杂公式和大段解释用最直观的方式展示出来,让人们看到数据组合在一起,究竟会发生什么相互反应,理论又是如何构建出来的,让用户可以用感知力来学习抽象的理论。
 
但是我们做这个网站可不为了改编教材什么的,而是更希望给学生提供一个额外有趣的资源,让他们能独立的探索自己的想法,培养创造力。
 
上线不久,这个炫酷又好看的网站成为推特和Facebook的校园热点。
 
“我正在计算机导论的课上当着TA,我的朋友跑过来告诉我,网站宕机了,并且他让我看看Facebook上的反响”。我想了一下,我没删除什么重要的代码呀,我检查了一下校园网服务器都很好,唯独我的网页没有反应。”
 
原来是约翰霍普金斯大学的教授在他的推特上推荐了他的网站。之前的用户规模很小且都在美国,这次传播仅仅72小时后,就来了世界上成百上千万的访问者,挤爆了网站。
 
Klivans教授看到这个作品觉得很有意思,多年的教学经验让她立刻意识到了这是个靠谱的工具,她非常了解有大量的学生还在统计学的大门前徘徊难以进入。修复问题后,目前这个网站已经在布朗大学两大统计课上开始应用了。
 
 
Daniel Kunin持续收到很多来自学生、老师和研究者的反馈建议,“我想把这些想法都营运进去”,于是他又找到其他小伙伴:同校的Tyler Devlin和Dan Xiang,想在业余时间不断改进。
 
Tyler Devlin是一名数据挖掘工程师,Dan Xiang是一位在读博士的中国小哥。“我们有四个计划,其中之一就是希望写入更多内容,融入机器学习的理念,我们还要把它翻译成不同国家的语言。”
 
爱上统计学
 
这次作业也从此改变了Daniel学习统计学的痛苦心态。
 
之后,他对数理统计从束手无策变成了狂热。“我一发不可收拾的爱上了这个学科。我又接着选了更多的CS课程,还当了两名课的助教”。
 
大四那年,Daniel参加北美高校数学统计学科学生最喜欢参加的Citadel Data Open大赛,并赢得了第一名获得2万刀奖金。
 
Daniel Kunin个人主页:http://daniel-kunin.com/
 
从个人主页上可以看出,Daniel还是一个生活非常丰富多彩的极客:运动爱好者,他曾跟一个七人团队在北极徒步600km,跟两个伙伴在以色列境内刷了1000km,独自穿越650km的太平洋山脊步道;生活上也非常精致,喜欢做饭,尤其是酿酒。
 
有颜值又好玩的统计概念入门平台
 
 
最后,还是跟文摘菌一起来探索一下这个网站。
 
这个网站的界面非常友好漂亮。它的导引菜单和有趣漂亮的界面吸引着笔者把上面所有内容浏览了一遍。这些作品里主要用到了D3和Mike Bostock’s data visualization software实现。
 
拿这个线性回归章节中的最小二乘法做个简单介绍。
 
第一步:选择不同的数据集,这里有四组。它所使用的数据集是:安斯库姆四重奏,它由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造的,用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。
 
第二步:拖动右侧方形滑块的点。你会看到你随意点击拉动的方块大小,最终影响到这条直线的斜率,即线性回归的相关系数不断变化,包括SSE(残差平方和)的变化。如图所示,你不理解一些特定的字母意义,也可以点击查看介绍。我们通过互动理解了这个方程的每一部分。
 
 
接着下一节【相关性】,用的是Edgar Anderson的著名的 鸢尾花(Iris flower)数据集来显示数据的视觉特征。诸位曾经学习datamining, analytics, stat, biostat的同学,就会懂得这朵花。
 
 
其实人们对于对于可见的事物更容易理解,对于抽象理论的理解应该被放在入门以后去深入。
 
再换一个板块也是一样简单操作,只需点点鼠标就能将大样本绘制出图形。点击不同的格子:
 
 
(安德森鸢尾花卉数据集指的是,最初埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据,后由罗纳德·费雪作为判别分析的一个例子,运用到统计学中。其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合,费雪发展了一个线性判别分析以确定其属种。)
 
想想当年学数学时候的痛苦,遥远的黑板与听不清教师的方言,都让我们对美妙的数学望而却步,今天有这么多学习工具,有一个探索的心,学习还是问题吗?
 
相关报道:
https://cs.brown.edu/about/conduit/conduit_v27.pdf

 

话题:



0

推荐

大数据文摘

大数据文摘

448篇文章 3年前更新

普及数据思维,传播数据文化

文章