财新传媒 财新传媒

阅读:0
听报道
作者:曹培信
 
四天前,一位ID为“daishu”的成员在Kaggle官网论坛上发表了一篇帖子,引爆了Kaggle竞赛圈。
 
链接:
https://www.kaggle.com/c/ieee-fraud-detection/discussion/110778
 
帖子指出,在一个Kaggle比赛中,有的选手通过与不同的选手组队骗取多份代码,然后将这些答案汇总到一个另一个队伍中。这类行为涉嫌使用小号和Private Sharing,这都是是Kaggle明令禁止的行为。
 
这篇揭露帖中提到了很多圈内的“知名人物”,包括:鱼遇雨欲语与余 (王贺)、YB (Orange)、LongYin (龙樱、杰少、老师社会、杰尘沙少、张杰)、林有夕 (包恒达、inf.turning、山有木兮)。
 
这些人的共同联系是他们运营了一个知乎的“Kaggle竞赛宝典”和一个付费的知识星球(每人每年129元),这个星球还被称为“宝典帮”。
 
而随着比赛接近尾声,Public Leaderboard切换至Private Leaderboard(国内称为A榜切换为B榜),在经过Kaggle的审核之后,部分涉及“宝典帮”的队伍由于提交文件极度相似、ip地址相同,被Kaggle官方取消了成绩,其余的也被“Shake Up”,未能保住原有的名次。
 
B榜的最终结果中,涉及“宝典帮”的队伍没有一个进入前十,YB(Orange)、AIR所在的队伍以及宁缺(广工第一关羽)所在的队伍被取消成绩。
 
“指控”+“举证”,引爆Kaggle论坛
 
此贴一出,立马引爆了论坛。
 
“daishu”在帖子指出:
 
这些人的做法在中国被称为是“PY交易”,而“宝典帮”则是从事“PY”交易的一个组织,现在,“宝典帮”已经开始污染Kaggle的竞赛环境了,他们潜入了以下团队:
 
hold on to forever、DLMPS、bird and fish、Magic_、 Happy 70th anniversary to China、 look for features
 
这些队伍中的一些人是受害者,我希望以后大家不要再和这些所谓的“PY大神”组队。
 
另外还附上了“证据”来证明这些人存在“private sharing”。
 
鱼遇雨欲语与余在自己的贴子中要别人加他微信
 
有网友对此表示疑惑,加微信是要交易什么?钱,提交次数,思路还是CSV?
 
还有“证据”是涉案的几个队伍成绩提升曲线图高度同步:
 
这个图数据的来源应该是“daishu”自己爬取的,这是一个相对石锤的证据。
 
涉及的队伍
 
有网友说明涉及“宝典帮”的队伍如下:
 
hold on to forever(排名5):小兔子乖乖、wyldream、jinxiwang、MeisterMorxrc
 
DLMPS(排名6):Mathurin Aché、Phaedrus、dhc123、LongYin、Siddharth
 
bird and fish(排名9):bird、鱼遇雨欲语与余、Rain、yelan、Jhui He
 
looking for features(排名30):Orange、AIR
 
而“宝典帮”的嘉宾成员如下:
 
两个对比可以看出,这其中和“宝典帮”有明显关系的有鱼遇雨欲语与余 (王贺)、小兔子乖乖、LongYin (龙樱、杰少、老师社会、杰尘沙少、张杰)、YB (Orange),当然参加比赛多用化名,所以有没有其他的还很难说。
 
事态发展愈发激烈,双方各执一词
 
目前的帖子的“upvote”数量已经达到了128,下面也跟了许多网友的评论,其中一些还提供了的其他证据。
 
比如,有网友指出在Kaggle地震预测比赛中,“宝典帮”的两个队伍,小兔子乖乖和Candidates for Master在B榜中都被shake up,从A榜的114名和118名,掉到了B榜的403名和404名。
 
另外现在再看Candidates for Master队伍的队长账号,已经被Kaggle删除,然而一个相同头像、3天前刚注册的账号在帖子下说明,这些账号还同时在阿里举办的天池大赛中也占据了榜首。
 
而“宝典帮”这边也在帖子中开始反驳这些“指控”,林有夕 (inf.turning)就在帖子下回复:
 
都获得好名次就能代表作弊么?近一年,国内比赛大大小小我拿了10个左右的冠亚季,有鱼遇雨欲语与余 (王贺)也是,但是很多比赛我们并没有同时参加,这么说“我们错失了约3/4的py机会以及赚钱机会?”
 
但是现在冲突有所升级,Smile表示因为讨论此事而被“宝典帮”攻击,通过网络搜捕获得了他的个人信息,并袭击了他的女友和我的家人。
 
并且表示,bird发现YB (Orange)的开源代码中有抄袭他的部分。
 
尽管双方还在争执,各种小号也在提供各种“证据”,但是更多的网友表示对这种行为的不齿:“为什么要玷污数据科学的殿堂?”
 
Kaggle比赛的奖牌早已被明码标价
 
其实随着考研、留学、求职对于Kaggle比赛奖牌越来越重视,越来越多的人想通过获取kaggle奖牌来提升自己的简历,但是自身能力有限,于是就想走一些“捷径”。
 
有需求就有市场。
 
各种可以“买到”Kaggle奖牌的途径在网上早已出现。
 
尽管这次争论还在继续发酵,但是通过上面“出售”奖牌的情况来看,下游的需求和中间的渠道都已经是既定事实,那么上游提供资源的人必然是存在的,能够带别人参加比赛并且能保证拿到名次,相比水平应该很高了,那么这种方式对于那些勤勤恳恳想通过自己学习在比赛中获得名次的人来说,是不是一种不公平呢?
 
而当Kaggle比赛的含金量降低,一个公平而又有价值的比赛逐渐成为捞金和买奖牌的地方,那受伤的将不仅是真正的数据科学从事者们,而是整个数据科学的圈子。
话题:



0

推荐

大数据文摘

大数据文摘

448篇文章 3年前更新

普及数据思维,传播数据文化

文章