机器学习高质量数据集大合辑 -大数据文摘的财新博客-财新网

编译：蒋宝尚

在机器学习中，寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

那么用于机器学习的开放数据集有哪些呢？文摘菌给大家推荐一份高质量的数据集，这些数据集或者涵盖范围广泛（比如 Kaggle），或者非常细化（比如自动驾驶汽车的数据）。

首先，在搜索数据集时，在卡内基·梅隆大学有以下说法：

数据集不应混乱，因为你不希望花费大量时间清理数据。
数据集不应该有太多行或列，因此很容易使用。
数据越干净越好 —— 清洗大型数据集相当耗时。
数据可以解答一些有趣的问题。

数据集查找器

Kaggle：Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆（Anthony Goldbloom）2010年在墨尔本创立的，主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。

在这个平台中可以找到各种数据，从拉面的评分、篮球数据，到西雅图的宠物牌照应有尽有。

UCI机器学习库（UCI Machine Learning Repository）：这是网络上最早的数据集来源之一，是寻找各种有趣数据集的第一选择。虽然用户提供的数据集的清洁度不太一样，但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据，无需注册。

VisualData：在这里计算机视觉数据集按类别分组，并且支持搜索查询。

公共政府数据集

：在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是，很多数据还有待进一步研究。

食品环境地图集（Food Environment Atlas）：当地的食物选择如何影响美国饮食的数据。

学校系统财务状况（School system finances）：这里有美国学校系统财务状况的调查。

慢性病数据（Chronic disease data）：美国各地慢性病指标的数据。

美国国家教育统计中心（The US National Center for Education Statistics）：来自美国和世界各地的教育机构和教育人口统计数据。

英国数据服务：英国最大的社会、经济和人口数据收集机构。

数据美国（Data USA）：全面的、可视化的美国公共数据。

金融和经济

Quandl： 里面有很多经济和金融数据，你可以使用这些数据建立预测经济指标或股价的模型。

世界银行开放数据（World Bank Open Data）：涵盖世界各地人口统计、大量经济和发展指标的数据集。

货币基金组织的数据（IMF Data）：国际货币基金组织公布关于国际金融、债务率、外汇储备、商品价格和投资的数据。

英国金融时报金融时报市场数据（Financial Times Market Data：）：里面有来自世界各地的最新金融市场信息，包括股票价格指数、商品和外汇。

谷歌趋势（Google Trends）：观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

美国经济协会(AEA)：这这里你可以找到美国宏观经济的相关数据。

机器学习数据集

Labelme：数据集中包含大量有标注的图像数据。

ImageNet： 是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释。根据 WordNet 层次结构来组织，其中层次结构的每个节点都由成百上千个图像来描述。

http://image-

LSUN：场景理解与许多辅助任务（房间布局估计，显着性预测等）

MS COCO：通用图像的理解和文字描述。

COIL 100：在 360 度旋转中以各个角度成像的 100 个不同的物体。

视觉基因组：非常详细的视觉知识库，配以0 万张带有文字描述的图像。

谷歌的Open Images：“知识共享”（Creative Commons）下的900万个图像网址集合，已标注超过6,000个类别的标签。

Labelled Faces in the Wild：13,000个人脸标记图像，用于开发涉及面部识别的应用程序。

http://vis-

Stanford Dogs Dataset：包含20580张图片和120个不同的狗品种类别。

室内场景识别（Indoor Scene Recognition）：这是一个非常细化的数据集，由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳，因而这个数据集非常有用。内有 67 个室内类别，共 15,620 张图像。

情感分析

多域情感分析数据集（Multidomain sentiment analysis dataset）：一个比较有历史的数据集，里面还有一些来自亚马逊的产品评论。

~mdredze/datasets/sentiment/

IMDB： 影评，也是比较有历史的二元情绪分类数据集、数据规模相对较小，里面有 25,000 条电影评论。

~amaas/data/sentiment/

斯坦福情感树银行（Stanford Sentiment Treebank）：带有情感注释的标准情绪数据集。

Sentiment140：一个流行的数据集，它使用16万条推文，并把表情等等符号剔除了。

Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment)：自 2015 年 2 月以来美国航空公司的 Twitter 数据，分类为正面、负面和中性推文。

自然语言处理

安然数据集：里面有安然集团高级管理层的电子邮件数据。

~./enron/

亚马逊评论：里面有3500万条来自亚马逊的评论，时间长度为18年。数据包括产品和用户信息、评级等。

Google Books Ngram：来自Google书籍的词汇集合。

博客语料库：从收集的681，288篇博客文章。每个博客至少包含200个常用的英语单词。

~koppel/BlogCorpus.htm

维基百科链接数据（Wikipedia Links data）：维基百科全文。该数据集包含来自400多万篇文章，近19亿字。你可以对字、短语或段落本身的一部分进行搜索。

Gutenberg电子图书列表：Project Gutenberg的附加注释的电子书列表。

:Offline_Catalogs

加拿大议会的文本块（Hansards text chunks of Canadian Parliament）：来自第36届加拿大议会记录的130万对文本。

http：//

危险边缘 (Jeopardy)：来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。

英文SMS垃圾邮件收集（SMS Spam Collection in English）：包含5，574条英文垃圾邮件的数据集。

~tiago/smsspamcollection/

Yelp评论（Yelp Reviews）：Yelp发布的一个开放数据集，包含超过500万次评论。

UCI的垃圾邮件库（UCI’s Spambase）：一个大型垃圾邮件数据集，用于垃圾邮件过滤。

自动驾驶

Berkeley DeepDrive BDD100k：这是目前最大的自动驾驶数据集。里面有超过 1,100 多个小时驾驶体验的视频，包含10 万个在一天中不同时段以及在不同天气条件下的数据。

http://bdd-

百度 Apolloscapes：大型数据集，定义了26种不同的语义项，如汽车，自行车，行人，建筑物，路灯等。

：超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。

城市景观数据集：记录50个不同城市的城市街道场景的大型数据集。

https://www.cityscapes-

CSSAD数据集：包含自动车辆的感知和导航等数据，但着重于发达国家的道路。

麻省理工学院AGE实验室（MIT AGE Lab:）：在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

LISA：智能和安全汽车实验室，加州大学圣地亚哥分校数据集：该数据集包括交通标志，车辆检测，交通信号灯和轨迹模式。

博世小型交通灯数据集（Bosch Small Traffic Light Dataset）：用于深入学习的小交通灯数据集。

https://hci.iwr.uni-

Lara交通灯识别（LaRa Traffic Light Recognition）：巴黎交通灯的数据集。

WPI 数据集：交通灯、行人和车道检测的数据集。