如果你是一个有经验的数据科学专家,你一定知道学习数据科学的最佳办法是应用数据科学。 在大数据时代,比不会数据分析更可怕的是什么?——空有数据分析能力,却没有数据可以施展。今天,吐血整理这篇数据集干货。各类公开数据集资源,从简单通用到大型数据集,超级福利全部送上!
01简单通用数据集
1.data.gov
网址:http://www.data.gov/
▌官方数据,数据量大这是美国政府公开数据的所在地,该站点包含了超过19万的数据点。
▌数据内容覆盖多领域 该数据库包括气候、教育、能源、金融等更多领域的数据集,可以进行数据可视化。
2.World Bank
网址:http://data.worldbank.org/
▌开放数据,工具广泛世界银行的开放数据。该平台提供了open data catalog、世界发展指数、教育指数等几个工具。
▌多主题时间序列数据该数据集包括分析和可视化工具,包含各种主题的时间序列集合。
3.Five Thirty Eight Datasets
网址:http://github.com/fivethirtyeight/data
▌适用于调查分析Five Thirty Eight,亦称作538,专注于民意调查分析、政治、经济与体育的博客。
▌数据集内容完善每个数据集包括数据、解释数据的字典和Five Thirty Eight文章的链接。
02大型数据集
1.Amazon Web Services(AWS)datasets
网址: https://aws.amazon.com/cn/datasets/
▌大数据集亚马逊提供了一些大数据集,可以在他们的平台上使用,也可以在本地计算机上使用。
▌数据集类型多样 在亚马逊上流行的数据集包括安然电子邮件数据集、NASA NEX数据集、百万歌曲数据集等。
2.Youtube labeled Video Dataset
网址:https://research.google.com/youtube8m/
▌数据集内容庞大谷歌研究小组发布了YouTube上的数据集,它由800万个YouTube视频id和4800个视觉实体的相关标签组成。
▌先进的视觉特征它来自数十亿帧的预先计算的、最先进的视觉特征。
03机器学习数据集
1.Kaggle数据集
网址:https://www.kaggle.com/datasets
▌专业性强、多是学术活动数据集Kaggle是一个主要为开发商和数据科学家提供举办机器学习学术活动、托管数据库、编写和分享代码的平台。
2.加州大学欧文分校机器学习库
网址: http://archive.ics.uci.edu/ml/index.php
▌数据集庞大,适用于实证分析 加州大学欧文分校机器学习库包含476个数据集。它是机器学习社区用于机器学习算法的实证分析的数据库,是理论和数据生成器的集合。
▌适用于初学者和高阶学习者 对于初学者和高级学习者来说,这是一个很好的“go-to-shop”。
3.Datahub,分享高质量数据集平台
网址: https://datahub.io/
▌高质量数据资源 Datahub数据集平台拥有高质量的数据资源,包括书目数据、经济数据与指标、人口统计学、医疗保健等相关数据集。
4.KDNuggets网站
网址:www.kdnuggets.com/datasets/
▌内容覆盖广泛 KDNuggets是一个内容覆盖非常广泛的网站,无论是就职干货还是技术难题,它总会有相关的文章。
▌高质量数据集 在KDNuggets上有Datasets栏目,提供了一些高质量的数据集。
04图像数据集
1.The MNIST Database
网址:http://yann.lecun.com/exdb/mnist/
▌最流行的图像识别数据集它是最流行的图像识别数据集,包括6万个示例的测试集。
2.Chars74K
网址:http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
▌字符识别,内容丰富 该数据集包括自然图像中的字符识别,包含74000个图像。
3.Chars74K
网址:http://www.cs.tau.ac.il/~wolf/ytfaces/
▌面部视频数据这是一个面部视频数据库,旨在研究视频中无约束的人脸识别问题。
▌数据量大该数据集包含3425个不同的人的视频。
4.室内场景识别
网址:http://web.mit.edu/torralba/www/indoor.html
▌类别齐全、图像量大该数据库包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。
05文本数据集
1.路透社新闻数据集
网址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
▌新闻专线,常用于教程该数据集纯粹基于分类,包含来自新闻专线的文本,常用于教程。
2.SQuAD:斯坦福问答数据集
网址: https://rajpurkar.github.io/SQuAD-explorer/
▌文本形式呈现 该数据集为应用广泛的问答和阅读理解的数据集,其中每个问题的答案都是以文本形式呈现。
3.Billion Words数据集
网址: http://www.statmt.org/lm-benchmark/
▌语言建模数据集 该数据集是一种大型通用语言建模数据集,通常用于训练分布式单词表征,如word2vec。
4.复旦大学中文文本分类语料库
网址:https://www.kesci.com/home/dataset/5d3a9c86cf76a600360edd04/document
▌可用于NLP学习该数据集包含20个不同的类别,可用于NLP学习。
5.6000条周杰伦微博超话数据
网址:https://www.kesci.com/home/dataset/5d3551bdcf76a60036f605aa
▌最新数据,时效性强数据主要爬自周杰伦超话下网友的评论。字段为rid、用户名称、微博等级、微博内容、微博转发量、微博评论量、微博点赞以及发布时间。获取数据的时间为2019年7月22日12点。
5.来自Taylor Swift所有转接的歌曲歌词
网址:https://www.kesci.com/home/dataset/5d301fa7cf76a60036e0d60a
▌可进行文本挖掘本数据集包含Taylor Swift六张录音室专辑的全部歌词信息,包括专辑名称、曲目标题、追踪号码、歌词文本、专辑发行年份。可以进行文本挖掘。
06语音数据集
1.LibriSpeech
网址:http://www.openslr.org/12/
▌文本与语音兼具 包含文本和语音的有声读物数据集,由多个朗读者阅读的近500小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。
2.CHIME
网址: http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
▌数据为录音,可进行语音分离与识别 数据集包含真实、仿真和干净的录音。真实录音由4个扬声器在4个嘈杂位置的近9000个录音组成,仿真录音由多个语音环境和清洗的无噪声录音结合而成。
07其他数据集
1.纽约出租车数据集
网址:http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml
▌数据量大、可进行可视化分析由FOIA请求而获得的纽约出租车数据。数据集包括接送和下车日期/时间、接送和下车地点、行程距离、票价等。
2.Nottingham音乐数据集
网址:http://abc.sourceforge.net/NMD/
▌特殊文本格式该数据集中包含超过1000种以特殊文本格式储存的民间音乐。
3.国内某共享单车数据集
网址:https://www.kesci.com/home/dataset/5d3163d3cf76a60036e57c88
▌数据量大,可进行大数据分析与挖掘该数据集包含某年某段时间某地区的300w条出行记录,适合大数据分析和挖掘。其中包括了两个文件,分别是训练集和测试集。
4.上海车牌拍卖价格
网址:https://www.kesci.com/home/dataset/5d39268ccf76a60036079ba8
▌可用于预测时间序列问题上海每个月都会使用拍卖系统向汽车购买者出售数量有限的车牌。该数据集包括日期、颁发的车牌总数、最低价格、平均价格等,可以用来预测时间序列问题。
整理的以上数据集资料都是开源的,大家可以通过网址进行下载。 想要成为数据分析大神的你,赶快收藏这份数据集清单,施展你的数据分析技能!
扫码添加翰林小助手
翰林课程体验,退费流程快速投诉邮箱: yuxi@linstitute.net 沪ICP备2023009024号-1