天天看点

70多个网站让你免费获取大数据存储库

70多个网站让你免费获取大数据存储库

你是否需要大量的数据来检验你的app性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。

wikipedia:database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。

common crawl :建立并维护一个开放的网络,向所有人开放。

edrm file formats data set:由381个文件夹200种文件格式组成。

apache mahout tlp项目创建一个可扩展的机器学习算法。mahout有许多免费的和付费的语料库语料。

edrm enron email data set v2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:xml和pst。

clueweb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干trec会议的追踪检测使用。

dmoz –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。dmoz是互联网搜索引擎的一个主要来源。

theinfo.org –这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。

project gutenberg 提供超过36000免费电子书的下载,可以下载到个人电脑、kindle, android, ios or 或其他便携式设备。

million song data set:与tracks 和艺术家有关的数据。

aws (amazon web services) public data sets:提供了可以无缝融入aws(亚马逊网络服务)云应用的公共数据集的集中存储库。

bigml big list of public data sources.

bioassay data:研究文章“生物测定数据的虚拟筛选”,由amanda schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。

bitly 1.usa.gov data:匿名点击政府链接。

canada open data:有许多政府和地理空间的数据集的试点项目。

canada open data:许多政府和地理空间数据集的试点项目。

causality workbench:数据存储库。

corral big data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。

data source handbook:公开数据指南。

datacatalogs.org:来自美国、欧盟、加拿大、ckan以及其他的公开政府数据。

data.gov.uk:英国的公共可用数据(london datastore也是)。

data.gov/education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

datamarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。

datamob:可以很好利用的公开数据。

datasf.org:可向city & county of san francisco, ca.购买的数据集信息交流中心。

dataferrett:一个用来访问和使用the data web的数据挖掘工具,许多网上美国政务数据集的集合。

econdata:大量经济学的时间序列,由许多美国政府机构编制。

enron email dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员。

europeana data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。

europeana data:

fedstats:一个美国统计资料的综合资源以及更多

fimi repository for frequent itemset mining:工具和数据集。

financial data finder at osu:大型财务数据集目录。

gdelt:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”。

geo (geo gene expression omnibus):一个支持miame兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。

geoda center:地理和空间数据。

google ngrams datasets:来自数google扫描的百万书籍文本。

grain market research:财务数据,包括股票、期货等。

hilary mason research-quality big data sets收集许多文本和图片数据集。

hitcompanies datasets:hitcompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

icwsm-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文。

infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。

investor links:包含财物数据。

kdd cup center:数据、工作表和结果。

kevin chai list of datasets:文本、sna和其他领域。

konect:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。

linking open data 工程,免费向所有人提供数据。

mit cancer genomics gene expression datasets and publications:来自麻省理工whitehead center用于基因组研究。

ml data:欧盟pascal2网络数据储存库。

nasdaq data store:提供市场数据。

national government statistical web sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。

national space science data center (nssdc):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

open data census:评估世界各地的开放数据的状态。

opendata from socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐。

open source sports:大量运动数据库,包括棒球、足球、篮球和曲棍球。

peter skomoroch dataset bookmarks pubgene(tm) gene database and tools:基因组有关的出版物数据库。

quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

qunb:一个用来发现和可视化的数据资料的平台。

robert schiller data:住房建筑、股票市场和更多的来自于他的书 irrational exuberance的数据。

smd: stanford microarray database,存储来自微阵列实验的原始的和标准的数据。

jerry smith dataset collection:财经、政府、机器学习、科学和其他数据。

sourceforge.net research data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

statlib,卡内基梅隆大学数据档案。

statoo datasets part 1和 statoo datasets part 2

time series data library

visual analytics benchmark repository.

uci kdd database repository :适用于机器学习和知识发现研究的大数据集。

uci machine learning repository.

ucr time series data archive:提供数据集、论文、链接和代码。

united states census bureau.

wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据。

wolfram alpha disease and patient level dat.

yahoo sandbox datasets:语言、图表、评级、广告与营销、竞赛。

yelp academic dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究

原文发布时间为:2014-06-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“bigdatadigest”微信公众号