在从事模型验证和数据分析的研究中,我们经常需要mock一些数据,但是这些mock数据离真实业务数据还是有一些区别的,所以我们可以用一些公开的真实数据集网站数据。
利用公开数据集,在业余时间实操方法论及模型,是比较好的方式。而公开数据哪里找呢?这些网址也许你用的到!
一、公开数据集
1.GitHub—Awesome Public Datasets
https://github.com/caesar0301/awesome-public-datasets
Github整理的非常全面的数据获取渠道,包含各个细分领域的数据库资源。领域科研研究,从这里开始。涉及的领域包括:农业、生物学、气候、计算机网络、数据科学、地球科学、经济学、教育、能源、金融学、GIS、图像处理、机器学习、自然语言、神经科学、物理学、心理学、社会科学。
- 亚马逊AWS开放数据集
https://aws.amazon.com/cn/datasets/?nc1=h_ls
数据为亚马逊的跨科学云数据平台,包含化学、生物学、经济学、天文学等多个领域的数据集。同样是公开数据集,涉及领域虽然较少但是非常权威。
- UCI
http://archive.ics.uci.edu/ml/datasets.html
加州伯克利大学欧文分校开放的经典数据集,可以说非常经典了,被很多机器学习实验室采用。机器学习必选数据。
- CEIC
https://insights.ceicdata.com/login
CEIC是全球的经济数据库,数据覆盖超200多个国家,涉及20多个行业的宏观经济指标,可以找到货币、外贸、劳动力市场等方面数据。
- 世界银行
https://data.worldbank.org.cn/?display=graph
世界银行是联合国专门的机构,这上面可以查找到世界发展指标、统计能力指标、教育统计指标等世界各国发展相关数据。
二、国内公开数据
- 国家统计局
http://www.stats.gov.cn/tjsj/
主要涵盖国家宏观经济、社会、民生等重要数据。
- 中国互联网信息中心 CNNIC
http://www.cnnic.net.cn/
主要涵盖中国互联网发展相关数据,相比第三方平台,权威性更强。
- 乘联会
http://www.cpcaauto.com/
乘联会全称为乘用车市场信息联席会,是国内汽车行业信息交流和市场研究平台。可以在上面找到一些不同品牌、不同型号汽车的产销量数据。
- 中国金融信息网
https://m.cnfin.com/
中国金融信息网是中国财经金融信息领域的权威发布和服务平台,涉及到的数据是股票 、基金、外汇等。
第三方机构统计数据
- 百度指数和艾瑞数据
https://index.baidu.com/v2/index.html#/
https://data.iresearch.com.cn/home.shtml
基于百度的用户行为数据,覆盖面较广,支持以API形式调取,可用于分析行业热度等。
艾瑞数据网站除了定期发布互联网报告外,还涵盖了互联网细分行业数据,可作为百度指数的补充。
- 搜数网
http://www.soshoo.com/index.do
行业分布比较广,可作为国家统计局数据的补充。
- 韬问
https://www.datafocus.ai/platform/taowen.html
韬问既是一款高效的可视化工具,又是一个多元的数字观点传播和分享平台。在这上面的开源数据中可以找到来自各个数据渠道的免费数据,涉及教育、社会、科技、经济等多个领域。
- 数据堂
https://www.magicdatatech.cn/datasets?keyword=376364298142&sdclkid=AL2G15oz15fsbrD6AOj&bd_vid=11324802143817599889
主要涵盖人工智能的训练数据,对于正在学习算法的同学,可以重点关注一下。
数据科学竞赛数据
- Kaggle
https://www.kaggle.com/
Kaggle是2010年创立的数据挖掘线上竞赛平台。作为数据挖掘爱好者的聚集地,不光可以通过竞赛提升算法及代码能力,运气好的话还可以获得奖金。除此之外,网站上还有很多开源数据,可用于日常模型训练,例如:大家耳熟能详的“泰坦尼克号生存预测数据”等。
- 阿里天池
https://tianchi.aliyun.com/home/
同Kaggle类似,背靠阿里的大数据竞赛平台,也是国内算法大佬的聚集地,开源数据可直接下载应用。
- DataCastle
https://www.datacastle.cn/index.html
中国头部的数据科学竞赛平台,同Kaggle、天池类似,有众多开源数据可以下载应用,作为数据挖掘练习的样本。
三、数据采集
爬虫:是一种按照一定的规则,自动地抓取万维网,信息的程序或者脚本。使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。很多公司需要数据的时候常常也会将要爬取的网站外包出去。但其实还有一种方式,就是采集器采集。
- 八爪鱼采集器
(http://www.bazhuayu.com/)
这是一款免费的数据采集工具,而且没有功能限制,几乎所有网站都能采集,最大的特点是上手快,免费采集几万条数据没压力,当然也有付费增值服务可选。
- QuickRecon
QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、Perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统
授权协议: GPLv3
开发语言: Python
操作系统: Windows Linux
擅长:查找子域名名称、收集电子邮件地址并寻找人际关系等功能
- Scrapy
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~
授权协议: BSD
开发语言: Python
操作系统: 跨平台
github源代码
擅长:Twisted的异步处理框架,文档齐全
四、地图数据源
地图的美观程度直接影响业务数据的展现。当然最重要的还是里面的开源数据。常见的开源的数据源有:
1.OSGeo
(http://www.osgeo.cn/)
OSGeo中国中心的使命是支持开源地理信息软件和遥感软件的开发以及推动其更广泛的应用,尤其是帮助中国地区的用户和开发者。涉及生态领域、地理、气候资源较多。
2.ArcGIS
(https://hub.arcgis.com/pages/open-data)
- OpenStreetMap
http://www.openstreetmap.org
是一款知名的开源地图数据库,可提供相关地图信息资源的下载服务。用户可通过多种方式下载 “.osm”,".osm.pbf"等格式的地图文件,通过解析手段可以获取想要的路网数据,比如道路拓扑和道路级车道信息。
- 开源矢量数据下载网站
https://www.gadm.org/data.html
世界各国国家行政边界矢量图,目前地图还在完善中,大家可以自行使用验证,并提出反馈意见