自从Kaggle被谷歌收购后,Kaggle上的数据下载和kernel使用到了很多的谷歌应用。与参赛选手强相关的是比赛数据集下载和文件的上传。
如何顺利的上传和下载数据呢,本文将给出三种解决方案。
修改DNS
由于国内运营商网络管控的原因,导致国内访问国外的速度都非常慢,所以在下载Kaggle数据集时可以尝试修改系统DNS。
这里比较推荐以下几个DNS:
- 谷歌:8.8.8.8,8.8.4.4
- 韩国:168.126.63.1,168.126.63.2
修改了DNS有可能可以顺利下载数据集了,同时也会加速对Github的访问,但是对国内网页速度会有所下降。
kaggleapi
https://github.com/Kaggle/kaggle-api KaggleAPI是Kaggle官方提供的API工具,可以用来下载数据、上传数据、提交文件和查看榜单等众多功能,基本上可以代替所有的操作。 KaggleAPI使用非常方便,只需要在本地配置好账户信息:
# 配置文件目录chmod 600 ~/.kaggle/kaggle.json# 账号配置信息,可以在Kaggle个人界面下载export KAGGLE_USERNAME=datadinosaurexport KAGGLE_KEY=xxxxxxxxxxxxxx
然后就直接可以在命令行界面进行操作了,比如下载一个比赛的数据集:
# 下载比赛数据集kaggle competitions download favorita-grocery-sales-forecasting# 提交结果文件kaggle competitions submit favorita-grocery-sales-forecasting -f sample_submission_favorita.csv.7z -m "My submission message"
所以KaggleAPI非常适合在服务器下载数据,速度一般比直接浏览器下载快。但是KaggleAPI还是会收到网络限制,
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5CN5cDNhdTO4QGN3IjYyIjNjhjYkBDM5QmYykzNiJjZl9CX0JXZ252bj91Ztl2Lc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
人工代理下载
由于网络限制,使用代理下载数据是备选项,也是比较靠谱的。
同时推荐加入我们的社群,有数据会一起共享哦~
Datawhale竞赛群已成立
可扫码加入Datawhale竞赛学习社群
在社群中,交流、讨论和组队算法赛事。
如果加入了之前的社群,请不需要重复添加!
▲长按加群
若进群失败,可加负责人微信后,再回复关键词 - 竞赛 即可进群。