通过kaggle api下载数据集
获取 Token
点击右上角头像,菜单中进入 Settings
点击 Create New Token
生成新的 Token,浏览器会自动下载鉴权文件:
注意这句话:Ensure kaggle.json is in the location ~/.kaggle/kaggle.json to use the API.
,意思是需要将下载的 kaggle.json
放到 Linux 服务器的 ~/.kaggle/
下。
1 | cd ~ |
下载数据集
首先下载 kaggle 指令:
1 | pip install kaggle |
在 kaggle 上找到要下载的数据集首页,然后点击右上角菜单,复制 API 指令:
复制的指令如下:
1 | kaggle datasets download -d yelp-dataset/yelp-dataset |
下载指定版本数据集
下拉 kaggle 数据集页面,在页面的右侧会看到 Data Explorer
。默认情况下下载的是最新版数据集。
以图中的 yelp
数据集为例,我并不需要最新的 yelp
数据集,而是 yelp2018
。因此点击图中的 Version 4
,在弹出窗口中选择想要的版本即可。
但比较蛋疼的是,经过本人的不屑研究,没有找到通过 kaggle api 下载历史版本数据集的方法(我指的是 kaggle CLI)。因此迫不得已,只能使用邪术了。
- 在服务器部署 aria2
F12
大法进入浏览器开发者页面,然后点击下载,从网络
选项卡找到下载链接并复制(如果有 idm 等插件直接嗅探就行了)- 用服务器通过 aria2 下载
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 日勿の部落格!