之前介紹過「用 Google Colab 免費 GPU 訓練 AI 模型教學」發現佛心 Colab 提供免費 GPU 真是個好東西,另外 Machine Learning 社群平台 Kaggle (號稱數據科學的殿堂) 有很多我們常常需要測試的 Dataset,其實 Colab 底層也是 Linux,可以透過 Command 直接透過 Kaggle API 下載資料集。由於 Kaggle 上面有很多 Competitions 與 Play Dataset,如果能夠直接在 Colab 操作就會非常方便,今天來教學一下。
取得 Kaggle Account API Token
開始使用 Kaggle API 以前當然要先註冊 Kaggle 帳號,登入 Kaggle 以後點選右上角的頭像,進入「My Account」,如下:
接著往下捲到 API 選擇「Create New API Token」瀏覽器就會下載一個 kaggle.json 檔案。裡頭就是 API Token 囉,如下:
有了 kaggle.json 就可以使用 API 了。
在 Colab 中透過 Kaggle API 下載 Dataset
先找到你想要 Dataset 名稱,然後執行以下 python 就可以下載囉,程式中的 api_token 記得替換為剛剛下載的 kaggle.json 內容,如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
api_token = {"username":"your_username","key":"your_token"}
import json
import zipfile
import os
if not os.path.exists("/root/.kaggle"):
os.makedirs("/root/.kaggle")
with open('/root/.kaggle/kaggle.json', 'w') as file:
json.dump(api_token, file)
!chmod 600 /root/.kaggle/kaggle.json
if not os.path.exists("/kaggle"):
os.makedirs("/kaggle")
os.chdir('/kaggle')
!kaggle datasets download -d chetankv/dogs-cats-images --force
!ls /kaggle
|
這裡我們用經典的貓狗分類資料集來示範,資料集的名稱是:chetankv/dogs-cats-images,執行結果如下:
上述程式也在 GitHub 同步上映,需要的請自行下載分享加關注,掰~