Como criar uma API com kaggle
- Amanda Nascimento
- há 10 horas
- 2 min de leitura
Tenho usado o site kaggle para pegar datasets para estudar data science com Python utilizando o google colab, e toda vez, tenho que ficar baixando o arquivo csv ou ficar ajustando o apontamento no import.
Logada no kaggle, nas configurações de perfil, settings,


Documentação oficial, clique aqui!
Quando clicamos em "criar novo token" ele sobrepõe o anterior e automaticamente é baixado um arquivo .json com as credenciais.

O dataset que escolhi no kaggle foi este: conjunto de dados
# 1) Instalar a CLI do Kaggle
!pip -q install kaggle
# 2) Configurar credenciais usando a chave fornecida
import os, json, glob, subprocess
import pandas as pd
from IPython.display import display
# >>>>> Preenchidos com os dados que você forneceu <<<<<
usuario_kaggle = "nome_Usuario"
chave_kaggle = "sua_chave_aqui"
# Exporta como variáveis de ambiente (a CLI do Kaggle aceita assim)
os.environ["KAGGLE_USERNAME"] = usuario_kaggle
os.environ["KAGGLE_KEY"] = chave_kaggle
# (Opcional, mas recomendado) também cria o arquivo kaggle.json
os.makedirs("/root/.kaggle", exist_ok=True)
with open("/root/.kaggle/kaggle.json", "w") as f:
json.dump({"username": usuario_kaggle, "key": chave_kaggle}, f)
os.chmod("/root/.kaggle/kaggle.json", 0o600)
# 3) Baixar o dataset para a área temporária do Colab e extrair
# (não baixa nada para o seu computador, só para o runtime do Colab)
dataset = "pratyushpuri/payment-card-fraud-detection-with-ml-models-2025"
pasta_dados = "/content/dados_kaggle"
os.makedirs(pasta_dados, exist_ok=True)
# Lista arquivos do dataset (útil para conferência)
subprocess.run(["kaggle", "datasets", "files", "-d", dataset], check=True)
# Faz o download e descompacta
subprocess.run(["kaggle", "datasets", "download", "-d", dataset, "-p", pasta_dados, "--unzip"], check=True)
# 4) Localizar o principal CSV e carregar no pandas
arquivos_csv = sorted(
glob.glob(pasta_dados + "/**/*.csv", recursive=True),
key=os.path.getsize, reverse=True
)
if not arquivos_csv:
raise FileNotFoundError("Nenhum CSV encontrado no pacote do Kaggle.")
caminho_csv = arquivos_csv[0] # escolhe o maior CSV (geralmente o principal)
print("Arquivo carregado:", caminho_csv)
df = pd.read_csv(caminho_csv)
print("Formato (linhas, colunas):", df.shape)
display(df.head(10))
Resultado:
