top of page

Como criar uma API com kaggle

  • Foto do escritor: Amanda Nascimento
    Amanda Nascimento
  • há 10 horas
  • 2 min de leitura

Tenho usado o site kaggle para pegar datasets para estudar data science com Python utilizando o google colab, e toda vez, tenho que ficar baixando o arquivo csv ou ficar ajustando o apontamento no import.


Logada no kaggle, nas configurações de perfil, settings,


ree


ree

Documentação oficial, clique aqui!


Quando clicamos em "criar novo token" ele sobrepõe o anterior e automaticamente é baixado um arquivo .json com as credenciais.


ree


O dataset que escolhi no kaggle foi este: conjunto de dados


# 1) Instalar a CLI do Kaggle
!pip -q install kaggle

# 2) Configurar credenciais usando a chave fornecida
import os, json, glob, subprocess
import pandas as pd
from IPython.display import display

# >>>>> Preenchidos com os dados que você forneceu <<<<<
usuario_kaggle = "nome_Usuario"
chave_kaggle   = "sua_chave_aqui"

# Exporta como variáveis de ambiente (a CLI do Kaggle aceita assim)
os.environ["KAGGLE_USERNAME"] = usuario_kaggle
os.environ["KAGGLE_KEY"]      = chave_kaggle

# (Opcional, mas recomendado) também cria o arquivo kaggle.json
os.makedirs("/root/.kaggle", exist_ok=True)
with open("/root/.kaggle/kaggle.json", "w") as f:
    json.dump({"username": usuario_kaggle, "key": chave_kaggle}, f)
os.chmod("/root/.kaggle/kaggle.json", 0o600)

# 3) Baixar o dataset para a área temporária do Colab e extrair
#    (não baixa nada para o seu computador, só para o runtime do Colab)
dataset      = "pratyushpuri/payment-card-fraud-detection-with-ml-models-2025"
pasta_dados  = "/content/dados_kaggle"
os.makedirs(pasta_dados, exist_ok=True)

# Lista arquivos do dataset (útil para conferência)
subprocess.run(["kaggle", "datasets", "files", "-d", dataset], check=True)

# Faz o download e descompacta
subprocess.run(["kaggle", "datasets", "download", "-d", dataset, "-p", pasta_dados, "--unzip"], check=True)

# 4) Localizar o principal CSV e carregar no pandas
arquivos_csv = sorted(
    glob.glob(pasta_dados + "/**/*.csv", recursive=True),
    key=os.path.getsize, reverse=True
)
if not arquivos_csv:
    raise FileNotFoundError("Nenhum CSV encontrado no pacote do Kaggle.")

caminho_csv = arquivos_csv[0]  # escolhe o maior CSV (geralmente o principal)
print("Arquivo carregado:", caminho_csv)

df = pd.read_csv(caminho_csv)
print("Formato (linhas, colunas):", df.shape)
display(df.head(10))

Resultado:


ree

© 2017-2025  Criado e desenvolvido por Amanda Nascimento

  • Discord
  • GitHub
  • youtube
  • LinkedIn Amanda
bottom of page