top of page

Google Colab e Spark

  • Foto do escritor: Amanda Nascimento
    Amanda Nascimento
  • 6 de ago. de 2023
  • 1 min de leitura

Atualizado: 13 de mai.

Utilizando o google colab para instalar o Spark e ler um arquivo csv


Digite no google: google colab para criar um ambiente de desenvolvimento online (computação inteirativa) e que não irá utilizar recursos da sua máquina.


Clique em Arquivo, novo notebook

ree

Instalação do ambiente do Pyspark no nosos ambiente google colab.

ree

%%bash # Instalação Java apt-get update && apt-get install open jdk-8-jdk-headless -qq > /dev/null # Intalação do PySpark pip install -q PySpark


Após digitar pressiono o SHIFT + enter para executar o comando

Utilizamos o %%bash na primeira linha da célula, para informar que é um comando de terminal.



ree

# Definir uma variável de ambiente para o Spark conseguir identificar o local do JAVA adequadamente import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"

ree

ree

%%bash # Download dos dados utilizados. Vou criar um diretorio mkdir titanic curl https://raw.githubusercontent.com/neylsoncrepalde/titanic_data_with_semicolon/blob/main/titanic.csv -o titanic/titanic.csv






ree

# Importar os módulos necessários from pyspark.sql import SparkSession from pyspark.sql import functions as f

ree

Neste exemplo utilizamos o "inferSchema" por se tratar de poucos dados.

ree

ree

ree

titanic.show() para visualizar os dados.



ree


ree



ree

















ree


 
 

© 2017-2025  Criado e desenvolvido por Amanda Nascimento

  • Discord
  • GitHub
  • youtube
  • LinkedIn Amanda
bottom of page