Preparando um ambiente para trabalhar com o PySpark -

Já vimos aqui no blog a importância do Spark e do PySpark no mundo de Big Data e Engenharia de Dados (post). Hoje, vamos aprender como configurar um ambiente para trabalhar com o pyspark e utilizá-lo em sua máquina local e, posteriormente, exportá-lo para uma arquitetura mais robusta e profissional.

Para facilitar a explicação e tornar o aprendizado mais acessível, utilizaremos o ambiente Anaconda.

Instalando o Anaconda

Baixar o instalador

Abra o navegador de sua preferência e acesse o site oficial do Anaconda: https://www.anaconda.com.
Clique em Download ou navegue até a seção de downloads.
Escolha o instalador adequado para o sistema operacional do seu computador:
- Windows
- macOS
- Linux
Selecione a versão correspondente à arquitetura do seu sistema (geralmente 64 bits) e faça o download do arquivo.

Executar o instalador

Localize o arquivo baixado na pasta de downloads.
Clique duas vezes no instalador para executá-lo.

Instalar o Anaconda

Para Windows:

Clique em Next na tela inicial do instalador.
Leia e aceite o contrato de licença e clique em Next.
Escolha um local para a instalação ou utilize o padrão sugerido.
Marque a opção para adicionar o Anaconda ao PATH (opcional, mas recomendado).
Clique em Install e aguarde a conclusão da instalação.
Finalize o processo clicando em Finish.

Para macOS/Linux:

Abra o terminal e navegue até a pasta onde o arquivo foi baixado.
Torne o arquivo executável, se necessário, com:

chmod +x nome_do_arquivo_instalador.sh

Execute o instalador:

./nome_do_arquivo_instalador.sh

Siga as instruções na tela para concluir a instalação.

Verificar a instalação

Abra o terminal (ou Prompt de Comando no Windows).
Digite:

conda –version

Se a instalação foi bem-sucedida, você verá a versão do Anaconda instalada.

Usando o Anaconda Navigator

Abrir o Anaconda Navigator:

No Windows, procure por “Anaconda Navigator” no menu Iniciar e abra-o.
No macOS/Linux, execute no terminal:

anaconda-navigator

Iniciar o Jupyter Notebook:

No Anaconda Navigator, localize o ícone do Jupyter Notebook.
Clique em “Launch”.

Usar o Navegador:

O Jupyter Notebook será aberto automaticamente no navegador padrão.
Selecione ou crie um diretório para armazenar seus notebooks e comece a trabalhar!

Instalando o PySpark

No Jupyter notebook, crie um novo notebook.
Na primeira celula do notebook digite:

Aguarde alguns instantes até que a instalação seja concluída.

Verificando a instalação

Após a instalação crie um nova celula e digite o seguinte código:

O código irá analisar se o PySpark foi instalado e a versão.

Após isso, o Spark está instalado em sua máquina e você pode utilizar as funções do python e pyspark para manipular dataframes.

Configurando Spark

Vamos configurar o Spark, através do pyspark, para utilizar a nossa máquina como nó master e alguns núcleos do processador nós executores.

Na célula seguinte digite:

Explicação da configuração:

master(“local[2]”) → Define a máquina local como o nó principal (master) e utiliza dois núcleos da CPU como executores.
config(“spark.executor.memory”, “4g”) → Cada nó executor terá 4 GB de memória.
config(“spark.driver.memory”, “2g”) → O driver (responsável por coordenar as tarefas) terá 2 GB de memória.

Agora, o Spark está instalado e configurado! Com essa sessão, você pode processar e analisar dados utilizando o PySpark, aproveitando os recursos da sua máquina conforme as configurações definidas.

Sobre
Últimos Posts

Josias Izidoro

Engenheiro de Dados especializado em Data & Analytics, com experiência nos setores de serviços financeiros e seguros. Domina ferramentas como Databricks, Spark e Azure, tendo realizado projetos de impacto, como melhorias no Open Insurance e automação de dados para a Fenaprevi.

Últimos posts por Josias Izidoro (exibir todos)

Preparando um ambiente para trabalhar com o PySpark - janeiro 29, 2025
O PySpark - janeiro 12, 2025
O que é Azure? - janeiro 12, 2025

Preparando um ambiente para trabalhar com o PySpark

Instalando o Anaconda

Baixar o instalador

Executar o instalador

Instalar o Anaconda

Para Windows:

Para macOS/Linux:

Verificar a instalação

Usando o Anaconda Navigator

Abrir o Anaconda Navigator:

No Windows, procure por “Anaconda Navigator” no menu Iniciar e abra-o.

No macOS/Linux, execute no terminal:

anaconda-navigator

Iniciar o Jupyter Notebook:

No Anaconda Navigator, localize o ícone do Jupyter Notebook.

Clique em “Launch”.

Usar o Navegador:

O Jupyter Notebook será aberto automaticamente no navegador padrão.

Selecione ou crie um diretório para armazenar seus notebooks e comece a trabalhar!

Instalando o PySpark

Verificando a instalação

Configurando Spark

Explicação da configuração:

Deixe um comentário Cancelar resposta

Instalando o Anaconda

Baixar o instalador

Executar o instalador

Instalar o Anaconda

Para Windows:

Para macOS/Linux:

Verificar a instalação

Usando o Anaconda Navigator

Abrir o Anaconda Navigator:

No Windows, procure por “Anaconda Navigator” no menu Iniciar e abra-o.

No macOS/Linux, execute no terminal:

anaconda-navigator

Iniciar o Jupyter Notebook:

No Anaconda Navigator, localize o ícone do Jupyter Notebook.

Clique em “Launch”.

Usar o Navegador:

O Jupyter Notebook será aberto automaticamente no navegador padrão.

Selecione ou crie um diretório para armazenar seus notebooks e comece a trabalhar!

Instalando o PySpark

Verificando a instalação

Configurando Spark

Explicação da configuração:

Related Posts

Deixe um comentário Cancelar resposta