04 - Dataproc GCP

ESTÁCIO

PEDRO MUNDEL BIFFI

em 02/11/2025

Material

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Prévia do material em texto

Dataproc no
Google Cloud
Platform
Quick Start
Explorando
Dataproc no
GCP
O que é Dataproc?
É um serviço de análise de dados.
Por que usar Dataproc?
Facilita o gerenciamento de clusters Hadoop.
Principais características do Dataproc
Integração com ferramentas do Google Cloud.
Casos de uso práticos
Ideal para grandes volumes de dados.
Explorando
Dataproc no
GCP
O que é Dataproc?
É um serviço de análise rápida.
Recursos do Dataproc
Oferece escalabilidade e flexibilidade
na análise.
Casos de uso
Ideal para big data e machine learning.
Passo 1 - Criação de um projeto
Clique no seletor de
projetos
Passo 1 - Criação de um projeto
Crie um novo projeto
Passo 1 - Criação
de um projeto
Nome do projeto
Adicione o nome único do seu projeto no GCP.
Conta de faturamento
Escolha “Conta de faturamento para educação” para
usar os créditos da sua conta no GCP.
Organização e Local
Escolha ufg.br
Passo 2 - Ative as APIs do projeto
1. Clique no seletor de busca
Pesquise por Dataproc API
2. Escolha Cloud Dataproc API
Essa é a API que vai permitir você interagir com o
Dataproc.
Passo 2 - Ative as APIs do projeto
Ative a API do Dataproc
Observação: se esse botão tiver o texto
“Gerenciar” é porque a sua API já está
ativada e você não precisa fazer nada!
1. Busque Cloud Resource
Manager API
Clique no seletor de pesquisa para buscar
pelo termo “Cloud Resource Manager API”
2. Clique em Cloud Resource
Manager API
Clique em Cloud Resource Manager API
para abrir a tela para ativar a API.
Passo 2 - Ative as APIs do projeto
Ative a API do 
Cloud Resource Manager
Observação: se esse botão tiver o texto
“Gerenciar” é porque a sua API já está
ativada e você não precisa fazer nada!
Passo 2 - Ative as APIs do projeto
1. Clique no canto superior
esquerdo
Clique no canto superior esquerdo para
abrir o menu lateral
Passo 3 - Configure as permissões
2. Clique em IAM e
administrador
Clique em “IAM e administrador” para
abrir a tela que iremos configurar as
permissões
Clique no ícone do lapis da
conta de Compute Engine 
Clique no ícone da conta com nome
“Compute Engine default service
account”. Essa é a conta vinculada às
máquinas do Dataproc.
Passo 3 - Configure as permissões
Clique em Adicionar outro
papel
Clique em “ADICIONAR OUTRO PAPEL”
para atribuir o papel necessário para
iniciar o Dataproc.
Passo 3 - Configure as permissões
Faça uma busca por
Administrador do Storage
Busque no campo Filtrar por
“Administrador do Storage”. Selecione o
papel Administrador do Storage
(concede controle total sobre buckets e
objetos).
Passo 3 - Configure as permissões
Clique em Salvar
Clique em Salvar para persistir as
mudanças nas permissões. Verifica que
se os papéis do usuário são os
apresentados na imagem ao lado.
Passo 3 - Configure as permissões
1. Busque Dataproc
Clique no seletor de pesquisa para buscar
pelo termo “Dataproc”
Passo 4 - Crie o cluster do Dataproc
2. Clique em Dataproc
Clique em Dataproc para abrir a tela do
Dataproc.
Crie o cluster
Clique em “CREATE CLUSTER” para
iniciar o processo de criação do cluster.
Passo 4 - Crie o cluster do Dataproc
Crie o cluster
Clique em “CRIAR” na opção “Cluster no
Compute Engine”
Passo 4 - Crie o cluster do Dataproc
Configure o nome do cluster
Coloque um nome para o cluster
Passo 4 - Crie o cluster do Dataproc
Configure o Tipo de cluster
Selecione Nó único (1 mestre, 0 worker)
Passo 4 - Crie o cluster do Dataproc
Configure a Sub-rede
Escolha a opção default
Passo 4 - Crie o cluster do Dataproc
Marque a opção Jupyter
Notebook
O Jupyter Notebook deve ser
selecionado 
Passo 4 - Crie o cluster do Dataproc
Clique em Configurar
nós
1.
2. Selecione a máquina e2-
standard-8
Essa máquina possui mais memória
para os jobs Spark
3. Selecione o tipo de disco
Mude o “Primary disk type” para
Standard Persistent Disk para
economizar com custo de
armazenamento. Mude o “Tamanho
do disco principal” para 100.
Passo 4 - Crie o cluster do Dataproc
2. Desmarque essa opção
Desmarque a opção “Configure
todas as instâncias para que tenham
apenas endereços IP internos”
Passo 4 - Crie o cluster do Dataproc
1. Vá em Personalizar cluster
Escolha a opção Personalizar cluster
(opcional) no menu do lado esquerdo
1. Configure Propriedades
do cluster
Configure as seguintes
propriedades conforme figura:
spark.driver.memory
spark.driver.cores
spark.executor.cores
spark.executor.memory
Passo 4 - Crie o cluster do Dataproc
1. Configure Propriedades
do cluster
Configure Exclusão programada
para excluir o cluster se ficar
ocioso.
Passo 4 - Crie o cluster do Dataproc
1. Vá em Gerenciar Segurança
Escolha a opção Gerenciar Segurança
(opcional) no menu do lado esquerdo
2. Selecione essa
opção
Selecione a opção “Ativa o
escopo da plataforma de
nuvem para este cluster”. Esta
opção irá facilitar a
configuração de segurança do
Dataproc no ambiente de
desenvolvimento.
Passo 4 - Crie o cluster do Dataproc
Clique em Criar
Esta opção irá criar o cluster do Dataproc.
Passo 4 - Crie o cluster do Dataproc
Clique no cluster
criado
Clique no link do cluster criado
para acessar o cluster do
Dataproc.
Passo 5 - Acessar o Jupyterlab
Clique em Interfaces da Web
Clique em Interfaces da Web para abrir os
links possíveis do Dataproc.
Passo 5 - Acessar o Jupyterlab
Clique em Jupyterlab
Clique no link do Jupyterlab para abrir o
ambiente de desenvolvimento com Spark e
Hadoop já instalado.
Passo 5 - Acessar o Jupyterlab
Obrigado!

04 - Dataproc GCP

ESTÁCIO

Ferramentas de estudo

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Mais conteúdos dessa disciplina

04 - Dataproc GCP

ESTÁCIO

Ferramentas de estudo

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Experimente o Premium!

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdossem pagar

Mais conteúdos dessa disciplina

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar

Libere conteúdos
sem pagar