Prévia do material em texto
Dataproc no Google Cloud Platform Quick Start Explorando Dataproc no GCP O que é Dataproc? É um serviço de análise de dados. Por que usar Dataproc? Facilita o gerenciamento de clusters Hadoop. Principais características do Dataproc Integração com ferramentas do Google Cloud. Casos de uso práticos Ideal para grandes volumes de dados. Explorando Dataproc no GCP O que é Dataproc? É um serviço de análise rápida. Recursos do Dataproc Oferece escalabilidade e flexibilidade na análise. Casos de uso Ideal para big data e machine learning. Passo 1 - Criação de um projeto Clique no seletor de projetos Passo 1 - Criação de um projeto Crie um novo projeto Passo 1 - Criação de um projeto Nome do projeto Adicione o nome único do seu projeto no GCP. Conta de faturamento Escolha “Conta de faturamento para educação” para usar os créditos da sua conta no GCP. Organização e Local Escolha ufg.br Passo 2 - Ative as APIs do projeto 1. Clique no seletor de busca Pesquise por Dataproc API 2. Escolha Cloud Dataproc API Essa é a API que vai permitir você interagir com o Dataproc. Passo 2 - Ative as APIs do projeto Ative a API do Dataproc Observação: se esse botão tiver o texto “Gerenciar” é porque a sua API já está ativada e você não precisa fazer nada! 1. Busque Cloud Resource Manager API Clique no seletor de pesquisa para buscar pelo termo “Cloud Resource Manager API” 2. Clique em Cloud Resource Manager API Clique em Cloud Resource Manager API para abrir a tela para ativar a API. Passo 2 - Ative as APIs do projeto Ative a API do Cloud Resource Manager Observação: se esse botão tiver o texto “Gerenciar” é porque a sua API já está ativada e você não precisa fazer nada! Passo 2 - Ative as APIs do projeto 1. Clique no canto superior esquerdo Clique no canto superior esquerdo para abrir o menu lateral Passo 3 - Configure as permissões 2. Clique em IAM e administrador Clique em “IAM e administrador” para abrir a tela que iremos configurar as permissões Clique no ícone do lapis da conta de Compute Engine Clique no ícone da conta com nome “Compute Engine default service account”. Essa é a conta vinculada às máquinas do Dataproc. Passo 3 - Configure as permissões Clique em Adicionar outro papel Clique em “ADICIONAR OUTRO PAPEL” para atribuir o papel necessário para iniciar o Dataproc. Passo 3 - Configure as permissões Faça uma busca por Administrador do Storage Busque no campo Filtrar por “Administrador do Storage”. Selecione o papel Administrador do Storage (concede controle total sobre buckets e objetos). Passo 3 - Configure as permissões Clique em Salvar Clique em Salvar para persistir as mudanças nas permissões. Verifica que se os papéis do usuário são os apresentados na imagem ao lado. Passo 3 - Configure as permissões 1. Busque Dataproc Clique no seletor de pesquisa para buscar pelo termo “Dataproc” Passo 4 - Crie o cluster do Dataproc 2. Clique em Dataproc Clique em Dataproc para abrir a tela do Dataproc. Crie o cluster Clique em “CREATE CLUSTER” para iniciar o processo de criação do cluster. Passo 4 - Crie o cluster do Dataproc Crie o cluster Clique em “CRIAR” na opção “Cluster no Compute Engine” Passo 4 - Crie o cluster do Dataproc Configure o nome do cluster Coloque um nome para o cluster Passo 4 - Crie o cluster do Dataproc Configure o Tipo de cluster Selecione Nó único (1 mestre, 0 worker) Passo 4 - Crie o cluster do Dataproc Configure a Sub-rede Escolha a opção default Passo 4 - Crie o cluster do Dataproc Marque a opção Jupyter Notebook O Jupyter Notebook deve ser selecionado Passo 4 - Crie o cluster do Dataproc Clique em Configurar nós 1. 2. Selecione a máquina e2- standard-8 Essa máquina possui mais memória para os jobs Spark 3. Selecione o tipo de disco Mude o “Primary disk type” para Standard Persistent Disk para economizar com custo de armazenamento. Mude o “Tamanho do disco principal” para 100. Passo 4 - Crie o cluster do Dataproc 2. Desmarque essa opção Desmarque a opção “Configure todas as instâncias para que tenham apenas endereços IP internos” Passo 4 - Crie o cluster do Dataproc 1. Vá em Personalizar cluster Escolha a opção Personalizar cluster (opcional) no menu do lado esquerdo 1. Configure Propriedades do cluster Configure as seguintes propriedades conforme figura: spark.driver.memory spark.driver.cores spark.executor.cores spark.executor.memory Passo 4 - Crie o cluster do Dataproc 1. Configure Propriedades do cluster Configure Exclusão programada para excluir o cluster se ficar ocioso. Passo 4 - Crie o cluster do Dataproc 1. Vá em Gerenciar Segurança Escolha a opção Gerenciar Segurança (opcional) no menu do lado esquerdo 2. Selecione essa opção Selecione a opção “Ativa o escopo da plataforma de nuvem para este cluster”. Esta opção irá facilitar a configuração de segurança do Dataproc no ambiente de desenvolvimento. Passo 4 - Crie o cluster do Dataproc Clique em Criar Esta opção irá criar o cluster do Dataproc. Passo 4 - Crie o cluster do Dataproc Clique no cluster criado Clique no link do cluster criado para acessar o cluster do Dataproc. Passo 5 - Acessar o Jupyterlab Clique em Interfaces da Web Clique em Interfaces da Web para abrir os links possíveis do Dataproc. Passo 5 - Acessar o Jupyterlab Clique em Jupyterlab Clique no link do Jupyterlab para abrir o ambiente de desenvolvimento com Spark e Hadoop já instalado. Passo 5 - Acessar o Jupyterlab Obrigado!