Baixe o app para aproveitar ainda mais
Prévia do material em texto
Escriturário Informática – Parte 16 Prof. Márcio Hunecke www.acasadoconcurseiro.com.br 3 Informática PIG 0.16 Apache Pig é uma plataforma de alto nível para a criação de programas que funcionam em Apache Hadoop. A linguagem de fluxo de dados para esta plataforma é chamada de Pig Latin. O Pig pode executar os jobs MapReduce no Hadoop. O Pig Latin abstrai a programação Java do MapReduce em uma notação de nível elevado, similar à usada em linguagens SQL para sistemas de banco de dados relacional. Pig Latin pode ser estendido usando funções definidas pelo usuário (UDFs – User Defined Functions) que o usuário pode escrever em Java, Python, JavaScript, e, em seguida, chamar diretamente na linguagem Pig. Apache Pig foi originalmente desenvolvido no Yahoo em 2006 para que os pesquisadores tivessem uma maneira própria de criar e executar jobs MapReduce em conjuntos de dados muito grandes. Em 2007, foi transferido para a Apache Software Foundation, incorporado no Ecossistema Hadoop e se transformado em OpenSource (Software Livre). A plataforma Pig possui dois componentes principais: Scripts escritos em Pig Latin e Shell Grunt para digitação dos comandos Pig. www.acasadoconcurseiro.com.br4 Características da plataforma Pig • Grande conjunto de operadores para realizar ordenamento, filtros e uniões de dados iguais ao SQL (comandos sort, join, filter...). • Programação fácil – Pig Latin é similar ao SQL e pode usar scripts com arquivos de extensão pig. • Otimização – As tarefas do Pig são convertidas automaticamente em Jobs MapReduce otimizados. • Extensibilidade – Usuários podem desenvolver suas próprias funções para ler, processar e escrever dados. • UDF – Pig permite criação de User-defined-Functions em outros linguagens como Java, Python, JavaScript, entre outras. • Gerencia todos os tipos de dados – Analisa dados estruturados ou não e armazena no HDFS. Etapas de execução de um Job MapReduce 1. LOAD – Usado para carregar os dados de um HDFS. 2. GROUP / FILTER / SORT – Permite executar agrupamento, transformação ou filtro com os dados (Processo MapReduce). 3. DUMP – Mostrar os resultados em tela ou em um arquivo no HDFS. Exemplos de comando Pig Banco do Brasil - TI (Escriturário) – Informática – Márcio Henecke www.acasadoconcurseiro.com.br 5 Tabela Original Nos três primeiros comandos (Load, Filter e Dump) os dados da tabela original são carregados com o comando LOAD, filtrados pelo nome de projeto “PRJ001” e apresentados em tela com o comando DUMP, conforme abaixo: Nos outros dois comandos os dados da tabela original que já estavam carregados são agrupados com base no campo “PRJNUM”.
Compartilhar