Buscar

apostila-banco-do-brasil-parte-16-escriturario-informatica-marcio-hunecke

Prévia do material em texto

Escriturário
Informática – Parte 16
Prof. Márcio Hunecke
www.acasadoconcurseiro.com.br 3
Informática
PIG 0.16
Apache Pig é uma plataforma de alto nível para a criação de programas 
que funcionam em Apache Hadoop. A linguagem de fluxo de dados 
para esta plataforma é chamada de Pig Latin. O Pig pode executar os 
jobs MapReduce no Hadoop. O Pig Latin abstrai a programação Java 
do MapReduce em uma notação de nível elevado, similar à usada em 
linguagens SQL para sistemas de banco de dados relacional. Pig Latin 
pode ser estendido usando funções definidas pelo usuário (UDFs – 
User Defined Functions) que o usuário pode escrever em Java, Python, 
JavaScript, e, em seguida, chamar diretamente na linguagem Pig.
Apache Pig foi originalmente desenvolvido no Yahoo em 2006 para que os pesquisadores 
tivessem uma maneira própria de criar e executar jobs MapReduce em conjuntos de dados 
muito grandes. Em 2007, foi transferido para a Apache Software Foundation, incorporado no 
Ecossistema Hadoop e se transformado em OpenSource (Software Livre).
A plataforma Pig possui dois componentes principais: Scripts escritos em Pig Latin e Shell Grunt 
para digitação dos comandos Pig.
 
www.acasadoconcurseiro.com.br4
Características da plataforma Pig
 • Grande conjunto de operadores para realizar ordenamento, filtros e uniões de dados iguais 
ao SQL (comandos sort, join, filter...).
 • Programação fácil – Pig Latin é similar ao SQL e pode usar scripts com arquivos de extensão 
pig.
 • Otimização – As tarefas do Pig são convertidas automaticamente em Jobs MapReduce 
otimizados.
 • Extensibilidade – Usuários podem desenvolver suas próprias funções para ler, processar e 
escrever dados.
 • UDF – Pig permite criação de User-defined-Functions em outros linguagens como Java, 
Python, JavaScript, entre outras.
 • Gerencia todos os tipos de dados – Analisa dados estruturados ou não e armazena no HDFS.
Etapas de execução de um Job MapReduce
1. LOAD – Usado para carregar os dados de um HDFS.
2. GROUP / FILTER / SORT – Permite executar agrupamento, transformação ou filtro com os 
dados (Processo MapReduce).
3. DUMP – Mostrar os resultados em tela ou em um arquivo no HDFS.
Exemplos de comando Pig
Banco do Brasil - TI (Escriturário) – Informática – Márcio Henecke
www.acasadoconcurseiro.com.br 5
Tabela Original
Nos três primeiros comandos (Load, Filter e Dump) os dados da tabela original são carregados 
com o comando LOAD, filtrados pelo nome de projeto “PRJ001” e apresentados em tela com o 
comando DUMP, conforme abaixo:
Nos outros dois comandos os dados da tabela original que já estavam carregados são agrupados 
com base no campo “PRJNUM”.

Continue navegando