apostila-banco-do-brasil-parte-16-escriturario-informatica-marcio-hunecke

•

IFSUL

3

0

3

0

Daiane Pradella

05/04/2020

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Informática para Concursos

4.182 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Escriturário
Informática – Parte 16
Prof. Márcio Hunecke
www.acasadoconcurseiro.com.br 3
Informática
PIG 0.16
Apache Pig é uma plataforma de alto nível para a criação de programas
que funcionam em Apache Hadoop. A linguagem de fluxo de dados
para esta plataforma é chamada de Pig Latin. O Pig pode executar os
jobs MapReduce no Hadoop. O Pig Latin abstrai a programação Java
do MapReduce em uma notação de nível elevado, similar à usada em
linguagens SQL para sistemas de banco de dados relacional. Pig Latin
pode ser estendido usando funções definidas pelo usuário (UDFs –
User Defined Functions) que o usuário pode escrever em Java, Python,
JavaScript, e, em seguida, chamar diretamente na linguagem Pig.
Apache Pig foi originalmente desenvolvido no Yahoo em 2006 para que os pesquisadores
tivessem uma maneira própria de criar e executar jobs MapReduce em conjuntos de dados
muito grandes. Em 2007, foi transferido para a Apache Software Foundation, incorporado no
Ecossistema Hadoop e se transformado em OpenSource (Software Livre).
A plataforma Pig possui dois componentes principais: Scripts escritos em Pig Latin e Shell Grunt
para digitação dos comandos Pig.

www.acasadoconcurseiro.com.br4
Características da plataforma Pig
• Grande conjunto de operadores para realizar ordenamento, filtros e uniões de dados iguais
ao SQL (comandos sort, join, filter...).
• Programação fácil – Pig Latin é similar ao SQL e pode usar scripts com arquivos de extensão
pig.
• Otimização – As tarefas do Pig são convertidas automaticamente em Jobs MapReduce
otimizados.
• Extensibilidade – Usuários podem desenvolver suas próprias funções para ler, processar e
escrever dados.
• UDF – Pig permite criação de User-defined-Functions em outros linguagens como Java,
Python, JavaScript, entre outras.
• Gerencia todos os tipos de dados – Analisa dados estruturados ou não e armazena no HDFS.
Etapas de execução de um Job MapReduce
1. LOAD – Usado para carregar os dados de um HDFS.
2. GROUP / FILTER / SORT – Permite executar agrupamento, transformação ou filtro com os
dados (Processo MapReduce).
3. DUMP – Mostrar os resultados em tela ou em um arquivo no HDFS.
Exemplos de comando Pig
Banco do Brasil - TI (Escriturário) – Informática – Márcio Henecke
www.acasadoconcurseiro.com.br 5
Tabela Original
Nos três primeiros comandos (Load, Filter e Dump) os dados da tabela original são carregados
com o comando LOAD, filtrados pelo nome de projeto “PRJ001” e apresentados em tela com o
comando DUMP, conforme abaixo:
Nos outros dois comandos os dados da tabela original que já estavam carregados são agrupados
com base no campo “PRJNUM”.