EXERCÍCIOS - CONSIDERAÇÕES SOBRE PERFORMACE

•

Faculdade Descomplica

1

0

1

0

Ana Beatryz Suzuki

21/03/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Fundamentos e Projeto de Big Data

832 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

FUNDAMENTOS DO BIG DATA 
Considerações SobrePerformance 
1) A sintaxe EXPLAIN permite o uso de algumas 
palavras chave, selecione a palavra que não 
pertence a sintaxe: 
RESPOSTA 
A. RCFILE 
 
2) Com relação ao suporte de arquivos do HIVE os 
formatos de arquivos são: 
RESPOSTA 
E. Todos os formatos apresentados são utilizados 
 
3) Observe as afirmações a seguir e selecione a 
resposta correta: 
I. RCFILE: é a abreviação de Record Columnar File. É um 
arquivo simples que consiste em pares de chave / valor 
binário que compartilham muitas semelhanças com um 
arquivo de sequência. O RCFile divide os dados 
horizontalmente em grupos de linhas. Um ou vários 
grupos são armazenado em um arquivo HDFS. Em 
seguida, o RCFile salva os dados do grupo de linhas em 
uma coluna salvando a primeira coluna em todas as 
linhas e, em seguida, a segunda coluna em todas as 
linhas e assim por diante. Esse formato é divisível e 
permite que o Hive pule irrelevantes partes dos dados e 
obtenha os resultados mais rápido e mais barato. 
II. ORC: é a abreviação de Coluna de linha otimizada. 
Está disponível desde o Hive v0.11.0. O formato ORC 
pode ser considerado uma versão aprimorada do 
RCFILE. Ele fornece um tamanho de bloco maior de 256 
MB por padrão (RCFILE tem 4 MB e SEQUENCEFILE tem 
1 MB), otimizado para grandes leituras sequenciais no 
HDFS para maior taxa de transferência e menos 
arquivos para reduzir a sobrecarga no nome do nó. 
Diferente do RCFILE, que conta com o metastore para 
conhecer os tipos de dados, o arquivo ORC entende os 
tipos de dados usando codificadores específicos para 
otimizar a compactação, dependendo dos tipos 
diferentes. Ele também armazena estatísticas básicas, 
como MIN, MAX, SUM e COUNT, em colunas, além de 
um índice leve que pode ser usado para pular blocos de 
linhas que não importam. 
III. PARQUET: Esse é outro formato de arquivo colunar 
de linhas com design semelhante ao o do ORC. Além 
disso, o Parquet tem um suporte mais amplo para a 
maioria projetos no ecossistema, em comparação com 
o ORC, que é apoiado principalmente por Colmeia, 
Porco e Faísca. O PARQUET aproveita as melhores 
práticas no design de Dremel do Google 
(consulte http://research.google.com/pubs/pub36632.
html) para suportar a estrutura aninhada de dados. 
PARQUET foi suportado por um plugin desde o Hive 
v0.10.0 e obteve suporte nativo após o v0.13.0 
RESPOSTA: 
E. Todas as afirmações estão corretas 
 
4) O Hive suporta estatísticas no nível: 
RESPOSTA: 
A. tabela, partição e coluna 
 
5) As técnicas de compressão no Hive podem reduzir 
significativamente a quantidade de transferência de 
dados entre mapeadores e redutores comprimindo 
adequadamente a saída intermediária e final dados. 
Como resultado, a consulta terá melhor 
desempenho. Para compactar arquivos 
intermediários produzido entre várias tarefas do 
MapReduce, precisamos definir a seguinte 
http://research.google.com/pubs/pub36632.html
http://research.google.com/pubs/pub36632.html
propriedade (false por padrão) na sessão da linha de 
comandos ou no arquivo hive-site.xml. 
A afirmação acima trata-se de otimização para: 
RESPOSTA: 
A. Compressão 
 
6) Sobre o arquivo do tipo RCFILE, podemos afirmar 
que: 
RESPOSTA: 
A. é a abreviação de Record Columnar File. É um 
arquivo simples que consiste em pares de chave / 
valor binário que compartilham muitas 
semelhanças com um arquivo de sequência.