Baixe o app para aproveitar ainda mais
Prévia do material em texto
FUNDAMENTOS DO BIG DATA Considerações SobrePerformance 1) A sintaxe EXPLAIN permite o uso de algumas palavras chave, selecione a palavra que não pertence a sintaxe: RESPOSTA A. RCFILE 2) Com relação ao suporte de arquivos do HIVE os formatos de arquivos são: RESPOSTA E. Todos os formatos apresentados são utilizados 3) Observe as afirmações a seguir e selecione a resposta correta: I. RCFILE: é a abreviação de Record Columnar File. É um arquivo simples que consiste em pares de chave / valor binário que compartilham muitas semelhanças com um arquivo de sequência. O RCFile divide os dados horizontalmente em grupos de linhas. Um ou vários grupos são armazenado em um arquivo HDFS. Em seguida, o RCFile salva os dados do grupo de linhas em uma coluna salvando a primeira coluna em todas as linhas e, em seguida, a segunda coluna em todas as linhas e assim por diante. Esse formato é divisível e permite que o Hive pule irrelevantes partes dos dados e obtenha os resultados mais rápido e mais barato. II. ORC: é a abreviação de Coluna de linha otimizada. Está disponível desde o Hive v0.11.0. O formato ORC pode ser considerado uma versão aprimorada do RCFILE. Ele fornece um tamanho de bloco maior de 256 MB por padrão (RCFILE tem 4 MB e SEQUENCEFILE tem 1 MB), otimizado para grandes leituras sequenciais no HDFS para maior taxa de transferência e menos arquivos para reduzir a sobrecarga no nome do nó. Diferente do RCFILE, que conta com o metastore para conhecer os tipos de dados, o arquivo ORC entende os tipos de dados usando codificadores específicos para otimizar a compactação, dependendo dos tipos diferentes. Ele também armazena estatísticas básicas, como MIN, MAX, SUM e COUNT, em colunas, além de um índice leve que pode ser usado para pular blocos de linhas que não importam. III. PARQUET: Esse é outro formato de arquivo colunar de linhas com design semelhante ao o do ORC. Além disso, o Parquet tem um suporte mais amplo para a maioria projetos no ecossistema, em comparação com o ORC, que é apoiado principalmente por Colmeia, Porco e Faísca. O PARQUET aproveita as melhores práticas no design de Dremel do Google (consulte http://research.google.com/pubs/pub36632. html) para suportar a estrutura aninhada de dados. PARQUET foi suportado por um plugin desde o Hive v0.10.0 e obteve suporte nativo após o v0.13.0 RESPOSTA: E. Todas as afirmações estão corretas 4) O Hive suporta estatísticas no nível: RESPOSTA: A. tabela, partição e coluna 5) As técnicas de compressão no Hive podem reduzir significativamente a quantidade de transferência de dados entre mapeadores e redutores comprimindo adequadamente a saída intermediária e final dados. Como resultado, a consulta terá melhor desempenho. Para compactar arquivos intermediários produzido entre várias tarefas do MapReduce, precisamos definir a seguinte http://research.google.com/pubs/pub36632.html http://research.google.com/pubs/pub36632.html propriedade (false por padrão) na sessão da linha de comandos ou no arquivo hive-site.xml. A afirmação acima trata-se de otimização para: RESPOSTA: A. Compressão 6) Sobre o arquivo do tipo RCFILE, podemos afirmar que: RESPOSTA: A. é a abreviação de Record Columnar File. É um arquivo simples que consiste em pares de chave / valor binário que compartilham muitas semelhanças com um arquivo de sequência.
Compartilhar