Apol 02

•

UNIP

2

0

2

0

1

femifec179

18/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Gestão de Processos

31.955 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1. Para que o valor dos dadosAVALIAÇÃO
2. NOVO
Parte superior do formulário
Parte inferior do formulário
MARCELO LUIZ BRUDER - RU: 1331240
Nota: 30
PROTOCOLO: 202209051331240532F2AC
Disciplina(s):
Big Data
Data de início:
05/09/2022 20:48
Prazo máximo entrega:
-
Data de entrega:
05/09/2022 20:59
Atenção. Este gabarito é para uso exclusivo do aluno e não deve ser publicado ou compartilhado em redes sociais ou grupo de mensagens.
O seu compartilhamento infringe as políticas do Centro Universitário UNINTER e poderá implicar sanções disciplinares, com possibilidade de desligamento do quadro de alunos do Centro Universitário, bem como responder ações judiciais no âmbito cível e criminal.
Questão 1/10 - Big Data
Sobre o gerenciamento e a distribuição de tarefas no contexto do MapReduce, avalie as seguintes afirmações:
I – Eventualmente algum servidor que esteja processando tarefas do MapReduce pode parar. Quando isso acontece é de responsabilidade da aplicação mestre reiniciar o processo em outro servidor.
II – Os recursos de processamento do MapReduce pode ser gerenciado pelo componente YARN ou outra aplicação semelhante.
III – A aplicação mestre é o componente do MapReduce responsável por gerenciar as tarefas e alocar os recursos de processamento.
IV – A aplicação mestre é iniciada pelo gerenciador de recursos.
V – O HDFS é acessado diretamente pelos recursos que executarão as tarefas atribuídas pela aplicação mestre.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
Todas, exceto II

B
I e IV

C
V

D
II e IV

E
III
Justificativa: A aplicação mestre gerencia cada tarefa MapReduce a ser executada, e divide tais tarefas entre os recursos de processamento do cluster. O responsável por alocar os recursos de processamento é o componente YARN. Portanto a afirmação III encontra-se INCORRETA. As demais afirmações (I, II, IV e V) estão CORRETAS.
Questão 2/10 - Big Data
Uma das tecnologias amplamente utilizadas em soluções Big Data são os bancos de dados NoSQL. Tais bancos foram projetados para serem escaláveis e flexíveis. Além disso os bancos NoSQL podem ser classificados de acordo com a sua estrutura de dados.
A respeito de bancos NoSQL avalie as seguintes afirmações:
I – O conceito de documento aplicado nos bancos de dados orientados a documentos permite utilizar objetos de programação para armazenar dados.
II – Nos bancos de dados orientados a chave-valor cada item armazenado possui uma chave e um valor que pode ser de qualquer tipo.
III – Os bancos de dados orientados a grafos utilizam dois conceitos centrais da teoria dos grafos: os vértices e as arestas, onde os vértices representam registros que armazenam os dados e as arestas representam a relação entre tais dados.
IV – Os bancos de dados orientados a documentos são uma extensão dos bancos de dados orientados a chave-valor
V – Famílias de colunas são um tipo específico de coluna utilizado em bancos de dados orientados a colunas
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
I e V
Justificativa: As afirmações II, III e IV afirmam informações CORRETAS sobre os bancos de dados NoSQL. Porém a afirmação I confunde os conceitos de objeto em linguagens de orientação a objeto com os formatos que se comportam de forma semelhante a tais objetos como JSON, YAML, XML e até mesmo formatos binários. Enquanto que a afirmação V afirmar de forma errada que o conceito de Família de colunas seja um tipo de colunas. Pois na verdade o conceito de Família de colunas é uma coluna especial que contém toda e qualquer coluna existente em um banco de dados orientado a colunas. Além disso uma família de colunas pode conter um número arbitrário de colunas.

B
II e III

C
Nenhuma

D
Todas exceto III

E
III, IV e V
Questão 3/10 - Big Data
Muitas aplicações necessitam que os dados sejam processados à medida que são recebidos pela aplicação e que o resultado de tal processamento esteja disponível tão rapidamente quanto. A esse tipo de operação damos o nome de processamento de fluxo em tempo real.
A cerca de tais aplicações, avalie as seguintes afirmações:
I – O conceito de baixa latência define que os dados devem ser processados em um tempo menor que o tempo em que novos dados chegam ao fluxo.
II – Para ser considerado consistente a solução não pode tolerar imperfeições e inconsistências
III – Dados significativos podem ser perdidos caso a aplicação tenha problemas na coleta, transmissão ou processamento dos dados.
IV – Spark é uma aplicação que utiliza o Map Reduce para processar dados em tempo real.
V – Spark possui seu próprio sistema de arquivos, o SparkSQL que implementa um banco de dados otimizado para realizar consultas em tempo real.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
I e II

B
Todas, exceto III

C
IV e V

D
Todas

E
II, IV e V
Justificativa: As afirmações I e III informam corretamente a respeito dos conceitos de baixa latência e alta disponibilidade respectivamente. Na afirmação II o conceito de consistência está invertido, é exatamente o contrário. A solução deve tolerar imperfeições e inconsistências para ser considerada consistente. Enquanto que as afirmações IV e V erram em definir o framework de processamento distribuído do Spark (IV) e o armazenamento de dados no Spark (V). No caso, o Spark implementa um framework próprio de processamento distribuído de dados, sua principal vantagem é, justamente, ser mais eficiente que o próprio Hadoop Map Reduce. E a respeito do SparkSQL é o framework de acesso aos dados armazenados em qualquer sistema de arquivos suportado pelo Spark (inclusive o HDFS) utilizando a linguagem SQL.
Questão 4/10 - Big Data
Avalie as seguintes afirmações sobre as operações de leitura e escrita no HDFS:
I – Durante a operação de leitura no HDFS, o Name Node informa ao cliente quais são os Data Nodes mais eficientes que possuem os blocos de dados desejados.
II – O cliente deve requisitar a operação de escrita ao Name Node que informa ao cliente quais são os Name Nodes mais eficientes. Em seguida o cliente deve comunicar com esses Name Nodes para armazenar os dados do arquivo dividido em blocos de 128MB.
III – A operação de escrita de dados deve ser realizada pelo servidor cliente que distribui o arquivo em blocos aos Name Nodes mais eficientes do cluster.
IV – A operação de escrita de dados deve ser realizada pelo servidor cliente que requisita a criação de um arquivo ao Name Node. Em seguida o cliente comunica com um único Data Node que irá distribuir os dados entre os outros Data Nodes. Por fim o Data Node retorna à localização dos blocos de dados ao cliente. E o cliente repassa a informação para ser armazenada no Name Node
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
III e IV

B
I e IV

C
I e III

D
II e III
Justificativa: A operação de escrita de dados no HDFS começa com o client node requisitando a criação do arquivo ao Name Node. E seguida o Client Node comunica com um único Data Node que redistribui blocos do arquivo para outros Data Nodes. A localização dos blocos é retornada para o Client Node que informa ao Name Node e, com isso, conclui a escrita. Portando, o Name Node não informa nenhum Data Node durante a escrita, como INCORRETAMENTE dizem as afirmações II e III. As demais afirmações (I e IV) estão CORRETAS.

E
II e IV
Questão 5/10 - Big Data
HBase é um banco de dados NoSQL baseado no BigTable do Google e projetado para utilizar o HDFS.
Sobre o HBase avalie as seguintes afirmações:
I – Em relação ao teorema CAP, o HBase é um banco de dados que garante a disponibilidade e a tolerância a falhas.
II – Servidores de Regiões são os componentes responsáveis pela disponibilidade e distribuição das tabelas.
III – O HBase é um banco de dados baseado em documentos.
IV – HMaster é o servidor responsável por monitorar todos os Servidores de Região e gerenciar as alterações de metadados (esquemas e particionamentos)
V – A API para manipulação dos dados do HBase se baseia nas operações de Get, Put, Updatee Delete.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0

A
I, III e V
Você acertou!
Justificativa: Sua arquitetura permite garantir acessos de escrita e leitura fortemente consistentes, em vez de eventualmente consistentes. Ou seja, um dado inserido pode ser lido de forma correta instantaneamente de qualquer parte do cluster. Dessa forma diferentemente do que alega INCORRETAMENTE a afirmação I, em relação ao teorema CAP, o HBase é um banco de dados que garante a consistência e a tolerância a falhas. Ao contrário do que INCORRETAMENTE a afirmação III diz, o HBase é um banco de dados orientado a colunas. A API do HBase não possui as operações de Update e Delete, como informa ERRONEAMENTE a afirmação V, a API de manipulação de dados do HBase possui as operações Get, Put e Scan. As demais afirmações (II e IV) estão CORRETAS.

B
Nenhuma

C
Todas, exceto III

D
I, III e IV

E
II e IV
Questão 6/10 - Big Data
“Apenas recentemente a capacidade de armazenamento e processamento se tornaram suficientes para permitir que dados antes ignorados fossem analisados. Entretanto, além dos componentes tecnológicos, o analista de dados deve ser capaz de identificar quais dados se deve utilizar, como integrá-los, quais as perguntas que serão úteis para a tomada de decisão, e qual a melhor maneira de apresentar os resultados obtidos da análise. ”
Sobre a fase de análise de dados avalie as seguintes afirmações:
I – Durante a fase de análise de dados, o cientista de dados deve preparar os dados brutos para que possam ser utilizados na produção de informações úteis e padrões ocultos em conjuntos massivos de dados.
II – A partir do conjunto de dados inicial podemos aplicar análises estatísticas utilizando modelos estatísticos ou ainda aplicar modelos de predições baseados em aprendizado de máquina de forma que os dados sejam refinados.
III – Realizar análise exploratória e verificar a qualidade dos dados são atividades da análise de dados que fazem parte da fase de preparação dos dados
IV – A fase de modelagem dos dados é composta pelas seguintes tarefas: Selecionar técnicas de modelagem, projetar testes, definir e construir o modelo de dados, seus parâmetros e sua descrição, validar o modelo e definir os parâmetros a serem revisados, avaliar os resultados do modelo; revisar processos; e determinar os passos seguintes.
V – O aprendizado de máquina é uma das atividades necessárias na automatização da construção de modelos analíticos que é uma das tarefas da fase de compreensão dos dados.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
I e II
Você acertou!
Justificativa: As afirmações I e II (CORRETAS) acertam sobre o papel do cientista de dados e a aplicação de modelos estatísticos sobre os dados que estão sendo recebidos. A afirmação III indica um conjunto de atividades que fazem parte da compreensão dos dados e não da preparação dos dados. A afirmação IV confunde e mistura tarefas da modelagem de dados e da avaliação do modelo. A Automatização da construção de modelos analíticos NÃO é uma das tarefas da compreensão dos dados.

B
Todas

C
IV e V

D
Todas, exceto I

E
II, IV e V
Questão 7/10 - Big Data
Um dos componentes que estende a funcionalidade do MapReduce é o Pig. Ele consiste em uma plataforma para analisar grandes volumes de dados utilizando uma linguagem de scripts semelhante a SQL. Avalie as seguintes afirmações sobra o Pig:
I – O Pig tem por objetivo realizar o processamento dos dados de forma mais eficiente que o MapReduce
II – A camada de infraestrutura do Pig é baseada em um compilador que interpreta scripts escritos em Grunt e os converte em sequências de programas MapReduce
III – O Pig permite que o desenvolvedor crie suas próprias funções em Pig Script.
IV – Uma das maneiras de melhorar o desempenho do Pig é substituir o MapReduce com alternativas como Tez ou Spark
V – O interpretador de linha de comando Grunt permite executar comandos de forma interativa.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0

A
I e II

B
I, II e IV

C
Todas, exceto II

D
III, IV e V
Justificativa: O Pig utiliza uma linguagem de scripts para gerar Mapper e Reducers, dessa forma simplificando a programação. Uma vez que utiliza-se do próprio MapReduce para processar os dados não o Pig não tem a capacidade de ser mais eficiente que o MapReduce. Portanto a afirmação I encontra-se INCORRETA. A camada de linguagem do Pig consiste em uma linguagem textual conhecida como Pig Latin. Grunt é o interpretador de linha de comando que interpreta comandos em Pig Latin. Dessa forma, a afirmação II está INCORRETA. As demais afirmações sobre o componente Pig estão CORRETAS.

E
II e IV
Questão 8/10 - Big Data
Uma vez finalizadas as etapas de captura de dados, armazenamento em uma estrutura escalável e flexível de dados, podemos dar início à etapa de visualização dos dados. Nós seres humanos somos criaturas dotadas de grande percepção visual, dessa forma a representação dos dados de forma gráfica se torna muito eficiente para expressar as informações que obtivemos dos dados. Dessa forma pode-se definir a etapa de visualização de dados como "a comunicação da informação utilizando representações gráficas."
Com isso, avalie as seguintes afirmações:
I – A visualização exploratória é muito utilizada durante a fase de análise de dados como forma de melhorar o detalhamento e a compreensão dos dados.
II – A visualização explanatória deve ser utilizada a fins de melhorar a compreensão dos dados, uma vez que está auxilia na identificação de estruturas, variáveis, tendências e das relações permitindo a detecção de anomalias nos dados
III – O objetivo durante a visualização explanatória é destacar os detalhes importantes para comunicar os resultados obtidos em informações mais concisas e de fácil compreensão no formato de uma interface visual.
IV – A mineração de dados é uma das etapas da visualização de dados que tem por objetivo a extração de informações.
V – O refinamento é a etapa da análise exploratória em que é gerado um modelo visual básico de dados.
Dentre essas afirmações estão INCORRETAS:
Nota: 0.0

A
I, III e IV

B
I e II

C
IV e V

D
Todas, exceto II

E
II e V
Justificativa: As afirmações I, III e IV (CORRETAS) informam corretamente aspectos da visualização de dados (tanto análise exploratória quanto análise explanatória). Porém a afirmação II (INCORRETA) justifica o uso da análise exploratória ao invés da análise explanatória. O refinamento NÃO é uma etapa exclusiva da análise exploratória, como afirma (INCORRETAMENTE) a afirmação V.
Questão 9/10 - Big Data
Drill é um motor de consultas SQL distribuído open source mantido pela Fundação Apache para a exploração de grandes volumes de dados através da combinação de uma variedade de bancos de dados não-relacionais e arquivos.
Sobre o Drill avalie as seguintes afirmações:
I – O Drill exige a definição de um esquema para a consulta de dados.
II – O Drill é capaz de operar em conjunto com ferramentas de BI tais como Tableau, MicroStrategy, QlikView e Excel.
III – O Drill é muito eficiente para efetuar operações de JOIN entre tabelas de bancos de dados distintos.
IV – O Drill permite a operação de consultas SQL em fontes de dados do Hadoop que utilizam o HDFS como armazenamento além de outros tipos de fontes de dados.
V – Drillbit é o componente do Drill responsável por coordenar o ambiente de execução em sistemas distribuídos.
Dentre essas afirmações estão CORRETAS:
Nota: 0.0

A
Todas, exceto III

B
I, III e V

C
I, II e IV

D
III, IV e V

E
II, IV e V
Justificativa: Drill utiliza um modelo de dados em formato JSON que não exige definição de esquema. Ele automaticamente entende a estrutura dos dados. Portanto a afirmação I encontra-se INCORRETA. O Drill é capaz de operar com ferramentas de BI, tais como, Tableau, MicroStrategy, QlikView e Excel. É válido lembrar, porém, que operações muito complexas, especialmente envolvendo JOIN, podem não ser muito eficientes. Diferentementedo que alega INCORRETAMENTE a afirmação III. As demais afirmações estão CORRETAS.
Questão 10/10 - Big Data
O Hadoop é um framework amplamente utilizado no desenvolvimento de sistemas de processamento de Big Data. A sua grande contribuição foi aliar um sistema de arquivos distribuído a um modelo de programação distribuída. Com isso, avalie as seguintes afirmações:
I – O Hadoop Distributed File System é o sistema do Hadoop responsável por gerenciar os arquivos armazenados. Para garantir que não ocorra perda de dados no caso de falhas, tal sistema realiza o backup dos arquivos de cada um dos servidores do cluster em um servidor dedicado para backup.
II – A natureza distribuída do Hadoop se relaciona diretamente com a escalabilidade de sua capacidade de processamento e com a capacidade de garantir seu funcionamento mesmo que alguns dos componentes de sua infraestrutura falhem.
III – O Hadoop Map Reduce é o sistema responsável por gerenciar o processamento de forma distribuída. Tal sistema é capaz de dividir a execução da aplicação em pequenas tarefas que são processadas pelos servidores do cluster.
IV – As etapas de processamento do Map Reduce são: Map, Shuffle e Reduce.
V – Devido às suas características distribuídas o Haddop é capaz de realizar o balanceamento de carga entre os servidores do cluster, o que permite que todos os recursos operem de forma balanceada.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0

A
II, III e V

B
Todas

C
I e IV

D
Todas, exceto I
Você acertou!
Justificativa: As afirmações II, III, IV e V corretamente informam as características do framework Hadoop. Porém a afirmação I erra ao afirmar que o Hadoop possui um servidor dedicado ao backup. No Hadoop os dados são armazenados em pequenos blocos que são replicados por todo o cluster, garantindo assim que os dados não sejam perdidos em caso de falhas no cluster.

E
III e V