TRABALHO-Hadoop

•

ESTÁCIO

0

Renato Borges

07/05/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Hadoop

349 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

�
Trabalho Final da Disciplina
Informações da disciplina:
Nome do curso: Ciência de dados e Big Data Analytics
Nome da disciplina: Ecossistema Hadoop
Aluno: Renato Theodório Borges
Matrícula: 201902278411
Questões:
1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é:
a) Mapfix
b) Mapgoogle
c) Hadoop
d) Emrx
e) Nenhuma das repostas.
Justifique a sua resposta:
Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS (GFS).
2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de qualquer lugar.
a) Certo
b) Errado
Justifique a sua resposta:
Quanto maior for a distância que os dados estão, maior será a latência, ou seja, o tempo de resposta da aplicação, influenciando no tempo de resposta. Além disso, um sistema Big Data sempre exige a necessidade de expansão, o que geraria custos de armazenagem em nuvem.
3) O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de dados tradicionais.
a) Certo
b) Errado
Justifique a sua resposta:
As consultas em Big Data não são feitas de forma estruturada devido ao grande volume de informação e diferentes tipos de dados disponíveis, como imagens, arquivos e outros.
4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas distribuídos tradicionais.
a) Elasticidade rápida e pagamento à medida que o serviço é utilizado.
b) SLA e serviço individual.
c) Elasticidade e servidores individuais.
d) Pooling de Serviços e servidores paralelos.
e) Nenhuma das respostas.
Justifique a sua resposta:
A Elasticidade é uma característica que relaciona com a computação em nuvem, pois tem a capacidade de expandir ou aumentar os recursos computacionais de acordo com a necessidade do cliente, e utiliza a cobrança a partir dos recursos utilizados pelo usuário pelo Sistema “Pay per Use”
5) Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o mundo com diversas pessoas sendo que em um ambiente interno da empresa, esta proteção é feita por firewalls, garantindo o uso exclusivo. ”
a) Nuvem Híbrida.
b) Nuvem Pública.
c) Nuvem Privada.
d) Nuvem Privada e Híbrida.
e) Nenhuma das respostas.
Justifique a sua resposta:
A nuvem privada traz todas as características de uma cloud computing, mas sem dividir espaço com outros clientes. É uma solução bastante utilizada para negócios que buscam mais controle e personalização em seu sistema.
6) Qual a vantagem da nuvem híbrida?
a) Exige cuidados especiais.
b) É que, através dela, é possível somar o que existe de melhor em cada uma das modalidades (privada e pública) e ainda obter ganhos adicionais.
c) Exige uma série de cuidados e desenvolvimento.
d) É mais segura.
e) Nenhuma das respostas.
Justifique a sua resposta:
A nuvem híbrida é um tipo de plataforma de cloud computing que combina características da nuvem pública com a privada em uma única infraestrutura, onde parte dos serviços de TI são executados em uma plataforma restrita a um certo número de usuários, enquanto outras ferramentas ficam publicamente acessíveis. Cria-se, assim, uma solução capaz de explorar o melhor das duas plataformas por meio de uma rotina de gestão unificada
7) Cite as técnicas de mineração de dados mais conhecidas.
a) Classificação e Associação.
b) Associação e Clusterização.
c) Classificação, Clusterização e Associação.
d) Clusterização e Classificação.
e) Nenhuma das respostas.
Justifique a sua resposta:
Associações: São ocorrências ligadas a um único evento.
Classificaçã : Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens já classificados e pela inferência de um conjunto de regras.
Clusterização: Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos. Uma ferramenta de data mining descobrirá diferentes agrupamentos dentro da massa de dados.
8) Qual a função do Spark?
a) Permite executarmos a função de agrupamento.
b) Permite o trabalho em cluster.
c) Permite o reuso de dados distribuídos em uma variedade de aplicações.
d) Permite trabalhar com grande volume de dados.
e) Nenhuma das respostas.
Justifique a sua resposta:
O Spark permite que aplicações em clusters Hadoop executem até 100 vezes mais rápido em memória e até 10 vezes mais rápido em disco, além disso permite também desenvolver rapidamente aplicações em Java, Scala ou Python.
9) Qual a dificuldade em trabalharmos com NoSQL?
a) Ausência de ferramentas de alto nível.
b) Muitas ferramentas de alto nível no mercado.
c) Padrões nas formas dos bancos de dados.
d) Segue as formas de ACID.
e) Nenhuma das respostas.
Justifique a sua resposta:
Ao contrário do modelo relacional, não existe ferramentas de alto nível no modelo NoSQL, sendo que a maior parte do trabalho é feita em linhas de comando.
10) O desafio de processamento de se trabalhar com grande volume de dados está relacionado a 3 aspectos, quais são eles?
a) Armazenamento, banco de dados e velocidade.
b) Velocidade, variedade e veracidade dos dados.
c) Tamanho dos atributos, velocidade e frequentes falhas.
d) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados
e) as frequentes falhas.
e) Nenhuma das respostas.
Justifique a sua resposta:
Velocidade: analisar os dados no instante em que são criados, sem ter de armazená-los em bancos de dados.
Variedade: mensagens, fotos, vídeos e sons, que são dados não-estruturados, podem ser administrados juntamente com dados tradicionais.
Veracidade: com análises e estatísticas de grandes volumes de dados é possível compensar as informações incorretas.
�