Questões_Ecossistema_Hadoop

•

Escola Colegio Estadual Barao Do Rio Branco

0

Nardel Ramos

20/10/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Hadoop

349 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Trabalho Final da Disciplina
Informações da disciplina:
Nome do curso: Ciência de dados e Big Data Analytics
Nome da disciplina: Projeto Analítico
Nome : Gustavo Mota da Silva da Costa

Questões:
1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma
plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no
MapReduce e no GoogleFS. Esta plataforma é:
a) Mapfix
b) Mapgoogle
c) Hadoop
d) Emrx
e) Nenhuma das repostas.
Justifique a sua resposta:

Letra C. O Hadoop é uma implementação de código aberto do paradigma de programação Map-Reduce,
tolerante a falhas, flexivel e de baixo custo.
Map-Reduce é um paradigma de programação introduzido pelo Google para processar e analisar grandes
conjuntos de dados.
Todos esses programas que são desenvolvidos nesse paradigma realizam o processamento paralelo de conjuntos
de dados e
podem, portanto, ser executados em servidores sem muito esforço. A razão para a escalabilidade desse
paradigma é a
natureza intrinsecamente distribuída do funcionamento da solução. Uma grande tarefa é dividida em várias
tarefas
pequenas que são então executadas em paralelo em máquinas diferentes e então combinadas para chegar à
solução da
tarefa maior que deu início a tudo. Os exemplos de uso do Hadoop são analisar padrões de usuários em sites de
e-commerce
e sugerir novos produtos que eles possam comprar.

2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big
Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de
qualquer lugar.
a) Certo
b) Errado
Justifique a sua resposta:

Letra B. Não é possível afirmar que os custos e o tempo de resposta não sejam afetados,
pois dependendo da rede de acesso, pode ocorrer variação no tempo de transporte dos dados.

3)O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos
dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de
dados tradicionais.
a) Certo
b) Errado
Justifique a sua resposta:

Letra B. Consultas ad hoc são usados justamente porque big data também lida com dados não-estruturados,
enquanto que em bancos relacionais lida somente com dados estruturados. portanto,
técnicas de ad hoc big data são diferentes daquelas de bancos relacionais.

4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas distribuídos
tradicionais.
a) Elasticidade rápida e pagamento à medida que o serviço é utilizado.
b) SLA e serviço individual.
c) Elasticidade e servidores individuais.
d) Pooling de Serviços e servidores paralelos.
e) Nenhuma das respostas.
Justifique a sua resposta:

Letra A. A Elasticidade é a habilidade de expandir ou aumentar a demanda de recursos de acordo com as
necessidades do momento.
Esse mecanismo é útil,pois o cliente pode precisar expandir a quantidade de recursos computacionais para lidar
com o volume e a velocidade
dos dados durante o processo.

O pagamento é feito a partir dos recursos utilizados pelo usuário. Assim, ajuda os usuários,
pois pode não ser possível prever quanto e quais serão os serviços que serão utilizados e exigidos para o projeto
BigData
e esse recurso permite que novos recursos sejam solicitados conforme a necessidade.
Sendo assim, computação em nuvem pode ser facilmente adaptada a necessidade do cliente.

5) Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o mundo com
diversas pessoas sendo que em um ambiente interno da empresa, esta proteção é feita por firewalls,
garantindo o uso exclusivo.”
a) Nuvem Híbrida.
b) Nuvem Pública.
c) Nuvem Privada.
d) Nuvem Privada e Híbrida.
e) Nenhuma das respostas.
Justifique a sua resposta:

Letra C. Cloud privada é tipicamente criada para uma única entidade empresarial e pode ser gerida internamente
ou por terceiros; o hardware
físico e o software que constituem esta cloud podem estar nas instalações da empresa ou numa localização
externa.

Isso porque os dados armazenados ficam disponíveis em ambiente protegido por firewall, dedicado
exclusivamente à empresa.

6) Qual a vantagem da nuvem híbrida ?
a) Exige cuidados especiais.
b) É que, através dela, é possível somar o que existe de melhor em cada uma das modalidades (privada
e pública) e ainda obter ganhos adicionais.
c) Exige uma série de cuidados e desenvolvimento.
d) É mais segura.
e) Nenhuma das respostas.
Justifique a sua resposta:

Letra B. Possibilidade de manter alguns recursos em nuvem pública,e outros, em nuvem privada. É uma maneira
de fundir a segurança
de uma nuvem privada e o baixo custo de uma nuvem pública.A nuvem híbrida dá aos negócios mais
flexibilidade e mais opções de implantação.

7) Cite as técnicas de mineração de dados mais conhecidas.
a) Classificação e Associação.
b)Associação e Clusterização.
c) Classificação, Clusterização e Associação.
d)Clusterização e Classificação.
e)Nenhuma das respostas.

Justifique a sua resposta:

Letra C. Associação : Correlação entre dois ou mais itens para identificar uma tendência.
Classificação : Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens
já classificados
e pela inferência de um conjunto de regras.
Clusterização : Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos.

8) Qual a função do Spark?
a) Permite executarmos a função de agrupamento.
b) Permite o trabalho em cluster.
c) Permite o reuso de dados distribuídos em uma variedade de aplicações.
d) Permite trabalhar com grande volume de dados.
e) Nenhuma das respostas.

Justifique a sua resposta:

Letra B. Spark oferece computação de cluster na memória para maiores velocidades e oferece suporte a APIs
Java, Scala e Python para
praticidade no desenvolvimento.

9) Qual a dificuldade em trabalharmos com NoSQL?
a) Ausência de ferramentas de alto nível.
b) Muitas ferramentas de alto nível no mercado.
c) Padrões nas formas dos bancos de dados.
d) Segue as formas de ACID.
e) Nenhuma das respostas.

Justifique a sua resposta:

Letra A. Devido ser uma nova plataforma de mercado, atualização rápida da tecnologia, comunidade nova,
suporte falho,
falta de documentação, ainda precisa ser adaptada e incluído mais mecanismos. Como ferramentas de alto nível.

10) O desafio de processamento de se trabalhar com grande volume de dados estão relacionados a 3
aspectos, quais são eles?
a) Armazenamento, banco de dados e velocidade.
b) Velocidade, variedade e veracidade dos dados.
c) Tamanho dos atributos, velocidade e frequentes falhas.
d) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados
e as frequentes falhas.
e) Nenhuma das respostas.

Justifique a sua resposta:

Letra B. Velocidade - porque é necessário agir quase que em tempo real sobre umgrande volume de dados.

Variedade - Os dados vêm de sistemas estruturados e não estruturados, gerados por e-mails, mídias sociais.

Veracidade - Para se ter certeza que os dados fazem sentido e são autênticos.