Buscar

Questões_Ecossistema_Hadoop

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Trabalho Final da Disciplina 
Informações da disciplina: 
Nome do curso: Ciência de dados e Big Data Analytics 
Nome da disciplina: Projeto Analítico 
Nome : Gustavo Mota da Silva da Costa 
 
Questões: 
1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma 
plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no 
MapReduce e no GoogleFS. Esta plataforma é: 
a) Mapfix 
b) Mapgoogle 
c) Hadoop 
d) Emrx 
e) Nenhuma das repostas. 
Justifique a sua resposta: 
 
Letra C. O Hadoop é uma implementação de código aberto do paradigma de programação Map-Reduce, 
tolerante a falhas, flexivel e de baixo custo. 
Map-Reduce é um paradigma de programação introduzido pelo Google para processar e analisar grandes 
conjuntos de dados. 
Todos esses programas que são desenvolvidos nesse paradigma realizam o processamento paralelo de conjuntos 
de dados e 
podem, portanto, ser executados em servidores sem muito esforço. A razão para a escalabilidade desse 
paradigma é a 
natureza intrinsecamente distribuída do funcionamento da solução. Uma grande tarefa é dividida em várias 
tarefas 
pequenas que são então executadas em paralelo em máquinas diferentes e então combinadas para chegar à 
solução da 
tarefa maior que deu início a tudo. Os exemplos de uso do Hadoop são analisar padrões de usuários em sites de 
e-commerce 
e sugerir novos produtos que eles possam comprar. 
 
2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big 
Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de 
qualquer lugar. 
a) Certo 
b) Errado 
Justifique a sua resposta: 
 
Letra B. Não é possível afirmar que os custos e o tempo de resposta não sejam afetados, 
pois dependendo da rede de acesso, pode ocorrer variação no tempo de transporte dos dados. 
 
 
3)O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos 
dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de 
dados tradicionais. 
a) Certo 
b) Errado 
Justifique a sua resposta: 
 
Letra B. Consultas ad hoc são usados justamente porque big data também lida com dados não-estruturados, 
enquanto que em bancos relacionais lida somente com dados estruturados. portanto, 
técnicas de ad hoc big data são diferentes daquelas de bancos relacionais. 
 
 
4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas distribuídos 
tradicionais. 
a) Elasticidade rápida e pagamento à medida que o serviço é utilizado. 
b) SLA e serviço individual. 
c) Elasticidade e servidores individuais. 
d) Pooling de Serviços e servidores paralelos. 
e) Nenhuma das respostas. 
Justifique a sua resposta: 
 
Letra A. A Elasticidade é a habilidade de expandir ou aumentar a demanda de recursos de acordo com as 
necessidades do momento. 
Esse mecanismo é útil,pois o cliente pode precisar expandir a quantidade de recursos computacionais para lidar 
com o volume e a velocidade 
dos dados durante o processo. 
 
O pagamento é feito a partir dos recursos utilizados pelo usuário. Assim, ajuda os usuários, 
pois pode não ser possível prever quanto e quais serão os serviços que serão utilizados e exigidos para o projeto 
BigData 
e esse recurso permite que novos recursos sejam solicitados conforme a necessidade. 
Sendo assim, computação em nuvem pode ser facilmente adaptada a necessidade do cliente. 
 
 
5) Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o mundo com 
diversas pessoas sendo que em um ambiente interno da empresa, esta proteção é feita por firewalls, 
garantindo o uso exclusivo.” 
a) Nuvem Híbrida. 
b) Nuvem Pública. 
c) Nuvem Privada. 
d) Nuvem Privada e Híbrida. 
e) Nenhuma das respostas. 
Justifique a sua resposta: 
 
Letra C. Cloud privada é tipicamente criada para uma única entidade empresarial e pode ser gerida internamente 
ou por terceiros; o hardware 
físico e o software que constituem esta cloud podem estar nas instalações da empresa ou numa localização 
externa. 
 
Isso porque os dados armazenados ficam disponíveis em ambiente protegido por firewall, dedicado 
exclusivamente à empresa. 
 
6) Qual a vantagem da nuvem híbrida ? 
a) Exige cuidados especiais. 
b) É que, através dela, é possível somar o que existe de melhor em cada uma das modalidades (privada 
e pública) e ainda obter ganhos adicionais. 
c) Exige uma série de cuidados e desenvolvimento. 
d) É mais segura. 
e) Nenhuma das respostas. 
Justifique a sua resposta: 
 
Letra B. Possibilidade de manter alguns recursos em nuvem pública,e outros, em nuvem privada. É uma maneira 
de fundir a segurança 
de uma nuvem privada e o baixo custo de uma nuvem pública.A nuvem híbrida dá aos negócios mais 
flexibilidade e mais opções de implantação. 
 
7) Cite as técnicas de mineração de dados mais conhecidas. 
a) Classificação e Associação. 
b)Associação e Clusterização. 
c) Classificação, Clusterização e Associação. 
d)Clusterização e Classificação. 
e)Nenhuma das respostas. 
 
Justifique a sua resposta: 
 
Letra C. Associação : Correlação entre dois ou mais itens para identificar uma tendência. 
Classificação : Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens 
já classificados 
e pela inferência de um conjunto de regras. 
Clusterização : Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos. 
 
8) Qual a função do Spark? 
a) Permite executarmos a função de agrupamento. 
b) Permite o trabalho em cluster. 
c) Permite o reuso de dados distribuídos em uma variedade de aplicações. 
d) Permite trabalhar com grande volume de dados. 
e) Nenhuma das respostas. 
 
Justifique a sua resposta: 
 
Letra B. Spark oferece computação de cluster na memória para maiores velocidades e oferece suporte a APIs 
Java, Scala e Python para 
praticidade no desenvolvimento. 
 
9) Qual a dificuldade em trabalharmos com NoSQL? 
a) Ausência de ferramentas de alto nível. 
b) Muitas ferramentas de alto nível no mercado. 
c) Padrões nas formas dos bancos de dados. 
d) Segue as formas de ACID. 
e) Nenhuma das respostas. 
 
Justifique a sua resposta: 
 
Letra A. Devido ser uma nova plataforma de mercado, atualização rápida da tecnologia, comunidade nova, 
suporte falho, 
falta de documentação, ainda precisa ser adaptada e incluído mais mecanismos. Como ferramentas de alto nível. 
 
10) O desafio de processamento de se trabalhar com grande volume de dados estão relacionados a 3 
aspectos, quais são eles? 
a) Armazenamento, banco de dados e velocidade. 
b) Velocidade, variedade e veracidade dos dados. 
c) Tamanho dos atributos, velocidade e frequentes falhas. 
d) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados 
e as frequentes falhas. 
e) Nenhuma das respostas. 
 
Justifique a sua resposta: 
 
Letra B. Velocidade - porque é necessário agir quase que em tempo real sobre umgrande volume de dados. 
 
Variedade - Os dados vêm de sistemas estruturados e não estruturados, gerados por e-mails, mídias sociais. 
 
Veracidade - Para se ter certeza que os dados fazem sentido e são autênticos.

Outros materiais