Buscar

Trabalho Final Ecossistema Hadoop

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Trabalho Final da Disciplina 
 
Aluno: Sharles Magdiel Cardoso Araújo – Matrícula: 201902374665 
Informações da disciplina: 
Nome do curso: Ciência de dados e Big Data Analytics 
Nome da disciplina: Ecossistema Hadoop 
 
Questões: 
 
1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito 
utilizada uma plataforma de software em Java, de computação distribuída, voltada para 
clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é: 
 
a) Mapfix 
b) Mapgoogle 
c) Hadoop 
d) Emrx 
e) Nenhuma das repostas. 
 
Justifique a sua resposta: 
 
No contexto de Big Data, o Hadoop é a solução mais adequada, pelos seguintes 
motivos: 
• É um projeto open source, fato que permite a sua modificação para fins de customização 
e o torna suscetível a melhorias constantes graças à sua rede de colaboração. 
• Proporciona economia, já que não exige o pagamento de licenças e suporta hardware 
convencional, permitindo a criação de projetos com máquinas consideravelmente mais 
baratas. 
• O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de 
dados. 
• O Hadoop é escalável: havendo necessidade de processamento para suportar maior 
quantidade de dados, é possível acrescentar computadores sem necessidade de realizar 
reconfigurações complexas no sistema. 
 
 
2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de 
aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os 
dados são acessíveis a partir de qualquer lugar. 
 
a) Certo 
b) Errado 
 
Justifique a sua resposta: 
 
 Influenciará, pois dependerá da qualidade dos serviços dos provedores de internet, 
os custos do tipo de conexão, além das limitações de acordo com o tipo da infraestutura 
que reduz os tempos de reposta. 
 
 
3) O processamento de consultas ad hoc em Big Data, devido às características de 
armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas 
do mesmo tipo em bancos de dados tradicionais. 
 
a) Certo 
b) Errado 
 
Justifique a sua resposta: 
 
 Nos bancos de dados tradicionais o formato dos dados seguem uma estrutura pré-
definida, colunas e linhas. No processamento de consultas ad hoc em Big Data, as fontes 
e formatos dos dados não são fixos e exigem métodos diferentes para recuperá-los e 
processá-los. 
 
 
4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas 
distribuídos tradicionais. 
 
a) Elasticidade rápida e pagamento à medida que o serviço é utilizado. 
b) SLA e serviço individual. 
c) Elasticidade e servidores individuais. 
d) Pooling de Serviços e servidores paralelos. 
e) Nenhuma das respostas. 
 
Justifique a sua resposta: 
 
 A computação em nuvem é um modelo que permite acesso sob demanda a um 
grupo de recursos computacionais, logo o custo varia de acordo com o seu uso, assim 
como a expansão é variável de acordo com sua demanda. 
 
 
5) Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o 
mundo com diversas pessoas sendo que em um ambiente interno da empresa, esta 
proteção é feita por firewalls, garantindo o uso exclusivo.” 
 
a) Nuvem Híbrida. 
b) Nuvem Pública. 
c) Nuvem Privada. 
d) Nuvem Privada e Híbrida. 
e) Nenhuma das respostas 
 
Justifique a sua resposta: 
 
Em ambiente de acesso somente interno trata-se da Nuvem Privada, umas vez que a 
mesma não permite acessos externos. 
 
 
 
 
 
 
 
6) Qual a vantagem da nuvem híbrida? 
 
a) Exige cuidados especiais. 
b) É que, através dela, é possível somar o que existe de melhor em cada uma das 
modalidades (privada e pública) e ainda obter ganhos adicionais. 
c) Exige uma série de cuidados e desenvolvimento. 
d) É mais segura. 
e) Nenhuma das respostas. 
 
 
Justifique a sua resposta: 
 
 A nuvem hibrida proporciona enúmeras vantagens, como custo reduzido, maior 
flexibilidade, mobilidade, desempenho, além do poder de replicar e/ou migrar serviços e 
informações entre elas, garantindo maior confiabilidade e segurança. 
 
 
7) Cite as técnicas de mineração de dados mais conhecidas. 
 
a) Classificação e Associação. 
b) Associação e Clusterização. 
c) Classificação, Clusterização e Associação. 
d) Clusterização e Classificação. 
e) Nenhuma das respostas 
 
Justifique a sua resposta: 
 
 A classificação pode usar vários atributos para identificar uma determinada classe 
de itens. A clusterização, por sua vez, faz o agrupamento de registros semelhantes. A 
associação, correlaciona dois ou mais itens para identificar padrões. 
 
 
8) Qual a função do Spark? 
 
a) Permite executarmos a função de agrupamento. 
b) Permite o trabalho em cluster. 
c) Permite o reuso de dados distribuídos em uma variedade de aplicações. 
d) Permite trabalhar com grande volume de dados. 
e) Nenhuma das respostas. 
 
 
Justifique a sua resposta: 
 
 O Spark além de permitir que as aplicações rodem em cluster no Hadoop, propicia 
performance significativa na execução tanto em memória quanto em disco. Apresenta 
flexibilidade no desenvolvimento de aplicações em Java, Scala ou Python e seu conjunto de 
operadores de alto nível contribui para relizar-se consultas diretamente no console. 
 
 
 
 
 
9) Qual a dificuldade em trabalharmos com NoSQL? 
 
a) Ausência de ferramentas de alto nível. 
b) Muitas ferramentas de alto nível no mercado. 
c) Padrões nas formas dos bancos de dados. 
d) Segue as formas de ACID. 
 
Justifique a sua resposta: 
 
 A ausência de ferramentas de alto nível faz com que o desevolvimento, implantação e 
simples tarefas se tornem complexas. 
 
 
10) O desafio de processamento de se trabalhar com grande volume de dados estão 
relacionados a 3 aspectos, quais são eles? 
 
a) Armazenamento, banco de dados e velocidade. 
b) Velocidade, variedade e veracidade dos dados. 
c) Tamanho dos atributos, velocidade e frequentes falhas. 
d) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre 
os dados e as frequentes falhas. 
e) Nenhuma das respostas. 
 
 
Justifique a sua resposta: 
 
 Para a tomada de decisões da empresa é necessário que tenha velocidade na obtenção 
dos dados, a variedade de tipos de fontes e a veracidade da informação. 
 
	Nome da disciplina: Ecossistema Hadoop
	Justifique a sua resposta:
	No contexto de Big Data, o Hadoop é a solução mais adequada, pelos seguintes motivos:
	 É um projeto open source, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração.
	 Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas.
	 O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados.
	 O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema.
	Justifique a sua resposta:
	Influenciará, pois dependerá da qualidade dos serviços dos provedores de internet, os custos do tipo de conexão, além das limitações de acordo com o tipo da infraestutura que reduz os tempos de reposta.
	Justifique a sua resposta:
	Nos bancos de dados tradicionais o formato dos dados seguem uma estrutura pré-definida, colunas e linhas. No processamento de consultas ad hoc em Big Data, as fontes e formatos dos dados não são fixos e exigem métodos diferentes para recuperá-los e p...
	Justifique a sua resposta:
	A computação em nuvem é um modelo que permite acesso sob demanda a um grupo de recursos computacionais, logo o custo varia de acordo com o seu uso, assim como a expansão é variável de acordo com suademanda.
	Justifique a sua resposta:
	A nuvem hibrida proporciona enúmeras vantagens, como custo reduzido, maior flexibilidade, mobilidade, desempenho, além do poder de replicar e/ou migrar serviços e informações entre elas, garantindo maior confiabilidade e segurança.
	Justifique a sua resposta:
	A classificação pode usar vários atributos para identificar uma determinada classe de itens. A clusterização, por sua vez, faz o agrupamento de registros semelhantes. A associação, correlaciona dois ou mais itens para identificar padrões.
	Justifique a sua resposta:
	Justifique a sua resposta:
	Justifique a sua resposta:

Continue navegando