Trabalho Final Ecossistema Hadoop

•

ESTÁCIO

0

Sharles Cardoso

13/04/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Sistemas Ecológicos

971 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Trabalho Final da Disciplina

Aluno: Sharles Magdiel Cardoso Araújo – Matrícula: 201902374665
Informações da disciplina:
Nome do curso: Ciência de dados e Big Data Analytics
Nome da disciplina: Ecossistema Hadoop

Questões:

1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito
utilizada uma plataforma de software em Java, de computação distribuída, voltada para
clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é:

a) Mapfix
b) Mapgoogle
c) Hadoop
d) Emrx
e) Nenhuma das repostas.

Justifique a sua resposta:

No contexto de Big Data, o Hadoop é a solução mais adequada, pelos seguintes
motivos:
• É um projeto open source, fato que permite a sua modificação para fins de customização
e o torna suscetível a melhorias constantes graças à sua rede de colaboração.
• Proporciona economia, já que não exige o pagamento de licenças e suporta hardware
convencional, permitindo a criação de projetos com máquinas consideravelmente mais
baratas.
• O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de
dados.
• O Hadoop é escalável: havendo necessidade de processamento para suportar maior
quantidade de dados, é possível acrescentar computadores sem necessidade de realizar
reconfigurações complexas no sistema.

2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de
aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os
dados são acessíveis a partir de qualquer lugar.

a) Certo
b) Errado

Justifique a sua resposta:

Influenciará, pois dependerá da qualidade dos serviços dos provedores de internet,
os custos do tipo de conexão, além das limitações de acordo com o tipo da infraestutura
que reduz os tempos de reposta.

3) O processamento de consultas ad hoc em Big Data, devido às características de
armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas
do mesmo tipo em bancos de dados tradicionais.

a) Certo
b) Errado

Justifique a sua resposta:

Nos bancos de dados tradicionais o formato dos dados seguem uma estrutura pré-
definida, colunas e linhas. No processamento de consultas ad hoc em Big Data, as fontes
e formatos dos dados não são fixos e exigem métodos diferentes para recuperá-los e
processá-los.

4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas
distribuídos tradicionais.

a) Elasticidade rápida e pagamento à medida que o serviço é utilizado.
b) SLA e serviço individual.
c) Elasticidade e servidores individuais.
d) Pooling de Serviços e servidores paralelos.
e) Nenhuma das respostas.

Justifique a sua resposta:

A computação em nuvem é um modelo que permite acesso sob demanda a um
grupo de recursos computacionais, logo o custo varia de acordo com o seu uso, assim
como a expansão é variável de acordo com sua demanda.

5) Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o
mundo com diversas pessoas sendo que em um ambiente interno da empresa, esta
proteção é feita por firewalls, garantindo o uso exclusivo.”

a) Nuvem Híbrida.
b) Nuvem Pública.
c) Nuvem Privada.
d) Nuvem Privada e Híbrida.
e) Nenhuma das respostas

Justifique a sua resposta:

Em ambiente de acesso somente interno trata-se da Nuvem Privada, umas vez que a
mesma não permite acessos externos.

6) Qual a vantagem da nuvem híbrida?

a) Exige cuidados especiais.
b) É que, através dela, é possível somar o que existe de melhor em cada uma das
modalidades (privada e pública) e ainda obter ganhos adicionais.
c) Exige uma série de cuidados e desenvolvimento.
d) É mais segura.
e) Nenhuma das respostas.

Justifique a sua resposta:

A nuvem hibrida proporciona enúmeras vantagens, como custo reduzido, maior
flexibilidade, mobilidade, desempenho, além do poder de replicar e/ou migrar serviços e
informações entre elas, garantindo maior confiabilidade e segurança.

7) Cite as técnicas de mineração de dados mais conhecidas.

a) Classificação e Associação.
b) Associação e Clusterização.
c) Classificação, Clusterização e Associação.
d) Clusterização e Classificação.
e) Nenhuma das respostas

Justifique a sua resposta:

A classificação pode usar vários atributos para identificar uma determinada classe
de itens. A clusterização, por sua vez, faz o agrupamento de registros semelhantes. A
associação, correlaciona dois ou mais itens para identificar padrões.

8) Qual a função do Spark?

a) Permite executarmos a função de agrupamento.
b) Permite o trabalho em cluster.
c) Permite o reuso de dados distribuídos em uma variedade de aplicações.
d) Permite trabalhar com grande volume de dados.
e) Nenhuma das respostas.

Justifique a sua resposta:

O Spark além de permitir que as aplicações rodem em cluster no Hadoop, propicia
performance significativa na execução tanto em memória quanto em disco. Apresenta
flexibilidade no desenvolvimento de aplicações em Java, Scala ou Python e seu conjunto de
operadores de alto nível contribui para relizar-se consultas diretamente no console.

9) Qual a dificuldade em trabalharmos com NoSQL?

a) Ausência de ferramentas de alto nível.
b) Muitas ferramentas de alto nível no mercado.
c) Padrões nas formas dos bancos de dados.
d) Segue as formas de ACID.

Justifique a sua resposta:

A ausência de ferramentas de alto nível faz com que o desevolvimento, implantação e
simples tarefas se tornem complexas.

10) O desafio de processamento de se trabalhar com grande volume de dados estão
relacionados a 3 aspectos, quais são eles?

a) Armazenamento, banco de dados e velocidade.
b) Velocidade, variedade e veracidade dos dados.
c) Tamanho dos atributos, velocidade e frequentes falhas.
d) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre
os dados e as frequentes falhas.
e) Nenhuma das respostas.

Justifique a sua resposta:

Para a tomada de decisões da empresa é necessário que tenha velocidade na obtenção
dos dados, a variedade de tipos de fontes e a veracidade da informação.

Nome da disciplina: Ecossistema Hadoop
Justifique a sua resposta:
No contexto de Big Data, o Hadoop é a solução mais adequada, pelos seguintes motivos:
 É um projeto open source, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração.
 Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas.
 O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados.
 O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema.
Justifique a sua resposta:
Influenciará, pois dependerá da qualidade dos serviços dos provedores de internet, os custos do tipo de conexão, além das limitações de acordo com o tipo da infraestutura que reduz os tempos de reposta.
Justifique a sua resposta:
Nos bancos de dados tradicionais o formato dos dados seguem uma estrutura pré-definida, colunas e linhas. No processamento de consultas ad hoc em Big Data, as fontes e formatos dos dados não são fixos e exigem métodos diferentes para recuperá-los e p...
Justifique a sua resposta:
A computação em nuvem é um modelo que permite acesso sob demanda a um grupo de recursos computacionais, logo o custo varia de acordo com o seu uso, assim como a expansão é variável de acordo com suademanda.
Justifique a sua resposta:
A nuvem hibrida proporciona enúmeras vantagens, como custo reduzido, maior flexibilidade, mobilidade, desempenho, além do poder de replicar e/ou migrar serviços e informações entre elas, garantindo maior confiabilidade e segurança.
Justifique a sua resposta:
A classificação pode usar vários atributos para identificar uma determinada classe de itens. A clusterização, por sua vez, faz o agrupamento de registros semelhantes. A associação, correlaciona dois ou mais itens para identificar padrões.
Justifique a sua resposta:
Justifique a sua resposta:
Justifique a sua resposta: