O Hadoop utiliza computação paralela e distribuída para resolver o desafio de escalabilidade no processamento de dados e é eficiente em soluções de baixo custo de implementação, tendo em vista que com

•

UNIDERP - ANHANGUERA

0

Fernando Ribeiro

06/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.718 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Desafio
O Hadoop utiliza computação paralela e distribuída para resolver o desafio de escalabilidade no processamento de dados e é eficiente em soluções de baixo custo de implementação, tendo em vista que com ele é possível utilizar um conjunto de máquinas convencionais. Além disso, o seu processamento tem garantias no que diz respeito à tolerância a falhas.
Assim, considere a seguinte situação:
Considerando tais informações, seu desafio é definir: o Hadoop é o melhor sistema para esse caso?
Determine como e por que cada ferramenta pode ser utilizada em um ecossistema baseado em Hadoop para a aplicação de Big Data, de forma que as ocorrências ou logs sejam coletados para monitoramento do Hadoop, e que haja gerenciamento e agendamento de tarefas submetidas ao cluster, com aprendizagem de máquina e com suporte, monitoramento e gestão dos outros módulos.
Padrão de resposta esperado
O Hadoop é uma boa escolha, tendo em vista a necessidade de manter os custos do projeto mais baixos e da característica de não obrigatoriedade de que o processamento seja o mais rápido possível.
Tendo em vista a necessidade de captura de ocorrências ou logs para o monitoramento do Hadoop, pode ser utilizado o Flume ou o Chukwa, que são utilizados para esse propósito.
No que diz respeito ao gerenciamento e ao agendamento de tarefas submetidas ao cluster, as ferramentas que têm esse propósito são o YARN e o Mesos.
Em relação ao aprendizado de máquina necessário no projeto, uma das ferramentas que pode ser utilizada é o Mahout, que é uma ferramenta para o processamento distribuído para análises complexas.
Por fim, para que seja possível dar suporte, monitorar e gerenciar os outros módulos, a ferramenta que pode ser utilizada é o Ambari, que tem interface de monitoramento do sistema via interface Web.