Baixe o app para aproveitar ainda mais
Prévia do material em texto
Desafio O Hadoop utiliza computação paralela e distribuída para resolver o desafio de escalabilidade no processamento de dados e é eficiente em soluções de baixo custo de implementação, tendo em vista que com ele é possível utilizar um conjunto de máquinas convencionais. Além disso, o seu processamento tem garantias no que diz respeito à tolerância a falhas. Assim, considere a seguinte situação: Considerando tais informações, seu desafio é definir: o Hadoop é o melhor sistema para esse caso? Determine como e por que cada ferramenta pode ser utilizada em um ecossistema baseado em Hadoop para a aplicação de Big Data, de forma que as ocorrências ou logs sejam coletados para monitoramento do Hadoop, e que haja gerenciamento e agendamento de tarefas submetidas ao cluster, com aprendizagem de máquina e com suporte, monitoramento e gestão dos outros módulos. Padrão de resposta esperado O Hadoop é uma boa escolha, tendo em vista a necessidade de manter os custos do projeto mais baixos e da característica de não obrigatoriedade de que o processamento seja o mais rápido possível. Tendo em vista a necessidade de captura de ocorrências ou logs para o monitoramento do Hadoop, pode ser utilizado o Flume ou o Chukwa, que são utilizados para esse propósito. No que diz respeito ao gerenciamento e ao agendamento de tarefas submetidas ao cluster, as ferramentas que têm esse propósito são o YARN e o Mesos. Em relação ao aprendizado de máquina necessário no projeto, uma das ferramentas que pode ser utilizada é o Mahout, que é uma ferramenta para o processamento distribuído para análises complexas. Por fim, para que seja possível dar suporte, monitorar e gerenciar os outros módulos, a ferramenta que pode ser utilizada é o Ambari, que tem interface de monitoramento do sistema via interface Web.
Compartilhar