Baixe o app para aproveitar ainda mais
Prévia do material em texto
Trabalho Final da Disciplina Aluno: Sharles Magdiel Cardoso Araújo – Matrícula: 201902374665 Informações da disciplina: Nome do curso: Ciência de dados e Big Data Analytics Nome da disciplina: Ecossistema Hadoop Questões: 1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é: a) Mapfix b) Mapgoogle c) Hadoop d) Emrx e) Nenhuma das repostas. Justifique a sua resposta: No contexto de Big Data, o Hadoop é a solução mais adequada, pelos seguintes motivos: • É um projeto open source, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. • Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas. • O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados. • O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema. 2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de qualquer lugar. a) Certo b) Errado Justifique a sua resposta: Influenciará, pois dependerá da qualidade dos serviços dos provedores de internet, os custos do tipo de conexão, além das limitações de acordo com o tipo da infraestutura que reduz os tempos de reposta. 3) O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de dados tradicionais. a) Certo b) Errado Justifique a sua resposta: Nos bancos de dados tradicionais o formato dos dados seguem uma estrutura pré- definida, colunas e linhas. No processamento de consultas ad hoc em Big Data, as fontes e formatos dos dados não são fixos e exigem métodos diferentes para recuperá-los e processá-los. 4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas distribuídos tradicionais. a) Elasticidade rápida e pagamento à medida que o serviço é utilizado. b) SLA e serviço individual. c) Elasticidade e servidores individuais. d) Pooling de Serviços e servidores paralelos. e) Nenhuma das respostas. Justifique a sua resposta: A computação em nuvem é um modelo que permite acesso sob demanda a um grupo de recursos computacionais, logo o custo varia de acordo com o seu uso, assim como a expansão é variável de acordo com sua demanda. 5) Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o mundo com diversas pessoas sendo que em um ambiente interno da empresa, esta proteção é feita por firewalls, garantindo o uso exclusivo.” a) Nuvem Híbrida. b) Nuvem Pública. c) Nuvem Privada. d) Nuvem Privada e Híbrida. e) Nenhuma das respostas Justifique a sua resposta: Em ambiente de acesso somente interno trata-se da Nuvem Privada, umas vez que a mesma não permite acessos externos. 6) Qual a vantagem da nuvem híbrida? a) Exige cuidados especiais. b) É que, através dela, é possível somar o que existe de melhor em cada uma das modalidades (privada e pública) e ainda obter ganhos adicionais. c) Exige uma série de cuidados e desenvolvimento. d) É mais segura. e) Nenhuma das respostas. Justifique a sua resposta: A nuvem hibrida proporciona enúmeras vantagens, como custo reduzido, maior flexibilidade, mobilidade, desempenho, além do poder de replicar e/ou migrar serviços e informações entre elas, garantindo maior confiabilidade e segurança. 7) Cite as técnicas de mineração de dados mais conhecidas. a) Classificação e Associação. b) Associação e Clusterização. c) Classificação, Clusterização e Associação. d) Clusterização e Classificação. e) Nenhuma das respostas Justifique a sua resposta: A classificação pode usar vários atributos para identificar uma determinada classe de itens. A clusterização, por sua vez, faz o agrupamento de registros semelhantes. A associação, correlaciona dois ou mais itens para identificar padrões. 8) Qual a função do Spark? a) Permite executarmos a função de agrupamento. b) Permite o trabalho em cluster. c) Permite o reuso de dados distribuídos em uma variedade de aplicações. d) Permite trabalhar com grande volume de dados. e) Nenhuma das respostas. Justifique a sua resposta: O Spark além de permitir que as aplicações rodem em cluster no Hadoop, propicia performance significativa na execução tanto em memória quanto em disco. Apresenta flexibilidade no desenvolvimento de aplicações em Java, Scala ou Python e seu conjunto de operadores de alto nível contribui para relizar-se consultas diretamente no console. 9) Qual a dificuldade em trabalharmos com NoSQL? a) Ausência de ferramentas de alto nível. b) Muitas ferramentas de alto nível no mercado. c) Padrões nas formas dos bancos de dados. d) Segue as formas de ACID. Justifique a sua resposta: A ausência de ferramentas de alto nível faz com que o desevolvimento, implantação e simples tarefas se tornem complexas. 10) O desafio de processamento de se trabalhar com grande volume de dados estão relacionados a 3 aspectos, quais são eles? a) Armazenamento, banco de dados e velocidade. b) Velocidade, variedade e veracidade dos dados. c) Tamanho dos atributos, velocidade e frequentes falhas. d) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados e as frequentes falhas. e) Nenhuma das respostas. Justifique a sua resposta: Para a tomada de decisões da empresa é necessário que tenha velocidade na obtenção dos dados, a variedade de tipos de fontes e a veracidade da informação. Nome da disciplina: Ecossistema Hadoop Justifique a sua resposta: No contexto de Big Data, o Hadoop é a solução mais adequada, pelos seguintes motivos: É um projeto open source, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas. O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados. O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema. Justifique a sua resposta: Influenciará, pois dependerá da qualidade dos serviços dos provedores de internet, os custos do tipo de conexão, além das limitações de acordo com o tipo da infraestutura que reduz os tempos de reposta. Justifique a sua resposta: Nos bancos de dados tradicionais o formato dos dados seguem uma estrutura pré-definida, colunas e linhas. No processamento de consultas ad hoc em Big Data, as fontes e formatos dos dados não são fixos e exigem métodos diferentes para recuperá-los e p... Justifique a sua resposta: A computação em nuvem é um modelo que permite acesso sob demanda a um grupo de recursos computacionais, logo o custo varia de acordo com o seu uso, assim como a expansão é variável de acordo com suademanda. Justifique a sua resposta: A nuvem hibrida proporciona enúmeras vantagens, como custo reduzido, maior flexibilidade, mobilidade, desempenho, além do poder de replicar e/ou migrar serviços e informações entre elas, garantindo maior confiabilidade e segurança. Justifique a sua resposta: A classificação pode usar vários atributos para identificar uma determinada classe de itens. A clusterização, por sua vez, faz o agrupamento de registros semelhantes. A associação, correlaciona dois ou mais itens para identificar padrões. Justifique a sua resposta: Justifique a sua resposta: Justifique a sua resposta:
Compartilhar