Baixe o app para aproveitar ainda mais
Prévia do material em texto
Trabalho Final da Disciplina Informações da disciplina: Nome do curso: Ciência de dados e Big Data Analytics Nome da disciplina: Projeto Analítico Nome : Gustavo Mota da Silva da Costa Questões: 1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é: a) Mapfix b) Mapgoogle c) Hadoop d) Emrx e) Nenhuma das repostas. Justifique a sua resposta: Letra C. O Hadoop é uma implementação de código aberto do paradigma de programação Map-Reduce, tolerante a falhas, flexivel e de baixo custo. Map-Reduce é um paradigma de programação introduzido pelo Google para processar e analisar grandes conjuntos de dados. Todos esses programas que são desenvolvidos nesse paradigma realizam o processamento paralelo de conjuntos de dados e podem, portanto, ser executados em servidores sem muito esforço. A razão para a escalabilidade desse paradigma é a natureza intrinsecamente distribuída do funcionamento da solução. Uma grande tarefa é dividida em várias tarefas pequenas que são então executadas em paralelo em máquinas diferentes e então combinadas para chegar à solução da tarefa maior que deu início a tudo. Os exemplos de uso do Hadoop são analisar padrões de usuários em sites de e-commerce e sugerir novos produtos que eles possam comprar. 2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de qualquer lugar. a) Certo b) Errado Justifique a sua resposta: Letra B. Não é possível afirmar que os custos e o tempo de resposta não sejam afetados, pois dependendo da rede de acesso, pode ocorrer variação no tempo de transporte dos dados. 3)O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de dados tradicionais. a) Certo b) Errado Justifique a sua resposta: Letra B. Consultas ad hoc são usados justamente porque big data também lida com dados não-estruturados, enquanto que em bancos relacionais lida somente com dados estruturados. portanto, técnicas de ad hoc big data são diferentes daquelas de bancos relacionais. 4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas distribuídos tradicionais. a) Elasticidade rápida e pagamento à medida que o serviço é utilizado. b) SLA e serviço individual. c) Elasticidade e servidores individuais. d) Pooling de Serviços e servidores paralelos. e) Nenhuma das respostas. Justifique a sua resposta: Letra A. A Elasticidade é a habilidade de expandir ou aumentar a demanda de recursos de acordo com as necessidades do momento. Esse mecanismo é útil,pois o cliente pode precisar expandir a quantidade de recursos computacionais para lidar com o volume e a velocidade dos dados durante o processo. O pagamento é feito a partir dos recursos utilizados pelo usuário. Assim, ajuda os usuários, pois pode não ser possível prever quanto e quais serão os serviços que serão utilizados e exigidos para o projeto BigData e esse recurso permite que novos recursos sejam solicitados conforme a necessidade. Sendo assim, computação em nuvem pode ser facilmente adaptada a necessidade do cliente. 5) Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o mundo com diversas pessoas sendo que em um ambiente interno da empresa, esta proteção é feita por firewalls, garantindo o uso exclusivo.” a) Nuvem Híbrida. b) Nuvem Pública. c) Nuvem Privada. d) Nuvem Privada e Híbrida. e) Nenhuma das respostas. Justifique a sua resposta: Letra C. Cloud privada é tipicamente criada para uma única entidade empresarial e pode ser gerida internamente ou por terceiros; o hardware físico e o software que constituem esta cloud podem estar nas instalações da empresa ou numa localização externa. Isso porque os dados armazenados ficam disponíveis em ambiente protegido por firewall, dedicado exclusivamente à empresa. 6) Qual a vantagem da nuvem híbrida ? a) Exige cuidados especiais. b) É que, através dela, é possível somar o que existe de melhor em cada uma das modalidades (privada e pública) e ainda obter ganhos adicionais. c) Exige uma série de cuidados e desenvolvimento. d) É mais segura. e) Nenhuma das respostas. Justifique a sua resposta: Letra B. Possibilidade de manter alguns recursos em nuvem pública,e outros, em nuvem privada. É uma maneira de fundir a segurança de uma nuvem privada e o baixo custo de uma nuvem pública.A nuvem híbrida dá aos negócios mais flexibilidade e mais opções de implantação. 7) Cite as técnicas de mineração de dados mais conhecidas. a) Classificação e Associação. b)Associação e Clusterização. c) Classificação, Clusterização e Associação. d)Clusterização e Classificação. e)Nenhuma das respostas. Justifique a sua resposta: Letra C. Associação : Correlação entre dois ou mais itens para identificar uma tendência. Classificação : Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens já classificados e pela inferência de um conjunto de regras. Clusterização : Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos. 8) Qual a função do Spark? a) Permite executarmos a função de agrupamento. b) Permite o trabalho em cluster. c) Permite o reuso de dados distribuídos em uma variedade de aplicações. d) Permite trabalhar com grande volume de dados. e) Nenhuma das respostas. Justifique a sua resposta: Letra B. Spark oferece computação de cluster na memória para maiores velocidades e oferece suporte a APIs Java, Scala e Python para praticidade no desenvolvimento. 9) Qual a dificuldade em trabalharmos com NoSQL? a) Ausência de ferramentas de alto nível. b) Muitas ferramentas de alto nível no mercado. c) Padrões nas formas dos bancos de dados. d) Segue as formas de ACID. e) Nenhuma das respostas. Justifique a sua resposta: Letra A. Devido ser uma nova plataforma de mercado, atualização rápida da tecnologia, comunidade nova, suporte falho, falta de documentação, ainda precisa ser adaptada e incluído mais mecanismos. Como ferramentas de alto nível. 10) O desafio de processamento de se trabalhar com grande volume de dados estão relacionados a 3 aspectos, quais são eles? a) Armazenamento, banco de dados e velocidade. b) Velocidade, variedade e veracidade dos dados. c) Tamanho dos atributos, velocidade e frequentes falhas. d) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados e as frequentes falhas. e) Nenhuma das respostas. Justifique a sua resposta: Letra B. Velocidade - porque é necessário agir quase que em tempo real sobre umgrande volume de dados. Variedade - Os dados vêm de sistemas estruturados e não estruturados, gerados por e-mails, mídias sociais. Veracidade - Para se ter certeza que os dados fazem sentido e são autênticos.
Compartilhar