trabalho hadoop - sujeito a erros

•

ESTÁCIO

8

0

8

0

Léo Motta Rocha

14.04.2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 3 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.726 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Trabalho Final da Disciplina
Informações da disciplina:
Nome do curso: Ciência de dados e Big Data Analytics
Nome da disciplina: Projeto Analítico
Questões:
1) Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é:
Mapfix
Mapgoogle
Hadoop
Emrx
Nenhuma das repostas.
Justifique sua resposta: Hadoop é a única plataforma das apresentadas acima, que realizam processamento de dados no contexto big-data
2) Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de qualquer lugar.
Certo
Errado
Justifique sua resposta: Influenciará sim, pois a velocidade de conexão, pode varias de acordo com o serviço de internet contratado, impactando diretamente no tempo de resposta e no custo da conexão.
3) O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de dados tradicionais.
Certo
Errado
Justifique sua resposta: As consultas em big data, não são de formas estruturadas, devido ao grande volume de informação e diferentes tipos de dados disponíveis, como imagens, texto e outros.
4) Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas distribuídos tradicionais.
Elasticidade rápida e pagamento à medida que o serviço é utilizado.
SLA e serviço individual.
Elasticidade e servidores individuais.
Pooling de Serviços e servidores paralelos.
Nenhuma das respostas.
Justifique sua resposta: Computação em nuvem pode ser facilmente adaptada a necessidade do cliente. Se houve uma demanda muito grande em um determinado horário (pico de acessos), pode-se ativar a elasticidade rapidamente para manter o trafego, e com isso, pagar a mais ou menos pelo serviço, variando a elasticidade.
5) Esta afirmativa descreve que tipos de nuvem: “Serviços na nuvem são utilizados por todo o mundo com diversas pessoas sendo que em um ambiente interno da empresa, esta proteção é feita por firewalls, garantindo o uso exclusivo.”
Nuvem Híbrida.
Nuvem Pública.
Nuvem Privada.
Nuvem Privada e Híbrida.
Nenhuma das respostas.
Justifique sua resposta: Esta questão deveria ser reformulada. Mas em se tratando de rede interna da empresa, podemos dizer que é uma nuvem privada. Pois não dá acesso ao externo;
6) Qual a vantagem da nuvem híbrida?
Exige cuidados especiais.
É que, através dela, é possível somar o que existe de melhor em cada uma das modalidades (privada e pública) e ainda obter ganhos adicionais.
Exige uma série de cuidados e desenvolvimento.
É mais segura.
Nenhuma das respostas.
Justifique sua resposta: Nuvem hibrida é flexível e pode ser adaptada conforme a necessidade do cliente.
7) Cite as técnicas de mineração de dados mais conhecidas.
Classificação e Associação.
Associação e Clusterização.
Classificação, Clusterização e Associação.
Clusterização e Classificação.
Nenhuma das respostas.
Justifique sua resposta: Associações: São ocorrências ligadas a um único evento.
Classificação: Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens já classificados e pela inferência de um conjunto de regras.
Aglomeração (clustering): Funciona de maneira semelhante a classificação quando ainda não foram definidos grupos.
8) Qual a função do Spark?
Permite executarmos a função de agrupamento.
Permite o trabalho em cluster.
Permite o reuso de dados distribuídos em uma variedade de aplicações.
Permite trabalhar com grande volume de dados.
Nenhuma das respostas.
Justifique sua resposta: Spark oferece computação de cluster na memória para maiores velocidades e oferece suporte a APIs Java, Scala e Python para praticidade no desenvolvimento
9) Qual a dificuldade em trabalharmos com NoSQL?
Ausência de ferramentas de alto nível.
Muitas ferramentas de alto nível no mercado.
Padrões nas formas dos bancos de dados.
Segue as formas de ACID.
Nenhuma das respostas.
Justifique sua resposta: Devido ser uma nova plataforma de mercado, ainda precisa ser adaptada e incluído mais mecanismos. Como ferramentas de alto nível.
10) O desafio de processamento de se trabalhar com grande volume de dados estão relacionados a 3 aspectos, quais são eles?
Armazenamento, banco de dados e velocidade.
Velocidade, variedade e veracidade dos dados.
Tamanho dos atributos, velocidade e frequentes falhas.
Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados e as frequentes falhas.
Nenhuma das respostas.
Justifique sua resposta: Ao processar os dados big-data, precisamos de velocidade na análise, com uma variedade muito grande de informação e precisamos da veracidade desses dados.