Buscar

Trabalho Final da Disciplina HADOOP

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 4 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

​Trabalho Final da Disciplina
Informações da disciplina:
Nome do curso: Ciência de dados e Big Data Analytics
Nome da disciplina: Projeto Analítico
Aluno: Carlos Lindberg Silva Melo
Questões:
1). Para o processamento de grandes massas de dados, no contexto de Big Data, é muito utilizada uma plataforma de software em Java, de computação distribuída, voltada para clusters, inspirada no MapReduce e no GoogleFS. Esta plataforma é:
A) Mapfix
B) Mapgoogle
C) Hadoop
D) Emrx
E) Nenhuma das repostas.
Justifique a sua resposta: Letra C.
O Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, com atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS (GFS). Trata-se de um projeto da Apache de alto nível, construído por uma comunidade de contribuidores e utilizando a linguagem de programação Java. 
2). Ao utilizar armazenamento dos dados em nuvem, a localização do processamento de aplicações Big Data não influenciará os custos e o tempo de resposta, uma vez que os dados são acessíveis a partir de qualquer lugar.
A) Certo
B) Errado 
Justifique a sua resposta: Letra B
A latência é um dos parâmetros muito utilizado pelo mercado de TI para medir a eficiência dos serviços prestados pelo provedor de Cloud Computing. Quanto maior for a distância da sua empresa do Data Center de Cloud Computing, maior será a latência, ou seja, o tempo de resposta de sua aplicação. Assim, o uso de um serviço do Data Center que está fora do país vai apresentar uma latência maior que a de um provedor instalado em solo brasileiro.
3). O processamento de consultas ad hoc em Big Data, devido às características de armazenamento dos dados, utiliza técnicas semelhantes àquelas empregadas em consultas do mesmo tipo em bancos de dados tradicionais.
A) Certo
B) Errado 
Justifique a sua resposta: Letra B
O processamento de consultas ad hoc no big data traz desafios diferentes daqueles incorridos ao realizar consultas ad hoc em dados estruturados pelo fato de as fontes e formatos dos dados não serem fixos e exigirem mecanismos diferentes para recuperá-los e processá-los. As consultas em big data, não são de formas estruturadas, devido ao grande volume de informação e diferentes tipos de dados disponíveis, como imagens, texto e outros.
 
4). Cite duas propriedades fundamentais que distinguem computação em nuvem dos sistemas distribuídos tradicionais.
A) Elasticidade rápida e pagamento à medida que o serviço é utilizado.
B) SLA e serviço individual.
C) Elasticidade e servidores individuais.
D) Pooling de Serviços e servidores paralelos. 
E) Nenhuma das respostas. 
Justifique a sua resposta: Letra A
ELASTICIDADE: É a habilidade de expandir ou aumentar a demanda de recursos de acordo com as necessidades do momento. Esse mecanismo é útil, pois o cliente pode precisar expandir a quantidade de recursos computacionais para lidar com o volume e a velocidade dos dados durante o processo. Os recursos computacionais são alterados de forma transparente para os usuários dos serviços, sem interromper o uso ou o processamento de informações.
“PAY PER USE”: A cobrança do provedor de nuvem é feita a partir dos recursos utilizados pelo usuário. Assim, ela ajuda a análise de dados, pois pode não ser possível antecipar quais mecanismos serão exigidos para o projeto Big Data e esse recurso permite que novos recursos sejam solicitados conforme a necessidade.
Sendo assim, computação em nuvem pode ser facilmente adaptada a necessidade do cliente. Se houve uma demanda muito grande em um determinado horário (pico de acessos), pode-se ativar a elasticidade rapidamente para manter o trafego, e com isso, pagar a mais ou menos pelo serviço, variando a elasticidade.
 
5). Esta afirmativa descreve que tipo de nuvem: “Serviços na nuvem são utilizados por todo o mundo com diversas pessoas sendo que em um ambiente interno da empresa, esta proteção é feita por firewalls, garantindo o uso exclusivo. ”
A) Nuvem Híbrida.
B) Nuvem Pública.
C) Nuvem Privada. 
D) Nuvem Privada e Híbrida.
E) Nenhuma das respostas.
Justifique a sua resposta: Letra C
Nuvem privada possibilita um ambiente único e exclusivo para sua empresa ou organização, não existe compartilhamento de recursos com outras empresas. Isso porque os dados armazenados ficam disponíveis em ambiente protegido por firewall, dedicado exclusivamente à sua empresa.
Os grandes provedores de soluções em nuvem do mercado dispõem de equipe especializada no gerenciamento da infraestrutura virtual, políticas abrangentes de segurança como autenticação dupla, confirmação por mensagem de texto para telefone celular, uso de desafios gráficos para verificar entrada de dados por humano, certificado digital, e talvez usando autenticação biométrica mais no futuro, além de backups automáticos e gestão de acesso dos usuários.
6) Qual a vantagem da nuvem híbrida?
A) Exige cuidados especiais.
B) É que, através dela, é possível somar o que existe de melhor em cada uma das modalidades (privada e pública) e ainda obter ganhos adicionais. 
C) Exige uma série de cuidados e desenvolvimento.
D) É mais segura.
E) Nenhuma das respostas.
Justifique a sua resposta: Letra B
A nuvem híbrida representa a possibilidade de manter alguns recursos em nuvem pública, e outros, em nuvem privada. É uma maneira de fundir a segurança de uma nuvem privada e o baixo custo de uma nuvem pública. A nuvem híbrida dá aos negócios mais flexibilidade e mais opções de implantação.
7). Cite as técnicas de mineração de dados mais conhecidas. 
A) Classificação e Associação.
B) Associação e Clusterização. 
C) Classificação, Clusterização e Associação.
D) Clusterização e Classificação.
E) Nenhuma das respostas.
Justifique a sua resposta: Letra C
Associações: Correlação entre dois ou mais itens para identificar uma tendência.
Classificação: Reconhece modelos que descrevem o grupo ao qual o item pertence por meio do exame dos itens já classificados e pela inferência de um conjunto de regras.
Aglomeração (clustering): Agrupamento de registros heterogêneos em subconjuntos homogêneos similares, onde a classe não é pré-definida.
8). Qual a função do Spark?
A) Permite executarmos a função de agrupamento.
B) Permite o trabalho em cluster.
C) Permite o reuso de dados distribuídos em uma variedade de aplicações. 
D) Permite trabalhar com grande volume de dados.
E) Nenhuma das respostas.
Justifique a sua resposta: Letra B
Spark oferece computação de cluster na memória para maiores velocidades e oferece suporte a APIs Java, Scala e Python para praticidade no desenvolvimento
9). Qual a dificuldade em trabalharmos com NoSQL?
A) Ausência de ferramentas de alto nível.
B) Muitas ferramentas de alto nível no mercado.
C) Padrões nas formas dos bancos de dados.
D) Segue as formas de ACID.
E) Nenhuma das respostas.
Justifique a sua resposta: Letra A
Como não há um padrão de estrutura, a migração de um banco de dados pode gerar certas dores de cabeça. A Ausência de ferramentas de alto nível como as que encontramos no modelo relacional. A Curva de aprendizado, cada banco de dados apresenta a sua própria linguagem de consulta e manipulação. Pouco material para referência, bem como conteúdos “duplicados”. Não possui ACID: protocolo distribuído (2PC), problemas com réplicas, locks distribuídos
Devido ser uma nova plataforma de mercado, atualização rápida da tecnologia, comunidade nova, suporte falho, falta de documentação, ainda precisa ser adaptada e incluído mais mecanismos. Como ferramentas de alto nível.
10). O desafio de processamento de se trabalhar com grande volume de dados está relacionado a 3 aspectos, quais são eles?
A) Armazenamento, banco de dados e velocidade.
B) Velocidade, variedade e veracidade dos dados.
C) Tamanho dos atributos, velocidade e frequentes falhas.
D) Armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados e as frequentes falhas. 
E) Nenhuma das respostas.Justifique a sua resposta: Letra B
Velocidade por que muitas vezes precisamos agir praticamente em tempo real sobre este imenso volume de dados.
Variedade também, pois estes dados vêm de sistemas estruturados (hoje minoria) e não estruturados (a imensa maioria), gerados por e-mails, mídias sociais (Facebook, Twitter, YouTube e outros).
Veracidade por que precisamos ter certeza que os dados fazem sentido e são autênticos.
Ao processar os dados big-data, precisamos de velocidade na análise, com uma variedade muito grande de informação e precisamos da veracidade desses dados.

Outros materiais