Buscar

Exercícios - Introdução a Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Exercícios 
1. 
A definição de big data parte de cinco características, conhecidas como 5 Vs do big 
data, a saber: volume, velocidade, variedade, valor e veracidade. 
Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a 
velocidade é o motor principal e, assim, é preciso tomar decisões rápidas: 
Você acertou! 
C. 
Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e 
monitoramento de hashtags na ocorrência de desastre natural. 
 
Há problemas em que a velocidade é um fator determinante, a fim de que sejam todas 
decisões rápidas. Exemplos incluem: monitoramento de temperatura de uma caldeira; dados 
de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre 
natural. 
As demais alternativas misturam dados que são produzidos em grande velocidade – como 
dados oriundos de um ERP; monitor de dados vitais dentro de uma UTI; temperatura em um 
galinheiro; sistema de empréstimo do banco; umidade relativa do ar; e sistema de 
telemedicina – com outros sistemas em que os dados normalmente não são gerados com 
muita velocidade – como sistema com vendas semestrais; aplicativo da bolsa de valores; 
sistema de matrículas de uma escola; sistema de provas on-line; sistema de pesagem de 
gados; e sistema de cursos sob demanda. 
2. 
Uma parte muito importante do contexto big data é a ingestão dos dados. A partir 
disso, analise o seguinte cenário: 
Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e 
também diversas planilhas eletrônicas em cinco diferentes departamentos, 
totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário 
unificar esses dados em um repositório único, a fim de que a análise e o 
processamento fiquem mais fáceis. 
Diante do exposto, qual é a solução possível no contexto de big data? 
Você acertou! 
C. 
É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, 
inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a 
confiabilidade. 
 
O HDFS é o sistema de arquivos base do contexto big data e pode receber diferentes 
arquivos, como textos, planilhas, imagens ou vídeos. A partir dele, existem serviços que 
podem gerenciar e processar esses arquivos. Outros sistemas de arquivos, como o NTFS e 
o FAT32, não estão preparados para o contexto big data. O cluster é bem-vindo, pois 
garante a replicação, a segurança, a confiabilidade e a disponibilidade dos dados. 
3. 
O conjunto big data & analytics é uma denominação da IBM para a correlação 
entre big data, mineração de dados e inteligência do negócio. No entanto, para que se 
tenha uma mineração com êxito, precisa-se do conceito de veracidade no contexto 
do big data. 
Considerando um cenário em que não há o controle de qualidade dos dados, o que 
pode ser feito para garantir a veracidade? 
Você acertou! 
C. 
Utilizar um padrão organizado de governança de dados, por meio do DAMA 
DMBok framework, e realizar análises exploratórias para verificação dos dados e 
acompanhamento contínuo de qualidade. 
 
O framework DAMA DMBok é importantíssimo dentro do contexto de qualidade dos dados, 
a fim de que se tenha dados confiáveis e acompanhamento contínuo. A verificação 
estatística/exploratória, de fato, é parte necessária para a compreensão e a verificação dos 
dados, a fim de que a confiabilidade seja aumentada. Armazenar os dados dentro do sistema 
de arquivos HDFS em ambiente de cluster garante também a segurança, a replicação, a 
disponibilidade e a confiabilidade nos dados. Os padrões de projeto de software garantem 
uma boa arquitetura para o sistema, no entanto, não fazem parte do processo de 
confiabilidade. Por fim, a utilização da arquitetura Lambda é parte necessária da ingestão, 
da análise e do consumo dos dados pelos clientes. 
4. 
Analise o seguinte cenário: 
Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de 
perfis e verificação de análise de sentimento em comentários do aplicativo; faz uso 
de bloco de notas (arquivo CSV) para anotar registros em formato tabular dentro de 
departamentos; e envia e-mails automáticos de marketing para bons perfis, de acordo 
com um sistema de machine learning de análise de crédito. 
Para iniciar o processo de organização dos dados dessa empresa, o que se pode 
afirmar sobre os dados estruturados e não estruturados citados? 
Você acertou! 
C. 
Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto 
não estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro 
do Hadoop, e a posterior análise de sentimento. 
 
Os dados não estruturados e os estruturados podem ser alocados em uma estrutura de 
arquivos HDFS do Apache Hadoop e, ainda, possibilitam realizar diversas análises, incluindo 
a de sentimento, com os serviços disponíveis dentro do ecossistema Hadoop. Destaca-se 
que os arquivos CSV contêm dados estruturados (formato tabular) e as fotos são dados não 
estruturados. 
5. 
A mineração de dados é um processo de aquisição de conhecimento por meio do que 
o big data entrega como informação, ou seja, é a descoberta da informação por meio 
dos dados. 
Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas 
vendas. Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes 
diários, em média, e dispõe de dados pessoais do cliente, incluindo sexo, idade e 
frequência de compra; dados completos do fornecedor; links das redes sociais de 
cada cliente, por meio de um cadastro voluntário após a compra; e dados oriundos 
de um sensor que realiza a contagem de quantas vezes o cliente passa por cada 
corredor. No entanto, não há nada formal cadastrado em bancos de dados ou qualquer 
outra estrutura, além de planilhas e anotações digitais. 
Diante desse cenário, pode-se concluir que: 
Você acertou! 
B. 
pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente 
organizar dados estruturados em bancos relacionais e dados não estruturados em bancos 
NoSQL, a fim de que, posteriormente, seja realizada alguma mineração. 
 
Dado que as vendas mensais são baixas e há poucas visitações diárias de clientes, não há 
o contexto dos Vs do big data em sua plenitude. Nesse cenário, pode-se apenas aplicar a 
teoria relacional de banco de dados e o ambiente NoSQL para os dados não estruturados.

Mais conteúdos dessa disciplina