Exercícios - Introdução a Big Data

•

FAMEESP

Philipe Lindo

03/10/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Exercícios
1.
A definição de big data parte de cinco características, conhecidas como 5 Vs do big
data, a saber: volume, velocidade, variedade, valor e veracidade.
Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a
velocidade é o motor principal e, assim, é preciso tomar decisões rápidas:
Você acertou!
C.
Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e
monitoramento de hashtags na ocorrência de desastre natural.

Há problemas em que a velocidade é um fator determinante, a fim de que sejam todas
decisões rápidas. Exemplos incluem: monitoramento de temperatura de uma caldeira; dados
de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre
natural.
As demais alternativas misturam dados que são produzidos em grande velocidade – como
dados oriundos de um ERP; monitor de dados vitais dentro de uma UTI; temperatura em um
galinheiro; sistema de empréstimo do banco; umidade relativa do ar; e sistema de
telemedicina – com outros sistemas em que os dados normalmente não são gerados com
muita velocidade – como sistema com vendas semestrais; aplicativo da bolsa de valores;
sistema de matrículas de uma escola; sistema de provas on-line; sistema de pesagem de
gados; e sistema de cursos sob demanda.
2.
Uma parte muito importante do contexto big data é a ingestão dos dados. A partir
disso, analise o seguinte cenário:
Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e
também diversas planilhas eletrônicas em cinco diferentes departamentos,
totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário
unificar esses dados em um repositório único, a fim de que a análise e o
processamento fiquem mais fáceis.
Diante do exposto, qual é a solução possível no contexto de big data?
Você acertou!
C.
É possível unir todos os arquivos em um repositório comum, em um sistema HDFS,
inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a
confiabilidade.

O HDFS é o sistema de arquivos base do contexto big data e pode receber diferentes
arquivos, como textos, planilhas, imagens ou vídeos. A partir dele, existem serviços que
podem gerenciar e processar esses arquivos. Outros sistemas de arquivos, como o NTFS e
o FAT32, não estão preparados para o contexto big data. O cluster é bem-vindo, pois
garante a replicação, a segurança, a confiabilidade e a disponibilidade dos dados.
3.
O conjunto big data & analytics é uma denominação da IBM para a correlação
entre big data, mineração de dados e inteligência do negócio. No entanto, para que se
tenha uma mineração com êxito, precisa-se do conceito de veracidade no contexto
do big data.
Considerando um cenário em que não há o controle de qualidade dos dados, o que
pode ser feito para garantir a veracidade?
Você acertou!
C.
Utilizar um padrão organizado de governança de dados, por meio do DAMA
DMBok framework, e realizar análises exploratórias para verificação dos dados e
acompanhamento contínuo de qualidade.

O framework DAMA DMBok é importantíssimo dentro do contexto de qualidade dos dados,
a fim de que se tenha dados confiáveis e acompanhamento contínuo. A verificação
estatística/exploratória, de fato, é parte necessária para a compreensão e a verificação dos
dados, a fim de que a confiabilidade seja aumentada. Armazenar os dados dentro do sistema
de arquivos HDFS em ambiente de cluster garante também a segurança, a replicação, a
disponibilidade e a confiabilidade nos dados. Os padrões de projeto de software garantem
uma boa arquitetura para o sistema, no entanto, não fazem parte do processo de
confiabilidade. Por fim, a utilização da arquitetura Lambda é parte necessária da ingestão,
da análise e do consumo dos dados pelos clientes.
4.
Analise o seguinte cenário:
Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de
perfis e verificação de análise de sentimento em comentários do aplicativo; faz uso
de bloco de notas (arquivo CSV) para anotar registros em formato tabular dentro de
departamentos; e envia e-mails automáticos de marketing para bons perfis, de acordo
com um sistema de machine learning de análise de crédito.
Para iniciar o processo de organização dos dados dessa empresa, o que se pode
afirmar sobre os dados estruturados e não estruturados citados?
Você acertou!
C.
Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto
não estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro
do Hadoop, e a posterior análise de sentimento.

Os dados não estruturados e os estruturados podem ser alocados em uma estrutura de
arquivos HDFS do Apache Hadoop e, ainda, possibilitam realizar diversas análises, incluindo
a de sentimento, com os serviços disponíveis dentro do ecossistema Hadoop. Destaca-se
que os arquivos CSV contêm dados estruturados (formato tabular) e as fotos são dados não
estruturados.
5.
A mineração de dados é um processo de aquisição de conhecimento por meio do que
o big data entrega como informação, ou seja, é a descoberta da informação por meio
dos dados.
Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas
vendas. Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes
diários, em média, e dispõe de dados pessoais do cliente, incluindo sexo, idade e
frequência de compra; dados completos do fornecedor; links das redes sociais de
cada cliente, por meio de um cadastro voluntário após a compra; e dados oriundos
de um sensor que realiza a contagem de quantas vezes o cliente passa por cada
corredor. No entanto, não há nada formal cadastrado em bancos de dados ou qualquer
outra estrutura, além de planilhas e anotações digitais.
Diante desse cenário, pode-se concluir que:
Você acertou!
B.
pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente
organizar dados estruturados em bancos relacionais e dados não estruturados em bancos
NoSQL, a fim de que, posteriormente, seja realizada alguma mineração.

Dado que as vendas mensais são baixas e há poucas visitações diárias de clientes, não há
o contexto dos Vs do big data em sua plenitude. Nesse cenário, pode-se apenas aplicar a
teoria relacional de banco de dados e o ambiente NoSQL para os dados não estruturados.