Prévia do material em texto
Exercícios 1. A definição de big data parte de cinco características, conhecidas como 5 Vs do big data, a saber: volume, velocidade, variedade, valor e veracidade. Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade é o motor principal e, assim, é preciso tomar decisões rápidas: Você acertou! C. Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural. Há problemas em que a velocidade é um fator determinante, a fim de que sejam todas decisões rápidas. Exemplos incluem: monitoramento de temperatura de uma caldeira; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural. As demais alternativas misturam dados que são produzidos em grande velocidade – como dados oriundos de um ERP; monitor de dados vitais dentro de uma UTI; temperatura em um galinheiro; sistema de empréstimo do banco; umidade relativa do ar; e sistema de telemedicina – com outros sistemas em que os dados normalmente não são gerados com muita velocidade – como sistema com vendas semestrais; aplicativo da bolsa de valores; sistema de matrículas de uma escola; sistema de provas on-line; sistema de pesagem de gados; e sistema de cursos sob demanda. 2. Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso, analise o seguinte cenário: Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e também diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em um repositório único, a fim de que a análise e o processamento fiquem mais fáceis. Diante do exposto, qual é a solução possível no contexto de big data? Você acertou! C. É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade. O HDFS é o sistema de arquivos base do contexto big data e pode receber diferentes arquivos, como textos, planilhas, imagens ou vídeos. A partir dele, existem serviços que podem gerenciar e processar esses arquivos. Outros sistemas de arquivos, como o NTFS e o FAT32, não estão preparados para o contexto big data. O cluster é bem-vindo, pois garante a replicação, a segurança, a confiabilidade e a disponibilidade dos dados. 3. O conjunto big data & analytics é uma denominação da IBM para a correlação entre big data, mineração de dados e inteligência do negócio. No entanto, para que se tenha uma mineração com êxito, precisa-se do conceito de veracidade no contexto do big data. Considerando um cenário em que não há o controle de qualidade dos dados, o que pode ser feito para garantir a veracidade? Você acertou! C. Utilizar um padrão organizado de governança de dados, por meio do DAMA DMBok framework, e realizar análises exploratórias para verificação dos dados e acompanhamento contínuo de qualidade. O framework DAMA DMBok é importantíssimo dentro do contexto de qualidade dos dados, a fim de que se tenha dados confiáveis e acompanhamento contínuo. A verificação estatística/exploratória, de fato, é parte necessária para a compreensão e a verificação dos dados, a fim de que a confiabilidade seja aumentada. Armazenar os dados dentro do sistema de arquivos HDFS em ambiente de cluster garante também a segurança, a replicação, a disponibilidade e a confiabilidade nos dados. Os padrões de projeto de software garantem uma boa arquitetura para o sistema, no entanto, não fazem parte do processo de confiabilidade. Por fim, a utilização da arquitetura Lambda é parte necessária da ingestão, da análise e do consumo dos dados pelos clientes. 4. Analise o seguinte cenário: Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de perfis e verificação de análise de sentimento em comentários do aplicativo; faz uso de bloco de notas (arquivo CSV) para anotar registros em formato tabular dentro de departamentos; e envia e-mails automáticos de marketing para bons perfis, de acordo com um sistema de machine learning de análise de crédito. Para iniciar o processo de organização dos dados dessa empresa, o que se pode afirmar sobre os dados estruturados e não estruturados citados? Você acertou! C. Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto não estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro do Hadoop, e a posterior análise de sentimento. Os dados não estruturados e os estruturados podem ser alocados em uma estrutura de arquivos HDFS do Apache Hadoop e, ainda, possibilitam realizar diversas análises, incluindo a de sentimento, com os serviços disponíveis dentro do ecossistema Hadoop. Destaca-se que os arquivos CSV contêm dados estruturados (formato tabular) e as fotos são dados não estruturados. 5. A mineração de dados é um processo de aquisição de conhecimento por meio do que o big data entrega como informação, ou seja, é a descoberta da informação por meio dos dados. Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas vendas. Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes diários, em média, e dispõe de dados pessoais do cliente, incluindo sexo, idade e frequência de compra; dados completos do fornecedor; links das redes sociais de cada cliente, por meio de um cadastro voluntário após a compra; e dados oriundos de um sensor que realiza a contagem de quantas vezes o cliente passa por cada corredor. No entanto, não há nada formal cadastrado em bancos de dados ou qualquer outra estrutura, além de planilhas e anotações digitais. Diante desse cenário, pode-se concluir que: Você acertou! B. pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente organizar dados estruturados em bancos relacionais e dados não estruturados em bancos NoSQL, a fim de que, posteriormente, seja realizada alguma mineração. Dado que as vendas mensais são baixas e há poucas visitações diárias de clientes, não há o contexto dos Vs do big data em sua plenitude. Nesse cenário, pode-se apenas aplicar a teoria relacional de banco de dados e o ambiente NoSQL para os dados não estruturados.