Prévia do material em texto
Introdução a Big Data Apresentação A sociedade iniciou um processo de produção de dados jamais visto por meio de aplicativos de mensagens instantâneas, pedidos on-line, aluguéis, entre outros. Assim como a indústria, em sua revolução 4.0, fez com que os seus dados produzidos aproximassem em escala exponencial. Os tweets chegaram à marca volumosa de milhões por dia, com uma produção veloz e uma variedade grandiosa de fotos, vídeos, áudios, textos, etc. Com isso, percebeu-se o valor dos dados gerados e também que, a partir deles, pode-se ter inferências diversas a respeito dos usuários. Nesse contexto, a proposta de uma solução de big data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Nesta Unidade de Aprendizagem, você vai conhecer a definição de big data, discutir os seus Vs e as implicações, bem como os tipos de dados dentro de seu contexto. Bons estudos. Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados: Definir big data.• Discutir os Vs do big data e as implicações.• Apontar os tipos de dados relacionados ao big data.• Desafio Empresas do ramo petroleiro são multinacionais que geram imensas quantidades de dados multivariados. Os dados podem ser provenientes dos seus sistemas de gestão próprios, cruzados com dados de gestão de pessoas, de sensores de equipamentos, meteorológicos, entre outros. Pensando nisso, imagine que você foi contratado pela empresa Oil & Cia como consultor big data, a fim de analisar o seu cenário interno e organizar os dados gerados. Conheça a empresa e os seus processos: Após análise do cenário, faça um relatório que mapeie os 5 Vs do big data dentro do contexto explanado pelo gerente, informando, ainda, o que são um dado estruturado e um dado não estruturado. Infográfico Há armazenamento de dados desde o homem pré-histórico, de uma forma, de fato, eficiente para a sua época. Ao longo do tempo, avança-se a cada momento, incluindo os pergaminhos para armazenar escritos e conhecimento, ao ponto de, posteriormente, existirem as bibliotecas. Caminhando para os dias atuais, percebe-se a substituição das listas escritas de telefone e lembretes por aplicativos virtuais, bem como o uso massivo de cartões e moedas digitais. Assim, é possível perceber que o modo de armazenamento e produção de dados foi se modificando gradativamente. Acompanhe, no Infográfico a seguir, uma linha do tempo sobre o big data e a história do armazenamento e da produção dos dados. Conteúdo interativo disponível na plataforma de ensino! Conteúdo do livro Levando em conta que a sociedade atual está permeada pela produção e pelo armazenamento de dados, é interessante perceber como ocorreu essa saída do meio físico para o meio digital. Nesse cenário, é essencial conhecer os fundamentos do big data e os princípios que o norteiam, além de identificar o seu uso pelas pessoas, pelas empresas, pelas organizações e também pelo governo. Leia o capítulo Introdução a big data, da obra Introdução à Ciência de Dados, para compreender a definição de big data, os 5 Vs envolvidos e os tipos de dados que podem existir nesse contexto. Boa leitura. INTRODUÇÃO À CIÊNCIA DE DADOS Luiz Fernando Calaça Silva Introdução a big data Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: Definir big data. Discutir os Vs do big data e implicações. Apontar os tipos de dados relacionados a big data. Introdução Desde os primórdios, o homem armazenou dados para si e para outros, por meio de desenhos nas rochas e arte rupestre. Esse registro era feito com o objetivo de tomar alguma decisão ou possibilitar o acesso ao conhecimento. À medida que as sociedades se tornavam mais comple- xas, o volume de armazenamento de dados foi aumentando cada vez mais. Isso levou à construção de bibliotecas e à posterior invenção da imprensa, por Johannes Gutenberg, por volta de 1450. O próprio ábaco, um instrumento mecânico de origem chinesa criado no século V a.C., armazenava informações sobre os números e ajudava na computação. Posteriormente, o surgimento da internet para a troca de informações, durante a Segunda Guerra Mundial e a Guerra Fria (1945–1991), tornou ainda mais necessário o armazenamento de dados para uma análise posterior. Com o tempo, foram sendo desenvolvidas várias maneiras de armazenar essas informações: mainframes, disquetes, fitas, HDs, NAS (Network-Attached Storage), ambiente cluster, pen drives, CDs, DVDs. Na sociedade moderna, passou-se a produzir dados de diversas fontes, seja em redes sociais (fotos, vídeos, mensagens), em compras on-line, em aplicativos de entrega, em cursos EaD, em transações com moedas e ban- cos digitais. Além disso, houve a substituição dos papéis, como agenda física, prontuário médico, pedido de exames, para o contexto digital. Nesse sentido, as empresas perceberam o valor de armazenar e pro- cessar dados estratégicos. Assim, a nova corrida de poder tornou-se clara: os dados passaram a ser vistos como o novo petróleo. Por conse- quência, podemos observar um crescimento gradativo na produção e no armazenamento dos dados ao longo da história, até chegarmos ao contexto de big data. Neste capítulo, você vai estudar sobre o conceito e as características inerentes a big data. Ainda, conhecerá os cinco Vs envolvidos nesse cená- rio e verá os principais tipos de dados que são relacionados ao contexto. 1 A sociedade dos dados e o que define o big data A cultura moderna passou a produzir e armazenar mais dados. Com um computador ou um smartphone nas mãos, passamos a ter acesso a um volume maior de informações. Assim, o crescimento do envio de fotos, vídeos, áudio e mensagens em texto de forma massiva fez com que a relação social se transformasse em digital. Foi nesse cenário que surgiu o conceito de big data. Segundo Mauro, Greco e Grimaldi (2015, documento on-line, tradução nossa), big data é definido da seguinte forma: “O Big Data representa ativos de informação caracterizados por alto volume, velocidade e variedade, que requerem tecnologias e métodos de análise específicos para serem transfor- mados em valor [...]”. A partir do crescimento de centenas de Terabytes de dados, começou-se então a sistematizar o contexto de big data. A definição desse termo parte de cinco princípios: velocidade, volume, variedade, veracidade e valor. Você verá que tais princípios sempre caminham juntos nesse contexto. Assim, big data é um termo abrangente que trata de diversas áreas e compõe os vários estudos relacionados. Na área acadêmica, foram criados departamentos voltados para a engenha- ria e a ciência de dados, de modo a compor os conjuntos de conhecimentos e estudos que a área exigia. Logo, surgiram também diversas profissões relacionadas a essa área. O engenheiro de dados trata das estratégias de aqui- sição, armazenamento e disponibilidade dos dados. O cientista de dados e o engenheiro de aprendizado de máquina (em inglês, machine learning) compõem o contexto de análise exploratória, reconhecimento de padrões e análise preditiva, bem como outros contextos correlatos. Já o engenheiro de DataOps atua de forma semelhante ao de DevOps da engenharia de software, mas voltado para o contexto dos dados. Introdução a big data2 A produção exponencial de dados com a internet das coisas A internet das coisas emergiu com um potencial notável, fazendo com que o contexto dos dispositivos conectados elevasse exponencialmente a produção de dados. Nesse cenário, uma rede de sensores sem fi o comumente utilizados na agropecuária produz dados volumosos a cada segundo, com monitoramentos intermitentes. Em uma plantação, por exemplo, verifi ca-se a umidade do solo; no galinheiro, monitoram-se a temperatura e a umidade do ambiente, entre outros. Com isso, produz-se um grande volume de dados. A produção de geladeiras, ares-condicionados, ventiladores, panelas elétricas e outrosdispositivos com conexão fez com que o cotidiano fosse permeado pela internet das coisas. Assim, com tantos dados produzidos, é necessário organizar uma estrutura de armazenamento e processamento para a tomada de decisão. O termo “internet das coisas” se refere à interconexão de dispositivos inteligentes, que produzem, consomem e transmitem dados. Temos diversos serviços na nuvem que compõem o contexto, além de diversas placas e sistemas embarcados. A produção de dados pelas pessoas Os maiores produtores de dados no mundo são os próprios seres humanos. Anteriormente, cada um poderia apenas criar pequenas anotações para si ou dentro de um pequeno grupo. Agora, temos à disposição um ambiente massivo de compartilhamento de arquivos on-line. Ao andarmos, produzimos dados por meio das nossas posições de GPS, que são transmitidas em tempo real via aplicativos. A nossa fala produz dados que são analisados por assistentes virtuais. Se estivermos hospitalizados, a nossa respiração produzirá dados, por meio de sensores, para o prontuário médico. Além disso, a utilização das redes sociais torna-se cada vez maior, gerando imensas quantidades de dados. O envio de e-mails diários com propagandas e para o fechamento de negócios, a alocação de fotos de viagens na nuvem e diversas outras situações do nosso cotidiano geram dados, em volume e velocidade estrondosos. Logo, na era de big data, viver é produzir dados. 3Introdução a big data A produção de dados públicos pelos governos Os governos também produzem uma gama estrondosa de dados, nas mais di- versas frentes: saúde, infraestrutura, transporte, educação, turismo, economia, licitações, contratos, entre outras. No Brasil, esses dados são disponibilizados no site do Governo Federal e são comumente consumidos por entidades que têm algum interesse específi co no acompanhamento das atividades públicas. Além disso, o mercado busca realizar, a partir desses dados, diversas análises preditivas. Por outro lado, os governos também utilizam dados uns dos outros, a fi m de melhorarem as suas políticas públicas. 2 Os Vs do big data e o seu impacto nas tecnologias e na sociedade O big data mudou a forma como as empresas veem os seus dados. Atualmente, cada informação sobre o seu próprio negócio e cliente passou a ser crucial na tomada de decisão. No contexto acadêmico, surgem cada vez mais estudos sobre esse novo cenário, a fi m de colaborar para um melhor armazenamento, processamento e análise de dados. Nesse sentido, as características de big data e os seus cinco Vs mostraram a sistematização do contexto, oferecendo uma visão de como devem ser os estudos e as soluções tecnológicas propostos para a área. Veja a seguir mais informações sobre cada um desses aspectos. Volume A referência ao tamanho dos dados produzidos e à necessidade de serem armazenados engloba o volume do big data. Atualmente, não estamos falando de Terabytes, mas sim de Zettabytes ou de Brotonbytes. Velocidade A velocidade na produção de dados pode ser vista, por exemplo, pela ótica das redes sociais, em que temos milhões de trocas de mensagens por minuto. Imagine que um milhão de pessoas enviassem 10 mensagens apenas pela manhã, ou seja, nas primeiras seis horas do seu dia. Nesse caso, já teríamos Introdução a big data4 10 milhões de dados a serem armazenados. A realidade, no entanto, é muito maior. A produção de dados é veloz, seja em monitoramento, por meio de sensores, ou nos dados que as próprias pessoas produzem. Variedade A multiplicidade de tipos de arquivos dentro do big data é, de fato, uma característica pontual. Quando passamos a produzir, em sua maioria, dados digitais, transformamos tarefas físicas em dados on-line. Esses dados podem ser agendas, pedidos de compras e entregas, envio de mensagem de texto, áudio, vídeo e imagem. Essa variedade pode ser composta e armazenada, por exemplo, na estrutura de arquivos HDFS do Apache Hadoop, e gerenciada pelos seus diversos serviços, como Hive, Hbase, Spark, entre outros. Veracidade A composição da veracidade dos dados em big data é parte característica da qualidade de dados e da melhoria contínua. Não podemos utilizar dados que não representam o problema ou, ainda, que possuem viés. Nesse contexto, a ciência de dados se ocupa de limpar e organizar os dados, de forma a aumentar a confi abilidade da informação oriunda de um conjunto de dados. Um excelente framework para o contexto da qualidade de dados vem do The Dama guide to the data management body of knowledge (MOSLEY; BRACKETT; EARLEY, 2010). Nele você pode encontrar escopos, processos e a defi nição de papéis que auxiliam na governança de dados. Valor O primeiro passo que ocorreu no big data foi a necessidade de armazenar os dados, para só depois ver o que fazer com eles. Isso se deu porque se perce- beu que, com a ascensão da análise preditiva, ter muitos dados a respeito de determinado contexto poderia ter um valor inestimável. A regra geral atual é “guarde, porque amanhã isso valerá muito”. O uso de dados para as empresas já era utilizado no business intelligence, que ficou conhecido pelas teorias do data warehouse e as respectivas especifi- cidades, com técnicas para criar estruturas de dados e adentrar os dashboards. Porém, a análise preditiva ganhou imensa importância, já que todos querem prever o futuro com base nas diversas variáveis em um contexto. 5Introdução a big data Outros Vs Segundo Taleb, Serhani e Dssouli (2019), há ainda outros Vs envolvidos. Alguns deles são a variabilidade, que consiste na mudança constante dos dados; a viscosidade, que se refere à difi culdade de trabalhar com a grande variedade de dados envolvidos; a volatilidade, que ocorre quando os dados podem ser perdidos; a validade, que permite verifi car se o dado é verdadeiro e verifi cável. Além disso, citam-se a visualização, como uma forma acessível aos dados; a viralidade, como uma forma de um dado fi car em evidência em toda a rede muito rápido; e a vulnerabilidade dos dados, pois há a latente questão da segurança. Ingestão de dados e armazenamento no Apache Hadoop Os dados podem ter diversas formas. Eles podem estar estruturados como planilhas, em sistemas ERP, podem ser semiestruturados ou não estruturados, como dados de redes sociais, ou podem vir de uma rede de sensores sem fio que produzem informações como temperatura, umidade ou pressão (Figura 1). Figura 1. Os diversos tipos de dados dentro do contexto big data. Fonte: Caetano (2018, documento on-line). Para lidar com esses dados, poderíamos levar todos esses arquivos para dentro do sistema de arquivos HDFS utilizando o serviço Sqoop do ecossistema Hadoop, conforme a Figura 2. Para fazer a ingestão dos dados estruturados, poderíamos usar o serviço Hive, ou, ainda, levar os dados não estruturados por meio de Flume, Kafka ou Spark Streaming para a estrutura do Cassandra, Redis ou Hbase. Introdução a big data6 3 Os tipos de dados envolvidos no contexto big data Os dados tradicionais que conhecemos se referem a dados tabulares, ou seja, dados organizados em planilhas ou dentro de um banco relacional — os chamados dados estruturados. No entanto, há no big data novos tipos de dados: os não estruturados e os semiestruturados. Esse novo tipo de dados é oriundo de estruturas não rela- cionais e, portanto, não têm sentido em uma estrutura comum de banco de dados. Quando pensamos no mundo do streaming, é fácil perceber os Vs do big data. Serviços como Netflix, YouTube ou Vimeo fizeram com que o consumo de vídeos crescesse imensamente. Nesse cenário, garantir a entrega e ter recursos de rede e armazenamento para consumir e salvar diversos conteúdos foi possível porque o armazenamento se tornou acessível, seja por meio das memórias ou pelos serviços na nuvem. Figura 2. Ecossistema Hadoop e os seus diversos serviços. Fonte: Corbari (2019, documento on-line). Assim, organizamos um data lake, isto é, um repositório central em que são arma-zenados todos os tipos de dados: estruturados, semiestruturados e não estruturados. Nesse repositório, os dados são depositados no seu estado bruto para uma análise posterior (COUTO et al., 2019). 7Introdução a big data Temos ainda dados oriundos de sensores diversos, por meio de câmeras de segurança ou por sensores utilizados no contexto do agronegócio e da indústria. O monitoramento contínuo desses sensores fez com que fossem criadas estruturas volumosas de dados. Além disso, a ascensão da tecnologia blockchain e as plataformas de contratos inteligentes também colaboraram para o aumento dos arquivos digitais. Um exemplo disso é a plataforma Ethereum. Outros tipos de dados são aqueles fornecidos pelo governo, bem como os advindos do fluxo de e-mails e das redes sociais. Estas últimas tornaram-se o principal meio de produção e consumo de dados: fotos, vídeos, mensagens postadas e instantâneas, áudios. Atualmente, diversas empresas têm o seu principal canal de comunicação e vendas dentro dessas redes. Os dados estruturados Os dados estruturados são defi nidos como tendo o formato tabular, isto é, de linhas e colunas, conforme mostra a Figura 3. As planilhas eletrônicas e as tabelas dos bancos de dados são bons exemplos. Veja que, nesse tipo de dados, há uma estrutura fi xa e, normalmente, vários dados estão relacionados entre si. Figura 3. Banco relacional e dados tabulares. Fonte: GUJ (2015, documento on-line). Introdução a big data8 Os dados semiestruturados e não estruturados Os dados não estruturados são aqueles que não têm estrutura defi nida, como uma postagem em uma rede social, uma página na internet e dados oriundos de sensores, e-mails, áudios, vídeos e outros. Já os dados semiestruturados são aqueles que têm uma pequena estrutura defi nida, como arquivos XML (Ex- tensible Markup Language), arquivos RDF (Resource Description Framework) do contexto da web semântica e arquivos em formato JSON. O surgimento dos bancos Nosql, como MongoDB, Redis, Cassandra e Hbase formam a base de armazenamento para o contexto dos dados semi e não estruturados. Neste capítulo, você viu sobre os Vs envolvidos nos conceitos e princípios de big data, os tipos de dados, algumas tecnologias e as aplicações em alguns contextos. A produção de dados continua em grande escala, e conhecer sobre o big data é estar preparado para lidar com esse contexto. CAETANO, J. A. Por que estudar preparação de dados? 2018. Disponível em: https://www. igti.com.br/blog/por-que-estudar-preparacao-de-dados/. Acesso em: 19 abr. 2020. CORBARI, E. Semantix: ecossistema hadoop. 2019. Disponível em: https://www.slideshare. net/EdersonMoura1/semantix-ecossistema-hadoop-141345193. Acesso em: 19 abr. 2002. COUTO, J. et al. A mapping study about data lakes: An improved definition and possible architectures. In: INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND KNOWLEDGE ENGINEERING, 31., 2019, Lisbon. Proceedings [...]. Lisbon: KSIResearch Inc, 2019. p. 453–458, Disponível em: http://ksiresearchorg.ipage.com/seke/Proceedings/ seke/SEKE2019_Proceedings.pdf. Acesso em: 15 abr. 2020. GUJ. Lógica na criação de tabelas no banco de dados. 2015. Disponível em: https://res- postas.guj.com.br/43260-logica-na-criacao-de-tabelas-no-banco-de-dados. Acesso em 19 abr. 2020. MAURO, A.; GRECO, M.; GRIMALDI, M. What is big data? A consensual definition and a review of key research topics. In: AIP CONFERENCE, 2015. Proceedings [...]. [S. l.]: AIP Publishing, 2015. p. 97–104. Disponível em: https://pdfs.semanticscholar.org/ce1b/05 53c09b725f6fd1fc0b39f2dc7c428d3088.pdf. Acesso em: 15 abr. 2020. MOSLEY, M.; BRACKETT, M.; EARLEY, S. (ed.). The Dama guide to the data management body of knowledge. [S. l.]: Technics Publications, 2010. TALEB, I.; SERHANI, M. A.; DSSOULI, R. Big data quality: a data quality profiling model. In: 2019. Disponível em: https://www.researchgate.net/publication/333831302_Big_Data_ Quality_A_Data_Quality_Profiling_Model. Acesso em: 15 abr. 2020. 9Introdução a big data Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun- cionamento foi comprovado no momento da publicação do material. No entanto, a rede é extremamente dinâmica; suas páginas estão constantemente mudando de local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade sobre qualidade, precisão ou integralidade das informações referidas em tais links. Leituras recomendadas AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de Janeiro: Alta Books, 2016. KLEIN, G. H.; GUIDI NETO, P.; TEZZA, R. Big Data e mídias sociais: monitoramento das redes como ferramenta de gestão. Saúde e Sociedade, São Paulo, v. 26, n. 1, p. 208–217, 2017. Disponível em: https://www.scielosp.org/article/sausoc/2017.v26n1/208-217/. Acesso em: 15 abr. 2020. MENDONÇA, C. M. C.; ANDRADE, A. M. V.; SOUSA NETO, M. V. Uso da IoT, big data e inteligência artificial nas capacidades dinâmicas. Revista Pensamento Contempo- râneo em Administração, Rio de Janeiro, v. 12, n. 1, p. 131–151, 2018. Disponível em: http://200.135.161.12/~edsonh/Repositorio/bigdata_iot.pdf. Acesso em: 15 abr. 2020. SHARDA, R.; DELEN, D.; TURBAN, E. Business Intelligence e análise de dados para gestão do negócio. 4. ed. Porto Alegre: Bookman, 2019. Introdução a big data10 Dica do professor O big data e os seus 5 Vs têm impacto na indústria, no comércio, na saúde, no transporte, na educação e em diversos outros contextos. O mundo percebeu o valor que é ter dados respectivos ao contexto de negócio e, assim, conhecer melhor o cliente, o paciente ou o aluno. A partir do armazenamento e da análise desses dados, torna-se possível observar diversos insights e gerar valor agregado. A fim de que se possa ter uma solução para a grande velocidade e o volume de dados produzidos, é preciso armazená-los em grandes estruturas computacionais. No entanto, sem a veracidade, perde- se o nível de confiança em um conjunto de dados. Para auxiliar nesse contexto, existe o framework DAMA DMBoK. Assista à Dica do Professor para entender como o DMBoK auxilia na veracidade dos dados no contexto de big data. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://fast.player.liquidplatform.com/pApiv2/embed/cee29914fad5b594d8f5918df1e801fd/e8d1311f3d8bab0590aba4d5c0228c4d Exercícios 1) A definição de big data parte de cinco características, conhecidas como 5 Vs do big data, a saber: volume, velocidade, variedade, valor e veracidade. Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade é o motor principal e, assim, é preciso tomar decisões rápidas: A) Empresa com sistema de vendas semestrais; galinheiro com monitoramento de temperatura ininterrupto; e dados oriundos de um ERP. B) Aplicativo da Bolsa de valores; monitor de dados vitais dentro de uma UTI; e sistema de matrículas de uma escola. C) Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural. D) Sistema de provas on-line de um curso EaD; sistema de empréstimo do banco; e umidade relativa do ar em tempos de seca severa. E) Sistema de telemedicina de pacientes idosos; sistema de pesagem de gados; e sistema de cursos sob demanda. 2) Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso, analise o seguinte cenário: Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e também diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em um repositório único, a fim de que a análise e o processamento fiquem mais fáceis. Diante do exposto, qual é a solução possível no contexto de big data? A) Por ter diferentes tipos de arquivos, não é possível uni-los em um único repositório. No entanto, é possívelobter os dados de cada um e armazená-los em um banco de dados relacional, em um sistema de arquivos NTFS. B) É possível unir os arquivos em um banco de dados relacional, inclusive extraindo os dados das planilhas e fazendo um espelho de seus campos em tabelas. No entanto, os dados RFID ficarão isolados. C) É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade. D) É possível unir os arquivos em um sistema de arquivos como o FAT32, a fim de garantir a confiabilidade. Caso seja necessário, pode-se colocar os dados do RFID dentro de uma nova estrutura, sem a necessidade de um cluster. E) O cenário apresentado não é um problema que envolve big data, mas sim a produção de um software que possa consumir as diferentes API's que há dentro da empresa. 3) O conjunto big data & analytics é uma denominação da IBM para a correlação entre big data, mineração de dados e inteligência do negócio. No entanto, para que se tenha uma mineração com êxito, precisa-se do conceito de veracidade no contexto do big data. Considerando um cenário em que não há o controle de qualidade dos dados, o que pode ser feito para garantir a veracidade? A) Utilizar os dados, sem realizar nenhum processamento ou análise inicial, pois o importante é armazená-los em local seguro e confiável. Assim, pode-se fazer a ingestão no cluster e organizá-los no HDFS. B) Utilizar os padrões de projetos Gang of Four de engenharia de software, que darão ao sistema da empresa a confiabilidade necessária para que os dados tenham a devida veracidade. C) Utilizar um padrão organizado de governança de dados, por meio do DAMA DMBok framework, e realizar análises exploratórias para verificação dos dados e acompanhamento contínuo de qualidade. D) O problema relatado da veracidade é intimamente ligado ao da velocidade. Assim, se os dados fossem ingeridos por meio da arquitetura Lambda, eles teriam mais êxito. E) O valor dos dados não está ligado diretamente ao que a empresa gera interiormente, mas sim aos dados gerados exteriormente e que serão consumidos. Logo, a verificação de veracidade não é tão necessária. Analise o seguinte cenário: Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de perfis e verificação de análise de sentimento em comentários do aplicativo; faz uso de bloco de notas (arquivo CSV) para anotar registros em formato tabular dentro de departamentos; e envia e-mails automáticos de marketing para bons perfis, de acordo com um sistema de machine learning de análise de crédito. 4) Para iniciar o processo de organização dos dados dessa empresa, o que se pode afirmar sobre os dados estruturados e não estruturados citados? A) Os dados estruturados não podem ser espelhados em bancos relacionais, pois, mesmo que tivessem alguma relação com as tabelas do banco, a remodelagem não seria possível. B) Os dados estruturados, como as fotos oriundas dos perfis, não podem ser mapeados em um banco relacional por meio da transformação para base64, pois ainda não podem se relacionar com suas respectivas tabelas de clientes. C) Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto não estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro do Hadoop, e a posterior análise de sentimento. D) Os dados não estruturados, como os registros de clientes dentro do arquivo CSV, poderiam ser mapeados para uma estrutura relacional já existente na empresa, assim como os textos dos comentários. E) O conceito de dados estruturados ou não estruturados não é tão importante no momento da ingestão dos dados. O ideal é realizar a ingestão dos dados no HDFS, sem a necessidade de mapeamento ou conhecimento prévio. 5) A mineração de dados é um processo de aquisição de conhecimento por meio do que o big data entrega como informação, ou seja, é a descoberta da informação por meio dos dados. Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas vendas. Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes diários, em média, e dispõe de dados pessoais do cliente, incluindo sexo, idade e frequência de compra; dados completos do fornecedor; links das redes sociais de cada cliente, por meio de um cadastro voluntário após a compra; e dados oriundos de um sensor que realiza a contagem de quantas vezes o cliente passa por cada corredor. No entanto, não há nada formal cadastrado em bancos de dados ou qualquer outra estrutura, além de planilhas e anotações digitais. Diante desse cenário, pode-se concluir que: A) pela complexidade do ambiente, faz-se necessária a aquisição de um cluster com software big data, a fim de compor a infraestrutura e a gestão do armazenamento, respectivamente. Pelas baixas vendas, não é necessário realizar a mineração de dados. B) pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente organizar dados estruturados em bancos relacionais e dados não estruturados em bancos NoSQL, a fim de que, posteriormente, seja realizada alguma mineração. C) o conhecimento de dados, quando em pequena escala, não faz sentido algum para o negócio, pois é muito limitado. Assim, pode-se realizar a ingestão em uma estrutura big data, mas sem a necessidade de controle de qualidade e análise exploratória. D) ao se perceber que o ambiente não comporta uma estrutura big data, pode-se manter os dados em pequenas estruturas dentro de arquivos, não necessitando de uma maior complexidade em bancos relacionais. Isso facilitaria a mineração dos dados. E) a aquisição de um banco relacional é verificada pelas ligações entre as entidades envolvidas na venda da empresa, assim, será necessária uma estrutura de big data com o sistema HDFS, a fim de compor a melhoria tecnológica para a extração de conhecimento. Na prática A aquisição de dados e o armazenamento em uma grande estrutura são passos necessários para uma posterior análise e geração de insights. Uma empresa pode ter dados armazenados em sua estrutura ou, ainda, precisar consumir dados oriundos de alguma API (Interface de Programação de Aplicativos). Nesse cenário, os dados oriundos de redes sociais têm se tornado importantíssimos para o conhecimento de possíveis clientes de um negócio. As redes sociais têm ajudado políticos, empresas e pessoas, de forma geral, a compreenderem melhor os rumos do consumo. Na Prática, por meio de um estudo de caso, compreenda essa relação entre big data e redes sociais. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. https://statics-marketplace.plataforma.grupoa.education/sagah/bef1fe8b-52e2-4f96-9d90-db07f91d7e11/2d667ced-55cb-494e-b377-cbd4cc1bc942.png Saiba + Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do professor: Internet das coisas na fazenda: tecnologia e produtividade Leia aqui sobre Internet das coisas na fazenda: tecnologia e produtividade Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. A política de segurança cibernética norte-americana: estado e empresas de tecnologia na sociedade do big data Ao realizar a análise de dados de forma massiva e perceber padrões, o contexto do big data também auxilia na segurança. O seguinte estudo mostra a relação de interesse do setor público norte- americano com atores privados na promoção da vigilância da sociedade por meio dos dados. Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. Publicidade inteligente: convergências entre os chatbots e as marcas O big data envolve o pensar em publicidade inteligente. O contexto do analytics e a publicidade, em que são observadas as pessoas e as suas ações para uma tomada de decisão, é, de fato, promissor. É possível mudar a relação da publicidade, por exemplo, direcionandodiversos produtos por sexo ou faixa etária. Esta é a temática deste artigo. https://digital.futurecom.com.br/transformacao-digital/internet-das-coisas-na-fazenda-tecnologia-e-produtividade https://repositorio.unesp.br/bitstream/handle/11449/191784/assis_cg_me_mar.pdf?sequence=6?v=1048487052 Aponte a câmera para o código e acesse o link do conteúdo ou clique no código para acessar. http://www.revistas.usp.br/signosdoconsumo/article/view/163788/159683/