Prévia do material em texto
Tecnologia da Informação e Comunicação Material Teórico Responsável pelo Conteúdo: Prof. Me. Enir da Silva Fonseca Revisão Textual: Prof.ª Me. Luciene Santos Big Data • Introdução; • Conceito de Big Data; • Tipos de Dados; • Tecnologia Envolvidas em Big Data; • Características do Big Data; • Possibilidades de Aplicações do Big Data em Algumas Áreas. · Descrever os conceitos de Big Data e suas aplicações; · Apresentar a importância e a relação do volume de dados gerados atualmente com o uso das inovações tecnológicas; · Comentar as possiblidades para os negócios e tomada de decisão; · Ao término deste estudo, desejamos que você seja capaz de utilizar o grande volume de dados gerados em sua área, para decisões que melhorem todos os processos e serviços. OBJETIVO DE APRENDIZADO Big Data UNIDADE Big Data Contextualização Antes de compreender o conceito de Big Data, é importante observar que a humanidade sempre produziu dados, e que eram utilizados ou armazenados de acordo com os recursos de cada época. Verifica-se, na história, que antigas so- ciedades procuravam registrar em pedra, papiro, madeira, ou em outros recursos disponíveis, os acontecimentos que julgavam importantes em sua existência. Antes da era cristã, o homem de Neandertal já utilizava a pedra, osso, madeira, couro e outros recursos para auxiliar na sua sobrevivência. Durante milênios, as sociedades tribais se dedicaram à caça, à pesca e à coleta de frutos, e tais conceitos eram repassados entre os membros para sobrevivência da espécie, o que pode ter ocorrido de forma involuntária, mas já caracterizava os primeiros registros de dados. Os processos criados para domesticar animais e também o cultivo de sementes silvestres com o armazenamento do excedente para posterior consumo contribuí- ram para a evolução da sociedade. Quando analisamos a era do bronze, a prática da fundição de metais possibilitou à sociedade uma rápida evolução. Cabe ainda destacar outras contribuições como o emprego de veículos de roda, a invenção das embarcações à vela, e o florescimento da cerâmica e da fabricação de tijolos, entre outros. Todos estes conhecimentos adquiridos foram repassados e aprimorados ao longo dos tempos, proporcionado o uso e a aprendizagem em grande escala, que é hoje auxiliado por modernos e complexos recursos tecnológicos. O surgimento da tecnologia, conforme conhecemos atualmente, não pode ser dissociado do surgimento da humanidade. No último século, foram criadas variadas formas de registrar o conhecimento para posterior consulta e aproveitamento. A Figura 1 representa algumas dessas possibilidades como as enciclopédias, os cartões perfurados, as fitas magnéticas, as listas telefônicas, disco magnético e mais recentemente no conceito de computação nas nuvens. Esta ilustração não representa a sequência em que os fatos ocorreram, tem apenas a finalidade didática para o exercício imaginário do que poderá ser desenvolvido nos próximos anos. 8 9 Figura 1 – Possibilidades de armazenamento nos últimos anos Fonte: Adaptado de Pixabay e Wikimedia Analisando a Figura 1, observamos que, com o uso das modernas soluções tec- nológicas, geramos diariamente uma grande quantidade e variedade de dados que são produzidos nas transações bancárias, em serviços de telefonia, em buscas on- -line, no mercado eletrônico e também nos ambientes educacionais e com o Ensino a Distância (EaD). Introdução Iniciaremos nosso estudo com os conceitos introdutórios do Big Data e suas aplicações no dia a dia, identificando a importância dos dados no mundo contem- porâneo, pois o armazenamento de dados em escala sem um destino definido é um desperdício de tempo e dinheiro. As ações associadas ao Big Data vão além do ar- mazenamento. Dessa forma, elas devem buscar alternativas para a implementação de novas rotinas que possibilitem uma redução nos custos, tempo dos processos, para que ajude no desenvolvimento de novos produtos, auxiliem na compreensão do comportamento do consumidor, entre outros. Obter interpretações rápidas so- bre as tendências do mercado, ou comportamento de consumo, como as potenciais oportunidades de negócios, entre outras, tornam valiosos os dados armazenados. 9 UNIDADE Big Data Conceito de Big Data Surge com a popularização da Internet e também da Internet da Coisas1 (Internet of Things, IoT), terabytes2 de informações oriundas de sensores, de redes sociais, de novas arquiteturas de computadores, de softwares inteligentes, que são geradas rapidamente e com baixo custo. Figura 2 Fonte: iStock/Getty Images O termo Big Data refere-se à capacidade de a humanidade gerar a cada segun- do um grande volume de dados estruturados e não estruturados, que são oriundos de todos os meios, aliados à maior velocidade de crescimento dessas informações. Esse aumento em larga escala começou a ser sentido e consolidado no último sé- culo, diante, principalmente, da utilização de computadores, notebook e todos os tipos de dispositivos conectados em redes. Alguns autores definem Big Data como: • Silva e Rodrigues (2017) definem Big Data como o conjunto de tecnologias e ferramentas (bancos de dados e ferramentas de mineração de dados), bem como técnicas (métodos analíticos), passíveis de emprego em larga escala, para dados complexos, num universo de aplicações, de modo a aprimorar o desempenho das organizações. • Ferreira e Costa (2017) afirmam que, em suma, tendo a abordagem de Big Data como uma direcionadora de tecnologias e métodos estatísticos, um grande número de componentes de infraestrutura tecnológica passa a ser repensado para superar desafios relacionados, principalmente o crescente volume de dados coletados de diferentes fontes e formatos. 1 São vários objetos físicos, como os eletrodomésticos, os veículos, os prédios entre outros, que possuem conexão em rede capaz de coletar e transmitir dados. 2 Unidade de medida utilizada para mensurar o tamanho utilizado no armazenamento de dados na área da informática. 10 11 • Muchroni e Fusco (2016) afirmam que as informações nos ambientes de Big Data são importantes insumos nos processos organizacionais como ambientes e plataformas informacionais digitais de inteligência competitiva do apoio à decisão e à inovação. Além disso, investigações nas áreas da ciência da infor- mação e da ciência da computação são necessárias para dar conta das atuais demandas informacionais. • Abreu (2014) resume que Big Data é o espelho da evolução tecnológica social. Trata-se da nossa capacidade de captar um grande número de informações, ana- lisá-las de imediato e tirar conclusões, por vezes, profundamente surpreendentes. • Mayer-Schonberger e Cukier (2014) definem que, com a ajuda do Big Data, não mais veremos o mundo como uma sequência de acontecimentos explicados como fenômenos naturais ou sociais, e sim como um universo composto essencialmente por informações. O Big Data está se tornando um fenômeno, permitindo ações tão distintas que atendem desde uma busca por melhores tarifas de passagens áreas, assim como a possibilidade de extrair simultaneamente o valor em textos contidos em milhões de livros. A evolução tecnológica continuará a gerar nos próximos anos um maior volume de dados. O diferencial do Big Data está justamente atrelado à possibilidade e oportunidade em cruzar esses dados por meio de diversas fontes para obtermos insights3 rápidos e preciosos. A exigência dos consumidores e o aumento da competitividade em todos os mercados vêm forçando as empresas a inovar e ter esse caminho como premissa básica nos negócios. Atualmente, é possível obter informações a respeito dos desejos, necessidades, satisfação e insatisfação dos clientes ao cruzar os dados internos da empresa, entre empresas, em mídias sociais, em sites de buscas, no comércio eletrônico, e assim criar novas estratégias para os negócios. Os dados em Big Data podem ter origem de diversas fontes, estruturadas, se- miestruturadas e não estruturadas.Tipos de Dados Estruturados São dados que contêm uma organização para serem recuperados. O armazena- mento ocorre em bancos de dados tradicionais, organizados em tabelas com linhas e colunas, que identificam diversos pontos sobre aquela informação e tornam o trabalho da tecnologia bem simplificado. 3 Clareza súbita na mente, no intelecto de um indivíduo; iluminação, estalo, luz. Maior ou menor compreensão ou solução de um problema pela súbita captação mental dos elementos e relações adequados. 11 UNIDADE Big Data Considerando que: • Estão em um formato específico e rígido; • Os dados são mantidos em um SGBD (Sistema Gerenciador de Banco de Dados); • Para as tabelas do banco de dados, é possível prever o que será inserido em um campo. Se é texto, número, data etc., assim como o tamanho máximo de armazenamento de cada campo. Semiestruturados Podem seguir diversos padrões. Não estão de acordo com a estrutura formal dos modelos de banco de dados, apresentam uma estrutura heterogênea. Não existe um padrão para o dado. Considerando que: • Os dados da Web, gerados pelas mais diversas aplicações; • Podem ser alterados constantemente. Não estruturados Mescla de dados originários de várias fontes distintas. Em geral, não contêm todas as informações possíveis sobre algo, como vídeo, texto, áudio, imagens etc. Considerando que: • Documentos de texto – os que não são enxergados em toda sua amplitude. Seria inviável classificar cada palavra do texto e relacioná-las com contextos, momentos, pessoas, citações etc.; • Redes sociais – quando as pessoas colocam suas emoções no que escrevem. Para melhor compreensão, a tabela 1 apresenta as principais diferenças entre os tipos de dados estruturados, semiestruturados e não estruturados. Tabela 1 – Principais diferenças entre os tipos de dados Dados estruturados Dados semiestruturados Dados não estruturados Estrutura predefinida Nem sempre existe esquema Não existe esquema Estrutura regular Estrutura irregular Estrutura irregular Estrutura independente dos dados Estrutura envolvida nos dados A estrutura está dependente da fonte dos dados Estrutura reduzida Estrutura extensa (particular em cada dado visto que cada um pode ter uma organização própria) Estrutura extensa depende muito do tipo de dados Pouco evolutiva e bastante rígida Muito evolutiva, a estrutura pode mudar com muita frequência Muito evolutiva, a estrutura muda com bastante frequência Possui esquemas fechados e restrições de integridade Não existe um esquema de dados associado Não existe um esquema de dados associado Distinção clara da estrutura de dados Não é clara a distinção entre estrutura de dados Não é possível distinguir entre as estruturas dos dados Fonte: Martins; Simões; Oliveira e Sá (2014) 12 13 Tecnologia Envolvidas em Big Data Quanto mais dados obtemos, maior é o esforço para um processamento rápido e eficiente de forma que gere as informações desejadas à empresa. Para que os processos utilizando conceitos de Big Data proporcionem um resultado esperado, é necessário utilizar algumas das tecnologias envolvidas, tais como: Sistemas de arquivos distribuídos Permitir que: • Os usuários acessem arquivos a partir de qualquer computador em rede; • Os programas armazenem e acessem arquivos remotos exatamente como se fossem locais; • Haja compartilhamento de recursos pelos desenvolvedores de sistemas distribuídos. Processamento Paralelo Massivo Ocorre: • Em uma rede de computadores desenhada para suportar a troca de arqui- vos, permitindo que vários processadores trabalhem em conjunto e em um mesmo sistema; • De forma eficiente com o uso de paralelismo, para o armazenamento e pro- cessamento dos dados; • Quando utilizados em computadores com arquiteturas em círculos, com cente- nas e, talvez, milhares de computadores interligados. Computação em Nuvem Em inglês, cloud computing refere-se: • À capacidade de armazenamento e processamento dos computadores e dos servidores compartilhados e interligados por meio da Internet; • Que os arquivos e registros poderão ser acessados em qualquer lugar do mundo e a qualquer hora, não havendo necessidade de instalação de programas; • Que com um sistema operacional disponível na Internet, é possível o acesso às informações, arquivos e programas independente de plataforma. Grids de Mineração de Dados Explorar grandes quantidades de dados à procura de padrões consistentes com: • Vários computadores conectados em rede (onde cada computador é um nó), buscando em todo momento aproveitar a capacidade ociosa de cada nó pre- sente no Grid. Se um nó parar de funcionar, ele não irá prejudicar a compu- tação como um todo. 13 UNIDADE Big Data Redes de Alta Velocidade Que: • Enviam informações em modo assíncrono através de uma rede de dados, utilizando tecnologia ATM (Asynchronous Transfer Mode), que é uma tec- nologia de comunicação de dados de alta velocidade utilizada para interligar redes locais, metropolitanas e de longa distância para aplicações de dados, voz, áudio e vídeo. Sistemas de Armazenamento Escaláveis – NAS (Network Attached Storage) Com armazenamento ligado à rede, significa que: • O armazenamento pode crescer e diminuir conforme a demanda; • O conceito está diretamente associado ao de sistemas distribuídos, nos quais é possível alcançar a alta performance das máquinas; • Os sistemas dividem as tarefas garantindo a utilização otimizada dos equipa- mentos e softwares; • Cada um dos servidores é compreendido como um nó da rede, cuja malha atende às mais variadas demandas tecnológicas. Algoritmos específicos O algoritmo diz ao computador quais os passos, e em que ordem eles devem ser executados. Existem vários em mineração de dados (Data Mining) utilizados para resolver problemas específicos, e são categorizados em algoritmos de: • Associação – Para achar todas as associações em que a presença de um con- junto de itens em uma transação implica em outros itens; • Classificação ou geração de perfis – Desenvolvem perfis de diferentes grupos; • Padrões sequenciais – Identificam tipos de padrões sequenciais em restrições mínimas especificadas pelo usuário; • Agrupamento – Segmentam o banco de dados em subconjuntos ou grupos. Inteligência Artificial Conceito amplo que: • Envolve um conjunto de tecnologias que procuram se aproximar das caracte- rísticas humanas; • Possibilita aos computadores se tornarem tão inteligentes quanto os humanos; • Desenvolve uma máquina que possa simular algumas habilidades humanas e que os substitua em algumas atividades. 14 15 Características do Big Data Para as organizações, a capacidade de agregar e tratar os dados e assim conhecer melhor as necessidades de um cliente, otimizando os processos internos, reduzindo custos e aumentando a produtividade, já se transformou em condição fundamental para um crescimento consolidado. O Big Data está revolucionando a sociedade na forma de lidar com a informação. Por ser um termo que impacta nos negócios do dia a dia, trabalhando com o imenso volume de dados estruturados e não estruturados, o Big Data é caracterizado atualmente por 5 V (Volume, Velocidade, Variedade, Veracidade e Valor) dos dados. Volume de Dados Refere-se à quantidade de dados envolvidos gerados no armazenamento de dados. Tabela 2 – Unidades de medidas da área da informática 1 Bit (*) Um dígito binário 1024 Terabytes 1 Petabyte 8 Bits 1 Byte 1024 Petabytes 1 Exabyte 1024 Bytes 1 Kilobyte 1024 Exabytes 1 Zettabyte 1024 Kilobytes 1 Megabyte 1024 Zettabytes 1 Yottabyte 1024 Megabytes 1 Gigabyte 1024 Yottabytes 1 Brontobyte 1024 Gigabytes 1 Terabyte 1024 Brontobytes 1 Geopbyte (*) Bit (BInary digiT) - dígito binário Variedade dos Dados São os dados obtidos de diversas fontes e formatos, gerados na navegação em uma página web, pesquisas, fóruns, redes sociais, e-mails, sensores variados, inter- net das coisas, áudio e vídeo. Incluem não apenas dados transacionais, como ativos financeiros, variaçãode preço de ações, saúde, educação, negócios, entre outros. Mais de 70% dos dados são obtidos atualmente de dados não estruturados, possibilitando a construção de novos algoritmos e técnicas para análise. Velocidade dos Dados A velocidade é medida de acordo com o tempo que estes dados são gerados, armazenados e recuperados. Ao acessar uma página na internet, o usuário gera dados automaticamente. É o fluxo dos dados. Os dados fluem em alta velocidade entre as redes sociais, vídeos, documentos, e-mails, notícias etc. E tudo gera dados valiosos devem ser tratados em tempo hábil. 15 UNIDADE Big Data Veracidade É necessário validar a confiabilidade dos dados, para que tenha características como qualidade, consistência, origem conhecida, valores internos ou externos à organização. Atualmente, um volume muito grande de informações não confiáveis são gera- das, conhecidas como Fake News (notícias falsas), mas que aparentam ser verda- deiras e podem gerar dados irrelevantes ao negócio. Valor Dado que permita agregar valor à organização. Como aumentar a receita, iden- tificar novas oportunidades, reduzir custos, medir a satisfação do cliente, identificar os melhores resultados como a qualidade de um produto, e para a resolução de problemas no atendimento, entre outros. Onde o Big Data pode ser aplicado • Monitoramento das redes sociais, com os acessos, publicações e relaciona- mentos; • Recomendação de filmes, de acordo com o perfil do usuário; • Análise de dados digitais para a tomada de decisões (Web Analytics); • Sensores em sistemas de transporte, como o controle de tráfego, velocidade ou rota do veículo; • Evitando fraudes em sistemas financeiros, com a análise dos dados e perfil dos clientes; • Na medicina, como o combate a doenças e epidemias, experiências, relacio- namentos e hábitos dos pacientes; • Tráfego nas redes de computadores, com a análise dos dados concentrados em um ponto, ou tentativas de invasões; • Direcionar uma determinada publicidade ou propaganda de acordo com a busca ou perfil do cliente; • Como os serviços de telefonia são utilizados, a concentração de ligações por celular; • As etiquetas de venda (Tags) com o uso da identificação por rádio frequência (radio frequency identification). 16 17 Possibilidades de Aplicações do Big Data em Algumas Áreas No Direito • Redução de recorrências e entradas de novos processos, com o detalhamento de problemas e reais motivações; • Redução do custo operacional e redução de perdas, dar mais celeridade aos processos; • Melhorar visibilidade e previsibilidade, priorizar os casos mais críticos e com agravantes. Na medicina • Auxiliar a obtenção de diagnósticos e a adoção de tratamentos; • Na previsão de eventos relacionados à saúde da pessoa, como risco de mor- te, chances de sucesso de um tratamento e a possível readmissão em um centro médico; • Melhoria do processo de triagem e admissão, a distribuição de funcionários e alocação de leitos. Educação • Acompanhar a evolução do aprendizado por série; • Controle da evasão e melhorias na gestão administrativa; • Mapear o desempenho dos alunos, atuando prontamente para melhoria do aprendizado. No comércio • Ajuste de preços e promoções de acordo com o perfil dos clientes e seus hábitos de compra; • Controle efetivo de estoque, comprando o que mais se vende, e assim evitan- do perdas; • Descoberta de novas tendências para atendimento às necessidades imediatas, e criar estratégias de vendas direcionadas por regiões. 17 UNIDADE Big Data Na indústria • Diminuir o desperdício com resíduos, custo, armazenamento, transportes. • Otimização de produtos de acordo com desejos e reação dos consumidores com novos produtos; • Tendências futuras e previsão de demanda. Quando o produto será necessário no local de venda. Na agricultura • Aumento e evolução do plantio em uma mesma área; • Controle de pragas, com previsão de novas infestações; • Melhoria na produção e gerenciamento dos lucros e prejuízos. Na segurança • Comparação de perfil com todas as bases de dados disponíveis; • Garantir a privacidade dos usuários; • Prevenir invasões físicas ou virtuais. 18 19 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Vídeos Falta de Cultura para Análise de Dados emperra uso de Big Data no Trânsito https://goo.gl/ch96tr BIG DATA | Nerdologia 40 https://youtu.be/hEFFCKxYbKM Olhar Digital – Você sabe o que é Big Data? https://youtu.be/OMBGEQ3pjMw Leitura Conheça as Diferenças entre as Principais Formas de Armazenamento https://goo.gl/68QyFH Como o Big Data pode ser usado na Educação https://goo.gl/nf4CUA Uma Conjectura sobre as Tecnologias de Big Data na Prática Jurídica https://goo.gl/BzkoGG Desafios de segurança e privacidade em Big Data https://goo.gl/rvjztV 19 UNIDADE Big Data Referências ABREU, Giovanna Oliveira Lima de. BIG DATA: Como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. 2014. Disponível em:<http://periodicos.ufpb.br/ojs2/index.php/tematica/article/view/21510/ 11881>. Data de acesso: 05 de janeiro de 2018. FERREIRA, Talieh Shaikhzadeh Vahdat; COSTA, Francisco José da. Big Data: Reflexões epistemológicas e impactos nos estudos de finanças e mercado de capitais. REPeC – Revista de Educação e Pesquisa em Contabilidade. 2017. Disponível em: <http://www.repec.org.br/index.php/repec/article/viewFile/1634/1272>. Data de acesso: 12 de fevereiro de 2018. MARTINS, César Silva; SIMÕES, Paulo; OLIVEIRA e SÁ, Jorge. Uma Arquitetura Moderna de Dados: Um Caso de Teste. Universidade do Minho. 2014. Disponível em: <https://repositorium.sdum.uminho.pt/bitstream/1822/31369/1/paper_ cpasi_2014_arquitetura_moderna_vf.pdf>. Data de acesso: 28 de janeiro de 2018. MAYER-SCHONBERGER, Viktor; CUKIER, Kenneth. BIG DATA: Como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. Tradução. Elsevier, 2014. MUCHERONI, Marcos L; FUSCO, Elvis. Plataforma de apoio à inovação baseada em agentes inteligentes semânticos: A interdisciplinaridade de modelos computacionais e informacionais. VII Encontro Nacional de Pesquisa em Ciência da Informação. 2016. Disponível em: <http://www.ufpb.br/evento/lti/ocs/index. php/enancib2016/enancib2016/paper/viewFile/3834/2568>. Data de acesso: 10 de fevereiro de 2018. REBELLO SILVA, Celina; RODRIGUES, Elaine Maria Tavares. Privacidade em big data: Panorama e agenda de pesquisa. Sistemas & Gestão. Revista Eletrônica. 2017. Disponível em: <http://www.revistasg.uff.br/index.php/sg/article/view/ 1205/769>. Data de acesso: 10 de fevereiro de 2018. 20