Prévia do material em texto
1 INTRODUÇÃO AO MUNDO BIG DATA E CIÊNCIA DE DADOS 1 SUMÁRIO NOSSA HISTÓRIA ..................................................................................................... 2 1. INTRODUÇÃO ..................................................................................................... 3 1.1 Fontes de geração de dados ..................................................................................................... 4 1.2 Dados são o novo petróleo ....................................................................................................... 5 1.3 Dark data (dados escuros) ........................................................................................................ 6 1.4 Geração de dados ..................................................................................................................... 6 1.5 Dimensionamento dos dados ................................................................................................... 7 1.6 Impactos e oportunidades do uso de Big Data .......................................................................... 9 1.6.1 Exemplos da eficiência do uso da Big Data ........................................................................10 1.7 Projeto e etapas em Big Data...................................................................................................11 1. CAPTURANDO E ARMAZENANDO OS DADOS.............................................. 13 2.1 Formas de obtenção dos dados ...............................................................................................13 2.1.1 Dados internos .................................................................................................................14 2.1.2 Dados da web ...................................................................................................................15 2.2 Classificação dos dados ...........................................................................................................17 2.2.1 Dados estruturados ..........................................................................................................17 2.2.2 Dados semiestruturados ...................................................................................................18 2.2.3 Dados não estruturados....................................................................................................18 2.2.4 Dados em movimento ......................................................................................................18 2.2.5 Dados em repouso ............................................................................................................18 2.3 Os V’s do Big Data ...................................................................................................................19 2.3.1 Volume .............................................................................................................................19 2.3.2 Velocidade ........................................................................................................................19 2.3.3 Variedade .........................................................................................................................20 2.3.4 Veracidade .......................................................................................................................20 2.3.5 Valor.................................................................................................................................21 2.4 Estratégia de Big Data nas empresas .......................................................................................21 2. INTRODUÇÃO A CIÊNCIA DE DADOS ............................................................ 24 3.1 Etapas da Ciência de Dados .....................................................................................................25 3.2 Kaggle .....................................................................................................................................25 3.3 O profissional Data Scientist ....................................................................................................26 3.4 Considerações Finais ...............................................................................................................27 Referências .............................................................................................................. 29 2 NOSSA HISTÓRIA A nossa história inicia com a realização do sonho de um grupo de empresários, em atender à crescente demanda de alunos para cursos de Graduação e Pós-Graduação. Com isso foi criado a nossa instituição, como entidade oferecendo serviços educacionais em nível superior. A instituição tem por objetivo formar diplomados nas diferentes áreas de conhecimento, aptos para a inserção em setores profissionais e para a participação no desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua. Além de promover a divulgação de conhecimentos culturais, científicos e técnicos que constituem patrimônio da humanidade e comunicar o saber através do ensino, de publicação ou outras normas de comunicação. A nossa missão é oferecer qualidade em conhecimento e cultura de forma confiável e eficiente para que o aluno tenha oportunidade de construir uma base profissional e ética. Dessa forma, conquistando o espaço de uma das instituições modelo no país na oferta de cursos, primando sempre pela inovação tecnológica, excelência no atendimento e valor do serviço oferecido. 3 1. INTRODUÇÃO Acredito que não importa qual seja sua profissão, seu cargo e as pessoas com quem você conversa, você possivelmente já deve ter ouvido falar em algum momento nessa expressão tão popular atualmente: Big Data. Essa minha premissa ocorre pelo fato de que não é preciso muito esforço para encontrarmos uma notícia referente a esse termo nos dias atuais. Seja em sites, jornais ou revistas das áreas de astronomia, biologia, educação, economia, política ou até culinária, podemos encontrar alguma publicação que relate o potencial e as características de Big Data. De fato, Big Data tem sido alvo de muita atenção no mundo dos negócios, no governo e no meio acadêmico. Big Data atrai a curiosidade. Representa dados em grandes quantidades, em uma dimensão não imaginada alguns anos atrás, e que um dia poderiam vir a ser armazenados e processados por computadores a um baixo custo. O termo surgiu para se referir às aplicações de computadores que utilizam grandes volumes de dados em diferentes formatos, que podem ser agrupados, lidos, convertidos, analisados com técnicas estatísticas, matemáticas e computacionais, gerando um novo tipo de conhecimento chamado de “Data Insight”, algo conclusivo e ainda nunca pensado sobre os dados originais. A geração de insights a partir dos dados, pode resultar tanto na decisão de uma mudança brusca na orientação de um negócio, quanto na criação de um novo produto, chamado de “Data-Driven Product” (Produto Orientado a Dados) que podem revolucionar a empresa e os seus negócios. Na verdade, hoje estamos conectados digitalmente desde que acordamos até a hora de dormir, absorvendo um volume muito grande de conteúdo e também gerando muito conteúdo. Este fenômeno acontece no nosso dia a dia, seja em casa ou no trabalho. Aliás, esta é outra transformação. Fica cada vez mais difícil separar o “em casa” de “no trabalho”. A computação está se tornando tão ubíqua que fica praticamente impossível separar o mundo físico do digital. Nos anos 90 (e isso tem menos de vinte anos) apenas os setores digitalizáveis como a música e a mídia tornaram-se digitais. No início dos anos 2000 o mundo físico se aproximou mais da digitalização com o comércio eletrônico e o Internet Banking. Hoje estamos 4 começando aver claros sinais da hiper conectividade, com cloud computing, a revolução da mobilidade e a Internet das Coisas permeando nossa sociedade. Nossos hábitos como pessoas conectadas, tornam-se hábitos como consumidores (checamos preços e avaliações antes de qualquer compra) e tornam-se também hábitos como funcionários (por que sou impedido de me conectar com os meus amigos via Facebook no escritório?). Podemos encontrar casos de uso em que Big Data permitiu a redução do número de fraudes, aumento de lucros, conquista de eleitores, redução de custos na produção, eficiência energética, aumento de segurança, entre outros benefícios tão almejados em diversos domínios. Muito embora o interesse esteja em alta, Big Data ainda é um termo incipiente, gerando incertezas sobre sua definição, características, aplicabilidade e desafios. Quais dados fazem parte do contexto de Big Data? Qual a definição desse conceito? Como obter dados de diferentes fontes? Como extrair valor a partir dos dados? Qual a infraestrutura necessária para criar uma solução de Big Data? Quais habilidades são necessárias para se atuar com Big Data? Enfim, estas e outras questões serão respondidas nessa apostila. 1.1 Fontes de geração de dados Os dados gerados para Big Data provêm de três fontes: Pessoas, Máquinas, Empresas. Pessoas Geram dados a partir de Redes Sociais (Facebook, Twitter, Instagram, LinkedIn), e-mails, uso de Internet, geração de documentos, publicação de blogs, etc. Maquinas Geram dados a partir de sensores, satélites, arquivos de logs, câmeras, máquinas de sequenciamento genético, telescópios espaciais, sondas, etc. Highlight 5 Empresas Geram dados a partir de transações comerciais, cartões de crédito, sistemas de controles administrativos e financeiros, comércio eletrônico, registros médicos, vendas de produtos, pesquisa de novas tecnologias, etc. Figura 1.1 – Geração de dados 1.2 Dados são o novo petróleo A frase “Data is the new oil” surgiu em 2006 e desde então vem sendo utilizada com frequência em publicações importantes, citadas por CEOs e líderes mundiais da Fortune 500, para se referir à importância do dado e da informação nesta era do Big Data. Trata-se de uma Analogia, pois da mesma forma que há um século atrás, as empresas que conseguiram explorar Petróleo, acumularam vasta riqueza, estabeleceram monopólios e construíram a base da economia, hoje, as empresas “data-driven” como a Google, Facebook, Uber, Amazon, Yahoo, entre outras estariam fazendo o mesmo com a nossa economia. Vivemos em uma economia digital, onde os dados são muito valiosos. É a chave para a boa funcionalidade do mundo, desde governos até empresa. Sem eles o progresso do mundo seria interrompido. Dados são o combustível que direciona a economia, e provavelmente estamos passando a viver na chamada “Data Economy” (Economia de Dados). Highlight 6 1.3 Dark data (dados escuros) Estima-se que para 2030 mais de 90% dos dados serão não estruturados e esta explosão de dados, vai superar a capacidade humana em utilizá-los. Dark Data ou Dados Escuros, são dados adquiridos através de várias operações pelas empresas e não utilizados para fins de análise. Pode-se decidir manter estes dados para uso futuro, com custos adicionais de armazenamento ou descartá-los por considerá-los sem utilidade. O acelerador de partículas atômicas (Large Hadron Collider) da Organização Europeia para a Pesquisa Nuclear, é o maior do mundo, gerando 25GB de dados por segundo. A maior parte destes dados tem de ser descartada pois o volume é tão grande que invalidaria seu armazenamento e tempo hábil para análise. Figura 1.3 – Large Hadron Collider Quando se tem geração de dados em alta velocidade, e não é possível armazena-los totalmente, são utilizadas técnicas de amostragem, colhendo apenas uma fração dos dados mais representativos que não comprometem a análise. 1.4 Geração de dados Big Data se tornou viável combinando grandes volumes de dados, associados ao baixo custo das tecnologias de hardware, software e computação de nuvem, e a Highlight 7 necessidade das empresas gerarem novos conhecimentos, ou “insights” para garantirem a sobrevivência. Mas, quem gera mais dados? Empresas, Pessoas ou Máquinas? Máquinas geram mais dados. Geram 100 vezes mais dados que as empresas e 10 vezes mais dados que as pessoas. Resumindo: Empresas = geram 1X Pessoas = geram 10X Máquinas = geram 100X Enquanto dados gerados por humanos são aqueles oriundos do pensamento de uma pessoa, podemos definir dados gerados por máquinas como dados digitais produzidos por processos de computadores, aplicações e outros mecanismos, sem necessitar explicitamente de intervenção humana. Alguns exemplos de dados gerados por máquina são: sensores de todos os tipos embutidos em equipamentos, sensores em máquinas em geral, clusters de computadores, logs gerados dispositivos (computadores, smartphones, celulares, nós de redes, roteadores), telemetria por satélites, chips RFID, Sistemas de GPS, software que geram cálculos automáticos, sistemas de aprendizado de máquina, sistemas de automação, Internet das Coisas (IoT), entre outros. 1.5 Dimensionamento dos dados Se você tem um celular ou computador, deve ter noção da capacidade de armazenamento. Um celular tem 16, 32, 64, 128GB ou mais, para armazenamento. Um computador 4, 8, 16, 32 GB ou mais de memória RAM e discos de 250, 500 GB, 1TB ou mais . Se o seu celular tem 64GB de espaço, equivale a dizer que podem ser armazenados 64 x 1.073.741.824 Bytes ou Caracteres. Medidas de dados são escalonadas utilizando como base numérica o sistema binário (base 2) dos computadores. Assim, 2ˆ10 (dois elevados à potência 10) equivale a 1.024 Bytes. Vamos conhecer estas medidas, para adquirir uma noção do volume de dados gerados em Big Data. Unidades de Medidas de Dados e Valores. Highlight 8 1 Byte = 1 Caractere ou 8 bits 1 kilobyte (KB) = 1024 bytes 1 MegaByte (MB) = 1024 KiloBytes 1 GigaByte (GB) = 1024 MegaBytes 1 TeraByte (TB) = 1024 GigaBytes 1 PetaByte (PB) = 1024 TeraBytes 1 ExaByte (EB) = 1024 PetaBytes 1 ZettaByte (ZB) = 1024 ExaBytes 1 YottaByte (YB) = 1024 ZetaBytes Você utiliza medidas diariamente, como quilos para peso, metros ou quilômetros para distância, e ao longo do tempo vai se adaptar naturalmente à estas medidas de dados. Medir dados é sempre um processo assustador, pois vamos perceber que o volume aumenta exponencialmente e nossos dispositivos não estão preparados para todo este armazenamento, sendo necessário recorrer para as tecnologias de nuvem que fornecem armazenamento quase ilimitado ao que precisamos. Uma foto de boa resolução tem em média 5MB (milhões de bytes). Se tirar 100 fotos, vai precisar de um espaço de 500 MB para armazena-las. Pen drives armazenam em média de 32 a 256 GB e podem ser úteis. Se precisar, utilize gratuitamente em nuvem o Google Fotos com 30 GB. Quando falamos em Big Data, as unidades de medida começam na casa dos TeraBytes e PetaBytes de dados e não mais na casa dos KB, MB ou GB que estamos acostumados. Highlight Highlight 9 1.6 Impactos e oportunidades do uso de Big Data Os exemplos apresentados nos mostram a diversidade de dados que existe atualmente. São dados de diferentes formatos, gerados em períodos e locais diferentes e por diferentes agentes. Mas uma vez que esses dados existem, o que podemos fazer com eles? Eis a grande questão. Por exemplo, o que um registro de log pode fornecer de informação para meu e-commerce? O que posso fazer com os dados coletados de redes de sensores? O que as opiniões das redes sociais podem me fornecer de valioso? São empresas capazes de responder essas questões que estão potencializando seu negócio a partir de Big Data. Mas será que precisocapturar todos esses dados para obter oportunidades com as tecnologias de Big Data? A resposta é não. Muitas empresas já possuem quantidades significativas de dados e não as utilizam para obtenção de valor. Isso pode ocorrer por diversos aspectos em relação à manipulação dos dados. Por exemplo, oportunidades podem ser desperdiçadas pelo fato de que: Os dados não estão integrados. — Eles já são gerados pela empresa, mas por serem armazenados em diferentes sistemas e bases, não fornecem uma visão ampliada da solução de um problema. Os dados demoram para ser analisados. — Nesse caso, gasta-se muito tempo no processo de análise dos dados, o que impede a identificação de informações no momento adequado. Os dados não estão categorizados. — São casos em que os registros dos conjuntos de dados estão armazenados de diferentes maneiras, CURIOSIDADE O Google é a maior empresa de Big Data do mundo, processando 3,5 bilhões de solicitações diárias, gerando e armazenando 10 ExaByte de dados. Highlight Highlight Highlight 10 sem uma padronização dos campos, impedindo a identificação de anomalias e categorias existentes nos dados. Os dados estão obscuros. — Casos em que só é possível obter informações a partir da análise de outros dados, como a identificação de padrões em streaming de vídeos, extração de informações em imagens e dados manuscritos. Os dados não são usados na tomada de decisão. — São os que poderiam ser utilizados no processo de apoio à tomada de decisão, mas por não serem integrantes dos dados tradicionais da empresa, são descartados desse processo. Os dados não são visualizados com clareza. — São situações nas quais os dados já são armazenados, porém não são analisados e apresentados de maneira efetiva para gerar percepções sobre eles. Os dados não são medidos. — Refere-se a casos nos quais não se utilizam as métricas que os dados podem fornecer para a compreensão de um fato, até então, imperceptível. Perceba que muitas empresas já têm a possibilidade de aperfeiçoar a utilização de seus dados, mas não conseguem por fatores como os descritos anteriormente. Medidas como a adoção de novas tecnologias ou uma nova forma de organização dos dados podem trazer grandes transformações em relação à utilização de dados para extração de valor. 1.6.1 Exemplos da eficiência do uso da Big Data Um exemplo é o que ocorreu com uma sede da Microsoft que possuía mais de mil funcionários. Com foco em traçar um plano de eficiência energética dentro da sede, a empresa possuía mais de 30 mil sensores gerando dados a todo instante sobre o consumo de energia. O problema é que esses dados estavam espalhados em diversos sistemas da empresa, impedindo que ela tivesse uma visão ampla do consumo energético. Com a integração dos dados em um sistema único de eficiência energética, a empresa conseguiu identificar, entre outras análises, salas que consumiam energia sem ter a necessidade. Highlight Highlight Highlight Highlight Highlight 11 Como resultado, essa integração evitou um gasto de 60 milhões de dólares com investimento em tecnologias de eficiência energética. Perceba que, nesse caso, a empresa já gerava os dados necessários, o problema estava no modo com que eles estavam organizados. Outro exemplo é o da Pirelli, empresa multinacional do setor de produção de pneus. Essa empresa estava tendo problemas para entregar seus produtos aos milhares de clientes no tempo correto, sem que houvesse atraso nos pedidos. Um dos fatores que ocasionavam esses atrasos era a demora para a geração dos relatórios, impedindo os analistas de terem uma visão atualizada da situação do estoque e dos pedidos de vendas. A solução nesse caso foi utilizar uma tecnologia de Big Data que agilizasse o processo de geração de relatórios para os analistas. Com essa medida, utilizando uma tecnologia de processamento em memória, relatórios que demoravam um dia inteiro para serem atualizados passaram a ser gerados em 10 minutos. Essa otimização fez com que a empresa tivesse menos desperdício em sua produção, entregasse os produtos de acordo com o prazo e otimizasse o processo de entrega. Perceba que a empresa já analisava os dados obtidos, mas ela aumentou o valor dos dados agilizando o processo de análise. Esses casos denotam como os dados podem gerar diferentes oportunidades, dependendo da maneira com que são usados. 1.7 Projeto e etapas em Big Data Os exemplos apresentados demonstram diferentes formas de como Big Data pode ser utilizado. Entretanto, projetar uma solução não é uma tarefa simples, existindo diversos percalços no decorrer de seu desenvolvimento. Para que se possa chegar à etapa final de um projeto de Big Data, existe um conjunto de etapas que deverão ser executadas. De forma resumida, descrevo uma sequência de passos existentes nesses projetos. 1. O primeiro passo a ser feito (e que muitas vezes ainda é descartado) é identificar quais perguntas se deseja responder com os dados. É nesse momento que deve ser determinado quais informações pretende-se 12 extrair de um conjunto de dados. Essa tarefa não é fácil. Necessita de pessoas com pensamento analítico, capazes de identificar possíveis análises sobre diferentes dados. Quanto mais claras forem as respostas obtidas nessa fase, mais fácil se torna a execução das fases seguintes. 2. O próximo passo refere-se a captura e armazenamento dos dados. Devemos então identificar quais fontes serão utilizadas e como os dados serão capturados. Para isso, torna-se necessário identificar a solução adequada para armazenar cada tipo de dado. É nessa fase que identificamos a ordem com que os dados serão usa- dos, definimos quais campos serão utilizados e quais informações devem ser tratadas. 3. Estando os dados armazenados, passamos para a fase de processamento e análise. Tecnologias de Big Data são cruciais nessa fase, para oferecer escalabilidade e desempenho para a aplicação. É nessa fase também que se determina qual algoritmo de análise de dados será usado. Inserem-se aqui os mecanismos de aprendizado de máquina, métodos estatísticos, fundamentos matemáticos e mineração de dados. 4. Por fim, Big Data também inclui a etapa de visualização de dados, em que são utilizadas técnicas de criação de gráficos dinâmicos e interativos. Essa etapa pode também ser usada em conjunto com a fase de análise de dados, para facilitar o processo de descoberta dos dados. 13 1. CAPTURANDO E ARMAZENANDO OS DADOS Após ter identificado o foco do projeto de Big Data e definido as respostas que deseja obter por meio de dados, você pode dar início à identificação de quais dados deverão ser capturados. Esses dados já existem ou ainda precisam ser gerados? São internos ou externos? Em qual formato eles estão? Essa série de perguntas é necessária para dar início a uma das fases iniciais do projeto: a captura dos dados. Aliado a essa etapa, deve ser traçada uma estratégia para definir como os dados capturados serão armazenados. O que é necessário para armazenar dados em grande volume, variedade e em alta velocidade? Será que o banco de dados relacional é a melhor opção? Caso não seja, quais são as outras opções? 2.1 Formas de obtenção dos dados Para facilitar nossa compreensão sobre as etapas de captura e armazenamento de dados, vamos utilizar como exemplo um projeto de Big Data para uma empresa da área de varejo, que aqui chamaremos de Big Compras. Pensando em oferecer uma melhor experiência aos seus milhares de clientes, os executivos da Big Compras desenvolveram um aplicativo com as seguintes funcionalidades: Permitir a pesquisa e compra das centenas de produtos da empresa; Permitir que o cliente avalie um produto e verifique os comentários de outros clientes; Permitir que o cliente compartilheas informações de produtos e listas de compras nas redes sociais. Poucos meses após o lançamento, o aplicativo se tornou um sucesso, atingindo a marca de 1 milhão de usuários. Com esse crescimento, a empresa percebeu que o aplicativo já não estava suportando a quantidade de acessos, gerando a insatisfação dos usuários com as ocorrências de queda de serviço e lentidão de processamento. Além disso, o volume de dados gerado durante as interações dos usuários com o aplicativo foi crescendo exponencialmente. Entretanto, a empresa não sabia ao certo o que fazer com os dados coletados. 14 Para resolver essas questões, ela contratou uma equipe de profissionais com a missão de aperfeiçoar o desempenho do aplicativo e entender quais dados eram relevantes para a empresa e como eles poderiam ser usados como vantagem competitiva. Como será que essa equipe poderia resolver esses problemas? Para compreendermos os desafios da Big Compras, identificaremos as estratégias de captura de dados que podem ser adotadas em um projeto de Big Data. O objetivo é apresentar como cada tipo de dado requer uma estratégia diferente para ser utilizado no projeto. 2.1.1 Dados internos A primeira abordagem da equipe contratada pela Big Compras foi investigar quais eram os dados internos da empresa. Podemos definir dados internos como sendo aqueles dos quais a empresa é dona e possui controle. Ou seja, a equipe estava interessada em descobrir quais dados já eram gerados e controlados pela empresa, antes de buscar soluções que envolviam a aquisição de novas fontes de dados. Após uma extensa investigação, os membros da equipe chegaram à surpreendente lista de conjuntos de dados: Dados de sistemas de gerenciamento da empresa: sistemas de gerenciamento de projetos, automação de marketing, sistema CRM (Customer Relationship Management), sistema ERP (Enterprise Resource Planning), sistema de gerenciamento de conteúdo, dados do departamento de recursos humanos, sistemas de gerenciamento de talentos, procurações, dados da intranet e do portal da empresa. Arquivos: documentos escaneados, formulários de seguros, correspondências, notas fiscais, arquivos sobre relação da empresa com seus clientes. Documentos gerados por colaboradores: planilhas em formato XML, relatórios em formato PDF, dados em formato CSV e JSON, e-mails, documentos em formato Word, apresentações em formato PPT, páginas Web em formato HTML e XML. 15 Sensores: dados de medidores inteligentes, sensores de carros, câmeras de vigilância, sensores do escritório, maquinários, aparelhos de ar condicionado, caminhões e cargas. Registros de logs: logs de eventos, dados de servidores, logs de aplicação, logs para auditoria, localização móvel, logs sobre uso de aplicativos móveis e logs da Web. Uau, quantos dados já são coletados pela Big Compras. Perceba que, somente com dados internos, as empresas em geral já possuem uma diversidade de dados a serem explorados. Dessa forma, uma recomendação feita às empresas que pretendem iniciar sua jornada em Big Data é identificar formas de organizar, analisar e utilizar seus dados internos para melhoria dos negócios. Além de esses dados serem mais fáceis de serem adquiridos do que os externos, eles podem revelar informações importantes para as decisões da empresa. 2.1.2 Dados da web Continuando a investigação sobre os dados que poderiam ser usados pela Big Compras, a equipe identificou dados da Web que poderiam ser coletados de fontes externas, com o propósito de verificar quais poderiam ser relevantes no projeto de Big Data. O resultado dessa investigação chegou à seguinte lista: Dados de domínio público: dados disponibilizados pelo governo, dados sobre o clima, tráfego e regulamentações, dados econômicos, dados do censo, de finanças públicas, legislação, comércio exterior e Wikipédia. Dados de sites de terceiros: imagens, vídeos, áudios, podcasts, textos de comentários e revisões em sites da Web. Mídias sociais online: Twitter, LinkedIn, Facebook, Tumblr, SlideShare, YouTube, Google+, Instagram, Flickr, Pinterest, Vimeo, Wordpress, RSS, Yammer, entre outras. 16 Nesses tipos de dados, não somente o volume e a velocidade, mas também a variedade de dados disponíveis torna sua captura, armazenamento e análise um desafio. No caso da Big Compras, foi identificado que, uma vez que os clientes compartilhavam informações de seus produtos nas mídias sociais online, seria importante analisar esses dados para descobrir se a empresa estava sendo bem ou mal avaliada pelos seus serviços. A partir dessa estratégia, seria possível identificar quais aspectos eram mais comentados e também gerar novas interações com os clientes por diferentes canais. Para isso, a equipe precisou desenvolver uma técnica para obter esses dados. Mas como capturar esses dados? A principal forma de captura de dados de mídias sociais online é por meio de uma API (do inglês Application Programming Interface), que podemos definir como um conjunto de instruções e padrões de programação, para que os usuários tenham acesso aos dados de um aplicativo ou plataforma. As mídias sociais online (como o Facebook, Twitter e YouTube) disponibilizam APIs para que usuários interajam com os dados que circulam dentro de suas redes, seja capturando-os ou inserindo novos. A lista a seguir apresenta links para o acesso à documentação de APIs de algumas mídias sociais online: Facebook — https://developers.facebook.com/ Flickr — https://www.flickr.com/services/api/ Instagram — https://www.instagram.com/developer/ LinkedIn — https://developer.linkedin.com/ Pinterest — https://developers.pinterest.com/ Twitter — https://dev.twitter.com/ YouTube — https://developers.google.com/youtube/ Utilizando a API do Twitter, por exemplo, um desenvolvedor pode fazer requisições ao servidor da rede e obter uma lista de mensagens postadas que fazem menção a uma determinada palavra. No caso da Big Compras, por exemplo, a equipe poderia utilizar a API do Twitter para capturar o fluxo de mensagens que contém a hashtag #BigCompras. Highlight Highlight Highlight Highlight Highlight Highlight Highlight Highlight Highlight 17 Uma das maneiras que muitas mídias sociais estão fornecendo acesso às suas APIs é por meio do protocolo REST (REpresentational State Transfer). Esse protocolo oferece um estilo que facilita a comunicação entre aplicações Web. O Twitter, por exemplo, oferece uma API que permite ao usuário fazer declarações REST e obter o retorno das declarações em formato JSON. 2.2 Classificação dos dados Aplicações tradicionais de computadores utilizam dados estruturados, tabelas com linhas, colunas e campos bem definidos para processamento. Os dados na era do Big Data, originam-se de diversos locais, com diferentes tipos e formatos, o que torna complexa a sua manipulação. Organizamos os dados em 3 tipos: Estruturados Semiestruturados Não estruturados As aplicações de Big Data visam realizar a análise dos dados provenientes de diferentes locais e de diferentes tipos. Em uma aplicação, podemos pensar em dados misturados, uma parte vinda de um Banco de Dados estruturado, outra de um Satélite em formato GIS, outra de arquivos como Word e Excel, outra das Redes Sociais, outra parte de sensores de máquinas. De uma mistura como essa, vamos produzir “Insights”, que nos conduzirão à solução de problemas, à resposta de uma pergunta, ou quem sabe à criação de um novo produto empresarial (chamado de produto de dados). 2.2.1 Dados estruturados São organizados em linhas e colunas, em formato de tabela, e são encontrados em banco de dados relacionais, sendo muito eficientes quanto à recuperação e processamento. Planilhas eletrônicas e SQL (linguagem dos Bancos de Dados) sãopróprios para acesso e manipulação destes dados. Highlight Highlight 18 2.2.2 Dados semiestruturados São dados com organização diferenciada, normalmente provenientes da Web nos formatos XMLe JSON, que precisam de uma prévia análise dos dados para identificação de sua estrutura. 2.2.3 Dados não estruturados São dados de vídeo, áudio, e-mails, documentos de textos em geral (posts, blogs) e dados gerados por aplicativos de redes sociais como mensagens do WhatsApp por exemplo. Estes dados requerem um pré-processamento para análise. Dados podem estar em movimento ou em repouso. 2.2.4 Dados em movimento Dados em Movimento referem-se a dados de “stream”, em trânsito, se movendo através da rede, de um lado para outro, de um nó para outro. Por exemplo, o termo “live streaming” se refere às transmissões de vídeo via Internet e ao vivo. Eles são parte importante de Big Data, com processamento e análise em tempo real, à medida que estão sendo capturados. É mais difícil processar estes dados, pois têm custo maior, mas devido a sua importância, e se usados corretamente, podem colaborar para a empresa obter conhecimentos valiosos em tempo real para a solução de problemas. O processo de proteção contra roubo dos dados em movimento é chamado de “Criptografia”. 2.2.5 Dados em repouso Dados em Repouso estão armazenados em um destino estável, não estão em uso e nem viajando para outros destinos. Uma vez que atingiram o seu destino, são armazenados, e recebem camadas de segurança adicionais como criptografia e proteção por senha. Highlight 19 São dados bem protegidos, como os armazenados em Armazéns de Dados, que possuem segurança utilizando estruturas de permissão de acesso para os usuários. Estes dados são “ativos” muito importantes, pois além de contar a história da empresa, fornecem a base para a sua operação e existência. 2.3 Os V’s do Big Data Para uma aplicação ser considerada de Big Data, é preciso que esteja de acordo com algumas características chamadas de V’s do Big Data. Entre elas, as cinco mais famosas, são: Volume, Velocidade, Variedade, Veracidade e Valor. 2.3.1 Volume O volume é o ponto de partida para entender o conceito de Big Data. A enorme quantidade de dados gerados diariamente permite a análise das mais diversas informações, desde cliques em sites, histórico de compra, avaliação de atendimento, entre outros. Esse fator também é determinante na questão do armazenamento de dados, que com a expansão dos servidores e a possibilidade de disponibilizar informações na nuvem vem se desenvolvendo cada vez mais. Big Data é uma grande quantidade de dados gerada a cada segundo. Pense em todos os e-mails, mensagens de Twitter, fotos e vídeos que circulam na rede a cada instante. A tecnologia do Big Data serve exatamente para lidar com esse volume de dados, guardando-os em diferentes localidades e juntando-os através de software. 2.3.2 Velocidade Estamos falando em processamento em tempo real. Aquilo que acontece e imediatamente pode ser visualizado. Você envia um e-mail, e o destinatário recebe imediatamente, monitora um paciente, e visualiza gráficos cardiológicos, consulta a 20 análise do tempo, e obtém previsões imediatas. Pense em velocidade na criação dos dados, na transferência, armazenamento e análise. 2.3.3 Variedade No passado, a maior parte dos dados era estruturada e podia ser colocada em tabelas e relações. Hoje, 80% dos dados do mundo não se comportam dessa forma. Variedade de dados, de diversos tipos, formatos e natureza podem ser agrupados, para análise. Dados são complexos e heterogêneos, originados de diversas fontes em diferentes formatos. Dados de Satélite, por exemplo, são diferentes dos que você gera no Twitter, Facebook ou mesmo no Word quando escreve um texto. O Big Data lida com dados estruturados, semiestruturados e não estruturados. Essas informações aparecem sob a forma de vídeos, áudios, imagens, posts de redes sociais, cookies de navegadores etc. É variedade que não acaba mais, e tudo é devidamente destrinchado pela ferramenta. 2.3.4 Veracidade Equivale à qualidade, autenticidade e validade do dado. Interessa a todos garantir que os dados analisados sejam confiáveis e atuais. A veracidade tem a ver com a procedência e a confiabilidade da informação extraída e tratada. Também se relaciona ao contexto e à qualidade da análise. O conhecimento sobre a veracidade dos dados ajuda as empresas a entender as decisões e os riscos envolvidos, a partir de conjuntos específicos de elementos analisados. 21 2.3.5 Valor Criação de valor, equivale ao resultado final da análise, dos insights gerados. Quais perguntas foram respondidas? O resultado foi bom para a empresa? Qual foi de fato foi o valor acrescentado ao negócio? O último V é o que torna Big Data relevante: tudo bem ter acesso a uma quantidade massiva de informação a cada segundo, mas isso não adianta nada se não puder gerar valor. É importante que empresas entrem no negócio do Big Data, mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se está fazendo. Figura 2.3 – Os 5V’s do Big Data 2.4 Estratégia de Big Data nas empresas É indiscutível que todos os executivos de alto nível, particularmente os CEOs, devem ter uma visão do potencial do Big Data e desenhar uma estratégia adequada para sua adoção. A falta de compreensão do que é Big Data e de seus potenciais e limitações pode gerar riscos para o negócio. Um investimento excessivo em 22 tecnologias sem uma preparação para a empresa explorar seu potencial é jogar dinheiro fora. Se forem extremamente conservadoras e esperarem que o mercado esteja bem maduro antes de iniciar sua jornada de Big Data pode acarretar perda de espaço no mercado. Em resumo, Big Data não pode em nenhuma hipótese ser ignorado. À medida que Big Data torna-se mais e mais importante para as empresas, seu uso de forma inteligente e inovadora será uma ferramenta de vantagem competitiva inestimável. Existem vários casos de sucesso no uso deste conceito e suas tecnologias. Portanto, adotar Big Data está deixando de ser uma opção, para ser compulsório nas empresas. A questão não é mais se vou ou não adotar Big Data, mas quando e com que estratégia adotarei. Neste capítulo vamos debater um pouco mais as questões ligadas às estratégias de adoção e uso de Big Data nas empresas. Antes de mais nada é importante reconhecer que iniciativas de Big Data são diferentes de muitas outras iniciativas de TI. Big Data impacta processos de negócio (pode afetar o processo em tempo real), fontes de dados (começa-se a usar cada vez mais fontes externas à organização), arquitetura de dados e sistemas, infraestrutura e suporte tecnológico (novas tecnologias como bancos de dados NoSQL, por exemplo), estrutura organizacional, e capacitação. Pode afetar de forma drástica a corporação, inclusive mudando o mind set da tomada de decisões baseadas em intuição para fatos. Indiscutivelmente, a complexidade do mundo de negócios atual não permite apenas decisões baseadas em intuição e experiência profissional. Elas continuam valendo sem dúvida, mas devem ser emparelhadas às análises de fatos, muitas vezes desconhecidos pelos executivos. Além do fato, é claro, que muitas decisões tomadas sob extrema pressão nem sempre são as melhores. Um exemplo: uma grande companhia global identificou gastos excessivos em viagens de seus funcionários. O sistema de aprovação de viagens permitia requisitar a viagem e depois efetuar o reembolso. Com pressão para reduzir custos, ao invés de uma decisão baseada em fatos, como “que funcionários estão gastando em excesso e por quê?” optou-se por criar mais um sistema. Assim, agora é necessária uma prévia autorização, que dependendo dotipo de viagem poderia subir a escalões mais altos da corporação para que fosse autorizada. O resultado foi uma diminuição nos gastos totais de viagem, mas aumentaram muito os custos de cada viagem, pois perderam-se as promoções 23 de vôos comprados com antecedência e indiscutivelmente perderam-se muitas oportunidades de estreitar relacionamentos com clientes. Uma análise apenas de planilhas mostrou os ganhos tangíveis, mas não mostrou as perdas intangíveis. Big Data tem uma abrangência muito maior que os projetos de BI que as empresas estão acostumadas a desenvolver. BI concentra-se na análise de dados gerados pelos sistemas transacionais enquanto Big Data vai além, explorando fontes de dados externas como comentários e tuítes nas plataformas de mídia social e/ou gerados por sensores e outras fontes geradoras de dados, como RFID acoplados em embalagens e textos gerados a partir das conversas dos clientes com o call center. A diferença é significativa. 24 2. INTRODUÇÃO A CIÊNCIA DE DADOS Big Data são os métodos e técnicas para armazenagem, manipulação, recuperação e utilização de dados em grandes volumes, baseados nos V’s (Volume, Variedade, Velocidade, Veracidade e Valor). Data Science ou Ciência de Dados, é o método científico por trás da análise de dados, são as metodologias, as formas de avaliar este grande volume de dados, aplicando conhecimentos de Estatística, Matemática e Computação, e obtendo insights dos dados para responder perguntas empresariais ou científicas. Big Data e Ciência de Dados estão intrinsicamente ligadas. Na prática, um projeto de Big Data envolve etapas, e de uma maneira simples, podemos dizer que são: 1. Identificar o problema 2. Adquirir os dados 3. Preparar os dados 4. Analisar os dados 5. Gerar relatórios e insights 6. Realizar ações práticas As etapas 2 e 3 são etapas tratadas com as tecnologias de Big Data, e as etapas 3, 4 e 5 são tratadas com as tecnologias de Ciência de Dados, que como dissemos utilizam conhecimentos voltados para Estatística (definição de modelos), Matemática (organização e estruturação dos dados) e Ciência da Computação (redes, programação, ambiente computacional, software de análise, Aprendizado de Máquina, etc.) e domínio do negócio, do problema que está sendo estudado. Tudo começa por uma pergunta sobre os dados, uma dúvida, uma vontade de identificar algo fora da curva, uma anomalia, algo que remeta a uma nova descoberta, a um “insight”. 25 3.1 Etapas da Ciência de Dados 1. Formule as perguntas corretas - Procure identificar o problema e descreva os ingredientes que o compõem para uma posterior análise com Ciência de Dados. 2. Adquira os dados - Como vimos, os dados provêm de vários locais (Armazéns de Dados, Redes Sociais, Documentos, etc.) estruturados ou não, e devem ser capturados para análise. 3. Explore os dados - Explique a importância e descreva os dados. Processe os dados, limpe e os transforme. Identifique os métodos para realizar uma análise preliminar dos mesmos (correlações, anomalias, visualização). 4. Análise dos Dados - Aplique técnicas de Análise de Dados, como Classificação, Agrupamentos, Regressão, Associação, para identificar as possibilidades. Escolha a melhor delas e construa o melhor modelo para tentar responder as perguntas iniciais. 5. Relate o que encontrou - Forneça relatórios dos seus insights, identifique a melhores técnicas de apresentação e de convencimento para comunicar os resultados. Utilize os melhores softwares de visualização e apresentação. 6. Transforme insights em ações - Conecte os resultados em ações práticas de negócios, em resultados empresariais práticos. Se possível crie um novo Produto de Dado para a sua empresa. 3.2 Kaggle Um dos sites mais conhecidos da área de Ciência de Dados, é chamado de Kaggle https://www.kaggle.com/ ele foi adquirido pela Google. Este é um bom lugar para você avaliar problemas e soluções de Ciência de Dados. Kaggle é um mercado para Análise de Dados e concursos de Ciência de Dados. As empresas publicam suas perguntas e desafios, dizem o quanto podem pagar, e os Cientistas de Dados do mundo todo competem para resolver problemas e produzir as melhores respostas, obtendo prêmios em dinheiro. Highlight Highlight Highlight Highlight Highlight Highlight Highlight Highlight Highlight Highlight Highlight Highlight 26 Kaggle se tornou uma plataforma, um site completo sobre Ciência de Dados, com datasets (conjuntos de dados) gratuitos, ferramentas, cursos, blog, enfim, tudo o que é necessário para aprender sobre esta nova área. Você pode criar a sua conta e participar também das competições ou se preparar para uma delas no futuro. 3.3 O profissional Data Scientist Um artigo publicado na Harvard Business Review em outubro de 2012, chamou a atenção do mundo. O título do artigo era “Data Scientist: The Sexiest Job of the 21st Century” (Cientista de Dados: O Emprego mais Sexy do Século XXI). Ele vinha assinado por Thomas H. Davenport do MIT e D. J. Patil, este último cunhou o termo “Data Scientist” e se tornou no governo Obama o primeiro “US Chief Data Scientist” oficialmente contratado. Para saber mais visite o link https://hbr.org/2012/10/data-scientist-the-sexiest- job-of-the-21st-century. O valor de Big Data reside em desenvolver insights sobre dados, e insights provêm de pessoas talentosas, capazes de fazer perguntas inteligentes, e respondê- las utilizando Análise de Dados. Neste cenário, surge o Data Scientist (Cientista de Dados) um novo Profissional, ainda em desenvolvimento, que escolas e universidades têm dificuldades em formar. Em resumo, “data-driven companies”, são empresas que utilizam eficientemente os dados, gerados por insights de profissionais chamados de “Data Scientist”. CURIOSIDADE Neste link você encontra as competições que estão abertas e os prêmios oferecidos. https://www.kaggle.com/competitions 27 As habilidades de um Cientista de Dados envolvem conhecimentos de Programação, Estatística, Matemática, Aprendizado de Máquina, Wrangling (limpeza), Visualização, Comunicação, Engenharia de Software, entre outras, e talvez a mais importante seja a que chamamos de “Intuição” para resolver problemas. Considera-se ainda que deva ter o chamado “domain knowledge”, que é o conhecimento específico sobre uma área ou atividade humana. Por exemplo, um Data Scientist que trabalha com mapeamento genético, deve ter excepcional conhecimento de Biologia. Profissionais de diversos segmentos (Físicos, Matemáticos, Economistas, Administradores, etc.) começaram a estudar Ciência de Dados, buscando preencher as lacunas de conhecimento em Análise de Dados e Tecnologias de Big Data, para atuar como Cientista de Dados, hoje uma das profissões mais valorizadas do mundo. 3.4 Considerações Finais Vencer os desafios do Big Data é essencial para as empresas se manterem competitivas na economia digital. Estamos ainda no início da sua curva de aprendizado, mas é fundamental que as ações comecem de imediato. A velocidade com que as mudanças nas tecnologias e no cenário de negócios acontecem não nos permite o luxo de ficar esperando para ver o que virá. Big Data nos abre o que podemos chamar de portas para uma “intelligent economy” ou economia inteligente que produz um fluxo contínuo de informações, que podem ser monitoradas e analisadas. Com Big Data as empresas podem usar dados transacionais e não transacionais para traçar estratégicas, decisões comerciais de longo prazo sobre, por exemplo, o que e quando colocar nas prateleiras das lojas. Big Data tem papel importante na economia de um país, pois torna suas empresas mais competitivas. Importante lembrar que Big Data não acaba com Business Intelligence (BI), maso torna mais valioso e útil para o negócio. Na prática, sempre teremos a necessidade de olhar para o passado e com a possibilidade de analisar um grande volume de dados, BI vai ser reforçado. 28 CONTEÚDO COMPLEMENTAR https://www.youtube.com/watch?v=NmCuEgkVLWo https://www.youtube.com/watch?v=5b9Z8toVaAU 29 Referências CARTER, Keith B. Actionable Intelligence: A Guide to Delivering Business Results with Big Data Fast!. John Wiley & Sons, 2014. NEEDHAM, Jeffrey. Disruptive possibilities: how big data changes everything. O'Reilly Media, Inc., 2013. MCAFFE, A., & BRYNJOLFSSON, E. (10 de 2012). Big Data: The Management Revolution. Harvard Business Review TAURION, C. (25 de 11 de 2014). Entre os Vs do Big data, velocidade cresce em importância.