Baixe o app para aproveitar ainda mais
Prévia do material em texto
Indaial – 2019 Fundamentos de Big data Prof.a Barbieri Gonçalves Prof. Glauber Rogério Prof.a Izabelly Soares de Morais 1a Edição Impresso por: 2019 Elaboração: Prof.a Barbieri Gonçalves Prof. Glauber Rogério Prof.a Izabelly Soares de Morais Revisão, Diagramação e Produção: Centro Universitário Leonardo da Vinci – UNIASSELVI Conteúdo produzido Copyright © Sagah Educação S.A. III apresentação Prezado acadêmico! Seja bem-vindo à disciplina de Fundamentos de Big Data. Este Caderno de Estudos foi elaborado com o intuito de contribuir e aprimorar o seu conhecimento acerca destas três unidades principais: Unida- de 1: Conceitos de Big Data; Unidade 2: Infraestruturas para Processamento de Big Data, Armazenamento, Suporte a Tempo Real e Desafios na Gerência de Big Data; Unidade 3: Análise de dados, Integração e Recursos Humanos para Big Data . Big data e sua análise estão no centro da ciência moderna e negócios. Esses dados são gerados a partir de transações on-line, e-mails, vídeos, áu- dios, imagens, streams de cliques, registros, postagens, consultas de pesqui- sa, registros de saúde, interações de redes sociais, dados científicos, sensores e telefones celulares e seus aplicativos. Eles são armazenados em bancos de dados que crescem de forma massiva e se tornam difíceis de capturar, for- mar, armazenar, gerenciar, compartilhar, analisar e visualizar por meio de ferramentas típicas de software de banco de dados. Big Data é a tendência nos negócios porque através das técnicas e métodos envolvidos é possível a geração de informação estratégica para as organizações. Para os profissionais trata-se de mais um nicho para o mercado que precisa de mão de obra qualificada e por isso, esta disciplina se torna tão importante. Os conceitos aqui apresentados representam o amadurecimento das técnicas, métodos, ferramentas e atividades utilizadas ao longo dos anos. Aproveitamos esse momento para destacar que os exercícios NÃO SÃO OPCIONAIS. O objetivo de cada exercício deste caderno é a fixação de determinado conceito, bem como o aprimoramento dos seus saberes. É aí que reside a importância de você estar realizando todas as atividades pro- postas. Sugerimos fortemente que, em caso de dúvida, em algum exercício você entre em contato com seu tutor externo ou com a tutoria da UNIAS- SELVI e que não passe para o exercício seguinte enquanto o atual não estiver completamente compreendido. Por fim, ressalto que mesmo sendo uma área muito ampla, o Caderno de Estudos lhe oferece um início sólido e consistente sobre o tema. Desejo a você uma excelente experiência nos estudos dos conteúdos dessa disciplina! IV Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novidades em nosso material. Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura. O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagramação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo. Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto em questão. Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade. Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de Desempenho de Estudantes – ENADE. Bons estudos! NOTA V VI Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela um novo conhecimento. Com o objetivo de enriquecer teu conhecimento, construímos, além do livro que está em tuas mãos, uma rica trilha de aprendizagem, por meio dela terás contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complementares, entre outros, todos pensados e construídos na intenção de auxiliar teu crescimento. Acesse o QR Code, que te levará ao AVA, e veja as novidades que preparamos para teu estudo. Conte conosco, estaremos juntos nessa caminhada! LEMBRETE VII UNIDADE 1 - FUNDAMENTOS DE BIG DATA ................................................................................1 TÓPICO 1 - INTRODUÇÃO À CIÊNCIA DE DADOS .....................................................................3 1 INTRODUÇÃO .......................................................................................................................................3 2 CIÊNCIA DE DADOS............................................................................................................................3 3 INFLUÊNCIA DA CIÊNCIA DE DADOS NA TOMADA DE DECISÕES.................................5 4 CARACTERÍSTICAS DE UM CIENTISTA DE DADOS................................................................8 RESUMO DO TÓPICO 1........................................................................................................................10 AUTOATIVIDADE .................................................................................................................................12 TÓPICO 2 - CIÊNCIA DE DADOS E BIG DATA .............................................................................15 1 INTRODUÇÃO .....................................................................................................................................15 2 DADOS E DATASETS ..........................................................................................................................15 3 O USO DA CIÊNCIA DE DADOS E BIG DATA ............................................................................17 4 APLICAÇÕES PRÁTICAS DA CIÊNCIA DE DADOS E BIG DATA .........................................19 RESUMO DO TÓPICO 2........................................................................................................................21 AUTOATIVIDADE .................................................................................................................................23 TÓPICO 3 - DESCOBERTA DE CONHECIMENTO COM BIG DATA .......................................25 1 INTRODUÇÃO .....................................................................................................................................25 2 PROCESSO DE DESCOBERTA DE CONHECIMENTO..............................................................25 3 APLICAÇÃO DO PROCESSO DE DESCOBERTA DO CONHECIMENTO ...........................27 3.1 DEFINIÇÃO DOS OBJETIVOS ......................................................................................................27 3.2 SELEÇÃO ..........................................................................................................................................27 3.3 PRÉ-PROCESSAMENTO ................................................................................................................28 3.4 TRANSFORMAÇÃO .......................................................................................................................28 3.5 MINERAÇÃO DE DADOS .............................................................................................................29 3.6 INTERPRETAÇÃO E AVALIAÇÃO ..............................................................................................29 4 BIG DATA NA ÁREA DA SAÚDE ....................................................................................................305 BIG DATA NA ADMINISTRAÇÃO PÚBLICA ..............................................................................31 RESUMO DO TÓPICO 3........................................................................................................................32 AUTOATIVIDADE .................................................................................................................................33 TÓPICO 4 - APLICAÇÕES DA CIÊNCIA DE DADOS ..................................................................35 1 INTRODUÇÃO .....................................................................................................................................35 2 APLICAÇÃO DA CIÊNCIA DE DADOS ........................................................................................35 3 EXEMPLOS DE APLICAÇÃO DA CIÊNCIA DE DADOS ..........................................................37 4 BUSINESS INTELLIGENCE (BI) E CIÊNCIA DE DADOS ...........................................................39 RESUMO DO TÓPICO 4........................................................................................................................41 AUTOATIVIDADE .................................................................................................................................43 TÓPICO 5 - INTELIGÊNCIA ARTIFICIAL ........................................................................................45 1 INTRODUÇÃO .....................................................................................................................................45 2 O QUE É INTELIGÊNCIA ARTIFICIAL (IA)? ................................................................................45 3 HISTÓRICO ...........................................................................................................................................47 4 APLICAÇÕES ........................................................................................................................................50 RESUMO DO TÓPICO 5........................................................................................................................53 AUTOATIVIDADE .................................................................................................................................55 sumário VIII UNIDADE 2 - INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E DESAFIOS NA GERÊNCIA DE BIG DATA ............................................57 TÓPICO 1 - INFRAESTRUTURA DE DADOS E DE REDES II .....................................................59 1 INTRODUÇÃO .....................................................................................................................................59 2 GESTÃO DE CONTEÚDO EMPRESARIAL ..................................................................................59 3 DATA WAREHOUSE .............................................................................................................................61 3.1 PROCESSAMENTO E MODELAGEM DE DADOS ...................................................................63 3.2 PROCESSAMENTO OLAP ............................................................................................................64 3.3 MODELAGEM DE DADOS ...........................................................................................................65 3.4 MODELAGEM DIMENSIONAL ...................................................................................................65 3.5 DATA MARTS ..................................................................................................................................69 3.6 DATA CENTER ................................................................................................................................70 RESUMO DO TÓPICO 1........................................................................................................................72 AUTOATIVIDADE .................................................................................................................................73 TÓPICO 2 - INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II ....................................77 1 INTRODUÇÃO .....................................................................................................................................77 2 INFRAESTRUTURA TRADICIONAL DE TI .................................................................................77 3 INFRAESTRUTURA EM NUVEM ....................................................................................................78 3.1 GERENCIAMENTO DE DADOS EM NUVEM ..........................................................................82 3.2 BANCO DE DADOS COMO UM SERVIÇO ...............................................................................84 3.3 CARACTERÍSTICAS DO GERENCIAMENTO DE DADOS EM NUVEM.............................85 3.4 AVALIAÇÃO DE SERVIÇOS DE DADOS EM NUVEM ...........................................................86 3.5 CINCO TENDÊNCIAS EM SEGURANÇA DE DADOS ...........................................................87 RESUMO DO TÓPICO 2........................................................................................................................89 AUTOATIVIDADE .................................................................................................................................90 TÓPICO 3 - COMPUTAÇÃO NA NUVEM ........................................................................................93 1 INTRODUÇÃO .....................................................................................................................................93 2 DATA CENTER .......................................................................................................................................93 2.1 FUNÇÃO ...........................................................................................................................................94 2.2 ESTRUTURA ....................................................................................................................................94 3 TIPOLOGIA DA COMPUTAÇÃO EM NUVEM ...........................................................................95 3.1 PRINCIPAIS FORNECEDORES ....................................................................................................96 4 VANTAGENS E DESVANTAGENS DO MODELO PARA TOMADA DE DECISÕES .........96 RESUMO DO TÓPICO 3........................................................................................................................98 AUTOATIVIDADE ...............................................................................................................................100 TÓPICO 4 - ANALISAR E COMPREENDER A UTILIZAÇÃO DO BANCO DE DADOS NOSQL ...............................................................................103 1 INTRODUÇÃO ...................................................................................................................................103 2 BANCOS DE DADOS .......................................................................................................................103 3 MODELOS DE DADOS ...................................................................................................................104 3.1 MODELO HIERÁRQUICO ..........................................................................................................104 3.2 MODELO EM REDE .....................................................................................................................104 3.3 MODELO RELACIONAL.............................................................................................................105 3.4 MODELO ORIENTADO A OBJETOS .........................................................................................105 4 SGBD ....................................................................................................................................................1055 BIG DATA ...........................................................................................................................................105 6 NOSQL ..................................................................................................................................................106 6.1 PRINCIPAIS CARACTERÍSTICAS DOS BANCOS DE DADOS NOSQL .............................108 6.2 TIPOS DE BANCOS DE DADOS NOSQL .................................................................................110 RESUMO DO TÓPICO 4......................................................................................................................112 AUTOATIVIDADE ...............................................................................................................................114 IX TÓPICO 5 - INOVAÇÃO E DESIGN THINKING ............................................................................117 1 INTRODUÇÃO ...................................................................................................................................117 2 INOVAÇÃO E DESIGN THINKING ...............................................................................................117 3 INOVAÇÃO COMO PROCESSO CENTRAL NOS NEGÓCIOS .............................................120 4 INOVANDO COM DESIGN THINKING .......................................................................................122 5 DESIGN THINKING ...........................................................................................................................124 6 O QUE É DESIGN THINKING? ........................................................................................................124 7 FASES DO DESIGN THINKING ......................................................................................................127 7.1 EMPATIA ........................................................................................................................................129 7.2 DEFINIÇÃO ....................................................................................................................................129 7.3 IDEAÇÃO .......................................................................................................................................129 7.4 PROTOTIPAÇÃO ..........................................................................................................................130 7.5 TESTE ...............................................................................................................................................130 8 ONDE ESTÁ O DESIGN THINKING? ............................................................................................131 9 DESIGN THINKING: IDEAÇÃO .....................................................................................................134 10 DESIGN THINKING: O QUE É IDEAÇÃO ................................................................................135 11 A IDEAÇÃO NO REFINO DO PROBLEMA EM UM PROCESSO DE DESIGN THINKING ..................................................................................................................137 12 DESIGN THINKING: INTERAÇÕES ENTRE A IDEAÇÃO E A SOLUÇÃO DO PROBLEMA ...................................................................................................139 13 DESIGN THINKING: COMPREENSÃO DO PROBLEMA .......................................................141 14 DESIGN THINKING: COMO COMPREENDER O PROBLEMA ............................................141 15 EMPATIA NO PROCESSO DE DESIGN THINKING ................................................................142 16 DESIGN THINKING: FERRAMENTAS DA ETAPA DE IMERSÃO .......................................145 17 DESIGN THINKING: PROTOTIPAGEM E TESTAGEM ..........................................................148 18 PROTOTIPAGEM NO DESIGN THINKING...............................................................................148 19 O PROTÓTIPO NOS PROJETOS DE INOVAÇÃO ..................................................................150 20 A VALIDAÇÃO NA PROTOTIPAGEM E NA TESTAGEM ....................................................152 RESUMO DO TÓPICO 5......................................................................................................................155 AUTOATIVIDADE ...............................................................................................................................157 UNIDADE 3 - ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA ................................................................................159 TÓPICO 1 - MINERAÇÃO DE DADOS ...........................................................................................161 1 INTRODUÇÃO ...................................................................................................................................161 2 AS PRINCIPAIS ETAPAS DO PROCESSO DE MINERAÇÃO DE DADOS .........................161 3 O PROCESSO DE DESCOBERTA DE CONHECIMENTO (KDD) ..........................................163 4 CONCEITO E A APLICAÇÃO DE BIG DATA .............................................................................165 RESUMO DO TÓPICO 1......................................................................................................................166 AUTOATIVIDADE ...............................................................................................................................167 TÓPICO 2 - APLICAR METODOLOGIAS DE DATA MINING (MINERAÇÃO DE DADOS) ........................................................................................169 1 INTRODUÇÃO ...................................................................................................................................169 2 O QUE É DATA MINING? .................................................................................................................169 3 AS PRINCIPAIS TÉCNICAS DE DATA MINING ........................................................................170 3.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO ......................................................................170 3.2 MINERAÇÃO DE ITENS FREQUENTES ..................................................................................170 3.3 MINERAÇÃO POR CLUSTERING .............................................................................................171 3.4 MINERAÇÃO POR ÁRVORES DE DECISÃO ..........................................................................172 3.5 MINERAÇÃO POR CLASSIFICAÇÃO BAYESIANA ..............................................................172 3.6 MINERAÇÃO POR REDES NEURAIS .......................................................................................173 4 UTILIZAÇÃO DAS METODOLOGIAS DE MINERAÇÃO ......................................................174 RESUMO DO TÓPICO 2......................................................................................................................176 AUTOATIVIDADE ...............................................................................................................................177 X TÓPICO 3 - UTILIZAR TÉCNICAS DE DATA MINING ...............................................................179 1 INTRODUÇÃO ...................................................................................................................................179 2 IDENTIFICAÇÃO DAS TÉCNICAS DE DATA MINING ...........................................................179 2.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO ......................................................................180 2.2 MINERAÇÃO POR CLASSIFICAÇÃO ......................................................................................180 2.3 MINERAÇÃO POR CLUSTERING .............................................................................................181 2.3 MINERAÇÃO POR ÁRVORES DE DECISÃO ..........................................................................181 2.4 MINERAÇÃOPOR PADRÕES SEQUENCIAIS .......................................................................182 3 A LÓGICA PARA A MINERAÇÃO DE DADOS .........................................................................182 4 APLICAÇÃO E SINTAXE DE CONSULTAS DE MINERAÇÃO ..............................................183 RESUMO DO TÓPICO 3......................................................................................................................186 AUTOATIVIDADE ...............................................................................................................................187 TÓPICO 4 - MINERAÇÃO DE TEXTOS (TEXT MINING) ...........................................................189 1 INTRODUÇÃO ...................................................................................................................................189 2 O CONCEITO DE TEXT MINING ...................................................................................................189 2.1 MINERAÇÃO DE TEXTO POR CLASSIFICAÇÃO .................................................................191 2.2 MINERAÇÃO DE TEXTO POR CLUSTERING .........................................................................191 2.3 MINERAÇÃO TEXTO POR OTIMIZAÇÃO .............................................................................191 3 PROCESSO DE DESCOBERTA DE CONHECIMENTO EM TEXTOS ...................................192 4 EXEMPLOS DE FERRAMENTAS DE MINERAÇÃO DE TEXTOS .........................................195 RESUMO DO TÓPICO 4......................................................................................................................197 AUTOATIVIDADE ...............................................................................................................................199 TÓPICO 5 - APRENDIZADO DE MÁQUINA (MACHINE LEARNING) .................................201 1 INTRODUÇÃO ...................................................................................................................................201 2 CONCEITOS SOBRE APRENDIZADO DE MÁQUINA ...........................................................201 3 ALGORITMOS DE APRENDIZADO DE MÁQUINA ...............................................................204 4 APLICAÇÕES DO APRENDIZADO DE MÁQUINA .................................................................209 RESUMO DO TÓPICO 5......................................................................................................................211 AUTOATIVIDADE ...............................................................................................................................213 TÓPICO 6 - INTRODUÇÃO AO HADOOP .....................................................................................215 1 INTRODUÇÃO ...................................................................................................................................215 2 HADOOP ..............................................................................................................................................215 3 COMPONENTES DO HADOOP .....................................................................................................219 4 EXECUÇÃO DO HADOOP ...............................................................................................................220 4.1 HDFS ................................................................................................................................................221 4.2 COMANDOS HDFS ......................................................................................................................222 4.3 DIVISÃO EM BLOCOS .................................................................................................................224 4.4 ARQUITETURA .............................................................................................................................224 4.5 REPLICAÇÃO DE DADOS ..........................................................................................................225 5 HADOOP MAPREDUCE ...................................................................................................................226 5.1 GOOGLE MAPREDUCE ..............................................................................................................227 RESUMO DO TÓPICO 6......................................................................................................................230 AUTOATIVIDADE ...............................................................................................................................232 TÓPICO 7 - INTEGRANDO BIG DATA E IOT ...............................................................................235 1 INTRODUÇÃO ...................................................................................................................................235 2 CONCEITOS DE BIG DATA E INTERNET DAS COISAS (IOT) ............................................235 3 INTEGRAÇÃO ENTRE BIG DATA E IOT ....................................................................................237 4 CENÁRIOS DE USO DE BIG DATA E IOT ..................................................................................241 RESUMO DO TÓPICO 7......................................................................................................................244 AUTOATIVIDADE ...............................................................................................................................246 REFERÊNCIAS .......................................................................................................................................249 1 UNIDADE 1 FUNDAMENTOS DE BIG DATA OBJETIVOS DE APRENDIZAGEM PLANO DE ESTUDOS A partir do estudo desta unidade, você deverá ser capaz de: • definir o conceito de ciência de dados; • discutir dados e tomada de decisão; • definir características do cientista de dados. Esta unidade está dividida em cinco tópicos. No decorrer da unidade você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado. TÓPICO 1 – INTRODUÇÃO À CIÊNCIA DE DADOS TÓPICO 2 – CIÊNCIA DE DADOS E BIG DATA TÓPICO 3 – DESCOBERTA DE CONHECIMENTO COM BIG DATA TÓPICO 4 – APLICAÇÕES DA CIÊNCIA DE DADOS TÓPICO 5 – INTELIGÊNCIA ARTIFICIAL Preparado para ampliar teus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorverás melhor as informações. CHAMADA 2 3 TÓPICO 1 UNIDADE 1 INTRODUÇÃO À CIÊNCIA DE DADOS 1 INTRODUÇÃO Você sabia que, ao acessarmos praticamente qualquer dispositivo eletrônico, estamos, de certa forma, inserindo nossos dados e, com o tempo, os dispositivos acabam guardando esses dados, gerando diversas informações sobre nós? Estamos vivendo na era da informação. Neste tópico, você compreenderá o que é a ciência de dados, como ela pode influenciar na tomada de decisões, e até mesmo no relacionamento entre os seres humanos e suas atividades frequentes, quando há o uso intermediário de algum recurso tecnológico. Além disso, conhecerá as características que definem os cientistas de dados, profissionais responsáveis por exercer essa função tão inovadora e desafiante. 2 CIÊNCIA DE DADOS Uma das necessidades explícitas da sociedade atual é aprender a lidar com a tecnologia. Apesar de isso transparecer como algo natural, na verdade, não o é, tendo em vista que, com o passar dos tempos, a própria tecnologia foi sendo moldada para atender à alta demanda social. Antes, os primeiros recursos tecnológicos que envolviam uso de eletricidade tinham pouquíssimas funcionalidades — isso quando não se limitavam a apenas uma. Se voltarmos um pouco no tempo, quando os primeiros recursos computacionais começaram a ser desenvolvidos, vemos que o maior objetivo era justamente o de aprender a lidar com os dados. Os registros eram poucos e não demandavam componentes físicos tão sofisticados como os que temos hoje, porém, a sociedade foi se interessando cada vez mais poresses artefatos que auxiliam, de certa forma, em suas atividades cotidianas. Mas o que são esses dados? Antes de tudo, é importante destacar que um dado sem uma informação não tem sentido. Dados podem ser exemplificados como números em uma planilha: quando adicionamos um contexto a eles, estamos gerando informações (como colocar, ao lado dos números, nomes de produtos ou legendas, como datas, valores, dentre outros). UNIDADE 1 | FUNDAMENTOS DE BIG DATA 4 Por falar nisso, você já parou para prestar atenção na quantidade de dados que você mesmo gera na rede? Comece olhando sua caixa de e-mail: são muitas informações! Você também já fez alguma pesquisa sobre algo, um produto, uma dúvida ou serviço e, quando acessou suas redes sociais ou e-mail, deparou-se com promoções e dicas sobre o assunto de sua busca? Então, as empresas, em conjunto com as ferramentas tecnológicas, possuem diversos meios de obter informações de você, mesmo que de forma “discreta”. Para entender o que é um dado e o que é uma informação, podemos pen- sar no número 25. Que lembrança esse número traz para você? Bem, caso não seja seu aniversário ou alguma data especial para você, pode ser visto apenas como um número qualquer. No entanto, se adicionarmos o contexto de 25 de dezembro, podemos associá- -lo às festividades natalinas. É dessa forma que uma informação é tida, na junção do dado bruto com um contexto. DICAS A ciência de dados surgiu com a necessidade de lidarmos com a enorme quantidade de dados e informações geradas por nossas ações em conjunto com algum artefato — neste caso, tecnológico. Ela atende a uma demanda interdisciplinar, na qual estão inseridas outras tecnologias voltadas aos dados, como Big Data. O termo foi mencionado inicialmente em meados de 2010, mas, antes, seus conceitos eram compreendidos por outros termos, como OLAP (Online Analytical Processing) e BI (Business Intelligence). Podemos notar que, apesar de conseguirmos visualizar claramente a quantidade de dados que temos ao nosso redor, variantes do termo já vêm sendo utilizadas há algum tempo. A partir da Figura 1, podemos perceber que a ciência de dados é interdisciplinar, tendo em vista que pode estar associada à ciência da computação, já que armazena, obtém e trata os dados; com a estatística e a matemática, porque realiza análises estatísticas de mineração e filtragem de dados; e, consequentemente, com design gráfico e especialização científica, uma vez que dados são visualizados, refinados e, principalmente, questionados. TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS 5 FIGURA 1 – CIÊNCIA DE DADOS: INTERDISCIPLINAR FONTE: Provost e Fawcett (2016) Ciência da computação Matemática e estatística Especialização científi ca Pesquisa tradicional Aprendizado de máquina Software tradicional Ciência de dados 3 INFLUÊNCIA DA CIÊNCIA DE DADOS NA TOMADA DE DECISÕES O mundo contemporâneo está sujeito a lidar com acentuadas transições, não só tecnológicas, mas também políticas, sociais e até mesmo econômicas. A cada dia que passa, novas descobertas em todos os setores afetam todos os ciclos nos quais elas estão imersas. Com isso, surgem, também, novos padrões e mudanças potenciais, as quais trazem uma maior difi culdade no processo de tomada de decisões. Quando você vai realizar uma compra, geralmente, você se questiona sobre como irá realizar o pagamento daquele produto, e as lojas, para não perder os clientes, oferecem várias opções de pagamentos. Você, como cliente, tem que decidir se vai dividir em mais vezes, com juros, ou em menos vezes, apesar de o valor das parcelas, logicamente, ser maior nesse último caso. Para tomar essa decisão, você estabelece suas próprias possibilidades diante de todo um contexto, por exemplo, se irá sobrar crédito ou dinheiro para as demais compras ou contas do mês. Você pode associar uma situação do seu cotidiano como essa, que, por acontecer diretamente com você, tem uma pequena dimensão, às mesmas decisões sendo tomadas por uma empresa, que lida com negócios enormes e com diversos processos simultâneos. UNIDADE 1 | FUNDAMENTOS DE BIG DATA 6 De acordo com Provost e Fawcett (2016) (Figura 2), a ciência de dados (ou data science) se insere no contexto de diversos outros processos intimamente associados e relacionados com dados na organização e se distingue de outros aspectos do processamento de dados que estão ganhando cada vez mais atenção nos negócios. FIGURA 2 – DATA SCIENCE (CIÊNCIA DE DADOS) NO CONTEXTO DOS DIVERSOS PROCESSOS RELACIONADOS A DADOS NA ORGANIZAÇÃO FONTE: Provost e Fawcett (2016, p. 5) Tomada de decisão orientada por dados (na empresa) Engenharia e processamento de dados (incluindo tecnologias "Big Data") Outros efeitos positivos do processamento de dados (por exemplo, processamento mais rápido de transações) DOD automatizada Data science Ainda sob o ponto de vista dos autores, a tomada de decisão orientada por dados (DOD) refere-se à prática de basear as decisões na análise dos dados, em vez de apenas na intuição. Por exemplo, um negociante poderá selecionar anúncios baseado puramente em sua longa experiência na área e em sua intuição sobre o que funcionará; além disso, pode basear sua escolha na análise dos dados sobre a forma como os consumidores reagem a diferentes anúncios ou utilizar uma combinação dessas abordagens. TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS 7 Você notou que os autores confirmaram justamente o que conversamos anteriormente, sobre surgirem diversas propagandas de produtos em e-mails e redes sociais de coisas para as quais você fez alguma busca? Essas abordagens se tornaram cada vez mais comuns no mundo dos negócios. A partir do momento em que essas grandes corporações reconhecem a importância da análise de dados, esses recursos passam a ser aplicados em grandes operações de mineração de dados, gerando marketing direto, ou seja, direcionado ao perfil dos usuários, publicidades on-line, avaliações de crédito, para que não sejam ofertados produtos e serviços incoerentes com os perfis dos clientes, gestão central de atendimento, recomendações de produtos, dentre outros. Uma empresa investe no gerenciamento e na análise de dados com o intuito de obter oportunidades para geração de receitas e para redução de custos em seus processos visando o lucro financeiro. Durante a década de 1990, a tomada de decisão automatizada trouxe diversas mudanças a vários setores, principalmente os bancários e de empresas de telecomunicações. Na época, o foco era controlar a quantidade de fraudes, por isso, passaram a implantar o gerenciamento de decisões de controle de fraudes orientadas em dados. Hoje, sabemos que toda empresa que visa crescer no mundo dos negócios implanta de alguma forma a análise de seus dados, nem que seja por meio de percepções cotidianas. A tomada de decisão identifica as principais etapas no processo decisório para estabelecer pontos cruciais que apoiem planos de ação com o intuito de desenvolver uma melhoria geral de todos os indicadores do negócio. Nesse processo, a ciência de dados contribuirá com o levantamento de informações relevantes para dar suporte às decisões. Esses fatores são essenciais para que haja uma análise e, consequentemente, identificação e resolução de problemas nos processos empresariais do negócio. A ciência de dados levanta, também, questionamentos como: quais são os pontos que devem ser previstos, o que deve ser feito com todos os dados, quais podem ser as consequências, como os dados serão expostos e quais são os mais relevantes, como as questões de privacidade serão resolvidas, como devemos verificar se existe alguma anomalia ou padrões nos dados, qual modelo será mais adequado, como ele será validado, qual foi o aprendizado obtido com a análise dos dados. Quando falamos de dados, podemos deparar-nos com outros termos, como: • Big Data: está associado ao grande volume de dados que é processado por ferramen- tas específicas, já que ferramentastradicionais, como planilhas e anotações vagas, não possuem suporte suficiente e eficaz para processá-las. Podemos associar esse concei- to a volume, velocidade de atualização e variedade dos formatos. DICAS UNIDADE 1 | FUNDAMENTOS DE BIG DATA 8 • Data warehouse: é um tipo especializado de banco de dados que reúne dados de um banco de dados de transações, de modo que eles possam ser analisados (TURBAN; VOLONINO, 2013, p. 59). • Business Intelligence (BI): implica adquirir dados e informações (e, talvez, conhecimento) de uma grande variedade de fontes, organizá -los em um data warehouse e usá -los na tomada de decisões (TURBAN; VOLONINO, 2013, p. 104). 4 CARACTERÍSTICAS DE UM CIENTISTA DE DADOS Com o surgimento de diversos termos relacionados aos dados, a necessidade de profissionais que fossem capacitados para lidar com as mais variadas tecnologias e contextos ficou mais evidente. Após Big Data se tornar evidente, o profissional para lidar com tudo isso precisava, na maioria das vezes, lidar com estatística, NoSQL, Cloud Computing, mineração de dados, dentre outros. Conforme Godoi (2018), podemos destacar algumas atividades que são destinadas a alguns cargos específicos dentro das empresas. • Data scientist: participa da formulação do problema, hipóteses de resolução e análise de resultados. • Business analyst: analisa os dados gerados em relação ao negócio ou empresa avaliada. • Data analyst: analisa os dados disponibilizados em busca de solução para os problemas enfrentados. ATENCAO Outro questionamento também passou a ter relevância: onde iriam encontrar um profissional com tantas qualificações? Essa lista de qualificações chegou a ser comparada às habilidades que apenas o supercomputador Watson (da IBM) possuía e possui até hoje. O mercado almeja um profissional que tenha habilidades não só com tecnologias, mas também com matemática, estatística e conhecimentos em negócios, ou seja, na área administrativa, como podemos perceber pelo levantamento realizado por Amaral (2016), em que temos uma visão de um profissional de mercado, ou seja, o que realmente é possível de encontrar no mercado, e um profissional que demanda características quase que impossíveis, como o fato de haver uma única pessoa que seja especialista em todas as áreas. TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS 9 QUADRO 3 – QUALIFICAÇÕES DO CIENTISTA DE DADOS FONTE: O autor Profissional de mercado Profissional idealizado Conhecimento multidisciplinar Especialista em todas as áres Gerência de projetos Foco em conhecimento técnico Liderança Trabalha sozinho Equipe de especialistas Especialista em todas as áreas O nome data scientist ou cientista de dados foi utilizado pela primeira vez em 2008 e pode ser definido como um profissional de alto nível de formação, com curiosidade de fazer descobertas no mundo de Big Data: “[...] um cientista de dados é alguém que é curioso, que analisa os dados para detectar tendências”, disse, recentemente, Anuul Bhambhri, vice-presidente de produtos Big Data da IBM. “É quase como um indivíduo renascentista, que realmente quer aprender e trazer a mudança para uma organização” (TAURION, 2013). Acesse o link a seguir para obter mais informações sobre o cientista de dados. https://goo.gl/2PHZqk UNI Exemplos de ferramentas utilizadas para apresentação de dados: IBM Watson Analytics, Tableau, TIBCO Spotfire, Rapid Miner, Sisense, dentre outras. INTERESSA NTE 10 Nesse tópico você aprendeu: • A definição do conceito de ciência de dados. • A Discutir dados e tomada de decisão. • As características do cientista de dados. • Que a expressão data science se refere tanto à tecnologia em si quanto à aplicação de ferramentas tecnológicas aos processos empresariais. Essas ferramentas têm diversas utilidades, sendo uma das principais contribuir na tomada de decisões. • Que a ciência de dados pode ser utilizada em diversas áreas • A ciência de dados está presentes em áreas como as apresentadas no infográfico. RESUMO DO TÓPICO 1 11 12 1 Atualmente, as grandes empresas lidam com grandes volumes de dados que podem ser aplicados nas estratégias de negócios, tanto para aumentar a lucratividade financeira quanto para lançamento e melhoria de produtos e serviços ofertados. A TechAnalysis, considerada a maior empresa do ramo de telecomunicações do Brasil, contratou você como analista de dados. Ela está preocupada com o seguinte cenário: AUTOATIVIDADE Sabendo disso, responda: a) Como a ciência de dados pode ajudar na tomada de decisões da empresa? b) Quais informações presentes nos bancos de dados podem ajudar na construção de uma estratégia de retenção de clientes? 2 Uma tomada de decisão é estabelecida de acordo com diversas variáveis do contexto em que está inserida. Assinale a alternativa correta, referente aos dados e às tomadas de decisão. a) ( ) O ciclo da tomada de decisões faz uso dos dados apenas no processo de análise. Posteriormente, as tomadas de decisões são acionadas conforme experiências anteriores. b) ( ) Geralmente o ciclo se inicia com o processamento de dados, que traz consigo o refinamento dos dados, para que posteriormente sejam analisados de forma automatizada e, assim, possam auxiliar na tomada de decisão das empresas. 13 c) ( ) Geralmente o ciclo se inicia com o refinamento dos dados, do qual o processamento de dados é parte integrante, para que posteriormente possam ser analisados de forma manual e auxiliar na tomada de decisão das empresas. d) ( ) A ciência dos dados é empregada no tratamento dos dados gerados após a tomada de decisão, dando-lhes forma e empregabilidade necessária para uso. e) ( ) A tomada de decisão orientada a dados tem início com o uso de tecnologias big data, para que posteriormente a ciência dos dados determine todas as tomadas de decisões. 3 A multidisciplinaridade envolvida na ciência dos dados traz conceitos, de pesquisa, aprendizado de máquina e até mesmo de especialidades científicas. Assinale a alternativa que traz uma associação correta de uma virtude dessa área com as demais áreas as quais está associada. a) ( ) A ciência dos dados, juntamente com a ciência da computação e a matemática, auxilia na inserção dos dados em um recurso computacional. b) ( ) A ciência dos dados, juntamente com a especialização científica, auxilia no armazenamento de dados. c) ( ) A ciência dos dados, juntamente com o design gráfico, proporciona a visualização e o refinamento dos dados. d) ( ) A ciência dos dados, juntamente com a matemática e a estatística, auxilia na contabilidade de dados. e) ( ) A ciência dos dados juntamente com a ciência da computação proporciona o perfil de questionamentos. 4 Com o surgimento de diversos termos relacionados aos dados, a necessidade de profissionais capacitados a lidar com as mais variadas tecnologias e contextos ficou mais evidente. Qual é a responsabilidade de um profissional ligado à ciência dos dados? a) ( ) É um profissional que exerce sua função de forma individualizada e compartilha com a equipe apenas as tomadas de decisões necessárias. b) ( ) Analisa os dados gerados em relação ao negócio ou à empresa avaliada. c) ( ) Analisa todas as áreas da empresa, tendo em vista suas especializações que abrangem as áreas de negócios e tecnologias. d) ( ) Participa da formulação do problema, hipóteses de resolução e análise de resultados. e) ( ) Analisa os dados disponibilizados em busca de solução para os problemas enfrentados. 5 As tecnologias surgem com o intuito de suprir alguma demanda social. Dessa forma, acabam também trazendo mudanças para os processos e comportamentos, já que, com o tempo, acabam sendo suporte para realização de diversas atividades. Assinale a alternativa correta sobre a relevância da ciência dos dados dentro dos negócios. 14 a) ( ) A ciência dos dados tem como objetivo principal suprir a necessidade de ferramentas que organizem em planilhas os dados da empresa. b)( ) A ciência dos dados tem como objetivo gerar grande volume de dados nos negócios. c) ( ) A ciência dos dados surgiu com a necessidade de lidarmos com a enorme quantidade de dados e informações geradas. d) ( ) A ciência dos dados tem como objetivo principal trazer automatização de processos nas atividades de uma empresa. e) ( ) A ciência dos dados se desenvolveu em razão da falta de profissionais qualificados para tomada de decisões. 6 Atualmente, há a demanda por novas metodologias que sejam capazes de analisar grandes quantidades de dados e associá-las de forma interdisciplinar. Assinale a alternativa que traz a definição correta de "ciência dos dados". a) ( ) A ciência dos dados é o estudo disciplinado de dados e informações. b) ( ) A ciência dos dados é a geração de volume e variedade de novos dados. c) ( ) A ciência dos dados é um tipo de banco de dados. d) ( ) A ciência dos dados é o ato de organizar dados em uma data warehouse. e) ( ) A ciência dos dados é o setor de TI da empresa. 15 TÓPICO 2 CIÊNCIA DE DADOS E BIG DATA UNIDADE 1 1 INTRODUÇÃO As informações e os dados nunca foram tão acessíveis quanto o são hoje em dia. Por meio da internet, conseguimos saber basicamente de tudo que ocorre na nossa localidade e no mundo. A cada ação nossa, provavelmente, muitos dados estão sendo gerados para as empresas responsáveis pelos artefatos e serviços tecnológicos de que fazemos uso. Neste tópico, você vai compreender melhor sobre os conceitos de dados e datasets, assim como vai conseguir visualizar a ação conjunta que pode haver entre a ciência de dados e as tecnologias Big Data, tanto por meio de contextualizações quanto de práticas. 2 DADOS E DATASETS Você já parou para pensar na quantidade de observações que estamos sempre fazendo em tudo que está ao nosso redor? O ser humano, devido a sua racionalidade, consegue lidar com interpretar e associar diversos acontecimentos quase que simultaneamente. E essa não é uma característica desenvolvida apenas quando somos adultos. Se você entrar em uma loja de brinquedos com uma criança, você compreenderá melhor o que estamos falando, já que as primeiras reações quase sempre serão as de as escolhas serem realizadas com base em alguns padrões já preestabelecidos pela criança. Mas você pode estar se questionando sobre o que isso tem a ver com dados e datasets, não é? Basicamente tudo, pois, quando fazemos observações sobre algo, no decorrer do tempo, vamos formando padrões, até mesmo definindo preferências, e agimos dessa forma durante toda a nossa vida. Além disso, geralmente, nossas escolhas são baseadas nessas experiências. Se fizermos uma analogia com essa situação comum do cotidiano com o mundo dos negócios, em que decisões são tomadas a todo instante, não seria muito diferente, tendo em vista que todo negócio constrói um conhecimento sobre si mesmo e sobre seus clientes e produtos no decorrer do tempo. Hoje, ao acompanharmos pesquisas e noticiários, deparamo-nos com um protagonista que já existe há muito tempo, mas que só dos últimos tempos para cá virou o foco de todos: os dados. Mas como podemos defini-los? UNIDADE 1 | FUNDAMENTOS DE BIG DATA 16 A definição mais básica de um dado é sabermos que, se estiver só, ele não faz sentido, de modo que deve haver informações sobre ele, ou seja, complementos informacionais e até mesmo contextos, para que ele tenha sentido e possa gerar algum conhecimento. Ao analisarmos a fundamentação do conceito de dados, vemos claramente que ele é um ativo importante dentro de um negócio, e podemos afirmar que nas nossas atividades cotidianas também! Você conseguiu perceber como somos geradores de dados e informações constantes? Mas e dataset, o que seria? Em sua tradução livre, o termo significa conjunto de dados. Mencionamos que as informações são um coleção de dados e, dentro desse contexto, é relevante notar que o contexto científico exige que visualizemos níveis mais profundos dos processos dedutivos e intuitivos de observação para que possamos registrá-los com precisão. Uma maneira de fazer isso é construir um conjunto de dados, os quais são apresentados de várias formas. Em sua grande maioria, os dados são representados por meio de planilhas, podendo conter diversas linhas ou colunas, e não necessariamente precisam assumir aquela ideia que temos de planilhas desenvolvidas em alguns softwares específicos. Um conjunto de dados possui algumas características relevantes, como a estruturação dos dados, já que, como citado anteriormente, lidar com dados é um trabalho extremamente minucioso, tendo em vista que o dado é o recurso- chave de todo processo. Deve haver, também, a possibilidade de recuperação, acesso e identificação dos dados diante de todo o conjunto, ação que geralmente ocorre por meio de comandos ou disponibilização de links de acesso, além de certa frequência nas atualizações dos dados. Do ponto de vista de Ramakrishnan e Gehrke (2013, p. 784), existem muitos motivos para que os dados sejam semiestruturados. A estrutura dos dados pode ser implícita, oculta, desconhecida ou o usuário pode optar por ignorá - la. Além disso, ao se integrar dados de várias fontes heterogêneas, a troca e a transformação de dados são problemas importantes. Dessa forma, é necessário que haja um modelo de dados altamente flexível para integrar dados de todos os tipos de fontes, incluindo arquivos simples e sistemas legados. Juntamente aos conceitos de dados, é importante compreendermos, também, os conceitos de informação e conhecimento. • Informação: fornece significado para o dado, pois pode ser definida como um dado contextualizado. ATENCAO TÓPICO 2 | CIÊNCIA DE DADOS E BIG DATA 17 • Conhecimento: pode receber diversas definições diferentes, mas, dentro desse contexto, o conhecimento pode ser definido como uma experiência ou até mesmo aprendizado obtido devido à organização e à contextualização dos dados e das informações. 3 O USO DA CIÊNCIA DE DADOS E BIG DATA Vivemos no século XXI e, no contexto dos negócios, as previsões acabam sendo o ponto forte das empresas. Mas não estamos falando de previsões de sorte, com cartomantes ou videntes; falamos de tecnologias que usam seus poderosos algoritmos para fazer previsões de negócios. Quando falamos sobre essas estimativas, estamos ressaltando ainda mais a importância do dado, já que todo seu ciclo de vida complementa o investimento em tecnologias tanto inseridas em ferramentas quanto em metodologias no mundo corporativo. A concepção de um dado pode ser oriunda das mais diversificadas fontes: no nosso caso, produzimos dados em praticamente toda ação que desempenhamos por meio de algum recurso tecnológico, pois, quando nos conectamos à rede, nossas informações começam a ser obtidas imediatamente, seja por um login em algum site ou até mesmo pelas permissões que damos ao fazermos download e instalarmos algum aplicativo. No entanto, algumas fontes de dados não podem estar suscetíveis a variações ou sofrer outros danos, ou seja, deve haver certa estrutura para receber os dados. Não podemos esquecer que existem regras empresariais que acompanham (ou pelo menos tentam acompanhar) todo esse processo. Por isso, por exemplo, existem tipos de dados que ficam armazenados por muito mais tempo que outros, e essa decisão cabe à empresa. Perceba que, quando falamos em armazenamento, estamos falando também de investimento em segurança computacional, e até mesmo em hardware e espaço na nuvem (cloud computing) capaz de armazenar tantas informações. FIGURA 3 – CICLO DE VIDA DOS DADOS PARA CIÊNCIA DA INFORMAÇÃO (CVD–CI) FONTE: Sant’ana (2016) UNIDADE 1 | FUNDAMENTOS DE BIG DATA 18 Dessa forma, podemos concluir que a concepção, o armazenamento, o tratamento e outros processos relacionados aos dados irão variar conforme sua finalidade. Inclusive, pode haver até mesmo o descarte dos dados, como mostra a Figura 3. A importância no conhecimento destes processos se dá, segundo Turbane Volonino (2013, p. 67), devido a três princípios: • Princípio da redução do valor de dados. Uma análise dos dados em seu ciclo de vida mantém a atenção em como o valor dos dados pode diminuir de acordo com o seu envelhecimento. Assim, o dado tem mais valor quanto mais recente for. A maioria das organizações não pode operar no má imo de seu desempenho tendo pontos cegos, isto é, falta de dados disponíveis, de 30 dias ou mais. • Princípio do uso de dados 90/90. Uma atuação em tempo real ou quase em tempo real sobre dados operacionais pode trazer vantagens importantes. De acordo com esse princípio, a maioria dos dados armazenados raramente é acessada após 90 dias (exceto para fins de auditoria). Ou seja, os dados perdem grande parte de seu valor após três meses. • Princípio de dados em contexto. Para capturar, processar, formatar e distribuir dados rapidamente e quase em tempo real, é necessário um grande investimento em infraestrutura de gerenciamento de dados para fazer a ligação remota dos sistemas presentes nos pontos de venda (PDVs) para armazenamento de dados, sistemas de análise de dados e aplicativos que geram relatórios. Esse investimento se justifica de acordo com o princípio de que dados devem estar integrados, ser processados, analisados e formatados em “informação acessível”. Os usuários finais precisam visualizar os dados em um formato significativo e em contextos, já que eles irão guiar suas decisões e seus planejamentos. A ciência de dados transforma os dados utilizando conceitos matemáticos e estatísticos por meio de processos de mineração e filtragem dos dados. As ferramentas computacionais se tornam necessárias para, em conjunto com os softwares, realizar o armazenamento, a obtenção e o tratamento dos dados. Mas e como tudo isso acontece? Para isso, são utilizadas tecnologias, como mencionamos anteriormente, e uma delas que podemos destacar aqui é Big Data. Como o próprio termo já sugere, isso significa lidar com uma grande quantidade de dados diversos (estruturados ou não estruturados). Os dados não estruturados são aqueles dados cujo contexto total nem sempre a tecnologia consegue visualizar, por exemplo, em arquivos textuais. Já os dados estruturados conseguem ser totalmente classificados e identificados com o uso das tecnologias. ATENCAO TÓPICO 2 | CIÊNCIA DE DADOS E BIG DATA 19 O que não podemos deixar de comentar é que existem vários profissionais que lidam com os dados e que, muitas vezes, com a ajuda da tecnologia, nem sempre estão totalmente ligados ao setor de tecnologia da empresa, já que, na maioria das vezes, as tomadas de decisões são realizadas por profissionais administrativos. 4 APLICAÇÕES PRÁTICAS DA CIÊNCIA DE DADOS E BIG DATA Várias metodologias estão sendo utilizadas pelas empresas para a coleta de dados. No entanto, quando falamos em Big Data, estamos assumindo que, além de termos grande volume de dados, devido às grandes proporções, eles não podem ser tratados com métodos tradicionais. Para isso, devem ser executados alguns passos, tais como obtenção, armazenamento, sistematização e análise dos dados. O termo Big Data é, muitas vezes, caracterizado por três vertentes que, inclusive, são conhecidas como os três Vs: volume, variedade e veracidade. É comum nos depararmos com outros 2 Vs que também contemplam de forma coerente os conceitos sobre essa tecnologia: o valor e a velocidade. A obtenção dos dados pode ocorrer oriundas de diversas fontes, tanto internas quanto externas aos negócios da empresa. Já o armazenamento, provavelmente, ocorrerá por meio de sistemas e servidores. Isso ocorre para garantir que seja feito o armazenamento automático e para que possam ser realizados backups posteriormente. As próximas etapas consistem na organização e na análise dos dados, nas quais deve haver um agrupamento que tenha como base algum padrão dos dados, gerando, com isso, uma estrutura capaz de facilitar o acesso e a análise das informações, que é basicamente o último passo a ser executado. Com a organização, isso fica mais fácil, já que é na extração que podemos obter a visualização dos dados úteis para as tomadas de decisão. Ainda sobre a etapa de análise, podemos afirmar que, antes, acontecia apenas de forma descritiva, com o objetivo de trazer por meio, muitas vezes, de gráficos, planilhas e relatórios, alguns conjuntos de dados que caracterizavam as ações já executadas pela empresa. Com a ciência de dados, essa etapa evoluiu, não só devido ao uso das tecnologias, mas também com relação a seus objetivos. Hoje, por exemplo, as análises não ocorrem apenas com olhares para o passado, mas também com perspectivas futuras, que são chamadas de análises preditivas e diagnósticas, já que é por meio desse processo que falhas ou pontos de melhoramentos são observados. Existem diversas maneiras de as empresas coletarem dados, tais como: endereço de e-mail e IP, informações dos dispositivos, browsers, cliques em anúncios, seja pela rede social ou por e-mails, histórico de buscas, dentre outros. Para isso, elas utilizam alguns métodos para monitorar seus usuários, como ferramentas para identificação de dispositivos, perfis dos usuários, cookies, dentre outros. UNIDADE 1 | FUNDAMENTOS DE BIG DATA 20 Os dados obtidos das mais variadas fontes podem ser utilizados de diversas formas. As grandes empresas, por exemplo, utilizam para as integrações de contas, em que todas suas informações, muitas vezes, podem estar associadas ao seu e-mail, a conteúdos personalizados, e as empresas podem aumentar o leque de opções de produtos e serviços conforme cada perfil de cliente. A associação desses recursos pode ser visualizada e utilizada em diversos contextos, como no esporte, em que diversos times de basquete, futebol, entre outros, passaram a utilizar a análise de dados para prever possíveis melhorias de seus times, tanto em resultados gerais quanto de desempenho dos atletas durante a prática de suas atividades. Aqui no Brasil, até os órgãos governamentais utilizam data warehouse para registros. Nesse sentido, um setor atuante é o Ministério da Justiça, com o intuito de identificar ações de lavagem de dinheiro, dentre outros golpes. Empresas como Google, Facebook e as de tecnologia também utilizam fortemente a análise de dados, e podemos até afirmar que eles atuam por meio de todas as formas possíveis para isso, já que seus lucros são oriundos desse tipo de ação. Grandes redes varejistas do setor alimentício também utilizam a ciência de dados e tecnologias Big Data para gerir seus negócios e, como mencionamos anteriormente, para ampliar a gama de negócios, produtos e serviços que podem ser disponibilizados aos clientes. Conforme Taurion (2013), Big Data é um conjunto de tecnologias, processos e práticas que permitem às empresas analisarem dados que antes não tinham acesso e tomar decisões ou mesmo gerenciar atividades de forma muito mais eficiente. Para o autor, diversos dados podem ressaltar o início da curva de aprendizado sobre o que é o Big Data e seu respectivo impacto social. Como exemplo, ele cita o uso de Big Data pelas empresas Amazon e Netflix, que utilizam sofisticados e avançados sistemas de recomendação. Portanto, as aplicações práticas que possuem ciência de dados e Big Data trazem maior transparência, já que os dados ficam disponíveis em locais específicos, e alguns deles até passam a ser de domínio público, como é o caso de dados governamentais. Ocorre, também, a amplificação das informações, tendo em vista que a conexão de diversas informações sobre algo específico ocorre de forma mais fácil. A análise de dados pode ser realizada com o uso de algumas tecnologias, como NoSQL, Hadoop, Sisence, TIBCO Spotfire, dentre outras. DICAS 21 RESUMO DO TÓPICO 2 Nesse tópico você aprendeu: • A Descrever dados e datasets. • A Discutir ciência de dados e Big Data. • Listar práticas de ciência de dados e Big Data. • Que a compreensão de como os dados são gerados, armazenadose analisados é primordial para entender a atividade desempenhada por este ativo tão valioso para as empresas. • Veja alguns passos correspondentes a este ciclo, tanto na tomada de decisões quanto nas demais ações dentro de um negócio, no Infográfico. 22 23 1 As grandes companhias utilizam as ferramentas computacionais para atender a alta demanda dos negócios, já que atualmente o comportamento social demonstra claramente as transições que o mundo dos negócios está sempre percorrendo. Assinale a alternativa que traz formas de como as empresas fazem uso dos dados de seus usuários para obter sucesso em seus negócios. a) ( ) Para realizar compras em seus cadastros. b) ( ) Para aplicar recurso de reconhecimento facial. c) ( ) Para obter dados aleatórios que circulam na rede. d) ( ) Fornecimento de serviços personalizados. e) ( ) Para manter a preferência do cliente. 2 As grandes empresas corporativas investem em tecnologias para que possam obter destes investimentos lucros financeiros. Assinale a alternativa que contém formas de como as empresas obtêm os dados de seus clientes para uso da ciência de dados e Big Data. a) ( ) Por meio de ligações realizadas pelos call centers das empresas para seus clientes. b) ( ) Por meio de correspondências. c) ( ) Por meio de preenchimento de formulários em planilhas. d) ( ) Por meio de abordagens pessoais em centros comerciais. e) ( ) Por meio de aplicações de terceiros, identificação de dispositivo, perfil do usuário. 3 A ciência de dados traz a multidisciplinaridade para o mundo dos dados, e, agindo em conjunto com tecnologias e ferramentas Big Data, pode contribuir para a geração e diversificação de novos negócios. Assinale a alternativa que traz algum princípio relacionado ao uso destes recursos em relação ao uso dos dados. a) ( ) As tomadas de decisão dentro de uma empresa podem ser baseadas em análises primitivas dos dados com planilhas. b) ( ) O Big Data permite que dados sejam armazenados e utilizados após muitos anos, sem perder o valor. c) ( ) Ferramentas e tecnologias Big Data são gratuitas e geram redução de custos para empresa. d) ( ) A ciência dos dados aplica conceitos estatísticos nos dados em conjunto com tecnologias Big Data. e) ( ) Permite o armazenamento dos dados antigos como critério para aprovação de investimentos em novas ferramentas. AUTOATIVIDADE 24 4 A obtenção dos dados ocorre por meio de diversas fontes: e-mails, redes sociais, smartphones, tablets, entre outros. Dessa forma, com o passar do tempo, recursos computacionais se tornaram necessários para que tudo isso possa ser aproveitado pelo mundo corporativo. Assinale a alternativa que apresenta os passos percorridos pelo dado durante seu uso na tomada de decisões corporativas. a) ( ) Tratamento, armazenamento, análise. b) ( ) Tratamento, análise e coleta. c) ( ) Análise, tratamento e armazenamento. d) ( ) Coleta dos dados, armazenamento, tratamento e análise. e) ( ) Armazenamento, análise, coleta e tratamento. 5 Os dados podem ser considerados recursos ativos gerados automaticamente em toda atividade exercida; se tratados e analisados têm grande valor para o mercado. Assinale a alternativa que contempla a definição correta sobre o dado. a) ( ) É uma quantidade de fatos não analisados. b) ( ) Fornece significado contextualizado. c) ( ) Pode ser definido como uma experiência. d) ( ) São ativos tecnológicos padronizadores. e) ( ) O seu sentido é estabelecido quando apresentado só. 25 TÓPICO 3 DESCOBERTA DE CONHECIMENTO COM BIG DATA UNIDADE 1 1 INTRODUÇÃO Os grandes conjuntos de dados (Big Data) gerados pelas pessoas e empresas diariamente possuem um potencial de melhorias em diversos segmentos de negócios. Entretanto, a evolução das técnicas de análise é o gargalo que impede tomadas de decisões mais eficazes para os negócios. O processo de descoberta do conhecimento é uma abordagem que sistematiza em etapas a realização dessas análises. Neste tópico, você estudará sobre o processo de descoberta de conhecimento aplicado ao Big Data e conhecerá exemplos nos quais esse processo teve êxito em suas aplicações. 2 PROCESSO DE DESCOBERTA DE CONHECIMENTO Em 1989, foi instituído o termo descoberta de conhecimento em banco de dados em alusão ao processo de transformação de volumes de dados em conhecimento. Esse termo tem origem no inglês Knowledge Discovery in Databases e é comumente utilizado pela sigla KDD. O objetivo do KDD é a extração de relações implícitas e desconhecidas nas bases de dados para geração de conhecimento útil. O KDD pode ser considerado uma atividade multidisciplinar, tendo em vista que envolve diversos conceitos relacionados à inteligência artificial e a disciplinas matemáticas. O conhecimento extraído deve ser confiável, compreensível e útil, ou seja, a descoberta de conhecimento consiste na extração de informações que podem colaborar na tomada de decisões, em grandes bases de dados e sem nenhuma hipótese previamente estabelecida (FAYYAD et al., 1996). A partir desse conceito, surgiu o processo de KDD, que propõe, a partir de etapas iterativas e interativas, um padrão metodológico para transformação dos grandes volumes de dados em conhecimento. Esse processo é realizado por meio de métodos de mineração de dados (algoritmos) para extrair (identificar) o que é considerado conhecimento, de acordo com as especificações de medidas e limites, usando um banco de dados junto a qualquer pré-processamento, subamostragem e transformações necessárias desse banco de dados. Com base nesse conceito, pode-se dizer que o processo KDD é baseado na cooperação entre humanos e computadores, no qual os humanos são os responsáveis por projetar arquiteturas de sistema, definição dos problemas e identificação dos objetivos, enquanto os computadores realizam o processamento dos dados em busca de padrões que satisfaçam os objetivos definidos. A etapas do processo de KDD podem ser visualizadas na Figura 4. 26 UNIDADE 1 | FUNDAMENTOS DE BIG DATA FIGURA 4 – ETAPAS DO PROCESSO DE DESCOBERTA DO CONHECIMENTO FONTE: Schneider (2003, p. 13) Na primeira etapa, o processo de KDD desenvolve uma compreensão do domínio da aplicação, além da definição dos objetivos a serem alcançados, ou seja, nessa etapa, define-se que problema deve ser resolvido com o conhecimento a ser adquirido. Após essa etapa, inicia-se a etapa de seleção, que consiste em selecionar os dados-alvo, que podem ser segmentados em subconjuntos de dados. A etapa de pré-processamento é na qual se realiza uma limpeza nos dados com o objetivo de adequá-los para a mineração de dados. Normalmente, as bases de dados com um grande volume não estão preparadas para a mineração. Após a etapa de pré-processamento, inicia-se a etapa de transformação, que consiste em fazer com que os dados pré-processados passem por uma transformação que garanta o seu armazenamento adequado. Nessa etapa, o objetivo é fazer com que os atributos representem todas as características desses dados. Na etapa de mineração, é realizada a busca por padrões nos dados da base já transformada. A mineração de dados é considerada o núcleo do processo de KDD. A etapa final consiste em identificar, entre os padrões extraídos, quais satisfazem os critérios definidos. No final dessa avaliação, é possível retornar ao início do processo novamente ou implantar e incorporar o conhecimento extraído ao sistema de forma que os métodos sejam documentados para a apresentação do conhecimento. O KDD se refere ao processo geral de descoberta de conhecimento útil a partir de grandes volumes de dados. Envolve a avaliação e, possivelmente, a interpretação dos padrões para tomar a decisão do que será qualificado como conhecimento. Também inclui a escolha de esquemas de codificação, pré-processamento, amostragem e projeções dos dados antes da etapa de mineração de dados. Já a mineração de dados refere-se à aplicação de algoritmos para extrair padrões de dadossem as etapas adicionais do processo de KDD. ATENCAO TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA 27 Na etapa de mineração de dados, podem ser utilizadas técnicas como: • Redes neurais artificiais: consistem em modelos preditivos não lineares que aprendem por meio do treinamento e se assemelham às redes neurais biológicas (das quais vem o seu nome). • Algoritmos genéticos: técnicas de otimização baseadas em combinação genética e seleção natural. • Método do vizinho mais próximo: é a técnica que classifica cada registro em um conjunto de dados combinando os registros mais semelhantes. • Indução de regras: consiste na extração baseada em regras condicionais a partir da significância estatística. • Visualização de dados: a partir de ferramentas que utilizam gráficos, é possível realizar interpretações visuais de relações complexas. 3 APLICAÇÃO DO PROCESSO DE DESCOBERTA DO CONHECIMENTO Para exemplificar o processo de KDD, vamos basear-nos no trabalho realizado por Schneider (2003), que utilizou como cenário para aplicação o Poder Judiciário do estado do Rio Grande do Sul. O KDD foi aplicado nas bases de dados de julgamento de processos à procura de descobertas baseadas na classificação inicial dos processos com relação à incidência de processos, tempo de tramitação e tipos de sentenças proferidas. 3.1 DEFINIÇÃO DOS OBJETIVOS Devido à carência de informações estatísticas, foi definido um KDD que pudesse auxiliar na busca por padrões de comportamento que relacionassem a classificação processual com o padrão de sentenças proferidas, tempo de tramitação e incidência de processos. 3.2 SELEÇÃO Nesse caso, foram selecionadas as bases de dados que fornecem dados de 1ª instância, que possuem como característica principal a descentralização dos dados em bancos de dados divididos por comarca, totalizando 80 bases de dados. Os dados dessas comarcas foram replicados on-line e centralizados em uma única base de dados. A Figura a seguir apresenta o modelo lógico de dados utilizados para compreensão do domínio explorado. 28 UNIDADE 1 | FUNDAMENTOS DE BIG DATA FIGURA 5 – MODELO LÓGICO DE DADOS FONTE: Schneider (2003, p. 33) 3.3 PRÉ-PROCESSAMENTO Na etapa de pré-processamento, foi realizada uma limpeza na base de dados com o objetivo de trabalhar apenas com dados consistentes. Processos que estavam considerados como baixados, mas que estavam sem data de baixa, e processos nos quais foram identificados erros de digitação nas datas foram encaminhados para os responsáveis para correção e posterior reinserção na base de dados. 3.4 TRANSFORMAÇÃO Para encaminhar a próxima etapa do KDD, que é a mineração, foram construídos alguns campos na base de dados. Entre eles, podemos citar o campo que realiza o cálculo do tempo de tramitação de cada processo (diferença entre a data da baixa e a data de abertura) e a idade do réu, calculada a partir da sua idade. Além disso, foram realizadas algumas adequações nos formatos dos dados de alguns campos, a fim de fornecer os dados num padrão de entrada adequado para a mineração dos dados na etapa seguinte. TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA 29 3.5 MINERAÇÃO DE DADOS Nesta etapa, inicialmente, foram defi nidas as técnicas de segmentação e regras de associação para aplicação. Foram aplicados, inicialmente, dois filtros nos atributos: 1) seção x classe x especialização; e 2) comarca x seção x classe x especialização. Foi utilizado o algoritmo “K-means” para a configuração os parâmetros quantidade de clusters (8), número randômico para escolha dos centroides iniciais (10) e modo de cluster (use training set). 3.6 INTERPRETAÇÃO E AVALIAÇÃO Para a avaliação dos resultados, foram considerados mais expressivos os resultados realizados com 8 clusters, tendo em vista que os testes com 12 clusters geraram resultados inexpressivos e com 4 clusters ocultavam informações relevantes. Acesse o link a seguir com o trabalho de Schneider (2003), na página 42, e veja o gráfico em formato de pizza com a distribuição do cruzamento de seção x classe x especialização. https://goo.gl/CGCnt9 UNI Na interpretação dos dados, constatou-se que: • 26% dos casos estão agrupados na seção cível, na classe processo de conhecimento e com a especialização definida como família; • 20% dos casos estão agrupados na seção cível, na classe processo de execução fiscal e com a especialização definida como fazenda pública; • 15% dos casos estão agrupados na seção cível, na classe processos de execução e com a especialização definida como cível; • 12% dos casos estão agrupados na seção juizado especial, na classe associadas e especialização (no juizado especial a classe e a especialização têm a mesma nomenclatura); • 10% dos casos estão agrupados na seção crime, na classe procedimento ordinário-reclusão e com a especialização definida como crime; • 9% dos casos estão agrupados na seção juizado especial cível, na classe precatórias criminais e com a especialização definida como associadas; • 8% dos casos estão agrupados na seção crime, na classe precatórios criminais e com a especialização definida como precatória crime. 30 UNIDADE 1 | FUNDAMENTOS DE BIG DATA Analisando esses resultados, pode-se constatar uma alta incidência de processos cíveis que tramitam na justiça comum, com especialização de família (26%) e fazenda pública (20%). Isso pode ser um motivo para sugerir a nomeação de juízes específicos para julgar esses casos. 4 BIG DATA NA ÁREA DA SAÚDE A área da saúde é uma das áreas que já possuem soluções implementadas a partir dos conceitos que permeiam Big Data devido ao fato de essa área envolver múltiplas relações com volumes de dados de pacientes, profissionais da área, hospitais, laboratórios farmacêuticos, seguradoras, administração pública, entre outros. Com a integração dessas bases de dados, surge um potencial de análises de dados que poderiam influenciar políticas públicas em prol de melhorias na saúde, por exemplo. Pacientes utilizando sensores de monitoramento com informações disponibilizadas em uma plataforma acessível cruzadas com informações providas de redes sociais dos próprios pacientes poderiam permitir aos médicos a elaborações de diagnósticos mais precisos e realistas. Assim, seria possível agir de maneira preventiva em muitos casos por meio de análises preditivas baseadas nesses grandes volumes de dados. Do ponto de vista da indústria farmacêutica, com análises mais profundas em grandes volumes de dados, seria possível melhorar a eficácia dos medicamentos, possibilitando melhores tratamentos aos doentes. Os diversos hospitais e clínicas possuem essas informações, mas elas nem sempre são aproveitadas. A possibilidade de correlacionar os registros médicos com os tratamentos e os resultados dos tratamentos poderia ajudar muito nesse sentido. Além disso, com um volume significativo de dados médicos e algoritmos aprimorados de predição, seria possível modelar de forma mais eficiente em quais vale a pena investir em pesquisas. No link a seguir, você pode encontrar experiências de pacientes relacionadas a seus tratamentos médicos que geram uma grande base de dados para análises. https://goo.gl/o5fG Acesse, no link a seguir, o site da rede Sermo, em que os médicos podem trocar experiências do seu dia a dia — nesse caso, compartilhando casos reais de tratamentos aplicados aos seus pacientes. https://goo.gl/KFbJm UNI TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA 31 Outro uso potencial de Big Data é no controle de doenças, descobrindo em que áreas elas foram detectadas e, de modo preditivo, alertando e preparando os hospitais e centros de emergência regionais para um possível surto epidêmico. Pesquisas demonstram que isso é possível e já existem casos com esse contexto nos quais tendências são identificadas em um grande volume de dados padrões de conexões e interdependências que não eram possíveis de serem observadas em amostragens menores. Um caso
Compartilhar