Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade 2 Ciência de Dados Big Data e Ciência de Dados Diretor Executivo DAVID LIRA STEPHEN BARROS Gerente Editorial CRISTIANE SILVEIRA CESAR DE OLIVEIRA Projeto Gráfico TIAGO DA ROCHA Autoria JÉSSICA LAISA DIAS DA SILVA ALAN DE OLIVEIRA SANTANA AUTORIA Jéssica Laisa Dias da Silva Olá. Sou graduada em Sistemas da Informação pela Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, sou doutoranda em Sistema e Computação pela UFRN e professora conteudista na elaboração de cadernos. Alan de Oliveira Santana Olá. Sou graduado em Ciência da Computação pela Universidade do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da Computação pela Universidade Federal do Rio Grande do Norte (UFRN). Atualmente, sou professor conteudista, elaborador de cadernos de questões e doutorando em Ciências da Computação. Como cientista, atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de sistemas com ênfase na educação. Desse modo, fomos convidados pela Editora Telesapiens a integrar seu elenco de autores independentes. Estamos muito satisfeitos com o convite e a possibilidade de auxiliar em seu desenvolvimento intelectual e profissional. Bons estudos! ICONOGRÁFICOS Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: OBJETIVO: para o início do desenvolvimento de uma nova competência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando necessária observações ou complementações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser priorizadas para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofundamento do seu conhecimento; REFLITA: se houver a necessidade de chamar a atenção sobre algo a ser refletido ou discutido sobre; ACESSE: se for preciso acessar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últimas abordagens; ATIVIDADES: quando alguma atividade de autoaprendizagem for aplicada; TESTANDO: quando uma competência for concluída e questões forem explicadas; SUMÁRIO Conceitos e Escopos da Ciência de Dados .......................................12 Fases do projeto em Ciência de Dados ....................................................... 15 Ciclo de vida do dado .................................................................................................................. 16 Relação de ciência de dados com ciências de informações ......................... 18 Ciência de Dados: termos usados ...................................................................................... 19 Princípios e Diferenças entre Ciência de Dados e Big Data ......22 Princípios e diferenças: Big Data e Ciência de Dados .........................................22 Big Data e Ciência de Dados no processo de tomada de decisão ............24 Ciência de Dados e Business Intelligence ....................................................28 O Papel e a Importância do Cientista de Dados .............................31 Cientista de dados ........................................................................................................................ 31 Formação e atuação do cientista de dados ................................................................32 Perfil do profissional ...................................................................................................34 Habilidades do cientista de dados ................................................................34 Competências relacionadas ....................................................................................................37 Aplicações da Ciência de Dados .......................................................... 40 Onde aplicar a Ciência de Dados ...................................................................................... 40 Ciência de Dados na Biologia ............................................................................. 41 Ciência de Dados aplicada na Saúde ...........................................................42 Ciência de Dados aplicada ao Projeto Social ..........................................42 Ciência de Dados aplicada aos negócios .....................................................................42 Ferramentas que trabalham com Ciência de Dados ............................................45 Linguagem de programação Python ........................................................... 46 Jupyter .................................................................................................................................47 Pandas ..................................................................................................................................47 Anaconda ...........................................................................................................................47 9 UNIDADE 02 Big Data e Ciência de Dados 10 INTRODUÇÃO Com toda a produção de dados e os avanços tecnológicos, surgiram soluções computacionais como o Big Data e a Ciência de Dados. Assim, nestes capítulos nos deteremos a explicar um pouco mais sobre a Ciência de Dados, abordando desde seu surgimento, conceitos e suas contribuições. Abordaremos ainda os princípios e diferenças entre o Big Data e outras soluções computacionais. Ainda no decorrer desta unidade, estudaremos a importância dos profissionais que trabalham com Ciência de dados, assim como suas competências e habilidades. Além do exposto, estudaremos onde está sendo aplicada a ciência de dados, apresentando as diversas áreas em que está sendo explorada, bem como, as ferramentas que ajudam a aplicá-la. Nesta unidade, estudaremos sobre esses assuntos esperando que todas as dúvidas sejam tiradas e que tragam informações que mudem a forma de pensar sobre as tomadas de decisões. Big Data e Ciência de Dados 11 OBJETIVOS Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no desenvolvimento das seguintes objetivos de aprendizagem até o término desta etapa de estudos: 1. Compreender o conceito de Ciência de Dados. 2. Diferenciar Ciência de Dados e Big Data. 3. Assimilar o papel do cientista de dados. 4. Compreender as aplicações da Ciência de Dados. Então? Preparado para adquirir conhecimento sobre um assunto fascinante e inovador como esse? Vamos lá! Big Data e Ciência de Dados 12 Conceitos e Escopos da Ciência de Dados OBJETIVO: Neste capítulo, conceituaremos sobre Ciência de Dados, entenderemos um pouco mais sobre esse conceito e as fases que compõem um projeto de ciências de dados, bem como o ciclo de vida dos dados. Além disso, abordaremos termos importantes quando se estuda ciência de dados. Vamos lá! Por volta de 90% dos dados criados em diversas fontes, como empresas, redes sociais, entre outras, são resultantes da utilização intensa das Tecnologias de Informação e Comunicação nos últimos tempos (BUGNION, et al., 2017). Por conseguinte, os dados são copiosamente e ligeiramente produzidos, servindo de matéria-prima para tomada de decisão em grandes organizações (ECONOMIST, 2017). Nesta conjuntura de universo de dados, avançadas pesquisas e desenvolvimento de soluções computacional são aplicadas, como Ciência de Dados, a qual vamos conceituar e estudar detalhadamente nesta unidade. A Ciência de Dados (“Data Science” termo em inglês) é uma área que estuda o ciclo de vida dos dados e aponta a geração de valor comercial por meio de insights, que são informações suscitadas por meio dos dados. Mesmo que a expressão “Data Science” decorra dos anos 1960, a Ciênciade Dados é uma ciência considerada nova e, muitas vezes, mal interpretada. É sabido que uma ciência é referente a obter conhecimento e informação de modo sistemático, tal como regularizar e estruturar esse conhecimento (AMARAL, 2009). Da mesma maneira, a Ciência de Dados versa de estudar os dados por completo, trabalhando com o seu ciclo de vida da produção ao ponto de ser descartado. Big Data e Ciência de Dados 13 Geralmente, a Ciência de Dados é relacionada de modo errado, especificamente, quando ligada a procedimentos de análise dos dados em que é necessária a utilização de Estatística, aprendizado de máquina ou do simples uso de um filtro produzir informações e conhecimentos (AMARAL, 2009). Figura 1 – Tecnologia da Informação Fonte: Pixabay Provost e Fawcett (2013) afirmam que a Ciência de Dados como um conjunto de princípios básicos que lidam e guiam a extração de informações e conhecimento por meio de dados. Neste contexto, a ciência de dados envolve princípios, procedimentos e técnicas para entender fenômenos por meio da análise automática de dados. NOTA: Em suma, a Ciência de Dados visa transformar os dados brutos em informação que são importantes para as empresas, promovendo solução de problemas ou a obtenção de diferenciais competitivos. Neste sentido, podemos inferir que a ciência é um processo sistemático, em que as pessoas pesquisam e explicam acontecimentos de um escopo específico que ocorrem no mundo natural. Pode-se ainda entender a ciência de dados como um domínio científico que é cotado para descobrir conhecimento (knowledge discovery) por meio da análise de dados. Big Data e Ciência de Dados 14 Finzer (2013) apresenta o diagrama de Venn, ilustrado na Figura 2, como uma estrutura que constitui a Ciência de Dados. Este diagrama está composto por três círculos, apresentados a seguir: • O círculo de Matemática e Estatística: este ciclo é referente aos princípios básicos e experiências solicitadas nas áreas de Matemática e Estatística para compreensão das variáveis, bem como para interpretar e diferenciar os tipos de dados. Isto implica em afirmar que os profissionais da ciência de dados precisam compreender a função dos algoritmos de aprendizado de máquina, tal como, ter a habilidade de interpretar os resultados estatisticamente. • O círculo de conhecimentos substantivos: este ciclo é referente a compreensão do sentido disciplinar para a escolha de um procedimento de análise apropriada para dados. Este conhecimento do problema ajuda no processo de tomada de decisão. • O círculo de Computação e habilidades de dados: este ciclo é referente aos dados para resolver problemas, admitindo que se visualize a estrutura de dados, a qual exige capacidades para programar, extrair e estruturar dados. Assim, as habilidades da ciência de computação ajudam na geração da curadoria digital e no desenvolvimento de algoritmos de aprendizado de máquina e interfaces de visualização da informação. Figura 2 – Diagrama de Vernn Matemática e Estática. Computação e habilidades de dados. Conhecimento substantivos. Fonte: Adaptado de Amaral (2016) Big Data e Ciência de Dados 15 Além disso, sobre o diagrama de Venn, Amaral (2016) assegura que a Ciência de Dados é combinada por diversas outras ciências, modelos, tecnologia, processo e métodos relacionados ao dado, designando relações interdisciplinares na área. IMPORTANTE: É importante afirmar que a Ciência de Dados é determinada como o método para extração das informações úteis por meio de complexas e dinâmicas bases de dados (BUGNION et al., 2017). Conforme Smith (2006), a Ciência de Dados se ampliou desde então para conter o estudo da captura, análise, metadados, recuperação, arquivamento, troca e mineração de dados, com a finalidade de encontrar conhecimento inesperado e relações de dados. Fases do projeto em Ciência de Dados Conforme vimos, a Data Science é um conceito geral para uma diversidade de padrões e técnicas com objetivo de obter informações, o qual a cada dia se torna uma área muito promissora, permitindo processar os dados gerados por meio de várias fontes. Assim, para iniciar um projeto aplicando o conceito da Ciência dos Dados, é importante definir o objetivo de sua aplicação por meio da criação de questões que precisam ser respondidas por meio de um determinado problema a ser resolvido. Após serem estabelecidas as questões, procura-se os dados que auxiliarão a respondê-las, de modo que, sabendo-se os objetivos do que se quer analisar, torna-se necessário adquirir os dados corretos para realizar a limpeza, exploração, criação e avaliação de um modelo, repetindo o ciclo algumas vezes até que se esteja pronto para dar início a busca de como informar adequadamente os resultados obtidos. Logo, temos resumidamente as seguintes fases de um projeto de Data Science (SOARES, 2019): Big Data e Ciência de Dados 16 • Identificação do problema da área de Negócios. • Entendimento de problema. • Coleta de conjuntos de dados (datasets). • Realização da limpeza e transformação dos dados. • Realização do entendimento do relacionamento entre os dados. • Produção de modelos que representem os relacionamentos. • Uso dos modelos para realizar predições. • Entrega de valor e resultado. Ciclo de vida do dado Uma das definições de ciência de dados é entendida como os métodos, modelos e tecnologias que analisam os dados durante todo o seu ciclo de vida, da criação ao descarte. Amaral (2016, p. 46) ressalva que: O ciclo de dados promove a boa gestão de dados quando disponibilizados em formatos como textos: MS Word; PDF; RTF, em formato numérico: Excel, em multimídia: JPEG, GIF, MPEG etc.; em software; e quando disponibilizados em variedade de suportes: fitas, CDs, slides, modelos, mapas e arquivos de dados, etc. Dessa forma, entende-se o ciclo de vida dos dados a partir do início da criação até o seu descarte, podendo passar por uma série de outras etapas. Desse modo, quaisquer fontes de dados podem não sofrer algum tipo de transformação após sua produção ou mesmo serem rejeitadas prontamente após a produção ou serem produzidos para um armazenamento por tempo indefinido. Vale evidenciar que as fases dos dados dependerão de suas naturezas e das suas finalidades (AMARAL, 2016). De acordo com Amaral (2016), pode-se formar um ciclo de vida mais geral, que apesar de não se aplicar a todo e qualquer dado, é ajustável à maioria, tendo um ciclo padrão que compreende seis etapas: produção, armazenamento, transformação, armazenamento analítico, análise e descarte, como pode ser visto na Figura 3. Big Data e Ciência de Dados 17 Figura 3 – Ciclo de vida do dado PRODUÇÃO DESCARTE ANÁLISE ARMAZENAMENTO TRANSFORMAÇÃO Fonte: Adaptada de Amaral (2016). Sob o mesmo ponto de vista, outros autores tratam a importância de se idealizar um ciclo de vida dos dados, abarcando aspectos de planejamento, aquisição, organização, estruturação, conceitos de fluxos analíticos e ferramenta adequada para o armazenamento de dados. Outrossim, necessita de atenção para as questões relativas à preservação, à organização, ao compartilhamento e à proteção (BERTIN et al., 2017). Todas essas etapas são necessárias por representar a estruturação e a organização, com intuito de gerar a utilização e reuso dos dados de maneira segura e apropriada. Bertin et al. (2017, p. 29) trata o ciclo de dados e seu gerenciamento determinado por essas etapas: Implementação, Definição de parâmetros, Exploração de dados: possibilidade de preservação de dados científicos, desenvolvimento de políticas de gerenciamentos de ciclo de dados para projetos e atividades relevantes; Ingestão de dados, Obtenção de dados: estratégias que preveem a preservação e o acesso a longo prazo e rentáveis à qualidade adequada, garantindo proteção de alta confiança e confidencialidade;Tomada de decisão: aplicações para os requisitos legais e regulamentados para toda a gama de tipo de dados e Utilização do modelo: recuperação dos dados de pesquisa, tendo em vista a sua implementação. Big Data e Ciência de Dados 18 NOTA: Você pode notar com efeito, o ciclo de vida dos dados é um procedimento textual, que permite aprender os diversos passos que os dados seguiam até o seu gerenciamento. O compartilhamento dos dados inicia com um método do ciclo de vida dos dados e é solicitado desde do planejamento até sua análise divulgação. Relação de ciência de dados com ciências de informações É importante entender a ciência de informação, pois está inteiramente ligada à Ciência de Dados. Existem diversos sentidos para a ciência da informação, passando por áreas multidisciplinares associadas com a análise, classificação, armazenamento, coleta, disseminação e a segurança da informação, com a interação entre indivíduos, empresas ou sistemas de informação existentes (MARCHIONINI, 2016). Podemos relembrar que a Ciências da Informação é designada como conceito geral que realiza interdisciplinaridade com a informática, concentrando em distinções e semelhanças para a Ciência de Dados. Outro ponto de destaque é que o profissional de ciências de informações é licenciado nesta área e, geralmente, designado por profissional da informação ou gestor de informação. NOTA: É importante ressaltar que a ciência da informação, com suas teorias, qualifica-se como excelentes opções para fundamentar a área de qualidade Ciência de Dados (WANG, 2018). Por outro lado, temos a Ciência de Dados relacionada à descoberta de conhecimento ou de informações disponíveis de dados e a ciência da informação envolve-se nesse significado com seus métodos para Big Data e Ciência de Dados 19 armazenamento e recuperação de informações. Apesar de serem áreas diferentes, elas se complementam na manutenção e ampliação do conhecimento. Gray (2007) relata que as ciências clássicas se conectam à Ciência de Dados por meio do método e prática para diversas áreas de conhecimento. Ciência de Dados: termos usados Quando trabalhamos com o universo da Ciência de Dados, alguns termos podem causar confusão, por isso, é importante esclarecê-los, pois muitos possuem atuações diferenciadas. Assim, temos as seguintes expressões que mais geram dúvidas, sendo eles: Business Intelligence, Data Mining, e Data Analytics. A seguir, iremos expor cada uma: • Business Intelligence É responsável por realizar análise de acontecimentos que já tenha ocorrido em um certo período, com base em dados exatos que existam, não prezando em atingir predições em prazos afastados. Em BI, o trabalho é constituído referente ao que está acontecendo no momento, levando em consideração o médio e curto prazo, permitindo uma tomada de decisão mais precisa (CRUZ, 2018). Em suma, o Business Intelligence tem como objetivo disponibilizar os dados históricos a administradores e analistas de negócios, promovendo a manipulação desses dados e valiosos resultados para melhorar a tomada de decisões (TURBAN, et al., 2009). • Data Analytics Também conhecida como Análise de Dados, é o processo pelo qual procura-se examinar, limpar, transformar e modelar dados. Vista muitas vezes como um elemento da ciência de dados, é utilizada para compreender como são os dados de uma empresa e é empregada a Data Analytics para solucionar problemas (OLAVSRUD, 2018). Big Data e Ciência de Dados 20 A Ciência de Dados se preocupa em analisar conjuntos de dados maciços para expor insights. A Análise de Dados funciona melhor quando é focada, tendo claras as perguntas que precisam de respostas com base nos dados existentes. Embora as diferenças existam, a Ciência e a Análise de Dados são partes importantes do futuro do trabalho e dos dados. EXEMPLO: Realizar estudos sobre o comportamento do consumidor e suas expectativas, além de observar as tendências de mercado. Data Mining A Mineração de Dados (Data Mining) pode ser conceituada como o processo com etapas determinadas de extração da informação por meio de conjuntos de dados e sua transformação em uma estrutura compreensível para uso futuro. Embora usualmente relacionada à KDD, tal processo pode ser utilizado isoladamente e também em conjunto com outros métodos ou técnicas (CRUZ, 2018). EXEMPLO: Na área de Finanças, podemos exemplificar com um projeto cujo objetivo seja gerar um modelo de classificação para caracterizar clientes que pagam em dia, clientes que pagam em atraso e clientes que não pagam seus créditos. Para tanto, deve considerar o histórico de pagamento de clientes de uma financeira que haviam recebido crédito durante um período determinado. O modelo construído foi incorporado a um sistema de apoio à decisão, que passou a ser usado na análise de novas solicitações de crédito recebidas pela central de atendimento de uma financeira (COMPUTERWORLD, 2020). A mineração de dados é estudada como parte do processo de Descoberta de Conhecimento em Banco de Dado (KDD – Knowledge Discovery in Databases), responsável pela seleção das técnicas a serem usadas para descobrir padrões nos dados, seguida da efetiva busca por padrões de interesse num modo particular de representação ao lado da busca pelo melhor ajuste de parâmetros do algoritmo para a atividade que desejar aplicar (TAN et al., 2009). Big Data e Ciência de Dados 21 IMPORTANTE: Podemos citar a seguinte ressalva que a Data Science, bem como Data Mining, é preditiva, entretanto, trabalha com os dados utilizando-os como informações e conhecimento de especialistas, tendo como diferença básica o fato de que esta tecnologia atua com a associação de técnicas científicas diversificadas, tais como: Estatística, Machine Learning, Data Analytics, Data Mining, entre outras (CRUZ, 2018). Por fim, percebemos como é importante estudar e entender cada um dos termos apresentados para assim facilitar a compreensão e a decisão de quando usar cada uma dessas soluções computacionais. RESUMINDO: Estudamos, neste capítulo, o termo ciência de dados, entendendo que esta área aborda o ciclo de vida dos dados e aponta a geração de valor comercial por meio de resultados que são informações originadas por meio dos dados. Explanamos ainda sobre os conceitos de Ciência de Dados, definindo como a área que está inserida com Matemática e estáticas, entre outras ciências. Entendemos também sobre os dados e como é constituído o ciclo de vida destes, trazendo algumas definições de autores e importantes etapas da sua produção ao descarte. Compreendemos a relação entre ciências dos dados e ciências da infração, bem como estas se relacionam. Entendemos um pouco mais a diferença entre termos como Business Intelligence, Data Mining e Data Analytics, que pertencem a estes universos de dados e, consequentemente, estão associados a Ciência dos Dados. Por fim, abordamos como a Ciência dos Dados trabalha para descoberta dos conhecimentos básicos que lidam e guiam a extração de informações, assim como, por meio de dados, envolvendo ainda, princípios, procedimentos e técnicas para entender fenômenos por meio da análise automática de dados. Big Data e Ciência de Dados 22 Princípios e Diferenças entre Ciência de Dados e Big Data OBJETIVO: Neste capítulo, estudaremos um pouco mais acerca de como se dá o relacionamento entre o Big Data com a Ciência de Dados. Veremos princípios e diferenças destes termos e como esses são importantes no processo de tomada de decisão. Vamos lá! Princípios e diferenças: Big Data e Ciência de Dados Observamos com o desenvolvimento das tecnologias de informação e das possibilidades de descoberta por meio de recursos mais aperfeiçoados, o aparecimento de estudos que destacam a ciência de dados como a ciência que agrupa múltiplos aspectos da informação por meio de seus dados, tendo uma equipemultidisciplinar de profissionais, por exemplo, de Estatística, programadores, analistas de dados, matemáticos e bibliotecários. Outra marca dos avanços tecnológicos é a grande massa de dados produzidos, a qual destacamos o surgimento do Big Data, que trata a ampla quantidade de dados e possibilita analisá-los. Sabemos que a ciência de dados foi criada com intuito de suprir lacunas computacionais, trazendo soluções e ideias por meio das fontes de dados diferentes. Sua versatilidade permite aplicá-la em diversas áreas dentro e fora da computação, tais como: reconhecimento de imagem, Análise de Dados, Inteligência Artificial, Big Data, Machine Learning, Data Mining, robótica, negócios, entre outras (CRUZ, 2018). Com isso, temos a ciência de dados combinada com a utilização de Big Data pela necessidade de se trabalhar com um volume Big Data e Ciência de Dados 23 substancialmente grande de dados com a finalidade de otimização das informações a serem analisadas. O Big Data, no conceito geral, trabalha com qualquer conjunto de dados grandes ou complexos que se fossem usados no gerenciamento tradicional de dados, teriam processamento complicado, ou seja, ele surgiu também como uma solução para ajudarem nas análises destas massas de dados grandes e variáveis (CIELEN et al., 2016). Figura 4 – Solução Big Data e Ciência de Dados ..... Fonte: Freepik Vale ressaltar que na ciência de dados a utilização de Big Data não é obrigatória, porém fornece resultados mais satisfatórios devido ao trabalho com grandes volumes de dados, oferecendo melhores performances. Ainda podemos citar que o Big Data é um auxílio prático para a ciência de dados trabalhar, de forma que, o volume de dados que são coletados e armazenados pelo Big Data, que passaram por uma análise posterior, são utilizados para interpretação, análise detalhada e para a elaboração de estratégias de outros sistemas, como a Ciência de Dados, por exemplo. Outra diferença que podemos frisar é entre os profissionais de cada uma das áreas, em que o analista de Big Data é o profissional que usa das Big Data e Ciência de Dados 24 informações existentes no banco de dados para descobrir conhecimento, não conseguindo produzir uma solução de análise propriamente dita, porém, é necessário a utilização de técnicas da ciência de dados (SANTANA, 2019). Já o cientista de dados necessita de outros tipos de conhecimentos mais técnicos e analíticos frente a um analista de Big Data, como Programação, Matemática, Estatística, gestão, entre outras (SANTANA, 2019). SAIBA MAIS: Assista ao vídeo Você sabe a diferença entre Data Science e Big Data?, que traz um resumo da diferença de Big Data e Data Science. Nele, você verá abordagens de modo prático e objetivo sobre as principais diferenças entre Big Data e Ciência de Dados, bem como, a relação existente entre elas. Acesse clicando aqui. Deste modo, diante de tudo que foi exposto, percebemos que a utilização do Big Data contribui no aspecto de que muitos dados adquiridos retornam um resultado com um percentual mais alto em relação a precisão nas manipulações futuras. Entretanto, mesmo com todas as suas vantagens, devemos enfatizar que a utilização do Big Data, neste caso, não se trata de regras obrigatórias, possibilitando assim que a análise dos dados não se encaixe nas definições de Big Data como estudamos, mesmo que a fonte de consulta não seja tão assertiva quanto (CRUZ, 2018). Big Data e Ciência de Dados no processo de tomada de decisão Cada dia mais as organizações dos diferentes setores buscam recursos para lidar com as grandes massas de dados produzidos, como também, cresce a procura de meios para explorar e analisar esses dados, tendo intuito de proporcionar conhecimento e vantagens competitivas para as empresas. Big Data e Ciência de Dados https://www.youtube.com/watch?v=r1AYxeep0QM 25 EXEMPLO: Um estudo realizado com 179 grandes empresas de capital aberto dos EUA, de modo que aquelas que tomam decisões com base em informações, obtém rendimentos e ganhos de produtividade 5 a 6% maiores. Essa relação também surge em outras medidas de desempenho: utilização de ativos, retorno sobre patrimônio líquido e valor de mercado (ESPINDOLA; ROTH, 2015). Desde o surgimento do fenômeno da explosão informacional, a relevância da informação, relacionando-se com o contexto da tomada de decisão e do desenvolvimento científico, passa a ter maior destaque. Neste contexto de avanços, surgiram os fenômenos de Big Data e ciência de dados. É sabido que o Big Data trabalha com grande massa de dados estruturados ou desestruturados, em que contribui para o processo decisório, possibilitando às empresas condições para conseguir analisar os dados. Temos ainda a ciência de dados contribuindo como um suporte metodológico para o processo de tomada de decisão, facilitando a aquisição da informação contextualizada (PROVOST; FAWCETT, 2013). A tomada de decisão, orientada a dados, trata do método de fundamentar as decisões na análise de dados e não somente na percepção. Decorrente disso, temos que essa contribui para que os gerentes e administradores em suas atividades cognitivas, possam tomar decisões com qualidade e precisas. Neste sentido, as soluções computacionais de ciência de dados ajudam os gestores em suas atividades para adquirir conhecimento de suas informações (SCHREIBER et al., 2000). Vale ressaltar que a tomada de decisão com base em dados não elimina todas as habilidades cognitivas humanas, porém, ela complementa suas lacunas (CRUZ, 2007). Entretanto, Mcafee e Brynjolfsson (2012) explicam que é comum indivíduos em cargos elevados, na classe organizacional, tomarem Big Data e Ciência de Dados 26 decisões com fundamento nas suas experiências, direcionados por meio de padrões de relacionamentos que os acompanham ao longo da carreira (VIANNA; DUTRA, 2016). Figura 5 – Tomada de decisão Fonte: Freepik Dessa forma, a ciência de dados abrange fundamentos, processos e métodos para compreender fatos por meio da análise de dados, de modo que se tornam embasamentos para a tomada de Decisão Baseada em Dados (DBD). Isto implica na prática de fundamentar decisões na análise de dados que pode ser conseguida de modo manual ou automático, ao invés do gestor realizar o processo de tomada de decisão com base apenas na intuição (PROVOST; FAWCETT, 2013). Por seguinte, a ciência de dados apoia o processo de tomada de decisão norteada por dados, porém, também se sobrepõe a ela, ao se sobressair pelas decisões dos mercados, o qual, estão sendo adotadas de modo automático por sistemas de computação (PROVOST; FAWCETT, 2013). Big Data e Ciência de Dados 27 SAIBA MAIS: O artigo Big Data e tomada de decisão: há limites para a Ciência de Dados? trata de enfatizar disponibilidade de dados e de softwares que usam técnicas de analytics, como uma grande importância para a decisão, em que, juntando as técnicas e complementando com a sua intuição e experiência nos seus objetivos, possibilita construir modelos, estudar comportamentos, produzindo informações interessantes e inovadoras para a tomada de decisão. Acesse clicando aqui. Além disso, as soluções computacionais de ciência de dados ajudam os gestores em suas tarefas intensivas em conhecimento. Podemos citar algumas das tarefas, que estão listadas abaixo (SCHREIBER et al., 2000): • Associação: esta tarefa trata o conhecimento como um mapea- mento entre dois conjuntos de objetos, exemplificando uma tarefa corriqueira de associação, podemos citar o ato de se dar a pro- posta de oferecer um vinho apropriado em uma refeição usando as características do prato principal, assim, o sommelier sugere o vinho mais adequado a ser consumido. • Avaliação: esta tarefa trata de avaliar e caracterizar um fato conforme as seleções de decisão. Para exemplificar essa tarefa intensivaem conhecimento, leva-se em consideração um sistema de avaliação de crédito usando como base os históricos de empréstimos aplicando o uso de Big Data. Nesse contexto, um gestor pode escolher de forma mais acertada sobre a decisão ao compará-la com casos anteriores, podendo assim, conceder ou recusar o crédito. • Diagnóstico: esta tarefa trata de grupos de atributos, de modo que, dado um grupo de atributos, abrevia-se na atividade de deduzir o estado de um objeto, encontrando o conhecimento que é dirigido a um escopo. Neste contexto, geralmente se dispõem de regras para analisar um fato relacionado ao comportamento esperado. Big Data e Ciência de Dados https://itforum.com.br/coluna/big-data-e-tomada-de-decisao-ha-limites-para-a-ciencia-dos-dados/ 28 No ambiente de Big Data, as regras podem ser abstrações dos dados, mediante a utilização da ciência de dados. • Monitoramento: esta tarefa trata de um processo de análise interativa, ou seja, observando o estado de um objeto sendo avaliado ao longo do tempo. Por exemplo, monitorar um paciente por meio de algum instrumento em que esse gere dados a cada instante sobre um paciente, de forma que, ao aplicar tarefas intensivas em conhecimentos de diagnósticos, podem adquirir conhecimento e regras por meio do uso de Big Data e da ciência de dados, pelo qual, pode-se por meio do histórico das informações de monitoramento, realizar diagnósticos de uma paciente. • Predição: esta tarefa trata dos dados de históricos e periódicos na tarefa intensiva de conhecimento de predição, podendo predizer eventualidades que surjam em um determinado momento no futuro. Alguns exemplos são: a predição como estimativa de vendas, a previsão em campanhas eleitorais, entre outras. Por fim, percebemos com as soluções computacionais em ciência de dados, Big Data e essas tarefas intensivas em conhecimento, contribuem para o processo de tomada de decisão. Ciência de Dados e Business Intelligence É importante detalhar um pouco mais sobre a ciência de dados e a Inteligência de Negócios (Business Intelligence), os quais têm características semelhantes, como transformar dados brutos em conhecimento a serem utilizados no processo de tomada de decisões nos negócios ou em determinado escopo aplicando no geral. Neste sentido, o conceito Business Intelligence (BI) trata de explicar dados de eventos que já aconteceram, tornando-se mais conhecido nas organizações de negócios e tecnologia da informação por volta dos anos 90 (PAIXÃO, 2015). Posteriormente, foi adicionada a análise de negócios (Business Analytics) com a finalidade de representar o elemento analítico chave em BI (DAVENPORT et al., 2006). Big Data e Ciência de Dados 29 Figura 6 – Business Intelligence Fonte: Freepik As técnicas analíticas de BI, usualmente, são direcionadas pelas organizações sobre os sistemas legados armazenados em bancos de dados relacionais, fundamentadas, principalmente, por métodos estatísticos, além de utilizarem outras técnicas, como mineração de dados. SAIBA MAIS: Para saber mais sobre o assunto, faça a leitura do artigo Diferença Entre Business Intelligence, Data Warehouse, Data Science e Big Data. Acesse clicando aqui. No Business Intelligence, as soluções são elaboradas a partir de dados do tipo transacional, correspondente a dados que são fornecidos durante o movimento de um caso de transação, por exemplo, os dados gerados durante uma venda e transferências de dinheiro entre contas bancárias (MATOS, 2020). Contudo, a Ciência de Dados, para se obter conhecimento de negócios, realiza por meio de grupos, a identificação de padrão de dados de negócios estruturados como em BI, ou por meio de conjuntos de dados estruturados, semiestruturados, não estruturados, bem como Big Data. Isso se dá por outra diferença existente, pela qual, a soluções de Big Data e Ciência de Dados https://www.cetax.com.br/blog/qual-a-diferenca-entre-data-warehouse-big-data-e-business-intelligence/ 30 ciência de dados não se limitam apenas aos dados transacionais como em BI (MATOS, 2020). IMPORTANTE: É importante deixar claro o Business Intelligence trabalha realizando previsão para o futuro, levando em consideração inferências simples, feitas tendo como base dados atuais ou históricos, para proporcionar informações e conhecimentos importantes para os gestores tomarem decisões a médio e curto prazo. Por outro lado, a Ciência de Dados realiza previsões com intuito de descobrir conhecimento para o futuro, a longo prazo, usando práticas Matemáticas, de programação ou Estatísticas avançadas, analisando e fazendo previsões por meio de grandes massas de dados do negócio (PAIXÃO, 2015). RESUMINDO: Neste capítulo, estudamos como a Ciência de Dados e o Big Data se relacionam e como eles podem, mesmo com diferenças, serem complementares na área de analisar os dados. Percebemos que Ciência de Dados é uma área mais geral que usa dos recursos do Big Data por meio de seus grandes volumes de dados. Por conseguinte, foi apresentando um pouco mais dos objetivos de cada uma e vimos como a produção de dados é determinante para contribuir na tomada de decisão. Abordamos como a tomada de decisão com base em dados pode ajudar aos gestores e apresentamos como as tarefas intensivas de conhecimento, adotando ciências de dados e Big Data, podem auxiliar neste processo. Por fim, foi apresentada diferenças e a relação entre Business Intelligence e Ciência de Dados, entendendo diferenças e como os tipos de dados, e cada uma de suas semelhanças, contribuem nos negócios. Citamos também diferenças, como no BI, que se baseia na expertise em tecnologia de negócios. Big Data e Ciência de Dados 31 O Papel e a Importância do Cientista de Dados OBJETIVO: Neste capítulo, veremos a importância dos profissionais que trabalham com Ciência de Dados, assim como, as competências destes. Vamos lá! Cientista de dados A Ciência de Dados acarretou alterações por meio de toda a complexidade existente na exploração e extração de dados, bem como na necessidade de profissionais capacitados no tratamento de dados, como o programador para análises, ferramentas eficientes para exploração e comportamentos dos dados, e também, o profissional da informação com especialidade em dados, para fornecerem eficiência na comunicação com os usuários e contribuírem as necessidades informacionais para as organizações (REIS, 2019). Ainda é sabido que a Ciência de Dados apresenta disposições e determina as informações que as empresas podem utilizar para tomar decisões acertadas e produzir serviços mais inovadores. Por mais que os dados sejam a base da inovação, destaca-se que o seu valor surge dos dados de informações que os cientistas podem retirar, utilizar e aplicar em um determinado escopo. Com a expansão e desenvolvimento da Ciência de Dados, surgiu a necessidade de profissionais qualificados para trabalhar com isto, sendo cunhado ao cientista de dados, que precisa ter um conjunto de aptidões integradas abarcando Matemática, aprendizagem de máquina, Inteligência Artificial, Estatística, bases de dados e otimização, ao lado de uma intensa abrangência dos requisitos de elaboração, e dos problemas para projetar resultados eficazes (PAIXÃO, 2015). Big Data e Ciência de Dados 32 SAIBA MAIS: Assista ao vídeo Cientista de Dados, por onde começar? Nele, você poderá ter uma abordagem clara e objetiva sobre cientista de dados. Acesse clicando aqui. O cientista de dados foi destacado como uma das profissões mais proeminentes até 2020 pelo Fórum Econômico Mundial e divulgada como a profissão mais atraente do século XXI pela Harvard Business Review. A posição de cientista de dados teve sua terminologia determinada por Patil e Hammerbacher, em 2008, e em seguida, este termo passou a ser tomado pelo LinkedIn e pelo Facebook em anúncios de vagas com interesses em profissionais para darsuporte com a grande massa de volume e tráfego de dados nas mídias sociais (DAVENPORTE; PATIL, 2012). Conforme Chitturi (2016), os profissionais da ciência de dados precisam saber trabalhar com os diferentes tipos dos dados, sejam eles estruturados, semiestruturados e não estruturados. Formação e atuação do cientista de dados Segundo Finzer (2013), a nomenclatura “Ciência de Dados”, foi referida pela primeira vez em 2001, em um texto de autoria de William S. Cleveland, intitulado em tradução livre, “Ciência de Dados: um plano estratégico para a expansão das áreas técnicas no campo da Estatística”, em que tratava o objetivo de combinar a Estatística, programação e a computação em ferramentas para analisar e extrair informações dos dados. No contexto sobre a formação do cientista de dado, um relatório britânico solicitado pela Joint Information Systems Committe (JISC) acerca das habilidades, as funções e carreira dos cientistas de dados, atesta a dificuldade de uma conformidade quanto à definição deste profissional, entretanto, determina no contexto geral a formação do cientista de dado como aquele que trabalha onde as pesquisas são efetivadas, de modo colaborativo com os pesquisadores ou grupos de cientistas em centros de dados e que está associado na investigação criativa e de análise de Big Data e Ciência de Dados https://www.youtube.com/watch?v=NmCuEgkVLWo 33 dados, fornecendo soluções tecnológicas para a manipulação e utilização de dados digitais (SWAN; BROWN, 2008). Figura 7 – Cientista de dados Fonte: Freepik Conforme afirma Provost (2016), um dos importantes fundamentos do cientista de dados são os dados e a aptidão de extrair conhecimento favorável por meio deles, sendo esta análise um princípio ativo estratégico. Assim, o autor afirma que a melhor equipe que trabalha com ciências de dados, pode obter pouco valor, sem os dados apropriados. Isso porque, algumas vezes, apenas os dados corretos, não podem melhorar as decisões sem a capacidade adequada dos profissionais de ciências dos dados. NOTA: Vale ressaltar que o cientista de dados possui uma grande demanda na linha das ciências, indústria e governo. Esse profissional tem uma expectativa de formação tipicamente sólida em ciência da computação e aplicações, modelagem, Estatística, analítica e Matemática, além do conhecimento mínimo do domínio de aplicação (DAVENPORT; PATIL, 2012). Big Data e Ciência de Dados 34 É importante destacar a afirmação do autor Finzer (2003), que descreveu o profissional do século sendo aquele com a formação em Ciência de Dados, tendo como atributos a ampliação das áreas técnicas como Estatística, programação e computação, o qual pode ser chamado como um Data Analyst ou Analista de Dados. Entretanto, o autor delineia poucas características desse novo profissional. Perfil do profissional O autor Amaral (2016) apresentou o perfil do cientista de dados, um profissional com aptidões multidisciplinares, com experiência e conhecimento em gerência de projetos. No Quadro 1, as características que o autor citado utiliza para diferir o cientista de dados de mercado, do idealizado pela mídia especializada. Quadro 1 – Perfil profissional Fonte: Adaptado de Amaral (2016). Neste quadro, vimos a descrição do perfil do cientista de dados, com a descrição do profissional do mercado e o profissional idealizado e na próxima será apresentado as habilidades do cientista de dados. Habilidades do cientista de dados A empresa LinkedIn procurou algumas habilidades que compõem o perfil que eles acreditam ser preciso para os cientistas de dados, listando as 10 habilidades mais encontradas nos profissionais que trabalham Big Data e Ciência de Dados 35 como cientista de dados: comunicação, gestão de dados estruturados, Matemática, gestão de projetos, Data Mining e visualização, design de experimentos, gestão de dados, design e desenvolvimento de produtos, modelagem Estatística e desenvolvimento de negócios (MATOS, 2020). Amaral (2016) ressalta que, quando “Big Data” se tornou um termo em evidência, emergiu junto a profissão do cientista de dados. O autor descreve, que a maioria dos especialistas apresentam o profissional como o indivíduo com conhecimento técnico em Estatística, NoSQL, computação em nuvem, mineração de dados, álgebra relacional, modelagem multidimensional, MapReduce, virtualização, entre outros. O artigo de Davenporte e Patil (2012) publicado na Harvard Business Review, apresenta que as habilidades do Cientista de Dados estão sujeitas a funções que mais técnicas ou mais direcionadas para a elaboração de produtos ou aplicativos de análise de dados. Já Davenport e Patil (2012) afirmam que as habilidades necessárias para se tornar um cientista de dados são: habilidades em linguagens de programação de análise de dados, comunicação, visualização de dados, mineração de dados, Estatística, habilidades em infraestrutura que trabalham com Big Data, aprendizado de máquina, engenharia de software, álgebra linear e habilidade de resolução de problemas. Davenport (2014) destaca outros elementos que ele julga como fundamentais para um cientista de dado, os quais estão citados a seguir: • Capacidade de programar. • Aptidão de arquiteturas tecnológicas de Big Data. • Processo de tomada de decisão. • Improvisação. • Impaciência e inclinação à ação. • Habilidades de comunicação e relacionamento. • Aptidão de decisões e entender os processos decisórios. • Análise Estatística. Big Data e Ciência de Dados 36 • Técnicas de visualização. • Aprendizado de máquina. • Análise de dados diferentes tipos. • Análise de como negócios funciona. • Aplicação de Analytics e o Big Data. Outra fonte que listou habilidades para a profissão do cientista de dados, foi Violino (2018), publicado no site CIO/EUA, destaca algumas habilidades representadas no Quadro 2. Quadro 2 – Lista habilidades e funcionalidades Fonte: Adaptado de Violino (2018) Big Data e Ciência de Dados 37 Além dessas, podemos destacar outras habilidades, como: comunicação, arquitetura, resolução de problema e análise de riscos (VIOLINO, 2018). Ainda podemos citar o que descreve Granville (2014), o cientista de dados é o profissional generalista que tem a capacidade de negócios, Estatística, ciência da computação, além de se relacionar com algumas noções específicas, entre os quais arquitetura de dados e comunicação no escopo empresarial. Podemos perceber tanto na literatura, quanto pelas empresas, dificuldades no momento de caracterizar um padrão para a profissão cientista de dado, porém, podemos inferir que mesmo sem um consenso, existem características comuns nas descrições, como a aptidão em Estatística e computacionais para a programação e uso de sistemas capazes de processar grandes volumes de dados (CHATIFELD et al., 2014; GRANVILLE, 2014) como capacidade de explorar e extrair os dados. Competências relacionadas Como estudamos, a Ciência de Dados e o Big Data são executados por meio de equipes multidisciplinares, cada um especializado em uma determinada área e liderada pelo cientista de dados. Com isto, o autor Amaral (2016) elencou essas especialidades necessárias conforme apresentada abaixo: • Equipes de extração: esta equipe corresponde a uma importante função no projeto e são responsáveis por tomar uma grande parcela de tempo do projeto. Usualmente, estes métodos são implementados por usuários que podem atuar como administradores de Banco de dados (DBAs) e programadores. Algumas funções desta equipe são: extrair os dados correspondentes a necessidade, se estão completos, alinhados e atualizados. Além do exposto, esta equipe é responsável por saber as regras e a legislação envolvidas nos projetos. Big Data e Ciência de Dados 38 • Coordenador de infraestrutura: este é responsável por se encarregar pela estrutura do projeto, determinaro ambiente de análise, instalação de sistemas, criação de usuários, permissões de acesso, entre outras. • Estatístico e/ou minerador de dados: sabemos que os projetos de dados podem necessitar de testes de hipóteses ou dos seguintes pontos: criação de modelos de predição e técnicas de visualização. • Especialistas em ferramentas específicas: usualmente, em diferentes projetos e em suas etapas, é preciso de profissionais específicos. Assim, sua função é atender os requisitos diversos do projeto, como especialista em ferramentas características. Por exemplo, para extração ou para técnicas de visualização, por isso, deve fornecer técnicos com essas aptidões ou oferecer a habilitação necessária a estes profissionais. • Database Administrator (DBA): este tem a função característica em dados relacionais e multidimensionais, os administradores de banco de dados (DBAs) têm as funções expandidas para bancos de dados como NoSQL e sistemas de arquivos distribuídos. Como eles podem ainda servir de auxílio na coleta de metadados, compreensão de estruturas, rotinas de replicação, integração, como outras. • Programador: deve ter aptidões em linguagens de programação especializadas em análise de dados, como também pode ser preciso ter a habilidade de implementar a análise, programando stored procedures diretamente em gerenciadores de banco de dados. • Arquiteto: o arquiteto de solução é primordial para o projeto, pois é responsável pela indicação da arquitetura adequada para o projeto, desde processadores, a licenças de software, entre outras definições. Big Data e Ciência de Dados 39 • Analistas de negócios: este tem o papel primordial para selecionar os requisitos e determinar o escopo do projeto. Usualmente, pode operar junto ao Gerente do Projeto. • Designer: é importante ter um especialista em visualização de dados ou designer, solicitado para criar artefatos com qualidade visual otimizada. RESUMINDO: Abordamos, neste capítulo, um pouco mais sobre o profissional que trabalha com ciências de dados, foi apresentado como surgiu este profissional. Ainda estudamos a importância da formação do cientista de dado, demonstrando pesquisas e abordagens que citam seus princípios e habilidades. Vimos o perfil e a listagem de habilidades necessárias para o profissional que trabalhe com ciência de dados. Podemos perceber como os profissionais da ciência de dados precisam ter habilidades para trabalhar com os diferentes tipos dos dados, sejam eles estruturados, semiestruturados e não estruturados. Ainda foi visto como a maioria das pesquisas de literaturas e de fontes de empresas não possuem um consenso sobre um padrão de habilidades, tendo algumas que são sempre destacadas, como as capacidades Matemáticas, estáticas, codificação, análise dados e negócios, como domínio de aprendizado de máquina e Inteligência Artificial. Por fim, encerramos a unidade trazendo competências relacionadas com as áreas de ciência de dados. Big Data e Ciência de Dados 40 Aplicações da Ciência de Dados OBJETIVO: Neste capítulo, veremos onde podemos aplicar a ciências de dados, citando sua importância no contexto geral. Logo após, estudaremos onde está sendo aplicada a ciência de dados, apresentando as diversas áreas em que está sendo explorada, bem como apresentaremos as ferramentas que ajudam a aplicá-la. Vamos lá! Onde aplicar a Ciência de Dados Tendo em vista que a Ciência de Dados atenta-se em aperfeiçoar técnicas, modelos e procedimentos computacionais, matemáticos e estatísticos, que possam interagir com as ferramentas para a descoberta de conhecimento nas áreas que se pretende ser aplicada, a fim de adquirir resultados satisfatórios por meio desta interação com as áreas de aplicação, partimos do princípio que é necessário identificar de modo conciso, qual o problema que se deseja resolver (PAIXÃO, et al., 2015). Outra grande importância, de aplicar Ciência de Dados, é o fato de estarmos na era da informação cercados de enormes massas de dados e nos mais diversos setores. Em paralelo, a necessidade de cada dia, as empresas, bancos, pesquisadores e cientistas estarem sempre em busca de resolver problemas e trazer soluções inovadoras para seus respectivos setores. Com a multidisciplinaridade da ciência de dados e as equipes que trabalham com ela, foi possibilitado grandes avanços e ganhos nesses setores, pois permite analisar os dados, descobrir conhecimento, fazer estáticas, previsões, entre outros recursos que só a ciência de dados pode possibilitar. Neste sentido, a Ciência de Dados proporciona apoio a várias áreas, tais como: finanças, medicina, astronomia, jogos, marketing, Biologia, entre inúmeras outras para responder a problemas científicos Big Data e Ciência de Dados 41 ou problemas associados a detectar padrões de comportamento, como aqueles direcionados para a área de negócios (PAIXÃO, et al., 2015). Ciência de Dados na Biologia Assim, temos na área da Biologia, a Ciência dos Dados ajudando por meio dos métodos estatísticos, que possibilita a análise de grandes massas de dados biológicos, sendo elaborados e implementados há anos, na tentativa de detectar e predizer as funções dos genes e proteínas por eles codificados (WANG, 2003). Outro exemplo foram os resultados obtidos por meio de análise in silico e aprovadas posteriormente em laboratório, recomendando que é possível a identificação de uma família completa de genes, por meio de processos de ciência de dados mediante a informações genéticas armazenadas em banco de dados abertos (SILVA, 2010). Figura 8 – Ciência de dados aplicada na Biologia Fonte: Pixabay Big Data e Ciência de Dados 42 Ciência de Dados aplicada na Saúde A Ciência de Dados em Saúde, também conhecida em inglês como Health Data Science, trata da ciência para proporcionar soluções fundamentadas em dados por meio do entendimento em problemas reais da área de Saúde, aplicando o conceito de pensamento crítico e a análise do dados para adquirir conhecimento. A sua aplicação na Saúde cresce de um domínio do conhecimento emergente, aparecendo da interseção da Bioestatística e ciência da computação e Saúde (NETTO, 2019). No Brasil, temos um dos exemplos de aplicação de ciência de dados na Saúde na Fiocruz, no qual desenvolvem pesquisas nessa área e até promovem cursos para atrair mais pessoas para área. Ciência de Dados aplicada ao Projeto Social A Ciência de Dados aplicada ao Projeto Social ganha espaço no mundo e no Brasil, pois com o crescente surgimento de organizações institucionais disponibilizando bases de dados que podem serem analisados, e bases políticas como Bolsa Família, que contém aproximadamente o cadastro de 100 milhões de brasileiros no CADSUS, vem ganhando força e possibilitando promover políticas públicas adequadas de acordo com as análises (BARRETO, 2019). Ciência de Dados aplicada aos negócios Podemos entender que os melhores resultados de um negócio não dependem exclusivamente do volume dos dados que uma empresa tem, mas sim sobre o modo como serão utilizadas essas informações. O cientista de dados, para aplicar ciências de dados para negócios, é preciso uma inclusão tanto no campo mais técnico quanto nos campos de negócios. Desta forma, temos o cientista de dado que é direcionado que se relacionam com setores como: Business Intelligence (BI), inteligência de mercado; Tecnologia de Informação (TI) e Administração de Banco de Dados (DBA) (PRATES; HOPPEN, 2018). Big Data e Ciência de Dados 43 Vale ressaltar que a ciência de dados contribui, quando aplicada aos negócios, nos pontos de identificação de fenômenos reais analisando por meio da grande massa de dados. Assim, muitas organizações investem em ciência de dados para melhorar os seus processos de tomada de decisão, inovar e obterem vantagem competitiva. Com a aplicação da ciência de dados aos negócios,é possível gerar outras contribuições para empresas, como: aumentar os lucros, diminuição de riscos financeiros, utilização de métodos de detecção de anomalia ou de fraude em tempo real. Por exemplo, possibilitando aumentar a eficiência de sistemas e processos, aumentar as taxas de vendas, em que o cientista de dados pode analisar os dados estudando estratégias de fidelização do cliente ou de captação de clientes, entre outras vantagens (MATOS, 2019). Figura 9 – Ciência de dados aplicada aos Negócios Fonte: Pixabay Para aplicar a ciência de dados na área de negócios, é importante seguir etapas. Em um artigo, Prates e Hoppen (2018) citaram algumas etapas a serem seguidas para ciências de dados aplicada a negócio, sendo elas expostas abaixo: Big Data e Ciência de Dados 44 • Definição de problema e métrica de sucesso: é importante dar início, na aplicação de Ciência de Dados nas empresas, primeiro na identificação de quais são os objetivos e quais as lacunas a serem sanadas no negócio. • Definição do conjunto de dados (dataset) analítico a ser utilizado: é importante selecionar o conjunto de dados a ser usado pelos cientistas de dados, mas não somente uma simples extração de um grande volume de dados diretamente do banco transacional. Este conjunto de dados analítico é criado por meio da definição do problema e é necessário ter todas as variáveis que ajudem a responder o problema em questão. Ainda deve ser feita a combinação entre variadas bases de dados, tanto internas, quanto externas. Por exemplo, as fontes de dados externas correspondem às compradas de fornecedores específicos ou até mesmo, bases públicas com intuito de melhorar a corretude dos modelos que serão aplicados. • Transformação e higienização de dados: esta é umas das fases mais exigidas a se atentar aos detalhes e que demora um pouco mais, pois corresponde a fazer a limpeza dos dados, incluído a utilização de técnicas Estatísticas para realizar o tratamentos, como dados faltosos, padrões e tratamento de outliers. Ainda são realizados outros métodos compreendidos a esta etapa, como: concatenação de colunas, enriquecimento de dados com bases externas e várias outras reestruturações precisas. • Mineração de dados e modelagem com Inteligência Artificial: esta é umas das fases principais no processo, pois permite gerar valor a partir das suas técnicas no processo de modelagem. É nesta etapa que vários modelos são treinados com a utilização das técnicas de Inteligência Artificial ou de aprendizado de máquina, como predição, associação e regressão. • Comunicação dos resultados obtidos em linguagem de negócio: esta é a fase que trabalha a comunicação dos resultados dos projetos de ciência de dados por meio da linguagem de negócios, com foco no objetivo e na rapidez, apresentando, por Big Data e Ciência de Dados 45 exemplo, quais os impactos do projeto e qual será o retorno financeiro obtido. Além do mais, sugere oferecer a visão de futuro dos sistemas integrados e uma lista com as oportunidades adjacentes descobertas durante o processo. SAIBA MAIS: Para saber mais sobre o assunto, faça a leitura do artigo Saiba por que o Data Science é essencial dentro dos negócios. Acesse clicando aqui. Assim, podemos entender, ao final desta seção, as grandes contribuições que ciência de dados e os inúmeros benefícios que ela pode gerar aos negócios. Ferramentas que trabalham com Ciência de Dados É importante antes de aplicar a ciência de dados, adotar as ferramentas necessárias, por isso, é essencial conhecermos as ferramentas disponíveis no mercado, que podem ser utilizadas para realizar os métodos e procedimento de obtenção de conhecimento e extração de informações. Seguem alguns exemplos de ferramentas, conforme Wayner (2019) descreve: • Alteryx Esta é uma ferramenta de designer com um ambiente de programação visual que possibilita ao desenvolvedor arrastar e soltar ícones em vez de escrever código. O Alteryx proporciona diversos modelos preditivos pré-estabelecidos para analisar dados e deduções de desenhos. Tem como característica parecer como ícones para processamento de dados, porém, por trás, são programas em R ou Python e o Alteryx permite esconder a complexidade e a codificação fundamentado em texto. Big Data e Ciência de Dados https://www.totvs.com/blog/inovacoes/data-science-como-a-ciencia-de-dados-e-essencial-nos-negocios/ 46 • Talend Esta disponibiliza um conjunto de aplicativos que trabalham em desktops ou data centers locais ou na nuvem. São ferramentas multicamadas que possibilitam a coleta de dados de diversos bancos de dados antes de transformá-los para análise. Um exemplo de uma das ferramentas que faz parte da coleção é o Pipeline Designer, o qual oferece um design visual para realizar extração de dados de diversas fontes, analisados por meio de ferramentas padrão ou extensões do Python. • Knime Esta é uma plataforma de análise de dados de código aberto que contém uma interface visual para atrelar diversas rotinas de análise e processamento de dados. Deste modo, o software principal é disponibilizado gratuitamente, porém, as versões comerciais têm alguns plugins e extensões. Essa ferramenta tem uma base do software que está codificada em Java e muitas das integrações da Knime dependem do ecossistema Java. A interface do Knime é estruturada sobre o Eclipse. A plataforma possibilita trabalhar com dados em todos com bancos de dados como MySQL e PostgreSQL, integrando serviços de nuvem. Ele também integra a próxima geração de ferramentas de dados distribuídos como o Apache Spark. Linguagem de programação Python Python é uma das mais utilizadas linguagem, pois “pode ser utilizada tanto para desenvolvimento de programas comerciais quanto de programas científicos” (MANZANO, 2011, p. 19). A aplicação dessa linguagem é diversa, sendo utilizada desde um desenvolvimento web até implementações com ciência de dados. Devido sua sintaxe objetiva e sucinta, que contribui para deixar código- fonte legível, Python é uma linguagem bem-sucedida, de modo geral, é uma das linguagens mais usada no meio científico, principalmente quando se refere aos cientistas de dados ou de outras áreas (BORGES, 2014). Big Data e Ciência de Dados 47 Entretanto, para trabalhar com ciência de dados não basta apenas a implementação com Python, é preciso a utilização de técnicas específicas disponíveis em pacotes que devem ser acrescentados ao projeto. Vale frisar que estes pacotes têm o objetivo de aperfeiçoar a aplicação em aspectos como velocidade de processamento, codificação e o uso de técnicas para análise de dados ou aprendizagem de máquina. As seções a seguir apresentam alguns destes pacotes: Jupyter Notebook Jupyter ou caderno Jupyter é um ambiente desenvolvido para se trabalhar com programação literária. Neste paradigma de programação, há uma intersecção entre a codificação e a documentação em forma de narrativa, ao invés de manipulá-los como elementos independentes. Também permite criar e compartilhar documentos que contenham código vivo, equações, visualizações e texto narrativo. A sua utilização possibilita a limpeza e transformação de dados, simulação numérica, modelagem Estatística, visualização de dados, aprendizado de máquina, entre outras funções (JUPYTER, 2020). Pandas É uma ferramenta prática, flexível e fácil de utilizar para análise e manipulação de dados de código aberto, construída em cima da linguagem de programação Python. Esta provê uma estrutura de dados e funções robustas para trabalhar com grandes massas de dados de modo mais rápida (PANDAS, 2020). Ademais, o Pandas possibilita uma elaborada estrutura de dados e funções desenvolvidas para tornar mais prático e rápido o trabalho com um grande conjunto de dados (MCKINNEY, 2012). Anaconda É uma distribuição que disponibiliza vários pacotesque podem ser instalados todos de uma vez, sendo um importante recurso para trabalhar com ciência de dados. Além de permitir instalar os pacotes, otimizando Big Data e Ciência de Dados 48 o trabalho do desenvolvedor em configurar o ambiente de trabalho, o Anaconda também disponibiliza o Conda, que é responsável por controle de versões dos pacotes instalados. Assim, o desenvolvedor passa a poder trabalhar em vários projetos em diferentes versões de Python sem se preocupar com a versão dos pacotes instalados (CRUZ, 2018). RESUMINDO: Estudamos neste capítulo sobre a importância de utilizar ciência de dados. Entendemos como ela pode contribuir nos mais variados setores na descoberta de conhecimento, de modo que, a cada dia possibilita responder a problemas científicos ou até problemas associados a detectar padrões de comportamento, como aqueles direcionados para a área de negócios. Apresentamos ainda aplicação da ciência de dados no campo da Biologia, da Saúde e em projeto social, como também, as contribuições nos setores de negócios mostrando o ganho em estratégias, financeiro, vendas e até fidelização de cliente, os quais, é possível obter por meio da aplicação em data science. Por fim, não poderíamos deixar de citar ferramentas que são usadas para aplicar as técnicas e métodos de Ciência de Dados. Big Data e Ciência de Dados 49 REFERÊNCIAS AMARAL, F. Introdução à Ciência de Dados: mineração de dados e Big Data. Rio de Janeiro: ALTA Books, 2016. BARRETO, V. Ciência de Dados e a importância de sua humanização. Medium, 2019. Disponível em: https://medium.com/ torustimelab/ci%C3%AAncia-de-dados-e-a-import%C3%A2ncia-de-sua- humaniza%C3%A7%C3%A3o-6b3bd3ab30ba. Acesso em: 24 maio 2020. BELL, G.; Hey, T.; Szalay, A. Beyond the Data Deluge. Tradução Google translate. Science, v. 323, p. 1297-1298. 2009. BERTIN, B.; VISOLI, C.; DRUCKER, P. A gestão de dados de pesquisa no contexto da e-science: benefícios, desafios e oportunidades para organizações de p&d. Ponto de Acesso, v. 11, n. 2, p. 34-48, 2017. BORGES, L. Python para desenvolvedores. São Paulo: Novatec, 2014. BUGNION, P. et al. Scala: Guide for Data Science Professionals. Birmingham: Packt Publishing, 2017. CETAX. Diferença Entre Business Intelligence, Data Warehouse, Data Science E Big Data. Cetax, [s. d.]. Disponível em: https://www.cetax. com.br/blog/diferenca-bi-dw-data-science-big-data/. Acesso em: 22 maio 2020. CIELEN, D.; MEYSMAN, B.; ALI, M. Introducing Data Science: Big Data, Machine Learning, and more using Python Tools, Shelter Island: Editor Manning Publication, 2016. CLEVELAND, S. Data Science: anactionplan for Expanding the technical áreas ofth efieldof statistics. International Statistical Review, Malden, v. 69, p. 21-26. 2001. CRUZ, L. Data Science: desenvolvimento de aplicação para análise de dados. 2018. Monografia (Graduação em Ciência da Computação) – Instituto Municipal de Ensino Superior de Assis. Assis. 2018. Big Data e Ciência de Dados 50 CRUZ, P.; COVA, G. Teoria das Decisões: um Estudo do Método Lexicográfico. RPCA, Rio de Janeiro, v. 1, n. 1, p. 26-35, set./dez. 2007. DAVENPORT, H.; COHEN, D.; JACOBSON, A. Competing on Analytics. Harvard Business Review, p. 98-107, 2016. ECONOMIST, The. The world’s most valuable resource is no longer oil, but data. Economist, 2017. Disponível em: https://www.economist. com/leaders/2017/05/06/the-worldsmost-valuable-resource-is-no- longer-oil-but-data. Acesso em: 20 maio 2020. ESPINDOLA, S; ROTH, L. Big Data e Inteligência Estratégica: Um Estudo de Caso Sobre a Mineração de Dados como Alternativa de Análise. Revista Espacios, v. 37, n. 4, p. 16, out. 2015. ESTRIN, D. Small Data, where n = me. Communications of the ACM, v. 57, n. 4, p. 32-34. 2014. EVERETT, M.; BORGATTI, S. P. Ego network betweenness. Social networks, v. 27, n. 1, p. 31-28. 2005. FÁVERO, L. Big Data e tomada de decisão: há limites para a Ciência de Dados? It Fórum, [s. d.]. Disponível em: https://itforum365.com.br/ colunas/big-data-e-tomada-de-decisao-ha-limites-para-a-ciencia-dos- dados/. Acesso em: 19 maio 2020. FAYYAD, M. et al. Advances in Knowledge Discovery and Data Mining. Cambridge: Mit Press, 1996. FINZER, W. The Data Science Education Dilemma. Technology Innovations In Statistics Education, v. 7, n. 2. 2013. GADELHA, R. et al. Scalable and provenance—enabled scientific workflows for predicting distribution of species. In: INTERNATIONAL CONFERENCE ON ECOLOGICAL INFORMATICS, 8., 2012, Brasília. Anais […] Brasília: ISEI, 2012. GOLDSCHMIDT, R.; BEZERRA, E. Exemplos de aplicações de data mining no mercado brasileiro. Computer World, 2016. Disponível em: https://computerworld.com.br/2016/06/27/exemplos-de-aplicacoes- de-data-mining-no-mercado-brasileiro/. Acesso em: 24 jul. 2020. Big Data e Ciência de Dados 51 MANZANO, J. Programação de Computadores com C++. São Paulo: Érica, 2011. MARCHIONINI, G. Information Science Roles in the Emerging Field of Data Science. Journal of Data and Information Science, v. 1, n. 2, p. 1-6. 2016. MCKINNEY, W. Python for Data Analysis. Sebastopol: O’Reilly, 2012. NETTO, A. Quando a área de Saúde encontra a Ciência dos Dados. Linkedin, 2019. Disponível em: https://www.linkedin.com/pulse/quando- %C3%A1rea-de-sa%C3%BAde-encontra-ci%C3%AAncia-dos-dados- antonio-valerio-netto. Acesso em: 23 maio 2020. OLAVSRUD, T. Afinal o que é Ciência de Dados e o que isso tem a ver com a profissão do futuro. Id Gshow, 2018. Disponível em: http://idgnow. com.br/carreira/2018/07/05/afinal-oque-e-ciencia-de-dados-e-o-que- isso-tem-a-ver-com-as-profissoes-do-futuro/. Acesso em: 18 maio 2020. PAIXÃO A.; SILVA V.; TANAKA, A. De Business Intelligence a Data Science: um estudo comparativo entre áreas de conhecimento relacionadas. Semantic Scholar, 2015. Disponível em: https://pdfs. semanticscholar.org/a335/91f5334b50aa8230754e85ae2c37d9a946a0. pdf. Acesso em: 20 maio 2020. PATIL, H.; DAVENPORT, J. Data Scientist: thes exiest job of the 21st century. HBR, 2012. Disponível em: https://hbr.org/2012/10/data-scientist- the-sexiest-job-of-the-21st-century. Acesso em: 20 maio 2020. PRATES, R.; HOPPEN, J. O que Ciências de Dados e como aplicá- los nos negócios. Aquare, 2018. Disponível em: https://www.aquare.la/o- que-e-ciencia-de-dados-data-science-para-negocios/. Acesso em: 23 maio 2020. PROVOST, F.; FAWCETT, T. . Data Science para negócios: o que você precisa saber sobre mineração de dados e pensamento analítico de dados. Rio de Janeiro: Alta Books, 2016. REIS, M. Ciência de Dados E Ciência Da Informação: Guia De Alfabetização De Dados para bibliotecários. São Cristóvão: Universidade Federal de Sergipe, 2019. Big Data e Ciência de Dados 52 SAIBA por que o Data Science é essencial dentro dos negócios. Totvs, 2019. Disponível em: https://www.totvs.com/blog/inovacoes/ data-science-como-a-ciencia-de-dados-e-essencial-nos-negocios/. Acesso em: 10 jul. 2020. SANTANA F. Big Data X Data Science: qual a diferença entre os dois conceitos? Minerando Dados, [s. d.]. Disponível em: https:// minerandodados.com.br/big-data-x-data-science-qual-a-diferenca- entre-os-dois-conceitos/. Acesso em: 20 maio 2020. SCHREIBER, G. et al. Knowledge Engineering and Management: the Com-monKADS Methodology. Cambridge: MIT Press, 2000. SMITH, F. Jack Data Science as an academic discipline. Data Science Journal, v. 5, p. 163-164, 2006. SOARES, R. Análise de dados em processos de auditoria. Universidade Estadual de Campinas, 2019. Disponível em: https://www. ime.unicamp.br/~mac/db/2019-2S-166526.pdf. Acesso em: 14 fev. 2022. TAN, P.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining: mineração de dado. São Paulo: Ciências modernas, 2009. TURBAN, E.; SHARDA, R.; ARONSON, J.; KING, D. Business Intelligence: um enfoque gerencial para a inteligência do negócio. Porto Alegre: Bookman, 2009. VIANNA, B.; DUTRA, L. Big Data e gestão da informação:Modelagem do Contexto Decisional Apoiado pela Sistemografia. Revista Informação e Informação, Londrina, v. 21, n. 1, p. 185-212, jan./abr. 2016. VIOLINO B. 8 habilidades essenciais para cientistas de dados de alto desempenho. CIO, 2018. Disponível em: https://cio.com.br/8-habilidades- essenciais-para-cientistas-de-dados-de-alto-desempenho/. Acesso em: 22 maio 2020. WANG, D., JEFFREY, F.; GRIBSKOV, M. Systematic Trans-Genomic Comparison of Protein Kinases between Arabidopsis and Saccharomyces cerevisiae. Plant Physiology, v. 132. 2003. Big Data e Ciência de Dados 53 WANG, L. Twinning data science with information science in schools of library and information science. Journal of Documentation, v. 74, n. 6, p. 1243-1257. 2018. WAYNE, P. 6 ferramentas que facilitam a adoção da Ciência de Dados. CIO, 2019. Disponível em: https://cio.com.br/6-ferramentas-que- facilitam-a-adocao-da-ciencia-de-dados/. Acesso em: 23 maio 2020. Big Data e Ciência de Dados _Hlk39602591 Conceitos e Escopos da Ciência de Dados Fases do projeto em Ciência de Dados Ciclo de vida do dado Relação de ciência de dados com ciências de informações Ciência de Dados: termos usados Princípios e Diferenças entre Ciência de Dados e Big Data Princípios e diferenças: Big Data e Ciência de Dados Big Data e Ciência de Dados no processo de tomada de decisão Ciência de Dados e Business Intelligence O Papel e a Importância do Cientista de Dados Cientista de dados Formação e atuação do cientista de dados Perfil do profissional Habilidades do cientista de dados Competências relacionadas Aplicações da Ciência de Dados Onde aplicar a Ciência de Dados Ciência de Dados na Biologia Ciência de Dados aplicada na Saúde Ciência de Dados aplicada ao Projeto Social Ciência de Dados aplicada aos negócios Ferramentas que trabalham com Ciência de Dados Linguagem de programação Python Jupyter Pandas Anaconda
Compartilhar