Prévia do material em texto
BIG DATA E CIÊNCIA DE DADOS Ciência de Dados CEO DAVID LIRA STEPHEN BARROS Gerente de Produção Editorial LAURA KRISTINA FRANCO DOS SANTOS Projeto Gráfico RAMONIQUE DESIRRE TIAGO DA ROCHA Autoria JÉSSICA LAISA DIAS DA SILVA E ALAN DE OLIVEIRA SANTANA 4 BIG DATA E CIÊNCIA DE DADOS A U TO RI A Jéssica Laisa Dias da Silva Olá. Sou graduada em Sistemas da Informação pela Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, sou doutoranda em Sistema e Computação pela UFRN e professora conteudista na elaboração de cadernos. Alan de Oliveira Santana Olá. Sou graduado em Ciência da Computação pela Universidade do Estado do Rio Grande do Norte (UERN) e mes- tre em Sistemas da Computação pela Universidade Federal do Rio Grande do Norte (UFRN). Atualmente, sou professor conteudista, elaborador de cadernos de questões e doutorando em Ciências da Computação. Como cientista, atuo no desenvolvimento e ava- liação de técnicas de desenvolvimento de sistemas com ênfase na educação. Desse modo, fomos convidados pela Editora Telesapiens a integrar seu elenco de autores independentes. Estamos muito satisfeitos com o convite e a possibilidade de auxiliar em seu de- senvolvimento intelectual e profissional. Bons estudos! 5BIG DATA E CIÊNCIA DE DADOS ÍC O N ES Esses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos: OBJETIVO No início do desenvolvimento de uma nova competência. DEFINIÇÃO Caso haja a necessidade de apresentar um novo conceito. NOTA Quando são necessárias observações ou complementações. IMPORTANTE Se as observações escritas tiverem que ser priorizadas. EXPLICANDO MELHOR Se algo precisar ser melhor explicado ou detalhado. VOCÊ SABIA? Se existirem curiosidades e indagações lúdicas sobre o tema em estudo. SAIBA MAIS Existência de textos, referências bibliográficas e links para aprofundar seu conhecimento. ACESSE Se for preciso acessar sites para fazer downloads, assistir vídeos, ler textos ou ouvir podcasts. REFLITA Se houver a necessidade de chamar a atenção sobre algo a ser refletido ou discutido. RESUMINDO Quando for preciso fazer um resumo cumulativo das últimas abordagens. ATIVIDADES Quando alguma atividade de autoaprendizagem for aplicada. TESTANDO Quando uma competência é concluída e questões são explicadas. 6 BIG DATA E CIÊNCIA DE DADOS Conceitos e escopos da ciência de dados ................................ 9 Fases do projeto em Ciência de Dados...........................................13 Ciclo de vida do dado ........................................................................................14 Relação de ciência de dados com ciências de informações ......................16 Ciência de Dados: termos usados ..................................................................17 Princípios e diferenças entre ciência de dados e big data ..................................................................................... 22 Princípios e diferenças: Big Data e Ciência de Dados ................................22 Big Data e Ciência de Dados no processo de tomada de decisão ...........24 Ciência de Dados e Business Intelligence .......................................................29 O papel e a importância do cientista de dados .................... 32 Cientista de dados ............................................................................................32 Formação e atuação do cientista de dados ..................................................33 Perfil do profissional ...........................................................................35 Habilidades do cientista de dados ..................................................36 Competências relacionadas .............................................................................39 Aplicações da ciência de dados .............................................. 42 Onde aplicar a Ciência de dados ...................................................................42 Ciência de dados na Biologia ............................................................43 Ciência de dados aplicada à saúde ..................................................44 Ciência de dados aplicada ao projeto social .................................44 Ciência de dados aplicada aos negócios .......................................................44 Ferramentas que trabalham com Ciência de dados ...................................47 Linguagem de programação Python ................................................48 Jupyter ...................................................................................................49 Pandas ...................................................................................................49 Anaconda .............................................................................................49 SU M Á RI O 7BIG DATA E CIÊNCIA DE DADOS A PR ES EN TA ÇÃ O Com toda a produção de dados e os avanços tecnológicos, surgiram soluções computacionais como o Big Data e a Ciência de Dados. Assim, nestes capítulos nos deteremos a explicar um pouco mais sobre a Ciência de Dados, abordando desde seu surgimento, conceitos e suas contribuições. Abordaremos ainda os princípios e diferenças entre o Big Data e outras soluções computacionais. Ainda no decorrer desta unidade, estudaremos a impor- tância dos profissionais que trabalham com Ciência de dados, as- sim como suas competências e habilidades. Além do exposto, estudaremos onde está sendo aplicada a ciência de dados, apresentando as diversas áreas em que está sen- do explorada, bem como, as ferramentas que ajudam a aplicá-la. Nesta unidade, estudaremos sobre esses assuntos espe- rando que todas as dúvidas sejam tiradas e que tragam informa- ções que mudem a forma de pensar sobre as tomadas de decisões. 8 BIG DATA E CIÊNCIA DE DADOS O BJ ET IV O S Olá. Seja muito bem-vindo! Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos: 1. Compreender o conceito de Ciência de Dados. 2. Diferenciar Ciência de Dados e Big Data. 3. Assimilar o papel do cientista de dados. 4. Compreender as aplicações da Ciência de Dados. Então? Preparado para adquirir conhecimento sobre um assunto fascinante e inovador como esse? Vamos lá! 9BIG DATA E CIÊNCIA DE DADOS Conceitos e escopos da ciência de dados Neste capítulo, conceituaremos Ciência de Dados, entenderemos um pouco mais sobre esse conceito e as fases que compõem um projeto de ciências de dados, bem como o ciclo de vida dos dados. Além disso, abordaremos termos importantes quando se estuda ciência de dados. E então, motivo para aprender? Vamos lá! Por volta de 70% a 80% dos dados criados em diversas fon- tes, como empresas, redes sociais, entre outras, são resultantes da utilização intensa das Tecnologias de Informação e Comunicação nos últimos tempos. Estudos mais recentes indicam que essa porcentagem pode variar dependendo da indústria e do tipo de dados coletados, mas o volume de dados não estruturados, espe- cialmente em redes sociais e Internet das Coisas (IoT), continua a crescer exponencialmente. Por conseguinte, os dados são copiosamente e ligeiramen- te produzidos, servindo de matéria-prima para tomada de decisão em grandes organizações. Hoje, o conceito de dados como “o novo petróleo” continua a ser relevante, mas com um foco crescente em privacidade e regulamentação de dados, como visto com legisla- ções como a GDPR na Europa e a LGPD no Brasil. Nesta conjuntura de universo de dados, avançadas pes- quisas e desenvolvimento de soluções computacional são aplica- das, como Ciência de Dados, a qual vamos conceituar e estudar detalhadamente nesta unidade. A Ciência de Dados (Data Science, termo em inglês) é uma área que estuda o ciclo de vida dos dados e aponta a geração de va-lor comercial por meio de insights, que são informações suscitadas 10 BIG DATA E CIÊNCIA DE DADOS por meio dos dados. Mesmo que a expressão “Data Science” tenha surgido nos anos 1960, a Ciência de Dados é uma ciência consi- derada nova e, muitas vezes, mal interpretada. Desde o início dos anos 2000, a Ciência de Dados ganhou grande relevância devido ao aumento das capacidades computacionais e ao volume massi- vo de dados gerados diariamente. É sabido que uma ciência é re- ferente a obter conhecimento e informação de modo sistemático, tal como regularizar e estruturar esse conhecimento. Da mesma maneira, a Ciência de Dados versa de estudar os dados por completo, trabalhando com o seu ciclo de vida da produção ao ponto de ser descartado. A ciência evoluiu para in- cluir uma forte ênfase em técnicas de Machine Learning, Deep Learning, e inteligência artificial, que permitem a criação de mode- los preditivos mais robustos e aplicáveis a diferentes áreas. Geralmente, a Ciência de Dados é relacionada de modo er- rado, especificamente, quando ligada a procedimentos de análise dos dados em que é necessária a utilização de Estatística, aprendi- zado de máquina ou do simples uso de um filtro produzir informa- ções e conhecimentos. Imagem 2.1 – Tecnologia da Informação Fonte: Pixabay. 11BIG DATA E CIÊNCIA DE DADOS Provost e Fawcett (2016) afirmam que a Ciência de Dados é um conjunto de princípios básicos que lidam e guiam a extração de informações e conhecimento por meio de dados. Neste contexto, a ciência de dados envolve princípios, procedimentos e técnicas para entender fenômenos por meio da análise automática de dados. Em suma, a Ciência de Dados busca transformar os dados brutos em informação que são importantes para as empresas, promovendo solução de proble- mas ou a obtenção de diferenciais competitivos. Neste sentido, podemos inferir que a ciência é um processo sistemático, em que as pessoas pesqui- sam e explicam acontecimentos de um escopo es- pecífico que ocorrem no mundo natural. Pode-se ainda entender a ciência de dados como um domí- nio científico que é cotado para descobrir conhe- cimento (knowledge discovery) por meio da análise de dados. O diagrama de Venn, ilustrado na imagem a seguir, é uma estrutura que constitui a Ciência de Dados e composta por três círculos cujas descrições estão apresentadas aqui: • O círculo de matemática e estatística - este ciclo é referente aos princípios básicos e experiências so- licitadas nas áreas de Matemática e Estatística para compreensão das variáveis, bem como para inter- pretar e diferenciar os tipos de dados. Isto implica em afirmar que os profissionais da ciência de dados precisam compreender a função dos algoritmos de aprendizado de máquina, tal como, ter a habilidade de interpretar os resultados estatisticamente. • O círculo de conhecimentos substantivos - este ciclo é referente a compreensão do sentido discipli- nar para a escolha de um procedimento de análise https://blog.academiain1.com.br/como-transformar-dados-em-inteligencia-para-o-crescimento-empresarial/ https://blog.academiain1.com.br/como-transformar-dados-em-inteligencia-para-o-crescimento-empresarial/ 12 BIG DATA E CIÊNCIA DE DADOS apropriada para dados. Este conhecimento do pro- blema ajuda no processo de tomada de decisão. • O círculo de computação e habilidades de dados - este ciclo é referente aos dados para resolver pro- blemas, admitindo que se visualize a estrutura de dados, a qual exige capacidades para programar, extrair e estruturar dados. Assim, as habilidades da ciência de computação ajudam na geração da cura- doria digital e no desenvolvimento de algoritmos de aprendizado de máquina e interfaces de visuali- zação da informação. Imagem 2.2 – Diagrama de Vernn Computação e habilidades de dados. Matemática e Estática. Conhecimento substantivos. Fonte: Realizada pela autoria com base em Amaral (2016). Além disso, sobre o diagrama de Venn, Amaral (2016) as- segura que a Ciência de Dados é combinada por diversas outras ciências, modelos, tecnologia, processo e métodos relacionados ao dado, designando relações interdisciplinares na área. 13BIG DATA E CIÊNCIA DE DADOS É importante afirmar que a Ciência de Dados é de- terminada como o método para extração das infor- mações úteis por meio de complexas e dinâmicas bases de dados. Conforme Smith (2006), a Ciência de Dados se ampliou desde então para conter o estudo da captura, análise, metadados, recuperação, arquivamento, troca e mineração de dados, com a fina- lidade de encontrar conhecimento inesperado e relações de dados. Fases do projeto em Ciência de Dados Conforme vimos, a Data Science é um conceito geral para uma diversidade de padrões e técnicas com objetivo de obter in- formações, o qual a cada dia se torna uma área muito promissora, permitindo processar os dados gerados por meio de várias fontes. Assim, para iniciar um projeto aplicando o conceito da Ciência dos Dados, é importante definir o objetivo de sua aplica- ção por meio da criação de questões que precisam ser respondi- das através de um determinado problema a ser resolvido. Após serem estabelecidas as questões, procura-se os da- dos que auxiliarão a respondê-las, de modo que, sabendo-se os objetivos do que se quer analisar, torna-se necessário adquirir os dados corretos para realizar a limpeza, exploração, criação e ava- liação de um modelo, repetindo o ciclo algumas vezes até que se esteja pronto para dar início a busca de como informar adequada- mente os resultados obtidos. Logo, temos resumidamente as seguintes fases de um projeto de Data Science: • Identificação do problema da área de negócios; • Entendimento de problema; 14 BIG DATA E CIÊNCIA DE DADOS • Coleta de conjuntos de dados (datasets); • Realização da limpeza e transformação dos dados; • Realização do entendimento do relacionamento entre os dados; • Produção de modelos que representem os relacionamentos; • Uso dos modelos para realizar predições; • Entrega de valor e resultado. Ciclo de vida do dado Uma das definições de ciência de dados é entendida como os métodos, modelos e tecnologias que analisam os dados duran- te todo o seu ciclo de vida, da criação ao descarte. Amaral (2016, p. 46) ressalva que: O ciclo de dados promove a boa gestão de dados quando disponibilizados em formatos como textos: MS Word; PDF; RTF, em formato numérico: Excel, em multimídia: JPEG, GIF, MPEG etc.; em software; e quando disponibilizados em variedade de suportes: fitas, CDs, slides, modelos, mapas e arquivos de dados etc. Dessa forma, entende-se o ciclo de vida dos dados a par- tir do início da criação até o seu descarte, podendo passar por uma série de outras etapas. Desse modo, quaisquer fontes de dados podem não sofrer algum tipo de transformação após sua produção ou mesmo serem rejeitadas prontamente após a pro- dução ou serem produzidos para um armazenamento por tempo 15BIG DATA E CIÊNCIA DE DADOS indefinido. Vale evidenciar que as fases dos dados dependerão de suas naturezas e das suas finalidades (Amaral, 2016). De acordo com Amaral (2016), pode-se formar um ciclo de vida mais geral, que apesar de não se aplicar a todo e qualquer dado, é ajustável à maioria, tendo um ciclo padrão que compreen- de seis etapas: produção, armazenamento, transformação, arma- zenamento analítico, análise e descarte, como pode ser visto na imagem a seguir. Imagem 2.3 – Ciclo de vida do dado PRODUÇÃO ARMAZENAMETO TRANSFORMAÇÃOANÁLISE DESCARTE Fonte: Realizada pela autoria com base em Amaral (2016). Sob o mesmo ponto de vista, outros autores tratam a im- portância de se idealizar um ciclo de vida dos dados, abarcando aspectos de planejamento, aquisição, organização, estruturação, conceitos de fluxos analíticos e ferramenta adequada para o ar- mazenamento de dados. Outrossim, necessita de atenção para as questões re- lativas à preservação, à organização, ao compartilhamento e à proteção.Todas essas etapas são necessárias por representar a 16 BIG DATA E CIÊNCIA DE DADOS estruturação e a organização, com intuito de gerar a utilização e reuso dos dados de maneira segura e apropriada. Bertin et al. (2017, p. 29) trata o ciclo de dados e seu geren- ciamento determinado por essas etapas: Implementação, Definição de parâmetros, Exploração de dados: possibilidade de preservação de dados científicos, desen- volvimento de políticas de gerenciamentos de ciclo de dados para projetos e atividades relevantes; Ingestão de dados, Obtenção de dados: estratégias que preveem a preservação e o acesso a longo prazo e rentáveis à qualidade adequada, garantindo proteção de alta confiança e confidencialidade; Tomada de decisão: aplicações para os requisitos legais e regulamentados para toda a gama de tipo de dados e Utilização do modelo: recuperação dos dados de pesquisa, tendo em vista a sua implementação. Você pode notar, com efeito, que o ciclo de vida dos dados é um procedimento textual, o qual per- mite aprender os diversos passos que os dados seguiam até o seu gerenciamento. O compartilha- mento dos dados inicia com um método do ciclo de vida dos dados e é solicitado desde o planeja- mento até sua análise divulgação. Relação de ciência de dados com ciências de informações É importante entender a ciência de informação, pois está inteiramente ligada à Ciência de Dados. Existem diversos sentidos para a ciência da informação, passando por áreas multidisciplina- res associadas à análise, à classificação, ao armazenamento, à co- leta, à disseminação e à segurança da informação, com a interação entre indivíduos, empresas ou sistemas de informação existentes. 17BIG DATA E CIÊNCIA DE DADOS Podemos relembrar que a Ciências da Informação é de- signada como conceito geral que realiza interdisciplinaridade com a informática, concentrando em distinções e semelhanças para a Ciência de Dados. Outro ponto de destaque é que o profissional de ciências de informações é licenciado nesta área e, geralmente, de- signado por profissional da informação ou gestor de informação. É importante ressaltar que a ciência da informa- ção, com suas teorias, qualifica-se como excelen- tes opções para fundamentar a área de qualidade Ciência de Dados. Por outro lado, a Ciência de Dados está ligada à descober- ta de conhecimento ou informações extraídas de dados, enquanto a ciência da informação se concentra em métodos de armazena- mento e recuperação dessas informações. Embora sejam áreas distintas, elas se complementam na manutenção e expansão do conhecimento. As ciências clássicas se relacionam com a Ciência de Dados por meio de métodos e práticas aplicáveis a diversas áreas do saber. Ciência de Dados: termos usados Quando trabalhamos com o universo da Ciência de Dados, alguns termos podem causar confusão, por isso, é importante es- clarecê-los, pois muitos possuem atuações diferenciadas. Assim, temos as seguintes expressões que mais geram dú- vidas: Business Intelligence, Data Mining, e Data Analytics. A seguir, iremos expor cada uma: • Business Intelligence É responsável por realizar análises de eventos que já ocor- reram em um determinado período, com base em dados exatos 18 BIG DATA E CIÊNCIA DE DADOS que existem, sem a preocupação de prever eventos a longo prazo. No contexto atual, com a evolução das ferramentas de BI, mui- tas plataformas agora permitem não apenas análises históricas, mas também predições em curto e médio prazo, embora o foco principal ainda seja o uso de dados históricos. Em BI, o trabalho é constituído com base no que está acontecendo no momento, considerando o médio e curto prazo, permitindo uma tomada de decisão mais precisa. Em suma, o Business Intelligence tem como objetivo dis- ponibilizar os dados históricos a administradores e analistas de negócios, promovendo a manipulação desses dados e va- liosos resultados para melhorar a tomada de decisões. Hoje, com a popularização de ferramentas como Power BI, Tableau e Qlik, o BI tornou-se mais acessível e visual, permitindo que em- presas de todos os tamanhos utilizem análises de dados para decisões estratégicas. • Data Analytics Também conhecida como Análise de Dados, é o processo de examinar, limpar, transformar e modelar dados. Vista muitas vezes como um elemento da Ciência de Dados, é utilizada para compreender como os dados de uma empresa estão estruturados e para resolver problemas específicos. A Ciência de Dados se preocupa em analisar conjuntos de dados maciços para expor insights, enquanto a Análise de Dados funciona melhor quando é focada em perguntas claras que pre- cisam de respostas com base nos dados existentes. Embora as diferenças existam, a Ciência de Dados e a Análise de Dados são partes importantes do futuro do trabalho com dados. Nos últimos anos, a Análise de Dados também incorporou técnicas mais avan- çadas de Machine Learning e Inteligência Artificial, permitindo au- tomatizar decisões e gerar previsões mais precisas. 19BIG DATA E CIÊNCIA DE DADOS EXEMPLO: A realização de estudos sobre o comportamento do consu- midor e suas expectativas, além de observar as tendências de mercado. • Data Mining: A Mineração de Dados (Data Mining) é o processo de extra- ção de informações de grandes conjuntos de dados e sua trans- formação em uma estrutura compreensível para uso futuro. Hoje, com o aumento do uso de Big Data, a mineração de dados é fre- quentemente aplicada em conjunto com algoritmos de aprendi- zado de máquina para identificar padrões ainda mais complexos. Embora usualmente relacionada ao KDD (Knowledge Discovery in Databases), tal processo pode ser utilizado isoladamente ou em conjunto com outros métodos ou técnicas. EXEMPLO: Na área de Finanças, podemos exemplificar com um projeto cujo objetivo seja gerar um modelo de classificação para ca- racterizar clientes que pagam em dia, clientes que pagam em atraso e clientes que não pagam seus créditos. Para tanto, deve considerar o histórico de pagamento de clientes de uma financeira que haviam recebido crédito durante um período determinado. O modelo construído foi incorporado a um sis- tema de apoio à decisão, que passou a ser usado na análi- se de novas solicitações de crédito recebidas pela central de atendimento de uma financeira. A mineração de dados é estudada como parte do proces- so de Descoberta de Conhecimento em Banco de Dado (KDD – Knowledge Discovery in Databases), responsável pela seleção das técnicas a serem usadas para descobrir padrões nos dados, segui- da da efetiva busca por padrões de interesse num modo particular 20 BIG DATA E CIÊNCIA DE DADOS de representação ao lado da busca pelo melhor ajuste de parâme- tros do algoritmo para a atividade que desejar aplicar. É importante destacar que tanto a Data Science quanto o Data Mining têm caráter preditivo, utili- zando dados como base para gerar informações e incorporar o conhecimento de especialistas. A prin- cipal diferença está no fato de que a Data Science integra uma variedade de técnicas científicas, co- mo Estatística, Machine Learning, Data Analytics, Data Mining, entre outras. Por fim, percebemos como é importante estudar e en- tender cada um dos termos apresentados para assim facilitar a compreensão e a decisão de quando usar cada uma dessas soluções computacionais. E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente enten- deu o tema de estudo deste capítulo, vamos resu- mir tudo o que vimos. Você deve ter aprendido que o termo Ciência de Dados se refere ao ciclo de vida dos dados e destaca a geração de valor comercial por meio de informações obtidas a partir desses dados. Exploramos os conceitos de Ciência de Da- dos, definindo-a como uma área que integra Ma- temática, Estatística e outras disciplinas. Também discutimos os dados e o ciclo de vida que os cons- titui, desde a produção até o descarte, apresen- tando definições de autores e etapas importantesdesse processo. Compreendemos a relação entre a Ciência de Da- dos e a Ciência da Informação, destacando como elas se conectam. Além disso, aprofundamos as diferenças entre termos como Business Intelligen- ce, Data Mining e Data Analytics, que pertencem 21BIG DATA E CIÊNCIA DE DADOS ao universo dos dados e estão relacionados à Ciên- cia de Dados. Por fim, abordamos como a Ciência de Dados auxilia na descoberta de conhecimentos fundamentais, guiando a extração de informações e aplicando princípios, procedimentos e técnicas para compreender fenômenos por meio da análise automática de dados. 22 BIG DATA E CIÊNCIA DE DADOS Princípios e diferenças entre ciência de dados e big data Neste capítulo, estudaremos um pouco mais acer- ca de como se dá o relacionamento entre Big Data e Ciência de Dados. Veremos princípios e diferenças destes termos e como esses são importantes no processo de tomada de decisão. E então? Motivado para desenvolver esta competência? Vamos lá! Princípios e diferenças: Big Data e Ciência de Dados Com o avanço das tecnologias da informação e das possi- bilidades de descoberta proporcionadas por recursos mais sofisti- cados, surgiram estudos que destacam a Ciência de Dados como uma disciplina que integra múltiplos aspectos da informação por meio de seus dados. Essa área envolve uma equipe multidiscipli- nar de profissionais, como estatísticos, programadores, analistas de dados, matemáticos e bibliotecários. Outra característica marcante dos avanços tecnológicos é a enorme massa de dados gerados, que deu origem ao Big Data, uma abordagem voltada para o processamento e análise de gran- des volumes de informações. A Ciência de Dados foi desenvolvida para suprir lacunas computacionais, oferecendo soluções e in- sights por meio de diferentes fontes de dados. Sua versatilidade permite aplicá-la em diversas áreas den- tro e fora da computação, tais como: reconhecimento de imagem, Análise de Dados, Inteligência Artificial, Big Data, Machine Learning, Data Mining, robótica, negócios, entre outras. 23BIG DATA E CIÊNCIA DE DADOS Com isso, temos a ciência de dados combinada com a utilização de Big Data pela necessidade de se trabalhar com um volume substancialmente grande de dados com a finalidade de otimização das informações a serem analisadas. O Big Data, em termos gerais, lida com conjuntos de dados grandes ou complexos que, se processados por métodos tradicio- nais de gerenciamento de dados, apresentariam dificuldades de processamento. Assim, ele surgiu como uma solução para facilitar a análise dessas grandes e variadas massas de dados. Vale ressaltar que na ciência de dados a utilização de Big Data não é obrigatória, porém fornece resultados mais satisfató- rios devido ao trabalho com grandes volumes de dados, oferecen- do melhores performances. Podemos destacar que o Big Data é um suporte prático para a Ciência de Dados, pois o grande volume de dados coleta- dos e armazenados pelo Big Data após análise é utilizado para in- terpretação, análise detalhada e desenvolvimento de estratégias aplicadas em outros sistemas, como a própria Ciência de Dados. Outra diferença que podemos destacar está nos perfis profissionais de cada área. O analista de Big Data utiliza as infor- mações disponíveis no banco de dados para extrair conhecimen- to, mas não desenvolve soluções analíticas completas, precisando aplicar técnicas da Ciência de Dados. Por outro lado, o cientista de dados requer habilidades mais técnicas e analíticas em compara- ção ao analista de Big Data, incluindo conhecimentos em progra- mação, matemática, estatística, gestão, entre outros. 24 BIG DATA E CIÊNCIA DE DADOS Assista ao vídeo “Você sabe a diferença entre Data Science e Big Data?”, que traz um resumo da dife- rença de Big Data e Data Science. Nele, você verá abordagens de modo prático e objetivo sobre as principais diferenças entre Big Data e Ciência de Dados, bem como a relação existente entre elas. Acesse o QR Code. Deste modo, diante de tudo que foi exposto, percebemos que a utilização do Big Data contribui no aspecto de que muitos dados adquiridos retornam um resultado com um percentual mais alto em relação à precisão nas manipulações futuras. Entretanto, mesmo com todas as suas vantagens, deve- mos enfatizar que a utilização do Big Data, neste caso, não se trata de regras obrigatórias, possibilitando assim que a análise dos da- dos não se encaixe nas definições de Big Data como estudamos, mesmo que a fonte de consulta não seja tão assertiva quanto. Big Data e Ciência de Dados no processo de tomada de decisão Cada dia mais as organizações dos diferentes setores bus- cam recursos para lidar com as grandes massas de dados produzi- dos, assim como também cresce a procura de meios para explorar e analisar esses dados, tendo o intuito de proporcionar conheci- mento e vantagens competitivas para as empresas. https://www.youtube.com/watch?v=r1AYxeep0QM 25BIG DATA E CIÊNCIA DE DADOS EXEMPLO: Um estudo realizado em 2022 pela McKinsey & Company analisou 250 grandes empresas globais de diversos setores e revelou que aquelas que adotam estratégias de Data-Driven Decision Making (decisões baseadas em dados) tiveram um aumento médio de 8% a 10% em receita e produtividade, em comparação com empresas que ainda utilizam métodos tra- dicionais de decisão. O estudo também destacou melhorias expressivas na eficiência operacional dessas empresas, com uma redução de 15% nos custos operacionais e um aumento de 12% no retorno sobre o patrimônio líquido. Desde o surgimento do fenômeno da explosão informa- cional, a relevância da informação, relacionando-se com o contex- to da tomada de decisão e do desenvolvimento científico, passou a ter maior destaque. Neste contexto de avanços, surgiram os fe- nômenos de Big Data e Ciência de dados. É sabido que o Big Data trabalha com grande massa de dados estruturados ou desestruturados, em que contribui para o proces- so decisório, possibilitando às empresas condições para conseguir analisar os dados. Temos ainda a ciência de dados contribuindo como um suporte metodológico para o processo de tomada de decisão, facilitando a aquisição da informação contextualizada. A tomada de decisão orientada por dados baseia-se na análise de informações em vez de apenas na percepção. Essa abordagem auxilia gerentes e administradores em suas ativida- des cognitivas, permitindo decisões mais precisas e de maior qua- lidade. Nesse contexto, as soluções computacionais da ciência de dados apoiam os gestores na aquisição e compreensão de infor- mações relevantes. É importante destacar que decisões baseadas em dados não substituem totalmente as habilidades cognitivas humanas, mas atuam como um complemento para preencher suas lacunas. 26 BIG DATA E CIÊNCIA DE DADOS No entanto, é comum que indivíduos em cargos elevados nas organizações tomem decisões fundamentadas em suas expe- riências pessoais, muitas vezes guiados por padrões de relaciona- mento e aprendizado adquiridos ao longo de suas carreiras. Imagem 2.4 – Tomada de decisão Fonte: Freepik. A Ciência de Dados engloba fundamentos, processos e métodos que permitem compreender fatos por meio da análise de dados, servindo como base para a Tomada de Decisão Baseada em Dados (DBD). Essa prática consiste em fundamentar decisões na análise de dados, seja de forma manual seja automatizada, em vez de depender apenas da intuição do gestor. Além de apoiar a tomada de decisão orientada por dados, a Ciência de Dados vai além, destacando-se pela capacidade de au- tomatizar decisões em mercados. Isso ocorre por meio de sistemas computacionais que adotam processos automáticos, permitindo maior eficiência e precisão nas decisões organizacionais. 27BIG DATA E CIÊNCIA DE DADOS O artigo “Big Data e tomada de decisão: há limi- tes para a Ciência de Dados?” destaca a importân- cia da disponibilidade de dados e de sistemas de software que utilizam técnicas de analyticscomo ferramentas fundamentais para o processo deci- sório. Ao combinar essas técnicas com a intuição e a experiência dos gestores, é possível construir modelos, analisar comportamentos e gerar infor- mações relevantes e inovadoras, que enriquecem e aprimoram a tomada de decisão. Para lê-lo, aces- se o QR Code. Além disso, as soluções computacionais de ciência de dados ajudam os gestores em suas tarefas intensivas em conhecimento. Podemos citar algumas das tarefas, que estão listadas a seguir: • Associação: esta tarefa trata o conhecimento como um mapeamento entre dois conjuntos de objetos, exemplificando uma tarefa corriqueira de associa- ção, podemos citar o ato de se dar a proposta de ofe- recer um vinho apropriado em uma refeição usando as características do prato principal, assim, o somme- lier sugere o vinho mais adequado a ser consumido. • Avaliação: esta tarefa consiste em avaliar e carac- terizar um fato com base nas opções de decisão disponíveis. Um exemplo dessa aplicação inten- siva em conhecimento é um sistema de avaliação de crédito que utiliza históricos de empréstimos e https://itforum.com.br/colunas/big-data-e-tomada-de-decisao-ha-limites-para-a-ciencia-dos-dados/ 28 BIG DATA E CIÊNCIA DE DADOS Big Data como referência. Nesse cenário, o gestor pode tomar decisões mais assertivas ao compará- -las com casos anteriores, determinando, assim, a concessão ou recusa do crédito. • Diagnóstico: essa tarefa envolve o agrupamento de atributos, permitindo, a partir de um conjunto desses atributos, deduzir o estado de um objeto e identificar conhecimento direcionado a um propó- sito específico. Nesse contexto, costuma-se aplicar regras para analisar fatos em relação ao compor- tamento esperado. No ambiente de Big Data, essas regras podem ser abstrações extraídas dos dados por meio da utilização da Ciência de Dados. • Monitoramento: esta tarefa refere-se a um pro- cesso de análise interativa, no qual se observa o estado de um objeto sendo avaliado ao longo do tempo. Um exemplo é o monitoramento de um pa- ciente por meio de instrumentos que geram dados continuamente. Ao aplicar tarefas baseadas em conhecimento diagnóstico, é possível adquirir in- formações e regras utilizando Big Data e Ciência de Dados. Por meio do histórico das informações de monitoramento, torna-se viável realizar diagnósti- cos precisos de um paciente. • Predição: esta tarefa trata dos dados de históricos e periódicos na tarefa intensiva de conhecimento de predição, podendo predizer eventualidades que surjam em um determinado momento no futuro. Alguns exemplos são: a predição como estimativa de vendas, a previsão em campanhas eleitorais, en- tre outras. 29BIG DATA E CIÊNCIA DE DADOS Por fim, percebemos como as soluções computacionais em Ciência de dados, Big Data e essas tarefas intensivas em co- nhecimento, contribuem para o processo de tomada de decisão. Ciência de Dados e Business Intelligence É importante detalhar um pouco mais sobre a Ciência de dados e a Inteligência de Negócios (Business Intelligence), as quais têm características semelhantes, como transformar dados brutos em conhecimento a serem utilizados no processo de tomada de de- cisões nos negócios ou em determinado escopo aplicando no geral. Neste sentido, o conceito Business Intelligence (BI) trata de explicar dados de eventos que já aconteceram, tornando-se mais conhecido nas organizações de negócios e tecnologia da informa- ção por volta dos anos 1990. Posteriormente, foi adicionada a aná- lise de negócios (Business Analytics) com a finalidade de represen- tar o elemento analítico chave em BI. Imagem 2.5 – Business Intelligence Fonte: Freepik. 30 BIG DATA E CIÊNCIA DE DADOS As técnicas analíticas de BI são geralmente aplicadas pe- las organizações em sistemas legados armazenados em bancos de dados relacionais. Elas se baseiam principalmente em métodos estatísticos, mas também fazem uso de outras abordagens, como a mineração de dados. No Business Intelligence, as soluções são elaboradas a par- tir de dados do tipo transacional, correspondente a dados que são fornecidos durante o movimento de um caso de transação, como os dados gerados durante uma venda e transferências de dinheiro entre contas bancárias. A Ciência de dados, para gerar conhecimento de negócios, identifica padrões em grupos de dados estruturados, como ocorre no BI, ou em conjuntos de dados estruturados, semiestruturados e não estruturados, incluindo Big Data. Uma diferença importante é que as soluções de Ciência de Dados não se restringem apenas aos dados transacionais, como ocorre no BI. Vale deixar claro que o Business Intelligence traba- lha realizando previsão para o futuro, levando em consideração inferências simples, feitas tendo co- mo base dados atuais ou históricos, para propor- cionar informações e conhecimentos importantes para os gestores tomarem decisões a médio e curto prazo. Por outro lado, a Ciência de Dados realiza previsões com intuito de descobrir conhecimento para o futuro, a longo prazo, usando práticas matemáticas, de programação ou estatísticas avançadas, analisando e fazendo previsões por meio de grandes massas de dados do negócio. 31BIG DATA E CIÊNCIA DE DADOS E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente enten- deu o tema de estudo deste capítulo, vamos resu- mir tudo o que vimos. Você deve ter aprendido co- mo a Ciência de Dados e Big Data se relacionam e, apesar de suas diferenças, podem se complemen- tar na análise de dados. Observamos que a Ciência de Dados é uma área mais ampla que utiliza os re- cursos de Big Data para lidar com grandes volumes de dados. Além disso, foram apresentados os obje- tivos de cada uma dessas áreas e como a produção de dados desempenha um papel crucial na tomada de decisão. Discutimos como a tomada de decisão baseada em dados pode apoiar os gestores e exploramos co- mo tarefas intensivas em conhecimento, ao adotar Ciência de Dados e Big Data, contribuem nesse pro- cesso. Por fim, abordamos as diferenças e cone- xões entre Business Intelligence e Ciência de Dados, destacando como os diferentes tipos de dados e suas similaridades agregam valor aos negócios. Também mencionamos características específicas, como o BI, que se fundamenta na expertise em tec- nologia aplicada ao ambiente empresarial. 32 BIG DATA E CIÊNCIA DE DADOS O papel e a importância do cientista de dados Neste capítulo, veremos a importância dos profis- sionais que trabalham com Ciência de Dados, as- sim como as suas competências. E então? Motiva- do para desenvolver esta competência? Vamos lá! Cientista de dados A Ciência de dados trouxe mudanças significativas ao lidar com a complexidade envolvida na exploração e extração de da- dos, destacando a necessidade de profissionais qualificados para o tratamento dessas informações. Entre eles, o programador, que realiza análises e utiliza ferramentas eficazes para explorar os dados e compreender seus comportamentos, e o profissional da informação especializado em dados, que assegura eficiência na comunicação com os usuários e atende às necessidades informa- cionais das organizações. Ainda é sabido que a Ciência de Dados apresenta disposi- ções e determina as informações que as empresas podem utilizar para tomar decisões acertadas e produzir serviços mais inovado- res. Por mais que os dados sejam a base da inovação, destaca-se que o seu valor surge dos dados de informações que os cientistas podem retirar, utilizar e aplicar em um determinado escopo. Com o avanço e a expansão da Ciência de dados, surgiu a necessidade de profissionais capacitados para atuar nessa área, dando origem ao papel do cientista de dados. Esse profissional deve possuir um conjunto integrado de habilidades, incluindo matemática, aprendizado de máquina, inteligência artificial, es- tatística, bancos de dados e otimização, além de um profundo 33BIG DATA E CIÊNCIA DE DADOS entendimentodos requisitos de desenvolvimento e dos proble- mas a serem resolvidos para projetar resultados eficazes. Assista ao vídeo “Cientista de Dados, por onde começar?”, no qual você terá uma abordagem cla- ra e objetiva sobre cientista de dados. Acesse o QR Code. O cientista de dados foi destacado como uma das profis- sões mais proeminentes até 2020 pelo Fórum Econômico Mundial e divulgada como a profissão mais atraente do século XXI pela Harvard Business Review. A posição de cientista de dados teve sua terminologia determinada por Patil e Hammerbacher, em 2008, e em seguida este termo passou a ser tomado pelo LinkedIn e pelo Facebook em anúncios de vagas com interesses em profissionais para dar suporte com a grande massa de volume e tráfego de da- dos nas mídias sociais. Os profissionais da ciência de dados precisam saber traba- lhar com os diferentes tipos de dados, sejam estruturados, sejam semiestruturados e sejam não estruturados. Formação e atuação do cientista de dados Segundo Finzer (2023), a nomenclatura “Ciência de dados” foi referida pela primeira vez em 2001, em um texto de autoria de William S. Cleveland, intitulado em tradução livre “Ciência de https://www.youtube.com/watch?v=NmCuEgkVLWo 34 BIG DATA E CIÊNCIA DE DADOS Dados: um plano estratégico para a expansão das áreas técnicas no campo da Estatística”, em que tratava o objetivo de combinar a estatística, a programação e a computação em ferramentas para analisar e extrair informações dos dados. No contexto da formação do cientista de dados, um re- latório britânico encomendado pela Joint Information Systems Committee (JISC) sobre habilidades, funções e carreira desses pro- fissionais aponta a dificuldade em estabelecer uma definição uni- forme para o papel. Contudo, de forma geral, descreve o cientista de dados como aquele que atua em centros de dados, colaboran- do com pesquisadores ou grupos de cientistas, participando de in- vestigações criativas e análises de dados. Esse profissional fornece soluções tecnológicas voltadas para a manipulação e utilização de dados digitais. Imagem 2.6 – Cientista de dados Fonte: Freepik. Um dos importantes fundamentos do cientista de dados são os dados e a aptidão de extrair conhecimento favorável por meio deles, sendo esta análise um princípio ativo estratégico. 35BIG DATA E CIÊNCIA DE DADOS Assim, o autor afirma que a melhor equipe que trabalha com ciên- cias de dados pode obter pouco valor, sem os dados apropriados. Isso porque, algumas vezes, apenas os dados corretos, não po- dem melhorar as decisões sem a capacidade adequada dos pro- fissionais de ciências dos dados. Vale ressaltar que o cientista de dados possui uma grande demanda na linha das ciências, da indústria e do governo. Esse profissional tem uma expecta- tiva de formação tipicamente sólida em ciência da computação e aplicações, modelagem, estatística, analítica e matemática, além do conhecimento mí- nimo do domínio de aplicação. É importante destacar a afirmação de Finzer (2003), que descreveu o profissional do século como aquele com formação em Ciência de Dados, tendo como atributos a ampliação das áreas técnicas como estatística, programação e computação, o qual pode ser chamado de Data Analyst ou Analista de da- dos. Entretanto, o autor delineia poucas características desse novo profissional. Perfil do profissional Amaral (2016) apresenta o perfil do cientista de dados, um profissional com aptidões multidisciplinares, com experiência e conhecimento em gerência de projetos. No quadro a seguir, são apresentadas as características que o autor mencionado utiliza para distinguir o cientista de da- dos do mercado daquele idealizado pela mídia especializada. 36 BIG DATA E CIÊNCIA DE DADOS Quadro 2.1 – Perfil profissional Profissional de mercado Profissional idealizado Conhecimento multidisciplinar Especialista em todas as áreas Equipe de especialistas Foco em conhecimento técnico Liderança Trabalha sozinho Gerência de projetos Especialista em todas as áreas Fonte: Realizado pela autoria com base em Amaral (2016). Habilidades do cientista de dados A empresa LinkedIn identificou algumas das principais ha- bilidades que compõem o perfil considerado ideal para cientistas de dados, listando as 10 mais frequentes entre os profissionais da área: comunicação, gestão de dados estruturados, matemáti- ca, gestão de projetos, mineração e visualização de dados, design de experimentos, gestão de dados, design e desenvolvimento de produtos, modelagem estatística e desenvolvimento de negócios. Amaral (2016) destaca que, com o surgimento do termo “Big Data” como um tema de destaque, a profissão de cientista de dados também ganhou relevância. O autor descreve que a maioria dos especialistas define o cientista de dados como um profissional com conhecimentos técnicos em áreas como estatística, NoSQL, compu- tação em nuvem, mineração de dados, álgebra relacional, modela- gem multidimensional, MapReduce, virtualização, entre outros. O artigo de Davenport e Patil (2012), publicado na Harvard Business Review, enfatiza que as habilidades do cientista de dados estão sujeitas a funções que mais técnicas ou mais direcionadas para a elaboração de produtos ou aplicativos de análise de dados. https://hbr.org/ https://hbr.org/ 37BIG DATA E CIÊNCIA DE DADOS Já Davenport e Patil (2012) afirmam que as habilidades ne- cessárias para se tornar um cientista de dados são: habilidades em linguagens de programação de análise de dados, comunicação, vi- sualização de dados, mineração de dados, estatística, habilidades em infraestrutura que trabalham com Big Data, aprendizado de máquina, engenharia de software, álgebra linear e habilidade de resolução de problemas. Outros elementos são fundamentais para um cientista de dado, os quais estão citados a seguir: • Capacidade de programar; • Aptidão de arquiteturas tecnológicas de Big Data; • Processo de tomada de decisão; • Improvisação; • Impaciência e inclinação à ação; • Habilidades de comunicação e relacionamento; • Aptidão de decisões e entender os processos decisórios; • Análise estatística; • Técnicas de visualização; • Aprendizado de máquina; • Análise de dados diferentes tipos; • Análise de como negócios funciona; • Aplicação de Analytics e o Big Data. Violino (2018) listou habilidades para a profissão do cien- tista de dados, publicado no site CIO/EUA, além de ter destacado algumas delas representadas no quadro a seguir. 38 BIG DATA E CIÊNCIA DE DADOS Quadro 2.2 – Lista habilidades e funcionalidades Habilidades A funcionalidade para cientista de dado Pensamento crítico Essa habilidade serve para um melhor processo de análise e entender os problemas e fatos de um determinado escopo, para depois buscar as soluções. Codificação Esta habilidade de linguagem de programação é usada para desenvolver os códigos responsáveis por analisar dados, alguns exemplos de linguagens são: python, R, scala, clojure, java e octave. Matemática e estatística Estas habilidades servem para permitir o cientista analisar os dados e desenvolver modelos estatísticos, podendo ajudar na criação das estratégias de negócios Inteligência Artificial e aprendizado de máquina Esta habilidade serve para o cientista utilizar as técnicas e métodos que serão responsáveis por otimizar e criar processos eficazes. Fonte: Realizado pela autoria com base em Violino (2018). Além dessas habilidades, podemos destacar outras como co- municação, arquitetura, resolução de problema e análise de riscos. Ainda podemos citar que o cientista de dados é o profis- sional generalista que tem a capacidade de negócios, estatística, ciência da computação, além de se relacionar com algumas no- ções específicas, entre as quais arquitetura de dados e comunica- ção no escopo empresarial. Tanto na literatura quanto nas empresas, é evidente a dificuldade em estabelecer um padrão claro para a profissão de cientista de dados.No entanto, mesmo sem consenso, é possível identificar características comuns nas descrições, como habilida- des em estatística, competências computacionais para programa- ção e o uso de sistemas capazes de processar grandes volumes de dados, além da capacidade de explorar e extrair informações desses dados. 39BIG DATA E CIÊNCIA DE DADOS Competências relacionadas Conforme estudamos, a Ciência de Dados e Big Data são executadas por meio de equipes multidisciplinares, cada uma es- pecializada em uma determinada área e liderada pelo cientista de dados. Com isto, Amaral (2016) elencou essas especialidades ne- cessárias conforme apresentada a seguir: Quadro 2.3 – Competências relacionadas à Ciência de dados: Especialidade Atribuições Equipe de extração Esta equipe corresponde a uma importante função no projeto e responsável por tomar uma grande parcela de tempo do projeto. Usualmente, estes métodos são implementados por usuários que podem atuar como administradores de Banco de dados (DBAs) e programadores. Algumas funções dessa equipe são: extrair os dados correspondentes a necessidade, se estão completos, alinhados e atualizados. Além do exposto, a mesma equipe é responsável por saber as regras e a legislação envolvidas nos projetos. Coordenador de infraestrutura É responsável por se encarregar pela estrutura do projeto, determinar o ambiente de análise, instalação de sistemas, criação de usuários, permissões de acesso, entre outras. Estatístico e/ou minerador de dados Sabemos que os projetos de dados podem necessitar de testes de hipóteses ou dos seguintes pontos: criação de modelos de predição e técnicas de visualização 40 BIG DATA E CIÊNCIA DE DADOS Especialidade Atribuições Especialistas em ferramentas específicas Normalmente, diferentes projetos e suas etapas demandam profissionais específicos para atender aos variados requisitos do projeto. Isso inclui especialistas em ferramentas específicas, como as usadas para extração de dados ou técnicas de visualização. Por essa razão, é necessário disponibilizar técnicos com essas habilidades ou oferecer a capacitação necessária para que desenvolvam essas competências. Database Administrator (DBA) Os administradores de banco de dados (DBAs) possuem funções características em dados relacionais e multidimensionais, mas suas responsabilidades se expandem para bancos de dados como NoSQL e sistemas de arquivos distribuídos. Eles também podem auxiliar na coleta de metadados, compreensão de estruturas, rotinas de replicação, integração, entre outras atividades. Programador Deve ter aptidões em linguagens de programação especializadas em análise de dados, como também pode ser necessário habilidade de implementar a análise, programando stored procedures diretamente em gerenciadores de banco de dados. Arquiteto de solução O arquiteto de solução é primordial para o projeto, pois se responsabiliza pela indicação da arquitetura adequada para o projeto, desde processadores, a licenças de software, entre outras definições. Analistas de negócios Têm o papel primordial para selecionar os requisitos e determinar o escopo do projeto. Usualmente, podem operar junto ao gerente do projeto Designer É importante ter um especialista em visualização de dados ou designer, solicitado para criar artefatos com qualidade visual otimizada. Fonte: Elaborado pela autoria (2024). 41BIG DATA E CIÊNCIA DE DADOS E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente en- tendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você aprendeu mais so- bre o profissional que atua com Ciência de Dados, incluindo a origem dessa profissão. Estudamos a importância da formação do cientista de dados, destacando pesquisas e abordagens que descre- vem seus princípios e habilidades. Analisamos o perfil e a lista de competências necessárias para esses profissionais, evidenciando a necessidade de habilidades para trabalhar com diferentes tipos de dados: estruturados, semiestruturados e não es- truturados. Também discutimos como a maioria das pesqui- sas acadêmicas e empresariais não chegou a um consenso sobre um padrão de habilidades. No en- tanto, algumas competências são frequentemente destacadas, como capacidades em matemática, es- tatística, codificação, análise de dados e negócios, além do domínio de aprendizado de máquina e In- teligência Artificial. Por fim, encerramos a unidade abordando as principais competências relaciona- das às áreas da Ciência de dados. 42 BIG DATA E CIÊNCIA DE DADOS Aplicações da ciência de dados Neste capítulo, veremos onde podemos aplicar a Ciência de dados, citando sua importância no con- texto geral. Logo após estudaremos onde está sen- do aplicada a ciência de dados, apresentando as diversas áreas em que está sendo explorada, bem como apresentaremos as ferramentas que ajudam a aplicá-la. E então? Motivado para desenvolver es- ta competência? Vamos lá! Onde aplicar a Ciência de dados A Ciência de dados busca aperfeiçoar técnicas, modelos e procedimentos computacionais, matemáticos e estatísticos que interajam com ferramentas voltadas para a descoberta de conhe- cimento nas áreas de aplicação. O objetivo é obter resultados sa- tisfatórios por meio dessa interação, sendo essencial identificar, de forma clara e precisa, o problema que se deseja resolver. Além disso, a aplicação da Ciência de dados é especial- mente relevante na era da informação, caracterizada por enormes volumes de dados em diversos setores. Paralelamente, cresce a necessidade de empresas, bancos, pesquisadores e cientistas bus- carem, constantemente, resolver problemas e desenvolver solu- ções inovadoras para suas respectivas áreas de atuação. A multidisciplinaridade da Ciência de dados e das equipes que atuam com ela tem possibilitado grandes avanços e benefícios em diversos setores. Essa abordagem permite a análise de dados, a descoberta de conhecimento, a realização de análises estatísti- cas, previsões e outros recursos exclusivos da Ciência de dados. 43BIG DATA E CIÊNCIA DE DADOS Nesse contexto, a Ciência de dados oferece suporte a vá- rias áreas, como finanças, medicina, astronomia, jogos, marketing, biologia e muitas outras. Sua aplicação ajuda a resolver problemas científicos ou a identificar padrões de comportamento, incluindo aqueles voltados para a área de negócios. Ciência de dados na Biologia Na biologia, a Ciência de dados contribui por meio de méto- dos estatísticos que permitem a análise de grandes volumes de da- dos biológicos, sendo aplicados há anos com o objetivo de detectar e prever as funções de genes e das proteínas por eles codificadas. Um exemplo disso são os resultados obtidos por análises in silico, posteriormente confirmados em laboratório, demons- trando que é possível identificar uma família completa de genes utilizando processos de Ciência de Dados e informações genéticas disponíveis em bancos de dados abertos. Imagem 2.7 – Ciência de dados aplicada na Biologia Fonte: Pixabay. 44 BIG DATA E CIÊNCIA DE DADOS Ciência de dados aplicada à saúde A Ciência de Dados em Saúde, conhecida como Health Data Science, é a aplicação da ciência para oferecer soluções ba- seadas em dados, compreendendo problemas reais da área de saúde. Essa abordagem utiliza o pensamento crítico e a análise de dados para gerar conhecimento. Sua aplicação na saúde surge como um domínio emergente, situado na interseção entre bioes- tatística, ciência da computação e saúde. No Brasil, um exemplo de aplicação da Ciência de dados em saúde é a atuação da Fiocruz, que desenvolve pesquisas nessa área e promove cursos com o objetivo de atrair mais profissionais para esse campo em crescimento. Ciência de dados aplicada ao projeto social A aplicação da Ciência de dados em projetos sociais tem ganhado destaque no Brasil e no mundo. Com o aumento de or- ganizações institucionais que disponibilizambases de dados para análise, como o programa Bolsa Família, que inclui cerca de 100 milhões de brasileiros no CADSUS, essa área vem se fortalecendo. Esse avanço permite a formulação de políticas públicas mais ade- quadas, baseadas nas análises realizadas. Ciência de dados aplicada aos negócios Podemos entender que os melhores resultados de um negócio não dependem exclusivamente do volume dos dados que uma empresa tem, mas sobre o modo como serão utilizadas essas informações. 45BIG DATA E CIÊNCIA DE DADOS Para aplicar a Ciência de dados aos negócios, o cientista de dados precisa atuar tanto na área técnica quanto nos campos relacionados ao mundo empresarial. Assim, esse profissional se conecta a setores como Business Intelligence (BI), inteligência de mercado, Tecnologia da Informação (TI) e Administração de Banco de Dados (DBA). A Ciência de dados, quando aplicada aos negócios, contribui para a identificação de fenômenos reais por meio da análise de gran- des volumes de dados. Por esse motivo, muitas organizações inves- tem em Ciência de dados para aprimorar seus processos de tomada de decisão, fomentar a inovação e alcançar vantagem competitiva. Sua aplicação nos negócios também gera outras contribui- ções significativas, como o aumento dos lucros, redução de riscos financeiros e o uso de métodos para detectar anomalias ou frau- des em tempo real. EXEMPLO: A Ciência de Dados pode melhorar a eficiência de sistemas e processos, aumentar as taxas de vendas e permitir que o cientista de dados desenvolva estratégias de fidelização ou captação de clientes, entre outras vantagens. Imagem 2.8 – Ciência de dados nos negócios Fonte: Pixabay. 46 BIG DATA E CIÊNCIA DE DADOS Para aplicar a Ciência de dados na área de negócios, é im- portante cumprir as seguintes etapas: Quadro 2.4 – Etapas da aplicação da Ciência de dados nos negócios Etapa Atividade Definição de problema e métrica de sucesso Ao aplicar a Ciência de Dados nas empresas, é fundamental começar identificando os objetivos e as lacunas que precisam ser preenchidas no negócio. Definição do conjunto de dados (dataset) analítico a ser utilizado A seleção do conjunto de dados a ser utilizado pelos cientistas de dados é crucial, indo além de uma simples extração de grandes volumes diretamente do banco transacional. Esse conjunto analítico deve ser criado com base na definição do problema, incluindo todas as variáveis necessárias para respondê-lo. Além disso, é essencial combinar diferentes bases de dados, tanto internas quanto externas. Por exemplo, fontes externas podem incluir dados adquiridos de fornecedores especializados ou bases públicas, com o objetivo de melhorar a precisão dos modelos a serem aplicados. Transformação e higienização de dados Essa é uma das etapas mais detalhadas e demoradas, pois envolve a limpeza dos dados, utilizando técnicas estatísticas para tratar questões como dados ausentes, identificação de padrões e tratamento de outliers. Além disso, essa fase inclui outros métodos, como concatenação de colunas, enriquecimento de dados com bases externas e diversas reestruturações necessárias. Mineração de dados e modelagem com Inteligência Artificial Esta é umas das fases principais no processo, pois permite gerar valor a partir das suas técnicas no processo de modelagem. É nesta etapa que vários modelos são treinados com a utilização das técnicas de Inteligência Artificial ou de aprendizado de máquina, como predição, associação e regressão. 47BIG DATA E CIÊNCIA DE DADOS Etapa Atividade Comunicação dos resultados obtidos em linguagem de negócio Esta é a fase que trabalha a comunicação dos resultados dos projetos de Ciência de dados por meio da linguagem de negócios, com foco no objetivo e na rapidez, apresentando, por exemplo, quais os impactos do projeto e qual será o retorno financeiro obtido. Além do mais, sugere oferecer a visão de futuro dos sistemas integrados e uma lista com as oportunidades adjacentes descobertas durante o processo. Fonte: Elaborado pela autoria (2024). Ferramentas que trabalham com Ciência de dados Antes de aplicar a Ciência de dados, é fundamental ado- tar as ferramentas adequadas. Por isso, é essencial conhecer as opções disponíveis no mercado que podem ser utilizadas para im- plementar os métodos e procedimentos de obtenção de conhe- cimento e extração de informações. A seguir, são apresentados alguns exemplos de ferramentas: • Alteryx Esta é uma ferramenta de designer com um ambiente de programação visual que possibilita ao desenvolvedor arrastar e soltar ícones em vez de escrever código. O Alteryx proporciona di- versos modelos preditivos pré-estabelecidos para analisar dados e deduções de desenhos. Tem como característica parecer como ícones para processamento de dados, porém, por trás, são pro- gramas em R ou Python e o Alteryx permite esconder a complexi- dade e a codificação fundamentado em texto. • Talend Esta ferramenta oferece um conjunto de aplicativos que po- dem ser utilizados em desktops, data centers locais ou na nuvem. 48 BIG DATA E CIÊNCIA DE DADOS Trata-se de ferramentas multicamadas que permitem a coleta de dados de diferentes bancos de dados, transformando-os para aná- lise. Um exemplo dessas ferramentas é o Pipeline Designer, que proporciona um design visual para extrair dados de diversas fontes, analisando-os com ferramentas padrão ou extensões do Python. • Knime Esta é uma plataforma de análise de dados de código aber- to que contém uma interface visual para atrelar diversas rotinas de análise e processamento de dados. Deste modo, o software princi- pal é disponibilizado gratuitamente, porém as versões comerciais têm alguns plugins e extensões. Essa ferramenta tem uma base do software que está codificada em Java e muitas das integrações da Knime dependem do ecossistema Java. A interface do Knime é es- truturada sobre o Eclipse. A plataforma possibilita trabalhar com dados em todos com bancos de dados como MySQL e PostgreSQL, integrando serviços de nuvem. Ele também integra a próxima ge- ração de ferramentas de dados distribuídos como o Apache Spark. Linguagem de programação Python Python é uma das mais utilizadas linguagem, pois pode ser utilizada tanto para desenvolvimento de programas comerciais quanto de programas científicos. A aplicação dessa linguagem é diversa, sendo utilizada desde um desenvolvimento web até imple- mentações com ciência de dados. Devido a sua sintaxe objetiva e sucinta, que contribui para deixar código-fonte legível, Python é uma linguagem bem-sucedi- da, de modo geral, além de uma das linguagens mais usadas no meio científico, principalmente quando se refere aos cientistas de dados ou de outras áreas. Entretanto, para trabalhar com Ciência de dados não basta apenas a implementação com Python, é preci- so a utilização de técnicas específicas disponíveis em pacotes que 49BIG DATA E CIÊNCIA DE DADOS devem ser acrescentados ao projeto. Vale frisar que estes pacotes têm o objetivo de aperfeiçoar a aplicação em aspectos como ve- locidade de processamento, codificação e o uso de técnicas para análise de dados ou aprendizagem de máquina. As seções a seguir apresentam alguns destes pacotes: Jupyter Notebook Jupyter ou caderno Jupyter é um ambiente desen- volvido para se trabalhar com programação literária. Neste paradig- ma de programação, há uma intersecção entre a codificação e a do- cumentação em forma de narrativa, ao invés de manipulá-los como elementos independentes. Também permite criar e compartilhar do- cumentos que contenham código vivo, equações, visualizações e tex- to narrativo. A sua utilização possibilita a limpeza e a transformação de dados, simulação numérica, modelagem estatística, visualização de dados, aprendizado de máquina, entre outras funções. Pandas É uma ferramenta prática, flexível e fácil de utilizar para análise e manipulação de dados de código aberto, construída em cima dalinguagem de programação Phyton, a qual provê uma es- trutura de dados e funções robustas para trabalhar com grandes massas de dados de modo mais rápida. Ademais, o Pandas possibilita uma elaborada estrutura de dados e funções desenvolvidas para tornar mais prático e rápido o trabalho com um grande conjunto de dados. Anaconda É uma distribuição que disponibiliza vários pacotes que podem ser instalados todos de uma vez, sendo um importante 50 BIG DATA E CIÊNCIA DE DADOS recurso para trabalhar com Ciência de dados. Além de permitir instalar os pacotes, otimizando o trabalho do desenvolvedor em configurar o ambiente de trabalho, o Anaconda também dispo- nibiliza o Conda, que é responsável por controle de versões dos pacotes instalados. Assim, o desenvolvedor passa a poder traba- lhar em vários projetos em diferentes versões de Python sem se preocupar com a versão dos pacotes instalados. E então? Gostou do que lhe mostramos? Agora, só para termos certeza de que você realmente en- tendeu o tema de estudo deste capítulo, vamos resumir tudo o que vimos. Você aprendeu sobre a importância de utilizar a Ciência de Dados e como ela pode contribuir em diversos setores do conhe- cimento. A cada dia, essa área possibilita a solu- ção de problemas científicos e a identificação de padrões de comportamento, como os aplicados na área de negócios. Também exploramos sua apli- cação nos campos da biologia, saúde e projetos sociais, além de destacar suas contribuições nos negócios, como ganhos em estratégias, finanças, vendas e fidelização de clientes, alcançados por meio da aplicação de Data Science. Por fim, men- cionamos as ferramentas utilizadas para imple- mentar as técnicas e métodos da Ciência de Dados. 51BIG DATA E CIÊNCIA DE DADOS AMARAL, F. Introdução à Ciência de Dados: mineração de dados e Big Data. Rio de Janeiro: ALTA Books, 2016. BERTIN, B. et. al. A gestão de dados de pesquisa no contexto da e-science: benefícios, desafios e oportunidades para organizações de p&d. Ponto de Acesso, [S.l.], v. 11, n. 2, p. 34-48, 2017. CLEVELAND, S. Data Science: anactionplan for Expanding the technical áreas ofth efieldof statistics. International Statistical Review, Malden, v. 69, [s.n.], p. 21-26. 2001. FINZER, W. The Data Science Education Dilemma. Technology Innovations In Statistics Education, [S.l.], v. 7, n. 2. 2013. Disponível em: https://escholarship.org/uc/item/7gv0q9dc acesso em: 24 out. 2024. PATIL, H.; DAVENPORT, J. Data Scientist: thes exiest job of the 21st century. [S.l.], HBR, 2012. Disponível em: https://hbr.org/2012/10/ data-scientist-the-sexiest-job-of-the-21st-century. Acesso em: 20 maio 2020. PROVOST, F.; FAWCETT, T. Data Science para negócios: o que você precisa saber sobre mineração de dados e pensamento analítico de dados. Rio de Janeiro: Alta Books, 2016. SMITH, F. Jack Data Science as an academic discipline. Data Science Journal, [S.l.], v. 5, p. 163-164, 2006. Disponível em: https://datascience.codata.org/articles/10.2481/dsj.5.163 acesso em: 24 out. 2024. VIOLINO B. 8 habilidades essenciais para cientistas de dados de alto desempenho, 2018. Disponível em:https://cio.com. br/8-habilidades-essenciais-paracientistas-de-dados-de-alto- desempenho/ acesso em: 10 abr. 2024 RE FE RÊ N CI A S https://escholarship.org/uc/item/7gv0q9dc https://datascience.codata.org/articles/10.2481/dsj.5.163