Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

BIG DATA E CIÊNCIA 
DE DADOS
Ciência de Dados
CEO 
DAVID LIRA STEPHEN BARROS
Gerente de Produção Editorial 
LAURA KRISTINA FRANCO DOS SANTOS
Projeto Gráfico 
RAMONIQUE DESIRRE
TIAGO DA ROCHA
Autoria 
JÉSSICA LAISA DIAS DA SILVA E ALAN DE OLIVEIRA SANTANA
4 BIG DATA E CIÊNCIA DE DADOS
A
U
TO
RI
A
Jéssica Laisa Dias da Silva 
Olá. Sou graduada em Sistemas da Informação pela 
Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em 
Sistema e Computação pela Universidade Federal de Rio Grande 
do Norte (UFRN). Atualmente, sou doutoranda em Sistema e 
Computação pela UFRN e professora conteudista na elaboração 
de cadernos.
Alan de Oliveira Santana 
Olá. Sou graduado em Ciência da Computação pela 
Universidade do Estado do Rio Grande do Norte (UERN) e mes-
tre em Sistemas da Computação pela Universidade Federal do Rio 
Grande do Norte (UFRN). Atualmente, sou professor conteudista, 
elaborador de cadernos de questões e doutorando em Ciências 
da Computação. Como cientista, atuo no desenvolvimento e ava-
liação de técnicas de desenvolvimento de sistemas com ênfase 
na educação.
Desse modo, fomos convidados pela Editora Telesapiens 
a integrar seu elenco de autores independentes. Estamos muito 
satisfeitos com o convite e a possibilidade de auxiliar em seu de-
senvolvimento intelectual e profissional. Bons estudos!
5BIG DATA E CIÊNCIA DE DADOS
ÍC
O
N
ES
Esses ícones aparecerão em sua trilha de aprendizagem nos seguintes casos:
OBJETIVO
No início do 
desenvolvimento 
de uma nova 
competência.
DEFINIÇÃO
Caso haja a 
necessidade de 
apresentar um novo 
conceito.
NOTA
Quando são 
necessárias 
observações ou 
complementações.
IMPORTANTE
Se as observações 
escritas tiverem que 
ser priorizadas.
EXPLICANDO 
MELHOR
Se algo precisar ser 
melhor explicado ou 
detalhado.
VOCÊ SABIA?
Se existirem 
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo.
SAIBA MAIS
Existência de 
textos, referências 
bibliográficas e links 
para aprofundar seu 
conhecimento.
ACESSE
Se for preciso acessar 
sites para fazer 
downloads, assistir 
vídeos, ler textos ou 
ouvir podcasts. 
REFLITA
Se houver a 
necessidade de 
chamar a atenção 
sobre algo a 
ser refletido ou 
discutido.
RESUMINDO
Quando for preciso 
fazer um resumo 
cumulativo das últimas 
abordagens.
ATIVIDADES
Quando alguma 
atividade de 
autoaprendizagem 
for aplicada.
TESTANDO
Quando uma 
competência é 
concluída e questões 
são explicadas.
6 BIG DATA E CIÊNCIA DE DADOS
Conceitos e escopos da ciência de dados ................................ 9
Fases do projeto em Ciência de Dados...........................................13
Ciclo de vida do dado ........................................................................................14
Relação de ciência de dados com ciências de informações ......................16
Ciência de Dados: termos usados ..................................................................17
Princípios e diferenças entre ciência de dados e 
big data ..................................................................................... 22
Princípios e diferenças: Big Data e Ciência de Dados ................................22
Big Data e Ciência de Dados no processo de tomada de decisão ...........24
Ciência de Dados e Business Intelligence .......................................................29
O papel e a importância do cientista de dados .................... 32
Cientista de dados ............................................................................................32
Formação e atuação do cientista de dados ..................................................33
Perfil do profissional ...........................................................................35
Habilidades do cientista de dados ..................................................36
Competências relacionadas .............................................................................39
Aplicações da ciência de dados .............................................. 42
Onde aplicar a Ciência de dados ...................................................................42
Ciência de dados na Biologia ............................................................43
Ciência de dados aplicada à saúde ..................................................44
Ciência de dados aplicada ao projeto social .................................44
Ciência de dados aplicada aos negócios .......................................................44
Ferramentas que trabalham com Ciência de dados ...................................47
Linguagem de programação Python ................................................48
Jupyter ...................................................................................................49
Pandas ...................................................................................................49
 Anaconda .............................................................................................49
SU
M
Á
RI
O
7BIG DATA E CIÊNCIA DE DADOS
A
PR
ES
EN
TA
ÇÃ
O
Com toda a produção de dados e os avanços tecnológicos, 
surgiram soluções computacionais como o Big Data e a Ciência de 
Dados. Assim, nestes capítulos nos deteremos a explicar um pouco 
mais sobre a Ciência de Dados, abordando desde seu surgimento, 
conceitos e suas contribuições. Abordaremos ainda os princípios 
e diferenças entre o Big Data e outras soluções computacionais.
Ainda no decorrer desta unidade, estudaremos a impor-
tância dos profissionais que trabalham com Ciência de dados, as-
sim como suas competências e habilidades.
Além do exposto, estudaremos onde está sendo aplicada a 
ciência de dados, apresentando as diversas áreas em que está sen-
do explorada, bem como, as ferramentas que ajudam a aplicá-la.
Nesta unidade, estudaremos sobre esses assuntos espe-
rando que todas as dúvidas sejam tiradas e que tragam informa-
ções que mudem a forma de pensar sobre as tomadas de decisões.
8 BIG DATA E CIÊNCIA DE DADOS
O
BJ
ET
IV
O
S Olá. Seja muito bem-vindo! Nosso objetivo é auxiliar você 
no desenvolvimento das seguintes competências profissionais até 
o término desta etapa de estudos:
1. Compreender o conceito de Ciência de Dados.
2. Diferenciar Ciência de Dados e Big Data.
3. Assimilar o papel do cientista de dados.
4. Compreender as aplicações da Ciência de Dados.
Então? Preparado para adquirir conhecimento sobre um 
assunto fascinante e inovador como esse? Vamos lá!
9BIG DATA E CIÊNCIA DE DADOS
Conceitos e escopos da 
ciência de dados
Neste capítulo, conceituaremos Ciência de Dados, 
entenderemos um pouco mais sobre esse conceito 
e as fases que compõem um projeto de ciências de 
dados, bem como o ciclo de vida dos dados. Além 
disso, abordaremos termos importantes quando 
se estuda ciência de dados. E então, motivo para 
aprender? Vamos lá!
Por volta de 70% a 80% dos dados criados em diversas fon-
tes, como empresas, redes sociais, entre outras, são resultantes da 
utilização intensa das Tecnologias de Informação e Comunicação 
nos últimos tempos. Estudos mais recentes indicam que essa 
porcentagem pode variar dependendo da indústria e do tipo de 
dados coletados, mas o volume de dados não estruturados, espe-
cialmente em redes sociais e Internet das Coisas (IoT), continua a 
crescer exponencialmente.
Por conseguinte, os dados são copiosamente e ligeiramen-
te produzidos, servindo de matéria-prima para tomada de decisão 
em grandes organizações. Hoje, o conceito de dados como “o novo 
petróleo” continua a ser relevante, mas com um foco crescente em 
privacidade e regulamentação de dados, como visto com legisla-
ções como a GDPR na Europa e a LGPD no Brasil.
Nesta conjuntura de universo de dados, avançadas pes-
quisas e desenvolvimento de soluções computacional são aplica-
das, como Ciência de Dados, a qual vamos conceituar e estudar 
detalhadamente nesta unidade. 
A Ciência de Dados (Data Science, termo em inglês) é uma 
área que estuda o ciclo de vida dos dados e aponta a geração de va-lor comercial por meio de insights, que são informações suscitadas 
10 BIG DATA E CIÊNCIA DE DADOS
por meio dos dados. Mesmo que a expressão “Data Science” tenha 
surgido nos anos 1960, a Ciência de Dados é uma ciência consi-
derada nova e, muitas vezes, mal interpretada. Desde o início dos 
anos 2000, a Ciência de Dados ganhou grande relevância devido 
ao aumento das capacidades computacionais e ao volume massi-
vo de dados gerados diariamente. É sabido que uma ciência é re-
ferente a obter conhecimento e informação de modo sistemático, 
tal como regularizar e estruturar esse conhecimento.
Da mesma maneira, a Ciência de Dados versa de estudar 
os dados por completo, trabalhando com o seu ciclo de vida da 
produção ao ponto de ser descartado. A ciência evoluiu para in-
cluir uma forte ênfase em técnicas de Machine Learning, Deep 
Learning, e inteligência artificial, que permitem a criação de mode-
los preditivos mais robustos e aplicáveis a diferentes áreas.
Geralmente, a Ciência de Dados é relacionada de modo er-
rado, especificamente, quando ligada a procedimentos de análise 
dos dados em que é necessária a utilização de Estatística, aprendi-
zado de máquina ou do simples uso de um filtro produzir informa-
ções e conhecimentos.
Imagem 2.1 – Tecnologia da Informação
Fonte: Pixabay. 
11BIG DATA E CIÊNCIA DE DADOS
Provost e Fawcett (2016) afirmam que a Ciência de Dados é 
um conjunto de princípios básicos que lidam e guiam a extração de 
informações e conhecimento por meio de dados. Neste contexto, a 
ciência de dados envolve princípios, procedimentos e técnicas para 
entender fenômenos por meio da análise automática de dados. 
Em suma, a Ciência de Dados busca transformar os 
dados brutos em informação que são importantes 
para as empresas, promovendo solução de proble-
mas ou a obtenção de diferenciais competitivos. 
Neste sentido, podemos inferir que a ciência é um 
processo sistemático, em que as pessoas pesqui-
sam e explicam acontecimentos de um escopo es-
pecífico que ocorrem no mundo natural. Pode-se 
ainda entender a ciência de dados como um domí-
nio científico que é cotado para descobrir conhe-
cimento (knowledge discovery) por meio da análise 
de dados.
O diagrama de Venn, ilustrado na imagem a seguir, é uma 
estrutura que constitui a Ciência de Dados e composta por três 
círculos cujas descrições estão apresentadas aqui:
 • O círculo de matemática e estatística - este ciclo 
é referente aos princípios básicos e experiências so-
licitadas nas áreas de Matemática e Estatística para 
compreensão das variáveis, bem como para inter-
pretar e diferenciar os tipos de dados. Isto implica 
em afirmar que os profissionais da ciência de dados 
precisam compreender a função dos algoritmos de 
aprendizado de máquina, tal como, ter a habilidade 
de interpretar os resultados estatisticamente.
 • O círculo de conhecimentos substantivos - este 
ciclo é referente a compreensão do sentido discipli-
nar para a escolha de um procedimento de análise 
https://blog.academiain1.com.br/como-transformar-dados-em-inteligencia-para-o-crescimento-empresarial/
https://blog.academiain1.com.br/como-transformar-dados-em-inteligencia-para-o-crescimento-empresarial/
12 BIG DATA E CIÊNCIA DE DADOS
apropriada para dados. Este conhecimento do pro-
blema ajuda no processo de tomada de decisão.
 • O círculo de computação e habilidades de dados 
- este ciclo é referente aos dados para resolver pro-
blemas, admitindo que se visualize a estrutura de 
dados, a qual exige capacidades para programar, 
extrair e estruturar dados. Assim, as habilidades da 
ciência de computação ajudam na geração da cura-
doria digital e no desenvolvimento de algoritmos 
de aprendizado de máquina e interfaces de visuali-
zação da informação. 
Imagem 2.2 – Diagrama de Vernn
Computação 
e habilidades
de dados. 
Matemática
 e Estática.
Conhecimento 
substantivos.
Fonte: Realizada pela autoria com base em Amaral (2016).
Além disso, sobre o diagrama de Venn, Amaral (2016) as-
segura que a Ciência de Dados é combinada por diversas outras 
ciências, modelos, tecnologia, processo e métodos relacionados 
ao dado, designando relações interdisciplinares na área.
13BIG DATA E CIÊNCIA DE DADOS
É importante afirmar que a Ciência de Dados é de-
terminada como o método para extração das infor-
mações úteis por meio de complexas e dinâmicas 
bases de dados.
Conforme Smith (2006), a Ciência de Dados se ampliou 
desde então para conter o estudo da captura, análise, metadados, 
recuperação, arquivamento, troca e mineração de dados, com a fina-
lidade de encontrar conhecimento inesperado e relações de dados.
Fases do projeto em Ciência de Dados
Conforme vimos, a Data Science é um conceito geral para 
uma diversidade de padrões e técnicas com objetivo de obter in-
formações, o qual a cada dia se torna uma área muito promissora, 
permitindo processar os dados gerados por meio de várias fontes. 
Assim, para iniciar um projeto aplicando o conceito da 
Ciência dos Dados, é importante definir o objetivo de sua aplica-
ção por meio da criação de questões que precisam ser respondi-
das através de um determinado problema a ser resolvido. 
Após serem estabelecidas as questões, procura-se os da-
dos que auxiliarão a respondê-las, de modo que, sabendo-se os 
objetivos do que se quer analisar, torna-se necessário adquirir os 
dados corretos para realizar a limpeza, exploração, criação e ava-
liação de um modelo, repetindo o ciclo algumas vezes até que se 
esteja pronto para dar início a busca de como informar adequada-
mente os resultados obtidos.
Logo, temos resumidamente as seguintes fases de um 
projeto de Data Science:
 • Identificação do problema da área de negócios;
 • Entendimento de problema;
14 BIG DATA E CIÊNCIA DE DADOS
 • Coleta de conjuntos de dados (datasets);
 • Realização da limpeza e transformação dos dados;
 • Realização do entendimento do relacionamento 
entre os dados;
 • Produção de modelos que representem os 
relacionamentos; 
 • Uso dos modelos para realizar predições;
 • Entrega de valor e resultado.
Ciclo de vida do dado
Uma das definições de ciência de dados é entendida como 
os métodos, modelos e tecnologias que analisam os dados duran-
te todo o seu ciclo de vida, da criação ao descarte. 
Amaral (2016, p. 46) ressalva que:
O ciclo de dados promove a boa gestão 
de dados quando disponibilizados em 
formatos como textos: MS Word; PDF; RTF, 
em formato numérico: Excel, em multimídia: 
JPEG, GIF, MPEG etc.; em software; e quando 
disponibilizados em variedade de suportes: 
fitas, CDs, slides, modelos, mapas e arquivos 
de dados etc. 
Dessa forma, entende-se o ciclo de vida dos dados a par-
tir do início da criação até o seu descarte, podendo passar por 
uma série de outras etapas. Desse modo, quaisquer fontes de 
dados podem não sofrer algum tipo de transformação após sua 
produção ou mesmo serem rejeitadas prontamente após a pro-
dução ou serem produzidos para um armazenamento por tempo 
15BIG DATA E CIÊNCIA DE DADOS
indefinido. Vale evidenciar que as fases dos dados dependerão de 
suas naturezas e das suas finalidades (Amaral, 2016).
De acordo com Amaral (2016), pode-se formar um ciclo de 
vida mais geral, que apesar de não se aplicar a todo e qualquer 
dado, é ajustável à maioria, tendo um ciclo padrão que compreen-
de seis etapas: produção, armazenamento, transformação, arma-
zenamento analítico, análise e descarte, como pode ser visto na 
imagem a seguir.
Imagem 2.3 – Ciclo de vida do dado
PRODUÇÃO
ARMAZENAMETO
TRANSFORMAÇÃOANÁLISE
DESCARTE
Fonte: Realizada pela autoria com base em Amaral (2016).
Sob o mesmo ponto de vista, outros autores tratam a im-
portância de se idealizar um ciclo de vida dos dados, abarcando 
aspectos de planejamento, aquisição, organização, estruturação, 
conceitos de fluxos analíticos e ferramenta adequada para o ar-
mazenamento de dados. 
Outrossim, necessita de atenção para as questões re-
lativas à preservação, à organização, ao compartilhamento e à 
proteção.Todas essas etapas são necessárias por representar a 
16 BIG DATA E CIÊNCIA DE DADOS
estruturação e a organização, com intuito de gerar a utilização e 
reuso dos dados de maneira segura e apropriada.
Bertin et al. (2017, p. 29) trata o ciclo de dados e seu geren-
ciamento determinado por essas etapas:
Implementação, Definição de parâmetros, Exploração de 
dados: possibilidade de preservação de dados científicos, desen-
volvimento de políticas de gerenciamentos de ciclo de dados para 
projetos e atividades relevantes; Ingestão de dados, Obtenção de 
dados: estratégias que preveem a preservação e o acesso a longo 
prazo e rentáveis à qualidade adequada, garantindo proteção de 
alta confiança e confidencialidade; Tomada de decisão: aplicações 
para os requisitos legais e regulamentados para toda a gama de 
tipo de dados e Utilização do modelo: recuperação dos dados de 
pesquisa, tendo em vista a sua implementação.
Você pode notar, com efeito, que o ciclo de vida 
dos dados é um procedimento textual, o qual per-
mite aprender os diversos passos que os dados 
seguiam até o seu gerenciamento. O compartilha-
mento dos dados inicia com um método do ciclo 
de vida dos dados e é solicitado desde o planeja-
mento até sua análise divulgação.
Relação de ciência de dados com 
ciências de informações
É importante entender a ciência de informação, pois está 
inteiramente ligada à Ciência de Dados. Existem diversos sentidos 
para a ciência da informação, passando por áreas multidisciplina-
res associadas à análise, à classificação, ao armazenamento, à co-
leta, à disseminação e à segurança da informação, com a interação 
entre indivíduos, empresas ou sistemas de informação existentes.
17BIG DATA E CIÊNCIA DE DADOS
Podemos relembrar que a Ciências da Informação é de-
signada como conceito geral que realiza interdisciplinaridade com 
a informática, concentrando em distinções e semelhanças para a 
Ciência de Dados. Outro ponto de destaque é que o profissional de 
ciências de informações é licenciado nesta área e, geralmente, de-
signado por profissional da informação ou gestor de informação.
É importante ressaltar que a ciência da informa-
ção, com suas teorias, qualifica-se como excelen-
tes opções para fundamentar a área de qualidade 
Ciência de Dados.
Por outro lado, a Ciência de Dados está ligada à descober-
ta de conhecimento ou informações extraídas de dados, enquanto 
a ciência da informação se concentra em métodos de armazena-
mento e recuperação dessas informações. Embora sejam áreas 
distintas, elas se complementam na manutenção e expansão do 
conhecimento. As ciências clássicas se relacionam com a Ciência 
de Dados por meio de métodos e práticas aplicáveis a diversas 
áreas do saber.
Ciência de Dados: termos usados
Quando trabalhamos com o universo da Ciência de Dados, 
alguns termos podem causar confusão, por isso, é importante es-
clarecê-los, pois muitos possuem atuações diferenciadas. 
Assim, temos as seguintes expressões que mais geram dú-
vidas: Business Intelligence, Data Mining, e Data Analytics. A seguir, 
iremos expor cada uma:
 • Business Intelligence
É responsável por realizar análises de eventos que já ocor-
reram em um determinado período, com base em dados exatos 
18 BIG DATA E CIÊNCIA DE DADOS
que existem, sem a preocupação de prever eventos a longo prazo. 
No contexto atual, com a evolução das ferramentas de BI, mui-
tas plataformas agora permitem não apenas análises históricas, 
mas também predições em curto e médio prazo, embora o foco 
principal ainda seja o uso de dados históricos. Em BI, o trabalho 
é constituído com base no que está acontecendo no momento, 
considerando o médio e curto prazo, permitindo uma tomada de 
decisão mais precisa.
Em suma, o Business Intelligence tem como objetivo dis-
ponibilizar os dados históricos a administradores e analistas 
de negócios, promovendo a manipulação desses dados e va-
liosos resultados para melhorar a tomada de decisões. Hoje, 
com a popularização de ferramentas como Power BI, Tableau e 
Qlik, o BI tornou-se mais acessível e visual, permitindo que em-
presas de todos os tamanhos utilizem análises de dados para 
decisões estratégicas.
 • Data Analytics
Também conhecida como Análise de Dados, é o processo 
de examinar, limpar, transformar e modelar dados. Vista muitas 
vezes como um elemento da Ciência de Dados, é utilizada para 
compreender como os dados de uma empresa estão estruturados 
e para resolver problemas específicos.
A Ciência de Dados se preocupa em analisar conjuntos de 
dados maciços para expor insights, enquanto a Análise de Dados 
funciona melhor quando é focada em perguntas claras que pre-
cisam de respostas com base nos dados existentes. Embora as 
diferenças existam, a Ciência de Dados e a Análise de Dados são 
partes importantes do futuro do trabalho com dados. Nos últimos 
anos, a Análise de Dados também incorporou técnicas mais avan-
çadas de Machine Learning e Inteligência Artificial, permitindo au-
tomatizar decisões e gerar previsões mais precisas.
19BIG DATA E CIÊNCIA DE DADOS
EXEMPLO:
A realização de estudos sobre o comportamento do consu-
midor e suas expectativas, além de observar  as tendências 
de mercado.
 • Data Mining:
A Mineração de Dados (Data Mining) é o processo de extra-
ção de informações de grandes conjuntos de dados e sua trans-
formação em uma estrutura compreensível para uso futuro. Hoje, 
com o aumento do uso de Big Data, a mineração de dados é fre-
quentemente aplicada em conjunto com algoritmos de aprendi-
zado de máquina para identificar padrões ainda mais complexos. 
Embora usualmente relacionada ao KDD (Knowledge Discovery in 
Databases), tal processo pode ser utilizado isoladamente ou em 
conjunto com outros métodos ou técnicas.
EXEMPLO:
Na área de Finanças, podemos exemplificar com um projeto 
cujo objetivo seja gerar um modelo de classificação para ca-
racterizar clientes que pagam em dia, clientes que pagam em 
atraso e clientes que não pagam seus créditos. Para tanto, 
deve considerar o histórico de pagamento de clientes de uma 
financeira que haviam recebido crédito durante um período 
determinado. O modelo construído foi incorporado a um sis-
tema de apoio à decisão, que passou a ser usado na análi-
se de novas solicitações de crédito recebidas pela central de 
atendimento de uma financeira.
A mineração de dados é estudada como parte do proces-
so de Descoberta de Conhecimento em Banco de Dado (KDD – 
Knowledge Discovery in Databases), responsável pela seleção das 
técnicas a serem usadas para descobrir padrões nos dados, segui-
da da efetiva busca por padrões de interesse num modo particular 
20 BIG DATA E CIÊNCIA DE DADOS
de representação ao lado da busca pelo melhor ajuste de parâme-
tros do algoritmo para a atividade que desejar aplicar.
É importante destacar que tanto a Data Science 
quanto o Data Mining têm caráter preditivo, utili-
zando dados como base para gerar informações e 
incorporar o conhecimento de especialistas. A prin-
cipal diferença está no fato de que a Data Science 
integra uma variedade de técnicas científicas, co-
mo Estatística, Machine Learning, Data Analytics, 
Data Mining, entre outras.
Por fim, percebemos como é importante estudar e en-
tender cada um dos termos apresentados para assim facilitar 
a compreensão e a decisão de quando usar cada uma dessas 
soluções computacionais.
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente enten-
deu o tema de estudo deste capítulo, vamos resu-
mir tudo o que vimos. Você deve ter aprendido que 
o termo Ciência de Dados se refere ao ciclo de vida 
dos dados e destaca a geração de valor comercial 
por meio de informações obtidas a partir desses 
dados. Exploramos os conceitos de Ciência de Da-
dos, definindo-a como uma área que integra Ma-
temática, Estatística e outras disciplinas. Também 
discutimos os dados e o ciclo de vida que os cons-
titui, desde a produção até o descarte, apresen-
tando definições de autores e etapas importantesdesse processo.
Compreendemos a relação entre a Ciência de Da-
dos e a Ciência da Informação, destacando como 
elas se conectam. Além disso, aprofundamos as 
diferenças entre termos como Business Intelligen-
ce, Data Mining e Data Analytics, que pertencem
21BIG DATA E CIÊNCIA DE DADOS
ao universo dos dados e estão relacionados à Ciên-
cia de Dados. Por fim, abordamos como a Ciência 
de Dados auxilia na descoberta de conhecimentos 
fundamentais, guiando a extração de informações 
e aplicando princípios, procedimentos e técnicas 
para compreender fenômenos por meio da análise 
automática de dados.
22 BIG DATA E CIÊNCIA DE DADOS
Princípios e diferenças entre 
ciência de dados e big data
Neste capítulo, estudaremos um pouco mais acer-
ca de como se dá o relacionamento entre Big Data e 
Ciência de Dados. Veremos princípios e diferenças 
destes termos e como esses são importantes no 
processo de tomada de decisão. E então? Motivado 
para desenvolver esta competência? Vamos lá! 
Princípios e diferenças: Big Data e 
Ciência de Dados 
Com o avanço das tecnologias da informação e das possi-
bilidades de descoberta proporcionadas por recursos mais sofisti-
cados, surgiram estudos que destacam a Ciência de Dados como 
uma disciplina que integra múltiplos aspectos da informação por 
meio de seus dados. Essa área envolve uma equipe multidiscipli-
nar de profissionais, como estatísticos, programadores, analistas 
de dados, matemáticos e bibliotecários.
Outra característica marcante dos avanços tecnológicos é 
a enorme massa de dados gerados, que deu origem ao Big Data, 
uma abordagem voltada para o processamento e análise de gran-
des volumes de informações. A Ciência de Dados foi desenvolvida 
para suprir lacunas computacionais, oferecendo soluções e in-
sights por meio de diferentes fontes de dados. 
Sua versatilidade permite aplicá-la em diversas áreas den-
tro e fora da computação, tais como: reconhecimento de imagem, 
Análise de Dados, Inteligência Artificial, Big Data, Machine Learning, 
Data Mining, robótica, negócios, entre outras.
23BIG DATA E CIÊNCIA DE DADOS
Com isso, temos a ciência de dados combinada com a 
utilização de Big Data pela necessidade de se trabalhar com um 
volume substancialmente grande de dados com a finalidade de 
otimização das informações a serem analisadas. 
O Big Data, em termos gerais, lida com conjuntos de dados 
grandes ou complexos que, se processados por métodos tradicio-
nais de gerenciamento de dados, apresentariam dificuldades de 
processamento. Assim, ele surgiu como uma solução para facilitar 
a análise dessas grandes e variadas massas de dados. 
Vale ressaltar que na ciência de dados a utilização de Big 
Data não é obrigatória, porém fornece resultados mais satisfató-
rios devido ao trabalho com grandes volumes de dados, oferecen-
do melhores performances.
Podemos destacar que o Big Data é um suporte prático 
para a Ciência de Dados, pois o grande volume de dados coleta-
dos e armazenados pelo Big Data após análise é utilizado para in-
terpretação, análise detalhada e desenvolvimento de estratégias 
aplicadas em outros sistemas, como a própria Ciência de Dados.
Outra diferença que podemos destacar está nos perfis 
profissionais de cada área. O analista de Big Data utiliza as infor-
mações disponíveis no banco de dados para extrair conhecimen-
to, mas não desenvolve soluções analíticas completas, precisando 
aplicar técnicas da Ciência de Dados. Por outro lado, o cientista de 
dados requer habilidades mais técnicas e analíticas em compara-
ção ao analista de Big Data, incluindo conhecimentos em progra-
mação, matemática, estatística, gestão, entre outros.
24 BIG DATA E CIÊNCIA DE DADOS
Assista ao vídeo “Você sabe a diferença entre Data 
Science e Big Data?”, que traz um resumo da dife-
rença de Big Data e Data Science. Nele, você verá 
abordagens de modo prático e objetivo sobre as 
principais diferenças entre Big Data e Ciência de 
Dados, bem como a relação existente entre elas. 
Acesse o QR Code. 
Deste modo, diante de tudo que foi exposto, percebemos 
que a utilização do Big Data contribui no aspecto de que muitos 
dados adquiridos retornam um resultado com um percentual 
mais alto em relação à precisão nas manipulações futuras. 
Entretanto, mesmo com todas as suas vantagens, deve-
mos enfatizar que a utilização do Big Data, neste caso, não se trata 
de regras obrigatórias, possibilitando assim que a análise dos da-
dos não se encaixe nas definições de Big Data como estudamos, 
mesmo que a fonte de consulta não seja tão assertiva quanto.
Big Data e Ciência de Dados no 
processo de tomada de decisão
Cada dia mais as organizações dos diferentes setores bus-
cam recursos para lidar com as grandes massas de dados produzi-
dos, assim como também cresce a procura de meios para explorar 
e analisar esses dados, tendo o intuito de proporcionar conheci-
mento e vantagens competitivas para as empresas.
https://www.youtube.com/watch?v=r1AYxeep0QM
25BIG DATA E CIÊNCIA DE DADOS
EXEMPLO:
Um estudo realizado em 2022 pela McKinsey & Company 
analisou 250 grandes empresas globais de diversos setores e 
revelou que aquelas que adotam estratégias de Data-Driven 
Decision Making (decisões baseadas em dados) tiveram um 
aumento médio de 8% a 10% em receita e produtividade, em 
comparação com empresas que ainda utilizam métodos tra-
dicionais de decisão. O estudo também destacou melhorias 
expressivas na eficiência operacional dessas empresas, com 
uma redução de 15% nos custos operacionais e um aumento 
de 12% no retorno sobre o patrimônio líquido.
Desde o surgimento do fenômeno da explosão informa-
cional, a relevância da informação, relacionando-se com o contex-
to da tomada de decisão e do desenvolvimento científico, passou 
a ter maior destaque. Neste contexto de avanços, surgiram os fe-
nômenos de Big Data e Ciência de dados. 
É sabido que o Big Data trabalha com grande massa de dados 
estruturados ou desestruturados, em que contribui para o proces-
so decisório, possibilitando às empresas condições para conseguir 
analisar os dados. Temos ainda a ciência de dados contribuindo 
como um suporte metodológico para o processo de tomada de 
decisão, facilitando a aquisição da informação contextualizada. 
A tomada de decisão orientada por dados baseia-se na 
análise de informações em vez de apenas na percepção. Essa 
abordagem auxilia gerentes e administradores em suas ativida-
des cognitivas, permitindo decisões mais precisas e de maior qua-
lidade. Nesse contexto, as soluções computacionais da ciência de 
dados apoiam os gestores na aquisição e compreensão de infor-
mações relevantes. É importante destacar que decisões baseadas 
em dados não substituem totalmente as habilidades cognitivas 
humanas, mas atuam como um complemento para preencher 
suas lacunas.
26 BIG DATA E CIÊNCIA DE DADOS
No entanto, é comum que indivíduos em cargos elevados 
nas organizações tomem decisões fundamentadas em suas expe-
riências pessoais, muitas vezes guiados por padrões de relaciona-
mento e aprendizado adquiridos ao longo de suas carreiras.
Imagem 2.4 – Tomada de decisão
Fonte: Freepik. 
A Ciência de Dados engloba fundamentos, processos e 
métodos que permitem compreender fatos por meio da análise 
de dados, servindo como base para a Tomada de Decisão Baseada 
em Dados (DBD). Essa prática consiste em fundamentar decisões 
na análise de dados, seja de forma manual seja automatizada, em 
vez de depender apenas da intuição do gestor.
Além de apoiar a tomada de decisão orientada por dados, 
a Ciência de Dados vai além, destacando-se pela capacidade de au-
tomatizar decisões em mercados. Isso ocorre por meio de sistemas 
computacionais que adotam processos automáticos, permitindo 
maior eficiência e precisão nas decisões organizacionais.
27BIG DATA E CIÊNCIA DE DADOS
O artigo “Big Data e tomada de decisão: há limi-
tes para a Ciência de Dados?” destaca a importân-
cia da disponibilidade de dados e de sistemas de 
software que utilizam técnicas de analyticscomo 
ferramentas fundamentais para o processo deci-
sório. Ao combinar essas técnicas com a intuição 
e a experiência dos gestores, é possível construir 
modelos, analisar comportamentos e gerar infor-
mações relevantes e inovadoras, que enriquecem 
e aprimoram a tomada de decisão. Para lê-lo, aces-
se o QR Code. 
Além disso, as soluções computacionais de ciência de dados 
ajudam os gestores em suas tarefas intensivas em conhecimento. 
Podemos citar algumas das tarefas, que estão listadas a seguir:
 • Associação: esta tarefa trata o conhecimento como 
um mapeamento entre dois conjuntos de objetos, 
exemplificando uma tarefa corriqueira de associa-
ção, podemos citar o ato de se dar a proposta de ofe-
recer um vinho apropriado em uma refeição usando 
as características do prato principal, assim, o somme-
lier sugere o vinho mais adequado a ser consumido.
 • Avaliação: esta tarefa consiste em avaliar e carac-
terizar um fato com base nas opções de decisão 
disponíveis. Um exemplo dessa aplicação inten-
siva em conhecimento é um sistema de avaliação 
de crédito que utiliza históricos de empréstimos e 
https://itforum.com.br/colunas/big-data-e-tomada-de-decisao-ha-limites-para-a-ciencia-dos-dados/
28 BIG DATA E CIÊNCIA DE DADOS
Big Data como referência. Nesse cenário, o gestor 
pode tomar decisões mais assertivas ao compará-
-las com casos anteriores, determinando, assim, a 
concessão ou recusa do crédito.
 • Diagnóstico: essa tarefa envolve o agrupamento 
de atributos, permitindo, a partir de um conjunto 
desses atributos, deduzir o estado de um objeto e 
identificar conhecimento direcionado a um propó-
sito específico. Nesse contexto, costuma-se aplicar 
regras para analisar fatos em relação ao compor-
tamento esperado. No ambiente de Big Data, essas 
regras podem ser abstrações extraídas dos dados 
por meio da utilização da Ciência de Dados.
 • Monitoramento: esta tarefa refere-se a um pro-
cesso de análise interativa, no qual se observa o 
estado de um objeto sendo avaliado ao longo do 
tempo. Um exemplo é o monitoramento de um pa-
ciente por meio de instrumentos que geram dados 
continuamente. Ao aplicar tarefas baseadas em 
conhecimento diagnóstico, é possível adquirir in-
formações e regras utilizando Big Data e Ciência de 
Dados. Por meio do histórico das informações de 
monitoramento, torna-se viável realizar diagnósti-
cos precisos de um paciente.
 • Predição: esta tarefa trata dos dados de históricos 
e periódicos na tarefa intensiva de conhecimento 
de predição, podendo predizer eventualidades que 
surjam em um determinado momento no futuro. 
Alguns exemplos são: a predição como estimativa 
de vendas, a previsão em campanhas eleitorais, en-
tre outras.
29BIG DATA E CIÊNCIA DE DADOS
Por fim, percebemos como as soluções computacionais 
em Ciência de dados, Big Data e essas tarefas intensivas em co-
nhecimento, contribuem para o processo de tomada de decisão.
Ciência de Dados e Business 
Intelligence
É importante detalhar um pouco mais sobre a Ciência de 
dados e a Inteligência de Negócios (Business Intelligence), as quais 
têm características semelhantes, como transformar dados brutos 
em conhecimento a serem utilizados no processo de tomada de de-
cisões nos negócios ou em determinado escopo aplicando no geral. 
Neste sentido, o conceito Business Intelligence (BI) trata de 
explicar dados de eventos que já aconteceram, tornando-se mais 
conhecido nas organizações de negócios e tecnologia da informa-
ção por volta dos anos 1990. Posteriormente, foi adicionada a aná-
lise de negócios (Business Analytics) com a finalidade de represen-
tar o elemento analítico chave em BI.
Imagem 2.5 – Business Intelligence
Fonte: Freepik. 
30 BIG DATA E CIÊNCIA DE DADOS
As técnicas analíticas de BI são geralmente aplicadas pe-
las organizações em sistemas legados armazenados em bancos 
de dados relacionais. Elas se baseiam principalmente em métodos 
estatísticos, mas também fazem uso de outras abordagens, como 
a mineração de dados. 
No Business Intelligence, as soluções são elaboradas a par-
tir de dados do tipo transacional, correspondente a dados que são 
fornecidos durante o movimento de um caso de transação, como 
os dados gerados durante uma venda e transferências de dinheiro 
entre contas bancárias.
A Ciência de dados, para gerar conhecimento de negócios, 
identifica padrões em grupos de dados estruturados, como ocorre 
no BI, ou em conjuntos de dados estruturados, semiestruturados 
e não estruturados, incluindo Big Data. Uma diferença importante 
é que as soluções de Ciência de Dados não se restringem apenas 
aos dados transacionais, como ocorre no BI.
Vale deixar claro que o Business Intelligence traba-
lha realizando previsão para o futuro, levando em 
consideração inferências simples, feitas tendo co-
mo base dados atuais ou históricos, para propor-
cionar informações e conhecimentos importantes 
para os gestores tomarem decisões a médio e 
curto prazo.
Por outro lado, a Ciência de Dados realiza previsões com 
intuito de descobrir conhecimento para o futuro, a longo prazo, 
usando práticas matemáticas, de programação ou estatísticas 
avançadas, analisando e fazendo previsões por meio de grandes 
massas de dados do negócio.
31BIG DATA E CIÊNCIA DE DADOS
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente enten-
deu o tema de estudo deste capítulo, vamos resu-
mir tudo o que vimos. Você deve ter aprendido co-
mo a Ciência de Dados e Big Data se relacionam e, 
apesar de suas diferenças, podem se complemen-
tar na análise de dados. Observamos que a Ciência 
de Dados é uma área mais ampla que utiliza os re-
cursos de Big Data para lidar com grandes volumes 
de dados. Além disso, foram apresentados os obje-
tivos de cada uma dessas áreas e como a produção 
de dados desempenha um papel crucial na tomada 
de decisão.
Discutimos como a tomada de decisão baseada em 
dados pode apoiar os gestores e exploramos co-
mo tarefas intensivas em conhecimento, ao adotar 
Ciência de Dados e Big Data, contribuem nesse pro-
cesso. Por fim, abordamos as diferenças e cone-
xões entre Business Intelligence e Ciência de Dados, 
destacando como os diferentes tipos de dados e 
suas similaridades agregam valor aos negócios. 
Também mencionamos características específicas, 
como o BI, que se fundamenta na expertise em tec-
nologia aplicada ao ambiente empresarial.
32 BIG DATA E CIÊNCIA DE DADOS
O papel e a importância do 
cientista de dados
Neste capítulo, veremos a importância dos profis-
sionais que trabalham com Ciência de Dados, as-
sim como as suas competências. E então? Motiva-
do para desenvolver esta competência? Vamos lá!
Cientista de dados 
A Ciência de dados trouxe mudanças significativas ao lidar 
com a complexidade envolvida na exploração e extração de da-
dos, destacando a necessidade de profissionais qualificados para 
o tratamento dessas informações. Entre eles, o programador, 
que realiza análises e utiliza ferramentas eficazes para explorar 
os dados e compreender seus comportamentos, e o profissional 
da informação especializado em dados, que assegura eficiência na 
comunicação com os usuários e atende às necessidades informa-
cionais das organizações.
Ainda é sabido que a Ciência de Dados apresenta disposi-
ções e determina as informações que as empresas podem utilizar 
para tomar decisões acertadas e produzir serviços mais inovado-
res. Por mais que os dados sejam a base da inovação, destaca-se 
que o seu valor surge dos dados de informações que os cientistas 
podem retirar, utilizar e aplicar em um determinado escopo.
Com o avanço e a expansão da Ciência de dados, surgiu a 
necessidade de profissionais capacitados para atuar nessa área, 
dando origem ao papel do cientista de dados. Esse profissional 
deve possuir um conjunto integrado de habilidades, incluindo 
matemática, aprendizado de máquina, inteligência artificial, es-
tatística, bancos de dados e otimização, além de um profundo 
33BIG DATA E CIÊNCIA DE DADOS
entendimentodos requisitos de desenvolvimento e dos proble-
mas a serem resolvidos para projetar resultados eficazes.
Assista ao vídeo “Cientista de Dados, por onde 
começar?”, no qual você terá uma abordagem cla-
ra e objetiva sobre cientista de dados. Acesse o 
QR Code. 
O cientista de dados foi destacado como uma das profis-
sões mais proeminentes até 2020 pelo Fórum Econômico Mundial 
e divulgada como a profissão mais atraente do século XXI pela 
Harvard Business Review. A posição de cientista de dados teve sua 
terminologia determinada por Patil e Hammerbacher, em 2008, e 
em seguida este termo passou a ser tomado pelo LinkedIn e pelo 
Facebook em anúncios de vagas com interesses em profissionais 
para dar suporte com a grande massa de volume e tráfego de da-
dos nas mídias sociais.
Os profissionais da ciência de dados precisam saber traba-
lhar com os diferentes tipos de dados, sejam estruturados, sejam 
semiestruturados e sejam não estruturados.
Formação e atuação do cientista 
de dados
Segundo Finzer (2023), a nomenclatura “Ciência de dados” 
foi referida pela primeira vez em 2001, em um texto de autoria 
de William S. Cleveland, intitulado em tradução livre “Ciência de 
https://www.youtube.com/watch?v=NmCuEgkVLWo
34 BIG DATA E CIÊNCIA DE DADOS
Dados: um plano estratégico para a expansão das áreas técnicas 
no campo da Estatística”, em que tratava o objetivo de combinar a 
estatística, a programação e a computação em ferramentas para 
analisar e extrair informações dos dados.
No contexto da formação do cientista de dados, um re-
latório britânico encomendado pela Joint Information Systems 
Committee (JISC) sobre habilidades, funções e carreira desses pro-
fissionais aponta a dificuldade em estabelecer uma definição uni-
forme para o papel. Contudo, de forma geral, descreve o cientista 
de dados como aquele que atua em centros de dados, colaboran-
do com pesquisadores ou grupos de cientistas, participando de in-
vestigações criativas e análises de dados. Esse profissional fornece 
soluções tecnológicas voltadas para a manipulação e utilização de 
dados digitais. 
Imagem 2.6 – Cientista de dados
Fonte: Freepik. 
Um dos importantes fundamentos do cientista de dados 
são os dados e a aptidão de extrair conhecimento favorável por 
meio deles, sendo esta análise um princípio ativo estratégico. 
35BIG DATA E CIÊNCIA DE DADOS
Assim, o autor afirma que a melhor equipe que trabalha com ciên-
cias de dados pode obter pouco valor, sem os dados apropriados. 
Isso porque, algumas vezes, apenas os dados corretos, não po-
dem melhorar as decisões sem a capacidade adequada dos pro-
fissionais de ciências dos dados. 
Vale ressaltar que o cientista de dados possui uma 
grande demanda na linha das ciências, da indústria 
e do governo. Esse profissional tem uma expecta-
tiva de formação tipicamente sólida em ciência da 
computação e aplicações, modelagem, estatística, 
analítica e matemática, além do conhecimento mí-
nimo do domínio de aplicação.
É importante destacar a afirmação de Finzer (2003), que 
descreveu o profissional do século como aquele com formação 
em Ciência de Dados, tendo como atributos a ampliação das 
áreas técnicas como estatística, programação e computação, 
o qual pode ser chamado de Data Analyst ou Analista de da-
dos. Entretanto, o autor delineia poucas características desse 
novo profissional. 
Perfil do profissional
Amaral (2016) apresenta o perfil do cientista de dados, um 
profissional com aptidões multidisciplinares, com experiência e 
conhecimento em gerência de projetos. 
No quadro a seguir, são apresentadas as características 
que o autor mencionado utiliza para distinguir o cientista de da-
dos do mercado daquele idealizado pela mídia especializada.
36 BIG DATA E CIÊNCIA DE DADOS
Quadro 2.1 – Perfil profissional
Profissional de mercado Profissional idealizado
Conhecimento multidisciplinar Especialista em todas as áreas
Equipe de especialistas Foco em conhecimento técnico
Liderança Trabalha sozinho
Gerência de projetos Especialista em todas as áreas
Fonte: Realizado pela autoria com base em Amaral (2016).
Habilidades do cientista de dados 
A empresa LinkedIn identificou algumas das principais ha-
bilidades que compõem o perfil considerado ideal para cientistas 
de dados, listando as 10 mais frequentes entre os profissionais 
da área: comunicação, gestão de dados estruturados, matemáti-
ca, gestão de projetos, mineração e visualização de dados, design 
de experimentos, gestão de dados, design e desenvolvimento de 
produtos, modelagem estatística e desenvolvimento de negócios.
Amaral (2016) destaca que, com o surgimento do termo “Big 
Data” como um tema de destaque, a profissão de cientista de dados 
também ganhou relevância. O autor descreve que a maioria dos 
especialistas define o cientista de dados como um profissional com 
conhecimentos técnicos em áreas como estatística, NoSQL, compu-
tação em nuvem, mineração de dados, álgebra relacional, modela-
gem multidimensional, MapReduce, virtualização, entre outros.
O artigo de Davenport e Patil (2012), publicado na Harvard 
Business Review, enfatiza que as habilidades do cientista de dados 
estão sujeitas a funções que mais técnicas ou mais direcionadas 
para a elaboração de produtos ou aplicativos de análise de dados. 
https://hbr.org/
https://hbr.org/
37BIG DATA E CIÊNCIA DE DADOS
Já Davenport e Patil (2012) afirmam que as habilidades ne-
cessárias para se tornar um cientista de dados são: habilidades em 
linguagens de programação de análise de dados, comunicação, vi-
sualização de dados, mineração de dados, estatística, habilidades 
em infraestrutura que trabalham com Big Data, aprendizado de 
máquina, engenharia de software, álgebra linear e habilidade de 
resolução de problemas.
Outros elementos são fundamentais para um cientista de 
dado, os quais estão citados a seguir:
 • Capacidade de programar;
 • Aptidão de arquiteturas tecnológicas de Big Data;
 • Processo de tomada de decisão;
 • Improvisação;
 • Impaciência e inclinação à ação;
 • Habilidades de comunicação e relacionamento;
 • Aptidão de decisões e entender os processos 
decisórios;
 • Análise estatística;
 • Técnicas de visualização; 
 • Aprendizado de máquina; 
 • Análise de dados diferentes tipos;
 • Análise de como negócios funciona; 
 • Aplicação de Analytics e o Big Data.
Violino (2018) listou habilidades para a profissão do cien-
tista de dados, publicado no site CIO/EUA, além de ter destacado 
algumas delas representadas no quadro a seguir.
38 BIG DATA E CIÊNCIA DE DADOS
Quadro 2.2 – Lista habilidades e funcionalidades
Habilidades A funcionalidade para cientista de dado 
Pensamento crítico
Essa habilidade serve para um melhor processo 
de análise e entender os problemas e fatos de 
um determinado escopo, para depois buscar 
as soluções.
Codificação
Esta habilidade de linguagem de programação é 
usada para desenvolver os códigos responsáveis 
por analisar dados, alguns exemplos de linguagens 
são: python, R, scala, clojure, java e octave.
Matemática e estatística
Estas habilidades servem para permitir o cientista 
analisar os dados e desenvolver modelos 
estatísticos, podendo ajudar na criação das 
estratégias de negócios
Inteligência Artificial e 
aprendizado de máquina
Esta habilidade serve para o cientista utilizar as 
técnicas e métodos que serão responsáveis por 
otimizar e criar processos eficazes.
Fonte: Realizado pela autoria com base em Violino (2018).
Além dessas habilidades, podemos destacar outras como co-
municação, arquitetura, resolução de problema e análise de riscos.
Ainda podemos citar que o cientista de dados é o profis-
sional generalista que tem a capacidade de negócios, estatística, 
ciência da computação, além de se relacionar com algumas no-
ções específicas, entre as quais arquitetura de dados e comunica-
ção no escopo empresarial.
Tanto na literatura quanto nas empresas, é evidente a 
dificuldade em estabelecer um padrão claro para a profissão de 
cientista de dados.No entanto, mesmo sem consenso, é possível 
identificar características comuns nas descrições, como habilida-
des em estatística, competências computacionais para programa-
ção e o uso de sistemas capazes de processar grandes volumes 
de dados, além da capacidade de explorar e extrair informações 
desses dados. 
39BIG DATA E CIÊNCIA DE DADOS
Competências relacionadas
Conforme estudamos, a Ciência de Dados e Big Data são 
executadas por meio de equipes multidisciplinares, cada uma es-
pecializada em uma determinada área e liderada pelo cientista de 
dados. Com isto, Amaral (2016) elencou essas especialidades ne-
cessárias conforme apresentada a seguir:
Quadro 2.3 – Competências relacionadas à Ciência de dados:
Especialidade Atribuições
Equipe de extração
Esta equipe corresponde a uma importante 
função no projeto e responsável por tomar 
uma grande parcela de tempo do projeto. 
Usualmente, estes métodos são implementados 
por usuários que podem atuar como 
administradores de Banco de dados (DBAs) 
e programadores. Algumas funções dessa 
equipe são: extrair os dados correspondentes 
a necessidade, se estão completos, alinhados e 
atualizados. Além do exposto, a mesma equipe 
é responsável por saber as regras e a legislação 
envolvidas nos projetos.
Coordenador de 
infraestrutura
É responsável por se encarregar pela estrutura 
do projeto, determinar o ambiente de análise, 
instalação de sistemas, criação de usuários, 
permissões de acesso, entre outras.
Estatístico e/ou minerador 
de dados
Sabemos que os projetos de dados podem 
necessitar de testes de hipóteses ou dos 
seguintes pontos: criação de modelos de 
predição e técnicas de visualização
40 BIG DATA E CIÊNCIA DE DADOS
Especialidade Atribuições
Especialistas em 
ferramentas específicas
Normalmente, diferentes projetos e suas etapas 
demandam profissionais específicos para atender 
aos variados requisitos do projeto. Isso inclui 
especialistas em ferramentas específicas, como 
as usadas para extração de dados ou técnicas 
de visualização. Por essa razão, é necessário 
disponibilizar técnicos com essas habilidades 
ou oferecer a capacitação necessária para que 
desenvolvam essas competências.
Database Administrator 
(DBA)
Os administradores de banco de dados (DBAs) 
possuem funções características em dados 
relacionais e multidimensionais, mas suas 
responsabilidades se expandem para bancos 
de dados como NoSQL e sistemas de arquivos 
distribuídos. Eles também podem auxiliar 
na coleta de metadados, compreensão de 
estruturas, rotinas de replicação, integração, 
entre outras atividades.
Programador
Deve ter aptidões em linguagens de programação 
especializadas em análise de dados, como 
também pode ser necessário habilidade de 
implementar a análise, programando stored 
procedures diretamente em gerenciadores de 
banco de dados.
Arquiteto de solução
O arquiteto de solução é primordial para o 
projeto, pois se responsabiliza pela indicação 
da arquitetura adequada para o projeto, desde 
processadores, a licenças de software, entre 
outras definições.
Analistas de negócios
Têm o papel primordial para selecionar os 
requisitos e determinar o escopo do projeto. 
Usualmente, podem operar junto ao gerente 
do projeto
Designer
É importante ter um especialista em visualização 
de dados ou designer, solicitado para criar 
artefatos com qualidade visual otimizada.
Fonte: Elaborado pela autoria (2024). 
41BIG DATA E CIÊNCIA DE DADOS
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente en-
tendeu o tema de estudo deste capítulo, vamos 
resumir tudo o que vimos. Você aprendeu mais so-
bre o profissional que atua com Ciência de Dados, 
incluindo a origem dessa profissão. Estudamos a 
importância da formação do cientista de dados, 
destacando pesquisas e abordagens que descre-
vem seus princípios e habilidades. Analisamos o 
perfil e a lista de competências necessárias para 
esses profissionais, evidenciando a necessidade de 
habilidades para trabalhar com diferentes tipos de 
dados: estruturados, semiestruturados e não es-
truturados.
Também discutimos como a maioria das pesqui-
sas acadêmicas e empresariais não chegou a um 
consenso sobre um padrão de habilidades. No en-
tanto, algumas competências são frequentemente 
destacadas, como capacidades em matemática, es-
tatística, codificação, análise de dados e negócios, 
além do domínio de aprendizado de máquina e In-
teligência Artificial. Por fim, encerramos a unidade 
abordando as principais competências relaciona-
das às áreas da Ciência de dados.
42 BIG DATA E CIÊNCIA DE DADOS
Aplicações da ciência 
de dados
Neste capítulo, veremos onde podemos aplicar a 
Ciência de dados, citando sua importância no con-
texto geral. Logo após estudaremos onde está sen-
do aplicada a ciência de dados, apresentando as 
diversas áreas em que está sendo explorada, bem 
como apresentaremos as ferramentas que ajudam 
a aplicá-la. E então? Motivado para desenvolver es-
ta competência? Vamos lá!
Onde aplicar a Ciência de dados 
A Ciência de dados busca aperfeiçoar técnicas, modelos e 
procedimentos computacionais, matemáticos e estatísticos que 
interajam com ferramentas voltadas para a descoberta de conhe-
cimento nas áreas de aplicação. O objetivo é obter resultados sa-
tisfatórios por meio dessa interação, sendo essencial identificar, 
de forma clara e precisa, o problema que se deseja resolver.
Além disso, a aplicação da Ciência de dados é especial-
mente relevante na era da informação, caracterizada por enormes 
volumes de dados em diversos setores. Paralelamente, cresce a 
necessidade de empresas, bancos, pesquisadores e cientistas bus-
carem, constantemente, resolver problemas e desenvolver solu-
ções inovadoras para suas respectivas áreas de atuação.
A multidisciplinaridade da Ciência de dados e das equipes 
que atuam com ela tem possibilitado grandes avanços e benefícios 
em diversos setores. Essa abordagem permite a análise de dados, 
a descoberta de conhecimento, a realização de análises estatísti-
cas, previsões e outros recursos exclusivos da Ciência de dados.
43BIG DATA E CIÊNCIA DE DADOS
Nesse contexto, a Ciência de dados oferece suporte a vá-
rias áreas, como finanças, medicina, astronomia, jogos, marketing, 
biologia e muitas outras. Sua aplicação ajuda a resolver problemas 
científicos ou a identificar padrões de comportamento, incluindo 
aqueles voltados para a área de negócios.
Ciência de dados na Biologia
Na biologia, a Ciência de dados contribui por meio de méto-
dos estatísticos que permitem a análise de grandes volumes de da-
dos biológicos, sendo aplicados há anos com o objetivo de detectar 
e prever as funções de genes e das proteínas por eles codificadas.
Um exemplo disso são os resultados obtidos por análises 
in silico, posteriormente confirmados em laboratório, demons-
trando que é possível identificar uma família completa de genes 
utilizando processos de Ciência de Dados e informações genéticas 
disponíveis em bancos de dados abertos.
Imagem 2.7 – Ciência de dados aplicada na Biologia
Fonte: Pixabay. 
44 BIG DATA E CIÊNCIA DE DADOS
Ciência de dados aplicada à saúde
A Ciência de Dados em Saúde, conhecida como Health 
Data Science, é a aplicação da ciência para oferecer soluções ba-
seadas em dados, compreendendo problemas reais da área de 
saúde. Essa abordagem utiliza o pensamento crítico e a análise 
de dados para gerar conhecimento. Sua aplicação na saúde surge 
como um domínio emergente, situado na interseção entre bioes-
tatística, ciência da computação e saúde.
No Brasil, um exemplo de aplicação da Ciência de dados 
em saúde é a atuação da Fiocruz, que desenvolve pesquisas nessa 
área e promove cursos com o objetivo de atrair mais profissionais 
para esse campo em crescimento.
Ciência de dados aplicada ao 
projeto social 
A aplicação da Ciência de dados em projetos sociais tem 
ganhado destaque no Brasil e no mundo. Com o aumento de or-
ganizações institucionais que disponibilizambases de dados para 
análise, como o programa Bolsa Família, que inclui cerca de 100 
milhões de brasileiros no CADSUS, essa área vem se fortalecendo. 
Esse avanço permite a formulação de políticas públicas mais ade-
quadas, baseadas nas análises realizadas.
Ciência de dados aplicada 
aos negócios
Podemos entender que os melhores resultados de um 
negócio não dependem exclusivamente do volume dos dados 
que uma empresa tem, mas sobre o modo como serão utilizadas 
essas informações.
45BIG DATA E CIÊNCIA DE DADOS
Para aplicar a Ciência de dados aos negócios, o cientista 
de dados precisa atuar tanto na área técnica quanto nos campos 
relacionados ao mundo empresarial. Assim, esse profissional se 
conecta a setores como Business Intelligence (BI), inteligência de 
mercado, Tecnologia da Informação (TI) e Administração de Banco 
de Dados (DBA).
A Ciência de dados, quando aplicada aos negócios, contribui 
para a identificação de fenômenos reais por meio da análise de gran-
des volumes de dados. Por esse motivo, muitas organizações inves-
tem em Ciência de dados para aprimorar seus processos de tomada 
de decisão, fomentar a inovação e alcançar vantagem competitiva.
Sua aplicação nos negócios também gera outras contribui-
ções significativas, como o aumento dos lucros, redução de riscos 
financeiros e o uso de métodos para detectar anomalias ou frau-
des em tempo real. 
EXEMPLO:
A Ciência de Dados pode melhorar a eficiência de sistemas 
e processos, aumentar as taxas de vendas e permitir que o 
cientista de dados desenvolva estratégias de fidelização ou 
captação de clientes, entre outras vantagens.
Imagem 2.8 – Ciência de dados nos negócios
Fonte: Pixabay. 
46 BIG DATA E CIÊNCIA DE DADOS
Para aplicar a Ciência de dados na área de negócios, é im-
portante cumprir as seguintes etapas: 
Quadro 2.4 – Etapas da aplicação da Ciência de dados nos negócios
Etapa Atividade
Definição de problema 
e métrica de sucesso
Ao aplicar a Ciência de Dados nas empresas, é 
fundamental começar identificando os objetivos e as 
lacunas que precisam ser preenchidas no negócio.
Definição do conjunto 
de dados (dataset) 
analítico a ser utilizado
A seleção do conjunto de dados a ser utilizado pelos 
cientistas de dados é crucial, indo além de uma simples 
extração de grandes volumes diretamente do banco 
transacional. Esse conjunto analítico deve ser criado 
com base na definição do problema, incluindo todas 
as variáveis necessárias para respondê-lo. Além disso, 
é essencial combinar diferentes bases de dados, tanto 
internas quanto externas. Por exemplo, fontes externas 
podem incluir dados adquiridos de fornecedores 
especializados ou bases públicas, com o objetivo de 
melhorar a precisão dos modelos a serem aplicados.
Transformação e 
higienização de dados
Essa é uma das etapas mais detalhadas e demoradas, 
pois envolve a limpeza dos dados, utilizando técnicas 
estatísticas para tratar questões como dados ausentes, 
identificação de padrões e tratamento de outliers. 
Além disso, essa fase inclui outros métodos, como 
concatenação de colunas, enriquecimento de dados com 
bases externas e diversas reestruturações necessárias.
Mineração de dados 
e modelagem com 
Inteligência Artificial
Esta é umas das fases principais no processo, pois 
permite gerar valor a partir das suas técnicas no 
processo de modelagem. É nesta etapa que vários 
modelos são treinados com a utilização das técnicas 
de Inteligência Artificial ou de aprendizado de 
máquina, como predição, associação e regressão.
47BIG DATA E CIÊNCIA DE DADOS
Etapa Atividade
Comunicação dos 
resultados obtidos em 
linguagem de negócio
Esta é a fase que trabalha a comunicação dos 
resultados dos projetos de Ciência de dados por meio 
da linguagem de negócios, com foco no objetivo e na 
rapidez, apresentando, por exemplo, quais os impactos 
do projeto e qual será o retorno financeiro obtido. 
Além do mais, sugere oferecer a visão de futuro dos 
sistemas integrados e uma lista com as oportunidades 
adjacentes descobertas durante o processo.
Fonte: Elaborado pela autoria (2024). 
Ferramentas que trabalham com 
Ciência de dados
Antes de aplicar a Ciência de dados, é fundamental ado-
tar as ferramentas adequadas. Por isso, é essencial conhecer as 
opções disponíveis no mercado que podem ser utilizadas para im-
plementar os métodos e procedimentos de obtenção de conhe-
cimento e extração de informações. A seguir, são apresentados 
alguns exemplos de ferramentas:
 • Alteryx
Esta é uma ferramenta de designer com um ambiente de 
programação visual que possibilita ao desenvolvedor arrastar e 
soltar ícones em vez de escrever código. O Alteryx proporciona di-
versos modelos preditivos pré-estabelecidos para analisar dados 
e deduções de desenhos. Tem como característica parecer como 
ícones para processamento de dados, porém, por trás, são pro-
gramas em R ou Python e o Alteryx permite esconder a complexi-
dade e a codificação fundamentado em texto.
 • Talend
Esta ferramenta oferece um conjunto de aplicativos que po-
dem ser utilizados em desktops, data centers locais ou na nuvem. 
48 BIG DATA E CIÊNCIA DE DADOS
Trata-se de ferramentas multicamadas que permitem a coleta de 
dados de diferentes bancos de dados, transformando-os para aná-
lise. Um exemplo dessas ferramentas é o Pipeline Designer, que 
proporciona um design visual para extrair dados de diversas fontes, 
analisando-os com ferramentas padrão ou extensões do Python.
 • Knime
Esta é uma plataforma de análise de dados de código aber-
to que contém uma interface visual para atrelar diversas rotinas de 
análise e processamento de dados. Deste modo, o software princi-
pal é disponibilizado gratuitamente, porém as versões comerciais 
têm alguns plugins e extensões. Essa ferramenta tem uma base do 
software que está codificada em Java e muitas das integrações da 
Knime dependem do ecossistema Java. A interface do Knime é es-
truturada sobre o Eclipse. A plataforma possibilita trabalhar com 
dados em todos com bancos de dados como MySQL e PostgreSQL, 
integrando serviços de nuvem. Ele também integra a próxima ge-
ração de ferramentas de dados distribuídos como o Apache Spark.
Linguagem de programação Python
Python é uma das mais utilizadas linguagem, pois pode ser 
utilizada tanto para desenvolvimento de programas comerciais 
quanto de programas científicos. A aplicação dessa linguagem é 
diversa, sendo utilizada desde um desenvolvimento web até imple-
mentações com ciência de dados. 
Devido a sua sintaxe objetiva e sucinta, que contribui para 
deixar código-fonte legível, Python é uma linguagem bem-sucedi-
da, de modo geral, além de uma das linguagens mais usadas no 
meio científico, principalmente quando se refere aos cientistas de 
dados ou de outras áreas. Entretanto, para trabalhar com Ciência 
de dados não basta apenas a implementação com Python, é preci-
so a utilização de técnicas específicas disponíveis em pacotes que 
49BIG DATA E CIÊNCIA DE DADOS
devem ser acrescentados ao projeto. Vale frisar que estes pacotes 
têm o objetivo de aperfeiçoar a aplicação em aspectos como ve-
locidade de processamento, codificação e o uso de técnicas para 
análise de dados ou aprendizagem de máquina. 
As seções a seguir apresentam alguns destes pacotes:
Jupyter
Notebook Jupyter ou caderno Jupyter é um ambiente desen-
volvido para se trabalhar com programação literária. Neste paradig-
ma de programação, há uma intersecção entre a codificação e a do-
cumentação em forma de narrativa, ao invés de manipulá-los como 
elementos independentes. Também permite criar e compartilhar do-
cumentos que contenham código vivo, equações, visualizações e tex-
to narrativo. A sua utilização possibilita a limpeza e a transformação 
de dados, simulação numérica, modelagem estatística, visualização 
de dados, aprendizado de máquina, entre outras funções.
Pandas
É uma ferramenta prática, flexível e fácil de utilizar para 
análise e manipulação de dados de código aberto, construída em 
cima dalinguagem de programação Phyton, a qual provê uma es-
trutura de dados e funções robustas para trabalhar com grandes 
massas de dados de modo mais rápida. 
Ademais, o Pandas possibilita uma elaborada estrutura de 
dados e funções desenvolvidas para tornar mais prático e rápido 
o trabalho com um grande conjunto de dados.
 Anaconda
É uma distribuição que disponibiliza vários pacotes que 
podem ser instalados todos de uma vez, sendo um importante 
50 BIG DATA E CIÊNCIA DE DADOS
recurso para trabalhar com Ciência de dados. Além de permitir 
instalar os pacotes, otimizando o trabalho do desenvolvedor em 
configurar o ambiente de trabalho, o Anaconda também dispo-
nibiliza o Conda, que é responsável por controle de versões dos 
pacotes instalados. Assim, o desenvolvedor passa a poder traba-
lhar em vários projetos em diferentes versões de Python sem se 
preocupar com a versão dos pacotes instalados.
E então? Gostou do que lhe mostramos? Agora, só 
para termos certeza de que você realmente en-
tendeu o tema de estudo deste capítulo, vamos 
resumir tudo o que vimos. Você aprendeu sobre a 
importância de utilizar a Ciência de Dados e como 
ela pode contribuir em diversos setores do conhe-
cimento. A cada dia, essa área possibilita a solu-
ção de problemas científicos e a identificação de 
padrões de comportamento, como os aplicados na 
área de negócios. Também exploramos sua apli-
cação nos campos da biologia, saúde e projetos 
sociais, além de destacar suas contribuições nos 
negócios, como ganhos em estratégias, finanças, 
vendas e fidelização de clientes, alcançados por 
meio da aplicação de Data Science. Por fim, men-
cionamos as ferramentas utilizadas para imple-
mentar as técnicas e métodos da Ciência de Dados.
51BIG DATA E CIÊNCIA DE DADOS
AMARAL, F. Introdução à Ciência de Dados: mineração de dados 
e Big Data. Rio de Janeiro: ALTA Books, 2016.
BERTIN, B. et. al. A gestão de dados de pesquisa no contexto da 
e-science: benefícios, desafios e oportunidades para organizações 
de p&d. Ponto de Acesso, [S.l.], v. 11, n. 2, p. 34-48, 2017.
CLEVELAND, S. Data Science: anactionplan for Expanding the 
technical áreas ofth efieldof statistics. International Statistical 
Review, Malden, v. 69, [s.n.], p. 21-26. 2001.
FINZER, W. The Data Science Education Dilemma. Technology 
Innovations In Statistics Education, [S.l.], v. 7, n. 2. 2013. 
Disponível em: https://escholarship.org/uc/item/7gv0q9dc acesso 
em: 24 out. 2024.
PATIL, H.; DAVENPORT, J. Data Scientist: thes exiest job of the 21st 
century. [S.l.], HBR, 2012. Disponível em: https://hbr.org/2012/10/
data-scientist-the-sexiest-job-of-the-21st-century. Acesso em: 
20 maio 2020.
PROVOST, F.; FAWCETT, T. Data Science para negócios: o que 
você precisa saber sobre mineração de dados e pensamento 
analítico de dados. Rio de Janeiro: Alta Books, 2016.
SMITH, F. Jack Data Science as an academic discipline. Data 
Science Journal, [S.l.], v. 5, p. 163-164, 2006. Disponível em: 
https://datascience.codata.org/articles/10.2481/dsj.5.163 acesso 
em: 24 out. 2024.
VIOLINO B. 8 habilidades essenciais para cientistas de dados 
de alto desempenho, 2018. Disponível em:https://cio.com.
br/8-habilidades-essenciais-paracientistas-de-dados-de-alto-
desempenho/ acesso em: 10 abr. 2024
RE
FE
RÊ
N
CI
A
S
https://escholarship.org/uc/item/7gv0q9dc
https://datascience.codata.org/articles/10.2481/dsj.5.163

Mais conteúdos dessa disciplina