Buscar

Big Data e Ciência de Dados - Unidade 2 - Ciência de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Unidade 2
Ciência de Dados
Big Data e 
Ciência de Dados
Diretor Executivo 
DAVID LIRA STEPHEN BARROS
Gerente Editorial 
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico 
TIAGO DA ROCHA
Autoria 
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva 
Olá. Sou graduada em Sistemas da Informação pela Universidade de 
Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação 
pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, 
sou doutoranda em Sistema e Computação pela UFRN e professora 
conteudista na elaboração de cadernos.
Alan de Oliveira Santana 
Olá. Sou graduado em Ciência da Computação pela Universidade 
do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da 
Computação pela Universidade Federal do Rio Grande do Norte (UFRN). 
Atualmente, sou professor conteudista, elaborador de cadernos de 
questões e doutorando em Ciências da Computação. Como cientista, 
atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de 
sistemas com ênfase na educação.
Desse modo, fomos convidados pela Editora Telesapiens a integrar 
seu elenco de autores independentes. Estamos muito satisfeitos com o 
convite e a possibilidade de auxiliar em seu desenvolvimento intelectual 
e profissional. Bons estudos!
ICONOGRÁFICOS
Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez 
que:
OBJETIVO:
para o início do 
desenvolvimento 
de uma nova 
competência;
DEFINIÇÃO:
houver necessidade 
de se apresentar um 
novo conceito;
NOTA:
quando necessária 
observações ou 
complementações 
para o seu 
conhecimento;
IMPORTANTE:
as observações 
escritas tiveram que 
ser priorizadas para 
você;
EXPLICANDO 
MELHOR: 
algo precisa ser 
melhor explicado ou 
detalhado;
VOCÊ SABIA?
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo, se forem 
necessárias;
SAIBA MAIS: 
textos, referências 
bibliográficas 
e links para 
aprofundamento do 
seu conhecimento;
REFLITA:
se houver a 
necessidade de 
chamar a atenção 
sobre algo a ser 
refletido ou discutido 
sobre;
ACESSE: 
se for preciso acessar 
um ou mais sites 
para fazer download, 
assistir vídeos, ler 
textos, ouvir podcast;
RESUMINDO:
quando for preciso 
se fazer um resumo 
acumulativo das 
últimas abordagens;
ATIVIDADES: 
quando alguma 
atividade de 
autoaprendizagem 
for aplicada;
TESTANDO:
quando uma 
competência for 
concluída e questões 
forem explicadas;
SUMÁRIO
Conceitos e Escopos da Ciência de Dados .......................................12
Fases do projeto em Ciência de Dados ....................................................... 15
Ciclo de vida do dado .................................................................................................................. 16
Relação de ciência de dados com ciências de informações ......................... 18
Ciência de Dados: termos usados ...................................................................................... 19
Princípios e Diferenças entre Ciência de Dados e Big Data ......22
Princípios e diferenças: Big Data e Ciência de Dados .........................................22
Big Data e Ciência de Dados no processo de tomada de decisão ............24
Ciência de Dados e Business Intelligence ....................................................28
O Papel e a Importância do Cientista de Dados .............................31
Cientista de dados ........................................................................................................................ 31
Formação e atuação do cientista de dados ................................................................32
Perfil do profissional ...................................................................................................34
Habilidades do cientista de dados ................................................................34
Competências relacionadas ....................................................................................................37
Aplicações da Ciência de Dados .......................................................... 40
Onde aplicar a Ciência de Dados ...................................................................................... 40
Ciência de Dados na Biologia ............................................................................. 41
Ciência de Dados aplicada na Saúde ...........................................................42
Ciência de Dados aplicada ao Projeto Social ..........................................42
Ciência de Dados aplicada aos negócios .....................................................................42
Ferramentas que trabalham com Ciência de Dados ............................................45
Linguagem de programação Python ........................................................... 46
Jupyter .................................................................................................................................47
Pandas ..................................................................................................................................47
Anaconda ...........................................................................................................................47
9
UNIDADE
02
Big Data e Ciência de Dados
10
INTRODUÇÃO
Com toda a produção de dados e os avanços tecnológicos, 
surgiram soluções computacionais como o Big Data e a Ciência de Dados. 
Assim, nestes capítulos nos deteremos a explicar um pouco mais sobre 
a Ciência de Dados, abordando desde seu surgimento, conceitos e suas 
contribuições. Abordaremos ainda os princípios e diferenças entre o Big 
Data e outras soluções computacionais.
Ainda no decorrer desta unidade, estudaremos a importância dos 
profissionais que trabalham com Ciência de dados, assim como suas 
competências e habilidades.
Além do exposto, estudaremos onde está sendo aplicada a ciência 
de dados, apresentando as diversas áreas em que está sendo explorada, 
bem como, as ferramentas que ajudam a aplicá-la.
Nesta unidade, estudaremos sobre esses assuntos esperando que 
todas as dúvidas sejam tiradas e que tragam informações que mudem a 
forma de pensar sobre as tomadas de decisões.
Big Data e Ciência de Dados
11
OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no 
desenvolvimento das seguintes objetivos de aprendizagem até o término 
desta etapa de estudos:
1. Compreender o conceito de Ciência de Dados.
2. Diferenciar Ciência de Dados e Big Data.
3. Assimilar o papel do cientista de dados.
4. Compreender as aplicações da Ciência de Dados.
Então? Preparado para adquirir conhecimento sobre um assunto 
fascinante e inovador como esse? Vamos lá!
Big Data e Ciência de Dados
12
Conceitos e Escopos da Ciência de Dados
OBJETIVO:
Neste capítulo, conceituaremos sobre Ciência de Dados, 
entenderemos um pouco mais sobre esse conceito e as 
fases que compõem um projeto de ciências de dados, bem 
como o ciclo de vida dos dados. Além disso, abordaremos 
termos importantes quando se estuda ciência de dados. 
Vamos lá!
Por volta de 90% dos dados criados em diversas fontes, como 
empresas, redes sociais, entre outras, são resultantes da utilização intensa 
das Tecnologias de Informação e Comunicação nos últimos tempos 
(BUGNION, et al., 2017). 
Por conseguinte, os dados são copiosamente e ligeiramente 
produzidos, servindo de matéria-prima para tomada de decisão em 
grandes organizações (ECONOMIST, 2017). 
Nesta conjuntura de universo de dados, avançadas pesquisas 
e desenvolvimento de soluções computacional são aplicadas, como 
Ciência de Dados, a qual vamos conceituar e estudar detalhadamente 
nesta unidade. 
A Ciência de Dados (“Data Science” termo em inglês) é uma área que 
estuda o ciclo de vida dos dados e aponta a geração de valor comercial 
por meio de insights, que são informações suscitadas por meio dos 
dados. Mesmo que a expressão “Data Science” decorra dos anos 1960, 
a Ciênciade Dados é uma ciência considerada nova e, muitas vezes, mal 
interpretada. É sabido que uma ciência é referente a obter conhecimento 
e informação de modo sistemático, tal como regularizar e estruturar esse 
conhecimento (AMARAL, 2009).
Da mesma maneira, a Ciência de Dados versa de estudar os dados 
por completo, trabalhando com o seu ciclo de vida da produção ao ponto 
de ser descartado. 
Big Data e Ciência de Dados
13
Geralmente, a Ciência de Dados é relacionada de modo errado, 
especificamente, quando ligada a procedimentos de análise dos dados 
em que é necessária a utilização de Estatística, aprendizado de máquina 
ou do simples uso de um filtro produzir informações e conhecimentos 
(AMARAL, 2009).
Figura 1 – Tecnologia da Informação
Fonte: Pixabay
Provost e Fawcett (2013) afirmam que a Ciência de Dados como 
um conjunto de princípios básicos que lidam e guiam a extração de 
informações e conhecimento por meio de dados. Neste contexto, a ciência 
de dados envolve princípios, procedimentos e técnicas para entender 
fenômenos por meio da análise automática de dados. 
NOTA:
Em suma, a Ciência de Dados visa transformar os dados 
brutos em informação  que são importantes para as 
empresas, promovendo solução de problemas ou a 
obtenção de diferenciais competitivos. Neste sentido, 
podemos inferir que a ciência é um processo sistemático, 
em que as pessoas pesquisam e explicam acontecimentos 
de um escopo específico que ocorrem no mundo 
natural. Pode-se ainda entender a ciência de dados 
como um domínio científico que é cotado para descobrir 
conhecimento (knowledge discovery) por meio da análise 
de dados.
Big Data e Ciência de Dados
14
Finzer (2013) apresenta o diagrama de Venn, ilustrado na Figura 2, 
como uma estrutura que constitui a Ciência de Dados. Este diagrama está 
composto por três círculos, apresentados a seguir:
 • O círculo de Matemática e Estatística: este ciclo é referente 
aos princípios básicos e experiências solicitadas nas áreas de 
Matemática e Estatística para compreensão das variáveis, bem 
como para interpretar e diferenciar os tipos de dados. Isto implica 
em afirmar que os profissionais da ciência de dados precisam 
compreender a função dos algoritmos de aprendizado de 
máquina, tal como, ter a habilidade de interpretar os resultados 
estatisticamente.
 • O círculo de conhecimentos substantivos: este ciclo é 
referente a compreensão do sentido disciplinar para a escolha 
de um procedimento de análise apropriada para dados. Este 
conhecimento do problema ajuda no processo de tomada de 
decisão.
 • O círculo de Computação e habilidades de dados: este ciclo é 
referente aos dados para resolver problemas, admitindo que se 
visualize a estrutura de dados, a qual exige capacidades para 
programar, extrair e estruturar dados. Assim, as habilidades da 
ciência de computação ajudam na geração da curadoria digital e 
no desenvolvimento de algoritmos de aprendizado de máquina e 
interfaces de visualização da informação. 
Figura 2 – Diagrama de Vernn
Matemática e 
Estática.
Computação e 
habilidades de 
dados. 
Conhecimento 
substantivos.
Fonte: Adaptado de Amaral (2016)
Big Data e Ciência de Dados
15
Além disso, sobre o diagrama de Venn, Amaral (2016) assegura que 
a Ciência de Dados é combinada por diversas outras ciências, modelos, 
tecnologia, processo e métodos relacionados ao dado, designando 
relações interdisciplinares na área.
IMPORTANTE:
É importante afirmar que a Ciência de Dados é determinada 
como o método para extração das informações úteis por 
meio de complexas e dinâmicas bases de dados (BUGNION 
et al., 2017). 
Conforme Smith (2006), a Ciência de Dados se ampliou desde 
então para conter o estudo da captura, análise, metadados, recuperação, 
arquivamento, troca e mineração de dados, com a finalidade de encontrar 
conhecimento inesperado e relações de dados.
Fases do projeto em Ciência de Dados
Conforme vimos, a Data Science é um conceito geral para uma 
diversidade de padrões e técnicas com objetivo de obter informações, o 
qual a cada dia se torna uma área muito promissora, permitindo processar 
os dados gerados por meio de várias fontes. 
Assim, para iniciar um projeto aplicando o conceito da Ciência dos 
Dados, é importante definir o objetivo de sua aplicação por meio da criação 
de questões que precisam ser respondidas por meio de um determinado 
problema a ser resolvido. 
Após serem estabelecidas as questões, procura-se os dados 
que auxiliarão a respondê-las, de modo que, sabendo-se os objetivos 
do que se quer analisar, torna-se necessário adquirir os dados corretos 
para realizar a limpeza, exploração, criação e avaliação de um modelo, 
repetindo o ciclo algumas vezes até que se esteja pronto para dar início a 
busca de como informar adequadamente os resultados obtidos.
Logo, temos resumidamente as seguintes fases de um projeto de 
Data Science (SOARES, 2019):
Big Data e Ciência de Dados
16
 • Identificação do problema da área de Negócios. 
 • Entendimento de problema. 
 • Coleta de conjuntos de dados (datasets). 
 • Realização da limpeza e transformação dos dados. 
 • Realização do entendimento do relacionamento entre os dados.
 • Produção de modelos que representem os relacionamentos. 
 • Uso dos modelos para realizar predições. 
 • Entrega de valor e resultado.
Ciclo de vida do dado
Uma das definições de ciência de dados é entendida como os 
métodos, modelos e tecnologias que analisam os dados durante todo o 
seu ciclo de vida, da criação ao descarte. 
Amaral (2016, p. 46) ressalva que:
O ciclo de dados promove a boa gestão de dados quando 
disponibilizados em formatos como textos: MS Word; PDF; 
RTF, em formato numérico: Excel, em multimídia: JPEG, 
GIF, MPEG etc.; em software; e quando disponibilizados em 
variedade de suportes: fitas, CDs, slides, modelos, mapas 
e arquivos de dados, etc. 
Dessa forma, entende-se o ciclo de vida dos dados a partir do início da 
criação até o seu descarte, podendo passar por uma série de outras etapas. 
Desse modo, quaisquer fontes de dados podem não sofrer algum tipo de 
transformação após sua produção ou mesmo serem rejeitadas prontamente 
após a produção ou serem produzidos para um armazenamento por tempo 
indefinido. Vale evidenciar que as fases dos dados dependerão de suas 
naturezas e das suas finalidades (AMARAL, 2016).
De acordo com Amaral (2016), pode-se formar um ciclo de vida mais 
geral, que apesar de não se aplicar a todo e qualquer dado, é ajustável à 
maioria, tendo um ciclo padrão que compreende seis etapas: produção, 
armazenamento, transformação, armazenamento analítico, análise e 
descarte, como pode ser visto na Figura 3.
Big Data e Ciência de Dados
17
Figura 3 – Ciclo de vida do dado
PRODUÇÃO
DESCARTE
ANÁLISE
ARMAZENAMENTO
TRANSFORMAÇÃO
Fonte: Adaptada de Amaral (2016).
Sob o mesmo ponto de vista, outros autores tratam a importância 
de se idealizar um ciclo de vida dos dados, abarcando aspectos de 
planejamento, aquisição, organização, estruturação, conceitos de fluxos 
analíticos e ferramenta adequada para o armazenamento de dados. 
Outrossim, necessita de atenção para as questões relativas à 
preservação, à organização, ao compartilhamento e à proteção (BERTIN 
et al., 2017). Todas essas etapas são necessárias por representar a 
estruturação e a organização, com intuito de gerar a utilização e reuso 
dos dados de maneira segura e apropriada.
Bertin et al. (2017, p. 29) trata o ciclo de dados e seu gerenciamento 
determinado por essas etapas:
Implementação, Definição de parâmetros, Exploração de 
dados: possibilidade de preservação de dados científicos, 
desenvolvimento de políticas de gerenciamentos de ciclo 
de dados para projetos e atividades relevantes; Ingestão 
de dados, Obtenção de dados: estratégias que preveem 
a preservação e o acesso a longo prazo e rentáveis à 
qualidade adequada, garantindo proteção de alta confiança 
e confidencialidade;Tomada de decisão: aplicações para 
os requisitos legais e regulamentados para toda a gama 
de tipo de dados e Utilização do modelo: recuperação dos 
dados de pesquisa, tendo em vista a sua implementação.
Big Data e Ciência de Dados
18
NOTA:
Você pode notar com efeito, o ciclo de vida dos dados é um 
procedimento textual, que permite aprender os diversos 
passos que os dados seguiam até o seu gerenciamento. 
O compartilhamento dos dados inicia com um método 
do ciclo de vida dos dados e é solicitado desde do 
planejamento até sua análise divulgação.
Relação de ciência de dados com ciências 
de informações
É importante entender a ciência de informação, pois está 
inteiramente ligada à Ciência de Dados. Existem diversos sentidos para a 
ciência da informação, passando por áreas multidisciplinares associadas 
com a análise, classificação, armazenamento, coleta, disseminação e a 
segurança da informação, com a interação entre indivíduos, empresas ou 
sistemas de informação existentes (MARCHIONINI, 2016).
Podemos relembrar que a Ciências da Informação é designada 
como conceito geral que realiza interdisciplinaridade com a informática, 
concentrando em distinções e semelhanças para a Ciência de Dados. 
Outro ponto de destaque é que o profissional de ciências de informações 
é licenciado nesta área e, geralmente, designado por profissional da 
informação ou gestor de informação.
NOTA:
É importante ressaltar que a ciência da informação, com 
suas teorias, qualifica-se como excelentes opções para 
fundamentar a área de qualidade Ciência de Dados 
(WANG, 2018).
Por outro lado, temos a Ciência de Dados relacionada à descoberta 
de conhecimento ou de informações disponíveis de dados e a ciência 
da informação envolve-se nesse significado com seus métodos para 
Big Data e Ciência de Dados
19
armazenamento e recuperação de informações. Apesar de serem áreas 
diferentes, elas se complementam na manutenção e ampliação do 
conhecimento. Gray (2007) relata que as ciências clássicas se conectam 
à Ciência de Dados por meio do método e prática para diversas áreas de 
conhecimento.
Ciência de Dados: termos usados
Quando trabalhamos com o universo da Ciência de Dados, alguns 
termos podem causar confusão, por isso, é importante esclarecê-los, pois 
muitos possuem atuações diferenciadas. 
Assim, temos as seguintes expressões que mais geram dúvidas, 
sendo eles: Business Intelligence, Data Mining, e Data Analytics. A seguir, 
iremos expor cada uma:
 • Business Intelligence
É responsável por realizar análise de acontecimentos que já tenha 
ocorrido em um certo período, com base em dados exatos que 
existam, não prezando em atingir predições em prazos afastados. 
Em BI, o trabalho é constituído referente ao que está acontecendo 
no momento, levando em consideração o médio e curto prazo, 
permitindo uma tomada de decisão mais precisa (CRUZ, 2018).
Em suma, o Business Intelligence tem como objetivo disponibilizar 
os dados históricos a administradores e analistas de negócios, 
promovendo a manipulação desses dados e valiosos resultados 
para melhorar a tomada de decisões (TURBAN, et al., 2009).
 • Data Analytics
Também conhecida como Análise de Dados, é o processo pelo 
qual procura-se examinar, limpar, transformar e modelar dados. 
Vista muitas vezes como um elemento da ciência de dados, é 
utilizada para compreender como são os dados de uma empresa 
e é empregada a Data Analytics para solucionar problemas 
(OLAVSRUD, 2018).
Big Data e Ciência de Dados
20
A Ciência de Dados se preocupa em analisar conjuntos de dados 
maciços para expor insights. A Análise de Dados funciona melhor 
quando é focada, tendo claras as perguntas que precisam de 
respostas com base nos dados existentes. Embora as diferenças 
existam, a Ciência e a Análise de Dados são partes importantes do 
futuro do trabalho e dos dados.
EXEMPLO: 
Realizar estudos sobre o comportamento do consumidor e suas 
expectativas, além de observar as tendências de mercado.
Data Mining
A Mineração de Dados (Data Mining) pode ser conceituada como o 
processo com etapas determinadas de extração da informação por 
meio de conjuntos de dados e sua transformação em uma estrutura 
compreensível para uso futuro. Embora usualmente relacionada à 
KDD, tal processo pode ser utilizado isoladamente e também em 
conjunto com outros métodos ou técnicas (CRUZ, 2018).
EXEMPLO: 
Na área de Finanças, podemos exemplificar com um projeto cujo 
objetivo seja gerar um modelo de classificação para caracterizar 
clientes que pagam em dia, clientes que pagam em atraso e 
clientes que não pagam seus créditos. Para tanto, deve considerar 
o histórico de pagamento de clientes de uma financeira que haviam 
recebido crédito durante um período determinado. O modelo 
construído foi incorporado a um sistema de apoio à decisão, 
que passou a ser usado na análise de novas solicitações de 
crédito recebidas pela central de atendimento de uma financeira 
(COMPUTERWORLD, 2020).
A mineração de dados é estudada como parte do processo de 
Descoberta de Conhecimento em Banco de Dado (KDD – Knowledge 
Discovery in Databases), responsável pela seleção das técnicas a serem 
usadas para descobrir padrões nos dados, seguida da efetiva busca por 
padrões de interesse num modo particular de representação ao lado da 
busca pelo melhor ajuste de parâmetros do algoritmo para a atividade 
que desejar aplicar (TAN et al., 2009).
Big Data e Ciência de Dados
21
IMPORTANTE:
Podemos citar a seguinte ressalva que a Data Science, bem 
como Data Mining, é preditiva, entretanto, trabalha com os 
dados utilizando-os como informações e conhecimento de 
especialistas, tendo como diferença básica o fato de que 
esta tecnologia atua com a associação de técnicas científicas 
diversificadas, tais como: Estatística, Machine Learning, Data 
Analytics, Data Mining, entre outras (CRUZ, 2018).
Por fim, percebemos como é importante estudar e entender cada 
um dos termos apresentados para assim facilitar a compreensão e a 
decisão de quando usar cada uma dessas soluções computacionais.
RESUMINDO:
Estudamos, neste capítulo, o termo ciência de dados, 
entendendo que esta área aborda o ciclo de vida dos 
dados e aponta a geração de valor comercial por meio 
de resultados que são informações originadas por 
meio dos dados. Explanamos ainda sobre os conceitos 
de Ciência de Dados, definindo como a área que está 
inserida com Matemática e estáticas, entre outras ciências. 
Entendemos também sobre os dados e como é constituído 
o ciclo de vida destes, trazendo algumas definições 
de autores e importantes etapas da sua produção ao 
descarte. Compreendemos a relação entre ciências 
dos dados e ciências da infração, bem como estas se 
relacionam. Entendemos um pouco mais a diferença entre 
termos como Business Intelligence, Data Mining e Data 
Analytics, que pertencem a estes universos de dados e, 
consequentemente, estão associados a Ciência dos Dados. 
Por fim, abordamos como a Ciência dos Dados trabalha 
para descoberta dos conhecimentos básicos que lidam e 
guiam a extração de informações, assim como, por meio 
de dados, envolvendo ainda, princípios, procedimentos 
e técnicas para entender fenômenos por meio da análise 
automática de dados. 
Big Data e Ciência de Dados
22
Princípios e Diferenças entre Ciência de 
Dados e Big Data
OBJETIVO:
Neste capítulo, estudaremos um pouco mais acerca de 
como se dá o relacionamento entre o Big Data com a 
Ciência de Dados. Veremos princípios e diferenças destes 
termos e como esses são importantes no processo de 
tomada de decisão. Vamos lá! 
Princípios e diferenças: Big Data e Ciência 
de Dados 
Observamos com o desenvolvimento das tecnologias de 
informação e das possibilidades de descoberta por meio de recursos 
mais aperfeiçoados, o aparecimento de estudos que destacam a 
ciência de dados como a ciência que agrupa múltiplos aspectos da 
informação por meio de seus dados, tendo uma equipemultidisciplinar 
de profissionais, por exemplo, de Estatística, programadores, analistas de 
dados, matemáticos e bibliotecários. 
Outra marca dos avanços tecnológicos é a grande massa de dados 
produzidos, a qual destacamos o surgimento do Big Data, que trata a 
ampla quantidade de dados e possibilita analisá-los. 
Sabemos que a ciência de dados foi criada com intuito de suprir 
lacunas computacionais, trazendo soluções e ideias por meio das fontes 
de dados diferentes. 
Sua versatilidade permite aplicá-la em diversas áreas dentro e 
fora da computação, tais como: reconhecimento de imagem, Análise de 
Dados, Inteligência Artificial, Big Data, Machine Learning, Data Mining, 
robótica, negócios, entre outras (CRUZ, 2018).
Com isso, temos a ciência de dados combinada com a utilização 
de Big Data pela necessidade de se trabalhar com um volume 
Big Data e Ciência de Dados
23
substancialmente grande de dados com a finalidade de otimização das 
informações a serem analisadas. 
O Big Data, no conceito geral, trabalha com qualquer conjunto de 
dados grandes ou complexos que se fossem usados no gerenciamento 
tradicional de dados, teriam processamento complicado, ou seja, ele 
surgiu também como uma solução para ajudarem nas análises destas 
massas de dados grandes e variáveis (CIELEN et al., 2016).
Figura 4 – Solução Big Data e Ciência de Dados
 .....
Fonte: Freepik
Vale ressaltar que na ciência de dados a utilização de Big Data não é 
obrigatória, porém fornece resultados mais satisfatórios devido ao trabalho 
com grandes volumes de dados, oferecendo melhores performances.
Ainda podemos citar que o Big Data é um auxílio prático para a 
ciência de dados trabalhar, de forma que, o volume de dados que são 
coletados e armazenados pelo Big Data, que passaram por uma análise 
posterior, são utilizados para interpretação, análise detalhada e para a 
elaboração de estratégias de outros sistemas, como a Ciência de Dados, 
por exemplo.
Outra diferença que podemos frisar é entre os profissionais de cada 
uma das áreas, em que o analista de Big Data é o profissional que usa das 
Big Data e Ciência de Dados
24
informações existentes no banco de dados para descobrir conhecimento, 
não conseguindo produzir uma solução de análise propriamente 
dita, porém, é necessário a utilização de técnicas da ciência de dados 
(SANTANA, 2019). 
Já o cientista de dados necessita de outros tipos de conhecimentos 
mais técnicos e analíticos frente a um analista de Big Data, como Programação, 
Matemática, Estatística, gestão, entre outras (SANTANA, 2019).
SAIBA MAIS:
Assista ao vídeo Você sabe a diferença entre Data Science e 
Big Data?, que traz um resumo da diferença de Big Data e 
Data Science. Nele, você verá abordagens de modo prático 
e objetivo sobre as principais diferenças entre Big Data e 
Ciência de Dados, bem como, a relação existente entre 
elas. Acesse clicando aqui. 
Deste modo, diante de tudo que foi exposto, percebemos que 
a utilização do Big Data contribui no aspecto de que muitos dados 
adquiridos retornam um resultado com um percentual mais alto em 
relação a precisão nas manipulações futuras. 
Entretanto, mesmo com todas as suas vantagens, devemos 
enfatizar que a utilização do Big Data, neste caso, não se trata de regras 
obrigatórias, possibilitando assim que a análise dos dados não se encaixe 
nas definições de Big Data como estudamos, mesmo que a fonte de 
consulta não seja tão assertiva quanto (CRUZ, 2018).
Big Data e Ciência de Dados no processo 
de tomada de decisão
Cada dia mais as organizações dos diferentes setores buscam 
recursos para lidar com as grandes massas de dados produzidos, como 
também, cresce a procura de meios para explorar e analisar esses dados, 
tendo intuito de proporcionar conhecimento e vantagens competitivas 
para as empresas.
Big Data e Ciência de Dados
https://www.youtube.com/watch?v=r1AYxeep0QM
25
EXEMPLO: 
Um estudo realizado com 179 grandes empresas de capital aberto 
dos EUA, de modo que aquelas que tomam decisões com base 
em informações, obtém rendimentos e ganhos de produtividade 5 
a 6% maiores. Essa relação também surge em outras medidas de 
desempenho: utilização de ativos, retorno sobre patrimônio líquido 
e valor de mercado (ESPINDOLA; ROTH, 2015).
Desde o surgimento do fenômeno da explosão informacional, a 
relevância da informação, relacionando-se com o contexto da tomada 
de decisão e do desenvolvimento científico, passa a ter maior destaque. 
Neste contexto de avanços, surgiram os fenômenos de Big Data e ciência 
de dados. 
É sabido que o Big Data trabalha com grande massa de dados 
estruturados ou desestruturados, em que contribui para o processo 
decisório, possibilitando às empresas condições para conseguir analisar 
os dados. 
Temos ainda a ciência de dados contribuindo como um suporte 
metodológico para o processo de tomada de decisão, facilitando a 
aquisição da informação contextualizada (PROVOST; FAWCETT, 2013).
A tomada de decisão, orientada a dados,  trata do método de 
fundamentar as decisões na análise de dados e não somente na 
percepção.  Decorrente disso, temos que essa contribui para que os 
gerentes e administradores em suas atividades cognitivas, possam tomar 
decisões com qualidade e precisas. 
Neste sentido, as soluções computacionais de ciência de dados 
ajudam os gestores em suas atividades para adquirir conhecimento de 
suas informações (SCHREIBER et al., 2000).
Vale ressaltar que a tomada de decisão com base em dados não 
elimina todas as habilidades cognitivas humanas, porém, ela complementa 
suas lacunas (CRUZ, 2007). 
Entretanto, Mcafee e Brynjolfsson (2012) explicam que é comum 
indivíduos em cargos elevados, na classe organizacional, tomarem 
Big Data e Ciência de Dados
26
decisões com fundamento nas suas experiências, direcionados por meio 
de padrões de relacionamentos que os acompanham ao longo da carreira 
(VIANNA; DUTRA, 2016).
Figura 5 – Tomada de decisão
Fonte: Freepik
Dessa forma, a ciência de dados abrange fundamentos, processos 
e métodos para compreender fatos por meio da análise de dados, de 
modo que se tornam embasamentos para a tomada de Decisão Baseada 
em Dados (DBD). 
Isto implica na prática de fundamentar decisões na análise de 
dados que pode ser conseguida de modo manual ou automático, ao invés 
do gestor realizar o processo de tomada de decisão com base apenas na 
intuição (PROVOST; FAWCETT, 2013).
Por seguinte, a ciência de dados apoia o processo de tomada 
de decisão norteada por dados, porém, também se sobrepõe a ela, 
ao se sobressair pelas decisões dos mercados, o qual, estão sendo 
adotadas de modo automático por sistemas de computação (PROVOST; 
FAWCETT, 2013).
Big Data e Ciência de Dados
27
SAIBA MAIS:
O artigo Big Data e tomada de decisão: há limites para a 
Ciência de Dados? trata de enfatizar disponibilidade de 
dados e de softwares que usam técnicas de analytics, 
como uma grande importância para a decisão, em 
que, juntando as técnicas e complementando com a 
sua  intuição  e  experiência nos seus objetivos, possibilita 
construir modelos, estudar comportamentos, produzindo 
informações interessantes e inovadoras para a tomada de 
decisão. Acesse clicando aqui. 
Além disso, as soluções computacionais de ciência de dados ajudam 
os gestores em suas tarefas intensivas em conhecimento. Podemos citar 
algumas das tarefas, que estão listadas abaixo (SCHREIBER et al., 2000):
 • Associação: esta tarefa trata o conhecimento como um mapea-
mento entre dois conjuntos de objetos, exemplificando uma tarefa 
corriqueira de associação, podemos citar o ato de se dar a pro-
posta de oferecer um vinho apropriado em uma refeição usando 
as características do prato principal, assim, o sommelier sugere o 
vinho mais adequado a ser consumido.
 • Avaliação: esta tarefa trata de avaliar e caracterizar um fato 
conforme as seleções de decisão. Para exemplificar essa tarefa 
intensivaem conhecimento, leva-se em consideração um sistema 
de avaliação de crédito usando como base os históricos de 
empréstimos aplicando o uso de Big Data. Nesse contexto, um 
gestor pode escolher de forma mais acertada sobre a decisão ao 
compará-la com casos anteriores, podendo assim, conceder ou 
recusar o crédito.
 • Diagnóstico: esta tarefa trata de grupos de atributos, de modo que, 
dado um grupo de atributos, abrevia-se na atividade de deduzir o 
estado de um objeto, encontrando o conhecimento que é dirigido 
a um escopo. Neste contexto, geralmente se dispõem de regras 
para analisar um fato relacionado ao comportamento esperado. 
Big Data e Ciência de Dados
https://itforum.com.br/coluna/big-data-e-tomada-de-decisao-ha-limites-para-a-ciencia-dos-dados/
28
No ambiente de Big Data, as regras podem ser abstrações dos 
dados, mediante a utilização da ciência de dados.
 • Monitoramento: esta tarefa trata de um processo de análise 
interativa, ou seja, observando o estado de um objeto sendo 
avaliado ao longo do tempo. Por exemplo, monitorar um paciente 
por meio de algum instrumento em que esse gere dados a cada 
instante sobre um paciente, de forma que, ao aplicar tarefas 
intensivas em conhecimentos de diagnósticos, podem adquirir 
conhecimento e regras por meio do uso de Big Data e da ciência de 
dados, pelo qual, pode-se por meio do histórico das informações 
de monitoramento, realizar diagnósticos de uma paciente.
 • Predição: esta tarefa trata dos dados de históricos e periódicos na 
tarefa intensiva de conhecimento de predição, podendo predizer 
eventualidades que surjam em um determinado momento no 
futuro. Alguns exemplos são: a predição como estimativa de 
vendas, a previsão em campanhas eleitorais, entre outras.
Por fim, percebemos com as soluções computacionais em 
ciência de dados, Big Data e essas tarefas intensivas em conhecimento, 
contribuem para o processo de tomada de decisão.
Ciência de Dados e Business Intelligence
É importante detalhar um pouco mais sobre a ciência de dados 
e a Inteligência de Negócios (Business Intelligence), os quais têm 
características semelhantes, como transformar dados brutos em 
conhecimento a serem utilizados no processo de tomada de decisões 
nos negócios ou em determinado escopo aplicando no geral. 
Neste sentido, o conceito Business Intelligence (BI) trata de explicar 
dados de eventos que já aconteceram, tornando-se mais conhecido nas 
organizações de negócios e tecnologia da informação por volta dos anos 
90 (PAIXÃO, 2015). Posteriormente, foi adicionada a análise de negócios 
(Business Analytics) com a finalidade de representar o elemento analítico 
chave em BI (DAVENPORT et al., 2006).
Big Data e Ciência de Dados
29
Figura 6 – Business Intelligence
Fonte: Freepik
As técnicas analíticas de BI, usualmente, são direcionadas pelas 
organizações sobre os sistemas legados armazenados em bancos 
de dados relacionais, fundamentadas, principalmente, por métodos 
estatísticos, além de utilizarem outras técnicas, como mineração de 
dados. 
SAIBA MAIS:
Para saber mais sobre o assunto, faça a leitura do artigo 
Diferença Entre Business Intelligence, Data Warehouse, Data 
Science e Big Data. Acesse clicando aqui. 
No Business Intelligence, as soluções são elaboradas a partir de 
dados do tipo transacional, correspondente a dados que são fornecidos 
durante o movimento de um caso de transação, por exemplo, os dados 
gerados durante uma venda e transferências de dinheiro entre contas 
bancárias (MATOS, 2020).
Contudo, a Ciência de Dados, para se obter conhecimento de 
negócios, realiza por meio de grupos, a identificação de padrão de dados 
de negócios estruturados como em BI, ou por meio de conjuntos de 
dados estruturados, semiestruturados, não estruturados, bem como Big 
Data. Isso se dá por outra diferença existente, pela qual, a soluções de 
Big Data e Ciência de Dados
https://www.cetax.com.br/blog/qual-a-diferenca-entre-data-warehouse-big-data-e-business-intelligence/
30
ciência de dados não se limitam apenas aos dados transacionais como 
em BI (MATOS, 2020). 
IMPORTANTE:
É importante deixar claro o Business Intelligence trabalha 
realizando previsão para o futuro, levando em consideração 
inferências simples, feitas tendo como base dados atuais ou 
históricos, para proporcionar informações e conhecimentos 
importantes para os gestores tomarem decisões a médio e 
curto prazo.
Por outro lado, a Ciência de Dados realiza previsões com intuito 
de descobrir conhecimento para o futuro, a longo prazo, usando práticas 
Matemáticas, de programação ou Estatísticas avançadas, analisando e 
fazendo previsões por meio de grandes massas de dados do negócio 
(PAIXÃO, 2015).
RESUMINDO:
Neste capítulo, estudamos como a Ciência de Dados e o 
Big Data se relacionam e como eles podem, mesmo com 
diferenças, serem complementares na área de analisar 
os dados. Percebemos que Ciência de Dados é uma área 
mais geral que usa dos recursos do Big Data por meio 
de seus grandes volumes de dados. Por conseguinte, foi 
apresentando um pouco mais dos objetivos de cada uma 
e vimos como a produção de dados é determinante para 
contribuir na tomada de decisão. Abordamos como a 
tomada de decisão com base em dados pode ajudar aos 
gestores e apresentamos como as tarefas intensivas de 
conhecimento, adotando ciências de dados e Big Data, 
podem auxiliar neste processo. Por fim, foi apresentada 
diferenças e a relação entre Business Intelligence e Ciência 
de Dados, entendendo diferenças e como os tipos de 
dados, e cada uma de suas semelhanças, contribuem nos 
negócios. Citamos também diferenças, como no BI, que se 
baseia na expertise em tecnologia de negócios. 
Big Data e Ciência de Dados
31
O Papel e a Importância do Cientista de 
Dados
OBJETIVO:
Neste capítulo, veremos a importância dos profissionais 
que trabalham com Ciência de Dados, assim como, as 
competências destes. Vamos lá!
Cientista de dados 
A Ciência de Dados acarretou alterações por meio de toda a 
complexidade existente na exploração e extração de dados, bem como na 
necessidade de profissionais capacitados no tratamento de dados, como 
o programador para análises, ferramentas eficientes para exploração e 
comportamentos dos dados, e também, o profissional da informação com 
especialidade em dados, para fornecerem eficiência na comunicação 
com os usuários e contribuírem as necessidades informacionais para as 
organizações (REIS, 2019).
Ainda é sabido que a Ciência de Dados apresenta disposições e 
determina as informações que as empresas podem utilizar para tomar 
decisões acertadas e produzir serviços mais inovadores. Por mais que os 
dados sejam a base da inovação, destaca-se que o seu valor surge dos 
dados de informações que os cientistas podem retirar, utilizar e aplicar em 
um determinado escopo.
Com a expansão e desenvolvimento da Ciência de Dados, surgiu 
a necessidade de profissionais qualificados para trabalhar com isto, 
sendo cunhado ao cientista de dados, que precisa ter um conjunto de 
aptidões integradas abarcando Matemática, aprendizagem de máquina, 
Inteligência Artificial, Estatística, bases de dados e otimização, ao lado de 
uma intensa abrangência dos requisitos de elaboração, e dos problemas 
para projetar resultados eficazes (PAIXÃO, 2015).
Big Data e Ciência de Dados
32
SAIBA MAIS:
Assista ao vídeo Cientista de Dados, por onde começar? 
Nele, você poderá ter uma abordagem clara e objetiva 
sobre cientista de dados. Acesse clicando aqui. 
O cientista de dados foi destacado como uma das profissões mais 
proeminentes até 2020 pelo Fórum Econômico Mundial e divulgada como 
a profissão mais atraente do século XXI pela Harvard Business Review. A 
posição de cientista de dados teve sua terminologia determinada por Patil 
e Hammerbacher, em 2008, e em seguida, este termo passou a ser tomado 
pelo LinkedIn e pelo Facebook em anúncios de vagas com interesses em 
profissionais para darsuporte com a grande massa de volume e tráfego 
de dados nas mídias sociais (DAVENPORTE; PATIL, 2012).
Conforme Chitturi (2016), os profissionais da ciência de dados 
precisam saber trabalhar com os diferentes tipos dos dados, sejam eles 
estruturados, semiestruturados e não estruturados.
Formação e atuação do cientista de dados
Segundo Finzer (2013), a nomenclatura “Ciência de Dados”, foi referida 
pela primeira vez em 2001, em um texto de autoria de William S. Cleveland, 
intitulado em tradução livre, “Ciência de Dados: um plano estratégico para 
a expansão das áreas técnicas no campo da Estatística”, em que tratava 
o objetivo de combinar a Estatística, programação e a computação em 
ferramentas para analisar e extrair informações dos dados.
No contexto sobre a formação do cientista de dado, um relatório 
britânico solicitado pela Joint Information Systems Committe (JISC) acerca 
das habilidades, as funções e carreira dos cientistas de dados, atesta a 
dificuldade de uma conformidade quanto à definição deste profissional, 
entretanto, determina no contexto geral a formação do cientista de dado 
como aquele que trabalha onde as pesquisas são efetivadas, de modo 
colaborativo com os pesquisadores ou grupos de cientistas em centros 
de dados e que está associado na investigação criativa e de análise de 
Big Data e Ciência de Dados
https://www.youtube.com/watch?v=NmCuEgkVLWo
33
dados, fornecendo soluções tecnológicas para a manipulação e utilização 
de dados digitais (SWAN; BROWN, 2008). 
Figura 7 – Cientista de dados
Fonte: Freepik
Conforme afirma Provost (2016), um dos importantes fundamentos 
do cientista de dados são os dados e a aptidão de extrair conhecimento 
favorável por meio deles, sendo esta análise um princípio ativo estratégico. 
Assim, o autor afirma que a melhor equipe que trabalha com ciências de 
dados, pode obter pouco valor, sem os dados apropriados. Isso porque, 
algumas vezes, apenas os dados corretos, não podem melhorar as 
decisões sem a capacidade adequada dos profissionais de ciências dos 
dados. 
NOTA:
Vale ressaltar que o cientista de dados possui uma grande 
demanda na linha das ciências, indústria e governo. Esse 
profissional tem uma expectativa de formação tipicamente 
sólida em ciência da computação e aplicações, modelagem, 
Estatística, analítica e Matemática, além do conhecimento 
mínimo do domínio de aplicação (DAVENPORT; PATIL, 2012).
Big Data e Ciência de Dados
34
É importante destacar a afirmação do autor Finzer (2003), que 
descreveu o profissional do século sendo aquele com a formação em 
Ciência de Dados, tendo como atributos a ampliação das áreas técnicas 
como Estatística, programação e computação, o qual pode ser chamado 
como um Data Analyst ou Analista de Dados. Entretanto, o autor delineia 
poucas características desse novo profissional.
Perfil do profissional
O autor Amaral (2016) apresentou o perfil do cientista de dados, 
um profissional com aptidões multidisciplinares, com experiência e 
conhecimento em gerência de projetos. No Quadro 1, as características 
que o autor citado utiliza para diferir o cientista de dados de mercado, do 
idealizado pela mídia especializada.
Quadro 1 – Perfil profissional
Fonte: Adaptado de Amaral (2016).
Neste quadro, vimos a descrição do perfil do cientista de dados, 
com a descrição do profissional do mercado e o profissional idealizado e 
na próxima será apresentado as habilidades do cientista de dados.
Habilidades do cientista de dados 
A empresa LinkedIn procurou algumas habilidades que compõem o 
perfil que eles acreditam ser preciso para os cientistas de dados, listando 
as 10 habilidades mais encontradas nos profissionais que trabalham 
Big Data e Ciência de Dados
35
como cientista de dados: comunicação, gestão de dados estruturados, 
Matemática, gestão de projetos, Data Mining e visualização, design de 
experimentos, gestão de dados, design e desenvolvimento de produtos, 
modelagem Estatística e desenvolvimento de negócios (MATOS, 2020).
Amaral (2016) ressalta que, quando “Big Data” se tornou um termo 
em evidência, emergiu junto a profissão do cientista de dados. O autor 
descreve, que a maioria dos especialistas apresentam o profissional 
como o indivíduo com conhecimento técnico em Estatística, NoSQL, 
computação em nuvem, mineração de dados, álgebra relacional, 
modelagem multidimensional, MapReduce, virtualização, entre outros.
O artigo de Davenporte e Patil (2012) publicado na Harvard Business 
Review, apresenta que as habilidades do Cientista de Dados estão sujeitas 
a funções que mais técnicas ou mais direcionadas para a elaboração de 
produtos ou aplicativos de análise de dados. 
Já Davenport e Patil (2012) afirmam que as habilidades necessárias 
para se tornar um cientista de dados são: habilidades em linguagens 
de programação de análise de dados, comunicação, visualização de 
dados, mineração de dados, Estatística, habilidades em infraestrutura 
que trabalham com Big Data, aprendizado de máquina, engenharia de 
software, álgebra linear e habilidade de resolução de problemas.
Davenport (2014) destaca outros elementos que ele julga como 
fundamentais para um cientista de dado, os quais estão citados a seguir:
 • Capacidade de programar.
 • Aptidão de arquiteturas tecnológicas de Big Data.
 • Processo de tomada de decisão.
 • Improvisação.
 • Impaciência e inclinação à ação.
 • Habilidades de comunicação e relacionamento.
 • Aptidão de decisões e entender os processos decisórios.
 • Análise Estatística.
Big Data e Ciência de Dados
36
 • Técnicas de visualização. 
 • Aprendizado de máquina. 
 • Análise de dados diferentes tipos.
 • Análise de como negócios funciona. 
 • Aplicação de Analytics e o Big Data.
Outra fonte que listou habilidades para a profissão do cientista de 
dados, foi Violino (2018), publicado no site CIO/EUA, destaca algumas 
habilidades representadas no Quadro 2.
Quadro 2 – Lista habilidades e funcionalidades
Fonte: Adaptado de Violino (2018)
Big Data e Ciência de Dados
37
Além dessas, podemos destacar outras habilidades, como: 
comunicação, arquitetura, resolução de problema e análise de riscos 
(VIOLINO, 2018). 
Ainda podemos citar o que descreve Granville (2014), o cientista de 
dados é o profissional generalista que tem a capacidade de negócios, 
Estatística, ciência da computação, além de se relacionar com algumas 
noções específicas, entre os quais arquitetura de dados e comunicação 
no escopo empresarial.
Podemos perceber tanto na literatura, quanto pelas empresas, 
dificuldades no momento de caracterizar um padrão para a profissão 
cientista de dado, porém, podemos inferir que mesmo sem um consenso, 
existem características comuns nas descrições, como a aptidão em 
Estatística e computacionais para a programação e uso de sistemas 
capazes de processar grandes volumes de dados (CHATIFELD et al., 2014; 
GRANVILLE, 2014) como capacidade de explorar e extrair os dados. 
Competências relacionadas
Como estudamos, a Ciência de Dados e o Big Data são executados 
por meio de equipes multidisciplinares, cada um especializado em uma 
determinada área e liderada pelo cientista de dados. Com isto, o autor 
Amaral (2016) elencou essas especialidades necessárias conforme 
apresentada abaixo:
 • Equipes de extração: esta equipe corresponde a uma importante 
função no projeto e são responsáveis por tomar uma grande 
parcela de tempo do projeto. Usualmente, estes métodos 
são implementados por usuários que podem atuar como 
administradores de Banco de dados (DBAs) e programadores. 
Algumas funções desta equipe são: extrair os dados 
correspondentes a necessidade, se estão completos, alinhados e 
atualizados. Além do exposto, esta equipe é responsável por saber 
as regras e a legislação envolvidas nos projetos.
Big Data e Ciência de Dados
38
 • Coordenador de infraestrutura: este é responsável por se 
encarregar pela estrutura do projeto, determinaro ambiente de 
análise, instalação de sistemas, criação de usuários, permissões 
de acesso, entre outras.
 • Estatístico e/ou minerador de dados: sabemos que os projetos 
de dados podem necessitar de testes de hipóteses ou dos 
seguintes pontos: criação de modelos de predição e técnicas de 
visualização. 
 • Especialistas em ferramentas específicas: usualmente, em 
diferentes projetos e em suas etapas, é preciso de profissionais 
específicos. Assim, sua função é atender os requisitos diversos 
do projeto, como especialista em ferramentas características. 
Por exemplo, para extração ou para técnicas de visualização, por 
isso, deve fornecer técnicos com essas aptidões ou oferecer a 
habilitação necessária a estes profissionais.
 • Database Administrator (DBA): este tem a função característica 
em dados relacionais e multidimensionais, os administradores de 
banco de dados (DBAs) têm as funções expandidas para bancos 
de dados como NoSQL e sistemas de arquivos distribuídos. Como 
eles podem ainda servir de auxílio na coleta de metadados, 
compreensão de estruturas, rotinas de replicação, integração, 
como outras.
 • Programador: deve ter aptidões em linguagens de programação 
especializadas em análise de dados, como também pode ser 
preciso ter a habilidade de implementar a análise, programando 
stored procedures diretamente em gerenciadores de banco de 
dados.
 • Arquiteto: o arquiteto de solução é primordial para o projeto, pois 
é responsável pela indicação da arquitetura adequada para o 
projeto, desde processadores, a licenças de software, entre outras 
definições. 
Big Data e Ciência de Dados
39
 • Analistas de negócios: este tem o papel primordial para selecionar 
os requisitos e determinar o escopo do projeto. Usualmente, pode 
operar junto ao Gerente do Projeto. 
 • Designer: é importante ter um especialista em visualização de 
dados ou designer, solicitado para criar artefatos com qualidade 
visual otimizada.
RESUMINDO:
Abordamos, neste capítulo, um pouco mais sobre 
o profissional que trabalha com ciências de dados, 
foi apresentado como surgiu este profissional. Ainda 
estudamos a importância da formação do cientista de 
dado, demonstrando pesquisas e abordagens que citam 
seus princípios e habilidades. Vimos o perfil e a listagem 
de habilidades necessárias para o profissional que trabalhe 
com ciência de dados. Podemos perceber como os 
profissionais da ciência de dados precisam ter habilidades 
para trabalhar com os diferentes tipos dos dados, sejam 
eles estruturados, semiestruturados e não estruturados. 
Ainda foi visto como a maioria das pesquisas de literaturas 
e de fontes de empresas não possuem um consenso 
sobre um padrão de habilidades, tendo algumas que são 
sempre destacadas, como as capacidades Matemáticas, 
estáticas, codificação, análise dados e negócios, como 
domínio de aprendizado de máquina e Inteligência Artificial. 
Por fim, encerramos a unidade trazendo competências 
relacionadas com as áreas de ciência de dados.
Big Data e Ciência de Dados
40
Aplicações da Ciência de Dados
OBJETIVO:
Neste capítulo, veremos onde podemos aplicar a ciências 
de dados, citando sua importância no contexto geral. Logo 
após, estudaremos onde está sendo aplicada a ciência de 
dados, apresentando as diversas áreas em que está sendo 
explorada, bem como apresentaremos as ferramentas que 
ajudam a aplicá-la. Vamos lá!
Onde aplicar a Ciência de Dados 
Tendo em vista que a Ciência de Dados atenta-se em aperfeiçoar 
técnicas, modelos e procedimentos computacionais, matemáticos e 
estatísticos, que possam interagir com as ferramentas para a descoberta 
de conhecimento nas áreas que se pretende ser aplicada, a fim de 
adquirir resultados satisfatórios por meio desta interação com as áreas 
de aplicação, partimos do princípio que é necessário identificar de modo 
conciso, qual o problema que se deseja resolver (PAIXÃO, et al., 2015).
Outra grande importância, de aplicar Ciência de Dados, é o fato de 
estarmos na era da informação cercados de enormes massas de dados 
e nos mais diversos setores. Em paralelo, a necessidade de cada dia, as 
empresas, bancos, pesquisadores e cientistas estarem sempre em busca 
de resolver problemas e trazer soluções inovadoras para seus respectivos 
setores. 
Com a multidisciplinaridade da ciência de dados e as equipes que 
trabalham com ela, foi possibilitado grandes avanços e ganhos nesses 
setores, pois permite analisar os dados, descobrir conhecimento, fazer 
estáticas, previsões, entre outros recursos que só a ciência de dados 
pode possibilitar.
Neste sentido, a Ciência de Dados proporciona apoio a várias 
áreas, tais como: finanças, medicina, astronomia, jogos, marketing, 
Biologia, entre inúmeras outras para responder a problemas científicos 
Big Data e Ciência de Dados
41
ou problemas associados a detectar padrões de comportamento, como 
aqueles direcionados para a área de negócios (PAIXÃO, et al., 2015).
Ciência de Dados na Biologia
Assim, temos na área da Biologia, a Ciência dos Dados ajudando 
por meio dos métodos estatísticos, que possibilita a análise de grandes 
massas de dados biológicos, sendo elaborados e implementados há 
anos, na tentativa de detectar e predizer as funções dos genes e proteínas 
por eles codificados (WANG, 2003). 
Outro exemplo foram os resultados obtidos por meio de análise in 
silico e aprovadas posteriormente em laboratório, recomendando que 
é possível a identificação de uma família completa de genes, por meio 
de processos de ciência de dados mediante a informações genéticas 
armazenadas em banco de dados abertos (SILVA, 2010).
Figura 8 – Ciência de dados aplicada na Biologia
Fonte: Pixabay
Big Data e Ciência de Dados
42
Ciência de Dados aplicada na Saúde
A Ciência de Dados em Saúde, também conhecida em inglês 
como Health Data Science,  trata da ciência para proporcionar soluções 
fundamentadas em dados por meio do entendimento em problemas reais 
da área de Saúde, aplicando o conceito de pensamento crítico e a análise 
do dados para adquirir conhecimento. A sua aplicação na Saúde cresce 
de um domínio do conhecimento emergente, aparecendo da interseção 
da Bioestatística e ciência da computação e Saúde (NETTO, 2019). 
No Brasil, temos um dos exemplos de aplicação de ciência de 
dados na Saúde na Fiocruz, no qual desenvolvem pesquisas nessa área e 
até promovem cursos para atrair mais pessoas para área.
Ciência de Dados aplicada ao Projeto Social
A Ciência de Dados aplicada ao Projeto Social ganha espaço no 
mundo e no Brasil, pois com o crescente surgimento de organizações 
institucionais disponibilizando bases de dados que podem serem 
analisados, e bases políticas como Bolsa Família, que contém 
aproximadamente o cadastro de 100 milhões de brasileiros no CADSUS, 
vem ganhando força e possibilitando promover políticas públicas 
adequadas de acordo com as análises (BARRETO, 2019).
Ciência de Dados aplicada aos negócios
Podemos entender que os melhores resultados de um negócio não 
dependem exclusivamente do volume dos dados que uma empresa tem, 
mas sim sobre o modo como serão utilizadas essas informações.
O cientista de dados, para aplicar ciências de dados para negócios, é 
preciso uma inclusão tanto no campo mais técnico quanto nos campos de 
negócios. Desta forma, temos o cientista de dado que é direcionado que 
se relacionam com setores como: Business Intelligence (BI), inteligência 
de mercado; Tecnologia de Informação (TI) e Administração de Banco de 
Dados (DBA) (PRATES; HOPPEN, 2018). 
Big Data e Ciência de Dados
43
Vale ressaltar que a ciência de dados contribui, quando aplicada aos 
negócios, nos pontos de identificação de fenômenos reais analisando por 
meio da grande massa de dados. Assim, muitas organizações investem 
em ciência de dados para melhorar os seus processos de tomada de 
decisão, inovar e obterem vantagem competitiva.
Com a aplicação da ciência de dados aos negócios,é possível 
gerar outras contribuições para empresas, como: aumentar os lucros, 
diminuição de riscos financeiros, utilização de métodos de detecção de 
anomalia ou de fraude em tempo real. 
Por exemplo, possibilitando aumentar a eficiência de sistemas e 
processos, aumentar as taxas de vendas,  em que o cientista de dados 
pode analisar os dados estudando estratégias de fidelização do cliente ou 
de captação de clientes, entre outras vantagens (MATOS, 2019).
Figura 9 – Ciência de dados aplicada aos Negócios
Fonte: Pixabay
Para aplicar a ciência de dados na área de negócios, é importante 
seguir etapas. Em um artigo, Prates e Hoppen (2018) citaram algumas 
etapas a serem seguidas para ciências de dados aplicada a negócio, 
sendo elas expostas abaixo:
Big Data e Ciência de Dados
44
 • Definição de problema e métrica de sucesso: é importante dar 
início, na aplicação de Ciência de Dados nas empresas, primeiro 
na identificação de quais são os objetivos e quais as lacunas a 
serem sanadas no negócio. 
 • Definição do conjunto de dados (dataset) analítico a ser 
utilizado: é importante selecionar o conjunto de dados a ser 
usado pelos cientistas de dados, mas não somente uma simples 
extração de um grande volume de dados diretamente do banco 
transacional. Este conjunto de dados analítico é criado por meio 
da definição do problema e é necessário ter todas as variáveis que 
ajudem a responder o problema em questão. Ainda deve ser feita a 
combinação entre variadas bases de dados, tanto internas, quanto 
externas. Por exemplo, as fontes de dados externas correspondem 
às compradas de fornecedores específicos ou até mesmo, bases 
públicas com intuito de melhorar a corretude dos modelos que 
serão aplicados.
 • Transformação e higienização de dados: esta é umas das fases 
mais exigidas a se atentar aos detalhes e que demora um pouco 
mais, pois corresponde a fazer a limpeza dos dados, incluído a 
utilização de técnicas Estatísticas para realizar o tratamentos, 
como dados faltosos, padrões e tratamento de outliers. Ainda são 
realizados outros métodos compreendidos a esta etapa, como: 
concatenação de colunas, enriquecimento de dados com bases 
externas e várias outras reestruturações precisas. 
 • Mineração de dados e modelagem com Inteligência Artificial: 
esta é umas das fases principais no processo, pois permite gerar 
valor a partir das suas técnicas no processo de modelagem. É 
nesta etapa que vários modelos são treinados com a utilização das 
técnicas de Inteligência Artificial ou de aprendizado de máquina, 
como predição, associação e regressão.
 • Comunicação dos resultados obtidos em linguagem de 
negócio: esta é a fase que trabalha a comunicação dos resultados 
dos projetos de ciência de dados por meio da linguagem de 
negócios, com foco no objetivo e na rapidez, apresentando, por 
Big Data e Ciência de Dados
45
exemplo, quais os impactos do projeto e qual será o retorno 
financeiro obtido. Além do mais, sugere oferecer a visão de 
futuro dos sistemas integrados e uma lista com as oportunidades 
adjacentes descobertas durante o processo.
SAIBA MAIS:
Para saber mais sobre o assunto, faça a leitura do artigo 
Saiba por que o Data Science é essencial dentro dos 
negócios. Acesse clicando aqui. 
Assim, podemos entender, ao final desta seção, as grandes 
contribuições que ciência de dados e os inúmeros benefícios que ela 
pode gerar aos negócios. 
Ferramentas que trabalham com Ciência 
de Dados
É importante antes de aplicar a ciência de dados, adotar as 
ferramentas necessárias, por isso, é essencial conhecermos as 
ferramentas disponíveis no mercado, que podem ser utilizadas para 
realizar os métodos e procedimento de obtenção de conhecimento e 
extração de informações. Seguem alguns exemplos de ferramentas, 
conforme Wayner (2019) descreve:
 • Alteryx
Esta é uma ferramenta de designer com um ambiente de 
programação visual que possibilita ao desenvolvedor arrastar e 
soltar ícones em vez de escrever código.  O Alteryx proporciona 
diversos modelos preditivos pré-estabelecidos para analisar 
dados e deduções de desenhos. Tem como característica parecer 
como ícones para processamento de dados, porém, por trás, 
são programas em R ou Python e o Alteryx permite esconder a 
complexidade e a codificação fundamentado em texto.
Big Data e Ciência de Dados
https://www.totvs.com/blog/inovacoes/data-science-como-a-ciencia-de-dados-e-essencial-nos-negocios/
46
 • Talend
Esta disponibiliza um conjunto de aplicativos que trabalham em 
desktops ou data centers locais ou na nuvem. São ferramentas 
multicamadas que possibilitam a coleta de dados de diversos 
bancos de dados antes de transformá-los para análise. Um exemplo 
de uma das ferramentas que faz parte da coleção é o Pipeline 
Designer, o qual oferece um design visual para realizar extração 
de dados de diversas fontes, analisados por meio de ferramentas 
padrão ou extensões do Python.
 • Knime
Esta é uma plataforma de análise de dados de código aberto que 
contém uma interface visual para atrelar diversas rotinas de análise 
e processamento de dados. Deste modo, o software principal é 
disponibilizado gratuitamente, porém, as versões comerciais têm 
alguns plugins e extensões. Essa ferramenta tem uma base do 
software que está codificada em Java e muitas das integrações 
da Knime dependem do ecossistema Java. A interface do Knime 
é estruturada sobre o Eclipse. A plataforma possibilita trabalhar 
com dados em todos com bancos de dados como MySQL e 
PostgreSQL, integrando serviços de nuvem. Ele também integra 
a próxima geração de ferramentas de dados distribuídos como o 
Apache Spark.
Linguagem de programação Python
Python é uma das mais utilizadas linguagem, pois “pode ser 
utilizada tanto para desenvolvimento de programas comerciais quanto 
de programas científicos” (MANZANO, 2011, p. 19). A aplicação dessa 
linguagem é diversa, sendo utilizada desde um desenvolvimento web até 
implementações com ciência de dados. 
Devido sua sintaxe objetiva e sucinta, que contribui para deixar código-
fonte legível, Python é uma linguagem bem-sucedida, de modo geral, é uma 
das linguagens mais usada no meio científico, principalmente quando se 
refere aos cientistas de dados ou de outras áreas (BORGES, 2014).
Big Data e Ciência de Dados
47
Entretanto, para trabalhar com ciência de dados não basta apenas a 
implementação com Python, é preciso a utilização de técnicas específicas 
disponíveis em pacotes que devem ser acrescentados ao projeto. Vale 
frisar que estes pacotes têm o objetivo de aperfeiçoar a aplicação em 
aspectos como velocidade de processamento, codificação e o uso de 
técnicas para análise de dados ou aprendizagem de máquina. As seções 
a seguir apresentam alguns destes pacotes:
Jupyter
Notebook Jupyter ou caderno Jupyter é um ambiente desenvolvido 
para se trabalhar com programação literária. Neste paradigma de 
programação, há uma intersecção entre a codificação e a documentação 
em forma de narrativa, ao invés de manipulá-los como elementos 
independentes. Também permite criar e compartilhar documentos que 
contenham código vivo, equações, visualizações e texto narrativo. A sua 
utilização possibilita a limpeza e transformação de dados, simulação 
numérica, modelagem Estatística, visualização de dados, aprendizado de 
máquina, entre outras funções (JUPYTER, 2020).
Pandas
É uma ferramenta prática, flexível e fácil de utilizar para análise 
e manipulação de dados de código aberto, construída em cima da 
linguagem de programação Python. Esta provê uma estrutura de dados e 
funções robustas para trabalhar com grandes massas de dados de modo 
mais rápida (PANDAS, 2020). 
Ademais, o Pandas possibilita uma elaborada estrutura de dados e 
funções desenvolvidas para tornar mais prático e rápido o trabalho com 
um grande conjunto de dados (MCKINNEY, 2012).
Anaconda
É uma distribuição que disponibiliza vários pacotesque podem ser 
instalados todos de uma vez, sendo um importante recurso para trabalhar 
com ciência de dados. Além de permitir instalar os pacotes, otimizando 
Big Data e Ciência de Dados
48
o trabalho do desenvolvedor em configurar o ambiente de trabalho, o 
Anaconda também disponibiliza o Conda, que é responsável por controle 
de versões dos pacotes instalados. Assim, o desenvolvedor passa a poder 
trabalhar em vários projetos em diferentes versões de Python sem se 
preocupar com a versão dos pacotes instalados (CRUZ, 2018).
RESUMINDO:
Estudamos neste capítulo sobre a importância de utilizar 
ciência de dados. Entendemos como ela pode contribuir 
nos mais variados setores na descoberta de conhecimento, 
de modo que, a cada dia possibilita responder a problemas 
científicos ou até problemas associados a detectar padrões 
de comportamento, como aqueles direcionados para a área 
de negócios. Apresentamos ainda aplicação da ciência de 
dados no campo da Biologia, da Saúde e em projeto social, 
como também, as contribuições nos setores de negócios 
mostrando o ganho em estratégias, financeiro, vendas e até 
fidelização de cliente, os quais, é possível obter por meio 
da aplicação em data science. Por fim, não poderíamos 
deixar de citar ferramentas que são usadas para aplicar as 
técnicas e métodos de Ciência de Dados.
Big Data e Ciência de Dados
49
REFERÊNCIAS
AMARAL, F. Introdução à Ciência de Dados: mineração de dados e 
Big Data. Rio de Janeiro: ALTA Books, 2016.
BARRETO, V. Ciência de Dados e a importância de sua 
humanização. Medium, 2019. Disponível em: https://medium.com/
torustimelab/ci%C3%AAncia-de-dados-e-a-import%C3%A2ncia-de-sua-
humaniza%C3%A7%C3%A3o-6b3bd3ab30ba. Acesso em: 24 maio 2020.
BELL, G.; Hey, T.; Szalay, A. Beyond the Data Deluge. Tradução 
Google translate. Science, v. 323, p. 1297-1298. 2009.
BERTIN, B.; VISOLI, C.; DRUCKER, P. A gestão de dados de pesquisa 
no contexto da e-science: benefícios, desafios e oportunidades para 
organizações de p&d. Ponto de Acesso, v. 11, n. 2, p. 34-48, 2017.
BORGES, L. Python para desenvolvedores. São Paulo: Novatec, 
2014.
BUGNION, P. et al. Scala: Guide for Data Science Professionals. 
Birmingham: Packt Publishing, 2017.
CETAX. Diferença Entre Business Intelligence, Data Warehouse, 
Data Science E Big Data. Cetax, [s. d.]. Disponível em: https://www.cetax.
com.br/blog/diferenca-bi-dw-data-science-big-data/. Acesso em: 22 
maio 2020.
CIELEN, D.; MEYSMAN, B.; ALI, M. Introducing Data Science: Big 
Data, Machine Learning, and more using Python Tools, Shelter Island: 
Editor Manning Publication, 2016.
CLEVELAND, S. Data Science: anactionplan for Expanding the 
technical áreas ofth efieldof statistics. International Statistical Review, 
Malden, v. 69, p. 21-26. 2001.
CRUZ, L. Data Science: desenvolvimento de aplicação para análise 
de dados. 2018. Monografia (Graduação em Ciência da Computação) – 
Instituto Municipal de Ensino Superior de Assis. Assis. 2018.
Big Data e Ciência de Dados
50
CRUZ, P.; COVA, G. Teoria das Decisões: um Estudo do Método 
Lexicográfico. RPCA, Rio de Janeiro, v. 1, n. 1, p. 26-35, set./dez. 2007.
DAVENPORT, H.; COHEN, D.; JACOBSON, A. Competing on Analytics. 
Harvard Business Review, p. 98-107, 2016.
ECONOMIST, The. The world’s most valuable resource is no longer 
oil, but data. Economist, 2017. Disponível em: https://www.economist.
com/leaders/2017/05/06/the-worldsmost-valuable-resource-is-no-
longer-oil-but-data. Acesso em: 20 maio 2020.
ESPINDOLA, S; ROTH, L. Big Data e Inteligência Estratégica: Um 
Estudo de Caso Sobre a Mineração de Dados como Alternativa de Análise. 
Revista Espacios, v. 37, n. 4, p. 16, out. 2015. 
ESTRIN, D. Small Data, where n = me. Communications of the ACM, 
v. 57, n. 4, p. 32-34. 2014.
EVERETT, M.; BORGATTI, S. P. Ego network betweenness. Social 
networks, v. 27, n. 1, p. 31-28. 2005.
FÁVERO, L. Big Data e tomada de decisão: há limites para a Ciência 
de Dados? It Fórum, [s. d.]. Disponível em: https://itforum365.com.br/
colunas/big-data-e-tomada-de-decisao-ha-limites-para-a-ciencia-dos-
dados/. Acesso em: 19 maio 2020.
FAYYAD, M. et al. Advances in Knowledge Discovery and Data 
Mining. Cambridge: Mit Press, 1996.
FINZER, W. The Data Science Education Dilemma. Technology 
Innovations In Statistics Education, v. 7, n. 2. 2013. 
GADELHA, R. et al. Scalable and provenance—enabled scientific 
workflows for predicting distribution of species. In: INTERNATIONAL 
CONFERENCE ON ECOLOGICAL INFORMATICS, 8., 2012, Brasília. Anais 
[…] Brasília: ISEI, 2012.
GOLDSCHMIDT, R.; BEZERRA, E. Exemplos de aplicações de data 
mining no mercado brasileiro. Computer World, 2016. Disponível em: 
https://computerworld.com.br/2016/06/27/exemplos-de-aplicacoes-
de-data-mining-no-mercado-brasileiro/. Acesso em: 24 jul. 2020.
Big Data e Ciência de Dados
51
MANZANO, J. Programação de Computadores com C++. São 
Paulo: Érica, 2011.
MARCHIONINI, G. Information Science Roles in the Emerging Field 
of Data Science. Journal of Data and Information Science, v. 1, n. 2, p. 1-6. 
2016.
MCKINNEY, W. Python for Data Analysis. Sebastopol: O’Reilly, 2012.
NETTO, A. Quando a área de Saúde encontra a Ciência dos Dados. 
Linkedin, 2019. Disponível em: https://www.linkedin.com/pulse/quando-
%C3%A1rea-de-sa%C3%BAde-encontra-ci%C3%AAncia-dos-dados-
antonio-valerio-netto. Acesso em: 23 maio 2020.
OLAVSRUD, T. Afinal o que é Ciência de Dados e o que isso tem a ver 
com a profissão do futuro. Id Gshow, 2018. Disponível em: http://idgnow.
com.br/carreira/2018/07/05/afinal-oque-e-ciencia-de-dados-e-o-que-
isso-tem-a-ver-com-as-profissoes-do-futuro/. Acesso em: 18 maio 2020.
PAIXÃO A.; SILVA V.; TANAKA, A. De Business Intelligence a 
Data Science: um estudo comparativo entre áreas de conhecimento 
relacionadas. Semantic Scholar, 2015. Disponível em: https://pdfs.
semanticscholar.org/a335/91f5334b50aa8230754e85ae2c37d9a946a0.
pdf. Acesso em: 20 maio 2020.
PATIL, H.; DAVENPORT, J. Data Scientist: thes exiest job of the 21st 
century. HBR, 2012. Disponível em: https://hbr.org/2012/10/data-scientist-
the-sexiest-job-of-the-21st-century. Acesso em: 20 maio 2020.
PRATES, R.; HOPPEN, J. O que Ciências de Dados e como aplicá-
los nos negócios. Aquare, 2018. Disponível em: https://www.aquare.la/o-
que-e-ciencia-de-dados-data-science-para-negocios/. Acesso em: 23 
maio 2020.
PROVOST, F.; FAWCETT, T. . Data Science para negócios: o que 
você precisa saber sobre mineração de dados e pensamento analítico de 
dados. Rio de Janeiro: Alta Books, 2016.
REIS, M. Ciência de Dados E Ciência Da Informação: Guia De 
Alfabetização De Dados para bibliotecários. São Cristóvão: Universidade 
Federal de Sergipe, 2019. 
Big Data e Ciência de Dados
52
SAIBA por que o Data Science é essencial dentro dos negócios. 
Totvs, 2019. Disponível em: https://www.totvs.com/blog/inovacoes/
data-science-como-a-ciencia-de-dados-e-essencial-nos-negocios/. 
Acesso em: 10 jul. 2020.
SANTANA F. Big Data X Data Science: qual a diferença entre 
os dois conceitos? Minerando Dados, [s. d.]. Disponível em: https://
minerandodados.com.br/big-data-x-data-science-qual-a-diferenca-
entre-os-dois-conceitos/. Acesso em: 20 maio 2020.
SCHREIBER, G. et al. Knowledge Engineering and Management: 
the Com-monKADS Methodology. Cambridge: MIT Press, 2000.
SMITH, F. Jack Data Science as an academic discipline. Data 
Science Journal, v. 5, p. 163-164, 2006.
SOARES, R. Análise de dados em processos de auditoria. 
Universidade Estadual de Campinas, 2019. Disponível em: https://www.
ime.unicamp.br/~mac/db/2019-2S-166526.pdf. Acesso em: 14 fev. 2022.
TAN, P.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining: 
mineração de dado. São Paulo: Ciências modernas, 2009.
TURBAN, E.; SHARDA, R.; ARONSON, J.; KING, D. Business 
Intelligence: um enfoque gerencial para a inteligência do negócio. Porto 
Alegre: Bookman, 2009.
VIANNA, B.; DUTRA, L. Big Data e gestão da informação:Modelagem 
do Contexto Decisional Apoiado pela Sistemografia. Revista Informação 
e Informação, Londrina, v. 21, n. 1, p. 185-212, jan./abr. 2016.
VIOLINO B. 8 habilidades essenciais para cientistas de dados de alto 
desempenho. CIO, 2018. Disponível em: https://cio.com.br/8-habilidades-
essenciais-para-cientistas-de-dados-de-alto-desempenho/. Acesso em: 
22 maio 2020.
WANG, D., JEFFREY, F.; GRIBSKOV, M. Systematic Trans-Genomic 
Comparison of Protein Kinases between Arabidopsis and Saccharomyces 
cerevisiae. Plant Physiology, v. 132. 2003.
Big Data e Ciência de Dados
53
WANG, L. Twinning data science with information science in schools 
of library and information science. Journal of Documentation, v. 74, n. 6, 
p. 1243-1257. 2018.
WAYNE, P. 6 ferramentas que facilitam a adoção da Ciência de 
Dados. CIO, 2019. Disponível em: https://cio.com.br/6-ferramentas-que-
facilitam-a-adocao-da-ciencia-de-dados/. Acesso em: 23 maio 2020.
Big Data e Ciência de Dados
	_Hlk39602591
	Conceitos e Escopos da Ciência de Dados
	Fases do projeto em Ciência de Dados
	Ciclo de vida do dado
	Relação de ciência de dados com ciências de informações
	Ciência de Dados: termos usados
	Princípios e Diferenças entre Ciência de Dados e Big Data
	Princípios e diferenças: Big Data e Ciência de Dados 
	Big Data e Ciência de Dados no processo de tomada de decisão
	Ciência de Dados e Business Intelligence
	O Papel e a Importância do Cientista de Dados
	Cientista de dados 
	Formação e atuação do cientista de dados
	Perfil do profissional
	Habilidades do cientista de dados 
	Competências relacionadas
	Aplicações da Ciência de Dados
	Onde aplicar a Ciência de Dados 
	Ciência de Dados na Biologia
	Ciência de Dados aplicada na Saúde
	Ciência de Dados aplicada ao Projeto Social
	Ciência de Dados aplicada aos negócios
	Ferramentas que trabalham com Ciência de Dados
	Linguagem de programação Python
	Jupyter
	Pandas
	Anaconda

Continue navegando