Buscar

Fundamentos de Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 259 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 259 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 259 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Indaial – 2019
Fundamentos de Big data
Prof.a Barbieri Gonçalves
Prof. Glauber Rogério
Prof.a Izabelly Soares de Morais
1a Edição
Impresso por:
2019
Elaboração:
Prof.a Barbieri Gonçalves
Prof. Glauber Rogério
Prof.a Izabelly Soares de Morais
Revisão, Diagramação e Produção:
Centro Universitário Leonardo da Vinci – UNIASSELVI
Conteúdo produzido
Copyright © Sagah Educação S.A.
III
apresentação
Prezado acadêmico! 
Seja bem-vindo à disciplina de Fundamentos de Big Data.
Este Caderno de Estudos foi elaborado com o intuito de contribuir e 
aprimorar o seu conhecimento acerca destas três unidades principais: Unida-
de 1: Conceitos de Big Data; Unidade 2: Infraestruturas para Processamento 
de Big Data, Armazenamento, Suporte a Tempo Real e Desafios na Gerência 
de Big Data; Unidade 3: Análise de dados, Integração e Recursos Humanos 
para Big Data .
Big data e sua análise estão no centro da ciência moderna e negócios. 
Esses dados são gerados a partir de transações on-line, e-mails, vídeos, áu-
dios, imagens, streams de cliques, registros, postagens, consultas de pesqui-
sa, registros de saúde, interações de redes sociais, dados científicos, sensores 
e telefones celulares e seus aplicativos. Eles são armazenados em bancos de 
dados que crescem de forma massiva e se tornam difíceis de capturar, for-
mar, armazenar, gerenciar, compartilhar, analisar e visualizar por meio de 
ferramentas típicas de software de banco de dados.
Big Data é a tendência nos negócios porque através das técnicas e 
métodos envolvidos é possível a geração de informação estratégica para as 
organizações. Para os profissionais trata-se de mais um nicho para o mercado 
que precisa de mão de obra qualificada e por isso, esta disciplina se torna tão 
importante. Os conceitos aqui apresentados representam o amadurecimento 
das técnicas, métodos, ferramentas e atividades utilizadas ao longo dos anos. 
Aproveitamos esse momento para destacar que os exercícios NÃO 
SÃO OPCIONAIS. O objetivo de cada exercício deste caderno é a fixação de 
determinado conceito, bem como o aprimoramento dos seus saberes. É aí 
que reside a importância de você estar realizando todas as atividades pro-
postas. Sugerimos fortemente que, em caso de dúvida, em algum exercício 
você entre em contato com seu tutor externo ou com a tutoria da UNIAS-
SELVI e que não passe para o exercício seguinte enquanto o atual não estiver 
completamente compreendido.
Por fim, ressalto que mesmo sendo uma área muito ampla, o Caderno 
de Estudos lhe oferece um início sólido e consistente sobre o tema. Desejo a 
você uma excelente experiência nos estudos dos conteúdos dessa disciplina!
IV
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para 
você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há 
novidades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é 
o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um 
formato mais prático, que cabe na bolsa e facilita a leitura. 
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova 
diagramação no texto, aproveitando ao máximo o espaço da página, o que também 
contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, 
apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade 
de estudá-lo com versatilidade nas telas do celular, tablet ou computador. 
 
Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para 
apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto 
em questão. 
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas 
institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa 
continuar seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de 
Desempenho de Estudantes – ENADE. 
 
Bons estudos!
NOTA
V
VI
Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela 
um novo conhecimento. 
Com o objetivo de enriquecer teu conhecimento, construímos, além do livro 
que está em tuas mãos, uma rica trilha de aprendizagem, por meio dela terás 
contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complementares, 
entre outros, todos pensados e construídos na intenção de auxiliar teu crescimento.
Acesse o QR Code, que te levará ao AVA, e veja as novidades que preparamos para teu estudo.
Conte conosco, estaremos juntos nessa caminhada!
LEMBRETE
VII
UNIDADE 1 - FUNDAMENTOS DE BIG DATA ................................................................................1
TÓPICO 1 - INTRODUÇÃO À CIÊNCIA DE DADOS .....................................................................3
1 INTRODUÇÃO .......................................................................................................................................3
2 CIÊNCIA DE DADOS............................................................................................................................3
3 INFLUÊNCIA DA CIÊNCIA DE DADOS NA TOMADA DE DECISÕES.................................5
4 CARACTERÍSTICAS DE UM CIENTISTA DE DADOS................................................................8
RESUMO DO TÓPICO 1........................................................................................................................10
AUTOATIVIDADE .................................................................................................................................12
TÓPICO 2 - CIÊNCIA DE DADOS E BIG DATA .............................................................................15
1 INTRODUÇÃO .....................................................................................................................................15
2 DADOS E DATASETS ..........................................................................................................................15
3 O USO DA CIÊNCIA DE DADOS E BIG DATA ............................................................................17
4 APLICAÇÕES PRÁTICAS DA CIÊNCIA DE DADOS E BIG DATA .........................................19
RESUMO DO TÓPICO 2........................................................................................................................21
AUTOATIVIDADE .................................................................................................................................23
TÓPICO 3 - DESCOBERTA DE CONHECIMENTO COM BIG DATA .......................................25
1 INTRODUÇÃO .....................................................................................................................................25
2 PROCESSO DE DESCOBERTA DE CONHECIMENTO..............................................................25
3 APLICAÇÃO DO PROCESSO DE DESCOBERTA DO CONHECIMENTO ...........................27
3.1 DEFINIÇÃO DOS OBJETIVOS ......................................................................................................27
3.2 SELEÇÃO ..........................................................................................................................................27
3.3 PRÉ-PROCESSAMENTO ................................................................................................................28
3.4 TRANSFORMAÇÃO .......................................................................................................................28
3.5 MINERAÇÃO DE DADOS .............................................................................................................29
3.6 INTERPRETAÇÃO E AVALIAÇÃO ..............................................................................................29
4 BIG DATA NA ÁREA DA SAÚDE ....................................................................................................305 BIG DATA NA ADMINISTRAÇÃO PÚBLICA ..............................................................................31
RESUMO DO TÓPICO 3........................................................................................................................32
AUTOATIVIDADE .................................................................................................................................33
TÓPICO 4 - APLICAÇÕES DA CIÊNCIA DE DADOS ..................................................................35
1 INTRODUÇÃO .....................................................................................................................................35
2 APLICAÇÃO DA CIÊNCIA DE DADOS ........................................................................................35
3 EXEMPLOS DE APLICAÇÃO DA CIÊNCIA DE DADOS ..........................................................37
4 BUSINESS INTELLIGENCE (BI) E CIÊNCIA DE DADOS ...........................................................39
RESUMO DO TÓPICO 4........................................................................................................................41
AUTOATIVIDADE .................................................................................................................................43
TÓPICO 5 - INTELIGÊNCIA ARTIFICIAL ........................................................................................45
1 INTRODUÇÃO .....................................................................................................................................45
2 O QUE É INTELIGÊNCIA ARTIFICIAL (IA)? ................................................................................45
3 HISTÓRICO ...........................................................................................................................................47
4 APLICAÇÕES ........................................................................................................................................50
RESUMO DO TÓPICO 5........................................................................................................................53
AUTOATIVIDADE .................................................................................................................................55
sumário
VIII
UNIDADE 2 - INFRAESTRUTURAS PARA PROCESSAMENTO
 DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO
 REAL E DESAFIOS NA GERÊNCIA DE BIG DATA ............................................57
TÓPICO 1 - INFRAESTRUTURA DE DADOS E DE REDES II .....................................................59
1 INTRODUÇÃO .....................................................................................................................................59
2 GESTÃO DE CONTEÚDO EMPRESARIAL ..................................................................................59
3 DATA WAREHOUSE .............................................................................................................................61
3.1 PROCESSAMENTO E MODELAGEM DE DADOS ...................................................................63
3.2 PROCESSAMENTO OLAP ............................................................................................................64
3.3 MODELAGEM DE DADOS ...........................................................................................................65
3.4 MODELAGEM DIMENSIONAL ...................................................................................................65
3.5 DATA MARTS ..................................................................................................................................69
3.6 DATA CENTER ................................................................................................................................70
RESUMO DO TÓPICO 1........................................................................................................................72
AUTOATIVIDADE .................................................................................................................................73
TÓPICO 2 - INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II ....................................77
1 INTRODUÇÃO .....................................................................................................................................77
2 INFRAESTRUTURA TRADICIONAL DE TI .................................................................................77
3 INFRAESTRUTURA EM NUVEM ....................................................................................................78
3.1 GERENCIAMENTO DE DADOS EM NUVEM ..........................................................................82
3.2 BANCO DE DADOS COMO UM SERVIÇO ...............................................................................84
3.3 CARACTERÍSTICAS DO GERENCIAMENTO DE DADOS EM NUVEM.............................85
3.4 AVALIAÇÃO DE SERVIÇOS DE DADOS EM NUVEM ...........................................................86
3.5 CINCO TENDÊNCIAS EM SEGURANÇA DE DADOS ...........................................................87
RESUMO DO TÓPICO 2........................................................................................................................89
AUTOATIVIDADE .................................................................................................................................90
TÓPICO 3 - COMPUTAÇÃO NA NUVEM ........................................................................................93
1 INTRODUÇÃO .....................................................................................................................................93
2 DATA CENTER .......................................................................................................................................93
2.1 FUNÇÃO ...........................................................................................................................................94
2.2 ESTRUTURA ....................................................................................................................................94
3 TIPOLOGIA DA COMPUTAÇÃO EM NUVEM ...........................................................................95
3.1 PRINCIPAIS FORNECEDORES ....................................................................................................96
4 VANTAGENS E DESVANTAGENS DO MODELO PARA TOMADA DE DECISÕES .........96
RESUMO DO TÓPICO 3........................................................................................................................98
AUTOATIVIDADE ...............................................................................................................................100
TÓPICO 4 - ANALISAR E COMPREENDER A UTILIZAÇÃO
 DO BANCO DE DADOS NOSQL ...............................................................................103
1 INTRODUÇÃO ...................................................................................................................................103
2 BANCOS DE DADOS .......................................................................................................................103
3 MODELOS DE DADOS ...................................................................................................................104
3.1 MODELO HIERÁRQUICO ..........................................................................................................104
3.2 MODELO EM REDE .....................................................................................................................104
3.3 MODELO RELACIONAL.............................................................................................................105
3.4 MODELO ORIENTADO A OBJETOS .........................................................................................105
4 SGBD ....................................................................................................................................................1055 BIG DATA ...........................................................................................................................................105
6 NOSQL ..................................................................................................................................................106
6.1 PRINCIPAIS CARACTERÍSTICAS DOS BANCOS DE DADOS NOSQL .............................108
6.2 TIPOS DE BANCOS DE DADOS NOSQL .................................................................................110
RESUMO DO TÓPICO 4......................................................................................................................112
AUTOATIVIDADE ...............................................................................................................................114
IX
TÓPICO 5 - INOVAÇÃO E DESIGN THINKING ............................................................................117
1 INTRODUÇÃO ...................................................................................................................................117
2 INOVAÇÃO E DESIGN THINKING ...............................................................................................117
3 INOVAÇÃO COMO PROCESSO CENTRAL NOS NEGÓCIOS .............................................120
4 INOVANDO COM DESIGN THINKING .......................................................................................122
5 DESIGN THINKING ...........................................................................................................................124
6 O QUE É DESIGN THINKING? ........................................................................................................124
7 FASES DO DESIGN THINKING ......................................................................................................127
7.1 EMPATIA ........................................................................................................................................129
7.2 DEFINIÇÃO ....................................................................................................................................129
7.3 IDEAÇÃO .......................................................................................................................................129
7.4 PROTOTIPAÇÃO ..........................................................................................................................130
7.5 TESTE ...............................................................................................................................................130
8 ONDE ESTÁ O DESIGN THINKING? ............................................................................................131
9 DESIGN THINKING: IDEAÇÃO .....................................................................................................134
10 DESIGN THINKING: O QUE É IDEAÇÃO ................................................................................135
11 A IDEAÇÃO NO REFINO DO PROBLEMA EM UM PROCESSO
 DE DESIGN THINKING ..................................................................................................................137
12 DESIGN THINKING: INTERAÇÕES ENTRE A IDEAÇÃO
 E A SOLUÇÃO DO PROBLEMA ...................................................................................................139
13 DESIGN THINKING: COMPREENSÃO DO PROBLEMA .......................................................141
14 DESIGN THINKING: COMO COMPREENDER O PROBLEMA ............................................141
15 EMPATIA NO PROCESSO DE DESIGN THINKING ................................................................142
16 DESIGN THINKING: FERRAMENTAS DA ETAPA DE IMERSÃO .......................................145
17 DESIGN THINKING: PROTOTIPAGEM E TESTAGEM ..........................................................148
18 PROTOTIPAGEM NO DESIGN THINKING...............................................................................148
19 O PROTÓTIPO NOS PROJETOS DE INOVAÇÃO ..................................................................150
20 A VALIDAÇÃO NA PROTOTIPAGEM E NA TESTAGEM ....................................................152
RESUMO DO TÓPICO 5......................................................................................................................155
AUTOATIVIDADE ...............................................................................................................................157
UNIDADE 3 - ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS
 HUMANOS PARA BIG DATA ................................................................................159
TÓPICO 1 - MINERAÇÃO DE DADOS ...........................................................................................161
1 INTRODUÇÃO ...................................................................................................................................161
2 AS PRINCIPAIS ETAPAS DO PROCESSO DE MINERAÇÃO DE DADOS .........................161
3 O PROCESSO DE DESCOBERTA DE CONHECIMENTO (KDD) ..........................................163
4 CONCEITO E A APLICAÇÃO DE BIG DATA .............................................................................165
RESUMO DO TÓPICO 1......................................................................................................................166
AUTOATIVIDADE ...............................................................................................................................167
TÓPICO 2 - APLICAR METODOLOGIAS DE DATA MINING
 (MINERAÇÃO DE DADOS) ........................................................................................169
1 INTRODUÇÃO ...................................................................................................................................169
2 O QUE É DATA MINING? .................................................................................................................169
3 AS PRINCIPAIS TÉCNICAS DE DATA MINING ........................................................................170
3.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO ......................................................................170
3.2 MINERAÇÃO DE ITENS FREQUENTES ..................................................................................170
3.3 MINERAÇÃO POR CLUSTERING .............................................................................................171
3.4 MINERAÇÃO POR ÁRVORES DE DECISÃO ..........................................................................172
3.5 MINERAÇÃO POR CLASSIFICAÇÃO BAYESIANA ..............................................................172
3.6 MINERAÇÃO POR REDES NEURAIS .......................................................................................173
4 UTILIZAÇÃO DAS METODOLOGIAS DE MINERAÇÃO ......................................................174
RESUMO DO TÓPICO 2......................................................................................................................176
AUTOATIVIDADE ...............................................................................................................................177
X
TÓPICO 3 - UTILIZAR TÉCNICAS DE DATA MINING ...............................................................179
1 INTRODUÇÃO ...................................................................................................................................179
2 IDENTIFICAÇÃO DAS TÉCNICAS DE DATA MINING ...........................................................179
2.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO ......................................................................180
2.2 MINERAÇÃO POR CLASSIFICAÇÃO ......................................................................................180
2.3 MINERAÇÃO POR CLUSTERING .............................................................................................181
2.3 MINERAÇÃO POR ÁRVORES DE DECISÃO ..........................................................................181
2.4 MINERAÇÃOPOR PADRÕES SEQUENCIAIS .......................................................................182
3 A LÓGICA PARA A MINERAÇÃO DE DADOS .........................................................................182
4 APLICAÇÃO E SINTAXE DE CONSULTAS DE MINERAÇÃO ..............................................183
RESUMO DO TÓPICO 3......................................................................................................................186
AUTOATIVIDADE ...............................................................................................................................187
TÓPICO 4 - MINERAÇÃO DE TEXTOS (TEXT MINING) ...........................................................189
1 INTRODUÇÃO ...................................................................................................................................189
2 O CONCEITO DE TEXT MINING ...................................................................................................189 
2.1 MINERAÇÃO DE TEXTO POR CLASSIFICAÇÃO .................................................................191
2.2 MINERAÇÃO DE TEXTO POR CLUSTERING .........................................................................191
2.3 MINERAÇÃO TEXTO POR OTIMIZAÇÃO .............................................................................191
3 PROCESSO DE DESCOBERTA DE CONHECIMENTO EM TEXTOS ...................................192
4 EXEMPLOS DE FERRAMENTAS DE MINERAÇÃO DE TEXTOS .........................................195
RESUMO DO TÓPICO 4......................................................................................................................197
AUTOATIVIDADE ...............................................................................................................................199
TÓPICO 5 - APRENDIZADO DE MÁQUINA (MACHINE LEARNING) .................................201
1 INTRODUÇÃO ...................................................................................................................................201 
2 CONCEITOS SOBRE APRENDIZADO DE MÁQUINA ...........................................................201
3 ALGORITMOS DE APRENDIZADO DE MÁQUINA ...............................................................204
4 APLICAÇÕES DO APRENDIZADO DE MÁQUINA .................................................................209
RESUMO DO TÓPICO 5......................................................................................................................211
AUTOATIVIDADE ...............................................................................................................................213
TÓPICO 6 - INTRODUÇÃO AO HADOOP .....................................................................................215
1 INTRODUÇÃO ...................................................................................................................................215 
2 HADOOP ..............................................................................................................................................215
3 COMPONENTES DO HADOOP .....................................................................................................219
4 EXECUÇÃO DO HADOOP ...............................................................................................................220
4.1 HDFS ................................................................................................................................................221
4.2 COMANDOS HDFS ......................................................................................................................222
4.3 DIVISÃO EM BLOCOS .................................................................................................................224
4.4 ARQUITETURA .............................................................................................................................224
4.5 REPLICAÇÃO DE DADOS ..........................................................................................................225
5 HADOOP MAPREDUCE ...................................................................................................................226
5.1 GOOGLE MAPREDUCE ..............................................................................................................227
RESUMO DO TÓPICO 6......................................................................................................................230
AUTOATIVIDADE ...............................................................................................................................232
TÓPICO 7 - INTEGRANDO BIG DATA E IOT ...............................................................................235
1 INTRODUÇÃO ...................................................................................................................................235 
2 CONCEITOS DE BIG DATA E INTERNET DAS COISAS (IOT) ............................................235
3 INTEGRAÇÃO ENTRE BIG DATA E IOT ....................................................................................237
4 CENÁRIOS DE USO DE BIG DATA E IOT ..................................................................................241
RESUMO DO TÓPICO 7......................................................................................................................244
AUTOATIVIDADE ...............................................................................................................................246
REFERÊNCIAS .......................................................................................................................................249
1
UNIDADE 1
FUNDAMENTOS DE BIG DATA
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• definir o conceito de ciência de dados;
• discutir dados e tomada de decisão;
• definir características do cientista de dados.
Esta unidade está dividida em cinco tópicos. No decorrer da unidade 
você encontrará autoatividades com o objetivo de reforçar o conteúdo 
apresentado.
TÓPICO 1 – INTRODUÇÃO À CIÊNCIA DE DADOS
TÓPICO 2 – CIÊNCIA DE DADOS E BIG DATA
TÓPICO 3 – DESCOBERTA DE CONHECIMENTO COM BIG DATA
TÓPICO 4 – APLICAÇÕES DA CIÊNCIA DE DADOS
TÓPICO 5 – INTELIGÊNCIA ARTIFICIAL
Preparado para ampliar teus conhecimentos? Respire e vamos em 
frente! Procure um ambiente que facilite a concentração, assim absorverás 
melhor as informações.
CHAMADA
2
3
TÓPICO 1
UNIDADE 1
INTRODUÇÃO À CIÊNCIA DE DADOS
1 INTRODUÇÃO
Você sabia que, ao acessarmos praticamente qualquer dispositivo 
eletrônico, estamos, de certa forma, inserindo nossos dados e, com o tempo, os 
dispositivos acabam guardando esses dados, gerando diversas informações sobre 
nós? Estamos vivendo na era da informação.
Neste tópico, você compreenderá o que é a ciência de dados, como ela 
pode influenciar na tomada de decisões, e até mesmo no relacionamento entre os 
seres humanos e suas atividades frequentes, quando há o uso intermediário de 
algum recurso tecnológico. Além disso, conhecerá as características que definem 
os cientistas de dados, profissionais responsáveis por exercer essa função tão 
inovadora e desafiante.
2 CIÊNCIA DE DADOS
Uma das necessidades explícitas da sociedade atual é aprender a lidar 
com a tecnologia. Apesar de isso transparecer como algo natural, na verdade, não 
o é, tendo em vista que, com o passar dos tempos, a própria tecnologia foi sendo 
moldada para atender à alta demanda social.
Antes, os primeiros recursos tecnológicos que envolviam uso de 
eletricidade tinham pouquíssimas funcionalidades — isso quando não se 
limitavam a apenas uma. Se voltarmos um pouco no tempo, quando os primeiros 
recursos computacionais começaram a ser desenvolvidos, vemos que o maior 
objetivo era justamente o de aprender a lidar com os dados. Os registros eram 
poucos e não demandavam componentes físicos tão sofisticados como os que 
temos hoje, porém, a sociedade foi se interessando cada vez mais poresses 
artefatos que auxiliam, de certa forma, em suas atividades cotidianas.
Mas o que são esses dados? Antes de tudo, é importante destacar que um 
dado sem uma informação não tem sentido. Dados podem ser exemplificados 
como números em uma planilha: quando adicionamos um contexto a eles, 
estamos gerando informações (como colocar, ao lado dos números, nomes de 
produtos ou legendas, como datas, valores, dentre outros).
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
4
Por falar nisso, você já parou para prestar atenção na quantidade de dados 
que você mesmo gera na rede? Comece olhando sua caixa de e-mail: são muitas 
informações! Você também já fez alguma pesquisa sobre algo, um produto, uma 
dúvida ou serviço e, quando acessou suas redes sociais ou e-mail, deparou-se com 
promoções e dicas sobre o assunto de sua busca? Então, as empresas, em conjunto 
com as ferramentas tecnológicas, possuem diversos meios de obter informações 
de você, mesmo que de forma “discreta”.
Para entender o que é um dado e o que é uma informação, podemos pen-
sar no número 25. Que lembrança esse número traz para você? Bem, caso não seja seu 
aniversário ou alguma data especial para você, pode ser visto apenas como um número 
qualquer. No entanto, se adicionarmos o contexto de 25 de dezembro, podemos associá-
-lo às festividades natalinas. É dessa forma que uma informação é tida, na junção do dado 
bruto com um contexto.
DICAS
A ciência de dados surgiu com a necessidade de lidarmos com a enorme 
quantidade de dados e informações geradas por nossas ações em conjunto 
com algum artefato — neste caso, tecnológico. Ela atende a uma demanda 
interdisciplinar, na qual estão inseridas outras tecnologias voltadas aos dados, 
como Big Data. O termo foi mencionado inicialmente em meados de 2010, mas, 
antes, seus conceitos eram compreendidos por outros termos, como OLAP (Online 
Analytical Processing) e BI (Business Intelligence). Podemos notar que, apesar de 
conseguirmos visualizar claramente a quantidade de dados que temos ao nosso 
redor, variantes do termo já vêm sendo utilizadas há algum tempo.
A partir da Figura 1, podemos perceber que a ciência de dados é 
interdisciplinar, tendo em vista que pode estar associada à ciência da computação, 
já que armazena, obtém e trata os dados; com a estatística e a matemática, 
porque realiza análises estatísticas de mineração e filtragem de dados; e, 
consequentemente, com design gráfico e especialização científica, uma vez que 
dados são visualizados, refinados e, principalmente, questionados.
TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS
5
FIGURA 1 – CIÊNCIA DE DADOS: INTERDISCIPLINAR
FONTE: Provost e Fawcett (2016)
Ciência da
computação
Matemática 
e estatística
Especialização
científi ca
Pesquisa
tradicional
Aprendizado
de máquina
Software
tradicional
Ciência
de dados
3 INFLUÊNCIA DA CIÊNCIA DE DADOS NA TOMADA DE 
DECISÕES
O mundo contemporâneo está sujeito a lidar com acentuadas transições, 
não só tecnológicas, mas também políticas, sociais e até mesmo econômicas. 
A cada dia que passa, novas descobertas em todos os setores afetam todos os 
ciclos nos quais elas estão imersas. Com isso, surgem, também, novos padrões 
e mudanças potenciais, as quais trazem uma maior difi culdade no processo de 
tomada de decisões.
Quando você vai realizar uma compra, geralmente, você se questiona 
sobre como irá realizar o pagamento daquele produto, e as lojas, para não perder 
os clientes, oferecem várias opções de pagamentos. Você, como cliente, tem que 
decidir se vai dividir em mais vezes, com juros, ou em menos vezes, apesar de 
o valor das parcelas, logicamente, ser maior nesse último caso. Para tomar essa 
decisão, você estabelece suas próprias possibilidades diante de todo um contexto, 
por exemplo, se irá sobrar crédito ou dinheiro para as demais compras ou contas 
do mês. Você pode associar uma situação do seu cotidiano como essa, que, 
por acontecer diretamente com você, tem uma pequena dimensão, às mesmas 
decisões sendo tomadas por uma empresa, que lida com negócios enormes e com 
diversos processos simultâneos.
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
6
De acordo com Provost e Fawcett (2016) (Figura 2), a ciência de dados (ou data 
science) se insere no contexto de diversos outros processos intimamente associados 
e relacionados com dados na organização e se distingue de outros aspectos do 
processamento de dados que estão ganhando cada vez mais atenção nos negócios.
FIGURA 2 – DATA SCIENCE (CIÊNCIA DE DADOS) NO CONTEXTO DOS
DIVERSOS PROCESSOS RELACIONADOS A DADOS NA ORGANIZAÇÃO
FONTE: Provost e Fawcett (2016, p. 5)
Tomada de decisão
orientada por dados
(na empresa)
Engenharia e processamento
de dados
(incluindo tecnologias "Big Data")
Outros efeitos positivos do processamento
de dados (por exemplo, processamento
mais rápido de transações)
DOD automatizada
Data science
Ainda sob o ponto de vista dos autores, a tomada de decisão orientada 
por dados (DOD) refere-se à prática de basear as decisões na análise dos dados, 
em vez de apenas na intuição. Por exemplo, um negociante poderá selecionar 
anúncios baseado puramente em sua longa experiência na área e em sua intuição 
sobre o que funcionará; além disso, pode basear sua escolha na análise dos dados 
sobre a forma como os consumidores reagem a diferentes anúncios ou utilizar 
uma combinação dessas abordagens.
TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS
7
Você notou que os autores confirmaram justamente o que conversamos 
anteriormente, sobre surgirem diversas propagandas de produtos em e-mails e 
redes sociais de coisas para as quais você fez alguma busca? Essas abordagens se 
tornaram cada vez mais comuns no mundo dos negócios. A partir do momento 
em que essas grandes corporações reconhecem a importância da análise de 
dados, esses recursos passam a ser aplicados em grandes operações de mineração 
de dados, gerando marketing direto, ou seja, direcionado ao perfil dos usuários, 
publicidades on-line, avaliações de crédito, para que não sejam ofertados produtos 
e serviços incoerentes com os perfis dos clientes, gestão central de atendimento, 
recomendações de produtos, dentre outros.
Uma empresa investe no gerenciamento e na análise de dados com o intuito 
de obter oportunidades para geração de receitas e para redução de custos em seus 
processos visando o lucro financeiro. Durante a década de 1990, a tomada de 
decisão automatizada trouxe diversas mudanças a vários setores, principalmente 
os bancários e de empresas de telecomunicações. Na época, o foco era controlar 
a quantidade de fraudes, por isso, passaram a implantar o gerenciamento de 
decisões de controle de fraudes orientadas em dados. Hoje, sabemos que toda 
empresa que visa crescer no mundo dos negócios implanta de alguma forma a 
análise de seus dados, nem que seja por meio de percepções cotidianas.
A tomada de decisão identifica as principais etapas no processo decisório 
para estabelecer pontos cruciais que apoiem planos de ação com o intuito de 
desenvolver uma melhoria geral de todos os indicadores do negócio.
Nesse processo, a ciência de dados contribuirá com o levantamento de 
informações relevantes para dar suporte às decisões. Esses fatores são essenciais 
para que haja uma análise e, consequentemente, identificação e resolução de 
problemas nos processos empresariais do negócio. A ciência de dados levanta, 
também, questionamentos como: quais são os pontos que devem ser previstos, o 
que deve ser feito com todos os dados, quais podem ser as consequências, como 
os dados serão expostos e quais são os mais relevantes, como as questões de 
privacidade serão resolvidas, como devemos verificar se existe alguma anomalia 
ou padrões nos dados, qual modelo será mais adequado, como ele será validado, 
qual foi o aprendizado obtido com a análise dos dados.
Quando falamos de dados, podemos deparar-nos com outros termos, como:
• Big Data: está associado ao grande volume de dados que é processado por ferramen-
tas específicas, já que ferramentastradicionais, como planilhas e anotações vagas, não 
possuem suporte suficiente e eficaz para processá-las. Podemos associar esse concei-
to a volume, velocidade de atualização e variedade dos formatos.
DICAS
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
8
• Data warehouse: é um tipo especializado de banco de dados que reúne dados de um 
banco de dados de transações, de modo que eles possam ser analisados (TURBAN; 
VOLONINO, 2013, p. 59).
• Business Intelligence (BI): implica adquirir dados e informações (e, talvez, conhecimento) 
de uma grande variedade de fontes, organizá -los em um data warehouse e usá -los na 
tomada de decisões (TURBAN; VOLONINO, 2013, p. 104).
4 CARACTERÍSTICAS DE UM CIENTISTA DE DADOS
Com o surgimento de diversos termos relacionados aos dados, a 
necessidade de profissionais que fossem capacitados para lidar com as mais 
variadas tecnologias e contextos ficou mais evidente. Após Big Data se tornar 
evidente, o profissional para lidar com tudo isso precisava, na maioria das vezes, 
lidar com estatística, NoSQL, Cloud Computing, mineração de dados, dentre 
outros.
Conforme Godoi (2018), podemos destacar algumas atividades que são 
destinadas a alguns cargos específicos dentro das empresas.
• Data scientist: participa da formulação do problema, hipóteses de resolução e análise 
de resultados.
• Business analyst: analisa os dados gerados em relação ao negócio ou empresa avaliada.
• Data analyst: analisa os dados disponibilizados em busca de solução para os problemas 
enfrentados.
ATENCAO
Outro questionamento também passou a ter relevância: onde iriam 
encontrar um profissional com tantas qualificações? Essa lista de qualificações 
chegou a ser comparada às habilidades que apenas o supercomputador Watson 
(da IBM) possuía e possui até hoje.
O mercado almeja um profissional que tenha habilidades não só 
com tecnologias, mas também com matemática, estatística e conhecimentos 
em negócios, ou seja, na área administrativa, como podemos perceber pelo 
levantamento realizado por Amaral (2016), em que temos uma visão de um 
profissional de mercado, ou seja, o que realmente é possível de encontrar no 
mercado, e um profissional que demanda características quase que impossíveis, 
como o fato de haver uma única pessoa que seja especialista em todas as áreas.
TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS
9
QUADRO 3 – QUALIFICAÇÕES DO CIENTISTA DE DADOS
FONTE: O autor
Profissional de mercado Profissional idealizado
Conhecimento multidisciplinar Especialista em todas as áres
Gerência de projetos Foco em conhecimento técnico
Liderança Trabalha sozinho
Equipe de especialistas Especialista em todas as áreas
O nome data scientist ou cientista de dados foi utilizado pela primeira vez 
em 2008 e pode ser definido como um profissional de alto nível de formação, com 
curiosidade de fazer descobertas no mundo de Big Data: “[...] um cientista de 
dados é alguém que é curioso, que analisa os dados para detectar tendências”, 
disse, recentemente, Anuul Bhambhri, vice-presidente de produtos Big Data da 
IBM. “É quase como um indivíduo renascentista, que realmente quer aprender e 
trazer a mudança para uma organização” (TAURION, 2013).
Acesse o link a seguir para obter mais informações sobre o cientista de dados.
https://goo.gl/2PHZqk
UNI
Exemplos de ferramentas utilizadas para apresentação de dados: IBM Watson 
Analytics, Tableau, TIBCO Spotfire, Rapid Miner, Sisense, dentre outras.
INTERESSA
NTE
10
 Nesse tópico você aprendeu:
• A definição do conceito de ciência de dados.
• A Discutir dados e tomada de decisão.
• As características do cientista de dados. 
• Que a expressão data science se refere tanto à tecnologia em si quanto à 
aplicação de ferramentas tecnológicas aos processos empresariais. Essas 
ferramentas têm diversas utilidades, sendo uma das principais contribuir na 
tomada de decisões.
• Que a ciência de dados pode ser utilizada em diversas áreas
• A ciência de dados está presentes em áreas como as apresentadas no infográfico.
RESUMO DO TÓPICO 1
11
12
1 Atualmente, as grandes empresas lidam com grandes volumes de dados 
que podem ser aplicados nas estratégias de negócios, tanto para aumentar 
a lucratividade financeira quanto para lançamento e melhoria de produtos e 
serviços ofertados.
A TechAnalysis, considerada a maior empresa do ramo de telecomunicações 
do Brasil, contratou você como analista de dados. Ela está preocupada com o 
seguinte cenário:
AUTOATIVIDADE
Sabendo disso, responda:
a) Como a ciência de dados pode ajudar na tomada de decisões da empresa?
b) Quais informações presentes nos bancos de dados podem ajudar na 
construção de uma estratégia de retenção de clientes?
2 Uma tomada de decisão é estabelecida de acordo com diversas variáveis do 
contexto em que está inserida. Assinale a alternativa correta, referente aos 
dados e às tomadas de decisão. 
a) ( ) O ciclo da tomada de decisões faz uso dos dados apenas no processo 
de análise. Posteriormente, as tomadas de decisões são acionadas 
conforme experiências anteriores.
b) ( ) Geralmente o ciclo se inicia com o processamento de dados, que traz 
consigo o refinamento dos dados, para que posteriormente sejam 
analisados de forma automatizada e, assim, possam auxiliar na tomada 
de decisão das empresas.
13
c) ( ) Geralmente o ciclo se inicia com o refinamento dos dados, do qual o 
processamento de dados é parte integrante, para que posteriormente 
possam ser analisados de forma manual e auxiliar na tomada de 
decisão das empresas.
d) ( ) A ciência dos dados é empregada no tratamento dos dados gerados 
após a tomada de decisão, dando-lhes forma e empregabilidade 
necessária para uso.
e) ( ) A tomada de decisão orientada a dados tem início com o uso de 
tecnologias big data, para que posteriormente a ciência dos dados 
determine todas as tomadas de decisões.
3 A multidisciplinaridade envolvida na ciência dos dados traz conceitos, de 
pesquisa, aprendizado de máquina e até mesmo de especialidades científicas. 
Assinale a alternativa que traz uma associação correta de uma virtude dessa 
área com as demais áreas as quais está associada. 
a) ( ) A ciência dos dados, juntamente com a ciência da computação 
e a matemática, auxilia na inserção dos dados em um recurso 
computacional.
b) ( ) A ciência dos dados, juntamente com a especialização científica, auxilia 
no armazenamento de dados.
c) ( ) A ciência dos dados, juntamente com o design gráfico, proporciona a 
visualização e o refinamento dos dados.
d) ( ) A ciência dos dados, juntamente com a matemática e a estatística, 
auxilia na contabilidade de dados.
e) ( ) A ciência dos dados juntamente com a ciência da computação 
proporciona o perfil de questionamentos.
4 Com o surgimento de diversos termos relacionados aos dados, a necessidade 
de profissionais capacitados a lidar com as mais variadas tecnologias e 
contextos ficou mais evidente. Qual é a responsabilidade de um profissional 
ligado à ciência dos dados?
a) ( ) É um profissional que exerce sua função de forma individualizada e 
compartilha com a equipe apenas as tomadas de decisões necessárias.
b) ( ) Analisa os dados gerados em relação ao negócio ou à empresa avaliada.
c) ( ) Analisa todas as áreas da empresa, tendo em vista suas especializações 
que abrangem as áreas de negócios e tecnologias.
d) ( ) Participa da formulação do problema, hipóteses de resolução e análise 
de resultados.
e) ( ) Analisa os dados disponibilizados em busca de solução para os 
problemas enfrentados.
5 As tecnologias surgem com o intuito de suprir alguma demanda social. 
Dessa forma, acabam também trazendo mudanças para os processos e 
comportamentos, já que, com o tempo, acabam sendo suporte para realização 
de diversas atividades. Assinale a alternativa correta sobre a relevância da 
ciência dos dados dentro dos negócios.
14
a) ( ) A ciência dos dados tem como objetivo principal suprir a necessidade 
de ferramentas que organizem em planilhas os dados da empresa.
b)( ) A ciência dos dados tem como objetivo gerar grande volume de dados 
nos negócios.
c) ( ) A ciência dos dados surgiu com a necessidade de lidarmos com a 
enorme quantidade de dados e informações geradas.
d) ( ) A ciência dos dados tem como objetivo principal trazer automatização 
de processos nas atividades de uma empresa.
e) ( ) A ciência dos dados se desenvolveu em razão da falta de profissionais 
qualificados para tomada de decisões.
6 Atualmente, há a demanda por novas metodologias que sejam capazes de 
analisar grandes quantidades de dados e associá-las de forma interdisciplinar. 
Assinale a alternativa que traz a definição correta de "ciência dos dados".
a) ( ) A ciência dos dados é o estudo disciplinado de dados e informações.
b) ( ) A ciência dos dados é a geração de volume e variedade de novos dados.
c) ( ) A ciência dos dados é um tipo de banco de dados.
d) ( ) A ciência dos dados é o ato de organizar dados em uma data warehouse.
e) ( ) A ciência dos dados é o setor de TI da empresa.
15
TÓPICO 2
CIÊNCIA DE DADOS E BIG DATA
UNIDADE 1
1 INTRODUÇÃO
As informações e os dados nunca foram tão acessíveis quanto o são hoje 
em dia. Por meio da internet, conseguimos saber basicamente de tudo que ocorre 
na nossa localidade e no mundo. A cada ação nossa, provavelmente, muitos dados 
estão sendo gerados para as empresas responsáveis pelos artefatos e serviços 
tecnológicos de que fazemos uso.
Neste tópico, você vai compreender melhor sobre os conceitos de dados e 
datasets, assim como vai conseguir visualizar a ação conjunta que pode haver entre 
a ciência de dados e as tecnologias Big Data, tanto por meio de contextualizações 
quanto de práticas.
2 DADOS E DATASETS
Você já parou para pensar na quantidade de observações que estamos 
sempre fazendo em tudo que está ao nosso redor? O ser humano, devido a sua 
racionalidade, consegue lidar com interpretar e associar diversos acontecimentos 
quase que simultaneamente. E essa não é uma característica desenvolvida apenas 
quando somos adultos. Se você entrar em uma loja de brinquedos com uma 
criança, você compreenderá melhor o que estamos falando, já que as primeiras 
reações quase sempre serão as de as escolhas serem realizadas com base em alguns 
padrões já preestabelecidos pela criança. Mas você pode estar se questionando 
sobre o que isso tem a ver com dados e datasets, não é?
Basicamente tudo, pois, quando fazemos observações sobre algo, no 
decorrer do tempo, vamos formando padrões, até mesmo definindo preferências, 
e agimos dessa forma durante toda a nossa vida. Além disso, geralmente, nossas 
escolhas são baseadas nessas experiências. Se fizermos uma analogia com essa 
situação comum do cotidiano com o mundo dos negócios, em que decisões 
são tomadas a todo instante, não seria muito diferente, tendo em vista que 
todo negócio constrói um conhecimento sobre si mesmo e sobre seus clientes e 
produtos no decorrer do tempo.
Hoje, ao acompanharmos pesquisas e noticiários, deparamo-nos com um 
protagonista que já existe há muito tempo, mas que só dos últimos tempos para 
cá virou o foco de todos: os dados. Mas como podemos defini-los?
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
16
A definição mais básica de um dado é sabermos que, se estiver só, ele não 
faz sentido, de modo que deve haver informações sobre ele, ou seja, complementos 
informacionais e até mesmo contextos, para que ele tenha sentido e possa gerar 
algum conhecimento.
Ao analisarmos a fundamentação do conceito de dados, vemos claramente 
que ele é um ativo importante dentro de um negócio, e podemos afirmar que 
nas nossas atividades cotidianas também! Você conseguiu perceber como somos 
geradores de dados e informações constantes?
Mas e dataset, o que seria? Em sua tradução livre, o termo significa conjunto 
de dados. Mencionamos que as informações são um coleção de dados e, dentro 
desse contexto, é relevante notar que o contexto científico exige que visualizemos 
níveis mais profundos dos processos dedutivos e intuitivos de observação para 
que possamos registrá-los com precisão. Uma maneira de fazer isso é construir 
um conjunto de dados, os quais são apresentados de várias formas. Em sua grande 
maioria, os dados são representados por meio de planilhas, podendo conter 
diversas linhas ou colunas, e não necessariamente precisam assumir aquela ideia 
que temos de planilhas desenvolvidas em alguns softwares específicos.
Um conjunto de dados possui algumas características relevantes, como 
a estruturação dos dados, já que, como citado anteriormente, lidar com dados é 
um trabalho extremamente minucioso, tendo em vista que o dado é o recurso-
chave de todo processo. Deve haver, também, a possibilidade de recuperação, 
acesso e identificação dos dados diante de todo o conjunto, ação que geralmente 
ocorre por meio de comandos ou disponibilização de links de acesso, além de 
certa frequência nas atualizações dos dados.
Do ponto de vista de Ramakrishnan e Gehrke (2013, p. 784), existem 
muitos motivos para que os dados sejam semiestruturados. A estrutura dos dados 
pode ser implícita, oculta, desconhecida ou o usuário pode optar por ignorá - 
la. Além disso, ao se integrar dados de várias fontes heterogêneas, a troca e a 
transformação de dados são problemas importantes. Dessa forma, é necessário 
que haja um modelo de dados altamente flexível para integrar dados de todos os 
tipos de fontes, incluindo arquivos simples e sistemas legados.
Juntamente aos conceitos de dados, é importante compreendermos, 
também, os conceitos de informação e conhecimento.
• Informação: fornece significado para o dado, pois pode ser definida como um dado 
contextualizado.
ATENCAO
TÓPICO 2 | CIÊNCIA DE DADOS E BIG DATA
17
• Conhecimento: pode receber diversas definições diferentes, mas, dentro desse contexto, 
o conhecimento pode ser definido como uma experiência ou até mesmo aprendizado 
obtido devido à organização e à contextualização dos dados e das informações.
3 O USO DA CIÊNCIA DE DADOS E BIG DATA
Vivemos no século XXI e, no contexto dos negócios, as previsões acabam 
sendo o ponto forte das empresas. Mas não estamos falando de previsões de sorte, 
com cartomantes ou videntes; falamos de tecnologias que usam seus poderosos 
algoritmos para fazer previsões de negócios.
Quando falamos sobre essas estimativas, estamos ressaltando ainda mais 
a importância do dado, já que todo seu ciclo de vida complementa o investimento 
em tecnologias tanto inseridas em ferramentas quanto em metodologias no 
mundo corporativo.
A concepção de um dado pode ser oriunda das mais diversificadas fontes: 
no nosso caso, produzimos dados em praticamente toda ação que desempenhamos 
por meio de algum recurso tecnológico, pois, quando nos conectamos à rede, 
nossas informações começam a ser obtidas imediatamente, seja por um login em 
algum site ou até mesmo pelas permissões que damos ao fazermos download e 
instalarmos algum aplicativo. No entanto, algumas fontes de dados não podem 
estar suscetíveis a variações ou sofrer outros danos, ou seja, deve haver certa 
estrutura para receber os dados. Não podemos esquecer que existem regras 
empresariais que acompanham (ou pelo menos tentam acompanhar) todo esse 
processo. Por isso, por exemplo, existem tipos de dados que ficam armazenados 
por muito mais tempo que outros, e essa decisão cabe à empresa. Perceba que, 
quando falamos em armazenamento, estamos falando também de investimento 
em segurança computacional, e até mesmo em hardware e espaço na nuvem 
(cloud computing) capaz de armazenar tantas informações.
FIGURA 3 – CICLO DE VIDA DOS DADOS PARA CIÊNCIA DA INFORMAÇÃO (CVD–CI)
FONTE: Sant’ana (2016)
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
18
Dessa forma, podemos concluir que a concepção, o armazenamento, 
o tratamento e outros processos relacionados aos dados irão variar conforme 
sua finalidade. Inclusive, pode haver até mesmo o descarte dos dados, como 
mostra a Figura 3.
A importância no conhecimento destes processos se dá, segundo Turbane Volonino (2013, p. 67), devido a três princípios:
• Princípio da redução do valor de dados. Uma análise dos dados em seu ciclo 
de vida mantém a atenção em como o valor dos dados pode diminuir de acordo 
com o seu envelhecimento. Assim, o dado tem mais valor quanto mais recente 
for. A maioria das organizações não pode operar no má imo de seu desempenho 
tendo pontos cegos, isto é, falta de dados disponíveis, de 30 dias ou mais.
• Princípio do uso de dados 90/90. Uma atuação em tempo real ou quase em 
tempo real sobre dados operacionais pode trazer vantagens importantes. De 
acordo com esse princípio, a maioria dos dados armazenados raramente é 
acessada após 90 dias (exceto para fins de auditoria). Ou seja, os dados perdem 
grande parte de seu valor após três meses.
• Princípio de dados em contexto. Para capturar, processar, formatar e distribuir 
dados rapidamente e quase em tempo real, é necessário um grande investimento 
em infraestrutura de gerenciamento de dados para fazer a ligação remota dos 
sistemas presentes nos pontos de venda (PDVs) para armazenamento de dados, 
sistemas de análise de dados e aplicativos que geram relatórios. Esse investimento 
se justifica de acordo com o princípio de que dados devem estar integrados, ser 
processados, analisados e formatados em “informação acessível”. Os usuários 
finais precisam visualizar os dados em um formato significativo e em contextos, 
já que eles irão guiar suas decisões e seus planejamentos.
A ciência de dados transforma os dados utilizando conceitos matemáticos 
e estatísticos por meio de processos de mineração e filtragem dos dados. As 
ferramentas computacionais se tornam necessárias para, em conjunto com os 
softwares, realizar o armazenamento, a obtenção e o tratamento dos dados.
Mas e como tudo isso acontece? Para isso, são utilizadas tecnologias, como 
mencionamos anteriormente, e uma delas que podemos destacar aqui é Big Data. 
Como o próprio termo já sugere, isso significa lidar com uma grande quantidade 
de dados diversos (estruturados ou não estruturados).
Os dados não estruturados são aqueles dados cujo contexto total nem sempre 
a tecnologia consegue visualizar, por exemplo, em arquivos textuais.
Já os dados estruturados conseguem ser totalmente classificados e identificados com o 
uso das tecnologias.
ATENCAO
TÓPICO 2 | CIÊNCIA DE DADOS E BIG DATA
19
O que não podemos deixar de comentar é que existem vários profissionais 
que lidam com os dados e que, muitas vezes, com a ajuda da tecnologia, nem sempre 
estão totalmente ligados ao setor de tecnologia da empresa, já que, na maioria das 
vezes, as tomadas de decisões são realizadas por profissionais administrativos.
4 APLICAÇÕES PRÁTICAS DA CIÊNCIA DE DADOS E BIG DATA
Várias metodologias estão sendo utilizadas pelas empresas para a coleta 
de dados. No entanto, quando falamos em Big Data, estamos assumindo que, 
além de termos grande volume de dados, devido às grandes proporções, eles não 
podem ser tratados com métodos tradicionais. Para isso, devem ser executados 
alguns passos, tais como obtenção, armazenamento, sistematização e análise dos 
dados. O termo Big Data é, muitas vezes, caracterizado por três vertentes que, 
inclusive, são conhecidas como os três Vs: volume, variedade e veracidade.
É comum nos depararmos com outros 2 Vs que também contemplam de 
forma coerente os conceitos sobre essa tecnologia: o valor e a velocidade. A obtenção 
dos dados pode ocorrer oriundas de diversas fontes, tanto internas quanto externas 
aos negócios da empresa. Já o armazenamento, provavelmente, ocorrerá por meio 
de sistemas e servidores. Isso ocorre para garantir que seja feito o armazenamento 
automático e para que possam ser realizados backups posteriormente.
As próximas etapas consistem na organização e na análise dos dados, 
nas quais deve haver um agrupamento que tenha como base algum padrão dos 
dados, gerando, com isso, uma estrutura capaz de facilitar o acesso e a análise 
das informações, que é basicamente o último passo a ser executado. Com a 
organização, isso fica mais fácil, já que é na extração que podemos obter a 
visualização dos dados úteis para as tomadas de decisão.
Ainda sobre a etapa de análise, podemos afirmar que, antes, acontecia 
apenas de forma descritiva, com o objetivo de trazer por meio, muitas vezes, de 
gráficos, planilhas e relatórios, alguns conjuntos de dados que caracterizavam as 
ações já executadas pela empresa. Com a ciência de dados, essa etapa evoluiu, 
não só devido ao uso das tecnologias, mas também com relação a seus objetivos. 
Hoje, por exemplo, as análises não ocorrem apenas com olhares para o passado, 
mas também com perspectivas futuras, que são chamadas de análises preditivas 
e diagnósticas, já que é por meio desse processo que falhas ou pontos de 
melhoramentos são observados.
Existem diversas maneiras de as empresas coletarem dados, tais como: 
endereço de e-mail e IP, informações dos dispositivos, browsers, cliques em anúncios, 
seja pela rede social ou por e-mails, histórico de buscas, dentre outros. Para isso, 
elas utilizam alguns métodos para monitorar seus usuários, como ferramentas para 
identificação de dispositivos, perfis dos usuários, cookies, dentre outros.
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
20
Os dados obtidos das mais variadas fontes podem ser utilizados de 
diversas formas. As grandes empresas, por exemplo, utilizam para as integrações 
de contas, em que todas suas informações, muitas vezes, podem estar associadas 
ao seu e-mail, a conteúdos personalizados, e as empresas podem aumentar o 
leque de opções de produtos e serviços conforme cada perfil de cliente.
A associação desses recursos pode ser visualizada e utilizada em diversos 
contextos, como no esporte, em que diversos times de basquete, futebol, entre 
outros, passaram a utilizar a análise de dados para prever possíveis melhorias de 
seus times, tanto em resultados gerais quanto de desempenho dos atletas durante 
a prática de suas atividades.
Aqui no Brasil, até os órgãos governamentais utilizam data warehouse para 
registros. Nesse sentido, um setor atuante é o Ministério da Justiça, com o intuito 
de identificar ações de lavagem de dinheiro, dentre outros golpes. Empresas 
como Google, Facebook e as de tecnologia também utilizam fortemente a análise 
de dados, e podemos até afirmar que eles atuam por meio de todas as formas 
possíveis para isso, já que seus lucros são oriundos desse tipo de ação.
Grandes redes varejistas do setor alimentício também utilizam a ciência 
de dados e tecnologias Big Data para gerir seus negócios e, como mencionamos 
anteriormente, para ampliar a gama de negócios, produtos e serviços que podem 
ser disponibilizados aos clientes. Conforme Taurion (2013), Big Data é um conjunto 
de tecnologias, processos e práticas que permitem às empresas analisarem dados 
que antes não tinham acesso e tomar decisões ou mesmo gerenciar atividades de 
forma muito mais eficiente. Para o autor, diversos dados podem ressaltar o início 
da curva de aprendizado sobre o que é o Big Data e seu respectivo impacto social. 
Como exemplo, ele cita o uso de Big Data pelas empresas Amazon e Netflix, que 
utilizam sofisticados e avançados sistemas de recomendação.
Portanto, as aplicações práticas que possuem ciência de dados e Big 
Data trazem maior transparência, já que os dados ficam disponíveis em locais 
específicos, e alguns deles até passam a ser de domínio público, como é o caso 
de dados governamentais. Ocorre, também, a amplificação das informações, 
tendo em vista que a conexão de diversas informações sobre algo específico 
ocorre de forma mais fácil.
A análise de dados pode ser realizada com o uso de algumas tecnologias, 
como NoSQL, Hadoop, Sisence, TIBCO Spotfire, dentre outras.
DICAS
21
RESUMO DO TÓPICO 2
 Nesse tópico você aprendeu:
• A Descrever dados e datasets.
• A Discutir ciência de dados e Big Data.
• Listar práticas de ciência de dados e Big Data.
• Que a compreensão de como os dados são gerados, armazenadose analisados é 
primordial para entender a atividade desempenhada por este ativo tão valioso 
para as empresas.
• Veja alguns passos correspondentes a este ciclo, tanto na tomada de decisões 
quanto nas demais ações dentro de um negócio, no Infográfico.
22
23
1 As grandes companhias utilizam as ferramentas computacionais para 
atender a alta demanda dos negócios, já que atualmente o comportamento 
social demonstra claramente as transições que o mundo dos negócios está 
sempre percorrendo. Assinale a alternativa que traz formas de como as 
empresas fazem uso dos dados de seus usuários para obter sucesso em seus 
negócios. 
a) ( ) Para realizar compras em seus cadastros.
b) ( ) Para aplicar recurso de reconhecimento facial.
c) ( ) Para obter dados aleatórios que circulam na rede.
d) ( ) Fornecimento de serviços personalizados.
e) ( ) Para manter a preferência do cliente.
2 As grandes empresas corporativas investem em tecnologias para que 
possam obter destes investimentos lucros financeiros. Assinale a alternativa 
que contém formas de como as empresas obtêm os dados de seus clientes 
para uso da ciência de dados e Big Data. 
a) ( ) Por meio de ligações realizadas pelos call centers das empresas para 
seus clientes.
b) ( ) Por meio de correspondências.
c) ( ) Por meio de preenchimento de formulários em planilhas.
d) ( ) Por meio de abordagens pessoais em centros comerciais.
e) ( ) Por meio de aplicações de terceiros, identificação de dispositivo, perfil 
do usuário.
3 A ciência de dados traz a multidisciplinaridade para o mundo dos dados, e, 
agindo em conjunto com tecnologias e ferramentas Big Data, pode contribuir 
para a geração e diversificação de novos negócios. Assinale a alternativa que 
traz algum princípio relacionado ao uso destes recursos em relação ao uso dos 
dados. 
a) ( ) As tomadas de decisão dentro de uma empresa podem ser baseadas 
em análises primitivas dos dados com planilhas.
b) ( ) O Big Data permite que dados sejam armazenados e utilizados após 
muitos anos, sem perder o valor.
c) ( ) Ferramentas e tecnologias Big Data são gratuitas e geram redução de 
custos para empresa.
d) ( ) A ciência dos dados aplica conceitos estatísticos nos dados em conjunto 
com tecnologias Big Data.
e) ( ) Permite o armazenamento dos dados antigos como critério para 
aprovação de investimentos em novas ferramentas.
AUTOATIVIDADE
24
4 A obtenção dos dados ocorre por meio de diversas fontes: e-mails, redes 
sociais, smartphones, tablets, entre outros. Dessa forma, com o passar do 
tempo, recursos computacionais se tornaram necessários para que tudo 
isso possa ser aproveitado pelo mundo corporativo. Assinale a alternativa 
que apresenta os passos percorridos pelo dado durante seu uso na tomada 
de decisões corporativas.
a) ( ) Tratamento, armazenamento, análise.
b) ( ) Tratamento, análise e coleta.
c) ( ) Análise, tratamento e armazenamento.
d) ( ) Coleta dos dados, armazenamento, tratamento e análise.
e) ( ) Armazenamento, análise, coleta e tratamento.
5 Os dados podem ser considerados recursos ativos gerados automaticamente 
em toda atividade exercida; se tratados e analisados têm grande valor para 
o mercado. Assinale a alternativa que contempla a definição correta sobre o 
dado. 
a) ( ) É uma quantidade de fatos não analisados.
b) ( ) Fornece significado contextualizado.
c) ( ) Pode ser definido como uma experiência.
d) ( ) São ativos tecnológicos padronizadores.
e) ( ) O seu sentido é estabelecido quando apresentado só.
25
TÓPICO 3
DESCOBERTA DE CONHECIMENTO COM BIG DATA
UNIDADE 1
1 INTRODUÇÃO
Os grandes conjuntos de dados (Big Data) gerados pelas pessoas e empresas 
diariamente possuem um potencial de melhorias em diversos segmentos de negócios. 
Entretanto, a evolução das técnicas de análise é o gargalo que impede tomadas de 
decisões mais eficazes para os negócios. O processo de descoberta do conhecimento 
é uma abordagem que sistematiza em etapas a realização dessas análises.
Neste tópico, você estudará sobre o processo de descoberta de 
conhecimento aplicado ao Big Data e conhecerá exemplos nos quais esse processo 
teve êxito em suas aplicações.
2 PROCESSO DE DESCOBERTA DE CONHECIMENTO
Em 1989, foi instituído o termo descoberta de conhecimento em banco 
de dados em alusão ao processo de transformação de volumes de dados em 
conhecimento. Esse termo tem origem no inglês Knowledge Discovery in Databases e 
é comumente utilizado pela sigla KDD. O objetivo do KDD é a extração de relações 
implícitas e desconhecidas nas bases de dados para geração de conhecimento útil.
O KDD pode ser considerado uma atividade multidisciplinar, tendo 
em vista que envolve diversos conceitos relacionados à inteligência artificial 
e a disciplinas matemáticas. O conhecimento extraído deve ser confiável, 
compreensível e útil, ou seja, a descoberta de conhecimento consiste na extração 
de informações que podem colaborar na tomada de decisões, em grandes bases de 
dados e sem nenhuma hipótese previamente estabelecida (FAYYAD et al., 1996).
A partir desse conceito, surgiu o processo de KDD, que propõe, a partir de 
etapas iterativas e interativas, um padrão metodológico para transformação dos 
grandes volumes de dados em conhecimento. Esse processo é realizado por meio 
de métodos de mineração de dados (algoritmos) para extrair (identificar) o que é 
considerado conhecimento, de acordo com as especificações de medidas e limites, 
usando um banco de dados junto a qualquer pré-processamento, subamostragem e 
transformações necessárias desse banco de dados. Com base nesse conceito, pode-se 
dizer que o processo KDD é baseado na cooperação entre humanos e computadores, 
no qual os humanos são os responsáveis por projetar arquiteturas de sistema, 
definição dos problemas e identificação dos objetivos, enquanto os computadores 
realizam o processamento dos dados em busca de padrões que satisfaçam os objetivos 
definidos. A etapas do processo de KDD podem ser visualizadas na Figura 4.
26
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
FIGURA 4 – ETAPAS DO PROCESSO DE DESCOBERTA DO CONHECIMENTO
FONTE: Schneider (2003, p. 13)
Na primeira etapa, o processo de KDD desenvolve uma compreensão do 
domínio da aplicação, além da definição dos objetivos a serem alcançados, ou seja, 
nessa etapa, define-se que problema deve ser resolvido com o conhecimento a ser 
adquirido. Após essa etapa, inicia-se a etapa de seleção, que consiste em selecionar 
os dados-alvo, que podem ser segmentados em subconjuntos de dados.
A etapa de pré-processamento é na qual se realiza uma limpeza nos dados 
com o objetivo de adequá-los para a mineração de dados. Normalmente, as bases 
de dados com um grande volume não estão preparadas para a mineração. Após 
a etapa de pré-processamento, inicia-se a etapa de transformação, que consiste 
em fazer com que os dados pré-processados passem por uma transformação que 
garanta o seu armazenamento adequado. Nessa etapa, o objetivo é fazer com que 
os atributos representem todas as características desses dados.
Na etapa de mineração, é realizada a busca por padrões nos dados da base já 
transformada. A mineração de dados é considerada o núcleo do processo de KDD. 
A etapa final consiste em identificar, entre os padrões extraídos, quais satisfazem os 
critérios definidos. No final dessa avaliação, é possível retornar ao início do processo 
novamente ou implantar e incorporar o conhecimento extraído ao sistema de forma 
que os métodos sejam documentados para a apresentação do conhecimento.
O KDD se refere ao processo geral de descoberta de conhecimento útil a partir 
de grandes volumes de dados. Envolve a avaliação e, possivelmente, a interpretação dos 
padrões para tomar a decisão do que será qualificado como conhecimento. Também inclui 
a escolha de esquemas de codificação, pré-processamento, amostragem e projeções dos 
dados antes da etapa de mineração de dados. Já a mineração de dados refere-se à aplicação 
de algoritmos para extrair padrões de dadossem as etapas adicionais do processo de KDD.
ATENCAO
TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA
27
Na etapa de mineração de dados, podem ser utilizadas técnicas como:
• Redes neurais artificiais: consistem em modelos preditivos não lineares que 
aprendem por meio do treinamento e se assemelham às redes neurais biológicas 
(das quais vem o seu nome).
• Algoritmos genéticos: técnicas de otimização baseadas em combinação genética 
e seleção natural.
• Método do vizinho mais próximo: é a técnica que classifica cada registro em 
um conjunto de dados combinando os registros mais semelhantes.
• Indução de regras: consiste na extração baseada em regras condicionais a partir 
da significância estatística.
• Visualização de dados: a partir de ferramentas que utilizam gráficos, é possível 
realizar interpretações visuais de relações complexas.
3 APLICAÇÃO DO PROCESSO DE DESCOBERTA DO 
CONHECIMENTO
Para exemplificar o processo de KDD, vamos basear-nos no trabalho 
realizado por Schneider (2003), que utilizou como cenário para aplicação o Poder 
Judiciário do estado do Rio Grande do Sul. O KDD foi aplicado nas bases de dados 
de julgamento de processos à procura de descobertas baseadas na classificação 
inicial dos processos com relação à incidência de processos, tempo de tramitação 
e tipos de sentenças proferidas.
3.1 DEFINIÇÃO DOS OBJETIVOS
Devido à carência de informações estatísticas, foi definido um KDD que 
pudesse auxiliar na busca por padrões de comportamento que relacionassem 
a classificação processual com o padrão de sentenças proferidas, tempo de 
tramitação e incidência de processos.
3.2 SELEÇÃO
Nesse caso, foram selecionadas as bases de dados que fornecem dados de 
1ª instância, que possuem como característica principal a descentralização dos 
dados em bancos de dados divididos por comarca, totalizando 80 bases de dados. 
Os dados dessas comarcas foram replicados on-line e centralizados em uma única 
base de dados. A Figura a seguir apresenta o modelo lógico de dados utilizados 
para compreensão do domínio explorado.
28
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
FIGURA 5 – MODELO LÓGICO DE DADOS
FONTE: Schneider (2003, p. 33)
3.3 PRÉ-PROCESSAMENTO
Na etapa de pré-processamento, foi realizada uma limpeza na base de dados 
com o objetivo de trabalhar apenas com dados consistentes. Processos que estavam 
considerados como baixados, mas que estavam sem data de baixa, e processos nos 
quais foram identificados erros de digitação nas datas foram encaminhados para os 
responsáveis para correção e posterior reinserção na base de dados.
3.4 TRANSFORMAÇÃO
Para encaminhar a próxima etapa do KDD, que é a mineração, foram 
construídos alguns campos na base de dados. Entre eles, podemos citar o campo 
que realiza o cálculo do tempo de tramitação de cada processo (diferença entre 
a data da baixa e a data de abertura) e a idade do réu, calculada a partir da sua 
idade. Além disso, foram realizadas algumas adequações nos formatos dos dados 
de alguns campos, a fim de fornecer os dados num padrão de entrada adequado 
para a mineração dos dados na etapa seguinte.
TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA
29
3.5 MINERAÇÃO DE DADOS
Nesta etapa, inicialmente, foram defi nidas as técnicas de segmentação e 
regras de associação para aplicação. Foram aplicados, inicialmente, dois filtros 
nos atributos: 1) seção x classe x especialização; e 2) comarca x seção x classe 
x especialização. Foi utilizado o algoritmo “K-means” para a configuração os 
parâmetros quantidade de clusters (8), número randômico para escolha dos 
centroides iniciais (10) e modo de cluster (use training set).
3.6 INTERPRETAÇÃO E AVALIAÇÃO
Para a avaliação dos resultados, foram considerados mais expressivos os 
resultados realizados com 8 clusters, tendo em vista que os testes com 12 clusters 
geraram resultados inexpressivos e com 4 clusters ocultavam informações relevantes.
Acesse o link a seguir com o trabalho de Schneider (2003), na página 42, 
e veja o gráfico em formato de pizza com a distribuição do cruzamento de seção x 
classe x especialização.
https://goo.gl/CGCnt9
UNI
Na interpretação dos dados, constatou-se que:
• 26% dos casos estão agrupados na seção cível, na classe processo de 
conhecimento e com a especialização definida como família;
• 20% dos casos estão agrupados na seção cível, na classe processo de execução 
fiscal e com a especialização definida como fazenda pública;
• 15% dos casos estão agrupados na seção cível, na classe processos de execução 
e com a especialização definida como cível;
• 12% dos casos estão agrupados na seção juizado especial, na classe 
associadas e especialização (no juizado especial a classe e a especialização 
têm a mesma nomenclatura);
• 10% dos casos estão agrupados na seção crime, na classe procedimento 
ordinário-reclusão e com a especialização definida como crime;
• 9% dos casos estão agrupados na seção juizado especial cível, na classe 
precatórias criminais e com a especialização definida como associadas;
• 8% dos casos estão agrupados na seção crime, na classe precatórios criminais e 
com a especialização definida como precatória crime.
30
UNIDADE 1 | FUNDAMENTOS DE BIG DATA
Analisando esses resultados, pode-se constatar uma alta incidência de 
processos cíveis que tramitam na justiça comum, com especialização de família 
(26%) e fazenda pública (20%). Isso pode ser um motivo para sugerir a nomeação 
de juízes específicos para julgar esses casos.
4 BIG DATA NA ÁREA DA SAÚDE
A área da saúde é uma das áreas que já possuem soluções implementadas 
a partir dos conceitos que permeiam Big Data devido ao fato de essa área envolver 
múltiplas relações com volumes de dados de pacientes, profissionais da área, 
hospitais, laboratórios farmacêuticos, seguradoras, administração pública, entre 
outros. Com a integração dessas bases de dados, surge um potencial de análises de 
dados que poderiam influenciar políticas públicas em prol de melhorias na saúde, 
por exemplo. Pacientes utilizando sensores de monitoramento com informações 
disponibilizadas em uma plataforma acessível cruzadas com informações 
providas de redes sociais dos próprios pacientes poderiam permitir aos médicos 
a elaborações de diagnósticos mais precisos e realistas. Assim, seria possível agir 
de maneira preventiva em muitos casos por meio de análises preditivas baseadas 
nesses grandes volumes de dados.
Do ponto de vista da indústria farmacêutica, com análises mais 
profundas em grandes volumes de dados, seria possível melhorar a eficácia 
dos medicamentos, possibilitando melhores tratamentos aos doentes. Os 
diversos hospitais e clínicas possuem essas informações, mas elas nem sempre 
são aproveitadas. A possibilidade de correlacionar os registros médicos com os 
tratamentos e os resultados dos tratamentos poderia ajudar muito nesse sentido. 
Além disso, com um volume significativo de dados médicos e algoritmos 
aprimorados de predição, seria possível modelar de forma mais eficiente em 
quais vale a pena investir em pesquisas.
No link a seguir, você pode encontrar experiências de pacientes relacionadas 
a seus tratamentos médicos que geram uma grande base de dados para análises.
 
https://goo.gl/o5fG
Acesse, no link a seguir, o site da rede Sermo, em que os médicos podem trocar 
experiências do seu dia a dia — nesse caso, compartilhando casos reais de tratamentos 
aplicados aos seus pacientes.
https://goo.gl/KFbJm
UNI
TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA
31
Outro uso potencial de Big Data é no controle de doenças, descobrindo 
em que áreas elas foram detectadas e, de modo preditivo, alertando e preparando 
os hospitais e centros de emergência regionais para um possível surto epidêmico. 
Pesquisas demonstram que isso é possível e já existem casos com esse contexto 
nos quais tendências são identificadas em um grande volume de dados padrões 
de conexões e interdependências que não eram possíveis de serem observadas 
em amostragens menores. Um caso

Outros materiais