Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Análise e Ciência de Dados; Inovação.
Big Data em Apoio à 
Tomada de Decisão 
Enap, 2023
Fundação Escola Nacional de Administração Pública
Diretoria de Desenvolvimento Profissional
SAIS - Área 2-A - 70610-900 — Brasília, DF
Fundação Escola Nacional de Administração Pública
Diretoria de Desenvolvimento Profissional
Conteudista/s 
Antônio João Azambuja (conteudista, 2023). 
Módulo 1: Conhecendo o Big Data ....................................................................................7
Unidade 1: Compreendendo o Big Data ............................................................... 7
1.1 O que é Big Data? ...................................................................................................... 7
1.1.1 O uso de Big Data no Setor Público ...................................................................... 9
1.2 Principais Características: Os 5 Vs do Big Data.................................................. 12
Referências ..................................................................................................................... 15
Unidade 2: Eventos Geradores de Big Data ........................................................17
2.1 Mídias e Redes Sociais ............................................................................................ 17
2.2 Computação em Nuvem ......................................................................................... 18
2.3 Bancos de Dados ..................................................................................................... 21
2.4 Políticas Públicas ..................................................................................................... 22
Referências ..................................................................................................................... 25
Módulo 2: A Gestão de Dados em Big Data .................................................................26
Unidade 1: Os Dados como Ponto de Partida para Tomada de Decisão .........26
1.1 Tipos de Dados ........................................................................................................ 26
1.2 A Importância de Assegurar a Qualidade de Dados ........................................... 29
1.2.1 O que é Qualidade de Dados? ............................................................................ 30
1.3 Como os Dados Podem Ajudar na Tomada de Decisão? ................................... 31
Referências ..................................................................................................................... 33
Unidade 2: A Importância da Gestão de Dados: Conhecendo os Repositórios ...34
2.1 O que São e quais os Tipos de Repositórios de Dados? ..................................... 34
2.1.1 Bancos de Dados .................................................................................................. 37
2.1.2 Data Lakes e Data Warehouses ........................................................................... 39
2.2 Tipos de Repositórios de Dados Públicos ............................................................ 39
Referências ..................................................................................................................... 42
Unidade 3: Princípios FAIR na Gestão de Dados no Serviço Público ...............43
3.1 O que são os princípios FAIR? ................................................................................ 43
Referências ..................................................................................................................... 46
Sumário
4Enap Fundação Escola Nacional de Administração Pública
Módulo 3: O Uso dos Dados na Prática: o que Fazer? ........................................47
Unidade 1: Tipos de Agrupamentos de Dados em Big Data .............................47
1.1 Modelos de Conectividade ..................................................................................... 48
1.2 Modelos de Centróide ............................................................................................. 50
1.3 Modelos de Distribuição ......................................................................................... 50
1.4 Modelos de Densidade ........................................................................................... 51
Referências ..................................................................................................................... 55
Unidade 2: A Transformação de Dados .............................................................. 56
2.1 O que é o Processo de Extração e Transformação de Dados em Big Data? .... 56
2.2 A Diferença entre o Processo ETL (Extrair, Transformar e Carregar) e ELT (Extrair, 
Carregar e Transformar) ............................................................................................... 57
2.3 O Uso de Fluxo de Transformação de Dados ...................................................... 61
Referências ..................................................................................................................... 63
Unidade 3: A Utilização do Algoritmo de Big Data ............................................64
3.1 O que é um Algoritmo de Big Data? ...................................................................... 64
3.2. A Aplicação dos Algoritmos de Big Data .......................................................... 66
3.3 Uso dos Algoritmos de Big Data no Serviço Público ........................................... 68
Referências ..................................................................................................................... 70
Unidade 4: O que é Distribuição de Dados? .......................................................71
4.1 Por que Realizar a Distribuição de Dados? ........................................................... 71
4.2 Distribuição Normal (Gaussiana) ........................................................................... 72
4.3 Distribuição Right Skewed ........................................................................................ 74
4.4 Distribuição Left Skewed .......................................................................................... 75
4.5 Distribuição Uniforme ............................................................................................. 76
Referências ..................................................................................................................... 78
Unidade 5: Conhecendo os Modelos de Programação do Big Data .................79
5.1 Modelo de Programação MapReduce .................................................................. 79
5.2 Modelo de Programação ElasticSearch ................................................................ 83
Referências ..................................................................................................................... 87
Módulo 4: O Big Data em Tomadas de Decisões no Serviço Público ................88
Unidade 1: A Importância da Mineração no Big Data para o Serviço Público 88
1.1 O que é Mineração de Dados? ............................................................................... 88
1.2 Utilizando a Metodologia CRISP para Mineração de Dados ............................... 91
Referências ..................................................................................................................... 94
Enap Fundação Escola Nacional de Administração Pública 5
Unidade 2: Por que Adotar Fluxos de Dados? ....................................................95
2.1 O que São os Fluxos de Dados e como Eles Podem Ajudar na Tomada de 
Decisões .......................................................................................................................... 95
2.2 Exemplo de Fluxos de Dados ................................................................................. 97
Referências ..................................................................................................................... 99
Módulo 5: Utilizandoo Big Data no Serviço Público .........................................100
Unidade 1: Boas Práticas no Uso de Big Data no Serviço Público ..................100
1.1 As Boas Práticas ..................................................................................................... 100
Referências ................................................................................................................... 103
Unidade 2: Estudo de Caso ................................................................................. 104
2.1 A Rede Nacional de Contratações ...................................................................... 104
Referências ................................................................................................................... 105
6Enap Fundação Escola Nacional de Administração Pública
Apresentação e Boas-vindas 
Você já se perguntou como empresas e instituições conseguem lidar com a quantidade 
imensa de informações geradas diariamente? Neste curso você vai conhecer conceitos 
básicos do Big Data, suas aplicações e como ele pode ser utilizado para tomada de 
decisões estratégicas. Além disso, você será apresentado a habilidades gerenciais 
para atuar em áreas disruptivas do serviço público e entregar valor para a sociedade. 
Antes de iniciar seus estudos, assista ao vídeo de apresentação a seguir: 
Este curso apresenta cinco módulos, veja como eles estão organizados: 
Preparado(a) para embarcar nessa jornada? 
Videoaula: Apresentação do Curso
1 Módulo 1: você irá conhecer as noções básicas de Big Data, as características 
e como esses dados são gerados. 
2 Módulo 2: você verá os tipos de dados, repositórios de dados e os princípios 
de dados para gestão no contexto do setor público. 
4 Módulo 4: neste conteúdo você verá como o Big Data pode auxiliar em tomadas 
de decisões no serviço público, conhecendo mais sobre mineração e fluxo de dados. 
3 Módulo 3: aqui você terá uma visão mais prática e aprofundada do uso de 
dados, desde agrupamento e transformação de dados até conceitos algorítmicos, 
distribuição de dados e modelos de programação. 
5 Módulo 5: por fim, você terá a oportunidade de conhecer boas práticas no 
uso de Big Data no serviço público e ter uma visão mais próxima de como isso 
ocorre, por meio de um caso prático. 
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo01_video01/index.html
7Enap Fundação Escola Nacional de Administração Pública
 Módulo
Conhecendo o Big Data1
O objetivo deste módulo é apresentar uma introdução ao universo do Big Data, o 
que é e por que é relevante para as atividades com grandes quantidades de dados. 
Desenvolver as habilidades gerenciais considerando a análise e valor dos dados para 
a tomada de decisões estratégicas é um diferencial. Essas habilidades permitem um 
ganho de produtividade na organização, iniciando com o planejamento estratégico 
e atividades de gestão de alto nível e operacionais. 
Este módulo possui duas unidades: 
Unidade 1: Compreendendo o Big Data 
Unidade 2: Eventos Geradores de Big Data 
Bons estudos! 
Unidade 1: Compreendendo o Big Data 
Objetivo de aprendizagem
Ao final desta unidade, você será capaz de reconhecer noções básicas de trabalho com 
Big Data no contexto do setor público e as características desta tecnologia. 
1.1 O que é Big Data? 
O Big Data é um termo utilizado para descrever a explosão do volume de 
dados produzidos no espaço cibernético. Esses grandes conjuntos de dados 
são complexos demais para serem processados pelos métodos tradicionais de 
processamento de dados. Sendo assim, é necessário utilizar tecnologias avançadas 
para armazenamento, processamento e análise de dados, criando condições para 
lidar com a complexidade e a escalabilidade (SHINTAKU; DUQUE; SUAIDEN, 2014). 
8Enap Fundação Escola Nacional de Administração Pública
Imagine um cenário onde você pode coletar, analisar, processar e armazenar dados 
em tempo real, tudo isso em um único lugar. Isso é possível graças às ferramentas 
de Tecnologia da Informação (TI) usadas em projetos de Big Data. Veja algumas 
dessas ferramentas e tecnologias: 
Hadoop: um framework open source que possibilita o armazenamento e 
processamento distribuído de grande volume de dados. 
Spark: um framework de computação em cluster que permite processamento 
de dados em volume exponencial com análises em tempo real. 
NoSQL: uma abordagem de banco de dados que proporciona o armazenamento 
e recuperação de dados não estruturados em grande escala. 
Tableau: uma plataforma de visualização de dados que permite a criação de 
painéis e gráficos interativos. 
Apache Pig: uma plataforma de análise de dados que permite realizar 
consultas em grandes conjuntos de dados utilizando uma linguagem de 
script simplificada. 
Apache Hive: um software de Data Warehouse que possibilita a análise de 
grandes conjuntos de dados em Hadoop utilizando uma linguagem de 
consulta semelhante ao SQL. 
Apache Cassandra: um sistema de gerenciamento de banco de dados distribuído, 
projetado para lidar com grandes volumes de dados não estruturados. 
Elasticsearch: um motor de busca distribuído que possibilita a busca e análise 
em tempo real de grandes volumes de dados.
Ficou surpreso(a) com tantos termos diferentes? Lembre-se de 
consultar o glossário, disponível no AVA! 
Esses são apenas alguns exemplos das poderosas ferramentas disponíveis no 
mercado para análise de dados no ecossistema do Big Data. Mas como escolher a 
ferramenta certa para o seu projeto? 
 
https://hadoop.apache.org/
https://spark.apache.org/
https://hostingdata.co.uk/nosql-database/
https://www.tableau.com/
https://pig.apache.org/
https://hive.apache.org/
https://cassandra.apache.org/_/index.html
https://www.elastic.co/pt/elasticsearch/
Enap Fundação Escola Nacional de Administração Pública 9
Você já parou para pensar como o uso de dados tem revolucionado o desenvolvimento 
de políticas públicas? É incrível como as estratégias baseadas em dados têm 
proporcionado avanços significativos, tanto no setor público quanto no privado. 
Primeiro, você deve identificar os objetivos do projeto e os problemas que você 
deseja resolver. Pense em como melhorar a eficiência operacional, a experiência do 
cliente, a entrega de valor para a sociedade, ou até mesmo aumentar a receita, no 
caso do setor privado. 
Além disso, leve em consideração fatores como: 
• orçamento disponível; 
• tamanho da equipe de desenvolvedores; e 
• prazo de entrega do projeto. 
 
Compreender os requisitos do projeto pode ajudar na escolha da(s) ferramenta(s) 
e garantir que os resultados sejam alcançados. Assim a organização terá realizado 
o projeto com sucesso.
1.1.1 O uso de Big Data no Setor Público
Abordagem orientada a dados. 
Fonte: Freepik (2023).
Com as transformações tecnológicas, 
estamos vivendo uma era de produção 
massiva de dados. Isso nos oferece uma 
oportunidade única de entender e analisar 
informações em uma escala nunca antes 
vista. No entanto, lidar com esse volume 
imenso de dados pode ser desafiador e 
complexo. É aí que entram as abordagens 
orientadas por dados, que nos ajudam a 
extrair insights valiosos para a solução de 
problemas públicos.
10Enap Fundação Escola Nacional de Administração Pública
No contexto do setor público brasileiro, o Big Data é considerado um instrumento 
para melhorar a eficiência dos serviços públicos, tomar decisões baseadas em dados 
e desenvolver soluções para problemas complexos. Explorar o poder transformador 
do Big Data no setor público é um requisito-chave para a modernização da governança 
e transformação digital do setor (BERTOT et al., 2014). 
Que tal explorar algumas áreas que se beneficiam do Big Data? Descubra como essa 
tecnologia tem impactado positivamente esses setores! 
Saúde pública: Na área da saúde, a análise de dados pode ajudar a 
identificar padrões e tendências. Isso permite que os gestores públicos 
tomem decisões preventivas e implementem políticas mais eficazes notratamento de doenças e prevenção de surtos epidêmicos. 
Segurança pública: O uso dos dados em segurança pública pode contribuir 
para a prevenção de crimes e aumento da eficácia das investigações 
criminais. A análise dos dados criminais permite identificar áreas de maior 
risco, direcionando as ações de inteligência da polícia civil e militar. 
Educação: A análise de dados em educação permite identificar lacunas 
na jornada educacional da população. Isso possibilita o desenvolvimento 
de políticas educacionais mais eficazes. O setor público brasileiro tem 
utilizado os dados disponíveis no ecossistema de Big Data para monitorar 
o desempenho dos alunos e escolas, avaliar a qualidade do ensino e 
desenvolver programas de capacitação para professores. 
Monitoramento de dados sociais: O monitoramento das redes sociais 
permite identificar demandas da sociedade e direcionar soluções para 
problemas tanto de curto quanto de médio e longo prazo. Esse monitoramento 
também pode ajudar na identificação de tendências relacionadas com o 
compartilhamento de informações falsas. 
Planejamento urbano: A análise dos dados fornece informações importantes 
sobre a mobilidade urbana e padrões de transporte para melhorar a gestão 
urbana e otimizar o orçamento púbico para as demandas do planejamento. 
Transporte: A análise dos dados de tráfego em tempo real permite tomar 
decisões também em tempo real para maior eficiência na fluidez do tráfego, 
identificar padrões e otimizar a gestão do transporte público. 
Gestão fiscal: A análise de dados fiscais auxilia a identificação de fraudes, 
sonegação de impostos e aperfeiçoamento da gestão fiscal. 
Enap Fundação Escola Nacional de Administração Pública 11
Planejamento financeiro: A análise dos dados financeiros, considerando 
tanto os dados históricos quanto os atuais, possibilita um planejamento 
mais eficiente para aplicação dos recursos públicos. 
Controle de gastos: O monitoramento dos dados econômicos permite uma 
gestão eficiente dos gastos públicos, com transparência e responsabilidade 
na gestão dos recursos públicos. 
Compras públicas: A análise dos dados das compras públicas permite 
identificar padrões de comportamento das transações suspeitas ou 
incomuns, como transações sem licitação ou com fornecedores com 
histórico de irregularidades. No contexto da Política de Dados Abertos do 
Governo Federal (veja aqui), as ferramentas do Big Data podem ser utilizadas 
para analisar os dados abertos sobre compras públicas. Assim, os gestores 
públicos têm condições de identificar eventuais casos de sobrepreço ou 
favorecimento de determinados fornecedores. 
Gestão de desempenho: A análise dos dados de desempenho dos 
colaboradores permite monitorar metas alcançadas, resultados de projetos, 
identificar talentos e aprimorar a alocação de tarefas. 
Gestão demográfica: A análise dos dados demográficos, como idade, 
gênero, etnia e localização pode ajudar no entendimento das necessidades e 
preferências dos colaboradores e no desenvolvimento de políticas públicas 
com programas de recursos humanos mais eficazes.
Que tal se aprofundar nos estudos?
Veja as indicações de leitura a seguir: 
Big Data em Organizações de Médio e Grande Porte do Setor Público 
Brasileiro: Prontidão e Situação Atual, de Schauet e Trez (2021). 
Clique aqui para acessar. 
Administração pública brasileira no século 21: seis grandes desafios, 
de Beuno, Brelàz e Salinas (2016). Clique aqui para acessar. 
Ciência de Dados em políticas públicas: uma experiência de formação, 
de De Toni e Dorneles (2022). Clique aqui para acessar. 
https://www.gov.br/governodigital/pt-br/legislacao/legislacao-governo-aberto
https://sol.sbc.org.br/index.php/wcge/article/view/15973
https://revista.enap.gov.br/index.php/RSP/article/view/1152
https://repositorio.enap.gov.br/bitstream/1/7472/2/Livro%20Digital%20Ci%C3%AAncia%20de%20Dados%20em%20Pol%C3%ADticas%20P%C3%BAblicas_compressed.pdf
12Enap Fundação Escola Nacional de Administração Pública
1.2 Principais Características: os 5 Vs do Big Data
Até aqui, você já deve ter percebido que o fenômeno do Big Data está diretamente 
relacionado ao imenso volume de dados gerados no mundo digital, certo? 
No entanto, essa não é a única característica que define o Big Data. Inicialmente, ele 
foi definido pelos 3Vs: volume, velocidade e variedade dos dados. Com o avanço das 
tecnologias, dois outros atributos se tornaram igualmente importantes: veracidade e 
valor. Portanto os 5Vs do Big Data são: volume, velocidade, variedade, veracidade e valor. 
A figura a seguir demonstra os 5Vs do Big Data.
5Vs do Big Data. 
Elaboração: CEPED/UFSC (2023). 
Enap Fundação Escola Nacional de Administração Pública 13
Quer ver com mais detalhes o papel que os dados desempenham na sociedade 
digitalizada de hoje? Leia a seguir um aprofundamento sobre as características 
dos 5Vs do Big Data.
O primeiro "V" do Big Data trata do volume, ou seja, a imensa quantidade de 
dados envolvida. Imagine um mar de informações coletadas de diversas fontes: 
governamentais, transações financeiras, redes sociais, comunicações, sensores de 
IoT, servidores web, aplicativos, áudios, geolocalização e até mesmo dados trocados 
entre máquinas. Estamos falando de terabytes, petabytes, exabytes, zettabytes e 
até yottabytes de dados. É como mergulhar em um oceano infinito de informações. 
Volume
No Big Data, a velocidade é essencial. Trata-se da rapidez com que 
os dados são transmitidos e processados. Os dados trafegam em 
alta velocidade em tempo real ou quase em tempo real. Para isso, a 
capacidade de transferência precisa ser suficientemente ágil para garantir 
essa transmissão de processamento de dados de forma veloz. 
A velocidade no Big Data considera fatores como a capacidade da rede, o volume de 
dados em processo, a complexidade do processamento e o tipo de informações em 
questão. Mas não se preocupe, técnicas como processamento paralelo distribuído, 
armazenamento em cache e redução do volume de dados desnecessários ajudam 
a alcançar a velocidade da transferência e processamento de dados desejada. 
Velocidade
A variedade no Big Data refere-se à diversidade de fontes, formatos e tipos 
de dados coletados. Os dados podem ser estruturados, semiestruturados 
e não estruturados. Eles são armazenados em conjuntos complexos, 
exigindo soluções de armazenamento resilientes, seguras e com 
integridade. Em resumo, lidar com a variedade significa lidar com diferentes 
formas e estruturas de dados provenientes de diversas fontes. Variedade
A veracidade em Big Data refere-se à qualidade dos dados. É fundamental na 
etapa de análise compreender o contexto em que os dados foram gerados, 
garantir sua autenticidade e procedência confiável. A veracidade desempenha 
um papel crítico em áreas como saúde, finanças e segurança, onde decisões 
baseadas em dados de baixa qualidade, imprecisos, incompletos ou 
inconsistentes podem ter consequências prejudiciais para a sociedade. 
Para garantir a veracidade dos dados, é essencial implementar técnicas de 
governança de dados. Essas técnicas estabelecem processos e controles 
que asseguram que os dados sejam obtidos, armazenados, processados e 
utilizados de maneira confiável e precisa, sem manipulações ou falsificações. 
Veracidade
No Big Data, o valor está associado à importância, relevância e utilidade dos 
dados para uma organização. Ele é gerado quando os dados são capazes 
de identificar oportunidades de negócios e solucionar problemas. A criação 
de valor dos dados depende da capacidade da organização de capturar, 
armazenar, processar e analisar grandes volumes de informações. 
Para que os dados agreguem valor, é necessário garantir sua qualidade, 
precisão, completude, atualidade, integridade e consistência. Esses 
requisitos são fundamentais para extrair benefícios significativos 
dos dados no desempenho e sucesso da organização. 
Valor
14Enap Fundação Escola Nacional de Administração Pública
Você chegou ao final destaunidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima!
Enap Fundação Escola Nacional de Administração Pública 15
ALAOUIE, Ali M. Assessing whether the design of a state forensic portal of test 
results complies with requirements of open government data. Forensic Science 
International: Reports, [s. l.], v. 1, p. 100043, 2019. Disponível em: https://doi.
org/10.1016/j.fsir.2019.100043. Acesso em: 4 jul. 2023. 
AMARAL, Fátima Beatriz Manieiro do; ARAKAKI, Ana Carolina Simionato; FURNIVAL, 
Ariadne Chloe Mary. Metadados e padrão de metadados para editoras universitárias 
brasileiras. Revista Digital de Biblioteconomia e Ciência da Informação (RDBCI), 
[s. l.], v. 19, p. e021032, 2021. 
BATINI, Carlo et al. Methodologies for data quality assessment and improvement. 
ACM Computing Surveys, [s. l.], v. 41, n. 3, 2009. 
BERTOT, John Carlo et al. Big data, open government and e-government: Issues, 
policies and recommendations. Information polity, [s. l.], v. 19, n. 1, p. 5–16, 2014. 
BUENO, Ricado Luiz Pereira; BRELÀZ, Gabriela de; SALINAS, Natasha Schmitt Caccia. 
Administração pública brasileira no século 21: seis grandes desafios. Revista do 
Serviço Público, [s. l.], v. 67, p. 7–28, 2016. 
COSTA, Rogério da. Por um novo conceito de comunidade: redes sociais, 
comunidades pessoais, inteligência coletiva. Interface - Comunicação, Saúde, 
Educação, [s. l.], v. 9, n. 17, p. 235–248, 2005. 
DAVID, Davidson Juarêz et al. Benefícios e Riscos do Uso da Computação em Nuvem 
no Setor Público: uma análise baseada em artigos disponibilizados em bases 
dados acadêmicas de 2017 a 2021. Revista Iberica de Sistemas e Tecnologias de 
Informacao (RISTI). [s. l.], v. 49, p. 537–549, 2022. 
DE ARAUJO, V. S.; ZULLO, B. A.; TORRES, M. Big data, algoritmos e inteligência 
artificial na administração pública: reflexões para a sua utilização em um ambiente 
democrático. A&C Revista de Direito Administrativo & Constitucional, Curitiba, 
v. 20, n. 80, p. 241–261, 2020. 
DE TONI, J.; DORNELES, R. (Orgs). Ciência de dados em políticas públicas: uma 
experiência de formação. Brasília, DF: Enap, 2022. 
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Knowledge Discovery and Data 
Mining: Towards a Unifying Framework. In: INTERNATIONAL CONFERENCE 
ON KNOWLEDGE DISCOVERY AND DATA MINING, 2., 1996, Portland. KDD-96 
Proceedings. [S. l.]: AAAI Press, 1996. p. 82–88. 
Referências 
https://doi.org/10.1016/j.fsir.2019.100043
https://doi.org/10.1016/j.fsir.2019.100043
16Enap Fundação Escola Nacional de Administração Pública
FERNANDES, F.; CHIAVEGATTO FILHO, A. Perspectivas do uso de mineração de 
dados e aprendizado de máquina em saúde e segurança no trabalho. Revista 
Brasileira de Saúde Ocupacional, [s. l.], v. 44, p. 1–12, 2019. 
FREEPIK COMPANY. [Banco de Imagens]. Freepik, Málaga, 2023. Disponível em: 
https://www.freepik.com/. Acesso em: 22 jun. 2023. 
DAVENPORT, T. H. How strategists use “big data” to support internal business decisions, 
discovery and production. Strategy & Leadership, [s. l.], v. 42, n. 4, p. 45–50, 2014. 
Disponível em: https://doi.org/10.1108/SL-05-2014-0034. Acesso em: 4 jul. 2023. 
KHINE, Pwint Phyu; WANG, Zhao Shun. Data lake: a new ideology in big data era. 
ITM Web of Conferences, [s. l.], v. 17, p. 03025, 2018. 
KLEIN, G. H.; NETO, P. G.; TEZZA, R. Big data e mídias sociais: Monitoramento das redes 
como ferramenta de gestão. Saúde e Sociedade, [s. l.], v. 26, n. 1, p. 208–217, 2017. 
LEITE, F. et al. Boas Práticas para a Construção De Repositórios Institucionais 
Da Produção Científica. Brasília, DF: Ibict, 2012. Disponível em: http://livroaberto.
ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20
de%20repositórios%20institucionais%20da%20produção%20científica.pdf. 
Acesso em: 4 jul. 2023. 
LENZERINI, M. Data integration: A theoretical perspective. In: ACM SIGMOD-SIGACT-
SIGART SYMPOSIUM, 21., 2002. Proceedings [...] on Principles of database 
systems. [S. l.: s. n.], 2002. p. 233–246. 
LOCK, Michael. Angling for Insight in Today’S Data Lake. [S. l.]: Aberdeen, 2017. 
MAGALHAES, Regis Pires. Processamento de Grafos em Big Data. [S. l.: s. n.], 2015. 
MANOJ KUKREJA, Danil Zburivsky. Data Engineering with Apache Spark, Delta Lake, 
and Lakehouse. [S. l.]: Packt Publishing Ltd., 2021. 
MELL, Peter; GRANCE, Tim. The NIST definition of cloud computing. [S. l.: s. n.], 2011. 
MONTEIRO, Elizabete Cristina De Souza de Aguiar; SANT’ANA, Ricardo Cesar 
Gonçalves. Plano de gerenciamento de dados em repositórios de dados de 
universidades. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência 
da Informação, [s. l.], v. 23, n. 53, p. 160–173, 2018. 
NAVATHE, Elmasri. Sistemas de Banco de Dados. Journal of Chemical Information 
and Modeling, [s. l.], v. 6, n. 9, p. 1689–1699, 2013. 
https://www.freepik.com/
https://doi.org/10.1108/SL-05-2014-0034
http://livroaberto.ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20de%20repositórios%20institucionais%20da%20produção%20científica.pdf
http://livroaberto.ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20de%20repositórios%20institucionais%20da%20produção%20científica.pdf
http://livroaberto.ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20de%20repositórios%20institucionais%20da%20produção%20científica.pdf
Enap Fundação Escola Nacional de Administração Pública 17
RAMOS, Jorge Luis Cavalcanti et al. CRISP-EDM: uma proposta de adaptação do 
Modelo CRISP-DM para mineração de dados educacionais. In: SIMPÓSIO BRASILEIRO 
DE INFORMÁTICA NA EDUCAÇÃO, 31., 2020. Anais [...]. [s. l.], Cbie, 2020, p. 1092–1101. 
ROSS, Margy; KIMBALL, Ralph. The data warehouse toolkit: the definitive guide 
to dimensional modeling. [S. l.]: John Wiley & Sons, 2013. 
SAYÃO, Luis Fernando; SALES, Luana Farias. Algumas considerações sobre os 
repositórios digitais de dados de pesquisa. Informação & Informação, [s. l.], v. 
21, n. 2, p. 90, 2016. 
SCHAULET, Evandro O.; TREZ, Guilherme. Big Data em Organizações de Médio e 
Grande Porte do Setor Público Brasileiro: Prontidão e Situação Atual, Replicação 
do Estudo Holandês de Klievink et al. (2017). In: SIMPÓSIO BRASILEIRO DE 
INFORMÁTICA NA EDUCAÇÃO, 31., 2020. Anais [...]. [s. l.], Cbie, 2020, p. 1092–1101. 
SHEARER, C. The CRISP-DM: the new blueprint for data mining. Journal of data 
warehousing, [s. l.], v. 5, n. 4, 2000. 
SHINTAKU, Milton; DUQUE, Cláudio Gottschalg; SUAIDEN, Emir José. Análise sobre 
o uso das tendências tecnológicas nos repositórios brasileiros. [S. l.: s. n.], 2014. 
SZWARCFITER, Jayme Luiz; MARKENZON, Lilian. Estruturas de Dados e seus 
Algoritmos, 3a. ed. [S. l.]: Editora LTC, 2010. 
WILKINSON, Mark D. et al. Comment: The FAIR Guiding Principles for scientific data 
management and stewardship. Scientific Data, [s. l.], v. 3, p. 1–9, 2016. 
ZENG, Marcia Lei; QIN, Jian. Metadata. [S. l.]: Facet Publishing, 2016. 
18Enap Fundação Escola Nacional de Administração Pública
Unidade 2: Eventos Geradores de Big Data 
Objetivo de aprendizagem
Ao final da unidade você será capaz de reconhecer atividades e eventos geradores do Big Data. 
Nesta unidade você conhecerá os eventos geradores de Big Data, que produzem 
um grande volume de dados. Esses eventos têm diferentes origens, como redes 
sociais, computação em nuvem, banco de dados e políticas públicas. O crescimento 
exponencial desses eventos em conjunto com o avanço tecnológico tem incrementado 
o uso das ferramentas de Big Data. 
No setor público brasileiro, os dados do Big Data estão sendo aproveitados de forma 
inteligente para impulsionar o desenvolvimento de políticas públicas mais eficientes 
e valiosas para a sociedade.
As mídias e as redes sociais têm impactado de forma exponencial a distribuição 
das informações no ambiente cibernético e são fontes abundantes de dados no 
contexto Big Data. Veja a descrição e o foco de cada uma: 
2.1 Mídias e Redes SociaisMídias Sociais 
Plataformas online que 
possibilitam aos usuários 
criar, publicar e compartilhar 
diversos tipos de conteúdo, 
como textos, áudios, vídeos, 
opiniões, notícias e imagens 
(KLEIN; NETO; TEZZA, 2017). 
Redes Sociais 
Plataformas que permitem 
aos usuários criar perfis 
e interagir entre si, 
promovendo o sentimento 
de conexão e confiança 
mútua (COSTA, 2005). 
A popularização das plataformas Facebook, Twitter, Instagram e LinkedIn trouxe consigo 
espaços virtuais para interação entre os usuários. Essas interações geram um grande 
volume de dados, que variam de semiestruturados a não estruturados. Quando esses 
dados são analisados de maneira contextualizada, revelam padrões e insights valiosos. 
Enap Fundação Escola Nacional de Administração Pública 19
Os dados gerados nas mídias e redes sociais, que fazem parte do Big Data, têm 
um potencial significativo no monitoramento das redes e podem ser aproveitados 
como ferramentas poderosas na gestão pública. É importante ressaltar que a análise 
desses dados deve ser realizada com transparência, respeitando a privacidade dos 
usuários e seguindo as normas e legislações vigentes.
Os gestores públicos têm utilizado a análise dos dados em tempo real para tomar 
decisões assertivas e ágeis. Um exemplo notável é a ferramenta ALICE, que realiza 
análises contínuas de artefatos textuais não estruturados produzidos antes, durante 
e após processos de licitação. Essa ferramenta visa aumentar a produtividade dos 
auditores e promover a auditoria preventiva das compras públicas. 
A computação em nuvem também pode ser um evento gerador de dados em Big 
Data devido à sua natureza escalável e distribuída. 
Veja a definição de computação em nuvem: 
Ferramenta ALICE
2.2 Computação em Nuvem 
Computação em nuvem. 
Fonte: Freepik (2023).
Um modelo computacional que permite 
o acesso onipresente, conveniente e sob 
demanda a um conjunto compartilhado de 
recursos de computação configuráveis. 
Esses recursos podem ser rapidamente 
provisionados e liberados com 
pouco esforço de gerenciamento e/
ou interação do provedor de serviço 
(MELL; GRANCE; NIST, 2011). 
https://repositorio.cgu.gov.br/handle/1/43580
20Enap Fundação Escola Nacional de Administração Pública
A arquitetura da computação em nuvem é uma combinação da arquitetura de 
virtualização e a arquitetura de serviços web. Nesse modelo, os data centers (centros 
de processamento de dados) desempenham um papel central, sendo responsáveis 
pelo processamento e armazenamento de dados. 
Conheça os modelos de computação em nuvem.
Infraestrutura como Serviço (IaaS): É um modelo de computação em 
nuvem que oferece, por meio de um provedor de serviço, recursos de 
computação virtualizados. Esses recursos são servidores, armazenamento, 
rede e outros componentes de infraestrutura. É o modelo mais flexível de 
computação em nuvem, já que permite aos usuários o controle total sobre 
os seus recursos para configurar e personalizar a infraestrutura conforme 
às necessidades. 
Plataforma como Serviço (PaaS): É um modelo de computação em 
nuvem que oferece uma plataforma para que os desenvolvedores criem, 
implementem e gerenciem aplicativos utilizando uma variedade de 
ferramentas e serviços. Nesse modelo os desenvolvedores trabalham nos 
seus projetos sem a necessidade de gerenciar a infraestrutura subjacente. 
Software como Serviço (SaaS): É um modelo de computação em nuvem 
que oferece um software, por meio de um provedor de serviço. Esse 
provedor é encarregado por gerenciar a infraestrutura, atualizar o software, 
manter o funcionamento e segurança. O modelo SaaS difere do modelo 
tradicional de licença de software, em que o usuário compra uma cópia do 
software e instala nos seus dispositivos. O modelo SaaS é utilizado para 
uma variedade de aplicativos, como gerenciamento de relacionamento com 
os clientes (CRM), gerenciamento de recursos humanos (HRM), software 
de produtividade e compartilhamento de arquivos, como o Office 365 e o 
G-Suite Google Workspace. 
A adoção da computação em nuvem pelo setor público tem trazido benefícios 
significativos, permitindo o acesso, armazenamento, processamento e análise 
de grandes quantidades de dados. A computação em nuvem possibilita que 
os colaboradores acessem os dados de qualquer lugar e a qualquer momento, 
gerando uma redução de custos de infraestrutura, além de aumentar a eficiência e 
escalabilidade. Essa capacidade facilita o compartilhamento de dados entre diferentes 
áreas e órgãos do setor público, promovendo maior colaboração e integração. 
 
Enap Fundação Escola Nacional de Administração Pública 21
Há riscos? 
Embora as empresas que oferecem os modelos de computação em nuvem 
mencionem nos seus contratos de serviços questões relacionadas a assegurar a 
conformidade com a legislação de proteção e privacidade dos dados, existem riscos 
que devem ser analisados (DAVID et al., 2022): 
• comprometimento da disponibilidade dos serviços de nuvem; 
• falta de atualização dos recursos tecnológicos do prestador de serviço de 
nuvem a tempo e na hora; 
• falta de integridade dos dados e das informações; 
• possibilidade de o prestador de serviços em nuvem não ser auditável pelo 
serviço público; 
• vulnerabilidades quanto à segurança; 
• acesso não autorizado; 
• vazamento de dados; 
• deficiências nos mecanismos de segurança referentes aos terceirizados; e a 
• legislação e suas atualizações. 
 
A computação em nuvem é uma realidade que possibilita ganhos de eficiência, 
decisões baseadas em dados, maior segurança dos dados e redução de custos, tanto 
para o setor privado como para o setor público. No entanto, utilizar os dados do Big 
Data da computação em nuvem requer ferramentas e tecnologias adequadas para 
coleta, armazenamento e análise dos dados. Veja alguns exemplos a seguir. 
Amazon Web Services (AWS): Plataforma líder de computação em nuvem 
que oferece serviços como o Amazon S3 para armazenamento e recuperação 
de dados escaláveis e seguros, Amazon Redshit para análise de grandes 
volumes de dados, Amazon Elastic Map Reduce para processamento de 
dados em larga escala, Amazon Athena para consultas interativas e Amazon 
QuickSight para visualização de dados. 
 
22Enap Fundação Escola Nacional de Administração Pública
Google Cloud Platform (GCP): Plataforma de computação em nuvem que 
inclui serviços como Google Cloud Storage para armazenamento de objetos 
escaláveis e seguros, BigQuery para análise de dados em larga escala, 
Dataflow para processamento de dados em tempo real e Dataproc para 
processamento de dados em lote, permitindo executar clusters do Hadoop 
e do Spark na nuvem. 
Microsoft Azure: Plataforma de computação em nuvem da Microsoft, com 
serviços como Azure Storage para armazenamento e acesso fácil a grandes 
volumes de dados; Azure HDInsight para execução de clusters do Hadoop; 
Azure Stream Analytics para análise de dados em tempo real; e Power BI 
para visualização de dados com criação de relatórios e painéis interativos. 
Os gestores públicos devem considerar que a escolha das ferramentas adequadas 
depende das necessidades específicas dos projetos e do suporte de profissionais 
qualificados para apoiar na seleção e implementação dessas ferramentas.
2.3 Bancos de Dados 
O banco de dados é uma coleção estruturada de dados armazenados digitalmente 
e gerenciados por um Sistema de Gerenciamento de Banco de Dados (SGBD). O 
gerenciamento de dados foca na criação, armazenamento e recuperação adequada 
desses dados. Em um projeto de banco de dados é essencial entender a diferença 
entre dados, informação e conhecimento. Veja na figura a seguir:
Diferença entre dado, informação e conhecimento. 
Fonte: Navathe (2013). Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 23
O SGBD gerencia a estrutura do banco de dados e controla o acesso aos dados 
armazenados. Ele atua como uma interface entre o banco de dados e os usuários 
finais ou programas,permitindo a recuperação, atualização e gerenciamento dos 
dados. O SGBD facilita a gestão e controle do banco de dados, permitindo uma série 
de ações administrativas, como monitoramento de desempenho, ajuste e backups. 
À medida que os sistemas de registro se tornam mais automatizados e interconectados, 
os dados se tornam parte do ecossistema do Big Data. O crescimento exponencial de 
dispositivos conectados à Internet das Coisas (IoT) contribui para o grande volume 
de dados disponíveis no Big Data. 
Sendo assim, os bancos de dados fazem parte dos eventos geradores de Big Data, 
principalmente se esses dados forem gerados em tempo real. 
 
Quais os desafios no uso de banco de dados? 
• Lidar com o aumento significativo no volume de dados. 
• Garantir a segurança de dados. 
• Atender à demanda por acesso em tempo real aos dados. 
• Gerenciar e manter o banco de dados e sua infraestrutura. 
• Superar os limites de escalabilidade. 
Que tal complementar seu estudo neste tema e descobrir os diferentes tipos de 
bancos de dados? Faça o download do documento a seguir. 
 Material Complementar:
 Tipos de Banco de Dados: uma Visão Geral
2.4 Políticas Públicas 
Big data na tomada de decisão no poder público é crucial para políticas públicas 
eficientes. A análise de grandes volumes de dados orienta ações embasadas em 
evidências, promovendo abordagens ágeis e precisas. Isso resulta em melhor 
qualidade de vida da população e maior efetividade das ações governamentais. 
https://articulateusercontent.com/rise/courses/kTYVjp3JmcCFD2SMy4dtI8vZtXc-vI_c/29pXddqSKUpVBVLP-Tipos%2520de%2520Banco%2520de%2520Dados_%2520uma%2520Vis%25C3%25A3o%2520Geral.pdf
24Enap Fundação Escola Nacional de Administração Pública
Assista, a videoaula à seguir sobre esse tema:
Videoaula: A Importância do Big Data 
na Tomada de Decisão
Que bom que você chegou até aqui! Agora é a hora de você testar seus conhecimentos. 
Para isso, acesse o exercício avaliativo disponível no ambiente virtual. Bons estudos!
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo01_video02/index.html
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo01_video02/index.html
Enap Fundação Escola Nacional de Administração Pública 25
COSTA, Rogério da. Por um novo conceito de comunidade: redes sociais, comunidades 
pessoais, inteligência coletiva. Interface - Comunicação, Saúde, Educação, [s. l.], v. 
9, n. 17, p. 235–248, 2005. 
DAVID, Davidson Juarêz et al. Benefícios e Riscos do Uso da Computação em Nuvem 
no Setor Público: uma análise baseada em artigos disponibilizados em bases 
dados acadêmicas de 2017 a 2021. Revista Iberica de Sistemas e Tecnologias de 
Informacao (RISTI). [s. l.], v. 49, p. 537–549, 2022. 
KLEIN, Gisiela Hasse; NETO, Pedro Guidi; TEZZA, Rafael. Big data e mídias sociais: 
Monitoramento das redes como ferramenta de gestão. Saúde e Sociedade, [s. l.], v. 
26, n. 1, p. 208–217, 2017. 
MELL, Peter; GRANCE, Tim. The NIST definition of cloud computing. [S. l.: s. n.], 
2011. 
NAVATHE, Elmasri. Sistemas de Banco de Dados. Journal of Chemical Information 
and Modeling, [s. l.], v. 6, n. 9, p. 1689–1699, 2013. 
Referências 
26Enap Fundação Escola Nacional de Administração Pública
 Módulo
A Gestão de Dados em Big Data2
Seja bem-vindo(a) ao Módulo 2 do curso Big Data em Apoio à Tomada de Decisão! 
Neste módulo, você verá informações sobre os tipos de dados, repositórios de dados 
e princípios FAIR na gestão de dados no contexto do setor público. 
Este módulo possui três unidades: 
Unidade 1: Os Dados como Ponto de Partida para Tomada de Decisão 
Unidade 2: A Importância da Gestão de Dados: Conhecendo os Repositórios 
Unidade 3: Princípios FAIR na Gestão de Dados no Serviço Público 
Este módulo possui duas unidades: 
Unidade 1: Os Dados como Ponto de Partida 
para Tomada de Decisão
Objetivo de aprendizagem
Ao final da unidade você será capaz de classificar os tipos de dados e seus usos na 
tomada de decisão, assim como a importância da qualidade de dados. 
Nesta unidade você irá explorar os diferentes tipos de dados e suas aplicações 
cruciais na tomada de decisão. Além disso, descobrirá como a qualidade dos dados 
desempenha um papel fundamental nesse processo.
No Big Data existem três tipos de dados: os estruturados, os semiestruturados e os 
não estruturados. Para cada um deles são identificados desafios e oportunidades 
de processamento e análise no Big Data. As diferenças estão presentes, porque os 
dados são criados de diversas formas e com formatos distintos (DAVENPORT, 2014). 
Veja a diferença entre eles a seguir.
1.1 Tipos de Dados 
Enap Fundação Escola Nacional de Administração Pública 27
Dados estruturados. 
Elaboração: CEPED/UFSC (2023). 
Dados não estruturados. 
Elaboração: CEPED/UFSC (2023). 
Dados semiestruturados. 
Elaboração: CEPED/UFSC (2023). 
Dados que possuem uma organização definida, 
em forma de tabelas com linhas e colunas, 
e geralmente armazenados em banco de 
dados relacionais ou tabelas, facilitando sua 
atualização e recuperação. Exemplos comuns 
são: tabelas de banco de dados, planilhas e 
arquivos Comma Separated Values (CSV). 
Dados que não possuem uma estrutura pré-
definida ou padronizada. Eles são frequentemente 
capturados de forma desestruturada, por isso 
não seguem um formato uniforme, dificultando 
seu processamento e análise automatizada. 
Exemplos comuns são: textos, documentos, 
imagens, vídeos, áudios, postagens em mídias 
sociais e e-mails, ou seja, dados sem um 
formato específico e/ou padronizado. 
Dados que possuem uma estrutura parcialmente 
definida, não seguindo um formato rígido como os 
dados estruturados. Eles combinam características 
de dados estruturados e não estruturados, 
sendo dispostos de forma organizada, mas não 
previsível. Exemplos desse tipo de dado são 
Extensible Markup Language (XML), JavaScript 
Object Notation (JSON), Ain´t Markup Language 
(YAML) e Hypertext Markup Language (HTML). 
28Enap Fundação Escola Nacional de Administração Pública
Vantagens e Desvantagens 
Cada tipo de dado tem suas próprias vantagens e desvantagens, e a existência 
desses três tipos de dados está relacionada à maneira como os dados são gerados, 
armazenados, processados e analisados em projetos de Big Data, visando a tomada 
de decisão baseada em dados. 
Conheça as vantagens e desvantagens de cada tipo de dado na tabela a seguir.
Comparação de vantagens e desvantagens dos tipos de dados. 
Fonte: Autoria própria. Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 29
Diante do avanço tecnológico e do surgimento do Big Data, o termo "metadados" 
tem ganhado destaque entre os especialistas em TI. Esses conjuntos de 
informações desempenham um papel fundamental na organização, representação 
e localização de recursos, descrevendo conteúdo, estrutura e características dos 
dados para facilitar sua identificação, acesso, uso e gerenciamento. Caso deseje 
complementar seus estudos neste tema e ver os tipos de metadados, faça o 
download do documento abaixo. 
 Material Complementar:
O Papel dos Metadados na Gestão de Dados 
1.2 A Importância de Assegurar a Qualidade de Dados 
A qualidade dos dados é um requisito fundamental para assegurar a eficácia e a 
confiabilidade das análises dos dados, decisões e processos orientados por dados. 
A gestão da qualidade dos dados é uma atividade contínua ao longo do tempo. Para 
tanto, é recomendado implementar boas práticas seguindo as seguintes etapas:
1 Definir os padrões de qualidade de dados, com critérios para avaliar a qualidade 
dos dados, considerando aspectos como precisão, completude, consistência 
relevância e atualidade. 
2 Utilizar softwares e ferramentas para gerenciar e monitorar a qualidade dos dados.
3 Realizar testes para avaliar a qualidade dos dados, utilizando ferramentas de 
validação dos dados.
4 Implementar padrões e modelos para sistematizar a estrutura, a formataçãoe a terminologia dos dados.
5 Utilizar medidas de segurança para proteger os dados de acessos não autorizados. 
6 Implementar medidas contra falta de integridade ou perda dos dados.
7 Implementar medidas para assegurar que os dados sejam precisos e 
completos, evitando duplicidade e inconsistências.
8 Realizar o monitoramento e avaliação contínuos da qualidade dos dados, para 
identificar e corrigir eventuais problemas.
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/nVr8UzfV-lbYZCEB-O%2520Papel%2520dos%2520Metadados%2520na%2520Gest%25C3%25A3o%2520de%2520Dados.pdf
30Enap Fundação Escola Nacional de Administração Pública
1.2.1 O que é Qualidade de Dados? 
A qualidade dos dados está relacionada com o grau de adequação, confiabilidade 
e precisão das informações contidas em um conjunto de dados. Essa qualidade é 
essencial para a tomada de decisão e para o sucesso dos projetos orientados por 
dados (BATINI et al., 2009).
No contexto das boas práticas para assegurar a qualidade 
dos dados, fatores como erros de entrada, redundâncias, 
inconsistências e falta de padronização devem ser mitigados. 
A falta de qualidade nos dados pode gerar perdas financeiras e 
quebra de confiabilidade na imagem da organização. 
As boas práticas de gerenciamento e monitoramento são essenciais para definir os 
padrões no uso das ferramentas de gestão e de testes para proporcionar segurança 
e integridade dos dados. 
 
Dimensões da Qualidade dos Dados 
As dimensões da qualidade dos dados ajudam a garantir que os dados usados 
na tomada de decisão sejam precisos, confiáveis, relevantes e atualizados, 
permitindo que os usuários tomem decisões informadas e baseadas em dados 
precisos. Existem várias dimensões que podem ser consideradas na avaliação da 
qualidade dos dados, dependendo do contexto em que estão sendo utilizados. 
Algumas das dimensões mais comuns incluem: 
• Precisão 
• Completude 
• Consistência 
• Confiabilidade 
• Relevância 
• Atualidade 
• Acessibilidade 
• Integridade 
Enap Fundação Escola Nacional de Administração Pública 31
 Material Complementar:
Dimensões da Qualidade de Dados 
Considerar essas dimensões ajuda a avaliar a qualidade dos dados de forma eficiente 
e eficaz, possibilitando identificar possíveis lacunas que precisam ser corrigidas para 
garantir a qualidade dos dados no processo de tomada de decisão. 
Quer ver a descrição de cada uma dessas dimensões? Então, complemente seu 
estudo no tema com o documento a seguir. 
Agora assista a videoaula a seguir, que aborda a qualidade dos dados no contexto 
do Big Data. 
Videoaula: Qualidade dos Dados no Contexto do Big Data
1.3 Como os Dados Podem Ajudar na Tomada de Decisão? 
Os dados são essenciais para a tomada de decisão. Na área governamental, os dados 
podem ser utilizados para avaliação de políticas públicas de educação, de saúde, de 
segurança pública, para alocação de recursos e planejamento urbano. É importante 
ressaltar que a tomada de decisão não deve se basear apenas nos dados, mas 
também na experiência, intuição e conhecimento do tomador de decisão. 
O fluxo do uso dos dados para a tomada de decisão pode variar dependendo do 
contexto, do tipo de dados envolvidos e do processo de tomada de decisão em 
si. No entanto, em geral, pode-se destacar algumas etapas comuns que costumam 
estar presentes no uso de dados para tomada de decisão.
• Identificação do problema: identificar qual é o problema que precisa 
ser resolvido ou a decisão que precisa ser tomada é a primeira etapa no 
processo. Essa etapa envolve a definição clara do objetivo, do escopo e das 
restrições da tomada de decisão. 
• Coleta de dados: na segunda etapa, é necessário obter os dados relevantes 
para a análise. Esses dados podem ser obtidos de diversas fontes, como 
bancos de dados, pesquisas, relatórios, entre outros. Importante ter em 
mente a veracidade dos dados. 
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/OraQmtklcCH55pq8-Dimens%25C3%25B5es%2520da%2520Qualidade%2520de%2520Dados.pdf
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo02_video03/index.html
32Enap Fundação Escola Nacional de Administração Pública
• Preparação dos dados: de posse dos dados é necessário iniciar o processo 
de preparação dos dados, com a sua organização, limpeza, integração 
e transformação dos dados para o formato adequado para uso. Ou seja, 
devem ser preparados para que possam ser utilizados adequadamente. 
• Análise dos dados: é o processo que busca explorar, visualizar e interpretar 
os dados para encontrar padrões, tendências e insights relevantes para 
a tomada de decisão. Essa etapa pode envolver técnicas como estatística 
descritiva, análise de regressão, machine learning, entre outras. 
• Interpretação dos resultados: nesta etapa é necessário interpretar os 
resultados obtidos para entender o seu significado considerando o problema 
ou decisão em questão. 
• Tomada de decisão: é a etapa final do processo, que utiliza os insights e 
informações obtidas para escolher a melhor alternativa entre as possíveis 
opções. Essa escolha pode ser baseada apenas nos dados ou levar em 
consideração outros fatores, como experiência, intuição e conhecimento. 
• Monitoramento e ajuste: na sequência, é importante monitorar os 
resultados e ajustar o processo conforme necessário. Esta etapa pode 
identificar a necessidade da obtenção de novos dados, a revisão dos 
objetivos e metas e a avaliação contínua do processo de tomada de decisão. 
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima!
Enap Fundação Escola Nacional de Administração Pública 33
AMARAL, Fátima Beatriz Manieiro do; ARAKAKI, Ana Carolina Simionato; FURNIVAL, 
Ariadne Chloe Mary. Metadados e padrão de metadados para editoras universitárias 
brasileiras. Revista Digital de Biblioteconomia e Ciência da Informação (RDBCI), 
[s. l.], v. 19, p. e021032, 2021. 
BATINI, Carlo et al. Methodologies for data quality assessment and improvement. 
ACM Computing Surveys, [s. l.], v. 41, n. 3, 2009. 
DAVENPORT, T. H. How strategists use “big data” to support internal business 
decisions, discovery and production. Strategy & Leadership, [s. l.], v. 42, n. 4, p. 
45–50, 2014. Disponível em: https://doi.org/10.1108/SL-05-2014-0034. Acesso em: 4 
jul. 2023. 
ZENG, Marcia Lei; QIN, Jian. Metadata. [S. l.]: Facet Publishing, 2016. 
Referências 
https://doi.org/10.1108/SL-05-2014-0034
34Enap Fundação Escola Nacional de Administração Pública
A gestão dos dados é um processo que visa obter, armazenar, organizar, proteger e 
analisar os dados para serem utilizados de forma eficaz na organização, com a escolha 
de tecnologias adequadas para assegurar a qualidade dos dados, a sua conformidade 
e acesso a eles no apoio à tomada de decisão. Para isso, é importante conhecer os 
diferentes tipos de repositórios de dados e como eles podem ser gerenciados.
Os repositórios de dados são ambiente digitais implementados por instituições 
públicas e/ou privadas com infraestrutura computacional e softwares específicos 
para armazenar, organizar e gerenciar os dados para dar suporte a sua gestão, 
principalmente nas ações relacionadas com a tomada de decisão (MONTEIRO; 
SANT’ANA, 2018). São estruturados para otimizar o armazenamento, a recuperação e 
análise dos dados, tanto os estruturados, semiestruturados e não estruturados. 
Unidade 2: A Importância da Gestão de Dados: 
Conhecendo os Repositórios 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de diferenciar os tipos de repositório de dados e 
a importância deles para a gestão de dados no serviço público. 
2.1 O que São e quais os Tipos de Repositórios de Dados? 
A escolha do repositório de dados está relacionada 
ao tamanho, tipo de dados a serem armazenados, 
necessidades de análise e gerenciamento dos dados 
da organização. Umrepositório pode ser definido como 
um conjunto de sistemas que busca tornar interativo 
o armazenamento, o gerenciamento, a recuperação, 
a exibição e reutilização de objetos digitais. Esses 
repositórios possibilitam o acesso a um gama de 
objetos digitais, tais como artigos revisados por 
pares, capítulos de livros, teses, imagens, vídeos, 
textos, documentos, conjuntos de dados e objetos 
de aprendizado (MONTEIRO; SANT’ANA, 2018). 
Repositórios de Dados. 
Fonte: Freepik (2023).
Enap Fundação Escola Nacional de Administração Pública 35
Provavelmente você já deve ter acessado algum repositório de dados, quer ver? A seguir 
estão exemplos de repositórios de dados (LEITE et al., 2012; SAYÃO; SALES, 2016).
Repositórios de dados de acesso aberto: são originalmente estruturados 
para permitir acesso imediato e amplo a trabalhos científicos resultantes de 
atividades de pesquisas. Esse tipo de repositório permite uma disseminação 
ampla e irrestrita dos dados, disponibilizando para a sociedade o acesso 
público e sem custos aos dados. 
Repositórios de dados institucionais: são mais comuns em instituições 
de ensino e pesquisa que produzem conteúdo científico. Contemplam o 
armazenamento, a organização, a preservação, a recuperação e a ampla 
divulgação das pesquisas. 
Repositórios de dados temáticos: são repositórios de dados científicos 
específicos. São criados e gerenciados por diferentes tipos de organizações 
para recolher, preservar e facilitar o compartilhamento dos resultados de 
pesquisas específicas. 
Repositórios de dados científicos: são repositórios que armazenam 
conjuntos de dados de pesquisa e os disponibilizam para pesquisadores 
acessarem e utilizarem. 
 
Veja a seguir os benefícios relevantes dos repositórios de dados (SAYÃO; SALES, 2016).
Benefícios dos repositórios de dados. 
Elaboração: CEPED/UFSC (2023).
36Enap Fundação Escola Nacional de Administração Pública
• Visibilidade: os repositórios permitem uma abrangência maior dos dados 
de pesquisa. Para tanto, deve-se considerar a qualidade, formato e os 
metadados associados aos dados para tornar a visibilidade abrangente. 
• Compartilhamento: graças à sua capacidade de armazenamento 
e organização de dados, os repositórios desempenham um papel 
fundamental na socialização de comunidades e grupos de pesquisadores, 
tornando os dados acessíveis para uso e promovendo desenvolvimento 
de métodos e técnicas inovadoras. 
• Autoria: os repositórios possibilitam identificar as coleções de dados e 
seus autores. 
• Preservação: os repositórios fornecem um ambiente computacional para 
preservação dos dados ao longo do tempo. 
• Transparência: os repositórios fomentam o princípio da transparência, 
tendo como requisitos a qualidade, relevância e o formato dos dados. 
• Segurança: os repositórios possuem regras de armazenamento seguro, 
com sistemas de backup e segurança física, ao invés de depender de um 
armazenamento informal em dispositivos eletrônicos pessoais. 
• Disponibilidade: os repositórios permitem que os dados estejam 
disponíveis e acessíveis 24/7. 
• Curadoria: os repositórios proporcionam um ambiente para agregar e 
recriar dados com um processo de seleção, organização e gerenciamento 
do conteúdo digital para objetivos específicos. 
• Inovação: os repositórios permitem a criação de serviços inovadores para 
os pesquisadores, gestores e instituições de pesquisa. Os serviços inovadores 
estão relacionados com acesso, integração, metadados, compartilhamento 
de código e ferramentas de análise dos dados. 
• Reutilização: os repositórios fomentam a reutilização dos dados, 
minimizando a duplicação de esforços e otimizando a geração de dados 
para utilização em projetos distintos. 
• Redes: os repositórios permitem a criação de redes de repositórios 
respeitando os protocolos de interoperabilidade. 
• Indicadores: os repositórios estabelecem indicadores para fundamentar 
a qualidade e a relevância das pesquisas das instituições. 
Enap Fundação Escola Nacional de Administração Pública 37
Fique atento! Na implantação dos repositórios de dados alguns desafios nesse 
processo devem ser levados em conta.
•Qualidade dos dados: os repositórios trabalham com grandes quantidades 
de dados obtidos de diversas fontes. O crescimento do volume dos conjuntos 
de dados nos repositórios pode reduzir o desempenho do sistema de 
gerenciamento de banco de dados. Sendo assim, a qualidade e quantidade 
de dados deve ser considerada. 
• Privacidade: os repositórios podem ter dados sensíveis e/ou confidenciais que 
devem ser protegidos considerando as questões relacionadas com a legislação. 
• Atualização: os repositórios demandam uma dinâmica de atualizações 
com o objetivo de assegurar dados atualizados. 
•Interoperabilidade: os repositórios armazenam dados em diferentes 
formatos, característica que pode atrapalhar a capacidade dos sistemas de 
se comunicarem, limitando a capacidade de compartilhamento dos dados. 
• Acesso: os repositórios podem ter regras ou requisitos de acesso restritivos 
que podem limitar a disponibilidade dos dados. 
•Armazenamento e infraestrutura: os repositórios armazenam grandes 
quantidades de dados, característica que demanda uma infraestrutura 
tecnológica de armazenamento adequada. 
Quer conhecer exemplos de repositórios de dados disponíveis atualmente? Veja a 
lista no documento a seguir. 
2.1.1 Bancos de Dados 
Um banco de dados é uma coleção estruturada de dados armazenados digitalmente 
e gerenciados por um Sistema de Gerenciamento de Banco de Dados (SGBD). O 
gerenciamento de dados é uma disciplina que foca na criação, armazenamento e 
recuperação adequada dos dados. 
 Material Complementar:
Exemplos de Repositórios de Dados 
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/x7C51c8BWilqAmWS-Exemplos%2520de%2520Reposit%25C3%25B3rios%2520de%2520Dados.pdf
38Enap Fundação Escola Nacional de Administração Pública
Dentro do conceito de banco de dados, encontram-se os sistemas datacêntricos, 
que são projetados e construídos em torno de dados. Esses sistemas posicionam 
os dados no centro do design e são desenvolvidos para gerenciar e processar 
grandes quantidades de dados. Os sistemas datacêntricos ajudam as organizações a 
obterem insights valiosos, aproveitando grandes volumes de dados em tempo real. 
No entanto, esses sistemas apresentam desafios relacionados com a privacidade, 
segurança de dados e integração com sistemas externos à organização. 
O SGBD é responsável por gerenciar a estrutura do banco de dados e controlar o 
acesso aos dados armazenados. À medida que os sistemas de registro se tornam 
mais automatizados e interconectados, os dados se tornam parte do ecossistema 
do Big Data. O crescimento exponencial de dispositivos conectados à Internet das 
Coisas (IoT) contribui para o grande volume de dados disponíveis no Big Data. 
A figura a seguir apresenta exemplos de banco de dados relacional e NoSQL:
Fonte: Mario_sergio_ti (2017). 
Enap Fundação Escola Nacional de Administração Pública 39
2.1.2 Data Lakes e Data Warehouses
No contexto dos repositórios centralizados de dados que possibilitam o 
armazenamento e o gerenciamento de grandes volumes de dados, duas tecnologias 
de armazenamento são frequentemente mencionadas: Data Lake e Data Warehouse. 
Data Lakes são repositórios centralizados de dados que armazenam grandes 
volumes de dados brutos, estruturados, semiestruturados e não estruturados. 
Eles permitem a integração de dados de diversas fontes sem a necessidade de 
transformação prévia. 
Por outro lado, o Data Warehouse é um repositório central que armazena grandes 
quantidades de dados históricos e atualizados de diferentes fontes dentro de uma 
organização. É usado para análises e tomada de decisões estratégicas, seguindo 
uma arquitetura dimensional com dados organizados em fatos e dimensões. 
Enquanto o Data Lake oferece mais flexibilidade de armazenamento, o DataWarehouse é mais focado em análises e tem uma estrutura mais organizada. 
Que tal complementar seu estudo neste tema? Veja o documento a seguir, que 
aborda as diferenças, conceituações e benefícios desses repositórios. 
 Material Complementar:
O que são os Data Lakes?
2.2 Tipos de Repositórios de Dados Públicos 
A criação de repositórios de dados públicos tem o potencial de empoderamento da 
sociedade, permitindo o acesso pleno e livre aos dados. Na era da informação, em 
que uma grande quantidade de dados está disponível no Big Data, surgem cada vez 
mais repositórios de dados públicos (ALAQUIE, 2019). O acesso aos dados públicos 
permite que pesquisadores, gestores, empreendedores e empresas façam uso dos 
dados para impulsionar a tomada de decisão baseada em dados. 
O plano de dados abertos do governo federal tem por objetivo permitir a publicação 
e disseminação de dados armazenados em bases de dados de órgãos e entidades 
da administração pública federal. Os repositórios de dados governamentais 
disponibilizam dados relacionados com áreas da educação, segurança, saúde, 
transporte e planejamento urbano, por exemplo. 
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/lo6TJzOPr-Xa5aWZ-O%2520que%2520s%25C3%25A3o%2520os%2520Data%2520Lakes.pdf
40Enap Fundação Escola Nacional de Administração Pública
Videoaula: Repositório de Dados no Serviço Público
Na videoaula a seguir, você verá sobre os repositórios de dados no serviço público. 
Assista!
Veja alguns exemples de repositórios de dados públicos.
Repositórios 
governamentais 
São mantidos por 
órgãos do governo, com 
dados relacionados aos 
serviços públicos.
Repositórios 
acadêmicos 
São mantidos por 
instituições acadêmicas, 
com dados de pesquisa 
de várias áreas do 
conhecimento.
Repositórios 
comunitários 
São mantidos por 
comunidades de 
desenvolvedores. Esses 
repositórios permitem 
que desenvolvedores 
contribuam com código, 
correções e bugs nos 
projetos de código aberto.
Repositórios 
empresariais
São mantidos por 
organizações com dados 
relacionados aos seus 
negócios. Eles são projetados 
para armazenar grandes 
quantidades de dados 
financeiros, de vendas, de 
clientes e dados operacionais.
É importante refletir que a segurança e privacidade dos dados devem ser consideradas 
ao compartilhar dados em um repositório público. Pode ser uma boa prática armazenar 
dados confidenciais e privados (sensíveis) em um repositório privado.
Aqui há uma lista de repositórios institucionais públicos 
(veja aqui). Confira! 
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo02_video04/index.html
https://ifrs.edu.br/veranopolis/biblioteca/recursos-de-acesso-aberto/repositorios-institucionais-e-tematicos/ 
Enap Fundação Escola Nacional de Administração Pública 41
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima!
42Enap Fundação Escola Nacional de Administração Pública
ALAOUIE, Ali M. Assessing whether the design of a state forensic portal of test 
results complies with requirements of open government data. Forensic Science 
International: Reports, [s. l.], v. 1, p. 100043, 2019. Disponível em: https://doi.
org/10.1016/j.fsir.2019.100043. Acesso em: 4 jul. 2023. 
KHINE, Pwint Phyu; WANG, Zhao Shun. Data lake: a new ideology in big data era. ITM 
Web of Conferences, [s. l.], v. 17, p. 03025, 2018. 
LEITE, Fernando et al. Boas práticas para a construção de repositórios 
institucionais da produção científica. [s. l.: s. n.], 2012. 34 p. Disponível em: 
http://livroaberto.ibict.br/bitstream/1/703/1/Boas práticas para a construção de 
repositórios institucionais da produção científica.pdf. Acesso em: 3 maio 2023. 
LOCK, Michael. Angling for Insight in Today’S Data Lake. [S. l.]: Aberdeen, 2017. 
LORICA, Ben et al. O que é um Lakehouse?. Databricks. 2023. Disponível: https://
www.databricks.com/br/blog/2020/01/30/what-is-a-data-lakehouse.html. 
Acesso em: 3 maio 2023. 
MARIO_SERGIO_TI. Dúvida sobre Data wareHouse. 13 jun. 2017. [Comentário]. Qlik: 
Mario_sergio_ti. Disponível em: https://community.qlik.com/t5/Brasil/dúvida-sobre-
Data-wareHouse/td-p/1356961. Acesso em: 3 maio 2023. 
MONTEIRO, Elizabete Cristina De Souza de Aguiar; SANT’ANA, Ricardo Cesar 
Gonçalves. Plano de gerenciamento de dados em repositórios de dados de 
universidades. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da 
Informação, [s. l.], v. 23, n. 53, p. 160–173, 2018. 
NAVATHE, Elmasri. Sistemas de Banco de Dados. Journal of Chemical Information 
and Modeling, [s. l.], v. 6, n. 9, p. 1689–1699, 2013. 
SAYÃO, Luis Fernando; SALES, Luana Farias. Algumas considerações sobre os 
repositórios digitais de dados de pesquisa. Informação & Informação, [s. l.], v. 21, 
n. 2, p. 90, 2016.
Referências 
https://doi.org/10.1016/j.fsir.2019.100043
https://doi.org/10.1016/j.fsir.2019.100043
http://livroaberto.ibict.br/bitstream/1/703/1/Boas práticas para a construção de repositórios institucionais da produção científica.pdf
http://livroaberto.ibict.br/bitstream/1/703/1/Boas práticas para a construção de repositórios institucionais da produção científica.pdf
https://www.databricks.com/br/blog/2020/01/30/what-is-a-data-lakehouse.html
https://www.databricks.com/br/blog/2020/01/30/what-is-a-data-lakehouse.html
https://community.qlik.com/t5/Brasil/dúvida-sobre-Data-wareHouse/td-p/1356961
https://community.qlik.com/t5/Brasil/dúvida-sobre-Data-wareHouse/td-p/1356961
Enap Fundação Escola Nacional de Administração Pública 43
Unidade 3: Princípios FAIR na Gestão de Dados no Serviço Público 
Objetivo de aprendizagem
Ao final da unidade, você será capaz de classificar os princípios de dados FAIR (Findable, 
Acessible, Interoperable, Reusable) na gestão de dados do serviço público. 
Os princípios FAIR (Findable, Accessible, Interoperable, Reusable) são diretrizes que 
visam promover a usabilidade, compartilhamento e reutilização de dados de forma 
eficiente e eficaz. Esses princípios foram desenvolvidos para enfrentar os desafios 
de encontrar, acessar e integrar dados em um contexto de dados cada vez mais 
distribuídos e diversos. 
A gestão de dados eficiente e adequada é essencial para facilitar descobertas, 
inovação e reutilização dos dados por toda a comunidade. Com o objetivo de garantir 
as melhores práticas nessa gestão, surgiram iniciativas como Data Seal of Approval 
(DAS) em 2010-2011. No entanto, foi em 2016 que o grupo FORCE11 estabeleceu 
os princípios FAIR, que definem diretrizes para tornar os dados mais acessíveis, 
reutilizáveis e interoperáveis (FORCE 11, 2020; WILKINSON et al., 2016). 
Os princípios FAIR, representados pelos termos Findable (encontrável), Accessible 
(acessível), Interoperable (interoperável) e Reusable (reutilizável), quando aplicados 
à gestão de dados, melhoram a qualidade dos dados, através de um conjunto 
de diretrizes para tornar os dados mais acessíveis e úteis. Esses princípios são 
distribuídos em quatro categorias. 
É importante ressaltar que os princípios FAIR não se aplicam apenas aos dados em si, 
mas também devem ser incorporados aos algoritmos, ferramentas e fluxos de trabalho 
relacionados a esses dados. A aplicação desses princípios beneficia os objetos de 
pesquisa digital, garantindo transparência, reprodutibilidade e reutilização ao tornar os 
componentes do processo de pesquisa acessíveis (WILKINSON et al., 2016). 
Na imagem a seguir, você poderá ver os princípios FAIR e sua conceituação: 
3.1 O que são os princípios FAIR? 
44Enap Fundação Escola Nacional de Administração Pública
Se interessou pelo tema e quer se aprofundar nos princípios FAIR? 
Ouça o podcast do Ibictcast, no qual Luana Sales, pesquisadora 
do Ibict e coordenadora do GO FAIR Brasil, fala sobre os princípios 
FAIR. Clique aqui. 
Quer ver com mais detalhes os princípios FAIR e suas diretrizes? Então complemente 
seu estudo com o material a seguir. 
PrincípiosFAIR. 
Elaboração: CEPED/UFSC (2023).
 Material Complementar:
Princípios FAIR
https://www.gov.br/ibict/pt-br/central-de-conteudos/noticias/2022/maio-2022/luana-sales-fala-sobre-os-principios-fair-durante-entrevista-para-o-ibictcast-o-podcast-do-ibict
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/vq_t9K4RSQSK8POR-Princ%25C3%25ADpios%2520FAIR.pdf
Enap Fundação Escola Nacional de Administração Pública 45
Que bom que você chegou até aqui! Agora é a hora de você testar seus conhecimentos. 
Para isso, acesse o exercício avaliativo disponível no ambiente virtual. Bons estudos!
46Enap Fundação Escola Nacional de Administração Pública
THE FUTURE OF RESEARCH COMMUNICATIONS AND E-SCHOLARSHIP (FORCE 11). 
The FAIR Data Principles. 2020. Disponível em: https://force11.org/info/the-fair-
data-principles/. Acesso em: 27 jun. 2023. 
WILKINSON, Mark D. et al. Comment: The FAIR Guiding Principles for scientific data 
management and stewardship. Scientific Data, [s. l.], v. 3, p. 1–9, 2016. 
Referências 
https://force11.org/info/the-fair-data-principles/
https://force11.org/info/the-fair-data-principles/
Enap Fundação Escola Nacional de Administração Pública 47
 Módulo
O Uso dos Dados na Prática: 
o que Fazer?3
Seja bem-vindo(a) ao Módulo 3 do curso Big Data em Apoio à Tomada de Decisão! 
Chegou a hora de entrar na prática do uso de dados em Big Data. Você sabe o que 
fazer com esses dados? 
Neste módulo, você verá sobre os tipos de agrupamentos, processos de 
transformação, algoritmos, como esses dados são representados e distribuídos. 
Este módulo possui 5 unidades: 
Unidade 1: Tipos de Agrupamentos de Dados em Big Data 
Unidade 2: A Transformação de Dados 
Unidade 3: A Utilização do Algoritmo de Big Data 
Unidade 4: O que é Distribuição de Dados? 
Unidade 5: Conhecendo os Modelos de Programação do Big Data
Unidade 1: Tipos de Agrupamentos de Dados em Big Data 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de classificar os tipos de agrupamentos de 
dados em Big Data. 
Imagine se você pudesse identificar grupos de pessoas com necessidades similares, 
permitindo uma personalização dos serviços públicos. 
A clusterização, ou agrupamento de dados, é uma técnica que busca identificar 
grupos de objetos semelhantes em um conjunto de dados, com base em suas 
características, permitindo uma melhor compreensão dos dados e a descoberta de 
insights relevantes.
48Enap Fundação Escola Nacional de Administração Pública
1.1 Modelos de Conectividade 
A análise de conectividade é uma técnica que busca identificar grupos ou clusters de 
dados com base nas relações e proximidade entre eles. Esses modelos são estruturados 
levando em consideração a proximidade dos dados no espaço em que estão inseridos. 
Dessa forma, os dados que estão mais próximos no espaço apresentam maior 
similaridade entre si, em contraste com aqueles que estão distantes.
Existem diferentes modelos de análise de conectividade, como o baseado em 
vizinhança e o modelo baseado em grafos. Veja a seguir cada um deles.
O modelo de análise de conectividade é comumente aplicado no 
Big Data para agrupar grandes conjuntos de dados em clusters 
menores e mais gerenciáveis, facilitando a identificação de 
padrões e insights valiosos. 
Conectividade baseada em vizinhança. 
Elaboração: CEPED/UFSC (2023). 
Vizinhança
Esses modelos de conectividade de vizinhança são úteis em diferentes cenários 
e podem ser aplicados a uma ampla variedade de conjuntos de dados. Nesse 
modelo, a conectividade entre os dados é determinada pela proximidade no 
espaço de características. São frequentemente usados em análise de dados, 
aprendizado de máquina e visão computacional para identificar padrões em 
grandes conjuntos de dados. 
Enap Fundação Escola Nacional de Administração Pública 49
Conectividade baseada em grafos. 
Elaboração: CEPED/UFSC (2023).
Grafos
O modelo de conectividade baseado em grafos utiliza uma representação de 
grafo para visualizar as relações entre os dados. Nesse modelo, identifica-se 
clusters com base na conectividade dos vértices do grafo. Os grafos são utilizados 
em diversas áreas, como ciência da computação, matemática, física, biologia e 
redes sociais. No contexto do Big Data, a análise de grafos permite a modelagem 
e análise de redes complexas, como redes sociais e de transporte, fornecendo 
insights valiosos sobre sua estrutura e dinâmica. 
Um grafo é uma estrutura matemática usada para representar 
as relações entre objetos ou entidades. Ele é composto por 
um conjunto de vértices (também conhecidos como nós) e um 
conjunto de arestas (ou ligações) que conectam os vértices. 
Quer se aprofundar no tema de grafos? No documento a seguir, 
você pode complementar seus estudos no conceito e tipos de 
grafos, a questão da complexidade nos grafos e suas conexões. 
 Material Complementar:
 A Representação da Estrutura de Dados
https://articulateusercontent.com/rise/courses/SgZhj_jx1hSQubC3HMMXZnZ1m5bucZZ7/B-PcMRDOa8kwiLEy-A%2520Representa%25C3%25A7%25C3%25A3o%2520da%2520Estrutura%2520de%2520Dados.pdf
50Enap Fundação Escola Nacional de Administração Pública
Conectividade baseada em centróides. 
Fonte: Google (2022)
1.2 Modelos de Centróide 
1.3 Modelos de Distribuição 
Os modelos de centróide são um tipo de algoritmo de clustering em que a 
similaridade entre os pontos de dados é definida pela proximidade desses pontos 
aos centróides (centro geométricos) dos clusters. Esses modelos visam identificar 
centróides que sejam representativos dos clusters e buscam encontrar o número 
ideal de clusters para o conjunto de dados.
Os modelos de distribuição são utilizados para calcular a probabilidade de um 
elemento pertencer a um grupo ou não. Eles formam agrupamentos com base na 
probabilidade de que todos os pontos em um cluster tenham sido gerados por uma 
determinada distribuição de probabilidade. 
 
Diferentemente dos modelos de conectividade baseados em vizinhança, os modelos de 
centróide exigem a definição prévia do número de clusters desejado para se executar o 
algoritmo, o que pode ser um desafio. A escolha inicial aleatória dos centróides também 
pode afetar os resultados. É importante avaliar a qualidade dos clusters gerados por 
esses modelos e ajustar o número de clusters de acordo com os objetivos desejados. 
Enap Fundação Escola Nacional de Administração Pública 51
Alguns modelos de distribuição, como o modelo de mistura de gaussianas, usam 
a distância como medida de similaridade e a probabilidade para atribuir pontos 
a diferentes clusters. É essencial definir um limiar de precisão para determinar o 
número de clusters necessários e como os pontos são atribuídos a eles. 
Os modelos de densidade são ferramentas utilizadas para analisar e entender a 
distribuição de probabilidade de uma variável aleatória. Esses modelos são úteis em 
várias áreas, tais como estatística, física, engenharia, economia, entre outras. 
Na análise de dados, é importante lidar com outliers, pois certos modelos de distribuição 
são mais sensíveis a eles do que outros. Os outliers podem afetar a escolha do número 
de clusters e a atribuição de pontos, resultando em resultados imprecisos. 
Para lidar com outliers, é recomendado remover os pontos que estão muito distantes 
da maioria dos dados ou atribuí-los a um cluster específico que representa valores 
extremos. Além disso, o pré-processamento dos dados por meio de técnicas como 
normalização e padronização pode ajudar a reduzir o impacto dos outliers. 
Conectividade baseada em distribuição. 
Fonte: Google (2022).  
1.4 Modelos de Densidade 
52Enap Fundação Escola Nacional de Administração Pública
O uso dos modelos de densidade começa com a coleta de dados. Com isso, é possível 
plotar um histograma para entender a distribuição desses dados. Na sequência, 
pode-se ajustar o modelo de densidade para realizar previsõesou inferências sobre 
a variável aleatória em questão. 
Esses modelos são úteis para comparação de diferentes distribuições de probabilidade. 
Por exemplo, o modelo de densidade pode ser ajustado para cada grupo de dados e, 
assim, comparar as distribuições para identificar diferenças entre eles. 
Relembrando... 
Veja, a seguir, um resumo dos modelos apresentados, com as vantagens e 
desvantagens de cada um. 
Conectividade baseada em Densidade. 
Fonte: Google (2022).  
Enap Fundação Escola Nacional de Administração Pública 53
Modelo Definição Vantagens Desvantagens
Conectividade 
Agrupa pontos de dados 
com base na proximidade 
espacial entre eles. 
- É capaz de lidar com 
dados de diferentes 
formas e tamanhos. 
- Pode ser usado para 
detectar outliers. 
- Sensível a escola do 
parâmetro de distância. 
- Pode não funcionar 
bem em dados de alta 
dimensionalidade. 
- Pode ser sensível 
a outiliers.
Centróide
Agrupa pontos de dados 
calculando a média dos 
valores das variáveis em 
cada cluster. 
- Fácil de interpretar. 
- Pode ser usado para 
visualização de dados. 
- Não é adequado 
para dados que não 
possuem uma forma 
circular ou esférica. 
- Sensível a valores 
extremos. 
- Pode ser afetado 
por dados de alta 
dimensionalidade.
Distribuição
Modela a distribuição de 
probabilidade dos dados 
observados. 
- Permite a compreensão 
das propriedades 
estatísticas dos dados. 
- Pode ser usado para 
fazer previsões sobre 
novos dados. 
- Pode não funcionar bem 
em dados com distribuição 
não normal. 
- Requer a escolha de uma 
distribuição apropriada. 
- Pode ser afetado por 
valores extremos.
Densidade
Agrupa pontos de 
dados com base em sua 
densidade. 
- Pode lidar com dados 
de diferentes formas e 
tamanhos. 
- Pode ser usado para 
detectar outliers. 
- Requer a escolha de 
parâmetros, como a 
largura da janela de 
densidade. 
- Pode ser sensível a 
valores extremos.
Comparação entre os diferentes modelos de conectividade. 
Fonte: autor. Elaboração: CEPED/UFSC (2023).
54Enap Fundação Escola Nacional de Administração Pública
Se interessou pelo tema e quer conhecer exemplos de modelos 
de conectividade, centróide, distribuição e densidade? Baixe o 
documento a seguir e complemente seus estudos! 
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima!
 Material Complementar:
 Explorando Exemplos de Modelos de
 Conectividade, Centróide, Distribuição e
 Densidade em Big Data
https://articulateusercontent.com/rise/courses/SgZhj_jx1hSQubC3HMMXZnZ1m5bucZZ7/L6e0o_o_v_gEuCNQ-Explorando%2520Exemplos%2520de%2520Modelos%2520de%2520Conectividade%252C%2520Centr%25C3%25B3ide%252C%2520Distribui%25C3%25A7%25C3%25A3o%2520e%2520Densidade%2520em%2520Big%2520Data.pdf
Enap Fundação Escola Nacional de Administração Pública 55
GOOGLE. Algoritmos de clustering. Developers Google. 2022. Disponível em: https://
developers.google.com/machine-learning/clustering/clustering-algorithms?hl=pt-br. 
Acesso em: 15 jun. 2023 
ORGANISATION FOR ECONOMIC CO-OPERATION AND DEVELOPMENT (OECD). Good 
Practice Principles for Data Ethics in the Public Sector. 2022. Disponível em: 
https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-
ethics-in-the-public-sector.pdf. Acesso: 13 maio 2023. 
THE GLOBAL DATA MANAGEMENT COMMUNITY (DAMA). Data Management Body 
of Knowledge, 2nd ed. [S. l.]: Technics Publications, 2017. ISBN: 978-1634622349. 
Referências 
https://developers.google.com/machine-learning/clustering/clustering-algorithms?hl=pt-br
https://developers.google.com/machine-learning/clustering/clustering-algorithms?hl=pt-br
https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf
https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf
56Enap Fundação Escola Nacional de Administração Pública
Unidade 2: A Transformação de Dados 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de esclarecer sobre os fundamentos do processo 
de extração, transformação e carga de dados. 
Nesta unidade, você verá sobre transformação de dados e seus desafios para apoiar 
a tomada de decisão baseada em dados. Com o crescimento exponencial dos 
dados no contexto do Big Data, a transformação dos dados torna-se uma atividade 
essencial para as organizações que buscam insights valiosos e competitividade, 
além de contribuir para o benefício da sociedade.
O processo de transformação de dados, é conhecido como ETL (Extract, 
Transformation and Load), significa Extrair, Transformar e Carregar. É uma 
metodologia que automatiza as tarefas relacionadas com a transformação de dados 
para um formato adequado para análise e, na sequência, possibilita carregá-los em 
um sistema de armazenamento de dados (tais como Data Lake, Data Warehouse ou 
banco de dados NoSQL) (ROSS; KIMBALL, 2013). 
2.1 O que é o Processo de Extração e Transformação 
de Dados em Big Data? 
O processo de transformação de dados, é conhecido como 
ETL (Extract, Transformation and Load), significa Extrair, 
Transformar e Carregar. É uma metodologia que automatiza 
as tarefas relacionadas com a transformação de dados para 
um formato adequado para análise e, na sequência, possibilita 
carregá-los em um sistema de armazenamento de dados (tais 
como Data Lake, Data Warehouse ou banco de dados NoSQL) 
(ROSS; KIMBALL, 2013). 
Enap Fundação Escola Nacional de Administração Pública 57
No contexto do ETL, insere-se o processo de curadoria de dados de várias fontes, 
a fim de consolidar os dados formatados em um banco de dados unificado e, com 
isso, conduzir o carregamento dos dados transformados em um novo ambiente 
(MANOK KUKREJA, 2021). A transformação digital é fator chave na integração de 
dados de múltiplas fontes, tornando as técnicas de limpeza de dados e correção de 
erros questões essenciais para assegurar a qualidade dos dados (LENZERINI, 2002). 
O processo de extração e transformação de dados no Big Data pode ser definido 
como um conjunto de tarefas realizadas nos dados brutos obtidos de diferentes 
fontes, visando a limpeza, normalização, integração e enriquecimento dos dados. 
A transformação de dados é uma etapa crítica no processo de construção de um 
Data Warehouse, pelo fato da responsabilidade de assegurar que os dados estejam 
em um formato consistente, confiável, preciso, padronizado e pronto para análise 
(ROSS; KIMBALL, 2013).
2.2 A Diferença entre o Processo ETL (Extrair, Transformar e 
Carregar) e ELT (Extrair, Carregar e Transformar) 
Processo de transformação de dados. 
Adaptado de: Sudan ([s. d.]).
58Enap Fundação Escola Nacional de Administração Pública
O ETL é o processo tradicional de transformação de dados, na ordem nas seguintes 
etapas: extração, transformação e carregamento dos dados. 
O processo ETL está mais alinhado para as organizações que necessitam integrar 
Processo ETL. 
Elaboração: CEPED/UFSC (2023). 
dados estruturados de fontes diferentes em um Data Warehouse para análise 
de negócios. O ETL tem mais efetividade quando os dados precisam ser limpos, 
organizados e transformados antes de serem armazenados em um Data Warehouse. 
Enap Fundação Escola Nacional de Administração Pública 59
O ELT inverte a ordem das etapas de transformação, ficando da seguinte forma: 
extração, carregamento e transformação. Com essa abordagem, a transformação 
de dados acontece a seguir das duas primeiras etapas. A inversão das etapas no 
processo reduz o tempo de carregamento dos dados. O ELT é um processo mais 
ágil para o carregamento e o processamento dos dados, na comparação com o ETL. 
O processo ELT é mais adequado para organizações que precisam lidar com grandes 
volumes de dados estruturados e não estruturados em ambientes de Big Data. O ELT 
possibilita a captura de dados brutos em seu formato original, sem a necessidade 
de transformaçãoimediata. Com isso, permite que as organizações explorem os 
dados não estruturados em seus formatos originais, como textos, imagens e vídeos. 
Processo ETL. 
Elaboração: CEPED/UFSC (2023). 
Possibilita que os usuários manipulem dados em tempo real, sem a necessidade de 
esperar por longos períodos de processamento e transformação. 
A seguir, você pode visualizar uma comparação entre os processos ETL e ELT. 
Processo ELT
60Enap Fundação Escola Nacional de Administração Pública
Neste documento, você pode complementar seu estudo sobre esses dois processos. 
Critério ETL ELT 
Definição
ETL é um processo de integração de 
dados em que os dados são extraídos 
de várias fontes, transformados em 
um formato comum e, em seguida, 
carregados em um Data Warehouse ou 
outro sistema de destino.
ELT é um processo de integração de 
dados em que os dados são extraídos 
de várias fontes e carregados em 
um Data Warehouse ou outro 
sistema de destino antes de serem 
transformados e modelados.
Fluxo de Dados
O fluxo de dados é definido por um 
processo sequencial de extração, 
transformação e carga de dados.
O fluxo de dados é definido por um 
processo de extração e carga de 
dados, seguido de transformação e 
modelagem de dados.
Armazenamento 
de Dados
O Data Warehouse é usado como o 
destino para os dados transformados.
Os dados brutos são armazenados 
no sistema de destino, como um 
Data Lake, antes de serem 
transformados e modelados.
Processamento
A transformação de dados é 
realizada antes da carga dos dados 
no Data Warehouse.
A transformação de dados é realizada 
após a carga dos dados no Data Lake.
Escalabilidade
Menos escalável devido à necessidade 
de manipulação de grandes volumes de 
dados durante a fase de transformação.
Mais escalável devido à capacidade 
de carregar grandes volumes de dados 
em um Data Lake e transformá-los 
em paralelo.
Flexibilidade
É menos flexível em relação aos tipos 
de dados que podem ser manipulados, 
pois o processo de transformação deve 
ser definido com antecedência.
É mais flexível em relação aos tipos de 
dados que podem ser manipulados, 
pois a transformação pode ser definida 
e atualizada após a carga dos dados.
Comparação de processo ETL x ELT. 
Fonte: autor. 
 Material Complementar:
A Transformação de Dados em ETL x ELT
https://articulateusercontent.com/rise/courses/SgZhj_jx1hSQubC3HMMXZnZ1m5bucZZ7/RuDnXpatldM1REOT-A%2520Transforma%25C3%25A7%25C3%25A3o%2520de%2520Dados%2520em%2520ETL%2520x%2520ELT.pdf
Enap Fundação Escola Nacional de Administração Pública 61
O fluxo de transformação de dados é uma sequência de etapas ou transformações 
que são aplicadas aos dados para convertê-los de um formato para outro, corrigir 
erros, normalizá-los, filtrá-los, agregá-los, enriquecê-los, entre outras ações. 
Veja, a seguir, uma representação das etapas do fluxo de transformação de dados: 
2.3 O Uso de Fluxo de Transformação de Dados 
Etapas do fluxo de transformação. 
Elaboração: CEPED/UFSC (2023).
As ferramentas de ETL geralmente possuem interfaces gráficas que permitem 
criar, editar e gerenciar fluxos de transformação de dados de forma visual e 
intuitiva. Essas interfaces incluem uma biblioteca de transformações pré-
definidas, que podem ser usadas como blocos de construção para criar fluxos de 
transformação de dados personalizados. 
62Enap Fundação Escola Nacional de Administração Pública
O uso de fluxo de transformação de dados pode ajudar a simplificar e automatizar 
o processo de transformação de dados, reduzindo a necessidade de intervenção 
manual e reduzindo a chance de erros. Além disso, o uso de fluxo de transformação 
de dados pode ajudar a melhorar a qualidade e a integridade dos dados, já que as 
transformações são aplicadas de forma consistente e padronizada. 
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima! 
Enap Fundação Escola Nacional de Administração Pública 63
LENZERINI, M. Data integration: A theoretical perspective. In: ACM SIGMOD-SIGACT-
SIGART SYMPOSIUM, 21., 2002. Proceedings [...] on Principles of database systems. 
[S. l.: s. n.], 2002. p. 233–246. 
MANOJ KUKREJA, Danil Zburivsky. Data Engineering with Apache Spark, Delta Lake, 
and Lakehouse. [S. l.]: Packt Publishing Ltd., 2021. 
ROSS, Margy; KIMBALL, Ralph. The data warehouse toolkit: the definitive guide to 
dimensional modeling. [S. l.]: John Wiley & Sons, 2013. 
Referências 
64Enap Fundação Escola Nacional de Administração Pública
Unidade 3: A Utilização do Algoritmo de Big Data 
Objetivo de aprendizagem
Ao final da unidade você será capaz de reconhecer o conceito de algoritmo no 
contexto de Big Data. 
Nesta unidade, você verá informações sobre algoritmos de Big Data. Esses 
algoritmos podem ser utilizados para recuperação de informações tanto do setor 
privado como o público.
Os algoritmos podem ser representados de duas maneiras: textualmente, com 
instruções escritas, ou visualmente, através de representações gráficas. Uma técnica 
comum para representar a sequência de instruções de um algoritmo visualmente é 
o fluxograma. O fluxograma é composto por símbolos que representam diferentes 
ações e decisões dentro do processo. 
Veja um exemplo na figura a seguir: 
Um algoritmo pode ser definido como: 
3.1 O que é um Algoritmo de Big Data? 
Na computação, um algoritmo é um conjunto preciso 
de instruções lógicas que são executadas por um 
computador para realizar uma tarefa específica ou 
resolver um problema. Os algoritmos são usados em 
várias áreas da computação, desde a programação de 
software e desenvolvimento de jogos até a criptografia 
e análise de dados (SZWARCFITER; MARKENZON, 2010). 
Enap Fundação Escola Nacional de Administração Pública 65
Representação gráfica de algoritmo. 
Fonte: IMD ([s. d.]). 
O estudo de algoritmos no contexto do Big Data tem se tornado cada vez mais 
relevante. Esses algoritmos desempenham um papel fundamental na sociedade, 
ao lidar com o processamento de enormes volumes de dados gerados no ambiente 
cibernético. As tecnologias tradicionais não são capazes de lidar com a variedade de 
dados estruturados, semiestruturados e não estruturados provenientes de diversas 
fontes, como sensores, transações, redes sociais, dispositivos móveis, entre outros. 
66Enap Fundação Escola Nacional de Administração Pública
Os algoritmos de Big Data são projetados para trabalhar com grandes volumes de 
dados, geralmente em grande escala (de terabytes, petabytes, exabytes, zettabytes 
ou yottabytes). Eles são executados em clusters de computadores ou sistemas 
distribuídos, permitindo o processamento e a análise de dados em paralelo, o que 
acelera o tempo de processamento. 
Os algoritmos são projetados para serem eficientes, precisos e confiáveis. Eles são 
testados exaustivamente e refinados para garantir que produzam os resultados 
desejados de forma consistente e confiável.
Complemente seu estudo com a leitura do material a seguir, no qual 
apresenta as vantagens e desvantagens dos algoritmos de Big Data. 
 Material Complementar:
 Vantagens e Desvantagens de
 Algoritmos de Big Data
Os algoritmos de Big Data desempenham um papel fundamental em diversas 
áreas, permitindo a análise e o processamento eficiente de grandes volumes de 
dados. Esses algoritmos lidam com diferentes tipos de dados, como estruturados, 
semiestruturados e não estruturados, buscando identificar padrões e relações 
entre variáveis. Isso possibilita realizar previsões, classificações e tomar decisões 
em diferentes áreas, com base nos dados disponíveis. 
No ecossistema do Big Data, esses algoritmos encontram uma ampla gama de 
aplicações práticas em diversas áreas de negócio, como finanças, varejo, marketing, 
educação, políticas públicas, segurança, transporte, pesquisa, saúde, entre outras. A 
aplicação específica pode variar dependendo do campode atuação e dos objetivos 
em questão, mas geralmente envolve uma série de etapas. 
Identificação da necessidade: Identificação da necessidade: é necessário identificar qual é o problema 
a ser resolvido, a questão a ser respondida ou a oportunidade a ser 
aproveitada com a aplicação dos algoritmos de Big Data. 
Definição dos dados:Definição dos dados: é preciso definir quais dados serão necessários para 
a solução do problema ou para a obtenção dos insights. Esses dados podem 
ser coletados de diversas fontes, como redes sociais, sensores, sistemas de 
gestão, entre outras. 
3.2. A Aplicação dos Algoritmos de Big Data 
https://articulateusercontent.com/rise/courses/SgZhj_jx1hSQubC3HMMXZnZ1m5bucZZ7/FSNjZHgpEh5zqA4H-Vantagens%2520e%2520Desvantagens%2520de%2520Algoritmos%2520de%2520Big%2520Data.pdf
Enap Fundação Escola Nacional de Administração Pública 67
Armazenamento dos dados:Armazenamento dos dados: os dados coletados são armazenados em um 
Data Warehouse, um Data Lake ou outra infraestrutura de armazenamento. 
É importante garantir a qualidade e a integridade dos dados para assegurar 
uma análise precisa e confiável. 
 
Pré-processamento dos dados:Pré-processamento dos dados: os dados podem ser pré-processados para 
limpar e remover ruídos, tratar dados faltantes, normalizar ou padronizar 
dados, entre outras operações. 
Escolha dos algoritmos: Escolha dos algoritmos: é preciso escolher os algoritmos de análise mais 
adequados para a solução do problema. Para tanto, podem ser utilizadas 
as técnicas de aprendizado de máquina, mineração de dados, análise 
estatística, entre outras. 
Treinamento dos algoritmos:Treinamento dos algoritmos: os algoritmos escolhidos precisam ser 
treinados com os dados disponíveis, de forma a aprender a identificar 
padrões e relações entre as variáveis. 
Análise dos dados:Análise dos dados: os dados são analisados pelos algoritmos escolhidos, 
que podem gerar modelos, previsões, classificações, entre outros resultados. 
Visualização dos resultados: Visualização dos resultados: os resultados da análise são apresentados em 
formatos gráficos e visuais, como gráficos, e mapas, para que possam ser 
facilmente compreendidos pelos usuários e ajudem na tomada de decisão. 
Que tal se aprofundar na etapa de treinamento dos algoritmos de 
Big Data? Neste documento, você também verá alguns algoritmos 
mais utilizados em Big Data. 
 Material Complementar:
 Treinamento dos Algoritmos de Big Data
Agora, assista à videoaula a seguir, que fala sobre os algoritmos no contexto de 
Big Data.
Videoaula: Algoritmos no Big Data
https://articulateusercontent.com/rise/courses/SgZhj_jx1hSQubC3HMMXZnZ1m5bucZZ7/Tf9OiXHmsBoWAN3j-Treinamento%2520dos%2520Algoritmos%2520de%2520Big%2520Data.pdf
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo03_video05/index.html
68Enap Fundação Escola Nacional de Administração Pública
Os algoritmos de Big Data podem ser usados no serviço público para melhorar a eficiência 
dos processos, a qualidade do atendimento ao cidadão e a tomada de decisões, assim 
como prevenir fraudes, corrupção, identificar tendências e riscos em diferentes áreas. 
3.3 Uso dos Algoritmos de Big Data no Serviço Público 
Algoritmos de Big Data no Serviço Público. 
Fonte: Freepik (2023).
As tecnologias presentes no ecossistema do Big Data permitem o cruzamento de 
um grande volume de dados, tornando de forma mais assertiva o trabalho dos 
agentes públicos que atuam como analistas de dados identificando irregularidades e 
inconsistências nas políticas públicas, bem como oportunidades de melhorias. Com 
isso, a análise dos dados possibilita implementar estratégias baseadas em dados, 
mantendo o monitoramento dos objetivos e metas planejadas. A integração das 
bases de dados dos sistemas do governo federal gera benefícios para a sociedade 
(DE ARAUJO; ZULLO; TORRES, 2020). 
Enap Fundação Escola Nacional de Administração Pública 69
Os algoritmos de Big Data podem ser usados no serviço público para várias 
finalidades. Veja algumas a seguir.
Análise de dados governamentais: Análise de dados governamentais: os algoritmos de Big Data podem ser 
usados para analisar dados governamentais de diferentes áreas, como 
educação, saúde, segurança pública e transporte, visando identificar 
tendências e padrões que possam ajudar na tomada de decisões. 
Melhoria do atendimento ao cidadão:Melhoria do atendimento ao cidadão: os algoritmos de Big Data podem ser 
usados para analisar dados de atendimento ao cidadão para, por exemplo, 
solicitações de serviços, reclamações e feedbacks, visando melhorar a 
qualidade do atendimento e a eficiência dos processos. 
Prevenção e combate à corrupção:Prevenção e combate à corrupção: os algoritmos de Big Data podem 
ser usados para analisar dados governamentais e detectar indícios de 
corrupção, como fraudes em licitações ou desvio de recursos públicos. 
Análise de riscos:Análise de riscos: os algoritmos de Big Data podem ser usados para 
identificar riscos e prevenir desastres ou problemas futuros. 
Análise de dados eleitorais:Análise de dados eleitorais: os algoritmos de Big Data podem ser usados 
para analisar dados eleitorais, como por exemplo para as pesquisas de 
opinião, histórico de votações e perfis dos eleitores.
Caso queira complementar seus estudos, veja o Roteiro de Análise 
de Dados em Ações de Controle Externo, produzido pelo Tribunal 
de Contas da União (veja aqui). 
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima!
https://portal.tcu.gov.br/data/files/81/21/BE/86/8681271060F27027F18818A8/Roteiro_analise_dados_%20acoes_controle_externo.pdf
70Enap Fundação Escola Nacional de Administração Pública
DE ARAUJO, V. S.; ZULLO, B. A.; TORRES, M. Big data, algoritmos e inteligência 
artificial na administração pública: reflexões para a sua utilização em um ambiente 
democrático. A&C Revista de Direito Administrativo & Constitucional, Curitiba, 
v. 20, n. 80, p. 241–261, 2020. 
SZWARCFITER, Jayme Luiz; MARKENZON, Lilian. Estruturas de Dados e seus 
Algoritmos, 3a. ed. [S. l.]: Editora LTC, 2010. 
Referências 
Enap Fundação Escola Nacional de Administração Pública 71
Unidade 4: O que é Distribuição de Dados? 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de reconhecer os tipos de distribuição de 
dados e seus usos. 
Nesta unidade você irá conhecer temas básicos relacionados com a distribuição de 
dados, ação necessária para complementar as questões da qualidade de dados e 
uso em algoritmos e modelos de programação.
A análise de dados depende de um processo essencial: a distribuição de dados. 
Esse processo tem como objetivo identificar a frequência com que determinados 
valores aparecem em um conjunto de dados, a fim de compreender melhor seu 
comportamento, além de identificar possíveis padrões ou tendências. 
Ademais, a distribuição de dados é importante para a seleção de técnicas 
estatísticas adequadas para analisar os dados e obter insights funcionais. Para 
tanto, a identificação da distribuição mais adequada para um determinado 
conjunto de dados permite que sejam aplicadas medidas de tendência central, 
desvio padrão, percentis entre outras técnicas para obter o melhor entendimento 
das características do conjunto de dados. 
Em diversas áreas, como finanças, ciências sociais e ciências naturas, a distribuição 
de dados é importante para a tomada de decisões. Na análise de risco financeiro, 
por exemplo, a distribuição de dados é útil para calcular a probabilidade 
ocorrências de eventos e identificar o nível de risco associado a uma determinada 
estratégia de investimento. Nas ciências sociais, a distribuição de dados pode 
ser utilizada para analisar e entender o comportamento humano e as relações 
entre as variáveis estudadas. Já nas ciências naturais, a distribuição de dados é 
utilizada para modelar fenômenos físicos ou biológicos e realizar previsões sobreo comportamento futuro dos modelos. 
A seguir, você verá alguns tipos de distribuição de dados no contexto de Big Data. 
4.1 Por que Realizar a Distribuição de Dados? 
72Enap Fundação Escola Nacional de Administração Pública
A distribuição normal, conhecida como distribuição Gaussiana, é um tópico 
amplamente estudado na estatística e na matemática aplicada. 
É uma das distribuições mais comuns na análise estatística de dados, sendo 
caracterizada por uma curva simétrica em torno da média dos dados, com uma 
forma de sino. A curva é determinada por dois parâmetros: a média e o desvio 
padrão, que descrevem a localização e a dispersão dos dados, respectivamente. 
4.2 Distribuição Normal (Gaussiana) 
Autores de referência no tema: Carl Friedrich Gauss, que 
descreveu sobre o tema em sua publicação Theoria motus 
corporum coelestium in sectionibus conicis solem ambientium em 
1809; Morris H. DeGroot e Mark J. Schervish com o livro Probability 
and Statistics; e William Mendenhall e Robert J., autores do livro 
Introduction to Probability and Statistics. 
Distribuição Normal (Gaussiana). 
Fonte: UFSC ([s. d.]).
Enap Fundação Escola Nacional de Administração Pública 73
A distribuição normal é considerada simétrica e unimodal 
apresentando os valores de média, mediana e moda coincidentes. 
É uma das mais importantes distribuições, porque permite 
que muitas técnicas estatísticas sejam aplicadas aos dados. É 
amplamente utilizada em diversas áreas da ciência e da tecnologia. 
A distribuição normal pode ser utilizada no setor público no 
contexto da análise de dados de desempenho dos estudantes 
em exames nacionais. Os resultados desses exames geralmente 
são analisados para avaliar o desempenho dos estudantes e para 
tomar decisões sobre políticas públicas de educação. 
Uma das aplicações práticas mais comuns é em estatística descritiva, para descrever 
a distribuição de dados observados em um experimento ou amostra. Isso permite 
que sejam feitas inferências e previsões sobre o comportamento de um sistema ou 
processo em estudo. 
Outra aplicação importante da distribuição normal é na estatística inferencial, sendo 
usada para calcular intervalos de confiança e testes de hipóteses. Por exemplo, 
um teste de hipóteses pode ser funcional para determinar se a média de uma 
população é igual a um determinado valor ou não. Para tanto, é necessário calcular 
o valor-p, que representa a probabilidade de se obter um resultado tão extremo 
quanto o observado, se a hipótese nula (média igual a um determinado valor) fosse 
verdadeira. Esses cálculos são baseados na distribuição normal e permitem que 
sejam feitas conclusões estatisticamente significativas.
Veja o material Distribuição Normal (Gaussiana), produzido pelo 
Departamento de Informática e Estatística da Universidade 
Federal de Santa Catarina (UFSC) (Clique aqui). 
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/normal.html
74Enap Fundação Escola Nacional de Administração Pública
A distribuição right skewed, também conhecida como distribuição assimétrica à 
direita (positiva), é um tipo de distribuição estatística em que a cauda da distribuição 
se estende mais para a direita que para a esquerda. O valor numérico da média 
é maior que o da mediana, e a mediana é maior que a moda. Essa distribuição 
é comum em dados em que a maioria dos valores é muito alto, mas há alguns 
valores extremamente baixos. 
A média, a mediana e a moda são medidas estatísticas que ajudam a resumir e 
interpretar conjuntos de dados.
No setor público, a distribuição right skewed pode ser aplicada em diversas áreas, 
como na distribuição de renda entre os funcionários públicos. Por exemplo, a 
distribuição salarial no setor público é assimétrica à direita, com a maioria dos 
funcionários públicos ganhando salários menores e um pequeno número deles 
ganhando salários muito altos. Essa distribuição pode ser analisada para entender 
melhor como os recursos públicos estão sendo distribuídos e quais medidas 
podem ser tomadas para tornar a distribuição de renda mais justa e equilibrada. 
4.3 Distribuição Right Skewed 
Distribuição right skewed. 
Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 75
A distribuição left skewed, também conhecida como distribuição assimétrica 
negativa, é o oposto da distribuição right skewed. Nessa distribuição, os valores 
estão mais concentrados à direita e apresentam uma cauda longa em direção à 
esquerda. O valor numérico da moda é maior que da mediana, e a mediana é 
maior que a média. Essa distribuição é comum em dados em que a maioria dos 
valores é muito baixa, mas há alguns valores extremamente altos, como no caso 
do tempo de resposta de um sistema. 
A distribuição left skewed pode ser utilizada para o estudo de distribuição de renda 
da população, identificando uma concentração de renda em uma minoria da 
população, à medida que a maioria das pessoas recebe salários menores. Essa 
distribuição pode ter outras aplicações no setor público, como por exemplo: 
Distribuição de recursos orçamentários:Distribuição de recursos orçamentários: a distribuição left skewed pode 
ser usada para entender como a maioria dos recursos orçamentários é 
aplicada em um pequeno número de programas ou projetos, ao passo que 
os demais programas podem receber menos recursos. 
4.4 Distribuição Left Skewed 
Distribuição left skewed. 
Elaboração: CEPED/UFSC (2023).
76Enap Fundação Escola Nacional de Administração Pública
A distribuição uniforme é uma distribuição em que todos os valores possíveis têm 
a mesma probabilidade de ocorrência. Essa distribuição é comum em jogos de 
azar, como o lançamento de um dado, onde cada valor tem a mesma chance de ser 
sorteado. 
Essa distribuição é caracterizada por uma função de densidade de probabilidade 
retangular, em que a altura da caixa é a constante e a largura é proporcional ao 
intervalo de valores possíveis. 
A distribuição uniforme é importante em muitos contextos estatísticos, como na 
geração de números aleatórios, na seleção aleatória de amostras e em simulações. 
Distribuição uniforme. 
Elaboração: CEPED/UFSC (2023).
Distribuição de matrículas escolares: Distribuição de matrículas escolares: a distribuição left skewed pode ser 
usada para entender como a maioria dos estudantes está concentrada em um 
pequeno número de escolas, enquanto diversas escolas têm menos alunos. 
Distribuição de benefícios sociais:Distribuição de benefícios sociais: a distribuição left skewed pode ser usada 
para entender como a maioria dos beneficiários de programas sociais está 
concentrada em um pequeno número de regiões ou grupos sociais, à medida 
que determinados grupos podem ter menos acesso a esses benefícios. 
Distribuição de tempo de espera em filas de atendimento:Distribuição de tempo de espera em filas de atendimento: a distribuição 
left skewed pode ser usada para entender como a maioria dos clientes 
espera por um curto período de tempo em filas de atendimento, ao passo 
que os demais clientes podem esperar por períodos muito mais longos. 
4.5 Distribuição Uniforme 
Enap Fundação Escola Nacional de Administração Pública 77
A distribuição uniforme pode ser aplicada em diversas áreas do setor público, 
especialmente naquelas relacionadas com processos aleatórios ou de seleção 
aleatória. Por exemplo, é comum utilizar a distribuição uniforme na seleção de 
candidatos para um processo seletivo, a fim de assegurar que todos os candidatos 
tenham as mesmas chances de serem selecionados. Ou também pode ser utilizada 
em pesquisas de opinião sobre serviços públicos, selecionando de forma aleatória 
os respondentes, garantindo que a amostra seja representativa, e não enviesada. 
 
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima! 
78Enap Fundação Escola Nacional de Administração Pública
GAUSS, Carl Friedrich. Conferències FME: Volum III. CursGauss, 2005–2006. [S. l.]: 
UPC, 2006. p. 75-86. 
MENDENHALL, W.; BEAVER, R. J.; BEAVER, B. M. Introduction to probability and 
statistics. [S. l.]: Cengage Learning, 2012. 
SCHERVISH, M. J.; DEGROOT, M. H. Probability and statistics. [S. l.]: Pearson 
Education, 2012. 
UNIVERSIDADE FEDERAL DE SANTA CATARINA (UFSC). Departamento de Informática 
e Estatística. [Probabilidade e Estatística para Engenharias utilizando o R (RStudio)]. 
Distribuição Normal (Gaussiana) Inf. Florianópolis: UFSC, 2023. Disponível em: https://
www.inf.ufsc.br/~andre.zibetti/probabilidade/normal.html. Acesso em: 16 jun. 2023. 
Referências 
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/normal.html
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/normal.html
Enap Fundação Escola Nacional de Administração Pública 79
Unidade 5: Conhecendo os Modelos de Programação do Big Data 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de diferenciar modelos de programação do Big Data. 
Nesta unidade você conhecerá dois modelos de programação: MapReduce, para 
processar grandes conjuntos de dados em paralelo, utilizando clusters de computadores, 
e o ElasticSearch, para busca e análise de dados distribuídos e escaláveis.
5.1 Modelo de Programação MapReduce 
O MapReduce é um modelo de programação distribuída que permite processar grandes 
volumes de dados de forma eficiente e escalável. Ele foi desenvolvido pela Google para 
processar grandes conjuntos de dados em clusters de computadores, dividindo-os em 
tarefas menores e paralelizando o processamento em vários nós do cluster. 
O modelo MapReduce é composto por duas etapas principais.
Função Map Função Map 
A primeira etapa é a função Map, responsável por realizar o processamento 
paralelo dos dados. Ela recebe uma lista de pares (chave, valor) e aplica uma 
função a cada elemento da lista, gerando uma nova lista de pares (chave, valor). 
Cada elemento da nova lista é mapeado para uma chave específica e enviado 
para um dos nós do cluster para processamento posterior. Etapa que divide os 
dados em pequenos subconjuntos e os distribui para os nós do cluster. 
Função Reduce Função Reduce 
A segunda etapa é a função Reduce, responsável por agregar os resultados 
parciais gerados pela função Map. Ela recebe uma lista de pares (chave, 
lista de valores) e aplica uma função a cada elemento da lista, gerando um 
resultado final. Essa função é aplicada a cada chave em paralelo, permitindo 
que o processamento seja realizado de forma escalável e eficiente. Etapa 
que agrega os resultados parciais obtidos no mapeamento. 
Agora, dê uma olhada em cada uma dessas etapas para compreender como 
funcionam.
80Enap Fundação Escola Nacional de Administração Pública
Representação do modelo MapReduce. 
Fonte: Adaptado de Tutorials Point (2015). Elaboração: CEPED/UFSC (2023).
Entrada: Entrada: carrega os dados de entrada no sistema de arquivos distribuído, 
como o Hadoop Distributed File System (HDFS). Etapa importante para 
garantir que os dados estejam acessíveis a todos os nós do cluster. 
Map: Map: realiza o processamento dos dados em paralelo por várias tarefas 
de Map. Cada tarefa de Map recebe uma parte do conjunto de dados 
de entrada, aplica uma função a cada elemento e gera um conjunto de 
pares chave-valor intermediários. Essa etapa é importante para dividir 
o processamento em pequenas tarefas que podem ser executadas em 
paralelo em diferentes nós do cluster. 
Chaves Intermediárias: Chaves Intermediárias: agrupa as chaves intermediárias geradas pelo Map 
conforme as suas chaves e são distribuídas para os Redutores. Essa etapa 
é importante para reduzir a quantidade de dados transmitidos pela rede, 
evitando congestionamentos e melhorando a eficiência do processamento. 
Combinador (opcional): Combinador (opcional): permite combinar os pares chave-valor intermediários 
gerados pela fase de Map em uma tarefa local, antes de serem transmitidos 
para os Redutores. Essa etapa é importante para reduzir a quantidade de 
dados transmitidos pela rede e melhorar a eficiência do processamento. 
Enap Fundação Escola Nacional de Administração Pública 81
Embaralhar e Ordenar:Embaralhar e Ordenar: embaralha e ordena os pares de chave-valor 
intermediários conforme suas chaves, de forma a agrupar todos os pares com a 
mesma chave em uma única partição. Essa etapa é importante para garantir que 
os Redutores recebam todas as chaves iguais agrupadas em uma mesma tarefa. 
Redutor:Redutor: realiza o processamento em paralelo dos pares chave-valor, 
considerando várias tarefas de Reduce. Cada tarefa de Reduce recebe um 
conjunto de pares chave-valor com a mesma chave e aplica uma função a cada 
valor, gerando um resultado final para cada chave. Essa etapa é importante 
para agregar os dados processados pelo Map em um resultado final. 
Saída:Saída: salva em um arquivo de saída os resultados finais. Essa etapa é 
importante para disponibilizar os resultados para outros processos que 
possam utilizá-los, como a visualização de dados ou outras análises. É nessa 
etapa que o formato final do arquivo de saída é definido, bem como o tipo 
de gravador que será utilizado. 
O MapReduce é composto por várias etapas que visam dividir, processar e 
combinar os dados em paralelo, de forma a acelerar o processamento e garantir a 
confiabilidade dos resultados. 
Onde é Utilizado? Onde é Utilizado? 
O MapReduce é amplamente utilizado em aplicações de Big Data, como análise de 
dados, mineração de dados e processamento de logs. Ele é especialmente útil para 
processar grandes quantidades de dados não estruturados, como textos, imagens e 
vídeos. Empresas como a Google e Amazon utilizam o MapReduce em seus serviços 
de armazenamento e processamento de dados, demonstrando sua eficiência e 
escalabilidade em aplicações de larga escala. 
Essa tecnologia tem aplicações práticas no ambiente do Big Data, como os 
exemplos a seguir. 
Análise de Análise de logslogs:: Organizações que possuem sistemas de registro de logs de 
aplicativos ou sites de internet utilizam o MapReduce para analisar grandes 
quantidades de dados de logs, para identificar padrões de uso do sistema, 
desempenho, entre outros. 
Análise de dados de redes sociais: Análise de dados de redes sociais: As organizações que coletam dados de 
redes sociais, como Facebook e Twitter, podem usar o MapReduce para analisar 
as interações entre usuários, identificar tendências e analisar o sentimento e 
comportamento dos usuários em relação a um determinado assunto. 
82Enap Fundação Escola Nacional de Administração Pública
Análise de dados de sensores:Análise de dados de sensores: As organizações que possuem sensores em 
seus equipamentos, como medidores de energia, podem usar o MapReduce 
para analisar grandes volumes de dados de sensores, identificando padrões 
e insights valiosos para otimizar a eficiência operacional e economizar custos. 
Análise de dados de marketing:Análise de dados de marketing: As organizações de marketing podem 
usar o MapReduce para analisar grandes quantidades de dados de 
campanhas publicitárias, identificando padrões e insights para melhorar o 
desempenho de suas campanhas. 
 
Esse tipo de modelo de programação é utilizado no setor público. Veja, a seguir, 
alguns exemplos.
Análise de dados de saúde:Análise de dados de saúde: Utilizado para processar grandes quantidades 
de dados relacionados com a saúde para identificar tendências e padrões, 
visando criar modelo preditivos. 
Processamento de dados meteorológicos: Processamento de dados meteorológicos: Utilizado para processar 
grandes conjuntos de dados meteorológicos para prever condições 
climáticas futuras e identificar padrões. 
Detecção de fraudes:Detecção de fraudes: Utilizado para processar grandes volumes de dados 
financeiros para detectar fraudes em programas governamentais, como 
por exemplo os programas sociais. 
Monitoramento de tráfego:Monitoramento de tráfego: Utilizado para processar grande conjuntos 
dedados de tráfego para monitorar o fluxo de veículos em áreas urbanas, 
visando reduzir o tempo de deslocamento nas vias públicas.
Tutorial MapReduce, do Apache Hadoop. 
MapReduce: Simplified Data Processing on Large Clusters, um artigo 
que descreve a arquitetura do MapReduce. 
Introduction to MapReduce with Hadoop, um tutorial introdutório 
do Cloudera. 
Understanding MapReduce, um guia detalhado sobre MapReduce 
do Tutorials Point. 
MapReduce Tutorial for Beginners, um tutorial do Guru99. 
https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
https://research.google.com/archive/mapreduce-osdi04.pdf
https://docs.cloudera.com/documentation/other/tutorial/CDH5/topics/Hadoop-Tutorial.html
https://www.tutorialspoint.com/map_reduce/index.htm
https://www.guru99.com/bigdata-tutorials.html
Enap Fundação Escola Nacional de Administração Pública 83
5.2 Modelo de Programação ElasticSearch 
O ElasticSearch é um mecanismo de busca e análise de código aberto. Ele é uma 
ferramenta poderosa para a análise de grandes volumes de dados em tempo 
real, tornando-se muito popular em ambientes corporativos. O ElasticSearch foi 
desenvolvido para ser escalável, distribuído e tolerante a falhas, permitindo que os 
usuários trabalhem com grandes conjuntos de dados de forma eficiente e rápida. 
É um mecanismo de busca e análise de dados distribuído, utilizando o conceito de 
índices para organizar os dados, permitindo a realização de buscas de textos completos, 
em grandes volumes de dados e em tempo real, com os benefícios listados a seguir. 
Velocidade:Velocidade: É altamente escalável e rápido, permitindo que grandes volumes 
de dados sejam indexados, pesquisados e analisados em tempo real. 
Flexibilidade:Flexibilidade: É altamente flexível e pode ser usado em uma variedade 
de setores e aplicativos, desde a análise de dados de mídia social até o 
monitoramento de logs do servidor. 
Escalabilidade:Escalabilidade: É escalável para trabalhar com grandes volumes de dados, 
permitindo que as empresas cresçam à medida que seus dados crescem. 
Busca de texto completo:Busca de texto completo: É particularmente adequado para buscas de 
textos completos em grandes volumes de dados, com isso, é uma ferramenta 
poderosa para a análise de dados não estruturados. 
Análise em tempo real:Análise em tempo real: Pode realizar análises em tempo real, permitindo 
que as organizações tomem decisões mais rapidamente com base em dados 
atualizados em tempo real. 
Integração com outras ferramentas: Integração com outras ferramentas: Pode ser facilmente integrado 
com outras ferramentas de Big Data, como Hadoop e Spark, permitindo 
que as organizações aproveitem todo o potencial de suas ferramentas 
de análise de dados. 
 
Veja, a seguir, com mais detalhes como o ElasticSearch se estrutura. 
• Índices: o ElasticSearch armazena dados em índices, que são essencialmente 
coleções de documentos que podem ser pesquisados e analisados. 
• Documentos: os documentos são a unidade básica de dados no 
ElasticSearch. Eles contêm os dados que serão indexados e pesquisados. 
84Enap Fundação Escola Nacional de Administração Pública
• Tipos: os tipos são categorias ou classes de documentos dentro de um 
índice. Eles são usados para organizar e agrupar documentos relacionados. 
• Nós: o ElasticSearch é um sistema distribuído e cada nó em um cluster 
contém uma cópia dos dados. Os nós trabalham juntos para indexar, 
pesquisar e analisar dados. 
• Shards (fragmentos): cada índice é dividido em shards, que são unidades 
de armazenamento e processamento de dados. É usado para dividir 
grandes índices em partes menores, o que facilita a escalabilidade e a 
distribuição dos dados. 
• Réplicas: as réplicas são cópias de um shard que são armazenadas em nós 
adicionais. São utilizadas para fornecer redundância e tolerância a falhas. A 
replicação não só ajuda a aumentar a disponibilidade dos dados em caso 
de falha, bem como melhora o desempenho realizando uma operação de 
pesquisa paralela nessas réplicas. 
 
Na imagem a seguir, você pode ver o mecanismo de funcionamento do ElasticSearch.
O mecanismo ElasticSearch. 
 Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 85
Onde é Utilizado?Onde é Utilizado? 
No setor público, esse modelo de programação também pode ser usado. Veja os exemplos.
Monitoramento de mídias sociais: Monitoramento de mídias sociais: Utilizado para monitorar as redes sociais 
e demais fontes de mídias, visando identificar tendências, padrões, sentimentos 
e comportamentos dos usuários. 
Análise de dados jurídicos: Análise de dados jurídicos: Utilizado para analisar grandes volumes de dados 
jurídicos, como por exemplo decisões judiciais, leis e regulamentos. 
Análise de dados de segurança pública:Análise de dados de segurança pública: Utilizado para analisar grandes 
volumes de dados de segurança pública, como dados de câmeras de segurança, 
relatórios policiais, entre outros. A análise busca identificar padrões e tendências, 
para ajudar no planejamento de medidas de segurança pública preventivas e 
responder com agilidade a incidentes de segurança.
Se interessou pelo ElasticSearch e quer se aprofundar? Veja as 
indicações de materiais a seguir. 
Documentação oficial do ElasticSearch. 
Getting Started with ElasticSearch, guia introdutório do Tutorials Point. 
 
The Definitive Guide to ElasticSearch, livro escrito por Clinton 
Gormley e Zachary Tong. 
Relembrando... Relembrando... 
Observe a tabela de comparação a seguir para relembrar cada um dos modelos 
de programação.
https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
https://www.tutorialspoint.com/elasticsearch/index.htm
https://www.elastic.co/guide/en/elasticsearch/guide/current/index.html
86Enap Fundação Escola Nacional de Administração Pública
MapReduce ElasticSearch 
Modelo de processamento distribuído de 
dados 
Sistema de busca e análise de dados em 
tempo real 
Permite processamento de grandes conjuntos 
de dados 
Indexação eficiente de grandes volumes de 
dados em tempo real 
Escalabilidade horizontal 
Recuperação de dados em tempo real em 
alta velocidade 
Tolerância a falhas Agilidade na análise de dados 
Programação em paralelo Flexibilidade na estruturação e consulta de dados 
Eficiência no processamento de dados em lote Suporte para análise de dados não estruturados
Comparação entre MapReduce x ElasticSearch. 
Elaboração: CEPED/UFSC (2023).
Que bom que você chegou até aqui! Agora é a hora de você testar seus conhecimentos. 
Para isso, acesse o exercício avaliativo disponível no ambiente virtual. Bons estudos! 
Enap Fundação Escola Nacional de Administração Pública 87
AMAZON WEB SERVICES. O que é o elasticsearch?. AMAZON. [s. d.]. Disponível em: 
https://aws.amazon.com/pt/what-is/elasticsearch/. Acesso em: 28 jun. 2023. 
TUTORIALS POINT. MapReduce Tutorial: Simply Easy Learning. [S. l.]: Tutorials 
Point, 2015. Disponível em: https://www.tutorialspoint.com/map_reduce/map_
reduce_introduction.htm. Acesso em: 16 jun. 2023. 
Referências 
https://aws.amazon.com/pt/what-is/elasticsearch/
https://www.tutorialspoint.com/map_reduce/map_reduce_introduction.htm
https://www.tutorialspoint.com/map_reduce/map_reduce_introduction.htm
88Enap Fundação Escola Nacional de Administração Pública
 Módulo
O Big Data em Tomadas de 
Decisões no Serviço Público4
Bem-vindo(a) ao módulo 4 do curso Big Data em Apoio à Tomada de Decisão! 
Neste módulo, você vai compreender como o Big Data pode ajudar em tomadas de 
decisões no serviço público. 
Este módulo possui duas unidades: 
Unidade 1: A Importância da Mineração no Big Data para o Serviço Público
Unidade 2: Por que Adotar Fluxos de Dados?
Unidade 1: A Importância da Mineração no Big Data 
para o Serviço Público 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de reconhecer os fundamentos de mineração de 
dados para apoiar atomada de decisão por gestores. 
Esta unidade apresenta uma abordagem sobre mineração de dados e a metodologia 
Cross Industry Standard Process for Data Mining (CRISP-DM), para descobrir informações 
úteis para auxiliar na tomada de decisões e resolver problemas complexos. 
1.1 O que é Mineração de Dados? 
A mineração de dados é o processo de extrair conhecimento útil e compreensível 
a partir de grandes conjuntos de dados. Esse processo busca identificar padrões, 
tendências e correlações nos dados, e utilizar essas informações para criar modelos 
preditivos e tomar decisões baseadas em dados. A mineração de dados insere-
se no contexto interdisciplinar da estatística, inteligência artificial, aprendizado 
de máquina e banco de dados. Ela é utilizada em diversas áreas, como finanças, 
marketing, ciência da computação, saúde, entre outras.
Enap Fundação Escola Nacional de Administração Pública 89
Os dados podem ser coletados de diversas fontes, como 
transações de vendas, cadastros de usuários, registros de cliques 
em websites, entre outros. Depois que os dados são coletados, 
é fundamental realizar a etapa de preparação e limpeza, 
visando eliminar quaisquer inconsistências ou informações 
desnecessárias, de forma que as técnicas de mineração de dados 
possam ser aplicadas com eficácia. 
A mineração de dados está inserida no processo de descoberta de conhecimento 
em bases de dados (knowledge discovery in databases – KDD), como apresentado na 
figura a seguir. A etapa da mineração de dados é realizada na sequência das etapas 
de seleção e transformação de dados. 
A mineração de dados pode ser dividida em várias etapas, como seleção de 
dados, pré-processamento, transformação, mineração, avaliação e interpretação. 
As técnicas utilizadas incluem algoritmos de aprendizado de máquina, análise 
estatística, análise de redes, entre outras. 
Veja na figura a seguir uma representação do processo de mineração de dados.
Processo de descoberta de conhecimento em base de dados. 
Fonte: Fernandes; Chiavegatto Filho (2019).
90Enap Fundação Escola Nacional de Administração Pública
As etapas da mineração de dados são as listadas a seguir. 
Seleção de dados: Etapa que identifica e seleciona os dados relevantes para 
a solução do problema. A seleção pode realizar a coleta de novos dados ou 
a utilização de dados existentes em bancos de dados. 
Pré-processamento: Na sequência da etapa de seleção dos dados, eles 
precisam ser pré-processados. Para tanto, é necessário realizar a limpeza dos 
dados, a eliminação de valores ausentes, a normalização dos dados, a seleção 
de características e divisão dos dados em conjuntos de treinamento e teste. 
Transformação: Etapa que realiza a transformação dos dados para um 
formato adequado para a aplicação de técnicas de mineração de dados. 
Essa etapa pode incluir a redução da dimensionalidade, visando reduzir o 
número de características para minimizar os problemas de complexidade 
computacional, bem como a seleção de características relevantes e a criação 
de novas características tendo como base os dados existentes. 
Mineração: Etapa que realiza a aplicação das técnicas de mineração 
de dados para extrair padrões e conhecimento dos dados, utilizando 
algoritmos de aprendizado de máquina, análise estatística, análise de 
redes, entre outras técnicas. 
Processo de mineração de dados. 
Fonte: Fayyad et al. (1996). Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 91
Avaliação: Na sequência da etapa da mineração dos dados, os resultados 
precisam ser avaliados para determinar sua qualidade e relevância. Isso 
pode incluir a utilização de métricas de avaliação, por exemplo precisão, 
recall e F1-score. 
Interpretação: Etapa que interpreta os resultados da mineração de dados 
para obter insights e conhecimento. Assim sendo, são realizadas as tarefas 
de visualização dos resultados, de interpretação dos padrões identificados e 
a de utilização dos resultados para tomada de decisões baseadas em dados. 
No material a seguir você pode complementar seu estudo no 
tema, vendo as vantagens da mineração de dados; exemplos de 
algoritmos, de técnicas e de ferramentas de mineração. 
O CRISP-DM é uma metodologia abrangente de mineração de dados e um modelo 
de processo para a realização de um projeto de mineração de dados. O ciclo do 
CRISP-DM está apresentado na figura a seguir.
1.2 Utilizando a Metodologia CRISP para Mineração de Dados 
Ciclo CRISP-DM. 
Fonte: Shearer (2000 apud RAMOS et al., 2020). 
 Material Complementar:
 Mineração de Dados: Vantagens, Algoritmos,
 Técnicas e Ferramentas
https://articulateusercontent.com/rise/courses/mpMNPYMaOU4CgKZLpbY2Sd-Y3gZe-9D8/Ng-in8ZcRZBZwkEn-Minera%25C3%25A7%25C3%25A3o%2520de%2520Dados_%2520Vantagens%252C%2520Algoritmos%252C%2520T%25C3%25A9cnicas%2520e%2520Ferramentas.pdf
92Enap Fundação Escola Nacional de Administração Pública
O CRISP-DM é dividido em seis fases principais. Veja a seguir. 
Compreensão do negócio: Fase que tem como objetivo entender o problema 
de negócio que está sendo abordado e definir os objetivos do projeto. No 
referido contexto é importante identificar os recursos disponíveis e as 
restrições que possam afetar o projeto. 
Entendimento dos dados: Fase que tem como objetivo coletar e entender os 
dados relevantes para o projeto, bem como identificar possíveis problemas 
de qualidade dos dados e organizar esses dados para análise. 
Preparação dos dados: Fase que tem como objetivo transformar os dados 
em um formato adequado para a análise e realizar as etapas necessárias de 
limpeza, integração e seleção de recursos. 
Modelagem: Fase que tem como objetivo criar modelos preditivos ou 
descritivos para analisar os dados, realizando a seleção do algoritmo de 
modelagem apropriado e a validação do modelo para garantir sua precisão 
e generalização. 
Avaliação: Fase que tem como objetivo avaliar o desempenho do modelo 
e determinar se ele atende aos objetivos do projeto, bem como avaliar 
os resultados em termos de impacto nos negócios e identificar possíveis 
melhorias no processo. 
Implantação: Fase que tem como objetivo implantar o modelo em um 
ambiente de produção e realizar sua integração ao processo de negócios 
existente. Na fase de implantação é importante garantir que o modelo seja 
mantido e monitorado continuamente para assegurar a continuidade de 
resultados precisos e confiáveis. 
A metodologia CRISP-DM é um processo iterativo, ou seja, as fases podem ser 
revisadas e repetidas conforme a necessidade, visando garantir que o projeto 
atenda aos objetivos do negócio e entregue os resultados desejados. O processo 
pode ser adaptado para atender às necessidades específicas de um projeto de 
mineração de dados em particular.
Enap Fundação Escola Nacional de Administração Pública 93
Há algumas vantagens que podem ser associadas à utilização dessa metodologia. 
Confira algumas a seguir:
Na videoaula a seguir, você poderá conhecer melhor a metodologia CRISP. 
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima! 
Vantagens da metodologia CRISP-DM. 
Fonte: autoria própria. Elaboração: CEPED/UFSC (2023).
Videoaula: Metodologia CRISP
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo04_video06/index.html
94Enap Fundação Escola Nacional de Administração Pública
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Knowledge Discovery and Data Mining: 
Towards a Unifying Framework. In: INTERNATIONAL CONFERENCE ON KNOWLEDGE 
DISCOVERY AND DATA MINING, 2., 1996, Portland. KDD-96 Proceedings. [S. l.]: AAAI 
Press, 1996. p. 82–88. 
FERNANDES, Fernando Timoteo; CHIAVEGATTO FILHO, Alexandre Dias Porto. Perspectivas 
do uso de mineração de dados e aprendizado de máquina em saúde e segurança no 
trabalho. Revista Brasileira de Saúde Ocupacional, [s. l.], v. 44, p. 1–12, 2019. 
RAMOS, Jorge Luis Cavalcanti et al. CRISP-EDM:uma proposta de adaptação do 
Modelo CRISP-DM para mineração de dados educacionais. In: SIMPÓSIO BRASILEIRO 
DE INFORMÁTICA NA EDUCAÇÃO, 31., 2020. Anais [...]. [s. l.], Cbie, 2020, p. 1092–1101. 
SHEARER, C. The CRISP-DM: the new blueprint for data mining. Journal of data 
warehousing, [s. l.], v. 5, n. 4, 2000. 
Referências 
Enap Fundação Escola Nacional de Administração Pública 95
Unidade 2: Por que Adotar Fluxos de Dados? 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de esclarecer sobre a criação e reuso de 
fluxos de dados. 
Esta unidade apresenta uma abordagem sobre os fluxos de dados para o Big Data.
Os fluxos de dados são a maneira como as informações são transmitidas de uma 
fonte para outra em um sistema de coleta e processamento de dados. Eles descrevem 
o caminho que os dados percorrem desde a origem até o destino, e podem ser 
usados em diversas aplicações, incluindo análise de dados e tomada de decisões. 
Os usos dos fluxos de dados estão listados a seguir. 
Monitoramento de desempenho: Na etapa de coletar dados em tempo real 
sobre as operações e o desempenho da empresa, os fluxos de dados podem 
ajudar a identificar rapidamente problemas e oportunidades de melhoria. 
Detecção de fraudes: Na etapa para analisar continuamente os dados em 
busca de anomalias e padrões suspeitos, os fluxos de dados podem ajudar 
a detectar fraudes e atividades ilegais. 
2.1 O que São os Fluxos de Dados e como Eles Podem Ajudar 
na Tomada de Decisões 
Os fluxos de dados são importantes porque permitem a coleta, 
processamento e análise contínuos de dados em tempo real ou 
quase em tempo real. Com eles, as organizações podem capturar 
informações atualizadas sobre seus clientes, produtos, operações 
e outras áreas de interesse. Esses dados são utilizados para 
tomar decisões baseadas nos dados e responder com agilidade 
às mudanças no ambiente de negócios. 
96Enap Fundação Escola Nacional de Administração Pública
Personalização de marketing: Na etapa de obter e analisar dados de 
clientes em tempo real, os fluxos de dados podem ajudar a personalizar 
a mensagem de marketing e as ofertas para cada cliente, aumentando a 
eficácia das campanhas. 
Previsão de demanda: Na etapa de coletar e analisar dados das vendas 
e de outros indicadores de mercado em tempo real, os fluxos de dados 
podem ajudar a prever a demanda futura, permitindo que a organização 
ajuste sua produção e planejamento de estoque. 
Os fluxos de dados são conhecidos como pipelines. Um pipeline de dados representa 
uma sequência pré-definida de tarefas de processamento de dados. Caso os dados 
não estejam carregados nas plataformas de dados, eles serão inseridos no início do 
pipeline. Os pipelines permitem que dados fluam de/para um Data Warehouse, um 
Data Lake, um banco de dados analítico, sistema datacêntrico qualquer ou mesmo 
sejam utilizados como elementos do processo de mineração de dados. 
Em geral, os pipelines de dados são compostos por três elementos principais: 
 
• fonte de dados; 
• tarefas de processamento de dados; e 
• destino para os dados, que pode ser referenciado como de coletor. 
Os pipelines de dados também evoluíram para suportar o Big Data, e os pipelines 
de Big Data são pipelines de dados criados para acomodar uma ou mais das 
características de Big Data, a saber: velocidade, volume e variedade. São escaláveis 
para processar grandes volumes de dados simultaneamente, considerando esse 
processamento com formatos distintos, como dados estruturados, semiestruturados 
e não estruturados (DENSMORE, 2021). 
Veja um exemplo gráfico de fluxo de dados: 
Enap Fundação Escola Nacional de Administração Pública 97
Exemplo de fluxo de dados. 
Fonte: Microsoft Learn (2023). 
2.2 Exemplo de Fluxos de Dados 
Veja alguns exemplos de fluxos de dados. 
Fluxo de dados de mídia social: coleta e processamento contínuos de 
dados de plataformas de mídia social, como Facebook, Twitter e Instagram, 
para obter informações sobre os clientes e suas preferências. 
Fluxo de dados de sensores de IoT: Coleta e processamento contínuos de 
dados de sensores de Internet das Coisas (IoT) em dispositivos conectados. 
Fluxo de dados de transações financeiras: Coleta e processamento contínuos 
de dados de transações financeiras, como pagamentos com cartão de crédito 
e transferências bancárias, visando detectar fraudes e irregularidades, bem 
como identificar padrões de gastos e tendências do mercado. 
Fluxo de dados de tráfego: Coleta e processamento contínuos de dados 
de tráfego em tempo real para prever congestionamentos de tráfego e 
melhorar o gerenciamento de tráfego em áreas urbanas. 
Fluxo de dados de logística: Coleta e processamento contínuos de dados 
de rastreamento de remessas para melhorar a eficiência operacional em 
toda a cadeia de suprimentos.
98Enap Fundação Escola Nacional de Administração Pública
Você pode acessar o artigo Introdução aos fluxos de dados e à 
preparação de dados de autoatendimento para mais informações 
sobre fluxo de dados (Clique aqui). 
Que bom que você chegou até aqui! Agora é a hora de você testar seus conhecimentos. 
Para isso, acesse o exercício avaliativo disponível no ambiente virtual. Bons estudos! 
https://learn.microsoft.com/pt-br/power-bi/transform-model/dataflows/dataflows-introduction-self-service 
Enap Fundação Escola Nacional de Administração Pública 99
DENSMORE, James. Data pipelines pocket reference. [S. l.]: O’Reilly Media, 2021. 
MICROSOFT. Introdução aos fluxos de dados e à preparação de dados de 
autoatendimento. Microsoft Learn. 2023. Disponível em: https://learn.microsoft.
com/pt-br/power-bi/transform-model/dataflows/dataflows-introduction-self-
service. Acesso em: 19 jun. 2023.
Referências 
https://learn.microsoft.com/pt-br/power-bi/transform-model/dataflows/dataflows-introduction-self-service
https://learn.microsoft.com/pt-br/power-bi/transform-model/dataflows/dataflows-introduction-self-service
https://learn.microsoft.com/pt-br/power-bi/transform-model/dataflows/dataflows-introduction-self-service
100Enap Fundação Escola Nacional de Administração Pública
 Módulo
Utilizando o Big Data 
no Serviço Público5
Seja bem-vindo(a) ao módulo 5 do curso Big Data em Apoio à Tomada de Decisão! 
Neste módulo você verá casos de sucesso e boas práticas do uso de dados na 
Administração Pública. 
Este módulo possui duas unidades: 
Unidade 1: Boas Práticas no Uso de Big Data no Serviço Público
Unidade 2: Estudo de Caso 
Unidade 1: Boas Práticas no Uso de Big Data no 
Serviço Público 
Objetivo de aprendizagem
Ao final desta unidade você será capaz de reconhecer as boas práticas aplicadas ao uso 
de Big Data no contexto do serviço público. 
Nesta unidade você vai conhecer boas práticas que podem auxiliar você na 
implementação das etapas necessárias para uma metodologia do uso das 
ferramentas de Big Data. 
O setor público brasileiro tem identificado no uso do Big Data um potencial 
instrumento para melhorar a eficiência dos serviços públicos, tomar decisões 
baseadas em dados e desenvolver soluções para problemas complexos. No 
entanto, existem algumas boas práticas que devem ser seguidas para garantir que 
o uso do Big Data seja ético, transparente e eficaz. 
A imagem a seguir ilustra as boas práticas a serem consideradas pelos gestores públicos. 
1.1 As Boas Práticas 
Enap Fundação Escola Nacional de Administração Pública 101
Definir objetivos claros: é importante definir claramente os objetivos do 
uso do Big Data no setor público. A definição clara dos objetivos permite que 
órgãos do governo tenham foco nos dados relevantes e tomem decisões 
baseadas em dados. 
Coletar dados relevantes: coletar os dados relevantes e confiáveis para 
alcançar os objetivos definidos. A qualidade dos dados deve ser avaliada para 
identificar eventuais problemas, como inconsistências ou falta de integridade. 
Garantir a privacidade dos dados: o uso do Big Data no setor público 
deve ter como premissa a proteção da privacidadedas pessoas. Para tanto, 
utilizar técnicas de anonimização e criptografia proporciona a proteção 
adequado para os dados pessoais. 
As boas práticas para o uso do Big Data no setor público. 
Elaboração: CEPED/UFSC (2023).
102Enap Fundação Escola Nacional de Administração Pública
Garantir a transparência: é importante que órgãos do governo sejam 
transparentes sobre o uso do Big Data e esclareçam como os dados são 
coletados, analisados e utilizados. Com isso, permite aprimorar a confiança 
dos usuários no setor público. 
Usar técnicas de análise de dados responsáveis: os órgãos do governo 
devem usar técnicas de análise de dados responsáveis para evitar a 
discriminação e garantir a equidade. Sendo assim, é importante incluir o 
uso de algoritmos que são explicáveis e auditáveis. 
Investir em habilidades e infraestrutura: para usar o Big Data com 
eficácia, os órgãos do governo precisam de habilidades e infraestrutura 
adequadas. Assim sendo se faz necessário realizar o treinamento de pessoal 
em ciência de dados, adquirir ferramentas de análise de dados e investir em 
tecnologias de armazenamento de dados. 
Colaborar com outras organizações: o compartilhamento de dados com 
outras organizações pode ajudar ampliar a eficiência e eficácia nos projetos 
de Big Data. O compartilhamento deve respeitar as questões relacionadas 
com a proteção da privacidade dos dados. A cooperação pode identificar 
oportunidades no processo de análise dos dados. 
Monitorar e avaliar os resultados: o monitoramento e avaliação dos 
resultados permite identificar o alinhamento dos resultados aos objetivos 
definidos em um projeto de Big Data. 
As boas práticas buscam assegurar a segurança, a ética e a eficácia no contexto do uso 
do Big Data, a fim de melhorar os serviços públicos e tomar decisões baseadas em dados. 
 
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o 
conteúdo e se aprofunde nos temas propostos. Até a próxima! 
Enap Fundação Escola Nacional de Administração Pública 103
LÓSCIO, B. F.; BURLE, C.; CALEGARI, N (ed.). Boas Práticas para Dados na Web. 2017. 
Disponível em: https://www.w3.org/Translations/DWBP-pt-BR/. Acesso em: 29 jun. 2023. 
MUNNÉ, R. Big Data in the Public Sector. In: CAVANILLAS, J.; CURRY, E.; WAHLSTER, W. 
(ed.) New Horizons for a Data-Driven Economy. Springer: Cham, 2016, p. 195–208. 
Disponível em: https://doi.org/10.1007/978-3-319-21569-3_11. Acesso em: 4 jul. 2023. 
ORGANISATION FOR ECONOMIC CO-OPERATION AND DEVELOPMENT (OECD). Good 
Practice Principles for Data Ethics in the Public Sector. 2022. Disponível em: 
https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-
ethics-in-the-public-sector.pdf. Acesso em: 13 maio 2023. 
Referências 
https://www.w3.org/Translations/DWBP-pt-BR/
https://doi.org/10.1007/978-3-319-21569-3_11
https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf
https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf
104Enap Fundação Escola Nacional de Administração Pública
Unidade 2: Estudo de Caso 
Objetivo de aprendizagem
Classificar, a partir de casos práticos, como ocorre o uso do Big Data em serviços públicos. 
2.1 A Rede Nacional de Contratações 
Você verá agora um vídeo com o secretário executivo do Comitê Gestor da Rede Nacional 
de Contratações Públicas para visualizar como ocorre o uso de Big Data na organização.
A Lei nº 14.133/2021, que instituiu o PNCP (Portal Nacional de Contratações Públicas), 
representa um avanço significativo na modernização da logística pública brasileira, 
especialmente no que diz respeito às contratações públicas. A lei estabelece que a 
divulgação no portal é uma condição indispensável para a eficácia dos contratos e 
seus aditamentos, garantindo maior transparência e publicidade aos atos do Estado. 
O impacto do PNCP é sem precedentes, ressaltando a importância da governança 
pública e tornando o mercado mais atrativo para negociar com a Administração 
Pública. De forma geral, estamos falando de uma plataforma com um potencial 
econômico estimado em cerca de 12% do Produto Interno Bruto (PIB) nacional. Isso 
significa que o portal terá uma relevância expressiva no contexto econômico do 
país, impulsionando a eficiência e a transparência nas compras governamentais. 
Que bom que você chegou até aqui! Agora é a hora de você testar seus conhecimentos. 
Para isso, acesse o exercício avaliativo disponível no ambiente virtual. Bons estudos! 
Videoaula: Estudo de Caso: a Rede Nacional de Contratações
O PNCP tem como objetivo unificar as informações de todas as 
compras públicas no país, criando um sistema unificado de acesso 
pela internet, tanto por desktop quanto por dispositivos móveis, 
por meio de APIs (Interface de Programação de Aplicativos). 
Isso permite a concretização inédita da transparência ativa nas 
contratações públicas, congregando em um único local dados 
dos três níveis federativos e dos três poderes. 
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo05_video07/index.html
Enap Fundação Escola Nacional de Administração Pública 105
BERTOT, John Carlo et al. Big data, open government and e-government: Issues, 
policies and recommendations. Information polity, [s. l.], v. 19, n. 1, p. 5–16, 2014.
Referências 
	Unidade 1: Compreendendo o Big Data 
	1.1 O que é Big Data? 
	1.1.1 O uso de Big Data no Setor Público
	1.2 Principais Características: Os 5 Vs do Big Data
	Referências 
	Unidade 2: Eventos Geradores de Big Data 
	2.1 Mídias e Redes Sociais 
	2.2 Computação em Nuvem 
	2.3 Bancos de Dados 
	2.4 Políticas Públicas 
	Referências 
	Unidade 1: Os Dados como Ponto de Partida para Tomada de Decisão
	1.1 Tipos de Dados 
	1.2 A Importância de Assegurar a Qualidade de Dados 
	1.2.1 O que é Qualidade de Dados? 
	1.3 Como os Dados Podem Ajudar na Tomada de Decisão? 
	Referências 
	Unidade 2: A Importância da Gestão de Dados: Conhecendo os Repositórios 
	2.1 O que São e quais os Tipos de Repositórios de Dados? 
	2.1.1 Bancos de Dados 
	2.1.2 Data Lakes e Data Warehouses
	2.2 Tipos de Repositórios de Dados Públicos 
	Referências 
	Unidade 3: Princípios FAIR na Gestão de Dados no Serviço Público 
	3.1 O que são os princípios FAIR? 
	Referências 
	Unidade 1: Tipos de Agrupamentos de Dados em Big Data 
	1.1 Modelos de Conectividade 
	1.2 Modelos de Centróide 
	1.3 Modelos de Distribuição 
	1.4 Modelos de Densidade 
	Referências 
	Unidade 2: A Transformação de Dados 
	2.1 O que é o Processo de Extração e Transformação de Dados em Big Data? 
	2.2 A Diferença entre o Processo ETL (Extrair, Transformar e Carregar) e ELT (Extrair, Carregar e Transformar) 
	2.3 O Uso de Fluxo de Transformação de Dados 
	Referências 
	Unidade 3: A Utilização do Algoritmo de Big Data 
	3.1 O que é um Algoritmo de Big Data? 
	3.2. A Aplicação dos Algoritmos de Big Data 
	3.3 Uso dos Algoritmos de Big Data no Serviço Público 
	Referências 
	Unidade 4: O que é Distribuição de Dados? 
	4.1 Por que Realizar a Distribuição de Dados? 
	4.2 Distribuição Normal (Gaussiana) 
	4.3 Distribuição Right Skewed 
	4.4 Distribuição Left Skewed 
	4.5 Distribuição Uniforme 
	Referências 
	Unidade 5: Conhecendo os Modelos de Programação do Big Data 
	5.1 Modelo de Programação MapReduce 
	5.2 Modelo de Programação ElasticSearch 
	Referências 
	Unidade 1: A Importância da Mineração no Big Data para o Serviço Público 
	1.1 O que é Mineração de Dados? 
	1.2 Utilizando a Metodologia CRISP para Mineração de Dados 
	Referências 
	Unidade 2: Por que Adotar Fluxos de Dados? 
	2.1 O que São os Fluxos de Dados e como Eles Podem Ajudar na Tomada de Decisões 
	2.2 Exemplo de Fluxos de Dados 
	Referências 
	Unidade 1: Boas Práticas no Uso de Big Data no Serviço Público 
	1.1 As Boas Práticas 
	Referências 
	Unidade 2: Estudo de Caso 
	2.1 A Rede Nacional de Contratações 
	Referências

Mais conteúdos dessa disciplina