Conteúdo em PDF-20230804

Gestão Pública

•

UFC

Mellissa Ashley

04/08/2023

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Big Data em Apoio à Tomada de Decisão.pdf
Análise e Ciência de Dados; Inovação.
Big Data em Apoio à
Tomada de Decisão
Enap, 2023
Fundação Escola Nacional de Administração Pública
Diretoria de Desenvolvimento Profissional
SAIS - Área 2-A - 70610-900 — Brasília, DF
Fundação Escola Nacional de Administração Pública
Diretoria de Desenvolvimento Profissional
Conteudista/s
Antônio João Azambuja (conteudista, 2023).
Módulo 1: Conhecendo o Big Data ....................................................................................7
Unidade 1: Compreendendo o Big Data ............................................................... 7
1.1 O que é Big Data? ...................................................................................................... 7
1.1.1 O uso de Big Data no Setor Público ...................................................................... 9
1.2 Principais Características: Os 5 Vs do Big Data.................................................. 12
Referências ..................................................................................................................... 15
Unidade 2: Eventos Geradores de Big Data ........................................................17
2.1 Mídias e Redes Sociais ............................................................................................ 17
2.2 Computação em Nuvem ......................................................................................... 18
2.3 Bancos de Dados ..................................................................................................... 21
2.4 Políticas Públicas ..................................................................................................... 22
Referências ..................................................................................................................... 25
Módulo 2: A Gestão de Dados em Big Data .................................................................26
Unidade 1: Os Dados como Ponto de Partida para Tomada de Decisão .........26
1.1 Tipos de Dados ........................................................................................................ 26
1.2 A Importância de Assegurar a Qualidade de Dados ........................................... 29
1.2.1 O que é Qualidade de Dados? ............................................................................ 30
1.3 Como os Dados Podem Ajudar na Tomada de Decisão? ................................... 31
Referências ..................................................................................................................... 33
Unidade 2: A Importância da Gestão de Dados: Conhecendo os Repositórios ...34
2.1 O que São e quais os Tipos de Repositórios de Dados? ..................................... 34
2.1.1 Bancos de Dados .................................................................................................. 37
2.1.2 Data Lakes e Data Warehouses ........................................................................... 39
2.2 Tipos de Repositórios de Dados Públicos ............................................................ 39
Referências ..................................................................................................................... 42
Unidade 3: Princípios FAIR na Gestão de Dados no Serviço Público ...............43
3.1 O que são os princípios FAIR? ................................................................................ 43
Referências ..................................................................................................................... 46
Sumário
4Enap Fundação Escola Nacional de Administração Pública
Módulo 3: O Uso dos Dados na Prática: o que Fazer? ........................................47
Unidade 1: Tipos de Agrupamentos de Dados em Big Data .............................47
1.1 Modelos de Conectividade ..................................................................................... 48
1.2 Modelos de Centróide ............................................................................................. 50
1.3 Modelos de Distribuição ......................................................................................... 50
1.4 Modelos de Densidade ........................................................................................... 51
Referências ..................................................................................................................... 55
Unidade 2: A Transformação de Dados .............................................................. 56
2.1 O que é o Processo de Extração e Transformação de Dados em Big Data? .... 56
2.2 A Diferença entre o Processo ETL (Extrair, Transformar e Carregar) e ELT (Extrair,
Carregar e Transformar) ............................................................................................... 57
2.3 O Uso de Fluxo de Transformação de Dados ...................................................... 61
Referências ..................................................................................................................... 63
Unidade 3: A Utilização do Algoritmo de Big Data ............................................64
3.1 O que é um Algoritmo de Big Data? ...................................................................... 64
3.2. A Aplicação dos Algoritmos de Big Data .......................................................... 66
3.3 Uso dos Algoritmos de Big Data no Serviço Público ........................................... 68
Referências ..................................................................................................................... 70
Unidade 4: O que é Distribuição de Dados? .......................................................71
4.1 Por que Realizar a Distribuição de Dados? ........................................................... 71
4.2 Distribuição Normal (Gaussiana) ........................................................................... 72
4.3 Distribuição Right Skewed ........................................................................................ 74
4.4 Distribuição Left Skewed .......................................................................................... 75
4.5 Distribuição Uniforme ............................................................................................. 76
Referências ..................................................................................................................... 78
Unidade 5: Conhecendo os Modelos de Programação do Big Data .................79
5.1 Modelo de Programação MapReduce .................................................................. 79
5.2 Modelo de Programação ElasticSearch ................................................................ 83
Referências ..................................................................................................................... 87
Módulo 4: O Big Data em Tomadas de Decisões no Serviço Público ................88
Unidade 1: A Importância da Mineração no Big Data para o Serviço Público 88
1.1 O que é Mineração de Dados? ............................................................................... 88
1.2 Utilizando a Metodologia CRISP para Mineração de Dados ............................... 91
Referências ..................................................................................................................... 94
Enap Fundação Escola Nacional de Administração Pública 5
Unidade 2: Por que Adotar Fluxos de Dados? ....................................................95
2.1 O que São os Fluxos de Dados e como Eles Podem Ajudar na Tomada de
Decisões .......................................................................................................................... 95
2.2 Exemplo de Fluxos de Dados ................................................................................. 97
Referências .....................................................................................................................
99
Módulo 5: Utilizando o Big Data no Serviço Público .........................................100
Unidade 1: Boas Práticas no Uso de Big Data no Serviço Público ..................100
1.1 As Boas Práticas ..................................................................................................... 100
Referências ................................................................................................................... 103
Unidade 2: Estudo de Caso ................................................................................. 104
2.1 A Rede Nacional de Contratações ...................................................................... 104
Referências ................................................................................................................... 105
6Enap Fundação Escola Nacional de Administração Pública
Apresentação e Boas-vindas
Você já se perguntou como empresas e instituições conseguem lidar com a quantidade
imensa de informações geradas diariamente? Neste curso você vai conhecer conceitos
básicos do Big Data, suas aplicações e como ele pode ser utilizado para tomada de
decisões estratégicas. Além disso, você será apresentado a habilidades gerenciais
para atuar em áreas disruptivas do serviço público e entregar valor para a sociedade.
Antes de iniciar seus estudos, assista ao vídeo de apresentação a seguir:
Este curso apresenta cinco módulos, veja como eles estão organizados:
Preparado(a) para embarcar nessa jornada?
Videoaula: Apresentação do Curso
1 Módulo 1: você irá conhecer as noções básicas de Big Data, as características
e como esses dados são gerados.
2 Módulo 2: você verá os tipos de dados, repositórios de dados e os princípios
de dados para gestão no contexto do setor público.
4 Módulo 4: neste conteúdo você verá como o Big Data pode auxiliar em tomadas
de decisões no serviço público, conhecendo mais sobre mineração e fluxo de dados.
3 Módulo 3: aqui você terá uma visão mais prática e aprofundada do uso de
dados, desde agrupamento e transformação de dados até conceitos algorítmicos,
distribuição de dados e modelos de programação.
5 Módulo 5: por fim, você terá a oportunidade de conhecer boas práticas no
uso de Big Data no serviço público e ter uma visão mais próxima de como isso
ocorre, por meio de um caso prático.
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo01_video01/index.html
7Enap Fundação Escola Nacional de Administração Pública
Módulo
Conhecendo o Big Data1
O objetivo deste módulo é apresentar uma introdução ao universo do Big Data, o
que é e por que é relevante para as atividades com grandes quantidades de dados.
Desenvolver as habilidades gerenciais considerando a análise e valor dos dados para
a tomada de decisões estratégicas é um diferencial. Essas habilidades permitem um
ganho de produtividade na organização, iniciando com o planejamento estratégico
e atividades de gestão de alto nível e operacionais.
Este módulo possui duas unidades:
Unidade 1: Compreendendo o Big Data
Unidade 2: Eventos Geradores de Big Data
Bons estudos!
Unidade 1: Compreendendo o Big Data
Objetivo de aprendizagem
Ao final desta unidade, você será capaz de reconhecer noções básicas de trabalho com
Big Data no contexto do setor público e as características desta tecnologia.
1.1 O que é Big Data?
O Big Data é um termo utilizado para descrever a explosão do volume de
dados produzidos no espaço cibernético. Esses grandes conjuntos de dados
são complexos demais para serem processados pelos métodos tradicionais de
processamento de dados. Sendo assim, é necessário utilizar tecnologias avançadas
para armazenamento, processamento e análise de dados, criando condições para
lidar com a complexidade e a escalabilidade (SHINTAKU; DUQUE; SUAIDEN, 2014).
8Enap Fundação Escola Nacional de Administração Pública
Imagine um cenário onde você pode coletar, analisar, processar e armazenar dados
em tempo real, tudo isso em um único lugar. Isso é possível graças às ferramentas
de Tecnologia da Informação (TI) usadas em projetos de Big Data. Veja algumas
dessas ferramentas e tecnologias:
Hadoop: um framework open source que possibilita o armazenamento e
processamento distribuído de grande volume de dados.
Spark: um framework de computação em cluster que permite processamento
de dados em volume exponencial com análises em tempo real.
NoSQL: uma abordagem de banco de dados que proporciona o armazenamento
e recuperação de dados não estruturados em grande escala.
Tableau: uma plataforma de visualização de dados que permite a criação de
painéis e gráficos interativos.
Apache Pig: uma plataforma de análise de dados que permite realizar
consultas em grandes conjuntos de dados utilizando uma linguagem de
script simplificada.
Apache Hive: um software de Data Warehouse que possibilita a análise de
grandes conjuntos de dados em Hadoop utilizando uma linguagem de
consulta semelhante ao SQL.
Apache Cassandra: um sistema de gerenciamento de banco de dados distribuído,
projetado para lidar com grandes volumes de dados não estruturados.
Elasticsearch: um motor de busca distribuído que possibilita a busca e análise
em tempo real de grandes volumes de dados.
Ficou surpreso(a) com tantos termos diferentes? Lembre-se de
consultar o glossário, disponível no AVA!
Esses são apenas alguns exemplos das poderosas ferramentas disponíveis no
mercado para análise de dados no ecossistema do Big Data. Mas como escolher a
ferramenta certa para o seu projeto?

https://hadoop.apache.org/
https://spark.apache.org/
https://hostingdata.co.uk/nosql-database/
https://www.tableau.com/
https://pig.apache.org/
https://hive.apache.org/
https://cassandra.apache.org/_/index.html
https://www.elastic.co/pt/elasticsearch/
Enap Fundação Escola Nacional de Administração Pública 9
Você já parou para pensar como o uso de dados tem revolucionado o desenvolvimento
de políticas públicas? É incrível como as estratégias baseadas em dados têm
proporcionado avanços significativos, tanto no setor público quanto no privado.
Primeiro, você deve identificar os objetivos do projeto e os problemas que você
deseja resolver. Pense em como melhorar a eficiência operacional, a experiência do
cliente, a entrega de valor para a sociedade, ou até mesmo aumentar a receita, no
caso do setor privado.
Além disso, leve em consideração fatores como:
• orçamento disponível;
• tamanho da equipe de desenvolvedores; e
• prazo de entrega do projeto.

Compreender os requisitos do projeto pode ajudar na escolha da(s) ferramenta(s)
e garantir que os resultados sejam alcançados. Assim a organização terá realizado
o projeto com sucesso.
1.1.1 O uso de Big Data no Setor Público
Abordagem orientada a dados.
Fonte: Freepik (2023).
Com as transformações tecnológicas,
estamos vivendo uma era de produção
massiva de dados. Isso nos oferece uma
oportunidade única de entender e analisar
informações em uma escala nunca antes
vista. No entanto, lidar com esse volume
imenso de dados pode ser desafiador e
complexo. É aí que entram as abordagens
orientadas por dados, que nos ajudam a
extrair insights valiosos para a solução de
problemas públicos.
10Enap Fundação Escola Nacional de Administração Pública
No contexto do setor público brasileiro, o Big Data é considerado um instrumento
para melhorar a eficiência dos serviços públicos, tomar decisões baseadas em dados
e desenvolver soluções para problemas complexos. Explorar o poder transformador
do Big Data no setor público é um requisito-chave para a modernização da governança
e transformação digital do setor (BERTOT et al., 2014).
Que tal explorar algumas áreas que se beneficiam do Big Data? Descubra como essa
tecnologia tem impactado positivamente esses setores!
Saúde pública: Na área da saúde, a análise de dados pode ajudar a
identificar padrões e tendências. Isso
permite que os gestores públicos
tomem decisões preventivas e implementem políticas mais eficazes no
tratamento de doenças e prevenção de surtos epidêmicos.
Segurança pública: O uso dos dados em segurança pública pode contribuir
para a prevenção de crimes e aumento da eficácia das investigações
criminais. A análise dos dados criminais permite identificar áreas de maior
risco, direcionando as ações de inteligência da polícia civil e militar.
Educação: A análise de dados em educação permite identificar lacunas
na jornada educacional da população. Isso possibilita o desenvolvimento
de políticas educacionais mais eficazes. O setor público brasileiro tem
utilizado os dados disponíveis no ecossistema de Big Data para monitorar
o desempenho dos alunos e escolas, avaliar a qualidade do ensino e
desenvolver programas de capacitação para professores.
Monitoramento de dados sociais: O monitoramento das redes sociais
permite identificar demandas da sociedade e direcionar soluções para
problemas tanto de curto quanto de médio e longo prazo. Esse monitoramento
também pode ajudar na identificação de tendências relacionadas com o
compartilhamento de informações falsas.
Planejamento urbano: A análise dos dados fornece informações importantes
sobre a mobilidade urbana e padrões de transporte para melhorar a gestão
urbana e otimizar o orçamento púbico para as demandas do planejamento.
Transporte: A análise dos dados de tráfego em tempo real permite tomar
decisões também em tempo real para maior eficiência na fluidez do tráfego,
identificar padrões e otimizar a gestão do transporte público.
Gestão fiscal: A análise de dados fiscais auxilia a identificação de fraudes,
sonegação de impostos e aperfeiçoamento da gestão fiscal.
Enap Fundação Escola Nacional de Administração Pública 11
Planejamento financeiro: A análise dos dados financeiros, considerando
tanto os dados históricos quanto os atuais, possibilita um planejamento
mais eficiente para aplicação dos recursos públicos.
Controle de gastos: O monitoramento dos dados econômicos permite uma
gestão eficiente dos gastos públicos, com transparência e responsabilidade
na gestão dos recursos públicos.
Compras públicas: A análise dos dados das compras públicas permite
identificar padrões de comportamento das transações suspeitas ou
incomuns, como transações sem licitação ou com fornecedores com
histórico de irregularidades. No contexto da Política de Dados Abertos do
Governo Federal (veja aqui), as ferramentas do Big Data podem ser utilizadas
para analisar os dados abertos sobre compras públicas. Assim, os gestores
públicos têm condições de identificar eventuais casos de sobrepreço ou
favorecimento de determinados fornecedores.
Gestão de desempenho: A análise dos dados de desempenho dos
colaboradores permite monitorar metas alcançadas, resultados de projetos,
identificar talentos e aprimorar a alocação de tarefas.
Gestão demográfica: A análise dos dados demográficos, como idade,
gênero, etnia e localização pode ajudar no entendimento das necessidades e
preferências dos colaboradores e no desenvolvimento de políticas públicas
com programas de recursos humanos mais eficazes.
Que tal se aprofundar nos estudos?
Veja as indicações de leitura a seguir:
Big Data em Organizações de Médio e Grande Porte do Setor Público
Brasileiro: Prontidão e Situação Atual, de Schauet e Trez (2021).
Clique aqui para acessar.
Administração pública brasileira no século 21: seis grandes desafios,
de Beuno, Brelàz e Salinas (2016). Clique aqui para acessar.
Ciência de Dados em políticas públicas: uma experiência de formação,
de De Toni e Dorneles (2022). Clique aqui para acessar.
https://www.gov.br/governodigital/pt-br/legislacao/legislacao-governo-aberto
https://sol.sbc.org.br/index.php/wcge/article/view/15973
https://revista.enap.gov.br/index.php/RSP/article/view/1152
https://repositorio.enap.gov.br/bitstream/1/7472/2/Livro%20Digital%20Ci%C3%AAncia%20de%20Dados%20em%20Pol%C3%ADticas%20P%C3%BAblicas_compressed.pdf
12Enap Fundação Escola Nacional de Administração Pública
1.2 Principais Características: os 5 Vs do Big Data
Até aqui, você já deve ter percebido que o fenômeno do Big Data está diretamente
relacionado ao imenso volume de dados gerados no mundo digital, certo?
No entanto, essa não é a única característica que define o Big Data. Inicialmente, ele
foi definido pelos 3Vs: volume, velocidade e variedade dos dados. Com o avanço das
tecnologias, dois outros atributos se tornaram igualmente importantes: veracidade e
valor. Portanto os 5Vs do Big Data são: volume, velocidade, variedade, veracidade e valor.
A figura a seguir demonstra os 5Vs do Big Data.
5Vs do Big Data.
Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 13
Quer ver com mais detalhes o papel que os dados desempenham na sociedade
digitalizada de hoje? Leia a seguir um aprofundamento sobre as características
dos 5Vs do Big Data.
O primeiro "V" do Big Data trata do volume, ou seja, a imensa quantidade de
dados envolvida. Imagine um mar de informações coletadas de diversas fontes:
governamentais, transações financeiras, redes sociais, comunicações, sensores de
IoT, servidores web, aplicativos, áudios, geolocalização e até mesmo dados trocados
entre máquinas. Estamos falando de terabytes, petabytes, exabytes, zettabytes e
até yottabytes de dados. É como mergulhar em um oceano infinito de informações.
Volume
No Big Data, a velocidade é essencial. Trata-se da rapidez com que
os dados são transmitidos e processados. Os dados trafegam em
alta velocidade em tempo real ou quase em tempo real. Para isso, a
capacidade de transferência precisa ser suficientemente ágil para garantir
essa transmissão de processamento de dados de forma veloz.
A velocidade no Big Data considera fatores como a capacidade da rede, o volume de
dados em processo, a complexidade do processamento e o tipo de informações em
questão. Mas não se preocupe, técnicas como processamento paralelo distribuído,
armazenamento em cache e redução do volume de dados desnecessários ajudam
a alcançar a velocidade da transferência e processamento de dados desejada.
Velocidade
A variedade no Big Data refere-se à diversidade de fontes, formatos e tipos
de dados coletados. Os dados podem ser estruturados, semiestruturados
e não estruturados. Eles são armazenados em conjuntos complexos,
exigindo soluções de armazenamento resilientes, seguras e com
integridade. Em resumo, lidar com a variedade significa lidar com diferentes
formas e estruturas de dados provenientes de diversas fontes. Variedade
A veracidade em Big Data refere-se à qualidade dos dados. É fundamental na
etapa de análise compreender o contexto em que os dados foram gerados,
garantir sua autenticidade e procedência confiável. A veracidade desempenha
um papel crítico em áreas como saúde, finanças e segurança, onde decisões
baseadas em dados de baixa qualidade, imprecisos, incompletos ou
inconsistentes podem ter consequências prejudiciais para a sociedade.
Para garantir a veracidade dos dados, é essencial implementar técnicas de
governança de dados. Essas técnicas estabelecem processos e controles
que asseguram que os dados sejam obtidos, armazenados, processados e
utilizados de maneira confiável e precisa, sem manipulações ou falsificações.
Veracidade
No Big Data, o valor está associado à importância, relevância e utilidade dos
dados para uma organização. Ele é gerado quando os dados são capazes
de identificar oportunidades de negócios e solucionar problemas. A criação
de valor dos dados depende da capacidade da organização de capturar,
armazenar, processar e analisar grandes volumes de informações.
Para que os dados agreguem valor, é necessário garantir sua qualidade,
precisão, completude, atualidade, integridade e consistência. Esses
requisitos são fundamentais para extrair benefícios significativos
dos dados no desempenho e sucesso da organização.
Valor
14Enap Fundação Escola Nacional de Administração Pública
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o
conteúdo e se aprofunde nos temas propostos. Até a próxima!
Enap Fundação Escola Nacional de Administração Pública 15
ALAOUIE, Ali M. Assessing whether the design of a state forensic portal of test
results complies with requirements of open government data. Forensic Science
International: Reports, [s. l.], v. 1, p. 100043, 2019. Disponível em: https://doi.
org/10.1016/j.fsir.2019.100043. Acesso em: 4 jul. 2023.
AMARAL, Fátima Beatriz Manieiro do; ARAKAKI, Ana Carolina Simionato; FURNIVAL,
Ariadne Chloe Mary. Metadados e padrão de metadados para editoras universitárias
brasileiras. Revista Digital de Biblioteconomia e Ciência da Informação (RDBCI),
[s. l.], v. 19, p. e021032, 2021.
BATINI, Carlo et al. Methodologies for data quality assessment and improvement.
ACM Computing Surveys, [s. l.], v. 41, n. 3, 2009.
BERTOT, John Carlo et al. Big data, open government and e-government: Issues,
policies and recommendations. Information polity, [s. l.], v. 19, n. 1, p. 5–16, 2014.
BUENO, Ricado Luiz Pereira; BRELÀZ, Gabriela de; SALINAS, Natasha Schmitt Caccia.
Administração pública brasileira no século 21: seis grandes desafios. Revista do
Serviço Público, [s. l.], v. 67, p. 7–28, 2016.
COSTA, Rogério da. Por um novo conceito de comunidade: redes sociais,
comunidades pessoais, inteligência coletiva. Interface - Comunicação, Saúde,
Educação, [s. l.], v. 9, n. 17, p. 235–248, 2005.
DAVID, Davidson Juarêz et al. Benefícios e Riscos do Uso da Computação em Nuvem
no Setor Público: uma análise baseada em artigos disponibilizados em bases
dados acadêmicas de 2017 a 2021. Revista Iberica de Sistemas e Tecnologias de
Informacao (RISTI). [s. l.], v. 49, p. 537–549, 2022.
DE ARAUJO, V. S.; ZULLO, B. A.; TORRES, M. Big data, algoritmos e inteligência
artificial na administração pública: reflexões para a sua utilização em um ambiente
democrático. A&C Revista de Direito Administrativo & Constitucional, Curitiba,
v. 20, n. 80, p. 241–261, 2020.
DE TONI, J.; DORNELES, R. (Orgs). Ciência de dados em políticas públicas: uma
experiência de formação. Brasília, DF: Enap, 2022.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Knowledge Discovery and Data
Mining: Towards a Unifying Framework. In: INTERNATIONAL CONFERENCE
ON KNOWLEDGE DISCOVERY AND DATA MINING, 2., 1996, Portland. KDD-96
Proceedings. [S. l.]: AAAI Press, 1996. p. 82–88.
Referências
https://doi.org/10.1016/j.fsir.2019.100043
https://doi.org/10.1016/j.fsir.2019.100043
16Enap Fundação Escola Nacional de Administração Pública
FERNANDES, F.; CHIAVEGATTO FILHO, A. Perspectivas do uso de mineração de
dados e aprendizado de máquina em saúde e segurança no trabalho. Revista
Brasileira de Saúde Ocupacional, [s. l.], v. 44, p. 1–12, 2019.
FREEPIK COMPANY. [Banco de Imagens]. Freepik, Málaga, 2023. Disponível em:
https://www.freepik.com/. Acesso em: 22 jun. 2023.
DAVENPORT, T. H. How strategists use “big data” to support internal business decisions,
discovery and production. Strategy & Leadership, [s. l.], v. 42, n. 4, p. 45–50, 2014.
Disponível em: https://doi.org/10.1108/SL-05-2014-0034. Acesso em: 4 jul. 2023.
KHINE, Pwint Phyu; WANG, Zhao Shun. Data lake: a new ideology in big data era.
ITM Web of Conferences, [s. l.], v. 17, p. 03025, 2018.
KLEIN, G. H.; NETO, P. G.; TEZZA, R. Big data e mídias sociais: Monitoramento das redes
como ferramenta de gestão. Saúde e Sociedade, [s. l.], v. 26, n. 1, p. 208–217, 2017.
LEITE, F. et al. Boas Práticas para a Construção De Repositórios Institucionais
Da Produção Científica. Brasília, DF: Ibict, 2012. Disponível em: http://livroaberto.
ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20
de%20repositórios%20institucionais%20da%20produção%20científica.pdf.
Acesso em: 4 jul. 2023.
LENZERINI, M. Data integration: A theoretical perspective. In: ACM SIGMOD-SIGACT-
SIGART SYMPOSIUM, 21., 2002. Proceedings [...] on Principles of database
systems. [S. l.: s. n.], 2002. p. 233–246.
LOCK, Michael. Angling for Insight in Today’S Data Lake. [S. l.]: Aberdeen, 2017.
MAGALHAES, Regis Pires. Processamento de Grafos em Big Data. [S. l.: s. n.], 2015.
MANOJ KUKREJA, Danil Zburivsky. Data Engineering with Apache Spark, Delta Lake,
and Lakehouse. [S. l.]: Packt Publishing Ltd., 2021.
MELL, Peter; GRANCE, Tim. The NIST definition of cloud computing. [S. l.: s. n.], 2011.
MONTEIRO, Elizabete Cristina De Souza de Aguiar; SANT’ANA, Ricardo Cesar
Gonçalves. Plano de gerenciamento de dados em repositórios de dados de
universidades. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência
da Informação, [s. l.], v. 23, n. 53, p. 160–173, 2018.
NAVATHE, Elmasri. Sistemas de Banco de Dados. Journal of Chemical Information
and Modeling, [s. l.], v. 6, n. 9, p. 1689–1699, 2013.
https://www.freepik.com/
https://doi.org/10.1108/SL-05-2014-0034
http://livroaberto.ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20de%20repositórios%20institucionais%20da%20produção%20científica.pdf
http://livroaberto.ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20de%20repositórios%20institucionais%20da%20produção%20científica.pdf
http://livroaberto.ibict.br/bitstream/1/703/1/Boas%20práticas%20para%20a%20construção%20de%20repositórios%20institucionais%20da%20produção%20científica.pdf
Enap Fundação Escola Nacional de Administração Pública 17
RAMOS, Jorge Luis Cavalcanti et al. CRISP-EDM: uma proposta de adaptação do
Modelo CRISP-DM para mineração de dados educacionais. In: SIMPÓSIO BRASILEIRO
DE INFORMÁTICA NA EDUCAÇÃO, 31., 2020. Anais [...]. [s. l.], Cbie, 2020, p. 1092–1101.
ROSS, Margy; KIMBALL, Ralph. The data warehouse toolkit: the definitive guide
to dimensional modeling. [S. l.]: John Wiley & Sons, 2013.
SAYÃO, Luis Fernando; SALES, Luana Farias. Algumas considerações sobre os
repositórios digitais de dados de pesquisa. Informação & Informação, [s. l.], v.
21, n. 2, p. 90, 2016.
SCHAULET, Evandro O.; TREZ, Guilherme. Big Data em Organizações de Médio e
Grande Porte do Setor Público Brasileiro: Prontidão e Situação Atual, Replicação
do Estudo Holandês de Klievink et al. (2017). In: SIMPÓSIO BRASILEIRO DE
INFORMÁTICA NA EDUCAÇÃO, 31., 2020. Anais [...]. [s. l.], Cbie, 2020, p. 1092–1101.
SHEARER, C. The CRISP-DM: the new blueprint for data mining. Journal of data
warehousing, [s. l.], v. 5, n. 4, 2000.
SHINTAKU, Milton; DUQUE, Cláudio Gottschalg; SUAIDEN, Emir José. Análise sobre
o uso das tendências tecnológicas nos repositórios brasileiros. [S. l.: s. n.], 2014.
SZWARCFITER, Jayme Luiz; MARKENZON, Lilian. Estruturas de Dados e seus
Algoritmos, 3a. ed. [S. l.]: Editora LTC, 2010.
WILKINSON, Mark D. et al. Comment: The FAIR Guiding Principles for scientific data
management and stewardship. Scientific Data, [s. l.], v. 3, p. 1–9, 2016.
ZENG, Marcia Lei; QIN, Jian. Metadata. [S. l.]: Facet Publishing, 2016.
18Enap Fundação Escola Nacional de Administração Pública
Unidade 2: Eventos Geradores de Big Data
Objetivo de aprendizagem
Ao final da unidade você será capaz de reconhecer atividades e eventos geradores do Big Data.
Nesta unidade você conhecerá os eventos geradores de Big Data, que produzem
um grande volume de dados. Esses eventos têm diferentes origens, como redes
sociais, computação em nuvem, banco de dados e políticas públicas. O crescimento
exponencial desses eventos em conjunto com o avanço tecnológico tem incrementado
o uso das ferramentas de Big Data.
No setor público brasileiro, os dados do Big Data estão sendo aproveitados de forma
inteligente para impulsionar o desenvolvimento de políticas públicas mais eficientes
e valiosas para a sociedade.
As mídias e as redes sociais
têm impactado de forma exponencial a distribuição
das informações no ambiente cibernético e são fontes abundantes de dados no
contexto Big Data. Veja a descrição e o foco de cada uma:
2.1 Mídias e Redes Sociais
Mídias Sociais
Plataformas online que
possibilitam aos usuários
criar, publicar e compartilhar
diversos tipos de conteúdo,
como textos, áudios, vídeos,
opiniões, notícias e imagens
(KLEIN; NETO; TEZZA, 2017).
Redes Sociais
Plataformas que permitem
aos usuários criar perfis
e interagir entre si,
promovendo o sentimento
de conexão e confiança
mútua (COSTA, 2005).
A popularização das plataformas Facebook, Twitter, Instagram e LinkedIn trouxe consigo
espaços virtuais para interação entre os usuários. Essas interações geram um grande
volume de dados, que variam de semiestruturados a não estruturados. Quando esses
dados são analisados de maneira contextualizada, revelam padrões e insights valiosos.
Enap Fundação Escola Nacional de Administração Pública 19
Os dados gerados nas mídias e redes sociais, que fazem parte do Big Data, têm
um potencial significativo no monitoramento das redes e podem ser aproveitados
como ferramentas poderosas na gestão pública. É importante ressaltar que a análise
desses dados deve ser realizada com transparência, respeitando a privacidade dos
usuários e seguindo as normas e legislações vigentes.
Os gestores públicos têm utilizado a análise dos dados em tempo real para tomar
decisões assertivas e ágeis. Um exemplo notável é a ferramenta ALICE, que realiza
análises contínuas de artefatos textuais não estruturados produzidos antes, durante
e após processos de licitação. Essa ferramenta visa aumentar a produtividade dos
auditores e promover a auditoria preventiva das compras públicas.
A computação em nuvem também pode ser um evento gerador de dados em Big
Data devido à sua natureza escalável e distribuída.
Veja a definição de computação em nuvem:
Ferramenta ALICE
2.2 Computação em Nuvem
Computação em nuvem.
Fonte: Freepik (2023).
Um modelo computacional que permite
o acesso onipresente, conveniente e sob
demanda a um conjunto compartilhado de
recursos de computação configuráveis.
Esses recursos podem ser rapidamente
provisionados e liberados com
pouco esforço de gerenciamento e/
ou interação do provedor de serviço
(MELL; GRANCE; NIST, 2011).
https://repositorio.cgu.gov.br/handle/1/43580
20Enap Fundação Escola Nacional de Administração Pública
A arquitetura da computação em nuvem é uma combinação da arquitetura de
virtualização e a arquitetura de serviços web. Nesse modelo, os data centers (centros
de processamento de dados) desempenham um papel central, sendo responsáveis
pelo processamento e armazenamento de dados.
Conheça os modelos de computação em nuvem.
Infraestrutura como Serviço (IaaS): É um modelo de computação em
nuvem que oferece, por meio de um provedor de serviço, recursos de
computação virtualizados. Esses recursos são servidores, armazenamento,
rede e outros componentes de infraestrutura. É o modelo mais flexível de
computação em nuvem, já que permite aos usuários o controle total sobre
os seus recursos para configurar e personalizar a infraestrutura conforme
às necessidades.
Plataforma como Serviço (PaaS): É um modelo de computação em
nuvem que oferece uma plataforma para que os desenvolvedores criem,
implementem e gerenciem aplicativos utilizando uma variedade de
ferramentas e serviços. Nesse modelo os desenvolvedores trabalham nos
seus projetos sem a necessidade de gerenciar a infraestrutura subjacente.
Software como Serviço (SaaS): É um modelo de computação em nuvem
que oferece um software, por meio de um provedor de serviço. Esse
provedor é encarregado por gerenciar a infraestrutura, atualizar o software,
manter o funcionamento e segurança. O modelo SaaS difere do modelo
tradicional de licença de software, em que o usuário compra uma cópia do
software e instala nos seus dispositivos. O modelo SaaS é utilizado para
uma variedade de aplicativos, como gerenciamento de relacionamento com
os clientes (CRM), gerenciamento de recursos humanos (HRM), software
de produtividade e compartilhamento de arquivos, como o Office 365 e o
G-Suite Google Workspace.
A adoção da computação em nuvem pelo setor público tem trazido benefícios
significativos, permitindo o acesso, armazenamento, processamento e análise
de grandes quantidades de dados. A computação em nuvem possibilita que
os colaboradores acessem os dados de qualquer lugar e a qualquer momento,
gerando uma redução de custos de infraestrutura, além de aumentar a eficiência e
escalabilidade. Essa capacidade facilita o compartilhamento de dados entre diferentes
áreas e órgãos do setor público, promovendo maior colaboração e integração.

Enap Fundação Escola Nacional de Administração Pública 21
Há riscos?
Embora as empresas que oferecem os modelos de computação em nuvem
mencionem nos seus contratos de serviços questões relacionadas a assegurar a
conformidade com a legislação de proteção e privacidade dos dados, existem riscos
que devem ser analisados (DAVID et al., 2022):
• comprometimento da disponibilidade dos serviços de nuvem;
• falta de atualização dos recursos tecnológicos do prestador de serviço de
nuvem a tempo e na hora;
• falta de integridade dos dados e das informações;
• possibilidade de o prestador de serviços em nuvem não ser auditável pelo
serviço público;
• vulnerabilidades quanto à segurança;
• acesso não autorizado;
• vazamento de dados;
• deficiências nos mecanismos de segurança referentes aos terceirizados; e a
• legislação e suas atualizações.

A computação em nuvem é uma realidade que possibilita ganhos de eficiência,
decisões baseadas em dados, maior segurança dos dados e redução de custos, tanto
para o setor privado como para o setor público. No entanto, utilizar os dados do Big
Data da computação em nuvem requer ferramentas e tecnologias adequadas para
coleta, armazenamento e análise dos dados. Veja alguns exemplos a seguir.
Amazon Web Services (AWS): Plataforma líder de computação em nuvem
que oferece serviços como o Amazon S3 para armazenamento e recuperação
de dados escaláveis e seguros, Amazon Redshit para análise de grandes
volumes de dados, Amazon Elastic Map Reduce para processamento de
dados em larga escala, Amazon Athena para consultas interativas e Amazon
QuickSight para visualização de dados.

22Enap Fundação Escola Nacional de Administração Pública
Google Cloud Platform (GCP): Plataforma de computação em nuvem que
inclui serviços como Google Cloud Storage para armazenamento de objetos
escaláveis e seguros, BigQuery para análise de dados em larga escala,
Dataflow para processamento de dados em tempo real e Dataproc para
processamento de dados em lote, permitindo executar clusters do Hadoop
e do Spark na nuvem.
Microsoft Azure: Plataforma de computação em nuvem da Microsoft, com
serviços como Azure Storage para armazenamento e acesso fácil a grandes
volumes de dados; Azure HDInsight para execução de clusters do Hadoop;
Azure Stream Analytics para análise de dados em tempo real; e Power BI
para visualização de dados com criação de relatórios e painéis interativos.
Os gestores públicos devem considerar que a escolha das ferramentas adequadas
depende das necessidades específicas dos projetos e do suporte de profissionais
qualificados para apoiar na seleção e implementação dessas ferramentas.
2.3 Bancos de Dados
O banco de dados é uma coleção estruturada de dados armazenados digitalmente
e gerenciados por um Sistema de Gerenciamento de Banco de Dados (SGBD). O
gerenciamento de dados foca na criação, armazenamento e recuperação adequada
desses dados. Em um projeto de banco de dados é essencial entender a diferença
entre dados, informação e conhecimento. Veja na figura a seguir:
Diferença entre dado, informação e conhecimento.
Fonte: Navathe
(2013). Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 23
O SGBD gerencia a estrutura do banco de dados e controla o acesso aos dados
armazenados. Ele atua como uma interface entre o banco de dados e os usuários
finais ou programas, permitindo a recuperação, atualização e gerenciamento dos
dados. O SGBD facilita a gestão e controle do banco de dados, permitindo uma série
de ações administrativas, como monitoramento de desempenho, ajuste e backups.
À medida que os sistemas de registro se tornam mais automatizados e interconectados,
os dados se tornam parte do ecossistema do Big Data. O crescimento exponencial de
dispositivos conectados à Internet das Coisas (IoT) contribui para o grande volume
de dados disponíveis no Big Data.
Sendo assim, os bancos de dados fazem parte dos eventos geradores de Big Data,
principalmente se esses dados forem gerados em tempo real.

Quais os desafios no uso de banco de dados?
• Lidar com o aumento significativo no volume de dados.
• Garantir a segurança de dados.
• Atender à demanda por acesso em tempo real aos dados.
• Gerenciar e manter o banco de dados e sua infraestrutura.
• Superar os limites de escalabilidade.
Que tal complementar seu estudo neste tema e descobrir os diferentes tipos de
bancos de dados? Faça o download do documento a seguir.
Material Complementar:
Tipos de Banco de Dados: uma Visão Geral
2.4 Políticas Públicas
Big data na tomada de decisão no poder público é crucial para políticas públicas
eficientes. A análise de grandes volumes de dados orienta ações embasadas em
evidências, promovendo abordagens ágeis e precisas. Isso resulta em melhor
qualidade de vida da população e maior efetividade das ações governamentais.
https://articulateusercontent.com/rise/courses/kTYVjp3JmcCFD2SMy4dtI8vZtXc-vI_c/29pXddqSKUpVBVLP-Tipos%2520de%2520Banco%2520de%2520Dados_%2520uma%2520Vis%25C3%25A3o%2520Geral.pdf
24Enap Fundação Escola Nacional de Administração Pública
Assista, a videoaula à seguir sobre esse tema:
Videoaula: A Importância do Big Data
na Tomada de Decisão
Que bom que você chegou até aqui! Agora é a hora de você testar seus conhecimentos.
Para isso, acesse o exercício avaliativo disponível no ambiente virtual. Bons estudos!
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo01_video02/index.html
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo01_video02/index.html
Enap Fundação Escola Nacional de Administração Pública 25
COSTA, Rogério da. Por um novo conceito de comunidade: redes sociais, comunidades
pessoais, inteligência coletiva. Interface - Comunicação, Saúde, Educação, [s. l.], v.
9, n. 17, p. 235–248, 2005.
DAVID, Davidson Juarêz et al. Benefícios e Riscos do Uso da Computação em Nuvem
no Setor Público: uma análise baseada em artigos disponibilizados em bases
dados acadêmicas de 2017 a 2021. Revista Iberica de Sistemas e Tecnologias de
Informacao (RISTI). [s. l.], v. 49, p. 537–549, 2022.
KLEIN, Gisiela Hasse; NETO, Pedro Guidi; TEZZA, Rafael. Big data e mídias sociais:
Monitoramento das redes como ferramenta de gestão. Saúde e Sociedade, [s. l.], v.
26, n. 1, p. 208–217, 2017.
MELL, Peter; GRANCE, Tim. The NIST definition of cloud computing. [S. l.: s. n.],
2011.
NAVATHE, Elmasri. Sistemas de Banco de Dados. Journal of Chemical Information
and Modeling, [s. l.], v. 6, n. 9, p. 1689–1699, 2013.
Referências
26Enap Fundação Escola Nacional de Administração Pública
Módulo
A Gestão de Dados em Big Data2
Seja bem-vindo(a) ao Módulo 2 do curso Big Data em Apoio à Tomada de Decisão!
Neste módulo, você verá informações sobre os tipos de dados, repositórios de dados
e princípios FAIR na gestão de dados no contexto do setor público.
Este módulo possui três unidades:
Unidade 1: Os Dados como Ponto de Partida para Tomada de Decisão
Unidade 2: A Importância da Gestão de Dados: Conhecendo os Repositórios
Unidade 3: Princípios FAIR na Gestão de Dados no Serviço Público
Este módulo possui duas unidades:
Unidade 1: Os Dados como Ponto de Partida
para Tomada de Decisão
Objetivo de aprendizagem
Ao final da unidade você será capaz de classificar os tipos de dados e seus usos na
tomada de decisão, assim como a importância da qualidade de dados.
Nesta unidade você irá explorar os diferentes tipos de dados e suas aplicações
cruciais na tomada de decisão. Além disso, descobrirá como a qualidade dos dados
desempenha um papel fundamental nesse processo.
No Big Data existem três tipos de dados: os estruturados, os semiestruturados e os
não estruturados. Para cada um deles são identificados desafios e oportunidades
de processamento e análise no Big Data. As diferenças estão presentes, porque os
dados são criados de diversas formas e com formatos distintos (DAVENPORT, 2014).
Veja a diferença entre eles a seguir.
1.1 Tipos de Dados
Enap Fundação Escola Nacional de Administração Pública 27
Dados estruturados.
Elaboração: CEPED/UFSC (2023).
Dados não estruturados.
Elaboração: CEPED/UFSC (2023).
Dados semiestruturados.
Elaboração: CEPED/UFSC (2023).
Dados que possuem uma organização definida,
em forma de tabelas com linhas e colunas,
e geralmente armazenados em banco de
dados relacionais ou tabelas, facilitando sua
atualização e recuperação. Exemplos comuns
são: tabelas de banco de dados, planilhas e
arquivos Comma Separated Values (CSV).
Dados que não possuem uma estrutura pré-
definida ou padronizada. Eles são frequentemente
capturados de forma desestruturada, por isso
não seguem um formato uniforme, dificultando
seu processamento e análise automatizada.
Exemplos comuns são: textos, documentos,
imagens, vídeos, áudios, postagens em mídias
sociais e e-mails, ou seja, dados sem um
formato específico e/ou padronizado.
Dados que possuem uma estrutura parcialmente
definida, não seguindo um formato rígido como os
dados estruturados. Eles combinam características
de dados estruturados e não estruturados,
sendo dispostos de forma organizada, mas não
previsível. Exemplos desse tipo de dado são
Extensible Markup Language (XML), JavaScript
Object Notation (JSON), Ain´t Markup Language
(YAML) e Hypertext Markup Language (HTML).
28Enap Fundação Escola Nacional de Administração Pública
Vantagens e Desvantagens
Cada tipo de dado tem suas próprias vantagens e desvantagens, e a existência
desses três tipos de dados está relacionada à maneira como os dados são gerados,
armazenados, processados e analisados em projetos de Big Data, visando a tomada
de decisão baseada em dados.
Conheça as vantagens e desvantagens de cada tipo de dado na tabela a seguir.
Comparação de vantagens e desvantagens dos tipos de dados.
Fonte: Autoria própria. Elaboração: CEPED/UFSC (2023).
Enap Fundação Escola Nacional de Administração Pública 29
Diante do avanço tecnológico e do surgimento do Big Data, o termo "metadados"
tem ganhado destaque entre os especialistas em TI. Esses conjuntos de
informações desempenham um papel fundamental na organização, representação
e localização de recursos, descrevendo conteúdo, estrutura e características dos
dados para facilitar sua identificação, acesso, uso e gerenciamento. Caso deseje
complementar seus estudos neste tema e ver os tipos de metadados, faça o
download do documento abaixo.
Material Complementar:
O Papel dos Metadados na Gestão de Dados
1.2 A Importância de Assegurar a Qualidade de Dados
A qualidade dos dados é um requisito fundamental para assegurar a eficácia e a
confiabilidade das análises dos dados, decisões e processos orientados por dados.
A gestão da qualidade dos dados é uma atividade contínua ao longo do tempo. Para
tanto, é recomendado implementar boas práticas seguindo as seguintes etapas:
1 Definir os padrões de qualidade de dados, com critérios para avaliar a qualidade
dos dados, considerando aspectos como precisão, completude, consistência
relevância e atualidade.
2 Utilizar softwares e ferramentas para gerenciar e monitorar a qualidade dos dados.
3 Realizar testes para avaliar a qualidade dos dados, utilizando ferramentas de
validação dos dados.
4 Implementar padrões e modelos para sistematizar a estrutura, a formatação
e a terminologia dos dados.
5 Utilizar medidas de segurança para proteger os dados de acessos não autorizados.
6 Implementar medidas contra falta de integridade ou perda dos dados.
7 Implementar medidas para assegurar que os dados sejam precisos e
completos, evitando duplicidade e inconsistências.
8 Realizar o monitoramento e avaliação contínuos da qualidade dos dados, para
identificar e corrigir eventuais problemas.
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/nVr8UzfV-lbYZCEB-O%2520Papel%2520dos%2520Metadados%2520na%2520Gest%25C3%25A3o%2520de%2520Dados.pdf
30Enap Fundação Escola Nacional de Administração Pública
1.2.1 O que é Qualidade de Dados?
A qualidade dos dados está relacionada com o grau de adequação, confiabilidade
e precisão das informações contidas em um conjunto de dados. Essa qualidade é
essencial para a tomada de decisão e para o sucesso dos projetos orientados por
dados (BATINI et al., 2009).
No contexto das boas práticas para assegurar a qualidade
dos dados, fatores como erros de entrada, redundâncias,
inconsistências e falta de padronização devem ser mitigados.
A falta de qualidade nos dados pode gerar perdas financeiras e
quebra de confiabilidade na imagem da organização.
As boas práticas de gerenciamento e monitoramento são essenciais para definir os
padrões no uso das ferramentas de gestão e de testes para proporcionar segurança
e integridade dos dados.

Dimensões da Qualidade dos Dados
As dimensões da qualidade dos dados ajudam a garantir que os dados usados
na tomada de decisão sejam precisos, confiáveis, relevantes e atualizados,
permitindo que os usuários tomem decisões informadas e baseadas em dados
precisos. Existem várias dimensões que podem ser consideradas na avaliação da
qualidade dos dados, dependendo do contexto em que estão sendo utilizados.
Algumas das dimensões mais comuns incluem:
• Precisão
• Completude
• Consistência
• Confiabilidade
• Relevância
• Atualidade
• Acessibilidade
• Integridade
Enap Fundação Escola Nacional de Administração Pública 31
Material Complementar:
Dimensões da Qualidade de Dados
Considerar essas dimensões ajuda a avaliar a qualidade dos dados de forma eficiente
e eficaz, possibilitando identificar possíveis lacunas que precisam ser corrigidas para
garantir a qualidade dos dados no processo de tomada de decisão.
Quer ver a descrição de cada uma dessas dimensões? Então, complemente seu
estudo no tema com o documento a seguir.
Agora assista a videoaula a seguir, que aborda a qualidade dos dados no contexto
do Big Data.
Videoaula: Qualidade dos Dados no Contexto do Big Data
1.3 Como os Dados Podem Ajudar na Tomada de Decisão?
Os dados são essenciais para a tomada de decisão. Na área governamental, os dados
podem ser utilizados para avaliação de políticas públicas de educação, de saúde, de
segurança pública, para alocação de recursos e planejamento urbano. É importante
ressaltar que a tomada de decisão não deve se basear apenas nos dados, mas
também na experiência, intuição e conhecimento do tomador de decisão.
O fluxo do uso dos dados para a tomada de decisão pode variar dependendo do
contexto, do tipo de dados envolvidos e do processo de tomada de decisão em
si. No entanto, em geral, pode-se destacar algumas etapas comuns que costumam
estar presentes no uso de dados para tomada de decisão.
• Identificação do problema: identificar qual é o problema que precisa
ser resolvido ou a decisão que precisa ser tomada é a primeira etapa no
processo. Essa etapa envolve a definição clara do objetivo, do escopo e das
restrições da tomada de decisão.
• Coleta de dados: na segunda etapa, é necessário obter os dados relevantes
para a análise. Esses dados podem ser obtidos de diversas fontes, como
bancos de dados, pesquisas, relatórios, entre outros. Importante ter em
mente a veracidade dos dados.
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/OraQmtklcCH55pq8-Dimens%25C3%25B5es%2520da%2520Qualidade%2520de%2520Dados.pdf
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo02_video03/index.html
32Enap Fundação Escola Nacional de Administração Pública
• Preparação dos dados: de posse dos dados é necessário iniciar o processo
de preparação dos dados, com a sua organização, limpeza, integração
e transformação dos dados para o formato adequado para uso. Ou seja,
devem ser preparados para que possam ser utilizados adequadamente.
• Análise dos dados: é o processo que busca explorar, visualizar e interpretar
os dados para encontrar padrões, tendências e insights relevantes para
a tomada de decisão. Essa etapa pode envolver técnicas como estatística
descritiva, análise de regressão, machine learning, entre outras.
• Interpretação dos resultados: nesta etapa é necessário interpretar os
resultados obtidos para entender o seu significado considerando o problema
ou decisão em questão.
• Tomada de decisão: é a etapa final do processo, que utiliza os insights e
informações obtidas para escolher a melhor alternativa entre as possíveis
opções. Essa escolha pode ser baseada apenas nos dados ou levar em
consideração outros fatores, como experiência, intuição e conhecimento.
• Monitoramento e ajuste: na sequência, é importante monitorar os
resultados e ajustar o processo conforme necessário. Esta etapa pode
identificar a necessidade da obtenção de novos dados, a revisão dos
objetivos e metas e a avaliação contínua do processo de tomada de decisão.
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o
conteúdo e se aprofunde nos temas propostos. Até a próxima!
Enap Fundação Escola Nacional de Administração Pública 33
AMARAL, Fátima Beatriz Manieiro do; ARAKAKI, Ana Carolina Simionato; FURNIVAL,
Ariadne Chloe Mary. Metadados e padrão de metadados para editoras universitárias
brasileiras. Revista Digital de Biblioteconomia e Ciência da Informação (RDBCI),
[s. l.], v. 19, p. e021032, 2021.
BATINI, Carlo et al. Methodologies for data quality assessment and improvement.
ACM Computing Surveys, [s. l.], v. 41, n. 3, 2009.
DAVENPORT, T. H. How strategists use “big data” to support internal business
decisions, discovery and production. Strategy & Leadership, [s. l.], v. 42, n. 4, p.
45–50, 2014. Disponível em: https://doi.org/10.1108/SL-05-2014-0034. Acesso em: 4
jul. 2023.
ZENG, Marcia Lei; QIN, Jian. Metadata. [S. l.]: Facet Publishing, 2016.
Referências
https://doi.org/10.1108/SL-05-2014-0034
34Enap Fundação Escola Nacional de Administração Pública
A gestão dos dados é um processo que visa obter, armazenar, organizar, proteger e
analisar os dados para serem utilizados de forma eficaz na organização, com a escolha
de tecnologias adequadas para assegurar a qualidade dos dados, a sua conformidade
e acesso a eles no apoio à tomada de decisão. Para isso, é importante conhecer os
diferentes tipos de repositórios de dados e como eles podem ser gerenciados.
Os repositórios de dados são ambiente digitais implementados por instituições
públicas e/ou privadas com infraestrutura computacional e softwares específicos
para armazenar, organizar e gerenciar os dados para dar suporte a sua gestão,
principalmente nas ações relacionadas com a tomada de decisão (MONTEIRO;
SANT’ANA, 2018). São estruturados para otimizar o armazenamento, a recuperação e
análise dos dados, tanto os estruturados, semiestruturados e não estruturados.
Unidade 2: A Importância da Gestão de Dados:
Conhecendo os Repositórios
Objetivo de aprendizagem
Ao final desta unidade você será capaz de diferenciar os tipos de repositório de dados e
a importância deles para a gestão de dados no serviço público.
2.1 O que São e quais os Tipos de Repositórios de Dados?
A escolha do repositório de dados está relacionada
ao tamanho, tipo de dados a serem armazenados,
necessidades de análise e gerenciamento dos dados
da organização. Um repositório pode ser definido como
um conjunto de sistemas que busca tornar interativo
o armazenamento, o gerenciamento, a recuperação,
a exibição e reutilização de objetos digitais. Esses
repositórios possibilitam o acesso a um gama de
objetos digitais, tais como artigos revisados por
pares, capítulos de livros, teses, imagens, vídeos,
textos, documentos, conjuntos de dados e objetos
de aprendizado (MONTEIRO; SANT’ANA, 2018).
Repositórios de Dados.
Fonte: Freepik (2023).
Enap Fundação Escola Nacional de Administração Pública 35
Provavelmente você já deve ter acessado algum repositório de dados, quer ver? A seguir
estão exemplos de repositórios de dados (LEITE et al., 2012; SAYÃO; SALES, 2016).
Repositórios de dados de acesso aberto: são originalmente estruturados
para permitir acesso imediato e amplo a trabalhos científicos resultantes de
atividades de pesquisas. Esse tipo de repositório permite uma disseminação
ampla e irrestrita dos dados, disponibilizando para a sociedade o acesso
público e sem custos aos dados.
Repositórios de dados institucionais: são mais comuns em instituições
de ensino e pesquisa que produzem conteúdo científico. Contemplam o
armazenamento, a organização, a preservação, a recuperação e a ampla
divulgação das pesquisas.
Repositórios de dados temáticos: são repositórios de dados científicos
específicos. São criados e gerenciados por diferentes tipos de organizações
para recolher, preservar e facilitar o compartilhamento dos resultados de
pesquisas específicas.
Repositórios de dados científicos: são repositórios que armazenam
conjuntos de dados de pesquisa e os disponibilizam para pesquisadores
acessarem e utilizarem.

Veja a seguir os benefícios relevantes dos repositórios de dados (SAYÃO; SALES, 2016).
Benefícios dos repositórios de dados.
Elaboração: CEPED/UFSC (2023).
36Enap Fundação Escola Nacional de Administração Pública
• Visibilidade: os repositórios permitem uma abrangência maior dos dados
de pesquisa. Para tanto, deve-se considerar a qualidade, formato e os
metadados associados aos dados para tornar a visibilidade abrangente.
• Compartilhamento: graças à sua capacidade de armazenamento
e organização de dados, os repositórios desempenham um papel
fundamental na socialização de comunidades e grupos de pesquisadores,
tornando os dados acessíveis para uso e promovendo desenvolvimento
de métodos e técnicas inovadoras.
• Autoria: os repositórios possibilitam identificar as coleções de dados e
seus autores.
• Preservação: os repositórios fornecem um ambiente computacional para
preservação dos dados ao longo do tempo.
• Transparência: os repositórios fomentam o princípio da transparência,
tendo como requisitos a qualidade, relevância e o formato dos dados.
• Segurança: os repositórios possuem regras de armazenamento seguro,
com sistemas de backup e segurança física, ao invés de depender de um
armazenamento informal em dispositivos eletrônicos pessoais.
• Disponibilidade: os repositórios permitem que os dados estejam
disponíveis e acessíveis 24/7.
• Curadoria: os repositórios proporcionam um ambiente para agregar e
recriar dados com um processo de seleção, organização e gerenciamento
do conteúdo digital para objetivos específicos.
• Inovação: os repositórios permitem a criação de serviços inovadores para
os pesquisadores, gestores e instituições de pesquisa. Os serviços inovadores
estão relacionados com acesso, integração, metadados, compartilhamento
de código e ferramentas de análise dos dados.
• Reutilização: os repositórios fomentam a reutilização dos dados,
minimizando a duplicação de esforços e otimizando a geração de dados
para utilização em projetos distintos.
• Redes: os repositórios permitem a criação de redes de repositórios
respeitando os protocolos de interoperabilidade.
• Indicadores: os repositórios estabelecem indicadores para fundamentar
a qualidade e a relevância das pesquisas das instituições.
Enap Fundação Escola Nacional de Administração Pública 37
Fique atento! Na implantação dos repositórios de dados alguns desafios nesse
processo devem ser levados em conta.
•Qualidade dos dados: os repositórios trabalham com grandes quantidades
de dados obtidos de diversas fontes. O crescimento do volume dos conjuntos
de dados nos repositórios pode reduzir o desempenho do sistema de
gerenciamento de banco de dados. Sendo assim, a qualidade e quantidade
de dados deve ser considerada.
• Privacidade: os repositórios podem ter dados sensíveis e/ou confidenciais que
devem ser protegidos considerando as questões relacionadas com a legislação.
• Atualização: os repositórios demandam uma dinâmica de atualizações
com o objetivo de assegurar dados atualizados.
•Interoperabilidade: os repositórios armazenam dados em diferentes
formatos, característica que pode atrapalhar a capacidade dos sistemas de
se comunicarem, limitando a capacidade de compartilhamento dos dados.
• Acesso: os repositórios podem ter regras ou requisitos de acesso restritivos
que podem limitar a disponibilidade dos dados.
•Armazenamento e infraestrutura: os repositórios armazenam grandes
quantidades de dados, característica que demanda uma infraestrutura
tecnológica de armazenamento adequada.
Quer conhecer exemplos de repositórios de dados disponíveis atualmente? Veja a
lista no documento a seguir.
2.1.1 Bancos de Dados
Um banco de dados é uma coleção estruturada de dados armazenados digitalmente
e gerenciados por um Sistema de Gerenciamento de Banco de Dados (SGBD). O
gerenciamento de dados é uma disciplina que foca na criação, armazenamento e
recuperação adequada dos dados.
Material Complementar:
Exemplos de Repositórios de Dados
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/x7C51c8BWilqAmWS-Exemplos%2520de%2520Reposit%25C3%25B3rios%2520de%2520Dados.pdf
38Enap Fundação Escola Nacional de Administração Pública
Dentro do conceito de banco de dados, encontram-se os sistemas datacêntricos,
que são projetados e construídos em torno de dados. Esses sistemas posicionam
os dados no centro do design e são desenvolvidos para gerenciar e processar
grandes quantidades de dados. Os sistemas datacêntricos ajudam as organizações a
obterem insights valiosos, aproveitando grandes volumes de dados em tempo real.
No entanto, esses sistemas apresentam desafios relacionados com a privacidade,
segurança de dados e integração com sistemas externos à organização.
O SGBD é responsável por gerenciar a estrutura do banco de dados e controlar o
acesso aos dados armazenados. À medida que os sistemas de registro se tornam
mais automatizados e interconectados, os dados se tornam parte do ecossistema
do Big Data. O crescimento exponencial de dispositivos conectados à Internet das
Coisas (IoT) contribui para o grande volume de dados disponíveis no Big Data.
A figura a seguir apresenta exemplos de banco de dados relacional e NoSQL:
Fonte: Mario_sergio_ti (2017).
Enap Fundação Escola Nacional de Administração Pública 39
2.1.2 Data Lakes e Data Warehouses
No contexto dos repositórios centralizados de dados que possibilitam o
armazenamento e o gerenciamento de grandes volumes de dados, duas tecnologias
de armazenamento são frequentemente mencionadas: Data Lake e Data Warehouse.
Data Lakes são repositórios centralizados de dados que armazenam grandes
volumes de dados brutos, estruturados, semiestruturados e não
estruturados.
Eles permitem a integração de dados de diversas fontes sem a necessidade de
transformação prévia.
Por outro lado, o Data Warehouse é um repositório central que armazena grandes
quantidades de dados históricos e atualizados de diferentes fontes dentro de uma
organização. É usado para análises e tomada de decisões estratégicas, seguindo
uma arquitetura dimensional com dados organizados em fatos e dimensões.
Enquanto o Data Lake oferece mais flexibilidade de armazenamento, o Data
Warehouse é mais focado em análises e tem uma estrutura mais organizada.
Que tal complementar seu estudo neste tema? Veja o documento a seguir, que
aborda as diferenças, conceituações e benefícios desses repositórios.
Material Complementar:
O que são os Data Lakes?
2.2 Tipos de Repositórios de Dados Públicos
A criação de repositórios de dados públicos tem o potencial de empoderamento da
sociedade, permitindo o acesso pleno e livre aos dados. Na era da informação, em
que uma grande quantidade de dados está disponível no Big Data, surgem cada vez
mais repositórios de dados públicos (ALAQUIE, 2019). O acesso aos dados públicos
permite que pesquisadores, gestores, empreendedores e empresas façam uso dos
dados para impulsionar a tomada de decisão baseada em dados.
O plano de dados abertos do governo federal tem por objetivo permitir a publicação
e disseminação de dados armazenados em bases de dados de órgãos e entidades
da administração pública federal. Os repositórios de dados governamentais
disponibilizam dados relacionados com áreas da educação, segurança, saúde,
transporte e planejamento urbano, por exemplo.
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/lo6TJzOPr-Xa5aWZ-O%2520que%2520s%25C3%25A3o%2520os%2520Data%2520Lakes.pdf
40Enap Fundação Escola Nacional de Administração Pública
Videoaula: Repositório de Dados no Serviço Público
Na videoaula a seguir, você verá sobre os repositórios de dados no serviço público.
Assista!
Veja alguns exemples de repositórios de dados públicos.
Repositórios
governamentais
São mantidos por
órgãos do governo, com
dados relacionados aos
serviços públicos.
Repositórios
acadêmicos
São mantidos por
instituições acadêmicas,
com dados de pesquisa
de várias áreas do
conhecimento.
Repositórios
comunitários
São mantidos por
comunidades de
desenvolvedores. Esses
repositórios permitem
que desenvolvedores
contribuam com código,
correções e bugs nos
projetos de código aberto.
Repositórios
empresariais
São mantidos por
organizações com dados
relacionados aos seus
negócios. Eles são projetados
para armazenar grandes
quantidades de dados
financeiros, de vendas, de
clientes e dados operacionais.
É importante refletir que a segurança e privacidade dos dados devem ser consideradas
ao compartilhar dados em um repositório público. Pode ser uma boa prática armazenar
dados confidenciais e privados (sensíveis) em um repositório privado.
Aqui há uma lista de repositórios institucionais públicos
(veja aqui). Confira!
https://cdn.evg.gov.br/cursos/800_EVG/video/modulo02_video04/index.html
https://ifrs.edu.br/veranopolis/biblioteca/recursos-de-acesso-aberto/repositorios-institucionais-e-tematicos/
Enap Fundação Escola Nacional de Administração Pública 41
Você chegou ao final desta unidade de estudo. Caso ainda tenha dúvidas, reveja o
conteúdo e se aprofunde nos temas propostos. Até a próxima!
42Enap Fundação Escola Nacional de Administração Pública
ALAOUIE, Ali M. Assessing whether the design of a state forensic portal of test
results complies with requirements of open government data. Forensic Science
International: Reports, [s. l.], v. 1, p. 100043, 2019. Disponível em: https://doi.
org/10.1016/j.fsir.2019.100043. Acesso em: 4 jul. 2023.
KHINE, Pwint Phyu; WANG, Zhao Shun. Data lake: a new ideology in big data era. ITM
Web of Conferences, [s. l.], v. 17, p. 03025, 2018.
LEITE, Fernando et al. Boas práticas para a construção de repositórios
institucionais da produção científica. [s. l.: s. n.], 2012. 34 p. Disponível em:
http://livroaberto.ibict.br/bitstream/1/703/1/Boas práticas para a construção de
repositórios institucionais da produção científica.pdf. Acesso em: 3 maio 2023.
LOCK, Michael. Angling for Insight in Today’S Data Lake. [S. l.]: Aberdeen, 2017.
LORICA, Ben et al. O que é um Lakehouse?. Databricks. 2023. Disponível: https://
www.databricks.com/br/blog/2020/01/30/what-is-a-data-lakehouse.html.
Acesso em: 3 maio 2023.
MARIO_SERGIO_TI. Dúvida sobre Data wareHouse. 13 jun. 2017. [Comentário]. Qlik:
Mario_sergio_ti. Disponível em: https://community.qlik.com/t5/Brasil/dúvida-sobre-
Data-wareHouse/td-p/1356961. Acesso em: 3 maio 2023.
MONTEIRO, Elizabete Cristina De Souza de Aguiar; SANT’ANA, Ricardo Cesar
Gonçalves. Plano de gerenciamento de dados em repositórios de dados de
universidades. Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da
Informação, [s. l.], v. 23, n. 53, p. 160–173, 2018.
NAVATHE, Elmasri. Sistemas de Banco de Dados. Journal of Chemical Information
and Modeling, [s. l.], v. 6, n. 9, p. 1689–1699, 2013.
SAYÃO, Luis Fernando; SALES, Luana Farias. Algumas considerações sobre os
repositórios digitais de dados de pesquisa. Informação & Informação, [s. l.], v. 21,
n. 2, p. 90, 2016.
Referências
https://doi.org/10.1016/j.fsir.2019.100043
https://doi.org/10.1016/j.fsir.2019.100043
http://livroaberto.ibict.br/bitstream/1/703/1/Boas práticas para a construção de repositórios institucionais da produção científica.pdf
http://livroaberto.ibict.br/bitstream/1/703/1/Boas práticas para a construção de repositórios institucionais da produção científica.pdf
https://www.databricks.com/br/blog/2020/01/30/what-is-a-data-lakehouse.html
https://www.databricks.com/br/blog/2020/01/30/what-is-a-data-lakehouse.html
https://community.qlik.com/t5/Brasil/dúvida-sobre-Data-wareHouse/td-p/1356961
https://community.qlik.com/t5/Brasil/dúvida-sobre-Data-wareHouse/td-p/1356961
Enap Fundação Escola Nacional de Administração Pública 43
Unidade 3: Princípios FAIR na Gestão de Dados no Serviço Público
Objetivo de aprendizagem
Ao final da unidade, você será capaz de classificar os princípios de dados FAIR (Findable,
Acessible, Interoperable, Reusable) na gestão de dados do serviço público.
Os princípios FAIR (Findable, Accessible, Interoperable, Reusable) são diretrizes que
visam promover a usabilidade, compartilhamento e reutilização de dados de forma
eficiente e eficaz. Esses princípios foram desenvolvidos para enfrentar os desafios
de encontrar, acessar e integrar dados em um contexto de dados cada vez mais
distribuídos e diversos.
A gestão de dados eficiente e adequada é essencial para facilitar descobertas,
inovação e reutilização dos dados por toda a comunidade. Com o objetivo de garantir
as melhores práticas nessa gestão, surgiram iniciativas como Data Seal of Approval
(DAS) em 2010-2011. No entanto, foi em 2016 que o grupo FORCE11 estabeleceu
os princípios FAIR, que definem diretrizes para tornar os dados mais acessíveis,
reutilizáveis e interoperáveis (FORCE 11, 2020; WILKINSON et al., 2016).
Os princípios FAIR, representados pelos termos Findable (encontrável), Accessible
(acessível), Interoperable (interoperável) e Reusable (reutilizável), quando aplicados
à gestão de dados, melhoram a qualidade dos dados, através de um conjunto
de diretrizes para tornar os dados mais acessíveis e úteis. Esses princípios são
distribuídos em quatro categorias.
É importante ressaltar que os princípios FAIR não se aplicam apenas aos dados em si,
mas também devem ser incorporados aos algoritmos, ferramentas e fluxos de trabalho
relacionados a esses dados. A aplicação desses princípios beneficia os objetos de
pesquisa digital, garantindo transparência, reprodutibilidade e reutilização ao tornar os
componentes do processo de
pesquisa acessíveis (WILKINSON et al., 2016).
Na imagem a seguir, você poderá ver os princípios FAIR e sua conceituação:
3.1 O que são os princípios FAIR?
44Enap Fundação Escola Nacional de Administração Pública
Se interessou pelo tema e quer se aprofundar nos princípios FAIR?
Ouça o podcast do Ibictcast, no qual Luana Sales, pesquisadora
do Ibict e coordenadora do GO FAIR Brasil, fala sobre os princípios
FAIR. Clique aqui.
Quer ver com mais detalhes os princípios FAIR e suas diretrizes? Então complemente
seu estudo com o material a seguir.
Princípios FAIR.
Elaboração: CEPED/UFSC (2023).
Material Complementar:
Princípios FAIR
https://www.gov.br/ibict/pt-br/central-de-conteudos/noticias/2022/maio-2022/luana-sales-fala-sobre-os-principios-fair-durante-entrevista-para-o-ibictcast-o-podcast-do-ibict
https://articulateusercontent.com/rise/courses/Aqohz2Op_gIKkLP6n5nyI0MtyyDcv6FK/vq_t9K4RSQSK8POR-Princ%25C3%25ADpios%2520FAIR.pdf
Enap Fundação Escola Nacional de Administração Pública 45
Que bom que você chegou até aqui! Agora é a hora de você testar seus conhecimentos.
Para isso, acesse o exercício avaliativo disponível no ambiente virtual. Bons estudos!
46Enap Fundação Escola Nacional de Administração Pública
THE FUTURE OF RESEARCH COMMUNICATIONS AND E-SCHOLARSHIP (FORCE 11).
The FAIR Data Principles. 2020. Disponível em: https://force11.org/info/the-fair-
data-principles/. Acesso em: 27 jun. 2023.
WILKINSON, Mark D. et al. Comment: The FAIR Guiding Principles for scientific data
management and stewardship. Scientific Data, [s. l.], v. 3, p. 1–9, 2016.
Referências
https://force11.org/info/the-fair-data-principles/
https://force11.org/info/the-fair-data-principles/
Enap Fundação Escola Nacional de Administração Pública 47
Módulo
O Uso dos Dados na Prática:
o que Fazer?3
Seja bem-vindo(a) ao Módulo 3 do curso Big Data em Apoio à Tomada de Decisão!
Chegou a hora de entrar na prática do uso de dados em Big Data. Você sabe o que
fazer com esses dados?
Neste módulo, você verá sobre os tipos de agrupamentos, processos de
transformação, algoritmos, como esses dados são representados e distribuídos.
Este módulo possui 5 unidades:
Unidade 1: Tipos de Agrupamentos de Dados em Big Data
Unidade 2: A Transformação de Dados
Unidade 3: A Utilização do Algoritmo de Big Data
Unidade 4: O que é Distribuição de Dados?
Unidade 5: Conhecendo os Modelos de Programação do Big Data
Unidade 1: Tipos de Agrupamentos de Dados em Big Data
Objetivo de aprendizagem
Ao final desta unidade você será capaz de classificar os tipos de agrupamentos de
dados em Big Data.
Imagine se você pudesse identificar grupos de pessoas com necessidades similares,
permitindo uma personalização dos serviços públicos.
A clusterização, ou agrupamento de dados, é uma técnica que busca identificar
grupos de objetos semelhantes em um conjunto de dados, com base em suas
características, permitindo uma melhor compreensão dos dados e a descoberta de
insights relevantes.
48Enap Fundação Escola Nacional de Administração Pública
1.1 Modelos de Conectividade
A análise de conectividade é uma técnica que busca identificar grupos ou clusters de
dados com base nas relações e proximidade entre eles. Esses modelos são estruturados
levando em consideração a proximidade dos dados no espaço em que estão inseridos.
Dessa forma, os dados que estão mais próximos no espaço apresentam maior
similaridade entre si, em contraste com aqueles que estão distantes.
Existem diferentes modelos de análise de conectividade, como o baseado em
vizinhança e o modelo baseado em grafos. Veja a seguir cada um deles.
O modelo de análise de conectividade é comumente aplicado no
Big Data para agrupar grandes conjuntos de dados em clusters
menores e mais gerenciáveis, facilitando a identificação de
padrões e insights valiosos.
Conectividade baseada em vizinhança.
Elaboração: CEPED/UFSC (2023).
Vizinhança
Esses modelos de conectividade de vizinhança são úteis em diferentes cenários
e podem ser aplicados a uma ampla variedade de conjuntos de dados. Nesse
modelo, a conectividade entre os dados é determinada pela proximidade no
espaço de características. São frequentemente usados em análise de dados,
aprendizado de máquina e visão computacional para identificar padrões em
grandes conjuntos de dados.
Enap Fundação Escola Nacional de Administração Pública 49
Conectividade baseada em grafos.
Elaboração: CEPED/UFSC (2023).
Grafos
O modelo de conectividade baseado em grafos utiliza uma representação de
grafo para visualizar as relações entre os dados. Nesse modelo, identifica-se
clusters com base na conectividade dos vértices do grafo. Os grafos são utilizados
em diversas áreas, como ciência da computação, matemática, física, biologia e
redes sociais. No contexto do Big Data, a análise de grafos permite a modelagem
e análise de redes complexas, como redes sociais e de transporte, fornecendo
insights valiosos sobre sua estrutura e dinâmica.
Um grafo é uma estrutura matemática usada para representar
as relações entre objetos ou entidades. Ele é composto por
um conjunto de vértices (também conhecidos como nós) e um
conjunto de arestas (ou ligações) que conectam os vértices.
Quer se aprofundar no tema de grafos? No documento a seguir,
você pode complementar seus estudos no conceito e tipos de
grafos, a questão da complexidade nos grafos e suas conexões.
Material Complementar:
A Representação da Estrutura de Dados
https://articulateusercontent.com/rise/courses/SgZhj_jx1hSQubC3HMMXZnZ1m5bucZZ7/B-PcMRDOa8kwiLEy-A%2520Representa%25C3%25A7%25C3%25A3o%2520da%2520Estrutura%2520de%2520Dados.pdf
50Enap Fundação Escola Nacional de Administração Pública
Conectividade baseada em centróides.
Fonte: Google (2022)
1.2 Modelos de Centróide
1.3 Modelos de Distribuição
Os modelos de centróide são um tipo de algoritmo de clustering em que a
similaridade entre os pontos de dados é definida pela proximidade desses pontos
aos centróides (centro geométricos) dos clusters. Esses modelos visam identificar
centróides que sejam representativos dos clusters e buscam encontrar o número
ideal de clusters para o conjunto de dados.
Os modelos de distribuição são utilizados para calcular a probabilidade de um
elemento pertencer a um grupo ou não. Eles formam agrupamentos com base na
probabilidade de que todos os pontos em um cluster tenham sido gerados por uma
determinada distribuição de probabilidade.

Diferentemente dos modelos de conectividade baseados em vizinhança, os modelos de
centróide exigem a definição prévia do número de clusters desejado para se executar o
algoritmo, o que pode ser um desafio. A escolha inicial aleatória dos centróides também
pode afetar os resultados. É importante avaliar a qualidade dos clusters gerados por
esses modelos e ajustar o número de clusters de acordo com os objetivos desejados.
Enap Fundação Escola Nacional de Administração Pública 51
Alguns modelos de distribuição, como o modelo de mistura de gaussianas, usam
a distância como medida de similaridade e a probabilidade para atribuir pontos
a diferentes clusters. É essencial definir um limiar de precisão para determinar o
número de clusters necessários e como os pontos são atribuídos a eles.
Os modelos de densidade são ferramentas utilizadas para analisar e entender a
distribuição de probabilidade de uma variável aleatória. Esses modelos são úteis em
várias áreas, tais como estatística, física, engenharia, economia, entre outras.
Na análise de dados, é importante lidar com outliers, pois certos modelos de distribuição
são mais sensíveis a eles do que outros. Os outliers podem afetar a escolha do número
de clusters e a atribuição de pontos, resultando em resultados imprecisos.
Para lidar com outliers, é recomendado