Buscar

LUIZ-CLAüUDIO-BUZETI-

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 148 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 148 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 148 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Luiz Cláudio Buzeti
APLICAÇÃO DE METODOLOGIA DE DESCOBERTA
DE CONHECIMENTO EM DADOS PÚBLICOS:
EXPLORANDO OS SISTEMAS DATASUS E
ALICEWEB
MARINGÁ
2017
Luiz Cláudio Buzeti
APLICAÇÃO DE METODOLOGIA DE DESCOBERTA DE
CONHECIMENTO EM DADOS PÚBLICOS: EXPLORANDO OS
SISTEMAS DATASUS E ALICEWEB
Dissertação de Mestrado apresentado ao
PPGGCO - UNICESUMAR como pré-requisito
obrigatório à obtenção do título de Mestre em
Gestão do Conhecimento nas Organizações.
Linha de pesquisa: Organizações
Orientador: Prof.a Dra. Iara Carnevale de Almeida
Coorientador: Prof.o Dr. Marcelo Picinin Bernuci
MARINGÁ
2017
Luiz Cláudio Buzeti
APLICAÇÃO DE METODOLOGIA DE DESCOBERTA DE
CONHECIMENTO EM DADOS PÚBLICOS: EXPLORANDO OS
SISTEMAS DATASUS E ALICEWEB
Dissertação de Mestrado apresentado ao
PPGGCO - UNICESUMAR como pré-requisito
obrigatório à obtenção do título de Mestre em
Gestão do Conhecimento nas Organizações.
Trabalho aprovado. MARINGÁ, de de 2017:
Prof.a Dra. Iara Carnevale de Almeida
Orientador
Professor
Convidado 1
Professor
Convidado 2
MARINGÁ
2017
Agradecimentos
Primeiramente, agradeço à Professora Iara Carnevale de Almeida pela dedicação em me
orientar, apoiando-me nos momentos difíceis, mostrando-me em que e como este estudo poderia
ser melhorado, possibilitando que esta pesquisa pudesse se tornar realidade.
Ao Professor Marcelo Bernuci, que participou do projeto desde o início e, com sua
competência e seu conhecimento, tornou este um estudo interdisciplinar.
À Professora Rita Cristina Galarraga Berardi, minha orientadora no início do projeto,
que, com sua dedicação, foi fundamental na fase inicial deste estudo e me fez seguir em frente.
Ao Professor Flávio Bortolozzi, que sempre me atendeu com extrema atenção, sempre
mostrando os rumos que este estudo deveria seguir, ou seja, mostrando-me o caminho da luz.
Ao aluno de Medicina Antonio Augusto Cláudio Pereira, que teve papel decisivo na
análise dos dados, sempre com muita dedicação.
Aos Professores do PPGCCO, que conduziram-nos no processo de subida dos difíceis
degraus acadêmicos.
Às queridas e aos queridos colaboradores da Secretaria do Mestrado.
Aos meus amigos que estiveram ao meu lado nesta caminhada a quem, confesso, com
certeza, sentirei muita saudade de vocês.
Aos amigos da UEL, em especial ao Leonardo Mota Pinheiro (Assessor) e à Cecilia
Shigueko Koyama (Diretora).
À minha namorada, Ana Carolina Barbosa, inicialmente apenas uma amiga de turma,
mas que o destino nos fez unir, pelo seu carinho, por sua atenção, pela sua consideração e por
tudo mais que você fez por mim neste período.
Especialmente aos meus pais, Claudio e Maria, e irmãos, que são os alicerces da vida.
E, finalmente, a todos que, direta ou indiretamente, contribuíram para a realização desta
pesquisa.
so
Resumo
Observa-se que, no período de 2005 até 2014, o Brasil apresentou um déficit comercial de US$
16,074 bilhões relativos ao comércio de fármacos. Esse explícito esforço financeiro, para pro-
mover o acesso a medicamentos pela população, pode evitar morbidades e, consequentemente,
evitar internações. Apesar do Governo disponibilizar diversos dados abertos, tanto sobre
importações quanto sobre saúde, não existe sistema informático que possibilite o cruzamento
destas informações e, consequentemente, concluir se as importações de fármacos realmente
são válidas para evitar internações. Desta forma, o presente estudo objetivou explorar este
fenômeno e contribuir para a melhoria da gestão do conhecimento em saúde, aplicando o
modelo Buzeti, que permite a descoberta de conhecimento em dados públicos dos sistemas
DATASUS e ALICEWeb. Inicialmente foram estudadas as metodologias existentes que viabi-
lizassem a descoberta do conhecimento, sendo então definido o modelo Buzeti. Salienta-se
que foram escolhidos conceitos advindos do Knowledge Discovery in Database (KDD), que
permitem a extração de padrões, associações, regras, clusters e outras formas de codificação.
Na sequência foram realizadas as seguintes etapas propostas pelo modelo Buzeti: compreensão
dos sistemas ALICEWeb e DATASUS e dados, preparação e modelagem dos dados referentes
a importação de fármacos e internaçõe. O cruzamento desses dados gerou conhecimentos
relevantes para serem avaliados por especialistas da área da saúde. Finalmente, a grande
contribuição desse estudo é a compreensão do uso de uma metodologia KDD que permite a
criação de novos conhecimentos a partir de dados públicos.
Palavras-chave: Gestão do Conhecimento. Dados Públicos. Mineração de Dados.
Abstract
It can be observed that between 2005 and 2014 Brazil had presented a US$ 16,074 billion trade
deficit due to pharmaceutical trade. This clear financial effort to promote access to medicines
intended to avoid morbidity and its consequent hospitalizations. However the government
provides great access to open data about importation as well as healthy systems data, there
is no computerized system that allows us to cross these information in way to establish
that massive pharmaceutical products importation is a valid way to decrease morbidity
and hospitalizations rates. Therefore, in this present study we aim to contribute to better
healthcare of knowledge management in health, applying the Buzeti model, which allows the
discovery of knowledge in public data of the DATASUS and ALICEWeb systems. Initially, the
existing methodologies that enabled the discovery of knowledge were studied, and the Buzeti
model was defined. It should be noted that concepts derived from Knowledge Discovery in
Database (KDD) have been chosen, which allow the extraction of patterns, associations, rules,
clusters and other forms of coding. The following steps were proposed by the Buzeti model:
comprehension those systems, comprehension the open data of these systems, preparing and
modeling the data concerning drug importation and hospital morbidities / hospitalizations.
The crossing of these data generated relevant knowledge to be evaluated by health experts.
Finally the great contribution of this study is the comprehension of KDD methodology
application in producing knowledge from public databases.
Keywords: Knowledge Management. Public Data. Data Mining
Lista de ilustrações
Figura 1 – Modelo adaptado do Ciclo de Gestão do Conhecimento . . . . . . . . . . . . 20
Figura 2 – Técnicas, Ferramentas e Tecnologias da Gestão do Conhecimento . . . . . . . 22
Figura 3 – Métodos e Ferramentas adequadas para a GC . . . . . . . . . . . . . . . . . . 23
Figura 4 – Processo do KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 5 – Termo Gestão do Conhecimento em Saúde . . . . . . . . . . . . . . . . . . . 27
Figura 6 – Organograma MS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 7 – Organograma DATASUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 8 – Observado x Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 9 – Gráficos de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 10 – Observado x Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 11 – Linha de tendência (em branco) . . . . . . . . . . . . . . . . . . . . . . . . . 38
Figura 12 – Séries temporais de temperatura mínima e máxima . . . . . . . . . . . . . . . 39
Figura 13 – Séries temporais com Sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . 39
Figura 14 – Gráfico (a) de uma série Aditiva e Gráfico (b) de uma série Multiplicativa . . 40
Figura 15 – Gráfico (a) sem tedência definida e Gráfico (b) com tendência em queda . . . 41
Figura 16 – Modelo Buzeti para Descoberta de Conhecimento nas Bases de Dados dos
Sistemas ALICEWeb e SIH - SUS . . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 17 – Problemática de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 18 – Tabela recebida do ALICEWeb, consulta por único NCM . . . . . . . . . . . 55
Figura 19 – Tabela recebida do ALICEWeb, consultapor detalhamento de NCM . . . . . 56
Figura 20 – Diagrama de Intersecção das tabelas cap2801062009 e cap2807122009 . . . . 60
Figura 21 – Formato final do Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . 62
Figura 22 – Porcentagem Gastos em Dólar por Capítulo (2009-2015) . . . . . . . . . . . . 63
Figura 23 – Comparativo de gastos em Dólar e Kg importados (2009-2015) - Capítulo 28 64
Figura 24 – Gráfico de correlação de Dólar versus Kg importados (2009-2015) do Capítulo 28 65
Figura 25 – Histograma de Distribuição de Correlações das Mercadorias do Capítulo 28 . 67
Figura 26 – Comparativo de gastos em Dólar e Kg importados (2009-2015) da Mercadoria
Hipocloritos de Sódio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Figura 27 – Comparativo de gastos em Dólar e Kg importados (2009-2015) da Mercadoria
Molibdênio 99 absorvido em alumina apto para a obtenção de Tecnécio 99 . . 69
Figura 28 – Comparativo de gastos em Dólar e Kg importados (2009-2015) - Capítulo 29 70
Figura 29 – Histograma de Distribuição de Correlações das Mercadorias do Capítulo 29 . 71
Figura 30 – Comparativo de gastos em Dólar e Kg importados (2009-2015) - Capítulo 30 72
Figura 31 – Histograma de Distribuição de Correlações das Mercadorias do Capítulo 30 . 73
Figura 32 – Gráfico de sazonalidade das variáveis Dólar e Kg do Capítulo 28 . . . . . . . 75
Figura 33 – Gráfico de teste de melhor método - Previsões para gasto em Dólar - Capítulo 28 76
Figura 34 – Gráfico de previsão utilizando-se do modelo ARIMA para o Capítulo 28 - Dólar 77
Figura 35 – Gráfico de teste de melhor método - Previsões para gasto em Dólar - Capítulo 29 77
Figura 36 – Gráfico de previsão utilizando-se do modelo ETS(ANN) - Capítulo 29 - Dólar 78
Figura 37 – Gráfico de teste de melhor método - Previsões para gasto em Dólar - Capítulo 30 79
Figura 38 – Gráfico de previsão utilizando-se do modelo ETS para Capítulo 30 - Dólar . . 80
Figura 39 – Tela TABNET - Morbidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Figura 40 – Tela TABNET - Opções Morbidades . . . . . . . . . . . . . . . . . . . . . . . 82
Figura 41 – Tela TABNET - filtro das Morbidades . . . . . . . . . . . . . . . . . . . . . . 83
Figura 42 – Cabeçalho Planilha SIH - SUS 1 . . . . . . . . . . . . . . . . . . . . . . . . . 83
Figura 43 – Cabeçalho Planilha SIH - SUS 2 . . . . . . . . . . . . . . . . . . . . . . . . . 84
Figura 44 – Planilhas de Morbidades que foram eliminadas . . . . . . . . . . . . . . . . . 84
Figura 45 – As 10 Morbidades com maior número de internações . . . . . . . . . . . . . 85
Figura 46 – 10 Morbidades com maiores gastos em reais . . . . . . . . . . . . . . . . . . . 86
Figura 47 – 10 morbidades que geram o maior número de óbitos . . . . . . . . . . . . . . 86
Figura 48 – Comparativo de Internações e Óbitos de Pneumonia(2009-06/2016) . . . . . 87
Figura 49 – Comparativo de Internações e Óbitos de Septicemia(2009-06/2016) . . . . . . 87
Figura 50 – Morbidade e Fármacos correlacionados . . . . . . . . . . . . . . . . . . . . . . 88
Lista de tabelas
Tabela 1 – Cadastros Nacionais SUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Tabela 2 – Métodos de Suavização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Tabela 3 – Medidas de cálculo de erro de previsão . . . . . . . . . . . . . . . . . . . . . . 37
Tabela 4 – Revisão Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Tabela 5 – Pacotes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Tabela 6 – Desdobramentos da NCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Tabela 7 – Composição da NCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Tabela 8 – Capítulos abordados pelo presente estudo . . . . . . . . . . . . . . . . . . . . 53
Tabela 9 – Opções das Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Tabela 10 – Capítulos e suas quantidades de mercadorias . . . . . . . . . . . . . . . . . . 58
Tabela 11 – Tabela Semestrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Tabela 12 – Tabela Anuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Tabela 13 – Tabelas de 2009 a 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Tabela 14 – Correlação do produto de momento de Pearson (Dados: Dólar vs Kg) . . . . 65
Tabela 15 – Resumo correlação do produto de momento de Pearson (Dados: Dólar vs Kg) 66
Tabela 16 – Frequência Relativa das Correlações do Capítulo 28 . . . . . . . . . . . . . . 67
Tabela 17 – Frequência Relativa das correlações do Capítulo 29 . . . . . . . . . . . . . . . 71
Tabela 18 – Frequência Relativa das Correlações do Capítulo 30 . . . . . . . . . . . . . . 73
Tabela 19 – Teste de estacionariedade Dólar . . . . . . . . . . . . . . . . . . . . . . . . . 74
Tabela 20 – Teste de estacionariedade Kg . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Tabela 21 – Métodos de Previsão para o Capítulo 28 . . . . . . . . . . . . . . . . . . . . . 76
Tabela 22 – Métodos de Previsão para o Capítulo 29 . . . . . . . . . . . . . . . . . . . . . 78
Tabela 23 – Métodos de Previsão para o Capítulo 30 . . . . . . . . . . . . . . . . . . . . . 79
Tabela 24 – Morbidades e Fármacos relacionados . . . . . . . . . . . . . . . . . . . . . . . 101
Tabela 25 – Morbidades e Fármacos relacionados . . . . . . . . . . . . . . . . . . . . . . . 116
Tabela 26 – Correlação menor que 0.561, entre as variáveis Dólar e Kg das mercadorias do
Capítulo 28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Tabela 27 – Finalidade das mercadorias do Capítulo 28 com correlação menor que 0.561,
entre as variáveis Dólar e Kg . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Tabela 28 – Correlação menor que 0.5811, entre as variáveis Dólar e Kg das mercadorias . 136
Tabela 29 – Finalidade das mercadorias que não possuem correlação significativa - Capítulo
29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Tabela 30 – Tabela correlação entre Dólar e Kg das mercadorias menor que 0.51 do Capítulo
30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Tabela 31 – Finalidade das mercadorias que não possuem correlação significativa - Capítulo
30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Tabela 32 – Produtos farmacêuticos utilizados na prática médica . . . . . . . . . . . . . . 147
Lista de abreviaturas e siglas
ADF Augmented Dickey-Fuller
ALICEWeb Análise das Informações de Comércio Exterior (meio WEB)
AM Aprendizado de Máquina
APO Asian Productivity Organization
BD Bancos de Dados
BH Benjamim Hochberg
BI Business Intelligence
BNDES Banco Nacional de Desenvolvimento Econômico e Social
CADSUS Cadastro de Usuário do SUS
CEPAL Comissão Econômica para a América Latina e o Caribe
CID-10 Classificação Internacional de Doenças e Problemas Relacionados à Saúde
CNES Cadastro Nacional de Estabelecimentos de Saúde
CNES Net cadastro nacional de Estabelecimento de Saúde com dados disponíveis na
Internet
CNS Conselho Nacional de Saúde
CRAN Comprehensive R Archive Network
DATASUS Departamento de Informática do SUS
DeCS Descritores em Ciências da Saúde
DECIT Departamento de Ciência e Tecnologia
DM Data Mining
EGD Estratégia do Governança Digital
ETS ExponenTial Smoothing
FMI Fundo Monetário Internacional
GC Gestão do Conhecimento
GECIS Grupo Executivo do Complexo Industrial da Saúde
GHS Sistema Harmonizado Globalmente para a Classificação e Rotulagem de Pro-
dutos Químicos
IA Inteligência Artificial
IBGE Instituto Brasileiro de Geografia e Estatística
IC Inteligência Competitiva
KDD Knowledge Discovery in Databases
Kg Quilogramas
LaTex Conjunto de macros para o programa de diagramação de textos TeX
MAE Mean absolute error
MAPE Mean absolute percentage error
MASE Mean absolute scaled error
MD Mineração de Dados
ME Meanerror
MSE Mean Squared error
MS Ministério da Saúde
NCM Nomenclatura Comum do Mercosul
OMA Organização Mundial de Aduanas
OMS Organização Mundial de Saúde
OPAS Organização Panamericana de Saúde
PD Pesquisa e Desenvolvimento
PDP Política de Desenvolvimento Produtivo
PESS Pesquisas Estratégicas para o Sistema de Saúde
PIB Produto Interno Bruto
PITCE Política Industrial Tecnológica e de Comércio Exterior
PROFARMA Programa de Apoio à Cadeia Farmacêutica
RMSE Root mean squared error
SBC Sistemas Baseados em Conhecimento
SCNES Cadastro Nacional de Estabelecimentos de Saúde - versão simplificada
SERPRO Serviço Federal de Processamento de Dados
SES Suavização Exponencial Simples
SGC Sistemas de Gestão do Conhecimento
SH Sistema Harmonizado
SIH Sistema de Informações Hospitalares
SISCOMEX Sistema Integrado de Comércio Exterior
SUS Sistema Único de Saúde
TI Tecnologia da Informação
UF Unidade Federal
US$ Dólar Americano
Lista de símbolos
β Beta
e Erro de previsão
α Alpha
Sumário
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Escopo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Revisão da literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1 Gestão do Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Captura e Criação do Conhecimento . . . . . . . . . . . . . . . . 20
2.1.2 Técnicas, Ferramentas e Tecnologias de Apoio à Gestão do Co-
nhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Knowledge Discovery in Database (KDD) . . . . . . . . . . . . . 23
2.1.4 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Gestão do Conhecimento em saúde pública no Brasil . . . . . . . . . . . . 26
2.2.1 Gestão do Conhecimento no Ministério da Saúde . . . . . . . . . 27
2.2.2 Gestão da Informação em Saúde . . . . . . . . . . . . . . . . . . 30
2.3 Fundamentos Estatísticos e Métodos de previsão . . . . . . . . . . . . . . 33
2.3.1 Método ARIMA(1,1,1)(0,0,1) . . . . . . . . . . . . . . . . . . . . 33
2.3.2 Método da ETS (AAdN) . . . . . . . . . . . . . . . . . . . . . . 34
2.3.3 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.4 Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.5 Conjuntos de Treinamento e Teste . . . . . . . . . . . . . . . . . 36
2.3.6 Erros residuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.7 Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4 Revisão Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1 Delineamento da pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1.1 Premissas e conceitos de Gestão do Conhecimento e tecnológicos 46
3.1.2 Modelo para solucionar o problema proposto . . . . . . . . . . . 46
3.1.3 Cruzar e analisar as informações nos dois sistemas, DATASUS e
ALICEWEB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Outras considerações, uso do Pacote R e Latex . . . . . . . . . . . . . . . 48
4 Análise e discussão dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1 Sistema ALICEWeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Sistema DATASUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3 Análise e interpretação do cruzamento das informações nos sistemas DA-
TASUS e ALICEWeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Apêndices 100
1 Apêndice I - Tabela com as Morbidades e seus respectivos fármacos que acusaram
correlação significativa para tempos iguais (Morbidades ocorridas em Janeiro/2009
comparando com importações ocorridas em Janeiro/2009) . . . . . . . . . . . . . 101
2 Apêndice II - Tabela com as Morbidades e seus respectivos fármacos que acu-
saram correlação significativa para tempos diferentes (Morbidades ocorridas em
Junho/2009 comparando com importações ocorridas em Janeiro/2009) . . . . . . 116
3 Apêndice III - Mercadorias com baixa correlação do Capítulo 28 . . . . . . . . . 129
4 Apêndice IV - Finalidade das Mercadorias com baixa correlação do Capítulo 28 . 131
5 Apêndice V - Mercadorias com baixa correlação do Capítulo 29 . . . . . . . . . . 132
6 Apêndice VI - Finalidade das Mercadorias com baixa correlação do Capítulo 29 . 136
7 Apêndice VII - Mercadorias com baixa correlação do Capítulo 30 . . . . . . . . . 140
8 Apêndice VIII - Finalidade das Mercadorias com baixa correlação do Capítulo 30 142
Anexos 145
1 Anexo I - Relatório de análise das correlações entre morbidades e mercadorias
(fármacos), realizada por profissionais da área da saúde . . . . . . . . . . . . . . 146
14
1 Introdução
Ao longo das mudanças econômicas mundiais, os tradicionais fatores de produção - traba-
lho, capital e terra - vêm adquirindo importância secundária. Em oposição, o fator conhecimento
torna-se, cada vez mais, o principal recurso das organizações (DRUCKER; DRUCKER, 1994).
Ou seja, o diferencial competitivo entre as organizações passa a ser o conhecimento que possuem.
A área de Gestão do Conhecimento (GC) tem como objetivo oferecer suporte às organizações
na gestão desse novo e principal ativo. Esse suporte é feito por meio de princípios, práticas e
ferramentas de GC. Nesse contexto, pode-se afirmar que a GC é utilizada no auxílio à tomada
de decisão, como ferramenta de apoio na busca contínua pela inovação e, principalmente, para
adquirir uma vantagem competitiva no mercado em que atuam (DALKIR, 2005).
Essa corrida pela inovação e a consequente incorporação do conhecimento nos produtos
gerados classificam os setores industriais em quatro níveis de intensidade tecnológica: alta, meia-
alta, meia-baixa e baixa. Uma das formas de identificar tais segmentos é por meio da análise da
média de gastos em Pesquisa e Desenvolvimento (PD) sobre o faturamento. Esse gasto é um dos
parâmetros que define a intensidade tecnológica de cada setor industrial, pois aumenta o nível de
conhecimento incorporado aos produtos (ZAWISLAK et al., 2013).
Um dos segmentos industriais classificado como sendo de alta intensidade tecnológica é
o farmacêutico. Por meio de seu contínuo esforço inovador, esse segmento gera externalidades
do conhecimento, tanto tácito como explícito. Essas externalidades, mediante a produção de
novos conhecimentos, colaboram para o desenvolvimento do país e afetam a balança comercial
com as outras nações. No caso brasileiro, a balança comercial relacionada a produtos químico-
farmacêuticos apresentou um déficit contínuo entre o Brasil e o mundo. Nos dados referentes às
transações exteriores (importação/exportação) de fármacos, observa-se que, no ano de 2005, o
Brasil importou 3,31 bilhões de dólares. Já no ano de 2011 houve um salto, e o Brasil importou 9,50
bilhões de dólares (INTERFARMA, 2012). Todos os dados de importação e exportação do Brasil
são registrados no Sistema ALICEWeb, do Ministério da Indústria e Comércio. Considerando
apenas o viés financeiro, a relação entre os gastos em medicamentos e o quanto estão adentrando
no mercado interno brasileiro merece ser analisada. Não só por esse viés é necessária a análise,
mas também pelo viés social, mais precisamente, o quanto tal esforço financeiro produz de
bem-estar social.
O bem-estar social provocado pela indústria farmacêutica está vinculado ao acesso a
medicamentos que a populaçãoda nação possui. Esse acesso pode evitar morbidades, que é a
taxa de portadores de determinada doença em uma população e, consequentemente, podendo
também evitar procedimentos de internações (SAÚDE, 2005). Ou seja, quadros clínicos, que
poderiam ser controlados ambulatoriamente, apenas com medicamentos, tornam-se casos de
internação, aumentando os gastos públicos de saúde. No Brasil, esses gastos públicos e outras
informações em saúde, como dados relativos a morbidades, medicamentos, internações e outros,
estão disponíveis para acesso na base de dados do DATASUS. A Organização Mundial de Saúde
(OMS) e a Organização Panamericana de Saúde (OPAS) consideraram, conforme documento
enviado ao MS, que o conjunto de informações sobre saúde hoje disponível no DATASUS
é um dos mais completos existentes no mundo (SUS, 2002). Apesar desse reconhecimento
15
internacional pela grande quantidade de dados brutos, os sistemas do DATASUS e do ALICEWeb
podem ser enquadrados no que Han et al.(2011) descreve como sendo "rico em dados, pobre em
conhecimento".
Os gestores de saúde precisam utilizar os dados e as informações como "recursos"para
a tomada de decisão. O grande volume de dados e informações disponíveis na área poderia se
tornar um grande aliado para os gestores. Dados e informações são convertidos em conhecimento,
ativo essencial para melhoria dos sistemas e das organizações. No entanto, mesmo com todos os
esforços e investimento em tecnologias, há ainda um longo caminho para percorrer na busca pela
excelência em gestão em saúde. Pinheiro et al. (2016) afirma que o Sistema de Informação em
Saúde "ainda não atinge todo o seu potencial, pois é usado de maneira incipiente pela gestão da
saúde para o processo decisório". Assim, o desafio em prestar serviços de saúde de qualidade à
população brasileira pode ter a GC como aliada. Todos os recursos, principalmente os de base
tecnológica, podem ser utilizados com a finalidade de melhorar o sistema de saúde pública.
A gestão eficaz do conhecimento pode ser feita por meio do uso da tecnologia da informação.
Apenas acumular os dados não significa realizar a Gestão do Conhecimento. É necessário aplicar
métodos desenvolvidos no campo da inteligência artificial. A Inteligência Artificial (IA) é um
termo geral que implica o uso de um computador para modelar o comportamento inteligente com
a mínima intervenção humana (HAMET; TREMBLAY, 2017). Muitas das técnicas de captura
de conhecimento derivam de técnicas que foram, originalmente, usadas na inteligência artificial -
mais especificamente no desenvolvimento de sistemas especializados (DALKIR, 2005). Uma das
aplicações da inteligência artificial é por meio do Knowledge Discovery in Database(KDD).
O KDD pode ser definido como um processo não trivial de identificação de padrões
a partir de dados, sendo que esses padrões devem ser potencialmente úteis e compreensíveis
(FAYYAD et al., 1996). Como um processo, o KDD possui diversas etapas e, dentre essas etapas, a
de mais importância é o Data Mining(DM). A extração do conhecimento a partir de determinada
fonte de dados é realizada na etapa do DM, ou Mineração de Dados. Nessa etapa são utilizadas
técnicas e/ou modelos estatísticos e de IA para realizar a criação do conhecimento.
Assim, devemos considerar três situações para a construção da problemática deste
estudo. A primeira situação que devemos considerar é que o maior custo para o SUS está nas
internações ambulatoriais. A segunda situação é que dentro de uma população que possui acesso
a medicamentos ocorre a diminuição de internações. A terceira situação é que o Brasil possui dois
bancos de dados públicos, com décadas de registro, sendo um o ALICEWeb e o outro o DATASUS.
O ALICEWeb com todas as importações e exportações registradas, inclusive de medicamentos,
e o DATASUS, uma das bases de dados mais ricas do mundo, onde estão registrado todos os
procedimentos, inclusive internações ocorridas nas últimas décadas. A partir dessas premissas,
foi levantado o seguinte problema de pesquisa: as importações de medicamentos influenciam as
quantidades de internações ocorridas no país?
1.1 Objetivos
O presente estudo tem por objetivo geral a criação do conhecimento, utilizando as técnicas
do KDD e tendo como fonte de dados os sistemas DATASUS e ALICEWeb. A partir da definição
16
do objetivo geral, temos os seguintes objetivos específicos:
• Definir os principais conceitos de Gestão do Conhecimento, Inteligência Artificial, KDD e
Mineração de Dados;
• Estudar a Gestão do Conhecimento na saúde pública no Brasil, mais especificamente, os
sistemas ALICEWeb e DATASUS;
• Propor um modelo de KDD para o problema de pesquisa;
• Discutir e analisar os resultados da criação de conhecimento a partir das bases de dados
utilizadas;
• Realizar previsões de importação de fármacos para meses futuros.
1.2 Justificativa
O estudo do fenômeno de importação de medicamentos e seus reflexos na saúde pública
é estratégico para o Brasil. O alto custo financeiro ao país, representado por um déficit de
2,155 bilhões em 2014, e o orçamento do SUS de R$ 118,5 bilhões, apenas em 2015 (BRASIL,
2016), já justificariam tal estudo. Além disso, a incorporação do conhecimento nos produtos
gerados e os reflexos no bem-estar social da população devem ser levados em consideração para
justificar a importância do estudo. Com números de tamanha expressão e considerando o aspecto
humanístico que envolve a saúde, há a necessidade de profissionalizar quadros técnicos e adotar
o apoio de processos eficazes, como, por exemplo, a Gestão do Conhecimento.
A GC incorporou uma série de ferramentas de base tecnológica. Uma dessas ferramentas
é a Mineração de Dados. Com décadas de registros, os dois sistemas considerados neste estudo, o
ALICEWeb e o DATASUS, possuem características, principalmente em relação ao volume de
dados, que justificam a utilização da mineração de dados para a criação de novos conhecimentos.
Esses conhecimentos podem ser gerados tanto a partir dos dados individuais de cada uma das
bases, assim como do cruzamento dessas duas bases. A partir dessa premissa, é possível criar um
modelo de KDD, específico para essas bases de dados.
1.3 Escopo
Com relação ao presente estudo, na Revisão da literatura será realizada a fundamentação
teórica de todos os conceitos que serão utilizados neste trabalho: Gestão do Conhecimento, KDD,
DM, Gestão do Conhecimento em Saúde Pública no Brasil, Fundamentos Estatísticos e Métodos
de previsão e, por fim, uma Revisão Sistemática de trabalhos relacionados ao tema em questão.
Na sequência, na Metodologia, serão apresentados o delineamento da pesquisa, a proposta de um
modelo para solucionar este problema e o uso do Pacote R e do Latex nessa solução. Após, serão
apresentadas a análise e a discussão dos resultados deste estudo, isto é, a aplicação do modelo
nos sistemas ALICEWeb e DATASUS; a análise e a interpretação do cruzamento das informações
nesses sistemas; e as considerações finais sobre este estudo. Ao final, serão apresentadas as
Conclusões finas, com indicação dos trabalhos futuros.
17
2 Revisão da literatura
A área de saúde tem como característica relevante a grande produção de dados com
considerável complexidade. Essa característica pode ser explorada de forma mais eficiente
por meio da captura e da criação do conhecimento. Salienta-se que isso permite melhorar
tanto o entendimento do ambiente de atuação como a tomada de decisão. O presente estudo
objetiva aplicar o conhecimento advindo da Gestão do Conhecimento, mais especificamente da
criação de novos conhecimentos, para contribuir com a melhora da gestão da informação em
saúde, aplicando metodologia de descoberta de conhecimento em dados públicos dos sistemas
DATASUS e ALICEWeb. Este Capítulo apresenta os fundamentos teóricos necessários para
melhor entendimento da criação de novo conhecimento.
2.1 Gestão do Conhecimento
O conceito de conhecimento é expresso pelo intercâmbio entre dados, informação e
conhecimento. Schreiber (2000) define esSes termosda seguinte forma:
• Dados são os sinais ainda não interpretados que atingem os nossos sentidos;
• Informações são os dados equipados com algum significado;
• Conhecimento é todo o corpo de dados e informações que as pessoas trazem para suportar
a utilização prática em ação, a fim de realizar as tarefas e criar novas informações;
A composição entre dados e informações gera o conhecimento. Atualmente, segundo Paton
et al. (2015), a informação e o conhecimento são as armas mais competitivas para as empresas.
Sendo assim, o acúmulo do conhecimento de qualidade proporciona um diferencial competitivo
dentro do mercado em que atuam. Pode-se ainda dizer que o conhecimento fomenta e alavanca a
inovação, que é o processo de reinvenção do negócio ou dos produtos. O conhecimento pode ser
criado, compartilhado e aplicado por meio de pesquisas, insights, observações, repositórios, troca
de experiências e outros, que compõem o arcabouço do registro e o aprendizado organizacional.
O conhecimento presente nas organizações, pode ser classificado de duas maneiras:
• Tácito: é o conhecimento pessoal, intrínseco, o know-how, difícil de articular e também
difícil de colocar em palavras, em texto ou em desenhos. Segundo Dhanaraj et al. (2004),
o conhecimento tácito é definido como o conhecimento não verbalizável, intuitivo e não
articulável. Outra definição de conhecimento tácito é o "que existe na mente das pessoas e,
além de ser peculiar, cada indivíduo tem o seu modelo mental distinto, pois as experiências
são diferenciadas"(COSTA, 2009, pg. 29).
• Explícito: como o próprio nome evidencia, é o conhecimento codificado, estruturado e
representa o conteúdo que foi capturado em alguma forma tangível, como palavras, gravações
de áudio, imagens e outros (DALKIR, 2005).
Portanto, o conhecimento tornou-se um dos maiores, se não o maior, ativos de uma
organização. E, como qualquer ativo, as empresas precisam de estratégias, políticas e ferramentas
18
para gerenciá-lo. A Gestão do Conhecimento (GC) tem como objetivo auxiliar as organizações
no trato desse ativo. Uma das definições propostas para GC é:
A Gestão do Conhecimento é a coordenação deliberada e sistemática das
pessoas, tecnologia, processos e estrutura organizacional para agregar valor através
da reutilização e inovação. Esta coordenação é conseguida através da criação, com-
partilhamento e aplicação do conhecimento, bem como através da alimentação das
valiosas lições aprendidas e as melhores práticas para a memória corporativa, a fim de
promover a aprendizagem organizacional continuada (DALKIR, 2005, pg. 3).
A GC também é definida por Gray (1996) como uma abordagem colaborativa e inte-
grada para a criação, a captura, a organização, o acesso e o uso dos bens intelectuais de uma
empresa. Takeuchi e Nonaka (2009) definem a GC como criação de conhecimento, em que o
conhecimento individual é traduzido e transformado em conhecimento organizacional, gerando
vantagem competitiva. Para Mcinerney (2002, p. 1008), a "Gestão do Conhecimento é um
esforço para aumentar o conhecimento útil dentro da organização. Através do encorajamento
da comunicação, oferecendo oportunidades para aprender e promover o compartilhamento de
artefatos de conhecimento apropriados".
Conforme Baskerville e Dulipovici (2006), a Gestão do Conhecimento é multidisciplinar e
está construída sobre fundamentos teóricos de economia da informação, gestão estratégica, gestão
por competência, cultura organizacional, comportamento organizacional, estrutura organizacional,
inteligência artificial, gestão da qualidade, medição de desempenho organizacional, entre outros.
Portanto, pode-se dizer que a Gestão do Conhecimento possui uma abordagem holística, com
uma visão ampla e sistêmica da organização, o que significa ter, em uma única imagem, todos os
elementos que formam a estrutura organizacional.
Com tamanha importância para o mundo dos negócios, a necessidade de gerir o conhe-
cimento é óbvia e de característica complexa. Observa-se a complexidade da GC a partir dos
ciclos que a formam, os quais são a captura (criar e recuperar), o compartilhamento (disseminar)
e a aplicação (utilizar) do conhecimento na organização (DAVILA et al., 2014). Tais ciclos, se
devidamente implantados e maturados dentro de uma organização, fomentam a excelência no
negócio, haja vista que o conhecimento registrado e compartilhado resulta na diminuição de erros
cometidos, colabora com a eficiência, com a produtividade e com o processo de inovação.
Na literatura, são descritos diversos ciclos para a Gestão do Conhecimento (GC), os mais
conhecidos são os ciclos de Meyer e Zack (1996), de Bukowitz e Williams (2000), de McElroy
(2003), e de Wiig (1993). Com base nesses ciclos, Dalkir (2005) concebe um ciclo da GC integrado,
representado na Figura 1.
Observa-se que o conteúdo do conhecimento é avaliado entre as fases de "Captura e
criação do conhecimento" e "Compartilhamento e disseminação do conhecimento". Na sequência,
o conhecimento é então contextualizado, a fim de ser entendido (aquisição) e utilizado (aplicação).
Em seguida, é realimentado o primeiro ciclo, por meio da "Captura e criação do conhecimento",
a fim de atualizar os conhecimentos captados. Essas fases, então são, responsáveis por:
19
Figura 1 – Modelo adaptado do Ciclo de Gestão do Conhecimento
Fonte: (DALKIR, 2005)
• Captura e Criação: identificação e codificação de conhecimento interno da organização e/ou
conhecimento a partir de ambiente externo;
• Compartilhamento e Disseminação: realizar a contextualização de conteúdo. Fazer a junção
entre o conhecimento e as pessoas;
• Aquisição e Aplicação: após a avaliação do conhecimento e tendo sido considerado como
importante, é armazenado nas práticas da organização.
Este estudo foca na primeira fase, isto é, captura e criação do conhecimento nas organiza-
ções, utilizando ferramentas tecnológicas que permitam trabalhar com grandes volumes de dados.
É importante salientar que GC não é apenas sobre tecnologia, mas sim uma série de atividades
complexas, e é formada por um conjunto de bases, tais como: tecnologia, processos e pessoas, as
quais dão a sustentação para o desenvolvimento da GC (SERVIN; BRUN, 2005). No entanto,
em função da captura e da criação do conhecimento estarem ligadas à inovação e a melhoria na
competitividade, é importante o desenvolvimento de seus aspectos.
2.1.1 Captura e Criação do Conhecimento
Conforme Nonaka (1994), a criação de conhecimento envolve o desenvolvimento de novos
conhecimentos ou a substituição dos conhecimentos existentes por novos conteúdos. Já Dalkir
(2005) considerada a captura e a criação do conhecimento como a primeira fase do ciclo da GC.
Conforme Figura 1, a criação do conhecimento é o processo pelo qual o conhecimento tácito é
capturado ou provocado, e o conhecimento explícito é organizado ou codificado.
A captura refere-se à identificação e à subsequente codificação do conhecimento interno
existente (normalmente inédito) dentro da organização e/ou a um conhecimento de origem
externa ao ambiente. Já a criação de conhecimento é o desenvolvimento de novos conhecimentos
e know-how (inovações que não tinham uma existência prévia dentro da empresa) (DALKIR,
2005).
20
Há muitas maneiras de criar novos conhecimentos. No nível individual, o conhecimento
é criado por meio das atividades do aprender fazendo, da resolução de problemas em comum
ou de brainstorming das atividades realizadas. No departamento ou no nível organizacional,
por meio dos processos de inovação dentro dos departamentos de Pesquisa e Desenvolvimento
ou mediante a compra ou fusão com outras empresas (NAIR et al., 2009). Obviamente, não é
qualquer conhecimento que é útil para a organização.
O novo conhecimento deve agregar valor ao negócio, colaborando com a aprendizagem
organizacional, reduzir custos e poder utilizá-lo no processo decisório. A utilidade do novo
conhecimento pode ainda ter diversos interessados. Pode ser útil para o indivíduo, apenas para
um setor ou para a organizaçãocomo um todo. Pode ainda ser útil para todo um sistema
complexo como, por exemplo, o sistema de saúde de um país de dimensões continentais e cujo
acesso à saúde é um direito de milhões de cidadãos, como é o caso do Brasil. A utilidade é
reconhecida por tornar o conhecimento um recurso para o planejamento de ações inteligentes e
eficazes para os interessados (MOYA et al., 2009).
A criação do conhecimento pode ser ainda a partir de um pequeno volume de dados e ser
também de grande utilidade. O Staff da seleção brasileira olímpica de futebol analisou os possíveis
batedores de pênalti da Alemanha prevendo uma eventual disputa na final das Olimpíadas 2016.
Um dos analisados foi o jogador Petersen. Dispunham de 8 penalidades convertidas pelo jogador,
ou seja, dispunham de 8 variáveis. Constataram que dos oito pênaltis analisados, o jogador
converteu quatro no canto esquerdo e os outros quatro no canto direito, o que, a princípio, não
trouxe nenhuma vantagem competitiva. No entanto, em uma análise mais detalhada, viram
que, quando o jogo era de maior importância, ele batia forte do canto esquerdo, e quando o
jogo era de menor importância, mudava de lado (BRUM, 2016). A partir de uma análise de um
conhecimento explícito (vídeos), extraíram um conhecimento implícito (canto) e o conhecimento
foi compartilhado com o goleiro brasileiro, tornando tácito. Tal criação do conhecimento foi, se
não o principal, o último capítulo para a conquista da inédita medalha de ouro olímpica para o
futebol. Apesar de existir a criação de novos conhecimentos a partir de pequenas bases de dados,
esta é uma exceção. Vivemos em um era digital, na qual o volume de dados é imenso, crescente e
de difícil análise.
Considerando esse grande volume de dados e informações que são produzidos pelas
organizações, a criação, o compartilhamento e a disseminação do conhecimento tornam-se
impossíveis sem o auxílio de ferramentas tecnológicas. Para a extração do conhecimento, é
necessária a identificação dos repositórios organizacionais e das habilidades inerentes a cada
um (DEMARCHI et al., 2011). Assim, para dar suporte à criação do conhecimento, surgem as
técnicas, ferramentas e tecnologias de apoio à GC.
2.1.2 Técnicas, Ferramentas e Tecnologias de Apoio à Gestão do Conhecimento
Os repositórios com informações não estruturadas, como as redes sociais ou asWiki’s, são
formados por textos e, consequentemente, não são construídos de uma forma idêntica, sequencial
e separada. Por outro lado, os repositórios com conteúdos estruturados, representados pelos
bancos de dados, são formados por uma estrutura organizada, sequencial e de menor dificuldade
21
para manipulá-los.
O registro computacional de dados está ocorrendo há décadas e, justamente esses re-
gistros, formam os bancos de dados (BD). Esse produto da informação tornou-se um ativo
estratégico para as organizações, que necessitam desse registro para o conhecimento, para a
organização e para a administração do negócio. Os BD, inicialmente, são utilizados para acessar
conhecimentos dedutivos. No entanto, com o desenvolvimento de ferramentas computacionais,
criou-se a possibilidade de se ter acesso não apenas a esses conhecimentos explícitos, mas também
a conhecimentos implícitos, que estão ocultos nessa imensidão de dados. Nesse contexto, surge o
KDD e sua etapa de Mineração de dados (Data Mining). Segundo Dalkir (2005), as principais
ferramentas, técnicas e tecnologias de GC em uso atualmente são exibidas na Figura 2:
Figura 2 – Técnicas, Ferramentas e Tecnologias da Gestão do Conhecimento
Fonte: (DALKIR, 2005)
O processo de Gestão do Conhecimento contempla toda a forma de geração, armazena-
mento, distribuição e utilização do conhecimento. Segundo Dalkir (2005), muitas ferramentas e
técnicas são "emprestadas" de outras disciplinas, e outras são específicas para a GC. Conforme a
Figura 2, observa-se que as Técnicas, as Ferramentas e as Tecnologias são separadas por fases
da GC. O Data Mining é destacado na fase de criação e captura do conhecimento. Uma outra
observação que deve ser destacada é que a Inteligência Artificial, que consta na fase de aquisição
e aplicação do conhecimento, está também ligada em vários processos do Data Mining.
Ainda destacando o Data Mining na GC, a Asian Productivity Organization (APO)
(NAIR et al., 2009) organizou um guia simples e abrangente, no qual aborda todos os elementos
relevantes de uma solução para a Gestão do Conhecimento. Esse guia serve como referência para
22
todos os tipos de organização que têm como objetivo melhorar seu desempenho utilizando-se da
GC. Nesse guia, são citadas muitas tecnologias de GC, que continuam a surgir rapidamente, tais
como apresentetadas na Figura 3:
Figura 3 – Métodos e Ferramentas adequadas para a GC
Fonte: (NAIR et al., 2009) - APO
Especificamente no processo de criação do conhecimento é citada a ferramenta do Data
Mining, corroborando com Dalkir (2005). No âmbito da gestão pública brasileira, Batista (2012),
por meio do livro "Modelo de Gestão do Conhecimento para a Administração Pública Brasileira",
cita o Data mining como "ferramenta de TI para apoio à GC - os mineradores de dados são
instrumentos com alta capacidade de associação de termos, permitindo-lhes "garimpar"assuntos
ou temas específicos".
A utilização eficiente de ferramentas e de técnicas computacionais para lidar com conheci-
mento é essencial e, conforme a Figura 2 e a Figura 3, está presente em todos os ciclos da GC. Isso
evidencia que administrar o conhecimento significa, inicialmente, armazenar esse capital. Esse
armazenamento, em tempos atuais, requer disponibilizá-los em repositórios de dados, informações
e conhecimentos. Liebowitz e Beckman (1998) definem repositório como um armazém baseado
em computador on-line de especialização, conhecimento, experiências e documentação sobre um
determinado domínio de especialização.
2.1.3 Knowledge Discovery in Database (KDD)
A partir da necessidade de análise, de maneira não tradicional, de grandes quantidades
de dados, surge o conceito do Knowledge Discovery in Databases (KDD). O KDD pode ser
compreendido como um processo com o objetivo de descobrir padrões, grupos, falhas, tendências
23
e/ou outros conhecimentos relevantes, por meio da análise de grandes conjuntos de dados, tendo
como principal etapa a Mineração de Dados (FAYYAD et al., 1996). Segundo Tuomi (1999)
o caminho para o conhecimento é hierárquico, vendo os dados como um pré-requisito para a
informação e a informação como pré-requisito para o conhecimento. Assim, a saúde pública
brasileira é um campo que oferece grandes possibilidades de aplicação do conceito do KDD, haja
vista a grande quantidade de dados que são produzidos em todo o território nacional. Esses dados
necessitam de Sistemas Baseados em Conhecimento (SBC) para sua análise e transformação
em conhecimento. Wu e Wang (2006) comentam que grande parte dos investimentos em GC é
voltada aos Sistemas de Gestão do Conhecimento (SGC), ferramentas baseadas na Tecnologia
da Informação (TI) capazes de suportar os processos da GC, que contemplam a criação do
conhecimento.
O KDD é constituído de três principais fases: pré-processamento, mineração de dados e
pós-processamento (interpretação/avaliação) (REZENDE, 2003). A Figura 4 ilustra o fluxo do
processo do KDD:
Figura 4 – Processo do KDD
Fonte: (FAYYAD et al., 1996)
Conforme a Figura 4, o KDD é um processo interativo que é utilizado, basicamente,
para transformar dados brutos em conhecimento útil (GOEBEL; GRUENWALD, 1999). A
mineração de dados é um dos passos mais importantes do processo de descoberta de conhecimento
em bases de dados e é considerada como subcampo significativo na gestão do conhecimento
(SILWATTANANUSARN; TUAMSUK, 2012). No entanto, há outras fases que também fazem
parte do KDD, conforme segue.
I Seleção de dados
A seleção dos dados é a primeira etapa no processo de KDD. Nessa fase é escolhido o
conjunto de dados, com suas variáveis, atributos e registros. As fontes para a seleção podem vir
24em diferentes formatos, como data warehouses, planilhas e sistemas.
II Pré-processamento e limpeza
O Pré-processamento e a limpeza dos dados trabalham com a qualidade dos dados,
eliminando os dados redundantes, inconsistentes, recuperando dados incompletos e avaliando
dados discrepantes (outliers).
III Transformação dos dados
Para que as rotinas e os algoritmos possam ser aplicados, os dados, após terem passado
pelas fases anteriores, necessitam ser armazenados e formatados corretamente. A transformação
pode ocorrer na forma de planilhas para banco de dados, ou mesmo banco de dados para séries
temporais. Problemas com formatação de moedas e datas locais também aparecem nesta fase.
IV Mineração de dados
Por se tratar da fase de maior importância, há uma seção específica para abordar a
Mineração, a qual está disponível na seção 2.1.4.
V Interpretação e avaliação
Nesta fase, há a necessidade da participação de um especialista no assunto em questão.
A participação do especialista será na interpretação e na avaliação do conhecimento produzido.
Caso o resultado não seja satisfatório o processo pode retornar a qualquer um dos estágios
anteriores ou ser recomeçado (PRASS, 2007), conforme pode ser observado na Figura 4.
Especificamente neste estudo, focar-se-á em uma das fases do KDD, que também é
considerada uma ferramenta da Gestão do Conhecimento, a Mineração de dados ou Data Mining,
conforme seção a seguir.
2.1.4 Mineração de Dados
Considerada a principal fase do KDD, a Mineração de Dados (MD) é a etapa em que
ocorre a descoberta de novos conhecimentos em base de dados de grande volume. A MD infere e
estuda dados em estruturas complexas. O resultado dessa aferição e desse estudo é a descoberta
de novos conhecimentos, de caráter não trivial e indutivo. As principais técnicas da MD são:
análise de cluster, árvores de decisão, redes neurais, indução de regras, algoritmos genéticos e
aprendizado baseado em casos (LEMOS et al., 2005).
Nas técnicas da MD, são utilizados conceitos de estatística, inteligência artificial e
Aprendizado de Máquina (AM). De acordo com Feigenbaum (BARR, 1981 apud FERNANDES,
2005), Inteligência Artificial é a parte da ciência da computação voltada para o desenvolvimento
de sistemas de computadores inteligentes, os quais se relacionam com a inteligência do homem.
Já o Aprendizado de Máquina, segundo Michalski et al. (2013), é um programa que aprende e que
melhora seu desempenho como consequência da experiência em uma determinada prática. Mais
especificamente, o AM é uma subdivisão da Inteligência Artificial (SILVA; VANDERLINDE,
25
2012). Na área da saúde, com grandes volumes de dados sendo armazenados, por meio da
iniciativa privada e de unidades públicas, o AM pode ter diversas aplicações. Duas dessas podem
ser na análise de prontuários eletrônicos para emissão de alertas de epidemias e na elaboração de
scores para riscos de saúde. O AM difere dos métodos estatísticos tradicionais principalmente
em função dos conceitos de intervalos de confiança e erros padrões. O foco maior da AM é
a praticidade, encontrar o que funciona, sem se preocupar com as características formais dos
modelos estatísticos. Na elaboração de um modelo de AM que funcione bem para uma amostra
X, é importante também aplicá-lo para uma amostra Y. O objetivo é verificar se está ajustado
para o novo conjunto de dados. Essa é uma das maneiras para aferir a qualidade de um modelo
de AM (CHIAVEGATTO, 2016).
Essa possibilidade de funcionar muito bem para uma amostra e não acontecer o mesmo
para uma outra caracteriza uma das limitações da AM. Esse problema é conhecido como
tendência de sobreajuste. Outra possível limitação do uso do AM é a possibilidade de acentuar
as desigualdades. Tal fato decorre da possibilidade de existirem algoritmos tendenciosos.
Na etapa de MD, as associações espúrias são objetos de preocupação. Essas associações
possuem resultados estatisticamente significantes, mas não têm sentido causal. O problema de
fazer associações de um grande número de variáveis é que, inevitavelmente, aparecem associações
espúrias. Estas são associações que apresentam significância, mas que não fazem sentido, ou seja,
é uma questão puramente de coincidência. Portanto, associação não é causalidade e por isso a
necessidade de utilizar-se de metodologias causais, como: Regressão descontínua, Diferenças em
diferenças, Propensy score, Variáveis instrumentais, Randomização medeliana.
Uma outra alternativa é a análise do nível de significância. O nível de significância
aceitável na estatística, para um único teste de hipótese, é de 5%. No entanto, quando são
realizados centenas de testes, o ideal é ajustar o nível de significância pelo número total de testes.
Isso é justificado pelo fato de se ter uma alta probabilidade de rejeitar incorretamente uma
hipótese nula (CHIAVEGATTO, 2016). Uma solução para essa questão é utilizar a taxa de falsas
descobertas, que é a cota esperada de testes considerados significantes em que a hipótese nula é
verdadeira. O objetivo é manter uma proporção de hipóteses nulas verdadeiras, consideradas
estatisticamente significantes, abaixo de um limiar. Como solução, é necessário ranquear os
p-valores e encontrar o limiar por meio do procedimento de Benjamim Hochberg (BH).
Outra forma de extrair conhecimento dentro de base de dados mediante a identificação
de padrões semelhantes, ou grupos, ou clusters. O objetivo do agrupamento é colocar os registros
em grupos, de tal forma que os registros de um grupo sejam similares aos demais do mesmo
grupo e diferentes daqueles dos demais grupos (ELMASRI et al., 2005, p. 651). A utilização de
clusters é estratégica para definir a forma de atuação para cada grupo descoberto, seja qual for a
área envolvida.
2.2 Gestão do Conhecimento em saúde pública no Brasil
A Gestão do Conhecimento possui diversas definições e entendimentos, podendo ser
implementada nas mais diversas áreas. Na área da saúde, de acordo com os Descritores em
Ciências da Saúde (DeCS) (SAÚDE, 2017a), o termo "Gestão do Conhecimento" possui a seguinte
26
definição:
Figura 5 – Termo Gestão do Conhecimento em Saúde
Fonte: DeCS
Como observado na Figura 5, a sucinta definição do termo "Gestão do Conhecimento"
na saúde nos leva ao conhecimento tácito, por meio da expressão "sabedoria coletiva", cujo
aproveitamento está ligado à capacidade de resposta e inovação. Possui ainda vínculos com as
áreas de economia, estatística e dados numéricos.
É evidente a importância da GC que, corretamente implantada, produz vantagem compe-
titiva, vantagem esta que se explicita, por exemplo, por meio da inovação e da produtividade. Na
área da saúde, a GC gera também os benefícios abordados anteriormente, mas com um diferencial
de importância: contribui para a saúde e, consequentemente, para com a vida do indivíduo. Essa
contribuição, como produto final, de viés humanístico, coloca a GC aplicada à saúde como um
campo prioritário na pesquisa científica e de atenção relevante no campo administrativo público.
Por meio de estruturas administrativas, estruturas virtuais, conferências, congressos e outros, a
GC na saúde se desenvolve e está se tornando política de estado. O Ministério da Saúde no Brasil
utiliza-se da GC em saúde, assim como a Organização Pan-Americana da Saúde e a Organização
Mundial da Saúde, que são as instituições que alavancam a GC em saúde no mundo.
2.2.1 Gestão do Conhecimento no Ministério da Saúde
O Ministério da Saúde (MS) possui o maior orçamento anual dentre os ministérios
brasileiros, sendo que, em 2016, foi de R$ 118, 5 bilhões. Com a função de oferecer condições
para a promoção, a proteção e a recuperação da saúde da população do Brasil, necessita explorar
27
todos os recursos para tornar mais eficiente sua gestão. Dentre esses recursos, está a Gestão
do Conhecimento. A discussão sobre GC em saúde pode ser feita a partir da descrição da
Missão (SAÚDE, 2017b) que o Ministério da Saúde brasileiro adota: "Promover a saúde da
população mediante a integração e a construçãode parcerias com os órgãos federais, as unidades
da Federação, os municípios, a iniciativa privada e a sociedade, contribuindo para a melhoria da
qualidade de vida e para o exercício da cidadania".
Para cumprir tal missão, o Ministério da Saúde possui oito assuntos de competência, dos
quais destacamos: i) Informações de saúde e ii) Pesquisa científica e tecnológica na área de saúde.
A partir dessas competências, analisamos a estrutura administrativa do Ministério, conforme
organograma continda na Figura 6 (página 28):
Figura 6 – Organograma MS
Fonte: Ministério da Saúde
Observando a missão e interpretando o organograma apresentado na Figura 6, o termo
"Gestão do Conhecimento" ainda não aparece registrado. No entanto, no organograma, consta
a Secretaria de Ciência, Tecnologia e Insumos Estratégicos que possui em sua hierarquia o
Departamento de Ciência e Tecnologia (DECIT) (indicado pela seta). Acessando o site do DECIT
(DECIT, 2017), surgem as primeiras referências à GC, através da descrição da função do DECIT:
O Departamento de Ciência e Tecnologia (Decit/SCTIE/MS) coordena a
formulação, implementação e avaliação da Política Nacional de Ciência, Tecnologia e
Inovação em Saúde (PNCTIS), da Agenda Nacional de Prioridades de Pesquisa em
28
Saúde (ANPPS) e das Pesquisas Estratégicas para o Sistema de Saúde (PESS). Propõe
a execução das ações no campo da Pesquisa e Desenvolvimento em Saúde. Atua no
processo de gestão do conhecimento em Ciência e Tecnologia em Saúde visando à
utilização do conhecimento científico e tecnológico em todos os níveis de gestão do
SUS...
Além de constar na descrição da função do DECIT, consultando as competências de todos
os órgãos que compõem a estrutura do Ministério da Saúde, o termo "Gestão do Conhecimento"
também aparece oficialmente, por meio do Decreto no 8901, de 10 de novembro de 2016. O Art.
No 34, do Decreto, descreve as competências do Departamento de Ciência e Tecnologia (DECIT)
e, corroborando com a função descrita anteriormente, atribui no seu inciso IV: "coordenar o
processo de gestão do conhecimento em Ciência e Tecnologia em Saúde visando à utilização do
conhecimento científico e tecnológico em todos os níveis de gestão do SUS."
No Anexo II do mesmo Decreto, ainda na estrutura do DECIT, consta a função de
"Coordenação-Geral de Gestão do Conhecimento em Ciência e Tecnologia", cuja responsabilidade
é "Promover a sistematização e o acesso às informações e evidências científicas, e disponibiliza a
formuladores de políticas públicas, gestores, equipes de saúde e sociedade". Esta Coordenação
possui uma Função Gratificada no valor de R$ 579,84 (DECRETO, 2017).
Apesar de constar formalmente na estrutura, o termo "Gestão do conhecimento" não é
citado no site do DECIT. Não há referência direta às ações que promovam a GC no âmbito do
MS. No site consta apenas o link "Destaques Decit" com opções. Apesar dos conteúdos dessas
opções serem amplos, também não há referência a GC diretamente. Indiretamente, tais ações
visam à promoção, ao desenvolvimento e à criação do conhecimento em saúde.
No entanto, apenas evidências não atestam a utilização da GC como ferramenta de
apoio para o MS. Batista (2015) realiza um estudo, em 2014, em 81 organizações do Executivo,
incluindo o MS, com o intuito de avaliar o grau de externalização e formalização da GC na
administração pública. As organizações foram divididas em três grupos, conforme abaixo:
• Grupo 1: organizações que estão no estágio inicial ou contam com iniciativas muito
incipientes ou não têm iniciativas ainda.
• Grupo 2: organizações que estão no estágio intermediário - ou seja, mostraram nível razoável
de comprometimento estratégico com a GC e apresentaram iniciativas de curto prazo sendo
implementadas.
• Grupo 3: instituições que estão no estágio avançado - a gestão do conhecimento faz parte
das prioridades estratégicas da organização. A alta e a média administração veem o tema
com importância e os demais colaboradores compartilham parcialmente essa visão. Além
disso, as iniciativas de GC estão sendo implementadas de diversas formas.
O Ministério da Saúde foi classificado no segundo grupo, ou seja, de média maturidade
em GC. É importante citar que essa mesma avaliação já havia sido feita em 2004. Assim foi
29
possível realizar um comparativo da situação da GC nas instituições participantes, confrontando
o cenário de 2004 com o de 2014, dez anos após a primeira avaliação.
Em 2004, seis instituições encontravam-se no estágio intermediário na GC, constituído
por um grupo de instituições "que mostravam nível razoável de comprometimento estratégico com
a GC e apresentavam iniciativas de curto prazo sendo implementadas". Dentre as seis instituições
que compunham tal grupo, uma era o Ministério da Saúde. Portanto, não houve evolução, nos
últimos 10 anos, no tema Gestão do Conhecimento no MS, mesmo este tendo papel oficial na
estrutura e nos objetivos do Ministério.
2.2.2 Gestão da Informação em Saúde
Os dados, as informações e o conhecimento são os alicerces para o fazer organizacional.
Este fazer pode ser definido como qualquer ação que promova a eficiência, que melhore a execução
de tarefas e que fomente a inovação nas mais diversas áreas de atuação de uma organização. Várias
áreas do conhecimento desenvolvem modelos, métodos, técnicas, instrumentos e ferramentas
que melhorem esses fazeres, com o objetivo final de propiciar a permanência da organização no
mercado em que atuam (VALENTIM, 2014).
Essa permanência aplica-se não somente em organizações que possuem concorrência
no mercado em que atuam, mas também em organizações que, apesar de não possuírem uma
concorrência explícita, não deixam de ter a necessidade de uma atuação criativa e desafiadora em
sua área. A permanência pode ser medida pela aprovação da população que se utiliza dos seus
serviços. É o caso do Ministério da Saúde, cuja gestão de uma estrutura de tamanha complexidade
precisa ter os dados e as informações como uma das suas fontes na busca pela excelência. As
informações no âmbito da saúde pública brasileira caracterizam-se pela complexidade, dado
o grande volume de dados produzidos e, ainda, pela forma do acesso ao seu conteúdo. Tais
informações públicas de saúde, que estão presentes nas esferas municipais, estaduais e federal,
tiveram seu acesso regulamentado por meio da Lei No 12.527/2011. Esta lei regulamenta o direito
constitucional de acesso às informações públicas. Entrou em vigor em 16 de maio de 2012 e
criou mecanismos que possibilitam, a qualquer pessoa, seja física ou jurídica, sem a necessidade
de justificar o motivo, o recebimento de informações dos três Poderes:União, Estados, Distrito
Federal e Municípios, inclusive aos Tribunais de Conta e Ministério Público. Conforme o site de
acesso à informação do Governo Federal (FEDERAL, 2017), destacam-se os seguintes princípios
da lei:
• Acesso é a regra, o sigilo, a exceção (divulgação máxima).
• Requerente não precisa dizer por que e para que deseja a informação (não exigência de
motivação).
• Hipóteses de sigilo são limitadas e legalmente estabelecidas (limitação de exceções).
• Fornecimento gratuito de informação, salvo custo de reprodução (gratuidade da informação).
• Divulgação proativa de informações de interesse coletivo e geral (transparência ativa).
30
• Criação de procedimentos e prazos que facilitam o acesso à informação (transparência
passiva).
Apesar de ficar evidente que o princípio da publicidade das informações é a prioridade, a
Lei preocupou-se também com a questão do sigilo, que aplica-se aos dados pessoais, às informações
classificadas por autoridades como sigilosas e às informações sigilosas com base em outras leis.
Os dados pessoais que podem ser usados em pesquisa em saúde têm regulamentação nacional
por meio da Resolução CNS No 196, de 10 de outubro de 1996, que ratifica a confidencialidade
dos dados pessoais e, excepcionalmente, autoriza o acesso sem o consentimento dos indivíduos,
após análise por meio de um comitê de ética em pesquisa.Para provimento do acesso à essas bases de informações em saúde e outros, foi criado o
Departamento de Informática do SUS (DATASUS), em 16/04/1991, por meio do decreto No 100.
Iniciam-se suas atividades norteado pelo conceito de Downsizing, que é a redução do porte dos
equipamentos de informática utilizados para o processamento de informações (LIMA et al., 2015).
Talvez tal estratégia tenha sido um dos fatores para que o Brasil tenha uma grande base de dados
pública e de fácil acesso para pesquisas. Atualmente, os sistemas do DATASUS são considerados
pela Organização Mundial da Saúde (OMS) e Organização Pan-Americana de Saúde (OPAS),
um dos mais completos do mundo (LIMA et al., 2015).
A partir de 2011, o DATASUS passa a integrar a Secretaria de Gestão Estratégica e
Participativa, vide Figura 6, através do Decreto No 7530, de 21 de julho de 2011. A composição
da estrutura hierárquica do DATASUS pode ser visualizada na Figura 7:
Figura 7 – Organograma DATASUS
Fonte: DATASUS
Analisando a estrutura hierárquica e as atribuições das Coordenações do DATASUS,
observa-se que toda estrutura é voltada para a Gestão da Informação. Conforme Diretrizes do
DATASUS (DATASUS, 2017c), suas atribuições visam à "manutenção e correto funcionamento
da estrutura atual, a avaliação dos projetos existentes e novos, gerir a infraestrutura de tecnologia
de informação e ainda implementar políticas para a disseminação da informação em saúde".
A disseminação tem como base os Cadastros Nacionais, cuja descrição (DATASUS, 2017a) é
feita pelo site do DATASUS como "...uma série de aplicações voltadas para o cadastramento de
informações utilizadas por todos os programas criados para operacionalizar o atendimento de
saúde realizado pelo SUS". Os cadastros são descritos na Tabela 1:
31
Cadastro Descrição
CADSUS Cadastro de usuário do SUS. Permite a criação de banco de dados
para avaliação, diagnóstico, programação de ações em saúde
CID 10 Classificação Internacional de Doenças, 10ł. versão, da Organiza-
ção Mundial de Saúde. Foi disponibilizada para o meio eletrônico
disponibilizando a classificação de doenças a fim de realizar proce-
dimentos de saúde
CNES Cadastro nacional dos estabelecimentos de saúde. Cadastra e/ou
coleta: os dados físicos do estabelecimento: endereço, profissionais
e serviços vinculados ao estabelecimento e serviços de apoio ao
estabelecimento
Repositório Permite o gerenciamento unificado de tabelas utilizadas pelo SUS.
Notifica as atualizações das tabelas e mantém seu histórico. Permite
a consulta e recebimento de tabelas corporativas, nos formatos
mais utilizados (XML, DBF, CSV, CNV)
Unidades Territoriais Software com as bases territoriais onde a menor unidade é o mu-
nicípio, sendo específico para cada localidade e de uso das SES e
SMS
SCNES É o cadastro nacional de estabelecimentos de saúde em uma ver-
são simplificada, que facilita o uso em estabelecimentos de porte
pequeno
CNES Net É o cadastro nacional de estabelecimento de saúde com dados
disponíveis na Internet
Tabela 1 – Cadastros Nacionais SUS
Fonte: Site SUS
A partir desses cadastros, é possível obter e analisar os dados disponibilizados pelo DATASUS.
Essa análise pode ser feita pelos seguintes tabuladores: TABDOS (versão para DOS), TABWIN
(versão para Windows) e TABNET (versão para a Internet) (DATASUS, 2017d). Esses tabuladores
permitem selecionar e organizar os dados, assim como estabelecer associação entre tabulações a
mapas, permitindo a visualização e avaliação espacial da informação.
No entanto, esses tabuladores apresentam limitações quanto à análise de dados. Os
tabuladores permitem a análise de totais, ou somatórios gerais, o que impossibilita a pesquisa
com o viés de mineração de dados. Além disso, refletindo a complexidade da saúde pública
brasileira, o site do DATASUS apresenta uma série de dificuldades para o acesso às informações
em saúde. Segundo Morais et al. (2014), há falhas e falta de integração entre os sistemas de
informação.
32
2.3 Fundamentos Estatísticos e Métodos de previsão
O presente estudo utiliza-se de conceitos estatísticos e métodos de previsão para a
descoberta de conhecimento em base de dados. Há diversos métodos para previsão e a escolha
dos mais apropriados, para testá-los, é baseado nas características que os dados possuem.
Especificamente em relação ao presente estudo, que analisa séries temporais, as características
dos dados que devem ser consideradas são: tendência, sazonalidade, ciclos e irregularidades. Serão
testados nas séries temporais dos Capítulos do NCM sete métodos, sendo que esses métodos estão
separados em três grupos. No primeiro grupo estão os métodos de previsões, que utilizam-se dos
conceitos de médias, médias ponderadas e as últimas observações. No segundo grupo estão os
métodos de previsões, que utilizam-se dos conceitos de suavização exponencial. Este conceito
utiliza-se de médias ponderadas de observações passadas, com os pesos decaindo exponencialmente
à medida que as observações envelhecem. Dessa forma, a mais recente observação possui um
maior peso. No terceiro grupo estão os métodos que utilizam-se de dois outros conceitos: a
autoregressão (AR)(que prevê a variável de interesse usando uma combinação linear dos valores
passados) e o moving average (MA) ou média móvel (que usa erros de previsão do passado em
um modelo de regressão) (HYNDMAN; ATHANASOPOULOS, 2014).
Além dos métodos de previsão, no presente estudo serão descritos os conceitos estatísticos
utilizados na descoberta de novos conhecimentos.
2.3.1 Método ARIMA(1,1,1)(0,0,1)
Enquanto os modelos de suavização exponencial foram baseados em uma descrição de
tendência e sazonalidade nos dados, modelos ARIMA visam descrever as autocorrelações nos
dados (HYNDMAN; ATHANASOPOULOS, 2014). Assim, o presente modelo é classificado
no terceiro grupo de métodos e também possui a vantagem de gerar intervalos de previsão.
Os métodos ARIMA utilizam-se de transformações de dados, como logaritmos, para ajudar
a estabilizar a variância de uma série temporal. Isso permite a transformação de uma série
temporal não estacionária em estacionária. Isso é conhecido como a diferenciação, ou differencing.
Differencing pode ajudar a estabilizar a média de uma série de tempo por meio da remoção de
alterações no nível de uma série de tempo, e assim eliminando tendência e sazonalidade. Em um
modelo de autoregressão (AR). Na previsão da variável de interesse, é utilizado uma regressão
dessa variável contra si mesma. Mas, ao invés de usar valores passados da variável previsão em
uma regressão, um modelo de média móvel (MA) usa os erros de previsão do passado em um
modelo de regressão. Os parâmetros do método são compostos da seguinte forma:
Figura 8 – Observado x Previsão
33
2.3.2 Método da ETS (AAdN)
Se encaixa também no segundo grupo, mas possui a vantagem de gerar intervalos de
previsão. O método possui três parâmetros: erro, tendência e sazonalidade. Portanto, é necessário
primeiramente a confirmação das características dos dados a serem analisados, para posteriormente
utilizar os parâmetros corretos no método. Ao considerar as variações na combinação da tendência
e sazonalidade, é possível combinar quinze métodos de suavização exponencial (KABACOFF,
2015).
Quando há sazonalidade, esta pode ser aditiva ou multiplicativa. No entanto, vamos
considerar que todas as séries temporais aqui estudadas não possuem sazonalidade. Assim, para
classificar os métodos de suavização, é possível combinar as seguintes possibilidades de tipos de
tendência com a ausência de sazonalidade:
Tendência Sazonalidade
Nenhuma
Nenhuma NN
Aditiva AN
Aditiva Amortecida AdN
Multiplicativa MN
Multiplicativa Amortecida MaN
Tabela 2 – Métodos de Suavização
Assim, utilizaremos para a previsão das séries temporais aqui utilizadas, os parâmetros
AAdN, mais precisamente, a série será Aditiva, com tendência suavizada (A) mas sem sazonalidade
(N).
2.3.3 Correlação
Utilizando-se da estatística bivariada, em que o coeficiente de correlação é o mais
comumente usado,mede-se a força da relação entre as variáveis x e y. O valor da correlação (r)
sempre se situa entre -1 e 1, inclusive, com os valores negativos indicando uma baixa relação e
valores positivos indicando uma forte relação. Abaixo, três diagramas de dispersão, para visualizar
os tipos de correlação:
34
Figura 9 – Gráficos de Correlação
Fonte: (GERIRONLINE, 2017)
Há três formas de gráficos de dispersão na Figura 9. Esses gráficos de dispersão retratam
relações lineares, ou seja, quando se constrói o gráfico, os pontos (ou dados), se aproximam de
uma reta. Observando o eixo x, da esquerda para direita, o gráfico (a) apresenta um padrão,
uma correlação positiva para os dados, haja vista que os dados tendem para cima. O gráfico (b)
representa uma correlação negativa, indicando que os dados tendem para baixo. Já o gráfico (c)
não possui tendência, o que demonstra não haver correlação. Mais especificamente, correlação
positiva significa que, quando a variável x aumenta, a variável y também aumenta. Correlação
negativa é quando a variávels x aumenta e a variável y apresenta diminuição nos valores.
2.3.4 Método Estatístico
As previsões estão presentes nas ciências e também nas mais diversas áreas de negócios,
como: saúde, educação, transporte e outros. Considerada uma tarefa estatística, tem por objetivo
contribuir para a melhora nas tomadas de decisões, possibilitando que o planejamento das organi-
zações tenha um horizonte mais realista. Os sistemas de previsão são dinâmicos, exigindo serem
reavaliados constantemente, o que resulta na necessidade do desenvolvimento de competências
de previsão dentro da organização. Determinar o que será previsto, qual o problema que a
organização possui e como uma eventual previsão colaboraria para solução do mesmo é essencial.
Mas não há como realizar previsões se não tiver a matéria-prima que serve de base para a
construção desta tarefa: isto é, os dados. Fonte das previsões e da criação de novos conhecimentos,
os dados têm papel fundamental na vida das organizações. Com esse pressuposto, as organizações
necessitam adotar a governança de dados, entendendo que esses são ativos estratégicos, que
exigem a implantação de políticas efetivas quanto à privacidade, segurança e utilização dos dados
(DAMA, 2016). Consequentemente, as previsões são dependentes da qualidade e quantidade de
dados que são disponibilizados pelas organizações.
35
Para realizar a tarefa de previsão, é necessária a construção de um modelo, ou método
estatístico para tal. Há diversos métodos para a utilização, cada qual com seus pressupostos
peculiares, o que muitas vezes colabora para dificultar a escolha (FLORES, 2009). Escolhido o
método, o real desempenho só poderá ser avaliado quando os dados para o período de previsão se
tornaram disponíveis. O que se pretende prever é denominado de variável aleatória. Por exemplo,
as previsões de desistência de alunos de graduação do próximo mês, de certa universidade, pode
ser uma série de valores possíveis. Até que se finalize o mês e tenhamos a quantidade real, a
quantidade projetada é aleatória. Prever essa desistência para o próximo mês é mais simples do
que prever a desistência daqui a dois anos. Isso significa que quanto mais à frente for a previsão,
mais incerta é a mesma. Portanto, definir o horizonte de previsão colabora para o aumento do
grau de confiança, possibilitando que a organização elabore um planejamento mais realista para
o cenário futuro.
2.3.5 Conjuntos de Treinamento e Teste
A avaliação da precisão das previsões torna-se mais acurada quando utiliza-se de dados
originais. Para tal objetivo, o conjunto de dados que formam a série temporal, ou outra forma
qualquer de representação gráfica, é separado em duas partes. A primeira parte é denominada
como a parte de treinamento do modelo. Essa parte é utilizada para a etapa de construção do
melhor modelo de previsão. Nessa construção, deverão ser consideradas todas as características
que estes dados possuem, como distribuição, média, linearidade, tendências e outros. Existem
infinitas possibilidades de modelos e, inicialmente, a escolha dos mais apropriados é mediante a
análise gráfica dos dados. Assim, após separada a parte dos dados que servirá para o treinamento
do modelo, vem a segunda etapa, que é denominada de teste.
Nessa segunda etapa, o segundo conjunto de dados é confrontado com os modelos de
previsão, ou seja, os modelos são testados com dados reais. Isso possibilitará a avaliação, ou
"teste", de como os modelos se comportam na previsão frente a um cenário realista, que são
justamente os dados históricos que formam o conjunto de teste. A partir desse teste, é produzida
uma série de erros residuais para cada um dos modelos testados.
2.3.6 Erros residuais
A escolha do melhor modelo é baseada no seu respectivo diagnóstico residual. Os resíduos
do modelo são formados pelos erros de previsão (e). O e mede a precisão das previsões, ou seja,
a diferença entre o ocorrido e o previsto. Para tanto, é necessário consideramos que yi denota
uma observação ith (ocorreu) e ŷi denota uma predição para yi (previsão). Assim, a fórmula
para o erro de previsão será e = yi − ŷi, em outras palavras, o confronto entre o previsto e o
observado (o que realmente ocorreu), representado pela Figura 10:
36
Figura 10 – Observado x Previsão
Fonte: O Autor
De acordo com Samohyl et al. (2008), as principais metodologias para avaliar a qualidade
das previsões é utilizando-se dos seguintes índices de erros residuais:
Medida Abreviação Característica
1 Mean error ME Erro médio
2 Mean absolute error MAE Erro médio absoluto
3 Mean Squared error MSE Erro médio Quadrático
4 Root mean squared error RMSE Raiz do erro médio quadrado
5 Mean absolute percentage error MAPE Erro percentual absoluto médio
6 mean absolute scaled error MASE Erro escalado média absoluta
Tabela 3 – Medidas de cálculo de erro de previsão
Fonte: (HYNDMAN; ATHANASOPOULOS, 2014)
Dessa forma, os modelos de previsão são avaliados por meio dos cálculos adotados pelas
medidas apresentadas na Tabela 3. Consequentemente, o modelo com menor resíduo tende a ser
o mais adequado. Mais precisamente, essas medidas de cálculo de erro de previsão fornecem um
diagnóstico, indicando qual modelo melhor se adapta ao padrão dos dados.
Quando da separação do conjunto de dados original, o conjunto de dados denominado de
teste deve possuir cerca de 20% do total da amostra, embora esse valor dependa de quanto tempo
à frente será a previsão. O tamanho do conjunto de teste deve ser pelo menos tão grande quanto
o horizonte de previsão (HYNDMAN; ATHANASOPOULOS, 2014). O restante dos dados são
então para o conjunto de treinamento.
2.3.7 Séries Temporais
Séries temporais podem ser definidas como sendo a distribuição de valores quantitativos
ao longo de um determinado período. Segundo Wiener (1949), séries temporais são "sequências
de dados quantitativos relativos a momentos específicos e estudados segundo sua distribuição
no tempo". Assim, os dados devem seguir uma ordem cronológica, sem lacunas, para que haja
condições para a análise do seu comportamento. Séries temporais possuem componentes que
descrevem seu comportamento em relação ao passado e criam condições para projetar seu possível
comportamento no futuro. Uma das características mais importantes das séries temporais é que
37
as observações vizinhas são interdependentes, e a análise dessa dependência gera um modelo
matemático útil para projeções futuras.
Existem cinco métodos mais comuns para previsão econômica por meio de séries temporais
(GUJARATI; PORTER, 2011). O presente estudo terá foco no método de suavização exponencial e
a autoregressão (AR) e o moving average (MA) ou média móvel, conhecido como método ARIMA.
Uma série temporal, de acordo com Hyndman e Athanasopoulos (2014), possui os seguintes
componentes: tendência, sazonalidade, ciclos e irregularidades. Por meio da decomposição da série
temporal nesses quatro componentes é possível entender seu comportamento e, consequentemente,

Continue navegando

Outros materiais