Baixe o app para aproveitar ainda mais
Prévia do material em texto
Luiz Cláudio Buzeti APLICAÇÃO DE METODOLOGIA DE DESCOBERTA DE CONHECIMENTO EM DADOS PÚBLICOS: EXPLORANDO OS SISTEMAS DATASUS E ALICEWEB MARINGÁ 2017 Luiz Cláudio Buzeti APLICAÇÃO DE METODOLOGIA DE DESCOBERTA DE CONHECIMENTO EM DADOS PÚBLICOS: EXPLORANDO OS SISTEMAS DATASUS E ALICEWEB Dissertação de Mestrado apresentado ao PPGGCO - UNICESUMAR como pré-requisito obrigatório à obtenção do título de Mestre em Gestão do Conhecimento nas Organizações. Linha de pesquisa: Organizações Orientador: Prof.a Dra. Iara Carnevale de Almeida Coorientador: Prof.o Dr. Marcelo Picinin Bernuci MARINGÁ 2017 Luiz Cláudio Buzeti APLICAÇÃO DE METODOLOGIA DE DESCOBERTA DE CONHECIMENTO EM DADOS PÚBLICOS: EXPLORANDO OS SISTEMAS DATASUS E ALICEWEB Dissertação de Mestrado apresentado ao PPGGCO - UNICESUMAR como pré-requisito obrigatório à obtenção do título de Mestre em Gestão do Conhecimento nas Organizações. Trabalho aprovado. MARINGÁ, de de 2017: Prof.a Dra. Iara Carnevale de Almeida Orientador Professor Convidado 1 Professor Convidado 2 MARINGÁ 2017 Agradecimentos Primeiramente, agradeço à Professora Iara Carnevale de Almeida pela dedicação em me orientar, apoiando-me nos momentos difíceis, mostrando-me em que e como este estudo poderia ser melhorado, possibilitando que esta pesquisa pudesse se tornar realidade. Ao Professor Marcelo Bernuci, que participou do projeto desde o início e, com sua competência e seu conhecimento, tornou este um estudo interdisciplinar. À Professora Rita Cristina Galarraga Berardi, minha orientadora no início do projeto, que, com sua dedicação, foi fundamental na fase inicial deste estudo e me fez seguir em frente. Ao Professor Flávio Bortolozzi, que sempre me atendeu com extrema atenção, sempre mostrando os rumos que este estudo deveria seguir, ou seja, mostrando-me o caminho da luz. Ao aluno de Medicina Antonio Augusto Cláudio Pereira, que teve papel decisivo na análise dos dados, sempre com muita dedicação. Aos Professores do PPGCCO, que conduziram-nos no processo de subida dos difíceis degraus acadêmicos. Às queridas e aos queridos colaboradores da Secretaria do Mestrado. Aos meus amigos que estiveram ao meu lado nesta caminhada a quem, confesso, com certeza, sentirei muita saudade de vocês. Aos amigos da UEL, em especial ao Leonardo Mota Pinheiro (Assessor) e à Cecilia Shigueko Koyama (Diretora). À minha namorada, Ana Carolina Barbosa, inicialmente apenas uma amiga de turma, mas que o destino nos fez unir, pelo seu carinho, por sua atenção, pela sua consideração e por tudo mais que você fez por mim neste período. Especialmente aos meus pais, Claudio e Maria, e irmãos, que são os alicerces da vida. E, finalmente, a todos que, direta ou indiretamente, contribuíram para a realização desta pesquisa. so Resumo Observa-se que, no período de 2005 até 2014, o Brasil apresentou um déficit comercial de US$ 16,074 bilhões relativos ao comércio de fármacos. Esse explícito esforço financeiro, para pro- mover o acesso a medicamentos pela população, pode evitar morbidades e, consequentemente, evitar internações. Apesar do Governo disponibilizar diversos dados abertos, tanto sobre importações quanto sobre saúde, não existe sistema informático que possibilite o cruzamento destas informações e, consequentemente, concluir se as importações de fármacos realmente são válidas para evitar internações. Desta forma, o presente estudo objetivou explorar este fenômeno e contribuir para a melhoria da gestão do conhecimento em saúde, aplicando o modelo Buzeti, que permite a descoberta de conhecimento em dados públicos dos sistemas DATASUS e ALICEWeb. Inicialmente foram estudadas as metodologias existentes que viabi- lizassem a descoberta do conhecimento, sendo então definido o modelo Buzeti. Salienta-se que foram escolhidos conceitos advindos do Knowledge Discovery in Database (KDD), que permitem a extração de padrões, associações, regras, clusters e outras formas de codificação. Na sequência foram realizadas as seguintes etapas propostas pelo modelo Buzeti: compreensão dos sistemas ALICEWeb e DATASUS e dados, preparação e modelagem dos dados referentes a importação de fármacos e internaçõe. O cruzamento desses dados gerou conhecimentos relevantes para serem avaliados por especialistas da área da saúde. Finalmente, a grande contribuição desse estudo é a compreensão do uso de uma metodologia KDD que permite a criação de novos conhecimentos a partir de dados públicos. Palavras-chave: Gestão do Conhecimento. Dados Públicos. Mineração de Dados. Abstract It can be observed that between 2005 and 2014 Brazil had presented a US$ 16,074 billion trade deficit due to pharmaceutical trade. This clear financial effort to promote access to medicines intended to avoid morbidity and its consequent hospitalizations. However the government provides great access to open data about importation as well as healthy systems data, there is no computerized system that allows us to cross these information in way to establish that massive pharmaceutical products importation is a valid way to decrease morbidity and hospitalizations rates. Therefore, in this present study we aim to contribute to better healthcare of knowledge management in health, applying the Buzeti model, which allows the discovery of knowledge in public data of the DATASUS and ALICEWeb systems. Initially, the existing methodologies that enabled the discovery of knowledge were studied, and the Buzeti model was defined. It should be noted that concepts derived from Knowledge Discovery in Database (KDD) have been chosen, which allow the extraction of patterns, associations, rules, clusters and other forms of coding. The following steps were proposed by the Buzeti model: comprehension those systems, comprehension the open data of these systems, preparing and modeling the data concerning drug importation and hospital morbidities / hospitalizations. The crossing of these data generated relevant knowledge to be evaluated by health experts. Finally the great contribution of this study is the comprehension of KDD methodology application in producing knowledge from public databases. Keywords: Knowledge Management. Public Data. Data Mining Lista de ilustrações Figura 1 – Modelo adaptado do Ciclo de Gestão do Conhecimento . . . . . . . . . . . . 20 Figura 2 – Técnicas, Ferramentas e Tecnologias da Gestão do Conhecimento . . . . . . . 22 Figura 3 – Métodos e Ferramentas adequadas para a GC . . . . . . . . . . . . . . . . . . 23 Figura 4 – Processo do KDD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Figura 5 – Termo Gestão do Conhecimento em Saúde . . . . . . . . . . . . . . . . . . . 27 Figura 6 – Organograma MS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Figura 7 – Organograma DATASUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Figura 8 – Observado x Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Figura 9 – Gráficos de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Figura 10 – Observado x Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Figura 11 – Linha de tendência (em branco) . . . . . . . . . . . . . . . . . . . . . . . . . 38 Figura 12 – Séries temporais de temperatura mínima e máxima . . . . . . . . . . . . . . . 39 Figura 13 – Séries temporais com Sazonalidade . . . . . . . . . . . . . . . . . . . . . . . . 39 Figura 14 – Gráfico (a) de uma série Aditiva e Gráfico (b) de uma série Multiplicativa . . 40 Figura 15 – Gráfico (a) sem tedência definida e Gráfico (b) com tendência em queda . . . 41 Figura 16 – Modelo Buzeti para Descoberta de Conhecimento nas Bases de Dados dos Sistemas ALICEWeb e SIH - SUS . . . . . . . . . . . . . . . . . . . . . . . . 47 Figura 17 – Problemática de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Figura 18 – Tabela recebida do ALICEWeb, consulta por único NCM . . . . . . . . . . . 55 Figura 19 – Tabela recebida do ALICEWeb, consultapor detalhamento de NCM . . . . . 56 Figura 20 – Diagrama de Intersecção das tabelas cap2801062009 e cap2807122009 . . . . 60 Figura 21 – Formato final do Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . 62 Figura 22 – Porcentagem Gastos em Dólar por Capítulo (2009-2015) . . . . . . . . . . . . 63 Figura 23 – Comparativo de gastos em Dólar e Kg importados (2009-2015) - Capítulo 28 64 Figura 24 – Gráfico de correlação de Dólar versus Kg importados (2009-2015) do Capítulo 28 65 Figura 25 – Histograma de Distribuição de Correlações das Mercadorias do Capítulo 28 . 67 Figura 26 – Comparativo de gastos em Dólar e Kg importados (2009-2015) da Mercadoria Hipocloritos de Sódio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Figura 27 – Comparativo de gastos em Dólar e Kg importados (2009-2015) da Mercadoria Molibdênio 99 absorvido em alumina apto para a obtenção de Tecnécio 99 . . 69 Figura 28 – Comparativo de gastos em Dólar e Kg importados (2009-2015) - Capítulo 29 70 Figura 29 – Histograma de Distribuição de Correlações das Mercadorias do Capítulo 29 . 71 Figura 30 – Comparativo de gastos em Dólar e Kg importados (2009-2015) - Capítulo 30 72 Figura 31 – Histograma de Distribuição de Correlações das Mercadorias do Capítulo 30 . 73 Figura 32 – Gráfico de sazonalidade das variáveis Dólar e Kg do Capítulo 28 . . . . . . . 75 Figura 33 – Gráfico de teste de melhor método - Previsões para gasto em Dólar - Capítulo 28 76 Figura 34 – Gráfico de previsão utilizando-se do modelo ARIMA para o Capítulo 28 - Dólar 77 Figura 35 – Gráfico de teste de melhor método - Previsões para gasto em Dólar - Capítulo 29 77 Figura 36 – Gráfico de previsão utilizando-se do modelo ETS(ANN) - Capítulo 29 - Dólar 78 Figura 37 – Gráfico de teste de melhor método - Previsões para gasto em Dólar - Capítulo 30 79 Figura 38 – Gráfico de previsão utilizando-se do modelo ETS para Capítulo 30 - Dólar . . 80 Figura 39 – Tela TABNET - Morbidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Figura 40 – Tela TABNET - Opções Morbidades . . . . . . . . . . . . . . . . . . . . . . . 82 Figura 41 – Tela TABNET - filtro das Morbidades . . . . . . . . . . . . . . . . . . . . . . 83 Figura 42 – Cabeçalho Planilha SIH - SUS 1 . . . . . . . . . . . . . . . . . . . . . . . . . 83 Figura 43 – Cabeçalho Planilha SIH - SUS 2 . . . . . . . . . . . . . . . . . . . . . . . . . 84 Figura 44 – Planilhas de Morbidades que foram eliminadas . . . . . . . . . . . . . . . . . 84 Figura 45 – As 10 Morbidades com maior número de internações . . . . . . . . . . . . . 85 Figura 46 – 10 Morbidades com maiores gastos em reais . . . . . . . . . . . . . . . . . . . 86 Figura 47 – 10 morbidades que geram o maior número de óbitos . . . . . . . . . . . . . . 86 Figura 48 – Comparativo de Internações e Óbitos de Pneumonia(2009-06/2016) . . . . . 87 Figura 49 – Comparativo de Internações e Óbitos de Septicemia(2009-06/2016) . . . . . . 87 Figura 50 – Morbidade e Fármacos correlacionados . . . . . . . . . . . . . . . . . . . . . . 88 Lista de tabelas Tabela 1 – Cadastros Nacionais SUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Tabela 2 – Métodos de Suavização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Tabela 3 – Medidas de cálculo de erro de previsão . . . . . . . . . . . . . . . . . . . . . . 37 Tabela 4 – Revisão Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Tabela 5 – Pacotes R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Tabela 6 – Desdobramentos da NCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Tabela 7 – Composição da NCM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Tabela 8 – Capítulos abordados pelo presente estudo . . . . . . . . . . . . . . . . . . . . 53 Tabela 9 – Opções das Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Tabela 10 – Capítulos e suas quantidades de mercadorias . . . . . . . . . . . . . . . . . . 58 Tabela 11 – Tabela Semestrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Tabela 12 – Tabela Anuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Tabela 13 – Tabelas de 2009 a 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Tabela 14 – Correlação do produto de momento de Pearson (Dados: Dólar vs Kg) . . . . 65 Tabela 15 – Resumo correlação do produto de momento de Pearson (Dados: Dólar vs Kg) 66 Tabela 16 – Frequência Relativa das Correlações do Capítulo 28 . . . . . . . . . . . . . . 67 Tabela 17 – Frequência Relativa das correlações do Capítulo 29 . . . . . . . . . . . . . . . 71 Tabela 18 – Frequência Relativa das Correlações do Capítulo 30 . . . . . . . . . . . . . . 73 Tabela 19 – Teste de estacionariedade Dólar . . . . . . . . . . . . . . . . . . . . . . . . . 74 Tabela 20 – Teste de estacionariedade Kg . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Tabela 21 – Métodos de Previsão para o Capítulo 28 . . . . . . . . . . . . . . . . . . . . . 76 Tabela 22 – Métodos de Previsão para o Capítulo 29 . . . . . . . . . . . . . . . . . . . . . 78 Tabela 23 – Métodos de Previsão para o Capítulo 30 . . . . . . . . . . . . . . . . . . . . . 79 Tabela 24 – Morbidades e Fármacos relacionados . . . . . . . . . . . . . . . . . . . . . . . 101 Tabela 25 – Morbidades e Fármacos relacionados . . . . . . . . . . . . . . . . . . . . . . . 116 Tabela 26 – Correlação menor que 0.561, entre as variáveis Dólar e Kg das mercadorias do Capítulo 28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 Tabela 27 – Finalidade das mercadorias do Capítulo 28 com correlação menor que 0.561, entre as variáveis Dólar e Kg . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Tabela 28 – Correlação menor que 0.5811, entre as variáveis Dólar e Kg das mercadorias . 136 Tabela 29 – Finalidade das mercadorias que não possuem correlação significativa - Capítulo 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 Tabela 30 – Tabela correlação entre Dólar e Kg das mercadorias menor que 0.51 do Capítulo 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 Tabela 31 – Finalidade das mercadorias que não possuem correlação significativa - Capítulo 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 Tabela 32 – Produtos farmacêuticos utilizados na prática médica . . . . . . . . . . . . . . 147 Lista de abreviaturas e siglas ADF Augmented Dickey-Fuller ALICEWeb Análise das Informações de Comércio Exterior (meio WEB) AM Aprendizado de Máquina APO Asian Productivity Organization BD Bancos de Dados BH Benjamim Hochberg BI Business Intelligence BNDES Banco Nacional de Desenvolvimento Econômico e Social CADSUS Cadastro de Usuário do SUS CEPAL Comissão Econômica para a América Latina e o Caribe CID-10 Classificação Internacional de Doenças e Problemas Relacionados à Saúde CNES Cadastro Nacional de Estabelecimentos de Saúde CNES Net cadastro nacional de Estabelecimento de Saúde com dados disponíveis na Internet CNS Conselho Nacional de Saúde CRAN Comprehensive R Archive Network DATASUS Departamento de Informática do SUS DeCS Descritores em Ciências da Saúde DECIT Departamento de Ciência e Tecnologia DM Data Mining EGD Estratégia do Governança Digital ETS ExponenTial Smoothing FMI Fundo Monetário Internacional GC Gestão do Conhecimento GECIS Grupo Executivo do Complexo Industrial da Saúde GHS Sistema Harmonizado Globalmente para a Classificação e Rotulagem de Pro- dutos Químicos IA Inteligência Artificial IBGE Instituto Brasileiro de Geografia e Estatística IC Inteligência Competitiva KDD Knowledge Discovery in Databases Kg Quilogramas LaTex Conjunto de macros para o programa de diagramação de textos TeX MAE Mean absolute error MAPE Mean absolute percentage error MASE Mean absolute scaled error MD Mineração de Dados ME Meanerror MSE Mean Squared error MS Ministério da Saúde NCM Nomenclatura Comum do Mercosul OMA Organização Mundial de Aduanas OMS Organização Mundial de Saúde OPAS Organização Panamericana de Saúde PD Pesquisa e Desenvolvimento PDP Política de Desenvolvimento Produtivo PESS Pesquisas Estratégicas para o Sistema de Saúde PIB Produto Interno Bruto PITCE Política Industrial Tecnológica e de Comércio Exterior PROFARMA Programa de Apoio à Cadeia Farmacêutica RMSE Root mean squared error SBC Sistemas Baseados em Conhecimento SCNES Cadastro Nacional de Estabelecimentos de Saúde - versão simplificada SERPRO Serviço Federal de Processamento de Dados SES Suavização Exponencial Simples SGC Sistemas de Gestão do Conhecimento SH Sistema Harmonizado SIH Sistema de Informações Hospitalares SISCOMEX Sistema Integrado de Comércio Exterior SUS Sistema Único de Saúde TI Tecnologia da Informação UF Unidade Federal US$ Dólar Americano Lista de símbolos β Beta e Erro de previsão α Alpha Sumário 1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 Escopo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2 Revisão da literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1 Gestão do Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.1 Captura e Criação do Conhecimento . . . . . . . . . . . . . . . . 20 2.1.2 Técnicas, Ferramentas e Tecnologias de Apoio à Gestão do Co- nhecimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.1.3 Knowledge Discovery in Database (KDD) . . . . . . . . . . . . . 23 2.1.4 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2 Gestão do Conhecimento em saúde pública no Brasil . . . . . . . . . . . . 26 2.2.1 Gestão do Conhecimento no Ministério da Saúde . . . . . . . . . 27 2.2.2 Gestão da Informação em Saúde . . . . . . . . . . . . . . . . . . 30 2.3 Fundamentos Estatísticos e Métodos de previsão . . . . . . . . . . . . . . 33 2.3.1 Método ARIMA(1,1,1)(0,0,1) . . . . . . . . . . . . . . . . . . . . 33 2.3.2 Método da ETS (AAdN) . . . . . . . . . . . . . . . . . . . . . . 34 2.3.3 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.4 Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3.5 Conjuntos de Treinamento e Teste . . . . . . . . . . . . . . . . . 36 2.3.6 Erros residuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.7 Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4 Revisão Sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.1 Delineamento da pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.1.1 Premissas e conceitos de Gestão do Conhecimento e tecnológicos 46 3.1.2 Modelo para solucionar o problema proposto . . . . . . . . . . . 46 3.1.3 Cruzar e analisar as informações nos dois sistemas, DATASUS e ALICEWEB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2 Outras considerações, uso do Pacote R e Latex . . . . . . . . . . . . . . . 48 4 Análise e discussão dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.1 Sistema ALICEWeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.2 Sistema DATASUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.3 Análise e interpretação do cruzamento das informações nos sistemas DA- TASUS e ALICEWeb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Apêndices 100 1 Apêndice I - Tabela com as Morbidades e seus respectivos fármacos que acusaram correlação significativa para tempos iguais (Morbidades ocorridas em Janeiro/2009 comparando com importações ocorridas em Janeiro/2009) . . . . . . . . . . . . . 101 2 Apêndice II - Tabela com as Morbidades e seus respectivos fármacos que acu- saram correlação significativa para tempos diferentes (Morbidades ocorridas em Junho/2009 comparando com importações ocorridas em Janeiro/2009) . . . . . . 116 3 Apêndice III - Mercadorias com baixa correlação do Capítulo 28 . . . . . . . . . 129 4 Apêndice IV - Finalidade das Mercadorias com baixa correlação do Capítulo 28 . 131 5 Apêndice V - Mercadorias com baixa correlação do Capítulo 29 . . . . . . . . . . 132 6 Apêndice VI - Finalidade das Mercadorias com baixa correlação do Capítulo 29 . 136 7 Apêndice VII - Mercadorias com baixa correlação do Capítulo 30 . . . . . . . . . 140 8 Apêndice VIII - Finalidade das Mercadorias com baixa correlação do Capítulo 30 142 Anexos 145 1 Anexo I - Relatório de análise das correlações entre morbidades e mercadorias (fármacos), realizada por profissionais da área da saúde . . . . . . . . . . . . . . 146 14 1 Introdução Ao longo das mudanças econômicas mundiais, os tradicionais fatores de produção - traba- lho, capital e terra - vêm adquirindo importância secundária. Em oposição, o fator conhecimento torna-se, cada vez mais, o principal recurso das organizações (DRUCKER; DRUCKER, 1994). Ou seja, o diferencial competitivo entre as organizações passa a ser o conhecimento que possuem. A área de Gestão do Conhecimento (GC) tem como objetivo oferecer suporte às organizações na gestão desse novo e principal ativo. Esse suporte é feito por meio de princípios, práticas e ferramentas de GC. Nesse contexto, pode-se afirmar que a GC é utilizada no auxílio à tomada de decisão, como ferramenta de apoio na busca contínua pela inovação e, principalmente, para adquirir uma vantagem competitiva no mercado em que atuam (DALKIR, 2005). Essa corrida pela inovação e a consequente incorporação do conhecimento nos produtos gerados classificam os setores industriais em quatro níveis de intensidade tecnológica: alta, meia- alta, meia-baixa e baixa. Uma das formas de identificar tais segmentos é por meio da análise da média de gastos em Pesquisa e Desenvolvimento (PD) sobre o faturamento. Esse gasto é um dos parâmetros que define a intensidade tecnológica de cada setor industrial, pois aumenta o nível de conhecimento incorporado aos produtos (ZAWISLAK et al., 2013). Um dos segmentos industriais classificado como sendo de alta intensidade tecnológica é o farmacêutico. Por meio de seu contínuo esforço inovador, esse segmento gera externalidades do conhecimento, tanto tácito como explícito. Essas externalidades, mediante a produção de novos conhecimentos, colaboram para o desenvolvimento do país e afetam a balança comercial com as outras nações. No caso brasileiro, a balança comercial relacionada a produtos químico- farmacêuticos apresentou um déficit contínuo entre o Brasil e o mundo. Nos dados referentes às transações exteriores (importação/exportação) de fármacos, observa-se que, no ano de 2005, o Brasil importou 3,31 bilhões de dólares. Já no ano de 2011 houve um salto, e o Brasil importou 9,50 bilhões de dólares (INTERFARMA, 2012). Todos os dados de importação e exportação do Brasil são registrados no Sistema ALICEWeb, do Ministério da Indústria e Comércio. Considerando apenas o viés financeiro, a relação entre os gastos em medicamentos e o quanto estão adentrando no mercado interno brasileiro merece ser analisada. Não só por esse viés é necessária a análise, mas também pelo viés social, mais precisamente, o quanto tal esforço financeiro produz de bem-estar social. O bem-estar social provocado pela indústria farmacêutica está vinculado ao acesso a medicamentos que a populaçãoda nação possui. Esse acesso pode evitar morbidades, que é a taxa de portadores de determinada doença em uma população e, consequentemente, podendo também evitar procedimentos de internações (SAÚDE, 2005). Ou seja, quadros clínicos, que poderiam ser controlados ambulatoriamente, apenas com medicamentos, tornam-se casos de internação, aumentando os gastos públicos de saúde. No Brasil, esses gastos públicos e outras informações em saúde, como dados relativos a morbidades, medicamentos, internações e outros, estão disponíveis para acesso na base de dados do DATASUS. A Organização Mundial de Saúde (OMS) e a Organização Panamericana de Saúde (OPAS) consideraram, conforme documento enviado ao MS, que o conjunto de informações sobre saúde hoje disponível no DATASUS é um dos mais completos existentes no mundo (SUS, 2002). Apesar desse reconhecimento 15 internacional pela grande quantidade de dados brutos, os sistemas do DATASUS e do ALICEWeb podem ser enquadrados no que Han et al.(2011) descreve como sendo "rico em dados, pobre em conhecimento". Os gestores de saúde precisam utilizar os dados e as informações como "recursos"para a tomada de decisão. O grande volume de dados e informações disponíveis na área poderia se tornar um grande aliado para os gestores. Dados e informações são convertidos em conhecimento, ativo essencial para melhoria dos sistemas e das organizações. No entanto, mesmo com todos os esforços e investimento em tecnologias, há ainda um longo caminho para percorrer na busca pela excelência em gestão em saúde. Pinheiro et al. (2016) afirma que o Sistema de Informação em Saúde "ainda não atinge todo o seu potencial, pois é usado de maneira incipiente pela gestão da saúde para o processo decisório". Assim, o desafio em prestar serviços de saúde de qualidade à população brasileira pode ter a GC como aliada. Todos os recursos, principalmente os de base tecnológica, podem ser utilizados com a finalidade de melhorar o sistema de saúde pública. A gestão eficaz do conhecimento pode ser feita por meio do uso da tecnologia da informação. Apenas acumular os dados não significa realizar a Gestão do Conhecimento. É necessário aplicar métodos desenvolvidos no campo da inteligência artificial. A Inteligência Artificial (IA) é um termo geral que implica o uso de um computador para modelar o comportamento inteligente com a mínima intervenção humana (HAMET; TREMBLAY, 2017). Muitas das técnicas de captura de conhecimento derivam de técnicas que foram, originalmente, usadas na inteligência artificial - mais especificamente no desenvolvimento de sistemas especializados (DALKIR, 2005). Uma das aplicações da inteligência artificial é por meio do Knowledge Discovery in Database(KDD). O KDD pode ser definido como um processo não trivial de identificação de padrões a partir de dados, sendo que esses padrões devem ser potencialmente úteis e compreensíveis (FAYYAD et al., 1996). Como um processo, o KDD possui diversas etapas e, dentre essas etapas, a de mais importância é o Data Mining(DM). A extração do conhecimento a partir de determinada fonte de dados é realizada na etapa do DM, ou Mineração de Dados. Nessa etapa são utilizadas técnicas e/ou modelos estatísticos e de IA para realizar a criação do conhecimento. Assim, devemos considerar três situações para a construção da problemática deste estudo. A primeira situação que devemos considerar é que o maior custo para o SUS está nas internações ambulatoriais. A segunda situação é que dentro de uma população que possui acesso a medicamentos ocorre a diminuição de internações. A terceira situação é que o Brasil possui dois bancos de dados públicos, com décadas de registro, sendo um o ALICEWeb e o outro o DATASUS. O ALICEWeb com todas as importações e exportações registradas, inclusive de medicamentos, e o DATASUS, uma das bases de dados mais ricas do mundo, onde estão registrado todos os procedimentos, inclusive internações ocorridas nas últimas décadas. A partir dessas premissas, foi levantado o seguinte problema de pesquisa: as importações de medicamentos influenciam as quantidades de internações ocorridas no país? 1.1 Objetivos O presente estudo tem por objetivo geral a criação do conhecimento, utilizando as técnicas do KDD e tendo como fonte de dados os sistemas DATASUS e ALICEWeb. A partir da definição 16 do objetivo geral, temos os seguintes objetivos específicos: • Definir os principais conceitos de Gestão do Conhecimento, Inteligência Artificial, KDD e Mineração de Dados; • Estudar a Gestão do Conhecimento na saúde pública no Brasil, mais especificamente, os sistemas ALICEWeb e DATASUS; • Propor um modelo de KDD para o problema de pesquisa; • Discutir e analisar os resultados da criação de conhecimento a partir das bases de dados utilizadas; • Realizar previsões de importação de fármacos para meses futuros. 1.2 Justificativa O estudo do fenômeno de importação de medicamentos e seus reflexos na saúde pública é estratégico para o Brasil. O alto custo financeiro ao país, representado por um déficit de 2,155 bilhões em 2014, e o orçamento do SUS de R$ 118,5 bilhões, apenas em 2015 (BRASIL, 2016), já justificariam tal estudo. Além disso, a incorporação do conhecimento nos produtos gerados e os reflexos no bem-estar social da população devem ser levados em consideração para justificar a importância do estudo. Com números de tamanha expressão e considerando o aspecto humanístico que envolve a saúde, há a necessidade de profissionalizar quadros técnicos e adotar o apoio de processos eficazes, como, por exemplo, a Gestão do Conhecimento. A GC incorporou uma série de ferramentas de base tecnológica. Uma dessas ferramentas é a Mineração de Dados. Com décadas de registros, os dois sistemas considerados neste estudo, o ALICEWeb e o DATASUS, possuem características, principalmente em relação ao volume de dados, que justificam a utilização da mineração de dados para a criação de novos conhecimentos. Esses conhecimentos podem ser gerados tanto a partir dos dados individuais de cada uma das bases, assim como do cruzamento dessas duas bases. A partir dessa premissa, é possível criar um modelo de KDD, específico para essas bases de dados. 1.3 Escopo Com relação ao presente estudo, na Revisão da literatura será realizada a fundamentação teórica de todos os conceitos que serão utilizados neste trabalho: Gestão do Conhecimento, KDD, DM, Gestão do Conhecimento em Saúde Pública no Brasil, Fundamentos Estatísticos e Métodos de previsão e, por fim, uma Revisão Sistemática de trabalhos relacionados ao tema em questão. Na sequência, na Metodologia, serão apresentados o delineamento da pesquisa, a proposta de um modelo para solucionar este problema e o uso do Pacote R e do Latex nessa solução. Após, serão apresentadas a análise e a discussão dos resultados deste estudo, isto é, a aplicação do modelo nos sistemas ALICEWeb e DATASUS; a análise e a interpretação do cruzamento das informações nesses sistemas; e as considerações finais sobre este estudo. Ao final, serão apresentadas as Conclusões finas, com indicação dos trabalhos futuros. 17 2 Revisão da literatura A área de saúde tem como característica relevante a grande produção de dados com considerável complexidade. Essa característica pode ser explorada de forma mais eficiente por meio da captura e da criação do conhecimento. Salienta-se que isso permite melhorar tanto o entendimento do ambiente de atuação como a tomada de decisão. O presente estudo objetiva aplicar o conhecimento advindo da Gestão do Conhecimento, mais especificamente da criação de novos conhecimentos, para contribuir com a melhora da gestão da informação em saúde, aplicando metodologia de descoberta de conhecimento em dados públicos dos sistemas DATASUS e ALICEWeb. Este Capítulo apresenta os fundamentos teóricos necessários para melhor entendimento da criação de novo conhecimento. 2.1 Gestão do Conhecimento O conceito de conhecimento é expresso pelo intercâmbio entre dados, informação e conhecimento. Schreiber (2000) define esSes termosda seguinte forma: • Dados são os sinais ainda não interpretados que atingem os nossos sentidos; • Informações são os dados equipados com algum significado; • Conhecimento é todo o corpo de dados e informações que as pessoas trazem para suportar a utilização prática em ação, a fim de realizar as tarefas e criar novas informações; A composição entre dados e informações gera o conhecimento. Atualmente, segundo Paton et al. (2015), a informação e o conhecimento são as armas mais competitivas para as empresas. Sendo assim, o acúmulo do conhecimento de qualidade proporciona um diferencial competitivo dentro do mercado em que atuam. Pode-se ainda dizer que o conhecimento fomenta e alavanca a inovação, que é o processo de reinvenção do negócio ou dos produtos. O conhecimento pode ser criado, compartilhado e aplicado por meio de pesquisas, insights, observações, repositórios, troca de experiências e outros, que compõem o arcabouço do registro e o aprendizado organizacional. O conhecimento presente nas organizações, pode ser classificado de duas maneiras: • Tácito: é o conhecimento pessoal, intrínseco, o know-how, difícil de articular e também difícil de colocar em palavras, em texto ou em desenhos. Segundo Dhanaraj et al. (2004), o conhecimento tácito é definido como o conhecimento não verbalizável, intuitivo e não articulável. Outra definição de conhecimento tácito é o "que existe na mente das pessoas e, além de ser peculiar, cada indivíduo tem o seu modelo mental distinto, pois as experiências são diferenciadas"(COSTA, 2009, pg. 29). • Explícito: como o próprio nome evidencia, é o conhecimento codificado, estruturado e representa o conteúdo que foi capturado em alguma forma tangível, como palavras, gravações de áudio, imagens e outros (DALKIR, 2005). Portanto, o conhecimento tornou-se um dos maiores, se não o maior, ativos de uma organização. E, como qualquer ativo, as empresas precisam de estratégias, políticas e ferramentas 18 para gerenciá-lo. A Gestão do Conhecimento (GC) tem como objetivo auxiliar as organizações no trato desse ativo. Uma das definições propostas para GC é: A Gestão do Conhecimento é a coordenação deliberada e sistemática das pessoas, tecnologia, processos e estrutura organizacional para agregar valor através da reutilização e inovação. Esta coordenação é conseguida através da criação, com- partilhamento e aplicação do conhecimento, bem como através da alimentação das valiosas lições aprendidas e as melhores práticas para a memória corporativa, a fim de promover a aprendizagem organizacional continuada (DALKIR, 2005, pg. 3). A GC também é definida por Gray (1996) como uma abordagem colaborativa e inte- grada para a criação, a captura, a organização, o acesso e o uso dos bens intelectuais de uma empresa. Takeuchi e Nonaka (2009) definem a GC como criação de conhecimento, em que o conhecimento individual é traduzido e transformado em conhecimento organizacional, gerando vantagem competitiva. Para Mcinerney (2002, p. 1008), a "Gestão do Conhecimento é um esforço para aumentar o conhecimento útil dentro da organização. Através do encorajamento da comunicação, oferecendo oportunidades para aprender e promover o compartilhamento de artefatos de conhecimento apropriados". Conforme Baskerville e Dulipovici (2006), a Gestão do Conhecimento é multidisciplinar e está construída sobre fundamentos teóricos de economia da informação, gestão estratégica, gestão por competência, cultura organizacional, comportamento organizacional, estrutura organizacional, inteligência artificial, gestão da qualidade, medição de desempenho organizacional, entre outros. Portanto, pode-se dizer que a Gestão do Conhecimento possui uma abordagem holística, com uma visão ampla e sistêmica da organização, o que significa ter, em uma única imagem, todos os elementos que formam a estrutura organizacional. Com tamanha importância para o mundo dos negócios, a necessidade de gerir o conhe- cimento é óbvia e de característica complexa. Observa-se a complexidade da GC a partir dos ciclos que a formam, os quais são a captura (criar e recuperar), o compartilhamento (disseminar) e a aplicação (utilizar) do conhecimento na organização (DAVILA et al., 2014). Tais ciclos, se devidamente implantados e maturados dentro de uma organização, fomentam a excelência no negócio, haja vista que o conhecimento registrado e compartilhado resulta na diminuição de erros cometidos, colabora com a eficiência, com a produtividade e com o processo de inovação. Na literatura, são descritos diversos ciclos para a Gestão do Conhecimento (GC), os mais conhecidos são os ciclos de Meyer e Zack (1996), de Bukowitz e Williams (2000), de McElroy (2003), e de Wiig (1993). Com base nesses ciclos, Dalkir (2005) concebe um ciclo da GC integrado, representado na Figura 1. Observa-se que o conteúdo do conhecimento é avaliado entre as fases de "Captura e criação do conhecimento" e "Compartilhamento e disseminação do conhecimento". Na sequência, o conhecimento é então contextualizado, a fim de ser entendido (aquisição) e utilizado (aplicação). Em seguida, é realimentado o primeiro ciclo, por meio da "Captura e criação do conhecimento", a fim de atualizar os conhecimentos captados. Essas fases, então são, responsáveis por: 19 Figura 1 – Modelo adaptado do Ciclo de Gestão do Conhecimento Fonte: (DALKIR, 2005) • Captura e Criação: identificação e codificação de conhecimento interno da organização e/ou conhecimento a partir de ambiente externo; • Compartilhamento e Disseminação: realizar a contextualização de conteúdo. Fazer a junção entre o conhecimento e as pessoas; • Aquisição e Aplicação: após a avaliação do conhecimento e tendo sido considerado como importante, é armazenado nas práticas da organização. Este estudo foca na primeira fase, isto é, captura e criação do conhecimento nas organiza- ções, utilizando ferramentas tecnológicas que permitam trabalhar com grandes volumes de dados. É importante salientar que GC não é apenas sobre tecnologia, mas sim uma série de atividades complexas, e é formada por um conjunto de bases, tais como: tecnologia, processos e pessoas, as quais dão a sustentação para o desenvolvimento da GC (SERVIN; BRUN, 2005). No entanto, em função da captura e da criação do conhecimento estarem ligadas à inovação e a melhoria na competitividade, é importante o desenvolvimento de seus aspectos. 2.1.1 Captura e Criação do Conhecimento Conforme Nonaka (1994), a criação de conhecimento envolve o desenvolvimento de novos conhecimentos ou a substituição dos conhecimentos existentes por novos conteúdos. Já Dalkir (2005) considerada a captura e a criação do conhecimento como a primeira fase do ciclo da GC. Conforme Figura 1, a criação do conhecimento é o processo pelo qual o conhecimento tácito é capturado ou provocado, e o conhecimento explícito é organizado ou codificado. A captura refere-se à identificação e à subsequente codificação do conhecimento interno existente (normalmente inédito) dentro da organização e/ou a um conhecimento de origem externa ao ambiente. Já a criação de conhecimento é o desenvolvimento de novos conhecimentos e know-how (inovações que não tinham uma existência prévia dentro da empresa) (DALKIR, 2005). 20 Há muitas maneiras de criar novos conhecimentos. No nível individual, o conhecimento é criado por meio das atividades do aprender fazendo, da resolução de problemas em comum ou de brainstorming das atividades realizadas. No departamento ou no nível organizacional, por meio dos processos de inovação dentro dos departamentos de Pesquisa e Desenvolvimento ou mediante a compra ou fusão com outras empresas (NAIR et al., 2009). Obviamente, não é qualquer conhecimento que é útil para a organização. O novo conhecimento deve agregar valor ao negócio, colaborando com a aprendizagem organizacional, reduzir custos e poder utilizá-lo no processo decisório. A utilidade do novo conhecimento pode ainda ter diversos interessados. Pode ser útil para o indivíduo, apenas para um setor ou para a organizaçãocomo um todo. Pode ainda ser útil para todo um sistema complexo como, por exemplo, o sistema de saúde de um país de dimensões continentais e cujo acesso à saúde é um direito de milhões de cidadãos, como é o caso do Brasil. A utilidade é reconhecida por tornar o conhecimento um recurso para o planejamento de ações inteligentes e eficazes para os interessados (MOYA et al., 2009). A criação do conhecimento pode ser ainda a partir de um pequeno volume de dados e ser também de grande utilidade. O Staff da seleção brasileira olímpica de futebol analisou os possíveis batedores de pênalti da Alemanha prevendo uma eventual disputa na final das Olimpíadas 2016. Um dos analisados foi o jogador Petersen. Dispunham de 8 penalidades convertidas pelo jogador, ou seja, dispunham de 8 variáveis. Constataram que dos oito pênaltis analisados, o jogador converteu quatro no canto esquerdo e os outros quatro no canto direito, o que, a princípio, não trouxe nenhuma vantagem competitiva. No entanto, em uma análise mais detalhada, viram que, quando o jogo era de maior importância, ele batia forte do canto esquerdo, e quando o jogo era de menor importância, mudava de lado (BRUM, 2016). A partir de uma análise de um conhecimento explícito (vídeos), extraíram um conhecimento implícito (canto) e o conhecimento foi compartilhado com o goleiro brasileiro, tornando tácito. Tal criação do conhecimento foi, se não o principal, o último capítulo para a conquista da inédita medalha de ouro olímpica para o futebol. Apesar de existir a criação de novos conhecimentos a partir de pequenas bases de dados, esta é uma exceção. Vivemos em um era digital, na qual o volume de dados é imenso, crescente e de difícil análise. Considerando esse grande volume de dados e informações que são produzidos pelas organizações, a criação, o compartilhamento e a disseminação do conhecimento tornam-se impossíveis sem o auxílio de ferramentas tecnológicas. Para a extração do conhecimento, é necessária a identificação dos repositórios organizacionais e das habilidades inerentes a cada um (DEMARCHI et al., 2011). Assim, para dar suporte à criação do conhecimento, surgem as técnicas, ferramentas e tecnologias de apoio à GC. 2.1.2 Técnicas, Ferramentas e Tecnologias de Apoio à Gestão do Conhecimento Os repositórios com informações não estruturadas, como as redes sociais ou asWiki’s, são formados por textos e, consequentemente, não são construídos de uma forma idêntica, sequencial e separada. Por outro lado, os repositórios com conteúdos estruturados, representados pelos bancos de dados, são formados por uma estrutura organizada, sequencial e de menor dificuldade 21 para manipulá-los. O registro computacional de dados está ocorrendo há décadas e, justamente esses re- gistros, formam os bancos de dados (BD). Esse produto da informação tornou-se um ativo estratégico para as organizações, que necessitam desse registro para o conhecimento, para a organização e para a administração do negócio. Os BD, inicialmente, são utilizados para acessar conhecimentos dedutivos. No entanto, com o desenvolvimento de ferramentas computacionais, criou-se a possibilidade de se ter acesso não apenas a esses conhecimentos explícitos, mas também a conhecimentos implícitos, que estão ocultos nessa imensidão de dados. Nesse contexto, surge o KDD e sua etapa de Mineração de dados (Data Mining). Segundo Dalkir (2005), as principais ferramentas, técnicas e tecnologias de GC em uso atualmente são exibidas na Figura 2: Figura 2 – Técnicas, Ferramentas e Tecnologias da Gestão do Conhecimento Fonte: (DALKIR, 2005) O processo de Gestão do Conhecimento contempla toda a forma de geração, armazena- mento, distribuição e utilização do conhecimento. Segundo Dalkir (2005), muitas ferramentas e técnicas são "emprestadas" de outras disciplinas, e outras são específicas para a GC. Conforme a Figura 2, observa-se que as Técnicas, as Ferramentas e as Tecnologias são separadas por fases da GC. O Data Mining é destacado na fase de criação e captura do conhecimento. Uma outra observação que deve ser destacada é que a Inteligência Artificial, que consta na fase de aquisição e aplicação do conhecimento, está também ligada em vários processos do Data Mining. Ainda destacando o Data Mining na GC, a Asian Productivity Organization (APO) (NAIR et al., 2009) organizou um guia simples e abrangente, no qual aborda todos os elementos relevantes de uma solução para a Gestão do Conhecimento. Esse guia serve como referência para 22 todos os tipos de organização que têm como objetivo melhorar seu desempenho utilizando-se da GC. Nesse guia, são citadas muitas tecnologias de GC, que continuam a surgir rapidamente, tais como apresentetadas na Figura 3: Figura 3 – Métodos e Ferramentas adequadas para a GC Fonte: (NAIR et al., 2009) - APO Especificamente no processo de criação do conhecimento é citada a ferramenta do Data Mining, corroborando com Dalkir (2005). No âmbito da gestão pública brasileira, Batista (2012), por meio do livro "Modelo de Gestão do Conhecimento para a Administração Pública Brasileira", cita o Data mining como "ferramenta de TI para apoio à GC - os mineradores de dados são instrumentos com alta capacidade de associação de termos, permitindo-lhes "garimpar"assuntos ou temas específicos". A utilização eficiente de ferramentas e de técnicas computacionais para lidar com conheci- mento é essencial e, conforme a Figura 2 e a Figura 3, está presente em todos os ciclos da GC. Isso evidencia que administrar o conhecimento significa, inicialmente, armazenar esse capital. Esse armazenamento, em tempos atuais, requer disponibilizá-los em repositórios de dados, informações e conhecimentos. Liebowitz e Beckman (1998) definem repositório como um armazém baseado em computador on-line de especialização, conhecimento, experiências e documentação sobre um determinado domínio de especialização. 2.1.3 Knowledge Discovery in Database (KDD) A partir da necessidade de análise, de maneira não tradicional, de grandes quantidades de dados, surge o conceito do Knowledge Discovery in Databases (KDD). O KDD pode ser compreendido como um processo com o objetivo de descobrir padrões, grupos, falhas, tendências 23 e/ou outros conhecimentos relevantes, por meio da análise de grandes conjuntos de dados, tendo como principal etapa a Mineração de Dados (FAYYAD et al., 1996). Segundo Tuomi (1999) o caminho para o conhecimento é hierárquico, vendo os dados como um pré-requisito para a informação e a informação como pré-requisito para o conhecimento. Assim, a saúde pública brasileira é um campo que oferece grandes possibilidades de aplicação do conceito do KDD, haja vista a grande quantidade de dados que são produzidos em todo o território nacional. Esses dados necessitam de Sistemas Baseados em Conhecimento (SBC) para sua análise e transformação em conhecimento. Wu e Wang (2006) comentam que grande parte dos investimentos em GC é voltada aos Sistemas de Gestão do Conhecimento (SGC), ferramentas baseadas na Tecnologia da Informação (TI) capazes de suportar os processos da GC, que contemplam a criação do conhecimento. O KDD é constituído de três principais fases: pré-processamento, mineração de dados e pós-processamento (interpretação/avaliação) (REZENDE, 2003). A Figura 4 ilustra o fluxo do processo do KDD: Figura 4 – Processo do KDD Fonte: (FAYYAD et al., 1996) Conforme a Figura 4, o KDD é um processo interativo que é utilizado, basicamente, para transformar dados brutos em conhecimento útil (GOEBEL; GRUENWALD, 1999). A mineração de dados é um dos passos mais importantes do processo de descoberta de conhecimento em bases de dados e é considerada como subcampo significativo na gestão do conhecimento (SILWATTANANUSARN; TUAMSUK, 2012). No entanto, há outras fases que também fazem parte do KDD, conforme segue. I Seleção de dados A seleção dos dados é a primeira etapa no processo de KDD. Nessa fase é escolhido o conjunto de dados, com suas variáveis, atributos e registros. As fontes para a seleção podem vir 24em diferentes formatos, como data warehouses, planilhas e sistemas. II Pré-processamento e limpeza O Pré-processamento e a limpeza dos dados trabalham com a qualidade dos dados, eliminando os dados redundantes, inconsistentes, recuperando dados incompletos e avaliando dados discrepantes (outliers). III Transformação dos dados Para que as rotinas e os algoritmos possam ser aplicados, os dados, após terem passado pelas fases anteriores, necessitam ser armazenados e formatados corretamente. A transformação pode ocorrer na forma de planilhas para banco de dados, ou mesmo banco de dados para séries temporais. Problemas com formatação de moedas e datas locais também aparecem nesta fase. IV Mineração de dados Por se tratar da fase de maior importância, há uma seção específica para abordar a Mineração, a qual está disponível na seção 2.1.4. V Interpretação e avaliação Nesta fase, há a necessidade da participação de um especialista no assunto em questão. A participação do especialista será na interpretação e na avaliação do conhecimento produzido. Caso o resultado não seja satisfatório o processo pode retornar a qualquer um dos estágios anteriores ou ser recomeçado (PRASS, 2007), conforme pode ser observado na Figura 4. Especificamente neste estudo, focar-se-á em uma das fases do KDD, que também é considerada uma ferramenta da Gestão do Conhecimento, a Mineração de dados ou Data Mining, conforme seção a seguir. 2.1.4 Mineração de Dados Considerada a principal fase do KDD, a Mineração de Dados (MD) é a etapa em que ocorre a descoberta de novos conhecimentos em base de dados de grande volume. A MD infere e estuda dados em estruturas complexas. O resultado dessa aferição e desse estudo é a descoberta de novos conhecimentos, de caráter não trivial e indutivo. As principais técnicas da MD são: análise de cluster, árvores de decisão, redes neurais, indução de regras, algoritmos genéticos e aprendizado baseado em casos (LEMOS et al., 2005). Nas técnicas da MD, são utilizados conceitos de estatística, inteligência artificial e Aprendizado de Máquina (AM). De acordo com Feigenbaum (BARR, 1981 apud FERNANDES, 2005), Inteligência Artificial é a parte da ciência da computação voltada para o desenvolvimento de sistemas de computadores inteligentes, os quais se relacionam com a inteligência do homem. Já o Aprendizado de Máquina, segundo Michalski et al. (2013), é um programa que aprende e que melhora seu desempenho como consequência da experiência em uma determinada prática. Mais especificamente, o AM é uma subdivisão da Inteligência Artificial (SILVA; VANDERLINDE, 25 2012). Na área da saúde, com grandes volumes de dados sendo armazenados, por meio da iniciativa privada e de unidades públicas, o AM pode ter diversas aplicações. Duas dessas podem ser na análise de prontuários eletrônicos para emissão de alertas de epidemias e na elaboração de scores para riscos de saúde. O AM difere dos métodos estatísticos tradicionais principalmente em função dos conceitos de intervalos de confiança e erros padrões. O foco maior da AM é a praticidade, encontrar o que funciona, sem se preocupar com as características formais dos modelos estatísticos. Na elaboração de um modelo de AM que funcione bem para uma amostra X, é importante também aplicá-lo para uma amostra Y. O objetivo é verificar se está ajustado para o novo conjunto de dados. Essa é uma das maneiras para aferir a qualidade de um modelo de AM (CHIAVEGATTO, 2016). Essa possibilidade de funcionar muito bem para uma amostra e não acontecer o mesmo para uma outra caracteriza uma das limitações da AM. Esse problema é conhecido como tendência de sobreajuste. Outra possível limitação do uso do AM é a possibilidade de acentuar as desigualdades. Tal fato decorre da possibilidade de existirem algoritmos tendenciosos. Na etapa de MD, as associações espúrias são objetos de preocupação. Essas associações possuem resultados estatisticamente significantes, mas não têm sentido causal. O problema de fazer associações de um grande número de variáveis é que, inevitavelmente, aparecem associações espúrias. Estas são associações que apresentam significância, mas que não fazem sentido, ou seja, é uma questão puramente de coincidência. Portanto, associação não é causalidade e por isso a necessidade de utilizar-se de metodologias causais, como: Regressão descontínua, Diferenças em diferenças, Propensy score, Variáveis instrumentais, Randomização medeliana. Uma outra alternativa é a análise do nível de significância. O nível de significância aceitável na estatística, para um único teste de hipótese, é de 5%. No entanto, quando são realizados centenas de testes, o ideal é ajustar o nível de significância pelo número total de testes. Isso é justificado pelo fato de se ter uma alta probabilidade de rejeitar incorretamente uma hipótese nula (CHIAVEGATTO, 2016). Uma solução para essa questão é utilizar a taxa de falsas descobertas, que é a cota esperada de testes considerados significantes em que a hipótese nula é verdadeira. O objetivo é manter uma proporção de hipóteses nulas verdadeiras, consideradas estatisticamente significantes, abaixo de um limiar. Como solução, é necessário ranquear os p-valores e encontrar o limiar por meio do procedimento de Benjamim Hochberg (BH). Outra forma de extrair conhecimento dentro de base de dados mediante a identificação de padrões semelhantes, ou grupos, ou clusters. O objetivo do agrupamento é colocar os registros em grupos, de tal forma que os registros de um grupo sejam similares aos demais do mesmo grupo e diferentes daqueles dos demais grupos (ELMASRI et al., 2005, p. 651). A utilização de clusters é estratégica para definir a forma de atuação para cada grupo descoberto, seja qual for a área envolvida. 2.2 Gestão do Conhecimento em saúde pública no Brasil A Gestão do Conhecimento possui diversas definições e entendimentos, podendo ser implementada nas mais diversas áreas. Na área da saúde, de acordo com os Descritores em Ciências da Saúde (DeCS) (SAÚDE, 2017a), o termo "Gestão do Conhecimento" possui a seguinte 26 definição: Figura 5 – Termo Gestão do Conhecimento em Saúde Fonte: DeCS Como observado na Figura 5, a sucinta definição do termo "Gestão do Conhecimento" na saúde nos leva ao conhecimento tácito, por meio da expressão "sabedoria coletiva", cujo aproveitamento está ligado à capacidade de resposta e inovação. Possui ainda vínculos com as áreas de economia, estatística e dados numéricos. É evidente a importância da GC que, corretamente implantada, produz vantagem compe- titiva, vantagem esta que se explicita, por exemplo, por meio da inovação e da produtividade. Na área da saúde, a GC gera também os benefícios abordados anteriormente, mas com um diferencial de importância: contribui para a saúde e, consequentemente, para com a vida do indivíduo. Essa contribuição, como produto final, de viés humanístico, coloca a GC aplicada à saúde como um campo prioritário na pesquisa científica e de atenção relevante no campo administrativo público. Por meio de estruturas administrativas, estruturas virtuais, conferências, congressos e outros, a GC na saúde se desenvolve e está se tornando política de estado. O Ministério da Saúde no Brasil utiliza-se da GC em saúde, assim como a Organização Pan-Americana da Saúde e a Organização Mundial da Saúde, que são as instituições que alavancam a GC em saúde no mundo. 2.2.1 Gestão do Conhecimento no Ministério da Saúde O Ministério da Saúde (MS) possui o maior orçamento anual dentre os ministérios brasileiros, sendo que, em 2016, foi de R$ 118, 5 bilhões. Com a função de oferecer condições para a promoção, a proteção e a recuperação da saúde da população do Brasil, necessita explorar 27 todos os recursos para tornar mais eficiente sua gestão. Dentre esses recursos, está a Gestão do Conhecimento. A discussão sobre GC em saúde pode ser feita a partir da descrição da Missão (SAÚDE, 2017b) que o Ministério da Saúde brasileiro adota: "Promover a saúde da população mediante a integração e a construçãode parcerias com os órgãos federais, as unidades da Federação, os municípios, a iniciativa privada e a sociedade, contribuindo para a melhoria da qualidade de vida e para o exercício da cidadania". Para cumprir tal missão, o Ministério da Saúde possui oito assuntos de competência, dos quais destacamos: i) Informações de saúde e ii) Pesquisa científica e tecnológica na área de saúde. A partir dessas competências, analisamos a estrutura administrativa do Ministério, conforme organograma continda na Figura 6 (página 28): Figura 6 – Organograma MS Fonte: Ministério da Saúde Observando a missão e interpretando o organograma apresentado na Figura 6, o termo "Gestão do Conhecimento" ainda não aparece registrado. No entanto, no organograma, consta a Secretaria de Ciência, Tecnologia e Insumos Estratégicos que possui em sua hierarquia o Departamento de Ciência e Tecnologia (DECIT) (indicado pela seta). Acessando o site do DECIT (DECIT, 2017), surgem as primeiras referências à GC, através da descrição da função do DECIT: O Departamento de Ciência e Tecnologia (Decit/SCTIE/MS) coordena a formulação, implementação e avaliação da Política Nacional de Ciência, Tecnologia e Inovação em Saúde (PNCTIS), da Agenda Nacional de Prioridades de Pesquisa em 28 Saúde (ANPPS) e das Pesquisas Estratégicas para o Sistema de Saúde (PESS). Propõe a execução das ações no campo da Pesquisa e Desenvolvimento em Saúde. Atua no processo de gestão do conhecimento em Ciência e Tecnologia em Saúde visando à utilização do conhecimento científico e tecnológico em todos os níveis de gestão do SUS... Além de constar na descrição da função do DECIT, consultando as competências de todos os órgãos que compõem a estrutura do Ministério da Saúde, o termo "Gestão do Conhecimento" também aparece oficialmente, por meio do Decreto no 8901, de 10 de novembro de 2016. O Art. No 34, do Decreto, descreve as competências do Departamento de Ciência e Tecnologia (DECIT) e, corroborando com a função descrita anteriormente, atribui no seu inciso IV: "coordenar o processo de gestão do conhecimento em Ciência e Tecnologia em Saúde visando à utilização do conhecimento científico e tecnológico em todos os níveis de gestão do SUS." No Anexo II do mesmo Decreto, ainda na estrutura do DECIT, consta a função de "Coordenação-Geral de Gestão do Conhecimento em Ciência e Tecnologia", cuja responsabilidade é "Promover a sistematização e o acesso às informações e evidências científicas, e disponibiliza a formuladores de políticas públicas, gestores, equipes de saúde e sociedade". Esta Coordenação possui uma Função Gratificada no valor de R$ 579,84 (DECRETO, 2017). Apesar de constar formalmente na estrutura, o termo "Gestão do conhecimento" não é citado no site do DECIT. Não há referência direta às ações que promovam a GC no âmbito do MS. No site consta apenas o link "Destaques Decit" com opções. Apesar dos conteúdos dessas opções serem amplos, também não há referência a GC diretamente. Indiretamente, tais ações visam à promoção, ao desenvolvimento e à criação do conhecimento em saúde. No entanto, apenas evidências não atestam a utilização da GC como ferramenta de apoio para o MS. Batista (2015) realiza um estudo, em 2014, em 81 organizações do Executivo, incluindo o MS, com o intuito de avaliar o grau de externalização e formalização da GC na administração pública. As organizações foram divididas em três grupos, conforme abaixo: • Grupo 1: organizações que estão no estágio inicial ou contam com iniciativas muito incipientes ou não têm iniciativas ainda. • Grupo 2: organizações que estão no estágio intermediário - ou seja, mostraram nível razoável de comprometimento estratégico com a GC e apresentaram iniciativas de curto prazo sendo implementadas. • Grupo 3: instituições que estão no estágio avançado - a gestão do conhecimento faz parte das prioridades estratégicas da organização. A alta e a média administração veem o tema com importância e os demais colaboradores compartilham parcialmente essa visão. Além disso, as iniciativas de GC estão sendo implementadas de diversas formas. O Ministério da Saúde foi classificado no segundo grupo, ou seja, de média maturidade em GC. É importante citar que essa mesma avaliação já havia sido feita em 2004. Assim foi 29 possível realizar um comparativo da situação da GC nas instituições participantes, confrontando o cenário de 2004 com o de 2014, dez anos após a primeira avaliação. Em 2004, seis instituições encontravam-se no estágio intermediário na GC, constituído por um grupo de instituições "que mostravam nível razoável de comprometimento estratégico com a GC e apresentavam iniciativas de curto prazo sendo implementadas". Dentre as seis instituições que compunham tal grupo, uma era o Ministério da Saúde. Portanto, não houve evolução, nos últimos 10 anos, no tema Gestão do Conhecimento no MS, mesmo este tendo papel oficial na estrutura e nos objetivos do Ministério. 2.2.2 Gestão da Informação em Saúde Os dados, as informações e o conhecimento são os alicerces para o fazer organizacional. Este fazer pode ser definido como qualquer ação que promova a eficiência, que melhore a execução de tarefas e que fomente a inovação nas mais diversas áreas de atuação de uma organização. Várias áreas do conhecimento desenvolvem modelos, métodos, técnicas, instrumentos e ferramentas que melhorem esses fazeres, com o objetivo final de propiciar a permanência da organização no mercado em que atuam (VALENTIM, 2014). Essa permanência aplica-se não somente em organizações que possuem concorrência no mercado em que atuam, mas também em organizações que, apesar de não possuírem uma concorrência explícita, não deixam de ter a necessidade de uma atuação criativa e desafiadora em sua área. A permanência pode ser medida pela aprovação da população que se utiliza dos seus serviços. É o caso do Ministério da Saúde, cuja gestão de uma estrutura de tamanha complexidade precisa ter os dados e as informações como uma das suas fontes na busca pela excelência. As informações no âmbito da saúde pública brasileira caracterizam-se pela complexidade, dado o grande volume de dados produzidos e, ainda, pela forma do acesso ao seu conteúdo. Tais informações públicas de saúde, que estão presentes nas esferas municipais, estaduais e federal, tiveram seu acesso regulamentado por meio da Lei No 12.527/2011. Esta lei regulamenta o direito constitucional de acesso às informações públicas. Entrou em vigor em 16 de maio de 2012 e criou mecanismos que possibilitam, a qualquer pessoa, seja física ou jurídica, sem a necessidade de justificar o motivo, o recebimento de informações dos três Poderes:União, Estados, Distrito Federal e Municípios, inclusive aos Tribunais de Conta e Ministério Público. Conforme o site de acesso à informação do Governo Federal (FEDERAL, 2017), destacam-se os seguintes princípios da lei: • Acesso é a regra, o sigilo, a exceção (divulgação máxima). • Requerente não precisa dizer por que e para que deseja a informação (não exigência de motivação). • Hipóteses de sigilo são limitadas e legalmente estabelecidas (limitação de exceções). • Fornecimento gratuito de informação, salvo custo de reprodução (gratuidade da informação). • Divulgação proativa de informações de interesse coletivo e geral (transparência ativa). 30 • Criação de procedimentos e prazos que facilitam o acesso à informação (transparência passiva). Apesar de ficar evidente que o princípio da publicidade das informações é a prioridade, a Lei preocupou-se também com a questão do sigilo, que aplica-se aos dados pessoais, às informações classificadas por autoridades como sigilosas e às informações sigilosas com base em outras leis. Os dados pessoais que podem ser usados em pesquisa em saúde têm regulamentação nacional por meio da Resolução CNS No 196, de 10 de outubro de 1996, que ratifica a confidencialidade dos dados pessoais e, excepcionalmente, autoriza o acesso sem o consentimento dos indivíduos, após análise por meio de um comitê de ética em pesquisa.Para provimento do acesso à essas bases de informações em saúde e outros, foi criado o Departamento de Informática do SUS (DATASUS), em 16/04/1991, por meio do decreto No 100. Iniciam-se suas atividades norteado pelo conceito de Downsizing, que é a redução do porte dos equipamentos de informática utilizados para o processamento de informações (LIMA et al., 2015). Talvez tal estratégia tenha sido um dos fatores para que o Brasil tenha uma grande base de dados pública e de fácil acesso para pesquisas. Atualmente, os sistemas do DATASUS são considerados pela Organização Mundial da Saúde (OMS) e Organização Pan-Americana de Saúde (OPAS), um dos mais completos do mundo (LIMA et al., 2015). A partir de 2011, o DATASUS passa a integrar a Secretaria de Gestão Estratégica e Participativa, vide Figura 6, através do Decreto No 7530, de 21 de julho de 2011. A composição da estrutura hierárquica do DATASUS pode ser visualizada na Figura 7: Figura 7 – Organograma DATASUS Fonte: DATASUS Analisando a estrutura hierárquica e as atribuições das Coordenações do DATASUS, observa-se que toda estrutura é voltada para a Gestão da Informação. Conforme Diretrizes do DATASUS (DATASUS, 2017c), suas atribuições visam à "manutenção e correto funcionamento da estrutura atual, a avaliação dos projetos existentes e novos, gerir a infraestrutura de tecnologia de informação e ainda implementar políticas para a disseminação da informação em saúde". A disseminação tem como base os Cadastros Nacionais, cuja descrição (DATASUS, 2017a) é feita pelo site do DATASUS como "...uma série de aplicações voltadas para o cadastramento de informações utilizadas por todos os programas criados para operacionalizar o atendimento de saúde realizado pelo SUS". Os cadastros são descritos na Tabela 1: 31 Cadastro Descrição CADSUS Cadastro de usuário do SUS. Permite a criação de banco de dados para avaliação, diagnóstico, programação de ações em saúde CID 10 Classificação Internacional de Doenças, 10ł. versão, da Organiza- ção Mundial de Saúde. Foi disponibilizada para o meio eletrônico disponibilizando a classificação de doenças a fim de realizar proce- dimentos de saúde CNES Cadastro nacional dos estabelecimentos de saúde. Cadastra e/ou coleta: os dados físicos do estabelecimento: endereço, profissionais e serviços vinculados ao estabelecimento e serviços de apoio ao estabelecimento Repositório Permite o gerenciamento unificado de tabelas utilizadas pelo SUS. Notifica as atualizações das tabelas e mantém seu histórico. Permite a consulta e recebimento de tabelas corporativas, nos formatos mais utilizados (XML, DBF, CSV, CNV) Unidades Territoriais Software com as bases territoriais onde a menor unidade é o mu- nicípio, sendo específico para cada localidade e de uso das SES e SMS SCNES É o cadastro nacional de estabelecimentos de saúde em uma ver- são simplificada, que facilita o uso em estabelecimentos de porte pequeno CNES Net É o cadastro nacional de estabelecimento de saúde com dados disponíveis na Internet Tabela 1 – Cadastros Nacionais SUS Fonte: Site SUS A partir desses cadastros, é possível obter e analisar os dados disponibilizados pelo DATASUS. Essa análise pode ser feita pelos seguintes tabuladores: TABDOS (versão para DOS), TABWIN (versão para Windows) e TABNET (versão para a Internet) (DATASUS, 2017d). Esses tabuladores permitem selecionar e organizar os dados, assim como estabelecer associação entre tabulações a mapas, permitindo a visualização e avaliação espacial da informação. No entanto, esses tabuladores apresentam limitações quanto à análise de dados. Os tabuladores permitem a análise de totais, ou somatórios gerais, o que impossibilita a pesquisa com o viés de mineração de dados. Além disso, refletindo a complexidade da saúde pública brasileira, o site do DATASUS apresenta uma série de dificuldades para o acesso às informações em saúde. Segundo Morais et al. (2014), há falhas e falta de integração entre os sistemas de informação. 32 2.3 Fundamentos Estatísticos e Métodos de previsão O presente estudo utiliza-se de conceitos estatísticos e métodos de previsão para a descoberta de conhecimento em base de dados. Há diversos métodos para previsão e a escolha dos mais apropriados, para testá-los, é baseado nas características que os dados possuem. Especificamente em relação ao presente estudo, que analisa séries temporais, as características dos dados que devem ser consideradas são: tendência, sazonalidade, ciclos e irregularidades. Serão testados nas séries temporais dos Capítulos do NCM sete métodos, sendo que esses métodos estão separados em três grupos. No primeiro grupo estão os métodos de previsões, que utilizam-se dos conceitos de médias, médias ponderadas e as últimas observações. No segundo grupo estão os métodos de previsões, que utilizam-se dos conceitos de suavização exponencial. Este conceito utiliza-se de médias ponderadas de observações passadas, com os pesos decaindo exponencialmente à medida que as observações envelhecem. Dessa forma, a mais recente observação possui um maior peso. No terceiro grupo estão os métodos que utilizam-se de dois outros conceitos: a autoregressão (AR)(que prevê a variável de interesse usando uma combinação linear dos valores passados) e o moving average (MA) ou média móvel (que usa erros de previsão do passado em um modelo de regressão) (HYNDMAN; ATHANASOPOULOS, 2014). Além dos métodos de previsão, no presente estudo serão descritos os conceitos estatísticos utilizados na descoberta de novos conhecimentos. 2.3.1 Método ARIMA(1,1,1)(0,0,1) Enquanto os modelos de suavização exponencial foram baseados em uma descrição de tendência e sazonalidade nos dados, modelos ARIMA visam descrever as autocorrelações nos dados (HYNDMAN; ATHANASOPOULOS, 2014). Assim, o presente modelo é classificado no terceiro grupo de métodos e também possui a vantagem de gerar intervalos de previsão. Os métodos ARIMA utilizam-se de transformações de dados, como logaritmos, para ajudar a estabilizar a variância de uma série temporal. Isso permite a transformação de uma série temporal não estacionária em estacionária. Isso é conhecido como a diferenciação, ou differencing. Differencing pode ajudar a estabilizar a média de uma série de tempo por meio da remoção de alterações no nível de uma série de tempo, e assim eliminando tendência e sazonalidade. Em um modelo de autoregressão (AR). Na previsão da variável de interesse, é utilizado uma regressão dessa variável contra si mesma. Mas, ao invés de usar valores passados da variável previsão em uma regressão, um modelo de média móvel (MA) usa os erros de previsão do passado em um modelo de regressão. Os parâmetros do método são compostos da seguinte forma: Figura 8 – Observado x Previsão 33 2.3.2 Método da ETS (AAdN) Se encaixa também no segundo grupo, mas possui a vantagem de gerar intervalos de previsão. O método possui três parâmetros: erro, tendência e sazonalidade. Portanto, é necessário primeiramente a confirmação das características dos dados a serem analisados, para posteriormente utilizar os parâmetros corretos no método. Ao considerar as variações na combinação da tendência e sazonalidade, é possível combinar quinze métodos de suavização exponencial (KABACOFF, 2015). Quando há sazonalidade, esta pode ser aditiva ou multiplicativa. No entanto, vamos considerar que todas as séries temporais aqui estudadas não possuem sazonalidade. Assim, para classificar os métodos de suavização, é possível combinar as seguintes possibilidades de tipos de tendência com a ausência de sazonalidade: Tendência Sazonalidade Nenhuma Nenhuma NN Aditiva AN Aditiva Amortecida AdN Multiplicativa MN Multiplicativa Amortecida MaN Tabela 2 – Métodos de Suavização Assim, utilizaremos para a previsão das séries temporais aqui utilizadas, os parâmetros AAdN, mais precisamente, a série será Aditiva, com tendência suavizada (A) mas sem sazonalidade (N). 2.3.3 Correlação Utilizando-se da estatística bivariada, em que o coeficiente de correlação é o mais comumente usado,mede-se a força da relação entre as variáveis x e y. O valor da correlação (r) sempre se situa entre -1 e 1, inclusive, com os valores negativos indicando uma baixa relação e valores positivos indicando uma forte relação. Abaixo, três diagramas de dispersão, para visualizar os tipos de correlação: 34 Figura 9 – Gráficos de Correlação Fonte: (GERIRONLINE, 2017) Há três formas de gráficos de dispersão na Figura 9. Esses gráficos de dispersão retratam relações lineares, ou seja, quando se constrói o gráfico, os pontos (ou dados), se aproximam de uma reta. Observando o eixo x, da esquerda para direita, o gráfico (a) apresenta um padrão, uma correlação positiva para os dados, haja vista que os dados tendem para cima. O gráfico (b) representa uma correlação negativa, indicando que os dados tendem para baixo. Já o gráfico (c) não possui tendência, o que demonstra não haver correlação. Mais especificamente, correlação positiva significa que, quando a variável x aumenta, a variável y também aumenta. Correlação negativa é quando a variávels x aumenta e a variável y apresenta diminuição nos valores. 2.3.4 Método Estatístico As previsões estão presentes nas ciências e também nas mais diversas áreas de negócios, como: saúde, educação, transporte e outros. Considerada uma tarefa estatística, tem por objetivo contribuir para a melhora nas tomadas de decisões, possibilitando que o planejamento das organi- zações tenha um horizonte mais realista. Os sistemas de previsão são dinâmicos, exigindo serem reavaliados constantemente, o que resulta na necessidade do desenvolvimento de competências de previsão dentro da organização. Determinar o que será previsto, qual o problema que a organização possui e como uma eventual previsão colaboraria para solução do mesmo é essencial. Mas não há como realizar previsões se não tiver a matéria-prima que serve de base para a construção desta tarefa: isto é, os dados. Fonte das previsões e da criação de novos conhecimentos, os dados têm papel fundamental na vida das organizações. Com esse pressuposto, as organizações necessitam adotar a governança de dados, entendendo que esses são ativos estratégicos, que exigem a implantação de políticas efetivas quanto à privacidade, segurança e utilização dos dados (DAMA, 2016). Consequentemente, as previsões são dependentes da qualidade e quantidade de dados que são disponibilizados pelas organizações. 35 Para realizar a tarefa de previsão, é necessária a construção de um modelo, ou método estatístico para tal. Há diversos métodos para a utilização, cada qual com seus pressupostos peculiares, o que muitas vezes colabora para dificultar a escolha (FLORES, 2009). Escolhido o método, o real desempenho só poderá ser avaliado quando os dados para o período de previsão se tornaram disponíveis. O que se pretende prever é denominado de variável aleatória. Por exemplo, as previsões de desistência de alunos de graduação do próximo mês, de certa universidade, pode ser uma série de valores possíveis. Até que se finalize o mês e tenhamos a quantidade real, a quantidade projetada é aleatória. Prever essa desistência para o próximo mês é mais simples do que prever a desistência daqui a dois anos. Isso significa que quanto mais à frente for a previsão, mais incerta é a mesma. Portanto, definir o horizonte de previsão colabora para o aumento do grau de confiança, possibilitando que a organização elabore um planejamento mais realista para o cenário futuro. 2.3.5 Conjuntos de Treinamento e Teste A avaliação da precisão das previsões torna-se mais acurada quando utiliza-se de dados originais. Para tal objetivo, o conjunto de dados que formam a série temporal, ou outra forma qualquer de representação gráfica, é separado em duas partes. A primeira parte é denominada como a parte de treinamento do modelo. Essa parte é utilizada para a etapa de construção do melhor modelo de previsão. Nessa construção, deverão ser consideradas todas as características que estes dados possuem, como distribuição, média, linearidade, tendências e outros. Existem infinitas possibilidades de modelos e, inicialmente, a escolha dos mais apropriados é mediante a análise gráfica dos dados. Assim, após separada a parte dos dados que servirá para o treinamento do modelo, vem a segunda etapa, que é denominada de teste. Nessa segunda etapa, o segundo conjunto de dados é confrontado com os modelos de previsão, ou seja, os modelos são testados com dados reais. Isso possibilitará a avaliação, ou "teste", de como os modelos se comportam na previsão frente a um cenário realista, que são justamente os dados históricos que formam o conjunto de teste. A partir desse teste, é produzida uma série de erros residuais para cada um dos modelos testados. 2.3.6 Erros residuais A escolha do melhor modelo é baseada no seu respectivo diagnóstico residual. Os resíduos do modelo são formados pelos erros de previsão (e). O e mede a precisão das previsões, ou seja, a diferença entre o ocorrido e o previsto. Para tanto, é necessário consideramos que yi denota uma observação ith (ocorreu) e ŷi denota uma predição para yi (previsão). Assim, a fórmula para o erro de previsão será e = yi − ŷi, em outras palavras, o confronto entre o previsto e o observado (o que realmente ocorreu), representado pela Figura 10: 36 Figura 10 – Observado x Previsão Fonte: O Autor De acordo com Samohyl et al. (2008), as principais metodologias para avaliar a qualidade das previsões é utilizando-se dos seguintes índices de erros residuais: Medida Abreviação Característica 1 Mean error ME Erro médio 2 Mean absolute error MAE Erro médio absoluto 3 Mean Squared error MSE Erro médio Quadrático 4 Root mean squared error RMSE Raiz do erro médio quadrado 5 Mean absolute percentage error MAPE Erro percentual absoluto médio 6 mean absolute scaled error MASE Erro escalado média absoluta Tabela 3 – Medidas de cálculo de erro de previsão Fonte: (HYNDMAN; ATHANASOPOULOS, 2014) Dessa forma, os modelos de previsão são avaliados por meio dos cálculos adotados pelas medidas apresentadas na Tabela 3. Consequentemente, o modelo com menor resíduo tende a ser o mais adequado. Mais precisamente, essas medidas de cálculo de erro de previsão fornecem um diagnóstico, indicando qual modelo melhor se adapta ao padrão dos dados. Quando da separação do conjunto de dados original, o conjunto de dados denominado de teste deve possuir cerca de 20% do total da amostra, embora esse valor dependa de quanto tempo à frente será a previsão. O tamanho do conjunto de teste deve ser pelo menos tão grande quanto o horizonte de previsão (HYNDMAN; ATHANASOPOULOS, 2014). O restante dos dados são então para o conjunto de treinamento. 2.3.7 Séries Temporais Séries temporais podem ser definidas como sendo a distribuição de valores quantitativos ao longo de um determinado período. Segundo Wiener (1949), séries temporais são "sequências de dados quantitativos relativos a momentos específicos e estudados segundo sua distribuição no tempo". Assim, os dados devem seguir uma ordem cronológica, sem lacunas, para que haja condições para a análise do seu comportamento. Séries temporais possuem componentes que descrevem seu comportamento em relação ao passado e criam condições para projetar seu possível comportamento no futuro. Uma das características mais importantes das séries temporais é que 37 as observações vizinhas são interdependentes, e a análise dessa dependência gera um modelo matemático útil para projeções futuras. Existem cinco métodos mais comuns para previsão econômica por meio de séries temporais (GUJARATI; PORTER, 2011). O presente estudo terá foco no método de suavização exponencial e a autoregressão (AR) e o moving average (MA) ou média móvel, conhecido como método ARIMA. Uma série temporal, de acordo com Hyndman e Athanasopoulos (2014), possui os seguintes componentes: tendência, sazonalidade, ciclos e irregularidades. Por meio da decomposição da série temporal nesses quatro componentes é possível entender seu comportamento e, consequentemente,
Compartilhar