Baixe o app para aproveitar ainda mais
Prévia do material em texto
RODRIGO LEITE DURÃES VALIDAÇÃO DE MODELOS BASEADOS EM RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE DADOS E LÓGICA FUZZY Belo Horizonte – MG Outubro de 2009 RODRIGO LEITE DURÃES VALIDAÇÃO DE MODELOS BASEADOS EM RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE DADOS E LÓGICA FUZZY Dissertação apresentada ao Curso de Mestrado em Modelagem Matemática e Computacional do Centro Federal de Educação Tecnológica de Minas Gerais, como requisito parcial à obtenção do título de Mestre em Modelagem Matemática e Computacional. Área de concentração: Sistemas Inteligentes Modelagem Matemática e Computacional Orientador: Prof. Dr. Paulo Eduardo Maciel de Almeida CEFET-MG MESTRADO EM MODELAGEM MATEMÁTICA E COMPUTACIONAL CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS DIRETORIA DE PESQUISA E PÓS-GRADUAÇÃO Belo Horizonte – MG Outubro de 2009 Durães, Rodrigo Leite, 1978- D947v Validação de Modelos Baseados em RNA Utilizando Análise Estatística de Dados e Lógica Fuzzy / Rodrigo Leite Durães - Belo Horizonte: CEFET- MG, 2009. 123f. : il. Inclui Bibliografia. Dissertação (Mestrado em Modelagem Matemática e Computacional) - Centro Federal de Educação Tecnológica de Minas Gerais Orientador: Paulo Eduardo Maciel de Almeida. 1 - Inteligência computacional. 2 - Redes neurais artificiais. 3 - Lógica fuzzy. 4 - Estatística. I. Almeida, Paulo Eduardo Maciel de II. Centro Federal de Educação Tecnológica de Minas Gerais III. Título CDU 621.7.04 Folha de aprovação. Esta folha será fornecida pelo Programa de Pós-Graduação e deverá substituir esta. Aos meus pais, Sérgio e Idalice. Agradecimentos Agradeço a todas as pessoas que direta e indiretamente contribuíram para a rea- lização deste trabalho. A Deus por ter me dado a saúde e a fé necessários para a conclusão de mais uma jornada. Aos meus pais: Sérgio Alberto Oliveira Durães e Idalice de Magalhães Leite, que tanto me apoiaram nesse processo e em todos os momentos de minha vida. Ao meu orientador Prof. Dr. Paulo Eduardo Maciel de Almeida por ter acredi- tado em meu trabalho, pelo incentivo, conselhos e críticas, os quais permitiram meu crescimento pessoal e profissional. Ao Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) por participar, da minha formação acadêmica e pessoal. Aos professores e colegas do Grupo de Pesquisa em Sistemas Inteligentes - GPSI. Ao Laboratório de Sistemas Inteligentes do CEFET-MG (LSI) pelo apoio e infra- estrutura fornecidos. À todos os meus professores. Sem eles este trabalho não teria sido possível. Agradeço à direção, coordenação, funcionários e estagiários do Mestrado em Mo- delagem Matemática e Computacional e da Diretoria de Pesquisa e Pós-Graduação do CEFET-MG. A todos os amigos e colegas que me incentivaram. A todos vocês, meus sinceros agradecimentos. “Se não há troca de idéias, elas se tornam inúteis. Divulgá-las é o que as torna fortes.” Linus Benedict Torvalds Resumo Atualmente, a Inteligência Computacional (IC) e em particular as Redes Neurais Ar- tificiais (RNA) são muito usadas para modelagem de problemas em várias áreas de aplicação. Porém, na maioria dos trabalhos publicados, os autores não se aprofundam na discussão da qualidade estatística dos dados históricos usados para treinamento das RNA. A análise estatística utilizada como ferramenta para validar e melhorar os modelos obtidos com técnicas de IC não é muito abordada pelos trabalhos da área. Este trabalho aplica técnicas estatísticas em conjunto com técnicas de IC para aumen- tar a qualidade de modelos baseados em IC. Em linhas gerais, objetiva-se demonstrar a importância da qualidade dos dados para o desempenho de modelos que utilizam RNA. Especificamente, é analisado um modelo térmico na produção de aço, é verifi- cada a confiabilidade dos dados, a correlação das variáveis de entrada e saída, entre outros, e filtrados os dados com base na aplicação conjunta de métodos estatísticos e lógica fuzzy. Os resultados obtidos são comparados com técnicas convencionais de pré-processamento de dados para modelagem com RNA para solução do mesmo problema. Mostra-se que a utilização da análise estatística em conjunto com a lógica fuzzy é promissora para o refinamento de modelos baseados em RNA, para a classe de problemas abordada. PALAVRAS-CHAVE: inteligência computacional (IC); redes neurais artificiais (RNA); estatística; lógica fuzzy. Abstract Currently, Computational Intelligence (CI) and in special Artificial Neural Networks (ANN) have been largely used for the modeling of problems applied in several diffe- rent areas. However, in most of the published work in this field, the authors have not focus on a deeper discussion about the statistical quality of the historical data used on their ANN training. Indeed the statistical analysis which is used as tool to validate and improve the models obtained by CI techniques is not highlighted on the studies of this area. Therefore, this work underlines the application of statistical and CI techniques together, in order to increase the quality of CI models. In summary, the objective of this work is to demonstrate the importance of the data quality to the performance of models that use ANN. In addition, a thermal model is examined when applied on the production of steel. In this application the reliability of the used data, and the corre- lation of input and output variables are verified, and also data is filtered based on the joint application of statistical methods and fuzzy logic. Achieved results are compared with ANN techniques conventional used to solve the same problem. Finally, it is shown statistical analysis and fuzzy logic, when applied together, are a promising technique for the refinement of models based on ANN, for the studied problem class. KEY–WORDS: Computational Intelligence (CI); Artificial Neural Networks (ANN); sta- tistics; fuzzy logic. Lista de Figuras 2.1 Função linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 2.2 Função tangente sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . . p. 34 2.3 Função logarítmica sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . p. 34 2.4 Forma equivalente do teste F. . . . . . . . . . . . . . . . . . . . . . . . p. 55 2.5 Diagrama de Hassi-Euler: gráfico da função de pertinência fuzzy (AL- MEIDA, 2008). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63 3.1 Técnicas de tratamento estatístico propostas e implementadas neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 67 3.2 Técnicas de tratamento estatístico propostas e implementadas neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 75 3.3 Modelo Fuzzy de Sugeno para avaliação da qualidade. . . . . . . . . p. 76 3.4 Partição fuzzy de entrada CP. . . . . . . . . . . . . . . . . . . . . . . . p. 76 3.5 Partição fuzzy de entrada CPK. . . . . . . . . . . . . . . . . . . . . . . p. 77 3.6 Partição fuzzy de entrada IQRnorm. . . . . . . . . . . . . . . . . . . . p. 77 3.7 Partição fuzzy de saída Qualidade. . . . . . . . . . . . . . . . . . . . . p. 78 3.8 Representação gráfica de CP, CPK e Qualidade. . . . . . . . . . . . . p. 78 3.9 Representação gráfica de IQRnorm, CP e Qualidade. . . . . . . . . . p. 79 3.10 Representação gráfica de IQRnorm, CPK e Qualidade. . . . . . . . . p. 79 3.11 Sistema Fuzzy de Avaliação da Qualidade. . . . . . . . . . . . . . . . p. 80 3.12 Separação da base de dados filtrada em amostras. . . . . . . . . . . . p. 82 3.13 Escolha da RNA e do algoritmo de treinamento. . . . . . . . . . . . . p. 83 3.14 Treinamento, validação e teste de um modelo neural. . . . . . . . . . . p. 83 4.1 Gráfico de desempenho dos dados de treinamento de um modelo neural. . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 106 4.2 Gráfico de desempenho dos dados de treinamento de um modelo neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 107 Lista de Tabelas 2.1 Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003). . . . . . . p. 32 3.1 Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . . p. 80 3.2 Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . . p. 80 4.1 Experimentos de filtragem de dados: base 1 . . . . . . . . . . . . . . p. 88 4.2 Experimentos de filtragem de dados: base 2 . . . . . . . . . . . . . . p. 88 4.3 Experimentos de filtragem de dados: base 3 . . . . . . . . . . . . . . p. 89 4.4 Experimentos de filtragem de dados: base 4 . . . . . . . . . . . . . . p. 89 4.5 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90 4.6 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91 4.7 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91 4.8 Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92 4.9 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 1 . . . . . . . . . . . . p. 92 4.10 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 2 . . . . . . . . . . . . p. 93 4.11 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 3 . . . . . . . . . . . . p. 93 4.12 Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, stepwise e PCA: base 4 . . . . . . . . . . . . p. 94 4.13 Resultados da RNA: etapa de treinamento relativa à base 3 . . . . . . p. 97 4.14 Resultados da RNA: etapa de validação relativa à base 3 . . . . . . . p. 97 4.15 Resultados da RNA: etapa de teste relativa à base 3 . . . . . . . . . . p. 98 4.16 Resultados da RNA: etapa de treinamento relativa à base 4 . . . . . . p. 99 4.17 Resultados da RNA: etapa de validação relativa à base 4 . . . . . . . p. 99 4.18 Resultados da RNA: etapa de teste relativa à base 4 . . . . . . . . . . p. 100 4.19 Hipóteses alternativas do teste z. . . . . . . . . . . . . . . . . . . . . . p. 104 4.20 Comparação de resultados. . . . . . . . . . . . . . . . . . . . . . . . . p. 105 Lista de Códigos Fontes 2.1 Regras Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63 2.2 Regras de um modelo Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . p. 63 2.3 Regras de um modelo Fuzzy TSK. . . . . . . . . . . . . . . . . . . . . p. 64 3.1 Código SQL para consulta de inconsistências. . . . . . . . . . . . . . p. 71 3.2 Código SQL para consulta de inconsistências. . . . . . . . . . . . . . p. 71 3.3 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73 3.4 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73 3.5 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73 3.6 Código SQL para seleção de dados válidos. . . . . . . . . . . . . . . . p. 74 A.1 Regras Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120 Lista de Abreviaturas e Siglas AHP - Analytic Hierarchy Process ANCOVA - Análise de Covariância ANFIS - Adaptive Neuro-fuzzy Inference Systems ANOVA - Analise of Variance ARA - Algoritmos para Rank de Atributos ◦C - Graus Celsius CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais CFS - Porcentagem de carbono no fim do sopro CIB - Porcentagem de carbono in blow CMAC - Cerebellar Model Articulation Controller EQM - Erro quadrático médio GPSI - Grupo de Pesquisas em Sistemas Inteligentes GRADCOD - Código do Aço HMTCGU1 - Percentual de Carbono do Gusa (%) HMTMNGU1 - Percentual de Manganês do Gusa (%) HMTPGU1 - Percentual de Fósforo do Gusa (%) HMTSIGU1 - Percentual de Silício do Gusa (%) HMTTEMGU1 - Temperatura do Gusa (oC) HOTMETAL - Quantidade de Gusa (kg) IC - Inteligência Computacional IEQ - Intervalo entre o primeiro quartil e o terceiro quartil IQR - InterQuantile Range kg - Quilograma LANAGE - Idade da Lança de Sopro LIMAMO - Quantidade de Cal Calcítica (kg) LIMDOLAMO - Quantidade de Cal Dolomítica (kg) LM - Levenberg-Marquardt LSI - Laboratório de Sistemas Inteligentes LOGSIG - Função Sigmoidal Unipolar MFe - Minério de ferro MLP - Multi-Layer Perceptron MSE - Mean Squares of Error MST - Mean Squares for Treatments NUMCORRIDA - Número da Corrida Oxig - Oxigênio OXYCUR - Volume de Oxigênio Soprado (m3) PCA - Análise de Componentes Principais PURELIN - Função Linear RADBAS - Função de Base Radial RBF - Radial Basis Function (Redes Neurais de Base Radial) RNA - Redes Neurais Artificiais R & R - Repetitividade e Reprodutibilidade SCRTOTAMO - Quantidade Total de Sucata (kg) SQL - Structured Query Language SSE - Error Sum of Squares ou Sum of Squares Errors SST - Total Sum of Squares ou Sum of Squares for Treatments TANSIG - Função Sigmoidal Bipolar TEMACT - Temperatura do Aço (oC) TFS - Temperatura do aço no fim do sopro TIB - Temperatura in blow V & M - Vallourec & Mannesmann do Brasil VESAGE - Idade do Vaso Sumário 1 INTRODUÇÃO p. 20 1.1 RELEVÂNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 1.2 ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 1.3 CARACTERIZAÇÃO DO PROBLEMA . . . . . . . . . . . . . . . . . . p. 26 1.4 MOTIVAÇÃO E OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . p. 27 1.5 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . p. 29 2 REFERENCIAL TEÓRICO p. 31 2.1 REDES NEURAIS ARTIFICIAIS . . . . . . . . . . . . . . . . . . . . . p. 31 2.1.1 Redes Multi-Layer Perceptron - MLP . . . . . . . . . . . . . . . p. 32 2.1.2 Redes de Elman . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38 2.2 ESTATÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38 2.2.1 Análise de Componentes Principais . . . . . . . . . . . . . . . p. 39 2.2.2 As Medidas de Semelhança . . . . . . . . . . . . . . . . . . . p. 46 2.2.3 Correlação por Posto . . . . . . . . . . . . . . . . . . . . . . . p. 48 2.2.4 Correlação Parcial . . . . . . . . . . . . . . . . . . . . . . . . . p. 49 2.2.5 Intervalo entre Q1 e Q3 . . . . . . . . . . . . . . . . . . . . . . p. 49 2.2.6 Teste de Proficiência . . . . . . . . . . . . . . . . . . . . . . . . p. 51 2.2.7 Redução de Dados Utilizando Algoritmos para Ranking de Atri- butos (ARA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51 2.2.8 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . p. 52 2.2.9 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53 2.2.10 Teste Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 2.2.11 Análise Discriminante . . . . . . . . . . . . . . . . . . . . . . . p. 56 2.2.12 Índice de Capacidade (CP) . . . . . . . . . . . . . . . . . . . . p. 59 2.2.13 Índice de Capacidade K (CPK) . . . . . . . . . . . . . . . . . . p. 60 2.3 LÓGICA FUZZY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61 2.3.1 Modelo de Takagi-Sugeno-Kang . . . . . . . . . . . . . . . . . p. 64 2.4 DISCUSSÕES FINAIS . . . . . . . . . . . .. . . . . . . . . . . . . . . p. 64 3 DETALHAMENTO DA PROPOSTA DE REFINAMENTO DE MODELOS BASEADO EM TÉCNICAS ESTATÍSTICAS p. 66 3.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . . p. 66 3.2 PROPOSTA GERAL DE REFINAMENTO ESTATÍSTICO . . . . . . . . p. 66 3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO . . . . . . . . . . . . . . . . p. 67 3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS . . . . . . p. 69 3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS . . . . . . . . . . . . p. 69 3.5.1 Seleção e Tratamento de Dados . . . . . . . . . . . . . . . . . p. 70 3.6 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83 4 EXPERIMENTOS E AVALIAÇÃO DOS RESULTADOS p. 85 4.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . . p. 85 4.2 POPULAÇÃO E AMOSTRAS . . . . . . . . . . . . . . . . . . . . . . . p. 85 4.3 TRATAMENTO E ANÁLISE DOS DADOS . . . . . . . . . . . . . . . . p. 93 4.4 VALIDAÇÃO DO MODELO . . . . . . . . . . . . . . . . . . . . . . . . p. 100 4.5 COMPARAÇÃO DOS RESULTADOS . . . . . . . . . . . . . . . . . . . p. 104 4.6 LIMITAÇÕES DO MÉTODO . . . . . . . . . . . . . . . . . . . . . . . . p. 106 4.7 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 108 5 CONCLUSÃO p. 109 5.1 CONTRIBUIÇÕES DESTE TRABALHO . . . . . . . . . . . . . . . . . p. 111 5.2 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . p. 112 Referências Bibliográficas p. 113 Apêndice A -- Banco de Conhecimento Fuzzy Empregado p. 120 20 1 INTRODUÇÃO 1.1 RELEVÂNCIA A década de 1990 trouxe um crescente problema de supersaturação de dados ao mundo da ciência, dos negócios e do governo (INMON, 1997), (INMON; WELCH; GLASSEY, 1999) e (KIMBALL, 1996). A capacidade de coletar e armazenar dados excedeu em muito a habilidade de analisar, sintetizar e extrair conhecimento desses dados. Conforme a norma NBR ISO 9001:2000, capacidade é definida como a aptidão de uma organização, sistema ou processo de realizar um produto que irá atender aos requisitos especificados para este produto (NBR ISO 9001, 2000). A preocupação com a qualidade é tão antiga quanto a própria humanidade. Desde que o homem pré-histórico confeccionou o seu primeiro artefato, surgiu a preocupação com a adequação do uso do produto às necessidades de quem o utiliza. Foi somente com a introdução do conceito de produção em massa que a qualidade começou a ser abordada sob uma ótica diferente. A qualidade é o atendimento das necessidades dos clientes de forma constante e consistente (BAPTISTA, 1996), (IMAM, 2004) e (RAMOS, 2000). Processos industriais normalmente são caracterizados por inúmeros fenômenos que, se tratados individualmente, não descrevem com precisão a modelagem como um todo, e a interação de vários fenômenos num mesmo processo leva a um alto nível de complexidade de modelagem. Segundo Cunha (2001), os conhecidos problemas de variação dos resultados de qualidade de matérias-primas e do produto adicionam ainda maiores dificuldades de validação de modelos matemáticos para um sistema complexo. Com base na norma NBR ISO 9001:2000, define-se processo como um conjunto de atividades inter-relacionadas ou interativas que transformam insumos (en- tradas) em produtos (saídas) (NBR ISO 9001, 2000). Quando a complexidade do processo excede um determinado grau, os modelos 1.2 ESTADO DA ARTE 21 matemáticos não apenas se tornam intratáveis, como também sua precisão e con- fiabilidade relativas à realidade física se tornam questionáveis. Porém, as diversas simplificações feitas por causa das limitações físicas, torna contraditório a busca cada vez maior de precisão na modelagem matemática. Como alternativa à modelagem rigorosa de processo tem-se a implantação de redes neurais artificiais. Segundo (MEIRELES; ALMEIDA; SIMOES, 2003), as RNA (redes neurais artificiais) têm se mostrado um campo vasto para pesquisa aplicada. Estas técnicas de simulação têm se mostrado uma importante ferramenta para análise de sistemas complexos. 1.2 ESTADO DA ARTE As RNA, os sistemas fuzzy e as técnicas estatísticas, que serão discutidos no Capítulo 2, vêm hoje sendo utilizados em modelagem e reconhecimento de padrões, dentre outros. A seguir são descritos alguns trabalhos relacionados à aplicação destas técnicas na modelagem de sistemas: No trabalho de Meireles, Almeida e Simoes (2003) é estudado o avanço das pes- quisas em RNA e é destacado que o objetivo das mesmas foi progressivamente mu- dando, da construção de uma máquina que mimetizasse o comportamento do cérebro, para a busca de uma máquina que efetivamente aprendesse. Este trabalho é impor- tante para o entendimento da técnica de RNA. Ribeiro et al. (2005) propõem uma comparação entre duas metodologias, a de RNA e o modelo de regressão (MR), para estimar profundidades batimétricas a partir de imagens. Este trabalho é relevante porque caracteriza as duas metodologias. O trabalho de Fernandes, Navaux e Portugal (1996) possui um duplo objetivo: por um lado, o modelo de RNA é apresentado dando destaque às suas características estatísticas; e, por outro, são apresentados dois exercícios de previsão empíricos nos quais se tenta comparar o desempenho das RNA e do modelo de séries de tempo estrutural, que pertence à classe dos modelos de decomposição em componentes não-observáveis. Os modelos econométricos tradicionais são usados para fornecer uma base inicial para a determinação da arquitetura da RNA. Os resultados mostram que, para as previsões um passo à frente, não é possível discriminar inequivocamente a favor de um dos modelos; contudo, para previsões com horizontes de tempo mais 1.2 ESTADO DA ARTE 22 longos, a RNA apresenta maior capacidade preditiva. O trabalho é pertinente porque mostras as semelhanças entre a estatística e as RNA. Moraes e Silveira (2006) apresentam o processo de gestão de perdas não-técnicas na ELEKTRO, em busca da excelência no desempenho operacional utilizando estudos estatísticos, redes neurais e árvores de decisão. O que contribui para a escolha dos métodos aqui utilizados. Colombo, Guerra e Aguayo (2006) aplicam técnicas e ferramentas de extração automático e inteligente de conhecimento a base de dados relacional na avaliação da qualidade de produtos de software usando diferentes técnicas e ferramentas de: preparação de dados (estatística, teoria da informação), análises inteligente de dados (estatística, visualização de dados, inteligência artificial), sistemas de bases de dados (base de dados relacional, sistema gerenciador de banco de dados). Estas diferentes técnicas auxiliaram na abordagem que foi utilizada. Toyoshima et al. (2003) fizeram um estudo sobre aglomerações industriais brasi- leiras, mais especificamente, as do Rio Grande do Sul e as de São Paulo, procurando verificar se há diferenças relevantes em relação ao desenvolvimento de municípios que possuem grande concentração em uma ou poucas indústrias, daquelas que di- versificam mais a produção industrial ou possuem pouca atividade industrial. Para isso foram utilizadas duas técnicas diferentes de classificação de grupos - a análise multivariada discriminante e a de redes neurais. Estas duas técnicas foram utilizadas. O trabalho de Costa (2009) apresenta uma aplicação da metaheurística Otimiza- ção por Enxame de Partículas (Particle Swarm Optimization - PSO) na identificação de pontos influentes em modelos de regressão. Foi utilizada, como função objetivo, a função de sensibilidade de casos gCook(E) que tem comportamento multimodal. A eficiência da metodologia proposta foi testada em conjuntos de dados simulados e em um conjunto com dados observados. Os resultados obtidos mostram que esta metodologia apresenta soluções satisfatórias na identificaçãode pontos influentes. O trabalho auxiliou no tratamento de dados suspeitos. Nos trabalhos de Zarate, Paoliello e Ribeiro (2003b) e Zarate, Paoliello e Ribeiro (2003a) é aplicada a metodologia KDD (Knowledge Discovery in Databases) utilizando técnicas de clusterização em Data Mining para identificar grupos com condições de operação e características que permita auxiliar nos procedimentos de manutenção de um motor de combustão. Zarate (2003) mostra a aplicação de Data Mining em bases de dados com dados suspeitos. Este trabalho auxiliou na escolha da metodologia aqui 1.2 ESTADO DA ARTE 23 aplicada. No trabalho de Oliveira (2003) é apresentada uma introdução à Descoberta de Co- nhecimento em Banco de Dados (KDD Knowledge Discovery in Database), desde os conceitos de conhecimento e consciência, surgimento histórico, sua relação com ou- tras áreas próximas ao KDD como DataWarehouse, Aprendizado de Máquina, Agente de Conhecimento, entre outras. Também é discutido o conceito de DataMining, suas etapas e suas mais comuns aplicações. O trabalho é importante porque apresenta técnicas de processamento que são aqui utilizadas. REIS JUNIOR (2005) propôs a modelagem térmica de um processo de laminação de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem ele utili- zou redes neurais artificiais Fuzzy-CMAC. Este algoritmo de treinamento é um método de gradiente de 1a ordem. A variável de saída da rede era a temperatura. Os erros de generalização obtidos com as redes fuzzy-CMAC e ANFIS (Adaptive Neuro-fuzzy Inference Systems) equivalem respectivamente a 3,37 % e 3,78 % da média de tem- peratura do laminador. Estes valores são próximos aos obtidos no treinamento, que foram: 3,27 % para rede fuzzy-CMAC e 3,72 % para rede ANFIS. No entanto, o nú- mero de parâmetros utilizado na rede fuzzy-CMAC era menor que da rede ANFIS. Na rede MLP (Multi-Layer Perceptron), o erro de generalização obtido equivale a 7,53 % da temperatura média do laminador. O valor de EQM (erro quadrático médio) para o treinamento da MLP foi 7 % do valor da temperatura média. O problema apresentado se assemelha ao problema que será modelado. Os trabalhos existentes na área de Inteligência Computacional (IC) demonstram um grande interesse no emprego das técnicas de Redes Neurais Artificiais (RNA) para solução de problemas, porém em todos os trabalhos analisados, o pesquisador apenas comparou as RNA com outros métodos, dentre eles a estatística, sem se apro- fundar na discussão de uma possível utilização conjunta destes métodos. A análise estatística de dados utilizada como ferramenta para validar os modelos obtidos é uma área de pesquisa não muito abordada pelos trabalhos de IC. Foi desenvolvido por Cunha (2001) um modelo dinâmico para o processo de refino de aço via redes neurais artificiais. O mesmo utilizou o backpropagation, um algoritmo de treinamento de primeira ordem (a derivada de primeira ordem na equação de atuali- zação dos pesos que fazem conexão entre os neurônios da rede), e alcançou o acerto simultâneo de 73,3 %. Para a simulação do modelo dinâmico de Cunha (2001) foram consideradas 5.030 bateladas (filtradas de 15.000 bateladas) para treinamento e 200 1.2 ESTADO DA ARTE 24 bateladas para testes. São três conversores a oxigênio trabalhando continuamente, resultando em aproximadamente 70 bateladas por dia. Cada conversor apresenta um volume de 190 m3. Em cada batelada o conversor recebe uma carga total (gusa e sucata) de 245 toneladas para produzir 220 toneladas de aço. As variáveis de en- trada deste modelo são determinadas a partir da disponibilidade dos dados à época. Desta forma são definidas quatro variáveis de entrada: a temperatura do banho me- dida pela sublança (TIB - temperatura in blow), a porcentagem de carbono do banho calculado pela temperatura de solidificação, pelo diagrama Fe-C, obtida pela amostra da sublança (CIB - porcentagem de carbono in blow) e as quantidades de minério de ferro (MFe) e de oxigênio (Oxig) determinadas pelo modelo vigente e implementadas pelo operador para o restante do sopro. As variáveis de saída são: a porcentagem de carbono (CFS) e a temperatura do aço (TFS) no período de fim de sopro. A es- trutura de rede com a qual Cunha (2001) obteve o melhor resultado para o modelo dinâmico foi uma rede feedforward multicamada, com duas camadas escondidas e topologia 4x9x3x2 e 4x3x3x2. As funções de ativação utilizadas nos cálculos internos dos neurônios são do tipo sigmoidal. Pacianotto (2003) continuou o trabalho de Cunha (2001) usando somente a mo- delagem dinâmica, ou seja, as saídas da rede que atuam diretamente no processo utilizando um algoritmo de segunda ordem. Sua rede tinha como saídas o carbono e a temperatura no fim de sopro. Foi atingido um percentual de acerto de 97,5 % dos valores de temperatura e 90,6 % dos valores de carbono (para valores de carbono pró- ximos a 0,04 %) nas bateladas processadas. O algoritmo de treinamento utilizado foi o de Levenberg-Marquadt que é de segunda ordem. Ambos os trabalhos são relevantes ao trabalho aqui apresentado. Rocha e Souza (2004) propuseram a modelagem térmica de um processo de lami- nação de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem eles utilizaram redes neurais artificiais MLP e RBF (Radial Basis Function). A variá- vel de saída da rede era a temperatura. Conseguiu-se chegar ao erro percentual de 0,57% com a rede MLP, considerando a temperatura média de saída igual a 850o. Este trabalho possui relevância ao problema aqui tratado. TECHSTEEL (2007) propôs a modelagem do processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M). Para esta etapa da modelagem foram uti- lizados: análise do tipo e fonte dos dados disponíveis, condicionamento e avaliação estatística dos dados, determinação das variáveis relevantes para definição do mo- 1.2 ESTADO DA ARTE 25 delo. Esta modelagem auxiliou na avaliação estatística aqui desenvolvida. Dominguete et al. (2006) apresenta um novo modelo para a estimativa do teor de fósforo para o Convertedor LD da V & M do Brasil utilizando redes neurais. Este modelo auxiliou na construção do modelo aqui descrito. Moreira e Lana (2002) mostra como a geração de escória de aciaria LD pelo mé- todo de convertedor com sopro de oxigênio é realizada. Este trabalho foi relevante para a compreensão do problema aqui abordado. Nos trabalhos de Almeida e Simoes (2001), Almeida (2002) e Almeida e Simoes (2003) é proposta a rede CMAC (Cerebellar Model Articulation Controller) Paramé- trica (P-CMAC), que não é um algoritmo de aprendizagem, mas sim uma estrutura neural. Esta estrutura estipula como as camadas de uma rede neural devem ser co- nectadas, mas não utiliza obrigatoriamente um algoritmo de aprendizagem, podendo ser então variado este algoritmo a fim de se obter um resultado satisfatório, levando- se em conta tempo de processamento e recursos computacionais necessários a seu funcionamento. Almeida e Simoes (2003) propõe uma rede MLP com o algoritmo de treinamento backpropagation, no mesmo pode-se compreender o modo de operação do algoritmo considerando a descrição feita por eles. Estes trabalhos foram relevantes para a compreensão da técnica de RNA. Araujo (2006) e Araujo (2007) propôs a modelagem de parte de um processo de laminação de tubos de aço da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem ele utilizou o algoritmo Levemberg-Marquardt (LM) para treinar uma rede neural artificial com arquitetura MLP (Multi-Layer Perceptron). A variável de saída da rede era a temperatura do aço. Os resultados obtidos no treinamento e execução da rede não foram considerados adequados porque as RNA não alcançaram a precisão desejada. Estes trabalhos apresentam semelhançasao trabalho aqui descrito. (DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b) propõem a utiliza- ção de técnicas estatísticas e lógica fuzzy para validar modelos baseados em RNA. Utilizando o modelo fuzzy de Sugeno e as redes MLP, Elman e Cascade-Forward, e tendo como variável de saída a temperatura do aço, os resultados obtidos foram considerados adequados, sendo os mesmos apresentados neste trabalho. 1.3 CARACTERIZAÇÃO DO PROBLEMA 26 1.3 CARACTERIZAÇÃO DO PROBLEMA Este trabalho analisa um problema térmico na produção de aço e verificar a con- fiabilidade dos dados e a correlação das variáveis de entrada e saída, comparando o resultado da rede neural aplicada na base de dados sem modificações com a rede neural aplicada na base de dados modificada, e também comparar as diversas técni- cas estatísticas empregadas na fase de filtragem. O problema em questão surgiu quando Araujo (2008) propôs a modelagem do processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M). Na mo- delagem foram utilizadas redes neurais artificiais MLP e P-CMAC. A variável de saída da rede era a temperatura do aço. Os resultados obtidos no treinamento e execução da rede não foram considerados adequados porque os erros médios foram superiores à precisão do sensor da V&M que é 20◦C. A hipótese inicial do presente trabalho é que a base de dados usada por Araujo (2008) para o treinamento do modelo neural é muito ruidosa, portanto, foi proposta uma nova abordagem para tratamento dos dados do problema em questão, um pré- processamento dos dados. Estas bases de dados são uma importante fonte de infor- mação, porém, muitas vezes, não são exploradas dadas às dificuldades inerentes ao grande volume de dados, ultrapassando assim a habilidade técnica e a capacidade humana em sua interpretação (CARVALHO, 2005). Assim, foram utilizadas técnicas estatísticas com o intuito de verificar se as mes- mas sanavam esta deficiência da modelagem. Para tanto, foi necessário pesquisar e eliminar as causas assinaláveis que estavam afetando a qualidade dos dados, e, as- sim, permitir o entendimento das ferramentas que iam ser utilizadas na busca contínua da eliminação dos fatores que comprometem a qualidade do modelo. O contexto deste trabalho é o estudo e a análise de dados durante sua coleta e tratamento nos mais variados níveis. Com o emprego dessa ferramenta, pode-se clas- sificar dados suspeitos e é possível reduzir o número de parâmetros para treinamento das redes. A grande questão é encontrar métodos eficientes para tratar os dados suspeitos, pois estes, por exemplo, podem prejudicar o desempenho dos modelos matemáticos empregados para entender os fenômenos envolvidos. 1.4 MOTIVAÇÃO E OBJETIVOS 27 1.4 MOTIVAÇÃO E OBJETIVOS Para lidar com a supersaturação de dados, se faz necessária uma nova geração de ferramentas inteligentes para extração automatizada de dados e descoberta de conhecimento. Essa necessidade já foi reconhecida por pesquisadores de diversas áreas, inclusive de aprendizado de máquina, estatística, bancos de dados inteligentes, sistemas especialistas, computação neural e visualização de dados (AMOR, 2000), (CARVALHO, 2005), (INMON, 1997), (INMON; WELCH; GLASSEY, 1999), (KIMBALL, 1996), (MENEZES, 2003), (PASSOS; GOLDSCHMIDT, 2005) e (SINGH, 2001). Além disso, é preciso despertar a consciência para o estudo, utilização e difusão destas ferramentas. Assim, o objetivo deste trabalho é demonstrar a importância da qualidade dos dados em um sistema que utiliza RNA. A seguir são apresentados os objetivos específicos deste trabalho: • Aperfeiçoar modelos matemáticos baseados em RNA; • Fazer um estudo comparativo de desempenho entre diferentes arquiteturas de RNA; • Investigar a influência dos parâmetros de treinamento, do tamanho e da compo- sição do conjunto de dados de entrada no desempenho de modelos neurais; • Comparar diversas técnicas de análise de dados suspeitos; • Avaliar os resultados em relação às técnicas tradicionais. Espera-se que o resultado deste trabalho dê a outros pesquisadores a possibili- dade de evoluir na construção de sistemas neurais. 1.5 METODOLOGIA O estudo aqui proposto é de natureza analítica e visa organizar e sistematizar os aspectos mais relevantes encontrados no trabalho (GIL, 2000a), (MARCONI; LAKA- TOS, 2002) e (FRANCA; VASCOCELLOS, 2004). O objetivo intrínseco do trabalho aponta para os aspectos da qualidade do produto e para a qualidade do modelo para fins industriais. 1.5 METODOLOGIA 28 Em relação ao modo de abordagem do problema, a pesquisa é classificada como qualitativa, pois utiliza coleta de dados levantando as condições iniciais relevantes e posteriormente apresentando uma justificativa. É também uma pesquisa quanti- tativa, pois os resultados serão classificados e analisados (GIL, 2000b), (LAVILLE; DIDONNE, 1977) e (SILVA; MENEZES, 2001). Os objetivos da pesquisa a classificam como exploratória, pois visa investigar o problema com vistas a torná-lo explícito ou a construir hipóteses (BORBA et al., 2004), (CERVO; BERVIAN, 1983) e (DUARTE; FURTADO, 2002). Nesse contexto, a hipótese que a pesquisa pretende comprovar é a seguinte: É possível refinar modelos baseados em RNA a partir da análise estatística dos dados históricos usados para o treinamento das redes? Para alcançar os objetivos propostos, foram percorridos os seguintes passos: • Revisão da literatura: Foi feita uma revisão bibliográfica sobre estatística, RNA, lógica fuzzy e análise estatística; • Exploração do espaço solução: Realização de um estudo abrangente sobre o desenvolvimento de trabalhos de modelagem de processos, com a utilização de RNA, lógica fuzzy e análise estatística. Cada processo, cada etapa, cada produto, requer um trabalho específico e, por isto, é preciso despertar a sen- sibilidade para a escolha e uso da ferramenta ou conjunto de ferramentas que melhor se adequa ao caso a ser estudado (CAMPOS, 2003), (BAPTISTA, 1996) e (RAMOS, 2000). • Pré-processamento da base de dados: Verificação de inconsistências e ruídos nos dados fornecidos, usando a análise estatística das variáveis. É efetuada uma limpeza independente de domínio, como decisão da estratégia de tratamento de atributos incompletos, remoção de ruído e tratamento de conjuntos não balan- ceados (CARVALHO, 2005), de modo que o treinamento inicial da rede seja otimizado, eliminando dados dos campos que não agregam informações ao pro- cesso. Costuma-se afirmar que esse passo leva cerca de 80 % do tempo total do processo. • Seleção dos dados: Seleção e coleta do conjunto de dados ou variáveis neces- sárias. Para tanto foi utilizado a linguagem de consulta estruturada (SQL) devido à sua simplicidade e facilidade de uso. É necessário que haja bom senso na es- colha do valor do tamanho amostral e do número de variáveis a serem medidas, 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO 29 levando-se em consideração o orçamento da pesquisa e a qualidade dos dados que serão obtidos e utilizados na análise final (CAMPOS, 2003), (BAPTISTA, 1996) e (RAMOS, 2000). • Transformação dos dados: Transformação dos dados em um formato apropri- ado. As amostras foram representadas usando arquivos tipo texto. Este padrão possui um ótimo desempenho para exportação e análise de base de dados. Os dados foram arrendondados de forma a garantir uma precisão de até duas casas decimais. Para a realização da análise de forma apropriada, os dados foram nor- malizados de forma a estabelecer uma unidade padrão para todas as grandezas presentes no banco de dados. A normalização escolhida foi a normalização pela média. A medida de proximidade adotada é a distância de Mahalanobis. • Avaliação da qualidade dos dados: Utilização da lógica fuzzy e das técnicas estatísticas para avaliara qualidade dos dados. • Definição das RNA e os algoritmos de treinamento: Escolha das RNA e os algo- ritmos de treinamento utilizados. • Treinamento das RNA: Treinamento das RNA com os dados originais e tratados provenientes do processo de produção de aço da V&M do Brasil; • Realização de testes de validação do modelo obtido: Análise dos resultados dos dados provenientes do processo de aciaria da V&M do Brasil e comparação com base nos estudos feitos na literatura; • Análise dos Resultados da Pesquisa e Discussão: Análise e avaliação dos resul- tados obtidos. 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO Este trabalho está dividido em cinco Capítulos, sendo que o Capítulo 2 abrange os diversos conteúdos teóricos necessários a um amplo entendimento do objeto de estudo: os conceitos sobre estatística, RNA e lógica fuzzy. O Capítulo 3 apresenta a população e as amostras, os instrumentos de coleta de dados e o tratamento e a análise dos dados provenientes do processo de aciaria da V&M do Brasil e os compara com base nos estudos feitos na literatura. 1.6 ORGANIZAÇÃO DA DISSERTAÇÃO 30 No Capítulo 4, por meio de técnicas predominantemente estatísticas serão anali- sados e avaliados os resultados do trabalho bem como são apresentadas a eficiência e a eficácia dos métodos propostos. O Capítulo 5 proporciona uma avaliação geral do trabalho desenvolvido, descre- vendo as conclusões, bem como as possíveis limitações, além de propor melhorias para as mesmas com as sugestões de trabalhos futuros para a continuidade da pes- quisa. 31 2 REFERENCIAL TEÓRICO Este Capítulo descreve as principais técnicas utilizadas. A Seção 2.1 apresenta a teoria das RNA, sua definição, características, aplicações e algoritmos de treinamento. A Seção 2.2 apresenta as técnicas estatísticas utilizadas. A Seção 2.3 descreve a lógica fuzzy e suas aplicações. A Seção 2.4 encerra o capítulo com as discussões finais. 2.1 REDES NEURAIS ARTIFICIAIS As Redes Neurais Artificiais (RNA) são modelos matemáticos que se assemelham às estruturas neurais biológicas e que têm capacidade computacional adquirida por meio de aprendizado e generalização (CARVALHO, 2005). Estruturalmente, uma rede neural consiste em um número de elementos interco- nectados (chamados neurônios) organizados em camadas. Geralmente constroem superfícies equacionais complexas por meio de interações repetidas, cada instante ajustando os parâmetros que definem a superfície. Cada neurônio geralmente tem um conjunto de pesos que determina como o neurônio avalia a combinação dos sinais de entrada. A entrada para um neurônio pode ser positiva ou negativa. O aprendizado se faz pela modificação dos pesos usa- dos pelo neurônio em acordo com a classificação de erros que foi feita pela rede como um todo. As entradas são geralmente pesadas e normalizadas para produzir um pro- cedimento suave. Assim, uma RNA pode ser definida como um arranjo de neurônios artificiais, na qual pode-se distinguir neurônios de entrada, neurônios internos e neurônios de saída. A forma como estes neurônios estão interconectados define a arquitetura da rede. Estas são em geral de três tipos, a saber conforme a Tabela 2.1: 2.1 REDES NEURAIS ARTIFICIAIS 32 Tabela 2.1: Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003). 2.1.1 Redes Multi-Layer Perceptron - MLP Uma arquitetura de rede MLP (Multi-Layer Perceptron) possui as seguintes carac- terísticas: • O fluxo de sinal na rede é unidirecional, da esquerda para a direita, camada a camada; • A rede é do tipo totalmente conectada, qualquer camada da rede está conectada a todas as outras unidades na camada anterior. Não existem conexões entre os neurônios de camadas não adjacentes, e nem conexões entre neurônios em uma mesma camada (ALMEIDA; SIMOES, 2003); • O modelo de cada neurônio da rede inclui uma função de ativação não linear e diferenciável em qualquer ponto; • O processamento realizado por cada neurônio é definido pela combinação dos processamentos realizados pelos neurônios da camada anterior que estão co- nectados a ele. Segundo Braga, Carvalho e Ludermir (2007) e Carvalho (2005), as redes MLP apresentam um poder computacional muito maior que as redes sem camadas inter- mediárias. Em um número finito de iterações, uma rede com uma camada oculta con- segue aproximar qualquer função contínua, enquanto uma com duas camadas ocultas é capaz de aproximar qualquer função não linear, mesmo que descontínua (ALMEIDA; SIMOES, 2003). 2.1 REDES NEURAIS ARTIFICIAIS 33 A função de ativação representa o efeito que a entrada interna e o estado atual de ativação exercem na definição do próximo estado de ativação da unidade. O grau de ativação é, assim, determinado a partir da excitação externa. Existem várias fun- ções de ativação, mas apenas algumas encontram aplicações práticas relevantes (AL- MEIDA; SIMOES, 2003). Neste trabalho são utilizadas as funções linear (Figura 2.1), tangente sigmoidal (Figura 2.2) e logarítmica sigmoidal (Figura 2.3). Figura 2.1: Função linear. Para definir o número de neurônios da camada oculta usados em um modelo de RNA, é comum o emprego do teorema proposto por Kolmogorov-Nielsen ((TA- KAHASHI; RABELO; TEIXEIRA, 2008), (MARTINS et al., 2009), (DORNELLES; PE- DROLLO; GOLDENFUM, 2006), (GOMES, 2005), (FERRONATO, 2008) e (STEINER, 2009)): “Dada uma função contínua arbitrária F : [0,1]m→ RM, f(x)=y, ∃∀ f , uma implemen- tação exata com uma rede neural de três camadas, sendo a camada de entrada um vetor de dimensão m, a camada oculta composta por 2n+1 neurônios, e a camada de saída com M neurônios, representando as M componentes do vetor y.”. As RNA têm se mostrado um campo vasto para pesquisa aplicada (MEIRELES; ALMEIDA; SIMOES, 2003). Ao contrário do que possa parecer à primeira vista, as 2.1 REDES NEURAIS ARTIFICIAIS 34 Figura 2.2: Função tangente sigmoidal. Figura 2.3: Função logarítmica sigmoidal. 2.1 REDES NEURAIS ARTIFICIAIS 35 RNA têm vários pontos de contato com os modelos estatísticos e econométricos tra- dicionais. Estas ligações acabam embotadas pelo uso de jargões técnicos distintos. Back-Propagation O algoritmo back - propagation, também conhecido como algoritmo de retropro- pagação do erro, é um algoritmo de aprendizado supervisionado. Esse algoritmo tem como objetivo minimizar a função de erro entre a saída real e a desejada, utilizando o método do gradiente descendente. As redes neurais feedforward com algoritmo de aprendizagem tipo back - propagation se tornaram muito populares, devido à capaci- dade de resolver a maioria dos problemas de reconhecimento de padrões (BRAGA; CARVALHO; LUDERMIR, 2007), (HAYKIN, 2007) e (MEDEIROS, 2003). A topologia de uma rede neural não linear, cujo comportamento seja codificado pelo algoritmo back - propagation, é em geral, composta de uma camada de entrada, uma camada de saída e um número arbitrário de camadas intermediárias (BRAGA; CARVALHO; LUDERMIR, 2007). Cada neurônio de uma camada, com exceção da camada de entrada, encontra-se conectado a todos os neurônios presentes na ca- mada imediatamente anterior à sua. A fase de treinamento do algoritmo back - propagation desencadeia duas etapas, para cada padrão de entrada apresentado: processamento para a frente e proces- samento para trás (HAYKIN, 2007). No processamento para a frente, que é primeira etapa, o fluxo do processamento parte das unidades na camada de entrada em dire- ção às unidades na camada de saída. Nesta etapa, os pesos sinápticos permanecem inalterados. Os neurônios da camada de entrada recebem os valores do padrão de entrada. Em seguida, a função de ativação é aplicada, produzindo a saída de cada neurônio desta camada. Uma vez geradas as saídas dos neurônios da camada de saída da rede, oalgo- ritmo back - propagation inicia a segunda etapa do treinamento para o padrão apre- sentado. Em geral são duas as condições de parada do treinamento de uma rede back - propagation: um número máximo de iterações definido pelo usuário ou a convergên- cia da rede. Diz-se que uma rede neural converge quando o somatório dos erros dos neurônios da camada de saída atinge um nível de erro aceitável para o problema em questão. A variação do erro permite a estimação do gradiente em cada iteração é um al- 2.1 REDES NEURAIS ARTIFICIAIS 36 goritmo que move o vetor de pesos na direção em que a derivada parcial do erro em relação à cada peso é negativa, buscando sempre o ponto de mínimo. Ou seja, considerando-se o erro como uma superfície matemática, a variação dos pesos é sempre na direção de um vale nessa superfície. Quando o gradiente é zero é porque se atingiu um determinado ponto de mínimo, que não necessariamente é o mínimo global. Logo, há diversos enfoques para se escapar de um mínimo local. Porque um mínimo local não é bom? Porque, nesse caso a rede neural ficaria parada sem aceitar novos padrões para treinamento, mesmo que eles fossem necessários para que a rede pudesse generalizar a respeito das relações de entrada e saída (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Ao final do treinamento de uma rede, os pesos das conexões entre os neurônios representam o conhecimento descoberto pela rede. Esse conjunto pode então ser utilizado pela rede para processar novos casos e, em função do conhecimento desco- berto, apresentar resultados. Uma vez que o conhecimento armazenado pela matriz de pesos de uma rede neural treinada não pode ser interpretado diretamente pelo homem, a qualidade do desempenho dessa rede deve ser avaliada por meio de ex- perimentos a fim de verificar a adequação deste conhecimento na implementação da tarefa desejada (HAYKIN, 2007). Em um processo iterativo como o algoritmo back - propagation, uma questão im- portante é sobre o critério de parada do treinamento. Em termos absolutos, a solução final ocorrerá para o índice de desempenho (erro global) igual a zero ou dentro de um valor muito pequeno. Todavia, se durante a fase de desenvolvimento o erro não for pe- queno e não tiver tendência a diminuir, dois enfoques podem ser adotados (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007): • Limitar o número de iterações, ou seja, o treinamento cessa após ter ocorrido um valor limite, pré-fixado, de épocas de treinamento (sessões de treinamento). • Amostrar e tirar a média de um certo número de épocas, por exemplo, 500 épo- cas. Se o erro médio do último conjunto de 500 épocas não for melhor que o das 500 anteriores o treinamento deve ser cessado, indicando que um mínimo local foi alcançado. Depois disso, a rede deve estar ainda pronta para ser reutilizada para testes. Se o desempenho não for satisfatório, aos pesos devem ser adicio- nados um pouco de ruído, para auxiliar a rede a sair do mínimo local. Ou então 2.1 REDES NEURAIS ARTIFICIAIS 37 a rede deveria ser completamente reinicializada. A principal dificuldade no treinamento de redes MLP com o algoritmo back - pro- pagation está relacionada à sua sensibilidade às características da superfície de erro, o que dificulta a sua convergência em regiões de baixo gradiente e de mínimos locais (BRAGA; CARVALHO; LUDERMIR, 2007). Uma forma de minimizar esse problema é considerar efeitos de segunda ordem para o gradiente descendente. Algumas aborda- gens podem ser utilizadas tanto para acelerar o algoritmo quanto para reduzir os efei- tos dos mínimos locais (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007): • Utilizar taxas de aprendizado decrescente; • Utilizar um termo de momento; • Adicionar ruído aos dados. Entre as várias técnicas utilizadas para acelerar o processo de treinamento e evitar mínimos locais, a adição de um termo momento é uma alternativa. A inclusão do termo momento na expressão de ajuste dos pesos proporciona um comportamento análogo à inércia no aprendizado, resultando em um aumento da velocidade de convergência em regiões de descida da superfície de erro, já que o novo ajuste será sempre adicio- nado a uma parcela do ajuste anterior. Embora esta possa parecer uma solução para o problema de convergência, há uma grande sensibilidade à constante de momento e, dependendo da superfície, pode haver instabilidade no treinamento (HAYKIN, 2007). Outro problema relacionado à convergência do back - propagation é conhecido como flat spot, que ocorre quando a derivada da função sigmoidal de uma unidade se aproxima de zero durante o treinamento (BRAGA; CARVALHO; LUDERMIR, 2007). Esse efeito ocorre porque a derivada da função sigmoidal se aproxima de zero quando a saída do neurônio se aproxima de um dos seus limites de saturação. Como o ajuste de pesos utiliza o valor da derivada, a unidade pode não ter seus pesos ajustados ou ajustá-los com um valor muito pequeno. Existem algumas propostas para superar esse problema, entre elas (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007): • Utilizar uma medida de erro que tenda para infinito quando a derivada da sigmoi- dal tender para zero. • Adicionar uma constante à derivada, evitando que o erro seja igual a zero. • Utilizar uma função de erro não-linear. 2.2 ESTATÍSTICA 38 Algoritmo Levenberg-Marquardt Ao contrário do algoritmo de treinamento back - propagation, que é baseado no método de gradiente descendente, o algoritmo Levenberg-Marquardt é uma aproxi- mação do método de Newton. Ele melhora o método de Gauss-Newton por meio da utilização de uma taxa de aprendizado variável. Proposto para ajuste de pesos da rede por ciclo, o algoritmo de treinamento Levenberg-Marquardt é uma técnica de otimização numérica que demanda uma grande quantidade de memória e elevada complexidade computacional, o que pode tornar sua utilização ineficiente para redes muito grandes (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Entre- tanto, a cada dia computadores com maior capacidade de memória e processamento são lançados no mercado, minimizando essa restrição. 2.1.2 Redes de Elman Elman introduziu memória nas RNA. Nas redes de Elman, além das camadas de entrada, intermediárias e de saída, há também unidades de contexto, como nas redes recorrentes em geral. As camadas de saída são unidades lineares que somam os sinais que recebem. As camadas intermediárias podem ter funções de ativação line- ares ou não lineares, e as unidades de contexto são usadas apenas para memorizar as ativações anteriores das camadas intermediárias, podendo ser consideradas como atraso no tempo em um passo. As conexões feedforward são modificáveis, e as cone- xões recorrentes são fixas, motivo pelo qual a rede de Elman é apenas parcialmente recorrente (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Em um pri- meiro estágio, feedforward, as entradas são propagadas para frente para produzir as saídas. Posteriormente, a rede é treinada com o algoritmo de aprendizagem back - propagation padrão. 2.2 ESTATÍSTICA A Estatística é uma parte da matemática aplicada que fornece métodos para co- leta, organização, descrição, análise e interpretação de dados e para utilização dos mesmos na tomada de decisões (BAPTISTA, 1996), (RAMOS, 2000). A Estatística Clássica envolve conceitos como distribuição normal, variância, aná- lise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e 2.2 ESTATÍSTICA 39 intervalos de confiança, todos usados para estudar os dados e os relacionamentos entre eles (FREUND, 2006), (VIEIRA, 1985) e (NEUFELD, 2003). Essas são as pedras fundamentais nas quais as mais avançadas análises es- tatísticas se apoiam. Ela incorpora um envolvimento muito forte do usuário,exigindo engenheiros experientes, na construção de modelos que descrevem o comportamento de dados por meio dos métodos clássicos da matemática. A seguir são citadas várias técnicas para tratamento de dados suspeitos. As mes- mas serão utilizadas na modelagem dos dados de entrada para uso em sistemas que utilizem redes neurais artificiais: 2.2.1 Análise de Componentes Principais Um problema comum em reconhecimento estatístico de padrões é a seleção das características ou extração de características. A seleção de características se refere a um processo no qual um espaço de dados é transformado em um espaço de carac- terísticas que, em teoria, tem exatamente a mesma dimensão que o espaço original de dados (MANLY, 2008), (MINGOTI, 2005) e (HAYKIN, 2007). Entretanto, a transfor- mação é projetada de tal forma que o conjunto de dados pode ser representado por um número reduzido de características efetivas e ainda reter a maioria do conteúdo de informação intrínseco dos dados; em outras palavras, o conjunto de dados sofre uma redução de dimensionalidade. A análise de componentes principais (também conhe- cida como a transformação de Karhumen-Loève na teoria da comunicação) maximiza a taxa de redução da variância e é, portanto, a escolha correta (MINGOTI, 2005). A análise de componentes principais é uma técnica padrão normalmente utilizada para redução de dados em reconhecimento estatístico de padrões e processamento de sinais. Redução de Dimensionalidade Da perspectiva de reconhecimento estatístico de padrões, o valor prático da aná- lise de componentes principais é que ela fornece uma técnica efetiva para redução de dimensionalidade. Em particular, pode-se reduzir o número de características ne- cessárias para a representação efetiva de dados descartando aquelas combinações lineares que têm variâncias pequenas e retendo apenas aqueles termos que têm vari- âncias grandes (MANLY, 2008) e (HAYKIN, 2007). 2.2 ESTATÍSTICA 40 Em geral deseja-se obter redução do número de variáveis a serem avaliadas e interpretação das combinações lineares construídas, ou seja, a informação contida nas p-variáveis originais é substituída pela informação contida em k(k< p) componen- tes principais não correlacionadas. Desta forma, o sistema de variabilidade do vetor aleatório que contém as k componentes principais. A qualidade da aproximação de- pende do número de componentes mantidas no sistema e pode ser medida através da avaliação da proporção da variância total explicada por essas. Quando a distribuição de probabilidades do vetor aleatório em estudo é normal p-variada, as componentes principais, além de não correlacionadas, são independen- tes e têm distribuição normal. Entretanto, a suposição de normalidade não é requisito necessário para que a técnica de análise de componentes principais possa ser utili- zada. A obtenção das componentes principais envolve a decomposição da matriz de covariâncias do vetor aleatório de interesse. Caso seja feita alguma transformação deste vetor aleatório, as componentes deverão ser determinadas utilizando-se a ma- triz de covariâncias relativa ao vetor transformado. Uma transformação muito usual é a padronização das variáveis do vetor pelas respectivas médias e desvios padrões, gerando-se novas variáveis centradas em zero e com variâncias iguais a 1. Neste caso, as componentes principais são determinadas a partir da matriz de covariância das variáveis originais padronizadas, o que é equivalente a extrair-se as componentes principais utilizando-se a matriz de correlação das variáveis originais. Uma vez determinadas as componentes principais, os seus valores numéricos, denominados de escores, podem ser calculados para cada elemento amostral. Deste modo, os valores de cada componente podem ser analisados, usando-se técnicas estatísticas usuais como análise de variância, dentre outras. As componentes principais são variáveis aleatórias que não podem ser medidas diretamente, mas observadas apenas a partir da informação do vetor aleatório x. É comum utilizar os escores das componentes para condução de análise estatística de dados ou para a simples ordenação (ranking) dos elementos amostrais observados, com o intuito de identificar aqueles que estão com maiores, ou menores, valores glo- bais das componentes. É importante observar que as componentes principais, obtidas através da matriz de covariâncias, resultam em combinações lineares, cujos coeficientes de ponderação refletem a diferença da variância das variáveis originais além da covariância entre elas. Uma aplicação útil de um analisador de componentes principais é como pré - 2.2 ESTATÍSTICA 41 processador para uma rede neural supervisionada (por exemplo: um perceptron de múltiplas camadas de back-propagation) (HAYKIN, 2007). Aqui a motivação é acele- rar a convergência do processo de aprendizagem retirando a correlação dos dados de entrada. Um procedimento de aprendizagem supervisionada como o de back- propagation se baseia na descida mais íngreme. O processo de convergência nesta forma de aprendizagem é tipicamente lento devido a efeitos interativos de pesos si- nápticos de um perceptron de múltiplas camadas sobre o sinal de erro, mesmo com o uso de procedimentos simples de aceleração local como o momento e taxas de aprendizagens adaptativas para pesos individuais. Se, entretanto, as entradas para o perceptron de múltiplas camadas consistirem de componentes não-correlacionadas, então a matriz hessiana da função de custo e(n) em relação aos parâmetros livres da rede é mais proximamente diagonal do que seria no caso contrário. Uma vez que esta forma de diagonalização seja realizada, o uso de procedimentos de aceleração locais simples permitem uma aceleração considerável no processo de convergência, o que se torna possível pelo escalamento apropriado das taxas de aprendizagem ao longo de cada eixo de peso, independente. Critérios para Determinação do Número k de Componentes Principais Quando o vetor aleatório x tem distribuição normal multivariada, é possível cons- truir intervalos de confiança e testes de hipóteses para os autovalores populacionais, assim como fazer inferência sobre a matriz de covariância ou correlação populacio- nais. Quando o objetivo é a redução da dimensionalidade do espaço amostral, isto é, a sumarização da informação das p-variáveis originais em k componentes principais, k < p, é necessário estabelecer-se critérios de escolha para o valor de componentes, que deverão ser mantidas no sistema. Três procedimentos podem ser utilizados para isso, sendo dois puramente mate- máticos e um terceiro que alia o ponto de vista prático. Procedimento 1: Análise de representatividade em relação à variância total Sob este critério, deve-se manter no sistema um número de componentes k que conjuntamente representem uma porcentagem γ 100 % da variância total, onde 0 < γ < 1 é um valor pré-determinado pelo pesquisador. Portanto, na prática, busca-se o 2.2 ESTATÍSTICA 42 valor de k tal que: γ = k ∑ i=1 λˆi k ∑ j=1 λˆ j (2.1) Não há um limite definido para o valor de γ e sua escolha deverá ser feita de acordo com a natureza do fenômeno investigado. Em algumas situações, é possível obter-se uma porcentagem de explicação de variância total acima de 90 % ou 95 % com 1 ou 2 componentes, enquanto que em outras, é necessário um número muito maior. O objetivo, ao se utilizar a técnica de componentes principais, é sumarizar a informação das p-variáveis originais de uma forma simples. Desse modo, a utilidade prática das componentes decresce com o crescimento do número de componentes necessárias para se chegar ao valor escolhido de γ, uma vez que, quanto maior será a dificuldade de interpretação das mesmas.Assim sendo, em alguns casos torna-se necessário trabalhar com porcentagens de explicação abaixo de 90 %. Em geral, quando as componentes principais são extraídas da matriz de correlação, necessita-se de um número maior de componentes para se alcançar o valor de γ, em comparação com o número requerido quando as componentes são extraídas da matriz de covariâncias. Quando a matriz de correlação é utilizada para extração das componentes princi- pais, a variância total é igual ao número de variáveis original p . Assim, um critério que pode ser utilizado para a escolha do valor de k é o de manter no sistema ape- nas as componentes relacionadas àqueles autovalores λˆi ≥ 1, ou seja, mantém-se as combinações lineares que conseguem explicar pelo menos a quantidade de variância de uma variável original padronizada. Similarmente, quando a análise é feita com a matriz de covariâncias, pode-se manter no sistema as componentes relacionadas aos autovalores que são maiores ou iguais a λm, definido por: λˆm = p ∑ j=1 λˆ j p (2.2) e que representa a variância média das variâncias originais xi, i= 1,2, ..., p. Um gráfico que pode auxiliar na escolha do valor k é o scree-plot, que mostra os 2.2 ESTATÍSTICA 43 valores numéricos dos autovalores λi de acordo com a respectiva ordem i . Basta observar no gráfico o ponto em que os valores de λi tendem a se aproximar de zero. Componentes oriundas de autovalores iguais a zero sempre podem ser elimina- das do sistema. No entanto, nesses casos aconselha-se que o pesquisador refaça a análise de componentes, usando apenas um número de variáveis iguais ao número de autovalores maiores que zero. Procedimento 2: Análise da qualidade de aproximação da matriz de covariâncias ou correlação A escolha do valor k de componentes determina uma aproximação para a matriz da qual elas foram extraídas. Assim, na prática, quando as componentes são extraí- das das matrizes de covariâncias ou de correlação amostrais, tem-se as seguintes aproximações para as matrizes Spxp e Rpxp, respectivamente: Spxp ≈ k ∑ i=1 λˆi eˆi2′ (2.3) Rpxp ≈ k ∑ i=1 λˆi eˆi2′ (2.4) onde em cada caso, (λˆi, eˆi) representam os respectivos autovalores e autovetores normalizados de Spxp e Rpxp. Assim sendo, o valor de k poderia ser escolhido de modo a se ter uma aproximação razoável para as matrizes Spxp ou Rpxp. As parcelas que mais contribuem para a apro- ximação dessas matrizes são as correspondentes aos autovalores. Significativamente maiores que zero. Assim, as componentes associadas a autovalores pequenos ou próximos a zero poderiam ser eliminadas. É preciso ser cauteloso na análise da qua- lidade da aproximação, uma vez que um grau de exigência elevado está, geralmente, relacionado com um valor elevado de k , o que não é o desejado. 2.2 ESTATÍSTICA 44 Procedimento 3: Análise prática das componentes Para que as componentes possam ser utilizadas adequadamente, o mais indicado é que sejam passíveis de interpretação. Assim, a escolha do valor k pode ser pautada pela natureza prática das componentes encontradas. Eventualmente, pode ocorrer que a componente mais útil sob o ponto de vista prático do pesquisador seja a de ordem 4 , por exemplo. Nesse caso, para que este possa utilizá-la, será necessário manter pelo menos k= 4 componentes principais no sistema. A situação ideal é aquela em que as componentes principais de maior interesse do pesquisador são as de maior explicação relativa à da variância total e levam a um valor pequeno de k , mas isto nem sempre acontece. Intervalos de confiança para os autovalores populacionais Suponha que o vetor aleatório x tenha distribuição normal multivariada. Então, a hipótese de que o autovalor teórico λi seja igual a zero, para algum i fixo, pode ser testada através da construção de intervalos de confiança. Pode ser mostrado que, sob a hipótese de normalidade multivariada do vetor aleatório x , e amostras de tamanhos n grandes, os autovalores estimados λˆi, i = 1,2, ..., p são assintoticamente independentes, e com distribuição normal com média igual a λi e variância igual a (2nλ 2 i ). Assim, um intervalo de (1−α) (100 %) de confiança para λi populacional é dado por: λˆi 1+ z1−1/2α √ 2 √ 1 n ; λˆi 1− z1−1/2α √ 2 √ 1 n (2.5) onde 2(1− α2 ) é a ordenada da distribuição normal padronizada, cuja área acima é igual a α2 . Um limite inferior do intervalo muito próximo de zero é um indicativo de que a componente principal relacionada àquele autovalor é de pouca importância em termos de sua contribuição na variância total. 2.2 ESTATÍSTICA 45 Inferência sobre a matriz de correlação populacional Para que a análise de componentes principais tenha algum sentido, é necessário que as variáveis sejam correlacionadas. Se as matrizes de covariâncias e de correla- ção forem diagonais, a aplicação desta técnica simplesmente vai devolver, em alguma ordem, as próprias variáveis originais. Sob a suposição de normalidade multivariada, é possível testar se a matriz de covariâncias e de correlação populacionais, o que indica que as variáveis são inde- pendentes. Distribuição das componentes principais no caso da distribuição normal multi- variada Quando a distribuição do vetor aleatório x é normal p-variada, as componentes principais têm distribuição normal e são independentes. Individualmente, cada componente tem distribuição normal univariada, pois é uma combinação linear de variáveis aleatórias com distribuição normal. Conjuntamente, as p componentes terão distribuição normal p-variada com matriz de covariâncias dadas por: λpxp = λ1 0 λ2 0 λp (2.6) Isto faz com que a técnica de análise de componentes principais possa também ser utilizada como um mecanismo de verificação da suposição de normalidade mul- tivariada do vetor aleatório x = (x1x2...xp)′. Se for possível, demonstrar, através de testes de hipóteses para verificação de normalidade, que as componentes principais separadamente seguem uma distribuição normal univariada, se terá a indicação de que o vetor x , provavelmente, também segue uma distribuição normal p-variada. Apenas as observações completas são utilizadas na análise. Assim, se por exem- plo, houver n observações amostrais e p-variáveis e, por algum motivo, o valor de uma dessas variáveis for perdido (missing) para um elemento amostral, esse elemento será automaticamente desconsiderado, e a análise de componentes principais será feita 2.2 ESTATÍSTICA 46 com base em apenas (n− 1) dados amostrais. Os resultados, portanto, podem não ser confiáveis, caso haja uma quantidade considerável de valores omissos. A análise de componentes principais pode também ser utilizada como um método de seleção de variáveis. Por exemplo, se o pesquisador mediu p = 20 variáveis e dessas deseja selecionar as 10 mais importantes, ele poderá analisar as componentes seqüencialmente, observando, em cada uma delas, as variáveis que aparecem com maiores coeficientes, em valor absoluto. De cada componente yi, o pesquisador pode selecionar mi variáveis até obter as 10 desejadas, ou seja, M ∑ i=1 mi = 10 (2.7) onde M representa o número de variáveis desejado. Análise de Componentes Principais por Núcleo Nesta forma de PCA (Análise de Componentes Principais) a computação é re- alizada em um espaço de características que é não linearmente relacionado com o espaço de entrada (MANLY, 2008) e (MINGOTI, 2005). O espaço de características é definido por um núcleo de produto interno. Devido à relação não-linear entre o espaço de características, a ela é não-linear. Entretanto, ao contrário de outras formas de PCA não-lineares, sua implementação se baseia na álgebra linear (HAYKIN, 2007). Ela é uma extensãonatural da PCA ordinária. Nela todas as propriedades da PCA ordinária continuam valendo. Em particular, ela é linear no espaço de entrada. Assim, ela pode ser aplicada a todos aqueles domínios nos quais a PCA ordinária tem sido usada para extração de características ou redução de dados, para os quais a extensão não-linear faça sentido. 2.2.2 As Medidas de Semelhança Distância de Mahalanobis Uma medida que leva em consideração as correlações entre variáveis é a dis- tância de Mahalanobis. Para agregamentos normalmente distribuídos a distância de 2.2 ESTATÍSTICA 47 Mahalanobis, em geral, é utilizada (CAMPOS, 2001), (DWINNELL, 2008), (MANLY, 2008) e (UBA; DUTRA, 2008). Pontos com maior alavancagem têm maior influência nos coeficientes de regressão e têm maior distância de Mahalanobis. A distância de Mahalanobis pode ser utilizada para medir a distância entre classes de padrões. Isso pode ser feito por meio da soma ou da média da distância entre todos os padrões de duas classes diferentes (CAMPOS, 2001), (DWINNELL, 2008), (MANLY, 2008) e (UBA; DUTRA, 2008). Uma distância de Mahalanobis é também usada para medir a distância de uma única observação multivariada ao centro da população da qual veio a observação. Considere que ui e u j representem os valores médios dos vetores xi e x j respecti- vamente. Isto é, ui = E[xi] (2.8) na qual E é o operador estatístico esperado. O vetor médio u j é definido de forma similar. Como uma medida de distância entre essas duas populações, pode-se utilizar a distância de Mahalanobis representada por di j. O quadrado do valor dessa distância de xi para x j é definido por: d2i j = (xi−ui)T −1 ∑(x j−u j) (2.9) na qual ∑−1 é a inversa da matriz de covariância ∑. Assume-se que a matriz de covariância é a mesma para ambas as populações, como mostrado por: ∑= E[(xi−ui)(xi−ui)T ] (2.10) ∑= E[(x j−u j)(x j−u j)T ] (2.11) Para o caso especial quando x j = xi, ui= u e ∑= I é a matriz identidade, a distância de Mahalanobis se reduz à distância euclidiana entre o vetor de amostra xi e o vetor 2.2 ESTATÍSTICA 48 de média u. 2.2.3 Correlação por Posto Como o teste de significância de r é baseado em suposições bastante restritivas, às vezes recorre-se a uma alternativa não-paramétrica que pode ser aplicada sob condições bem mais gerais. Este teste da hipótese nula sem correlação é baseado no coeficiente de correlação por posto, muitas vezes denominado coeficiente de correla- ção por posto de Spearman, e denotado por rs (FREUND, 2006). Para calcular o coeficiente de correlação por posto para um conjunto de pares de dados, primeiro ordena-se os x entre si em ordem crescente ou decrescente; em seguida ordena-se os y da mesma maneira, encontra-se a soma dos quadrados das diferenças, d , entre os postos dos x e dos y , e substitui na fórmula rs= 1−6 ∑Sd2 n(n2−1) (2.12) na qual n é o número de pares de x e y. Quando há empates, procede-se atribuindo a cada uma das observações empa- tadas a média dos postos que elas ocupam conjuntamente. Quando não há empates, rs é efetivamente igual ao coeficiente de correlação r calculado para os dois conjuntos de postos; quando existem empates, pode haver uma pequena diferença (que, em ge- ral, é desprezível). É fácil ver, trabalhando com postos em lugar dos dados originais, perde-se alguma informação, mas isso geralmente é compensado pela facilidade do cálculo do coeficiente de correlação por posto. A principal vantagem em utilizar rs é que se pode testar a hipótese nula de não haver qualquer correlação sem ter de fazer quaisquer suposições sobre as populações amostradas (FREUND, 2006). Sob a hipótese nula de não haver qualquer correlação - na realidade, a hipótese nula de que os x e os y estejam aleatoriamente emparelhados - a distribuição amostral de rs tem a média 0 e o desvio-padrão σrs = 1√ n−1 (2.13) 2.2 ESTATÍSTICA 49 como essa distribuição pode ser aproximada por uma distribuição normal mesmo para valores relativamente pequenos de n, baseia-se o teste da hipótese nula na es- tatística que aproximadamente a distribuição normal padrão. Estatística para testar a significância de rs z= rs √ n−1 (2.14) 2.2.4 Correlação Parcial A estatística denominada coeficiente de correlação parcial desempenha satisfato- riamente a função de eliminar os efeitos de outras variáveis (FREUND, 2006), (CAM- POS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003). rxy,z = rxy− rxz ryz√ 1− rxz2 √ 1− ryz2 (2.15) 2.2.5 Intervalo entre Q1 e Q3 Para evitar a possibilidade de indução ao erro por algum valor extremo (muito pequeno ou muito grande), pode ser recomendável omitir um tal dado suspeito, ou então usar uma outra medida estatística que não a média. Talvez a mediana que, não é tão sensível a um dado suspeito como a média (CAMPOS, 2003). Uma estratégia para tratar dados suspeitos e outras irregularidades é utilizar méto- dos numéricos resistentes que pouco são afetados pelos dados suspeitos. O primeiro quartil, a mediana e o terceiro quartil avaliam a forma da parte central e a variabili- dade da distribuição de frequência da amostra. Uma das aplicações do IEQ (intervalo entre o primeiro quartil e o terceiro quartil, também denominado IQR - InterQuantile Range) é a detecção de valores suspeitos de uma variável. Embora o IEQ ajude a retirar um dado suspeito da amostra por considerá-lo suspeito, essa decisão deve ser acompanhada de um criterioso julgamento (LAPPONI, 2005), (BORGES, 2006) e (R Development Core Team, 2008). O valor x de uma variável é considerado possível suspeito se estiver no intervalo Q1−3IEQ< x< Q1−1,5IEQ ou no intervalo Q3+1,5IEQ< x< Q3+3IEQ. 2.2 ESTATÍSTICA 50 O valor de x de uma variável é considerado suspeito se x < Q1− 3IEQ ou x > Q3+3IEQ. Sendo que IEQ= Q3−Q1. A detecção de dados suspeitos não é um processo trivial. Uma técnica utilizada é a inspeção visual, válida até 3 dimensões, além da visual, existem também técnicas de análise exploratória para dados multivariados, por exemplo, o teste de Hotelling (BORGES, 2006). O boxplot é uma forma gráfica para mostrar os possíveis dados suspeitos. Estudos de repetitividade e reprodutibilidade (R&R) determinam quanto da variação observada do processo é devida à variação do sistema de medição, verifi- cando a sua adequação. O gráfico sequencial auxilia na detecção de padrões nos conjuntos de dados. Então, uma questão é feita: Fazendo um gráfico sequencial para amostras univariadas, pode-se constatar alguma tendência? Para responder a esta pergunta primeiro é preciso saber o que pode produzir dados suspeitos (LAPPONI, 2005): • Erros de medição; • Valores default assumidos durante o preenchimento de uma base de dados, po- dem corresponder a valores reais mas pertencentes a uma base de dados des- balanceada. As características do IEQ são (LAPPONI, 2005): • É uma medida simples, fácil de ser calculada e automatizada. • Mede a distribuição da metade dos dados da amostra situados ao redor da me- diana. • É uma medida resistente, pois não é afetado pelos dados extremos da amostra ou variável. Contudo essa medida não é suficiente para avaliar a variabilidade de uma amostra ou variável, pois envolve apenas os valores centrais, deixando de considerar os valo- res extremos que também são importantes, os restantes 50% dos dados (BORGES, 2006). 2.2 ESTATÍSTICA 51 2.2.6 Teste de Proficiência O IQRnorm, significa o intervalo interquartil normalizado calculado da seguinte forma (IUPAC; ISO; AOAC, 2004) e (BORGES, 2006): IQRnorm = 0.7413Q3−0.7413Q1 (2.16) A interpretação do z-score é apresentada a seguir (IUPAC; ISO; AOAC, 2004) e (BORGES, 2006): • z< 2 Resultado satisfatório • 2< z< 3 Resultado questionável • z> 3 Resultado insatisfatório
Compartilhar