Baixe o app para aproveitar ainda mais
Prévia do material em texto
REFINAMENTOS DE MODELOS BASEADOS EM RNA COM EMPREGO DE ANÁLISE ESTATÍSTICA DE DADOS E LÓGICA FUZZY Rodrigo Leite Durães - rodrigo@lsi.cefetmg.br Paulo Eduardo Maciel de Almeida - pema@lsi.cefetmg.br Centro Federal de Educação Tecnológica de Minas Gerais Av. Amazonas, 7675, 30510-000, Belo Horizonte - MG - Brasil Resumo. Atualmente, a Inteligência Computacional (IC) e em particular as Redes Neurais Ar- tificiais (RNA) são muito usadas para modelagem de problemas em várias áreas de aplicação. Porém, na maioria dos trabalhos publicados, os autores não se aprofundam na discussão da qualidade estatística dos dados históricos usados para treinamento. A análise estatística utili- zada como ferramenta para validar e melhorar os modelos obtidos com técnicas de IC não é muito abordada pelos trabalhos da área. Este trabalho aplica técnicas estatísticas em conjunto com técnicas de IC para aumentar a qualidade de modelos baseados em IC. Em linhas gerais, objetiva-se demonstrar a importância da qualidade dos dados para o desempenho de mode- los que utilizam RNA. Especificamente, é analisado um modelo térmico na produção de aço, é verificada a confiabilidade dos dados, a correlação das variáveis de entrada e saída, entre outros, e filtrados os dados com base na aplicação conjunta de métodos estatísticos e lógica fuzzy. Os resultados obtidos são comparados com a aplicação pura da técnica de RNA para solução do mesmo problema. Mostra-se que a utilização da análise estatística em conjunto com a lógica fuzzy é promissora para o refinamento de modelos baseados em RNA, para a classe de problemas abordada. Keywords: Inteligência Computacional (IC); Redes Neurais Artificiais (RNA); Estatística; Ló- gica Fuzzy. 1. INTRODUÇÃO Processos industriais normalmente são caracterizados por inúmeros fenômenos que, se tra- tados individualmente, não descrevem com precisão a modelagem como um todo, e a interação de vários fenômenos num mesmo processo leva a um alto nível de complexidade de modelagem. Segundo da Cunha (2001), os conhecidos problemas de variação dos resultados de qualidade de matérias-primas e do produto adicionam ainda maiores dificuldades de validação de modelos matemáticos para um sistema complexo. Quando a complexidade do processo excede um de- terminado grau, os modelos matemáticos não apenas se tornam intratáveis, como também sua precisão e confiabilidade relativas à realidade física se tornam questionáveis. Porém, as diversas simplificações feitas por causa das limitações físicas, torna contraditório a busca cada vez maior de precisão na modelagem matemática. Como alternativa à modelagem rigorosa de processo tem-se a implantação de redes neurais artificiais. Segundo Meireles et al. (2003), as RNA têm se mostrado um campo vasto para pesquisa aplicada. Estas técnicas de simulação têm se mostrado uma importante ferramenta para análise de sistemas complexos: Ribeiro et al. (2005) propõem uma comparação entre duas metodologias, a de RNA e o modelo de regressão (MR), para estimar profundidades batimétricas a partir de imagens. O trabalho de Fernandes et al. (1996) possui um duplo objetivo: por um lado, o modelo de RNA é apresentado dando destaque às suas características estatísticas; e, por outro, são apresentados dois exercícios de previsão empíricos nos quais se tenta comparar o desempenho das RNA e do modelo de séries de tempo estrutural, que pertence à classe dos modelos de decomposição em componentes não-observáveis. Os modelos econométricos tradicionais são usados para fornecer uma base inicial para a determinação da arquitetura da RNA. Os resultados mostram que, para as previsões um passo à frente, não é possível discriminar inequivocamente a favor de um dos modelos; contudo, para previsões com horizontes de tempo mais longos, a RNA apresenta maior capacidade preditiva. Moraes & Silveira (2006) apresentam o processo de gestão de perdas não-técnicas na ELEKTRO, em busca da excelência no desempenho operacional utilizando estudos estatísti- cos, redes neurais e árvores de decisão. Colombo et al. (2006) aplicam técnicas e ferramentas de extração automático e inteligente de conhecimento a base de dados relacional na avaliação da qualidade de produtos de software usando diferentes técnicas e ferramentas de: preparação de dados (estatística, teoria da informação), análises inteligente de dados (estatística, visualização de dados, inteligência artificial): sistemas de bases de dados (base de dados relacional, sistema gerenciador de banco de dados). Toyoshima et al. (2003) fizeram um estudo sobre aglomerações industriais brasileiras, mais especificamente, as do Rio Grande do Sul e as de São Paulo, procurando verificar se há diferen- ças relevantes em relação ao desenvolvimento de municípios que possuem grande concentração em uma ou poucas indústrias, daquelas que diversificam mais a produção industrial ou possuem pouca atividade industrial. Para isso foram utilizadas duas técnicas diferentes de classificação de grupos - a análise multivariada discriminante e a de redes neurais. Durães (2009) propõe a utilização de técnicas estatísticas e lógica fuzzy para validar mode- los baseados em RNA. Utilizando o modelo fuzzy de Sugeno e as redes MLP, Elman e Cascade- Forward, e tendo como variável de saída a temperatura do aço, os resultados obtidos foram considerados adequados, sendo os mesmos apresentados neste trabalho. O objetivo deste trabalho é demonstrar a importância da qualidade dos dados de entrada e saída em um sistema que utiliza RNA para modelagem de um problema térmico na produção de aço. Para tanto será verificada a confiabilidade dos dados e a correlação das variáveis de entrada e saída, culminando com a comparação dos resultados encontrados na base de dados sem modificações com a base de dados modificada, e também comparar as diversas técnicas estatísticas empregadas na fase de filtragem. Este trabalho está organizado como segue. Na seção 2 é apresentada a importância da qualidade dos dados de entrada e saída. Na seção 3 são apresentados e discutidos os experi- mentos práticos. A seção 4 conclui o trabalho, abordando as considerações sobre os benefícios alcançados com a aplicação da modelagem de sistemas neurais artificiais por meio da inferência estatística. 2. QUALIDADE DOS DADOS A análise estatística de dados utilizada como ferramenta para validar os modelos obtidos é uma área de pesquisa não muito abordada pelos trabalhos de IC. Ao contrário do que possa parecer à primeira vista, as RNA têm vários pontos de contato com os modelos estatísticos e econométricos tradicionais. Estas ligações acabam embotadas pelo uso de jargões técnicos distintos. O problema em questão surgiu no trabalho de Araujo (2008) que propôs a modelagem do processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M). Os resultados obtidos no treinamento e execução da rede não foram considerados adequados. A hipótese inicial do presente trabalho é que a base de dados usada no trabalho de Araujo (2008) para o treinamento do modelo neural é muito ruidosa, portanto, foi proposta uma nova abordagem para tratamento dos dados do problema em questão, um pré-processamento dos dados. Estas bases de dados são uma importante fonte de informação, porém, muitas vezes, não são exploradas dadas às dificuldades inerentes ao grande volume de dados, ultrapassando assim a habilidade técnica e a capacidade humana em sua interpretação Carvalho (2005). No caso de construção de índices de qualidade, a não incorporação da correlação existente entre os itens amostrais nas várias características de qualidade medidas, pode resultar num índice que não represente adequadamente a qualidade final do produto. Assim, optou-se por utilizar a lógica Fuzzy para mensurar a qualidade das variáveis de entrada e saída da RNA utilizando diferentes índices de capacidade. Como limiares foram utilizadas: O IEQ, sendo que IEQ = Q3 −Q1. O valor x de uma variável é considerado possível suspeito se estiver no intervalo Q1 − 3IEQ < x < Q1 − 1, 5IEQ ou no intervalo Q3 + 1, 5IEQ < x < Q3 + 3IEQ. O valor de x de uma variável é considerado suspeito se x < Q1 − 3IEQ ou x > Q3 + 3IEQ. O limiar com 2 desvios, o valor de x de uma variável é considerado suspeito se x < Media− 2σ ou x > Media+ 2σ. O limiar com 3 desvios, o valor de x de uma variável é considerado suspeito se x < Media− 3σ ou x > Media+ 3σ. 3. EXPERIMENTOS PRÁTICOS O modelo fuzzy escolhido foi o modelo de Sugeno, as partições de entrada são o teste de proficiência: IQRnorm (intervalo inter-quartil normalizado) e os índices de capacidade: CP (índice de capacidade) e CPK (índice de capacidade K), para a partição de saída foi criada a Função Qualidade avaliada no intervalo de 0 a 1, na qual 0 é Incompatível, Q1 é uma referencia ao 1o quartil cujo valor é 0,25, Mediana vale 0,5, Q3 é uma referencia ao 3o quartil cujo valor é 0,75. Foram necessárias 60 regras fuzzy para a representação do espaço solução. O próximo passo é a seleção de variáveis de entrada para o modelo neural, nesta etapa foram utilizadas as técnicas estatísticas: correlação de Pearson, correlação de Spearman, correlação parcial e Stepwise. Feito isso as variáveis foram escolhidas e foi aplicada a técnica PCA (análise de componentes principais), no caso de redução de componentes é novamente feito o PCA. Nesta etapa, a base de dados foi dividida em duas novas: uma formada pela análise de correlação parcial e PCA, e outra formada pelas análises Stepwise, correlação de Pearson, correlação de Spearman e PCA, já que Stepwise, correlação de Pearson e correlação de Spearman tiveram resultados idênticos durante a análise. Feito isso as bases de dados foram divididas em três amostras: treinamento, validação e teste para o modelo neural. A seguir a RNA e o algoritmo de treinamento foram escolhidos. As bases 1 e 2 originalmente possuem 643 e 657 elementos respectivamente, com as aná- lises estatísticas esses números foram reduzidos ainda mais, e devido ao baixo número de ele- mentos as bases 1 e 2 não serão consideradas nesta etapa da análise. A base 3 original possui 13 variáveis de entrada, com as análises estatísticas esse número foi reduzido conforme a Tabela 1. Pode-se notar que o Limiar com 2 desvios não selecionou variáveis porque apresentou baixa qualidade segundo o sistema de avaliação fuzzy. Tabela 1: Experimentos de filtragem de dados: base 3 A base 4 original foi a única em que todas as análises estatísticas selecionaram variáveis (ver a Tabela 2). A base 3 original possui 32415 elementos, conforme pode ser visto na Tabela 3. As técnicas Limiar com 2 desvios, Limiar com 2 desvios e distância de Mahalanobis, e IEQ, Limiar com 3 desvios e distância de Mahalanobis não conseguiram filtrar os dados porque apresentaram baixa qualidade conforme a análise do sistema avaliador da qualidade fuzzy. A base 4 foi a única em que todas as técnicas conseguiram reduzir a quantidade de elemen- tos (ver Tabela 4). As Tabelas 5 e 6 são referentes à correlação de Spearman, Pearson, Stepwise e PCA. Os resultados são análogos às bases referentes à correlação parcial. Tabela 2: Experimentos de filtragem de dados: base 4 Tabela 3: Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 3 Tabela 4: Experimentos de filtragem de dados com o coeficiente de correlação parcial e PCA: base 4 As Tabelas 7, 8, 9, 10, 11 e 12 mostram os resultados da comparação entre as RNA apli- cadas nas bases de dados originais e modificadas. Para esta análise foram selecionadas apenas as bases originais 3 e 4 que possuem mais elementos, e as bases modificadas com a quantidade de elementos acima de 19000. Para cada base de dados foram feitas 10 simulações de modo que o SE (erro padrão da estimativa também conhecido como resíduo padronizado) das Tabelas 7 até 12 mostram a média das simulações, o SE é dado em oC. Os parâmetros de treinamento Tabela 5: Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, Stepwise e PCA: base 3 Tabela 6: Experimentos de filtragem de dados com o coeficiente de correlação de Spearman, Pearson, Stepwise e PCA: base 4 são: 100 épocas, erro final desejado = 1e-9, e número máximo de falhas na validação = 5. Foi utilizada a validação cruzada para o treinamento, validação e teste. Pode ser visto nas Tabelas 7 e 8 que para a base 3, o valor do SE para o treinamento e a validação de todas as bases modificadas foi superior a base original. Apenas para a etapa de teste que uma das bases modificadas teve um rendimento pior, a base 3epearson (ver Tabela 9), este código da base pode ser lido da seguinte maneira: número da base = 3, E = IEQ, Pearson = correlação de Pearson e PCA, ou seja, E e Pearson são os testes estatísticos aplicados sobre a base. Para a etapa de treinamento da base 4 pode ser visto na Tabela 10 que o valor do SE de todas as bases modificadas foi superior à base original, exceto para as bases: 4l3pearson (l3 = Limiar com 3 desvios), 4l3mahalpearson (mahal = distância de Mahalanobis), 4pearson (aqui foram usadas as técnicas combinadas IEQ, Limiar com 3 desvios e distância de Mahalanobis) e 4l3parcial (parcial = correlação parcial) na coluna Elman com Levenberg-Marquardt; 4epear- son, 4l3pearson, 4l3mahalparcial e 4mahalparcial na coluna Elman com Propagação Resiliente. Tabela 7: Resultados da RNA: etapa de treinamento relativa à base 3 Tabela 8: Resultados da RNA: etapa de validação relativa à base 3 Tabela 9: Resultados da RNA: etapa de teste relativa à base 3 Para a etapa de validação da base 4 pode ser visto na Tabela 11 que o valor do SE de todas as bases modificadas foi superior à base original, exceto para as bases: 4epearson, 4l3pearson, 4l3mahalpearson, 4mahalpearson, 4l3parcial e 4l3mahalparcial na coluna Elman com Levenberg- Marquardt; 4epearson na coluna Elman com Propagação Resiliente; 4l3mahalpearson na coluna Elman com One Step Secant. Para a etapa de teste da base 4 pode ser visto na Tabela 12 que o valor do SE de todas as bases modificadas foi superior à base original, exceto para as bases: 4l3mahalpearson e 4l3mahalparcial na coluna Levenberg-Marquardt; 4l3mahalpearson e 4l3mahalparcial na co- luna Cascade-forward com Levenberg-Marquardt; 4l3mahalpearson, 4mahalpearson e 4l3mahalparcial na coluna Elman com Levenberg-Marquardt; 4epearson, 4l3mahalpearson, 4mahalpearson e Tabela 10: Resultados da RNA: etapa de treinamento relativa à base 4 Tabela 11: Resultados da RNA: etapa de validação relativa à base 4 4mahalparcial na coluna Elman com Propagação Resiliente; 4l3mahalpearson e 4l3mahalparcial na coluna Elman com One Step Secant; 4l3mahalpearson e 4l3mahalparcial na coluna Elman com Beale-Powell restarts. Tabela 12: Resultados da RNA: etapa de teste relativa à base 4 Ao final desta avaliação chega-se às seguintes conclusões: Para a base 4 devido à etapa de teste as bases 4l3mahalpearson e 4l3mahalparcial tiveram o pior desempenho. E no geral a RNA: Levenberg-Marquardt teve o melhor desempenho seguida pela Cascade-forward com Levenberg-Marquardt. Na maioria dos casos, as bases modificadas tiveram um desempenho satisfatório em relação às bases originais. O foco deste trabalho era fazer uma busca exaus- tiva a métodos estatísticos para análises de dados e verificar se estas metodologias empregadas funcionariam em conjunto, a explicação para algumas destas metodologias não apresentarem resultados adequados não faz parte do escopo deste trabalho, sendo deixada para trabalhos fu- turos. Para validar o treinamento dos modelos neurais foram utilizados: a ANOVA, o teste F e o teste de Cochran para comparação de variâncias, o teste de Bonferroni para identificação de dados suspeitos, e o teste Z para comparação de médias. Para as bases originais as temperaturasdo modelo ficaram próximo a 50 % na distribuição F. Assim, constatou-se que existem dados suspeitos que influenciam o ajuste dos valores do modelo. O baixo valor p (5,42004E-08, ou seja, 0,000000542) fornece uma sólida base para rejeitar a hipótese nula e concluir que existe diferença entre as variâncias referentes ao trei- namento, validação e teste da RNA, considerando um α igual a 5 %, ou seja, o intervalo de confiança é de 95 %. Logo a hipótese de que a base é ruidosa está comprovada. Para as bases de dados modificadas, nenhum dos casos presentes no modelo ficou acima de 10 % na distribuição F. Assim, constatou-se que não existem dados suspeitos que influenciem o ajuste dos valores do modelo. Isso pode ser comprovado também com o teste F pois o F observado variando entre 3,789 e 3,79 é menor do que o F crítico 3,84, a hipótese nula deve ser aceita, logo não há diferença significativa entre as variabilidades das temperaturas referentes ao treinamento, validação e teste das RNA. O coeficiente de determinação das bases originais ficou em torno de 0,33 para o treinamento e teste e 0,70 para a validação. Nas bases modificadas o coeficiente de determinação ficou em torno de 0,60 para treinamento e teste e 0,90 para a validação, isto indica que o modelo está muito bem ajustado aos dados. O valor do coeficiente de variação foi igual a 1,90 %, indicando ótima precisão, para as bases originais e menor do que 1 % para as bases modificadas, demonstrando que as bases modificadas proporcionaram um melhor desempenho nas RNA. O teste de Cochran comprovou os resultados do teste F para as bases originais e modifi- cadas. Para as base de dados originais o teste de Cochran apresentou p-value muito pequenos como 2,2e-16 muito abaixo do intervalo de confiança de 0,05. Como o p-vlue foi menor que o valor crítico, a variância em questão é considerada como sendo dado suspeito. De fato, como o valor calculado foi menor, o resultado é significante, o que nega a hipótese de igualdade (ou de homogeneidade) das variâncias envolvidas no experimento. Para as bases modificadas o teste de Cochran apresentou valores C como 0,00021258 muito abaixo do valor crítico 0,0495, e p-vlue=0,50 maior que α = 0, 05. Portanto, conclui-se que as variâncias são homogêneas. Para as bases originais o teste Z apresentou valores como 2,233 maior do que 1,96, então deve-se rejeitar a hipótese nula e aceitar a hipótese alternativa. E como o p-value=0,0255 é menor do que o nível de significância 0,05, a hipótese nula deve ser rejeitada. Portanto, conclui- se que o modelo baseado em dados originais realmente possui dados suspeitos. Para as bases modificadas o teste Z apresentou p-value entre 0,17 e 0,64, maior do que o nível de significância α = 0, 05, a hipótese nula deve ser aceita, pois há evidências de que a diferença de médias não seja significativa. Por último, foi utilizado o teste de Bonferroni que apresentou p-values iguais a 0,53 maiores do que o nível de significância 0,05. Conclui-se por este teste que o conjunto testado não contem dados suspeitos. Após a utilização de todos estes testes estatísticos pode-se concluir que o modelo utili- zando métodos estatísticos, lógica fuzzy e RNA apresentou um melhor desempenho em relação a técnica pura de RNA. Além disso, a validação do modelo da técnica pura de RNA não foi satisfatória, o mesmo não ocorreu com o modelo híbrido que mostrou-se válido. 4. CONCLUSÃO A avaliação dos resultados na seção 3 comprovou que este trabalho cumpriu o seu objetivo de demonstrar a importância da qualidade dos dados em um modelo baseado em RNA. Além disso, o mesmo mostrou que a metodologia aplicada é adequada e pode ser utilizada em con- junto com as RNA para a criação de modelos matemáticos. Do ponto de vista do objetivo geral proposto, este foi alcançado satisfatoriamente. Com as experiências adquiridas, mostrou-se que as técnicas de análise estatística de dados em sistemas utilizando RNA são necessárias e muito úteis, porém, é importante que a visão das possibilidades de utilização e aplicação dessa tecnologia seja ampliada. Este trabalho auxiliou nesta questão da seguinte maneira: primeiro com a verificação das várias semelhanças entre estatística e RNA, pois muitas das técnicas utilizadas em RNA possuem um paralelo em estatís- tica. O próximo passo foi utilizar as semelhanças para tratar os pontos fracos das RNA, assim como é feito em sistemas híbridos. O trabalho aqui relatado é relevante porque utiliza uma combinação de lógica fuzzy e es- tatística para o pré-processamento de dados e a determinação de conjuntos de treinamento, validação e teste, além dos atributos a serem utilizados nesses conjuntos, fornecendo novas possibilidades de utilização das RNA. REFERÊNCIAS Carvalho, L. A. V., 2005. Data Mining: A mineração de dados no marketing, medicina, enge- nharia e administração. Érica, São Paulo. Colombo, R. T., Guerra, A. C., & Aguayo, M. T. V., 2006. Aplicação de data mining a dados de avaliação da qualidade de produtos de software. da Cunha, A. P., 2001. Redes Neurais em Processos Siderúrgicos : Analisador Virtual de Propriedades Metalúrgicas do Sinter e Modelo de Predição de Qualidade do Aço. PhD thesis, UNICAMP, Campinas, SP. de Araujo, A. F., 2008. Inteligência computacional na indústria - etapa 5: Implementação de um modelo matemático para um convertedor de aço tipo ld. Relatório de Iniciação Científica 5, CEFET-MG, Belo Horizonte. Bolsa PIBIC/CNPq, Etapa 5. Durães, R. L., 2009. Validação de modelos baseados em rna utilizando análise estatística de dados e lógica fuzzy. Fernandes, L. G. L., Navaux, P. O. A., & Portugal, M. S., 1996. Previsão de séries de tempo: redes neurais artificiais e modelos estruturais. Pesq. Plan. Econ. Previsão de séries de tempo, vol. 26, n. 2, pp. 253–276. Meireles, M. R. G., Almeida, P. E. M., & Simoes, M. G., 2003. A comprehensive review for industrial applicability of artificial neural networks. IEEE Transactions on Industrial Electronics, vol. 50, n. 3, pp. 585–601. Moraes, R. T. B. d. & Silveira, A., 2006. Otimizando resultados com a gestão das perdas não-técnicas de energia elétrica. Technical report, SENDI XVII Seminário Nacional de Dis- tribuição de Energia Elétrica, Belo Horizonte. Ribeiro, S. R. A., Tedesco, A., Krueger, C. P., & Centeno, J. A. S., 2005. Extração de profundi- dades mediante redes neurais artificiais e modelo de regressão usando dados de levantamento gps e de imagem ikonosii - estudo comparativo. ENGEVISTA, vol. 7, n. 1, pp. 73–82. Toyoshima, S. H., DOS SANTOS, A. C., Bueno, N. P., & Braga, M. J., 2003. Aplicação das técnicas de redes neurais artificiais e de análise multivariada discriminante ao estudo de aglomerações industriais: o caso do rio grande do sul e de são paulo.
Compartilhar