Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de dados multivariados em ambiente R: uma proposta para o gráfico de controle MEWMA baseado na projeção de dados via ACP Custodio da Cunha Alves, MsC. (UFSC/UNIVILLE) ccalves@univille.edu.br Elisa Henning (UFSC/UDESC), MsC dma2eh@joinville.udesc.br Robert Wayne Samohyl, Ph.D (UFSC) samohyl@deps.ufsc.br Resumo: Os métodos estatísticos multivariados baseados na projeção de dados tais como Análise de Componentes Principais (ACP), representam ferramentas adequadas para a reduzir a dimensão dos dados e melhorar o aproveitamento das informações disponíveis. Este artigo, apresenta uma série de rotinas e funções em ambiente R para determinar as variáveis responsáveis e propor o gráfico de controle MEWMA via ACP como um procedimento para o diagnóstico e monitoramento de processos industriais multivariados. Palavras-chave: Ambiente R; Gráfico MEWMA; Análise de Componentes Principais. 1. Introdução Em análise estatística de dados multivariados o acompanhamento de um problema pode ter início a partir da redução substancial do número de variáveis. Com isso, é possível descrever com máxima precisão os valores das variáveis de um conjunto de dados a partir de um pequeno subconjunto destas, o que reduz de forma significativa a dimensão do problema à custa de uma pequena perda de informações (PEÑA, 2002). Segundo Jackson (1991), a análise de componentes principais é utilizada na indústria moderna para o controle estatístico de processos multivariados que envolvam um conjunto de dados com grande número de variáveis correlacionadas, tais como os processos químicos. A aplicação de métodos multivariados que permitem a redução das dimensões, entre eles a Análise de Componentes Principais (ACP), aparece como ferramenta adequada para o melhor aproveitamento da informação disponível. Com aplicação dessa ferramenta, é possível considerar todas as variáveis originais no tratamento estatístico e visualizar os dados em duas ou três dimensões considerando as duas ou três componentes principais. Assim, pode-se representar a maior parte da variância, ou seja, a melhor dispersão dos pontos em relação as componentes principais. Neste trabalho, investiga-se em ambiente R (R Development Core Team, 2007), a utilização de componentes principais para determinar as variáveis responsáveis no diagnóstico e monitoramento de processos industriais multivariados. O R é um ambiente para computação estatística. É um projeto GNU baseado no conceito de software livre podendo ser usado sem custos de licença, permitindo uma grande variedade de análises estatísticas como, por exemplo, análise exploratória de dados, testes estatísticos, regressão linear e não linear, análise de séries temporais, entre muitas outras (VENABLES, 2003). É possível construir gráficos bem delineados e de alta qualidade para impressão, com possibilidade de inclusão de fórmulas e símbolos matemáticos quando necessário. Possui inúmeras funções para manipulação, importação e exportação de dados, contendo versões para Windows, MacOS , GNU/Linux e Unix (BEASLEY, 2004). O termo ambiente pretende caracterizar o R como um sistema totalmente planejado e coerente ao invés de uma aglomeração de ferramentas muito específicas e inflexíveis, permitindo aos usuários acrescentar funcionalidade adicional por 1 mailto:samohyl@deps.ufsc.br mailto:dma2eh@joinville.udesc.br definição de novas funções (BEASLEY, 2004) (HENNING et al, 2007). O objetivo principal deste trabalho é mostrar como o ambiente R, de código aberto, pode ser útil no controle estatístico de processos multivariados, tanto para fins didáticos como de aplicação no setor produtivo. Para mostrar as possibilidades e vantagens na melhoria de qualidade de processos, propõe-se o gráfico de controle multivariado MEWMA baseado na projeção de dados via ACP. O desenvolvimento deste procedimento é ilustrado a partir do exemplo numérico de um processo químico com quatro variáveis, proposto por Montgomery (2004, pág. 341-344). A estrutura deste trabalho compreende: uma introdução teórica sobre análise de componentes principais e o gráfico MEWMA, apresentação de uma rotina numérica no pacote GNU R para análise de componentes principais, aplicação aos dados propostos e posterior utilização de rotina do R desses mesmos dados para o gráfico proposto. Para finalizar, conclusões e sugestões de trabalhos futuros. 2. Componentes principais A análise de componentes principais é um método multivariado que visa transformar um grupo de variáveis correlacionadas em variáveis independentes denominadas componentes principais, para facilitar a interpretação dos dados (RENCHER, 2002). Estas componentes são combinações lineares das variáveis originais (1) e representam suas projeções nas direções de máxima variabilidade dos dados. pppppp pp pp xcxcxcz xcxcxcz xcxcxcz +++= +++= +++= ... ... ... 2211 22221212 12121111 (1) Geometricamente, as variáveis das componentes principais z1, z2, ...., zp são os eixos do novo sistema de coordenadas obtido pela rotação do sistema das variáveis originais. Os novos eixos representam as direções de máxima variabilidade. A informação contida no conjunto completo das p componentes principais corresponde àquela contida no conjunto completo de todas as variáveis originais do processo (PEÑA, 2002). Segundo o autor, o principal objetivo das componentes principais é determinar o novo conjunto de direções ortogonais que definem a variabilidade máxima dos dados originais. Como ilustração, considere o caso da figura 1: há duas variáveis x1 e x2 e duas componentes principais z1 e z2. Figura 1: Componentes principais para p = 2. Fonte: Montgomery (2004, página 340) 2 De acordo com Montgomery (2004), encontrar os cij que definem as componentes principais é fácil. Seja X uma matriz, m x p, de dados preliminares do processo que contém uma observação p-variada em cada linha e seja S=(m-1)-1XX´ a matriz de covariâncias amostrais. No entanto, se utilizarmos no lugar de X a matriz Z de dados padronizados, obtém- se, ao invés de S, a matriz R de correlações amostrais. Como a matriz S é simétrica e não singular, existe uma matriz ortonormal U=[u1,u2,....,up] que transforma a matriz S numa matriz diagonal L (FILHO,2001). U´SU = L (2) Os elementos da diagonal L, λ1, λ2, ...λp são os autovalores obtidos através da solução da equação característica da matriz S ( Jackson,1980 ): | S - λ I | = 0 (3) onde I é uma matriz identidade de ordem p x p. A partir da expressão (2) pode-se transformar p variáveis correlacionadas x1, x2,......,xp em p variáveis independentes z1, z2,.....,zp denominadas componentes principais. A matriz L apresenta as covariâncias amostrais dessas novas variáveis independentes. Os autovalores de L estão dispostos em ordem decrescente, com λp representando a variância de componente zp. Os autovetores de S são obtidos através da solução da equação [S - λι I]ti = 0 (4) tal que ui = i , i i tt t , para i =1,.....,p (5) representam os autovetores normalizados que descrevem os eixos de coordenadas das novas variáveis (Jackson,1980,1985). Cada autovetor ui, i =1,.....,p, de U, obtido a partir de iλ é uma combinação linear das variáveis originais X, projetados nas direções de máxima variabilidade em relaçãoà nuvem de pontos p-dimensional, obtida a partir dos dados (Johnson e Wichern,1992). A matriz U é chamada matriz das cargas, com cada autovetor ui contendo as cargas devidas a componente zi. Dessa forma, o vetor Z de variáveis latentes pode ser escrito como Z = U´X . A primeira componente, de acordo com Peña (2002), se define como a combinação linear das variáveis originais que tem variância máxima. Os valores nesta primeira componente z1, dado por z1 =Xu1. Como as variáveis originais têm média zero, z1 também terá média nula. Sua variância será: 1 , 11 ,, 11 , 1 SuuXuXuzz == n 1 n 1 (6) onde S e a matriz de variâncias e covariâncias das observações. Para que (6) seja maximizado e tenha solução, a restrição 1=1 , 1uu é introduzida mediante o multiplicador de Lagrange 1)λ(M , −−= 111 , 1 uuSuu e derivando respectivamente as componentes principais de u1 e igualando a zero. Então 0,2λ2 M =−= ∂ ∂ 11 1 uSu u (7) 3 cuja solução é 11 uSu 1λ= (8) que implica que u1 é um auto vetor de S, e λ seu correspondente valor próprio Para determinar que autovalor de S é a solução de (8), multiplicando esta equação por ,1u temos: λλ == 1 , 11 , 1 uuSuu (9) e concluímos, por (6) que λ é a variância de z1. Como o autovalor λ é o que desejamos maximizar, λ será o maior autovalor de S. Seu vetor associado, u1, define os coeficientes de cada variável na primeira componente principal. A segunda componente, segundo Peña (2002), representa a projeção das variáveis originais na segunda maior direção de variabilidade. Para obter o melhor plano de projeção das variáveis X, estabelecemos como função objetivo que a soma das variâncias z1= Xu1 e z2= Xu2 seja máxima, onde u1 e u2 são vetores que definem o plano. Esta função objetivo será 1)(λ1)(λ 21 −−−−+= 2 , 21 , 12 , 21 , 1 uuuuSuuSuuφ (10) que incorpora as restrições de que as direções devem ter módulo unitário 1´ =iiuu , com i =1,2. Derivando e igualando a zero: =−= ∂ ∂ =−= ∂ ∂ 02λ2 02λ2 2 1 22 2 11 1 uSu u uSu u φ φ a solução deste sistema é: 11 uSu 1λ= (11) 22 uSu 1λ= (12) indicando que u1 e u2 devem ser vetores próprios de S. Tomando vetores próprios de norma 1 e substituindo em (9), se obtém que, no máximo, a função objetivo é 21 λλφ += (13) é evidente que λ1 e λ2 devem ser os dois auto-valores maiores da matriz S e u1 e u2 seus correspondentes auto-vetores. Observa-se que a covariância entre z1 e z2, dada por 2 , 1Suu é zero uma vez que 0=2 , 1uu e as variáveis z1 e z2 estarão independentes (PEÑA, 2002). 3. Controle estatístico multivariado baseado em métodos projeção de dados O controle estatístico multivariado de processos está fundamentado nos métodos de projeção de dados via Análise de Componentes Principais (ACP) e via Projeção de Estruturas Latentes (PEL) (FILHO, 2001). O objetivo do método de projeção é transformar variáveis de processo (características da qualidade) em um grupo reduzido de variáveis latentes (combinação linear das originais), preservando informações relevantes contidas nestas, e eliminando redundâncias no sistema inicial, representadas por variáveis colineares. Dessa forma, quando os dados originais são projetados num espaço de dimensões menores, trazem consigo a estrutura de covariância das variáveis originais. Normalmente, duas ou três variáveis latentes são suficientes para representar variáveis originais em maior número (FILHO, 2001). 4 Os tradicionais métodos estatísticos de controle multivariado tais como os gráficos de controle T2 de Hotelling, MCUSUM e MEWMA não são suficientemente robustos para tratar com um grande número de variáveis correlacionadas, pois foram desenvolvidos para monitorar um pequeno número dessas variáveis (PHAM, 2006). A estrutura colinear das variáveis do processo faz com que as estatísticas de controle utilizadas nestes gráficos forneçam sinalizações distorcidas acerca do estado do processo. Em algumas situações tais estatísticas não poderão ser calculadas, devido à dificuldade de inversão da matriz de covariâncias das variáveis de processo. Surge então a necessidade de utilizar gráfico de controle multivariado baseados em métodos de projeção de dados (PHAM, 2006). 4. Gráfico de controle MEWMA O gráfico de controle multivariado Média Móvel Exponencialmente Ponderada (MEWMA) acumula a informação mais recente com informações anteriores sendo, portanto, indicado para a detecção de pequenas e moderadas mudanças dos parâmetros de um processo (BERSIMIS, et al, 2007). A primeira referência sobre gráfico de controle estatístico multivariado MEWMA , se deve a Lowry et al. (1992) que definem este como uma extensão lógica do controle EWMA univariado (p = 1). Para o caso multivariado (p > 1) o gráfico MEWMA o interesse é o monitoramento simultâneo de p variáveis correlacionadas entre si. Neste caso, ,...21 X,X são vetores de dimensão p que representam as médias amostrais tomadas do processo. Suponhamos que estes vetores aleatórios são independentes e estão identicamente distribuídos segundo uma normal p-variante de vetor de média μ e matriz de covariâncias Σ, O processo estará sob controle se =0 e fora de controle se ≠0 . A estatística de controle para monitorar o vetor de médias do processo do gráfico de controle estatístico multivariado (MEWMA), é obtida a partir da equação: 1iii ZXZ −−+= r)(1r (14) onde X i é o vetor de observações amostrais p-dimensional referente a i-ésima amostra unitária, r é a matriz diagonal que contém p constantes de ponderação ]}1,0({ ∈ir e 1iZ − é o vetor p-dimensional dos escores referentes à amostra 1−i tomando geralmente como partida Z0=0 . A estatística de controle utilizada para plotar o gráfico MEWMA é definida como: i 1 iZ ' i 2 i ZZT −∑= (15) onde 1 iZ Σ − é a inversa da matriz de covariâncias de iZ . A matriz de covariância de izΣ é expressa segundo a equação ΣΣ iZ r2 ]r)(1r[1 2i − −−= (16) onde Σ é a matriz de covariância estimada ou conhecida. O processo é considerado sob controle se T i 2h na equação (15). O valor de h (limite de controle) é escolhido a partir do desempenho do ARL (número médio de amostras até o sinal) desejado para o gráfico de controle MEWMA. Este desempenho depende apenas do parâmetro de não centralidade dado pela distância de Mahalanobis quando as p características recebem o mesmo peso r. Dessa forma, este procedimento de controle também apresenta a característica de direcionalidade invariante (LOWRY et al., 1992). 5 5. Procedimentos metodológicos Para a análise de componentes principais, a instalação usual do R, possui funções específicas para tal fim. Estas foram organizadas sob a forma de uma rotina, de tal modo que as informações necessárias para uma posterior utilização de gráficos de controle fossem evidenciadas. A rotina foi desenvolvida na versão 2.6.0 do R para Windows, utilizando o editordeste e a interface Rgui. O argumento de entrada é unicamente a matriz contendo as variáveis. A rotina retorna os seguintes resultados: a matriz de correlação das variáveis originais, os autovalores (variâncias), a proporção da variância explicada por cada componente e as componentes. Além disso, dois gráficos são produzidos: a) O gráfico de dispersão das variáveis originais, com a elipse de 95% de confiança . Este permite visualizar se há correlação entre as variáveis. b) O gráfico scree-plot, útil na seleção das componentes. Estas são plotadas ordenadamente em termo de suas variâncias. A seleção das componentes deve ser feita pelo próprio pesquisador, através da análise dos resultados. Para as componentes selecionadas é aplicada uma rotina desenvolvida no ambiente R para o gráfico MEWMA, considerando-se observações individuais, ou seja, amostras de tamanho unitário (HENNING et al, 2008). Como exemplo, as rotinas foram aplicadas aos dados referentes de um processo químico com quatro variáveis, proposto por Montgomery (2004). A tabela 1 mostra as 20 primeiras observações deste exemplo numérico utilizada neste trabalho. Tabela 1: Dados do Processo Químico Fonte: Montgomery (2004, página 342) 6. Resultados obtidos No quadro pode ser visualizada a rotina desenvolvida, denominada de acp1. A análise estatística multivariada preliminar para projeção dos dados via análise de componentes principais aplicada neste artigo para o gráfico MEWMA se constitui na utilização dos dados desse exemplo numérico sobre p = 4 variáveis x1, x2, x3, x4 (variáveis de um processo químico) conforme tabela 1. Essas 20 observações são plotadas inicialmente de maneira pareada em matriz dos diagramas de dispersão, conforme figura 2. A representação assinala graficamente que as duas primeiras variáveis estão altamente correlacionadas, enquanto as outras duas variáveis exibem apenas uma correlação moderada. Através dessa representação podemos também observar que as elipses são contornos aproximados de 95 % de confiança, baseadas na hipótese de uma distribuição normal. A matriz de covariância amostral gerada dessas 20 observações sobre x´s, na forma de correlação, obtida via execução de rotina no R, conforme figura 3. Para visualizar os demais resultados e o gráfico SCREE PLOT é necessário clicar na tela a fim de efetuar as mudanças. 6 Figura 1: Rotina acp1. Fonte: Os autores Figura 2: Tela inicial de resultados da rotina acp1. Fonte: Os autores Em seguida, a tela exibe os demais resultados e o SCREE PLOT (Figura 3). A análise destes sugere que duas componentes são suficientes. A primeira componente explica cerca de 58% da variabilidade e a segunda aproximadamente 25%. As duas componentes explicam portanto 83% da variabilidade das quatro variáveis originais. Somente estas componentes possuem autovalores superiores a 1,0. Para complementar pode se observar na matriz de 7 correlação que as variáveis X1 e X2 são altamente correlacionadas (0,9302). Os resultados encontrados correspondem aos encontrados em Montgomery (2004). Figura 3: Resultados da rotina acp1. Fonte: Os autores O gráfico MEWMA é aplicado utilizando-se apenas as componentes z1 e z2. Figura 4: Gráfico MEWMA . Fonte: Os autores 8 Conforme resultados (figura 4), observa-se que o processo está estatisticamente sob controle. Pode se notar que os resultados da rotina acp1 aos dados foram armazenados com o nome de t. Aplicou-se a rotina MEWMA as duas primeiras componentes, o que foi obtido acessando-se as duas primeiras colunas deste conjunto (t$componentes[,1:2]). Ressalta-se que este é apenas uma das inúmeras formas para acesso aos dados. É possível programar o R para exportar a matriz das componentes, por exemplo, para uma planilha Microsoft Excel®. Além disso, outras informações conforme figura 3, podem ser obtidas, como por exemplo, os autovalores e autovetores, bem como os percentuais simples e acumulado da variabilidade explicada por cada componente principal. É possível também adaptar a rotina, ou parte dela, de acordo com a necessidade do usuário. Foram verificadas as suposições de normalidade e estacionariedade dos dados. O R apresenta uma série de testes para verificação da normalidade. Para este trabalho foi utilizado o teste Shapiro Wilk. Para verificação da estacionariedade foi construído um correlograma. 6. Conclusões e considerações finais O presente trabalho mostrou a utilidade da Análise de Componentes Principais na elaboração de gráficos de controle multivariados, onde a redução da dimensionalidade da matriz original de dados permite uma adequada visualização da variação dos resultados. Além disso, a ACP é importante para diagnosticar no processo quais variáveis estão bem explicadas para o modelo. O procedimento para um modelo de gráfico de controle multivariado convencional são razoavelmente eficazes desde que o número p de variáveis do processo a ser monitorado não seja muito grande pois a medida em que p aumenta, o desempenho do gráfico para detectar uma mudança específica na média dessa variáveis também aumenta (MONTGOMERY, 2004). A alternativa da utilização métodos de projeção de dados via ACP para o gráfico MEWMA proposto trabalho se constitui num método adequado para o tratamento de dados de processos multivariados com grande quantidade de variáveis. Segundo Filho (2001), estes métodos são importantes pois os tradicionais métodos estatísticos de controle multivariado tais como os gráficos de controle T2 de Hotelling, MCUSUM e MEWMA não são suficientemente robustos para tratar com um grande número de variáveis correlacionadas, pois foram desenvolvidos para monitorar um pequeno número dessas variáveis. Em algumas situações tais estatísticas não poderão ser calculadas, devido à dificuldade de inversão da matriz de covariâncias das variáveis de processo. O ambiente R mostrou ser uma ferramenta adequada e poderosa para análise de dados multivariados baseados na projeção de dados com a utilização da Análise de Componentes Principais, e posterior aplicação do gráfico MEWMA. O R possui inúmeras funções para tal aplicação e, permite a utilização e adaptação destas de acordo com a necessidade do usuário. É possível desenvolver rotinas e adaptá-las, além da construção de gráficos de alta qualidade. A principal vantagem do R já é conhecida, é um ambiente livre e de código aberto. A inúmera quantidade de funções, que pode confundir o usuário, correspondendo a uma dificuldade, deixa de existir na medida que estas funções são agrupadas de acordo com a sua aplicação específica. Como sugestões para futuros trabalhos citam-se: a) desenvolver um procedimento automático para escolha das componentes; b) tornar a rotina aplicável para subgrupos; c) efetuar a comparação do desempenho do gráfico MEMWA com os demais gráficos multivariados, quando da utilização de componentes principais. 9 Referências BEASLEY, C. R. Bioestatística usando R. Universidade Federal do Pará. 2004. Disponível em: http://www.r- project.org/other-docs.html . Acessado em 01/09/2005 . BERSIMIS, S.; PSARAKIS, S. & PANARETOS, J. Multivariate Statistical Process Control Charts: An Overview. Quality and Reliability Engineering International. 23:517–543, 2007 FILHO, D. M. Monitoramento de Processos em Batelada através de Cartas de Controle Multivariadas Baseada na Análise de Componentes Principais Multidirecionais (ACPM). Dissertação de Mestrado em Engenharia de Produção, UFRGS, Porto Alegre, 2001. HENNING, E.; ALVES, C. C. & VIEIRA,V. O ambiente R como uma proposta de renovação para aprendizagem e monitoramento de processos em Controle Estatístico de Qualidade. XIV SIMPEP- Simpósio de Engenharia de Produção. Bauru: 2007. HENNING, E.;ALVES, C. C. & SAMOHYL, R. W. Gráficos de Controle multivariados MEWMA e MCUSUM em ambiente R. 18° SINAPE - Simpósio Nacional de Probabilidade e Estatística. Estância de São Pedro: 2008. JACKSON, J.E. Multivariate Quality Control. Commun.Statist.Theor.Meth., 14 (11), 2657-2658, 1985 JACKSON, J.E.Principal Components and factor Analysis: Part I, Journal of Quality Technology , 12(4), 201-213, 1980. JACKSON, J.E. A user guide to Principal Components. Wiley. New York: 1991. JOHNSON, R.A.; WICHERN, D.W. Applied Multivariate Statistical Analysis, 4a ed., Prentice Hall, 1998. MONTGOMERY, D. C. Introdução ao Controle Estatístico da Qualidade. LTC Editora, 4ª edição. Rio de Janeiro: 2004. PEÑA, D. Análisis de Datos Multivariantes. 1a ed., McGraw-Hill Interamericana de España, 2002. PHAM, H. Springer Handbook of Engineering Statistics. Rutgers the State University of New Jersey, 2006 RENCHER, A.C. Methods of Multivariante Analysis, .2a ed., Wiley-Interscience, 2002. R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for Statistical Computing,Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org, 2007. VENABLES, W. N, SMITH, D.M. An introduction to R. Disponível em: http://www.r-project.org. Acessado em 10/09/2004. 1 0 http://www.r-project.org/ http://www.R-project.org/ http://www.r-project.org/ http://www.r-project.org/other-docs.html http://www.r-project.org/other-docs.html Análise de dados multivariados em ambiente R: uma proposta para o gráfico de controle MEWMA baseado na projeção de dados via ACP 1. Introdução 2. Componentes principais 3. Controle estatístico multivariado baseado em métodos projeção de dados 4. Gráfico de controle MEWMA 5. Procedimentos metodológicos Tabela 1: Dados do Processo Químico Referências
Compartilhar