Buscar

Analise_de_dados_multivariados_em_ambiente R

Prévia do material em texto

Análise de dados multivariados em ambiente R: uma proposta para o 
gráfico de controle MEWMA baseado na projeção de dados via ACP 
Custodio da Cunha Alves, MsC. (UFSC/UNIVILLE) ccalves@univille.edu.br
Elisa Henning (UFSC/UDESC), MsC dma2eh@joinville.udesc.br
Robert Wayne Samohyl, Ph.D (UFSC) samohyl@deps.ufsc.br
Resumo: Os métodos estatísticos multivariados baseados na projeção de dados tais como 
Análise de Componentes Principais (ACP), representam ferramentas adequadas para a 
reduzir a dimensão dos dados e melhorar o aproveitamento das informações disponíveis. 
Este artigo, apresenta uma série de rotinas e funções em ambiente R para determinar as 
variáveis responsáveis e propor o gráfico de controle MEWMA via ACP como um 
procedimento para o diagnóstico e monitoramento de processos industriais multivariados. 
Palavras-chave: Ambiente R; Gráfico MEWMA; Análise de Componentes Principais.
1. Introdução
Em análise estatística de dados multivariados o acompanhamento de um problema 
pode ter início a partir da redução substancial do número de variáveis. Com isso, é possível 
descrever com máxima precisão os valores das variáveis de um conjunto de dados a partir de 
um pequeno subconjunto destas, o que reduz de forma significativa a dimensão do problema à 
custa de uma pequena perda de informações (PEÑA, 2002).
Segundo Jackson (1991), a análise de componentes principais é utilizada na indústria 
moderna para o controle estatístico de processos multivariados que envolvam um conjunto de 
dados com grande número de variáveis correlacionadas, tais como os processos químicos. 
A aplicação de métodos multivariados que permitem a redução das dimensões, entre 
eles a Análise de Componentes Principais (ACP), aparece como ferramenta adequada para o 
melhor aproveitamento da informação disponível. Com aplicação dessa ferramenta, é possível 
considerar todas as variáveis originais no tratamento estatístico e visualizar os dados em duas 
ou três dimensões considerando as duas ou três componentes principais. Assim, pode-se 
representar a maior parte da variância, ou seja, a melhor dispersão dos pontos em relação as 
componentes principais.
Neste trabalho, investiga-se em ambiente R (R Development Core Team, 2007), a 
utilização de componentes principais para determinar as variáveis responsáveis no diagnóstico 
e monitoramento de processos industriais multivariados. O R é um ambiente para computação 
estatística. É um projeto GNU baseado no conceito de software livre podendo ser usado sem 
custos de licença, permitindo uma grande variedade de análises estatísticas como, por 
exemplo, análise exploratória de dados, testes estatísticos, regressão linear e não linear, 
análise de séries temporais, entre muitas outras (VENABLES, 2003). É possível construir 
gráficos bem delineados e de alta qualidade para impressão, com possibilidade de inclusão de 
fórmulas e símbolos matemáticos quando necessário. Possui inúmeras funções para 
manipulação, importação e exportação de dados, contendo versões para Windows, MacOS , 
GNU/Linux e Unix (BEASLEY, 2004). O termo ambiente pretende caracterizar o R como um 
sistema totalmente planejado e coerente ao invés de uma aglomeração de ferramentas muito 
específicas e inflexíveis, permitindo aos usuários acrescentar funcionalidade adicional por 
1
mailto:samohyl@deps.ufsc.br
mailto:dma2eh@joinville.udesc.br
definição de novas funções (BEASLEY, 2004) (HENNING et al, 2007). 
O objetivo principal deste trabalho é mostrar como o ambiente R, de código aberto, 
pode ser útil no controle estatístico de processos multivariados, tanto para fins didáticos como 
de aplicação no setor produtivo. Para mostrar as possibilidades e vantagens na melhoria de 
qualidade de processos, propõe-se o gráfico de controle multivariado MEWMA baseado na 
projeção de dados via ACP. O desenvolvimento deste procedimento é ilustrado a partir do 
exemplo numérico de um processo químico com quatro variáveis, proposto por Montgomery 
(2004, pág. 341-344). 
A estrutura deste trabalho compreende: uma introdução teórica sobre análise de 
componentes principais e o gráfico MEWMA, apresentação de uma rotina numérica no 
pacote GNU R para análise de componentes principais, aplicação aos dados propostos e 
posterior utilização de rotina do R desses mesmos dados para o gráfico proposto. Para 
finalizar, conclusões e sugestões de trabalhos futuros.
2. Componentes principais
A análise de componentes principais é um método multivariado que visa transformar 
um grupo de variáveis correlacionadas em variáveis independentes denominadas 
componentes principais, para facilitar a interpretação dos dados (RENCHER, 2002). Estas 
componentes são combinações lineares das variáveis originais (1) e representam suas 
projeções nas direções de máxima variabilidade dos dados. 
pppppp
pp
pp
xcxcxcz
xcxcxcz
xcxcxcz
+++=
+++=
+++=
...
...
...
2211
22221212
12121111

 (1)
Geometricamente, as variáveis das componentes principais z1, z2, ...., zp são os eixos do 
novo sistema de coordenadas obtido pela rotação do sistema das variáveis originais. Os novos 
eixos representam as direções de máxima variabilidade. A informação contida no conjunto 
completo das p componentes principais corresponde àquela contida no conjunto completo de 
todas as variáveis originais do processo (PEÑA, 2002). Segundo o autor, o principal objetivo 
das componentes principais é determinar o novo conjunto de direções ortogonais que definem 
a variabilidade máxima dos dados originais. Como ilustração, considere o caso da figura 1: 
há duas variáveis x1 e x2 e duas componentes principais z1 e z2. 
 Figura 1: Componentes principais para p = 2. 
 Fonte: Montgomery (2004, página 340)
2
De acordo com Montgomery (2004), encontrar os cij que definem as componentes 
principais é fácil. Seja X uma matriz, m x p, de dados preliminares do processo que contém 
uma observação p-variada em cada linha e seja S=(m-1)-1XX´ a matriz de covariâncias 
amostrais. No entanto, se utilizarmos no lugar de X a matriz Z de dados padronizados, obtém-
se, ao invés de S, a matriz R de correlações amostrais. Como a matriz S é simétrica e não 
singular, existe uma matriz ortonormal U=[u1,u2,....,up] que transforma a matriz S numa 
matriz diagonal L (FILHO,2001).
U´SU = L (2)
Os elementos da diagonal L, λ1, λ2, ...λp são os autovalores obtidos através da solução 
da equação característica da matriz S ( Jackson,1980 ):
| S - λ I | = 0 (3)
onde I é uma matriz identidade de ordem p x p. A partir da expressão (2) pode-se transformar 
p variáveis correlacionadas x1, x2,......,xp em p variáveis independentes z1, z2,.....,zp 
denominadas componentes principais. A matriz L apresenta as covariâncias amostrais dessas 
novas variáveis independentes. Os autovalores de L estão dispostos em ordem decrescente, 
com λp representando a variância de componente zp. Os autovetores de S são obtidos através 
da solução da equação 
[S - λι I]ti = 0 (4)
tal que 
ui =
i
,
i
i
tt
t
, para i =1,.....,p (5)
representam os autovetores normalizados que descrevem os eixos de coordenadas das novas 
variáveis (Jackson,1980,1985).
Cada autovetor ui, i =1,.....,p, de U, obtido a partir de iλ é uma combinação linear das 
variáveis originais X, projetados nas direções de máxima variabilidade em relaçãoà nuvem de 
pontos p-dimensional, obtida a partir dos dados (Johnson e Wichern,1992). A matriz U é 
chamada matriz das cargas, com cada autovetor ui contendo as cargas devidas a componente 
zi. Dessa forma, o vetor Z de variáveis latentes pode ser escrito como Z = U´X . 
A primeira componente, de acordo com Peña (2002), se define como a combinação 
linear das variáveis originais que tem variância máxima. Os valores nesta primeira 
componente z1, dado por z1 =Xu1. Como as variáveis originais têm média zero, z1 também terá 
média nula. Sua variância será:
1
,
11
,,
11
,
1 SuuXuXuzz == n
1
n
1
 (6) 
onde S e a matriz de variâncias e covariâncias das observações. Para que (6) seja maximizado 
e tenha solução, a restrição 1=1
,
1uu é introduzida mediante o multiplicador de Lagrange
1)λ(M , −−= 111
,
1 uuSuu e derivando respectivamente as componentes principais de u1 e 
igualando a zero. Então
 0,2λ2
M =−=
∂
∂
11
1
uSu
u (7)
3
cuja solução é 
11 uSu 1λ= (8)
que implica que u1 é um auto vetor de S, e λ seu correspondente valor próprio Para determinar 
que autovalor de S é a solução de (8), multiplicando esta equação por ,1u temos: 
 λλ == 1
,
11
,
1 uuSuu (9)
e concluímos, por (6) que λ é a variância de z1. Como o autovalor λ é o que desejamos 
maximizar, λ será o maior autovalor de S. Seu vetor associado, u1, define os coeficientes de 
cada variável na primeira componente principal. 
A segunda componente, segundo Peña (2002), representa a projeção das variáveis 
originais na segunda maior direção de variabilidade. Para obter o melhor plano de projeção 
das variáveis X, estabelecemos como função objetivo que a soma das variâncias z1= Xu1 e 
z2= Xu2 seja máxima, onde u1 e u2 são vetores que definem o plano. Esta função objetivo será
 1)(λ1)(λ 21 −−−−+= 2
,
21
,
12
,
21
,
1 uuuuSuuSuuφ (10)
que incorpora as restrições de que as direções devem ter módulo unitário 1´ =iiuu , com i =1,2. 
Derivando e igualando a zero:
 






=−=
∂
∂
=−=
∂
∂
02λ2
02λ2
2
1
22
2
11
1
uSu
u
uSu
u
φ
φ
a solução deste sistema é: 
 11 uSu 1λ= (11)
 22 uSu 1λ= (12) 
indicando que u1 e u2 devem ser vetores próprios de S. Tomando vetores próprios de norma 1 
e substituindo em (9), se obtém que, no máximo, a função objetivo é 
 21 λλφ += (13)
é evidente que λ1 e λ2 devem ser os dois auto-valores maiores da matriz S e u1 e u2 seus
correspondentes auto-vetores. Observa-se que a covariância entre z1 e z2, dada por 2
,
1Suu é 
zero uma vez que 0=2
,
1uu e as variáveis z1 e z2 estarão independentes (PEÑA, 2002).
3. Controle estatístico multivariado baseado em métodos projeção de dados 
O controle estatístico multivariado de processos está fundamentado nos métodos de 
projeção de dados via Análise de Componentes Principais (ACP) e via Projeção de Estruturas 
Latentes (PEL) (FILHO, 2001). O objetivo do método de projeção é transformar variáveis de 
processo (características da qualidade) em um grupo reduzido de variáveis latentes 
(combinação linear das originais), preservando informações relevantes contidas nestas, e 
eliminando redundâncias no sistema inicial, representadas por variáveis colineares. Dessa 
forma, quando os dados originais são projetados num espaço de dimensões menores, trazem 
consigo a estrutura de covariância das variáveis originais. Normalmente, duas ou três 
variáveis latentes são suficientes para representar variáveis originais em maior número 
(FILHO, 2001).
4
Os tradicionais métodos estatísticos de controle multivariado tais como os gráficos de 
controle T2 de Hotelling, MCUSUM e MEWMA não são suficientemente robustos para tratar 
com um grande número de variáveis correlacionadas, pois foram desenvolvidos para 
monitorar um pequeno número dessas variáveis (PHAM, 2006). A estrutura colinear das 
variáveis do processo faz com que as estatísticas de controle utilizadas nestes gráficos 
forneçam sinalizações distorcidas acerca do estado do processo. Em algumas situações tais 
estatísticas não poderão ser calculadas, devido à dificuldade de inversão da matriz de 
covariâncias das variáveis de processo. Surge então a necessidade de utilizar gráfico de 
controle multivariado baseados em métodos de projeção de dados (PHAM, 2006).
4. Gráfico de controle MEWMA
O gráfico de controle multivariado Média Móvel Exponencialmente Ponderada 
(MEWMA) acumula a informação mais recente com informações anteriores sendo, portanto, 
indicado para a detecção de pequenas e moderadas mudanças dos parâmetros de um processo 
(BERSIMIS, et al, 2007).
A primeira referência sobre gráfico de controle estatístico multivariado MEWMA , 
se deve a Lowry et al. (1992) que definem este como uma extensão lógica do controle 
EWMA univariado (p = 1). Para o caso multivariado (p > 1) o gráfico MEWMA o interesse é 
o monitoramento simultâneo de p variáveis correlacionadas entre si. Neste caso, ,...21 X,X são 
vetores de dimensão p que representam as médias amostrais tomadas do processo. 
Suponhamos que estes vetores aleatórios são independentes e estão identicamente 
distribuídos segundo uma normal p-variante de vetor de média μ e matriz de covariâncias Σ, 
O processo estará sob controle se =0 e fora de controle se ≠0 .
A estatística de controle para monitorar o vetor de médias do processo do gráfico de 
controle estatístico multivariado (MEWMA), é obtida a partir da equação: 
1iii ZXZ −−+= r)(1r (14)
onde X i é o vetor de observações amostrais p-dimensional referente a i-ésima amostra 
unitária, r é a matriz diagonal que contém p constantes de ponderação ]}1,0({ ∈ir e 1iZ − é o 
vetor p-dimensional dos escores referentes à amostra 1−i tomando geralmente como partida 
Z0=0 . A estatística de controle utilizada para plotar o gráfico MEWMA é definida como:
i
1
iZ
'
i
2
i ZZT
−∑= (15)
onde 
1
iZ
Σ − é a inversa da matriz de covariâncias de iZ . A matriz de covariância de izΣ é 
expressa segundo a equação 
ΣΣ
iZ r2
]r)(1r[1 2i
−
−−= (16) 
onde Σ é a matriz de covariância estimada ou conhecida.
O processo é considerado sob controle se T i
2h na equação (15). O valor de h (limite 
de controle) é escolhido a partir do desempenho do ARL (número médio de amostras até o 
sinal) desejado para o gráfico de controle MEWMA. Este desempenho depende apenas do 
parâmetro de não centralidade dado pela distância de Mahalanobis quando as p características 
recebem o mesmo peso r. Dessa forma, este procedimento de controle também apresenta a 
característica de direcionalidade invariante (LOWRY et al., 1992).
5
5. Procedimentos metodológicos
Para a análise de componentes principais, a instalação usual do R, possui funções 
específicas para tal fim. Estas foram organizadas sob a forma de uma rotina, de tal modo que 
as informações necessárias para uma posterior utilização de gráficos de controle fossem 
evidenciadas. A rotina foi desenvolvida na versão 2.6.0 do R para Windows, utilizando o 
editordeste e a interface Rgui. 
O argumento de entrada é unicamente a matriz contendo as variáveis. A rotina retorna 
os seguintes resultados: a matriz de correlação das variáveis originais, os autovalores 
(variâncias), a proporção da variância explicada por cada componente e as componentes. 
Além disso, dois gráficos são produzidos:
a) O gráfico de dispersão das variáveis originais, com a elipse de 95% de confiança . Este 
permite visualizar se há correlação entre as variáveis. 
b) O gráfico scree-plot, útil na seleção das componentes. Estas são plotadas ordenadamente 
em termo de suas variâncias. 
A seleção das componentes deve ser feita pelo próprio pesquisador, através da análise 
dos resultados. Para as componentes selecionadas é aplicada uma rotina desenvolvida no 
ambiente R para o gráfico MEWMA, considerando-se observações individuais, ou seja, 
amostras de tamanho unitário (HENNING et al, 2008). 
Como exemplo, as rotinas foram aplicadas aos dados referentes de um processo 
químico com quatro variáveis, proposto por Montgomery (2004). A tabela 1 mostra as 20 
primeiras observações deste exemplo numérico utilizada neste trabalho. 
Tabela 1: Dados do Processo Químico 
 Fonte: Montgomery (2004, página 342)
6. Resultados obtidos 
No quadro pode ser visualizada a rotina desenvolvida, denominada de acp1. 
A análise estatística multivariada preliminar para projeção dos dados via análise de 
componentes principais aplicada neste artigo para o gráfico MEWMA se constitui na 
utilização dos dados desse exemplo numérico sobre p = 4 variáveis x1, x2, x3, x4 (variáveis de 
um processo químico) conforme tabela 1. Essas 20 observações são plotadas inicialmente de 
maneira pareada em matriz dos diagramas de dispersão, conforme figura 2. A representação 
assinala graficamente que as duas primeiras variáveis estão altamente correlacionadas, 
enquanto as outras duas variáveis exibem apenas uma correlação moderada. Através dessa 
representação podemos também observar que as elipses são contornos aproximados de 95 % 
de confiança, baseadas na hipótese de uma distribuição normal. A matriz de covariância 
amostral gerada dessas 20 observações sobre x´s, na forma de correlação, obtida via 
execução de rotina no R, conforme figura 3. 
Para visualizar os demais resultados e o gráfico SCREE PLOT é necessário clicar na 
tela a fim de efetuar as mudanças.
6
Figura 1: Rotina acp1. Fonte: Os autores
Figura 2: Tela inicial de resultados da rotina acp1. Fonte: Os autores
Em seguida, a tela exibe os demais resultados e o SCREE PLOT (Figura 3). A análise 
destes sugere que duas componentes são suficientes. A primeira componente explica cerca de 
58% da variabilidade e a segunda aproximadamente 25%. As duas componentes explicam 
portanto 83% da variabilidade das quatro variáveis originais. Somente estas componentes 
possuem autovalores superiores a 1,0. Para complementar pode se observar na matriz de 
7
correlação que as variáveis X1 e X2 são altamente correlacionadas (0,9302). Os resultados 
encontrados correspondem aos encontrados em Montgomery (2004).
Figura 3: Resultados da rotina acp1. Fonte: Os autores
O gráfico MEWMA é aplicado utilizando-se apenas as componentes z1 e z2. 
Figura 4: Gráfico MEWMA . Fonte: Os autores
8
Conforme resultados (figura 4), observa-se que o processo está estatisticamente sob 
controle. Pode se notar que os resultados da rotina acp1 aos dados foram armazenados com o 
nome de t. Aplicou-se a rotina MEWMA as duas primeiras componentes, o que foi obtido 
acessando-se as duas primeiras colunas deste conjunto (t$componentes[,1:2]). Ressalta-se 
que este é apenas uma das inúmeras formas para acesso aos dados. É possível programar o R 
para exportar a matriz das componentes, por exemplo, para uma planilha Microsoft Excel®. 
Além disso, outras informações conforme figura 3, podem ser obtidas, como por 
exemplo, os autovalores e autovetores, bem como os percentuais simples e acumulado da 
variabilidade explicada por cada componente principal. É possível também adaptar a rotina, 
ou parte dela, de acordo com a necessidade do usuário.
Foram verificadas as suposições de normalidade e estacionariedade dos dados. O R 
apresenta uma série de testes para verificação da normalidade. Para este trabalho foi utilizado 
o teste Shapiro Wilk. Para verificação da estacionariedade foi construído um correlograma.
6. Conclusões e considerações finais 
O presente trabalho mostrou a utilidade da Análise de Componentes Principais na 
elaboração de gráficos de controle multivariados, onde a redução da dimensionalidade da 
matriz original de dados permite uma adequada visualização da variação dos resultados. Além 
disso, a ACP é importante para diagnosticar no processo quais variáveis estão bem explicadas 
para o modelo. O procedimento para um modelo de gráfico de controle multivariado 
convencional são razoavelmente eficazes desde que o número p de variáveis do processo a 
ser monitorado não seja muito grande pois a medida em que p aumenta, o desempenho do 
gráfico para detectar uma mudança específica na média dessa variáveis também aumenta 
(MONTGOMERY, 2004). 
A alternativa da utilização métodos de projeção de dados via ACP para o gráfico 
MEWMA proposto trabalho se constitui num método adequado para o tratamento de dados de 
processos multivariados com grande quantidade de variáveis. Segundo Filho (2001), estes 
métodos são importantes pois os tradicionais métodos estatísticos de controle multivariado 
tais como os gráficos de controle T2 de Hotelling, MCUSUM e MEWMA não são 
suficientemente robustos para tratar com um grande número de variáveis correlacionadas, 
pois foram desenvolvidos para monitorar um pequeno número dessas variáveis. Em algumas 
situações tais estatísticas não poderão ser calculadas, devido à dificuldade de inversão da 
matriz de covariâncias das variáveis de processo.
O ambiente R mostrou ser uma ferramenta adequada e poderosa para análise de dados 
multivariados baseados na projeção de dados com a utilização da Análise de Componentes 
Principais, e posterior aplicação do gráfico MEWMA. O R possui inúmeras funções para tal 
aplicação e, permite a utilização e adaptação destas de acordo com a necessidade do usuário. 
É possível desenvolver rotinas e adaptá-las, além da construção de gráficos de alta qualidade. 
A principal vantagem do R já é conhecida, é um ambiente livre e de código aberto. A inúmera 
quantidade de funções, que pode confundir o usuário, correspondendo a uma dificuldade, 
deixa de existir na medida que estas funções são agrupadas de acordo com a sua aplicação 
específica. Como sugestões para futuros trabalhos citam-se:
a) desenvolver um procedimento automático para escolha das componentes;
b) tornar a rotina aplicável para subgrupos;
c) efetuar a comparação do desempenho do gráfico MEMWA com os demais gráficos 
multivariados, quando da utilização de componentes principais.
9
Referências
BEASLEY, C. R. Bioestatística usando R. Universidade Federal do Pará. 2004. Disponível em: http://www.r-
project.org/other-docs.html . Acessado em 01/09/2005 .
BERSIMIS, S.; PSARAKIS, S. & PANARETOS, J. Multivariate Statistical Process Control Charts: An 
Overview. Quality and Reliability Engineering International. 23:517–543, 2007
FILHO, D. M. Monitoramento de Processos em Batelada através de Cartas de Controle Multivariadas Baseada 
na Análise de Componentes Principais Multidirecionais (ACPM). Dissertação de Mestrado em Engenharia de 
Produção, UFRGS, Porto Alegre, 2001.
HENNING, E.; ALVES, C. C. & VIEIRA,V. O ambiente R como uma proposta de renovação para 
aprendizagem e monitoramento de processos em Controle Estatístico de Qualidade. XIV SIMPEP- Simpósio de 
Engenharia de Produção. Bauru: 2007.
HENNING, E.;ALVES, C. C. & SAMOHYL, R. W. Gráficos de Controle multivariados MEWMA e 
MCUSUM em ambiente R. 18° SINAPE - Simpósio Nacional de Probabilidade e Estatística. Estância de São 
Pedro: 2008.
JACKSON, J.E. Multivariate Quality Control. Commun.Statist.Theor.Meth., 14 (11), 2657-2658, 1985
JACKSON, J.E.Principal Components and factor Analysis: Part I, Journal of Quality Technology , 12(4), 
201-213, 1980.
JACKSON, J.E. A user guide to Principal Components. Wiley. New York: 1991.
JOHNSON, R.A.; WICHERN, D.W. Applied Multivariate Statistical Analysis, 4a ed., Prentice Hall, 1998.
MONTGOMERY, D. C. Introdução ao Controle Estatístico da Qualidade. LTC Editora, 4ª edição. Rio de 
Janeiro: 2004.
PEÑA, D. Análisis de Datos Multivariantes. 1a ed., McGraw-Hill Interamericana de España, 2002. 
PHAM, H. Springer Handbook of Engineering Statistics. Rutgers the State University of New Jersey, 2006
RENCHER, A.C. Methods of Multivariante Analysis, .2a ed., Wiley-Interscience, 2002. 
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for 
Statistical Computing,Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org, 2007.
VENABLES, W. N, SMITH, D.M. An introduction to R. Disponível em: http://www.r-project.org. Acessado em 
10/09/2004.
1
0
http://www.r-project.org/
http://www.R-project.org/
http://www.r-project.org/
http://www.r-project.org/other-docs.html
http://www.r-project.org/other-docs.html
	Análise de dados multivariados em ambiente R: uma proposta para o gráfico de controle MEWMA baseado na projeção de dados via ACP 
	1. Introdução
	2. Componentes principais
	3. Controle estatístico multivariado baseado em métodos projeção de dados 
	4. Gráfico de controle MEWMA
	5. Procedimentos metodológicos
	Tabela 1: Dados do Processo Químico 
	Referências

Continue navegando