Analise_de_dados_multivariados_em_ambiente R

•

UFSJ

0

Rodrigo Fonseca

21/04/2020

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.368 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Análise de dados multivariados em ambiente R: uma proposta para o
gráfico de controle MEWMA baseado na projeção de dados via ACP
Custodio da Cunha Alves, MsC. (UFSC/UNIVILLE) ccalves@univille.edu.br
Elisa Henning (UFSC/UDESC), MsC dma2eh@joinville.udesc.br
Robert Wayne Samohyl, Ph.D (UFSC) samohyl@deps.ufsc.br
Resumo: Os métodos estatísticos multivariados baseados na projeção de dados tais como
Análise de Componentes Principais (ACP), representam ferramentas adequadas para a
reduzir a dimensão dos dados e melhorar o aproveitamento das informações disponíveis.
Este artigo, apresenta uma série de rotinas e funções em ambiente R para determinar as
variáveis responsáveis e propor o gráfico de controle MEWMA via ACP como um
procedimento para o diagnóstico e monitoramento de processos industriais multivariados.
Palavras-chave: Ambiente R; Gráfico MEWMA; Análise de Componentes Principais.
1. Introdução
Em análise estatística de dados multivariados o acompanhamento de um problema
pode ter início a partir da redução substancial do número de variáveis. Com isso, é possível
descrever com máxima precisão os valores das variáveis de um conjunto de dados a partir de
um pequeno subconjunto destas, o que reduz de forma significativa a dimensão do problema à
custa de uma pequena perda de informações (PEÑA, 2002).
Segundo Jackson (1991), a análise de componentes principais é utilizada na indústria
moderna para o controle estatístico de processos multivariados que envolvam um conjunto de
dados com grande número de variáveis correlacionadas, tais como os processos químicos.
A aplicação de métodos multivariados que permitem a redução das dimensões, entre
eles a Análise de Componentes Principais (ACP), aparece como ferramenta adequada para o
melhor aproveitamento da informação disponível. Com aplicação dessa ferramenta, é possível
considerar todas as variáveis originais no tratamento estatístico e visualizar os dados em duas
ou três dimensões considerando as duas ou três componentes principais. Assim, pode-se
representar a maior parte da variância, ou seja, a melhor dispersão dos pontos em relação as
componentes principais.
Neste trabalho, investiga-se em ambiente R (R Development Core Team, 2007), a
utilização de componentes principais para determinar as variáveis responsáveis no diagnóstico
e monitoramento de processos industriais multivariados. O R é um ambiente para computação
estatística. É um projeto GNU baseado no conceito de software livre podendo ser usado sem
custos de licença, permitindo uma grande variedade de análises estatísticas como, por
exemplo, análise exploratória de dados, testes estatísticos, regressão linear e não linear,
análise de séries temporais, entre muitas outras (VENABLES, 2003). É possível construir
gráficos bem delineados e de alta qualidade para impressão, com possibilidade de inclusão de
fórmulas e símbolos matemáticos quando necessário. Possui inúmeras funções para
manipulação, importação e exportação de dados, contendo versões para Windows, MacOS ,
GNU/Linux e Unix (BEASLEY, 2004). O termo ambiente pretende caracterizar o R como um
sistema totalmente planejado e coerente ao invés de uma aglomeração de ferramentas muito
específicas e inflexíveis, permitindo aos usuários acrescentar funcionalidade adicional por
1
mailto:samohyl@deps.ufsc.br
mailto:dma2eh@joinville.udesc.br
definição de novas funções (BEASLEY, 2004) (HENNING et al, 2007).
O objetivo principal deste trabalho é mostrar como o ambiente R, de código aberto,
pode ser útil no controle estatístico de processos multivariados, tanto para fins didáticos como
de aplicação no setor produtivo. Para mostrar as possibilidades e vantagens na melhoria de
qualidade de processos, propõe-se o gráfico de controle multivariado MEWMA baseado na
projeção de dados via ACP. O desenvolvimento deste procedimento é ilustrado a partir do
exemplo numérico de um processo químico com quatro variáveis, proposto por Montgomery
(2004, pág. 341-344).
A estrutura deste trabalho compreende: uma introdução teórica sobre análise de
componentes principais e o gráfico MEWMA, apresentação de uma rotina numérica no
pacote GNU R para análise de componentes principais, aplicação aos dados propostos e
posterior utilização de rotina do R desses mesmos dados para o gráfico proposto. Para
finalizar, conclusões e sugestões de trabalhos futuros.
2. Componentes principais
A análise de componentes principais é um método multivariado que visa transformar
um grupo de variáveis correlacionadas em variáveis independentes denominadas
componentes principais, para facilitar a interpretação dos dados (RENCHER, 2002). Estas
componentes são combinações lineares das variáveis originais (1) e representam suas
projeções nas direções de máxima variabilidade dos dados.
pppppp
pp
pp
xcxcxcz
xcxcxcz
xcxcxcz
+++=
+++=
+++=
...
...
...
2211
22221212
12121111

(1)
Geometricamente, as variáveis das componentes principais z1, z2, ...., zp são os eixos do
novo sistema de coordenadas obtido pela rotação do sistema das variáveis originais. Os novos
eixos representam as direções de máxima variabilidade. A informação contida no conjunto
completo das p componentes principais corresponde àquela contida no conjunto completo de
todas as variáveis originais do processo (PEÑA, 2002). Segundo o autor, o principal objetivo
das componentes principais é determinar o novo conjunto de direções ortogonais que definem
a variabilidade máxima dos dados originais. Como ilustração, considere o caso da figura 1:
há duas variáveis x1 e x2 e duas componentes principais z1 e z2.
Figura 1: Componentes principais para p = 2.
Fonte: Montgomery (2004, página 340)
2
De acordo com Montgomery (2004), encontrar os cij que definem as componentes
principais é fácil. Seja X uma matriz, m x p, de dados preliminares do processo que contém
uma observação p-variada em cada linha e seja S=(m-1)-1XX´ a matriz de covariâncias
amostrais. No entanto, se utilizarmos no lugar de X a matriz Z de dados padronizados, obtém-
se, ao invés de S, a matriz R de correlações amostrais. Como a matriz S é simétrica e não
singular, existe uma matriz ortonormal U=[u1,u2,....,up] que transforma a matriz S numa
matriz diagonal L (FILHO,2001).
U´SU = L (2)
Os elementos da diagonal L, λ1, λ2, ...λp são os autovalores obtidos através da solução
da equação característica da matriz S ( Jackson,1980 ):
| S - λ I | = 0 (3)
onde I é uma matriz identidade de ordem p x p. A partir da expressão (2) pode-se transformar
p variáveis correlacionadas x1, x2,......,xp em p variáveis independentes z1, z2,.....,zp
denominadas componentes principais. A matriz L apresenta as covariâncias amostrais dessas
novas variáveis independentes. Os autovalores de L estão dispostos em ordem decrescente,
com λp representando a variância de componente zp. Os autovetores de S são obtidos através
da solução da equação
[S - λι I]ti = 0 (4)
tal que
ui =
i
,
i
i
tt
t
, para i =1,.....,p (5)
representam os autovetores normalizados que descrevem os eixos de coordenadas das novas
variáveis (Jackson,1980,1985).
Cada autovetor ui, i =1,.....,p, de U, obtido a partir de iλ é uma combinação linear das
variáveis originais X, projetados nas direções de máxima variabilidade em relaçãoà nuvem de
pontos p-dimensional, obtida a partir dos dados (Johnson e Wichern,1992). A matriz U é
chamada matriz das cargas, com cada autovetor ui contendo as cargas devidas a componente
zi. Dessa forma, o vetor Z de variáveis latentes pode ser escrito como Z = U´X .
A primeira componente, de acordo com Peña (2002), se define como a combinação
linear das variáveis originais que tem variância máxima. Os valores nesta primeira
componente z1, dado por z1 =Xu1. Como as variáveis originais têm média zero, z1 também terá
média nula. Sua variância será:
1
,
11
,,
11
,
1 SuuXuXuzz == n
1
n
1
(6)
onde S e a matriz de variâncias e covariâncias das observações. Para que (6) seja maximizado
e tenha solução, a restrição 1=1
,
1uu é introduzida mediante o multiplicador de Lagrange
1)λ(M , −−= 111
,
1 uuSuu e derivando respectivamente as componentes principais de u1 e
igualando a zero. Então
0,2λ2
M =−=
∂
∂
11
1
uSu
u (7)
3
cuja solução é
11 uSu 1λ= (8)
que implica que u1 é um auto vetor de S, e λ seu correspondente valor próprio Para determinar
que autovalor de S é a solução de (8), multiplicando esta equação por ,1u temos:
λλ == 1
,
11
,
1 uuSuu (9)
e concluímos, por (6) que λ é a variância de z1. Como o autovalor λ é o que desejamos
maximizar, λ será o maior autovalor de S. Seu vetor associado, u1, define os coeficientes de
cada variável na primeira componente principal.
A segunda componente, segundo Peña (2002), representa a projeção das variáveis
originais na segunda maior direção de variabilidade. Para obter o melhor plano de projeção
das variáveis X, estabelecemos como função objetivo que a soma das variâncias z1= Xu1 e
z2= Xu2 seja máxima, onde u1 e u2 são vetores que definem o plano. Esta função objetivo será
1)(λ1)(λ 21 −−−−+= 2
,
21
,
12
,
21
,
1 uuuuSuuSuuφ (10)
que incorpora as restrições de que as direções devem ter módulo unitário 1´ =iiuu , com i =1,2.
Derivando e igualando a zero:







=−=
∂
∂
=−=
∂
∂
02λ2
02λ2
2
1
22
2
11
1
uSu
u
uSu
u
φ
φ
a solução deste sistema é:
11 uSu 1λ= (11)
22 uSu 1λ= (12)
indicando que u1 e u2 devem ser vetores próprios de S. Tomando vetores próprios de norma 1
e substituindo em (9), se obtém que, no máximo, a função objetivo é
21 λλφ += (13)
é evidente que λ1 e λ2 devem ser os dois auto-valores maiores da matriz S e u1 e u2 seus
correspondentes auto-vetores. Observa-se que a covariância entre z1 e z2, dada por 2
,
1Suu é
zero uma vez que 0=2
,
1uu e as variáveis z1 e z2 estarão independentes (PEÑA, 2002).
3. Controle estatístico multivariado baseado em métodos projeção de dados
O controle estatístico multivariado de processos está fundamentado nos métodos de
projeção de dados via Análise de Componentes Principais (ACP) e via Projeção de Estruturas
Latentes (PEL) (FILHO, 2001). O objetivo do método de projeção é transformar variáveis de
processo (características da qualidade) em um grupo reduzido de variáveis latentes
(combinação linear das originais), preservando informações relevantes contidas nestas, e
eliminando redundâncias no sistema inicial, representadas por variáveis colineares. Dessa
forma, quando os dados originais são projetados num espaço de dimensões menores, trazem
consigo a estrutura de covariância das variáveis originais. Normalmente, duas ou três
variáveis latentes são suficientes para representar variáveis originais em maior número
(FILHO, 2001).
4
Os tradicionais métodos estatísticos de controle multivariado tais como os gráficos de
controle T2 de Hotelling, MCUSUM e MEWMA não são suficientemente robustos para tratar
com um grande número de variáveis correlacionadas, pois foram desenvolvidos para
monitorar um pequeno número dessas variáveis (PHAM, 2006). A estrutura colinear das
variáveis do processo faz com que as estatísticas de controle utilizadas nestes gráficos
forneçam sinalizações distorcidas acerca do estado do processo. Em algumas situações tais
estatísticas não poderão ser calculadas, devido à dificuldade de inversão da matriz de
covariâncias das variáveis de processo. Surge então a necessidade de utilizar gráfico de
controle multivariado baseados em métodos de projeção de dados (PHAM, 2006).
4. Gráfico de controle MEWMA
O gráfico de controle multivariado Média Móvel Exponencialmente Ponderada
(MEWMA) acumula a informação mais recente com informações anteriores sendo, portanto,
indicado para a detecção de pequenas e moderadas mudanças dos parâmetros de um processo
(BERSIMIS, et al, 2007).
A primeira referência sobre gráfico de controle estatístico multivariado MEWMA ,
se deve a Lowry et al. (1992) que definem este como uma extensão lógica do controle
EWMA univariado (p = 1). Para o caso multivariado (p > 1) o gráfico MEWMA o interesse é
o monitoramento simultâneo de p variáveis correlacionadas entre si. Neste caso, ,...21 X,X são
vetores de dimensão p que representam as médias amostrais tomadas do processo.
Suponhamos que estes vetores aleatórios são independentes e estão identicamente
distribuídos segundo uma normal p-variante de vetor de média μ e matriz de covariâncias Σ,
O processo estará sob controle se =0 e fora de controle se ≠0 .
A estatística de controle para monitorar o vetor de médias do processo do gráfico de
controle estatístico multivariado (MEWMA), é obtida a partir da equação:
1iii ZXZ −−+= r)(1r (14)
onde X i é o vetor de observações amostrais p-dimensional referente a i-ésima amostra
unitária, r é a matriz diagonal que contém p constantes de ponderação ]}1,0({ ∈ir e 1iZ − é o
vetor p-dimensional dos escores referentes à amostra 1−i tomando geralmente como partida
Z0=0 . A estatística de controle utilizada para plotar o gráfico MEWMA é definida como:
i
1
iZ
'
i
2
i ZZT
−∑= (15)
onde
1
iZ
Σ − é a inversa da matriz de covariâncias de iZ . A matriz de covariância de izΣ é
expressa segundo a equação
ΣΣ
iZ r2
]r)(1r[1 2i
−
−−= (16)
onde Σ é a matriz de covariância estimada ou conhecida.
O processo é considerado sob controle se T i
2h na equação (15). O valor de h (limite
de controle) é escolhido a partir do desempenho do ARL (número médio de amostras até o
sinal) desejado para o gráfico de controle MEWMA. Este desempenho depende apenas do
parâmetro de não centralidade dado pela distância de Mahalanobis quando as p características
recebem o mesmo peso r. Dessa forma, este procedimento de controle também apresenta a
característica de direcionalidade invariante (LOWRY et al., 1992).
5
5. Procedimentos metodológicos
Para a análise de componentes principais, a instalação usual do R, possui funções
específicas para tal fim. Estas foram organizadas sob a forma de uma rotina, de tal modo que
as informações necessárias para uma posterior utilização de gráficos de controle fossem
evidenciadas. A rotina foi desenvolvida na versão 2.6.0 do R para Windows, utilizando o
editordeste e a interface Rgui.
O argumento de entrada é unicamente a matriz contendo as variáveis. A rotina retorna
os seguintes resultados: a matriz de correlação das variáveis originais, os autovalores
(variâncias), a proporção da variância explicada por cada componente e as componentes.
Além disso, dois gráficos são produzidos:
a) O gráfico de dispersão das variáveis originais, com a elipse de 95% de confiança . Este
permite visualizar se há correlação entre as variáveis.
b) O gráfico scree-plot, útil na seleção das componentes. Estas são plotadas ordenadamente
em termo de suas variâncias.
A seleção das componentes deve ser feita pelo próprio pesquisador, através da análise
dos resultados. Para as componentes selecionadas é aplicada uma rotina desenvolvida no
ambiente R para o gráfico MEWMA, considerando-se observações individuais, ou seja,
amostras de tamanho unitário (HENNING et al, 2008).
Como exemplo, as rotinas foram aplicadas aos dados referentes de um processo
químico com quatro variáveis, proposto por Montgomery (2004). A tabela 1 mostra as 20
primeiras observações deste exemplo numérico utilizada neste trabalho.
Tabela 1: Dados do Processo Químico
Fonte: Montgomery (2004, página 342)
6. Resultados obtidos
No quadro pode ser visualizada a rotina desenvolvida, denominada de acp1.
A análise estatística multivariada preliminar para projeção dos dados via análise de
componentes principais aplicada neste artigo para o gráfico MEWMA se constitui na
utilização dos dados desse exemplo numérico sobre p = 4 variáveis x1, x2, x3, x4 (variáveis de
um processo químico) conforme tabela 1. Essas 20 observações são plotadas inicialmente de
maneira pareada em matriz dos diagramas de dispersão, conforme figura 2. A representação
assinala graficamente que as duas primeiras variáveis estão altamente correlacionadas,
enquanto as outras duas variáveis exibem apenas uma correlação moderada. Através dessa
representação podemos também observar que as elipses são contornos aproximados de 95 %
de confiança, baseadas na hipótese de uma distribuição normal. A matriz de covariância
amostral gerada dessas 20 observações sobre x´s, na forma de correlação, obtida via
execução de rotina no R, conforme figura 3.
Para visualizar os demais resultados e o gráfico SCREE PLOT é necessário clicar na
tela a fim de efetuar as mudanças.
6
Figura 1: Rotina acp1. Fonte: Os autores
Figura 2: Tela inicial de resultados da rotina acp1. Fonte: Os autores
Em seguida, a tela exibe os demais resultados e o SCREE PLOT (Figura 3). A análise
destes sugere que duas componentes são suficientes. A primeira componente explica cerca de
58% da variabilidade e a segunda aproximadamente 25%. As duas componentes explicam
portanto 83% da variabilidade das quatro variáveis originais. Somente estas componentes
possuem autovalores superiores a 1,0. Para complementar pode se observar na matriz de
7
correlação que as variáveis X1 e X2 são altamente correlacionadas (0,9302). Os resultados
encontrados correspondem aos encontrados em Montgomery (2004).
Figura 3: Resultados da rotina acp1. Fonte: Os autores
O gráfico MEWMA é aplicado utilizando-se apenas as componentes z1 e z2.
Figura 4: Gráfico MEWMA . Fonte: Os autores
8
Conforme resultados (figura 4), observa-se que o processo está estatisticamente sob
controle. Pode se notar que os resultados da rotina acp1 aos dados foram armazenados com o
nome de t. Aplicou-se a rotina MEWMA as duas primeiras componentes, o que foi obtido
acessando-se as duas primeiras colunas deste conjunto (t$componentes[,1:2]). Ressalta-se
que este é apenas uma das inúmeras formas para acesso aos dados. É possível programar o R
para exportar a matriz das componentes, por exemplo, para uma planilha Microsoft Excel®.
Além disso, outras informações conforme figura 3, podem ser obtidas, como por
exemplo, os autovalores e autovetores, bem como os percentuais simples e acumulado da
variabilidade explicada por cada componente principal. É possível também adaptar a rotina,
ou parte dela, de acordo com a necessidade do usuário.
Foram verificadas as suposições de normalidade e estacionariedade dos dados. O R
apresenta uma série de testes para verificação da normalidade. Para este trabalho foi utilizado
o teste Shapiro Wilk. Para verificação da estacionariedade foi construído um correlograma.
6. Conclusões e considerações finais
O presente trabalho mostrou a utilidade da Análise de Componentes Principais na
elaboração de gráficos de controle multivariados, onde a redução da dimensionalidade da
matriz original de dados permite uma adequada visualização da variação dos resultados. Além
disso, a ACP é importante para diagnosticar no processo quais variáveis estão bem explicadas
para o modelo. O procedimento para um modelo de gráfico de controle multivariado
convencional são razoavelmente eficazes desde que o número p de variáveis do processo a
ser monitorado não seja muito grande pois a medida em que p aumenta, o desempenho do
gráfico para detectar uma mudança específica na média dessa variáveis também aumenta
(MONTGOMERY, 2004).
A alternativa da utilização métodos de projeção de dados via ACP para o gráfico
MEWMA proposto trabalho se constitui num método adequado para o tratamento de dados de
processos multivariados com grande quantidade de variáveis. Segundo Filho (2001), estes
métodos são importantes pois os tradicionais métodos estatísticos de controle multivariado
tais como os gráficos de controle T2 de Hotelling, MCUSUM e MEWMA não são
suficientemente robustos para tratar com um grande número de variáveis correlacionadas,
pois foram desenvolvidos para monitorar um pequeno número dessas variáveis. Em algumas
situações tais estatísticas não poderão ser calculadas, devido à dificuldade de inversão da
matriz de covariâncias das variáveis de processo.
O ambiente R mostrou ser uma ferramenta adequada e poderosa para análise de dados
multivariados baseados na projeção de dados com a utilização da Análise de Componentes
Principais, e posterior aplicação do gráfico MEWMA. O R possui inúmeras funções para tal
aplicação e, permite a utilização e adaptação destas de acordo com a necessidade do usuário.
É possível desenvolver rotinas e adaptá-las, além da construção de gráficos de alta qualidade.
A principal vantagem do R já é conhecida, é um ambiente livre e de código aberto. A inúmera
quantidade de funções, que pode confundir o usuário, correspondendo a uma dificuldade,
deixa de existir na medida que estas funções são agrupadas de acordo com a sua aplicação
específica. Como sugestões para futuros trabalhos citam-se:
a) desenvolver um procedimento automático para escolha das componentes;
b) tornar a rotina aplicável para subgrupos;
c) efetuar a comparação do desempenho do gráfico MEMWA com os demais gráficos
multivariados, quando da utilização de componentes principais.
9
Referências
BEASLEY, C. R. Bioestatística usando R. Universidade Federal do Pará. 2004. Disponível em: http://www.r-
project.org/other-docs.html . Acessado em 01/09/2005 .
BERSIMIS, S.; PSARAKIS, S. & PANARETOS, J. Multivariate Statistical Process Control Charts: An
Overview. Quality and Reliability Engineering International. 23:517–543, 2007
FILHO, D. M. Monitoramento de Processos em Batelada através de Cartas de Controle Multivariadas Baseada
na Análise de Componentes Principais Multidirecionais (ACPM). Dissertação de Mestrado em Engenharia de
Produção, UFRGS, Porto Alegre, 2001.
HENNING, E.; ALVES, C. C. & VIEIRA,V. O ambiente R como uma proposta de renovação para
aprendizagem e monitoramento de processos em Controle Estatístico de Qualidade. XIV SIMPEP- Simpósio de
Engenharia de Produção. Bauru: 2007.
HENNING, E.;ALVES, C. C. & SAMOHYL, R. W. Gráficos de Controle multivariados MEWMA e
MCUSUM em ambiente R. 18° SINAPE - Simpósio Nacional de Probabilidade e Estatística. Estância de São
Pedro: 2008.
JACKSON, J.E. Multivariate Quality Control. Commun.Statist.Theor.Meth., 14 (11), 2657-2658, 1985
JACKSON, J.E.Principal Components and factor Analysis: Part I, Journal of Quality Technology , 12(4),
201-213, 1980.
JACKSON, J.E. A user guide to Principal Components. Wiley. New York: 1991.
JOHNSON, R.A.; WICHERN, D.W. Applied Multivariate Statistical Analysis, 4a ed., Prentice Hall, 1998.
MONTGOMERY, D. C. Introdução ao Controle Estatístico da Qualidade. LTC Editora, 4ª edição. Rio de
Janeiro: 2004.
PEÑA, D. Análisis de Datos Multivariantes. 1a ed., McGraw-Hill Interamericana de España, 2002.
PHAM, H. Springer Handbook of Engineering Statistics. Rutgers the State University of New Jersey, 2006
RENCHER, A.C. Methods of Multivariante Analysis, .2a ed., Wiley-Interscience, 2002.
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing. R Foundation for
Statistical Computing,Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org, 2007.
VENABLES, W. N, SMITH, D.M. An introduction to R. Disponível em: http://www.r-project.org. Acessado em
10/09/2004.
1
0
http://www.r-project.org/
http://www.R-project.org/
http://www.r-project.org/
http://www.r-project.org/other-docs.html
http://www.r-project.org/other-docs.html
Análise de dados multivariados em ambiente R: uma proposta para o gráfico de controle MEWMA baseado na projeção de dados via ACP
1. Introdução
2. Componentes principais
3. Controle estatístico multivariado baseado em métodos projeção de dados
4. Gráfico de controle MEWMA
5. Procedimentos metodológicos
Tabela 1: Dados do Processo Químico
Referências