Análise de Componentes Principais II

•

UFOP

6

0

6

0

Beatriz Moreira

07/12/2017

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.209 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ENP157 – Estatística 2 – Profa.: Luciana Reis 
Análise de Componentes Principais 
Aula 15 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
Sumário 
1. Introdução; 
2. Componentes Principais Exatas Extraídas da Matriz de Covariâncias; 
3. Estimação das Componentes Principais: Matriz de Covariâncias; 
4. Exemplos de Aplicação: Componentes Principais vai Matriz de 
Covariância amostral; 
5. Análise de Componentes Principais vai Matriz de Correlação 
6. Exemplos de Aplicação: Componentes Principais vai Matriz de 
Correlação; 
7. Critérios para Determinação do Número k de Componentes 
Principais. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
Sumário 
1. Introdução; 
2. Componentes Principais Exatas Extraídas da Matriz de Covariâncias; 
3. Estimação das Componentes Principais: Matriz de Covariâncias; 
4. Exemplos de Aplicação: Componentes Principais vai Matriz de 
Covariância amostral; 
5. Análise de Componentes Principais vai Matriz de Correlação 
6. Exemplos de Aplicação: Componentes Principais vai Matriz de 
Correlação; 
7. Critérios para Determinação do Número k de Componentes 
Principais. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
5. ACP via Matriz de Correlação 
• Na ACP via Σpxp, as componentes principais 
são obtidas a partir da matriz de covariâncias, 
que são influenciadas pelas variáveis de maior 
variância. 
• Para casos onde há muita discrepância entre 
essas variâncias, a ACP via matriz de 
covariância é de pouca utilidade. 
– Esse problema pode ser amenizado ao se efetuar 
uma transformação. 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
5. ACP via Matriz de Correlação 
• Transformação mais comum: 
– Variável é padronizada pela média e desvio 
padrão; 
 
• Procedimento equivalente à obtenção dos 
componentes principais via matriz de 
correlação. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
5. ACP via Matriz de Correlação 
• Seja: 
 
 
 
 Ppxp = matriz de covariâncias das variáveis Zi. 
 
• Ao aplicar a ACP via matriz Ppxp, as 
componentes principais serão combinações 
lineares das variáveis Xi padronizadas. 
 
 
 
 
 
i
ii
i
X
Z

 )( 

2)( iiXVar 
iiXE )(
ENP157 – Estatística 2 – Profa.: Luciana Reis 
5. ACP via Matriz de Correlação 
• A j-ésima componente principal da matriz Ppxp 
é definida por: 
 
pjpjjjj ZeZeZeZeY  ...2211
'
ENP157 – Estatística 2 – Profa.: Luciana Reis 
5. ACP via Matriz de Correlação 
• Sendo que: 
a) 
 
b) A correlação entre Yj e a variável padronizada Zi 
é: 
 
c) 
 
• A proporção da variância total correspondente a Yj é: 
 
jjiXYZY err ijij  ,,
0),(;)(  jijj YYCovYVar 
pPtraçoZTotalVar pxp  )()(_
p
YTotalVar
j
j

)(_
ENP157 – Estatística 2 – Profa.: Luciana Reis 
5. ACP via Matriz de Correlação 
• Na prática, a matriz Ppxp é estimada pela 
matriz de correlação amostral Rpxp do vetor 
aleatório X. 
• As componentes principais são construídas 
utilizando a matriz Rpxp. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– A tabela a seguir apresenta dados relativos a 12 
empresas referente a 3 variáveis: 
• Ganho bruto (X1); 
• Ganho líquido (X2); 
• Patrimônio acumulado (X3). 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
 
 
 
– A matriz de correlação amostral destas variáveis é 
dada por: 











1577,0826,0
577,01827,0
826,0827,01
33xR
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– Os autovalores desta matriz são: 
 
 
 
– Os autovetores normalizados são: 
 
084,0
4235,0
4925,2
3
2
1









































435,0
437,0
787,0
,
708,0
706,0
001,0
,
556,0
557,0
617,0
321 eee
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– Assim, os três componentes principais são: 
 
 
 )3(435,0)2(437,0)1(787,0
)3(708,0)2(706,0)1(001,0
)3(556,0)2(557,0)1(617,0
3
2
1
ZZZY
ZZZY
ZZZY



ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– Y1 = índice de desempenho global padronizado 
da empresa. 
• Valores elevados implicam um ganho em bruto, em 
líquido e um patrimônio acumulado superior às médias 
observadas. 
– Y2 = comparação entre ganho líquido e 
patrimônio (ganho bruto é pequeno em 
comparação aos outros coeficientes). 
• Valores próximos de 0 = há equilíbrio entre as variáveis 
X2 e X3; 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– Y3 = comparação entre ganho bruto e o 
composto das outras duas variáveis. 
• Representa muito pouco em termos de variância total. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– Como os três componentes principais são: 
 
 
 
– As variáveis Z são definidas por: 
 
)3(435,0)2(437,0)1(787,0
)3(708,0)2(706,0)1(001,0
)3(556,0)2(557,0)1(617,0
3
2
1
ZZZY
ZZZY
ZZZY



84,5865
4,9606
;
17,276
7,424
;
42,3090
4,6267 3
3
2
2
1
1






X
Z
X
Z
X
Z
Variável padronizada 
ganho bruto 
Variável padronizada 
patrimônio 
Variável padronizada 
ganho líquido 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– A porcentagem da variância total é: 
 
 
 
– Juntas, Y1 e Y2 representam 97,2% da variância 
total. 
%8,2
%1,14
%1,83
3
2
1



Y
Y
Y
ENP157 – Estatística 2 – Profa.: Luciana Reis 
6. Exemplos de Aplicação: Componentes 
 Principais via Matriz de Correlação 
• Exemplo 1: 
– Os escores 
das empresas 
para cada 
componente 
principal é 
dado por: 
 
 
 
 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
• Quando o objetivo é a sumarização da 
informação das p-variáveis originais em k 
componentes principais, é necessário 
estabelecer critérios de escolha para o valor 
das componentes principais. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
• Há três procedimentos básicos para essa 
definição: 
1. Análise de representatividade em relação à 
variância total; 
2. Análise da qualidade de aproximação da matriz 
de covariâncias ou correlação; 
3. Análise prática das componentes; 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
1. Análise de representatividade em relação à 
variância total: 
•Deve-se manter no sistema um número k de componentes 
que representem juntos 100% da variância total. 
• Na prática busca-se um valor k tal que: 
 
 
 
 
Onde: 








p
j
j
k
i
i
1
1

10  
ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
1. Análise de representatividade em relação à 
variância total: 
• Não há um limite definido para o valor de . 
– Há situações que é possível obter uma porcentagem de explicação 
da variância total acima de 90% ou 95% com 1 ou 2 componentes 
principais. 
• Quanto maior o número de componentes, maior a 
dificuldade na interpretação das mesmas. 

ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
1. Análise de representatividade em relação à 
variância total: 
• Matriz de correlação: necessita de um número maior de 
componentes principais que a matriz de covariância. 
– Exemplo das aulas anteriores: 
» Matriz de covariância: Y1 = 94,18%; 
» Matriz de correlação: Y1 = 83,1%. 

ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
1. Análise de representatividade em relação à 
variância total: 
• Matriz de correlação: variância total = n° de variáveis 
originais (p). 
– Critério de Kaiser: 
» Manter no sistema apenas as componentes relacionadas a 
λ≥1. 
• Matriz de covariância: 
– Manter no sistema apenas as componentes relacionadas a λ≥λm. 
 
 p
p
j
j
m



1


ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
2. Análise da qualidade de aproximação da 
matriz de covariâncias ou correlação: 
• O valor de k pode ser escolhido de modo a se ter uma 
aproximação razoável para as matrizes Spxp ou Rpxp. 
– Componentes correspondentes a λ próximos de zero serão 
eliminadas. 
ENP157 – Estatística 2 – Profa.: Luciana Reis 
7. Critérios para determinação do 
número K de Componentes Principais 
3. Análise prática das componentes: 
• Utilizar as componentes que são passíveis de 
interpretação. 
• Pode acontecer que a componente mais útil sob o ponto 
de vista prático seja a de ordem 4. 
– Assim é necessário manter pelo menos k=4 componentes. 
• Utilizada quando as componentes de maior interesse são 
as de maior explicação relativa a variância total, levando a 
um número pequeno k.