Baixe o app para aproveitar ainda mais
Prévia do material em texto
ENP157 – Estatística 2 – Profa.: Luciana Reis Análise de Componentes Principais Aula 15 ENP157 – Estatística 2 – Profa.: Luciana Reis Sumário 1. Introdução; 2. Componentes Principais Exatas Extraídas da Matriz de Covariâncias; 3. Estimação das Componentes Principais: Matriz de Covariâncias; 4. Exemplos de Aplicação: Componentes Principais vai Matriz de Covariância amostral; 5. Análise de Componentes Principais vai Matriz de Correlação 6. Exemplos de Aplicação: Componentes Principais vai Matriz de Correlação; 7. Critérios para Determinação do Número k de Componentes Principais. ENP157 – Estatística 2 – Profa.: Luciana Reis Sumário 1. Introdução; 2. Componentes Principais Exatas Extraídas da Matriz de Covariâncias; 3. Estimação das Componentes Principais: Matriz de Covariâncias; 4. Exemplos de Aplicação: Componentes Principais vai Matriz de Covariância amostral; 5. Análise de Componentes Principais vai Matriz de Correlação 6. Exemplos de Aplicação: Componentes Principais vai Matriz de Correlação; 7. Critérios para Determinação do Número k de Componentes Principais. ENP157 – Estatística 2 – Profa.: Luciana Reis 5. ACP via Matriz de Correlação • Na ACP via Σpxp, as componentes principais são obtidas a partir da matriz de covariâncias, que são influenciadas pelas variáveis de maior variância. • Para casos onde há muita discrepância entre essas variâncias, a ACP via matriz de covariância é de pouca utilidade. – Esse problema pode ser amenizado ao se efetuar uma transformação. ENP157 – Estatística 2 – Profa.: Luciana Reis 5. ACP via Matriz de Correlação • Transformação mais comum: – Variável é padronizada pela média e desvio padrão; • Procedimento equivalente à obtenção dos componentes principais via matriz de correlação. ENP157 – Estatística 2 – Profa.: Luciana Reis 5. ACP via Matriz de Correlação • Seja: Ppxp = matriz de covariâncias das variáveis Zi. • Ao aplicar a ACP via matriz Ppxp, as componentes principais serão combinações lineares das variáveis Xi padronizadas. i ii i X Z )( 2)( iiXVar iiXE )( ENP157 – Estatística 2 – Profa.: Luciana Reis 5. ACP via Matriz de Correlação • A j-ésima componente principal da matriz Ppxp é definida por: pjpjjjj ZeZeZeZeY ...2211 ' ENP157 – Estatística 2 – Profa.: Luciana Reis 5. ACP via Matriz de Correlação • Sendo que: a) b) A correlação entre Yj e a variável padronizada Zi é: c) • A proporção da variância total correspondente a Yj é: jjiXYZY err ijij ,, 0),(;)( jijj YYCovYVar pPtraçoZTotalVar pxp )()(_ p YTotalVar j j )(_ ENP157 – Estatística 2 – Profa.: Luciana Reis 5. ACP via Matriz de Correlação • Na prática, a matriz Ppxp é estimada pela matriz de correlação amostral Rpxp do vetor aleatório X. • As componentes principais são construídas utilizando a matriz Rpxp. ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – A tabela a seguir apresenta dados relativos a 12 empresas referente a 3 variáveis: • Ganho bruto (X1); • Ganho líquido (X2); • Patrimônio acumulado (X3). ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – A matriz de correlação amostral destas variáveis é dada por: 1577,0826,0 577,01827,0 826,0827,01 33xR ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – Os autovalores desta matriz são: – Os autovetores normalizados são: 084,0 4235,0 4925,2 3 2 1 435,0 437,0 787,0 , 708,0 706,0 001,0 , 556,0 557,0 617,0 321 eee ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – Assim, os três componentes principais são: )3(435,0)2(437,0)1(787,0 )3(708,0)2(706,0)1(001,0 )3(556,0)2(557,0)1(617,0 3 2 1 ZZZY ZZZY ZZZY ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – Y1 = índice de desempenho global padronizado da empresa. • Valores elevados implicam um ganho em bruto, em líquido e um patrimônio acumulado superior às médias observadas. – Y2 = comparação entre ganho líquido e patrimônio (ganho bruto é pequeno em comparação aos outros coeficientes). • Valores próximos de 0 = há equilíbrio entre as variáveis X2 e X3; ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – Y3 = comparação entre ganho bruto e o composto das outras duas variáveis. • Representa muito pouco em termos de variância total. ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – Como os três componentes principais são: – As variáveis Z são definidas por: )3(435,0)2(437,0)1(787,0 )3(708,0)2(706,0)1(001,0 )3(556,0)2(557,0)1(617,0 3 2 1 ZZZY ZZZY ZZZY 84,5865 4,9606 ; 17,276 7,424 ; 42,3090 4,6267 3 3 2 2 1 1 X Z X Z X Z Variável padronizada ganho bruto Variável padronizada patrimônio Variável padronizada ganho líquido ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – A porcentagem da variância total é: – Juntas, Y1 e Y2 representam 97,2% da variância total. %8,2 %1,14 %1,83 3 2 1 Y Y Y ENP157 – Estatística 2 – Profa.: Luciana Reis 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação • Exemplo 1: – Os escores das empresas para cada componente principal é dado por: ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais • Quando o objetivo é a sumarização da informação das p-variáveis originais em k componentes principais, é necessário estabelecer critérios de escolha para o valor das componentes principais. ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais • Há três procedimentos básicos para essa definição: 1. Análise de representatividade em relação à variância total; 2. Análise da qualidade de aproximação da matriz de covariâncias ou correlação; 3. Análise prática das componentes; ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais 1. Análise de representatividade em relação à variância total: •Deve-se manter no sistema um número k de componentes que representem juntos 100% da variância total. • Na prática busca-se um valor k tal que: Onde: p j j k i i 1 1 10 ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais 1. Análise de representatividade em relação à variância total: • Não há um limite definido para o valor de . – Há situações que é possível obter uma porcentagem de explicação da variância total acima de 90% ou 95% com 1 ou 2 componentes principais. • Quanto maior o número de componentes, maior a dificuldade na interpretação das mesmas. ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais 1. Análise de representatividade em relação à variância total: • Matriz de correlação: necessita de um número maior de componentes principais que a matriz de covariância. – Exemplo das aulas anteriores: » Matriz de covariância: Y1 = 94,18%; » Matriz de correlação: Y1 = 83,1%. ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais 1. Análise de representatividade em relação à variância total: • Matriz de correlação: variância total = n° de variáveis originais (p). – Critério de Kaiser: » Manter no sistema apenas as componentes relacionadas a λ≥1. • Matriz de covariância: – Manter no sistema apenas as componentes relacionadas a λ≥λm. p p j j m 1 ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais 2. Análise da qualidade de aproximação da matriz de covariâncias ou correlação: • O valor de k pode ser escolhido de modo a se ter uma aproximação razoável para as matrizes Spxp ou Rpxp. – Componentes correspondentes a λ próximos de zero serão eliminadas. ENP157 – Estatística 2 – Profa.: Luciana Reis 7. Critérios para determinação do número K de Componentes Principais 3. Análise prática das componentes: • Utilizar as componentes que são passíveis de interpretação. • Pode acontecer que a componente mais útil sob o ponto de vista prático seja a de ordem 4. – Assim é necessário manter pelo menos k=4 componentes. • Utilizada quando as componentes de maior interesse são as de maior explicação relativa a variância total, levando a um número pequeno k.
Compartilhar