Baixe o app para aproveitar ainda mais
Prévia do material em texto
ENP157 – Estatística 2 – Profa.: Luciana Reis Análise de Componentes Principais Aula 14 ENP157 – Estatística 2 – Profa.: Luciana Reis Sumário 1. Introdução; 2. Componentes Principais Exatas Extraídas da Matriz de Covariâncias; 3. Estimação das Componentes Principais: Matriz de Covariâncias; 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral; 5. Análise de Componentes Principais vai Matriz de Correlação 6. Exemplos de Aplicação: Componentes Principais via Matriz de Correlação; 7. Critérios para Determinação do Número k de Componentes Principais. ENP157 – Estatística 2 – Profa.: Luciana Reis Sumário 1. Introdução; 2. Componentes Principais Exatas Extraídas da Matriz de Covariâncias; 3. Estimação das Componentes Principais: Matriz de Covariâncias; 4. Exemplos de Aplicação: Componentes Principais vai Matriz de Covariância amostral; 5. Análise de Componentes Principais vai Matriz de Correlação 6. Exemplos de Aplicação: Componentes Principais vai Matriz de Correlação; 7. Critérios para Determinação do Número k de Componentes Principais. ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Popularmente conhecida como PCA; • Objetivo principal: – Explicar a estrutura de variância e covariância de um vetor aleatório, composto de p-variáveis aleatórias, através da construção de combinações lineares das variáveis originais. – As combinações lineares são chamadas de componentes principais. ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Se temos p-variáveis originais, podemos ter p componentes principais. • Entretanto, busca-se redução do número de variáveis. Assim, pode-se ter k (k<p) componentes principais não correlacionadas. ENP157 – Estatística 2 – Profa.: Luciana Reis 1. Introdução • Etapas: – Obtenção dos componentes principais através da decomposição da matriz de covariância; – Obtenção dos valor numérico, chamado escore, para cada componente principal em cada elemento amostral; – Análise dos escores através de técnicas estatísticas como análise de variância, regressão, etc... ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Seja X um vetor aleatório com um vetor de médias μ e matriz de covariâncias Σpxp. • Seja λ1 ≥ λ2 ≥ λ3 ≥ ... ≥ λp os autovalores da matriz Σpxp, com os respectivos autovetores normalizados ei. • Vamos considerar também a matriz Opxp, que é a matriz ortogonal constituída dos autovetores normalizados da matriz Σpxp. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Consideramos ainda o vetor Y, composto de p combinações lineares das variáveis aleatórias do vetor X; – Essas combinações são não correlacionadas entre si. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Considerando todos esses dados, que já vimos como são calculados no capítulo anterior, podemos utilizar essas combinações lineares como forma de representar a estrutura de covariâncias do vetor X (componentes principais), de maneira reduzida, ou seja, k< p. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Assim, ao invés de se utilizar o vetor aleatório X de variáveis originais, utiliza-se as k combinações lineares principais. • Vamos realizar algumas definições importantes. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Definição 1: A j-ésima componente principal é definida como: • A esperança e a variância da componente Yj são, respectivamente, iguais a: pjpjjjj eeeeYE ...'][ 22111 pjpjjjj XeXeXeXeY ...' 2211 jjpxpjj eeYVar '][ ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Definição 2: A proporção da variância total de X, que é explicada pela j-ésima componente principal Yj, é definida por: – Essa razão geralmente é multiplicada por 100, indicando o resultado em porcentagem. – A primeira componente principal tem maior proporção de explicação da variância total de X. p l i j pxp jj traçoXdeTotalVariância YVar 1 )(___ ][ ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Definição 3: A proporção da variância total definida pela k componentes principais, é dada por: • Apenas a atenção sobre o vetor aleatório Y, onde: , é suficiente para obtenção de muita informação sobre a estrutura de variâncias. p l i k j j pxp jj traçoXdeTotalVariância YVar 1 1 )(___ ][ kY Y Y Y 2 1 ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Devido a restrição do foco apenas nas k componentes principais, a matriz de covariâncias será aproximada pela fórmula: – O sistema de variabilidade original, será aproximado pela soma das k matrizes que representam a variabilidade de cada componente. k j jjjpxp ee 1 ' ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • Definição 4: Para se definir as componentes principais, pode-se também considerar que: • Assim, tem-se que: – Vale destacar ai’ai = I. pipiii XaXaXaXaYi ...' 2211 jpxpii aaYVar ')( jpxpiji aaYYCov '),( ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância • A primeira componente principal é sempre a mais representativa em termos de variância total, e a p-ésima sempre a de menor representatividade. • A figura a seguir mostra as componentes principais de duas variáveis aleatórias. – Cada ponto no sistema de coordenadas X1X2 é projetado ortogonalmente no novo sistema Y1Y2. ENP157 – Estatística 2 – Profa.: Luciana Reis 2. Componentes Principais Exatas extraídas da Matriz de Covariância ENP157 – Estatística 2 – Profa.: Luciana Reis 3. Estimação das Componentes Principais: Matriz de Covariâncias • Como vimos anteriormente, na prática, a matriz de covariância é desconhecida e precisa ser estimada através de dados amostrais. • A j-ésima componente principal amostral é definida por: ENP157 – Estatística 2 – Profa.: Luciana Reis 3. Estimação das Componentes Principais: Matriz de Covariâncias • Propriedade 1: A variância estimada de Yj é igual a seu autovalor λj. • Propriedade 2: Como as componentes principais são não correlacionadas, a covariância entre quaisquer duas é igual a zero. ENP157 – Estatística 2 – Profa.: Luciana Reis 3. Estimação das Componentes Principais: Matriz de Covariâncias • Propriedade 3: A variância total estimada pela componente Yj é dada por: • Propriedade 4: A correlação estimada entre Yj e Xi é dada por: ENP157 – Estatística 2 – Profa.: Luciana Reis 3. Estimação das Componentes Principais: Matriz de Covariâncias • Propriedade 5: A matriz de covariância pode ser expressa por: – Ou, quando se utilizaraapenas as k componentes principais: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: – A tabela a seguir apresenta dados relativos a 12 empresas referente a 3 variáveis: • Ganho bruto (X1); • Ganho líquido (X2); • Patrimônio acumulado (X3). ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: – A matriz de covariância amostral destas variáveis é dada por: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: – Os autovalores desta matriz são: – Os autovetores normalizados são: 21094 2539507 41474391 3 2 1 0161,0 9949,0 0991,0 , 4257,0 0965,0 8997,0 , 9047,0 0277,0 4251,0 321 eee ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: – Assim, os três componentes principais são: – As porcentagens para variância total são: )3(0161,0)2(9949,0)1(0991,0 )3(4257,0)2(0965,0)1(8997,0 )3(9047,0)2(0277,0)1(4251,0 3 2 1 XXXY XXXY XXXY %05,0_ %77,5_ %18,94_ 3 2 1 TotalVar TotalVar TotalVar ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: – Juntas, Y1 e Y2 representam quase que 100% da variância total. – A correlação das três componentes principais são: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: – Os escores das empresas para cada componente principal é dado por: ENP157 – Estatística 2 – Profa.: Luciana Reis 4. Exemplos de Aplicação: Componentes Principais via Matriz de Covariância amostral • Exemplo 1: – Os escores das empresas da primeira componente principal são:
Compartilhar