Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise dos Componentes Principais Maristela de Lima Bueno Introdução A Análise de Componentes Principais ou Principal Component Analysis (PCA) é uma técnica da estatística multivariada que utiliza uma transformação ortogonal para transformar um conjunto de variáveis originais possivelmente correlacionadas a um conjunto de valores de variáveis linearmente descorrelacionadas chamadas componentes principais. A técnica de componentes principais foi originalmente descrita por Pearson (1901), posteriormente, aplicada por Hotelling (1933), citado por Jolliffe (1973), em diversas áreas da ciência. A PCA foi e, talvez, continua sendo o método de ordenação mais usado em ecologia (Valentin 2012), o uso dessa técnica acentuou-se quando a disponibilidade de recursos na área computacional aumentou (Manly 1988). O método consiste na transformação do conjunto original de variáveis em outro, os componentes principais, de dimensões equivalentes, porém com a propriedade de reter a porcentagem da variância original, com variâncias decrescentes do primeiro ao último componente principal (Morrison 1976). Componentes principais são combinações lineares de variáveis aleatórias ou estatísticas, que possuem propriedades especiais, em termos de variâncias. Entre essas propriedades especiais, destaca-se o fato de que o primeiro componente principal possui a máxima variância, tendo o segundo componente principal a segunda maior variância e, assim, sucessivamente, de forma que o máximo de informação, em termos de variação total, está contido nos primeiros componentes. Além disso, os componentes principais representam vetores linearmente independentes (Anderson 1958). A PCA tem como principais vantagens: retirar a multicolinearidade das variáveis, pois permite transformar um conjunto de variáveis originais intercorrelacionadas em um novo conjunto de variáveis não correlacionadas (componentes principais). Além disso, reduz muitas variáveis a eixos que representam algumas variáveis, sendo estes eixos perpendiculares (ortogonais) explicando a variação dos dados de forma decrescente e independente. As desvantagens são: a sensibilidade a outliers, não recomendada quando se tem duplas ausências (muitos zeros na matriz) e dados ausentes. A PCA também não é recomendada quando se tem mais variáveis do que unidades amostrais. Diferentemente de outras análises de ordenação, só é possível utilizar a distância euclidiana como coeficiente de similaridade na PCA. Logo, é mais recomendado usá-la para analisar variáveis ambientais ou medidas morfológicas. Segundo Baker et al. (1988), a PCA pode revelar relações não identificadas previamente, contribuindo para melhor interpretação dos dados. Além disso, muitas vezes, a mesma representa um método de explicação da estrutura de covariância entre as várias características medidas em uma população. Procedimento para uma análise de componentes principais O exemplo utilizado foi adaptado do trabalho de Hermon Bumpus (1898) que com o objetivo de comprovar a teoria da seleção natural de Darwin e melhor entender a estatística inferencial em biologia, descreveu e analisou o pássaro da espécie Passer domesticus (pardal) durante uma longa tempestade em Providence, Rhode Island. Esse trabalho incluiu várias medições de 136 pássaros e os dados gerados foram reanalisados várias vezes. Para desenvolver uma análise de componentes principais utilizaremos cinco variáveis (medidas biométricas) com um n de 49 pardais, para saber qual dessas variáveis melhor explica a variabilidade dos dados ou seja qual medida do corpo do pardal melhor explica a variação entre os indivíduos mensurados (Tabela 1 em Anexo), baseado nos autores: Araújo e Coelho 2009, Gotelli e Ellison 2011 e Bocard et al. 2011. O primeiro componente principal é então a combinação linear das variáveis X1, X2, ..., Xp, expresso por: Z1= a11X1 + a 12+ X2 +...+ a1p Xp, que varia tanto quanto possível para os indivíduos, sujeitos à condição de que Z2= a21X1 + a 22+ X2 +...+ a2p Xp, desta forma, Var (Z1), a variância de Z1, é tão grande quanto possível dada esta restrição sobre as constantes a1j. A restrição é introduzida porque se isto não é feito, então Var(Z1) pode ser aumentada fazendo simplesmente crescer qualquer um dos valores aij. O segundo componente principal, Z2 = a21X 1 +a22 X2 + ... + a2p Xp, é escolhido de modo que Var (Z2) seja tão grande quanto possível sujeito à restrição de que +, ..., e também à condição de que Z1 e Z2 tenham correlação zero para os dados. Posteriores componentes principais são definidos continuando da mesma maneira. Se existem p variáveis, então existirão no máximo p componentes principais. Uma PCA envolve encontrar os autovalores de uma matriz de covariâncias amostral. A matriz de covariâncias é simétrica e tem a forma: O elemento cii na diagonal é a variância de Xi e o termo fora da diagonal cij é a covariância entre as variáveis Xi Xj. As variâncias dos componentes principais são os autovalores da matriz C. Calculamos então os autovalores λ1 ... λn da matriz de variância e covariância amostral e seus autovetores, aj, e as cargas aij, são os elementos dos autovetores. A soma de todos os autovalores é a variância total explicada: vartotal = e a proporção da variância explicada por cada componente Zi é: varj = . Se multiplicarmos varj por 100, obtemos a porcentagem de variação explicada. Como existem tantos componentes principais quantas forem as variáveis originais, a quantidade total de variação explicada por todos os componentes principais é 100%. Os resultados desses cálculos para os dados de biometria de Pardais (Tabela 1) são resumidos na Tabela 2 e 3. Tabela 2. Autovalores e autovetores da análise de componentes principais para cinco medidas em 49 pardais. Autovetores (coeficientes para os componentes principais) Componente Autovalor X1 X2 X3 X4 X5 1 3,348 0,450 0,439 0,464 0,482 0,396 2 0,675 -0,336 0,331 0,400 0,241 -0,747 3 0,416 -0,438 0,746 -0,401 -0,111 0,276 4 0,345 0,676 0,370 -0,187 -0,466 -0,390 5 0,213 0,188 -0,050 -0,653 0,692 -0,234 Cada elemento no autovetor é o coeficiente (ou carga) que é multiplicado pelo valor da variável padronizada correspondente. Os produtos de cargas e das medidas padronizadas são somados para dar o escore do componente principal. Desse modo, usando o primeiro autovetor, 0,45 é multiplicado pela primeira medida (comprimento total) e adicionado a -0,33 multiplicado pela segunda medida (extensão alar), e assim por diante. Na notação de matrizes dizemos que os escores dos componentes principais Zj para cada observação y, que consiste de dez medidas y1 até y5, são obtidos multiplicando ai por y. Tabela 3. Proporção de variância e proporção cumulativa dos autovalores. Componente Principal Desvio padrão Proporção de variância Proporção cumulativa da variância PC1 1,899 0,669 0,669 PC2 0,822 0,135 0,804 PC3 0,645 0,083 0,888 PC4 0,587 0,069 0,957 PC5 0,461 0,042 1,000 A proporção da variância e a proporção cumulativa são calculados a partir da soma dos autovalores. A proporção de variância é usada para selecionar um pequeno número de componentes principais que captura a maioria da variação nos dados. Neste conjunto os três primeiros componentes explicam 88% da variância nas 5 variáveis originais. Um passo importante é selecionar quais são os eixos que foram os mais importantes, ou seja, aqueles que resumem a maior quantidade de variação dos dados. Segundo Jackson (1993) existem vários métodos: o critério de Kaiser-Guttman sugere calcular a média de todos os autovalores e interpretar somente aqueles cujo os autovalores sejam maiores que a média. Uma “regra de polegar” sugere escolher todos os componentes principais até atingir 75% de explicação. Outra opção é realizar um screen-plot que plota os componentes principais no eixo x e os autovalores no eixo y, os componentescom menor explicação tendem a estar numa linha reta; logo deve-se interpretar somente os componentes principais que não estão nesta reta. O critério da esferidade de Bartlett sugere que os componentes principais sejam selecionados até que as duas últimas medidas de explicação formem uma esfera. Existe também, o método de Broken Stick que sugere considerar somente os eixos maiores que o valor predito numa distribuição Broken Stick de dados aleatórios. Este é o critério mais utilizado por ser um método estatístico e não heurístico, por isso vamos utilizá-lo no exemplo deste trabalho. Geralmente, além dos dois ou três primeiros eixos, a interpretação torna-se mais difícil. Valentin (2012) salienta que na maioria dos trabalhos, os autores param a interpretação a partir do segundo eixo. Para isso, é necessário dispor de dados em quantidade suficiente, qualidade (sem vícios de amostragem e adequadamente coletados) e de informações exaustivas sobre o meio ambiente e a ecologia dos organismos de interesse. Fig.1. Autovalores dos eixos observados (preto) em relação a distribuição broken stick formada aleatoriamente (vermelho), os componentes devem ser mantidos quando os autovalores observados são maiores do que os formados aleatoriamente. É recomendado fornecer ao leitor figuras dos planos fatoriais que melhor ilustram sua interpretação. No caso da apresentação gráfica dos planos fatoriais os pontos variáveis (pardais) e pontos observações (medidas biométricas) no primeiro plano (eixo I e II) que deve iniciar a interpretação. Neste plano deve ser possível explicar a maior parte da variabilidade dos dados, e descrever as grandes linhas de sua estrutura. A interpretação de um eixo deve ter um caráter “residual” em relação aos anteriores já interpretados, em um sentido que não deve ser dada uma mesma definição a dois ou mais eixos, já que eles são matematicamente independentes (= ortogonais). Entretanto, se dois eixos sucessivos tem autovalores iguais ou muito próximos, é, neste caso preferível interpretar o plano globalmente, sem definir especificamente o papel de cada um no ponto plano (Valentin, 2012). Por fim podemos analisar as diferenças entre as medidas dos pássaros em seus escores dos componentes principais. Ilustrando essa diferença plotando os escores dos componentes principais de cada pássaro em dois eixos, e codificar os pontos (= réplicas) para cada grupo usando diferentes cores ou símbolos. Conforme a fig.2 podemos interpretar o gráfico da seguinte forma: O eixo I explica 66,97% da variância dos dados, ele é positivamente ligado a todas as variáveis sendo que a variável que melhor explica a variação de tamanho nos pardais, é o comprimento do úmero (0,482). Já o eixo II é formado pela contribuição positiva das medidas de extensão alar, comprimento do bico e cauda e comprimento do úmero, e ligado negativamente as variáveis comprimento total e comprimento da quilha do esterno, sendo esta última a que melhor explica a variação dos dados no eixo II (-0,747). Em suma podemos afirmar que o comprimento do úmero e da quilha do esterno são as medidas que melhor explicam a diferença entre os espécimes de pardais. Fig.2. Gráfico ilustrando os escores dos dois primeiros componentes principais de uma PCA de medidas biométricas de 49 pardais. X1 = comprimento total, X2 = extensão alar, X3 = comprimento do bico e cabeça, X4 =comprimento do úmero, X5 = comprimento da quilha do esterno. Lembrando que a PCA produz melhores resultados quando as variáveis possuem uma forte estrutura de correlação entre si (ou seja, quando as variáveis são redundantes) e ao fazer esta análise, deseja-se justamente eliminar a correlação entre as variáveis, produzindo assim novas variáveis que não correlacionadas. Se a porcentagem de explicação dos eixos for muito similar entre si indica que não há uma associação entre as variáveis, i.e., não há uma estrutura clara nos dados. Referências Bibliográficas Anderson, T.W. 1958. An introduction to multivariate statistical analysis. New York: John Wiley & Sons, 374. Araújo, W. O., Coelho, C.J.2009. Análise de componentes principais (PCA). Technical Report. RT-MSTMA 003-09. Bocard, D., Gillet, F., Legendre, P. 2011. Numerical ecology with R. Berlin: Springer, 305p. Bumpus, H. C. 1898. Eleventh lecture. The elimination of the unfit as illustrated by the introduced sparrow, Passer domesticus. (A fourth contribution to the study of variation.) Biology Lectures: Woods Hole Marine Biological Laboratory 209-225. Gotelli, N. J. And Ellison, A. M. 2011. Princípios de estatística em ecologia numérica. Porto Alegre: Artmed, 527. Hotelling, H. 1933. Review of the triumph of mediocrity in business. Journal of the American Statistical Association 28, 463-465. Jackson, D.A. 1993. Stopping rules in principal component analysis: a comparison of heuristical and statistical approaches. Ecology 74: 2204-2214. Jolliffe, I.T.1973. Discarding variables in a principal component analysis, II: real data. Journal of Applied Statistics 22, 22-31. Manly, B.F.J. 1988. Multivariate statistical methods: a primer. London: Chapman and Hall 159p. Morrison, D.F. 1976. Multivariate statistical methods. 2 ed. Singapore: McGraw Hill, 415. Pearson, K. 1901. On lines and planes of closest fit to system of point in space. Philosophical Magazine 2 (6) 559-572. Valentin, J. L. 2000. Ecologia Numérica: uma introdução à análise multivariada de dados ecológicos. Rio de Janeiro: Interciência, 117. Anexo Tabela 1. Medida do corpo das pardais Pássaros X1 X2 X3 X4 X5 1 156 245 31,6 18,5 20,5 2 154 240 30,4 17,9 19,6 3 153 236 31 18,4 20,6 4 153 243 30,9 17,7 20,2 5 155 247 31,5 18,6 20,3 6 163 238 32 19 20,9 7 157 239 30,9 18,4 20,2 8 155 248 32,8 18,6 21,2 9 164 238 32,7 19,1 21,1 10 158 238 31 18,8 22 11 158 240 31,3 18,6 22 12 160 244 31,1 18,6 20,5 13 161 246 32,3 19,3 21,8 14 157 245 32 19,1 20 15 157 235 31,5 18,1 19,8 16 156 237 30,9 18 20,3 17 158 244 31,4 18,5 21,6 18 153 238 30,5 18,2 20,9 19 155 236 30,3 18,5 20,1 20 163 246 32,5 18,6 21,9 21 159 236 31,5 18 21,5 22 155 240 31,4 18 20,7 23 156 240 31,5 18,2 20,6 24 160 242 32,6 18,8 21,7 25 152 232 30,3 17,2 19,8 26 160 250 31,7 18,8 22,5 27 155 237 31 18,5 20 28 157 245 32,2 19,5 21,4 29 165 245 33,1 19,8 22,7 30 153 231 30,1 17,3 19,8 31 162 239 30,3 18 23,1 32 162 239 30,3 18 23,1 33 159 245 31,8 18,5 21,7 34 159 247 30,9 18,1 19 35 155 243 30,9 18,5 21,3 36 162 252 31,9 19,1 22,2 37 152 230 30,4 17,3 18,6 38 159 242 30,8 18,2 20,5 39 155 238 31,2 17,9 19,3 40 163 249 33,4 19,5 22,8 41 163 242 31 18,1 20,7 42 156 237 31,7 18,2 20,3 43 159 238 31,5 18,4 20,3 44 161 245 32,1 19,1 20,8 45 155 235 30,7 17,7 19,6 46 162 247 31,9 19,1 20,4 47 153 237 30,6 18,6 20,4 48 162 245 32,5 18,5 21,1 49 164 248 32,3 18,8 20,9
Compartilhar