Análise dos Componentes Principais

•

UNESPAR

6

0

6

0

Maris Bueno

21/08/2016

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.868 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Análise dos Componentes Principais
Maristela de Lima Bueno
Introdução
A Análise de Componentes Principais ou Principal Component Analysis (PCA) é uma técnica da estatística multivariada que utiliza uma transformação ortogonal para transformar um conjunto de variáveis originais possivelmente correlacionadas a um conjunto de valores de variáveis linearmente descorrelacionadas chamadas componentes principais. 
A técnica de componentes principais foi originalmente descrita por Pearson (1901), posteriormente, aplicada por Hotelling (1933), citado por Jolliffe (1973), em diversas áreas da ciência. A PCA foi e, talvez, continua sendo o método de ordenação mais usado em ecologia (Valentin 2012), o uso dessa técnica acentuou-se quando a disponibilidade de recursos na área computacional aumentou (Manly 1988).
O método consiste na transformação do conjunto original de variáveis em outro, os componentes principais, de dimensões equivalentes, porém com a propriedade de reter a porcentagem da variância original, com variâncias decrescentes do primeiro ao último componente principal (Morrison 1976).
Componentes principais são combinações lineares de variáveis aleatórias ou estatísticas, que possuem propriedades especiais, em termos de variâncias. Entre essas propriedades especiais, destaca-se o fato de que o primeiro componente principal possui a máxima variância, tendo o segundo componente principal a segunda maior variância e, assim, sucessivamente, de forma que o máximo de informação, em termos de variação total, está contido nos primeiros componentes. Além disso, os componentes principais representam vetores linearmente independentes (Anderson 1958). 
A PCA tem como principais vantagens: retirar a multicolinearidade das variáveis, pois permite transformar um conjunto de variáveis originais intercorrelacionadas em um novo conjunto de variáveis não correlacionadas (componentes principais). Além disso, reduz muitas variáveis a eixos que representam algumas variáveis, sendo estes eixos perpendiculares (ortogonais) explicando a variação dos dados de forma decrescente e independente. 
As desvantagens são: a sensibilidade a outliers, não recomendada quando se tem duplas ausências (muitos zeros na matriz) e dados ausentes. A PCA também não é recomendada quando se tem mais variáveis do que unidades amostrais.
Diferentemente de outras análises de ordenação, só é possível utilizar a distância euclidiana como coeficiente de similaridade na PCA. Logo, é mais recomendado usá-la para analisar variáveis ambientais ou medidas morfológicas. 
Segundo Baker et al. (1988), a PCA pode revelar relações não identificadas previamente, contribuindo para melhor interpretação dos dados. Além disso, muitas vezes, a mesma representa um método de explicação da estrutura de covariância entre as várias características medidas em uma população.
Procedimento para uma análise de componentes principais 
O exemplo utilizado foi adaptado do trabalho de Hermon Bumpus (1898) que com o objetivo de comprovar a teoria da seleção natural de Darwin e melhor entender a estatística inferencial em biologia, descreveu e analisou o pássaro da espécie Passer domesticus (pardal) durante uma longa tempestade em Providence, Rhode Island. Esse trabalho incluiu várias medições de 136 pássaros e os dados gerados foram reanalisados várias vezes. 
Para desenvolver uma análise de componentes principais utilizaremos cinco variáveis (medidas biométricas) com um n de 49 pardais, para saber qual dessas variáveis melhor explica a variabilidade dos dados ou seja qual medida do corpo do pardal melhor explica a variação entre os indivíduos mensurados (Tabela 1 em Anexo), baseado nos autores: Araújo e Coelho 2009, Gotelli e Ellison 2011 e Bocard et al. 2011.
O primeiro componente principal é então a combinação linear das variáveis X1, X2, ..., Xp, expresso por: Z1= a11X1 + a 12+ X2 +...+ a1p Xp, que varia tanto quanto possível para os indivíduos, sujeitos à condição de que Z2= a21X1 + a 22+ X2 +...+ a2p Xp, desta forma, Var (Z1), a variância de Z1, é tão grande quanto possível dada esta restrição sobre as constantes a1j. A restrição é introduzida porque se isto não é feito, então Var(Z1) pode ser aumentada fazendo simplesmente crescer qualquer um dos valores aij.
O segundo componente principal, Z2 = a21X 1 +a22 X2 + ... + a2p Xp, é escolhido de modo que Var (Z2) seja tão grande quanto possível sujeito à restrição de que +, ..., e também à condição de que Z1 e Z2 tenham correlação zero para os dados. Posteriores componentes principais são definidos continuando da mesma maneira. Se existem p variáveis, então existirão no máximo p componentes principais. Uma PCA envolve encontrar os autovalores de uma matriz de covariâncias amostral. A matriz de covariâncias é simétrica e tem a forma: 
O elemento cii na diagonal é a variância de Xi e o termo fora da diagonal cij é a covariância entre as variáveis Xi Xj. As variâncias dos componentes principais são os autovalores da matriz C.
 Calculamos então os autovalores λ1 ... λn da matriz de variância e covariância amostral e seus autovetores, aj, e as cargas aij, são os elementos dos autovetores. A soma de todos os autovalores é a variância total explicada: vartotal = e a proporção da variância explicada por cada componente Zi é: varj = .
Se multiplicarmos varj por 100, obtemos a porcentagem de variação explicada. Como existem tantos componentes principais quantas forem as variáveis originais, a quantidade total de variação explicada por todos os componentes principais é 100%. Os resultados desses cálculos para os dados de biometria de Pardais (Tabela 1) são resumidos na Tabela 2 e 3.
Tabela 2. Autovalores e autovetores da análise de componentes principais para cinco medidas em 49 pardais. 
	Autovetores (coeﬁcientes para os componentes principais)
	Componente
	Autovalor
	X1
	X2
	X3
	X4
	X5
	1
	3,348
	0,450
	0,439
	0,464
	0,482
	0,396
	2
	0,675
	-0,336
	0,331
	0,400
	0,241
	-0,747
	3
	0,416
	-0,438
	0,746
	-0,401
	-0,111
	0,276
	4
	0,345
	0,676
	0,370
	-0,187
	-0,466
	-0,390
	5
	0,213
	0,188
	-0,050
	-0,653
	0,692
	-0,234
Cada elemento no autovetor é o coeficiente (ou carga) que é multiplicado pelo valor da variável padronizada correspondente. Os produtos de cargas e das medidas padronizadas são somados para dar o escore do componente principal. Desse modo, usando o primeiro autovetor, 0,45 é multiplicado pela primeira medida (comprimento total) e adicionado a -0,33 multiplicado pela segunda medida (extensão alar), e assim por diante. Na notação de matrizes dizemos que os escores dos componentes principais Zj para cada observação y, que consiste de dez medidas y1 até y5, são obtidos multiplicando ai por y.
Tabela 3. Proporção de variância e proporção cumulativa dos autovalores.
	Componente Principal
	Desvio
padrão
	Proporção de
 variância
	Proporção cumulativa da
 variância
	PC1
	1,899
	0,669
	0,669
	PC2
	0,822
	0,135
	0,804
	PC3
	0,645
	0,083
	0,888
	PC4
	0,587
	0,069
	0,957
	PC5
	0,461
	0,042
	1,000
A proporção da variância e a proporção cumulativa são calculados a partir da soma dos autovalores. A proporção de variância é usada para selecionar um pequeno número de componentes principais que captura a maioria da variação nos dados. Neste conjunto os três primeiros componentes explicam 88% da variância nas 5 variáveis originais.
Um passo importante é selecionar quais são os eixos que foram os mais importantes, ou seja, aqueles que resumem a maior quantidade de variação dos dados. Segundo Jackson (1993) existem vários métodos: o critério de Kaiser-Guttman sugere calcular a média de todos os autovalores e interpretar somente aqueles cujo os autovalores sejam maiores que a média. Uma “regra de polegar” sugere escolher todos os componentes principais até atingir 75% de explicação. 
Outra opção é realizar um screen-plot que plota os componentes principais no eixo x e os autovalores no eixo y, os componentescom menor explicação tendem a estar numa linha reta; logo deve-se interpretar somente os componentes principais que não estão nesta reta. O critério da esferidade de Bartlett sugere que os componentes principais sejam selecionados até que as duas últimas medidas de explicação formem uma esfera. 
Existe também, o método de Broken Stick que sugere considerar somente os eixos maiores que o valor predito numa distribuição Broken Stick de dados aleatórios. Este é o critério mais utilizado por ser um método estatístico e não heurístico, por isso vamos utilizá-lo no exemplo deste trabalho.
Geralmente, além dos dois ou três primeiros eixos, a interpretação torna-se mais difícil. Valentin (2012) salienta que na maioria dos trabalhos, os autores param a interpretação a partir do segundo eixo. Para isso, é necessário dispor de dados em quantidade suficiente, qualidade (sem vícios de amostragem e adequadamente coletados) e de informações exaustivas sobre o meio ambiente e a ecologia dos organismos de interesse.
Fig.1. Autovalores dos eixos observados (preto) em relação a distribuição broken stick formada aleatoriamente (vermelho), os componentes devem ser mantidos quando os autovalores observados são maiores do que os formados aleatoriamente.
É recomendado fornecer ao leitor figuras dos planos fatoriais que melhor ilustram sua interpretação. No caso da apresentação gráfica dos planos fatoriais os pontos variáveis (pardais) e pontos observações (medidas biométricas) no primeiro plano (eixo I e II) que deve iniciar a interpretação. Neste plano deve ser possível explicar a maior parte da variabilidade dos dados, e descrever as grandes linhas de sua estrutura. 
A interpretação de um eixo deve ter um caráter “residual” em relação aos anteriores já interpretados, em um sentido que não deve ser dada uma mesma definição a dois ou mais eixos, já que eles são matematicamente independentes (= ortogonais). Entretanto, se dois eixos sucessivos tem autovalores iguais ou muito próximos, é, neste caso preferível interpretar o plano globalmente, sem definir especificamente o papel de cada um no ponto plano (Valentin, 2012).
Por fim podemos analisar as diferenças entre as medidas dos pássaros em seus escores dos componentes principais. Ilustrando essa diferença plotando os escores dos componentes principais de cada pássaro em dois eixos, e codificar os pontos (= réplicas) para cada grupo usando diferentes cores ou símbolos. 
Conforme a fig.2 podemos interpretar o gráfico da seguinte forma: O eixo I explica 66,97% da variância dos dados, ele é positivamente ligado a todas as variáveis sendo que a variável que melhor explica a variação de tamanho nos pardais, é o comprimento do úmero (0,482). Já o eixo II é formado pela contribuição positiva das medidas de extensão alar, comprimento do bico e cauda e comprimento do úmero, e ligado negativamente as variáveis comprimento total e comprimento da quilha do esterno, sendo esta última a que melhor explica a variação dos dados no eixo II (-0,747). Em suma podemos afirmar que o comprimento do úmero e da quilha do esterno são as medidas que melhor explicam a diferença entre os espécimes de pardais.
Fig.2. Gráfico ilustrando os escores dos dois primeiros componentes principais de uma PCA de medidas biométricas de 49 pardais. X1 = comprimento total, X2 = extensão alar, X3 = comprimento do bico e cabeça, X4 =comprimento do úmero, X5 = comprimento da quilha do esterno.
Lembrando que a PCA produz melhores resultados quando as variáveis possuem uma forte estrutura de correlação entre si (ou seja, quando as variáveis são redundantes) e ao fazer esta análise, deseja-se justamente eliminar a correlação entre as variáveis, produzindo assim novas variáveis que não correlacionadas. Se a porcentagem de explicação dos eixos for muito similar entre si indica que não há uma associação entre as variáveis, i.e., não há uma estrutura clara nos dados. 
Referências Bibliográficas
Anderson, T.W. 1958. An introduction to multivariate statistical analysis. New York: John Wiley & Sons, 374. 
Araújo, W. O., Coelho, C.J.2009. Análise de componentes principais (PCA). Technical Report. RT-MSTMA 003-09. 
Bocard, D., Gillet, F., Legendre, P. 2011. Numerical ecology with R. Berlin: Springer, 305p.
Bumpus, H. C. 1898. Eleventh lecture. The elimination of the unfit as illustrated by the introduced sparrow, Passer domesticus. (A fourth contribution to the study of variation.) Biology Lectures: Woods Hole Marine Biological Laboratory 209-225.
Gotelli, N. J. And Ellison, A. M. 2011. Princípios de estatística em ecologia numérica. Porto Alegre: Artmed, 527.
Hotelling, H. 1933. Review of the triumph of mediocrity in business. Journal of the American Statistical Association 28, 463-465. 
Jackson, D.A. 1993. Stopping rules in principal component analysis: a comparison of heuristical and statistical approaches. Ecology 74: 2204-2214.
Jolliffe, I.T.1973. Discarding variables in a principal component analysis, II: real data. Journal of Applied Statistics 22, 22-31. 
Manly, B.F.J. 1988. Multivariate statistical methods: a primer. London: Chapman and Hall 159p.
Morrison, D.F. 1976. Multivariate statistical methods. 2 ed. Singapore: McGraw Hill, 415. 
Pearson, K. 1901. On lines and planes of closest fit to system of point in space. Philosophical Magazine 2 (6) 559-572. 
Valentin, J. L. 2000. Ecologia Numérica: uma introdução à análise multivariada de dados ecológicos. Rio de Janeiro: Interciência, 117.
Anexo 
Tabela 1. Medida do corpo das pardais
	Pássaros
	X1
	X2
	X3
	X4
	X5
	1
	156
	245
	31,6
	18,5
	20,5
	2
	154
	240
	30,4
	17,9
	19,6
	3
	153
	236
	31
	18,4
	20,6
	4
	153
	243
	30,9
	17,7
	20,2
	5
	155
	247
	31,5
	18,6
	20,3
	6
	163
	238
	32
	19
	20,9
	7
	157
	239
	30,9
	18,4
	20,2
	8
	155
	248
	32,8
	18,6
	21,2
	9
	164
	238
	32,7
	19,1
	21,1
	10
	158
	238
	31
	18,8
	22
	11
	158
	240
	31,3
	18,6
	22
	12
	160
	244
	31,1
	18,6
	20,5
	13
	161
	246
	32,3
	19,3
	21,8
	14
	157
	245
	32
	19,1
	20
	15
	157
	235
	31,5
	18,1
	19,8
	16
	156
	237
	30,9
	18
	20,3
	17
	158
	244
	31,4
	18,5
	21,6
	18
	153
	238
	30,5
	18,2
	20,9
	19
	155
	236
	30,3
	18,5
	20,1
	20
	163
	246
	32,5
	18,6
	21,9
	21
	159
	236
	31,5
	18
	21,5
	22
	155
	240
	31,4
	18
	20,7
	23
	156
	240
	31,5
	18,2
	20,6
	24
	160
	242
	32,6
	18,8
	21,7
	25
	152
	232
	30,3
	17,2
	19,8
	26
	160
	250
	31,7
	18,8
	22,5
	27
	155
	237
	31
	18,5
	20
	28
	157
	245
	32,2
	19,5
	21,4
	29
	165
	245
	33,1
	19,8
	22,7
	30
	153
	231
	30,1
	17,3
	19,8
	31
	162
	239
	30,3
	18
	23,1
	32
	162
	239
	30,3
	18
	23,1
	33
	159
	245
	31,8
	18,5
	21,7
	34
	159
	247
	30,9
	18,1
	19
	35
	155
	243
	30,9
	18,5
	21,3
	36
	162
	252
	31,9
	19,1
	22,2
	37
	152
	230
	30,4
	17,3
	18,6
	38
	159
	242
	30,8
	18,2
	20,5
	39
	155
	238
	31,2
	17,9
	19,3
	40
	163
	249
	33,4
	19,5
	22,8
	41
	163
	242
	31
	18,1
	20,7
	42
	156
	237
	31,7
	18,2
	20,3
	43
	159
	238
	31,5
	18,4
	20,3
	44
	161
	245
	32,1
	19,1
	20,8
	45
	155
	235
	30,7
	17,7
	19,6
	46
	162
	247
	31,9
	19,1
	20,4
	47
	153
	237
	30,6
	18,6
	20,4
	48
	162
	245
	32,5
	18,5
	21,1
	49
	164
	248
	32,3
	18,8
	20,9