Baixe o app para aproveitar ainda mais
Prévia do material em texto
MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIÊNCIAS EXATAS ANÁLISE MULTIVARIADA Daniel Furtado Ferreira LAVRAS, MG 1996 ii SUMÁRIO Pág. 1. Aspectos da análise multivariada 1 1.1. Introdução 1 1.2. Aplicação das técnicas multivariadas 3 1.3. Organização de dados 5 1.4. Distâncias 15 1.5. Exercícios 24 2. Álgebra vetorial e matricial 25 2.1. Introdução 25 2.2. Elementos de álgebra vetorial 26 2.3. Elementos de álgebra matricial 34 2.4. Exercícios 82 3. Amostragem multivariada 89 3.1. Introdução 89 3.2. Geometria amostral 90 3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral. 101 3.4. Variância generalizada 104 3.5. Variância generalizada de variáveis generalizadas 113 3.6. Outra generalização da variância 116 3.7. Exercícios 117 iii 4. Distribuição normal multivariada 119 4.1. Introdução 119 4.2. Pressuposições das análises multivariadas 120 4.3. Densidade normal multivariada e suas propriedades 121 4.4. Distribuição normal bivariada 125 4.5. Distribuição amostral de X� e S 133 4.6. Distribuições amostral derivada da distribuição normal multivariada 138 4.7. Verificando a normalidade 143 4.8. Exercícios 169 5. Inferências sobre o vetor média 171 5.1. Introdução 171 5.2. Inferências sobre média de uma população normal 171 5.3. Região de confiança e comparações simultâneas de componentes de média 177 5.4. Inferências sobre proporções de grandes amostras 190 5.5. Comparações pareadas 192 5.6. Comparações de vetores de médias de duas populações 199 5.7. Exercícios 215 6. Análise de variância multivariada 219 6.1. Introdução 219 6.2. Delineamento de classificação simples 220 iv 6.3. Intervalos de confiança simultâneos para o efeito de tratamentos 230 6.4. Exercícios 232 7. Componentes principais 233 7.1. Introdução 233 7.2. Componentes principais populacionais 234 7.3. Componentes principais amostrais 250 7.4. Gráficos dos componentes principais 256 7.5. Inferências para grandes amostras 259 7.6. Exercícios 282 8. Análise de agrupamento 285 8.1. Introdução 285 8.2. Medidas de parecença (similaridades e dissimilaridades) 286 8.3. Agrupamentos 296 8.4. Exercícios 308 9. Análise de fatores 309 9.1. Introdução 309 9.2. Modelo de fatores ortogonais 310 9.3. Estimação de cargas fatoriais 316 9.4. Rotação fatorial 342 9.5. Teste da falta de ajuste do modelo fatorial 346 v 9.6. Escores fatoriais 349 9.7. Exercícios 354 10. Análise de correlação canônica 355 10.1. Introdução 355 10.2. Variáveis canônicas e correlação canônica populacionais 356 10.3. Variáveis e correlações canônicas amostrais 371 10.4. Inferências para grandes amostras 380 10.5. Exercícios 386 11. Referencias bibliográficas 389 Apêndices 395 Índice remissivo 397 ||[ ]||Aspectos da análise multivariada 1 1.1. Introdução Nos trabalhos científicos, o problema de se inferir, a partir de dados mensurados pelo pesquisador, sobre os processos ou fenômenos físicos, biológicos ou sociais, que não se pode diretamente observar, é uma realidade constante. A pesquisa científica se constitui num processo interativo de aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e analisa dados de acordo com uma hipótese. Por outro lado, a análise destes mesmos dados coletados de amostragem ou experimentação geralmente sugere modificações da explicação do fenômeno, além disso, devido à complexidade destes fenômenos, o pesquisador deve coletar observações de diferentes variáveis. Neste contexto, a inferência estatística é realizada de acordo com o paradigma hipotético-dedutivo (Bock, 1975). Devido aos fenômenos serem estudados a partir de dados coletados ou mensurados em muitas variáveis, os métodos estatísticos delineados para obter informações a partir destes conjuntos de informações, são denominados de métodos de análises multivariados. A necessidade de compreensão das relações 1. Aspectos da análise multivariada 2 entre as diversas variáveis faz com que as análises multivariadas sejam complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a utilidade das técnicas multivariada de uma forma clara, usando exemplos ilustrativos e evitando o máximo de possível de cálculo. Sendo assim, os objetivos gerais, para os quais a análise multivariada conduz são: a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é representado da maneira mais simples possível, sem sacrificar informações valiosas e tornando as interpretações mais simples; b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou variáveis similares, baseados em dados amostrais ou experimentais; c. investigação da dependência entre variáveis: estudos das relações estruturais entre variáveis muitas vezes é de interesse do pesquisador; d. predição: relações entre variáveis devem ser determinadas para o propósito de predição de uma ou mais variável com base na observação de outras variáveis; e. construção e teste de hipóteses. Os modelos multivariados possuem em geral, um propósito através do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um Ferreira, D.F. Estatística multivariada 3 determinado fenômeno. No entanto a sua utilização adequada depende do bom conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott (1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que apesar de serem uma importante ferramenta para análise e interpretação de dados, não devem ser utilizados como máquinas automáticas de encher lingüiça, transformando massas numéricas em pacotes de fatos científicos”. 1.2. Aplicação de técnicas multivariadas As técnicas estatísticas constituem se uma parte integral da pesquisa científica e em particular as técnicas multivariadas tem sido regularmente aplicada em várias investigações científicas nas áreas de biologia, física, sociologia e ciências médicas. Parece, neste instante, ser apropriado descrever as situações em que as técnicas multivariadas têm um grande valor. Medicina Nos estudos onde as reações de pacientes a um determinado tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico, as técnicas multivariadas podem ser usadas para construir uma medida de resposta simples ao tratamento, na qual é preservada a maior parte da informação da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas 1. Aspectos da análise multivariada 4 multivariadas podem ser usadas também quando a classificação de um paciente, baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada. Neste caso, uma técnica multivariada de classificação, em que se cria uma função que pode ser usada para separar as pessoas doentes das não doentes, pode ser implementada. Sociologia Em alguns estudos o inter-relacionamento e o agrupamento de indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade, número de estrangeiros nascidos e de segunda geração em determinado país é necessária em alguns estudos sociológicos. As técnicas de análise multivariada, conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada com esta finalidade. Biologia Nomelhoramento de plantas é necessário, após o final de uma geração, selecionar aquelas plantas que serão os genitores da próxima geração. a seleção deve ser realizada de maneira que a próxima geração seja melhorada em relação à resposta média de uma série de características da geração anterior. O objetivo do melhorista consiste em maximizar o ganho genético em um espaço Ferreira, D.F. Estatística multivariada 5 mínimo de tempo. As análises multivariadas podem ser usadas para converter uma série de características para um índice, na qual a seleção e escolha dos pais possam ser feitas. Em algumas situações se deseja a separação de algumas espécies, e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é construída e os seus valores são usados para esta separação. 1.3. Organização de dados Através deste material pretende-se tratar das análises realizadas em muitas características ou variáveis. Essas medidas, muitas vezes chamadas de dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises de dados. Por outro lado, números que resumem, ou seja, que descrevem quantitativamente certas características, são essenciais para a interpretação de os dados amostrais ou experimentais. Arranjos Os dados multivariados são provenientes de uma pesquisa em determinada área em que são selecionadas p ≥ 1 variáveis ou características para 1. Aspectos da análise multivariada 6 serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do experimento. A representação destes dados é feita com a notação xjk para indicar um valor particular da j-ésima unidade amostral ou experimental e da k-ésima variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades amostrais ou experimentais, podem ser representadas conforme o arranjo apresentado na Tabela 1.1. Tabela 1.1. Representação de dados através da notação xjk para indicar um valor particular da k-ésima variável mensurada na j-ésima unidade amostral ou experimental. Variáveis Unidades amostrais ou experimentais 1 2 ... k ... p 1 X11 X12... X1k... X1p 2 X21 X22... X2k... X2p . . . . . . . . . . . . . . . j Xj1 Xj2... Xjk... Xjp . . . . . . . . . . . . . . . n Xn1 Xn2... Xnk... Xnp Ferreira, D.F. Estatística multivariada 7 Estes valores, apresentados na Tabela 1.1, podem ser representados em um arranjo retangular, denominado de X, com n linhas e p colunas, da seguinte forma: 11 12 1 1 21 22 2 2 1 2 1 2 k p k p j j jk jp n n nk np x x x x x x x x X x x x x x x x x ⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ " " " " # # # # # # " " # # # # % # " " Exemplo 1.1 Uma seleção de 4 firmas de ração de Minas Gerais foi obtida para avaliar a venda de rações. Cada observação bivariada forneceu a quantidade de sacos de ração vendidos e a quantidade de reais de cada venda. Os dados obtidos na forma tabular são: Variável 1 (Reais/venda) 80 120 90 110 Variável 2 (número de sacos de ração vendidos) 10 12 6 8 Usando a notação proposta anteriormente, tem-se: X11=80 X21=120 X31=90 X41=110 X12=10 X22=12 X32=6 X42=8 E a matriz X dos dados é: 1. Aspectos da análise multivariada 8 80 10 120 12 90 6 110 8 X ⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦ A organização dos dados em arranjos facilita a exposição e permite que os cálculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos na eficiência são: (1) descrição dos cálculos como operações com matrizes e vetores; e (2) sua fácil implementação em computadores. ESTATÍSTICAS DESCRITIVAS Grandes conjuntos de dados possuem um sério obstáculo para qualquer tentativa de extração de informações visuais pertinentes aos mesmos. muitas das informações contidas nos dados podem ser obtidas por cálculo de certos números, conhecidos como estatísticas descritivas. Por exemplo, a média aritmética ou média amostral, é uma estatística descritiva que fornece informação de posição, isto é, representa um valor central para o conjunto de dados. Como um outro exemplo, a média das distâncias ao quadrado de cada dado em relação à média, fornece uma medida de dispersão, ou variabilidade. Às estatísticas descritivas que mensuram posição, variação e associação linear são enfatizadas. As descrições formais destas medidas estão apresentadas a seguir. A média amostral, simbolizada por X , é dada por: Ferreira, D.F. Estatística multivariada 9 1 1 n k jk j X X n = = ∑ k=1, 2, ..., p (1.1) Uma medida de variação é fornecida pela variância amostral, definida para as n observações de i-ésima variável por: ( )22 1 1 1 = = = −− ∑ n k kk jk k j S S X X n k = 1, 2, ..., p (1.2) A raiz quadrada da variância amostral, kkS , é conhecida como desvio padrão amostral. Esta medida de variação está na mesma unidade de medida das observações. Uma medida de associação entre as observações de duas variáveis, variáveis k e k’, é dada pela covariância amostral: ( )( )' ' ' 1 1 1 = = − −− ∑ n kk jk k jk k j X X X X nS k, k’=1,2, ..., p (1.3) Se grandes valores de uma variável são observados em conjunto com grandes valores da outra variável, e os pequenos valores também ocorrem juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com pequenos valores da outra, Skk’ será negativa. Se não há associação entre os 1. Aspectos da análise multivariada 10 valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’. A última estatística descritiva a ser considerada aqui é o coeficiente de correlação amostral. Esta medida de associação linear entre duas variáveis não depende da unidade de mensuração. O coeficiente de correlação amostral para k-ésima e k’-ésima variável, é definido por: ( )( ) ( ) ( ) ' ' 1' ' 2 2 ' ' ' ' 1 1 = = = − − = = − − ∑ ∑ ∑ n jk k jk k jkk kk n n kk k k jk k jk k j j X X X X r X X X X S S S (1.4) Verifica-se que rkk’=rk’k para todo k e k’. O coeficiente de correlação amostral é a versão estandardizada da covariância amostral, onde o produto das raízes das variâncias das amostras fornece a estandardização. O coeficiente de correlação amostral pode ser considerado como uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos pelos valores padronizados, ( )−jk k kk X X S e ' ' ' ' ( )−jk k k k X X S . Esses valores padronizados são expressos sem escalas de medidas (adimensionais), pois são centrados em zero e expressos em unidades de desvio padrão. O coeficiente de correlação amostral é justamente a covariância amostral das observações estandardizadas. A correlação amostral (r), em resumo, tem as seguintes propriedades: Ferreira, D.F. Estatística multivariada 11 1. Os valores de r devem ficar compreendidos entre -1 e 1; 2. Se r = 0, implica em inexistência de associação linear entre as variáveis. Por outrolado, o sinal de r, indica a direção da associação: se r < 0 há uma tendência de um dos valores do par ser maior que sua média, quando o outro for menor do que a sua média, e r > 0 indica que quando um valor do par for grande o outro também o será, além de ambos valores tender a serem pequenos juntos; 3. Os valores de rkk’ não se alteram com a alteração da escala de uma das variáveis. As estatísticas Skk’ e rkk’, em geral, não necessariamente refletem todo o conhecimento de associação entre duas variáveis. Associações não lineares existem, as quais, não podem ser reveladas por estas estatísticas descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações discrepantes (outliers). Além destas, outras estatísticas como a soma de quadrados de desvios em relação à média (Wkk) e a soma de produtos de desvios (Wkk’), são muitas vezes de interesse. Essas estão apresentadas a seguir: 1. Aspectos da análise multivariada 12 2 1 ( ) = = −∑nkk jk k j X XW ' ' ' 1 ( )( ) = = − −∑nkk jk k jk k j W X X X X As estatísticas descritivas multivariadas calculadas de n observações em p variáveis podem ser organizadas em arranjos. Médias da amostra 1 2 ⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ #� p X X X X Matriz de covariância amostral S S S S S S S S S S p p p p pp = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ 11 12 1 21 22 2 1 2 " " # # % # " Ferreira, D.F. Estatística multivariada 13 Matriz de correlações amostral R r r r r r r p p p p = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ 1 1 1 12 1 21 2 1 2 " " # # % # " Exemplo 1.2 Considerando os dados introduzidos no exemplo 1.1, encontrar as o vetor de médias X� e as matrizes S e R. Neste exemplo, cada firma de ração, representa uma das observações multivariadas, com p = 2 variáveis (valor da venda em reais e número de sacos de rações vendidas). As médias amostral são: 4 1 j1 j 1 1 1X X (80 120 90 110) 100 4 4= = = + + + =∑ 4 2 j2 j 1 1 1X X (10 12 6 8) 9 4 4= = = + + + =∑ 1 2 100 9 ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦� X X X A matriz de covariância amostral é: 1. Aspectos da análise multivariada 14 S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333 S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667 S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000 S21=S12=20,000, e S = ⎡⎣⎢ ⎤ ⎦⎥ 333 333 20 000 20 000 6 667 , , , , A correlação amostral é: r12 20 33 333 6 667 0 424= = , , , 3 r21=r12=0,4243 Portanto, 1,0000 0, 4243 R 0, 4243 1,0000 ⎡ ⎤= ⎢ ⎥⎣ ⎦ Ferreira, D.F. Estatística multivariada 15 1.4. Distâncias A maioria das técnicas multivariadas é baseada no simples conceito de distância, por mais formidável que isso possa parecer. O conceito de distância euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0), definida por d(O,P), é dada pelo teorema de Pitágoras por: d O P x x( , ) = +12 22 (1.5) Esta situação é ilustrada na Figura 1.1. Em geral, se o ponto P tem p coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem O=(0, 0, ..., 0), pode ser generalizada por: d O P x x x p( , ) ...= + + +12 22 2 (1.6) 1. Aspectos da análise multivariada 16 X1 X2 P d(O, P) Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo teorema de Pitágoras. Todos os pontos (x1, x2, .., xp) que contém uma distância ao quadrado, denominada c2, da origem, satisfaz a equação: d O P x x x cp 2 1 2 2 2 2 2( , ) ...= + + + = (1.7) A expressão em (1.7) representa a equação de uma hiperesfera (um círculo se p = 2), e os pontos eqüidistantes da origem por uma distância d(O, P) pertencem a essa hiperesfera. A distância de um ponto P a um ponto arbitrário Q, com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por: ( ) ( ) ( )d P Q x y x y x yp p( , ) ...= − + − + + −1 1 2 2 2 2 2 (1.8) Ferreira, D.F. Estatística multivariada 17 A distância euclidiana é insatisfatória para muitas situações estatísticas. Isso ocorre devido à contribuição de cada coordenada ter o mesmo peso para o cálculo da distância. Quando estas coordenadas representam medidas são provenientes de um processo que sofre flutuações aleatórias de diferentes magnitudes é muitas vezes desejável ponderar as coordenadas com grande variabilidade por menores pesos em relação àquelas com baixa variabilidade. Isto sugere o uso de uma nova medida de distância. Será apresentada a seguir uma distância que considera as diferenças de variação e a presença de correlação. Devido a escolha de a distância depender das variâncias e das covariâncias amostrais, a partir deste instante, será utilizado o termo “distância estatística” para distinguir de distância euclidiana. A princípio, será considerada a construção de uma distância entre um ponto P, com p coordenadas, da origem. O argumento que pode ser usado refere-se ao fato de que as coordenadas de P podem variar no espaço produzindo diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares de medidas em duas variáveis (x1 e x2) e que as medidas de x1 variam independentemente das mensurações em x2. O significado de independente neste ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos com nenhuma acurácia a partir dos valores de x2 e vice-versa. Em adição, é assumido que as observações de x1 possuem maior variabilidade que as de x2. Uma ilustração desta situação está apresentada na Figura 1.2. 1. Aspectos da análise multivariada 18 -6 -4 -2 0 2 4 6 X 2 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 Figura 1.2. Diagrama de dispersão, mostrando a maior variabilidade na direção de x1 do que na direção de x2. Observando a Figura 1.2, verifica-se que não é surpreendente encontrar desvios na direção de x1 que se afastem da origem consideravelmente, o que não ocorre na direção de x2. Parece ser razoável, então, ponderar x2 com mais peso do que x1 para um mesmo valor, quando as distâncias da origem forem calculadas. Ferreira, D.F. Estatística multivariada 19 Um modo de fazer isso é dividir cada coordenada pelo desvio padrão amostral. Após a divisão, têm-se as coordenadas estandardizadas 1 1 11*x x s= e 2 2 22 *x x s= . Após eliminar as diferenças de variabilidade das variáveis (coordenadas), determina-se a distância usando a fórmula euclidiana padrão: d O P x x x S x S ( , ) ( ) ( )* *= + = +1 2 2 2 1 2 11 2 2 22 (1.9) Usando a equação (1.9) todos os pontos tendo como coordenadas (x1, x2) e com distância quadrada (c2) da origem devem satisfazer: 1 2 11 2 2 22 2x S x S c+ =(1.10) A expressão (1.10) é a equação de uma elipse, cujos maiores e menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o caso geral para p = 2 coordenadas. 1. Aspectos da análise multivariada 20 O X1 X2 cS11 0.5-cS11 0.5 cS22 0.5 -cS22 0.5 Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= 1 2 11 2 2 22 2x S x S c+ = . Exemplo 1.3 Um conjunto de pares (x1, x2) de duas variáveis forneceu 1 2X X 1= = , S11=9 e S22=1. Supõe-se que as observações de x1 são independentes de x2. A distância quadrática de um ponto arbitrário (P) da origem, uma vez que as variâncias da amostra não são iguais, é dada por: d O P x x2 1 2 2 2 9 1 ( , ) = + Ferreira, D.F. Estatística multivariada 21 Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1, satisfazem a equação: x x1 2 2 2 9 1 1+ = (1.11) As coordenadas de alguns pontos com distância quadrática unitária da origem foram apresentadas na Tabela 1.2. Tabela 1.2. Coordenadas de alguns pontos com distância quadrática unitária da origem. Coordenadas (x1, x2) Distância ao quadrado ( 0, 1) ( 0,-1) ( 3, 0) (-3, 0) 0 9 1 1 2 2 1+ = 0 9 1 1 2 2 1+ =−( ) 3 9 0 1 2 2 1+ = ( )− + =39 01 2 2 1 O gráfico da equação (1.11) é uma elipse centrada na origem (0,0), cujo maior eixo é o da direção de x1 e o menor da direção de x2. A metade do maior eixo (semi-eixo maior) é c S11 3= e do menor c S22 1= . A elipse de distância quadrática unitária foi plotada na Figura 1.4. 1. Aspectos da análise multivariada 22 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 x1 x2 Figura 1.4. Elipse de distância unitária quadrática da origem obtida a partir da equação 1.11. A expressão (1.9) pode ser generalizada para o cálculo da distância entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente uma da outra. O caso mais geral, em que a hipótese de independência não é satisfeita, será abordado futuramente. d P Q x y S x y S x y S p p pp ( , ) ( ) ( ) ( )= − + − + + −1 1 2 11 2 2 2 22 2 " (1.12) Ferreira, D.F. Estatística multivariada 23 Todos os pontos (P) situados a uma distância quadrática constante de Q, pertencem a uma hiperelipsóide centrada em Q, cujos maiores e menores eixos são paralelos aos eixos das coordenadas. O programa SAS, apresentado a seguir, contém os códigos necessários para a obtenção das principais estatísticas descritivas multivariadas apresentadas nesse capítulo. O programa contém códigos matriciais e será abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são utilizados para a ilustração. Proc IML; X={ 80 10, 120 12, 90 6, 110 8}; Print X; n=nrow(X);p=ncol(X); Xbar=x`*j(n,1,1)/n; Print Xbar; q=i(n)-(1/n)*j(n,n,1); print q; S=(1/(n-1))*X`*q*X; W=(n-1)*S; print S W; V=diag(S); Vroot=half(V); IVroot=inv(Vroot); R=Ivroot*S*Ivroot; Print V Vroot IVroot; Print R; Quit; Foi motivado nesse capítulo o estudo das análises multivariadas e tentou-se fornecer alguns rudimentares, mas importantes, métodos de organizar e resumir os dados. Em adição, o conceito geral de distância foi apresentado, e será abordado e generalizado nos próximos capítulos. 1. Aspectos da análise multivariada 24 1.5. Exercícios ■ Considere as amostras com 8 observações e 3 variáveis apresentadas a seguir: x1 3 5 6 4 8 9 6 7 x2 6 11 11 9 15 16 10 12 x3 14 9 9 13 2 2 9 5 a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3. Comente sobre sua aparência. b) Calcule: X , S e R e interprete os valores em R. c) Calcule a distância euclidiana dada em (1.8) de um ponto P=( x1, x2, x3)=(5, 12, 8) em relação a origem e em relação a X . d) Calcule as mesmas distâncias do item c, usando (1.12). ||[ ]|| Álgebra vetorial e matricial 2 2.1. Introdução É desejável que as p respostas multivariadas sejam representadas por uma notação concisa. Os dados multivariados podem ser dispostos convenientemente como um arranjo de números, como foi apresentado no capítulo 1. Em geral, um arranjo retangular destes números, com n linhas e p colunas, por exemplo, é chamada de matriz de dimensões n x p. Se por outro lado, o arranjo consiste em n mensurações em apenas 1 variável, ou ainda, de uma observação multivariada em p variáveis, esses arranjos são denominados de vetores. Com esse arranjo bidimensional, não só, a notação fica mais concisa, mas os muitos resultados matemáticos de álgebra vetorial e matricial facilitam a derivação e exposição dos métodos estatísticos multivariados. Neste material, os elementos de álgebra vetorial e matricial, serão considerados como conhecidos. Nesse capítulo, no entanto, para os estudantes não familiarizados com o assunto, será apresentada uma breve revisão. 2. Álgebra vetorial e matricial 26 2.2. Elementos de álgebra vetorial De um ponto de vista geométrico, as observações multivariadas, podem ser consideradas como pontos no espaço p-dimensional, cujas coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal segmento de reta é denominado de vetor de posição e pode ser denotado simplesmente por X� . O vetor de posições é apenas um exemplo de vetor, para os quais pode ser elaborada a álgebra, baseada nos seguintes postulados. POSTULADOS 1. Para qualquer vetor X� dado um número escalar c, a multiplicação do escalar pelo vetor, resulta em outro vetor Y� , definido por: Y� = c X� c será considerado um número real; 2. A adição de dois vetores conduz a um único vetor definido como: Ferreira, D.F. Estatística multivariada 27 Z� = X� + Y� 3. A adição de vetores é: Comutativa: X� + Y� = Y� + X� Associativa: X� + ( )Y Z+� � = ( )X Y Z+ +� � � 4. Se 0� é o vetor nulo, então: X� + 0� = X� 0� . X� = 0 COMPRIMENTO, ÂNGULO E DISTÂNCIA Inicialmente, é definido produto interno entre dois vetores, que representa a soma de produtos de pares de coordenadas correspondentes. Para dois vetores (n x 1) de posição X� e Y� , o produto interno será o escalar, dado por: n i i 1 1 2 2 n n i 1 X.Y x y x y x y x y = = = + + +∑ "� � 2. Álgebra vetorial e matricial 28 É fácil verificar que X.Y Y.X=� � � � . Por meio, do produto interno é possível generalizar o teorema de Pitágoras para o espaço euclidiano n-dimensional: n 2 2 2 2 2 2 i 1 2 n i 1 X X.X x x x x d (P,O) = = = = + + + =∑ "� � � (2.1) em que P, é o ponto do espaço n-dimensional, definido pelas coordenadas do vetor X� . A expressão (2.1) é o comprimento ao quadrado do vetor X� . A expressão entre módulo | X� | indica a norma de X� . Dessa forma o comprimento do vetor é definido por: X X.X=� � � (2.2) O ângulo θ entredois vetores ( X� e Y� ) pode ser expresso em função do produto interno e do comprimento dos vetores, obtido através da lei dos cosenos, por: ( ) X.YCos X.X Y.Y θ = � � � � � � (2.3) As distâncias apresentadas no capítulo 1, entre os pontos coordenados dos vetores X� e Y� , podem ser expressos agora como o Ferreira, D.F. Estatística multivariada 29 comprimento do vetor diferença das coordenadas de X� e Y� . A distância entre X� e Y� é: d(X, Y) X Y (X Y).(X Y)= − = − −� � � � � � � � (2.4) Além de ser não negativa, essa distância entre os dois vetores é independente da direção das medidas e satisfaz a desigualdade triangular: d( X� , Y� ) ≤ d( X� , Z� ) + d( Y� , Z� ) (2.5) Derivada a partir da desigualdade de Cauchy-Schwars: a.b� � ≤ a . b� � (2.6) O que implica, no fato, que o valor do co-seno do ângulo entre a� e b� não pode exceder a unidade. ORTOGONALIDADE Dois vetores não nulos são denominados ortogonais, se o co-seno do ângulo entre eles for zero. Isto indica que: 2. Álgebra vetorial e matricial 30 X.Y� � = 0 (2.7) Muitas vezes é desejável (em sistemas de equações lineares) construir uma base ortonormal de vetores, isto é, cada vetor da base possui comprimento unitário ( )i iX .X 1=� � e cada par de vetor da base são ortogonais ( )i jX .X 0, i j= ≠� � . Para um conjunto de vetores arbitrários pode-se empregar a “construção de Gram-Schimidt”. O algoritmo está apresentado a seguir, considerando o conjunto 1 2 nX , X , ..., X� � � de vetores: Passo 1: normalize 1X� : 1 1 1 1 1 1 XX ; X .X 0 X .X ∗ = ≠�� � �� � Passo 2: Ortonormalize 2X� calculando o produto interno entre * 1X� e 2X� , e subtraindo de 2X� os componentes de * 1X� : Ortogonalizando 1X� e 2X� : ( )* *2 2 2 1 1X X X .X X⊥ = −� � � � � Então, normalizando-se 2X ⊥ � : Ferreira, D.F. Estatística multivariada 31 * 2 2 2 2 2 2 1X X ; X .X 0 X .X ⊥ ⊥ ⊥ ⊥ ⊥= ≠� � � � � � Passo 3: Calcule o produto interno de 3X� com * 1X� e * 2X� , e subtraia de 3X� os componentes de *1X� e * 2X� , ( ) ( )* * * *3 3 3 1 1 3 2 2X X X .X X X .X X⊥ = − −� � � � � � � � Então, normalizando-se 3X ⊥ � : * 3 3 3 3 3 3 1X X ; X .X 0 X .X ⊥ ⊥ ⊥ ⊥ ⊥= ≠� � � � � � E assim por diante, até o n-ésimo estágio, quando todos os vetores entrarem na construção. Se o i-ésimo vetor for linearmente dependente dos vetores anteriores, então iX ⊥ � será igual ao vetor nulo, iX 0 ⊥ =� � , devendo ser eliminado do conjunto e o processo deve continuar com o vetor i 1X +� . O número de vetores não nulos remanescentes no conjunto, constituem a dimensão do espaço vetorial original. 2. Álgebra vetorial e matricial 32 Exemplo 2.1 Dado o conjunto de vetores, a seguir, utilizar como ilustração a construção de Gram-Schimidt. 1 1 0 1 1 0 X 1 0 1 1 0 1 ⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ Os vetores de X são dados por: X = [ 1X� 2X� 3X� ] Passo 1. Normalize 1X� : * 1 1 11X 12 1 ⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦ � Passo 2: Ortonormalize 2X� : Produto interno: 2X� . * 1X� = 1 Ferreira, D.F. Estatística multivariada 33 ortogonalização: 2 1 1 1 1 1 11 1X 1. 0 1 12 2 0 1 1 ⊥ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦ � Normalização: *2 1 1 1 11 1 1X . 1 11 2 2 1 1 ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ � Passo 3: Ortonormalização de 3X� Produto interno: *3 1X .X 1=� � e * 3 2X .X 1= −� � ortogonalização: 1 1 2 2 1 1 2 2 3 1 1 2 2 1 1 2 2 00 1 1 0 00 1 1 01 1X 1. ( 1). 11 1 1 02 2 11 1 1 0 ⊥ − +⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− +⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − − − = =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −− ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −− ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦ � Verifica-se neste passo que 3X� é linearmente dependente dos vetores 1X� e 2X� , e deve ser eliminado da base vetorial. É fácil verificar que 3 1 2X X X= −� � � . Agrupando os vetores linearmente independentes ortonormalizados obtém-se a base vetorial de Gram-Schimidt. 2. Álgebra vetorial e matricial 34 1 1 2 2 1 1 2 2 2 1 1 2 2 1 1 2 2 X ⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥−⎢ ⎥−⎢ ⎥⎣ ⎦ Pode ser observar facilmente que o produto interno dos vetores em X2, é igual a zero. Um importante tipo de matriz inversa, denominado de inversa de Moore- Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de dimensão qualquer nxp e seja U a base ortonormal de vetores obtida da ortonormalização das colunas de A, então, defini-se T por: T=U’A Logo, a inversa generalizada de Moore-Penrose (A+) é definida por: A+ = T’(TT’)-1U’. 2.3. Elementos de álgebra matricial Na álgebra matricial as relações e operações são definidas através de operações em arranjos retangulares dos elementos, denominados de matrizes. Um exemplo de matriz é: Ferreira, D.F. Estatística multivariada 35 11 12 1p 21 22 2p n x p n1 n2 np a a a a a aA a a a ⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ " " # # % # " O número de linhas de uma matriz é denominado de ordem de linha e o número de colunas, ordem de colunas. Se o número de linhas é n e o número de colunas é p, diz-se que a matriz possui ordem nxp. Pode-se representar a matriz por: A=[aij] i=1, 2,..., n j=1, 2, ..., p (2.8) Nas análises multivariadas, muitas vezes, será feito referências a matriz de dados, a qual consiste de p respostas de n observações ou unidades experimentais, e terá ordem nxp. POSTULADOS 1. Igualdade: Duas matrizes necessariamente com o mesmo número de linhas e colunas são iguais, se e somente se os elementos correspondentes, forem iguais: A=B ⇔ aij=bij i=1, 2, ..., n e j=1, 2, ..., p 2. Álgebra vetorial e matricial 36 2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos elementos correspondentes: A+B = [ aij] + [bij] = [aij + bij] A adição com matriz nula 0, contendo elementos iguais a zero é: nAp + n0p = nAp 3. Multiplicação por escalar: o produto de um escalar e uma matriz é obtido pela multiplicação de cada elemento da matriz pelo número escalar: cA = c[ aij] = [ caij] 4. Multiplicação de matriz: a multiplicação de matrizes é definida para aquelas em que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator que pós multiplica. Tais matrizes são denominadas conformáveis para multiplicação. O elemento (i, k) da matriz resultante do produto é a soma dos produtos dos elementos correspondentes, da i-ésima linha do fator que pré multiplica com os da k-ésima coluna do fator que pós multiplica. nAq qBp = AB = q ij jk j 1 a b = ⎡ ⎤⎢ ⎥⎣ ⎦∑ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = CFerreira, D.F. Estatística multivariada 37 Em geral AB ≠ BA. A matriz quadrada com unidades na diagonal e zero nas demais partes é denominada de matriz unitária ou identidade: 1 0 0 0 1 0 0 0 1 ⎡ ⎤⎢ ⎥⎢ ⎥Ι = ⎢ ⎥⎢ ⎥⎣ ⎦ " " # # % # " Verifica-se que: nAp pΙp = nAp nΙn nAp = nAp A matriz quadrada cujos elementos fora da diagonal principal são iguais a zero é denominada matriz diagonal: D = diag[d1, d2, ..., dn] = 1 2 n d 0 0 0 d 0 0 0 d ⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ " " # # % # " 2. Álgebra vetorial e matricial 38 A pré-multiplicação por uma matriz diagonal, simplesmente re-escala as linhas do fator que pós multiplica, e a pós-multiplicação re-escala as colunas do pré-fator. 5. Inversão de matriz: a inversa de uma matriz quadrada A, nxn, é chamada de A-1 e é definida de tal forma que A A-1 = A-1 A = Ι. A inversa de um produto de matrizes é o produto do inverso dos fatores em ordem inversa a ordem de multiplicação original: (AB)-1 = B-1A-1 Pois, B-1A-1AB = B-1B = Ι e AB B-1A-1 = AA-1 = Ι 6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de uma matriz específica é denominada de matriz transposta. É denotada por A’. nAP = [aij], então, pA’n = [aij]’ = [aji] (A + B)’ = A’ + B’ (AB)’ = B’A’ Ferreira, D.F. Estatística multivariada 39 (A-1)’ = (A’)-1 7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada das restantes s=m-r linhas, e as p colunas particionadas das remanescentes q = n - p colunas. Então, A pode ser representada por submatrizes, como a seguir: 11 12 21 22 A A r A A A s p q ⎡ ⎤= ⎢ ⎥⎣ ⎦ Seja B uma matriz particionada de forma similar e sejam A e B tais que suas partições sejam conformáveis para adição, logo, 11 11 12 12 21 21 22 22 A B A B r A B A B A B s p q + +⎡ ⎤+ = ⎢ ⎥+ +⎣ ⎦ Suponha agora que B seja particionada em p e q linhas e em t e u colunas. Então, é possível verificar que: 2. Álgebra vetorial e matricial 40 11 12 11 12 21 22 21 22 11 11 12 21 11 12 12 22 21 11 22 21 21 12 22 22 A A B Br p AB A A B Bs q p q t u A B A B A B A B r A B A B A B A B s t u ⎡ ⎤ ⎡ ⎤= ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ + +⎡ ⎤= ⎢ ⎥+ +⎣ ⎦ Ainda é possível verificar que: ( ) ( ) ( ) ( ) 1 1 11 1 1 11 1 1 111 1 A A B CA A Bp A B p D CA B D CA B q C D q CAD CA B D CA B p q p q − − −− − − −− − − −−− − ⎡ ⎤+ −⎡ ⎤ − −= ⎢ ⎥⎢ ⎥ −⎣ ⎦ ⎢ ⎥− −⎣ ⎦ Método prático para cálculo de matrizes inversas As rotinas para computadores usualmente fazem uso da versão compacta do método de Gauss, denominado de método de Gauss-Jordan (Householder, 1953, 1964). Os cálculos do método de Gauss-Jordan são recursivos, sendo que os elementos da matriz no estágio i+1 são trocados pelos resultados da chamada operação pivotante dos elementos do estágio i, por: ( ) ( ) ( ) ( ) ( ) i i kj ji 1 i k k i jj a a a a k e j a + ×= − ≠AA A A Ferreira, D.F. Estatística multivariada 41 ( ) ( ) ( ) i ji 1 j i jj a a j a + = ≠AA A ( ) ( ) ( ) i kji 1 kj i jj a a k j a + = − ≠ ( ) ( ) i 1 jj i jj 1a a + = O elemento ( )ijja é chamado de pivô, e sua linha e coluna são chamados de linha e coluna pivotais. Após n operações pivotantes, a matriz original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja pivotada somente uma vez. Exemplo 2.2 Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir: ( )0 4 2A 2 2 ⎡ ⎤= ⎢ ⎥⎣ ⎦ Passo 1. Um bom compromisso com a precisão é pivotar a linha e coluna cujo elemento da diagonal seja o maior de todos os não pivotados. Assim o 2. Álgebra vetorial e matricial 42 elemento escolhido para pivô é o elemento a11=4. A matriz após a primeira ação pivotante é: ( ) 1 1 4 21 1 2 1 2 4 4A 12 2 22 4 4 − ⎡ ⎤⎢ ⎥ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥− ×⎢ ⎥ ⎣ ⎦−⎢ ⎥⎣ ⎦ Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô é a22=1, e a matriz resultante da operação pivotante é: ( ) ( )1 1 12 2 2 1 2 1 11 2 24 1 12 11 21 1 1 11A 1 1 22 − − − ⎡ ⎤ − −− ⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎣ ⎦⎣ ⎦⎣ ⎦ Ao final da operação pivotante, a matriz resultante, A(2), é a matriz inversa de A. Matrizes ortogonais Classes especiais de matrizes, que serão utilizadas rotineiramente nas técnicas multivariadas, são denominadas de matrizes ortogonais, sendo simbolizadas em geral por Q e caracterizada por: Ferreira, D.F. Estatística multivariada 43 QtQ = QQt = Ι ou Qt = Q-1 O nome deriva da propriedade de que se Q tem i-ésima linha tiq , então, se QQt = Ι implica que ti iq q 1= e ti jq q 0= para i≠j, sendo que as linhas possuem tamanho unitário e são mutuamente ortogonais (perpendiculares). De acordo com a condição de que QtQ = Ι, as colunas têm a mesma propriedade. Exemplo 2.3 Dado a matriz Q, a seguir, verifique sua ortogonalidade: 1 1 2 2 1 1 2 2 Q ⎡ ⎤= ⎢ ⎥−⎢ ⎥⎣ ⎦ A transposta de Q é dada por: 1 1 2 2t 1 1 2 2 Q −⎡ ⎤= ⎢ ⎥⎢ ⎥⎣ ⎦ então, 1 1 1 1 2 2 2 2t 1 1 1 1 2 2 2 2 2 0 1 01QQ 0 2 0 12 −⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ 2. Álgebra vetorial e matricial 44 e, 1 1 1 1 2 2 2 2t 1 1 1 1 2 2 2 2 2 0 1 01Q Q 0 2 0 12 −⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ sendo, QtQ = QQt = Ι ou Qt = Q-1, verificou-se que Q é ortogonal. Determinantes Uma função escalar importante de uma matriz A quadrada nxn, é o determinante da mesma. O determinante da matriz A é simbolizado por |A| e é definido por: ( ) 11 n i j ij ij j 1 A a se n 1 A a A 1 se n 1+ = = = = − >∑ (2.9) em que Aij é a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-ésima linha e a j-ésima coluna de A, para qualquer escolha arbitrária de i=1, 2, ..., n. Exemplo 2.4 Para ilustrar a definição (2.9), serão consideradas as seguintes matrizes: Ferreira, D.F. Estatística multivariada 45 4 2 2 4 1 A [4] B C 2 2 0 1 2 2 0 2 ⎡ ⎤⎡ ⎤ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎣ ⎦ A 4= ; 2 3B 4 2 ( 1) 1 1 ( 1) 4.2.1 1 1 1 7= × × − + × × − = − × × = ; 2 3 4 2 3 2 2 3 3 2 3 4 2 0 2 0 2 2 C 4 ( 1) 2 ( 1) 2 ( 1) 0 2 2 2 2 0 4 [2 2 ( 1) 0 0 ( 1) ] ( 1) 2 [2 2 ( 1) 0 2 ( 1) ] ( 1) 2 [2 0 ( 1) 2 2 ( 1) ] ( 1) 16 8 8 0 C 0 = × × − + × × − + × × − = × × × − + × × − × − + × × × − + × × − × − + + × × × − + × × − × − = − − = ∴ = Propriedades dos determinantes 1. tA A= ; 2. Se uma linha ou coluna de A for multiplicada por uma constante k, o determinante ficará multiplicado pela constante; 3. Se A é multiplicada por uma constante k, o determinante resultante ficará multiplicado por kn; 2. Álgebra vetorial e matricial 46 nkA k A= 4. Se duas linhas ou duas colunas são trocadas de posição, então o determinante muda de sinal; 5. Se duas linhas ou duas colunas são proporcionais, então o determinante de A será igual a zero; 6. O determinante obtido deletando a i-ésima linha e j-ésima coluna de A é denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi apresentada na definição de determinante (2.9); 7. 11 1A AA −− = = ; 8. |AB| = |A|×|B|. Determinante e posto (rank) Se |A|≠0, então, A é denominada de posto completo, ou como é mais comum dizer, A é não-singular e A-1 existe. Uma condição necessária e suficiente para a existência da inversa de A é que |A|≠0. Ferreira, D.F. Estatística multivariada 47 Teorema da multiplicação Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes n x n dadas por: B C n A D E n n n ⎡ ⎤= ⎢ ⎥⎣ ⎦ Supõe-se que o determinante de A é não nulo, e se necessário for, linhas e colunas correspondentes de A devem ser trocadas para assegurar que B seja não-singular. Como o número de trocas de linhas e colunas é necessariamente par, o valor de |A| não se altera. Considere matrizes elementares, com determinante 1, dadas por: 1 0 DB− Ι⎡ ⎤⎢ ⎥− Ι⎣ ⎦ e 1B C 0 −⎡ ⎤Ι −⎢ ⎥Ι⎣ ⎦ Se A for pré e pós-multiplicada, respectivamente, por essas matrizes o resultado é: 2. Álgebra vetorial e matricial 48 1 1 1 1 1 0 B C B C DB D E 0 B C B 0B C 0 DB C E 0 E DB C0 − − − − − Ι ⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎢ ⎥− Ι Ι⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤= =⎢ ⎥⎢ ⎥ ⎢ ⎥− + −Ι⎣ ⎦ ⎣ ⎦⎣ ⎦ Então, A foi reduzida para sua forma quase-diagonal ou bloco diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma: 1 2 V 0 n V 0 V n n n ⎡ ⎤= ⎢ ⎥⎣ ⎦ então, o determinante de v é dado por: 1 2V V V= Aplicando essa regra a A transformada pela pré e pós-multiplicação por matrizes elementares, cujo determinante é igual a 1, o que não altera o valor de |A|, tem-se: 1 1 B 0 A B E DB C0 E DB C −−= = −− Observe que se A for quasi-triangular, ou seja, triangular por blocos, o determinante é o produto dos determinantes de suas sub-matrizes principais: Ferreira, D.F. Estatística multivariada 49 B C B E0 E = Agora é possível apresentar e provar o teorema da multiplicação. Se A e B são matrizes quadradas n x n, então, |AB|=|A|.|B|. Considere para isso a identidade: I A A 0 0 AB 0 I I B I B ⎡ ⎤ ⎡ ⎤ ⎡ ⎤=⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦ O produto do lado esquerdo da igualdade envolve operações elementares que não afeta o determinante. Assim, o determinante de ambos os lados é igualado e o resultado obtido é: A 0 0 AB I B I B =− − Colocando o lado direito na forma quasi-triangular por meio de trocas nas últimas n colunas o resultado obtido é dado por: ( )nA 0 AB 01I B B I= −− − 2. Álgebra vetorial e matricial 50 Usando o resultado do determinante de uma matriz triangular por blocos, têm-se: ( ) ( ) ( ) ( ) n n n 2n A B 1 AB I A B 1 1 AB A B 1 AB AB A B = − − = − − = − ∴ = ■ Infelizmente, não há teorema simples para a soma de matrizes. Decorre desse teorema que: 1 1 11 IA A 1AA 1 AA A − − −− = = = = Derivadas de vetores e matrizes As derivadas de funções envolvendo vetores e matrizes são necessárias em inúmeras aplicações na multivariada e em outras áreas. Apesar de ser possível escrever essas mesmas funções em uma forma expandida e tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975). Ferreira, D.F. Estatística multivariada 51 A seguir são apresentadas as principais regras de diferenciação vetorial e matricial. Derivadas de matrizes de funções em relação a variáveis escalares Seja A uma matriz m x n cujos elementos são funções diferenciáveis com relação a uma variável escalar x. A derivada de A em relação a x é uma matriz m x n: 11 1n m1 mn a a x xA x a a x x ∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥∂ = ⎢ ⎥∂ ⎢ ⎥∂ ∂⎢ ⎥∂ ∂⎣ ⎦ " # % # " (2.10) Seja A uma matriz m x n de funções diferenciáveis em x e B outra matriz p x q cujos elementos, também, são diferenciáveis em x. Para cada caso abaixo, são adotadas dimensões tais que as operações matriciais sejam conformáveis. ( ) A BA B ; m p, n q x x x ∂ ∂ ∂+ = + = =∂ ∂ ∂ (2.11) ( ) B AAB A B; n p x x x ∂ ∂ ∂= + =∂ ∂ ∂ (2.12) 2. Álgebra vetorial e matricial 52 ( )1 1 1AA A A ; m n, 0Ax x − − −∂ ∂= − = ≠∂ ∂ (2.13) Seja X uma matriz m x n com o elemento xij na i-ésima linha e j-ésima coluna, então, ij ij X 1 x ∂ =∂ (2.14) em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas demais posições. Se X for uma matriz diagonal n x n, logo, ii ii X 1 x ∂ =∂ (2.15) Derivadas de uma função escalar de matrizes em relação a um vetor ou matriz variável Seja g uma função escalar qualquer de uma matriz X, que pode ser por exemplo o determinante, o traço, entre outras, então, a diferenciação de g em relação a X é: Ferreira, D.F. Estatística multivariada 53 11 1n m1 mn g g x x g X g g x x ∂ ∂⎛ ⎞⎜ ⎟∂ ∂⎜ ⎟∂ ⎜ ⎟=∂ ⎜ ⎟∂ ∂⎜ ⎟⎜ ⎟∂ ∂⎝ ⎠ … # % # " (2.16) a) o traço O traço de uma matriz n x n é uma função que aparece com muita freqüência na estatística multivariada, o qual é a soma dos elementos da diagonal principal dessa matriz: ( ) n ii i 1 tr aA = = ∑ (2.17) Para as matrizes A, B e C de ordem m x n, p x q e r x s, respectivamente, o traço tem as seguintes propriedades: ( ) ( ) ( )tr tr tr , m n p qA B A B= + = = =+ (2.18) ( ) ( )tr tr , m nA A= δ =δ (2.19) ( ) ( )ttr tr , m nAA = = (2.20) ( ) ( )tr tr , m q, n pAB BA= = = (2.21) 2. Álgebra vetorial e matricial 54 ( ) [ ] ( )tr tr tr , m s, n p, q r(AB)CABC CAB= = = = = (2.22) Seja C uma matriz r x s de constantes e X uma matriz u x v de variáveis. As seguintes diretivas de derivação do traço de funções de C e X com relação aos elementos de X, resultam em matrizes de dimensão u x v: ( )tr C 0, r s X ∂ = =∂ (2.23) ( )tr X I, r s X ∂ = =∂ (2.24) ( ) ttr XC C , r v, s u X ∂ = = =∂ (2.25) ( ) ( )t ttr X CX X, r v s uC CX ∂ = = = =+∂ (2.26) Essas diretivas de derivação são invariantes as permutaçõescíclicas sofridas por transposição ou permutação dos fatores de multiplicação de matrizes. no entanto, as derivadas com relação a transposta de X resultam em transpostas das matrizes anteriores de ordem v x u. Em particular: Ferreira, D.F. Estatística multivariada 55 ( ) t t tr XC C , r v, s u X ∂ = = =∂ (2.27) ( ) ( )t t tttr X CX X , r v s uC CX ∂ = = = =+∂ (2.28) Para obter derivadas de funções elementares das matrizes algumas diretivas também são definidas. Sejam os elementos de A e B funções de X, e seja C uma matriz de constantes. Então, ( ) ( ) ( )tr tr trA B A B , m n p q X X X ∂ ∂ ∂+ = + = = =∂ ∂ ∂ (2.29) ( ) ( ) ( )trtr trAB AB AB , m q, n p X X X ∂∂ ∂= + = =∂ ∂ ∂ (2.30) ( ) ( )1 2tr trA A A , m n, 0AX X − −∂ ∂= − = ≠∂ ∂ (2.31) ( ) ( )1 1 1tr trA C A CA A , m n r s, 0AX X − − −∂ ∂= − = = = ≠∂ ∂ (2.32) A barra acima das matrizes anteriores em (2.29) a (2.32) indica que essas são consideradas constantes para fins de diferenciação. 2. Álgebra vetorial e matricial 56 b) determinante ( ) ( )tt 1X adj , u v, 0X XX XX − ∂ = = = ≠∂ (2.33) ( ) ( )t t1adjln X X , u v, 0XXX X −∂ = = = ≠∂ (2.34) Restrições da variável de diferenciação Alguns problemas estão sujeitos a maximização ou minimização com relação a uma variável que por sua vez está sujeita a restrições. Os casos especiais são àqueles em que X é simétrica. Logo X=Xt e os elementos fora da diagonal são sujeitos a: xij = xji i<j (2.35) Uma abordagem apropriada para o problema é impor restrições por meio de multiplicadores de Lagrange. Para aplicar esse método, deve-se diferenciar com relação a x não restrita a expressão da forma: ( )[ ]t1g tr U X X2+ − Ferreira, D.F. Estatística multivariada 57 em que g é uma função escalar de X, U a n x n matriz de multiplicadores de Lagrange. Logo, X deve satisfazer: ( )tg 1 0U UX 2 ∂ + =−∂ (2.36) Como também ( ) ( ) t t tt t1 1g g 0U U U U2 2X X ∂ ∂⎛ ⎞ ⎛ ⎞+ = − =− −⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠ (2.37) Somando essas expressões obtém-se a condição para o extremo restrito: tg g 0 X X ∂ ∂⎛ ⎞ ⎛ ⎞+ =⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠ (2.38) Outro caso importante de matriz X restrita é: se X é uma matriz diagonal n x n e Y uma matriz função de X, então, 11 22 nn tr(Y) tr(Y) tr(Y)tr(Y) Diag x x xX ∂ ∂ ∂∂ ⎡ ⎤= ⎢ ⎥∂ ∂ ∂∂ ⎣ ⎦ " (2.39) E se X = x Ι, então, 2. Álgebra vetorial e matricial 58 tr(Y) tr(Y) X x ∂ ∂=∂ ∂ (2.40) Regra da cadeia para funções escalares de matrizes Seja g uma função escalar de A diferenciável com relação aos elementos de A, e deixe os elementos de A ser função diferenciável de x. Então, tg g Atr x A x ∂ ⎛ ⎞∂ ∂= ⎜ ⎟∂ ∂ ∂⎝ ⎠ (2.41) Por exemplo, para |A|≠0, g=ln|A| de (2.34) tem-se: ( )t tt1g ln ln A AA Atr tr Ax x A x x− ∂ ∂ ⎛ ⎞ ⎡ ⎤∂ ∂ ∂= = =⎜ ⎟ ⎢ ⎥∂ ∂ ∂ ∂ ∂⎝ ⎠ ⎣ ⎦ (2.42) derivada de uma função de um vetor com relação a um vetor Seja um vetor z� m x 1, cujos elementos são diferenciáveis pelos elementos 1 x n do vetor [ ]t 1 2 nx x x x= "� . A derivada de Z� em relação a tx� é a matriz m x n: Ferreira, D.F. Estatística multivariada 59 t j ij z i 1, 2, ..., mz x j 1, 2, ..., nx ∂ =⎡ ⎤∂ = ⎢ ⎥∂ =∂ ⎣ ⎦ �� � (2.43) Por exemplo, de (2.26) tem-se a primeira derivada de tx Ax� � , sendo A simétrica, ( )tt tr x Axx Ax 2Ax x x ∂∂ = =∂ ∂� �� � �� � (2.44) De (2.43), a segunda derivada é representada em forma matricial por: ( )tt t t t x Ax xx Ax 2Ax 2A x x x x ∂ ∂ ∂∂ ∂= = =∂ ∂ ∂ ∂� � �� � �� � � � (2.45) Formas quadráticas Definindo A como uma matriz simétrica não nula (nxn), e o vetor t 1 2 nx [X X X ]= "� a expressão: n n 1 n t 2 ii i ij i j i 1 i 1 j i 1 Q x A x a X 2 a X X − = = = + = = +∑ ∑ ∑� � 2. Álgebra vetorial e matricial 60 é dita forma quadrática, pois só contém termos quadrados ( )2ix e de produtos ( )i jx x . Exemplo 2.5 Obtenha a expansão da forma quadrática, dado o vetor x� e a matriz A, a seguir: [ ]1 2 4 1x x x A 1 2 ⎡ ⎤= = ⎢ ⎥⎣ ⎦� [ ] [ ]1 11 2 1 2 1 2 2 2 x x4 1 Q x x 4x x x 2x x x1 2 ⎡ ⎤ ⎡ ⎤⎡ ⎤= × × = + + ×⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ 2 2 1 1 2 2Q 4x 2x x 2x∴ = + + Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um vetor x� são realizações de p variáveis aleatórias X1, X2, ..., Xp pode-se considerá-los como coordenadas de um ponto no espaço p-dimensional. A distância desse ponto 1 2 p[x x x ]" da origem pode e deve, nesse caso, ser interpretada em termos de unidades de desvio padrão. Desse modo, pode-se considerar a incerteza inerente (variabilidade) às observações. Pontos com a mesma incerteza associada são considerados de mesma distância da origem. Introduzindo agora uma fórmula geral de distância mais apropriada têm-se: Ferreira, D.F. Estatística multivariada 61 ( ) n n 1 n2 2ii i ij i j i 1 i 1 j i 1 d a x 2 a x x0,P − = = = + = +∑ ∑ ∑ (2.46) e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se: 11 12 1p 1 21 22 2p2 t 1 p p p1 p2 pp 0 d x Ax a a a xa a ax x xa a a ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥⎡ ⎤< = = ⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥ ⎣ ⎦⎢ ⎥⎣ ⎦ " "" #� � # # % # " (2.47) Verifica-se que (2.47) é uma forma quadrática, o que permite que a interprete como uma distância. A determinação, dos coeficientes da matriz A de (2.47) será apresentada oportunamente. Classificação de formas quadráticas As formas quadráticas podem ser classificadas, quanto aos resultados que produzem. Nesta seção, o interesse residirá nas formas quadráticas não negativas e nas matrizes associadas (denominadas positivas definidas). Uma condição necessária e suficiente para que A seja positiva definida (pd) é que esta possa ser fatorada por: 2. Álgebra vetorial e matricial 62 t n n n n n nA S S= e que o posto de S seja n, em que S é uma matriz triangular, denominada fator de Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky, ela é positiva definida. t t t t t t t 2 2 2 1 2 n Q x Ax x (SS )x (S x) (S x) z z Z Z Z = == = = + + + � � � � � � � � " Devido a S ter posto coluna completo, não existe x� não nulo, tal que tz S x 0= =� � � . Portanto, a forma quadrática Q é sempre positiva, como foi afirmado. Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma quadrática Q x 'Ax= � � ≥ 0, é denominada positiva semidefinida (psd). Isso se deve ao fato de que para algum vetor x� ≠ 0, a igualdade Q = 0, acontece. O algoritmo para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir. Algoritmo para obtenção do fator de Cholesky de uma matriz positiva definida 1. Dada uma matriz A (nxn), com elementos aij. Ferreira, D.F. Estatística multivariada 63 2. Obtenção da transposta do fator de Cholesky St, é dada pelo algoritmo abaixo, sendo que os elementos desta matriz não contemplados pelo método devem ser considerados iguais a zero: 1a linha: 1j11 11 1j 11 a S a S j 1 S = = > i-ésima linha: 1 2i 1 2 ii ii ri r 1 i 1 ij ij ri rj r 1ii S a 1S a S i 2 j i S S S − = − = ⎛ ⎞= −⎜ ⎟⎝ ⎠ ⎛ ⎞= −⎜ ⎟⎝ ⎠ ≥ > ∑ ∑ 3. A obtenção de S-1, inversa de S, com elementos Sij, é dada por: i 1 ii ij rj ri r 1ii ii ij 1 1S S S S i j S S para i < j S 0 − = −= = > = ∑ 4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por: 2. Álgebra vetorial e matricial 64 ( )n n2ii ri ij ri rj r i r i a S a S S i j = = = = >∑ ∑ Exemplo 2.6 Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir da matriz A, apresentada a seguir: 4 2 0 A 2 2 1 0 1 2 ⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦ Obtenção de St: Primeira linha: 11 12 13 2 0S 4 2; S 1; S 0 2 2 = = = = = = Segunda linha: [ ]12222 23 1S 2 1 1 S 1 1 0 11⎡ ⎤= − = = − × =⎣ ⎦ Terceira linha: Ferreira, D.F. Estatística multivariada 65 ( ) 122 233S 2 0 1 1⎡ ⎤= − + =⎣ ⎦ Logo, t 2 1 0 2 0 0 S 0 1 1 e S 1 1 0 0 0 1 0 1 1 ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ A matriz S-1 é obtida por: Linha 1: 11 12 131S ; S S 0 i j 2 = = = < Linha 2: 22 21 121 1 1S 1; S 1 1 ; S 0 pois i j 1 2 2 ⎛ ⎞= = = − × × = − = <⎜ ⎟⎝ ⎠ linha 3: 33 31 321 1 1 1S 1; S 1 0 1 S 1 (1 1) 1 1 2 2 2 ⎛ ⎞⎛ ⎞−= = = − × × + × = = − × × = −⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠ 2. Álgebra vetorial e matricial 66 logo, 1 1 0 0 2 1S 1 0 2 1 1 1 2 − ⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥−= ⎢ ⎥⎢ ⎥⎢ ⎥−⎢ ⎥⎢ ⎥⎣ ⎦ A matriz A-1 é obtida por: Diagonal principal: ( ) 2 2 2 11 222 2 33 2 1 1 1 3a 2 2 2 4 a 1 1 2 a 1 1 ⎛ ⎞ ⎛ ⎞ ⎛ ⎞= + − + =⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠ = + − = = = Demais elementos: 21 31 32 12 21 13 31 23 32 1 1a 1 ( 1) 1; 2 2 1 1a 1 ; a 1 ( 1) 1; 2 2 1a a 1; a a ; a a 1 2 ⎛ ⎞= × − + − × = −⎜ ⎟⎝ ⎠ = × = = × − = − = = − = = = = − Ferreira, D.F. Estatística multivariada 67 Logo, 3 1 4 2 1 1 2 1 A 1 2 1 1 1 − −⎡ ⎤⎢ ⎥= − −⎢ ⎥⎢ ⎥−⎣ ⎦ O fator de Cholesky S e sua inversa têm as seguintes propriedades: 1. SSt = A 2. S-1S = St(S-1) t = Ι 3. S-1A = S t 4. A(S-1) t = S 5. (S-1)A(S-1) t = Ι 6. (S-1) t (S-1) = A-1 2. Álgebra vetorial e matricial 68 Maximização de formas quadráticas Na estatística multivariada e em outras áreas aplicadas, é muitas vezes necessária a maximização de uma forma quadrática. Devido à forma quadrática tQ x Ax= � � poder ser feita arbitrariamente grande tomando-se os valores dos elementos de x� grandes, é necessário maximizar Q condicionada a alguma restrição no comprimento de x� . Uma conveniente alternativa é tomar uma solução normalizada de x� , ou seja, uma solução tal que x� tenha comprimento unitário. Então a maximização da forma quadrática Q pode ser transformada na maximização da razão: t t x Ax x x λ = � � � � para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada em relação a �x e igualar a zero, resolvendo o sistema obtido, como demonstrado a seguir. t tQ x Ax x x2Ax e 2x x x x ∂ ∂ ∂= = =∂ ∂ ∂� � � �� �� � � usando a regra do quociente: Ferreira, D.F. Estatística multivariada 69 t t t t 2 t t 2Ax(x x) 2(x Ax)x 2 x AxA x x (x x) x x x x ⎛ ⎞∂λ −= = − Ι⎜ ⎟∂ ⎝ ⎠� � � � � � � � �� � � � � � � igualando a zero essa derivada e dividindo-a por ( )t2 x x� � , é obtido o sistema homogêneo de equações: t t x AxA x 0 x x ⎛ ⎞− Ι =⎜ ⎟⎝ ⎠� � � �� � Desde que t t x Ax x x = λ� � � � , então para um ponto estacionário qualquer i, ( )i iA x 0− λ Ι =� � (2.48) Para que o sistema de equações em (2.48) não possua apenas a solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu determinante deve ser zero: |A-λiΙ| = 0 (2.49) A equação polinomial em λ, resultado da expansão dos termos a esquerda na equação (2.49) através do uso da definição (2.9), é chamada de equação característica de A. A i-ésima raiz da equação (λi) é denominada de valor 2. Álgebra vetorial e matricial 70 característico de A; ix� é denominado vetor característico de A associado a λi. Outras terminologias podem ser empregadas, tais como, autovalores e autovetores, ou, valores e vetores próprios, ou ainda, raiz e vetor latente. Pares de formas quadráticas É de fundamental importância na análise multivariada o problema de maximizar razão entre duas formas quadráticas: t t x Ax B 0 x Bx λ = ≠� � � � em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado anteriormente, a partir da derivada em relação a x� , igualando-a a zero, como apresentado a seguir: t t t x Bx x AxAx Bx (A B)x 0 x 2 x Bx ∂λ × = − = − λ =∂ � � � �� � � �� � � (2.50) O sistema homogêneo de equações (2.50) terá solução não trivial ( x� ≠ 0� ), se e somente se, A B 0− λ = (2.51) Ferreira, D.F. Estatística multivariada 71 Os autovalores (λ) de A em relação a B são denominados de valores próprios, raízes características, e os autovetores de vetores característicos ou próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky, por: t B BB S S= Então definindo-se tBz S x=� � e usando as propriedades do fator de Cholesky tem-se que ( )t1Bx S z−=� � . Agora, se (2.50) for pré multiplicada por 1BS− e ( )t1Bx S z−=� � for substituído na expressão, têm-se: ( ) ( ) t1 1 1 B B B t1 1 B B S A S B S z 0 S A S z 0 − − − − − ⎡ ⎤− λ =⎣ ⎦ ⎡ ⎤− λΙ =⎢ ⎥⎣ ⎦ � � � � (2.52) desde que ( )t1 1B BS B S− − = Ι A solução de (2.52) é a mesma da obtida pela maximização de uma forma quadrática, apresentada em (2.48), exceto que ( )t1Bx S Z−=� � deve ser recuperado, uma vez que Z� é obtido. Os autovalores, no entanto, são invariantes à transformação não-singular realizada. 2. Álgebra vetoriale matricial 72 Cálculo prático dos autovalores e autovetores Será apresentado aqui o método denominado “Power method” derivado por Hotelling (1936). Esse método é apropriado para problemas em que somente r autovalores de maior magnitude e os seus respectivos autovetores são necessários (r≤n). O método é iterativo, dado um vetor inicial arbitrário (0)v� . O vetor do estágio i será representado por (i)v� e o da próxima iteração será obtido por: (i 1) (i)v Av+ =� � Usualmente um vetor de elementos iguais a ±1 é usado como vetor inicial. Os vetores característicos devem ser normalizados em cada estágio, para que o critério de convergência seja verificado. Quando uma aproximação desejada para λ1 e 1x� sejam alcançados, o segundo autovalor e autovetor devem ser encontrados na matriz A2, definida por: t 2 1 1 1A A x x= − λ � � (2.53) E assim o processo é repetido até que um número r≤n de pares de autovalores e autovetores sejam obtidos. Ferreira, D.F. Estatística multivariada 73 Exemplo 2.7 aplicar o “power method” e determinar os autovalores e autovetores da matriz apresentada a seguir: 4 2 A 2 1 ⎡ ⎤= ⎢ ⎥⎣ ⎦ 1. Determinação de λ1 e 1x� O vetor (0)v� será considerado como: (0)v� = 1 1 ⎡ ⎤⎢ ⎥⎣ ⎦ Na avaliação da convergência, o autovetor em cada estágio será padronizado através da divisão pelo elemento de maior valor do mesmo. (i) (1) (0) 4 2 1 6 A 2 1 1 3v v ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦� � Normalizando (1)v� : 6(1) 6 3 1 26 1v ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦� 2. Álgebra vetorial e matricial 74 Para avaliar a convergência, os vetores (0)v� e (1)v� devem ser comparados. Será considerado, convergente se todos os elementos de (1)v� forem semelhantes aos elementos correspondentes de (0)v� , para uma precisão pré estipulada, ou seja, de 1x10-8. Neste caso, os vetores diferem consideravelmente. (ii) (2) (1) 1 2 14 2 5 v Av 2 1 2.5 ⎡ ⎤⎡ ⎤ ⎡ ⎤= = × =⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦� � , normalizando (2) 1 2 1 v ⎡ ⎤= ⎢ ⎥⎣ ⎦� Comparando-se (2)v� com (1)v� , padronizados, verifica-se que são idênticos, indicando que o critério de convergência foi alcançado. O autovetor 1x� é obtido pela normalização de (2)v� e o primeiro autovalor λ1, por t1 1 1x A xλ = � � . [ ] (2) (2)t (2)1 t 1 1 1 0,8944V 0, 4472V V 0,8944 x A x 4, 4721 2, 2361 5 0, 4472 x ⎡ ⎤= = ⎢ ⎥⎣ ⎦ ⎡ ⎤λ = = × =⎢ ⎥⎣ ⎦ � � � � � � 2. determinação de λ2 e 2x� t2 1 1 1A A x x= − λ � � = [ ] 4 2 0,8944 0 0 5 0,8944 0, 4472 2 1 0, 4472 0 0 ⎡ ⎤ ⎡ ⎤ ⎡ ⎤− × × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ Ferreira, D.F. Estatística multivariada 75 Portanto os demais autovalores e autovetores de A são nulos (λ2=0 e 2x 0=� � ). Os autovalores da matriz da forma quadrática podem servir para classificação das mesmas. Demonstra-se que se todos os autovalores da matriz A, dado tQ x Ax= � � , forem positivos e maiores que zero a matriz A é positiva definida e a forma quadrática é positiva. Se A possui autovalores positivos e nulos a matriz será psd, e a forma quadrática poderá ser nula para um vetor x 0≠� � . Os resultados apresentados até agora, a respeito de formas quadráticas, são conseqüências da expansão de matrizes simétricas em um processo denominado de decomposição espectral. A decomposição espectral de uma matriz A (nxn), simétrica, é dada por: t t t 1 1 1 2 2 2 n n nA e e e e e e= λ + λ + + λ"� � � � � � (2.54) em que λi (i=1, 2, ..., n) são os autovalores de A e ie� são os autovetores normalizados associados. Exemplo 2.8 Considere a matriz simétrica: 4 2 A 2 2 ⎡ ⎤= ⎢ ⎥⎣ ⎦ com os autovalores e autovetores normalizados, apresentados a seguir: 2. Álgebra vetorial e matricial 76 1 1 2 2 0,8507 0,5257 5, 2361 e 0,7639 e 0,5257 0,8507 −⎡ ⎤ ⎡ ⎤λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦� � Obtenha a decomposição espectral de A. t 1 1 1 3,7893 2,3417 e e 2,3417 1, 4471 ⎡ ⎤λ = ⎢ ⎥⎣ ⎦� � t 2 2 2 0, 2111 0,3416 e e 0,3416 0,5528 −⎡ ⎤λ = ⎢ ⎥−⎣ ⎦� � 4 2 3,7893 2,3417 0, 2111 0,3416 2 2 2,3417 1, 4471 0,3416 0,5528 −⎡ ⎤ ⎡ ⎤ ⎡ ⎤= +⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦ A expressão da distância como raiz quadrada de uma forma quadrática positiva definida permite que se obtenha a interpretação geométrica baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e suponha que p=2, os pontos tx� =[x1, x2] de distância constante c da origem satisfazem a: t 2 2 2 11 1 22 2 12 1 2x Ax a X a X 2a X X c= + + =� � pela decomposição espectral de A, como no exemplo 2.8, tem-se: Ferreira, D.F. Estatística multivariada 77 ( ) ( ) t t 1 1 1 2 2 2 2 2t t t 1 1 2 2 A e e e e x Ax X e X e = λ + λ ∴ = λ + λ � � � � � � � �� � Fazendo ti iy x e= � � , obtém-se: 2 2 2 1 1 2 2c y y= λ + λ que é uma elipse, pois λi>0. Verifica- se que 121 1x c e −= λ� � satisfaz ( )12 2t t 21 1 1 1x Ax c e e c−= λ λ =� � � � e 122 2x c e−= λ� � fornece a apropriada distância na direção de 2e� . Portanto, os pontos de distância c pertencem a uma elipse cujos eixos são dados pelos autovetores de A com tamanhos proporcionais ao recíproco da raiz quadrada dos autovalores. A constante de proporcionalidade é c. A situação é ilustrada na Figura 2.1. Se p>2 os pontos pertencem a uma hiperelipsóide de distância c constante da origem, cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem comprimento de i c λ . x 1 x 2 e1 e2 -0,5 cλ 1 cλ 2 -0,5 Figura 2.1. Pontos de distância c constante da origem (λ1 < λ2). 2. Álgebra vetorial e matricial 78 Matriz raiz quadrada A partir da decomposição espectral, é possível definir uma categoria de matriz, em função dos autovalores e autovetores, denominada de matriz raiz quadrada. Sendo A (nxn), uma matriz com decomposição espectral dada por n t i i i i 1 A e e = = λ∑ � � , pode-se construir uma matriz P, cujas colunas são os autovetores normalizados de A, tal que, [ ]1 2 nP e e e= "� � � , e uma matriz Λ diagonal, como os autovalores de A, tal que, Λ=diag[λi]. É fácil verificar que: t n 1 1 t t i i i 1 i A P P 1A P P e e− − = = Λ ⎛ ⎞= Λ = ⎜ ⎟λ⎝ ⎠∑ � � (2.55) Definindo, Λ1/2 como uma matriz diagonal com iλ como elemento da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada de A e é simbolizada por A1/2. 1 1 2 2 n t t i i i i 1 A e e P P = = λ = Λ∑ � � (2.56) Ferreira, D.F. Estatística multivariada 79 As suas propriedades são: 1. (A1/2)t= A1/2 (A1/2 é simétrica) 2. A1/2A1/2=A 3. ( )1 12 2 i n1 t t1 i i i 1 A e e P P − − λ= = = Λ∑ � � 4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1 em que A-1/2 = (A1/2)-1 Exemplo 2.9 Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8), usando as equações (2.55) e (2.56): 4 2 A 2 2 ⎡ ⎤= ⎢ ⎥⎣ ⎦ com autovalores e autovetores normalizados, apresentados a seguir: 2. Álgebra vetorial e matricial 80
Compartilhar