Buscar

FERREIRA (UFLA) Análise Multivariada

Prévia do material em texto

MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO 
UNIVERSIDADE FEDERAL DE LAVRAS 
DEPARTAMENTO DE CIÊNCIAS EXATAS 
 
 
 
 
 
ANÁLISE MULTIVARIADA 
 
 
 
 
Daniel Furtado Ferreira 
 
 
 
 
 
 
LAVRAS, MG 
1996 
 ii
 SUMÁRIO Pág.
1. Aspectos da análise multivariada 1
 1.1. Introdução 1
 1.2. Aplicação das técnicas multivariadas 3
 1.3. Organização de dados 5
 1.4. Distâncias 15
 1.5. Exercícios 24
 
2. Álgebra vetorial e matricial 25
 2.1. Introdução 25
 2.2. Elementos de álgebra vetorial 26
 2.3. Elementos de álgebra matricial 34
 2.4. Exercícios 82
 
3. Amostragem multivariada 89
 3.1. Introdução 89
 3.2. Geometria amostral 90
 3.3. Amostras aleatórias e esperanças do vetor de média e da 
matriz de covariância amostral. 101
 3.4. Variância generalizada 104
 3.5. Variância generalizada de variáveis generalizadas 113
 3.6. Outra generalização da variância 116
 3.7. Exercícios 117
 
 iii
4. Distribuição normal multivariada 119
 4.1. Introdução 119
 4.2. Pressuposições das análises multivariadas 120
 4.3. Densidade normal multivariada e suas propriedades 121
 4.4. Distribuição normal bivariada 125
 4.5. Distribuição amostral de X� e S 
133
 4.6. Distribuições amostral derivada da distribuição normal 
multivariada 138
 4.7. Verificando a normalidade 143
 4.8. Exercícios 169
 
5. Inferências sobre o vetor média 171
 5.1. Introdução 171
 5.2. Inferências sobre média de uma população normal 171
 5.3. Região de confiança e comparações simultâneas de 
componentes de média 177
 5.4. Inferências sobre proporções de grandes amostras 190
 5.5. Comparações pareadas 192
 5.6. Comparações de vetores de médias de duas populações 199
 5.7. Exercícios 215
 
6. Análise de variância multivariada 219
 6.1. Introdução 219
 6.2. Delineamento de classificação simples 220
 iv
 6.3. Intervalos de confiança simultâneos para o efeito de 
tratamentos 230
 6.4. Exercícios 232
 
7. Componentes principais 233
 7.1. Introdução 233
 7.2. Componentes principais populacionais 234
 7.3. Componentes principais amostrais 250
 7.4. Gráficos dos componentes principais 256
 7.5. Inferências para grandes amostras 259
 7.6. Exercícios 282
 
8. Análise de agrupamento 285
 8.1. Introdução 285
 8.2. Medidas de parecença (similaridades e dissimilaridades) 286
 8.3. Agrupamentos 296
 8.4. Exercícios 308
 
9. Análise de fatores 309
 9.1. Introdução 309
 9.2. Modelo de fatores ortogonais 310
 9.3. Estimação de cargas fatoriais 316
 9.4. Rotação fatorial 342
 9.5. Teste da falta de ajuste do modelo fatorial 346
 v
 9.6. Escores fatoriais 349
 9.7. Exercícios 354
 
10. Análise de correlação canônica 355
 10.1. Introdução 355
 10.2. Variáveis canônicas e correlação canônica populacionais 356
 10.3. Variáveis e correlações canônicas amostrais 371
 10.4. Inferências para grandes amostras 380
 10.5. Exercícios 386
11. Referencias bibliográficas 389
 Apêndices 395
 Índice remissivo 397
 
||[ ]||Aspectos da 
análise multivariada
1
 
 
1.1. Introdução 
 
 Nos trabalhos científicos, o problema de se inferir, a partir de dados 
mensurados pelo pesquisador, sobre os processos ou fenômenos físicos, 
biológicos ou sociais, que não se pode diretamente observar, é uma realidade 
constante. A pesquisa científica se constitui num processo interativo de 
aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e 
analisa dados de acordo com uma hipótese. Por outro lado, a análise destes 
mesmos dados coletados de amostragem ou experimentação geralmente sugere 
modificações da explicação do fenômeno, além disso, devido à complexidade 
destes fenômenos, o pesquisador deve coletar observações de diferentes 
variáveis. Neste contexto, a inferência estatística é realizada de acordo com o 
paradigma hipotético-dedutivo (Bock, 1975). 
 Devido aos fenômenos serem estudados a partir de dados coletados 
ou mensurados em muitas variáveis, os métodos estatísticos delineados para 
obter informações a partir destes conjuntos de informações, são denominados de 
métodos de análises multivariados. A necessidade de compreensão das relações 
1. Aspectos da análise multivariada 2
entre as diversas variáveis faz com que as análises multivariadas sejam 
complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a 
utilidade das técnicas multivariada de uma forma clara, usando exemplos 
ilustrativos e evitando o máximo de possível de cálculo. 
 Sendo assim, os objetivos gerais, para os quais a análise 
multivariada conduz são: 
a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é 
representado da maneira mais simples possível, sem sacrificar 
informações valiosas e tornando as interpretações mais simples; 
 
b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou 
variáveis similares, baseados em dados amostrais ou experimentais; 
 
c. investigação da dependência entre variáveis: estudos das relações 
estruturais entre variáveis muitas vezes é de interesse do pesquisador; 
 
d. predição: relações entre variáveis devem ser determinadas para o 
propósito de predição de uma ou mais variável com base na observação 
de outras variáveis; 
 
e. construção e teste de hipóteses. 
 
 Os modelos multivariados possuem em geral, um propósito através 
do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um 
Ferreira, D.F. Estatística multivariada 3
determinado fenômeno. No entanto a sua utilização adequada depende do bom 
conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott 
(1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que 
apesar de serem uma importante ferramenta para análise e interpretação de 
dados, não devem ser utilizados como máquinas automáticas de encher lingüiça, 
transformando massas numéricas em pacotes de fatos científicos”. 
 
1.2. Aplicação de técnicas multivariadas 
 
 As técnicas estatísticas constituem se uma parte integral da pesquisa 
científica e em particular as técnicas multivariadas tem sido regularmente aplicada 
em várias investigações científicas nas áreas de biologia, física, sociologia e 
ciências médicas. Parece, neste instante, ser apropriado descrever as situações 
em que as técnicas multivariadas têm um grande valor. 
 
 
Medicina 
 
 Nos estudos onde as reações de pacientes a um determinado 
tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico, 
as técnicas multivariadas podem ser usadas para construir uma medida de 
resposta simples ao tratamento, na qual é preservada a maior parte da informação 
da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas 
1. Aspectos da análise multivariada 4
multivariadas podem ser usadas também quando a classificação de um paciente, 
baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada. 
Neste caso, uma técnica multivariada de classificação, em que se cria uma função 
que pode ser usada para separar as pessoas doentes das não doentes, pode ser 
implementada. 
 
 
Sociologia 
 
 Em alguns estudos o inter-relacionamento e o agrupamento de 
indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade, 
número de estrangeiros nascidos e de segunda geração em determinado país é 
necessária em alguns estudos sociológicos. As técnicas de análise multivariada, 
conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada 
com esta finalidade. 
 
Biologia 
 
 Nomelhoramento de plantas é necessário, após o final de uma 
geração, selecionar aquelas plantas que serão os genitores da próxima geração. a 
seleção deve ser realizada de maneira que a próxima geração seja melhorada em 
relação à resposta média de uma série de características da geração anterior. O 
objetivo do melhorista consiste em maximizar o ganho genético em um espaço 
Ferreira, D.F. Estatística multivariada 5
mínimo de tempo. As análises multivariadas podem ser usadas para converter 
uma série de características para um índice, na qual a seleção e escolha dos pais 
possam ser feitas. 
 Em algumas situações se deseja a separação de algumas espécies, 
e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é 
construída e os seus valores são usados para esta separação. 
 
 
1.3. Organização de dados 
 
 Através deste material pretende-se tratar das análises realizadas em 
muitas características ou variáveis. Essas medidas, muitas vezes chamadas de 
dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a 
utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises 
de dados. Por outro lado, números que resumem, ou seja, que descrevem 
quantitativamente certas características, são essenciais para a interpretação de os 
dados amostrais ou experimentais. 
 
 
Arranjos 
 
 Os dados multivariados são provenientes de uma pesquisa em 
determinada área em que são selecionadas p ≥ 1 variáveis ou características para 
1. Aspectos da análise multivariada 6
serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do 
experimento. A representação destes dados é feita com a notação xjk para indicar 
um valor particular da j-ésima unidade amostral ou experimental e da k-ésima 
variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades 
amostrais ou experimentais, podem ser representadas conforme o arranjo 
apresentado na Tabela 1.1. 
 
 
Tabela 1.1. Representação de dados através da notação xjk para indicar um valor 
particular da k-ésima variável mensurada na j-ésima unidade amostral 
ou experimental. 
 Variáveis 
Unidades amostrais 
ou experimentais 
1 2 ... k ... p 
1 X11 X12... X1k... X1p 
2 X21 X22... X2k... X2p 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
j Xj1 Xj2... Xjk... Xjp 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
. 
n Xn1 Xn2... Xnk... Xnp 
 
 
Ferreira, D.F. Estatística multivariada 7
 Estes valores, apresentados na Tabela 1.1, podem ser 
representados em um arranjo retangular, denominado de X, com n linhas e p 
colunas, da seguinte forma: 
 
11 12 1 1
21 22 2 2
1 2
1 2
k p
k p
j j jk jp
n n nk np
x x x x
x x x x
X
x x x x
x x x x
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
" "
" "
# # # # # #
" "
# # # # % #
" "
 
 
Exemplo 1.1 
 Uma seleção de 4 firmas de ração de Minas Gerais foi obtida para 
avaliar a venda de rações. Cada observação bivariada forneceu a quantidade de 
sacos de ração vendidos e a quantidade de reais de cada venda. Os dados 
obtidos na forma tabular são: 
Variável 1 (Reais/venda) 80 120 90 110 
Variável 2 (número de 
sacos de ração vendidos) 
 
10 
 
12 
 
6 
 
8 
 
 Usando a notação proposta anteriormente, tem-se: 
 
X11=80 X21=120 X31=90 X41=110 X12=10 X22=12 X32=6 X42=8 
 
 E a matriz X dos dados é: 
1. Aspectos da análise multivariada 8
 
80 10
120 12
90 6
110 8
X
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
 
 A organização dos dados em arranjos facilita a exposição e permite 
que os cálculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos 
na eficiência são: (1) descrição dos cálculos como operações com matrizes e 
vetores; e (2) sua fácil implementação em computadores. 
 
ESTATÍSTICAS DESCRITIVAS 
 
 Grandes conjuntos de dados possuem um sério obstáculo para 
qualquer tentativa de extração de informações visuais pertinentes aos mesmos. 
muitas das informações contidas nos dados podem ser obtidas por cálculo de 
certos números, conhecidos como estatísticas descritivas. Por exemplo, a média 
aritmética ou média amostral, é uma estatística descritiva que fornece informação 
de posição, isto é, representa um valor central para o conjunto de dados. Como 
um outro exemplo, a média das distâncias ao quadrado de cada dado em relação 
à média, fornece uma medida de dispersão, ou variabilidade. 
 Às estatísticas descritivas que mensuram posição, variação e 
associação linear são enfatizadas. As descrições formais destas medidas estão 
apresentadas a seguir. 
 A média amostral, simbolizada por X , é dada por: 
Ferreira, D.F. Estatística multivariada 9
 
1
1 n
k jk
j
X X
n =
= ∑ k=1, 2, ..., p (1.1) 
 
 Uma medida de variação é fornecida pela variância amostral, 
definida para as n observações de i-ésima variável por: 
 
( )22
1
1
1 =
= = −− ∑
n
k kk jk k
j
S S X X
n
 k = 1, 2, ..., p (1.2) 
 
 A raiz quadrada da variância amostral, kkS , é conhecida como 
desvio padrão amostral. Esta medida de variação está na mesma unidade de 
medida das observações. 
 Uma medida de associação entre as observações de duas variáveis, 
variáveis k e k’, é dada pela covariância amostral: 
 
( )( )' ' '
1
1
1 =
= − −− ∑
n
kk jk k jk k
j
X X X X
nS k, k’=1,2, ..., p (1.3) 
 
 Se grandes valores de uma variável são observados em conjunto 
com grandes valores da outra variável, e os pequenos valores também ocorrem 
juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com 
pequenos valores da outra, Skk’ será negativa. Se não há associação entre os 
1. Aspectos da análise multivariada 10
valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a 
covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’. 
 A última estatística descritiva a ser considerada aqui é o coeficiente 
de correlação amostral. Esta medida de associação linear entre duas variáveis 
não depende da unidade de mensuração. O coeficiente de correlação amostral 
para k-ésima e k’-ésima variável, é definido por: 
 
( )( )
( ) ( )
' '
1'
'
2 2
' '
' '
1 1
=
= =
− −
= =
− −
∑
∑ ∑
n
jk k jk k
jkk
kk n n
kk k k
jk k jk k
j j
X X X X
r
X X X X
S
S S
 (1.4) 
 
 Verifica-se que rkk’=rk’k para todo k e k’. O coeficiente de correlação 
amostral é a versão estandardizada da covariância amostral, onde o produto das 
raízes das variâncias das amostras fornece a estandardização. 
 O coeficiente de correlação amostral pode ser considerado como 
uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos 
pelos valores padronizados, ( )−jk k
kk
X X
S e ' ' ' '
( )−jk k
k k
X X
S . Esses valores padronizados 
são expressos sem escalas de medidas (adimensionais), pois são centrados em 
zero e expressos em unidades de desvio padrão. O coeficiente de correlação 
amostral é justamente a covariância amostral das observações estandardizadas. 
 A correlação amostral (r), em resumo, tem as seguintes 
propriedades: 
 
Ferreira, D.F. Estatística multivariada 11
1. Os valores de r devem ficar compreendidos entre -1 e 1; 
 
2. Se r = 0, implica em inexistência de associação linear entre as variáveis. Por 
outrolado, o sinal de r, indica a direção da associação: se r < 0 há uma 
tendência de um dos valores do par ser maior que sua média, quando o outro 
for menor do que a sua média, e r > 0 indica que quando um valor do par for 
grande o outro também o será, além de ambos valores tender a serem 
pequenos juntos; 
 
3. Os valores de rkk’ não se alteram com a alteração da escala de uma das 
variáveis. 
 
 As estatísticas Skk’ e rkk’, em geral, não necessariamente refletem 
todo o conhecimento de associação entre duas variáveis. Associações não 
lineares existem, as quais, não podem ser reveladas por estas estatísticas 
descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações 
discrepantes (outliers). 
 Além destas, outras estatísticas como a soma de quadrados de 
desvios em relação à média (Wkk) e a soma de produtos de desvios (Wkk’), são 
muitas vezes de interesse. Essas estão apresentadas a seguir: 
 
 
 
1. Aspectos da análise multivariada 12
2
1
( )
=
= −∑nkk jk k
j
X XW 
 
' ' '
1
( )( )
=
= − −∑nkk jk k jk k
j
W X X X X 
 
 As estatísticas descritivas multivariadas calculadas de n observações 
em p variáveis podem ser organizadas em arranjos. 
 
Médias da amostra 
 
1
2
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
#�
p
X
X
X
X
 
 
Matriz de covariância amostral 
 
S
S S S
S S S
S S S
p
p
p p pp
=
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
11 12 1
21 22 2
1 2
"
"
# # % #
"
 
 
 
 
Ferreira, D.F. Estatística multivariada 13
Matriz de correlações amostral 
 
R
r r
r r
r r
p
p
p p
=
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎤
⎦
⎥
⎥
⎥
⎥
⎥
1
1
1
12 1
21 2
1 2
"
"
# # % #
"
 
 
Exemplo 1.2 
 Considerando os dados introduzidos no exemplo 1.1, encontrar as o 
vetor de médias X� e as matrizes S e R. Neste exemplo, cada firma de ração, 
representa uma das observações multivariadas, com p = 2 variáveis (valor da 
venda em reais e número de sacos de rações vendidas). 
 As médias amostral são: 
 
4
1 j1
j 1
1 1X X (80 120 90 110) 100
4 4=
= = + + + =∑ 
 
4
2 j2
j 1
1 1X X (10 12 6 8) 9
4 4=
= = + + + =∑ 
 
1
2
100
9
⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦�
X
X
X
 
 
 A matriz de covariância amostral é: 
1. Aspectos da análise multivariada 14
 
S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333 
 
S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667 
 
S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000 
 
S21=S12=20,000, e 
 
S = ⎡⎣⎢
⎤
⎦⎥
333 333 20 000
20 000 6 667
, ,
, ,
 
 
 A correlação amostral é: 
 
r12
20
33 333 6 667
0 424= =
, ,
, 3 
 
r21=r12=0,4243 
 
 Portanto, 
 
1,0000 0, 4243
R
0, 4243 1,0000
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
 
Ferreira, D.F. Estatística multivariada 15
 
1.4. Distâncias 
 
 A maioria das técnicas multivariadas é baseada no simples conceito 
de distância, por mais formidável que isso possa parecer. O conceito de distância 
euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um 
ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0), 
definida por d(O,P), é dada pelo teorema de Pitágoras por: 
 
d O P x x( , ) = +12 22 (1.5) 
 
 Esta situação é ilustrada na Figura 1.1. Em geral, se o ponto P tem p 
coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem 
O=(0, 0, ..., 0), pode ser generalizada por: 
 
d O P x x x p( , ) ...= + + +12 22 2 (1.6) 
 
1. Aspectos da análise multivariada 16
X1 
X2
P
d(O, P)
 
Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo 
teorema de Pitágoras. 
 
 
 Todos os pontos (x1, x2, .., xp) que contém uma distância ao 
quadrado, denominada c2, da origem, satisfaz a equação: 
 
d O P x x x cp
2
1
2
2
2 2 2( , ) ...= + + + = (1.7) 
 
 A expressão em (1.7) representa a equação de uma hiperesfera (um 
círculo se p = 2), e os pontos eqüidistantes da origem por uma distância d(O, P) 
pertencem a essa hiperesfera. A distância de um ponto P a um ponto arbitrário Q, 
com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por: 
 
( ) ( ) ( )d P Q x y x y x yp p( , ) ...= − + − + + −1 1 2 2 2 2 2 (1.8) 
 
Ferreira, D.F. Estatística multivariada 17
 A distância euclidiana é insatisfatória para muitas situações 
estatísticas. Isso ocorre devido à contribuição de cada coordenada ter o mesmo 
peso para o cálculo da distância. Quando estas coordenadas representam 
medidas são provenientes de um processo que sofre flutuações aleatórias de 
diferentes magnitudes é muitas vezes desejável ponderar as coordenadas com 
grande variabilidade por menores pesos em relação àquelas com baixa 
variabilidade. Isto sugere o uso de uma nova medida de distância. 
 Será apresentada a seguir uma distância que considera as 
diferenças de variação e a presença de correlação. Devido a escolha de a 
distância depender das variâncias e das covariâncias amostrais, a partir deste 
instante, será utilizado o termo “distância estatística” para distinguir de distância 
euclidiana. 
 A princípio, será considerada a construção de uma distância entre 
um ponto P, com p coordenadas, da origem. O argumento que pode ser usado 
refere-se ao fato de que as coordenadas de P podem variar no espaço produzindo 
diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares 
de medidas em duas variáveis (x1 e x2) e que as medidas de x1 variam 
independentemente das mensurações em x2. O significado de independente neste 
ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos 
com nenhuma acurácia a partir dos valores de x2 e vice-versa. Em adição, é 
assumido que as observações de x1 possuem maior variabilidade que as de x2. 
Uma ilustração desta situação está apresentada na Figura 1.2. 
 
1. Aspectos da análise multivariada 18
-6 -4 -2 0 2 4 6
X
2
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
 
Figura 1.2. Diagrama de dispersão, mostrando a maior variabilidade na direção de 
x1 do que na direção de x2. 
 
 Observando a Figura 1.2, verifica-se que não é surpreendente 
encontrar desvios na direção de x1 que se afastem da origem consideravelmente, 
o que não ocorre na direção de x2. Parece ser razoável, então, ponderar x2 com 
mais peso do que x1 para um mesmo valor, quando as distâncias da origem forem 
calculadas. 
Ferreira, D.F. Estatística multivariada 19
 Um modo de fazer isso é dividir cada coordenada pelo desvio padrão 
amostral. Após a divisão, têm-se as coordenadas estandardizadas 1 1 11*x x s= e 
2 2 22
*x x s= . Após eliminar as diferenças de variabilidade das variáveis 
(coordenadas), determina-se a distância usando a fórmula euclidiana padrão: 
 
d O P x x
x
S
x
S
( , ) ( ) ( )* *= + = +1 2 2 2 1
2
11
2
2
22
 (1.9) 
 
 Usando a equação (1.9) todos os pontos tendo como coordenadas 
(x1, x2) e com distância quadrada (c2) da origem devem satisfazer: 
 
1
2
11
2
2
22
2x
S
x
S
c+ =(1.10) 
 
 A expressão (1.10) é a equação de uma elipse, cujos maiores e 
menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o 
caso geral para p = 2 coordenadas. 
 
 
1. Aspectos da análise multivariada 20
O
X1
X2
cS11
0.5-cS11
0.5
cS22
0.5
-cS22
0.5
 
Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= 1
2
11
2
2
22
2x
S
x
S
c+ = . 
 
Exemplo 1.3 
 Um conjunto de pares (x1, x2) de duas variáveis forneceu 1 2X X 1= = , 
S11=9 e S22=1. Supõe-se que as observações de x1 são independentes de x2. A 
distância quadrática de um ponto arbitrário (P) da origem, uma vez que as 
variâncias da amostra não são iguais, é dada por: 
 
d O P
x x2 1
2
2
2
9 1
( , ) = + 
Ferreira, D.F. Estatística multivariada 21
 
Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1, 
satisfazem a equação: 
 
x x1
2
2
2
9 1
1+ = (1.11) 
 
 As coordenadas de alguns pontos com distância quadrática unitária 
da origem foram apresentadas na Tabela 1.2. 
 
Tabela 1.2. Coordenadas de alguns pontos com distância quadrática unitária da 
origem. 
Coordenadas (x1, x2) Distância ao quadrado 
( 0, 1) 
( 0,-1) 
( 3, 0) 
(-3, 0) 
0
9
1
1
2 2
1+ = 
0
9
1
1
2 2
1+ =−( ) 
3
9
0
1
2 2
1+ = 
( )− + =39 01
2 2
1 
 
 O gráfico da equação (1.11) é uma elipse centrada na origem (0,0), 
cujo maior eixo é o da direção de x1 e o menor da direção de x2. A metade do 
maior eixo (semi-eixo maior) é c S11 3= e do menor c S22 1= . A elipse de distância 
quadrática unitária foi plotada na Figura 1.4. 
1. Aspectos da análise multivariada 22
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5
-4
-3
-2
-1
0
1
2
3
4
5
 
x1
x2
 
Figura 1.4. Elipse de distância unitária quadrática da origem obtida a partir da 
equação 1.11. 
 
 A expressão (1.9) pode ser generalizada para o cálculo da distância 
entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente 
uma da outra. O caso mais geral, em que a hipótese de independência não é 
satisfeita, será abordado futuramente. 
 
d P Q
x y
S
x y
S
x y
S
p p
pp
( , )
( ) ( ) ( )= − + − + + −1 1
2
11
2 2
2
22
2
" (1.12) 
 
Ferreira, D.F. Estatística multivariada 23
 Todos os pontos (P) situados a uma distância quadrática constante 
de Q, pertencem a uma hiperelipsóide centrada em Q, cujos maiores e menores 
eixos são paralelos aos eixos das coordenadas. 
 O programa SAS, apresentado a seguir, contém os códigos 
necessários para a obtenção das principais estatísticas descritivas multivariadas 
apresentadas nesse capítulo. O programa contém códigos matriciais e será 
abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são 
utilizados para a ilustração. 
 
Proc IML; 
 X={ 80 10, 
 120 12, 
 90 6, 
 110 8}; 
 Print X; 
 n=nrow(X);p=ncol(X); 
 Xbar=x`*j(n,1,1)/n; 
 Print Xbar; 
 q=i(n)-(1/n)*j(n,n,1); 
 print q; 
 S=(1/(n-1))*X`*q*X; 
 W=(n-1)*S; 
 print S W; 
 V=diag(S); 
 Vroot=half(V); 
 IVroot=inv(Vroot); 
 R=Ivroot*S*Ivroot; 
 Print V Vroot IVroot; 
 Print R; 
Quit; 
 
 Foi motivado nesse capítulo o estudo das análises multivariadas e 
tentou-se fornecer alguns rudimentares, mas importantes, métodos de organizar e 
resumir os dados. Em adição, o conceito geral de distância foi apresentado, e será 
abordado e generalizado nos próximos capítulos. 
 
1. Aspectos da análise multivariada 24
1.5. Exercícios 
 
■ Considere as amostras com 8 observações e 3 variáveis apresentadas a seguir: 
x1 3 5 6 4 8 9 6 7 
x2 6 11 11 9 15 16 10 12 
x3 14 9 9 13 2 2 9 5 
 
a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3. 
Comente sobre sua aparência. 
 
b) Calcule: X , S e R e interprete os valores em R. 
 
c) Calcule a distância euclidiana dada em (1.8) de um ponto 
P=( x1, x2, x3)=(5, 12, 8) em relação a origem e em relação a X . 
 
d) Calcule as mesmas distâncias do item c, usando (1.12). 
||[ ]||
Álgebra vetorial e matricial
2
 
 
2.1. Introdução 
 
 É desejável que as p respostas multivariadas sejam representadas 
por uma notação concisa. Os dados multivariados podem ser dispostos 
convenientemente como um arranjo de números, como foi apresentado no 
capítulo 1. Em geral, um arranjo retangular destes números, com n linhas e p 
colunas, por exemplo, é chamada de matriz de dimensões n x p. Se por outro lado, 
o arranjo consiste em n mensurações em apenas 1 variável, ou ainda, de uma 
observação multivariada em p variáveis, esses arranjos são denominados de 
vetores. 
 Com esse arranjo bidimensional, não só, a notação fica mais 
concisa, mas os muitos resultados matemáticos de álgebra vetorial e matricial 
facilitam a derivação e exposição dos métodos estatísticos multivariados. Neste 
material, os elementos de álgebra vetorial e matricial, serão considerados como 
conhecidos. Nesse capítulo, no entanto, para os estudantes não familiarizados 
com o assunto, será apresentada uma breve revisão. 
 
2. Álgebra vetorial e matricial 26
 
2.2. Elementos de álgebra vetorial 
 
 De um ponto de vista geométrico, as observações multivariadas, 
podem ser consideradas como pontos no espaço p-dimensional, cujas 
coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final 
de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal 
segmento de reta é denominado de vetor de posição e pode ser denotado 
simplesmente por X� . O vetor de posições é apenas um exemplo de vetor, para os 
quais pode ser elaborada a álgebra, baseada nos seguintes postulados. 
 
POSTULADOS 
 
1. Para qualquer vetor X� dado um número escalar c, a multiplicação do escalar 
pelo vetor, resulta em outro vetor Y� , definido por: 
 
Y� = c X� 
 
c será considerado um número real; 
 
2. A adição de dois vetores conduz a um único vetor definido como: 
 
Ferreira, D.F. Estatística multivariada 27
Z� = X� + Y� 
 
3. A adição de vetores é: 
 
 Comutativa: X� + Y� = Y� + X� 
 
 Associativa: X� + ( )Y Z+� � = ( )X Y Z+ +� � � 
 
4. Se 0� é o vetor nulo, então: 
 
X� + 0� = X� 
0� . X� = 0 
 
 
COMPRIMENTO, ÂNGULO E DISTÂNCIA 
 
 Inicialmente, é definido produto interno entre dois vetores, que 
representa a soma de produtos de pares de coordenadas correspondentes. Para 
dois vetores (n x 1) de posição X� e Y� , o produto interno será o escalar, dado por: 
 
n
i i 1 1 2 2 n n
i 1
X.Y x y x y x y x y
=
= = + + +∑ "� � 
 
2. Álgebra vetorial e matricial 28
 É fácil verificar que X.Y Y.X=� � � � . Por meio, do produto interno é 
possível generalizar o teorema de Pitágoras para o espaço euclidiano 
n-dimensional: 
 
n
2 2 2 2 2 2
i 1 2 n
i 1
X X.X x x x x d (P,O)
=
= = = + + + =∑ "� � � (2.1) 
 
em que P, é o ponto do espaço n-dimensional, definido pelas coordenadas do 
vetor X� . A expressão (2.1) é o comprimento ao quadrado do vetor X� . A 
expressão entre módulo | X� | indica a norma de X� . 
 Dessa forma o comprimento do vetor é definido por: 
 
X X.X=� � � (2.2) 
 
 O ângulo θ entredois vetores ( X� e Y� ) pode ser expresso em função 
do produto interno e do comprimento dos vetores, obtido através da lei dos 
cosenos, por: 
 
( ) X.YCos
X.X Y.Y
θ = � �
� � � �
 (2.3) 
 
 As distâncias apresentadas no capítulo 1, entre os pontos 
coordenados dos vetores X� e Y� , podem ser expressos agora como o 
Ferreira, D.F. Estatística multivariada 29
comprimento do vetor diferença das coordenadas de X� e Y� . A distância entre X� 
e Y� é: 
 
d(X, Y) X Y (X Y).(X Y)= − = − −� � � � � � � � (2.4) 
 
 Além de ser não negativa, essa distância entre os dois vetores é 
independente da direção das medidas e satisfaz a desigualdade triangular: 
 
d( X� , Y� ) ≤ d( X� , Z� ) + d( Y� , Z� ) (2.5) 
 
 Derivada a partir da desigualdade de Cauchy-Schwars: 
 
a.b� � ≤ a . b� � (2.6) 
 
 O que implica, no fato, que o valor do co-seno do ângulo entre a� e b� 
não pode exceder a unidade. 
 
ORTOGONALIDADE 
 
 Dois vetores não nulos são denominados ortogonais, se o co-seno 
do ângulo entre eles for zero. Isto indica que: 
 
2. Álgebra vetorial e matricial 30
X.Y� � = 0 (2.7) 
 
 Muitas vezes é desejável (em sistemas de equações lineares) 
construir uma base ortonormal de vetores, isto é, cada vetor da base possui 
comprimento unitário ( )i iX .X 1=� � e cada par de vetor da base são ortogonais 
( )i jX .X 0, i j= ≠� � . Para um conjunto de vetores arbitrários pode-se empregar a 
“construção de Gram-Schimidt”. O algoritmo está apresentado a seguir, 
considerando o conjunto 1 2 nX , X , ..., X� � � de vetores: 
 
Passo 1: normalize 1X� : 
1
1 1 1
1 1
XX ; X .X 0
X .X
∗ = ≠�� � �� �
 
 
Passo 2: Ortonormalize 2X� calculando o produto interno entre 
*
1X� e 2X� , e 
subtraindo de 2X� os componentes de 
*
1X� : 
 
Ortogonalizando 1X� e 2X� : 
 
( )* *2 2 2 1 1X X X .X X⊥ = −� � � � � 
 
Então, normalizando-se 2X
⊥
� : 
 
Ferreira, D.F. Estatística multivariada 31
*
2 2 2 2
2 2
1X X ; X .X 0
X .X
⊥ ⊥ ⊥
⊥ ⊥= ≠� � � �
� �
 
 
Passo 3: Calcule o produto interno de 3X� com 
*
1X� e 
*
2X� , e subtraia de 3X� os 
componentes de *1X� e 
*
2X� , 
 
( ) ( )* * * *3 3 3 1 1 3 2 2X X X .X X X .X X⊥ = − −� � � � � � � � 
 
Então, normalizando-se 3X
⊥
� : 
 
*
3 3 3 3
3 3
1X X ; X .X 0
X .X
⊥ ⊥ ⊥
⊥ ⊥= ≠� � � �
� �
 
 
 E assim por diante, até o n-ésimo estágio, quando todos os vetores 
entrarem na construção. Se o i-ésimo vetor for linearmente dependente dos 
vetores anteriores, então iX
⊥
� será igual ao vetor nulo, iX 0
⊥ =� � , devendo ser 
eliminado do conjunto e o processo deve continuar com o vetor i 1X +� . O número de 
vetores não nulos remanescentes no conjunto, constituem a dimensão do espaço 
vetorial original. 
 
 
2. Álgebra vetorial e matricial 32
Exemplo 2.1 
Dado o conjunto de vetores, a seguir, utilizar como ilustração a construção de 
Gram-Schimidt. 
 
1 1 0
1 1 0
X
1 0 1
1 0 1
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
 
 
 Os vetores de X são dados por: 
 
X = [ 1X� 2X� 3X� ] 
 
Passo 1. Normalize 1X� : 
 
*
1
1
11X
12
1
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
� 
 
Passo 2: Ortonormalize 2X� : 
 
Produto interno: 2X� .
*
1X� = 1 
 
Ferreira, D.F. Estatística multivariada 33
ortogonalização: 2
1 1 1
1 1 11 1X 1.
0 1 12 2
0 1 1
⊥
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦
� 
 
Normalização: *2
1 1
1 11 1 1X .
1 11 2 2
1 1
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦
� 
 
Passo 3: Ortonormalização de 3X� 
 
Produto interno: *3 1X .X 1=� � e 
*
3 2X .X 1= −� � 
 
ortogonalização: 
1 1
2 2
1 1
2 2
3 1 1
2 2
1 1
2 2
00 1 1 0
00 1 1 01 1X 1. ( 1).
11 1 1 02 2
11 1 1 0
⊥
− +⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− +⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − − − = =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −− ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −− ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦
� 
 
 Verifica-se neste passo que 3X� é linearmente dependente dos 
vetores 1X� e 2X� , e deve ser eliminado da base vetorial. É fácil verificar que 
3 1 2X X X= −� � � . Agrupando os vetores linearmente independentes ortonormalizados 
obtém-se a base vetorial de Gram-Schimidt. 
 
2. Álgebra vetorial e matricial 34
1 1
2 2
1 1
2 2
2 1 1
2 2
1 1
2 2
X
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥−⎢ ⎥−⎢ ⎥⎣ ⎦
 
 
 Pode ser observar facilmente que o produto interno dos vetores em 
X2, é igual a zero. 
 Um importante tipo de matriz inversa, denominado de inversa de Moore-
Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual 
se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de 
dimensão qualquer nxp e seja U a base ortonormal de vetores obtida da 
ortonormalização das colunas de A, então, defini-se T por: 
 
T=U’A 
 
 Logo, a inversa generalizada de Moore-Penrose (A+) é definida por: 
 
A+ = T’(TT’)-1U’. 
 
2.3. Elementos de álgebra matricial 
 
 Na álgebra matricial as relações e operações são definidas através 
de operações em arranjos retangulares dos elementos, denominados de matrizes. 
Um exemplo de matriz é: 
Ferreira, D.F. Estatística multivariada 35
 
11 12 1p
21 22 2p
n x p
n1 n2 np
a a a
a a aA
a a a
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
"
"
# # % #
"
 
 
 O número de linhas de uma matriz é denominado de ordem de linha 
e o número de colunas, ordem de colunas. Se o número de linhas é n e o número 
de colunas é p, diz-se que a matriz possui ordem nxp. Pode-se representar a 
matriz por: 
 
A=[aij] i=1, 2,..., n j=1, 2, ..., p (2.8) 
 
 Nas análises multivariadas, muitas vezes, será feito referências a 
matriz de dados, a qual consiste de p respostas de n observações ou unidades 
experimentais, e terá ordem nxp. 
 
POSTULADOS 
 
1. Igualdade: Duas matrizes necessariamente com o mesmo número de linhas e 
colunas são iguais, se e somente se os elementos correspondentes, forem 
iguais: 
 
 A=B ⇔ aij=bij i=1, 2, ..., n e j=1, 2, ..., p 
2. Álgebra vetorial e matricial 36
 
2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos 
elementos correspondentes: 
 
 A+B = [ aij] + [bij] = [aij + bij] 
 
 A adição com matriz nula 0, contendo elementos iguais a zero é: 
 
 nAp + n0p = nAp 
 
3. Multiplicação por escalar: o produto de um escalar e uma matriz é obtido pela 
multiplicação de cada elemento da matriz pelo número escalar: 
 
 cA = c[ aij] = [ caij] 
 
4. Multiplicação de matriz: a multiplicação de matrizes é definida para aquelas em 
que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator 
que pós multiplica. Tais matrizes são denominadas conformáveis para 
multiplicação. O elemento (i, k) da matriz resultante do produto é a soma dos 
produtos dos elementos correspondentes, da i-ésima linha do fator que pré 
multiplica com os da k-ésima coluna do fator que pós multiplica. 
 
 nAq qBp = AB = 
q
ij jk
j 1
a b
=
⎡ ⎤⎢ ⎥⎣ ⎦∑ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = CFerreira, D.F. Estatística multivariada 37
 
 Em geral AB ≠ BA. 
 
 A matriz quadrada com unidades na diagonal e zero nas demais 
partes é denominada de matriz unitária ou identidade: 
 
1 0 0
0 1 0
0 0 1
⎡ ⎤⎢ ⎥⎢ ⎥Ι = ⎢ ⎥⎢ ⎥⎣ ⎦
"
"
# # % #
"
 
 
 Verifica-se que: 
 
 nAp pΙp = nAp 
 
 nΙn nAp = nAp 
 
 A matriz quadrada cujos elementos fora da diagonal principal são 
iguais a zero é denominada matriz diagonal: 
 
 D = diag[d1, d2, ..., dn] = 
1
2
n
d 0 0
0 d 0
0 0 d
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
"
"
# # % #
"
 
 
2. Álgebra vetorial e matricial 38
 A pré-multiplicação por uma matriz diagonal, simplesmente re-escala 
as linhas do fator que pós multiplica, e a pós-multiplicação re-escala as colunas do 
pré-fator. 
 
5. Inversão de matriz: a inversa de uma matriz quadrada A, nxn, é chamada de A-1 
e é definida de tal forma que A A-1 = A-1 A = Ι. 
 
 A inversa de um produto de matrizes é o produto do inverso dos fatores em 
ordem inversa a ordem de multiplicação original: 
 
 (AB)-1 = B-1A-1 
 
 Pois, B-1A-1AB = B-1B = Ι e AB B-1A-1 = AA-1 = Ι 
 
6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de 
uma matriz específica é denominada de matriz transposta. É denotada por A’. 
 
 nAP = [aij], então, pA’n = [aij]’ = [aji] 
 
 (A + B)’ = A’ + B’ 
 
 (AB)’ = B’A’ 
 
Ferreira, D.F. Estatística multivariada 39
 (A-1)’ = (A’)-1 
 
7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada 
das restantes s=m-r linhas, e as p colunas particionadas das remanescentes 
q = n - p colunas. Então, A pode ser representada por submatrizes, como a 
seguir: 
 
11 12
21 22
A A r
A
A A s
p q
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
 
 Seja B uma matriz particionada de forma similar e sejam A e B tais 
que suas partições sejam conformáveis para adição, logo, 
 
11 11 12 12
21 21 22 22
A B A B r
A B
A B A B s
p q
+ +⎡ ⎤+ = ⎢ ⎥+ +⎣ ⎦ 
 Suponha agora que B seja particionada em p e q linhas e em t e u 
colunas. Então, é possível verificar que: 
 
2. Álgebra vetorial e matricial 40
11 12 11 12
21 22 21 22
11 11 12 21 11 12 12 22
21 11 22 21 21 12 22 22
A A B Br p
AB
A A B Bs q
p q t u
A B A B A B A B r
A B A B A B A B s
t u
⎡ ⎤ ⎡ ⎤= ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
+ +⎡ ⎤= ⎢ ⎥+ +⎣ ⎦
 
 Ainda é possível verificar que: 
 
( ) ( )
( ) ( )
1 1 11 1 1 11 1
1 111 1
A A B CA A Bp A B p D CA B D CA B
q C D q CAD CA B D CA B
p q p q
− − −− − − −− −
− −−− −
⎡ ⎤+ −⎡ ⎤ − −= ⎢ ⎥⎢ ⎥ −⎣ ⎦ ⎢ ⎥− −⎣ ⎦ 
 
 
Método prático para cálculo de matrizes inversas 
 
 As rotinas para computadores usualmente fazem uso da versão 
compacta do método de Gauss, denominado de método de Gauss-Jordan 
(Householder, 1953, 1964). 
 Os cálculos do método de Gauss-Jordan são recursivos, sendo que 
os elementos da matriz no estágio i+1 são trocados pelos resultados da chamada 
operação pivotante dos elementos do estágio i, por: 
 
( ) ( )
( ) ( )
( )
i i
kj ji 1 i
k k i
jj
a a
a a k e j
a
+ ×= − ≠AA A A 
 
Ferreira, D.F. Estatística multivariada 41
( )
( )
( )
i
ji 1
j i
jj
a
a j
a
+ = ≠AA A 
 
( )
( )
( )
i
kji 1
kj i
jj
a
a k j
a
+ = − ≠ 
 
( )
( )
i 1
jj i
jj
1a
a
+ = 
 
 O elemento ( )ijja é chamado de pivô, e sua linha e coluna são 
chamados de linha e coluna pivotais. Após n operações pivotantes, a matriz 
original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja 
pivotada somente uma vez. 
 
Exemplo 2.2 
 Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir: 
 
( )0 4 2A
2 2
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
 
Passo 1. Um bom compromisso com a precisão é pivotar a linha e coluna cujo 
elemento da diagonal seja o maior de todos os não pivotados. Assim o 
2. Álgebra vetorial e matricial 42
elemento escolhido para pivô é o elemento a11=4. A matriz após a 
primeira ação pivotante é: 
 
( )
1 1
4 21
1
2
1 2
4 4A
12 2 22
4 4
−
⎡ ⎤⎢ ⎥ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥− ×⎢ ⎥ ⎣ ⎦−⎢ ⎥⎣ ⎦
 
 
Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô 
é a22=1, e a matriz resultante da operação pivotante é: 
 
( )
( )1 1 12 2 2
1
2
1 11
2 24 1 12
11 21 1
1 11A
1 1 22
− −
−
⎡ ⎤ − −− ⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎣ ⎦⎣ ⎦⎣ ⎦
 
 
 Ao final da operação pivotante, a matriz resultante, A(2), é a matriz 
inversa de A. 
 
Matrizes ortogonais 
 
 Classes especiais de matrizes, que serão utilizadas rotineiramente 
nas técnicas multivariadas, são denominadas de matrizes ortogonais, sendo 
simbolizadas em geral por Q e caracterizada por: 
 
Ferreira, D.F. Estatística multivariada 43
QtQ = QQt = Ι ou Qt = Q-1 
 
 O nome deriva da propriedade de que se Q tem i-ésima linha tiq , 
então, se QQt = Ι implica que ti iq q 1= e ti jq q 0= para i≠j, sendo que as linhas 
possuem tamanho unitário e são mutuamente ortogonais (perpendiculares). De 
acordo com a condição de que QtQ = Ι, as colunas têm a mesma propriedade. 
 
Exemplo 2.3 
Dado a matriz Q, a seguir, verifique sua ortogonalidade: 
 
1 1
2 2
1 1
2 2
Q
⎡ ⎤= ⎢ ⎥−⎢ ⎥⎣ ⎦
 
 
 A transposta de Q é dada por: 
 
1 1
2 2t
1 1
2 2
Q
−⎡ ⎤= ⎢ ⎥⎢ ⎥⎣ ⎦
 
 
então, 
 
1 1 1 1
2 2 2 2t
1 1 1 1
2 2 2 2
2 0 1 01QQ
0 2 0 12
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
 
2. Álgebra vetorial e matricial 44
 
e, 
1 1 1 1
2 2 2 2t
1 1 1 1
2 2 2 2
2 0 1 01Q Q
0 2 0 12
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
 
 
sendo, QtQ = QQt = Ι ou Qt = Q-1, verificou-se que Q é ortogonal. 
 
 
Determinantes 
 
 Uma função escalar importante de uma matriz A quadrada nxn, é o 
determinante da mesma. O determinante da matriz A é simbolizado por |A| e é 
definido por: 
 
( )
11
n
i j
ij ij
j 1
A a se n 1
A a A 1 se n 1+
=
= =
= − >∑ (2.9) 
em que Aij é a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-ésima linha e a 
j-ésima coluna de A, para qualquer escolha arbitrária de i=1, 2, ..., n. 
 
 
Exemplo 2.4 
Para ilustrar a definição (2.9), serão consideradas as seguintes matrizes: 
Ferreira, D.F. Estatística multivariada 45
 
4 2 2
4 1
A [4] B C 2 2 0
1 2
2 0 2
⎡ ⎤⎡ ⎤ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎣ ⎦
 
A 4= ; 
2 3B 4 2 ( 1) 1 1 ( 1) 4.2.1 1 1 1 7= × × − + × × − = − × × = ; 
2 3 4
2 3 2 2 3 3
2 3 4
2 0 2 0 2 2
C 4 ( 1) 2 ( 1) 2 ( 1)
0 2 2 2 2 0
4 [2 2 ( 1) 0 0 ( 1) ] ( 1) 2 [2 2 ( 1) 0 2 ( 1) ] ( 1)
2 [2 0 ( 1) 2 2 ( 1) ] ( 1) 16 8 8 0
C 0
= × × − + × × − + × × −
= × × × − + × × − × − + × × × − + × × − × − +
+ × × × − + × × − × − = − − =
∴ =
 
 
Propriedades dos determinantes 
 
1. tA A= ; 
 
2. Se uma linha ou coluna de A for multiplicada por uma constante k, o 
determinante ficará multiplicado pela constante; 
 
3. Se A é multiplicada por uma constante k, o determinante resultante ficará 
multiplicado por kn; 
 
2. Álgebra vetorial e matricial 46
 nkA k A= 
 
4. Se duas linhas ou duas colunas são trocadas de posição, então o determinante 
muda de sinal; 
 
5. Se duas linhas ou duas colunas são proporcionais, então o determinante de A 
será igual a zero; 
 
6. O determinante obtido deletando a i-ésima linha e j-ésima coluna de A é 
denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi 
apresentada na definição de determinante (2.9); 
 
7. 11 1A AA
−− = = ; 
 
8. |AB| = |A|×|B|. 
 
Determinante e posto (rank) 
 
 Se |A|≠0, então, A é denominada de posto completo, ou como é mais 
comum dizer, A é não-singular e A-1 existe. Uma condição necessária e suficiente 
para a existência da inversa de A é que |A|≠0. 
 
Ferreira, D.F. Estatística multivariada 47
Teorema da multiplicação 
 
 Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes 
n x n dadas por: 
 
B C n
A
D E n
n n
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
 
 Supõe-se que o determinante de A é não nulo, e se necessário for, 
linhas e colunas correspondentes de A devem ser trocadas para assegurar que B 
seja não-singular. Como o número de trocas de linhas e colunas é 
necessariamente par, o valor de |A| não se altera. Considere matrizes 
elementares, com determinante 1, dadas por: 
 
1
0
DB−
Ι⎡ ⎤⎢ ⎥− Ι⎣ ⎦ e 
1B C
0
−⎡ ⎤Ι −⎢ ⎥Ι⎣ ⎦
 
 
 Se A for pré e pós-multiplicada, respectivamente, por essas matrizes 
o resultado é: 
 
2. Álgebra vetorial e matricial 48
1
1
1
1 1
0 B C B C
DB D E 0
B C B 0B C
0 DB C E 0 E DB C0
−
−
−
− −
Ι ⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎢ ⎥− Ι Ι⎣ ⎦ ⎣ ⎦ ⎣ ⎦
⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤= =⎢ ⎥⎢ ⎥ ⎢ ⎥− + −Ι⎣ ⎦ ⎣ ⎦⎣ ⎦
 
 
 Então, A foi reduzida para sua forma quase-diagonal ou bloco 
diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma: 
 
1
2
V 0 n
V
0 V n
n n
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
então, o determinante de v é dado por: 
 
1 2V V V= 
 
 Aplicando essa regra a A transformada pela pré e pós-multiplicação por 
matrizes elementares, cujo determinante é igual a 1, o que não altera o valor de 
|A|, tem-se: 
 
1
1
B 0
A B E DB C0 E DB C
−−= = −− 
 
 Observe que se A for quasi-triangular, ou seja, triangular por blocos, 
o determinante é o produto dos determinantes de suas sub-matrizes principais: 
Ferreira, D.F. Estatística multivariada 49
 
B C
B E0 E
= 
 
 Agora é possível apresentar e provar o teorema da multiplicação. Se 
A e B são matrizes quadradas n x n, então, |AB|=|A|.|B|. Considere para isso a 
identidade: 
 
I A A 0 0 AB
0 I I B I B
⎡ ⎤ ⎡ ⎤ ⎡ ⎤=⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦ 
 O produto do lado esquerdo da igualdade envolve operações 
elementares que não afeta o determinante. Assim, o determinante de ambos os 
lados é igualado e o resultado obtido é: 
 
A 0 0 AB
I B I B
=− − 
 
 Colocando o lado direito na forma quasi-triangular por meio de trocas 
nas últimas n colunas o resultado obtido é dado por: 
 
( )nA 0 AB 01I B B I= −− − 
 
2. Álgebra vetorial e matricial 50
 Usando o resultado do determinante de uma matriz triangular por 
blocos, têm-se: 
 
( )
( ) ( )
( )
n
n n
2n
A B 1 AB I
A B 1 1 AB
A B 1 AB
AB A B
= − −
= − −
= −
∴ =
 
 ■ 
 
 Infelizmente, não há teorema simples para a soma de matrizes. 
Decorre desse teorema que: 
1
1
11
IA A
1AA
1
AA
A
−
−
−−
=
=
= =
 
 
Derivadas de vetores e matrizes 
 
 As derivadas de funções envolvendo vetores e matrizes são 
necessárias em inúmeras aplicações na multivariada e em outras áreas. Apesar 
de ser possível escrever essas mesmas funções em uma forma expandida e 
tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é 
vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975). 
Ferreira, D.F. Estatística multivariada 51
A seguir são apresentadas as principais regras de diferenciação vetorial e 
matricial. 
 
Derivadas de matrizes de funções em relação 
a variáveis escalares 
 
 Seja A uma matriz m x n cujos elementos são funções diferenciáveis 
com relação a uma variável escalar x. A derivada de A em relação a x é uma 
matriz m x n: 
 
11 1n
m1 mn
a a
x xA
x
a a
x x
∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥∂ = ⎢ ⎥∂ ⎢ ⎥∂ ∂⎢ ⎥∂ ∂⎣ ⎦
"
# % #
"
 (2.10) 
 
 Seja A uma matriz m x n de funções diferenciáveis em x e B outra 
matriz p x q cujos elementos, também, são diferenciáveis em x. Para cada caso 
abaixo, são adotadas dimensões tais que as operações matriciais sejam 
conformáveis. 
 
( ) A BA B ; m p, n q
x x x
∂ ∂ ∂+ = + = =∂ ∂ ∂ (2.11) 
 
( ) B AAB A B; n p
x x x
∂ ∂ ∂= + =∂ ∂ ∂ (2.12) 
2. Álgebra vetorial e matricial 52
 
( )1 1 1AA A A ; m n, 0Ax x
− − −∂ ∂= − = ≠∂ ∂ (2.13) 
 
 Seja X uma matriz m x n com o elemento xij na i-ésima linha e 
j-ésima coluna, então, 
 
ij
ij
X 1
x
∂ =∂ (2.14) 
em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas 
demais posições. Se X for uma matriz diagonal n x n, logo, 
 
ii
ii
X 1
x
∂ =∂ (2.15) 
 
Derivadas de uma função escalar de matrizes em 
relação a um vetor ou matriz variável 
 
 Seja g uma função escalar qualquer de uma matriz X, que pode ser por 
exemplo o determinante, o traço, entre outras, então, a diferenciação de g em 
relação a X é: 
 
Ferreira, D.F. Estatística multivariada 53
11 1n
m1 mn
g g
x x
g
X
g g
x x
∂ ∂⎛ ⎞⎜ ⎟∂ ∂⎜ ⎟∂ ⎜ ⎟=∂ ⎜ ⎟∂ ∂⎜ ⎟⎜ ⎟∂ ∂⎝ ⎠
…
# % #
"
 (2.16) 
 
a) o traço 
 
 O traço de uma matriz n x n é uma função que aparece com muita 
freqüência na estatística multivariada, o qual é a soma dos elementos da diagonal 
principal dessa matriz: 
 
( ) n ii
i 1
tr aA
=
= ∑ (2.17) 
 
 Para as matrizes A, B e C de ordem m x n, p x q e r x s, 
respectivamente, o traço tem as seguintes propriedades: 
 
( ) ( ) ( )tr tr tr , m n p qA B A B= + = = =+ (2.18) 
 
( ) ( )tr tr , m nA A= δ =δ (2.19) 
 
( ) ( )ttr tr , m nAA = = (2.20) 
 
( ) ( )tr tr , m q, n pAB BA= = = (2.21) 
2. Álgebra vetorial e matricial 54
 
( ) [ ] ( )tr tr tr , m s, n p, q r(AB)CABC CAB= = = = = (2.22) 
 
 Seja C uma matriz r x s de constantes e X uma matriz u x v de 
variáveis. As seguintes diretivas de derivação do traço de funções de C e X com 
relação aos elementos de X, resultam em matrizes de dimensão u x v: 
 
( )tr C 0, r s
X
∂ = =∂ (2.23) 
 
( )tr X I, r s
X
∂ = =∂ (2.24) 
 
( ) ttr XC C , r v, s u
X
∂ = = =∂ (2.25) 
 
( ) ( )t ttr X CX X, r v s uC CX
∂ = = = =+∂ (2.26) 
 
 Essas diretivas de derivação são invariantes as permutaçõescíclicas 
sofridas por transposição ou permutação dos fatores de multiplicação de matrizes. 
no entanto, as derivadas com relação a transposta de X resultam em transpostas 
das matrizes anteriores de ordem v x u. Em particular: 
 
Ferreira, D.F. Estatística multivariada 55
( ) t
t
tr XC C , r v, s u
X
∂ = = =∂ (2.27) 
 
( ) ( )t t tttr X CX X , r v s uC CX
∂ = = = =+∂ (2.28) 
 
 Para obter derivadas de funções elementares das matrizes algumas 
diretivas também são definidas. Sejam os elementos de A e B funções de X, e 
seja C uma matriz de constantes. Então, 
 
( ) ( ) ( )tr tr trA B A B , m n p q
X X X
∂ ∂ ∂+ = + = = =∂ ∂ ∂ (2.29) 
 
( ) ( ) ( )trtr trAB AB AB , m q, n p
X X X
∂∂ ∂= + = =∂ ∂ ∂ (2.30) 
 
( ) ( )1 2tr trA A A , m n, 0AX X
− −∂ ∂= − = ≠∂ ∂ (2.31) 
 
( ) ( )1 1 1tr trA C A CA A , m n r s, 0AX X
− − −∂ ∂= − = = = ≠∂ ∂ (2.32) 
 
 A barra acima das matrizes anteriores em (2.29) a (2.32) indica que 
essas são consideradas constantes para fins de diferenciação. 
 
 
2. Álgebra vetorial e matricial 56
b) determinante 
 
( ) ( )tt 1X adj , u v, 0X XX XX −
∂ = = = ≠∂ (2.33) 
 
 ( ) ( )t t1adjln X X , u v, 0XXX X
−∂ = = = ≠∂ (2.34) 
 
Restrições da variável de diferenciação 
 
 Alguns problemas estão sujeitos a maximização ou minimização com 
relação a uma variável que por sua vez está sujeita a restrições. Os casos 
especiais são àqueles em que X é simétrica. Logo X=Xt e os elementos fora da 
diagonal são sujeitos a: 
 
xij = xji i<j (2.35) 
 
 Uma abordagem apropriada para o problema é impor restrições por 
meio de multiplicadores de Lagrange. Para aplicar esse método, deve-se 
diferenciar com relação a x não restrita a expressão da forma: 
 
( )[ ]t1g tr U X X2+ − 
 
Ferreira, D.F. Estatística multivariada 57
em que g é uma função escalar de X, U a n x n matriz de multiplicadores de 
Lagrange. Logo, X deve satisfazer: 
 
( )tg 1 0U UX 2
∂ + =−∂ (2.36) 
 
 Como também 
 
( ) ( )
t t
tt t1 1g g 0U U U U2 2X X
∂ ∂⎛ ⎞ ⎛ ⎞+ = − =− −⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠ (2.37) 
 
 Somando essas expressões obtém-se a condição para o extremo 
restrito: 
 
tg g 0
X X
∂ ∂⎛ ⎞ ⎛ ⎞+ =⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠ (2.38) 
 
 Outro caso importante de matriz X restrita é: se X é uma matriz 
diagonal n x n e Y uma matriz função de X, então, 
 
11 22 nn
tr(Y) tr(Y) tr(Y)tr(Y) Diag
x x xX
∂ ∂ ∂∂ ⎡ ⎤= ⎢ ⎥∂ ∂ ∂∂ ⎣ ⎦
" (2.39) 
 
 E se X = x Ι, então, 
2. Álgebra vetorial e matricial 58
 
tr(Y) tr(Y)
X x
∂ ∂=∂ ∂ (2.40) 
 
Regra da cadeia para funções escalares de matrizes 
 
 Seja g uma função escalar de A diferenciável com relação aos 
elementos de A, e deixe os elementos de A ser função diferenciável de x. Então, 
 
tg g Atr
x A x
∂ ⎛ ⎞∂ ∂= ⎜ ⎟∂ ∂ ∂⎝ ⎠ (2.41) 
 
 Por exemplo, para |A|≠0, g=ln|A| de (2.34) tem-se: 
 
( )t tt1g ln ln A AA Atr tr Ax x A x x−
∂ ∂ ⎛ ⎞ ⎡ ⎤∂ ∂ ∂= = =⎜ ⎟ ⎢ ⎥∂ ∂ ∂ ∂ ∂⎝ ⎠ ⎣ ⎦ (2.42) 
 
derivada de uma função de um vetor com 
relação a um vetor 
 
 Seja um vetor z� m x 1, cujos elementos são diferenciáveis pelos 
elementos 1 x n do vetor [ ]t 1 2 nx x x x= "� . A derivada de Z� em relação a tx� é 
a matriz m x n: 
 
Ferreira, D.F. Estatística multivariada 59
t
j ij
z i 1, 2, ..., mz
x j 1, 2, ..., nx
∂ =⎡ ⎤∂ = ⎢ ⎥∂ =∂ ⎣ ⎦
��
�
 (2.43) 
 
 Por exemplo, de (2.26) tem-se a primeira derivada de tx Ax� � , sendo A 
simétrica, 
 
( )tt tr x Axx Ax 2Ax
x x
∂∂ = =∂ ∂� �� � �� �
 (2.44) 
 
 De (2.43), a segunda derivada é representada em forma matricial 
por: 
 
( )tt
t t t
x Ax xx Ax 2Ax 2A
x x x x
∂ ∂ ∂∂ ∂= = =∂ ∂ ∂ ∂� � �� � �� � � �
 (2.45) 
 
Formas quadráticas 
 
 Definindo A como uma matriz simétrica não nula (nxn), e o vetor 
t
1 2 nx [X X X ]= "� a expressão: 
 
n n 1 n
t 2
ii i ij i j
i 1 i 1 j i 1
Q x A x a X 2 a X X
−
= = = +
= = +∑ ∑ ∑� � 
2. Álgebra vetorial e matricial 60
é dita forma quadrática, pois só contém termos quadrados ( )2ix e de produtos 
( )i jx x . 
 
Exemplo 2.5 
Obtenha a expansão da forma quadrática, dado o vetor x� e a matriz A, a seguir: 
 
[ ]1 2 4 1x x x A 1 2
⎡ ⎤= = ⎢ ⎥⎣ ⎦� 
 
[ ] [ ]1 11 2 1 2 1 2
2 2
x x4 1
Q x x 4x x x 2x
x x1 2
⎡ ⎤ ⎡ ⎤⎡ ⎤= × × = + + ×⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
 
 
2 2
1 1 2 2Q 4x 2x x 2x∴ = + + 
 
 Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um 
vetor x� são realizações de p variáveis aleatórias X1, X2, ..., Xp pode-se 
considerá-los como coordenadas de um ponto no espaço p-dimensional. A 
distância desse ponto 1 2 p[x x x ]" da origem pode e deve, nesse caso, ser 
interpretada em termos de unidades de desvio padrão. Desse modo, pode-se 
considerar a incerteza inerente (variabilidade) às observações. Pontos com a 
mesma incerteza associada são considerados de mesma distância da origem. 
Introduzindo agora uma fórmula geral de distância mais apropriada têm-se: 
Ferreira, D.F. Estatística multivariada 61
 
( ) n n 1 n2 2ii i ij i j
i 1 i 1 j i 1
d a x 2 a x x0,P
−
= = = +
= +∑ ∑ ∑ (2.46) 
 
e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se: 
 
11 12 1p
1
21 22 2p2 t
1 p
p
p1 p2 pp
0 d x Ax
a a a
xa a ax x
xa a a
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥⎡ ⎤< = = ⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥ ⎣ ⎦⎢ ⎥⎣ ⎦
"
"" #� � # # % #
"
 (2.47) 
 
 Verifica-se que (2.47) é uma forma quadrática, o que permite que a 
interprete como uma distância. A determinação, dos coeficientes da matriz A de 
(2.47) será apresentada oportunamente. 
 
 
Classificação de formas quadráticas 
 
 As formas quadráticas podem ser classificadas, quanto aos 
resultados que produzem. Nesta seção, o interesse residirá nas formas 
quadráticas não negativas e nas matrizes associadas (denominadas positivas 
definidas). Uma condição necessária e suficiente para que A seja positiva definida 
(pd) é que esta possa ser fatorada por: 
 
2. Álgebra vetorial e matricial 62
t
n n n n n nA S S= 
 
e que o posto de S seja n, em que S é uma matriz triangular, denominada fator de 
Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky, 
ela é positiva definida. 
 
t t t t t t t
2 2 2
1 2 n
Q x Ax x (SS )x (S x) (S x) z z
Z Z Z
= == =
= + + +
� � � � � � � �
"
 
 
 Devido a S ter posto coluna completo, não existe x� não nulo, tal que 
tz S x 0= =� � � . Portanto, a forma quadrática Q é sempre positiva, como foi afirmado. 
Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma 
quadrática Q x 'Ax= � � ≥ 0, é denominada positiva semidefinida (psd). Isso se deve 
ao fato de que para algum vetor x� ≠ 0, a igualdade Q = 0, acontece. O algoritmo 
para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir. 
 
Algoritmo para obtenção do fator de Cholesky 
de uma matriz positiva definida 
 
1. Dada uma matriz A (nxn), com elementos aij. 
 
Ferreira, D.F. Estatística multivariada 63
2. Obtenção da transposta do fator de Cholesky St, é dada pelo algoritmo abaixo, 
sendo que os elementos desta matriz não contemplados pelo método devem 
ser considerados iguais a zero: 
 
 1a linha: 1j11 11 1j
11
a
S a S j 1
S
= = > 
 
 i-ésima linha: 
 
 
1
2i 1
2
ii ii ri
r 1
i 1
ij ij ri rj
r 1ii
S a
1S a
S
i 2 j i
S
S S
−
=
−
=
⎛ ⎞= −⎜ ⎟⎝ ⎠
⎛ ⎞= −⎜ ⎟⎝ ⎠
≥ >
∑
∑ 
 
3. A obtenção de S-1, inversa de S, com elementos Sij, é dada por: 
 
i 1
ii ij rj
ri
r 1ii ii
ij
1 1S S S S i j
S S
para i < j S 0
−
=
−= = >
=
∑ 
 
4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por: 
 
2. Álgebra vetorial e matricial 64
( )n n2ii ri ij ri rj
r i r i
a S a S S i j
= =
= = >∑ ∑ 
 
 
Exemplo 2.6 
Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir 
da matriz A, apresentada a seguir: 
 
4 2 0
A 2 2 1
0 1 2
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
 
 
Obtenção de St: 
 
 Primeira linha: 
 
 11 12 13
2 0S 4 2; S 1; S 0
2 2
= = = = = = 
 
 Segunda linha: 
 
 [ ]12222 23 1S 2 1 1 S 1 1 0 11⎡ ⎤= − = = − × =⎣ ⎦ 
 
 Terceira linha: 
Ferreira, D.F. Estatística multivariada 65
 
 ( ) 122 233S 2 0 1 1⎡ ⎤= − + =⎣ ⎦ 
 
 Logo, 
 
t
2 1 0 2 0 0
S 0 1 1 e S 1 1 0
0 0 1 0 1 1
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
 
 
A matriz S-1 é obtida por: 
 
Linha 1: 
 
 11 12 131S ; S S 0 i j
2
= = = < 
Linha 2: 
 
 22 21 121 1 1S 1; S 1 1 ; S 0 pois i j
1 2 2
⎛ ⎞= = = − × × = − = <⎜ ⎟⎝ ⎠ 
 
linha 3: 
 
 33 31 321 1 1 1S 1; S 1 0 1 S 1 (1 1) 1
1 2 2 2
⎛ ⎞⎛ ⎞−= = = − × × + × = = − × × = −⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠
 
2. Álgebra vetorial e matricial 66
 
logo, 
 
 1
1 0 0
2
1S 1 0
2
1 1 1
2
−
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥−= ⎢ ⎥⎢ ⎥⎢ ⎥−⎢ ⎥⎢ ⎥⎣ ⎦
 
 
 A matriz A-1 é obtida por: 
 
Diagonal principal: 
 
 ( )
2 2 2
11
222 2
33 2
1 1 1 3a
2 2 2 4
a 1 1 2
a 1 1
⎛ ⎞ ⎛ ⎞ ⎛ ⎞= + − + =⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠
= + − =
= =
 
 
 Demais elementos: 
 
 
21
31 32
12 21 13 31 23 32
1 1a 1 ( 1) 1;
2 2
1 1a 1 ; a 1 ( 1) 1;
2 2
1a a 1; a a ; a a 1
2
⎛ ⎞= × − + − × = −⎜ ⎟⎝ ⎠
= × = = × − = −
= = − = = = = −
 
 
Ferreira, D.F. Estatística multivariada 67
Logo, 
 
 
3 1
4 2
1
1
2
1
A 1 2 1
1 1
−
−⎡ ⎤⎢ ⎥= − −⎢ ⎥⎢ ⎥−⎣ ⎦
 
 
 O fator de Cholesky S e sua inversa têm as seguintes propriedades: 
 
1. SSt = A 
 
2. S-1S = St(S-1) t = Ι 
 
3. S-1A = S t 
 
4. A(S-1) t = S 
 
5. (S-1)A(S-1) t = Ι 
 
6. (S-1) t (S-1) = A-1 
 
 
 
 
2. Álgebra vetorial e matricial 68
Maximização de formas quadráticas 
 
 Na estatística multivariada e em outras áreas aplicadas, é muitas 
vezes necessária a maximização de uma forma quadrática. Devido à forma 
quadrática tQ x Ax= � � poder ser feita arbitrariamente grande tomando-se os valores 
dos elementos de x� grandes, é necessário maximizar Q condicionada a alguma 
restrição no comprimento de x� . Uma conveniente alternativa é tomar uma solução 
normalizada de x� , ou seja, uma solução tal que x� tenha comprimento unitário. 
Então a maximização da forma quadrática Q pode ser transformada na 
maximização da razão: 
 
t
t
x Ax
x x
λ = � �
� �
 
 
para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada 
em relação a �x e igualar a zero, resolvendo o sistema obtido, como demonstrado 
a seguir. 
 
t tQ x Ax x x2Ax e 2x
x x x
∂ ∂ ∂= = =∂ ∂ ∂� � � �� �� � �
 
usando a regra do quociente: 
 
Ferreira, D.F. Estatística multivariada 69
t t t
t 2 t t
2Ax(x x) 2(x Ax)x 2 x AxA x
x (x x) x x x x
⎛ ⎞∂λ −= = − Ι⎜ ⎟∂ ⎝ ⎠� � � � � � � � �� � � � � � �
 
 
igualando a zero essa derivada e dividindo-a por ( )t2 x x� � , é obtido o sistema 
homogêneo de equações: 
 
t
t
x AxA x 0
x x
⎛ ⎞− Ι =⎜ ⎟⎝ ⎠� � � �� �
 
 
 Desde que 
t
t
x Ax
x x
= λ� �
� �
, então para um ponto estacionário qualquer i, 
 
( )i iA x 0− λ Ι =� � (2.48) 
 
 Para que o sistema de equações em (2.48) não possua apenas a 
solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu 
determinante deve ser zero: 
 
|A-λiΙ| = 0 (2.49) 
 
 A equação polinomial em λ, resultado da expansão dos termos a 
esquerda na equação (2.49) através do uso da definição (2.9), é chamada de 
equação característica de A. A i-ésima raiz da equação (λi) é denominada de valor 
2. Álgebra vetorial e matricial 70
característico de A; ix� é denominado vetor característico de A associado a λi. 
Outras terminologias podem ser empregadas, tais como, autovalores e 
autovetores, ou, valores e vetores próprios, ou ainda, raiz e vetor latente. 
 
Pares de formas quadráticas 
 
 É de fundamental importância na análise multivariada o problema de 
maximizar razão entre duas formas quadráticas: 
 
t
t
x Ax B 0
x Bx
λ = ≠� �
� �
 
 
em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado 
anteriormente, a partir da derivada em relação a x� , igualando-a a zero, como 
apresentado a seguir: 
 
t t
t
x Bx x AxAx Bx (A B)x 0
x 2 x Bx
∂λ × = − = − λ =∂ � � � �� � � �� � �
 (2.50) 
 
 O sistema homogêneo de equações (2.50) terá solução não trivial 
( x� ≠ 0� ), se e somente se, 
 
A B 0− λ = (2.51) 
Ferreira, D.F. Estatística multivariada 71
 
 Os autovalores (λ) de A em relação a B são denominados de valores 
próprios, raízes características, e os autovetores de vetores característicos ou 
próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky, 
por: 
 
t
B BB S S= 
 
 Então definindo-se tBz S x=� � e usando as propriedades do fator de 
Cholesky tem-se que ( )t1Bx S z−=� � . Agora, se (2.50) for pré multiplicada por 1BS− e 
( )t1Bx S z−=� � for substituído na expressão, têm-se: 
 
( )
( )
t1 1 1
B B B
t1 1
B B
S A S B S z 0
S A S z 0
− − −
− −
⎡ ⎤− λ =⎣ ⎦
⎡ ⎤− λΙ =⎢ ⎥⎣ ⎦
� �
� �
 (2.52) 
 
desde que ( )t1 1B BS B S− − = Ι 
 A solução de (2.52) é a mesma da obtida pela maximização de uma 
forma quadrática, apresentada em (2.48), exceto que ( )t1Bx S Z−=� � deve ser 
recuperado, uma vez que Z� é obtido. Os autovalores, no entanto, são invariantes 
à transformação não-singular realizada. 
2. Álgebra vetoriale matricial 72
 
Cálculo prático dos autovalores e autovetores 
 
 Será apresentado aqui o método denominado “Power method” 
derivado por Hotelling (1936). Esse método é apropriado para problemas em que 
somente r autovalores de maior magnitude e os seus respectivos autovetores são 
necessários (r≤n). O método é iterativo, dado um vetor inicial arbitrário (0)v� . O 
vetor do estágio i será representado por (i)v� e o da próxima iteração será obtido 
por: 
 
(i 1) (i)v Av+ =� � 
 
 Usualmente um vetor de elementos iguais a ±1 é usado como vetor 
inicial. Os vetores característicos devem ser normalizados em cada estágio, para 
que o critério de convergência seja verificado. Quando uma aproximação desejada 
para λ1 e 1x� sejam alcançados, o segundo autovalor e autovetor devem ser 
encontrados na matriz A2, definida por: 
 
t
2 1 1 1A A x x= − λ � � (2.53) 
 
 E assim o processo é repetido até que um número r≤n de pares de 
autovalores e autovetores sejam obtidos. 
Ferreira, D.F. Estatística multivariada 73
 
Exemplo 2.7 
aplicar o “power method” e determinar os autovalores e autovetores da matriz 
apresentada a seguir: 
 
4 2
A
2 1
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
 
1. Determinação de λ1 e 1x� 
 
 O vetor (0)v� será considerado como: 
(0)v� =
1
1
⎡ ⎤⎢ ⎥⎣ ⎦ 
 
 Na avaliação da convergência, o autovetor em cada estágio será 
padronizado através da divisão pelo elemento de maior valor do mesmo. 
 
(i) 
(1) (0) 4 2 1 6
A
2 1 1 3v v
⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦� � 
 
 Normalizando (1)v� : 
 
 
6(1) 6
3 1
26
1v ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥⎣ ⎦⎣ ⎦� 
 
2. Álgebra vetorial e matricial 74
Para avaliar a convergência, os vetores (0)v� e 
(1)v� devem ser comparados. Será 
considerado, convergente se todos os elementos de (1)v� forem semelhantes aos 
elementos correspondentes de (0)v� , para uma precisão pré estipulada, ou seja, de 
1x10-8. Neste caso, os vetores diferem consideravelmente. 
 
(ii) (2) (1)
1
2
14 2 5
v Av
2 1 2.5
⎡ ⎤⎡ ⎤ ⎡ ⎤= = × =⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦� �
, normalizando 
(2)
1
2
1
v
⎡ ⎤= ⎢ ⎥⎣ ⎦�
 
 
Comparando-se (2)v� com 
(1)v� , padronizados, verifica-se que são idênticos, 
indicando que o critério de convergência foi alcançado. 
 O autovetor 1x� é obtido pela normalização de 
(2)v� e o primeiro 
autovalor λ1, por t1 1 1x A xλ = � � . 
 
[ ]
(2)
(2)t (2)1
t
1 1 1
0,8944V
0, 4472V V
0,8944
x A x 4, 4721 2, 2361 5
0, 4472
x ⎡ ⎤= = ⎢ ⎥⎣ ⎦
⎡ ⎤λ = = × =⎢ ⎥⎣ ⎦
�
� �
� �
� 
 
2. determinação de λ2 e 2x� 
 
 t2 1 1 1A A x x= − λ � � = [ ]
4 2 0,8944 0 0
5 0,8944 0, 4472
2 1 0, 4472 0 0
⎡ ⎤ ⎡ ⎤ ⎡ ⎤− × × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ 
Ferreira, D.F. Estatística multivariada 75
 Portanto os demais autovalores e autovetores de A são nulos (λ2=0 e 
2x 0=� � ). 
 Os autovalores da matriz da forma quadrática podem servir para 
classificação das mesmas. Demonstra-se que se todos os autovalores da matriz 
A, dado tQ x Ax= � � , forem positivos e maiores que zero a matriz A é positiva 
definida e a forma quadrática é positiva. Se A possui autovalores positivos e nulos 
a matriz será psd, e a forma quadrática poderá ser nula para um vetor x 0≠� � . 
 Os resultados apresentados até agora, a respeito de formas 
quadráticas, são conseqüências da expansão de matrizes simétricas em um 
processo denominado de decomposição espectral. A decomposição espectral de 
uma matriz A (nxn), simétrica, é dada por: 
 
t t t
1 1 1 2 2 2 n n nA e e e e e e= λ + λ + + λ"� � � � � � (2.54) 
 
em que λi (i=1, 2, ..., n) são os autovalores de A e ie� são os autovetores 
normalizados associados. 
 
Exemplo 2.8 
Considere a matriz simétrica: 
 
4 2
A
2 2
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
com os autovalores e autovetores normalizados, apresentados a seguir: 
2. Álgebra vetorial e matricial 76
1 1 2 2
0,8507 0,5257
5, 2361 e 0,7639 e
0,5257 0,8507
−⎡ ⎤ ⎡ ⎤λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦� � 
 
Obtenha a decomposição espectral de A. 
 
t
1 1 1
3,7893 2,3417
e e
2,3417 1, 4471
⎡ ⎤λ = ⎢ ⎥⎣ ⎦� � 
 
t
2 2 2
0, 2111 0,3416
e e
0,3416 0,5528
−⎡ ⎤λ = ⎢ ⎥−⎣ ⎦� � 
 
4 2 3,7893 2,3417 0, 2111 0,3416
2 2 2,3417 1, 4471 0,3416 0,5528
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= +⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦ 
 
 A expressão da distância como raiz quadrada de uma forma 
quadrática positiva definida permite que se obtenha a interpretação geométrica 
baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e 
suponha que p=2, os pontos tx� =[x1, x2] de distância constante c da origem 
satisfazem a: 
 
t 2 2 2
11 1 22 2 12 1 2x Ax a X a X 2a X X c= + + =� � 
 
pela decomposição espectral de A, como no exemplo 2.8, tem-se: 
 
Ferreira, D.F. Estatística multivariada 77
( ) ( )
t t
1 1 1 2 2 2
2 2t t t
1 1 2 2
A e e e e
x Ax X e X e
= λ + λ
∴ = λ + λ
� � � �
� � � �� �
 
 
Fazendo ti iy x e= � � , obtém-se: 
2 2 2
1 1 2 2c y y= λ + λ que é uma elipse, pois λi>0. Verifica-
se que 121 1x c e
−= λ� � satisfaz ( )12 2t t 21 1 1 1x Ax c e e c−= λ λ =� � � � e 122 2x c e−= λ� � fornece a 
apropriada distância na direção de 2e� . Portanto, os pontos de distância c 
pertencem a uma elipse cujos eixos são dados pelos autovetores de A com 
tamanhos proporcionais ao recíproco da raiz quadrada dos autovalores. A 
constante de proporcionalidade é c. A situação é ilustrada na Figura 2.1. Se p>2 
os pontos pertencem a uma hiperelipsóide de distância c constante da origem, 
cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem 
comprimento de 
i
c
λ . 
 
 
x 1 
x 2 
e1
e2
-0,5 
cλ 1
cλ 2
-0,5 
 
Figura 2.1. Pontos de distância c constante da origem (λ1 < λ2). 
2. Álgebra vetorial e matricial 78
 
Matriz raiz quadrada 
 
 A partir da decomposição espectral, é possível definir uma categoria 
de matriz, em função dos autovalores e autovetores, denominada de matriz raiz 
quadrada. 
 Sendo A (nxn), uma matriz com decomposição espectral dada por 
n
t
i i i
i 1
A e e
=
= λ∑ � � , pode-se construir uma matriz P, cujas colunas são os autovetores 
normalizados de A, tal que, [ ]1 2 nP e e e= "� � � , e uma matriz Λ diagonal, como os 
autovalores de A, tal que, Λ=diag[λi]. É fácil verificar que: 
 
t
n
1 1 t t
i i
i 1 i
A P P
1A P P e e− −
=
= Λ
⎛ ⎞= Λ = ⎜ ⎟λ⎝ ⎠∑ � �
 (2.55) 
 
 Definindo, Λ1/2 como uma matriz diagonal com iλ como elemento 
da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada 
de A e é simbolizada por A1/2. 
 
1 1
2 2
n
t t
i i i
i 1
A e e P P
=
= λ = Λ∑ � � (2.56) 
 
Ferreira, D.F. Estatística multivariada 79
 As suas propriedades são: 
 
1. (A1/2)t= A1/2 (A1/2 é simétrica) 
 
2. A1/2A1/2=A 
 
3. ( )1 12 2
i
n1 t t1
i i
i 1
A e e P P
− −
λ=
= = Λ∑ � � 
 
4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1 
 
 em que A-1/2 = (A1/2)-1 
 
 
Exemplo 2.9 
Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8), 
usando as equações (2.55) e (2.56): 
 
4 2
A
2 2
⎡ ⎤= ⎢ ⎥⎣ ⎦ 
 
com autovalores e autovetores normalizados, apresentados a seguir: 
 
2. Álgebra vetorial e matricial 80

Continue navegando