Análise Multivariada e suas aplicações

•
UEL

Jesika Magagnin
10.04.2018
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 63 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 63 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 63 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Monografia

2.497 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Universidade Estadual do Oeste do Paraná
Centro de Engenharias e Ciências Exatas
Campus Foz do Iguaçu
Jesika Maganin
Análise Multivariada e suas Aplicações
Foz do Iguaçu-PR
2016
JESIKA MAGANIN
ANÁLISE MULTIVARIADA E SUAS APLICAÇÕES
Monografia apresentada ao Curso de Licenci-
atura em Matemática da Universidade Esta-
dual do Oeste do Paraná - UNIOESTE, como
requisito parcial para obtenção do título de
Licenciado em Matemática.
Orientador: Prof. Dr. ORLANDO CATARINO DA SILVA
Foz do Iguaçu-PR
2016
JESIKA MAGANIN
ANÁLISE MULTIVARIADA E SUAS APLICAÇÕES.
Monografia apresentada ao Curso de Licen-
ciatura em Matemática da Universidade Es-
tadual do Oeste do Paraná, como requisito
parcial para obtenção do título de Licenci-
ado em Matemática.
Aprovada em XX de dezembro de 2016.
BANCA EXAMINADORA
Prof. Dr. ORLANDO CATARINO DA SILVA - Orientador
Universidade Estadual do Oeste do Paraná - UNIOESTE
Prof. Ms. EMÍDIO PORTILHO JUNIOR
Universidade Estadual do Oeste do Paraná - UNIOESTE
Prof. Dr. SUSIMEIRE VIVIEN ROSSETI DE ANDRADE
Universidade Estadual do Oeste do Paraná - UNIOESTE
Foz do Iguaçu-PR
2016
À minha amada família.
AGRADECIMENTOS
Primeiramente a Deus por permitir que tudo isso acontecesse, por estar comigo em
todos os momentos da minha vida, por me dar saúde e força para superar as dificuldades
e principalmente por ter me dado o melhor de mim: minha família.
A Universidade Estadual do Oeste do Paraná pela oportunidade de fazer o curso.
Agradeço a todos os professores que fizeram parte da minha graduação, em especial a
professora Susimeire por me proporcionar o conhecimento não apenas racional, mas a
manifestação do caráter e afetividade da educação no processo de formação profissional,
por tanto que se dedicou a mim, não somente por ter me ensinado, mas por ter me feito
aprender. Desde o início do curso confiou em mim e me orientou, essas palavras são poucas
pelo que você me representa.
O agradecimento mais puro vai aos meus pais, pelo amor, incentivo e apoio incon-
dicional. Agradeço a minha mãe Isalme, que me ajudou nas horas difíceis de desânimo e
cansaço. Ao meu pai que apesar de todas as dificuldades me fortaleceu e foi ele que fez
tudo isso se tornar realidade, essa é pra você.
Aos meus irmãos Juliano e Jean Carlo, pois sem eles não sou nada, meu namorado
Fabio por entender minha ausência dedicada ao estudo e ser tão paciente e incrível, minha
cunhada Gabriele e as amigas de infância que também são minhas irmãs: Bárbara, Camila,
Barbara e Carol, por mesmo distantes continuarem tão próximas.
Aos amigos e melhores futuros professores de matemática do mundo, que fizeram
parte da minha formação, Tainá, Julia, Fernando, Alex, João, Rodrigo, Vanesa e Aryelen
companheiros de trabalhos desde o primeiro ano, que vão continuar presentes em minha
vida com certeza, muito obrigada por todas as manhãs que foram certamente melhores
por estar junto a vocês.
Um agradecimento especial ao Centro de Estudos Avançados em Segurança de
Barragens (CEASB) que além de me proporcionar conhecer grandes pessoas, me propor-
cionou bolsa para eu estudar e realizar meu projeto, este que me motivou a escrever esta
monografia.
Para finalizar, um agradecimento ao fantástico professor Orlando, que foi mais
que um orientador, foi um amigo, me ajudou em tudo que eu precisava, me deu força,
incentivo, confiança, mostrou um empenho inigualável para elaboração deste trabalho,
muito obrigado por me convidar a participar do projeto e muito obrigado por aceitar ser
sua submissa, ou melhor, sua orientanda.
O futuro é feito a partir da constante dedicação no presente!
"Foi o tempo que dedicastes à tua rosa
que a fez tão importante".
Antoine de Saint-Exúpery
RESUMO
A obtenção do conhecimento a partir de um conjunto de variáveis é um dos objetivos da
análise multivariada. Uma das técnicas que possibilitam essa tarefa é a análise fatorial.
Pretende-se apresentar os conceitos teóricos que são necessários na resolução de problemas
que envolvam duas ou mais variáveis aleatórias, bem como, mostrar exemplos de aplicação
dessa teoria em diferentes áreas. Com isso espera-se mostrar a principal característica da
análise fatorial, que consiste em identificar grupos de variáveis altamente correlacionadas,
para argumentações futuras.
Palavras-chaves: Análise Multivariada. Análise Fatorial.
ABSTRACT
Obtaining knowledge from a set of variables is one of the objectives of the multivariate
analysis. One of the techniques that allow this task is the factor analysis. It is intended to
present the theoretical concepts that are needed to solve problems involving two or more
random variables, as well as show examples of application of this theory in different areas.
It is expected to show the main characteristic of the factor analysis, which is to identify
groups of highly correlated variables for future arguments.
Key-words: Multivariate Analysis. Factor Analysis.
LISTA DE FIGURAS
FIGURA 1 – Solução fatorial para estudo de lealdade de clientes de um cartão de
crédito de marca própria . . . . . . . . . . . . . . . . . . . . . . . . 49
FIGURA 2 – Representação gráfica da solução fatorial . . . . . . . . . . . . . . . 50
FIGURA 3 – Porcentagem de pessoas empregadas em nove diferentes setores in-
dustriais na Europa (AGR = agricultura, MIN = mineração, MAN =
manufatura, PS = suprimento de energia, CON = construção, SER
= indústrias de serviços, FIN = finanças, SPS = serviço pessoal e
social, TC = transporte e comunicação) . . . . . . . . . . . . . . . . 50
FIGURA 4 – Matriz de correlação para as percentagens de empregados em nove
grupos industriais em países da Europa, na forma diagonal inferior,
calculadas a partir dos dados da figura 3 . . . . . . . . . . . . . . . 51
FIGURA 5 – Autovalores e autovetores normalizados para os dados relativos ao
emprego na Europa . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
FIGURA 6 – Valores dos fatores para os países europeus . . . . . . . . . . . . . . 53
FIGURA 7 – Instrumentos instalados no bloco A-15 do vertedouro . . . . . . . . . 54
FIGURA 8 – Matriz Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
FIGURA 9 – Correlações entre os instrumentos do bloco chave A-15 . . . . . . . . 57
FIGURA 10 – Autovalor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
FIGURA 11 – Fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
FIGURA 12 – Relação dos instrumentos com os fatores . . . . . . . . . . . . . . . . 59
FIGURA 13 – Relação dos fatores com as anomalias . . . . . . . . . . . . . . . . . 59
FIGURA 14 – Regiões críticas referentes à anomalia fluência . . . . . . . . . . . . . 60
Sumário
1 REVISÃO BIBLIOGRÁFICA . . . . . . . . . . . . . . . . . . . 12
1.1 MATRIZES E VETORES . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1.1 Matriz Transposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1.2 Matriz Simétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.3 Matriz Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.4 Matriz Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.5 Traço de Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 ESPAÇOS VETORIAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.1 Subespaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 TRANSFORMAÇÕES LINEARES . . . . . . . . . . . . . . . . . . . . 17
1.4 VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS . . . . . . . . . . . . 19
1.4.1 Variáveis aleatórias unidimensionais discretas . . . . . . . . . . . . . . . 19
1.4.2 Variáveis aleatórias unidimensionais contínuas . . . . . . . . . . . . . . 21
1.4.3 Estatística Univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 ANÁLISEMULTIVARIADA . . . . . . . . . . . . . . . . . . . . 25
2.1 ESTATÍSTICA MULTIVARIADA . . . . . . . . . . . . . . . . . . . . . 25
2.2 TEOREMA ESPECTRAL . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Matrizes Hermitianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 COMPONENTES PRINCIPAIS . . . . . . . . . . . . . . . . . . . . . . 32
2.3.1 Componentes Principais da População . . . . . . . . . . . . . . . . . . . 32
3 ANÁLISE FATORIAL . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1 O MODELO FATORIAL ORTOGONAL . . . . . . . . . . . . . . . . . 42
3.2 COMPONENTES PRINCIPAIS PARA O MODELO FATORIAL . . . 45
3.2.1 Escores Fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.2 Diferenças Entre o Método de Componentes Principais e a Análise Fatorial 46
4 APLICAÇÕES DA ANÁLISE FATORIAL . . . . . . . . . . . . 48
4.1 ÁREAS DIVERSAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 SEGURANÇA DE BARRAGENS . . . . . . . . . . . . . . . . . . . . . 54
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
10
INTRODUÇÃO
A estatística é uma ciência que está presente na grade curricular de muitos cur-
sos superiores. Isso ocorre pela sua característica multidisciplinar, sendo uma intensa
ferramenta para a análise e avaliação de dados, ela esta inserida em diversas áreas do
conhecimento. Os métodos estatísticos, para analisar variáveis, estão arranjados em dois
grupos: a estatística univariada que olha as variáveis de maneira isolada e a estatística
multivariada que olha as variáveis de forma conjunta.
Frequentemente nos trabalhos que exigem uma pesquisa previa, somos forçados a
tomar decisões e fazer inferências com base em dados, assim como avaliar riscos. Situações
mais elaboradas que envolvam aplicações, dão origem a problemas mais complexos, onde
necessitamos de mais de uma variável para tornar possível a modelagem e a busca por
soluções. Para esses casos o conhecimento de técnicas da estatística multivariada pode,
muitas vezes, dar o suporte necessário para obtenção do conhecimento com base num
conjunto de dados armazenado.
A estatística multivariada surgiu por volta de 1901, mas teve seu estudo aprofun-
dado nos últimos anos devido ao avanço do computador. Problemas aplicados geralmente
envolvem muitas variáveis, tornando os cálculos muito custosos manualmente, sendo ne-
cessário nesses casos o auxílio de programas computacionais para realizar com maior faci-
lidade e apresentar os resultados na forma de tabelas e gráficos que possibilitam estudar
o inter-relacionamento das variáveis de forma clara levando as soluções.
Pesquisadores e profissionais de diversas áreas utilizam técnicas estatísticas para
confirmar hipóteses ou na ausência destas, para explorar dados relacionados a um fenô-
meno. Em diversas situações nas áreas sociais ou exatas as decisões a cerca de um problema
devem levar em consideração muitas variáveis, que muitas vezes estão correlacionadas
umas com as outras, mas pelo dimensão do problema, é difícil diagnosticar quais dessas
variáveis tem real relevância para buscar soluções. Diante disso, como encontrar um meio
de condensar a informação contida nas variáveis originais em um conjunto menor de va-
riáveis estatísticas não correlacionadas, com uma perda mínima de informação? Ou seja,
sumarizar os dados por meio da combinação entre as variáveis e explicar a relação entre
elas.
No campo da Análise Multivariada estão técnicas estatísticas como a Análise de
Componentes Principais e a Análise Fatorial que podem ser aplicadas em uma diversidade
de problemas em várias áreas, com resultados comprovados matematicamente. Esses mé-
todos possuem a capacidade de reunir as informações que estão contidas em um grande
número de variáveis originais, em um conjunto menor de fatores, com o mínimo de perda
de informação. Essa habilidade torna esses métodos muito eficientes quando aplicados em
diversas áreas que possuem grande numero de variáveis que interferem no resultado final
11
do problema.
Como afirmamos anteriormente o curso de Estatística está presente na grade de
vários cursos, tanto nas áreas exatas quanto humanas, no entanto, é raro o curso que
apresenta os métodos estatísticos multivariados, que são aqueles com mais capacidade
de solucionar problemas práticos. A principal finalidade deste trabalho é apresentar os
conceitos básicos e algumas técnicas da Análise Multivariada, comprovando quando pos-
sível os resultados mais importantes com o auxílio dos conceitos matemáticos adquiridos
durante o curso de licenciatura em matemática. É foco também desse trabalhor os con-
ceitos teóricos da Análise de Componentes Principais e Fatorial, e após comprovado esse
conceitos, mostrar alguns exemplos de onde essas técnicas podem ser aplicadas.
Metodologicamente, este trabalho adotou o tipo de pesquisa de cunho bibliográfico.
Para apresentar os conceitos teóricos e as técnicas mais conhecidas da Análise Multivari-
ada utilizaremos Johnson e Wichern (1987), este livro ainda é utilizado como referência
principal em diversos trabalhos científicos sobre esse tema. Para tratar de diversos proble-
mas práticos que podem ser resolvidos com a utilização da Análise Fatorial, utilizaremos
os pressupostos teóricos de Corrar, Paulo e Dias (2009) e Aranha e Zambaldi (2008)
traduzidos para o português, o que facilita a compreensão.
O trabalho se divide em 4 capítulos. No primeiro definiremos os conceitos prelimi-
nares que tem por objetivo expor os resultados básicos que serão utilizados no decorrer
deste trabalho. Nele tratamos basicamente da álgebra matricial, dos espaços vetoriais e
dos parâmetros mais importantes da estatística univariada.
No segundo capítulo trataremos do tema fundamental deste trabalho, a Análise
Multivariada. Será visto que quase todos os parâmetros da estatística univariada podem
ser estendidos para o caso multivariado. Será abordado também os principais resultados
da análise de componentes principais e da análise fatorial. Merece destaque nesse capitulo
o famoso Teorema da Decomposição Espectral, que é de vital importância em diversas
aplicações matemáticas.
O terceiro capítulo apresenta os conceitos teóricos da análise fatorial, para o pro-
posito desse trabalho, será utilizado a análise de componentes principais para obter os
fatores da análise fatorial. Uma consequência importante com o uso da ACP é a obtenção
de variáveis independentes, que impete a ocorrência do problema da multicolinearidade.
No quarto capítulo será exposto as aplicações da análise fatorial para elucidar
problemas abordados em diversas áreas. Em uma das seção desse capitulo será exposto o
resultado do projeto Sistema de Detecção de Falhas, que utilizou a Análise Fatorial em
um bloco de concreto na Barragem de Itaipu, com a intenção de diagnosticar anomalias
na estrutura.
12
1 REVISÃO BIBLIOGRÁFICA
Este capítulo tem por objetivo expor os conceitos e definições que serão utilizados
no decorrer deste trabalho, veremos que muito dos métodos estatísticos multivariados
podem ser explicados com o uso de alguma álgebra matricial. Por esta razão é útil ter pelo
menos algum conhecimento nesta área da matemática. Os conceitos teóricos apresentados
nesse capitulo podem ser encontrados em Steven (2011) e Steinbruch e Winterle (2008).
1.1 MATRIZES E VETORES
Uma matriz 𝑛×𝑛 é um arranjo de números com 𝑚 linhas e 𝑛 colunas, considerada
como uma única entidade, da forma:
𝐴 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑎11 𝑎12 . . . 𝑎1𝑛
𝑎21 𝑎22 . . . 𝑎2𝑛
... ... . . . ...
𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛
⎞⎟⎟⎟⎟⎟⎟⎠
Se 𝑚 = 𝑛 então ela é uma matriz quadrada. Se existe somente uma coluna, tal
como
𝐶 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑐1
𝑐2
...
𝑐𝑚
⎞⎟⎟⎟⎟⎟⎟⎠
então ela é chamada de vetor coluna. Se existe somente uma linha, tal como
𝑟 =
(︁
𝑟1𝑟2 . . . 𝑟𝑛
)︁
então ela é chamada de vetor linha.
1.1.1 Matriz Transposta
A transposta de uma matriz é obtida trocando-se as linhas pelas colunas. Então a
transposta da matriz A já vista é
𝐴′ =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑎11 𝑎21 . . . 𝑎𝑚1
𝑎12 𝑎22 . . . 𝑎𝑚2
... ... . . . ...
𝑎1𝑛 𝑎2𝑛 . . . 𝑎𝑚𝑛
⎞⎟⎟⎟⎟⎟⎟⎠
13
Portanto, determinar a transposta de uma matriz é reescrevê-la de forma que suas
linhas e colunas troquem de posições ordenadamente.
Propriedades:
i) 𝐴 = 𝐴′′. Isto é, a transposta da transposta de uma matriz é ela mesma;
ii) (𝐴+𝐵)′ = 𝐴′+𝐵′. Em palavras, a transposta de uma soma é igual a soma das
transpostas;
iii) (𝑘𝐴)′ = (𝑘𝐴′), onde k é qualquer escalar.
1.1.2 Matriz Simétrica
Uma matriz simétrica é uma matriz quadrada que é imutável quando ela é trans-
posta, de modo que 𝐴′ = 𝐴.
Exemplo 1.1.
𝐴 =
⎛⎝ 5 8
8 1
⎞⎠
Note que 𝐴 = 𝐴′.
1.1.3 Matriz Inversa
Para um escalar 𝑘 ∈ ℜ, é certamente verdadeiro que 𝑘.𝑘−1 = 1. De maneira similar,
se 𝐴 é uma matriz quadrada e 𝐴.𝐴−1 = 𝐼 em que 𝐼 é a identidade, esta que é uma matriz
diagonal com todos os termos da diagonal igual a 1, então a matriz 𝐴−1 é a inversa da
matriz 𝐴. Inversas existem somente para matrizes quadradas, mas nem todas as matrizes
quadradas têm inversas. Se uma inversa existe, então ela é uma inversa à esquerda, de
modo que 𝐴−1.𝐴 = 𝐼, assim como inversa à direita, de modo que 𝐴.𝐴−1 = 𝐼.
Exemplo 1.2. Um exemplo de matriz inversa é⎛⎝ 2 1
1 2
⎞⎠−1 =
⎛⎝ 23 −13
−1
3
2
3
⎞⎠
a qual pode ser verificada mostrando que
⎛⎝ 2 1
1 2
⎞⎠ .
⎛⎝ 23 −13
−1
3
2
3
⎞⎠ =
⎛⎝ 1 0
0 1
⎞⎠
1.1.4 Matriz Ortogonal
Dizemos que uma matriz 𝑛 × 𝑛 𝐴 é ortogonal quando sua inversa é igual a sua
transposta, isto é, quando
𝐴𝑡 = 𝐴−1
Ou seja, 𝐴𝑡𝐴 = 𝐼.
14
Exemplo 1.3. ⎛⎝ 12 √32
−
√
3
2
1
2
⎞⎠ .
⎛⎝ 12 −√32√
3
2
1
2
⎞⎠ =
⎛⎝ 1 0
0 1
⎞⎠
Portanto a matriz
𝐴 =
⎛⎝ 12 √32
−
√
3
2
1
2
⎞⎠
é uma matriz ortogonal.
1.1.5 Traço de Matriz
O traço de uma matriz é a soma dos termos da diagonal principal, o qual é definido
somente para uma matriz quadrada. Por exemplo, o traço de uma matriz 𝐴 quadrada de
ordem 𝑛 é
𝑡𝑟(𝐴) = 𝑎11 + 𝑎22 + ...+ 𝑎𝑛𝑛
.
Propriedades:
i) 𝑡𝑟(𝐴) = 𝑡𝑟(𝐴𝑡)
ii) 𝑡𝑟(𝐼) = 𝑛
iii) 𝑡𝑟(𝑘.𝐴) = 𝑘.𝑡𝑟(𝐴)
iv) 𝑡𝑟(𝐴𝐵) = 𝑡𝑟(𝐵𝐴)
1.2 ESPAÇOS VETORIAIS
Um conjunto não vazio 𝑉 é um espaço vetorial sobre 𝑅 se em seus elementos,
denominados vetores, estiverem definidas as seguintes operações.
Adição: A cada par de vetores de 𝑈 corresponde um vetor 𝑢+ 𝑣 ∈ 𝑉 chamado de soma
de 𝑢+ 𝑣, de modo que
a) 𝑢+ 𝑣 = 𝑣 + 𝑢, ∀ 𝑢, 𝑣 ∈ 𝑉 ;
b) (𝑢+ 𝑣) + 𝑤 = 𝑢+ (𝑣 + 𝑤), ∀ 𝑢, 𝑣, 𝑤 ∈ 𝑉 ;
c) Existe em 𝑉 um vetor denominado vetor nulo e denotado por 0, tal que 0+ 𝑣 =
𝑣, ∀ 𝑣 ∈ 𝑉 ;
d) A cada vetor 𝑣 ∈ 𝑉 existe um vetor em 𝑉 , denotado por −𝑣 tal que 𝑣+(−𝑣) = 0.
Multiplicação: A cada par 𝛼 ∈ 𝑅 e 𝑣 ∈ 𝑉 corresponde um vetor 𝛼𝑣 ∈ 𝑉 denominado
produto por escalar de 𝛼 por 𝑣 de modo que:
a) (𝛼𝛽)𝑣 = 𝛼(𝛽𝑣), ∀𝛼, 𝛽 ∈ 𝑅 e ∀ 𝑣 ∈ 𝑉
b) 1.𝑣 = 𝑣, ∀ 𝑣 ∈ 𝑉
c) 𝛼(𝑢+ 𝑣) = 𝛼𝑢+ 𝛼𝑣, ∀𝛼 ∈ 𝑅 e ∀𝑢, 𝑣 ∈ 𝑉
Observação 1.4. algumas vezes usamos a expressão 𝑘-espaço vetorial para indicar um
espaço vetorial 𝑉 sobre 𝐾, onde 𝐾 é um corpo qualquer.
15
Seja 𝑉 um espaço vetorial sobre 𝑘. O conjunto 𝑉 com as operações de soma de
vetores é um grupo abeliano. Portanto, o vetor nulo e o vetor oposto de cada vetor são
únicos.
1.2.1 Subespaços Vetoriais
Definição 1.5. Dado um espaço vetorial 𝑉 um subconjunto 𝑊 , não vazio, será um su-
bespaço vetorial de 𝑉 se:
i) Para quaisquer 𝑢+ 𝑣 ∈ 𝑊 → 𝑢+ 𝑣 ∈ 𝑊 ;
ii) Para quaisquer 𝑎 ∈ ℜ, 𝑢 ∈ 𝑊 tivermos 𝑎.𝑢 ∈ 𝑊 .
Observação 1.6. a) qualquer subespaço 𝑊 de 𝑉 precisa conter o vetor nulo.
b) Todo espaço vetorial admite dois subespaços, ele mesmo e o conjunto 0.
Teorema 1.7 (Interseção de subespaços). Dados 𝑊1 e 𝑊2 subespaços de um espaço
vetorial 𝑉 , a interseção 𝑊1
⋂︀
𝑊2 ainda é um subespaço de 𝑉 .
Dem: 𝑊1
⋂︀
𝑊2 ̸= ∅, pois 0 ∈ 𝑊1 e 0 ∈ 𝑊2
i) dados 𝑥, 𝑦 ∈ 𝑊1⋂︀𝑊2 → 𝑥, 𝑦 ∈ 𝑊1 → 𝑥+ 𝑦 ∈ 𝑊1 e 𝑥+ 𝑦 ∈ 𝑊2.
ii) Dado 𝑎 ∈ 𝑅 e 𝑥 ∈ 𝑊1⋂︀𝑊2 logo 𝑥 ∈ 𝑊1 e 𝑥 ∈ 𝑊2 então 𝑎𝑥 ∈ 𝑊1 e 𝑎𝑥 ∈ 𝑊2 →
𝑎𝑥 ∈ 𝑊1⋂︀𝑊2
Portanto, 𝑊1
⋂︀
𝑊2 é um subespaço vetorial de 𝑉 .
�
Um dos conceitos mais importantes envolvendo a estrutura de espaço vetorial é a
de base.
Definição 1.8. Seja 𝑉 um espaço vetorial sobre 𝐾.
1) Um vetor 𝑣 ∈ 𝑉 é combinação linear dos vetores 𝑣1, ..., 𝑣𝑛 de 𝑉 se existem
escalares 𝛼1, ..., 𝛼𝑛 ∈ R tais que
𝑣 = 𝛼1𝑣1 + · · ·+ 𝛼𝑛𝑣𝑛 =
𝑛∑︁
𝑖=1
𝛼𝑖𝑣𝑖.
2) Seja 𝐵 um subconjunto de 𝑉 . Dizemos que 𝐵 é um conjunto gerador de 𝑉 se
todo elemento de 𝑉 for uma combinação linear de um número finito de elementos de 𝐵.
Observação 1.9. a) Por convenção dizemos que o conjunto vazio gera o espaço vetorial
0;
b) Todo espaço vetorial possui um conjunto gerador;
c) Seja 𝐵 um conjunto gerador de um espaço vetorial 𝑉 . Todo subconjunto de 𝑉
que contenha 𝐵 é um conjunto gerador;
d) Sejam 𝑉 um k-espaço vetorial e {𝑣1, 𝑣2, . . . , 𝑣𝑛} ⊆ 𝑉 . O subconjunto de 𝑉
formado por todas as combinações lineares de 𝑣1, 𝑣2, . . . , 𝑣𝑛 é também um k-espaço vetorial.
16
Exemplo 1.10. a) Seja o R3 como espaço vetorial sobre R, assim o conjunto
{(1, 0, 0), (0, 1, 0), (0, 0, 1)}
é o conjunto gerador do R3.
b) Seja 𝑃 (R) o conjunto dos polinômios com coeficientes em R. O conjunto
{1, 𝑥, 𝑥2, . . . , 𝑥𝑛, . . .}
é um conjunto gerador de 𝑃 (R) visto como espaço vetorial sobre R.
Em geral um espaço vetorial possui muitos conjuntos geradores. A situação ideal
é que exista um conjunto gerador onde cada elemento de 𝑉 se escreve de maneira única
como combinação linear dos elementos deste conjunto gerador.
Por trás dessa unicidade está o importante conceito de conjunto linearmente in-
dependente.
Definição 1.11. Sejam 𝑉 um espaço vetorial sobre 𝐾 e 𝐵 um subconjunto de 𝑉 .
a) Dizemos que 𝐵 é linearmente independente (L.I.) se 𝛼1𝑣1+𝛼2𝑣2+. . .+𝛼𝑛𝑣𝑛 = 0,
para 𝑣𝑖 ∈ 𝐵 e 𝛼𝑖 ∈ 𝐾, 𝑖 = 1, 2, . . . , 𝑛, implica que 𝛼1 = 𝛼2 = . . . = 𝛼𝑛 = 0.
b) O conjunto 𝐵 é chamado linearmente dependente (L.D.) se não for linearmente
independente.
Observação 1.12. a) Por convenção, o conjunto vazio é um conjunto linearmente inde-
pendente;
b)Todo conjunto contendo o vetor nulo é linearmente dependente;
c) Todo subconjunto de um conjunto L.I. é L.I.
Definição 1.13. Seja 𝑉 um espaço vetorial sobre um corpo 𝐾. Dizemos que um subcon-
junto 𝐵 de 𝑉 é uma base de 𝑉 se
i) 𝐵 for um conjunto gerador de 𝑉 ; e
ii) 𝐵 for L.I.
Exemplo 1.14. 𝑉 = R2, 𝑒1 = (1, 0) e 𝑒2 = (0, 1).
Definição 1.15. Dizemos que um conjunto (espaço vetorial) 𝑉 sobre 𝐾 é finitamente
gerado se possui um conjunto gerador finito.
Teorema 1.16. Sejam 𝑣1, 𝑣2, . . . , 𝑣𝑛 vetores não nulos que geram um espaço vetorial 𝑉 .
Então, dentre estes vetores podemos extrair uma base de 𝑉 .
Demonstração: Se 𝑣1, 𝑣2, . . . , 𝑣𝑛 são L.I. nada temos a mostrar.
Se 𝑣1, 𝑣2, . . . , 𝑣𝑛 são L.D. então existe uma combinação linear deles, com algum
coeficiente não zero, dando o vetor nulo.
𝛼1𝑣1 + 𝛼2𝑣2 + . . .+ 𝛼𝑛𝑣𝑛 = 0
17
Sem perda de generalidade seja 𝑥𝑛 ̸= 0. Então podemos escrever
𝑣𝑛 = −𝑥1
𝑥𝑛
𝑣1 − 𝑥2
𝑥𝑛
𝑣2 − . . .− 𝑥𝑛−1
𝑥𝑛
𝑣𝑛−1
Ou seja, 𝑣𝑛 é uma combinação linear dos demais, portanto, 𝑣1, 𝑣2, . . . , 𝑣𝑛−1 ainda geram
𝑉 . Se esses vetores ainda forem L.D. repetimos o processo anterior, após um número
finito de passos chegaremos a um subconjunto {𝑣1, 𝑣2, . . . , 𝑣𝑛} formado por 𝑟 6 𝑛 vetores
L.I., que ainda geram 𝑉 .
�
1.3 TRANSFORMAÇÕES LINEARES
Definição 1.17. Uma representação 𝑇 de um espaço vetorial 𝑉 em um espaço𝑊 é dita
um transformação linear se:
i) 𝑇 (𝑣1 + 𝑣2) = 𝑇 (𝑣1) + 𝑇 (𝑣2)
ii) 𝑇 (𝛼𝑣) = 𝛼𝑇 (𝑣)
Exemplo 1.18. Seja
𝑇 : R ↦−→ R
𝑥 ↦−→ 𝑥
𝑇 (𝑥) = 3𝑥 é uma transformação linear?
De fato, seja 𝑥1 e 𝑥2 ∈ R então
i) 𝑇 (𝑥1 + 𝑥2) = 3(𝑥1 + 𝑥2) = 3𝑥1 + 3𝑥2 = 𝑇 (𝑥1) + 𝑇 (𝑥2)
ii) Seja 𝑥1 ∈ R e 𝛼 ∈ R
𝑇 (𝛼𝑥) = 3(𝛼𝑥) = 𝛼 3𝑥 = 𝛼𝑇 (𝑥)
Portanto é uma transformação linear.
Observação 1.19. Se 𝑇 é uma Transformação Linear de 𝑉 em 𝑊 , então:
i) 𝑇 (0𝑣) = 0𝑤;
ii) 𝑇 (𝛼1𝑣1 + 𝛼2𝑣2 + . . .+ 𝛼𝑛𝑣𝑛) = 𝛼1𝑇 (𝑣1) + 𝛼2𝑇 (𝑣2) + . . .+ 𝛼𝑛𝑇 (𝑣𝑛);
iii) 𝐿(−𝑣) = −𝐿(𝑣).
Definição 1.20. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear. O núcleo de 𝑇 , escrito
como 𝑛𝑢𝑐𝑙(𝑇 ) ou 𝑘𝑒𝑟(𝑇 ) é definido
𝑁𝑢𝑐𝑙(𝑇 ) = 𝑣 ∈ 𝑉, 𝑇 (𝑣) = 0𝑤
Definição 1.21. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear e seja 𝑆 um subespaço de
𝑉 , a imagem de 𝑆, 𝑇 (𝑆), é definida por
𝑇 (𝑆) = [𝑤 ∈ 𝑊 ;𝑤 = 𝑇 (𝑣),∀𝑣 ∈ 𝑆]
18
Proposição 1.22. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear com 𝑉 e 𝑊 espaços
vetoriais. Então:
i) 𝑁𝑢𝑐𝑙(𝑇 ) é subespaço de V.
Demonstração: O núcleo de 𝑇 é o conjunto de vetores de 𝑉 que são levados por 𝑇
no vetor nulo de 𝑊 . Como 𝑛𝑢𝑐𝑙(𝑇 ) é um subconjunto não-vazio de 𝑉 , já que 𝑇 (0) = 0.
𝑛𝑢𝑐𝑙(𝑇 ) é subespaço de 𝑉 . De fato, se 𝑣1 e 𝑣2 ∈ 𝑛𝑢𝑐𝑙(𝑇 ) e se 𝑎 ∈ R então 𝑣1+𝑣2 ∈ 𝑛𝑢𝑐𝑙(𝑇 ),
pois
𝑇 (𝑣1 + 𝑣2) = 𝑇 (𝑣1) + 𝑇 (𝑣2) = 0 + 0 = 0
e,
𝑇 (𝛼𝑣) = 𝛼𝑇 (𝑣) = 𝛼.0 = 0
�
ii) Se 𝑆 é subespaço e 𝑆 ⊂ 𝑉 , então 𝑇 (𝑆) é subespaço de 𝑊 .
Demonstração: De fato!
i) 𝑇 (𝑆) ̸= ∅, pois como 𝑆 é subespaço, então 0 ∈ 𝑆, logo 𝑇 (0) ∈ 𝑇 (𝑆) ⇒ 0𝑤 ∈ 𝑇 (𝑆) →
𝑇 (𝑆) ̸= ∅.
ii) Sejam 𝑤1 e 𝑤2 ∈ 𝑇 (𝑆) e 𝛼 ∈ R. Logo existem 𝑣1 e 𝑣2 ∈ 𝑆 tal que 𝑇 (𝑣1) = 𝑤1 e
𝑇 (𝑣2) = 𝑤2. Assim, 𝑤1 + 𝑤2 = 𝑇 (𝑣1) + 𝑇 (𝑣2) = 𝑇 (𝑣1 + 𝑣2) = 𝑇 (𝑣3) com 𝑣3 ∈ 𝑆, logo
𝑤1 + 𝑤2 ∈ 𝑇 (𝑆).
𝛼𝑤1 = 𝛼𝑇 (𝑣1) = 𝑇 (𝛼𝑣1) = 𝑇 (𝑣4), 𝑣4 ∈ 𝑆. Logo 𝑤1 ∈ 𝑇 (𝑆).
Portanto 𝑇 (𝑆) é um subespaço de 𝑊 .
�
Teorema 1.23. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear. 𝑇 é injetora se, e somente
se, 𝑛𝑢𝑐𝑙(𝑇 ) = 0.
Demonstração: Seja 𝑣 ∈ 𝑛𝑢𝑐𝑙(𝑇 ) ⇒ 𝑇 (𝑣) = 0𝑣 = 𝑇 (0), como 𝑇 é injetora 𝑇 (𝑣) =
𝑇 (0)⇒ 𝑣 = 0𝑣 ⇒ 𝑛𝑢𝑐𝑙(𝑇 ) = 0.
Sejam 𝑣1 e 𝑣2 ∈ 𝑉 tais que 𝑇 (𝑣1) = 𝑇 (𝑣2) ⇒ 𝑇 (𝑣1) − 𝑇 (𝑣2) = 0 ⇒ 𝑇 (𝑣1 − 𝑣2) =
0⇒ 𝑣1 − 𝑣2 ∈ 𝑛𝑢𝑐𝑙(𝑇 ) = 0⇒ 𝑣1 = 𝑣2. Portanto 𝑇 é injetora.
�
Teorema 1.24. Seja 𝑇 : 𝑉 ⇒ 𝑊 uma transformação linear. Se 𝐵 = 𝑣1, 𝑣2, . . . , 𝑣𝑛 é uma
base de 𝑉 então 𝑇 (𝐵) = 𝑇 (𝑣1), 𝑇 (𝑣2), . . . , 𝑇 (𝑣𝑛) geram 𝐼𝑚(𝑇 ).
Demonstração: Seja 𝑤 ∈ 𝐼𝑚(𝑇 ) então existe 𝑣 ∈ 𝑉 tal que 𝑇 (𝑣) = 𝑤, como 𝐵 é base
de 𝑉 então 𝑉 = 𝛼1𝑣1 + 𝛼2𝑣2 + . . . + 𝛼𝑛𝑣𝑛, logo 𝑤 = 𝑇 (𝛼1𝑣1 + 𝛼2𝑣2 + . . . + 𝛼𝑛𝑣𝑛) =
𝛼1𝑇 (𝑣1) + 𝛼2𝑇 (𝑣2) + . . .+ 𝛼𝑛𝑇 (𝑣𝑛). Portanto, 𝑇 (𝐵) gera a 𝐼𝑚(𝑇 ).
�
19
Proposição 1.25. Seja 𝑉 um espaço vetorial de dimensão 𝑛 > 1 e seja 𝐵 ⊆ 𝑉 . As
seguintes afirmações são equivalentes:
a) 𝐵 é uma base de 𝑉 .
b) Cada elemento de 𝑉 se escreve de maneira única como combinação linear de
elementos de 𝐵.
1.4 VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS
Nessa seção fazemos um breve resumo sobre os conceitos estatísticos univariados,
temos como objetivo definir os principais parâmetros estatísticos de posição e dispersão de
um conjunto de dados. Posteriormente, veremos que tais parâmetros podem ser estendidos
para o caso multivariado. Os resultados aqui apresentados estão disponíveis em Mendes
(2010).
Sejam 𝐸 um experimento aleatório e 𝑆 o espaço amostral associado a esse ex-
perimento. Uma função 𝑋, que associa um número real 𝑥 a cada resultado 𝑠 do espaço
amostral 𝑆, isto é, 𝑋(𝑠) = 𝑥, é denominada variável aleatória. Em algumas situações,
pode ocorrer mais de um resultado 𝑠 do espaço amostral 𝑆 levar a um mesmo valor 𝑥 da
variável aleatória 𝑋. Portanto, usamos a letra maiúscula 𝑋 para representar uma variável
aleatória unidimensional, e a correspondente letra minúscula 𝑥 pode representar os valores
que esta variável aleatória pode tomar.
Se a variável aleatória unidimensional 𝑋 puder tomar um número finito de valores,
ou um número infinito numerável de valores, dizemos que ela é variável aleatória discreta.
Se a variável aleatória unidimensional 𝑋 tomar um número infinito e não enumerável de
valores, ela é dita uma variável aleatória contínua.
1.4.1 Variáveis aleatórias unidimensionais discretas
Seja 𝑋 uma variável aleatória unidimensional discreta. Isso significa que 𝑋 assume
um número finito de valores, ou um número infinito e enumerável de valores.
Para cada valor 𝑥 que a variável aleatória 𝑋 assume será distribuido um número
real, representando a probabilidade de a variável aleatória 𝑋 ser igual ao valor 𝑥. Esta
probabilidade será denotada por 𝑃 (𝑋 = 𝑥) = 𝑝(𝑥). Esses números reais 𝑝(𝑥), como
representam probabilidades, devem satisfazer às seguintes condições:
(a) 0 ≤ 𝑝(𝑥) ≤ 1
(b)
∑︁
𝑥
𝑝(𝑥) = 1
As probabilidades 𝑝(𝑥), para todos os valores 𝑥 que a variável aleatória 𝑋 assume,
formam o que se denomina função de probabilidade da variável aleatória 𝑋.
Para quaisquer valores 𝑎 e 𝑏 teremos 𝑝(𝑎 ≤ 𝑋 ≤ 𝑏) = ∑︁ 𝑝(𝑥), onde o somatório
deve incluir todos os valores possíveis de 𝑋 entre 𝑎 e 𝑏 inclusive.
20
Define-se função 𝑓(𝑥) como função de distribuição acumulada da variável aleatória
discreta 𝑋, para todos os valores possíveis de 𝑋 que a variável aleatória 𝑋 assume, com
𝐹 (𝑥) = 𝑃 (𝑋 ≤ 𝑥).
Exemplo 1.26. Um experimento aleatório consiste em jogar uma moeda duas vezes.
Determinar a função probabilidade e a função de distribuição (acumulada) para a variável
aleatória 𝑋 = número de caras obtido na jogada de uma moeda duas vezes. O espaço
amostral para este experimento é dado por 𝑆 = {𝐶𝐶,𝐶𝐾,𝐾𝐶,𝐾𝐾}, onde 𝐶 = 𝑐𝑎𝑟𝑎
e 𝐾 = 𝑐𝑜𝑟𝑜𝑎; a primeira letra representa a primeira jogada, a segunda letra, segunda
jogada.
Solução: Se 𝑋= número de caras obtido na jogada de uma moeda duas vezes, então é
necessário verificar os valores que esta variável aleatória pode assumir. Portanto, para
cada resultado 𝑠 do espaço amostral 𝑆 precisamos associar um número 𝑥 para 𝑋. Então,
para o resultado ”𝐶𝐶” (duas caras) temos 𝑥 = 2; para ”𝐶𝐾” temos 𝑥 = 1, ”𝐾𝐶” temos
𝑥 = 1, para resultado ”𝐾𝐾” (nenhuma cara) temos 𝑥 = 0. Para determinar a função de
probabilidade da variável aleatória 𝑋, fazemos os cálculos das probabilidades, ou seja,
𝑝(0) = 𝑃 (𝑋 = 0) = 𝑃 (𝐾𝐾) = 14 = 0, 25
𝑝(1) = 𝑃 (𝑋 = 1) = 𝑃 (𝐶𝐾 ⋃︀𝐾𝐶) = 𝑃 (𝐶𝐾) + 𝑃 (𝐾𝐶) = 24 = 12 = 0, 5
𝑝(2) = 𝑃 (𝑋 = 2) = 𝑃 (𝐶𝐶) = 14 = 0, 25
Verificamos que esses valores de 𝑝(𝑥) satisfazem às condições 0 ≤ 𝑝(𝑥) ≤ 1, ∀ 𝑥, e
Σ𝑥𝑝(𝑥) = 1
tão a função probabilidade da variável aleatória 𝑋 representando o número de caras
obtido na jogada de uma moeda duas vezes pode ser colocada na forma de uma tabela
𝑥 0 1 2
𝑝(𝑥) 0, 25 0, 5 0, 25
Em alguns casos, como o da variável aleatória 𝑋 em questão, podemos escrever
uma fórmula de recorrência para a função de probabilidade:
𝑝(𝑥) =
⎛⎝ 2
𝑥
⎞⎠ .0, 25, 𝑥 = 0, 1, 2
Seja 𝐹 (𝑥) = 𝑃 (𝑋 6 𝑥) a função de distribuição acumulada da variável aleatória
X = Número de casos obtido na jogada de uma moeda duas vezes. Então:
𝐹 (0) = 𝑃 (𝑋 6 0) = 𝑝(0) = 0, 25
𝐹 (1) = 𝑃 (𝑋 6 1) = 𝑝(0) + 𝑝(1) = 0, 25 + 0, 5 = 0, 75
𝐹 (2) = 𝑃 (𝑥 6 2) = 𝑝(0) + 𝑝(1) + 𝑝(2) = 0, 25 + 0, 5 + 0, 25 = 1
isto é, 𝐹 (𝑥) = {0, 25 𝑠𝑒 𝑥 = 0, 0, 75 𝑠𝑒 𝑥 = 1 , 1 𝑠𝑒 𝑥 = 2}
21
1.4.2 Variáveis aleatórias unidimensionais contínuas
Seja𝑋 uma variável aleatória unidimensional contínua. Isto significa que𝑋 assume
um número infinito não numerável de valores.
Define-se uma função, denotada por 𝑓(𝑥), e denominada função densidade proba-
bilidade da variávelaleatória 𝑋, representando fisicamente, a curva das probabilidades
de todos os infinitos valores da viariável aleatória 𝑋. Esta função 𝑓(𝑥) deve satisfazer às
seguintes condições:
(a) 𝑓(𝑥) > 0, para todo 𝑥, isto é, 𝑓(𝑥) é valida para todos os valores que a variável
aleatória 𝑋 assume.
(b)
∫︁
𝑥
𝑓(𝑥)𝑑𝑥 = 1, ou seja, a área abaixo de 𝑓(𝑥), em todo o intervalo de validação
da variável aleatória 𝑋, deve ser igual a 1.
Para quaisquer valores a e b pertencentes ao intervalo de validação da variável
aleatória contínua 𝑋, teremos, 𝑃 (𝑎 ≤ 𝑋 ≤ 𝑏) =
∫︁ 𝑏
𝑎
𝑓(𝑥)𝑑𝑥 representando a área abaixo
de 𝑓(𝑥) no intervalo [𝑎, 𝑏].
Assim, teremos 𝑃 (𝑋 = 𝑥) = 0, uma vez que
∫︀ 𝑏
𝑎 𝑓(𝑥)𝑑𝑥 = 0, o que nos leva a ter
𝑃 (𝑎 6 𝑥 6 𝑏) = 𝑃 (𝑎 < 𝑥 6 𝑏) = 𝑃 (𝑎 6 𝑥 < 𝑏) = 𝑃 (𝑎 < 𝑥 < 𝑏).
A função de distribuição acumulada da variável aleatória contínua𝑋, denotada por
𝐹 (𝑥), é dada por 𝐹 (𝑥) no intervalo que compreende desde o limite inferior de validação da
variável aleatória 𝑋 até o valor de interesse 𝑥, consequentemente, 𝑓(𝑥) = 𝑑
𝑑𝑥
𝐹 (𝑥) = 𝐹 ′(𝑥),
para todo 𝑥 no qual 𝐹 (𝑥) seja derivável.
1.4.3 Estatística Univariada
Definição 1.27. Seja uma variável aleatória 𝑋, discreta que assume valores no conjunto
𝑥1, 𝑥2, . . .. Chama-se valor médio ou esperança matemática de 𝑋 o valor
𝜇 = 𝐸(𝑥) = Σ𝑛𝑖=1𝑥𝑖𝑃 (𝑋 = 𝑥𝑖) = Σ𝑛𝑖=1
𝑥𝑖
𝑛
Definição 1.28. Chama-se variância da variável aleatória 𝑋 ao valor
𝜎2 = 𝑉 (𝑋) = 𝐸[𝑋 − 𝐸(𝑋)]2 = Σ𝑛𝑖=1(𝑥𝑖 − 𝜇)2𝑃 (𝑋 = 𝑥𝑖) = Σ𝑛𝑖=1
(𝑥𝑖 − 𝜇)2
𝑛
Definição 1.29. A raiz quadrada da variância da variável aleatória 𝑋 é denominada
desvio padrão e é definido por
𝜎 =
√︁
𝑉 (𝑋)
Uma relação muito importante é
𝑉 (𝑋) = 𝐸(𝑋2)− [𝐸(𝑋)]2,
22
onde 𝐸(𝑋2) = Σ𝑛𝑖=1𝑥2𝑖𝑃 (𝑋 = 𝑥𝑖).
Da mesma forma, se a variável aleatória contínua tem-se a esperança de 𝑋 dada
por
𝐸(𝑋) = 𝜇 =
∫︁ +∞
−∞
𝑥𝑓(𝑥)𝑑𝑥
e a variância é dada por
𝑉 (𝑋) = (𝑋 − 𝜇)2 = 𝜎2 =
∫︁ +∞
−∞
(𝑥− 𝜇)2𝑓(𝑥)𝑑𝑥.
A variância mede a dispersão (espelhamento) dos dados em torno da média 𝜇 =
𝐸(𝑋) e o desvio padrão faz isso também, mas na mesma unidade de medida de dados.
Definição 1.30. Se as variáveis aleatórias 𝑋 e 𝑌 não são independentes. existe uma
diferença entre 𝐸(𝑋𝑌 ) e 𝐸(𝑋)𝐸(𝑌 ), esta diferença é chamada de covariância e definida
por
𝑐𝑜𝑣(𝑋, 𝑌 ) = [𝐸(𝑋 − 𝐸(𝑋))(𝑌 − 𝐸(𝑌 ))]
e se 𝑐𝑜𝑣(𝑋, 𝑌 ) = 0, as variáveis aleatórias são chamadas de não-correlacionadas.
Definição 1.31. A covariância entre as variáveis aleatórias 𝑋 e 𝑌 padronizadas é cha-
mada de coeficiente de correlação
𝜌 = 𝐸[(𝑋 − 𝐸(𝑋)
𝜃𝑥
)(𝑌 − 𝐸(𝑌 )
𝜃𝑦
)]
Proposição 1.32. 𝑐𝑜𝑣(𝑋, 𝑌 ) = 𝐸(𝑋𝑌 )− 𝐸(𝑋)𝐸(𝑌 ).
De fato!
𝑐𝑜𝑣(𝑋, 𝑌 ) = 𝐸[(𝑋 − 𝐸(𝑋))(𝑌 − 𝐸(𝑌 ))]
= 𝐸[𝑋𝑌 −𝑋𝐸(𝑌 )− 𝑌 𝐸(𝑋) + 𝐸(𝑋)𝐸(𝑌 )]
= 𝐸(𝑋𝑌 )− 𝐸(𝑋)𝐸(𝑌 )− 𝐸(𝑌 )𝐸(𝑋) + 𝐸(𝑋)𝐸(𝑌 )
= 𝐸(𝑋𝑌 )− 𝐸(𝑋)𝐸(𝑌 )
Os próximos resultados apresentam propriedades sobre a Esperança e a Variância
de uma variável aleatória unidimensional.
Propriedades da Esperança: Sejam 𝑋 uma variável aleatória e 𝑐 uma constante, então:
i) 𝐸(𝑋1 +𝑋2) = 𝐸(𝑋1) + 𝐸(𝑋2)
ii) 𝐸(𝑐𝑋1) = 𝑐𝐸(𝑋1)
Demonstração:
Sejam 𝑋1 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑎1
𝑎2
...
𝑎𝑚
⎞⎟⎟⎟⎟⎟⎟⎠, 𝑋2 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑏1
𝑏2
...
𝑏𝑚
⎞⎟⎟⎟⎟⎟⎟⎠, 𝑐 ∈ R, 𝑐 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑐1
𝑐2
...
𝑐𝑚
⎞⎟⎟⎟⎟⎟⎟⎠.
23
Como vimos anteriormente, 𝐸(𝑋1) = Σ𝑚𝑖=1
𝑥𝑖
𝑚
.
i) Provaremos que 𝐸(𝑋1 +𝑋2) = 𝐸(𝑋1) + 𝐸(𝑋2).
𝐸
⎛⎜⎜⎜⎜⎜⎜⎝
⎛⎜⎜⎜⎜⎜⎜⎝
𝑎1
𝑎2
...
𝑎𝑚
⎞⎟⎟⎟⎟⎟⎟⎠+
⎛⎜⎜⎜⎜⎜⎜⎝
𝑏1
𝑏2
...
𝑏𝑚
⎞⎟⎟⎟⎟⎟⎟⎠
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐸
⎛⎜⎜⎜⎜⎜⎜⎝
𝑎1 + 𝑏1
𝑎2 + 𝑏2
...
𝑎𝑚 + 𝑏𝑚
⎞⎟⎟⎟⎟⎟⎟⎠
= Σ𝑚𝑖=1
(𝑎𝑖 + 𝑏𝑖)
𝑚
= Σ𝑚𝑖=1
𝑎𝑖
𝑚
+ Σ𝑚𝑖=1
𝑏𝑖
𝑚
= 𝐸(𝑋1) + 𝐸(𝑋2)
.
ii) 𝐸(𝑐𝑋1) = 𝑐𝐸(𝑋1)
𝐸
⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐
⎛⎜⎜⎜⎜⎜⎜⎝
𝑎1
𝑎2
...
𝑎𝑚
⎞⎟⎟⎟⎟⎟⎟⎠
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐸
⎛⎜⎜⎜⎜⎜⎜⎝
𝑐𝑎1
𝑐𝑎2
...
𝑐𝑎𝑚
⎞⎟⎟⎟⎟⎟⎟⎠ = Σ
𝑚
𝑖=1
𝑐𝑎𝑖
𝑚
= 𝑐Σ𝑚𝑖=1
𝑎𝑖
𝑚
= 𝑐𝐸(𝑋1)
Propriedade da Variância: Sejam 𝑋 e 𝑌 variáveis aleatórias e 𝑐 uma constante, então:
∙ i) 𝑉 (𝑐𝑋) = 𝑐2𝑉 (𝑋)
∙ ii) 𝑉 (𝑋) = 𝐸(𝑋2)− [𝐸(𝑋)]2;
∙ iii) 𝑉 (𝑋 + 𝑌 ) = 𝑉 (𝑋) + 𝑉 (𝑌 )
Demonstração:
i) De fato, temos que
V(𝑐𝑋) = 𝑐2𝐸(𝑋2)− 𝑐2[𝐸(𝑋)]2 = 𝑐2V(𝑋).
ii) 𝑉 (𝑋) = 𝐸(𝑋2)− [𝐸(𝑋)]2 quando 𝑋 é uma variável aleatória contínua.
𝑉 (𝑋) =
∫︁ +∞
−∞
(𝑥− 𝜇𝑥)2𝑓(𝑥)𝑑𝑥
=
∫︁ +∞
−∞
(𝑥2 − 2𝑥𝜇𝑥 + 𝜇2𝑥)𝑓(𝑥)𝑑𝑥
=
∫︁ +∞
−∞
𝑥2𝑓(𝑥)𝑑𝑥− 2𝜇𝑥
∫︁ +∞
−∞
𝑥𝑓(𝑥)𝑑𝑥+ 𝜇2𝑥
∫︁ +∞
−∞
𝑓(𝑥)𝑑𝑥
= 𝐸(𝑋2)− 2𝜇𝑥𝐸(𝑋) + 𝜇2𝑥
= 𝐸(𝑋2)− 2𝜇𝑥𝜇𝑥 + 𝜇2𝑥
= 𝐸(𝑋2)− 2𝜇2𝑥 + 𝜇2𝑥
= 𝐸(𝑋2)− 2𝐸(𝑋)2 + 𝐸(𝑋)2
= 𝐸(𝑋2)− 𝐸(𝑋)2
24
iii) 𝑉 (𝑋 + 𝑌 ) = 𝑉 (𝑋) + 𝑉 (𝑌 )
𝑉 (𝑋 + 𝑌 ) = 𝐸[(𝑋 + 𝑌 )2]− [𝐸(𝑋 + 𝑌 )]2
= 𝐸[𝑋2 + 2𝑋𝑌 + 𝑌 2]− [𝐸(𝑋) + 𝐸(𝑌 )]2
= 𝐸(𝑋2) + 2𝐸(𝑋𝑌 ) + 𝐸(𝑌 2)− [𝐸(𝑋)]2 − 2𝐸(𝑋)𝐸(𝑌 )− [𝐸(𝑌 )]2
= 𝐸(𝑋2)− [𝐸(𝑋)]2 + 𝐸(𝑌 2)− [𝐸(𝑌 )]2
𝑉 (𝑋) + 𝑉 (𝑌 )
�
25
2 ANÁLISE MULTIVARIADA
A análise multivariada é um conjunto de técnicas estatísticas que tratam dos dados
correspondentes às medidas de muitas variáveis simultaneamente. Basicamente, a análise
multivariada consiste no estudo estatístico dos problemas relacionados com:
∙ Inferências sobre médias multivariadas;
∙ Análise da estrutura de covariância de uma matriz de dados;
∙ Técnicas de reconhecimento de padrão, classificação e agrupamento.
No estudo de 𝑝 > 1 variáveis, geralmente, toma-se 𝑛 observações de cada variá-
vel para obter informações sobre parâmetros, relacionamentos entre as variáveis, com-
parações, etc. Assim, as medidas registradas são 𝑥𝑖𝑗 com 𝑖 = 1, 2, . . . , 𝑛 (observações) e
𝑗 = 1, 2, . . . , 𝑝 (variáveis) que podem ser agrupadas na matriz de dado 𝑋𝑛×𝑝, com 𝑛 linhas
e 𝑝 colunas.
𝑋𝑛×𝑝 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑋11 𝑋12 . . . 𝑋1𝑝
𝑋21 𝑋22 . . . 𝑋2𝑝
... ... . . . ...
𝑋𝑛1 𝑋𝑛2 . . . 𝑋𝑛𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
A matriz de dados 𝑋𝑛×𝑝 contém 𝑛 observações do vetor aleatório p-dimensional
𝑋 ′ = [𝑋1, 𝑋2, . . . , 𝑋𝑝].
Exemplo 2.1. Uma amostra aleatória composta por 4 notas de vendas de livros de uma
livraria foi obtida a fim de investigar-se a natureza dos livros vendidos. Cada nota fiscal
especifica o número de livros vendidos e o valor de cada venda. Assim seja o vetor aleatório
𝑋 ′ = [𝑋1 𝑋2] cujas componentes são as variáveis aleatórias:
A matriz de dados é
𝑋𝑛×𝑝 =
⎛⎜⎜⎜⎜⎜⎜⎝
42 4
80 5
48 4
36 3
⎞⎟⎟⎟⎟⎟⎟⎠
2.1 ESTATÍSTICA MULTIVARIADA
Muito da informação contida na matriz de dados pode ser dada pelo cálculo de
números sumários conhecidos como estatísticas descritivas.
Definição 2.2 (Vetor Média Amostral). 𝑋 ′ = [𝑋1 𝑋2 . . . 𝑋𝑝], com 𝑋𝑗 =
Σ𝑛𝑖=1𝑥𝑖𝑗
𝑛
, 𝑗 =
1, 2, . . . , 𝑝.
26
Definição 2.3 (Matriz de covariância amostral).
𝑆 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑆11 𝑆12 . . . 𝑆1𝑝
𝑆21 𝑆22 . . . 𝑆2𝑝
... ... . . . ...
𝑆𝑝1 𝑆𝑝2 . . . 𝑆𝑝𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
onde,
𝑆𝑗𝑗 =
Σ𝑛𝑖=1(𝑋𝑖𝑗 −𝑋𝑗)2
𝑛− 1 é a variância da variável aleatória 𝑥𝑗.
𝑆𝑗𝑘 =
Σ𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥𝑗)(𝑥𝑖𝑘 − 𝑥𝑘)
𝑛− 1 𝑗, 𝑘 = 1, 2, . . . , 𝑝 é a covariância entre 𝑥𝑗 e 𝑥𝑘.
Observação 2.4. A matriz de covariância amostral de uma matriz multivariada também
pode ser definida como
𝑉 (𝑋) = 𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′].
Essa definição contribui para demonstração de varias resultados que serão mostra-
dos adiante.
Definição 2.5 (Matriz de correlação amostral).
𝑅 =
⎛⎜⎜⎜⎜⎜⎜⎝
1 𝑟12 . . . 𝑟1𝑝
𝑟21 1 . . . 𝑟2𝑝
... . . . . . . ...
𝑟𝑝1 𝑟𝑝2 . . . 1
⎞⎟⎟⎟⎟⎟⎟⎠
onde, 𝑟𝑗𝑘 =
𝑆𝑗𝑘√︁
𝑆𝑗𝑗
√
𝑆𝑘𝑘
.
Exemplo 2.6. Considere os dados do Exemplo 3.1. Então:
a) O vetor média amostral.
𝑋 ′ = [51, 5 4]
b) A matriz de covariânciaamostral.
𝑆 =
⎛⎝ 385 14, 66
14, 66 0, 66
⎞⎠
c) A matriz de correlação amostral R.
𝑅 =
⎛⎝ 1 0, 915475..
0, 915475.. 1
⎞⎠
Proposição 2.7. Sejam 𝑋 =
⎛⎝ 𝑥1 𝑦1
𝑥1 𝑦2
⎞⎠ e 𝜇 =
⎛⎝ 𝜇1 𝜇2
𝜇1 𝜇2
⎞⎠. Defina 𝑋−𝜇 =
⎛⎝ 𝑥1 − 𝜇1 𝑦1 − 𝜇2
𝑥2 − 𝜇1 𝑦2 − 𝜇2
⎞⎠
e 𝑐′ =
(︁
𝑐1 𝑐2
)︁
. Então
𝑐′(𝑋 − 𝜇) = 𝑐′𝑋 − 𝑐′𝜇.
27
Demonstração:
𝑐′(𝑋 − 𝜇) = 𝑐′ =
(︁
𝑐1 𝑐2
)︁⎛⎝ 𝑥1 − 𝜇1 𝑦1 − 𝜇2
𝑥2 − 𝜇1 𝑦2 − 𝜇2
⎞⎠
= [𝑐1(𝑥1 − 𝜇1) + 𝑐2(𝑥2 − 𝜇1) 𝑐1(𝑦1 − 𝜇2) + 𝑐2(𝑦2 − 𝜇2)]
= [(𝑐1𝑥1 + 𝑐2𝑥2) + (−𝑐1𝜇1 − 𝑐2𝜇1) (𝑐1𝑦1 + 𝑐2𝑦2) + (−𝑐1𝜇2 − 𝑐2𝜇2)]
= [𝑐1𝑥1 + 𝑐2𝑥2 𝑐1𝑦1 + 𝑐2𝑦2] + [−𝑐1𝜇1 − 𝑐2𝜇1 − 𝑐1𝜇2 − 𝑐2𝜇2]
=
(︁
𝑐1 𝑐2
)︁⎛⎝ 𝑥1 𝑦1
𝑥1 𝑦2
⎞⎠− [(𝑐1 + 𝑐2)𝜇1 (𝑐1 + 𝑐2)𝜇2]
= 𝑐′ 𝑋 − [𝑐1𝜇1 + 𝑐2𝜇1 𝑐1𝜇2 + 𝑐2𝜇2]
= 𝑐′ 𝑋 −
(︁
𝑐1 𝑐2
)︁⎛⎝ 𝜇1 𝜇2
𝜇1 𝜇2
⎞⎠ = 𝑐′ 𝑋 − 𝑐′ 𝜇
De forma análoga mostra-se que (𝑋 − 𝜇)′𝑐 = (𝑐′ 𝑋 − 𝑐′ 𝜇)′
�
Proposição 2.8 (Propriedades). Sejam 𝑋 uma matriz multivariada, 𝑐 uma constante e
𝑐′ um vetor de constantes, então:
i) 𝐸(𝑐𝑋) = 𝑐𝐸(𝑋);
ii) 𝐸(𝑐′𝑋) = 𝑐′𝐸(𝑋);
iii) 𝑉 (𝑐𝑋) = 𝑐2𝑉 (𝑋);
iv) 𝑉 (𝑐′𝑋) = 𝑐′𝑉 (𝑋)𝑐.
Demonstração: Sejam 𝑐 ∈ R uma constante, 𝑐′ = [𝑐11 𝑐12 𝑐1𝑝] onde 𝑐𝑖𝑗 ∈ R; 𝑋 =⎛⎜⎜⎜⎜⎜⎜⎝
𝑋1
𝑋2
...
𝑋𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ e 𝐸(𝑋) = [𝜇1 𝜇2 . . . 𝜇𝑝] onde 𝜇𝑖 = Σ
𝑚
𝑖=1
𝑥𝑖
𝑚
. Então,
i) 𝐸(𝑐𝑋) = 𝑐𝐸(𝑋)
𝐸(𝑐𝑋) = 𝐸
⎡⎢⎢⎢⎢⎢⎢⎣𝑐
⎛⎜⎜⎜⎜⎜⎜⎝
𝑋1
𝑋2
...
𝑋𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
⎤⎥⎥⎥⎥⎥⎥⎦ = 𝐸
⎡⎢⎢⎢⎢⎢⎢⎣
⎛⎜⎜⎜⎜⎜⎜⎝
𝑐𝑋1
𝑐𝑋2
...
𝑐𝑋𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
⎤⎥⎥⎥⎥⎥⎥⎦ =
⎛⎜⎜⎜⎜⎜⎜⎝
𝐸[𝑐𝑋1]
𝐸[𝑐𝑋2]
...
𝐸[𝑐𝑋𝑝]
⎞⎟⎟⎟⎟⎟⎟⎠ =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑐𝐸[𝑋1]
𝑐𝐸[𝑋2]
...
𝑐𝐸[𝑋𝑝]
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑐
⎡⎢⎢⎢⎢⎢⎢⎣
𝐸(𝑋1)
𝐸(𝑋2)
...
𝐸(𝑋𝑝)
⎤⎥⎥⎥⎥⎥⎥⎦ = 𝑐
′𝐸(𝑋).
ii) Queremos demonstrar que 𝐸(𝑐′𝑋) = 𝑐′𝐸(𝑋).
𝐸(𝑐′𝑋) = 𝐸
⎡⎢⎢⎢⎢⎢⎢⎣
(︁
𝑐11 𝑐12 . . . 𝑐1𝑝
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝑋1
𝑋2
...
𝑋𝑚
⎞⎟⎟⎟⎟⎟⎟⎠
⎤⎥⎥⎥⎥⎥⎥⎦ = 𝐸[𝑐11𝑋1 + 𝑐12𝑋2 + . . .+ 𝑐1𝑝𝑋𝑝] =
28
𝐸[𝑐11𝑋1] + 𝐸[𝑐12𝑋2] + . . .+ 𝐸[𝑐1𝑝𝑋𝑝] = 𝑐11𝐸(𝑋1) + 𝑐12𝐸(𝑋2) + . . .+ 𝑐1𝑝𝐸(𝑋𝑝) =
[𝑐11 𝑐12 𝑐1𝑝]
⎡⎢⎢⎢⎢⎢⎢⎣
𝐸(𝑋1)
𝐸(𝑋2)
...
𝐸(𝑋𝑝)
⎤⎥⎥⎥⎥⎥⎥⎦ = 𝑐
′𝐸(𝑋).
iii) 𝑉 (𝑐𝑋) = 𝑐2𝑉 (𝑋) onde 𝑉 (𝑋) = 𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′].
𝑉 (𝑐𝑋) = 𝐸[(𝑐𝑋 − 𝑐𝜇)(𝑐𝑋 − 𝑐𝜇)′] = 𝐸[𝑐(𝑋 − 𝜇)𝑐(𝑋 − 𝜇)′] = 𝐸[𝑐2(𝑋 − 𝜇)(𝑋 − 𝜇)′] =
𝑐2𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′] = 𝑐2𝑉 (𝑋)
iv) 𝑉 (𝑐′𝑋) = 𝑐′𝑉 (𝑋)𝑐
𝑉 (𝑐′𝑋) = 𝐸[(𝑐′ 𝑋 − 𝑐′ 𝜇)(𝑐′ 𝑋 − 𝑐′ 𝜇)′] = 𝐸[𝑐′(𝑋 − 𝜇) [𝑐′(𝑋 − 𝜇)]′]
= 𝐸[𝑐′(𝑋 − 𝜇) (𝑋 − 𝜇)′𝑐] = 𝑐′ 𝐸[(𝑋 − 𝜇) (𝑋 − 𝜇)′]𝑐 = 𝑐′𝑉 (𝑋)𝑐.
�
2.2 TEOREMA ESPECTRAL
Os métodos de análise multivariada que apresentaremos nos próximos capítulos
exigem o conhecimento de propriedades das matrizes reais simétricas. Essa necessidade
vem do fato de trabalharmos constantemente com as covariâncias e correlações das variá-
veis aleatórias envolvidas na análise, e, consequentemente, com suas matrizes de covari-
ância e de correlação, que são obrigatoriamente simétricas.
Os conceitos algébricos apresentados nessa seção fogem ao escopo do trabalho e por
esse motivo suas demonstrações serão omitidas, no entanto, tantos os resultados quanto
suas demonstrações podem ser encontrados em Steven (2011).
2.2.1 Matrizes Hermitianas
Seja 𝑀 = (𝑚𝑖𝑗) uma matriz 𝑛𝑥𝑛 com 𝑚𝑖𝑗 = 𝑎𝑖𝑗 + 𝑖𝑏𝑖𝑗 para todo 𝑖 e 𝑗. Podemos
escrever 𝑀 sob a forma
𝑀 = 𝐴+ 𝑖𝐵
onde 𝐴 = (𝑎𝑖𝑗)𝑒𝐵 = (𝑏𝑖𝑗) tem elementos reais. Definimos a conjugada de M como
𝑀 = 𝐴− 𝑖𝐵
29
Logo, 𝑀 é a matriz formada fazendo o conjugado de cada elementos de 𝑀 . A transposta
de 𝑀 será escrita 𝑀𝐻 . O espaço vetorial de todas as matrizes 𝑚 × 𝑛 com elementos
complexos é escrito C𝑚𝑥𝑛. Se 𝐴 e 𝐵 são elementos de C𝑚𝑥𝑛 e 𝐶 ∈ C𝑛𝑥𝑟, então as seguintes
regras são verificadas:
1. (𝐴𝐻)𝐻 = 𝐴
2. (𝛼𝐴+ 𝛽𝐵)𝐻 = 𝛼𝐴𝐻 + 𝛽𝐵𝐻
3. (𝐴𝐶)𝐻 = 𝐶𝐻𝐴𝐻
Definição 2.9. Uma matriz 𝑀 é dita hermanita se 𝑀 =𝑀𝐻 .
Exemplo 2.10. A matriz
𝑀 =
⎛⎝ 3 2− 𝑖
2 + 𝑖 4
⎞⎠
é hermitiana, pois
𝑀𝐻 =
⎛⎝ 3 2− 𝑖
2 + 𝑖 4
⎞⎠𝑇 =
⎛⎝ 3 2− 𝑖
2 + 𝑖 4
⎞⎠ =𝑀
Se 𝑀 é uma matriz com elementos reais, então 𝑀𝐻 = 𝑀𝑇 . Em particular, se
𝑀 é uma matriz real simétrica, então 𝑀 é hermitiana. Então, podemos encarar as ma-
trizes hermitianas como o análogo complexo das matrizes reais simétricas. As matrizes
hermitianas tem muitas propriedades interessantes, como veremos no próximo teorema.
Teorema 2.11. Os autovalores de uma matriz hermitiana são todas reais. Além disso,
autovetores associados a diferentes autovalores são ortogonais.
Definição 2.12. Uma matriz 𝑛 × 𝑛, 𝑈 , é dita unitária se seus vetores coluna formam
um conjunto ortonormal em C𝑛
Corolário 2.13. Se os autovalores de uma matriz hermitiana 𝐴 são distintos, então
existe uma matriz unitária 𝑈 que diagonaliza 𝐴.
Teorema 2.14 (Teorema de Schur). Para cada matriz 𝑛 × 𝑛, 𝐴, existe uma matriz
unitária 𝑈 tal que 𝑈𝐻𝐴𝑈 é triangular superior.
Teorema 2.15 (Teorema Espectral). Se 𝐴 é hermanitiana, então existe uma matriz
unitária 𝑈 que diagonaliza 𝐴.
Demonstração: Pelo teorema 3.6, existe uma matriz unitária 𝑈 tal que 𝑈𝐻𝐴𝑈 = 𝑇 , na
qual 𝑇 é triangular superior. Além disso,
𝑇𝐻 = (𝑈𝐻𝐴𝑈)𝐻 = 𝑈𝐻𝐴𝐻𝑈 = 𝑈𝐻𝐴𝑈 = 𝑇
Portanto, 𝑇 é hermitiana e consequentemente deve ser diagonal.
30
�
No caso de uma matriz real simétrica, a matriz diagonalizante 𝑈 será uma matriz
ortogonal. O exemplo a seguir mostra como determinar a matriz 𝑈 .
Exemplo 2.16. Dada
𝐴 =
⎛⎜⎜⎜⎝
0 2 −1
2 3 −2
−1 −2 0
⎞⎟⎟⎟⎠
encontre uma matriz ortogonal 𝑈 que diagonaliza 𝐴.
Solução: O polinômio caracteristico
𝑝(𝜆) = −𝜆3 + 3𝜆2 + 9𝜆+ 5 = (1 + 𝜆)2(5− 𝜆)
tem raízes 𝜆1 = 𝜆2 = −1 e 𝜆3 = 5. Calculando os autovetores, vemos que 𝑥1 = (1, 0, 1)𝑇
e 𝑥2 = (−2, 1, 0)𝑇 formam uma base para para o autoespaço 𝑁(𝐴+ 𝐼). Podemos aplicar o
processo de Gram-Schmidt para obter uma base ortonormal para o autoespaço correspon-
dente a 𝜆1 = 𝜆2 = −1.
𝑢1 =
1
||𝑥1||𝑥1 =
1√
2
(1, 0, 1)𝑇
𝑝 = (𝑥𝑇2 𝑢1)𝑢1 = −
√
2𝑢1 = (−1, 0, 1)𝑇
𝑥2 − 𝑝 = (−1, 1, 1)𝑇
𝑢2 =
1
||𝑥2 − 𝑝||(𝑥2 − 𝑝) =
1√
3
(−1, 1, 1)𝑇
O autoespaço correspondente a 𝜆3 = 5 é coberto por 𝑥3 = (−1,−2, 1)𝑇 . Como 𝑥3 deve ser
ortogonal a 𝑢1 e 𝑢2, precisamos somente normalizar
𝑢3 =
1
||𝑥3||𝑥3 =
1√
6
(−1,−2, 1)𝑇
Logo, 𝑢1, 𝑢2, 𝑢3 é um conjunto ortonormal e
𝑈 =
⎛⎜⎜⎜⎝
1√
2 − 1√3 − 1√6
0 1√3 − 2√6
1√
2
1√
3
1√
6
⎞⎟⎟⎟⎠
diagonaliza 𝐴.
Teorema 2.17 (A decomposição Real de Schur). Se 𝐴 é uma matriz 𝑛×𝑛 com elementos
reais, então 𝐴 pode ser fatorada em um produto 𝑄𝑇𝑄𝑇 , no qual 𝑄 é uma matriz ortogonal
e 𝑇 está na forma de Schur.
Demonstração: No caso de 𝑛 = 2 se os autovalores de 𝐴 são reais, nós podemos fazer
𝑞1 um autovetor unitário associado ao primeiro autovalor 𝜆1 e fazer 𝑞2 qualquer vetor
31
unitário ortogonal a 𝑞1. Se fizermos 𝑄 = (𝑞1, 𝑞2) então 𝑄 é uma matriz ortogonal. Se
fizermos 𝑇 = 𝑄𝑇𝐴𝑄, então a primeira coluna de 𝑇 é
𝑄𝑇𝐴𝑞1 = 𝜆1𝑄𝑇 𝑞1 = 𝜆1𝑒1
Assim, 𝑇 é triangular superior e 𝐴 = 𝑄𝑇𝑄𝑇 . Se os autovalores de 𝐴 são complexos,
então simplismente definimos 𝑇 = 𝐴 e 𝑄 = 𝐼. Então, toma matriz 2 × 2 real tem uma
decomposição de Schur real. Agora seja 𝐴 uma matriz 𝑘 × 𝑘 em que 𝑘 ≥ 3 e suponha-se
que, para 2 ≤ 𝑚 < 𝑘, cada matriz 𝑚×𝑚 real tem uma decomposição de Schur. Seja 𝜆1
um autovalor de 𝐴. Se 𝜆1 é real, seja 𝑞1 um autovetor unitário associado a 𝜆1 e escolham-se
𝑞2, 𝑞3, . . . , 𝑞𝑛 de modo que 𝑄1 = (𝑞1, 𝑞2, . . . , 𝑞𝑛) seja uma matriz ortogonal. Tal como na
prova do Teorema de Schur, segue-se da primeira coluna de 𝑄𝑇1𝐴𝑄1 será 𝜆1𝑒1. No caso
em que 𝜆1 é complexo, seja 𝑧 = 𝑥 + 𝑖𝑦 (emque 𝑥 e 𝑦 são reais) um autovetor associado
a 𝜆1 e seja 𝑆 = 𝐶𝑜𝑏(𝑥, 𝑦), então 𝑑𝑖𝑚𝑆 = 2 e 𝑆 é invariante sobre A. Seja 𝑞1, 𝑞2 uma base
ortonormal para 𝑆. Escolha 𝑞1, 𝑞2, . . . , 𝑞𝑛 para que 𝑄1 = (𝑞1, 𝑞2, . . . , 𝑞𝑛) seja uma matriz
ortogonal. Desde que 𝑆 é invariante sob 𝐴, segue-se que
𝐴𝑞1 = 𝑏11𝑞1 + 𝑏21𝑞2
e
𝐴𝑞2 = 𝑏12𝑞1 + 𝑏22𝑞2
para alguns escalares 𝑏11, 𝑏21, 𝑏12, 𝑏22 e, portanto, as duas primeiras colunas de 𝑄𝑇1𝐴𝑄1
serão
(𝑄𝑇1𝐴𝑞1, 𝑄𝑇1𝐴𝑞2) = (𝑏11𝑒1 + 𝑏21𝑒2, 𝑏12𝑒1 + 𝑏22𝑒2)
Assim, em geral, 𝑄𝑇1𝐴𝑄1 será uma matriz em blocos
𝑄𝑇1𝐴𝑄1 =
⎛⎝ 𝐵1 𝑋
𝑂 𝐴1
⎞⎠
onde
𝐵1 = (𝜆1) 𝑒𝐴1 é (𝑘 − 1)× (𝑘 − 1) 𝑠𝑒 𝜆1 é 𝑟𝑒𝑎𝑙
𝐵1 é 2× 2 𝑒𝐴1 é (𝑘 − 2)× (𝑘 − 2) 𝑠𝑒 𝜆1 é 𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑜
Em ambos os casos, podemos aplicar nossa hipótese de indução a 𝐴1 e obter uma decom-
posição de Schur 𝐴1 = 𝑈𝑇1𝑈𝑇 . Vamos supor que a forma de Schur 𝑇1 tem 𝑗 − 1 blocos
diagonais, 𝐵2, 𝐵3, . . . , 𝐵𝑗. Se fizermos
𝑄2 =
⎛⎝ 𝐼 𝑂
𝑂 𝑄1
⎞⎠ 𝑒𝑄 = 𝑄1𝑄2
então tanto 𝑄1 quanto 𝑄2 são matrizes ortogonais 𝑘× 𝑘. Se, em seguida, definirmos 𝑇 =
𝑄𝑇𝐴𝑄, obtermos uma matriz na fórmula de Schur, e segue-se que 𝐴 terá decomposição
de Schur 𝑄𝑇𝑄𝑇 .
32
�
No caso em que todos os autovalores e 𝐴 são reais, a forma real de Schur 𝑇 será
triangular superior. No caso em que 𝐴 é real e simétrica, então, uma vez que todo os
autovalores de 𝐴 são reais 𝑇 deve ser triangular superior, porém, neste caso 𝑇 também
deve ser simétrica. Então, vamos acabar com a diagonalização de 𝐴. Assim, para matrizes
simétricas reais, temos a seguinte versão do Teorema Espectral.
Corolário 2.18 (Teorema Espectral - Matrizes Simétricas Reais). Se 𝐴 é uma matriz real
simétrica, então existe uma matriz ortogonal 𝑄 que diagonaliza 𝐴, isto é, 𝑄𝑇𝐴𝑄 = 𝐷,
na qual 𝐷 é diagonal.
No exemplo 2.16 vimos como utilizar os autovetores para determinar as matrizes
ortogonal 𝑄. Da equação 𝑄𝑇𝐴𝑄 = 𝐷 é possível motrar que 𝐷 é gerada pelos autovalores
da matriz simétrica 𝐴. No próximo capitulo denotaremos como 𝑃 uma matriz gerada
pelos autovetores normalizados da matriz de covariância 𝑉 (𝑋) e de Λ um matriz diagonal
formada pelos autovalores de 𝑉 (𝑋).
A análise de componentes principais que sera apresentada no próximo capítulo
exige o cálculo dos autovalores e autovetores a partir da matriz de covariância ou de cor-
relação. O próximo teorema afirma que se os autovalores forem todos positivos, podemos
concluir que a matriz de covariância ou de correlação é positiva definida.
Teorema 2.19. Seja 𝐴 uma matriz real simétrica 𝑛× 𝑛. Então, 𝐴 é positiva definida se
e somente se todos os seus autovalores são positivos.
2.3 COMPONENTES PRINCIPAIS
A análise de componentes principais é um método utilizado para reorganizar um
conjunto de variáveis em um novo conjunto. Ela procura explicar a estrutura de variância-
covariância da matriz de dados através de combinações lineares não correlacionados das
𝑝 variáveis originais. As variáveis do novo conjunto são chamadas de componentes e são
geradas de forma que o primeiro componente contenha a maior parcela possível da infor-
mação originalmente existente. O segundo componente, contém menos informação que o
primeiro e mais que os subsequentes, assim sucessivamente. O número de componentes
principais é sempre igual ao número de variáveis originais. Portanto os objetivos da Aná-
lise de Componentes Principais são: redução de dados; obtenção de variáveis aleatórias
não correlacionadas e interpretação.
2.3.1 Componentes Principais da População
Algebricamente componentes principais são combinações lineares particulares das
𝑝 variáveis aleatórias 𝑋1, 𝑋2, . . . , 𝑋𝑝. Geometricamente estas combinações lineares repre-
sentam a seleção de um novo sistema de coordenadas obtido por rotação do sistema
33
original com 𝑋1, 𝑋2, . . . , 𝑋𝑝 como eixos. Os novos eixos 𝑌1, 𝑌2, . . . , 𝑌𝑝 representam as di-
reções com variabilidade máxima e fornecem uma descrição mais simples da estrutura de
covariância (JOHNSON; WICHERN, 1987).
As componentes principais dependem da matriz de covariâncias 𝜎 (ou da matriz de
correlação 𝜌) das variavéis aleatórias 𝑋1, 𝑋2, ..., 𝑋𝑝. O seu desenvolvimento não necessita
da suposição de Gaussianidade.
Seja o vetor aleatório 𝑋 ′ = [𝑋1, 𝑋2, . . . , 𝑋𝑝], com vetor de médias 𝜇 = 𝐸(𝑋) e
matriz de covariância Σ = 𝑉 (𝑋), com autovalores 𝜆1 ≥ 𝜆2 ≥ . . . ≥ 𝜆𝑝 ≥ 0. Considere as
combinações lineares
𝑌1 = 𝑐′1𝑋 = 𝑐11𝑋1 + 𝑐21𝑋2 + . . .+ 𝑐𝑝1𝑋𝑝
𝑌2 = 𝑐′2𝑋 = 𝑐12𝑋1 + 𝑐22𝑋2 + . . .+ 𝑐𝑝2𝑋𝑝
...
𝑌𝑝 = 𝑐′𝑝𝑋 = 𝑐1𝑝𝑋1 + 𝑐2𝑝𝑋2 + . . .+ 𝑐𝑝𝑝𝑋𝑝
𝑐𝑝×𝑝 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑐11 𝑐12 . . . 𝑐𝑝1
𝑐12 𝑐22 . . . 𝑐𝑝2
... ... . . . ...
𝑐1𝑝 𝑐2𝑝 . . . 𝑐𝑝𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
Então, 𝑌 =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑌1
𝑌2
...
𝑌𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ =
⎛⎜⎜⎜⎜⎜⎜⎝
𝑐11 𝑐12 . . . 𝑐𝑝1
𝑐12 𝑐22 . . . 𝑐𝑝2
... ... . . . ...
𝑐1𝑝 𝑐2𝑝 . . . 𝑐𝑝𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
⎛⎜⎜⎜⎜⎜⎜⎝
𝑋1
𝑋2
...
𝑋𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑐𝑝×𝑝𝑋.
Proposição 2.20. Seja 𝑋 uma matriz multivariada e 𝑐𝑖 um vetor de constantes com
dimensões apropriadas, então 𝑉 (𝑌𝑖) = 𝑐′𝑖𝑉 (𝑋)𝑐𝑖.
Demonstração:
𝑉 (𝑌𝑖) = 𝑉 (𝑐′𝑖 𝑋) = 𝐸[(𝑐′𝑖 𝑋 − 𝑐′𝑖 𝜇)(𝑐′𝑖 𝑋 − 𝑐′𝑖 𝜇)′] = 𝐸[𝑐′𝑖(𝑋 − 𝜇)(𝑋 − 𝜇)′𝑐𝑖] =
𝑐′𝑖𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]𝑐𝑖 = 𝑐′𝑖 𝑉 (𝑋) 𝑐𝑖
�
O próximo resultado afirma que o máximo que uma forma quadrática para pontos
na esfera unitária pode assumir, a partir de uma matriz simétrica 𝐵, é exatamente o valor
do maior autovalor relacionado aos seus autovetores.
34
Proposição 2.21 (Maximização de formas quadráticas para pontos na esfera unitá-
ria). Seja a matriz 𝐵 de ordem 𝑝 × 𝑝 simétrica positiva definida com autovalores 𝜆1 >
𝜆2 > . . . > 𝜆𝑝 > 0 e com os respectivos autovetores padronizados 𝑒1, 𝑒2, . . . , 𝑒𝑝. Então, o
𝑚á𝑥 𝑥
′ 𝐵 𝑥
𝑥′ 𝑥
= 𝜆1 que é alcançado em 𝑥 = 𝑒1 e o 𝑚í𝑛
𝑥′ 𝐵 𝑥
𝑥′ 𝑥
= 𝜆𝑝 que é alcançado em
𝑥 = 𝑒𝑝.
Demonstração: Como 𝐵 é positiva definida, temos que 𝑥𝐵𝑥′ > 0 ∀ 𝑥 ̸= 0. Como 𝐵
é simétrica, pelo Teorema da Decomposição Expectral 2.18 podemos escrever 𝐵 = 𝑃Λ𝑃 ′,
onde 𝑃 é uma matriz ortogonal normalizada, formada pelos autovetores e 𝐵 e Λ é uma
matriz diagonal formada pelos autovalores de 𝐵. Assim note que,
sd(𝑃Λ 12𝑃 ′)(𝑃Λ 12𝑃 ′) = 𝑃Λ 12𝑃 ′𝑃Λ 12𝑃 ′ = 𝑃Λ 12 𝐼Λ 12𝑃 ′ = 𝑃Λ𝑃 ′ = 𝐵 ⇒ (𝑃Λ 12𝑃 ′)2 =
𝐵 ⇒ 𝐵 12 = 𝑃Λ 12𝑃 ′ onde
Λ 1
2
=
⎛⎜⎜⎜⎜⎜⎜⎝
√
Λ1 0 0 0
0
√
Λ2 0 0
0 0 . . . 0
0 0 0
√︁
Λ𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
Assim, 𝑥
′ 𝐵 𝑥
𝑥′ 𝑥
= 𝑥
′ 𝐵
1
2𝐵
1
2 𝑥
𝑥′ 𝑃𝑃 ′𝑥
= 𝑥
′ 𝑃Λ 12𝑃 ′𝑃Λ 12𝑃 ′𝑥
𝑥′𝑃𝑃 ′𝑥
= 𝑥
′ 𝑃Λ𝑃 ′ 𝑥
𝑥′ 𝑃𝑃 ′𝑥
= 𝑌
′Λ𝑌
𝑌 ′ 𝑌
=
𝑝∑︁
𝑖=1
𝜆𝑖𝑦
2
𝑖
𝑝∑︁
𝑖=1
𝑦2𝑖
. Isso ocorre, pois
(︁
𝑦1 𝑦2 . . . 𝑦𝑝
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝜆1 0 . . . 0
0 𝜆2 0 0
... 0 . . . 0
0 0 0 𝜆𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
⎛⎜⎜⎜⎜⎜⎜⎝
𝑦1
𝑦2
...
𝑦𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ =
(︁
𝑦1 𝑦2 . . . 𝑦𝑝
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝜆1𝑦1
𝜆2𝑦2
...
𝜆𝑝𝑦𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑦
2
1𝜆1 + 𝑦22𝜆2 + . . .+ 𝑦2𝑝𝜆𝑝
Então,
𝑝∑︁
𝑖=1
𝜆𝑖𝑦
2
𝑖
𝑝∑︁
𝑖=1
𝑦2𝑖
<
𝑝∑︁
𝑖=1
𝜆1𝑦
2
𝑖
𝑝∑︁
𝑖=1
𝑦2𝑖
= 𝜆1
𝑝∑︁
𝑖=1
𝑦2𝑖
𝑝∑︁
𝑖=1
𝑦2𝑖
= 𝜆1.
Fazendo, 𝑥 = 𝑒1 tem-se 𝑦 = 𝑃 ′𝑒1 =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
1
0
0
...
0
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
e substituindo, temos
35
𝐵 =
𝑒′1 𝐵 𝑒1
𝑒′1 𝑒1
= 𝑌
′Λ𝑌
𝑌 ′ 𝑌
=
𝑒′1 𝑃Λ𝑃 ′ 𝑒1
𝑒′1𝑃𝑃 ′𝑒1
=
(︁
1 0 0 . . . 0
)︁
Λ
(︁
1 0 0 . . . 0
)︁′
(︁
1 0 0 . . . 0
)︁ (︁
1 0 0 . . . 0
)︁′ =
𝜆1
1 = 𝜆1. Pois,
(︁
1 0 0 . . . 0
)︁
Λ
(︁
1 0 0 . . . 0
)︁′
=
(︁
1 0 0 . . . 0
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝜆1 0 . . . 0
0 𝜆2 0 0
... 0 . . . 0
0 0 0 𝜆𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
⎛⎜⎜⎜⎜⎜⎜⎝
1
0
...
0
⎞⎟⎟⎟⎟⎟⎟⎠ =
(︁
1 0 0 . . . 0
)︁
⎛⎜⎜⎜⎜⎜⎜⎝𝜆1
0
...
0
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝜆1
Analogamente, mostra-se 𝑥
′ 𝐵 𝑥
𝑥′ 𝑥
= 𝜆𝑝 em 𝑥 = 𝑒𝑝.
Como visto 𝑥𝐵𝑥′ > 0 é positiva definida e como 𝐵 é simétrica pelo TDE, podemos
escrever 𝐵 = 𝑃Λ𝑃 ′ e 𝐵 12 = 𝑃Λ 12𝑃 ′. Assim,
𝑥′ 𝐵 𝑥
𝑥′ 𝑥
= 𝑥
′𝑃Λ 12𝑃 ′𝑃Λ 12𝑃 ′𝑥
𝑥′ 𝑃𝑃 ′𝑥
= 𝑥
′ 𝑃Λ𝑃 ′𝑥
𝑥′𝑃𝑃 ′𝑥
= 𝑌
′Λ𝑌
𝑌 ′ 𝑌
=
(︁
𝑦1 𝑦2 . . . 𝑦𝑝
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝜆1 0 . . . 0
0 𝜆2 0 0
... 0 . . . 0
0 0 0 𝜆𝑝
⎞⎟⎟⎟⎟⎟⎟⎠
⎛⎜⎜⎜⎜⎜⎜⎝
𝑦1
𝑦2
...
𝑦𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ =
(︁
𝑦1 𝑦2 . . . 𝑦𝑝
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝜆1𝑦1
𝜆2𝑦2
...
𝜆𝑝𝑦𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑦
2
1𝜆1 + 𝑦22𝜆2 + . . .+ 𝑦2𝑝𝜆𝑝
então, 𝑌
′Λ𝑌
𝑌 ′ 𝑌
=
𝑝∑︁
𝑖=1
𝜆𝑖𝑦
2
𝑖
𝑝∑︁
𝑖=1
𝑦2𝑖
>
𝑝∑︁
𝑖=1
𝜆𝑝𝑦
2
𝑖
𝑝∑︁
𝑖=1
𝑦2𝑖
= 𝜆𝑝.
Fazendo 𝑥 = 𝑒𝑝, tem-se 𝑦 = 𝑃 ′𝑒𝑝 =
(︁
0 0 . . . 1
)︁′
, substituindo temos
𝑒′𝑝 𝐵 𝑒𝑝
𝑒′𝑝 𝑒𝑝
= 𝑌
′Λ𝑌
𝑌 ′ 𝑌
=
𝑒′𝑝 𝑃Λ𝑃 ′ 𝑒𝑝
𝑒′𝑝𝑃𝑃 ′𝑒𝑝
=
(︁
0 0 . . . 1
)︁′
Λ
(︁
0 0 . . . 1
)︁
(︁
0 0 . . . 1
)︁′ (︁
0 0 . . . 1
)︁ = 𝜆𝑝1 = 𝜆𝑝.
�
Do resultado anterior podemos afirmar que 𝑚á𝑥
{︃
𝑥′ Σ 𝑥
𝑥′ 𝑥
}︃
= 𝜆1 com 𝑥 = 𝑒1,
pois a matriz Σ satisfaz as condições de 2.21, por esse motivo definimos as componentes
principais como sendo 𝑌𝑖 = 𝑒′𝑖𝑋. Desse forma a primeira componente principal possui
variância máxima igual a 𝜆1. De fato!
36
𝑉 (𝑌𝑖) = 𝑉 (𝑒′𝑖𝑋) = 𝑒′𝑖𝑉 (𝑋)𝑒𝑖 =
𝑒′𝑖Σ𝑒𝑖
𝑒′𝑖𝑒𝑖
, mostremos que Σ𝑒𝑘 = 𝜆𝑘𝑒𝑘.
Σ𝑒𝑘 = 𝑃Λ𝑃 ′ = 𝑃Λ(𝑃 ′𝑒𝑘) = 𝑃Λ
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
0
0
...
1
...
0
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
= 𝑃
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
0
0
...
𝜆𝑘
...
0
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
=
(︁
𝑒1 𝑒2 . . . 𝑒𝑘 𝑒𝑝
)︁
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
0
0
...
𝜆𝑘
...
0
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
=
𝜆𝑘𝑒𝑘.
Portanto, 𝑉 (𝑌𝑖) = 𝑒′𝑖 Σ 𝑒𝑖, logo
𝑉 (𝑌1) = 𝑒′1 Σ 𝑒1 =
(︁
𝑒11 𝑒21 . . . 𝑒𝑝1
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝑒11𝜆1
𝑒21𝜆1
...
𝑒𝑝1𝜆1
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑒11𝑒11𝜆1 + 𝑒21𝑒21𝜆1 + · · ·+ 𝑒𝑝1𝑒𝑝1𝜆1
= 𝜆1[𝑒11𝑒11 + 𝑒21𝑒21 + · · ·+ 𝑒𝑝1𝑒𝑝1].
= 𝜆1(𝑒′1, 𝑒1) = 𝜆1 .1 = 𝜆1.
�
O próximo resultado mostra que se as componentes principais são definidas da
forma 𝑌𝑖 = 𝑒′𝑖𝑋, então elas são não correlacionadas.
Proposição 2.22. Sejam 𝑌𝑖 e 𝑌𝑘 componentes principais da matriz de covariância Σ =
𝑉 (𝑋), então 𝐶𝑜𝑣(𝑌𝑖, 𝑌𝑘) = 0
Demonstração: Como 𝑌𝑖 = 𝑒′𝑖 𝑋, então
𝑐𝑜𝑣(𝑒′𝑖 𝑋, 𝑒′𝑘 𝑋) = 𝐸[(𝑒′𝑖 𝑋 − 𝑒′𝑖 𝜇)(𝑒′𝑘 𝑋 − 𝑒′𝑘 𝜇)′] = 𝐸[𝑒′𝑖(𝑋 − 𝜇)(𝑋 − 𝜇)′𝑒𝑘] =
𝑒′𝑖𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]𝑒𝑘 = 𝑒′𝑖𝑉 (𝑋)𝑒𝑘 = 𝑒′𝑖Σ𝑒𝑘
Pelo teorema da decomposição expectral 2.18 temos,
𝑐𝑜𝑣(𝑌𝑖, 𝑌𝑘) = 𝑒′𝑖𝑃Λ𝑃 ′𝑒𝑘 = 𝑒′𝑖𝑃Λ
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
0
0
...
1
...
0
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
= 𝑒′𝑖𝑃
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
0
0
...
𝜆𝑘
...
0
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
= 𝑒′𝑖
⎛⎜⎜⎜⎜⎜⎜⎝
𝑒1𝑘𝜆𝑘
𝑒2𝑘𝜆𝑘
...
𝑒𝑝𝑘𝜆𝑘
⎞⎟⎟⎟⎟⎟⎟⎠ =
(︁
𝑒1𝑖 𝑒2𝑖 . . . 𝑒𝑝𝑖
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
𝑒1𝑘𝜆𝑘
𝑒2𝑘𝜆𝑘
...
𝑒𝑝𝑘𝜆𝑘
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑒1𝑖𝑒1𝑘𝜆𝑘 + 𝑒2𝑖𝑒2𝑘𝜆𝑘 + · · ·+ 𝑒𝑝𝑖𝑒𝑝𝑘𝜆𝑘 =
37
𝜆𝑘[𝑒1𝑖𝑒1𝑘 + 𝑒2𝑖𝑒2𝑘 + · · ·+ 𝑒𝑝𝑖𝑒𝑝𝑘] = 𝜆𝑘[𝑒′𝑖.𝑒𝑘] = 𝜆𝑘 .0 = 0.
�
O próximo resultado mostra que o traço de matriz de convariância, coincide com
a soma das variâncias das componentes principais.
Proposição 2.23. Sejam 𝑋 uma matriz multivariada e Σ = 𝑉 (𝑋) a matriz de covari-
ância de 𝑋, então 𝑡𝑟(Σ) = 𝜆1 + 𝜆2 + . . .+ 𝜆𝑝 = 𝑉 (𝑌1) + 𝑉 (𝑌2) + . . . 𝑉 (𝑌𝑝).
Demonstração: Pelo Teorema da Decomposição Espectral 2.18, temos Σ = 𝑃Λ𝑃 ′, en-
tão:
𝑡𝑟(Σ) = 𝑡𝑟(𝑃Λ𝑃 ′)
Segundo a propriedade (iv) de traço, podemos escrever:
𝑡𝑟(𝑃𝑃 ′Λ) = 𝑡𝑟(𝐼𝑛Λ) = 𝑡𝑟(Λ)
= 𝑡𝑟
⎛⎜⎜⎜⎜⎜⎜⎝
𝜆1 0 . . . 0
0 𝜆2 0 0
... 0 . . . 0
0 0 0 𝜆𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ = Λ1 + Λ2 + . . .+ Λ𝑝 = 𝑉 (𝑌1) + 𝑉 (𝑌2) + . . .+ 𝑉 (𝑌𝑝)
�
Observação 2.24. Como o 𝑡𝑟(Σ) é a soma das variâncias das variáveis aleatórias en-
volvidas, o resultado anterior mostra que a variância total populacional é igual a soma
das variâncias das componentes principais. E consequentemente, a proporção da variância
total explicada pela 𝑘-ésima componente principal é
𝜆𝑘
𝜆1 + 𝜆2 + . . .+ 𝜆𝑝
, 𝑘 = 1, 2, . . . , 𝑝
Os resultados anteriores mostraram que as componentes principais possuem va-
riância máxima e são não correlacionadas. Apesar dessas propriedades serem de grande
valia, elas ainda não justificam a utilização das componentes principais para analisar
o conjunto de variáveis em substituição das variáveis originais. Para tanto precisamos
verificar se existem correlações entre as componentes principais e a variáveis aleatórias
originais. O próximo resultado afirma que essas correlações existem e, além disso, podem
ser encontradas a partir dos autovetores e autovalores da matriz de covariância Σ = 𝑉 (𝑋).
Proposição 2.25. Sejam 𝑋𝑘 uma variável aleatória da matriz multivariada 𝑋 e 𝑌𝑖 uma
componente principal, então 𝜌(𝑋𝑘, 𝑌𝑖) =
𝑒𝑘𝑖
√
𝜆𝑖
𝜎𝑘
.
38
Demonstração: Seja 𝑐′𝑘 =
(︁
0 . . . 1 . . . 0
)︁
vetor de valores 0, com 1 na 𝑘-ésima
posição, e 𝑋 ′ =
(︁
𝑋1 𝑋2 . . . 𝑋𝑘 . . . 𝑋𝑝
)︁
, então podemos escrever uma variável
aleatória 𝑋𝑘 como 𝑋𝑘 = 𝑐′𝑘 𝑋, pois,
𝑐′𝑘 𝑋 =
(︁
0 . . . 1 . . . 0
)︁
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
𝑋1
𝑋2
. . .
𝑋𝑘
. . .
𝑋𝑝
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
= 𝑋𝑘.
Além disso, por 2.8 item (ii)
𝜇𝑘 = 𝐸(𝑋𝑘) = 𝐸(𝑐′𝑘𝑋) = 𝑐′𝑘𝐸(𝑋) = 𝑐′𝑘𝜇 e 𝜇𝑖 = 𝐸(𝑌𝑖) = 𝐸(𝑒′𝑖𝑋) = 𝑒′𝑖𝐸(𝑋) = 𝑒′𝑖𝜇.
Por definição temos que 𝜌(𝑋𝑘, 𝑌𝑖) =
𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖)√︁
𝑉 (𝑋𝑘)𝑉 (𝑌𝑖)
e 𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖) = 𝐸[(𝑋𝑘 −
𝜇𝑥)(𝑌𝑖 − 𝜇𝑦)]. Então, aplicando os resultados 2.7 e 2.8 itens (ii) e (iv), temos,
𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖) = 𝑐𝑜𝑣(𝑐′𝑘 𝑋, 𝑒′𝑖 𝑋) = 𝐸[(𝑐′𝑘𝑋 − 𝑐′𝑘𝜇)(𝑒′𝑖𝑋 − 𝑒′𝑖𝜇)′] = 𝐸[𝑐′𝑘(𝑋 − 𝜇)(𝑋 − 𝜇)′𝑒𝑖]
𝑐′𝑘𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]𝑒𝑖 = 𝑐′𝑘Σ𝑒𝑖
Sabemos que Σ𝑒𝑖 = 𝜆𝑖𝑒𝑖, logo,
𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖) = 𝑐′𝑘Σ𝑒𝑖 = 𝑐′𝑘𝜆𝑖𝑒𝑖 = 𝜆𝑖𝑒𝑘𝑖
Pois,
𝑐′𝑘𝜆𝑖𝑒𝑖 = 𝑐′𝑘
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
𝜆𝑖𝑒1𝑖
𝜆𝑖𝑒2𝑖
...
𝜆𝑖𝑒𝑘𝑖
...
𝜆𝑖𝑒𝑝𝑖
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
=
(︁
0 . . . 1 . . . 0
)︁
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
𝜆𝑖𝑒1𝑖
𝜆𝑖𝑒2𝑖
...
𝜆𝑖𝑒𝑘𝑖
...
𝜆𝑖𝑒𝑝𝑖
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
= 𝜆𝑖𝑒𝑘𝑖
Como as variâncias de 𝑋𝑘 e 𝑌𝑖 são 𝑉 (𝑌𝑖) = 𝑉 (𝑒′𝑖 𝑋) = 𝑒′𝑖Σ𝑒𝑖 = 𝜆𝑖𝑒′𝑖𝑒𝑖 = 𝜆𝑖 e
𝑉 (𝑋𝑘) = 𝑉 (𝑋𝑘) = 𝜎2𝑘, temos que,
𝜌(𝑋𝑘, 𝑌𝑖) =
𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖)√︁
𝑉 (𝑋𝑘)𝑉 (𝑌𝑖)
= 𝜆𝑖𝑒𝑘𝑖
𝜎𝑘
√
𝜆𝑖
= 𝑒𝑘𝑖
√
𝜆𝑖
𝜎𝑘
�
A seguir apresentamos um exemplo de como obter as componentes principais e as
correlações dessas componentes com as variáveis aleatórias originais, a partir da matriz
de covariância e de correlação.
39
Exemplo 2.26. Determine as componentes principais 𝑌1 e 𝑌2 para a matriz de covariân-
cia Σ =
⎛⎝ 5 2
2 2
⎞⎠, suas correlações com as variáveis originais e a proporção da variância
total explicada pela primeira componente principal.
a) Matriz de correlação do vetor.
𝜌 =
⎛⎝ 1 2√5×√2
2√
2×√10 1
⎞⎠ =
⎛⎝ 1 √105√
10
5 1
⎞⎠
b) Autovalores e autovetores de Σ.
|Σ− 𝜆𝐼| = 0→
⎛⎝ 5− 𝜆 2
2 2− 𝜆
⎞⎠ = 0→ (5− 𝜆)(2− 𝜆)− 4 = 0→ 𝜆1 = 6 e𝜆2 = 1
Devemos verificar que Σ𝑒 = 𝜆𝑒
Para 𝜆1 = 6 temos
⎛⎝ 5 2
2 2
⎞⎠⎛⎝ 𝑥1
𝑥2
⎞⎠ = 6
⎛⎝ 𝑥1
𝑥2
⎞⎠→
⎧⎨⎩ 5𝑥1 + 2𝑥2 = 6𝑥12𝑥1 + 2𝑥2 = 6𝑥2 → 𝑥1 = 2𝑥2
𝑆 =
{︂
(𝑥1,
𝑥1
2 ) ∀𝑥1 ∈ R
}︂
Normalizando:
𝑥21 + 𝑥22 = 1→ 𝑥21 + (
𝑥1
2 )
2 = 1→ 𝑥1 = 2√5 e𝑥2 =
1√
5
→ 𝑒′1 =
[︃
2√
5
,
1√
5
]︃
.
Analogamente para 𝜆2 = 1, temos
⎛⎝ 5 2
2 2
⎞⎠⎛⎝ 𝑥1
𝑥2
⎞⎠ = 1
⎛⎝ 𝑥1
𝑥2
⎞⎠→
⎧⎨⎩ 5𝑥1 + 2𝑥2 = 𝑥12𝑥1 + 2𝑥2 = 𝑥2 → 𝑥1 =
−𝑥2
2
𝑆 = {(𝑥1,−2𝑥1) ∀𝑥1 ∈ R}
Normalizando:
𝑥21 + 𝑥22 = 1→ 𝑥21 + (−2𝑥1)2 = 1→ 𝑥1 =
1√
5
e𝑥2 = − 2√5 → 𝑒
′
2 =
[︃
1√
5,− 2√
5
]︃
.
c) Pares de autovalores e autovetores de 𝜌.
𝜌 =
⎛⎝ 1 √105√
10
5 1
⎞⎠
|Σ− 𝜆𝐼| = 0→
⎛⎝ 1− 𝜆 √105√
10
5 1− 𝜆
⎞⎠ = 0→ (1− 𝜆)2 − 1025 = 0→ 𝜆1 = 1, 63 e𝜆2 = 0, 37
40
Devemos verificar que Σ𝑒 = 𝜆𝑒
Para 𝜆1 = 1, 63 temos
⎛⎝ 1 √105√
10
5 1
⎞⎠⎛⎝ 𝑥1
𝑥2
⎞⎠ = 1, 63
⎛⎝ 𝑥1
𝑥2
⎞⎠→
⎧⎪⎪⎪⎨⎪⎪⎪⎩
𝑥1 +
√
10
5 𝑥2 = 1, 63𝑥1√
10
5 𝑥1 + 𝑥2 = 1, 63𝑥2
→ 𝑥1 = 𝑥2
𝑆 = {(𝑥1, 𝑥1) ∀𝑥1 ∈ R}
Normalizando:
𝑥21 + 𝑥22 = 1→ 𝑥21 + 𝑥21 = 1→ 𝑥1 =
1√
2
= 𝑥2 → 𝑒′1 =
[︃
1√
2
,
1√
2
]︃
.
Analogamente para 𝜆2 = 0, 37, temos
⎛⎝ 1 √105√
10
5 1
⎞⎠⎛⎝ 𝑥1
𝑥2
⎞⎠ = 0, 37
⎛⎝ 𝑥1
𝑥2
⎞⎠→
⎧⎪⎪⎪⎨⎪⎪⎪⎩
𝑥1 +
√
10
5 𝑥2 = 0, 37𝑥1√
10
5 𝑥1 + 𝑥2 = 0, 37𝑥2
→ 𝑥1 = −𝑥2
𝑆 = {(𝑥1,−𝑥1) ∀𝑥1 ∈ R}
Normalizando:
𝑥21 + 𝑥22 = 1→ 𝑥21 + (−𝑥1)2 = 1→ 𝑥1 =
1√
2
e𝑥2 =
−1√
2
→ 𝑒′2 =
[︃
1√
2
,− 1√
2
]︃
.
d) Componentes principais de Σ.
𝑌1 = 𝑒′1 𝑋 =
(︁
2√
5
1√
5
)︁⎛⎝ 𝑥1
𝑥2
⎞⎠ = 2𝑥1√
5
+ 𝑥2√
5
𝑌2 = 𝑒′2 𝑋 =
(︁
1√
5
−2√
5
)︁⎛⎝ 𝑥1
𝑥2
⎞⎠ = 𝑥1√
5
− 2𝑥2√
5
e) Componentes principais por 𝜌.
𝑌1 = 𝑒′1 𝑋 =
(︁
1√
2
1√
2
)︁⎛⎝ 𝑥1
𝑥2
⎞⎠ = 𝑥1√
2
+ 𝑥2√
2
𝑌2 = 𝑒′2 𝑋 =
(︁
1√
2
−1√
2
)︁⎛⎝ 𝑥1
𝑥2
⎞⎠ = 𝑥1√
2
− 𝑥2√
2
f) Proporção da variação total que cabe a cada uma das componentes principais.
De Σ:
41
𝜆1
𝜆1 + 𝜆2
= 66 + 1 = 0, 857 = 85, 7%
Portanto, 𝜆1 de Σ explica 85, 7%.
De 𝜌:
1, 63
1, 63 + 0, 37 = 0, 815 = 81, 5%.
Portanto 𝜆1 de 𝜌 explica 81, 5% .
g) Coeficientes de correlação entre 𝑌1, 𝑋1 e 𝑋2.
𝜌(𝑌𝑖, 𝑋𝑘) =
𝑒𝑘𝑖
√
𝜆𝑖
𝜎𝑘
𝜌(𝑌1, 𝑋1) =
𝑒11
√
𝜆1
𝜎1
=
1√
2 ×
√
1, 63√
5
= 0, 4037
𝜌(𝑌1, 𝑋2) =
𝑒21
√
𝜆1
𝜎2
=
1√
2 ×
√
1, 63√
2
= 0, 6388
Interpretação: Neste exemplo foi obtido duas componentes principais, 𝑌1 =
2𝑥1√
5
+ 𝑥2√
5
e
𝑌2 = 𝑥1√5 − 2𝑥2√5 , que são combinações lineares das variáveis aleatórias originais. No item (f)
vimos que a primeira componente principal é capaz de explicar 85, 7% da variabilidade
total pela matriz de covariância, e 81, 5% pela matriz de correlação. Como em estatística
um porcentual superior a 70% é representativo, podemos dizer que ela sozinha é capaz de
interpretar o conjunto de dados.
No item (g) podemos ver que a componente principal 𝑌1 possui correlação de 97%
com a primeira variável e de 77% com a segunda variável, o que reforça o fato dessa
componente ser suficiente para analisar os dados.
42
3 ANÁLISE FATORIAL
Nesse Capitulo são apresentados os conceitos teóricos da análise fatorial. Todos os
argumentos apresentados aqui, bem como as demonstrações de alguns resultados podem
ser encontradas em Johnson e Wichern (1987), Aranha e Zambaldi (2008) e Mingoti
(2007).
A análise fatorial é uma técnica estatística cujo objetivo é caracterizar um con-
junto de variáveis diretamente mensuráveis, chamadas de variáveis observadas, como a
manifestação visível de um conjunto menor de variáveis hipotéticas e latentes (não men-
suráveis diretamente), denominadas fatores comuns, e de um conjunto de fatores únicos,
cada um deles atuando apenas sobre uma das variáveis observadas.
Há duas famílias de modelos fatoriais: uma com fatores comuns independentes
(não correlacionados entre si) e outra com fatores comuns correlacionados. Nos dois tipos
de modelo, o número de fatores comuns é sempre menor do que o número de variáveis
observadas; quanto menor for a razão entre a quantidade de fatores comuns e de variáveis
observadas, mais confiável será o ajuste do modelo (ARANHA; ZAMBALDI, 2008).
O primeiro conceito básico envolvido na análise fatorial é o de comunalidade,
que corresponde à proporção da variância de cada item observado explicada pelo fator
comum que o influencia (ou pelos fatores comuns, caso haja mais de um). Como obter as
comunalidades dos fatores será explica adiante.
Para o proposito desse trabalho, utilizaremos a análise de componentes principais
para obter os fatores da análise fatorial. Uma consequência importante com o uso da
ACP é a obtenção de variáveis independentes, que impete a ocorrência do problema da
multicolinearidade.
3.1 O MODELO FATORIAL ORTOGONAL
Seja o vetor aleatório observável 𝑋, com 𝑝 componentes, 𝑋 ∼ ·(𝜇,∑︀). O modelo
fatorial postula que 𝑋 é linearmente dependente sobre variáveis aleatórias não observáveis
(latentes) 𝐹1, 𝐹2, . . . , 𝐹𝑚 com (𝑚 < 𝑝) chamadas fatores comuns (𝑚 fatores extraídos das
𝑝 variáveis) e 𝑝 fontes de variação aditivas 𝜀1, 𝜀2, . . . , 𝜀𝑝 chamados erros ou, algumas vezes,
fatores específicos
𝑋1 − 𝜇1 = ℓ11𝐹1 + ℓ12𝐹2 + . . .+ ℓ1𝑚𝐹𝑚 + 𝜀1
𝑋2 − 𝜇2 = ℓ21𝐹1 + ℓ22𝐹2 + . . .+ ℓ2𝑚𝐹𝑚 + 𝜀2
... ..........................................
𝑋𝑖 − 𝜇𝑖 = ℓ𝑖1𝐹1 + ℓ𝑖2𝐹2 + . . .+ ℓ𝑖𝑚𝐹𝑚 + 𝜀𝑖
... .........................................
𝑋𝑝 − 𝜇𝑝 = ℓ𝑝1𝐹1 + ℓ𝑝2𝐹2 + . . .+ ℓ𝑝𝑚𝐹𝑚 + 𝜀𝑝
(3.1)
43
ou em notação matricial (𝑋 − 𝜇)𝑝×1 = 𝐿𝑝×𝑚𝐹𝑚×1 + 𝜀𝑝×1.
Os coeficientes ℓ𝑖𝑗 são chamados de pesos ou carregamentos e, especificamente, ℓ𝑖𝑗
é o carregamento na 𝑖-ésima variável do 𝑗-ésimo fator, tal que a matriz 𝐿 é a matriz de
carregamentos dos fatores. Note que o fator específico ou erro 𝜀𝑖 é associado somente com
a 𝑖-esima variável original 𝑋𝑖. Os desvios 𝑋1− 𝜇1, 𝑋2− 𝜇2, . . . , 𝑋𝑝− 𝜇𝑝 são expressos em
termos de 𝑝+𝑚 variáveis aleatórias: 𝐹1, 𝐹2, . . . , 𝐹𝑚, 𝜀1, 𝜀2, . . . , 𝜀𝑝 que não são observáveis.
Isto distingue o modelo fatorial do modelo de regressão multivariada, cujas variáveis
independentes podem ser observadas.
Agora assumindo que:
𝐸(𝐹 ) = 0, 𝐶𝑂𝑉 (𝐹 ) = 𝐸(𝐹𝐹 ′) = 𝐼𝑚, 𝐸(𝜀) = 0,
𝐶𝑂𝑉 (𝜀) = 𝐸(𝜀, 𝜀′) = Ψ𝑝×𝑝 =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
Ψ1 0 0 . . . 0
0 Ψ2 0 . . . 0
0 0 Ψ3 . . . 0
. . . . . . . . . . . . . . .
0 0 0 . . . Ψ𝑝
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
, (3.2)
e que 𝐹 e 𝜀 são independentes, assim 𝐶𝑂𝑉 (𝜀, 𝐹 ) = 𝐸(𝜀, 𝐹 ′) = 0 com 𝑚 = 𝑝.
Sob essas suposições o relacionamento construído em 𝑋 − 𝜇 = 𝐿𝐹 + 𝜀 é chamado
modelo fatorial ortogonal e pode ser escrito como
𝑋𝑝×1 = 𝜇𝑝×1 + 𝐿𝑝×𝑚𝐹𝑚×1 + 𝜀𝑝×1. (3.3)
Agora considerando a matriz
(𝑋 − 𝜇)(𝑋 − 𝜇)′ = (𝐿𝐹 + 𝜀)(𝐿𝐹 + 𝜀)′ = 𝐿𝐹 (𝐿𝐹 )′ + 𝜀(𝐿𝐹 )′ + 𝐿𝐹𝜀′ + 𝜀𝜀′
é possível mostrar que a matriz de covariância de 𝑋 é dada por
∑︁
= 𝐶𝑂𝑉 (𝑋) = 𝐸(𝑋 − 𝜇)(𝑋 − 𝜇)′ = 𝐿𝐿′𝑝×𝑝 +Ψ. (3.4)
Consequentemente tem-se 𝑉 (𝑋𝑖) = ℓ2𝑖1 + ℓ2𝑖2 + . . .+ ℓ2𝑖𝑚 +Ψ𝑖, com 𝑖 = 1, 2, . . . , 𝑝.
Observe que dessa forma a matriz de covariância ∑︀ pode ser decomposta em duas
partes. A matriz Ψ é chamada de matriz de variâncias específicas e é uma matriz diagonal
possuindo na diagonal principal as variâncias específicas Ψ𝑖 das variáveis originais. Já a
matriz produto 𝐿𝐿′ tem na diagonal principal as comunalidades ℎ2𝑖 = ℓ2𝑖1 + ℓ2𝑖2 + . . .+ ℓ2𝑖𝑚
com 𝑖 = 1, 2, . . . , 𝑝 (𝑗 = 1, 2, . . . ,𝑚).
Pode ser mostrado que a covariância entre o vetor das variáveis originais 𝑋 e o
vetor dos fatores 𝐹 é dado por:
1. 𝐶𝑂𝑉 (𝑋,𝐹 ) = 𝐿;
2. 𝐶𝑂𝑉 (𝑋𝑖, 𝑋𝑘) = ℓ𝑖1ℓ𝑘1 + ℓ𝑖2ℓ𝑘2 + . . .+ ℓ𝑖𝑚ℓ𝑘𝑚;
44
3. 𝐶𝑂𝑉 (𝑋𝑖, 𝐹𝑗) = ℓ𝑖𝑗.
A porção da variância da i-ésima variável aleatória 𝑋𝑖 advinda como contribuição
dos 𝑚 fatores comuns é chamada de Comunalidade e a porção da 𝑉 (𝑋𝑖) = 𝜎2 oriunda do
fator específico é a Variância Específica. Assim, tem-se
𝑉 (𝑋𝑖) = ℓ2𝑖1 + ℓ2𝑖2 + . . .+ ℓ2𝑖𝑚 +Ψ𝑖 (3.5)
Dadas as observações 𝑥1, 𝑥2, . . . , 𝑥𝑛 de 𝑝 variáveis geralmente correlacionadas a
Análise Fatorial procura responder a pergunta:
Representará o modelo fatorial os dados adequadamente, com um número 𝑚 < 𝑝 (baixo)
de fatores?
A matriz de covariância amostral 𝑆 é um estimador da matriz de covariâncias
populacional desconhecida Σ. Se os elementosfora da diagonal de 𝑆 são baixos ou equi-
valentemente na matriz de correlação amostral 𝑅 eles são praticamente nulos as variáveis
não são relacionadas e a Análise Fatorial não é útil. Por outro lado quando Σ é significa-
tivamente diferente de uma matriz diagonal, então o modelo fatorial pode ser usado e o
problema inicial é o de estimar os carregamentos (pesos) 𝑙𝑖𝑗 e as variâncias específicas 𝜓𝑖 .
Vamos considerar no nosso estudo a estimação pelo Método das Componentes Principais.
Seja Σ a matriz de covariâncias de 𝑋, então, dado que Σ seja positiva definida, podemos
decompô-la na forma abaixo, segundo a decomposição espectral:
Σ = 𝜆1𝑒1 𝑒′1 + 𝜆2𝑒2 𝑒′2 + . . .+ 𝜆𝑝𝑒𝑝 𝑒′𝑝
Σ =
(︁ √
𝜆1𝑒1
√
𝜆2𝑒2 . . .
√︁
𝜆𝑝𝑒𝑝
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
√
𝜆1𝑒1√
𝜆2𝑒2
...√
𝜆1𝑒1
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐿𝐿
′ se 𝑚 = 𝑝, então, 𝜓𝑖 =
0 ∀𝑖.
Assim, se Σ = 𝐿𝐿′ + 𝜓 tem-se 𝜓𝑝×𝑝 = 0𝑝×𝑝 no ajuste do modelo fatorial. Exceto
pelo escalar
√︁
𝜆𝑗, os carregamentos no j-ésimo fator são os coeficientes populacionais
na j-ésima componente principal. Embora a representação de Σ = 𝐿𝐿′ + 0 = 𝐿𝐿′ seja
exata, ela não é particularmente útil, pois tem muitos fatores comuns. É preferível um
modelo que explique a estrutura de covariância em termos de poucos fatores comuns.
Uma aproximação, quando 𝑝 − 𝑚 autovalores são baixos, é negligenciar a contribuição
de 𝜆𝑚 + 1𝑒𝑚 + 1𝑒′𝑚+1 + 𝜆𝑚 + 2𝑒𝑚 + 2𝑒′𝑚+2 + . . . + 𝜆𝑝 + 𝑒𝑝 + 𝑒′𝑝 para Σ na decomposição
espectral. Assim, tem-se:
Σ ≈
(︁ √
𝜆1𝑒1
√
𝜆2𝑒2 . . .
√
𝜆𝑚𝑒𝑚
)︁
⎛⎜⎜⎜⎜⎜⎜⎝
√
𝜆1𝑒1√
𝜆2𝑒2
...√
𝜆𝑚𝑒𝑚
⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐿𝐿
′ de ordem 𝑝× 𝑝.
Esta representação aproximada assume que os fatores específicos 𝜀 são de menor
importância e podem, também, ser ignorados na fatorização de Σ. Se os fatores específicos
45
𝜀 são incluídos no modelo, suas variâncias são os elementos da diagonal da matriz diferença
Σ − 𝐿𝐿′ e consequentemente 𝜓𝑖 = 𝜎𝑖𝑖 − Σ𝑚𝑗=1 = 𝑙2𝑖𝑗 para 𝑖 = 1, 2, . . . , 𝑝. Para aplicar esta
abordagem aos dados amostrais 𝑥1, 𝑥2, . . . , 𝑥𝑛 é usual, primeiro, centrar as observações
subtraindo a média amostral 𝑥. As observações centradas são:
(︁
𝑥𝑗 − 𝑥1
)︁
=
⎛⎜⎜⎜⎜⎜⎜⎝
𝑥1𝑗 − 𝑥1
𝑥2𝑗 − 𝑥2
...
𝑥𝑝𝑗 − 𝑥𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ com 𝑗 = 1, 2, 3, . . . , 𝑛
Pode-se, também, trabalhar com as variáveis padronizadas,
𝑧𝑗 =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
𝑥1𝑗 − 𝑥1√
𝑠11
𝑥2𝑗 − 𝑥2√
𝑠22
...
𝑥𝑝𝑗 − 𝑥𝑝
𝑠𝑝𝑝
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
𝑐𝑜𝑚 𝑗 = 1, 2, . . . , 𝑛.
cuja matriz de correlação amostral é a matriz de correlação 𝑅 das observações originais
𝑥1, 𝑥2, . . . , 𝑥𝑛. A representação Σ ≈ 𝐿𝐿′+𝜓, quando se usa a matriz de covariância 𝑆 ou,
então, a matriz de correlação 𝑅, é conhecida como Solução por Componentes Principais.
3.2 COMPONENTES PRINCIPAIS PARA O MODELO FATORIAL
A Análise Fatorial por Componentes Principais da matriz de covariância 𝑆 é espe-
cificada em termos de seus pares de autovalor/autovetor (𝜆1, 𝑒1), (𝜆2, 𝑒2), . . . , (𝜆𝑝, 𝑒𝑝) onde
𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0. Seja 𝑚 < 𝑝 o número de fatores comuns extraídos. A matriz dos
carregamentos estimados �^�𝑖𝑗 é dada por:
�^� =
(︂ √︁
�^�1 1^
√︁
�^�2 2^ . . .
√︁
�^�𝑚^𝑚
)︂
As variâncias específicas estimadas são dadas pelos elementos da matriz Ψ^ =
𝑆 − 𝐿𝐿,
Ψ^ =
⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝
Ψ^1 0 0 . . . 0
0 Ψ^2 0 . . . 0
0 0 Ψ^3 . . . 0
. . . . . . . . . . . . . . .
0 0 0 . . . Ψ^𝑝
⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠
com Ψ^𝑖𝑖 = 𝑠𝑖𝑖 − Σ𝑚𝑖=1�^�2𝑖𝑗
As comunalidades são estimadas por ℎ^2𝑖 = �^�21𝑖 + �^�22𝑖 + . . .+ �^�2𝑚𝑖
E, para determinar o número 𝑚 de fatores comuns, o indicado é basear-se na
proporção da variância amostral devido a cada fator, que é:
�^�𝑗
𝑠11 + 𝑠22 + . . .+ 𝑠𝑝𝑝
para análise feita a partir de 𝑆.
�^�𝑗
𝑠
para análise feita a partir de 𝑅.
46
Considerando a solução por componentes principais partindo-se da matriz 𝑆 ou
𝑅 que fornece os pares de autovalores/autovetores (�^�1, 1^), (�^�2, 2^), . . . , (�^�𝑝, �^�) onde �^�1 >
�^�2 > . . . > �^�𝑝 > 0 tem-se a matriz de carregamentos (pesos, loads)
�^�𝑝×𝑚 =
(︂ √︁
�^�1 1^
√︁
�^�2 2^ . . .
√︁
�^�𝑚^𝑚
)︂
=
⎛⎜⎜⎜⎜⎜⎜⎜⎝
√︁
�^�1 1^1
√︁
�^�2 1^2 . . .
√︁
�^�𝑚 1^𝑚√︁
�^�1 2^1
√︁
�^�2 2^2 . . .
√︁
�^�𝑚 2^𝑚
... ... . . . ...√︁
�^�1 �^�1
√︁
�^�2 �^�2 . . .
√︁
�^�𝑚 �^�𝑚
⎞⎟⎟⎟⎟⎟⎟⎟⎠
e a matriz de variâncias específicas é: Ψ^𝑝×𝑝 =
⎛⎜⎜⎜⎜⎜⎜⎝
Ψ^1 0 . . . 0
0 Ψ^2 . . . 0
. . . . . . . . . . . .
0 0 . . . Ψ^𝑝
⎞⎟⎟⎟⎟⎟⎟⎠ com Ψ^𝑖𝑖 = 𝑠𝑖𝑖 −
∑︀𝑚
𝑖=1 �^�
2
𝑖𝑗, onde as comunalidades estimadas são: ℎ^2𝑖 = �^�21𝑖+ �^�22𝑖+. . .+ �^�2𝑚𝑖 =
∑︀𝑚
𝑖=1 �^�
2
𝑖𝑗. Podemos
interpretar estes resultados como:
∙ a contribuição do primeiro fator para a variância 𝑠𝑖𝑖 da variável aleatória 𝑖 é �^�2𝑖1;
∙ a contribuição do primeiro fator para a variância total 𝑠11 + 𝑠22 + . . .+ 𝑠𝑝𝑝 = 𝑡𝑟(𝑆)
é ∑︀𝑚𝑖=1 �^�2𝑖1.
3.2.1 Escores Fatoriais
Em muitas aplicações é preciso estimar o valor de cada um dos fatores (não ob-
serváveis) para uma observação individual 𝑋, sendo que esses valores dos fatores são
chamados de escores fatoriais. Os escores fatoriais estimados para as variáveis originais
são 𝐹 = (𝐿′𝐿)−1𝐿′(𝑋 −𝜇) e para as variáveis padronizadas são 𝐹 = (𝐿′𝐿)′𝐿𝑍, desde que
se use componentes principais para estimar os pesos (VILLWOCK, 2009).
Com a rotação dos fatores se obtém uma estrutura para os pesos tal que cada
variável tenha peso alto em um único fator e pesos baixos ou moderados nos demais fatores.
Kaiser e Rice (1974) sugeriu uma medida analítica conhecida como critério Varimax.
Define-se ̃︀ℓ𝑖𝑗 = ℓ𝑖𝑗ℎ𝑖𝑗 , os coeficientes rotacionados escalonados pela raiz quadrada das
comunalidades. O procedimento varimax seleciona a transformação ortogonal 𝑇 que torna
𝑉 dada pela expressão 3.6 o maior possível, ou seja, o procedimento parte de∑︀ = 𝐿𝑇𝑇 ′𝐿′
e fornece os pesos ℓ* vindos de 𝐿𝑇 . Então, o critério é maximizar 𝑉 (VILLWOCK, 2009)
𝑉 = 1
𝑝
𝑚∑︁
𝑗=1
{
𝑝∑︁
𝑖=1
(ℓ∼
*
𝑖𝑗
)4 − [
𝑝∑︁
𝑖=1
(ℓ∼
*
𝑖𝑗
)2]/𝑝}. (3.6)
3.2.2 Diferenças Entre o Método de Componentes Principais e a Análise Fatorial
Apesar dos dois modelos procurarem interpretar um conjunto de variáveis aleató-
rias com outras variáveis não observáveis, de acordo com Aranha e Zambaldi (2008) eles
possuem pouco em comum.
47
O modelo de fatores assume que as variáveis observáveis 𝑋𝑖 são formadas por uma
combinação linear de variáveis latentes, fatores comuns 𝐹 e fatores únicos 𝜀, respectiva-
mente ponderados pelos pesos. Tal modelo envolve, portanto, variáveis de duas naturezas
dinstintas: observadas e latentes.
Já o modelo de componentes principais assume que os componentes 𝑃 das variáveis
observadas podem ser calculados como combinações lineares das variáveis observadas 𝑋𝑖
segundo os pesos obtidos 𝐶𝑝×𝑝. Assim, a ACP envolve apenas variáveis observadas, não
havendo nada de subjacente.
Já o modelo de fatores presume que, por trás da realidade observada, há uma outra
realidade, mais simples. O modelo de componentes mostra que uma mesma realidade pode
ser observada a partir de dois ângulos diferentes.
No modelo de fatores, as variáveis observadas ficam do lado esquerdo da equação,
pois são formadas pelos fatores. Já no modelo de componentes, as variáveis observadas
ficam ao lado direito da equação, ou seja, elas formam os componentes.
A também semelhanças entre os modelos, como o fato de que os modelos envolvem
combinações lineares, e devido a isso, é possível utilizar o método das componentes para
obter os fatores no modelo fatorial.
48
4 APLICAÇÕES DA ANÁLISE FATORIAL
Com a disseminação de aplicativos de análise estatística, a análise fatorial tornou-
se uma ferramenta de uso comum em pesquisas quantitativas em diversas áreas. Uma
aplicação