Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Estadual do Oeste do Paraná Centro de Engenharias e Ciências Exatas Campus Foz do Iguaçu Jesika Maganin Análise Multivariada e suas Aplicações Foz do Iguaçu-PR 2016 JESIKA MAGANIN ANÁLISE MULTIVARIADA E SUAS APLICAÇÕES Monografia apresentada ao Curso de Licenci- atura em Matemática da Universidade Esta- dual do Oeste do Paraná - UNIOESTE, como requisito parcial para obtenção do título de Licenciado em Matemática. Orientador: Prof. Dr. ORLANDO CATARINO DA SILVA Foz do Iguaçu-PR 2016 JESIKA MAGANIN ANÁLISE MULTIVARIADA E SUAS APLICAÇÕES. Monografia apresentada ao Curso de Licen- ciatura em Matemática da Universidade Es- tadual do Oeste do Paraná, como requisito parcial para obtenção do título de Licenci- ado em Matemática. Aprovada em XX de dezembro de 2016. BANCA EXAMINADORA Prof. Dr. ORLANDO CATARINO DA SILVA - Orientador Universidade Estadual do Oeste do Paraná - UNIOESTE Prof. Ms. EMÍDIO PORTILHO JUNIOR Universidade Estadual do Oeste do Paraná - UNIOESTE Prof. Dr. SUSIMEIRE VIVIEN ROSSETI DE ANDRADE Universidade Estadual do Oeste do Paraná - UNIOESTE Foz do Iguaçu-PR 2016 À minha amada família. AGRADECIMENTOS Primeiramente a Deus por permitir que tudo isso acontecesse, por estar comigo em todos os momentos da minha vida, por me dar saúde e força para superar as dificuldades e principalmente por ter me dado o melhor de mim: minha família. A Universidade Estadual do Oeste do Paraná pela oportunidade de fazer o curso. Agradeço a todos os professores que fizeram parte da minha graduação, em especial a professora Susimeire por me proporcionar o conhecimento não apenas racional, mas a manifestação do caráter e afetividade da educação no processo de formação profissional, por tanto que se dedicou a mim, não somente por ter me ensinado, mas por ter me feito aprender. Desde o início do curso confiou em mim e me orientou, essas palavras são poucas pelo que você me representa. O agradecimento mais puro vai aos meus pais, pelo amor, incentivo e apoio incon- dicional. Agradeço a minha mãe Isalme, que me ajudou nas horas difíceis de desânimo e cansaço. Ao meu pai que apesar de todas as dificuldades me fortaleceu e foi ele que fez tudo isso se tornar realidade, essa é pra você. Aos meus irmãos Juliano e Jean Carlo, pois sem eles não sou nada, meu namorado Fabio por entender minha ausência dedicada ao estudo e ser tão paciente e incrível, minha cunhada Gabriele e as amigas de infância que também são minhas irmãs: Bárbara, Camila, Barbara e Carol, por mesmo distantes continuarem tão próximas. Aos amigos e melhores futuros professores de matemática do mundo, que fizeram parte da minha formação, Tainá, Julia, Fernando, Alex, João, Rodrigo, Vanesa e Aryelen companheiros de trabalhos desde o primeiro ano, que vão continuar presentes em minha vida com certeza, muito obrigada por todas as manhãs que foram certamente melhores por estar junto a vocês. Um agradecimento especial ao Centro de Estudos Avançados em Segurança de Barragens (CEASB) que além de me proporcionar conhecer grandes pessoas, me propor- cionou bolsa para eu estudar e realizar meu projeto, este que me motivou a escrever esta monografia. Para finalizar, um agradecimento ao fantástico professor Orlando, que foi mais que um orientador, foi um amigo, me ajudou em tudo que eu precisava, me deu força, incentivo, confiança, mostrou um empenho inigualável para elaboração deste trabalho, muito obrigado por me convidar a participar do projeto e muito obrigado por aceitar ser sua submissa, ou melhor, sua orientanda. O futuro é feito a partir da constante dedicação no presente! "Foi o tempo que dedicastes à tua rosa que a fez tão importante". Antoine de Saint-Exúpery RESUMO A obtenção do conhecimento a partir de um conjunto de variáveis é um dos objetivos da análise multivariada. Uma das técnicas que possibilitam essa tarefa é a análise fatorial. Pretende-se apresentar os conceitos teóricos que são necessários na resolução de problemas que envolvam duas ou mais variáveis aleatórias, bem como, mostrar exemplos de aplicação dessa teoria em diferentes áreas. Com isso espera-se mostrar a principal característica da análise fatorial, que consiste em identificar grupos de variáveis altamente correlacionadas, para argumentações futuras. Palavras-chaves: Análise Multivariada. Análise Fatorial. ABSTRACT Obtaining knowledge from a set of variables is one of the objectives of the multivariate analysis. One of the techniques that allow this task is the factor analysis. It is intended to present the theoretical concepts that are needed to solve problems involving two or more random variables, as well as show examples of application of this theory in different areas. It is expected to show the main characteristic of the factor analysis, which is to identify groups of highly correlated variables for future arguments. Key-words: Multivariate Analysis. Factor Analysis. LISTA DE FIGURAS FIGURA 1 – Solução fatorial para estudo de lealdade de clientes de um cartão de crédito de marca própria . . . . . . . . . . . . . . . . . . . . . . . . 49 FIGURA 2 – Representação gráfica da solução fatorial . . . . . . . . . . . . . . . 50 FIGURA 3 – Porcentagem de pessoas empregadas em nove diferentes setores in- dustriais na Europa (AGR = agricultura, MIN = mineração, MAN = manufatura, PS = suprimento de energia, CON = construção, SER = indústrias de serviços, FIN = finanças, SPS = serviço pessoal e social, TC = transporte e comunicação) . . . . . . . . . . . . . . . . 50 FIGURA 4 – Matriz de correlação para as percentagens de empregados em nove grupos industriais em países da Europa, na forma diagonal inferior, calculadas a partir dos dados da figura 3 . . . . . . . . . . . . . . . 51 FIGURA 5 – Autovalores e autovetores normalizados para os dados relativos ao emprego na Europa . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 FIGURA 6 – Valores dos fatores para os países europeus . . . . . . . . . . . . . . 53 FIGURA 7 – Instrumentos instalados no bloco A-15 do vertedouro . . . . . . . . . 54 FIGURA 8 – Matriz Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 FIGURA 9 – Correlações entre os instrumentos do bloco chave A-15 . . . . . . . . 57 FIGURA 10 – Autovalor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 FIGURA 11 – Fatores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 FIGURA 12 – Relação dos instrumentos com os fatores . . . . . . . . . . . . . . . . 59 FIGURA 13 – Relação dos fatores com as anomalias . . . . . . . . . . . . . . . . . 59 FIGURA 14 – Regiões críticas referentes à anomalia fluência . . . . . . . . . . . . . 60 Sumário 1 REVISÃO BIBLIOGRÁFICA . . . . . . . . . . . . . . . . . . . 12 1.1 MATRIZES E VETORES . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.1 Matriz Transposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.1.2 Matriz Simétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1.3 Matriz Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1.4 Matriz Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.1.5 Traço de Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 ESPAÇOS VETORIAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2.1 Subespaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3 TRANSFORMAÇÕES LINEARES . . . . . . . . . . . . . . . . . . . . 17 1.4 VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS . . . . . . . . . . . . 19 1.4.1 Variáveis aleatórias unidimensionais discretas . . . . . . . . . . . . . . . 19 1.4.2 Variáveis aleatórias unidimensionais contínuas . . . . . . . . . . . . . . 21 1.4.3 Estatística Univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2 ANÁLISEMULTIVARIADA . . . . . . . . . . . . . . . . . . . . 25 2.1 ESTATÍSTICA MULTIVARIADA . . . . . . . . . . . . . . . . . . . . . 25 2.2 TEOREMA ESPECTRAL . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2.1 Matrizes Hermitianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3 COMPONENTES PRINCIPAIS . . . . . . . . . . . . . . . . . . . . . . 32 2.3.1 Componentes Principais da População . . . . . . . . . . . . . . . . . . . 32 3 ANÁLISE FATORIAL . . . . . . . . . . . . . . . . . . . . . . . . 42 3.1 O MODELO FATORIAL ORTOGONAL . . . . . . . . . . . . . . . . . 42 3.2 COMPONENTES PRINCIPAIS PARA O MODELO FATORIAL . . . 45 3.2.1 Escores Fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.2 Diferenças Entre o Método de Componentes Principais e a Análise Fatorial 46 4 APLICAÇÕES DA ANÁLISE FATORIAL . . . . . . . . . . . . 48 4.1 ÁREAS DIVERSAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2 SEGURANÇA DE BARRAGENS . . . . . . . . . . . . . . . . . . . . . 54 5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 10 INTRODUÇÃO A estatística é uma ciência que está presente na grade curricular de muitos cur- sos superiores. Isso ocorre pela sua característica multidisciplinar, sendo uma intensa ferramenta para a análise e avaliação de dados, ela esta inserida em diversas áreas do conhecimento. Os métodos estatísticos, para analisar variáveis, estão arranjados em dois grupos: a estatística univariada que olha as variáveis de maneira isolada e a estatística multivariada que olha as variáveis de forma conjunta. Frequentemente nos trabalhos que exigem uma pesquisa previa, somos forçados a tomar decisões e fazer inferências com base em dados, assim como avaliar riscos. Situações mais elaboradas que envolvam aplicações, dão origem a problemas mais complexos, onde necessitamos de mais de uma variável para tornar possível a modelagem e a busca por soluções. Para esses casos o conhecimento de técnicas da estatística multivariada pode, muitas vezes, dar o suporte necessário para obtenção do conhecimento com base num conjunto de dados armazenado. A estatística multivariada surgiu por volta de 1901, mas teve seu estudo aprofun- dado nos últimos anos devido ao avanço do computador. Problemas aplicados geralmente envolvem muitas variáveis, tornando os cálculos muito custosos manualmente, sendo ne- cessário nesses casos o auxílio de programas computacionais para realizar com maior faci- lidade e apresentar os resultados na forma de tabelas e gráficos que possibilitam estudar o inter-relacionamento das variáveis de forma clara levando as soluções. Pesquisadores e profissionais de diversas áreas utilizam técnicas estatísticas para confirmar hipóteses ou na ausência destas, para explorar dados relacionados a um fenô- meno. Em diversas situações nas áreas sociais ou exatas as decisões a cerca de um problema devem levar em consideração muitas variáveis, que muitas vezes estão correlacionadas umas com as outras, mas pelo dimensão do problema, é difícil diagnosticar quais dessas variáveis tem real relevância para buscar soluções. Diante disso, como encontrar um meio de condensar a informação contida nas variáveis originais em um conjunto menor de va- riáveis estatísticas não correlacionadas, com uma perda mínima de informação? Ou seja, sumarizar os dados por meio da combinação entre as variáveis e explicar a relação entre elas. No campo da Análise Multivariada estão técnicas estatísticas como a Análise de Componentes Principais e a Análise Fatorial que podem ser aplicadas em uma diversidade de problemas em várias áreas, com resultados comprovados matematicamente. Esses mé- todos possuem a capacidade de reunir as informações que estão contidas em um grande número de variáveis originais, em um conjunto menor de fatores, com o mínimo de perda de informação. Essa habilidade torna esses métodos muito eficientes quando aplicados em diversas áreas que possuem grande numero de variáveis que interferem no resultado final 11 do problema. Como afirmamos anteriormente o curso de Estatística está presente na grade de vários cursos, tanto nas áreas exatas quanto humanas, no entanto, é raro o curso que apresenta os métodos estatísticos multivariados, que são aqueles com mais capacidade de solucionar problemas práticos. A principal finalidade deste trabalho é apresentar os conceitos básicos e algumas técnicas da Análise Multivariada, comprovando quando pos- sível os resultados mais importantes com o auxílio dos conceitos matemáticos adquiridos durante o curso de licenciatura em matemática. É foco também desse trabalhor os con- ceitos teóricos da Análise de Componentes Principais e Fatorial, e após comprovado esse conceitos, mostrar alguns exemplos de onde essas técnicas podem ser aplicadas. Metodologicamente, este trabalho adotou o tipo de pesquisa de cunho bibliográfico. Para apresentar os conceitos teóricos e as técnicas mais conhecidas da Análise Multivari- ada utilizaremos Johnson e Wichern (1987), este livro ainda é utilizado como referência principal em diversos trabalhos científicos sobre esse tema. Para tratar de diversos proble- mas práticos que podem ser resolvidos com a utilização da Análise Fatorial, utilizaremos os pressupostos teóricos de Corrar, Paulo e Dias (2009) e Aranha e Zambaldi (2008) traduzidos para o português, o que facilita a compreensão. O trabalho se divide em 4 capítulos. No primeiro definiremos os conceitos prelimi- nares que tem por objetivo expor os resultados básicos que serão utilizados no decorrer deste trabalho. Nele tratamos basicamente da álgebra matricial, dos espaços vetoriais e dos parâmetros mais importantes da estatística univariada. No segundo capítulo trataremos do tema fundamental deste trabalho, a Análise Multivariada. Será visto que quase todos os parâmetros da estatística univariada podem ser estendidos para o caso multivariado. Será abordado também os principais resultados da análise de componentes principais e da análise fatorial. Merece destaque nesse capitulo o famoso Teorema da Decomposição Espectral, que é de vital importância em diversas aplicações matemáticas. O terceiro capítulo apresenta os conceitos teóricos da análise fatorial, para o pro- posito desse trabalho, será utilizado a análise de componentes principais para obter os fatores da análise fatorial. Uma consequência importante com o uso da ACP é a obtenção de variáveis independentes, que impete a ocorrência do problema da multicolinearidade. No quarto capítulo será exposto as aplicações da análise fatorial para elucidar problemas abordados em diversas áreas. Em uma das seção desse capitulo será exposto o resultado do projeto Sistema de Detecção de Falhas, que utilizou a Análise Fatorial em um bloco de concreto na Barragem de Itaipu, com a intenção de diagnosticar anomalias na estrutura. 12 1 REVISÃO BIBLIOGRÁFICA Este capítulo tem por objetivo expor os conceitos e definições que serão utilizados no decorrer deste trabalho, veremos que muito dos métodos estatísticos multivariados podem ser explicados com o uso de alguma álgebra matricial. Por esta razão é útil ter pelo menos algum conhecimento nesta área da matemática. Os conceitos teóricos apresentados nesse capitulo podem ser encontrados em Steven (2011) e Steinbruch e Winterle (2008). 1.1 MATRIZES E VETORES Uma matriz 𝑛×𝑛 é um arranjo de números com 𝑚 linhas e 𝑛 colunas, considerada como uma única entidade, da forma: 𝐴 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑎11 𝑎12 . . . 𝑎1𝑛 𝑎21 𝑎22 . . . 𝑎2𝑛 ... ... . . . ... 𝑎𝑚1 𝑎𝑚2 . . . 𝑎𝑚𝑛 ⎞⎟⎟⎟⎟⎟⎟⎠ Se 𝑚 = 𝑛 então ela é uma matriz quadrada. Se existe somente uma coluna, tal como 𝐶 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐1 𝑐2 ... 𝑐𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠ então ela é chamada de vetor coluna. Se existe somente uma linha, tal como 𝑟 = (︁ 𝑟1𝑟2 . . . 𝑟𝑛 )︁ então ela é chamada de vetor linha. 1.1.1 Matriz Transposta A transposta de uma matriz é obtida trocando-se as linhas pelas colunas. Então a transposta da matriz A já vista é 𝐴′ = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑎11 𝑎21 . . . 𝑎𝑚1 𝑎12 𝑎22 . . . 𝑎𝑚2 ... ... . . . ... 𝑎1𝑛 𝑎2𝑛 . . . 𝑎𝑚𝑛 ⎞⎟⎟⎟⎟⎟⎟⎠ 13 Portanto, determinar a transposta de uma matriz é reescrevê-la de forma que suas linhas e colunas troquem de posições ordenadamente. Propriedades: i) 𝐴 = 𝐴′′. Isto é, a transposta da transposta de uma matriz é ela mesma; ii) (𝐴+𝐵)′ = 𝐴′+𝐵′. Em palavras, a transposta de uma soma é igual a soma das transpostas; iii) (𝑘𝐴)′ = (𝑘𝐴′), onde k é qualquer escalar. 1.1.2 Matriz Simétrica Uma matriz simétrica é uma matriz quadrada que é imutável quando ela é trans- posta, de modo que 𝐴′ = 𝐴. Exemplo 1.1. 𝐴 = ⎛⎝ 5 8 8 1 ⎞⎠ Note que 𝐴 = 𝐴′. 1.1.3 Matriz Inversa Para um escalar 𝑘 ∈ ℜ, é certamente verdadeiro que 𝑘.𝑘−1 = 1. De maneira similar, se 𝐴 é uma matriz quadrada e 𝐴.𝐴−1 = 𝐼 em que 𝐼 é a identidade, esta que é uma matriz diagonal com todos os termos da diagonal igual a 1, então a matriz 𝐴−1 é a inversa da matriz 𝐴. Inversas existem somente para matrizes quadradas, mas nem todas as matrizes quadradas têm inversas. Se uma inversa existe, então ela é uma inversa à esquerda, de modo que 𝐴−1.𝐴 = 𝐼, assim como inversa à direita, de modo que 𝐴.𝐴−1 = 𝐼. Exemplo 1.2. Um exemplo de matriz inversa é⎛⎝ 2 1 1 2 ⎞⎠−1 = ⎛⎝ 23 −13 −1 3 2 3 ⎞⎠ a qual pode ser verificada mostrando que ⎛⎝ 2 1 1 2 ⎞⎠ . ⎛⎝ 23 −13 −1 3 2 3 ⎞⎠ = ⎛⎝ 1 0 0 1 ⎞⎠ 1.1.4 Matriz Ortogonal Dizemos que uma matriz 𝑛 × 𝑛 𝐴 é ortogonal quando sua inversa é igual a sua transposta, isto é, quando 𝐴𝑡 = 𝐴−1 Ou seja, 𝐴𝑡𝐴 = 𝐼. 14 Exemplo 1.3. ⎛⎝ 12 √32 − √ 3 2 1 2 ⎞⎠ . ⎛⎝ 12 −√32√ 3 2 1 2 ⎞⎠ = ⎛⎝ 1 0 0 1 ⎞⎠ Portanto a matriz 𝐴 = ⎛⎝ 12 √32 − √ 3 2 1 2 ⎞⎠ é uma matriz ortogonal. 1.1.5 Traço de Matriz O traço de uma matriz é a soma dos termos da diagonal principal, o qual é definido somente para uma matriz quadrada. Por exemplo, o traço de uma matriz 𝐴 quadrada de ordem 𝑛 é 𝑡𝑟(𝐴) = 𝑎11 + 𝑎22 + ...+ 𝑎𝑛𝑛 . Propriedades: i) 𝑡𝑟(𝐴) = 𝑡𝑟(𝐴𝑡) ii) 𝑡𝑟(𝐼) = 𝑛 iii) 𝑡𝑟(𝑘.𝐴) = 𝑘.𝑡𝑟(𝐴) iv) 𝑡𝑟(𝐴𝐵) = 𝑡𝑟(𝐵𝐴) 1.2 ESPAÇOS VETORIAIS Um conjunto não vazio 𝑉 é um espaço vetorial sobre 𝑅 se em seus elementos, denominados vetores, estiverem definidas as seguintes operações. Adição: A cada par de vetores de 𝑈 corresponde um vetor 𝑢+ 𝑣 ∈ 𝑉 chamado de soma de 𝑢+ 𝑣, de modo que a) 𝑢+ 𝑣 = 𝑣 + 𝑢, ∀ 𝑢, 𝑣 ∈ 𝑉 ; b) (𝑢+ 𝑣) + 𝑤 = 𝑢+ (𝑣 + 𝑤), ∀ 𝑢, 𝑣, 𝑤 ∈ 𝑉 ; c) Existe em 𝑉 um vetor denominado vetor nulo e denotado por 0, tal que 0+ 𝑣 = 𝑣, ∀ 𝑣 ∈ 𝑉 ; d) A cada vetor 𝑣 ∈ 𝑉 existe um vetor em 𝑉 , denotado por −𝑣 tal que 𝑣+(−𝑣) = 0. Multiplicação: A cada par 𝛼 ∈ 𝑅 e 𝑣 ∈ 𝑉 corresponde um vetor 𝛼𝑣 ∈ 𝑉 denominado produto por escalar de 𝛼 por 𝑣 de modo que: a) (𝛼𝛽)𝑣 = 𝛼(𝛽𝑣), ∀𝛼, 𝛽 ∈ 𝑅 e ∀ 𝑣 ∈ 𝑉 b) 1.𝑣 = 𝑣, ∀ 𝑣 ∈ 𝑉 c) 𝛼(𝑢+ 𝑣) = 𝛼𝑢+ 𝛼𝑣, ∀𝛼 ∈ 𝑅 e ∀𝑢, 𝑣 ∈ 𝑉 Observação 1.4. algumas vezes usamos a expressão 𝑘-espaço vetorial para indicar um espaço vetorial 𝑉 sobre 𝐾, onde 𝐾 é um corpo qualquer. 15 Seja 𝑉 um espaço vetorial sobre 𝑘. O conjunto 𝑉 com as operações de soma de vetores é um grupo abeliano. Portanto, o vetor nulo e o vetor oposto de cada vetor são únicos. 1.2.1 Subespaços Vetoriais Definição 1.5. Dado um espaço vetorial 𝑉 um subconjunto 𝑊 , não vazio, será um su- bespaço vetorial de 𝑉 se: i) Para quaisquer 𝑢+ 𝑣 ∈ 𝑊 → 𝑢+ 𝑣 ∈ 𝑊 ; ii) Para quaisquer 𝑎 ∈ ℜ, 𝑢 ∈ 𝑊 tivermos 𝑎.𝑢 ∈ 𝑊 . Observação 1.6. a) qualquer subespaço 𝑊 de 𝑉 precisa conter o vetor nulo. b) Todo espaço vetorial admite dois subespaços, ele mesmo e o conjunto 0. Teorema 1.7 (Interseção de subespaços). Dados 𝑊1 e 𝑊2 subespaços de um espaço vetorial 𝑉 , a interseção 𝑊1 ⋂︀ 𝑊2 ainda é um subespaço de 𝑉 . Dem: 𝑊1 ⋂︀ 𝑊2 ̸= ∅, pois 0 ∈ 𝑊1 e 0 ∈ 𝑊2 i) dados 𝑥, 𝑦 ∈ 𝑊1⋂︀𝑊2 → 𝑥, 𝑦 ∈ 𝑊1 → 𝑥+ 𝑦 ∈ 𝑊1 e 𝑥+ 𝑦 ∈ 𝑊2. ii) Dado 𝑎 ∈ 𝑅 e 𝑥 ∈ 𝑊1⋂︀𝑊2 logo 𝑥 ∈ 𝑊1 e 𝑥 ∈ 𝑊2 então 𝑎𝑥 ∈ 𝑊1 e 𝑎𝑥 ∈ 𝑊2 → 𝑎𝑥 ∈ 𝑊1⋂︀𝑊2 Portanto, 𝑊1 ⋂︀ 𝑊2 é um subespaço vetorial de 𝑉 . � Um dos conceitos mais importantes envolvendo a estrutura de espaço vetorial é a de base. Definição 1.8. Seja 𝑉 um espaço vetorial sobre 𝐾. 1) Um vetor 𝑣 ∈ 𝑉 é combinação linear dos vetores 𝑣1, ..., 𝑣𝑛 de 𝑉 se existem escalares 𝛼1, ..., 𝛼𝑛 ∈ R tais que 𝑣 = 𝛼1𝑣1 + · · ·+ 𝛼𝑛𝑣𝑛 = 𝑛∑︁ 𝑖=1 𝛼𝑖𝑣𝑖. 2) Seja 𝐵 um subconjunto de 𝑉 . Dizemos que 𝐵 é um conjunto gerador de 𝑉 se todo elemento de 𝑉 for uma combinação linear de um número finito de elementos de 𝐵. Observação 1.9. a) Por convenção dizemos que o conjunto vazio gera o espaço vetorial 0; b) Todo espaço vetorial possui um conjunto gerador; c) Seja 𝐵 um conjunto gerador de um espaço vetorial 𝑉 . Todo subconjunto de 𝑉 que contenha 𝐵 é um conjunto gerador; d) Sejam 𝑉 um k-espaço vetorial e {𝑣1, 𝑣2, . . . , 𝑣𝑛} ⊆ 𝑉 . O subconjunto de 𝑉 formado por todas as combinações lineares de 𝑣1, 𝑣2, . . . , 𝑣𝑛 é também um k-espaço vetorial. 16 Exemplo 1.10. a) Seja o R3 como espaço vetorial sobre R, assim o conjunto {(1, 0, 0), (0, 1, 0), (0, 0, 1)} é o conjunto gerador do R3. b) Seja 𝑃 (R) o conjunto dos polinômios com coeficientes em R. O conjunto {1, 𝑥, 𝑥2, . . . , 𝑥𝑛, . . .} é um conjunto gerador de 𝑃 (R) visto como espaço vetorial sobre R. Em geral um espaço vetorial possui muitos conjuntos geradores. A situação ideal é que exista um conjunto gerador onde cada elemento de 𝑉 se escreve de maneira única como combinação linear dos elementos deste conjunto gerador. Por trás dessa unicidade está o importante conceito de conjunto linearmente in- dependente. Definição 1.11. Sejam 𝑉 um espaço vetorial sobre 𝐾 e 𝐵 um subconjunto de 𝑉 . a) Dizemos que 𝐵 é linearmente independente (L.I.) se 𝛼1𝑣1+𝛼2𝑣2+. . .+𝛼𝑛𝑣𝑛 = 0, para 𝑣𝑖 ∈ 𝐵 e 𝛼𝑖 ∈ 𝐾, 𝑖 = 1, 2, . . . , 𝑛, implica que 𝛼1 = 𝛼2 = . . . = 𝛼𝑛 = 0. b) O conjunto 𝐵 é chamado linearmente dependente (L.D.) se não for linearmente independente. Observação 1.12. a) Por convenção, o conjunto vazio é um conjunto linearmente inde- pendente; b)Todo conjunto contendo o vetor nulo é linearmente dependente; c) Todo subconjunto de um conjunto L.I. é L.I. Definição 1.13. Seja 𝑉 um espaço vetorial sobre um corpo 𝐾. Dizemos que um subcon- junto 𝐵 de 𝑉 é uma base de 𝑉 se i) 𝐵 for um conjunto gerador de 𝑉 ; e ii) 𝐵 for L.I. Exemplo 1.14. 𝑉 = R2, 𝑒1 = (1, 0) e 𝑒2 = (0, 1). Definição 1.15. Dizemos que um conjunto (espaço vetorial) 𝑉 sobre 𝐾 é finitamente gerado se possui um conjunto gerador finito. Teorema 1.16. Sejam 𝑣1, 𝑣2, . . . , 𝑣𝑛 vetores não nulos que geram um espaço vetorial 𝑉 . Então, dentre estes vetores podemos extrair uma base de 𝑉 . Demonstração: Se 𝑣1, 𝑣2, . . . , 𝑣𝑛 são L.I. nada temos a mostrar. Se 𝑣1, 𝑣2, . . . , 𝑣𝑛 são L.D. então existe uma combinação linear deles, com algum coeficiente não zero, dando o vetor nulo. 𝛼1𝑣1 + 𝛼2𝑣2 + . . .+ 𝛼𝑛𝑣𝑛 = 0 17 Sem perda de generalidade seja 𝑥𝑛 ̸= 0. Então podemos escrever 𝑣𝑛 = −𝑥1 𝑥𝑛 𝑣1 − 𝑥2 𝑥𝑛 𝑣2 − . . .− 𝑥𝑛−1 𝑥𝑛 𝑣𝑛−1 Ou seja, 𝑣𝑛 é uma combinação linear dos demais, portanto, 𝑣1, 𝑣2, . . . , 𝑣𝑛−1 ainda geram 𝑉 . Se esses vetores ainda forem L.D. repetimos o processo anterior, após um número finito de passos chegaremos a um subconjunto {𝑣1, 𝑣2, . . . , 𝑣𝑛} formado por 𝑟 6 𝑛 vetores L.I., que ainda geram 𝑉 . � 1.3 TRANSFORMAÇÕES LINEARES Definição 1.17. Uma representação 𝑇 de um espaço vetorial 𝑉 em um espaço𝑊 é dita um transformação linear se: i) 𝑇 (𝑣1 + 𝑣2) = 𝑇 (𝑣1) + 𝑇 (𝑣2) ii) 𝑇 (𝛼𝑣) = 𝛼𝑇 (𝑣) Exemplo 1.18. Seja 𝑇 : R ↦−→ R 𝑥 ↦−→ 𝑥 𝑇 (𝑥) = 3𝑥 é uma transformação linear? De fato, seja 𝑥1 e 𝑥2 ∈ R então i) 𝑇 (𝑥1 + 𝑥2) = 3(𝑥1 + 𝑥2) = 3𝑥1 + 3𝑥2 = 𝑇 (𝑥1) + 𝑇 (𝑥2) ii) Seja 𝑥1 ∈ R e 𝛼 ∈ R 𝑇 (𝛼𝑥) = 3(𝛼𝑥) = 𝛼 3𝑥 = 𝛼𝑇 (𝑥) Portanto é uma transformação linear. Observação 1.19. Se 𝑇 é uma Transformação Linear de 𝑉 em 𝑊 , então: i) 𝑇 (0𝑣) = 0𝑤; ii) 𝑇 (𝛼1𝑣1 + 𝛼2𝑣2 + . . .+ 𝛼𝑛𝑣𝑛) = 𝛼1𝑇 (𝑣1) + 𝛼2𝑇 (𝑣2) + . . .+ 𝛼𝑛𝑇 (𝑣𝑛); iii) 𝐿(−𝑣) = −𝐿(𝑣). Definição 1.20. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear. O núcleo de 𝑇 , escrito como 𝑛𝑢𝑐𝑙(𝑇 ) ou 𝑘𝑒𝑟(𝑇 ) é definido 𝑁𝑢𝑐𝑙(𝑇 ) = 𝑣 ∈ 𝑉, 𝑇 (𝑣) = 0𝑤 Definição 1.21. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear e seja 𝑆 um subespaço de 𝑉 , a imagem de 𝑆, 𝑇 (𝑆), é definida por 𝑇 (𝑆) = [𝑤 ∈ 𝑊 ;𝑤 = 𝑇 (𝑣),∀𝑣 ∈ 𝑆] 18 Proposição 1.22. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear com 𝑉 e 𝑊 espaços vetoriais. Então: i) 𝑁𝑢𝑐𝑙(𝑇 ) é subespaço de V. Demonstração: O núcleo de 𝑇 é o conjunto de vetores de 𝑉 que são levados por 𝑇 no vetor nulo de 𝑊 . Como 𝑛𝑢𝑐𝑙(𝑇 ) é um subconjunto não-vazio de 𝑉 , já que 𝑇 (0) = 0. 𝑛𝑢𝑐𝑙(𝑇 ) é subespaço de 𝑉 . De fato, se 𝑣1 e 𝑣2 ∈ 𝑛𝑢𝑐𝑙(𝑇 ) e se 𝑎 ∈ R então 𝑣1+𝑣2 ∈ 𝑛𝑢𝑐𝑙(𝑇 ), pois 𝑇 (𝑣1 + 𝑣2) = 𝑇 (𝑣1) + 𝑇 (𝑣2) = 0 + 0 = 0 e, 𝑇 (𝛼𝑣) = 𝛼𝑇 (𝑣) = 𝛼.0 = 0 � ii) Se 𝑆 é subespaço e 𝑆 ⊂ 𝑉 , então 𝑇 (𝑆) é subespaço de 𝑊 . Demonstração: De fato! i) 𝑇 (𝑆) ̸= ∅, pois como 𝑆 é subespaço, então 0 ∈ 𝑆, logo 𝑇 (0) ∈ 𝑇 (𝑆) ⇒ 0𝑤 ∈ 𝑇 (𝑆) → 𝑇 (𝑆) ̸= ∅. ii) Sejam 𝑤1 e 𝑤2 ∈ 𝑇 (𝑆) e 𝛼 ∈ R. Logo existem 𝑣1 e 𝑣2 ∈ 𝑆 tal que 𝑇 (𝑣1) = 𝑤1 e 𝑇 (𝑣2) = 𝑤2. Assim, 𝑤1 + 𝑤2 = 𝑇 (𝑣1) + 𝑇 (𝑣2) = 𝑇 (𝑣1 + 𝑣2) = 𝑇 (𝑣3) com 𝑣3 ∈ 𝑆, logo 𝑤1 + 𝑤2 ∈ 𝑇 (𝑆). 𝛼𝑤1 = 𝛼𝑇 (𝑣1) = 𝑇 (𝛼𝑣1) = 𝑇 (𝑣4), 𝑣4 ∈ 𝑆. Logo 𝑤1 ∈ 𝑇 (𝑆). Portanto 𝑇 (𝑆) é um subespaço de 𝑊 . � Teorema 1.23. Seja 𝑇 : 𝑉 ↦→ 𝑊 uma transformação linear. 𝑇 é injetora se, e somente se, 𝑛𝑢𝑐𝑙(𝑇 ) = 0. Demonstração: Seja 𝑣 ∈ 𝑛𝑢𝑐𝑙(𝑇 ) ⇒ 𝑇 (𝑣) = 0𝑣 = 𝑇 (0), como 𝑇 é injetora 𝑇 (𝑣) = 𝑇 (0)⇒ 𝑣 = 0𝑣 ⇒ 𝑛𝑢𝑐𝑙(𝑇 ) = 0. Sejam 𝑣1 e 𝑣2 ∈ 𝑉 tais que 𝑇 (𝑣1) = 𝑇 (𝑣2) ⇒ 𝑇 (𝑣1) − 𝑇 (𝑣2) = 0 ⇒ 𝑇 (𝑣1 − 𝑣2) = 0⇒ 𝑣1 − 𝑣2 ∈ 𝑛𝑢𝑐𝑙(𝑇 ) = 0⇒ 𝑣1 = 𝑣2. Portanto 𝑇 é injetora. � Teorema 1.24. Seja 𝑇 : 𝑉 ⇒ 𝑊 uma transformação linear. Se 𝐵 = 𝑣1, 𝑣2, . . . , 𝑣𝑛 é uma base de 𝑉 então 𝑇 (𝐵) = 𝑇 (𝑣1), 𝑇 (𝑣2), . . . , 𝑇 (𝑣𝑛) geram 𝐼𝑚(𝑇 ). Demonstração: Seja 𝑤 ∈ 𝐼𝑚(𝑇 ) então existe 𝑣 ∈ 𝑉 tal que 𝑇 (𝑣) = 𝑤, como 𝐵 é base de 𝑉 então 𝑉 = 𝛼1𝑣1 + 𝛼2𝑣2 + . . . + 𝛼𝑛𝑣𝑛, logo 𝑤 = 𝑇 (𝛼1𝑣1 + 𝛼2𝑣2 + . . . + 𝛼𝑛𝑣𝑛) = 𝛼1𝑇 (𝑣1) + 𝛼2𝑇 (𝑣2) + . . .+ 𝛼𝑛𝑇 (𝑣𝑛). Portanto, 𝑇 (𝐵) gera a 𝐼𝑚(𝑇 ). � 19 Proposição 1.25. Seja 𝑉 um espaço vetorial de dimensão 𝑛 > 1 e seja 𝐵 ⊆ 𝑉 . As seguintes afirmações são equivalentes: a) 𝐵 é uma base de 𝑉 . b) Cada elemento de 𝑉 se escreve de maneira única como combinação linear de elementos de 𝐵. 1.4 VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS Nessa seção fazemos um breve resumo sobre os conceitos estatísticos univariados, temos como objetivo definir os principais parâmetros estatísticos de posição e dispersão de um conjunto de dados. Posteriormente, veremos que tais parâmetros podem ser estendidos para o caso multivariado. Os resultados aqui apresentados estão disponíveis em Mendes (2010). Sejam 𝐸 um experimento aleatório e 𝑆 o espaço amostral associado a esse ex- perimento. Uma função 𝑋, que associa um número real 𝑥 a cada resultado 𝑠 do espaço amostral 𝑆, isto é, 𝑋(𝑠) = 𝑥, é denominada variável aleatória. Em algumas situações, pode ocorrer mais de um resultado 𝑠 do espaço amostral 𝑆 levar a um mesmo valor 𝑥 da variável aleatória 𝑋. Portanto, usamos a letra maiúscula 𝑋 para representar uma variável aleatória unidimensional, e a correspondente letra minúscula 𝑥 pode representar os valores que esta variável aleatória pode tomar. Se a variável aleatória unidimensional 𝑋 puder tomar um número finito de valores, ou um número infinito numerável de valores, dizemos que ela é variável aleatória discreta. Se a variável aleatória unidimensional 𝑋 tomar um número infinito e não enumerável de valores, ela é dita uma variável aleatória contínua. 1.4.1 Variáveis aleatórias unidimensionais discretas Seja 𝑋 uma variável aleatória unidimensional discreta. Isso significa que 𝑋 assume um número finito de valores, ou um número infinito e enumerável de valores. Para cada valor 𝑥 que a variável aleatória 𝑋 assume será distribuido um número real, representando a probabilidade de a variável aleatória 𝑋 ser igual ao valor 𝑥. Esta probabilidade será denotada por 𝑃 (𝑋 = 𝑥) = 𝑝(𝑥). Esses números reais 𝑝(𝑥), como representam probabilidades, devem satisfazer às seguintes condições: (a) 0 ≤ 𝑝(𝑥) ≤ 1 (b) ∑︁ 𝑥 𝑝(𝑥) = 1 As probabilidades 𝑝(𝑥), para todos os valores 𝑥 que a variável aleatória 𝑋 assume, formam o que se denomina função de probabilidade da variável aleatória 𝑋. Para quaisquer valores 𝑎 e 𝑏 teremos 𝑝(𝑎 ≤ 𝑋 ≤ 𝑏) = ∑︁ 𝑝(𝑥), onde o somatório deve incluir todos os valores possíveis de 𝑋 entre 𝑎 e 𝑏 inclusive. 20 Define-se função 𝑓(𝑥) como função de distribuição acumulada da variável aleatória discreta 𝑋, para todos os valores possíveis de 𝑋 que a variável aleatória 𝑋 assume, com 𝐹 (𝑥) = 𝑃 (𝑋 ≤ 𝑥). Exemplo 1.26. Um experimento aleatório consiste em jogar uma moeda duas vezes. Determinar a função probabilidade e a função de distribuição (acumulada) para a variável aleatória 𝑋 = número de caras obtido na jogada de uma moeda duas vezes. O espaço amostral para este experimento é dado por 𝑆 = {𝐶𝐶,𝐶𝐾,𝐾𝐶,𝐾𝐾}, onde 𝐶 = 𝑐𝑎𝑟𝑎 e 𝐾 = 𝑐𝑜𝑟𝑜𝑎; a primeira letra representa a primeira jogada, a segunda letra, segunda jogada. Solução: Se 𝑋= número de caras obtido na jogada de uma moeda duas vezes, então é necessário verificar os valores que esta variável aleatória pode assumir. Portanto, para cada resultado 𝑠 do espaço amostral 𝑆 precisamos associar um número 𝑥 para 𝑋. Então, para o resultado ”𝐶𝐶” (duas caras) temos 𝑥 = 2; para ”𝐶𝐾” temos 𝑥 = 1, ”𝐾𝐶” temos 𝑥 = 1, para resultado ”𝐾𝐾” (nenhuma cara) temos 𝑥 = 0. Para determinar a função de probabilidade da variável aleatória 𝑋, fazemos os cálculos das probabilidades, ou seja, 𝑝(0) = 𝑃 (𝑋 = 0) = 𝑃 (𝐾𝐾) = 14 = 0, 25 𝑝(1) = 𝑃 (𝑋 = 1) = 𝑃 (𝐶𝐾 ⋃︀𝐾𝐶) = 𝑃 (𝐶𝐾) + 𝑃 (𝐾𝐶) = 24 = 12 = 0, 5 𝑝(2) = 𝑃 (𝑋 = 2) = 𝑃 (𝐶𝐶) = 14 = 0, 25 Verificamos que esses valores de 𝑝(𝑥) satisfazem às condições 0 ≤ 𝑝(𝑥) ≤ 1, ∀ 𝑥, e Σ𝑥𝑝(𝑥) = 1 tão a função probabilidade da variável aleatória 𝑋 representando o número de caras obtido na jogada de uma moeda duas vezes pode ser colocada na forma de uma tabela 𝑥 0 1 2 𝑝(𝑥) 0, 25 0, 5 0, 25 Em alguns casos, como o da variável aleatória 𝑋 em questão, podemos escrever uma fórmula de recorrência para a função de probabilidade: 𝑝(𝑥) = ⎛⎝ 2 𝑥 ⎞⎠ .0, 25, 𝑥 = 0, 1, 2 Seja 𝐹 (𝑥) = 𝑃 (𝑋 6 𝑥) a função de distribuição acumulada da variável aleatória X = Número de casos obtido na jogada de uma moeda duas vezes. Então: 𝐹 (0) = 𝑃 (𝑋 6 0) = 𝑝(0) = 0, 25 𝐹 (1) = 𝑃 (𝑋 6 1) = 𝑝(0) + 𝑝(1) = 0, 25 + 0, 5 = 0, 75 𝐹 (2) = 𝑃 (𝑥 6 2) = 𝑝(0) + 𝑝(1) + 𝑝(2) = 0, 25 + 0, 5 + 0, 25 = 1 isto é, 𝐹 (𝑥) = {0, 25 𝑠𝑒 𝑥 = 0, 0, 75 𝑠𝑒 𝑥 = 1 , 1 𝑠𝑒 𝑥 = 2} 21 1.4.2 Variáveis aleatórias unidimensionais contínuas Seja𝑋 uma variável aleatória unidimensional contínua. Isto significa que𝑋 assume um número infinito não numerável de valores. Define-se uma função, denotada por 𝑓(𝑥), e denominada função densidade proba- bilidade da variávelaleatória 𝑋, representando fisicamente, a curva das probabilidades de todos os infinitos valores da viariável aleatória 𝑋. Esta função 𝑓(𝑥) deve satisfazer às seguintes condições: (a) 𝑓(𝑥) > 0, para todo 𝑥, isto é, 𝑓(𝑥) é valida para todos os valores que a variável aleatória 𝑋 assume. (b) ∫︁ 𝑥 𝑓(𝑥)𝑑𝑥 = 1, ou seja, a área abaixo de 𝑓(𝑥), em todo o intervalo de validação da variável aleatória 𝑋, deve ser igual a 1. Para quaisquer valores a e b pertencentes ao intervalo de validação da variável aleatória contínua 𝑋, teremos, 𝑃 (𝑎 ≤ 𝑋 ≤ 𝑏) = ∫︁ 𝑏 𝑎 𝑓(𝑥)𝑑𝑥 representando a área abaixo de 𝑓(𝑥) no intervalo [𝑎, 𝑏]. Assim, teremos 𝑃 (𝑋 = 𝑥) = 0, uma vez que ∫︀ 𝑏 𝑎 𝑓(𝑥)𝑑𝑥 = 0, o que nos leva a ter 𝑃 (𝑎 6 𝑥 6 𝑏) = 𝑃 (𝑎 < 𝑥 6 𝑏) = 𝑃 (𝑎 6 𝑥 < 𝑏) = 𝑃 (𝑎 < 𝑥 < 𝑏). A função de distribuição acumulada da variável aleatória contínua𝑋, denotada por 𝐹 (𝑥), é dada por 𝐹 (𝑥) no intervalo que compreende desde o limite inferior de validação da variável aleatória 𝑋 até o valor de interesse 𝑥, consequentemente, 𝑓(𝑥) = 𝑑 𝑑𝑥 𝐹 (𝑥) = 𝐹 ′(𝑥), para todo 𝑥 no qual 𝐹 (𝑥) seja derivável. 1.4.3 Estatística Univariada Definição 1.27. Seja uma variável aleatória 𝑋, discreta que assume valores no conjunto 𝑥1, 𝑥2, . . .. Chama-se valor médio ou esperança matemática de 𝑋 o valor 𝜇 = 𝐸(𝑥) = Σ𝑛𝑖=1𝑥𝑖𝑃 (𝑋 = 𝑥𝑖) = Σ𝑛𝑖=1 𝑥𝑖 𝑛 Definição 1.28. Chama-se variância da variável aleatória 𝑋 ao valor 𝜎2 = 𝑉 (𝑋) = 𝐸[𝑋 − 𝐸(𝑋)]2 = Σ𝑛𝑖=1(𝑥𝑖 − 𝜇)2𝑃 (𝑋 = 𝑥𝑖) = Σ𝑛𝑖=1 (𝑥𝑖 − 𝜇)2 𝑛 Definição 1.29. A raiz quadrada da variância da variável aleatória 𝑋 é denominada desvio padrão e é definido por 𝜎 = √︁ 𝑉 (𝑋) Uma relação muito importante é 𝑉 (𝑋) = 𝐸(𝑋2)− [𝐸(𝑋)]2, 22 onde 𝐸(𝑋2) = Σ𝑛𝑖=1𝑥2𝑖𝑃 (𝑋 = 𝑥𝑖). Da mesma forma, se a variável aleatória contínua tem-se a esperança de 𝑋 dada por 𝐸(𝑋) = 𝜇 = ∫︁ +∞ −∞ 𝑥𝑓(𝑥)𝑑𝑥 e a variância é dada por 𝑉 (𝑋) = (𝑋 − 𝜇)2 = 𝜎2 = ∫︁ +∞ −∞ (𝑥− 𝜇)2𝑓(𝑥)𝑑𝑥. A variância mede a dispersão (espelhamento) dos dados em torno da média 𝜇 = 𝐸(𝑋) e o desvio padrão faz isso também, mas na mesma unidade de medida de dados. Definição 1.30. Se as variáveis aleatórias 𝑋 e 𝑌 não são independentes. existe uma diferença entre 𝐸(𝑋𝑌 ) e 𝐸(𝑋)𝐸(𝑌 ), esta diferença é chamada de covariância e definida por 𝑐𝑜𝑣(𝑋, 𝑌 ) = [𝐸(𝑋 − 𝐸(𝑋))(𝑌 − 𝐸(𝑌 ))] e se 𝑐𝑜𝑣(𝑋, 𝑌 ) = 0, as variáveis aleatórias são chamadas de não-correlacionadas. Definição 1.31. A covariância entre as variáveis aleatórias 𝑋 e 𝑌 padronizadas é cha- mada de coeficiente de correlação 𝜌 = 𝐸[(𝑋 − 𝐸(𝑋) 𝜃𝑥 )(𝑌 − 𝐸(𝑌 ) 𝜃𝑦 )] Proposição 1.32. 𝑐𝑜𝑣(𝑋, 𝑌 ) = 𝐸(𝑋𝑌 )− 𝐸(𝑋)𝐸(𝑌 ). De fato! 𝑐𝑜𝑣(𝑋, 𝑌 ) = 𝐸[(𝑋 − 𝐸(𝑋))(𝑌 − 𝐸(𝑌 ))] = 𝐸[𝑋𝑌 −𝑋𝐸(𝑌 )− 𝑌 𝐸(𝑋) + 𝐸(𝑋)𝐸(𝑌 )] = 𝐸(𝑋𝑌 )− 𝐸(𝑋)𝐸(𝑌 )− 𝐸(𝑌 )𝐸(𝑋) + 𝐸(𝑋)𝐸(𝑌 ) = 𝐸(𝑋𝑌 )− 𝐸(𝑋)𝐸(𝑌 ) Os próximos resultados apresentam propriedades sobre a Esperança e a Variância de uma variável aleatória unidimensional. Propriedades da Esperança: Sejam 𝑋 uma variável aleatória e 𝑐 uma constante, então: i) 𝐸(𝑋1 +𝑋2) = 𝐸(𝑋1) + 𝐸(𝑋2) ii) 𝐸(𝑐𝑋1) = 𝑐𝐸(𝑋1) Demonstração: Sejam 𝑋1 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑎1 𝑎2 ... 𝑎𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠, 𝑋2 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑏1 𝑏2 ... 𝑏𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠, 𝑐 ∈ R, 𝑐 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐1 𝑐2 ... 𝑐𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠. 23 Como vimos anteriormente, 𝐸(𝑋1) = Σ𝑚𝑖=1 𝑥𝑖 𝑚 . i) Provaremos que 𝐸(𝑋1 +𝑋2) = 𝐸(𝑋1) + 𝐸(𝑋2). 𝐸 ⎛⎜⎜⎜⎜⎜⎜⎝ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑎1 𝑎2 ... 𝑎𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠+ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑏1 𝑏2 ... 𝑏𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐸 ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑎1 + 𝑏1 𝑎2 + 𝑏2 ... 𝑎𝑚 + 𝑏𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠ = Σ𝑚𝑖=1 (𝑎𝑖 + 𝑏𝑖) 𝑚 = Σ𝑚𝑖=1 𝑎𝑖 𝑚 + Σ𝑚𝑖=1 𝑏𝑖 𝑚 = 𝐸(𝑋1) + 𝐸(𝑋2) . ii) 𝐸(𝑐𝑋1) = 𝑐𝐸(𝑋1) 𝐸 ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐 ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑎1 𝑎2 ... 𝑎𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐸 ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐𝑎1 𝑐𝑎2 ... 𝑐𝑎𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠ = Σ 𝑚 𝑖=1 𝑐𝑎𝑖 𝑚 = 𝑐Σ𝑚𝑖=1 𝑎𝑖 𝑚 = 𝑐𝐸(𝑋1) Propriedade da Variância: Sejam 𝑋 e 𝑌 variáveis aleatórias e 𝑐 uma constante, então: ∙ i) 𝑉 (𝑐𝑋) = 𝑐2𝑉 (𝑋) ∙ ii) 𝑉 (𝑋) = 𝐸(𝑋2)− [𝐸(𝑋)]2; ∙ iii) 𝑉 (𝑋 + 𝑌 ) = 𝑉 (𝑋) + 𝑉 (𝑌 ) Demonstração: i) De fato, temos que V(𝑐𝑋) = 𝑐2𝐸(𝑋2)− 𝑐2[𝐸(𝑋)]2 = 𝑐2V(𝑋). ii) 𝑉 (𝑋) = 𝐸(𝑋2)− [𝐸(𝑋)]2 quando 𝑋 é uma variável aleatória contínua. 𝑉 (𝑋) = ∫︁ +∞ −∞ (𝑥− 𝜇𝑥)2𝑓(𝑥)𝑑𝑥 = ∫︁ +∞ −∞ (𝑥2 − 2𝑥𝜇𝑥 + 𝜇2𝑥)𝑓(𝑥)𝑑𝑥 = ∫︁ +∞ −∞ 𝑥2𝑓(𝑥)𝑑𝑥− 2𝜇𝑥 ∫︁ +∞ −∞ 𝑥𝑓(𝑥)𝑑𝑥+ 𝜇2𝑥 ∫︁ +∞ −∞ 𝑓(𝑥)𝑑𝑥 = 𝐸(𝑋2)− 2𝜇𝑥𝐸(𝑋) + 𝜇2𝑥 = 𝐸(𝑋2)− 2𝜇𝑥𝜇𝑥 + 𝜇2𝑥 = 𝐸(𝑋2)− 2𝜇2𝑥 + 𝜇2𝑥 = 𝐸(𝑋2)− 2𝐸(𝑋)2 + 𝐸(𝑋)2 = 𝐸(𝑋2)− 𝐸(𝑋)2 24 iii) 𝑉 (𝑋 + 𝑌 ) = 𝑉 (𝑋) + 𝑉 (𝑌 ) 𝑉 (𝑋 + 𝑌 ) = 𝐸[(𝑋 + 𝑌 )2]− [𝐸(𝑋 + 𝑌 )]2 = 𝐸[𝑋2 + 2𝑋𝑌 + 𝑌 2]− [𝐸(𝑋) + 𝐸(𝑌 )]2 = 𝐸(𝑋2) + 2𝐸(𝑋𝑌 ) + 𝐸(𝑌 2)− [𝐸(𝑋)]2 − 2𝐸(𝑋)𝐸(𝑌 )− [𝐸(𝑌 )]2 = 𝐸(𝑋2)− [𝐸(𝑋)]2 + 𝐸(𝑌 2)− [𝐸(𝑌 )]2 𝑉 (𝑋) + 𝑉 (𝑌 ) � 25 2 ANÁLISE MULTIVARIADA A análise multivariada é um conjunto de técnicas estatísticas que tratam dos dados correspondentes às medidas de muitas variáveis simultaneamente. Basicamente, a análise multivariada consiste no estudo estatístico dos problemas relacionados com: ∙ Inferências sobre médias multivariadas; ∙ Análise da estrutura de covariância de uma matriz de dados; ∙ Técnicas de reconhecimento de padrão, classificação e agrupamento. No estudo de 𝑝 > 1 variáveis, geralmente, toma-se 𝑛 observações de cada variá- vel para obter informações sobre parâmetros, relacionamentos entre as variáveis, com- parações, etc. Assim, as medidas registradas são 𝑥𝑖𝑗 com 𝑖 = 1, 2, . . . , 𝑛 (observações) e 𝑗 = 1, 2, . . . , 𝑝 (variáveis) que podem ser agrupadas na matriz de dado 𝑋𝑛×𝑝, com 𝑛 linhas e 𝑝 colunas. 𝑋𝑛×𝑝 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑋11 𝑋12 . . . 𝑋1𝑝 𝑋21 𝑋22 . . . 𝑋2𝑝 ... ... . . . ... 𝑋𝑛1 𝑋𝑛2 . . . 𝑋𝑛𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ A matriz de dados 𝑋𝑛×𝑝 contém 𝑛 observações do vetor aleatório p-dimensional 𝑋 ′ = [𝑋1, 𝑋2, . . . , 𝑋𝑝]. Exemplo 2.1. Uma amostra aleatória composta por 4 notas de vendas de livros de uma livraria foi obtida a fim de investigar-se a natureza dos livros vendidos. Cada nota fiscal especifica o número de livros vendidos e o valor de cada venda. Assim seja o vetor aleatório 𝑋 ′ = [𝑋1 𝑋2] cujas componentes são as variáveis aleatórias: A matriz de dados é 𝑋𝑛×𝑝 = ⎛⎜⎜⎜⎜⎜⎜⎝ 42 4 80 5 48 4 36 3 ⎞⎟⎟⎟⎟⎟⎟⎠ 2.1 ESTATÍSTICA MULTIVARIADA Muito da informação contida na matriz de dados pode ser dada pelo cálculo de números sumários conhecidos como estatísticas descritivas. Definição 2.2 (Vetor Média Amostral). 𝑋 ′ = [𝑋1 𝑋2 . . . 𝑋𝑝], com 𝑋𝑗 = Σ𝑛𝑖=1𝑥𝑖𝑗 𝑛 , 𝑗 = 1, 2, . . . , 𝑝. 26 Definição 2.3 (Matriz de covariância amostral). 𝑆 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑆11 𝑆12 . . . 𝑆1𝑝 𝑆21 𝑆22 . . . 𝑆2𝑝 ... ... . . . ... 𝑆𝑝1 𝑆𝑝2 . . . 𝑆𝑝𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ onde, 𝑆𝑗𝑗 = Σ𝑛𝑖=1(𝑋𝑖𝑗 −𝑋𝑗)2 𝑛− 1 é a variância da variável aleatória 𝑥𝑗. 𝑆𝑗𝑘 = Σ𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥𝑗)(𝑥𝑖𝑘 − 𝑥𝑘) 𝑛− 1 𝑗, 𝑘 = 1, 2, . . . , 𝑝 é a covariância entre 𝑥𝑗 e 𝑥𝑘. Observação 2.4. A matriz de covariância amostral de uma matriz multivariada também pode ser definida como 𝑉 (𝑋) = 𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]. Essa definição contribui para demonstração de varias resultados que serão mostra- dos adiante. Definição 2.5 (Matriz de correlação amostral). 𝑅 = ⎛⎜⎜⎜⎜⎜⎜⎝ 1 𝑟12 . . . 𝑟1𝑝 𝑟21 1 . . . 𝑟2𝑝 ... . . . . . . ... 𝑟𝑝1 𝑟𝑝2 . . . 1 ⎞⎟⎟⎟⎟⎟⎟⎠ onde, 𝑟𝑗𝑘 = 𝑆𝑗𝑘√︁ 𝑆𝑗𝑗 √ 𝑆𝑘𝑘 . Exemplo 2.6. Considere os dados do Exemplo 3.1. Então: a) O vetor média amostral. 𝑋 ′ = [51, 5 4] b) A matriz de covariânciaamostral. 𝑆 = ⎛⎝ 385 14, 66 14, 66 0, 66 ⎞⎠ c) A matriz de correlação amostral R. 𝑅 = ⎛⎝ 1 0, 915475.. 0, 915475.. 1 ⎞⎠ Proposição 2.7. Sejam 𝑋 = ⎛⎝ 𝑥1 𝑦1 𝑥1 𝑦2 ⎞⎠ e 𝜇 = ⎛⎝ 𝜇1 𝜇2 𝜇1 𝜇2 ⎞⎠. Defina 𝑋−𝜇 = ⎛⎝ 𝑥1 − 𝜇1 𝑦1 − 𝜇2 𝑥2 − 𝜇1 𝑦2 − 𝜇2 ⎞⎠ e 𝑐′ = (︁ 𝑐1 𝑐2 )︁ . Então 𝑐′(𝑋 − 𝜇) = 𝑐′𝑋 − 𝑐′𝜇. 27 Demonstração: 𝑐′(𝑋 − 𝜇) = 𝑐′ = (︁ 𝑐1 𝑐2 )︁⎛⎝ 𝑥1 − 𝜇1 𝑦1 − 𝜇2 𝑥2 − 𝜇1 𝑦2 − 𝜇2 ⎞⎠ = [𝑐1(𝑥1 − 𝜇1) + 𝑐2(𝑥2 − 𝜇1) 𝑐1(𝑦1 − 𝜇2) + 𝑐2(𝑦2 − 𝜇2)] = [(𝑐1𝑥1 + 𝑐2𝑥2) + (−𝑐1𝜇1 − 𝑐2𝜇1) (𝑐1𝑦1 + 𝑐2𝑦2) + (−𝑐1𝜇2 − 𝑐2𝜇2)] = [𝑐1𝑥1 + 𝑐2𝑥2 𝑐1𝑦1 + 𝑐2𝑦2] + [−𝑐1𝜇1 − 𝑐2𝜇1 − 𝑐1𝜇2 − 𝑐2𝜇2] = (︁ 𝑐1 𝑐2 )︁⎛⎝ 𝑥1 𝑦1 𝑥1 𝑦2 ⎞⎠− [(𝑐1 + 𝑐2)𝜇1 (𝑐1 + 𝑐2)𝜇2] = 𝑐′ 𝑋 − [𝑐1𝜇1 + 𝑐2𝜇1 𝑐1𝜇2 + 𝑐2𝜇2] = 𝑐′ 𝑋 − (︁ 𝑐1 𝑐2 )︁⎛⎝ 𝜇1 𝜇2 𝜇1 𝜇2 ⎞⎠ = 𝑐′ 𝑋 − 𝑐′ 𝜇 De forma análoga mostra-se que (𝑋 − 𝜇)′𝑐 = (𝑐′ 𝑋 − 𝑐′ 𝜇)′ � Proposição 2.8 (Propriedades). Sejam 𝑋 uma matriz multivariada, 𝑐 uma constante e 𝑐′ um vetor de constantes, então: i) 𝐸(𝑐𝑋) = 𝑐𝐸(𝑋); ii) 𝐸(𝑐′𝑋) = 𝑐′𝐸(𝑋); iii) 𝑉 (𝑐𝑋) = 𝑐2𝑉 (𝑋); iv) 𝑉 (𝑐′𝑋) = 𝑐′𝑉 (𝑋)𝑐. Demonstração: Sejam 𝑐 ∈ R uma constante, 𝑐′ = [𝑐11 𝑐12 𝑐1𝑝] onde 𝑐𝑖𝑗 ∈ R; 𝑋 =⎛⎜⎜⎜⎜⎜⎜⎝ 𝑋1 𝑋2 ... 𝑋𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ e 𝐸(𝑋) = [𝜇1 𝜇2 . . . 𝜇𝑝] onde 𝜇𝑖 = Σ 𝑚 𝑖=1 𝑥𝑖 𝑚 . Então, i) 𝐸(𝑐𝑋) = 𝑐𝐸(𝑋) 𝐸(𝑐𝑋) = 𝐸 ⎡⎢⎢⎢⎢⎢⎢⎣𝑐 ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑋1 𝑋2 ... 𝑋𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎤⎥⎥⎥⎥⎥⎥⎦ = 𝐸 ⎡⎢⎢⎢⎢⎢⎢⎣ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐𝑋1 𝑐𝑋2 ... 𝑐𝑋𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎤⎥⎥⎥⎥⎥⎥⎦ = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝐸[𝑐𝑋1] 𝐸[𝑐𝑋2] ... 𝐸[𝑐𝑋𝑝] ⎞⎟⎟⎟⎟⎟⎟⎠ = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐𝐸[𝑋1] 𝑐𝐸[𝑋2] ... 𝑐𝐸[𝑋𝑝] ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑐 ⎡⎢⎢⎢⎢⎢⎢⎣ 𝐸(𝑋1) 𝐸(𝑋2) ... 𝐸(𝑋𝑝) ⎤⎥⎥⎥⎥⎥⎥⎦ = 𝑐 ′𝐸(𝑋). ii) Queremos demonstrar que 𝐸(𝑐′𝑋) = 𝑐′𝐸(𝑋). 𝐸(𝑐′𝑋) = 𝐸 ⎡⎢⎢⎢⎢⎢⎢⎣ (︁ 𝑐11 𝑐12 . . . 𝑐1𝑝 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑋1 𝑋2 ... 𝑋𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎤⎥⎥⎥⎥⎥⎥⎦ = 𝐸[𝑐11𝑋1 + 𝑐12𝑋2 + . . .+ 𝑐1𝑝𝑋𝑝] = 28 𝐸[𝑐11𝑋1] + 𝐸[𝑐12𝑋2] + . . .+ 𝐸[𝑐1𝑝𝑋𝑝] = 𝑐11𝐸(𝑋1) + 𝑐12𝐸(𝑋2) + . . .+ 𝑐1𝑝𝐸(𝑋𝑝) = [𝑐11 𝑐12 𝑐1𝑝] ⎡⎢⎢⎢⎢⎢⎢⎣ 𝐸(𝑋1) 𝐸(𝑋2) ... 𝐸(𝑋𝑝) ⎤⎥⎥⎥⎥⎥⎥⎦ = 𝑐 ′𝐸(𝑋). iii) 𝑉 (𝑐𝑋) = 𝑐2𝑉 (𝑋) onde 𝑉 (𝑋) = 𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]. 𝑉 (𝑐𝑋) = 𝐸[(𝑐𝑋 − 𝑐𝜇)(𝑐𝑋 − 𝑐𝜇)′] = 𝐸[𝑐(𝑋 − 𝜇)𝑐(𝑋 − 𝜇)′] = 𝐸[𝑐2(𝑋 − 𝜇)(𝑋 − 𝜇)′] = 𝑐2𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′] = 𝑐2𝑉 (𝑋) iv) 𝑉 (𝑐′𝑋) = 𝑐′𝑉 (𝑋)𝑐 𝑉 (𝑐′𝑋) = 𝐸[(𝑐′ 𝑋 − 𝑐′ 𝜇)(𝑐′ 𝑋 − 𝑐′ 𝜇)′] = 𝐸[𝑐′(𝑋 − 𝜇) [𝑐′(𝑋 − 𝜇)]′] = 𝐸[𝑐′(𝑋 − 𝜇) (𝑋 − 𝜇)′𝑐] = 𝑐′ 𝐸[(𝑋 − 𝜇) (𝑋 − 𝜇)′]𝑐 = 𝑐′𝑉 (𝑋)𝑐. � 2.2 TEOREMA ESPECTRAL Os métodos de análise multivariada que apresentaremos nos próximos capítulos exigem o conhecimento de propriedades das matrizes reais simétricas. Essa necessidade vem do fato de trabalharmos constantemente com as covariâncias e correlações das variá- veis aleatórias envolvidas na análise, e, consequentemente, com suas matrizes de covari- ância e de correlação, que são obrigatoriamente simétricas. Os conceitos algébricos apresentados nessa seção fogem ao escopo do trabalho e por esse motivo suas demonstrações serão omitidas, no entanto, tantos os resultados quanto suas demonstrações podem ser encontrados em Steven (2011). 2.2.1 Matrizes Hermitianas Seja 𝑀 = (𝑚𝑖𝑗) uma matriz 𝑛𝑥𝑛 com 𝑚𝑖𝑗 = 𝑎𝑖𝑗 + 𝑖𝑏𝑖𝑗 para todo 𝑖 e 𝑗. Podemos escrever 𝑀 sob a forma 𝑀 = 𝐴+ 𝑖𝐵 onde 𝐴 = (𝑎𝑖𝑗)𝑒𝐵 = (𝑏𝑖𝑗) tem elementos reais. Definimos a conjugada de M como 𝑀 = 𝐴− 𝑖𝐵 29 Logo, 𝑀 é a matriz formada fazendo o conjugado de cada elementos de 𝑀 . A transposta de 𝑀 será escrita 𝑀𝐻 . O espaço vetorial de todas as matrizes 𝑚 × 𝑛 com elementos complexos é escrito C𝑚𝑥𝑛. Se 𝐴 e 𝐵 são elementos de C𝑚𝑥𝑛 e 𝐶 ∈ C𝑛𝑥𝑟, então as seguintes regras são verificadas: 1. (𝐴𝐻)𝐻 = 𝐴 2. (𝛼𝐴+ 𝛽𝐵)𝐻 = 𝛼𝐴𝐻 + 𝛽𝐵𝐻 3. (𝐴𝐶)𝐻 = 𝐶𝐻𝐴𝐻 Definição 2.9. Uma matriz 𝑀 é dita hermanita se 𝑀 =𝑀𝐻 . Exemplo 2.10. A matriz 𝑀 = ⎛⎝ 3 2− 𝑖 2 + 𝑖 4 ⎞⎠ é hermitiana, pois 𝑀𝐻 = ⎛⎝ 3 2− 𝑖 2 + 𝑖 4 ⎞⎠𝑇 = ⎛⎝ 3 2− 𝑖 2 + 𝑖 4 ⎞⎠ =𝑀 Se 𝑀 é uma matriz com elementos reais, então 𝑀𝐻 = 𝑀𝑇 . Em particular, se 𝑀 é uma matriz real simétrica, então 𝑀 é hermitiana. Então, podemos encarar as ma- trizes hermitianas como o análogo complexo das matrizes reais simétricas. As matrizes hermitianas tem muitas propriedades interessantes, como veremos no próximo teorema. Teorema 2.11. Os autovalores de uma matriz hermitiana são todas reais. Além disso, autovetores associados a diferentes autovalores são ortogonais. Definição 2.12. Uma matriz 𝑛 × 𝑛, 𝑈 , é dita unitária se seus vetores coluna formam um conjunto ortonormal em C𝑛 Corolário 2.13. Se os autovalores de uma matriz hermitiana 𝐴 são distintos, então existe uma matriz unitária 𝑈 que diagonaliza 𝐴. Teorema 2.14 (Teorema de Schur). Para cada matriz 𝑛 × 𝑛, 𝐴, existe uma matriz unitária 𝑈 tal que 𝑈𝐻𝐴𝑈 é triangular superior. Teorema 2.15 (Teorema Espectral). Se 𝐴 é hermanitiana, então existe uma matriz unitária 𝑈 que diagonaliza 𝐴. Demonstração: Pelo teorema 3.6, existe uma matriz unitária 𝑈 tal que 𝑈𝐻𝐴𝑈 = 𝑇 , na qual 𝑇 é triangular superior. Além disso, 𝑇𝐻 = (𝑈𝐻𝐴𝑈)𝐻 = 𝑈𝐻𝐴𝐻𝑈 = 𝑈𝐻𝐴𝑈 = 𝑇 Portanto, 𝑇 é hermitiana e consequentemente deve ser diagonal. 30 � No caso de uma matriz real simétrica, a matriz diagonalizante 𝑈 será uma matriz ortogonal. O exemplo a seguir mostra como determinar a matriz 𝑈 . Exemplo 2.16. Dada 𝐴 = ⎛⎜⎜⎜⎝ 0 2 −1 2 3 −2 −1 −2 0 ⎞⎟⎟⎟⎠ encontre uma matriz ortogonal 𝑈 que diagonaliza 𝐴. Solução: O polinômio caracteristico 𝑝(𝜆) = −𝜆3 + 3𝜆2 + 9𝜆+ 5 = (1 + 𝜆)2(5− 𝜆) tem raízes 𝜆1 = 𝜆2 = −1 e 𝜆3 = 5. Calculando os autovetores, vemos que 𝑥1 = (1, 0, 1)𝑇 e 𝑥2 = (−2, 1, 0)𝑇 formam uma base para para o autoespaço 𝑁(𝐴+ 𝐼). Podemos aplicar o processo de Gram-Schmidt para obter uma base ortonormal para o autoespaço correspon- dente a 𝜆1 = 𝜆2 = −1. 𝑢1 = 1 ||𝑥1||𝑥1 = 1√ 2 (1, 0, 1)𝑇 𝑝 = (𝑥𝑇2 𝑢1)𝑢1 = − √ 2𝑢1 = (−1, 0, 1)𝑇 𝑥2 − 𝑝 = (−1, 1, 1)𝑇 𝑢2 = 1 ||𝑥2 − 𝑝||(𝑥2 − 𝑝) = 1√ 3 (−1, 1, 1)𝑇 O autoespaço correspondente a 𝜆3 = 5 é coberto por 𝑥3 = (−1,−2, 1)𝑇 . Como 𝑥3 deve ser ortogonal a 𝑢1 e 𝑢2, precisamos somente normalizar 𝑢3 = 1 ||𝑥3||𝑥3 = 1√ 6 (−1,−2, 1)𝑇 Logo, 𝑢1, 𝑢2, 𝑢3 é um conjunto ortonormal e 𝑈 = ⎛⎜⎜⎜⎝ 1√ 2 − 1√3 − 1√6 0 1√3 − 2√6 1√ 2 1√ 3 1√ 6 ⎞⎟⎟⎟⎠ diagonaliza 𝐴. Teorema 2.17 (A decomposição Real de Schur). Se 𝐴 é uma matriz 𝑛×𝑛 com elementos reais, então 𝐴 pode ser fatorada em um produto 𝑄𝑇𝑄𝑇 , no qual 𝑄 é uma matriz ortogonal e 𝑇 está na forma de Schur. Demonstração: No caso de 𝑛 = 2 se os autovalores de 𝐴 são reais, nós podemos fazer 𝑞1 um autovetor unitário associado ao primeiro autovalor 𝜆1 e fazer 𝑞2 qualquer vetor 31 unitário ortogonal a 𝑞1. Se fizermos 𝑄 = (𝑞1, 𝑞2) então 𝑄 é uma matriz ortogonal. Se fizermos 𝑇 = 𝑄𝑇𝐴𝑄, então a primeira coluna de 𝑇 é 𝑄𝑇𝐴𝑞1 = 𝜆1𝑄𝑇 𝑞1 = 𝜆1𝑒1 Assim, 𝑇 é triangular superior e 𝐴 = 𝑄𝑇𝑄𝑇 . Se os autovalores de 𝐴 são complexos, então simplismente definimos 𝑇 = 𝐴 e 𝑄 = 𝐼. Então, toma matriz 2 × 2 real tem uma decomposição de Schur real. Agora seja 𝐴 uma matriz 𝑘 × 𝑘 em que 𝑘 ≥ 3 e suponha-se que, para 2 ≤ 𝑚 < 𝑘, cada matriz 𝑚×𝑚 real tem uma decomposição de Schur. Seja 𝜆1 um autovalor de 𝐴. Se 𝜆1 é real, seja 𝑞1 um autovetor unitário associado a 𝜆1 e escolham-se 𝑞2, 𝑞3, . . . , 𝑞𝑛 de modo que 𝑄1 = (𝑞1, 𝑞2, . . . , 𝑞𝑛) seja uma matriz ortogonal. Tal como na prova do Teorema de Schur, segue-se da primeira coluna de 𝑄𝑇1𝐴𝑄1 será 𝜆1𝑒1. No caso em que 𝜆1 é complexo, seja 𝑧 = 𝑥 + 𝑖𝑦 (emque 𝑥 e 𝑦 são reais) um autovetor associado a 𝜆1 e seja 𝑆 = 𝐶𝑜𝑏(𝑥, 𝑦), então 𝑑𝑖𝑚𝑆 = 2 e 𝑆 é invariante sobre A. Seja 𝑞1, 𝑞2 uma base ortonormal para 𝑆. Escolha 𝑞1, 𝑞2, . . . , 𝑞𝑛 para que 𝑄1 = (𝑞1, 𝑞2, . . . , 𝑞𝑛) seja uma matriz ortogonal. Desde que 𝑆 é invariante sob 𝐴, segue-se que 𝐴𝑞1 = 𝑏11𝑞1 + 𝑏21𝑞2 e 𝐴𝑞2 = 𝑏12𝑞1 + 𝑏22𝑞2 para alguns escalares 𝑏11, 𝑏21, 𝑏12, 𝑏22 e, portanto, as duas primeiras colunas de 𝑄𝑇1𝐴𝑄1 serão (𝑄𝑇1𝐴𝑞1, 𝑄𝑇1𝐴𝑞2) = (𝑏11𝑒1 + 𝑏21𝑒2, 𝑏12𝑒1 + 𝑏22𝑒2) Assim, em geral, 𝑄𝑇1𝐴𝑄1 será uma matriz em blocos 𝑄𝑇1𝐴𝑄1 = ⎛⎝ 𝐵1 𝑋 𝑂 𝐴1 ⎞⎠ onde 𝐵1 = (𝜆1) 𝑒𝐴1 é (𝑘 − 1)× (𝑘 − 1) 𝑠𝑒 𝜆1 é 𝑟𝑒𝑎𝑙 𝐵1 é 2× 2 𝑒𝐴1 é (𝑘 − 2)× (𝑘 − 2) 𝑠𝑒 𝜆1 é 𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑜 Em ambos os casos, podemos aplicar nossa hipótese de indução a 𝐴1 e obter uma decom- posição de Schur 𝐴1 = 𝑈𝑇1𝑈𝑇 . Vamos supor que a forma de Schur 𝑇1 tem 𝑗 − 1 blocos diagonais, 𝐵2, 𝐵3, . . . , 𝐵𝑗. Se fizermos 𝑄2 = ⎛⎝ 𝐼 𝑂 𝑂 𝑄1 ⎞⎠ 𝑒𝑄 = 𝑄1𝑄2 então tanto 𝑄1 quanto 𝑄2 são matrizes ortogonais 𝑘× 𝑘. Se, em seguida, definirmos 𝑇 = 𝑄𝑇𝐴𝑄, obtermos uma matriz na fórmula de Schur, e segue-se que 𝐴 terá decomposição de Schur 𝑄𝑇𝑄𝑇 . 32 � No caso em que todos os autovalores e 𝐴 são reais, a forma real de Schur 𝑇 será triangular superior. No caso em que 𝐴 é real e simétrica, então, uma vez que todo os autovalores de 𝐴 são reais 𝑇 deve ser triangular superior, porém, neste caso 𝑇 também deve ser simétrica. Então, vamos acabar com a diagonalização de 𝐴. Assim, para matrizes simétricas reais, temos a seguinte versão do Teorema Espectral. Corolário 2.18 (Teorema Espectral - Matrizes Simétricas Reais). Se 𝐴 é uma matriz real simétrica, então existe uma matriz ortogonal 𝑄 que diagonaliza 𝐴, isto é, 𝑄𝑇𝐴𝑄 = 𝐷, na qual 𝐷 é diagonal. No exemplo 2.16 vimos como utilizar os autovetores para determinar as matrizes ortogonal 𝑄. Da equação 𝑄𝑇𝐴𝑄 = 𝐷 é possível motrar que 𝐷 é gerada pelos autovalores da matriz simétrica 𝐴. No próximo capitulo denotaremos como 𝑃 uma matriz gerada pelos autovetores normalizados da matriz de covariância 𝑉 (𝑋) e de Λ um matriz diagonal formada pelos autovalores de 𝑉 (𝑋). A análise de componentes principais que sera apresentada no próximo capítulo exige o cálculo dos autovalores e autovetores a partir da matriz de covariância ou de cor- relação. O próximo teorema afirma que se os autovalores forem todos positivos, podemos concluir que a matriz de covariância ou de correlação é positiva definida. Teorema 2.19. Seja 𝐴 uma matriz real simétrica 𝑛× 𝑛. Então, 𝐴 é positiva definida se e somente se todos os seus autovalores são positivos. 2.3 COMPONENTES PRINCIPAIS A análise de componentes principais é um método utilizado para reorganizar um conjunto de variáveis em um novo conjunto. Ela procura explicar a estrutura de variância- covariância da matriz de dados através de combinações lineares não correlacionados das 𝑝 variáveis originais. As variáveis do novo conjunto são chamadas de componentes e são geradas de forma que o primeiro componente contenha a maior parcela possível da infor- mação originalmente existente. O segundo componente, contém menos informação que o primeiro e mais que os subsequentes, assim sucessivamente. O número de componentes principais é sempre igual ao número de variáveis originais. Portanto os objetivos da Aná- lise de Componentes Principais são: redução de dados; obtenção de variáveis aleatórias não correlacionadas e interpretação. 2.3.1 Componentes Principais da População Algebricamente componentes principais são combinações lineares particulares das 𝑝 variáveis aleatórias 𝑋1, 𝑋2, . . . , 𝑋𝑝. Geometricamente estas combinações lineares repre- sentam a seleção de um novo sistema de coordenadas obtido por rotação do sistema 33 original com 𝑋1, 𝑋2, . . . , 𝑋𝑝 como eixos. Os novos eixos 𝑌1, 𝑌2, . . . , 𝑌𝑝 representam as di- reções com variabilidade máxima e fornecem uma descrição mais simples da estrutura de covariância (JOHNSON; WICHERN, 1987). As componentes principais dependem da matriz de covariâncias 𝜎 (ou da matriz de correlação 𝜌) das variavéis aleatórias 𝑋1, 𝑋2, ..., 𝑋𝑝. O seu desenvolvimento não necessita da suposição de Gaussianidade. Seja o vetor aleatório 𝑋 ′ = [𝑋1, 𝑋2, . . . , 𝑋𝑝], com vetor de médias 𝜇 = 𝐸(𝑋) e matriz de covariância Σ = 𝑉 (𝑋), com autovalores 𝜆1 ≥ 𝜆2 ≥ . . . ≥ 𝜆𝑝 ≥ 0. Considere as combinações lineares 𝑌1 = 𝑐′1𝑋 = 𝑐11𝑋1 + 𝑐21𝑋2 + . . .+ 𝑐𝑝1𝑋𝑝 𝑌2 = 𝑐′2𝑋 = 𝑐12𝑋1 + 𝑐22𝑋2 + . . .+ 𝑐𝑝2𝑋𝑝 ... 𝑌𝑝 = 𝑐′𝑝𝑋 = 𝑐1𝑝𝑋1 + 𝑐2𝑝𝑋2 + . . .+ 𝑐𝑝𝑝𝑋𝑝 𝑐𝑝×𝑝 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐11 𝑐12 . . . 𝑐𝑝1 𝑐12 𝑐22 . . . 𝑐𝑝2 ... ... . . . ... 𝑐1𝑝 𝑐2𝑝 . . . 𝑐𝑝𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ Então, 𝑌 = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑌1 𝑌2 ... 𝑌𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑐11 𝑐12 . . . 𝑐𝑝1 𝑐12 𝑐22 . . . 𝑐𝑝2 ... ... . . . ... 𝑐1𝑝 𝑐2𝑝 . . . 𝑐𝑝𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑋1 𝑋2 ... 𝑋𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑐𝑝×𝑝𝑋. Proposição 2.20. Seja 𝑋 uma matriz multivariada e 𝑐𝑖 um vetor de constantes com dimensões apropriadas, então 𝑉 (𝑌𝑖) = 𝑐′𝑖𝑉 (𝑋)𝑐𝑖. Demonstração: 𝑉 (𝑌𝑖) = 𝑉 (𝑐′𝑖 𝑋) = 𝐸[(𝑐′𝑖 𝑋 − 𝑐′𝑖 𝜇)(𝑐′𝑖 𝑋 − 𝑐′𝑖 𝜇)′] = 𝐸[𝑐′𝑖(𝑋 − 𝜇)(𝑋 − 𝜇)′𝑐𝑖] = 𝑐′𝑖𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]𝑐𝑖 = 𝑐′𝑖 𝑉 (𝑋) 𝑐𝑖 � O próximo resultado afirma que o máximo que uma forma quadrática para pontos na esfera unitária pode assumir, a partir de uma matriz simétrica 𝐵, é exatamente o valor do maior autovalor relacionado aos seus autovetores. 34 Proposição 2.21 (Maximização de formas quadráticas para pontos na esfera unitá- ria). Seja a matriz 𝐵 de ordem 𝑝 × 𝑝 simétrica positiva definida com autovalores 𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0 e com os respectivos autovetores padronizados 𝑒1, 𝑒2, . . . , 𝑒𝑝. Então, o 𝑚á𝑥 𝑥 ′ 𝐵 𝑥 𝑥′ 𝑥 = 𝜆1 que é alcançado em 𝑥 = 𝑒1 e o 𝑚í𝑛 𝑥′ 𝐵 𝑥 𝑥′ 𝑥 = 𝜆𝑝 que é alcançado em 𝑥 = 𝑒𝑝. Demonstração: Como 𝐵 é positiva definida, temos que 𝑥𝐵𝑥′ > 0 ∀ 𝑥 ̸= 0. Como 𝐵 é simétrica, pelo Teorema da Decomposição Expectral 2.18 podemos escrever 𝐵 = 𝑃Λ𝑃 ′, onde 𝑃 é uma matriz ortogonal normalizada, formada pelos autovetores e 𝐵 e Λ é uma matriz diagonal formada pelos autovalores de 𝐵. Assim note que, sd(𝑃Λ 12𝑃 ′)(𝑃Λ 12𝑃 ′) = 𝑃Λ 12𝑃 ′𝑃Λ 12𝑃 ′ = 𝑃Λ 12 𝐼Λ 12𝑃 ′ = 𝑃Λ𝑃 ′ = 𝐵 ⇒ (𝑃Λ 12𝑃 ′)2 = 𝐵 ⇒ 𝐵 12 = 𝑃Λ 12𝑃 ′ onde Λ 1 2 = ⎛⎜⎜⎜⎜⎜⎜⎝ √ Λ1 0 0 0 0 √ Λ2 0 0 0 0 . . . 0 0 0 0 √︁ Λ𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ Assim, 𝑥 ′ 𝐵 𝑥 𝑥′ 𝑥 = 𝑥 ′ 𝐵 1 2𝐵 1 2 𝑥 𝑥′ 𝑃𝑃 ′𝑥 = 𝑥 ′ 𝑃Λ 12𝑃 ′𝑃Λ 12𝑃 ′𝑥 𝑥′𝑃𝑃 ′𝑥 = 𝑥 ′ 𝑃Λ𝑃 ′ 𝑥 𝑥′ 𝑃𝑃 ′𝑥 = 𝑌 ′Λ𝑌 𝑌 ′ 𝑌 = 𝑝∑︁ 𝑖=1 𝜆𝑖𝑦 2 𝑖 𝑝∑︁ 𝑖=1 𝑦2𝑖 . Isso ocorre, pois (︁ 𝑦1 𝑦2 . . . 𝑦𝑝 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝜆1 0 . . . 0 0 𝜆2 0 0 ... 0 . . . 0 0 0 0 𝜆𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑦1 𝑦2 ... 𝑦𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ = (︁ 𝑦1 𝑦2 . . . 𝑦𝑝 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝜆1𝑦1 𝜆2𝑦2 ... 𝜆𝑝𝑦𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑦 2 1𝜆1 + 𝑦22𝜆2 + . . .+ 𝑦2𝑝𝜆𝑝 Então, 𝑝∑︁ 𝑖=1 𝜆𝑖𝑦 2 𝑖 𝑝∑︁ 𝑖=1 𝑦2𝑖 < 𝑝∑︁ 𝑖=1 𝜆1𝑦 2 𝑖 𝑝∑︁ 𝑖=1 𝑦2𝑖 = 𝜆1 𝑝∑︁ 𝑖=1 𝑦2𝑖 𝑝∑︁ 𝑖=1 𝑦2𝑖 = 𝜆1. Fazendo, 𝑥 = 𝑒1 tem-se 𝑦 = 𝑃 ′𝑒1 = ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 1 0 0 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ e substituindo, temos 35 𝐵 = 𝑒′1 𝐵 𝑒1 𝑒′1 𝑒1 = 𝑌 ′Λ𝑌 𝑌 ′ 𝑌 = 𝑒′1 𝑃Λ𝑃 ′ 𝑒1 𝑒′1𝑃𝑃 ′𝑒1 = (︁ 1 0 0 . . . 0 )︁ Λ (︁ 1 0 0 . . . 0 )︁′ (︁ 1 0 0 . . . 0 )︁ (︁ 1 0 0 . . . 0 )︁′ = 𝜆1 1 = 𝜆1. Pois, (︁ 1 0 0 . . . 0 )︁ Λ (︁ 1 0 0 . . . 0 )︁′ = (︁ 1 0 0 . . . 0 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝜆1 0 . . . 0 0 𝜆2 0 0 ... 0 . . . 0 0 0 0 𝜆𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎛⎜⎜⎜⎜⎜⎜⎝ 1 0 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎠ = (︁ 1 0 0 . . . 0 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝𝜆1 0 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝜆1 Analogamente, mostra-se 𝑥 ′ 𝐵 𝑥 𝑥′ 𝑥 = 𝜆𝑝 em 𝑥 = 𝑒𝑝. Como visto 𝑥𝐵𝑥′ > 0 é positiva definida e como 𝐵 é simétrica pelo TDE, podemos escrever 𝐵 = 𝑃Λ𝑃 ′ e 𝐵 12 = 𝑃Λ 12𝑃 ′. Assim, 𝑥′ 𝐵 𝑥 𝑥′ 𝑥 = 𝑥 ′𝑃Λ 12𝑃 ′𝑃Λ 12𝑃 ′𝑥 𝑥′ 𝑃𝑃 ′𝑥 = 𝑥 ′ 𝑃Λ𝑃 ′𝑥 𝑥′𝑃𝑃 ′𝑥 = 𝑌 ′Λ𝑌 𝑌 ′ 𝑌 = (︁ 𝑦1 𝑦2 . . . 𝑦𝑝 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝜆1 0 . . . 0 0 𝜆2 0 0 ... 0 . . . 0 0 0 0 𝜆𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑦1 𝑦2 ... 𝑦𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ = (︁ 𝑦1 𝑦2 . . . 𝑦𝑝 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝜆1𝑦1 𝜆2𝑦2 ... 𝜆𝑝𝑦𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑦 2 1𝜆1 + 𝑦22𝜆2 + . . .+ 𝑦2𝑝𝜆𝑝 então, 𝑌 ′Λ𝑌 𝑌 ′ 𝑌 = 𝑝∑︁ 𝑖=1 𝜆𝑖𝑦 2 𝑖 𝑝∑︁ 𝑖=1 𝑦2𝑖 > 𝑝∑︁ 𝑖=1 𝜆𝑝𝑦 2 𝑖 𝑝∑︁ 𝑖=1 𝑦2𝑖 = 𝜆𝑝. Fazendo 𝑥 = 𝑒𝑝, tem-se 𝑦 = 𝑃 ′𝑒𝑝 = (︁ 0 0 . . . 1 )︁′ , substituindo temos 𝑒′𝑝 𝐵 𝑒𝑝 𝑒′𝑝 𝑒𝑝 = 𝑌 ′Λ𝑌 𝑌 ′ 𝑌 = 𝑒′𝑝 𝑃Λ𝑃 ′ 𝑒𝑝 𝑒′𝑝𝑃𝑃 ′𝑒𝑝 = (︁ 0 0 . . . 1 )︁′ Λ (︁ 0 0 . . . 1 )︁ (︁ 0 0 . . . 1 )︁′ (︁ 0 0 . . . 1 )︁ = 𝜆𝑝1 = 𝜆𝑝. � Do resultado anterior podemos afirmar que 𝑚á𝑥 {︃ 𝑥′ Σ 𝑥 𝑥′ 𝑥 }︃ = 𝜆1 com 𝑥 = 𝑒1, pois a matriz Σ satisfaz as condições de 2.21, por esse motivo definimos as componentes principais como sendo 𝑌𝑖 = 𝑒′𝑖𝑋. Desse forma a primeira componente principal possui variância máxima igual a 𝜆1. De fato! 36 𝑉 (𝑌𝑖) = 𝑉 (𝑒′𝑖𝑋) = 𝑒′𝑖𝑉 (𝑋)𝑒𝑖 = 𝑒′𝑖Σ𝑒𝑖 𝑒′𝑖𝑒𝑖 , mostremos que Σ𝑒𝑘 = 𝜆𝑘𝑒𝑘. Σ𝑒𝑘 = 𝑃Λ𝑃 ′ = 𝑃Λ(𝑃 ′𝑒𝑘) = 𝑃Λ ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 0 0 ... 1 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = 𝑃 ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 0 0 ... 𝜆𝑘 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = (︁ 𝑒1 𝑒2 . . . 𝑒𝑘 𝑒𝑝 )︁ ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 0 0 ... 𝜆𝑘 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = 𝜆𝑘𝑒𝑘. Portanto, 𝑉 (𝑌𝑖) = 𝑒′𝑖 Σ 𝑒𝑖, logo 𝑉 (𝑌1) = 𝑒′1 Σ 𝑒1 = (︁ 𝑒11 𝑒21 . . . 𝑒𝑝1 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑒11𝜆1 𝑒21𝜆1 ... 𝑒𝑝1𝜆1 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑒11𝑒11𝜆1 + 𝑒21𝑒21𝜆1 + · · ·+ 𝑒𝑝1𝑒𝑝1𝜆1 = 𝜆1[𝑒11𝑒11 + 𝑒21𝑒21 + · · ·+ 𝑒𝑝1𝑒𝑝1]. = 𝜆1(𝑒′1, 𝑒1) = 𝜆1 .1 = 𝜆1. � O próximo resultado mostra que se as componentes principais são definidas da forma 𝑌𝑖 = 𝑒′𝑖𝑋, então elas são não correlacionadas. Proposição 2.22. Sejam 𝑌𝑖 e 𝑌𝑘 componentes principais da matriz de covariância Σ = 𝑉 (𝑋), então 𝐶𝑜𝑣(𝑌𝑖, 𝑌𝑘) = 0 Demonstração: Como 𝑌𝑖 = 𝑒′𝑖 𝑋, então 𝑐𝑜𝑣(𝑒′𝑖 𝑋, 𝑒′𝑘 𝑋) = 𝐸[(𝑒′𝑖 𝑋 − 𝑒′𝑖 𝜇)(𝑒′𝑘 𝑋 − 𝑒′𝑘 𝜇)′] = 𝐸[𝑒′𝑖(𝑋 − 𝜇)(𝑋 − 𝜇)′𝑒𝑘] = 𝑒′𝑖𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]𝑒𝑘 = 𝑒′𝑖𝑉 (𝑋)𝑒𝑘 = 𝑒′𝑖Σ𝑒𝑘 Pelo teorema da decomposição expectral 2.18 temos, 𝑐𝑜𝑣(𝑌𝑖, 𝑌𝑘) = 𝑒′𝑖𝑃Λ𝑃 ′𝑒𝑘 = 𝑒′𝑖𝑃Λ ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 0 0 ... 1 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = 𝑒′𝑖𝑃 ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 0 0 ... 𝜆𝑘 ... 0 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = 𝑒′𝑖 ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑒1𝑘𝜆𝑘 𝑒2𝑘𝜆𝑘 ... 𝑒𝑝𝑘𝜆𝑘 ⎞⎟⎟⎟⎟⎟⎟⎠ = (︁ 𝑒1𝑖 𝑒2𝑖 . . . 𝑒𝑝𝑖 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑒1𝑘𝜆𝑘 𝑒2𝑘𝜆𝑘 ... 𝑒𝑝𝑘𝜆𝑘 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝑒1𝑖𝑒1𝑘𝜆𝑘 + 𝑒2𝑖𝑒2𝑘𝜆𝑘 + · · ·+ 𝑒𝑝𝑖𝑒𝑝𝑘𝜆𝑘 = 37 𝜆𝑘[𝑒1𝑖𝑒1𝑘 + 𝑒2𝑖𝑒2𝑘 + · · ·+ 𝑒𝑝𝑖𝑒𝑝𝑘] = 𝜆𝑘[𝑒′𝑖.𝑒𝑘] = 𝜆𝑘 .0 = 0. � O próximo resultado mostra que o traço de matriz de convariância, coincide com a soma das variâncias das componentes principais. Proposição 2.23. Sejam 𝑋 uma matriz multivariada e Σ = 𝑉 (𝑋) a matriz de covari- ância de 𝑋, então 𝑡𝑟(Σ) = 𝜆1 + 𝜆2 + . . .+ 𝜆𝑝 = 𝑉 (𝑌1) + 𝑉 (𝑌2) + . . . 𝑉 (𝑌𝑝). Demonstração: Pelo Teorema da Decomposição Espectral 2.18, temos Σ = 𝑃Λ𝑃 ′, en- tão: 𝑡𝑟(Σ) = 𝑡𝑟(𝑃Λ𝑃 ′) Segundo a propriedade (iv) de traço, podemos escrever: 𝑡𝑟(𝑃𝑃 ′Λ) = 𝑡𝑟(𝐼𝑛Λ) = 𝑡𝑟(Λ) = 𝑡𝑟 ⎛⎜⎜⎜⎜⎜⎜⎝ 𝜆1 0 . . . 0 0 𝜆2 0 0 ... 0 . . . 0 0 0 0 𝜆𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ = Λ1 + Λ2 + . . .+ Λ𝑝 = 𝑉 (𝑌1) + 𝑉 (𝑌2) + . . .+ 𝑉 (𝑌𝑝) � Observação 2.24. Como o 𝑡𝑟(Σ) é a soma das variâncias das variáveis aleatórias en- volvidas, o resultado anterior mostra que a variância total populacional é igual a soma das variâncias das componentes principais. E consequentemente, a proporção da variância total explicada pela 𝑘-ésima componente principal é 𝜆𝑘 𝜆1 + 𝜆2 + . . .+ 𝜆𝑝 , 𝑘 = 1, 2, . . . , 𝑝 Os resultados anteriores mostraram que as componentes principais possuem va- riância máxima e são não correlacionadas. Apesar dessas propriedades serem de grande valia, elas ainda não justificam a utilização das componentes principais para analisar o conjunto de variáveis em substituição das variáveis originais. Para tanto precisamos verificar se existem correlações entre as componentes principais e a variáveis aleatórias originais. O próximo resultado afirma que essas correlações existem e, além disso, podem ser encontradas a partir dos autovetores e autovalores da matriz de covariância Σ = 𝑉 (𝑋). Proposição 2.25. Sejam 𝑋𝑘 uma variável aleatória da matriz multivariada 𝑋 e 𝑌𝑖 uma componente principal, então 𝜌(𝑋𝑘, 𝑌𝑖) = 𝑒𝑘𝑖 √ 𝜆𝑖 𝜎𝑘 . 38 Demonstração: Seja 𝑐′𝑘 = (︁ 0 . . . 1 . . . 0 )︁ vetor de valores 0, com 1 na 𝑘-ésima posição, e 𝑋 ′ = (︁ 𝑋1 𝑋2 . . . 𝑋𝑘 . . . 𝑋𝑝 )︁ , então podemos escrever uma variável aleatória 𝑋𝑘 como 𝑋𝑘 = 𝑐′𝑘 𝑋, pois, 𝑐′𝑘 𝑋 = (︁ 0 . . . 1 . . . 0 )︁ ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 𝑋1 𝑋2 . . . 𝑋𝑘 . . . 𝑋𝑝 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = 𝑋𝑘. Além disso, por 2.8 item (ii) 𝜇𝑘 = 𝐸(𝑋𝑘) = 𝐸(𝑐′𝑘𝑋) = 𝑐′𝑘𝐸(𝑋) = 𝑐′𝑘𝜇 e 𝜇𝑖 = 𝐸(𝑌𝑖) = 𝐸(𝑒′𝑖𝑋) = 𝑒′𝑖𝐸(𝑋) = 𝑒′𝑖𝜇. Por definição temos que 𝜌(𝑋𝑘, 𝑌𝑖) = 𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖)√︁ 𝑉 (𝑋𝑘)𝑉 (𝑌𝑖) e 𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖) = 𝐸[(𝑋𝑘 − 𝜇𝑥)(𝑌𝑖 − 𝜇𝑦)]. Então, aplicando os resultados 2.7 e 2.8 itens (ii) e (iv), temos, 𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖) = 𝑐𝑜𝑣(𝑐′𝑘 𝑋, 𝑒′𝑖 𝑋) = 𝐸[(𝑐′𝑘𝑋 − 𝑐′𝑘𝜇)(𝑒′𝑖𝑋 − 𝑒′𝑖𝜇)′] = 𝐸[𝑐′𝑘(𝑋 − 𝜇)(𝑋 − 𝜇)′𝑒𝑖] 𝑐′𝑘𝐸[(𝑋 − 𝜇)(𝑋 − 𝜇)′]𝑒𝑖 = 𝑐′𝑘Σ𝑒𝑖 Sabemos que Σ𝑒𝑖 = 𝜆𝑖𝑒𝑖, logo, 𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖) = 𝑐′𝑘Σ𝑒𝑖 = 𝑐′𝑘𝜆𝑖𝑒𝑖 = 𝜆𝑖𝑒𝑘𝑖 Pois, 𝑐′𝑘𝜆𝑖𝑒𝑖 = 𝑐′𝑘 ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 𝜆𝑖𝑒1𝑖 𝜆𝑖𝑒2𝑖 ... 𝜆𝑖𝑒𝑘𝑖 ... 𝜆𝑖𝑒𝑝𝑖 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = (︁ 0 . . . 1 . . . 0 )︁ ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 𝜆𝑖𝑒1𝑖 𝜆𝑖𝑒2𝑖 ... 𝜆𝑖𝑒𝑘𝑖 ... 𝜆𝑖𝑒𝑝𝑖 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ = 𝜆𝑖𝑒𝑘𝑖 Como as variâncias de 𝑋𝑘 e 𝑌𝑖 são 𝑉 (𝑌𝑖) = 𝑉 (𝑒′𝑖 𝑋) = 𝑒′𝑖Σ𝑒𝑖 = 𝜆𝑖𝑒′𝑖𝑒𝑖 = 𝜆𝑖 e 𝑉 (𝑋𝑘) = 𝑉 (𝑋𝑘) = 𝜎2𝑘, temos que, 𝜌(𝑋𝑘, 𝑌𝑖) = 𝑐𝑜𝑣(𝑋𝑘, 𝑌𝑖)√︁ 𝑉 (𝑋𝑘)𝑉 (𝑌𝑖) = 𝜆𝑖𝑒𝑘𝑖 𝜎𝑘 √ 𝜆𝑖 = 𝑒𝑘𝑖 √ 𝜆𝑖 𝜎𝑘 � A seguir apresentamos um exemplo de como obter as componentes principais e as correlações dessas componentes com as variáveis aleatórias originais, a partir da matriz de covariância e de correlação. 39 Exemplo 2.26. Determine as componentes principais 𝑌1 e 𝑌2 para a matriz de covariân- cia Σ = ⎛⎝ 5 2 2 2 ⎞⎠, suas correlações com as variáveis originais e a proporção da variância total explicada pela primeira componente principal. a) Matriz de correlação do vetor. 𝜌 = ⎛⎝ 1 2√5×√2 2√ 2×√10 1 ⎞⎠ = ⎛⎝ 1 √105√ 10 5 1 ⎞⎠ b) Autovalores e autovetores de Σ. |Σ− 𝜆𝐼| = 0→ ⎛⎝ 5− 𝜆 2 2 2− 𝜆 ⎞⎠ = 0→ (5− 𝜆)(2− 𝜆)− 4 = 0→ 𝜆1 = 6 e𝜆2 = 1 Devemos verificar que Σ𝑒 = 𝜆𝑒 Para 𝜆1 = 6 temos ⎛⎝ 5 2 2 2 ⎞⎠⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 6 ⎛⎝ 𝑥1 𝑥2 ⎞⎠→ ⎧⎨⎩ 5𝑥1 + 2𝑥2 = 6𝑥12𝑥1 + 2𝑥2 = 6𝑥2 → 𝑥1 = 2𝑥2 𝑆 = {︂ (𝑥1, 𝑥1 2 ) ∀𝑥1 ∈ R }︂ Normalizando: 𝑥21 + 𝑥22 = 1→ 𝑥21 + ( 𝑥1 2 ) 2 = 1→ 𝑥1 = 2√5 e𝑥2 = 1√ 5 → 𝑒′1 = [︃ 2√ 5 , 1√ 5 ]︃ . Analogamente para 𝜆2 = 1, temos ⎛⎝ 5 2 2 2 ⎞⎠⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 1 ⎛⎝ 𝑥1 𝑥2 ⎞⎠→ ⎧⎨⎩ 5𝑥1 + 2𝑥2 = 𝑥12𝑥1 + 2𝑥2 = 𝑥2 → 𝑥1 = −𝑥2 2 𝑆 = {(𝑥1,−2𝑥1) ∀𝑥1 ∈ R} Normalizando: 𝑥21 + 𝑥22 = 1→ 𝑥21 + (−2𝑥1)2 = 1→ 𝑥1 = 1√ 5 e𝑥2 = − 2√5 → 𝑒 ′ 2 = [︃ 1√ 5,− 2√ 5 ]︃ . c) Pares de autovalores e autovetores de 𝜌. 𝜌 = ⎛⎝ 1 √105√ 10 5 1 ⎞⎠ |Σ− 𝜆𝐼| = 0→ ⎛⎝ 1− 𝜆 √105√ 10 5 1− 𝜆 ⎞⎠ = 0→ (1− 𝜆)2 − 1025 = 0→ 𝜆1 = 1, 63 e𝜆2 = 0, 37 40 Devemos verificar que Σ𝑒 = 𝜆𝑒 Para 𝜆1 = 1, 63 temos ⎛⎝ 1 √105√ 10 5 1 ⎞⎠⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 1, 63 ⎛⎝ 𝑥1 𝑥2 ⎞⎠→ ⎧⎪⎪⎪⎨⎪⎪⎪⎩ 𝑥1 + √ 10 5 𝑥2 = 1, 63𝑥1√ 10 5 𝑥1 + 𝑥2 = 1, 63𝑥2 → 𝑥1 = 𝑥2 𝑆 = {(𝑥1, 𝑥1) ∀𝑥1 ∈ R} Normalizando: 𝑥21 + 𝑥22 = 1→ 𝑥21 + 𝑥21 = 1→ 𝑥1 = 1√ 2 = 𝑥2 → 𝑒′1 = [︃ 1√ 2 , 1√ 2 ]︃ . Analogamente para 𝜆2 = 0, 37, temos ⎛⎝ 1 √105√ 10 5 1 ⎞⎠⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 0, 37 ⎛⎝ 𝑥1 𝑥2 ⎞⎠→ ⎧⎪⎪⎪⎨⎪⎪⎪⎩ 𝑥1 + √ 10 5 𝑥2 = 0, 37𝑥1√ 10 5 𝑥1 + 𝑥2 = 0, 37𝑥2 → 𝑥1 = −𝑥2 𝑆 = {(𝑥1,−𝑥1) ∀𝑥1 ∈ R} Normalizando: 𝑥21 + 𝑥22 = 1→ 𝑥21 + (−𝑥1)2 = 1→ 𝑥1 = 1√ 2 e𝑥2 = −1√ 2 → 𝑒′2 = [︃ 1√ 2 ,− 1√ 2 ]︃ . d) Componentes principais de Σ. 𝑌1 = 𝑒′1 𝑋 = (︁ 2√ 5 1√ 5 )︁⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 2𝑥1√ 5 + 𝑥2√ 5 𝑌2 = 𝑒′2 𝑋 = (︁ 1√ 5 −2√ 5 )︁⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 𝑥1√ 5 − 2𝑥2√ 5 e) Componentes principais por 𝜌. 𝑌1 = 𝑒′1 𝑋 = (︁ 1√ 2 1√ 2 )︁⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 𝑥1√ 2 + 𝑥2√ 2 𝑌2 = 𝑒′2 𝑋 = (︁ 1√ 2 −1√ 2 )︁⎛⎝ 𝑥1 𝑥2 ⎞⎠ = 𝑥1√ 2 − 𝑥2√ 2 f) Proporção da variação total que cabe a cada uma das componentes principais. De Σ: 41 𝜆1 𝜆1 + 𝜆2 = 66 + 1 = 0, 857 = 85, 7% Portanto, 𝜆1 de Σ explica 85, 7%. De 𝜌: 1, 63 1, 63 + 0, 37 = 0, 815 = 81, 5%. Portanto 𝜆1 de 𝜌 explica 81, 5% . g) Coeficientes de correlação entre 𝑌1, 𝑋1 e 𝑋2. 𝜌(𝑌𝑖, 𝑋𝑘) = 𝑒𝑘𝑖 √ 𝜆𝑖 𝜎𝑘 𝜌(𝑌1, 𝑋1) = 𝑒11 √ 𝜆1 𝜎1 = 1√ 2 × √ 1, 63√ 5 = 0, 4037 𝜌(𝑌1, 𝑋2) = 𝑒21 √ 𝜆1 𝜎2 = 1√ 2 × √ 1, 63√ 2 = 0, 6388 Interpretação: Neste exemplo foi obtido duas componentes principais, 𝑌1 = 2𝑥1√ 5 + 𝑥2√ 5 e 𝑌2 = 𝑥1√5 − 2𝑥2√5 , que são combinações lineares das variáveis aleatórias originais. No item (f) vimos que a primeira componente principal é capaz de explicar 85, 7% da variabilidade total pela matriz de covariância, e 81, 5% pela matriz de correlação. Como em estatística um porcentual superior a 70% é representativo, podemos dizer que ela sozinha é capaz de interpretar o conjunto de dados. No item (g) podemos ver que a componente principal 𝑌1 possui correlação de 97% com a primeira variável e de 77% com a segunda variável, o que reforça o fato dessa componente ser suficiente para analisar os dados. 42 3 ANÁLISE FATORIAL Nesse Capitulo são apresentados os conceitos teóricos da análise fatorial. Todos os argumentos apresentados aqui, bem como as demonstrações de alguns resultados podem ser encontradas em Johnson e Wichern (1987), Aranha e Zambaldi (2008) e Mingoti (2007). A análise fatorial é uma técnica estatística cujo objetivo é caracterizar um con- junto de variáveis diretamente mensuráveis, chamadas de variáveis observadas, como a manifestação visível de um conjunto menor de variáveis hipotéticas e latentes (não men- suráveis diretamente), denominadas fatores comuns, e de um conjunto de fatores únicos, cada um deles atuando apenas sobre uma das variáveis observadas. Há duas famílias de modelos fatoriais: uma com fatores comuns independentes (não correlacionados entre si) e outra com fatores comuns correlacionados. Nos dois tipos de modelo, o número de fatores comuns é sempre menor do que o número de variáveis observadas; quanto menor for a razão entre a quantidade de fatores comuns e de variáveis observadas, mais confiável será o ajuste do modelo (ARANHA; ZAMBALDI, 2008). O primeiro conceito básico envolvido na análise fatorial é o de comunalidade, que corresponde à proporção da variância de cada item observado explicada pelo fator comum que o influencia (ou pelos fatores comuns, caso haja mais de um). Como obter as comunalidades dos fatores será explica adiante. Para o proposito desse trabalho, utilizaremos a análise de componentes principais para obter os fatores da análise fatorial. Uma consequência importante com o uso da ACP é a obtenção de variáveis independentes, que impete a ocorrência do problema da multicolinearidade. 3.1 O MODELO FATORIAL ORTOGONAL Seja o vetor aleatório observável 𝑋, com 𝑝 componentes, 𝑋 ∼ ·(𝜇,∑︀). O modelo fatorial postula que 𝑋 é linearmente dependente sobre variáveis aleatórias não observáveis (latentes) 𝐹1, 𝐹2, . . . , 𝐹𝑚 com (𝑚 < 𝑝) chamadas fatores comuns (𝑚 fatores extraídos das 𝑝 variáveis) e 𝑝 fontes de variação aditivas 𝜀1, 𝜀2, . . . , 𝜀𝑝 chamados erros ou, algumas vezes, fatores específicos 𝑋1 − 𝜇1 = ℓ11𝐹1 + ℓ12𝐹2 + . . .+ ℓ1𝑚𝐹𝑚 + 𝜀1 𝑋2 − 𝜇2 = ℓ21𝐹1 + ℓ22𝐹2 + . . .+ ℓ2𝑚𝐹𝑚 + 𝜀2 ... .......................................... 𝑋𝑖 − 𝜇𝑖 = ℓ𝑖1𝐹1 + ℓ𝑖2𝐹2 + . . .+ ℓ𝑖𝑚𝐹𝑚 + 𝜀𝑖 ... ......................................... 𝑋𝑝 − 𝜇𝑝 = ℓ𝑝1𝐹1 + ℓ𝑝2𝐹2 + . . .+ ℓ𝑝𝑚𝐹𝑚 + 𝜀𝑝 (3.1) 43 ou em notação matricial (𝑋 − 𝜇)𝑝×1 = 𝐿𝑝×𝑚𝐹𝑚×1 + 𝜀𝑝×1. Os coeficientes ℓ𝑖𝑗 são chamados de pesos ou carregamentos e, especificamente, ℓ𝑖𝑗 é o carregamento na 𝑖-ésima variável do 𝑗-ésimo fator, tal que a matriz 𝐿 é a matriz de carregamentos dos fatores. Note que o fator específico ou erro 𝜀𝑖 é associado somente com a 𝑖-esima variável original 𝑋𝑖. Os desvios 𝑋1− 𝜇1, 𝑋2− 𝜇2, . . . , 𝑋𝑝− 𝜇𝑝 são expressos em termos de 𝑝+𝑚 variáveis aleatórias: 𝐹1, 𝐹2, . . . , 𝐹𝑚, 𝜀1, 𝜀2, . . . , 𝜀𝑝 que não são observáveis. Isto distingue o modelo fatorial do modelo de regressão multivariada, cujas variáveis independentes podem ser observadas. Agora assumindo que: 𝐸(𝐹 ) = 0, 𝐶𝑂𝑉 (𝐹 ) = 𝐸(𝐹𝐹 ′) = 𝐼𝑚, 𝐸(𝜀) = 0, 𝐶𝑂𝑉 (𝜀) = 𝐸(𝜀, 𝜀′) = Ψ𝑝×𝑝 = ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ Ψ1 0 0 . . . 0 0 Ψ2 0 . . . 0 0 0 Ψ3 . . . 0 . . . . . . . . . . . . . . . 0 0 0 . . . Ψ𝑝 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , (3.2) e que 𝐹 e 𝜀 são independentes, assim 𝐶𝑂𝑉 (𝜀, 𝐹 ) = 𝐸(𝜀, 𝐹 ′) = 0 com 𝑚 = 𝑝. Sob essas suposições o relacionamento construído em 𝑋 − 𝜇 = 𝐿𝐹 + 𝜀 é chamado modelo fatorial ortogonal e pode ser escrito como 𝑋𝑝×1 = 𝜇𝑝×1 + 𝐿𝑝×𝑚𝐹𝑚×1 + 𝜀𝑝×1. (3.3) Agora considerando a matriz (𝑋 − 𝜇)(𝑋 − 𝜇)′ = (𝐿𝐹 + 𝜀)(𝐿𝐹 + 𝜀)′ = 𝐿𝐹 (𝐿𝐹 )′ + 𝜀(𝐿𝐹 )′ + 𝐿𝐹𝜀′ + 𝜀𝜀′ é possível mostrar que a matriz de covariância de 𝑋 é dada por ∑︁ = 𝐶𝑂𝑉 (𝑋) = 𝐸(𝑋 − 𝜇)(𝑋 − 𝜇)′ = 𝐿𝐿′𝑝×𝑝 +Ψ. (3.4) Consequentemente tem-se 𝑉 (𝑋𝑖) = ℓ2𝑖1 + ℓ2𝑖2 + . . .+ ℓ2𝑖𝑚 +Ψ𝑖, com 𝑖 = 1, 2, . . . , 𝑝. Observe que dessa forma a matriz de covariância ∑︀ pode ser decomposta em duas partes. A matriz Ψ é chamada de matriz de variâncias específicas e é uma matriz diagonal possuindo na diagonal principal as variâncias específicas Ψ𝑖 das variáveis originais. Já a matriz produto 𝐿𝐿′ tem na diagonal principal as comunalidades ℎ2𝑖 = ℓ2𝑖1 + ℓ2𝑖2 + . . .+ ℓ2𝑖𝑚 com 𝑖 = 1, 2, . . . , 𝑝 (𝑗 = 1, 2, . . . ,𝑚). Pode ser mostrado que a covariância entre o vetor das variáveis originais 𝑋 e o vetor dos fatores 𝐹 é dado por: 1. 𝐶𝑂𝑉 (𝑋,𝐹 ) = 𝐿; 2. 𝐶𝑂𝑉 (𝑋𝑖, 𝑋𝑘) = ℓ𝑖1ℓ𝑘1 + ℓ𝑖2ℓ𝑘2 + . . .+ ℓ𝑖𝑚ℓ𝑘𝑚; 44 3. 𝐶𝑂𝑉 (𝑋𝑖, 𝐹𝑗) = ℓ𝑖𝑗. A porção da variância da i-ésima variável aleatória 𝑋𝑖 advinda como contribuição dos 𝑚 fatores comuns é chamada de Comunalidade e a porção da 𝑉 (𝑋𝑖) = 𝜎2 oriunda do fator específico é a Variância Específica. Assim, tem-se 𝑉 (𝑋𝑖) = ℓ2𝑖1 + ℓ2𝑖2 + . . .+ ℓ2𝑖𝑚 +Ψ𝑖 (3.5) Dadas as observações 𝑥1, 𝑥2, . . . , 𝑥𝑛 de 𝑝 variáveis geralmente correlacionadas a Análise Fatorial procura responder a pergunta: Representará o modelo fatorial os dados adequadamente, com um número 𝑚 < 𝑝 (baixo) de fatores? A matriz de covariância amostral 𝑆 é um estimador da matriz de covariâncias populacional desconhecida Σ. Se os elementosfora da diagonal de 𝑆 são baixos ou equi- valentemente na matriz de correlação amostral 𝑅 eles são praticamente nulos as variáveis não são relacionadas e a Análise Fatorial não é útil. Por outro lado quando Σ é significa- tivamente diferente de uma matriz diagonal, então o modelo fatorial pode ser usado e o problema inicial é o de estimar os carregamentos (pesos) 𝑙𝑖𝑗 e as variâncias específicas 𝜓𝑖 . Vamos considerar no nosso estudo a estimação pelo Método das Componentes Principais. Seja Σ a matriz de covariâncias de 𝑋, então, dado que Σ seja positiva definida, podemos decompô-la na forma abaixo, segundo a decomposição espectral: Σ = 𝜆1𝑒1 𝑒′1 + 𝜆2𝑒2 𝑒′2 + . . .+ 𝜆𝑝𝑒𝑝 𝑒′𝑝 Σ = (︁ √ 𝜆1𝑒1 √ 𝜆2𝑒2 . . . √︁ 𝜆𝑝𝑒𝑝 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ √ 𝜆1𝑒1√ 𝜆2𝑒2 ...√ 𝜆1𝑒1 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐿𝐿 ′ se 𝑚 = 𝑝, então, 𝜓𝑖 = 0 ∀𝑖. Assim, se Σ = 𝐿𝐿′ + 𝜓 tem-se 𝜓𝑝×𝑝 = 0𝑝×𝑝 no ajuste do modelo fatorial. Exceto pelo escalar √︁ 𝜆𝑗, os carregamentos no j-ésimo fator são os coeficientes populacionais na j-ésima componente principal. Embora a representação de Σ = 𝐿𝐿′ + 0 = 𝐿𝐿′ seja exata, ela não é particularmente útil, pois tem muitos fatores comuns. É preferível um modelo que explique a estrutura de covariância em termos de poucos fatores comuns. Uma aproximação, quando 𝑝 − 𝑚 autovalores são baixos, é negligenciar a contribuição de 𝜆𝑚 + 1𝑒𝑚 + 1𝑒′𝑚+1 + 𝜆𝑚 + 2𝑒𝑚 + 2𝑒′𝑚+2 + . . . + 𝜆𝑝 + 𝑒𝑝 + 𝑒′𝑝 para Σ na decomposição espectral. Assim, tem-se: Σ ≈ (︁ √ 𝜆1𝑒1 √ 𝜆2𝑒2 . . . √ 𝜆𝑚𝑒𝑚 )︁ ⎛⎜⎜⎜⎜⎜⎜⎝ √ 𝜆1𝑒1√ 𝜆2𝑒2 ...√ 𝜆𝑚𝑒𝑚 ⎞⎟⎟⎟⎟⎟⎟⎠ = 𝐿𝐿 ′ de ordem 𝑝× 𝑝. Esta representação aproximada assume que os fatores específicos 𝜀 são de menor importância e podem, também, ser ignorados na fatorização de Σ. Se os fatores específicos 45 𝜀 são incluídos no modelo, suas variâncias são os elementos da diagonal da matriz diferença Σ − 𝐿𝐿′ e consequentemente 𝜓𝑖 = 𝜎𝑖𝑖 − Σ𝑚𝑗=1 = 𝑙2𝑖𝑗 para 𝑖 = 1, 2, . . . , 𝑝. Para aplicar esta abordagem aos dados amostrais 𝑥1, 𝑥2, . . . , 𝑥𝑛 é usual, primeiro, centrar as observações subtraindo a média amostral 𝑥. As observações centradas são: (︁ 𝑥𝑗 − 𝑥1 )︁ = ⎛⎜⎜⎜⎜⎜⎜⎝ 𝑥1𝑗 − 𝑥1 𝑥2𝑗 − 𝑥2 ... 𝑥𝑝𝑗 − 𝑥𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ com 𝑗 = 1, 2, 3, . . . , 𝑛 Pode-se, também, trabalhar com as variáveis padronizadas, 𝑧𝑗 = ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ 𝑥1𝑗 − 𝑥1√ 𝑠11 𝑥2𝑗 − 𝑥2√ 𝑠22 ... 𝑥𝑝𝑗 − 𝑥𝑝 𝑠𝑝𝑝 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ 𝑐𝑜𝑚 𝑗 = 1, 2, . . . , 𝑛. cuja matriz de correlação amostral é a matriz de correlação 𝑅 das observações originais 𝑥1, 𝑥2, . . . , 𝑥𝑛. A representação Σ ≈ 𝐿𝐿′+𝜓, quando se usa a matriz de covariância 𝑆 ou, então, a matriz de correlação 𝑅, é conhecida como Solução por Componentes Principais. 3.2 COMPONENTES PRINCIPAIS PARA O MODELO FATORIAL A Análise Fatorial por Componentes Principais da matriz de covariância 𝑆 é espe- cificada em termos de seus pares de autovalor/autovetor (𝜆1, 𝑒1), (𝜆2, 𝑒2), . . . , (𝜆𝑝, 𝑒𝑝) onde 𝜆1 > 𝜆2 > . . . > 𝜆𝑝 > 0. Seja 𝑚 < 𝑝 o número de fatores comuns extraídos. A matriz dos carregamentos estimados �^�𝑖𝑗 é dada por: �^� = (︂ √︁ �^�1 1^ √︁ �^�2 2^ . . . √︁ �^�𝑚^𝑚 )︂ As variâncias específicas estimadas são dadas pelos elementos da matriz Ψ^ = 𝑆 − 𝐿𝐿, Ψ^ = ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ Ψ^1 0 0 . . . 0 0 Ψ^2 0 . . . 0 0 0 Ψ^3 . . . 0 . . . . . . . . . . . . . . . 0 0 0 . . . Ψ^𝑝 ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ com Ψ^𝑖𝑖 = 𝑠𝑖𝑖 − Σ𝑚𝑖=1�^�2𝑖𝑗 As comunalidades são estimadas por ℎ^2𝑖 = �^�21𝑖 + �^�22𝑖 + . . .+ �^�2𝑚𝑖 E, para determinar o número 𝑚 de fatores comuns, o indicado é basear-se na proporção da variância amostral devido a cada fator, que é: �^�𝑗 𝑠11 + 𝑠22 + . . .+ 𝑠𝑝𝑝 para análise feita a partir de 𝑆. �^�𝑗 𝑠 para análise feita a partir de 𝑅. 46 Considerando a solução por componentes principais partindo-se da matriz 𝑆 ou 𝑅 que fornece os pares de autovalores/autovetores (�^�1, 1^), (�^�2, 2^), . . . , (�^�𝑝, �^�) onde �^�1 > �^�2 > . . . > �^�𝑝 > 0 tem-se a matriz de carregamentos (pesos, loads) �^�𝑝×𝑚 = (︂ √︁ �^�1 1^ √︁ �^�2 2^ . . . √︁ �^�𝑚^𝑚 )︂ = ⎛⎜⎜⎜⎜⎜⎜⎜⎝ √︁ �^�1 1^1 √︁ �^�2 1^2 . . . √︁ �^�𝑚 1^𝑚√︁ �^�1 2^1 √︁ �^�2 2^2 . . . √︁ �^�𝑚 2^𝑚 ... ... . . . ...√︁ �^�1 �^�1 √︁ �^�2 �^�2 . . . √︁ �^�𝑚 �^�𝑚 ⎞⎟⎟⎟⎟⎟⎟⎟⎠ e a matriz de variâncias específicas é: Ψ^𝑝×𝑝 = ⎛⎜⎜⎜⎜⎜⎜⎝ Ψ^1 0 . . . 0 0 Ψ^2 . . . 0 . . . . . . . . . . . . 0 0 . . . Ψ^𝑝 ⎞⎟⎟⎟⎟⎟⎟⎠ com Ψ^𝑖𝑖 = 𝑠𝑖𝑖 − ∑︀𝑚 𝑖=1 �^� 2 𝑖𝑗, onde as comunalidades estimadas são: ℎ^2𝑖 = �^�21𝑖+ �^�22𝑖+. . .+ �^�2𝑚𝑖 = ∑︀𝑚 𝑖=1 �^� 2 𝑖𝑗. Podemos interpretar estes resultados como: ∙ a contribuição do primeiro fator para a variância 𝑠𝑖𝑖 da variável aleatória 𝑖 é �^�2𝑖1; ∙ a contribuição do primeiro fator para a variância total 𝑠11 + 𝑠22 + . . .+ 𝑠𝑝𝑝 = 𝑡𝑟(𝑆) é ∑︀𝑚𝑖=1 �^�2𝑖1. 3.2.1 Escores Fatoriais Em muitas aplicações é preciso estimar o valor de cada um dos fatores (não ob- serváveis) para uma observação individual 𝑋, sendo que esses valores dos fatores são chamados de escores fatoriais. Os escores fatoriais estimados para as variáveis originais são 𝐹 = (𝐿′𝐿)−1𝐿′(𝑋 −𝜇) e para as variáveis padronizadas são 𝐹 = (𝐿′𝐿)′𝐿𝑍, desde que se use componentes principais para estimar os pesos (VILLWOCK, 2009). Com a rotação dos fatores se obtém uma estrutura para os pesos tal que cada variável tenha peso alto em um único fator e pesos baixos ou moderados nos demais fatores. Kaiser e Rice (1974) sugeriu uma medida analítica conhecida como critério Varimax. Define-se ̃︀ℓ𝑖𝑗 = ℓ𝑖𝑗ℎ𝑖𝑗 , os coeficientes rotacionados escalonados pela raiz quadrada das comunalidades. O procedimento varimax seleciona a transformação ortogonal 𝑇 que torna 𝑉 dada pela expressão 3.6 o maior possível, ou seja, o procedimento parte de∑︀ = 𝐿𝑇𝑇 ′𝐿′ e fornece os pesos ℓ* vindos de 𝐿𝑇 . Então, o critério é maximizar 𝑉 (VILLWOCK, 2009) 𝑉 = 1 𝑝 𝑚∑︁ 𝑗=1 { 𝑝∑︁ 𝑖=1 (ℓ∼ * 𝑖𝑗 )4 − [ 𝑝∑︁ 𝑖=1 (ℓ∼ * 𝑖𝑗 )2]/𝑝}. (3.6) 3.2.2 Diferenças Entre o Método de Componentes Principais e a Análise Fatorial Apesar dos dois modelos procurarem interpretar um conjunto de variáveis aleató- rias com outras variáveis não observáveis, de acordo com Aranha e Zambaldi (2008) eles possuem pouco em comum. 47 O modelo de fatores assume que as variáveis observáveis 𝑋𝑖 são formadas por uma combinação linear de variáveis latentes, fatores comuns 𝐹 e fatores únicos 𝜀, respectiva- mente ponderados pelos pesos. Tal modelo envolve, portanto, variáveis de duas naturezas dinstintas: observadas e latentes. Já o modelo de componentes principais assume que os componentes 𝑃 das variáveis observadas podem ser calculados como combinações lineares das variáveis observadas 𝑋𝑖 segundo os pesos obtidos 𝐶𝑝×𝑝. Assim, a ACP envolve apenas variáveis observadas, não havendo nada de subjacente. Já o modelo de fatores presume que, por trás da realidade observada, há uma outra realidade, mais simples. O modelo de componentes mostra que uma mesma realidade pode ser observada a partir de dois ângulos diferentes. No modelo de fatores, as variáveis observadas ficam do lado esquerdo da equação, pois são formadas pelos fatores. Já no modelo de componentes, as variáveis observadas ficam ao lado direito da equação, ou seja, elas formam os componentes. A também semelhanças entre os modelos, como o fato de que os modelos envolvem combinações lineares, e devido a isso, é possível utilizar o método das componentes para obter os fatores no modelo fatorial. 48 4 APLICAÇÕES DA ANÁLISE FATORIAL Com a disseminação de aplicativos de análise estatística, a análise fatorial tornou- se uma ferramenta de uso comum em pesquisas quantitativas em diversas áreas. Uma aplicação
Compartilhar