Buscar

aula_01

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Ana´lise Estat´ıstica Multivariada
PROGRAMA DA DISCIPLINA
1. INTRODUC¸A˜O/ASPECTOS GERAIS/ORGANIZAC¸A˜O DE DADOS/ VE-
TOR DE ME´DIA AMOSTRAL/MATRIZES DE VARIAˆNCIA-COVARIAˆNCIA
E CORRELAC¸A˜O AMOSTRAL/ NOC¸A˜O DE DISTAˆNCIA.
2. FERRAMENTAS DE A´LGEBRA LINEAR/ MATRIZES POSITIVAS DEFI-
NIDAS/DECOMPOSIC¸A˜O ESPECTRAL/ VETORES E MATRIZES ALEA-
TO´RIOS/ ME´DIA E VARIAˆNCIA/ VARIAˆNCIA GENERALIZADA/ME´DIA,
VARIAˆNCIA E CORRELAC¸A˜O VIA OPERAC¸O˜ES MATRICIAIS/COMBINA-
C¸O˜ES LINEARES DAS COMPONENTES DE UM VETOR ALEATO´RIO.
3. DISTRIBUIC¸A˜O NORMAL MULTIVARIADA/ DEFINIC¸A˜O/ PROPRIEDA-
DES/ESTIMADORES DE MA´XIMA-VEROSSIMILHANC¸A/DEFINIC¸A˜O E
PROPRIEDADES DA DISTRIBUIC¸A˜O WISHART/ A DISTRIBUIC¸A˜O A-
MOSTRAL DE X¯ E S/AVALIAC¸A˜O DA SUPOSIC¸A˜O DE NORMALIDADE.
4. INFEREˆNCIA SOBRE O VETOR DE ME´DIAS/TESTE DE HIPO´TESE/ES-
TAT´ISTICA T 2 DE HOTELLING/ REGIO˜ES DE CONFIANC¸A/ COMPARA-
C¸O˜ES SIMULTAˆNEAS DAS COMPONENTES DO VETOR DE ME´DIAS.
INFEREˆNCIA SOBRE A MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA.
5. ANA´LISE DE VARIAˆNCIA MULTIVARIADA
6. REGRESSA˜O LINEAR MULTIVARIADA
7. DISCRIMINAC¸A˜O E CLASSIFICAC¸A˜O
8. ANA´LISE EM COMPONENTES PRINCIPAIS/ANA´LISE FATORIAL
9. ANA´LISE DE CONGLOMERADOS/ESCALONAMENTO MULTIDIMENSI-
ONAL
1
Ana´lise Estat´ıstica Multivariada
REFEREˆNCIAS PRINCIPAIS
(1) Jonhson e Wichern (1992). Applied Multivariate Statistical Analysis. Pren-
ce-Hall
(2) Chatfield e Collins (1980). Introduction to Multivariate Statistical Analysis.
Chapman and Hall
(3) Manly (2005). Me´todos Estat´ısticos Multivariados: Uma Introduc¸a˜o. Trad.
Carmona, S. Terceira Edic¸a˜o. Bookman (2008).
AVALIAC¸A˜O
A avaliac¸a˜o sera´ composta de duas provas e um trabalho (em dupla) tal que
a me´dia sera´ calculada da seguinte forma:
M =
P1 + P2 + T
3
Havera´ uma prova final para quem na˜o alcanc¸ar me´dia 6.
A primeira prova sera´ no dia 29 de setembro/2011, quinta-feira, 7h30.
A segunda prova sera´ no dia 22 de novembro/2011, terc¸a-feira, 7h30.
A apresentao dos trabalhos sera´ nos dias 24 e 29 de novembro/2011.
A prova de segunda-chamada sera´ no dia 01 de dezembro/2011, quinta-feira, 8h.
A prova final ser aplicada no dia 8 de dezembro, quinta-feira, a`s 8h.
Refereˆncias e Avaliac¸a˜o
2
ASPECTOS GERAIS DA ANA´LISE MULTIVARIADA
A PESQUISA CIENT´IFICA E´ UM PROCESSO DE APRENDIZADO ITERA-
TIVO.
⇒ OBJETIVOS RELACIONADOS A` EXPLICAC¸A˜O DE UM FENOˆMENO DE-
VEM SER ESPECIFICADOS E, ENTA˜O, TESTADOS COLETANDO-SE E ANA-
LISANDO-SE DADOS.
⇒ AO LONGO DE TODO O PROCEDIMENTO ITERATIVO DE APRENDI-
ZAGEM, VARIA´VEIS PODEM SER INCLU´IDAS OU EXCLU´IDAS DO ESTUDO.
⇒ AS COMPLEXIDADES DA MAIORIA DOS FENOˆMENOS EXIGEM QUE O
INVESTIGADOR OBTENHA OBSERVAC¸O˜ES DE DIVERSAS VARIA´VEIS.
⇒ COMO OS DADOS INCLUEM DIVERSAS VARIA´VEIS SIMULTANEAMEN-
TE, CHAMAMOS A METODOLOGIA A SER ESTUDADA AQUI DE ANA´LISE
ESTAT´ISTICA MULTIVARIADA.
⇒ COMPREENDER AS RELAC¸O˜ES ENTRE VA´RIAS VARIA´VEIS PODE NA˜O
SER TAREFA SIMPLES. AS FERRAMENTAS MATEMA´TICAS EXIGIDAS PA-
RA CONSTRUIR TE´CNICAS ESTAT´ISTICAS MULTIVARIADAS PARA FAZER
INFEREˆNCIA ENVOLVEM MAIOR COMPLEXIDADE.
⇒ MUITOS ME´TODOS MULTIVARIADOS SA˜O BASEADOS NUM MODELO
PROBABIL´ISTICO CONHECIDO COMO NORMAL MULTIVARIADO.
Introduc¸a˜o
3
Ana´lise Estat´ıstica Multivariada
ALGUNS OBJETIVOS DE INVESTIGAC¸O˜ES CIENT´IFICAS NAS QUAIS
ME´TODOS MULTIVARIADOS DE ANA´LISE APLICAM-SE:
(1) REDUC¸A˜O DE DADOS/SIMPLIFICAC¸A˜O ESTRUTURAL:
BUSCA-SE REPRESENTAR O FENOˆMENO EM ESTUDO NA FORMA
MAIS SIMPLES POSS´IVEL, SEM PERDER MUITA INFORMAC¸A˜O. ESPERA-
SE COM ISTO FACILITAR A INTERPRETAC¸A˜O DOS RESULTADOS.
(2) ORDENAC¸A˜O E AGRUPAMENTO:
GRUPOS DE OBJETOS “SIMILARES” OU VARIA´VEIS SA˜O CRIADOS SE-
GUNDO ALGUM CRITE´RIO. ALTERNATIVAMENTE, REGRAS PARA A CLAS-
SIFICAC¸A˜O DE OBJETOS EM GRUPOS BEM DEFINIDOS PODEM SER CON-
STRUDAS.
(3) INVESTIGAC¸A˜O DA DEPENDEˆNCIA ENTRE VARIA´VEIS:
A NATUREZA DAS RELAC¸O˜ES ENTRE AS DIVERSAS VARIA´VEIS EN-
VOLVIDAS NA INVESTIGAC¸A˜O E´ DE INTERESSE. AS VARIA´VEIS SA˜O MU-
TUAMENTE INDEPENDENTES OU UMA OU MAIS SA˜O DEPENDENTES
DAS OUTRAS? SE HA´ DEPENDEˆNCIA, COMO EXPLICA´-LA?
(4) PREVISA˜O:
RELAC¸O˜ES ENTRE VARIA´VEIS DEVEM SER DETERMINADAS COM O
OBJETIVO DE PREVER VALORES DE UMA OU MAIS VARIA´VEIS COM
BASE NAS OBSERVAC¸O˜ES DE OUTRAS VARIA´VEIS.
(5) CONSTRUC¸A˜O E TESTE DE HIPO´TESES:
HIPO´TESES ESTAT´ISTICAS ESPEC´IFICAS, SOBRE OS PARAˆMETROS
DE POPULAC¸O˜ES MULTIVARIADAS, SA˜O TESTADAS. ISTO PODE SER
FEITO PARA VALIDAR SUPOSIC¸O˜ES OU REFORC¸AR CONVICC¸O˜ES PRE´-
VIAS.
Introduc¸a˜o
4
Ana´lise Estat´ıstica Multivariada
EXEMPLOS DE APLICAC¸A˜O DE TE´CNICAS MULTIVARIADAS
A´REA: SAU´DE
(M1) UM ESTUDO FOI REALIZADO PARA INVESTIGAR AS REAC¸O˜ES
DE PACIENTES COM CAˆNCER A` RADIOTERAPIA. FORAM OBSER-
VADAS MEDIDAS SOBRE 6 VARIA´VEIS DE REAC¸A˜O EM 98 PA-
CIENTES: NU´MERO DE SINTOMAS, I´NDICE DE ATIVIDADE (NA ES-
CALA 1-5), SONO (NA ESCALA 1-5), ALIMENTAC¸A˜O (NA ESCALA
1-3), APETITE (NA ESCALA 1-5) E REAC¸A˜O DERMATOLO´GICA (NA
ESCALA 0-3).
⇒ DEVIDO A` DIFICULDADE DE INTERPRETAC¸A˜O DOS RESULTADOS OB-
TIDOS SOBRE AS 6 VARIA´VEIS SIMULTANEAMENTE, UMA MEDIDA MAIS
SIMPLES DA RESPOSTA DO PACIENTE PODE SER U´TIL. A ANA´LISE MUL-
TIVARIADA FOI USADA PARA CONSTRUIR TAL MEDIDA MAIS SIMPLES
DA RESPOSTA DO PACIENTE A` RADIOTERAPIA TAL QUE ESTA NOVA ME-
DIDA CONTIVESSE O MA´XIMO POSS´IVEL DA INFORMAC¸A˜O AMOSTRAL
DISPON´IVEL.
⇒ O OBJETIVO AQUI FOI O DE REDUC¸A˜O DE DADOS.
(M2) RESPOSTAS PRODUZIDAS POR EST´IMULOS VISUAIS TAIS COMO
SINAIS LUMINOSOS E PADRO˜ES, PODEM SER REGISTRADAS POR
MEIO DE EQUIPAMENTO COMPUTACIONAL APROPRIADO. ES-
TAS RESPOSTAS SA˜O REFERIDAS COMO PERFIL DA ANA´LISE
COMPUTACIONAL VISUAL ELETROENCEFALOGRA´FICA DO INDI-
V´IDUO (ACVE).
EM UM ESTUDO ME´DICO SOBRE OS EFEITOS DA ESCLEROSE MU´LTIPLA
NO SISTEMA VISUAL, A ANA´LISE MULTIVARIADA FOI USADA PARA VE-
RIFICAR SE O USO DA ACVE E´ UM MEIO PRA´TICO E CONFIA´VEL PARA
O DIAGNO´STICO DE PATOLOGIAS VISUAIS.
⇒ O OBJETIVO AQUI FOI DE ORDENAC¸A˜O OU CLASSIFICAC¸A˜O; ISTO
E´, O DESENVOLVIMENTO DE UMA REGRA NUME´RICA PARA SEPARAR
PESSOAS QUE SOFREM DE UMA ESCLEROSE MU´LTIPLA CAUSAND0 PA-
TOLOGIAS VISUAIS DAQUELAS QUE NA˜O SOFREM A DOENC¸A.
Exemplos de aplicac¸a˜o
5
Ana´lise Estat´ıstica Multivariada
(M3) PESQUISAS SOBRE UMA BASE GENE´TICA PARA O ALCOOLISMO
FORAM REALIZADAS DE VA´RIAS FORMAS. UM GRUPO DESCO-
BRIU QUE A ATIVIDADE DE DUAS ENZIMAS - MONOAMINA OX-
IDASE E ADENYLATE CYCLASE - PRODUZIDAS PELAS PLAQUE-
TAS ERA SIGINIFICANTEMENTE REDUZIDA EM ALCOO´LATRAS.
OS RESULTADOS DESSE ESTUDO MOSTRARAM-SE PROMISSO-
RES PARA O DESENVOLVIMENTO DE UMA MEDIDA SIMPLES PA-
RA A DETECC¸A˜O PRECOCE DO ALCOOLISMO.
⇒ AQUI O OBJETIVO FOI IDENTIFICAR E MEDIR VARIA´VEIS FISIOLO´-
GICAS QUE PODERIAM SER USADAS EFETIVAMENTE PARA DISCRIMINAR
ALCOO´LATRAS DE NA˜O-ALCOO´LATRAS.
A´REA: SOCIOLOGIA
(S1) TEORIAS SOCIOLO´GICAS CONCORRENTES SUGEREM QUE A ES-
TRUTURA DE OCUPAC¸O˜ES AMERICANA E´ DETERMINADA FOR-
TEMENTE POR UMA DIMENSA˜O SOCIOECONOMICA E POR OU-
TRAS POUCAS DIMENSO˜ES MENOS IMPORTANTES; OU TREˆS DI-
MENSO˜ES BEM DEFINIDAS CHAMADAS (1) REQUISITOS, (2) RO-
TINAS E (3) RECOMPENSAS. MEDIDAS SOBRE 25 VARIA´VEIS PA-
RA 583 OCUPAC¸O˜ES FORAM ANALISADAS USANDO-SE ME´TODOS
MULTIVARIADOS DE FORMA A FORNECER SUPORTE PARA UMA
DAS DUAS CORRENTES.
⇒ AQUI UM OBJETIVO INICIAL FOI A VERIFICAC¸A˜O DE HIPO´TESES; ISTO
E´, AS OCUPAC¸O˜ES PODEM SER OLHADAS EM UMA U´NICA DIMENSA˜O OU
EM TREˆS DIMENSO˜ES?
Exemplos de aplicac¸a˜o
6
Ana´lise Estat´ıstica Multivariada
(S2) EM UM ESTUDO DE MOBILIDADE DE 1970, CONTAGENS DO NU´-
MERO DE PESSOAS RESIDENTES NOS ESTADOS UNIDOS COM
NACIONALIDADE DIFERENTE DA AMERICANA E A SEGUNDA GE-
RAC¸A˜O FORAM TABULADAS POR PA´IS DE ORIGEM E ESTADO DA
RESIDEˆNCIA. ME´TODOS MULTIVARIADOS FORAM USADOS PARA
AGRUPAR ESTADOS COM BASE NA DISTRIBUIC¸A˜O DE NACIONA-
LIDADES.
⇒ AQUI O OBJETIVO FOI ENCONTRAR GRUPOS HOMOGEˆNEOS NATU-
RAIS.
A´REA: NEGO´CIOS E ECONOMIA
(N1) MEDIDAS SOBRE SEIS VARIA´VEIS CONTA´BEIS E FINANCEIRAS
FORAM USADAS NO DESENVOLVIMENTO DE UM MODELOMUL-
TIVARIADO PARA AUXILIAR REGULADORES DE SEGUROS A IDEN-
TIFICAR O RISCO DE SEGURADORAS POTENCIALMENTE INSOL-
VENTES. USANDO O MODELO, UMA COMPANHIA SEGURADORA
PODERIA SER CLASSIFICADA COMO SOLVENTE OU EM RISCO DE
INSOLVEˆNCIA E PASSOS REMEDIADORES PODERIAM ENTA˜O SER
TOMADOS PARA PREVENIR A FALEˆNCIA DA FIRMA EM SITUA-
C¸A˜O DE RISCO.
⇒ AQUI O OBJETIVO FOI OBTER UMA REGRA DE CLASSIFICAC¸A˜O PARA
DISTINGUIR FIRMAS SOLVENTES DE FIRMAS COM RISCO DE INSOLVEˆN-
CIA.
7
Ana´lise Estat´ıstica Multivariada
(N2) EXECUTIVOS DE ALTOS NEGO´CIOS SA˜O TOMADORES DE RISCO
- SEU SUCESSO DEPENDE DE QUA˜O BEM ELES LIDAM COM O
RISCO. MEDIDAS DE PROPENSA˜O AO RISCO FORAM RELACIO-
NADAS A MEDIDAS DE CARACTER´ISTICAS SO´CIO-ECONOMICAS
PARA UMA GRANDE AMOSTRA DE TAIS EXECUTIVOS. TOMADO-
RES DE RISCO PUDERAM SER DIFERENCIADOS DE EXECUTIVOS
AVESSOS AO RISCO:
MAIS BEM SUCEDIDO, MAIS PROPENSO AO RISCO;
MAIS EXPERIENTE, MAIS AVESSO AO RISCO.
OS RESULTADOS FORAM USADOS PARA CONSTRUIR TEORIAS COM-
PORTAMENTAIS SOBRE OS TOMADORES DE RISCO E MELHORAR MO-
DELOS PREDITIVOS DE PERFORMANCE.
⇒ NESSE CASO, O OBJETIVO FOI ANALISAR AS RELAC¸O˜ES ENTRE PRO-
PENSA˜O AO RISCO E CARACTER´ISTICAS SO´CIO-ECONOMICAS USANDO
UM CONJUNTO DE FATORES DE RISCO E UM CONJUNTO, INDEPEN-
DENTE, DE FATORES SO´CIO-ECONOMICOS.
A´REA: EDUCAC¸A˜O
(E1) ESCORES DE TESTES DE APTIDA˜O ESCOLAR E A PERFORMANCE
ACADEˆMICA NO ENSINO ME´DIO SA˜O FREQUENTEMENTE USA-
DOS COMO INDICADORES DA PERFORMANCE ACADEˆMICA NA
UNIVERSIDADE. MEDIDAS SOBRE 5 VARIA´VEIS E APTIDA˜O ESCO-
LAR E PERFORMANCE NO SEGUNDO GRAU (APTIDA˜O VERBAL E
QUANTITATIVA, ME´DIAS AO FINAL DO PRIMEIRO E SEGUNDO
ANOS E NU´MERO DE ATIVIDADES EXTRA-CURRICULARES) E 4
CRITE´RIOS DE PERFORMANCE NA UNIVERSIDADE (GRAUS EM
4 DISCIPLINAS CHAVES) FORAM USADOS PARA DETERMINAR A
ASSOCIAC¸A˜O ENTRE AS VARIA´VEIS EXPLICATIVAS E OS CRITE´-
RIOS DE PERFORMANCE.
⇒ AQUI O OBJETIVO FOI DE PREVISA˜O DA PERFORMANCE NA UNIVER-
SIDADE BASEADO NUM CONJUNTO DE VARIA´VEIS EXPLICATIVAS. ESTE
OBJETIVO PODE SER ESTENDIDO PARA A GERAC¸A˜O DE UMA REGRA DE
CLASSFICAC¸A˜O DOS ESTUDANTES COMO APTOS OU NA˜O AO SUCESSO
NA UNIVERSIDADE.
8
Ana´lise Estat´ıstica Multivariada
A´REA: ESTUDOS AMBIENTAIS
(EA1) AS CONCENTRAC¸O˜ES ATMOSFE´RICAS DE POLUENTES NO AR
EM LOS ANGELES FORAM EXTENSIVAMENTE ESTUDADAS. EM
UM ESTUDO, MEDIDAS DIA´RIAS SOBRE SETE VARIA´VEIS RELA-
CIONADAS A` POLUIC¸A˜O NO AR FORAM REGISTRADAS SOBRE
UM PER´IODO EXTENSO DE TEMPO. UM INTERESSE IMEDIATO
FOI VERIFICAR SE OS N´IVEIS DE POLUIC¸A˜O ERAM GROSSEIRA-
MENTE CONSTANTES POR TODA A SEMANA OU SE HAVIA AL-
GUMA DIFERENC¸A ENTRE DIAS U´TEIS E FINAIS DE SEMANA.
UM OUTRO OBJETIVO FOI VERIFICAR SE A MASSA DE DADOS
DISPON´IVEL PODERIA SER SUMARIZADA DE FORMA A SER FA-
CILMENTE INTERPRETA´VEL.
⇒ AQUI OS OBJETIVOS FORAM TESTAR HIPO´TESES E REDUC¸A˜O DE
DADOS.
⇒ OUTRAS A´REAS POTENCIAIS DE APLICAC¸A˜O DE ME´TODOS MUL-
TIVARIADOS: BIOLOGIA, METEOROLOGIA, GEOLOGIA, PSICOLOGIA, ES-
PORTES, ETC. PARA MAIORES DETALHES VER O CAP´ITULO 1 DE JOHN-
SON E WICHERN (1992).
⇒ OS EXEMPLOS APRESENTADOS FORNECEM VISLUMBRES DO USO DE
ME´TODOS MULTIVARIADOS EM A´REAS BEM DIVERSIFICADAS. APESAR
DE CONFIGURAC¸O˜ES DIFERENTES, MUITOS DOS PROBLEMAS APRE-
SENTADOS SA˜O SIMILARES. A ANA´LISE MULTIVARIADA, COMO QUAL-
QUER COLEC¸A˜O DE TE´CNICAS ESTAT´ISTICAS, NA˜O ESTA´ RESTRITA A
UMA PARTICULAR A´REA DE CONHECIMENTO.
⇒ DESENVOLVIMENTOS RECENTES EM ANA´LISE MULTIVARIADA SA˜O
RELACIONADOS A` MINERAC¸A˜O DE DADOS (DATA MINING) A QUAL ESTA´
VOLTADA PARA A EXTRAC¸A˜O DE INFORMAC¸A˜O DE CONJUNTOS DE DA-
DOS MUITO GRANDES.
9
Ana´lise Estat´ıstica Multivariada
ORGANIZAC¸A˜O DE DADOS
⇒ A MATE´RIA PRIMA A SER TRABALHADA AQUI E´ UM CONJUNTO DE
DADOS MULTIVARIADOS, ISTO E´, VA´RIAS VARIA´VEIS SA˜O OBSERVADAS
SOBRE DIVERSOS INDIV´IDUOS OU OBJETOS. NOSSO OBJETIVO SERA´
APRESENTAR UMA FORMA CONVENIENTE DE ORGANIZAR ESTES DA-
DOS E DE REPRESENTA´-LOS GRAFICAMENTE.
⇒ SUPONHA QUE ESTEJAMOS DIANTE DE UM PROBLEMA EM QUE p VA-
RIA´VEIS FORAM OBSERVADAS PARA UMA AMOSTRA DE n ELEMENTOS.
ASSIM, A OBSERVAC¸A˜O PARA O i-E´SIMO ELEMENTO DA AMOSTRA SERA´
UM VETOR p-VARIADO DENOTADO POR x.i TAL QUE
xT.i = (x1i, x2i, ..., xpi), i = 1, ..., n
EM QUE xji REPRESENTA A j-E´SIMA OBSERVAC¸A˜O DO i-E´SIMO ELE-
MENTO DA AMOSTRA, j = 1, ..., p.
⇒ A COLEC¸A˜O DE DADOS OBSERVADOS PODE SER REPRESENTADA POR
MEIO DE UMA MATRIZ X DE DIMENSA˜O p× n COMO SEGUE
X =

x11 x12 ... x1n
x21 x22 ... x2n
...
...
...
...
xp1 xp2 ... xpn

Organizac¸a˜o de dados
10
Ana´lise Estat´ıstica Multivariada
ASSIM, AS LINHAS DA MATRIZ X REPRESENTAM AS p VARIA´VEIS MEDI-
DAS E, AS COLUNAS, AS n UNIDADES AMOSTRAIS.
PODEMOS REPRESENTAR A MATRIZ X ATRAVE´S DE SUAS LINHAS
X =

xT1.
xT2.
...
xTp.

com xTj. = (xj1, xj2, ...xjn) as n observac¸o˜es da j-e´sima varia´vel, j = 1, ..., p.
TAMBE´M PODEMOS REPRESENTAR A MATRIZ X ATRAVE´S DE SUAS
COLUNAS. ADOTANDO AQUI A NOTAC¸A˜O x.i, i = 1, ..., n PARA DESIGNAR
A i-E´SIMA COLUNA DE X, TEMOS
X = [x.1 ... x.n ]
EM QUE CADA x.i E´ UM VETOR p× 1, i = 1, ..., n.
EXEMPLO 1:
UMA SELEC¸A˜O DE 4 NOTAS FISCAIS DE UMA LIVRARIA UNIVER-
SITA´RIA FOI OBTIDA DE MODO A INVESTIGAR A NATUREZA DAS VEN-
DAS. CADA NOTA FORNECEU O NU´MERO DE LIVROS VENDIDOS E O
VALOR TOTAL DA VENDA (EM DO´LARES). OBTEVE-SE A SEGUINTE MA-
TRIZ DE DADOS, NA QUAL A PRIMEIRA LINHA INDICA O NU´MERO DE
LIVROS VENDIDOS E, A SEGUNDA, O VALOR DA VENDA.
X =
[
4 5 4 3
42 52 48 58
]
⇒ A REPRESENTAC¸A˜O DOS DADOS DESTA FORMA PERMITE O CA´LCULO
DE QUANTIDADES NUME´RICAS DE INTERESSE DE FORMA EFICIENTE E
FA´CIL.
Organizac¸a˜o de dados
11
Ana´lise Estat´ıstica Multivariada
ESTAT´ISTICAS DESCRITIVAS
(1) A ME´DIA AMOSTRAL PARA A j-E´SIMA VARIA´VEL OBSERVADA
PODE SER REPRESENTADA COMO
x¯j. =
1
n
n∑
i=1
xji, j = 1, ..., p
ASSIM, PODEMOS DEFINIR O VETOR DE ME´DIAS AMOSTRAL x¯ COMO x¯1....
x¯p.

⇒ ALGEBRICAMENTE,
x¯ =
1
n
X1
EM QUE 1 REPRESENTA UM VETOR n×1 CUJOS ELEMENTOS SA˜O TODOS
IGUAIS A 1.
(2) UMA MEDIDA DE DISPERSA˜O PARA A j-E´SIMA VARIA´VEL E´ DADA
PELA VARIAˆNCIA AMOSTRAL
sjj =
1
n− 1
n∑
i=1
(xji − x¯j.)2, j = 1, ..., p
Organizac¸a˜o de dados
12
Ana´lise Estat´ıstica Multivariada
⇒ OBSERVE QUE COMO HA´ p VARIA´VEIS TAMBE´M FAZ SENTIDO ES-
TUDAR A VARIABILIDADE ENTRE PARES DE VARIA´VEIS DADA PELA CO-
VARIAˆNCIA AMOSTRAL.
A COVARIAˆNCIA AMOSTRAL ENTRE A j-E´SIMA E A r-E´SIMA VARIA´VEL E´
DADA POR
sjr =
1
n− 1
n∑
i=1
(xji − x¯j.)(xri − x¯r.), j, r = 1, ..., p j 6= r
PODEMOS ENTA˜O REPRESENTAR DE FORMA ORGANIZADA AS INFOR-
MAC¸O˜ES SOBRE VARIABILIDADE ATRAVE´S DE UMA MATRIZ CHAMADA
MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA DADA POR
S =

s11 s12 ... s1p
s21 s22 ... s2p
...
...
...
...
sp1 sp2 ... spp

⇒ OBSERVE QUA A MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA E´ UMA
MATRIZ SIME´TRICA TAL QUE ST = S.
ALGEBRICAMENTE, PODEMOS ESCREVER A MATRIZ DE DADOS COR-
RIGIDA PELA ME´DIA NA FORMA
X − x¯1T
E, A MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA, NA FORMA
S =
1
n− 1
(
X − x¯1T ) (X − x¯1T )T
Organizac¸a˜o de dados
13
⇒ PODEMOS TAMBE´M DEFINIR A MATRIZ DE CORRELAC¸A˜O AMOSTRAL
R CUJOS ELEMENTOS rjk SA˜O DADOS POR rjk =
sjk√
sjjskk
,.
R =

1 r12 ... r1p
r21 1 ... r2p
...
...
...
...
rp1 rp2 ... 1

⇒ OBSERVE QUA A MATRIZ DE CORRELAC¸A˜O E´ TAMBE´M UMA MATRIZ
SIME´TRICA TAL QUE RT = R.
ALGEBRICAMENTE, A MATRIZ DE CORRELAc¸A˜O PODE SER ESCRITA NA
FORMA
R =
1
n− 1
[
∆−1/2
(
X − x¯1T )] [∆−1/2 (X − x¯1T ))]T
COM
∆−1/2 = diag{s−1/211 , s−1/222 , ..., s−1/2pp }
MATRIZ DIAGONAL DE ORDEM p POR p.
OBSERVE QUE PODEMOS RELACIONAR ALGEBRICAMENTE AS MA-
TRIZES S E R TAL QUE
S = ∆1/2R∆1/2 R = ∆−1/2S∆−1/2
COM
∆1/2 = diag{s1/211 , s1/222 , ..., s1/2pp }.
Organizac¸a˜o de dados
14
Ana´lise Estat´ıstica Multivariada
⇒ EM MUITAS APLICAC¸O˜ES AS SOMAS DOS DESVIOS QUADRADOS DA
ME´DIA E DOS PRODUTOS CRUZADOS DE TAIS DESVIOS SA˜O UTILIZA-
DAS. ADOTAREMOS AQUI A NOTAC¸A˜O:
Wjj =
n∑
i=1
(xij − x¯j)2, j = 1, ..., p
Wjr =
n∑
i=1
(xij − x¯j)(xir − x¯r), j, r = 1, ..., p j 6= p
ASSIM DEFINIMOSA MATRIZ W DE SOMAS DOS DESVIOS QUADRADOS
DA ME´DIA E PRODUTOS CRUZADOS DOS DESVIOS DA ME´DIA
W =
W11 W12 ... W1p... ... ... ...
Wp1 Wp2 ... Wpp
 = (X − x¯1T ) (X − x¯1T )T
EXEMPLO 1: (CONTINUAC¸A˜O) DETERMINE O VETOR DE ME´DIAS E AS
MATRIZES S E R PARA OS DADOS DO EXEMPLO 1 USANDO O R.
Organizac¸a˜o de dados
15
1) Definindo as dimenso˜es:
p=2
n=4
2) Entrando com os valores da matriz X :
X = matrix(0, p, n)
X[1, ] = c(4, 5, 4, 3)
X[2, ] = c(42, 52, 48, 58)
3) Definindo o vetor unita´rio 1:
vet1=matrix(1,n,1)
4) Calculando o vetor de me´dias:
vetmedia = (X% ∗%vet1)/n
5) Calculando da matriz Delta1/2:
deltameio=matrix(0,2,2)
deltameio[1,1]=sqrt(var(X[1,]))
deltameio[2,2]=sqrt(var(X[2,]))
6) Calculando a matriz de dados corrigida pela me´dia (XC)
XC=X-vetmedia%*%t(vet1)
7) Calculando a matriz de somas de quadrados e produtos cruzados corrigida
pela me´dia
W=XC%*%t(XC)
8) Calculando a matriz de Variaˆncia:
S=W/(n-1)
9) Invertendo a matriz deltameio:
Ideltameio-solve(deltameio)
10) Calculando a matriz de correlac¸a˜o:
R=Ideltameio%S%*%Ideltameio
vetmedia: 4 50
S: 0.67 -2.00 -2.00 45.33
R: 1.000 -0.364 -0.364 1.000
Usando as func¸o˜es do R:
mean(X[1,]), mean(X[2,])
var(t(X))
cor(t(X))
Organizac¸a˜o de dados
16
Ana´lise Estat´ıstica Multivariada
REPRESENTAC¸A˜O GRA´FICA
⇒ EMBORA NA˜O SEJA POSS´IVEL REPRESENTAR SIMULTANEAMENTE
MAIS DE TREˆS VARIA´VEIS EM UM GRA´FICO BIDIMENSIONAL, PODEMOS
UTILIZAR GRA´FICOS DE DISPERSA˜O PARA AS VARIA´VEIS INDIVIDUAIS
(DIAGRAMA DE PONTOS) E DUAS A DUAS (DIAGRAMA DE DISPERSO).
TAIS GRA´FICOS PODEM SER BASTANTE INFORMATIVOS.
A MAIOR PARTE DAS TE´CNICAS MULTIVARIADAS BASEIA-SE NO SIM-
PLES CONCEITO DE DISTAˆNCIA.
⇒ ESTAMOS HABITUADOS A DISTAˆNCIA USUAL CHAMADA DISTAˆNCIA
EUCLIDEANA, TAL QUE SE P (x1, x2, ..., xp) e Q(y1, y2, ..., yp) SA˜O DOIS PON-
TOS EM <p, A DISTAˆNCIA ENTRE P E Q E´ DADA POR
d(P,Q) =
√
(x1 − y1)2 + (x2 − y2)2 + ...+ (xp − yp)2
⇒ PORE´M, A DISTAˆNCIA EUCLIDEANA PODE NA˜O SER ADEQUADA EM
MUITOS PROBLEMAS, DEPENDENDO DA NATUREZA DAS VARIA´VEIS EN-
VOLVIDAS.
⇒ ISTO OCORRE DEVIDO AO FATO DE QUE NA DISTAˆNCIA EUCLIDEANA
CADA COORDENADA CONTRIBUI IGUALMENTE PARA O CA´LCULO DA
MESMA. QUANDO AS COORDENADAS REPRESENTAM MEDIC¸O˜ES QUE
SA˜O SUJEITAS A` FLUTUAC¸O˜ES ALEATO´RIAS DE MAGNITUDES DIFEREN-
TES, E´ FREQUENTEMENTE DESEJA´VEL PONDERAR COORDENADAS SU-
JEITAS A` MAIOR VARIABILIDADE COM UM PESO MENOR DO QUE A`QUE-
LAS SUJEITAS A UMA MENOR VARIABILIDADE.
⇒ ISTO SUGERE UMA NOVA MEDIDA DE DISTAˆNCIA.
Distaˆncia
17
Ana´lise Estat´ıstica Multivariada
⇒ DESEJA-SE QUE ESTA NOVA MEDIDA DE DISTAˆNCIA LEVE EM CONTA
AS DIFERENC¸AS EM VARIABILIDADE ENTRE AS DIVERSAS VARIA´VEIS
INCLU´IDAS NA ANA´LISE E, TAMBE´M, A PRESENC¸A DE CORRELAC¸A˜O
ENTRE OS PARES DE VARIA´VEIS. ESTE SERA´ O TIPO DE DISTAˆNCIA
FUNDAMENTAL EM ANA´LISE MULTIVARIADA.
⇒ SUPONHA PRIMEIRO UM CONJUNTO DE p VARIA´VEIS NA˜O CORRELA-
CIONADAS, COM VARIAˆNCIAS DISTINTAS. ASSIM, DE FORMA A EQUI-
LIBRAR A CONTRIBUIC¸A˜O DAS DIVERSAS VARIA´VEIS AO CA´LCULO DA
DISTAˆNCIA PODEMOS PONDERA´-LAS DE FORMA INVERSAMENTE PRO-
PORCIONAL AOS SEUS DESVIOS-PADRA˜O DEFININDO x∗j =
xj√
sjj
E AGORA,
CALCULANDO A DISTAˆNCIA “EUCLIDEANA” ENTRE ESTAS VARIA´VEIS
TRANSFORMADAS.
de(P,Q) =
√
(x− y)′D−1(x− y)
EM QUE D E´ A MATRIZ DIAGONAL CUJOS ELEMENTOS SA˜O s11, ..., spp,
x′ = (x1, ..., xp) E y′ = (y1, ..., yp).
⇒ UMA MEDIDA DE DISTAˆNCIA QUE TAMBE´M LEVA EM CONTA AS CO-
VARIAˆNCIAS ENTRE AS VARIA´VEIS E´ DADA POR
de(P,Q) =
√
(x− y)′S−1(x− y)
EM QUE S E´ MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA.
Exerc´ıcios sugeridos do Cap´ıtulo 1: 1 a 7, 14 a 18.
Distaˆncia
18

Outros materiais