Baixe o app para aproveitar ainda mais
Prévia do material em texto
Ana´lise Estat´ıstica Multivariada PROGRAMA DA DISCIPLINA 1. INTRODUC¸A˜O/ASPECTOS GERAIS/ORGANIZAC¸A˜O DE DADOS/ VE- TOR DE ME´DIA AMOSTRAL/MATRIZES DE VARIAˆNCIA-COVARIAˆNCIA E CORRELAC¸A˜O AMOSTRAL/ NOC¸A˜O DE DISTAˆNCIA. 2. FERRAMENTAS DE A´LGEBRA LINEAR/ MATRIZES POSITIVAS DEFI- NIDAS/DECOMPOSIC¸A˜O ESPECTRAL/ VETORES E MATRIZES ALEA- TO´RIOS/ ME´DIA E VARIAˆNCIA/ VARIAˆNCIA GENERALIZADA/ME´DIA, VARIAˆNCIA E CORRELAC¸A˜O VIA OPERAC¸O˜ES MATRICIAIS/COMBINA- C¸O˜ES LINEARES DAS COMPONENTES DE UM VETOR ALEATO´RIO. 3. DISTRIBUIC¸A˜O NORMAL MULTIVARIADA/ DEFINIC¸A˜O/ PROPRIEDA- DES/ESTIMADORES DE MA´XIMA-VEROSSIMILHANC¸A/DEFINIC¸A˜O E PROPRIEDADES DA DISTRIBUIC¸A˜O WISHART/ A DISTRIBUIC¸A˜O A- MOSTRAL DE X¯ E S/AVALIAC¸A˜O DA SUPOSIC¸A˜O DE NORMALIDADE. 4. INFEREˆNCIA SOBRE O VETOR DE ME´DIAS/TESTE DE HIPO´TESE/ES- TAT´ISTICA T 2 DE HOTELLING/ REGIO˜ES DE CONFIANC¸A/ COMPARA- C¸O˜ES SIMULTAˆNEAS DAS COMPONENTES DO VETOR DE ME´DIAS. INFEREˆNCIA SOBRE A MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA. 5. ANA´LISE DE VARIAˆNCIA MULTIVARIADA 6. REGRESSA˜O LINEAR MULTIVARIADA 7. DISCRIMINAC¸A˜O E CLASSIFICAC¸A˜O 8. ANA´LISE EM COMPONENTES PRINCIPAIS/ANA´LISE FATORIAL 9. ANA´LISE DE CONGLOMERADOS/ESCALONAMENTO MULTIDIMENSI- ONAL 1 Ana´lise Estat´ıstica Multivariada REFEREˆNCIAS PRINCIPAIS (1) Jonhson e Wichern (1992). Applied Multivariate Statistical Analysis. Pren- ce-Hall (2) Chatfield e Collins (1980). Introduction to Multivariate Statistical Analysis. Chapman and Hall (3) Manly (2005). Me´todos Estat´ısticos Multivariados: Uma Introduc¸a˜o. Trad. Carmona, S. Terceira Edic¸a˜o. Bookman (2008). AVALIAC¸A˜O A avaliac¸a˜o sera´ composta de duas provas e um trabalho (em dupla) tal que a me´dia sera´ calculada da seguinte forma: M = P1 + P2 + T 3 Havera´ uma prova final para quem na˜o alcanc¸ar me´dia 6. A primeira prova sera´ no dia 29 de setembro/2011, quinta-feira, 7h30. A segunda prova sera´ no dia 22 de novembro/2011, terc¸a-feira, 7h30. A apresentao dos trabalhos sera´ nos dias 24 e 29 de novembro/2011. A prova de segunda-chamada sera´ no dia 01 de dezembro/2011, quinta-feira, 8h. A prova final ser aplicada no dia 8 de dezembro, quinta-feira, a`s 8h. Refereˆncias e Avaliac¸a˜o 2 ASPECTOS GERAIS DA ANA´LISE MULTIVARIADA A PESQUISA CIENT´IFICA E´ UM PROCESSO DE APRENDIZADO ITERA- TIVO. ⇒ OBJETIVOS RELACIONADOS A` EXPLICAC¸A˜O DE UM FENOˆMENO DE- VEM SER ESPECIFICADOS E, ENTA˜O, TESTADOS COLETANDO-SE E ANA- LISANDO-SE DADOS. ⇒ AO LONGO DE TODO O PROCEDIMENTO ITERATIVO DE APRENDI- ZAGEM, VARIA´VEIS PODEM SER INCLU´IDAS OU EXCLU´IDAS DO ESTUDO. ⇒ AS COMPLEXIDADES DA MAIORIA DOS FENOˆMENOS EXIGEM QUE O INVESTIGADOR OBTENHA OBSERVAC¸O˜ES DE DIVERSAS VARIA´VEIS. ⇒ COMO OS DADOS INCLUEM DIVERSAS VARIA´VEIS SIMULTANEAMEN- TE, CHAMAMOS A METODOLOGIA A SER ESTUDADA AQUI DE ANA´LISE ESTAT´ISTICA MULTIVARIADA. ⇒ COMPREENDER AS RELAC¸O˜ES ENTRE VA´RIAS VARIA´VEIS PODE NA˜O SER TAREFA SIMPLES. AS FERRAMENTAS MATEMA´TICAS EXIGIDAS PA- RA CONSTRUIR TE´CNICAS ESTAT´ISTICAS MULTIVARIADAS PARA FAZER INFEREˆNCIA ENVOLVEM MAIOR COMPLEXIDADE. ⇒ MUITOS ME´TODOS MULTIVARIADOS SA˜O BASEADOS NUM MODELO PROBABIL´ISTICO CONHECIDO COMO NORMAL MULTIVARIADO. Introduc¸a˜o 3 Ana´lise Estat´ıstica Multivariada ALGUNS OBJETIVOS DE INVESTIGAC¸O˜ES CIENT´IFICAS NAS QUAIS ME´TODOS MULTIVARIADOS DE ANA´LISE APLICAM-SE: (1) REDUC¸A˜O DE DADOS/SIMPLIFICAC¸A˜O ESTRUTURAL: BUSCA-SE REPRESENTAR O FENOˆMENO EM ESTUDO NA FORMA MAIS SIMPLES POSS´IVEL, SEM PERDER MUITA INFORMAC¸A˜O. ESPERA- SE COM ISTO FACILITAR A INTERPRETAC¸A˜O DOS RESULTADOS. (2) ORDENAC¸A˜O E AGRUPAMENTO: GRUPOS DE OBJETOS “SIMILARES” OU VARIA´VEIS SA˜O CRIADOS SE- GUNDO ALGUM CRITE´RIO. ALTERNATIVAMENTE, REGRAS PARA A CLAS- SIFICAC¸A˜O DE OBJETOS EM GRUPOS BEM DEFINIDOS PODEM SER CON- STRUDAS. (3) INVESTIGAC¸A˜O DA DEPENDEˆNCIA ENTRE VARIA´VEIS: A NATUREZA DAS RELAC¸O˜ES ENTRE AS DIVERSAS VARIA´VEIS EN- VOLVIDAS NA INVESTIGAC¸A˜O E´ DE INTERESSE. AS VARIA´VEIS SA˜O MU- TUAMENTE INDEPENDENTES OU UMA OU MAIS SA˜O DEPENDENTES DAS OUTRAS? SE HA´ DEPENDEˆNCIA, COMO EXPLICA´-LA? (4) PREVISA˜O: RELAC¸O˜ES ENTRE VARIA´VEIS DEVEM SER DETERMINADAS COM O OBJETIVO DE PREVER VALORES DE UMA OU MAIS VARIA´VEIS COM BASE NAS OBSERVAC¸O˜ES DE OUTRAS VARIA´VEIS. (5) CONSTRUC¸A˜O E TESTE DE HIPO´TESES: HIPO´TESES ESTAT´ISTICAS ESPEC´IFICAS, SOBRE OS PARAˆMETROS DE POPULAC¸O˜ES MULTIVARIADAS, SA˜O TESTADAS. ISTO PODE SER FEITO PARA VALIDAR SUPOSIC¸O˜ES OU REFORC¸AR CONVICC¸O˜ES PRE´- VIAS. Introduc¸a˜o 4 Ana´lise Estat´ıstica Multivariada EXEMPLOS DE APLICAC¸A˜O DE TE´CNICAS MULTIVARIADAS A´REA: SAU´DE (M1) UM ESTUDO FOI REALIZADO PARA INVESTIGAR AS REAC¸O˜ES DE PACIENTES COM CAˆNCER A` RADIOTERAPIA. FORAM OBSER- VADAS MEDIDAS SOBRE 6 VARIA´VEIS DE REAC¸A˜O EM 98 PA- CIENTES: NU´MERO DE SINTOMAS, I´NDICE DE ATIVIDADE (NA ES- CALA 1-5), SONO (NA ESCALA 1-5), ALIMENTAC¸A˜O (NA ESCALA 1-3), APETITE (NA ESCALA 1-5) E REAC¸A˜O DERMATOLO´GICA (NA ESCALA 0-3). ⇒ DEVIDO A` DIFICULDADE DE INTERPRETAC¸A˜O DOS RESULTADOS OB- TIDOS SOBRE AS 6 VARIA´VEIS SIMULTANEAMENTE, UMA MEDIDA MAIS SIMPLES DA RESPOSTA DO PACIENTE PODE SER U´TIL. A ANA´LISE MUL- TIVARIADA FOI USADA PARA CONSTRUIR TAL MEDIDA MAIS SIMPLES DA RESPOSTA DO PACIENTE A` RADIOTERAPIA TAL QUE ESTA NOVA ME- DIDA CONTIVESSE O MA´XIMO POSS´IVEL DA INFORMAC¸A˜O AMOSTRAL DISPON´IVEL. ⇒ O OBJETIVO AQUI FOI O DE REDUC¸A˜O DE DADOS. (M2) RESPOSTAS PRODUZIDAS POR EST´IMULOS VISUAIS TAIS COMO SINAIS LUMINOSOS E PADRO˜ES, PODEM SER REGISTRADAS POR MEIO DE EQUIPAMENTO COMPUTACIONAL APROPRIADO. ES- TAS RESPOSTAS SA˜O REFERIDAS COMO PERFIL DA ANA´LISE COMPUTACIONAL VISUAL ELETROENCEFALOGRA´FICA DO INDI- V´IDUO (ACVE). EM UM ESTUDO ME´DICO SOBRE OS EFEITOS DA ESCLEROSE MU´LTIPLA NO SISTEMA VISUAL, A ANA´LISE MULTIVARIADA FOI USADA PARA VE- RIFICAR SE O USO DA ACVE E´ UM MEIO PRA´TICO E CONFIA´VEL PARA O DIAGNO´STICO DE PATOLOGIAS VISUAIS. ⇒ O OBJETIVO AQUI FOI DE ORDENAC¸A˜O OU CLASSIFICAC¸A˜O; ISTO E´, O DESENVOLVIMENTO DE UMA REGRA NUME´RICA PARA SEPARAR PESSOAS QUE SOFREM DE UMA ESCLEROSE MU´LTIPLA CAUSAND0 PA- TOLOGIAS VISUAIS DAQUELAS QUE NA˜O SOFREM A DOENC¸A. Exemplos de aplicac¸a˜o 5 Ana´lise Estat´ıstica Multivariada (M3) PESQUISAS SOBRE UMA BASE GENE´TICA PARA O ALCOOLISMO FORAM REALIZADAS DE VA´RIAS FORMAS. UM GRUPO DESCO- BRIU QUE A ATIVIDADE DE DUAS ENZIMAS - MONOAMINA OX- IDASE E ADENYLATE CYCLASE - PRODUZIDAS PELAS PLAQUE- TAS ERA SIGINIFICANTEMENTE REDUZIDA EM ALCOO´LATRAS. OS RESULTADOS DESSE ESTUDO MOSTRARAM-SE PROMISSO- RES PARA O DESENVOLVIMENTO DE UMA MEDIDA SIMPLES PA- RA A DETECC¸A˜O PRECOCE DO ALCOOLISMO. ⇒ AQUI O OBJETIVO FOI IDENTIFICAR E MEDIR VARIA´VEIS FISIOLO´- GICAS QUE PODERIAM SER USADAS EFETIVAMENTE PARA DISCRIMINAR ALCOO´LATRAS DE NA˜O-ALCOO´LATRAS. A´REA: SOCIOLOGIA (S1) TEORIAS SOCIOLO´GICAS CONCORRENTES SUGEREM QUE A ES- TRUTURA DE OCUPAC¸O˜ES AMERICANA E´ DETERMINADA FOR- TEMENTE POR UMA DIMENSA˜O SOCIOECONOMICA E POR OU- TRAS POUCAS DIMENSO˜ES MENOS IMPORTANTES; OU TREˆS DI- MENSO˜ES BEM DEFINIDAS CHAMADAS (1) REQUISITOS, (2) RO- TINAS E (3) RECOMPENSAS. MEDIDAS SOBRE 25 VARIA´VEIS PA- RA 583 OCUPAC¸O˜ES FORAM ANALISADAS USANDO-SE ME´TODOS MULTIVARIADOS DE FORMA A FORNECER SUPORTE PARA UMA DAS DUAS CORRENTES. ⇒ AQUI UM OBJETIVO INICIAL FOI A VERIFICAC¸A˜O DE HIPO´TESES; ISTO E´, AS OCUPAC¸O˜ES PODEM SER OLHADAS EM UMA U´NICA DIMENSA˜O OU EM TREˆS DIMENSO˜ES? Exemplos de aplicac¸a˜o 6 Ana´lise Estat´ıstica Multivariada (S2) EM UM ESTUDO DE MOBILIDADE DE 1970, CONTAGENS DO NU´- MERO DE PESSOAS RESIDENTES NOS ESTADOS UNIDOS COM NACIONALIDADE DIFERENTE DA AMERICANA E A SEGUNDA GE- RAC¸A˜O FORAM TABULADAS POR PA´IS DE ORIGEM E ESTADO DA RESIDEˆNCIA. ME´TODOS MULTIVARIADOS FORAM USADOS PARA AGRUPAR ESTADOS COM BASE NA DISTRIBUIC¸A˜O DE NACIONA- LIDADES. ⇒ AQUI O OBJETIVO FOI ENCONTRAR GRUPOS HOMOGEˆNEOS NATU- RAIS. A´REA: NEGO´CIOS E ECONOMIA (N1) MEDIDAS SOBRE SEIS VARIA´VEIS CONTA´BEIS E FINANCEIRAS FORAM USADAS NO DESENVOLVIMENTO DE UM MODELOMUL- TIVARIADO PARA AUXILIAR REGULADORES DE SEGUROS A IDEN- TIFICAR O RISCO DE SEGURADORAS POTENCIALMENTE INSOL- VENTES. USANDO O MODELO, UMA COMPANHIA SEGURADORA PODERIA SER CLASSIFICADA COMO SOLVENTE OU EM RISCO DE INSOLVEˆNCIA E PASSOS REMEDIADORES PODERIAM ENTA˜O SER TOMADOS PARA PREVENIR A FALEˆNCIA DA FIRMA EM SITUA- C¸A˜O DE RISCO. ⇒ AQUI O OBJETIVO FOI OBTER UMA REGRA DE CLASSIFICAC¸A˜O PARA DISTINGUIR FIRMAS SOLVENTES DE FIRMAS COM RISCO DE INSOLVEˆN- CIA. 7 Ana´lise Estat´ıstica Multivariada (N2) EXECUTIVOS DE ALTOS NEGO´CIOS SA˜O TOMADORES DE RISCO - SEU SUCESSO DEPENDE DE QUA˜O BEM ELES LIDAM COM O RISCO. MEDIDAS DE PROPENSA˜O AO RISCO FORAM RELACIO- NADAS A MEDIDAS DE CARACTER´ISTICAS SO´CIO-ECONOMICAS PARA UMA GRANDE AMOSTRA DE TAIS EXECUTIVOS. TOMADO- RES DE RISCO PUDERAM SER DIFERENCIADOS DE EXECUTIVOS AVESSOS AO RISCO: MAIS BEM SUCEDIDO, MAIS PROPENSO AO RISCO; MAIS EXPERIENTE, MAIS AVESSO AO RISCO. OS RESULTADOS FORAM USADOS PARA CONSTRUIR TEORIAS COM- PORTAMENTAIS SOBRE OS TOMADORES DE RISCO E MELHORAR MO- DELOS PREDITIVOS DE PERFORMANCE. ⇒ NESSE CASO, O OBJETIVO FOI ANALISAR AS RELAC¸O˜ES ENTRE PRO- PENSA˜O AO RISCO E CARACTER´ISTICAS SO´CIO-ECONOMICAS USANDO UM CONJUNTO DE FATORES DE RISCO E UM CONJUNTO, INDEPEN- DENTE, DE FATORES SO´CIO-ECONOMICOS. A´REA: EDUCAC¸A˜O (E1) ESCORES DE TESTES DE APTIDA˜O ESCOLAR E A PERFORMANCE ACADEˆMICA NO ENSINO ME´DIO SA˜O FREQUENTEMENTE USA- DOS COMO INDICADORES DA PERFORMANCE ACADEˆMICA NA UNIVERSIDADE. MEDIDAS SOBRE 5 VARIA´VEIS E APTIDA˜O ESCO- LAR E PERFORMANCE NO SEGUNDO GRAU (APTIDA˜O VERBAL E QUANTITATIVA, ME´DIAS AO FINAL DO PRIMEIRO E SEGUNDO ANOS E NU´MERO DE ATIVIDADES EXTRA-CURRICULARES) E 4 CRITE´RIOS DE PERFORMANCE NA UNIVERSIDADE (GRAUS EM 4 DISCIPLINAS CHAVES) FORAM USADOS PARA DETERMINAR A ASSOCIAC¸A˜O ENTRE AS VARIA´VEIS EXPLICATIVAS E OS CRITE´- RIOS DE PERFORMANCE. ⇒ AQUI O OBJETIVO FOI DE PREVISA˜O DA PERFORMANCE NA UNIVER- SIDADE BASEADO NUM CONJUNTO DE VARIA´VEIS EXPLICATIVAS. ESTE OBJETIVO PODE SER ESTENDIDO PARA A GERAC¸A˜O DE UMA REGRA DE CLASSFICAC¸A˜O DOS ESTUDANTES COMO APTOS OU NA˜O AO SUCESSO NA UNIVERSIDADE. 8 Ana´lise Estat´ıstica Multivariada A´REA: ESTUDOS AMBIENTAIS (EA1) AS CONCENTRAC¸O˜ES ATMOSFE´RICAS DE POLUENTES NO AR EM LOS ANGELES FORAM EXTENSIVAMENTE ESTUDADAS. EM UM ESTUDO, MEDIDAS DIA´RIAS SOBRE SETE VARIA´VEIS RELA- CIONADAS A` POLUIC¸A˜O NO AR FORAM REGISTRADAS SOBRE UM PER´IODO EXTENSO DE TEMPO. UM INTERESSE IMEDIATO FOI VERIFICAR SE OS N´IVEIS DE POLUIC¸A˜O ERAM GROSSEIRA- MENTE CONSTANTES POR TODA A SEMANA OU SE HAVIA AL- GUMA DIFERENC¸A ENTRE DIAS U´TEIS E FINAIS DE SEMANA. UM OUTRO OBJETIVO FOI VERIFICAR SE A MASSA DE DADOS DISPON´IVEL PODERIA SER SUMARIZADA DE FORMA A SER FA- CILMENTE INTERPRETA´VEL. ⇒ AQUI OS OBJETIVOS FORAM TESTAR HIPO´TESES E REDUC¸A˜O DE DADOS. ⇒ OUTRAS A´REAS POTENCIAIS DE APLICAC¸A˜O DE ME´TODOS MUL- TIVARIADOS: BIOLOGIA, METEOROLOGIA, GEOLOGIA, PSICOLOGIA, ES- PORTES, ETC. PARA MAIORES DETALHES VER O CAP´ITULO 1 DE JOHN- SON E WICHERN (1992). ⇒ OS EXEMPLOS APRESENTADOS FORNECEM VISLUMBRES DO USO DE ME´TODOS MULTIVARIADOS EM A´REAS BEM DIVERSIFICADAS. APESAR DE CONFIGURAC¸O˜ES DIFERENTES, MUITOS DOS PROBLEMAS APRE- SENTADOS SA˜O SIMILARES. A ANA´LISE MULTIVARIADA, COMO QUAL- QUER COLEC¸A˜O DE TE´CNICAS ESTAT´ISTICAS, NA˜O ESTA´ RESTRITA A UMA PARTICULAR A´REA DE CONHECIMENTO. ⇒ DESENVOLVIMENTOS RECENTES EM ANA´LISE MULTIVARIADA SA˜O RELACIONADOS A` MINERAC¸A˜O DE DADOS (DATA MINING) A QUAL ESTA´ VOLTADA PARA A EXTRAC¸A˜O DE INFORMAC¸A˜O DE CONJUNTOS DE DA- DOS MUITO GRANDES. 9 Ana´lise Estat´ıstica Multivariada ORGANIZAC¸A˜O DE DADOS ⇒ A MATE´RIA PRIMA A SER TRABALHADA AQUI E´ UM CONJUNTO DE DADOS MULTIVARIADOS, ISTO E´, VA´RIAS VARIA´VEIS SA˜O OBSERVADAS SOBRE DIVERSOS INDIV´IDUOS OU OBJETOS. NOSSO OBJETIVO SERA´ APRESENTAR UMA FORMA CONVENIENTE DE ORGANIZAR ESTES DA- DOS E DE REPRESENTA´-LOS GRAFICAMENTE. ⇒ SUPONHA QUE ESTEJAMOS DIANTE DE UM PROBLEMA EM QUE p VA- RIA´VEIS FORAM OBSERVADAS PARA UMA AMOSTRA DE n ELEMENTOS. ASSIM, A OBSERVAC¸A˜O PARA O i-E´SIMO ELEMENTO DA AMOSTRA SERA´ UM VETOR p-VARIADO DENOTADO POR x.i TAL QUE xT.i = (x1i, x2i, ..., xpi), i = 1, ..., n EM QUE xji REPRESENTA A j-E´SIMA OBSERVAC¸A˜O DO i-E´SIMO ELE- MENTO DA AMOSTRA, j = 1, ..., p. ⇒ A COLEC¸A˜O DE DADOS OBSERVADOS PODE SER REPRESENTADA POR MEIO DE UMA MATRIZ X DE DIMENSA˜O p× n COMO SEGUE X = x11 x12 ... x1n x21 x22 ... x2n ... ... ... ... xp1 xp2 ... xpn Organizac¸a˜o de dados 10 Ana´lise Estat´ıstica Multivariada ASSIM, AS LINHAS DA MATRIZ X REPRESENTAM AS p VARIA´VEIS MEDI- DAS E, AS COLUNAS, AS n UNIDADES AMOSTRAIS. PODEMOS REPRESENTAR A MATRIZ X ATRAVE´S DE SUAS LINHAS X = xT1. xT2. ... xTp. com xTj. = (xj1, xj2, ...xjn) as n observac¸o˜es da j-e´sima varia´vel, j = 1, ..., p. TAMBE´M PODEMOS REPRESENTAR A MATRIZ X ATRAVE´S DE SUAS COLUNAS. ADOTANDO AQUI A NOTAC¸A˜O x.i, i = 1, ..., n PARA DESIGNAR A i-E´SIMA COLUNA DE X, TEMOS X = [x.1 ... x.n ] EM QUE CADA x.i E´ UM VETOR p× 1, i = 1, ..., n. EXEMPLO 1: UMA SELEC¸A˜O DE 4 NOTAS FISCAIS DE UMA LIVRARIA UNIVER- SITA´RIA FOI OBTIDA DE MODO A INVESTIGAR A NATUREZA DAS VEN- DAS. CADA NOTA FORNECEU O NU´MERO DE LIVROS VENDIDOS E O VALOR TOTAL DA VENDA (EM DO´LARES). OBTEVE-SE A SEGUINTE MA- TRIZ DE DADOS, NA QUAL A PRIMEIRA LINHA INDICA O NU´MERO DE LIVROS VENDIDOS E, A SEGUNDA, O VALOR DA VENDA. X = [ 4 5 4 3 42 52 48 58 ] ⇒ A REPRESENTAC¸A˜O DOS DADOS DESTA FORMA PERMITE O CA´LCULO DE QUANTIDADES NUME´RICAS DE INTERESSE DE FORMA EFICIENTE E FA´CIL. Organizac¸a˜o de dados 11 Ana´lise Estat´ıstica Multivariada ESTAT´ISTICAS DESCRITIVAS (1) A ME´DIA AMOSTRAL PARA A j-E´SIMA VARIA´VEL OBSERVADA PODE SER REPRESENTADA COMO x¯j. = 1 n n∑ i=1 xji, j = 1, ..., p ASSIM, PODEMOS DEFINIR O VETOR DE ME´DIAS AMOSTRAL x¯ COMO x¯1.... x¯p. ⇒ ALGEBRICAMENTE, x¯ = 1 n X1 EM QUE 1 REPRESENTA UM VETOR n×1 CUJOS ELEMENTOS SA˜O TODOS IGUAIS A 1. (2) UMA MEDIDA DE DISPERSA˜O PARA A j-E´SIMA VARIA´VEL E´ DADA PELA VARIAˆNCIA AMOSTRAL sjj = 1 n− 1 n∑ i=1 (xji − x¯j.)2, j = 1, ..., p Organizac¸a˜o de dados 12 Ana´lise Estat´ıstica Multivariada ⇒ OBSERVE QUE COMO HA´ p VARIA´VEIS TAMBE´M FAZ SENTIDO ES- TUDAR A VARIABILIDADE ENTRE PARES DE VARIA´VEIS DADA PELA CO- VARIAˆNCIA AMOSTRAL. A COVARIAˆNCIA AMOSTRAL ENTRE A j-E´SIMA E A r-E´SIMA VARIA´VEL E´ DADA POR sjr = 1 n− 1 n∑ i=1 (xji − x¯j.)(xri − x¯r.), j, r = 1, ..., p j 6= r PODEMOS ENTA˜O REPRESENTAR DE FORMA ORGANIZADA AS INFOR- MAC¸O˜ES SOBRE VARIABILIDADE ATRAVE´S DE UMA MATRIZ CHAMADA MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA DADA POR S = s11 s12 ... s1p s21 s22 ... s2p ... ... ... ... sp1 sp2 ... spp ⇒ OBSERVE QUA A MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA E´ UMA MATRIZ SIME´TRICA TAL QUE ST = S. ALGEBRICAMENTE, PODEMOS ESCREVER A MATRIZ DE DADOS COR- RIGIDA PELA ME´DIA NA FORMA X − x¯1T E, A MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA, NA FORMA S = 1 n− 1 ( X − x¯1T ) (X − x¯1T )T Organizac¸a˜o de dados 13 ⇒ PODEMOS TAMBE´M DEFINIR A MATRIZ DE CORRELAC¸A˜O AMOSTRAL R CUJOS ELEMENTOS rjk SA˜O DADOS POR rjk = sjk√ sjjskk ,. R = 1 r12 ... r1p r21 1 ... r2p ... ... ... ... rp1 rp2 ... 1 ⇒ OBSERVE QUA A MATRIZ DE CORRELAC¸A˜O E´ TAMBE´M UMA MATRIZ SIME´TRICA TAL QUE RT = R. ALGEBRICAMENTE, A MATRIZ DE CORRELAc¸A˜O PODE SER ESCRITA NA FORMA R = 1 n− 1 [ ∆−1/2 ( X − x¯1T )] [∆−1/2 (X − x¯1T ))]T COM ∆−1/2 = diag{s−1/211 , s−1/222 , ..., s−1/2pp } MATRIZ DIAGONAL DE ORDEM p POR p. OBSERVE QUE PODEMOS RELACIONAR ALGEBRICAMENTE AS MA- TRIZES S E R TAL QUE S = ∆1/2R∆1/2 R = ∆−1/2S∆−1/2 COM ∆1/2 = diag{s1/211 , s1/222 , ..., s1/2pp }. Organizac¸a˜o de dados 14 Ana´lise Estat´ıstica Multivariada ⇒ EM MUITAS APLICAC¸O˜ES AS SOMAS DOS DESVIOS QUADRADOS DA ME´DIA E DOS PRODUTOS CRUZADOS DE TAIS DESVIOS SA˜O UTILIZA- DAS. ADOTAREMOS AQUI A NOTAC¸A˜O: Wjj = n∑ i=1 (xij − x¯j)2, j = 1, ..., p Wjr = n∑ i=1 (xij − x¯j)(xir − x¯r), j, r = 1, ..., p j 6= p ASSIM DEFINIMOSA MATRIZ W DE SOMAS DOS DESVIOS QUADRADOS DA ME´DIA E PRODUTOS CRUZADOS DOS DESVIOS DA ME´DIA W = W11 W12 ... W1p... ... ... ... Wp1 Wp2 ... Wpp = (X − x¯1T ) (X − x¯1T )T EXEMPLO 1: (CONTINUAC¸A˜O) DETERMINE O VETOR DE ME´DIAS E AS MATRIZES S E R PARA OS DADOS DO EXEMPLO 1 USANDO O R. Organizac¸a˜o de dados 15 1) Definindo as dimenso˜es: p=2 n=4 2) Entrando com os valores da matriz X : X = matrix(0, p, n) X[1, ] = c(4, 5, 4, 3) X[2, ] = c(42, 52, 48, 58) 3) Definindo o vetor unita´rio 1: vet1=matrix(1,n,1) 4) Calculando o vetor de me´dias: vetmedia = (X% ∗%vet1)/n 5) Calculando da matriz Delta1/2: deltameio=matrix(0,2,2) deltameio[1,1]=sqrt(var(X[1,])) deltameio[2,2]=sqrt(var(X[2,])) 6) Calculando a matriz de dados corrigida pela me´dia (XC) XC=X-vetmedia%*%t(vet1) 7) Calculando a matriz de somas de quadrados e produtos cruzados corrigida pela me´dia W=XC%*%t(XC) 8) Calculando a matriz de Variaˆncia: S=W/(n-1) 9) Invertendo a matriz deltameio: Ideltameio-solve(deltameio) 10) Calculando a matriz de correlac¸a˜o: R=Ideltameio%S%*%Ideltameio vetmedia: 4 50 S: 0.67 -2.00 -2.00 45.33 R: 1.000 -0.364 -0.364 1.000 Usando as func¸o˜es do R: mean(X[1,]), mean(X[2,]) var(t(X)) cor(t(X)) Organizac¸a˜o de dados 16 Ana´lise Estat´ıstica Multivariada REPRESENTAC¸A˜O GRA´FICA ⇒ EMBORA NA˜O SEJA POSS´IVEL REPRESENTAR SIMULTANEAMENTE MAIS DE TREˆS VARIA´VEIS EM UM GRA´FICO BIDIMENSIONAL, PODEMOS UTILIZAR GRA´FICOS DE DISPERSA˜O PARA AS VARIA´VEIS INDIVIDUAIS (DIAGRAMA DE PONTOS) E DUAS A DUAS (DIAGRAMA DE DISPERSO). TAIS GRA´FICOS PODEM SER BASTANTE INFORMATIVOS. A MAIOR PARTE DAS TE´CNICAS MULTIVARIADAS BASEIA-SE NO SIM- PLES CONCEITO DE DISTAˆNCIA. ⇒ ESTAMOS HABITUADOS A DISTAˆNCIA USUAL CHAMADA DISTAˆNCIA EUCLIDEANA, TAL QUE SE P (x1, x2, ..., xp) e Q(y1, y2, ..., yp) SA˜O DOIS PON- TOS EM <p, A DISTAˆNCIA ENTRE P E Q E´ DADA POR d(P,Q) = √ (x1 − y1)2 + (x2 − y2)2 + ...+ (xp − yp)2 ⇒ PORE´M, A DISTAˆNCIA EUCLIDEANA PODE NA˜O SER ADEQUADA EM MUITOS PROBLEMAS, DEPENDENDO DA NATUREZA DAS VARIA´VEIS EN- VOLVIDAS. ⇒ ISTO OCORRE DEVIDO AO FATO DE QUE NA DISTAˆNCIA EUCLIDEANA CADA COORDENADA CONTRIBUI IGUALMENTE PARA O CA´LCULO DA MESMA. QUANDO AS COORDENADAS REPRESENTAM MEDIC¸O˜ES QUE SA˜O SUJEITAS A` FLUTUAC¸O˜ES ALEATO´RIAS DE MAGNITUDES DIFEREN- TES, E´ FREQUENTEMENTE DESEJA´VEL PONDERAR COORDENADAS SU- JEITAS A` MAIOR VARIABILIDADE COM UM PESO MENOR DO QUE A`QUE- LAS SUJEITAS A UMA MENOR VARIABILIDADE. ⇒ ISTO SUGERE UMA NOVA MEDIDA DE DISTAˆNCIA. Distaˆncia 17 Ana´lise Estat´ıstica Multivariada ⇒ DESEJA-SE QUE ESTA NOVA MEDIDA DE DISTAˆNCIA LEVE EM CONTA AS DIFERENC¸AS EM VARIABILIDADE ENTRE AS DIVERSAS VARIA´VEIS INCLU´IDAS NA ANA´LISE E, TAMBE´M, A PRESENC¸A DE CORRELAC¸A˜O ENTRE OS PARES DE VARIA´VEIS. ESTE SERA´ O TIPO DE DISTAˆNCIA FUNDAMENTAL EM ANA´LISE MULTIVARIADA. ⇒ SUPONHA PRIMEIRO UM CONJUNTO DE p VARIA´VEIS NA˜O CORRELA- CIONADAS, COM VARIAˆNCIAS DISTINTAS. ASSIM, DE FORMA A EQUI- LIBRAR A CONTRIBUIC¸A˜O DAS DIVERSAS VARIA´VEIS AO CA´LCULO DA DISTAˆNCIA PODEMOS PONDERA´-LAS DE FORMA INVERSAMENTE PRO- PORCIONAL AOS SEUS DESVIOS-PADRA˜O DEFININDO x∗j = xj√ sjj E AGORA, CALCULANDO A DISTAˆNCIA “EUCLIDEANA” ENTRE ESTAS VARIA´VEIS TRANSFORMADAS. de(P,Q) = √ (x− y)′D−1(x− y) EM QUE D E´ A MATRIZ DIAGONAL CUJOS ELEMENTOS SA˜O s11, ..., spp, x′ = (x1, ..., xp) E y′ = (y1, ..., yp). ⇒ UMA MEDIDA DE DISTAˆNCIA QUE TAMBE´M LEVA EM CONTA AS CO- VARIAˆNCIAS ENTRE AS VARIA´VEIS E´ DADA POR de(P,Q) = √ (x− y)′S−1(x− y) EM QUE S E´ MATRIZ DE VARIAˆNCIA-COVARIAˆNCIA. Exerc´ıcios sugeridos do Cap´ıtulo 1: 1 a 7, 14 a 18. Distaˆncia 18
Compartilhar