Ana´lise de dados longitudinais Versa˜o parcial preliminar marc¸o 2012 Julio M. Singer Juveˆncio S. Nobre Francisco Marcelo M. Rocha Departamento de Estat´ıstica Universidade de Sa˜o Paulo Caixa Postal 66281 Sa˜o Paulo, SP 05314-970 Brasil Conteu´do 1 Introduc¸a˜o 1 1.1 Conceitos ba´sicos . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3 Ana´lise descritiva e medidas resumo . . . . . . . . . . . . 25 1.3.1 Ana´lise do comportamento de perfis . . . . . . . . 31 1.3.2 Ana´lise de desfecho . . . . . . . . . . . . . . . . . 33 1.3.3 Ana´lise da a´rea sob curvas . . . . . . . . . . . . . 35 1.3.4 Ana´lise da distaˆncia entre curvas . . . . . . . . . 37 2 Modelos lineares para dados gaussianos 39 2.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2 Modelos para a estrutura de covariaˆncia . . . . . . . . . 41 2.3 Infereˆncia por ma´xima verossimilhanc¸a . . . . . . . . . . 45 2.4 Soluc¸a˜o das equac¸o˜es de estimac¸a˜o . . . . . . . . . . . . 56 2.5 Estrate´gias de ana´lise . . . . . . . . . . . . . . . . . . . . 65 2.6 Diagno´stico . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.7 Notas de cap´ıtulo . . . . . . . . . . . . . . . . . . . . . . 67 2.8 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3 Modelos para dados na˜o gaussianos 69 3.1 Modelos lineares generalizados para dados longitudinais . 69 3.2 Modelos para dados categorizados . . . . . . . . . . . . . 69 3.3 Modelos na˜o-parame´tricos para ana´lise de perfis . . . . . 69 CONTEU´DO CONTEU´DO 4 To´picos especiais 71 4.1 Dados omissos . . . . . . . . . . . . . . . . . . . . . . . . 71 4.2 Planejamento e tamanho de amostras . . . . . . . . . . . 71 4.3 Modelos na˜o-lineares . . . . . . . . . . . . . . . . . . . . 71 5 Ana´lise de dados 73 5.1 Estudos pre´-teste/po´s-teste . . . . . . . . . . . . . . . . . 73 5.2 Ana´lise de perfis . . . . . . . . . . . . . . . . . . . . . . . 89 A Matrizes e espac¸os vetoriais 105 A.1 Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 A.1.1 Operac¸o˜es ba´sicas . . . . . . . . . . . . . . . . . . 106 A.1.2 Tipos especiais de matrizes . . . . . . . . . . . . . 108 A.1.3 Submatrizes e matrizes particionadas . . . . . . . 110 A.1.4 Independeˆncia linear e espac¸o-coluna . . . . . . . 111 A.1.5 Determinante de uma matriz . . . . . . . . . . . . 112 A.1.6 Inversa˜o de matrizes . . . . . . . . . . . . . . . . 113 A.1.7 Trac¸o de uma matriz . . . . . . . . . . . . . . . . 115 A.1.8 Soma direta e produto de Kronecker . . . . . . . 116 A.1.9 Operadores vec e vech . . . . . . . . . . . . . . . 118 A.2 To´picos de A´lgebra Linear . . . . . . . . . . . . . . . . . 119 A.3 Formas lineares, bilineares e quadra´ticas . . . . . . . . . 125 A.4 Decomposic¸a˜o de matrizes . . . . . . . . . . . . . . . . . 127 A.5 Derivadas de vetores e matrizes . . . . . . . . . . . . . . 128 A.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . 138 B Regressa˜o 143 B.1 Introduc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . 143 B.2 Me´todo de mı´nimos quadrados . . . . . . . . . . . . . . . 155 B.3 Me´todo de ma´xima verossimilhanc¸a . . . . . . . . . . . . 161 B.4 Partic¸a˜o da soma de quadrados . . . . . . . . . . . . . . 162 Singer & Nobre & Rocha - marc¸o/2012 CONTEU´DO CONTEU´DO B.5 Diagno´stico . . . . . . . . . . . . . . . . . . . . . . . . . 163 B.5.1 Ana´lise de Res´ıduos . . . . . . . . . . . . . . . . . 165 B.5.2 Ana´lise da suposic¸a˜o de normalidade . . . . . . . 169 B.5.3 Ana´lise de sensibilidade . . . . . . . . . . . . . . 173 B.5.4 Ana´lise da suposic¸a˜o de correlac¸a˜o nula . . . . . . 181 B.6 Parametrizac¸a˜o de modelos lineares . . . . . . . . . . . . 192 B.7 Regressa˜o log´ıstica . . . . . . . . . . . . . . . . . . . . . 197 B.8 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Bibliografia 209 Singer & Nobre & Rocha - marc¸o/2012 Cap´ıtulo 1 Introduc¸a˜o Neste cap´ıtulo caracterizamos estudos com estrutura longitudinal con- trastando-os com outros tipos, identificamos os conceitos que permeiam essa modalidade de investigac¸a˜o, introduzimos uma notac¸a˜o apropriada para a descric¸a˜o dos dados coletados sob esse molde, descrevemos diversos exemplos, identificando suas peculiaridades dentro desse contexto e final- mente consideramos alguns me´todos ba´sicos para sua ana´lise. Mais es- pecificamente, na Sec¸a˜o 1.1 ocupamo-nos da mencionada caracterizac¸a˜o, salientando a dependeˆncia entre as observac¸o˜es que distingue esse tipo de estudo e damos os primeiros passos no estabelecimento da notac¸a˜o empregada no texto. Na Sec¸a˜o 1.2 descrevemos um conjunto de exem- plos com complexidade crehbtpscente, apontando suas particularidades e relacionando-as com os conceitos descritos na sec¸a˜o anterior. Finalmente na Sec¸a˜o 1.3, apresentamos algumas te´cnicas simples para a descric¸a˜o e ana´lise de dados longitudinais. 1.1 Conceitos ba´sicos Em muitas situac¸o˜es pra´ticas, ha´ interesse em modelar o comportamento de uma ou mais varia´veis respostas medidas nas unidades de uma ou mais populac¸o˜es ao longo de alguma dimensa˜o ordenada. Um exemplo simples envolve a modelagem da variac¸a˜o dia´ria da pressa˜o sangu´ınea de indiv´ıduos normais ou hipertensos durante um certo per´ıodo. Num campo diferente, um estudo cujo objetivo e´ estimar as concentrac¸o˜es de part´ıculas em suspensa˜o a diferentes distaˆncias de uma fonte poluidora 2 1.1 CONCEITOS BA´SICOS constitui um segundo exemplo. Com objetivo simplificador, referir-nos- emos a essa escala ordenada ao longo da qual se fazem as medidas repeti- das como tempo. Embora o caso geral possa envolver mu´ltiplas varia´veis respostas, concentraremos nossa atenc¸a˜o no caso univariado. Neste contexto, podemos identificar duas grandes estrate´gias para co- leta de dados. A primeira envolve uma u´nica observac¸a˜o (realizada num instante especificado) da varia´vel resposta para cada elemento (pacien- tes, por exemplo) de uma amostra de cada populac¸a˜o de interesse (de indiv´ıduos normais ou hipertensos, por exemplo). A segunda estrate´gia envolve duas ou mais observac¸o˜es (realizadas em instantes diferentes) da varia´vel resposta em cada unidade amostral sob investigac¸a˜o. No pri- meiro caso, dizemos que o estudo tem um planejamento transversal e no segundo, referimo-nos ao planejamento como longitudinal. Em Bi- oestat´ıstica, esta u´ltima forma de coleta de dados tambe´m e´ conhecida como coorte ao passo que em outros campos do conhecimento, como Sociologia, Economia ou Administrac¸a˜o, ela e´ cognominada painel. Conve´m esclarecer que os problemas nos quais temos interesse di- ferem daqueles usualmente conhecidos sob a denominac¸a˜o de se´ries de tempo ou se´ries cronolo´gicas na medida em que nestes, em geral, uma u´nica unidade amostral e´ avaliada em muitos (200 ou mais, por exemplo) instantes enquanto que naqueles, va´rias (5 ou mais, por exemplo) unida- des amostrais sa˜o observadas em poucas (2 a 20, por exemplo) ocasio˜es. Para contrastar os dois tipos de estudo podemos considerar de um lado, a investigac¸a˜o sobre o regime dia´rio de chuvas numa determinada regia˜o nos u´ltimos 50 anos e de outro, a pesquisa sobre os padro˜es mensais de crescimento de rece´m-nascidos no primeiro ano de vida. Leitores inte- ressados em ana´lise de se´ries cronolo´gicas podem consultar Morettin & Toloi (2006), entre outros. Estudos longitudinais constituem um caso especial daqueles conheci- dos sob a denominac¸a˜o de medidas repetidas, que englobam os pla- nejamentos do tipo split-plot e com intercaˆmbio (crossover). Planeja- mento do tipo split-plot envolvem dois fatores; as unidades experimen- tais (whole-plots)