Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise comparativa dos algoritmos EM e SIMEX nos modelos lineares mistos aplicados ao análise de regressão com erros nas variáveis Arturo Alejandro Zavala Zavala DISERTAÇÃO APRESENTADA AO INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DA UNIVERSIDADE DE SÃO PAULO PARA OBTENÇÃO DO GRAU DE MESTRE EM ESTATISTICA Área de Concentração: Estatística Orientador: Prof. Dr. Heleno Bolfarine Este trabalho foi financiado por a FAPESP Processo: 99/07656-0 - São Paulo, Fevereiro do 2001 – Este exemplar corresponde à redação final da dissertação devidamente corrigida e defendida por Arturo Alejandro Zavala Zavala e aprovada pela comissão julgadora. São Paulo, Fevereiro 2001. Banca Examinadora: - Prof. Dr. Heleno Bolfarine (Orientador) – IME – USP. - Prof. Dra. Silvia Nagib Elian – IME – USP. - Prof. Dr. Filidor Vilca Labra – IME – UNICAMP. Esta dissertação é dedicada a: A Deus por permitir-me a oportunidade de conhecer ao povo brasileiro e poder estudar na USP. A meus queridos pais, Adalberto e Zoraida e meu irmão, Oscar, com gratidão. A minha esposa Carla por sua companhia e compreensão. A minha filha Gabriela por ser o meu motivo de viver. Dedico com carinho e amor. AGRADECIMENTOS · A meu Orientador professor Dr. Heleno Bolfarine pela orientação no meu trabalho, pelo aporte tanto profissional como humana que me deixa. · Ao Professor Dr. Fabio Prates Machado e sua esposa por sua amizade sem eles não estivera estudando neste pais. · A meus amigos Vicente e Gladys pela força e amizade que sempre superam oferecer. · A minha turma do mestrado 1999, Fabio, Edivaldo, Josué, Cecília, Claudia, Gissela, Alberto os quais incentivaram nesta caminhada. · A todos meus professores do IME muito obrigado pelas aulas e pela amizade. · Ao pessoal Administrativo do IME pela ajuda. · A FAPESP pelo apoio financeiro ao presente trabalho. Resumo O objetivo deste trabalho é apresentar a eficiência dos estimadores quando são usados os algoritmos SIMEX e EM nos modelos de regressão lineares mistos com erros nas variáveis, numa primeira etapa apresentamos o análise do algoritmo SIMEX num modelo de regressão simples com a finalidade de ver seus vantagens, numa segunda etapa apresentamos o modelos de regressão linear misto sem erros nas variáveis com a finalidade de observar seus estimadores, numa terceira etapa consideramos os algoritmos SIMEX e EM num modelo de regressão linear misto com erros nas variáveis, observando os estimadores obtidos e comparando-los com aqueles obtidos no modelo de regressão linear misto sem erros nas variáveis, com a finalidade de ver se os estimadores obtidos com os dois algoritmos são razoáveis, fazendo também uma comparação entre os estimadores obtidos por ambos algoritmos. Os programas foram feitos no pacote OX para a obtenção das estimativas dos algoritmos propostos. Abstract The objective in this work is show efficient this estimators when use the algorithms SIMEX and EM in linear mixed measurement error models, in the first part showing the algorithm SIMEX in structural measurement error models, in the second part showing linear mixed without measurement error models with finality see this estimators, in the third part propose this algorithms SIMEX and EM in linear mixed measurement error model with finality see this estimators and compare with estimators without measurement error and also compare between algorithms. This programs was make in software Ox for obtain this algorithms estimators. Índice 1. Introdução ........................................ 1 2. O algoritmo SIMEX no modelo de regressão linear simples com erros nas variáveis ........................... 6 2.1 Introdução ................................... 6 2.2 O problema no modelo de regressão linear simples com erros nas variáveis (ENV) ................ 7 2.3 Descrição do Algoritmo SIMEX ................. 10 2.4 Estudo da distribuição Assintótica do estimador SIMEX ........................................ 16 2.5 Avaliação do algoritmo SIMEX ................. 29 3. Modelos Lineares Mistos. Sem erros nas variáveis .. 36 3.1 Introdução ................................... 36 3.2 Obtenção dos estimadores fazendo uso da distribuição marginal de Y ................... 38 3.3 Obtenção dos estimadores fazendo uso da distribuição conjunta de Y e a ............... 45 3.4 Teste de Hipóteses ........................... 50 3.5 Um estudo de Simulação ....................... 51 4. Estudo do viés nos modelos mistos com erros nas variáveis ......................................... 63 4.1 Introdução ................................... 63 4.2 O problema do viés ........................... 64 4.3 Algoritmo EM no modelo misto com erros nas variáveis. O modelo de Berkson ............... 68 4.4 Algoritmo SIMEX no modelo misto com erros nas variáveis .................................... 71 4.5 Aplicação dos métodos apresentados ........... 73 4.6 Algumas considerações finais ................. 88 5. Apêndice .......................................... 89 6. Referências Bibliográficas ........................ 109 Capítulo 1 Introdução. Ao avaliar a correlação num conjunto de dados pode-se cometer outro tipo de erro diferente do erro usual de planejamento. Este erro tem uma peculiaridade de estar ligado diretamente a uma determinada variável. Por exemplo, Fuller (1987) apresenta um exercício onde se tem interesse em avaliar o rendimento da produção de um certo cereal (Y) em função da verdadeira porcentagem de Nitrogênio no solo (X). Para isso precisamos recolher uma amostra do solo e levá-la a um laboratório para que seja analisada, mas ainda com uma excelente precisão na medição é impossível o verdadeiro valor porcentual do nitrogênio no solo. Pode-se então concluir que existem vários erros de medição associados a este simples exemplo, onde um deles pode estar ligado ao fato de que a amostra obtida não seja a mais representativa por diversas causas; outra pode existir um erro nas medições no laboratório, e assim outras considerações. Na realidade o que se está fazendo é estimar a verdadeira porcentagem de nitrogênio (X) através da quantidade observada (W) (estimação 2 no laboratório), de modo que o verdadeiro valor nunca poderá ser conhecido. Surge então a necessidade de avaliar as variáveis Y e W cada uma com seus respectivos erros, o que nos leva a considerar o seguinte modelo com erros nas variáveis: uXW XfY += += e)( No modelo acima, temos que Y é a variável resposta, X é o verdadeiro valor da variável regressora (não observada), )(Xf é uma função de X e b , e o erro devido a Y , W o valor estimado de X e u o erro devido à estimação do X . Uma suposição que pode ser adicionada ao modelo acima é que e e u sejam independentes com a finalidade de tornar mais simplesa sua manipulação. Contudo, é possível considerar situações mais gerais, sem a suposição de independência. Se )(Xf é uma equação de regressão, as conseqüências da estimação dos parâmetros de )(Xf sem levar em conta os erros de medição são que os estimadores obtidos são viciados (mesmo assintóticamente, ou seja, não consistentes) e portanto as predições obtidas a partir do modelo estimado não são nada confiáveis. Uma alternativa para corrigir o viés é através de métodos que possam eliminar o efeito de u no modelo. Tal é o caso quando se considera o modelo de Berkson, que permite combinar as duas equações das acima em uma única equação e a partir daí utilizar procedimentos que não levam em conta erros nas variáveis. Mas em geral, a obtenção de estimadores 3 consistentes não é simples e depende da forma de )(Xf e da estrutura estocástica que envolve as variáveis u e e . Uma forma de se controlar o problema é substituir X por W e trabalhar com a equação de estimação resultante para que se possa verificar qual o viés associado com o procedimento sem erros nas variáveis, usualmente denominado procedimento “ingênuo” (“naive” em inglês). Com a determinação do viés do estimador usual, pode-se tentar corrigir os estimadores para a obtenção da consistência através do método de Simulação e Extrapolação (SIMEX) como proposto por Cook e Stefanski (1995), que argumentam ser este um método estritamente computacional. O problema da estimação se torna ainda mais complexo quando )(Xf é uma equação de regressão com uma mistura de efeitos, isto é, podemos ter um conjunto de efeitos fixos e um conjunto de efeitos aleatórios, de modo que )(Xf pode ser representada como: ~~~~ )~( aZXXf += b . Na equação acima, ~ b é um vetor de efeitos fixos de dimensão p e ~a é um vetor de efeitos aleatórios de dimensão s e ~X e ~Z são as matrizes de planejamento associados aos efeitos fixos e aleatórios, respectivamente. 4 O objetivo dos modelos mistos é introduzir através de efeitos aleatórios, dependências entre observações obtidas de um mesmo indivíduo (ou de indivíduos com alguma similaridade). Nestes modelos, o objetivo principal é fazer inferência sobre os parâmetros fixos. Os parâmetros de não interesse são chamados parâmetros “nuisance” posto que é o resultado de um processo onde o pesquisador não tem interesse direto de seu estudo. Contudo, em algumas situações pode ser de interesse avaliar (estimar) a similaridade nos indivíduos através dos efeitos aleatórios. Neste estudo considera-se o método desenvolvido por Henderson, denominado Equações de Henderson para os modelos lineares Mistos (HMME), como destacado em Searle, Casella e McCulloch (1992). O objetivo deste trabalho é fazer um estudo dos estimadores obtidos a partir do algoritmo SIMEX nos modelos lineares mistos com erros nas variáveis e comparar com o estimador obtido a partir do algoritmo EM quando é usado o modelo de Berkson em seu estudo, estando este ultimo processo de estimação livre de viés devido ao uso do modelo de Berkson. Para atingir o objetivo, o trabalho é organizado em 4 capítulos. No Capítulo 2, apresentaremos um estudo do algoritmo SIMEX no modelo de regressão simples com erros nas variáveis com base à publicação feita por Carroll, et al. (1996) com a finalidade de avaliar vantagens e desvantagens que ele tem, 5 analisando as propriedades assintóticas do estimador SIMEX tanto na parte de Simulação como na parte de Extrapolação. No Capítulo 3, é feito um estudo de dois modos de estimação para os modelos lineares mistos, sendo uma proposta por Henderson (1959) onde ele obtém os estimadores “BLUE” (Best Linear Unbiesed Estimators) e “BLUP” (Best Linear Unbiesed Preditor) simultaneamente e a outra usando o algoritmo Fisher Scoring onde só obtemos os estimadores “BLUE”. A comparação entre procedimentos também é apresentada. No Capitulo 4, é feito um estudo do viés do modelo linear misto com erros nas variáveis que é obtido a partir da utilização dos estimadores “naives”, considerados com a finalidade de fazer correções usando os algoritmos SIMEX e EM. Capítulo 2 O algoritmo SIMEX no modelo de regressão linear simples com erros nas variáveis. 2.1 Introdução. O algoritmo SIMEX foi desenvolvido por Cook e Stefanski (1995), com a finalidade de obter a consistência de estimadores de tipo "naive", que usualmente ocorrem quando se avalia um modelo de regressão com erros nas variaveis medidos aditivamente. Neste estudo apresentamos uma revisão geral do método SIMEX ao avaliar o modelo de regressão linear simples, tendo como objetivo principal mostrar procedimentos de cálculo do SIMEX que serão usadas no Capítulo 4. Na Seção 2.2 apresenta- se o problema no modelo de regressão linear simples. Na seção 2.3 faz-se uma descrição do Algoritmo SIMEX. Na seção 2.4 faz- se um estudo da distribuição assintótica de 1 Ù b obtido através do algoritmo com a finalidade de se obter as estimativas das variâncias assintóticas. Na seção 2.5 apresenta-se uma aplicação do Algoritmo SIMEX. 7 2.2 O Problema no modelo de regressão linear simples com erros nas variáveis (ENV). O modelo de regressão linear simples sem erros nas variáveis é usualmente definido por: niparaeXY iii ,...,110 =++= bb . Uma suposição importante para o estudo do modelo acima, estabelece que 0)( =ieE e que: î í ì ¹ = = ji ji eeCov eji 0 ),( 2s . Sabemos que o estimador de Mínimos Quadrados (M.Q.) no modelo de regressão linear simples acima é definido pela seguinte expressão: å å = = Ù - -- = n i i n i ii MQ XX XXYY 1 2 1 1 )( ))(( b . ...(2.1) Este estimador é consistente e de variância mínima na classe de estimadores de Gauss Markov, sendo útil nas predições e interpolações ou extrapolações. O modelo de regressão linear simples pode ser ampliado de forma aditiva para se considerar erros nas variáveis, isto é: niuXW eXY iii iii ,...,1, 10 =+= ++= bb . Dependendo do comportamento de iX , o modelo pode ser considerado funcional se os iX não tem uma distribuição que o caracterize, sendo cada valor de iX um parâmetro (denominado 8 incidental) do modelo. No caso que iX se distribue com média Xm e variância 2 Xs o modelo é chamado estrutural. Temos que adicionar suposições sobre as distribuições dos erros envolvidos. Considerando o modelo estrutural onde iX é aleatório, podemos supor: niN X u e X u e Xi i i ,,1, 00 00 00 ,0 0 ~ 2 2 2 3 L= ú ú ú û ù ê ê ê ë é ÷ ÷ ÷ ø ö ç ç ç è æ ÷ ÷ ÷ ø ö ç ç ç è æ ÷ ÷ ÷ ø ö ç ç ç è æ s s s m . Como conseqüência, pode-se obter a distribuição conjunta de iY e iW , que pode ser escrita como: niN W Y uXX XeX X X i i ,,1,,~ 222 1 2 1 222 110 2 L= ú ú û ù ê ê ë é ÷÷ ø ö çç è æ + + ÷÷ ø ö çç è æ + ÷÷ ø ö çç è æ sssb sbssb m mbb . ...(2.2) Se o pesquisador em sua análise não considera erro nas variáveis regressoras )(X e toma em consideração o estimador de mínimos quadrados, este estimador sob este novo modelo não é consistente, e portanto apresenta viés como estimador de b . O viés persistemesmo em grandes amostras, ou seja, o estimador de mínimos quadrados não é consistente. O que ocorre é que a variância do estimador MQ Ù b converge a zero quando ¥®n e como ele é inconsistente, um intervalo de confiança baseado em MQ Ù b por exemplo pode não cobrir b , especialmente quando não é grande. Ou seja, podemos ter a situação ilustrada abaixo: 9 O intervalo não cobre o parâmetro b . Obtenção do viés Considerando o modelo estrutural, podemos obter o viés da distribuição condicional de Y dado W apresentado na equação (2.2), ou seja, ( )( ) ú ú û ù ê ê ë é ÷ ÷ ø ö ç ç è æ ÷÷ ø ö çç è æ -÷÷ ø ö çç è æ -+ )()( )),(( 1)(;)( )( ),( )(~| 2 ii ii ii i ii iii WVarYVar WYCov YVarWW WVar WYCov YENWY , que pode ser reescrita, após as substituições necessárias como: ( ) ( ) ( ) ( )( ) .222221 22 1222 122 2 1 10 )( 1;)(~| ú ú û ù ê ê ë é ÷ ÷ ø ö ç ç è æ ÷÷ ø ö çç è æ ++ -+÷÷ ø ö çç è æ - + ++ uXeX X eXi uX X Xii WWNWY ssssb sb ssb ss sb mbb Portanto, o valor esperado da expressão (2.1), quando é considerado o erro nas variáveis é: ( ) ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ - -- =÷ ø ö ç è æ å å = = Ù n i i n i iii MQ WW WYYEWW EE 1 2 1 1 )( |)()( b , ou seja, 0 bLInf LSup 10 ( ) ( )( ) ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç è æ - ÷ ÷ ø ö ç ç è æ + - ++- =÷ ø ö ç è æ å å = =Ù n i i n i uX iX Xi MQ WW WW WW EE 1 2 1 22 2 1 10 1 )( )( ss sb mbb b , de onde segue então 22 2 1 1 uX X MQE ss sb b + =÷ ø ö ç è æ Ù . Como pode ser observado, o estimador é não viesado, e seu vício pode ser escrito como: 22 2 1 1 uX u MQViés ss sb b + -=÷ ø ö ç è æ Ù . Deste modo qualquer estimativa obtida a partir deste estimador nos encaminharia a decisões possivelmente errôneas. 2.3 Descrição do Algoritmo SIMEX 2.3.1 Introdução O objetivo de usar o algoritmo SIMEX é poder corrigir o viés encontrado na seção anterior. Cook e Stefanski (1995), com a finalidade de corrigir este viés consideraram a esperança do estimador de mínimos quadrados como uma função de uma nova componente ( )0³l e pretende-se a partir dela, mediante uma etapa de extrapolação obter um estimador não viciado quando 1-=l . Isto é, o modelo é modificado através da incorporação de variáveis aleatórias na equação da variável observada de modo que: 11 22 2 1 1 )1( )( uX X MQE sls sb lb ++ =÷ ø ö ç è æ Ù . Note que esta formulação é de caráter intuitiva com a finalidade de eliminar da expressão a variância 2us , de modo que quando 1-=l o estimador é não viciado. 2.3.2 Parte de Simulação Para implementar o algoritmo SIMEX, criamos uma nova variável aleatória )(),( lsiW a partir da variável observada iW e de uma constante l , de modo que: ),(),( )( siisi uWW ll += , ...(2.3) onde ),0(~ 2),( usi Nu s , ni ,,1 L= , bs ,,1 L= , e 2 us é conhecido. No caso que não seja conhecido deve fazer-se réplicas do experimento de forma tal que possa estimar-se consistentemente, além disso os ),( siu são independentes dos iW . Deve-se simular b observações da ),0(~ 2 ),( usi Nu s para cada uma das observações, de tal modo que passamos a ter uma matriz ( )bn ´ de valores observados de )(),( lsiW , obtidos a partir de iW , para cada 0³l . Da equação (2.3) acima, temos que: , )1())(( 22 22 )( 2 s, uW uXWsiWVar lss slssl l += ++== onde 222 uXW sss += . 12 Logo a estimativa de 1b a partir do estimador de Mínimos Quadrados para um l particular é dada por: å å = = Ù - -- = n i ssi n i ssii MQs WW WWYY 1 2 ),( 1 ),( ,1 ))()(( ))()()(( )( ll ll lb bs ,,1 L= , onde å = = n i sis Wn W 1 ),( )( 1 )( ll . Obtemos deste modo b estimadores )(1 lb MQ Ù para cada l , e com estas informações podemos resumi-las usando a média destes valores para cada 0³l , que escrevemos como: å = ÙÙ = b s MQsb 1 ,11 )( 1 )( lblb . 2.3.3 Parte de Extrapolação Até o momento, na fase anterior conseguimos obter mediante um processo de simulação a estimativa )(1 lb MQ Ù de 1b para um valor particular de 0³l , fixado. Nesta seção pretendemos repetir o passo anterior para diferentes valores de 0³l , de modo que estamos gerando um conjunto de pares ÷ ø ö ç è æ Ù llb ,)(1 , que se associam com a 13 finalidade de estabelecer um modelo de regressão e fazer uma extrapolação quando 1-=l , obtendo deste modo o estimador simex1 Ù b . Precisamos agora definir a nova variável resposta ),~( lGY , que em nosso caso seriam as estimativas )(1 lb Ù obtidas na parte da simulação, isto é, )(),~( 1 lbl Ù =GY . Para a estimativa de ),~( lGY , consideramos os seguintes modelos de regressão, lggl 10),~( +=GY .................. (Linear); 2 210),~( lglggl ++=GY ............. (Quadrático); lg g gl + +=GY 2 1 0),~( ............... (Não Linear), e a escolha de um dos modelos será usada na etapa de extrapolação. Aqui t),,(~ 210 ggg=G , de modo que dependendo do caso, ~G terá dois ou três parâmetros a serem estimados. Para calcular as estimativas t),,(~ 210 ÙÙÙÙ =G ggg de t),,(~ 210 ggg=G , nos casos dos modelos linear e quadrático será usado o método de mínimos quadrados usuais, isto é, 14 )),~(~)(~())(~)(~(~ 1 llll GYDDD=G - Ù tt , onde tm ),...,,()(~ 21 llll =D são os valores de l usados na etapa de simulação e t m ÷ø ö ç è æ=GY ÙÙÙÙ )(,...),(),(),~(~ 12111 lblblbl , sendo m o número de valores l que se vai considerar na formulação do modelo para a extrapolação. No caso do modelo não linear o cálculo da estimativa será baseado no método dos mínimos quadrados iterativos, isto é, ) ~ ),~(~()~())~()~((~~ 0 0 1 00 1 ftjjtjjj -GYZZZ+G=G -+ l , onde, 0~ Z é uma matriz de dimensão ( )3´m da derivada da função mif i i ,,1, 2 1 0 L=+ += lg g g , com respeito a cada parâmetro t),,(~ 210 ggg=G , isto é, ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç ç ç è æ + - + + - + + - + =Z 2 2 1 2 2 22 1 22 2 12 1 12 0 )( 1 1 )( 1 1 )( 1 1 ~ mm lg g lg lg g lg lg g lg MMM e ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç ç ç è æ + + + + + + = m f lg g g lg g g lg g g 2 1 0 22 1 0 12 1 0 0 ~ M . Deste modo, para qualquer modelo, a extrapolação será implementada calculando-se, )1,~(1 -GY= ÙÙ simexb . 15 2.3.4 Estrutura do algoritmo SIMEX A estrutura do algoritmo SIMEX está resumida nos seguintes passos, para elaboração de um programa computacional. 1. Para cada l , gerar b conjuntos de números aleatórios para calcular as variáveis u(i,s) com distribuição normal com média zero e variância 2us conhecida, onde b,1,s L= e n,1,iL= . 2. Obter ),(),( )( siisi uWW ll += , para cada l fixado, resultando em uma matriz de dimensão )( bn ´ de )(),( lsiW . 3. Gerar a regressão de iY com cada coluna )(),( lsiW e registrar cada valor de )(,1 lb MQs Ù para b,1,s L= . 4. Obter å = ÙÙ = b s MQsb 1 ,11 )( 1 )( lblb para cada 0³l . 5. Para a etapa de extrapolação precisamos de um dos modelos de regressão apresentados anteriormente. 6. Fazer 1-=l no modelo escolhido para a avaliação, obtendo deste modo o estimador simex1 Ù b . 16 2.4 Estudo da distribuição Assintótica do estimador SIMEX. 2.4.1 Introdução Nesta parte pretendemos obter as distribuições assintóticas dos estimadores do algoritmo SIMEX tanto na parte de Simulação como na parte de Extrapolação, com a finalidade de se obter estimativas para a variância do estimador simex1 Ù b e a partir daí construir Intervalos de Confiança ou para hipóteses sobre b usando este estimador. Na seção 2.4.2 consideramos a distribuição assintótica de )(1 lb Ù , obtendo a variância assintótica dos estimadores de 1b para cada valor de 0³l . Na seção 2.4.3 consideramos a distribuição assintótica de simex1 Ù b , isto é, considerando em particular um estudo sobre a variabilidade do estimador 1 Ù b , quando o modelo de regressão considerado é Linear, Quadrático ou Não Linear, a extrapolação é feita com 1-=l . 17 2.4.2 Parte de Simulação Teorema 1: Para todo 0³l , existe um )(1 lb , tal que para ¥®b , ÷÷ ø ö çç è æ - ¾®¾÷ ø ö ç è æ - Ù 2 222 11 ;0)()( Ws YWsWsYD Nb s sss lblb , onde: 222 1 2 eXY ssbs += , 222 )1( uXWs slss ++= e 2 1 2 XYWs sbs = . Prova: Lembremos que: å å = = Ù - -- = n i ssi n i ssii MQs WW WWYY 1 2 ),( 1 ),( ,1 ))()(( ))()()(( )( ll ll lb para bs ,,1 L= , podemos então definir, 2 )( )( ,1 )( l llb Ws YWs MQs S S = Ù , onde å = --= n i ssiiYWs WWYYn S 1 ),()( ))()()(( 1 lll e å = -= n i ssiWs WWn S 1 2 ),( 2 )( ))()(( 1 lll . Podendo-se escrever: ))()(())()(( 1 1 ),()( XsY n i XsiYiYWs WYWYn S mlmmlml -----= å = e 2 1 2 ),( 2 )( ))(())(( 1 Xs n i XsiWs WWn S mlmll ---= å = , de modo que, 18 ÷÷ ø ö çç è æ - -- - ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ - -- =÷÷ ø ö çç è æ å å = = 2 1 2 ),( 1 ),( 2 ))(( ))()(( ))(( 1 ))()(( 1 Xs XsY n i Xsi n i XsiYi Ws YWs W WY W n WY n S S ml mlm ml mlm . Por outro lado, pode-se demonstrar facilmente que, ÷÷ ø ö çç è æ =- n OpW Xs 1 ))(( ml e ÷÷ ø ö çç è æ =- n OpY Y 1 )( m , de modo que ÷÷ ø ö çç è æ ¾®¾÷÷ ø ö çç è æ - -- 0 0 ))(( ))()(( 2 P Xs YXs W YW n ml mml . Como [ ] 21 1 ),()( ))()(( 1 X n i XsiYiYWs WYEn sbmlms l =--= å = , [ ] 22 1 2 ),( 2 )( )1())(( 1 uX n i XsiWs WEn slsmls l ++=-= å = , e dada à expressão anterior, pode-se dizer que, ú û ù ê ë é L÷÷ ø ö çç è æ ¾®¾ú û ù ê ë é ÷÷ ø ö çç è æ -÷÷ ø ö çç è æ ~,0 0 222 NS S n D Ws YWs Ws YWs s s , ... (2.4) onde, para a obtenção de ~L, definimos: [ ]tXsiYiXsii WYWG 2),(),( ))((,))()((~ mlmml ---= e ( )[ ] .2),(),( ))((,))()(()~( t XsiYiXsii WEYWEGE mlmml ---= 19 Das expressões acima temos que: [ ] [ ]tuXXtWsYWsiGE 22212 )()( )1(,,)~( slssbss ll ++== ; além disso, ú ú û ù ê ê ë é --- ---- = 4 ),( 3 ),( 3 ),( 22 ),( ))(()())(( )())(()())(( ~~ XsiYiXsi YiXsiYiXsit ii WYW YWYW GG mlmml mmlmml , de modo que ( ) ( ) ( ) úúû ù ê ê ë é --- ---- = 4 ),( 3 ),( 3 ),( 22 ),( ))(()())(( )())(()())(( ) ~~ ( XsiYiXsi YiXsiYiXsit ii WEYWE YWEYWE GGE mlmml mmlmml . Mas, ( ) ú ú û ù ê ê ë é ïþ ï ý ü ïî ï í ì ÷÷ ø ö çç è æ - ÷ ÷ ø ö ç ç è æ - =-- )( )( )())(( ),( 22 )( ),(22 )( 22 ),( ls m s ml ssmml l l si Y Yi Ws Xsi YWsYiXsi W Y E W EYWE e como, ú ú û ù ê ê ë é --+ )1(,))((~)( 22),( )( ),( rsmls s rml l YXsi Ws Y Ysii WNWY , onde, 22 )( 2 )(2 YWs YWs ss s r l l= então, ú ú û ù ê ê ë é -÷ ÷ ø ö ç ç è æ - ÷÷ ø ö çç è æ - )2 )( ),( ),( 1(, )( ~)( r s ml rl s m lWs Xsi si Y Xi W NW Y ; ...(2.4) portanto, 2 ),(),(),( 2 )()()( ú ú û ù ê ê ë é ïþ ï ý ü ïî ï í ì ÷÷ ø ö çç è æ - + ïþ ï ý ü ïî ï í ì ÷÷ ø ö çç è æ - = ïþ ï ý ü ïî ï í ì ÷÷ ø ö çç è æ - l s m l s m l s m si Y Xi si Y Xi si Y Xi W Y EW Y VarW Y E , ou seja, 20 2 )( ),(22 ),( 2 )( )1()( ÷ ÷ ø ö ç ç è æ - +-= ïþ ï ý ü ïî ï í ì ÷÷ ø ö çç è æ - ls ml rrl s m Ws Xsi si Y Xi W W Y E , de modo que, ( ) . 4 )( ),(22 )( 2 )( ),(222 )( 22 ),( )( )( )1()())(( ú ú û ù ê ê ë é ÷ ÷ ø ö ç ç è æ - + ú ú û ù ê ê ë é ÷ ÷ ø ö ç ç è æ - -=-- l l l l s ml ss s ml rssmml Ws Xsi YWs Ws Xsi YWsYiXsi W E W EYWE Como )1,0(~ )( )( ),( N W Ws Xsi ls ml - , então 2 )1( 2 )( ),( ~ )( c ls ml ÷ ÷ ø ö ç ç è æ - Ws XsiW e portanto, 1 )( 2 )( ),( =÷ ÷ ø ö ç ç è æ - ls ml Ws XsiWE e 2 )( 2 )( ),( =÷ ÷ ø ö ç ç è æ - ls ml Ws XsiWVar . Então, 312 )()()( 22 )( ),( 2 )( ),( 4 )( ),( =+= ú ú û ù ê ê ë é ÷ ÷ ø ö ç ç è æ - +÷ ÷ ø ö ç ç è æ - =÷ ÷ ø ö ç ç è æ - lll s ml s ml s ml Ws Xsi Ws Xsi Ws Xsi WE W Var W E . Daqui, ( ) 22 )( 222 )( 222 )( 222 )( 22 ),( 2 3)1()())(( YWsYWs YWsYWsYiXsi YWE ssrss rssrssmml ll ll += +-=-- e como 22 )( 2 )(2 YWs YWs ss s r l l= , temos 21 ( ) 2 )(22 )(22),( 2)())(( ll sssmml YWsYWsYiXsi YWE +=-- . ...(2.5) Outro componente de ~L é: ( ) 4 )( ),(3 )( 3 ),( )( )())(( ÷ ÷ ø ö ç ç è æ - =-- l l s ml srsmml Ws Xsi YWsYiXsi W EYWE , ou seja, ( ) 2 )()(3 )(3),( 33)())(( lll sssrsmml WsYWsYWsYiXsi YWE ==-- , ...(2.6) e ( ) 4 )(4),( 3)( lsml WsXsiWE =- . ...(2.7) Das equações (2.5), (2.6) e (2.7) temos: ú ú û ù ê ê ë é + = 4 )( 2 )()( 2 )()( 2 )( 22 )( 33 32 ) ~~ ( lll llll sss sssss WsWsYWs WsYWsYWsYWst ii GGE , e como ú ú û ù ê ê ë é = 4 )( 2 )()( 2 )()( 2 )() ~ () ~ ( lll lll sss sss WsWsYWs WsYWsYWst ii GEGE , como tii t ii GEGEGGE)~ () ~ () ~~ (~ -=L , temos: ÷ ÷ ø ö ç ç è æ + =L 4 )( 2 )()( 2 )()( 2 )( 22 )( 22 2 ~ lll llll sss sssss WsWsYWs WsYWsYWsYWs . Além disso devemos lembrar da expressão (2.2) que 222 1 1 22 )( 1 eX n i YiY Yn E ssbms +=÷ ø ö ç è æ -= å = . Mas nosso interesse é avaliar a distribuição assintótica de å = ÙÙ = b s MQsb 1 ,11 )( 1 )( lblb . 22 Para obter a distribuição assintótica da expressão acima é necessário usar a expressão (2.4), mediante o uso do Método Delta (Sen e Singer, 1993) em )(,1 lb MQs Ù , primeiro para ¥®b . Portanto ao considerar os passos mencionados acima temos a seguinte expressão, quando ¥®b : ÷ ø ö ç è æ L¾®¾÷ ø ö ç è æ - Ù ~~~ ;0)()( 1,1 bb VVlblb tD MQs Nb , sendo 21 )( Ws YWs s s lb = , e ~ bV é o vetor de derivadas parciais com respeito a )(lYWsS e 2 )(lWsS avaliadas em ( )tWsYWs 2, ss de modo tal que, t Ws YWs Ws ÷ ÷ ø ö ç ç è æ -= 4 )( )( 2 )( , 1 ~ l l l b s s s V . Portanto, fazendo as operações apropriadas temos, ÷ ÷ ø ö ç ç è æ - ¾®¾÷ ø ö ç è æ - Ù 2 )( 2 )( 2 )( 2 11 ,0)()( l ll s sss lblb Ws YWsWsYD Nb , quando ¥®b . Concluímos então a prova do teorema. Deste teorema pode-se estabelecer as seguintes igualdades assintóticas: 22 2 1 11 )1( ))(()( uX XE sls sb lblb ++ == Ù e 23 ))1(( )()1( ))(( 22 2222 1 22 1 uX eXXeu b Var sls sssbssl lb ++ +++ = Ù . De maneira similar pode-se obter a covariância assintótica entre )(1 ilb Ù e )(1 jlb Ù , ji ¹ . Pode-se notar que assintóticamente, ))1()()1(( )()2()()1)(1( ))(),(( 2222 4422 1 2222222 1 24 11 ujXuiX eXXeeXujiXeuji ji b Cov slssls sssbssssllsbssll lblb ++++ ++++++++ = ÙÙ 2.4.3 Parte de Extrapolação Teorema 2: Ao considerar os valores mlll ,,, 21 L e )(,),(),( 12111 mlblblb ÙÙÙ L gerados na etapa da simulação e para 1-=l , que é o valor de extrapolação, temos quando ¥®m , que ))1,~(~ ()~(~))1,~(~ (;0()( 11 -GYGS-GY¾®¾- GG Ù tD Nsimexm bb , onde ~G Y é a derivada do modelo de regressão escolhido com respeito aos parâmetros envolvidos no modelo para fazer a extrapolação com 1-=l e )~(~ Ù GS é uma matriz de covariâncias, função de ~S que é a matriz de 24 covariâncias assintóticas dos ( )mb ´ estimadores )(1 lb Ù obtida no teorema 1. Prova Para desenvolver esta prova, primeiro temos que obter a distribuição de ~ Ù G que é um vetor aleatório de estimadores dos parâmetros que associam aos )(1 lb Ù obtidas na parte de simulação e os l , e logo pelo Método Delta obter a distribuição assintótica de simex1 Ù b . · Distribuição assintótica de ~ Ù G Como na parte da simulação geramos )(1 lb Ù para um conjunto de valores, com mii ,,1,0 L=³l , então temos uma distribuição Normal Multivariada assintótica para )(,),(),( 12111 mlblblb ÙÙÙ L , isto é, quando ¥®b , ( )~,~0 )()( )()( 11 1111 S¾®¾ ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ - - Ù Ù m D mm Nb lblb lblb M . Note que ~S é estimado por ~ Ù S , onde ~ Ù S é a matriz de covariâncias amostrais ( )mb ´ dos estimadores de )(,1 lb MQs Ù . 25 Se fazemos, )( ~ ),~(~ 1 lbl ÙÙ =GY para todo t),,(~ 210 ggg=G , então pode-se obter os seguintes modelos de regressão para a extrapolação, lggl 10),~( +=GY .................. (Linear) 2 210),~( lglggl ++=GY ............. (Quadrático) lg g gl + +=GY 2 1 0),~( ............... (Não Linear) Para as estimativas dos parâmetros ig pode-se aplicar a técnica exposta na seção anterior, mas Carroll (1998) considera para o caso Não Linear as estimativas dos ig obtidas a partir de um conjunto de 3 equações com solução única para três valores dos )(1 lb Ù e dos l ( )321 , lll e obtendo-se as seguintes equações: ))()()(())()()(( ))()()(())()()(( 213112112123 11212312131123 2 lblblllblbll lblbllllblblll g ÙÙÙÙ ÙÙÙÙ Ù ----- ----- = , ))(( )( ))()(( 1222 21 1121 1 lglgll lblb g ++ - - = ÙÙ ÙÙ Ù , 12 1 110 )( lg g lbg + -= Ù Ù ÙÙ . 26 Desta forma podemos definir o resíduo destes modelos como, ),~(~),~(~)~(~ ll Ù GY-GY=GR . Pelo Método de Mínimos Quadrados Generalizados, temos a seguinte expressão, ))~(~(~))~(~(~ 1 GSG= - RRM t , ... (2.8) para um modelo normal com média )~(~ GR , define-se a matriz de covariância amostrai Ù S~ , então, ),~(~ ~ ),~(~ ll GY G¶ ¶ =GYG , a derivada da equação de regressão considerada. Defina- se também, para cada valor de l o vetor, ÷ ø ö ç è æ GYGY=G GG ),~(~ ,...,),~(~ )~(~ 1 mS ll . ... (2.9) Então, se na expressão (2.8) derivamos ~M com respeito a ~G temos a função escore, )~(~~)~(~)~(~ ~ ~ 1 GSG=G= G¶ ¶ - RSU M , e a derivada da função escore, )~(~))~(~(~)~(~)~(~ ~~ ~ 1 2 2 G=GSG=G G¶ ¶ = G¶ ¶ - DSSU M t , ... (2.10) 27 sendo )~(~ GD um escalar; além disso, pode observar-se que )~(~ GD não depende de ),~(~ lGY e portanto a matriz de Informação de Fisher é definida por: )~(~)~( ~ )~(~ G-=÷ ÷ ø ö ç ç è æ G G¶ ¶ -=GI DUEF . Usando o Método de “Fisher Scoring” na expansão de ~G temos, )~(~)~(~~~ 1 GGI+G@G - Ù UF , de onde segue que, )~(~)~(~~~ 1 GGI@G-G - Ù UF , e portanto, 111 ))~(~())~(~(~)~(~))~(~()~~)(~~()~(~ --- ÙÙ GGSGG@G-GG-G=GS DSSDE tt , ...(2.11) onde ~S foi definida como a matriz de covariâncias assintótica que seguem do teorema 1. Segue então que, ))~(~,~0()~~( GS@G-G Ù Nm . Usando o Método Delta para o estimador )1,~(1 -GY= ÙÙ simexb , temos então que a variância assintótica pode ser estimado por, ))1,~(~ ()~(~))1,~(~ ( -GYGS-GY Ù G ÙÙ G t 28 Para estimar as variâncias do estimador SIMEX1 Ù b , consideramos os seguintes passos: 1. Obter a matriz de covariâncias dos estimadores “ingênuos” )~( Ù S . 2. Obter )~(~ GS que é um vetor de derivadas do modelo de regressão proposto como na expressão (2.9), do modo seguinte: ( )tii ll ;1),( =GYG .................... (Linear) ( )tiii 2;;1),( lll =GYG ............... (Quadrático) ( ) t ii i ÷ ÷ ø ö ç ç è æ + - + =GYG 2 2 1 2 ; 1 ;1),( lg g lg l ...... (Não Linear) 3. Obter )~(~ GD que está em função de )~(~ GS como foi obtida na expressão (2.10). 4. Obter )~(~ GS como obtido na expressão (2.11). 5. A seguir, obter )1,~(~ -GYG , isto é repetir o passo 2 para um único valor de l , isto é, quando 1-=l . 6. A estimativa da variância assintótica é obtida quando multiplicamos convenientemente os valores dos passos 4 e 5 de acordo como o teorema 2. 29 2.5 Avaliação do Algoritmo SIMEX 2.5.1 Um estudo de Simulação Para avaliar o algoritmo SIMEX consideramos uma simulação do modelo eXY ++= ba , onde 10 == ba e , )25,0(~ Ne , )100,0(~ NX , e no modelo uXW += , )49,0(~ Nu . X , e e u são gerados independentemente.O tamanho da amostra considerada para a avaliação foi 100=n . Consideramos também 500 iterações para a simulação dos dados, e considerou-se 100=b simulações de u para a obtenção de ),( siW (W SIMEX) na equação (2.3). O estimador SIMEX foi gerado pelos três modelos de regressão considerados (Linear, Quadrático e Não Linear) considerando-se os pontos ( )t0,25,10,15,00=l , que encontra-se no apêndice com o nome Programa SimulaSimex implementado no OX. Tabela 2.1: Resultados do estudo de Simulação do Algoritmo SIMEX. Extrapolação Linear Extrapolação Quadrática Extrapolação Não Linear SIMEX Ù b 0,7877470 0,906123 1,017810 Variância( SIMEX Ù b ) 0,0048326 0,196090 0,019035 Desvio Padrão SIMEX Ù b 0,0695169 0,442820 0,137967 LIC( SIMEX Ù b )90% 0,6733920 0,177684 0,790854 LSC( SIMEX Ù b )90% 0,9021020 1,634562 1,244766 LIC( SIMEX Ù b )95% 0,6514940 0,038196 0,747395 LSC( SIMEX Ù b )95% 0,9240000 1,774050 1,288225 LIC( SIMEX Ù b )99% 0,6083930 -0,236350 0,661855 LSC( SIMEX Ù b )99% 0,9671010 2,048599 1,373765 30 Os resultados obtidos na tabela 2.1 são o resultado da média de 500 iterações. Na tabela 2.1, pode-se apreciar que em média das 500 iterações o melhor estimador do parâmetro 1b é aquele correspondente a extrapolação para o SIMEX não linear, apresentando também uma variabilidade baixa. Quanto aos intervalos confidenciais de 90%, 95% e 99%, pode-se apreciar que o modelo de extrapolação linear não consegue cobrir a unidade, parâmetro proposto na simulação. Contudo os modelos quadrático e não linear consideram em seus intervalos à unidade pelo que se pode concluir que estes dois modelos de extrapolação são bons para o propósito do SIMEX. Esta conclusão coincide com a apresentada por Carroll, R. et. (1996), onde ele descarta ao modelo linear como um bom modelo de extrapolação. Notemos além disso, que o modelo de extrapolação não linear apresenta intervalo com menor comprimento que o do modelo de extrapolação quadrático, veja tabela 2.2. Tabela 2.2: Comprimento dos intervalos para 1b Comprimento dos intervalos Extrapolação 90% 95% 99% Quadrático 1,456879463 1,735856381 2,039743494 Não Linear 0,453912705 0,540832159 0,706393024 31 Isto nos permite concluir que o modelo de extrapolação não linear tem mais precisão nas estimativas e, portanto produz melhor estimativa para nosso propósito. Gráfico 2.1: Comportamento do algoritmo SIMEX com os três modelos propostos para a extrapolação. Avaliação da Extrapolação 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 Lambda B et h a BethaLin BethaQ BethaNL Betha A partir do presente gráfico pode-se ver que o modelo de regressão não linear tem um melhor comportamento para a extrapolação, enquanto os outros subestimam o valor 1. Note que o intervalo confidencial obtido com 01781,11 = Ù SIMEXb (não linear) não inclui o valor obtido com o estimador ingênuo “Naive” 67597,01 = Ù NAIVEb , a que nos permite concluir que este estimador não é adequado. 32 2.5.2 Um caso prático Para estudar um caso prático considerou-se o exemplo apresentado na pagina 18 em Fuller (1987). O objetivo é de avaliar a produção de Milho no solo nitrogenado do estado de Iowa. Fuller (1987) propõe considerar )57;0(~ Nui , ni ,,1 L= . Para obter os estimadores através do método SIMEX foi utilizado o pacote Ox, considerando-se 100=b distribuições )57;0(~ Nui para os 11=n amostras consideradas no exemplo de Fuller. Tabela 2.3: Resultados do exemplo fazendo uso do Algoritmo SIMEX. Extrapolação Linear Extrapolação Quadrática Extrapolação Não Linear SIMEX1 Ù b 0,388352 0,385456 0,387324 Variância( SIMEX1 Ù b ) 0,011167 0,31792 0,12485 Desvio Padrão SIMEX1 Ù b 0,105674 0,563844 0,353341 LIC( SIMEX1 Ù b )90% 0,214518225 -0,542067298 -0,193922266 LSC( SIMEX1 Ù b )90% 0,562185775 1,312979298 0,968570266 LIC( SIMEX1 Ù b )95% 0,181230907 -0,719678142 -0,305224742 LSC( SIMEX1 Ù b )95% 0,595473093 1,490590142 1,079872742 LIC( SIMEX1 Ù b )99% 0,117826491 -1,057984512 -0,517229459 LSC( SIMEX1 Ù b )99% 0,658877509 1,828896512 1,291877459 33 Na tabela 2.2, pode-se apreciar que os três modelos de extrapolação do SIMEX levam quase a um mesmo resultado, notemos que a diferença começa aparecer na terceira cifra decimal, podendo-se concluir para este exemplo que os três modelos atingem ao parâmetro desejado. Notemos por outro lado que a extrapolação linear tem uma menor variabilidade, portanto quando consideramos os intervalos confidenciais aquele com menor comprimento corresponde a extrapolação linear. Ao considerar o estimador de 1 Ù b obtido por Fuller (1987) quando é usado o método de Máxima Verossimilhança obtemos um estimador igual a 4232,01 = Ù MVb , do seguinte modo: ú ú û ù ê ê ë é ÷÷ ø ö çç è æ + + ÷÷ ø ö çç è æ +÷ ÷ ø ö çç è æ 222 1 2 1 2 1 22 10 ,~ eXX XuX X X i i N Y W ssbsb sbss mbb m WX = Ù m , 22 2 2 2 2 uWXuXW SS ssss -=Þ+= ÙÙ , WY MVMV 10 ÙÙ -= bb , 2221 2 1 uW YW X YW MVXMVYW S SS S s s bsb - ==Þ= Ù ÙÙÙ , 22 1 2 2222 1 2 XMVYeeXMVY SS ÙÙÙÙÙÙ -=Þ+= sbsssb . Ao aplicar o método Delta e alguns cálculos algébricos similares aos realizados no caso da estimação do estimador da variância do estimador de SIMEX, temos: ÷÷ ø ö çç è æ +++ ¾®¾÷ ø ö ç è æ - Ù 4 42 1 22 1 222 11 ))(( ,0 X uueuXD MV Nn s sbsbsss bb . 34 Como 572 =us , então: 4545,97=Y , 6364,70=W , 6727,872 =YS , 8818,104=YWS , 8545,304 2 =WS 8545,247578545,304 2 =-= Ù Xs , 4232,0 8545,247 8818,104 1 == Ù MVb , 291,43)8545,247()4232,0(6727,87 2 2 =-= Ù es . Daqui, 0304,0 )8545,247( )57()4232,0())57()4232,0(291,43)(8545,304( )( 2 222 1 = ++ = Ù MVVar b . Os resultados estão apresentados na tabela 2.3. Tabela 2.3: Estimação de Máxima Verossimilhança. 90% 95% 99% Estimador LIC LSC LIC LSC LIC LSC MV1 Ù b 0,1363 0,7100 0,0814 0,7649 -0,0231 0,8695 A primeira vista parece estar longe do valor de 388352,01 = Ù SIMEXb linear, mas considerando os intervalos confidenciais de 90%, 95% e 99% para qualquer SIMEX1 Ù b podemos dizer que ambas estimativas obtidas (Fuller e SIMEX) são iguais. Note que o intervalo obtido com o estimador de máxima verossimilhança MV1 Ù b inclui o estimador “Naive” 34404,01 = Ù NAIVEb , de modo que neste caso, o estimador “Naive” também pode ser razoável. 35 Em conclusão para estes dados, fazer uma estimação via o método de máxima verossimilhança, SIMEX ou pelo método de Mínimos Quadrados sem erros nas variáveis pode-se obter estimativas adequadas. Gráfico 2.2: Comportamento do algoritmo SIMEX quando é usados os três modelos propostos para a extrapolação. A partir do presente gráfico pode-se ver que o modelo de regressão não linear, Quadrático e Linear tem quase o mesmo comportamento para a extrapolação, obtendo um estimador mais alto que o estimadorNAIVE Ù b que é igual a 0,34404. Contudo, estes valores não estão muito afastados, podendo-se inclusive concluir que estes estimadores apontam na mesma direção pra estimação do parâmetro de interesse. Avaliação da Extrapolação 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 Lambda B et h a BethaLin BethaQ BethaNL Betha Capítulo 3 Modelos Lineares Mistos. Sem erros nas variáveis 3.1 Introdução. Existem várias formas de se tratar o problema dos modelos mistos em modelos lineares com dados cuja distribuição é Normal. Neste capítulo pretendemos estudar o desenvolvimento de duas formas de tratar o problema; uma usando a distribuição marginal de ~Y com a finalidade de se obter estimativas dos parâmetros usando o algoritmo “Fisher-Scoring”, onde os efeitos aleatórios desaparecem do contexto do modelo; a outra usando a distribuição conjunta de ~Y e ~a que será definido mais ao frente, gerando desta forma as equações consideradas em Henderson (1959). Este é um procedimento que permite a obtenção dos estimadores de efeitos fixos (BLUE) e efeitos aleatórios (BLUP) mediante a utilização do algoritmo EM (Estimação e Maximização). 37 Apresentamos inicialmente uma revisão geral dos métodos. O modelo geral para nosso estudo estará definido por: ,,,1;,,1;~~~~~~ sinjeaZXY i LL ==++= b ... (3.1) onde: ( ) ÷÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö çç ç ç ç ç ç ç ç ç è æ = sn n xN s s Y Y Y Y Y M M M 1 1 11 1 1 ~ , ( ) ÷÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö çç ç ç ç ç ç ç ç ç è æ = sn n xN s s X X X X X M M M M M M 1 1 11 2 1 1 1 1 1 ~ , ( ) ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç ç ç ç è æ = 1 1 0 0 0 0 1 1 ~ M M M L L L L M M M sxN Z , ( ) ÷÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö çç ç ç ç ç ç ç ç ç è æ = sn n xN s s e e e e e M M M 1 1 11 1 1 ~ , ( ) ÷÷ ø ö çç è æ = 1 0 12~ b b b x , ( ) ÷÷ ÷ ÷ ÷ ø ö çç ç ç ç è æ = s s a a a a x M 2 1 1~ . Aqui ~a e ~e são independentes; além disso )~;~0(~~ DNa e )~;~0(~~ RNe sendo ~~ s ID q= e ~~ 2 Ne IR s= , com å = = s i inN 1 . Além disso, q=),( ikij YYCov para todo kj ¹ , 0),( =lkij YYCov para todo li ¹ e 2)( eijYVar sq += . Na Seção 3.2 apresentaremos o problema da distribuição marginal de ~Y ; na Seção 3.3 apresentaremos o procedimento para a obtenção das equações dos modelos mistos de Henderson (HMME). Na seção 3.4 será tratado o problema de testes de hipóteses para os parâmetros de interesse qb e ~ . Na seção 3.5 apresentamos uma aplicação prática dos procedimentos estudados. 38 3.2 Obtenção dos estimadores fazendo uso da distribuição Marginal de Y. Como ~a e ~e são componentes aleatórios, ambos podem ser juntadas numa variável aleatória só, de modo que ~~~~ eaZ +=e , sendo ~0)~( =eE e ~~~~ )~( 2 GIZZVar Ne t =+= sqe , de onde pode-se obter a distribuição marginal de )~;~~ (~~ GXNY N b , ou seja, þ ý ü î í ì ---= - ) ~~~ (~)~~~ ( 2 1 exp ~)2( 1 )~( 1 2/1 2/ bb p XYGXY G Yf t N . 3.2.1 Obtenção dos estimadores Tomando o logaritmo da função anterior e derivando com respeito a ~ b temos o seguinte estimador: ÷÷ ø ö çç è æ ÷÷ ø ö çç è æ = -Ù --ÙÙ ~~~~~~~ 111 YGXXGX ttb . ...(3.2) Ao derivar o logaritmo da função da verossimilhança com respeito a 2es obtemos: 0) ~~~ (~)~~~ ( 2 1 )~(2 1 21 =--+- Ù-ÙÙ-Ù bb XYGXYGTr t ou seja, 0) ~~~ () ~~~ ()~( =úû ù êë é --- ÙÙÙ bb XYXYTrGTr t . Como )() ~~~ ()~( 22 eNe t NIZZTrGTr ÙÙÙÙÙ +=+= sqsq , 39 podemos escrever ÙÙÙÙ ---= qbbs ) ~~~ () ~~~ ( 12 XYXY N t e ...(3.3) Para q usando o mesmo procedimento, obtemos o seguinte estimador: 2 ) ~~~ () ~~~ ( 1 e t XYXY N ÙÙÙÙ ---= sbbq . ...(3.4) 3.2.2 Algoritmo “Fisher-Scoring” Como não é possível obter expressões fechadas para cada um dos estimadores recorremos ao algoritmo “Fisher- Scoring” que pode ser escrito como: )( 1 )( )()1( )()( mm UImm ffff -+ += , ...(3.5) onde m neste caso é o número de iterações necessárias até a convergência, f é o vetor de parâmetros a estimar, )( )( m U f é o vetor de funções escores, isto é a primeira derivada do logaritmo da função marginal com respeito a cada parâmetro e )( )( m I f é a matriz de informação de Fisher dos parâmetros a serem estimados, obtida a partir da segunda derivada do logaritmo da função de verossimilhança marginal. No modelo acima ( )qsbf ,, 2e= . Após algumas manipulações algébricas pode-se verificar que as segundas derivadas são dadas por: ~)~(~ ~~ ))~(log( 1 2 XGX Yf t --= ¶¶ ¶ bb Þ ( ) ~)~(~ 1 , XGXI -=bb , 40 ) ~~~ )(~(~ ~ ))~(log( 2 2 2 b sb XYGX Yf e t --=¶¶ ¶ - Þ ( ) ~02, =eI sb , ) ~~~ )(~(~~~ ~ ))~(log( 2 2 b qb XYGZZX Yf t t --=¶¶ ¶ - Þ ( ) ~0, =qbI , ) ~~~ )(~()~~~ ()~(2 1))~(log( 32 22 2 bb ss XYGXYGTr Yf t ee ---= ¶¶ ¶ -- . Seja ( ) xI ba =, o componente (a,b) da matriz de informação de Fisher )( )( m I f . Utilizando a primeira derivada, concluímos que ) ~~~ )(~()~~~ ()~( 32 bb XYGXYGTr t --= -- , de onde segue que )~(2 1))~(log( 2 22 2 --= ¶¶ ¶ GTr Yf ee ss Þ ( ) )~(2 1 2 , 22 -= GTrI ee ss , lembrando que ~~~~~ ZDZRG t+= onde ~~ 2 Ne IR s= e ~~ s ID q= , então pela expressão de Schuartz (Anexo do Searle et., 1992) temos que: 111111111111 ~~)~~~~~ (~~~~~~)~~~~(~~~~ ------------ +-=+-= RZDZRZIDZRRRZZRZDZRRG tts tt . Definindo 21211 )~~~ ()~~~~~ (~ e t se t s ZZIDZRZIM sqs --- +=+= , temos que ~~~~~~ 11 s t IMDZRZ -= -- e, daqui: 21112 )~~~~~~~()~( ---- -= RZMDZRRTrGTr t , 41 ,)~~~~~~~~~~~~~~~~~~~~~~~~()~( 121211222 --------- +--= RZMDZRZMDZRRZMDZRRZMDZRRTrGTr tttt ,)~~~~~~~~~~~~~~~~~~~~()~ ( 1 )~( 1111 4 2 úû ù êë é -+-= ----- DZRZMDZRZMDZRZMDZRZMTrITrGTr ttttN es ,) ~~ (~)~~ (~)~~ (~)~~ (~)~ ( 1 )~( 1111 4 2 úû ù êë é ÷ ø ö ç è æ ----+--= ----- ssssN e IMMIMMIMMIMMTrITrGTr s úû ù êë é +-=- )~()~ () ~ ( 1 )~( 2 4 2 MTrITrITrGTr sN es , [ ] úû ù êë é ++-=+-= -- 2242 2 4 2 )~~~ ()( 1 )~( 1 )~( ZZITrsNMTrsNGTr t see ee qss ss , 2 2 4 2 )~~()~ ()( 1 )~( - - ÷ ø ö ç è æ ++-= ZZTrITrsNGTr tse e qs s , 2224 2 )( 1 )~( qss + + - =- ee s sN GTr . Portanto, ( ) ú û ù ê ë é + + - = 2224, )( 1 2 1 22 qssss ee s sN I ee . Temos também que ) ~~~ )(~(~~)~~~ ()~~~(2 1))~(log( 32 2 2 bb qs XYGZZXYZZGTr Yf ttt e ---= ¶¶ ¶ -- . Usando a primeira derivada temos ainda que: )~~~ )(~(~~)~~~ ()~~~( 32 bb XYGZZXYZZGTr ttt --= -- , de modo que 42 )~~~(2 1))~(log( 2 2 2 t e ZZGTr Yf --= ¶¶ ¶ qs Þ ( ) )~~~(2 1 2 ,2 tZZGTrI e -= qs . Como 1111 ~~~~~~~~ ---- -= RZMDZRRG t , temos que 1111 ~~~~~~~~~~~ ---- -= RZMDZRZRZGZ tttt , e além disso sabemos que ~~~~~~ 11 DZRZIM ts -- =- , então: 11111 ~~~~~~)~~ (~~~~ ----- =--= RZMRZMIMRZGZ tts tt , agora: ( ))~~~()~~~()~~~~()~~~( 11112 ----- == RZMRZMTrGZZGTrZZGTr ttt , ( ) ÷ ø ö ç è æ -== ---- ts e t e t MDIMMTrMZRZMTrZZGTr ~~)~~ (~( 1 )~~~~~( 1 )~~~( 11 2 1 2 2 ss , ( ) ( ))~~()~(1)~~~~~(1)~~~( 2121122 MMTrDTrMDMMDTrZZGTr e tt e t -=-= ---- ss , ( ) , 2 212 212 2 2 2 2 )~~~ ( )~~~ ( 1 )~()~( 1 )~~~( ÷ ÷ ø ö ÷ ø ö ç è æ + ç è æ -÷ ø ö ç è æ +=-= - -- e t se e t se ee t ZZITr ZZITrMTrMTrZZGTr sqs sqs sqsq 2 2 24 1 22 2 )~~()~ ()~~()~ ( )~~~( e t see t see t ZZTrITrZZTrITr ZZGTr sq qssqss -- - ÷ ø ö ç è æ +-÷ ø ö ç è æ + = , 2 224122 2 ))(())(()~~~( e eeeet ssZZGTr sq qssqss --- +-+= , ú û ù ê ë é + - + =- 222 2 2 2 )()( 11 )~~~( qs s qsq e e e t ss ZZGTr . 43 Portanto, ( ) ïþ ï ý ü ïî ï í ì ú û ù ê ë é + - + = 222 2 2, )()( 11 2 1 2 qs s qsqqs e e e ss I e . ) ~~~ )(~(~~~~)~~~ ()~~~~~(2 1))~(log( 32 2 bb qq XYGZZZZXYZZZZGTr Yf ttttt ---= ¶¶ ¶ -- . Novamente, consideramos: ) ~~~ )(~(~~~~)~~~ ()~~~~~( 32 bb XYGZZZZXYZZZZGTr ttttt --= -- , de modo que )~~~~~(2 1))~(log( 2 2 tt ZZZZGTr Yf --= ¶¶ ¶ qq Þ ( ) )~~~~~(2 1 2 , tt ZZZZGTrI -=qq . Como ~~~~~~~~~~~~)~~~~~~~(~~~~ 1111111 ZRZMDZRZZRZZRZMDZRRZZGZ tttttt ------- -=-= sabemos que ~~~~~~ 11 DZRZIM ts -- =- e ~~~~~~ 111 ZRZDIM ts --- =÷ ø ö ç è æ - . Assim, 111111 ~)~~ (~)~~ (~)~~ (~~~ ------ ----= DIMMIMDIMZGZ sss t , depois de alguns cálculos algébricos temos que: 11 ~)~~ (~~~ -- -= DMIZGZ s t . Então, 2 1112 ~)~~ ()~~~~~~()~~~~~( úû ù êë é -== ---- DMITrZGZZGZTrZZZZGTr s tttt , 2 22 )~~ ()~()~~~~~( úû ù êë é -= -- MITrDTrZZZZGTr s tt , 44 ( ))~()~(2)~~2~()~( 1 )~~~~~( 2 2 2 2 2 MTrMTrs s MMITrITrZZZZGTr ss tt +-÷ ø ö ç è æ=úû ù êë é +-=- qq , mas, )( )~~~ ()~( 2 2 122 qs s qss + =+= - e et see s ZZITrMTr . Além disso, 222 4 2242 )( )~~~ ()~( qs s qss + =+= - e et see s ZZITrMTr , então, ÷÷ ø ö çç è æ + + + -÷ ø ö ç è æ=- 222 4 2 2 2 2 )()( 2 )~~~~~( qs s qs s q e e e ett ss s s ZZZZGTr e, portanto ( ) ïþ ï ý ü ïî ï í ì ÷÷ ø ö çç è æ + + + -÷ ø ö ç è æ= 222 4 2 2 2, )()( 2 2 1 qs s qs s qqq e e e e ss s s I . Em resumo, ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç è æ --+- --+- - = ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ = -- -- - ) ~~~ (~~~)~~~ ( 2 1 )~~~(2 1 ) ~~~ (~)~~~ ( 2 1 )~(2 1 ) ~~~ (~~ )( )( ) ~ ( )( 21 21 1 2 bb bb b q s b f XYGZZXYZZGTr XYGXYGTr XYGX U U U U ttt t t e , ...(3.6) de onde segue que, ÷÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø ö çç ç ç ç ç ç ç ç è æ ïþ ï ý ü ïî ï í ì ÷÷ ø ö çç è æ + + + -÷ ø ö ç è æ ïþ ï ý ü ïî ï í ì ú û ù ê ë é + - + ïþ ï ý ü ïî ï í ì ú û ù ê ë é + - +úû ù ê ë é + + - = - 222 4 2 2 2222 2 2 222 2 22224 1 )()( 2 2 1 )()( 11 2 1 ~0 )()( 11 2 1 )( 1 2 1 ~0 ~0~0~~~ )( qs s qs s qqs s qsq qs s qsqqss f e e e e e e e e e eee t ss s s ss sss sN XGX I ...(3.7) 45 Substituindo as expressões (3.6) e (3.7) em (3.5) temos o algoritmo “Fisher-Scoring”, que deve produzir estimadores dos parâmetros do modelo (3.1). 3.4 Obtenção dos estimadores fazendo uso da distribuição conjunta de Y e a. Neste caso serão utilizadas as equações do modelo misto de Henderson, que se caracterizam por um procedimento em dois estágios. Estágio 1: Para a unidade experimental i, considera-se o seguinte modelo condicional: ~~~~~~ |~ eaZXaY ++= b , onde ~Y , ~X , ~Z , ~ b e ~a são como na seção 3.1. Neste estágio ~ b e ~a são considerados fixos. Os erros )~,~0(~~ RNe N são independentes, onde ~~ 2 Ne IR s= . Estágio 2: Suponhamos que os elementos de ~a são independentes e que )~,~0(~~ DNa s , onde ~~ s ID q= . Desta forma temos que a função de distribuição conjunta de ~Y e ~a é definida por Henderson como a função de Verossimilhança, e pode ser escrita como 46 )~()~|~()~,~( afaYfaYf = , onde þ ý ü î í ì -----= - )~~~~~ (~)~~~~~ ( 2 1 exp ~2 1 )~|~( 1 2 1 aZXYRaZXY R aYf t bb p segue do estágio 1, e þ ý ü î í ì-= - ~~~2 1 exp ~2 1 )~( 1 2 1 aDa D af t p segue do estágio 2, de modo que þ ý ü î í ì úû ù êë é +-----= -- ~~~)~~~~~ (~)~~~~~ ( 2 1 exp ~~2 1 )~,~( 11 2 1 aDaaZXYRaZXY DR aYf tt bb p . 3.3.1 Obtenção dos estimadores Derivando o logaritmo da função de verossimilhança e igualando a zero temos as seguintes equações lineares de Henderson, ÷ ÷ ø ö ç ç è æ = ÷ ÷ ÷ ø ö ç ç ç è æ ÷÷ ÷ ÷ ø ö çç ç ç è æ ÷÷ ø ö çç è æ + Ù Ù ~~ ~~ ~ ~ ~~~~~ ~~~~ 2 YZ YX aIZZXZ ZXXX t t s ett tt b q s . ...(3.8) Se o logaritmo da função de Verossimilhança conjunta de ~Y e ~a obtido acima é derivado com respeito a 2 es obtemos þ ý ü î í ì ----= ÙÙÙÙÙ )~~~~~ ()~~~~~ ( 12 aZXYaZXY N t e bbs . ...(3.9) 47 Ao derivar a função de Verossimilhança conjunta com respeito a q, obtemos ÙÙÙ = ~~ 1 aa s t q , ...(3.10) onde Ù b e Ù a serão obtidos pelo algoritmo EM. 3.3.2 Algoritmo EM (Estimação e Maximização) Novamente não é possível obter expressões fechadas para cada um dos estimadores. Além disso o modelo envolve variáveis não observáveis ~a , de modo que neste caso consideramos a utilização do algoritmo EM. As equações (3.8), (3.9) e (3.10) definem o passo M do algoritmo EM. No passo E necessitamos calcular as esperanças condicionais das equações (3.9) e (3.10) dado ~Y para ~a , ~ b ,q e 2es fixados. Isto é: úû ù êë é ----= Ù )~~~~~ ()~~~~~ ( 1 ),,~~ ,,~|( 2 2 aZXYaZXY N EaYE tee bbsqbs úû ù êë é= 2,,~,~ ,~|~~ 1 e t aYeeE N sqb ...(3.11) e úû ù êë é= Ù 22 ,,~,~ ,~|~~ 1 ),,~,~ ,~|( e t e aYaaEs aYE sqbsqbq . ...(3.12) 48 Para as equações (3.11) e (3.12) considera-se o fato de que a esperança de uma forma quadrática ~~~ xAxt , pode ser calculada como: [ ])~(~)~(~)~()~~~( xVarATrxEAxExAxE tt += . ...(3.13) Portanto as esperanças condicionais de (3.11) e (3.12) são dadas por úû ù êë é úû ù êë é+= Ù ),,~,~ ,~|~(),,~ ,~|~(),,~,~ ,~|~( 1 ),,~,~ ,~|( 2222 2 eee t ee aYeVarTrYeEaYeEN aYE sqbsqbsqbsqbs ...(3.14) e úû ù êë é úû ù êë é+= Ù ),,~,~ ,~|~(),,~,~ ,~|~(),,~,~ ,~|~( 1 ),,~,~ ,~|( 2222 eee t e aYaVarTraYaEaYaEs aYE sqbsqbsqbsqbq . ...(3.15) As variâncias condicionais de ~a e ~e são obtidas a partir da distribuição conjunta ú ú ú ú û ù ê ê ê ê ë é ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ + ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ ~~0~ ~0~~~ ~~~~~~~ , ~0 ~0 ~~ ~ ~ ~ ~ RR DZD RDZRZDZX N e a Y t tb . Além disso sabemos que se ú û ù ê ë é ÷÷ ø ö çç è æ ÷÷ ø ö çç è æ ÷÷ ø ö çç è æ 2221 1211 2 1 2 1 ,~ VV VV N x x m m , então [ ]2112212112212212121 ,)(~| VVVVxVVNxx -- --+ mm . 49 Portanto as variâncias condicionais de ~a e ~e são dadas por: ú ú û ù ê ê ë é ÷÷ ø ö çç è æ +-=+-= - - 122 212 ~~~~~ )~~~~(~~),,~,~ ,~|~( N ete Ne t e IZZIRZDZRRRaYeVar q s q s ssqb , ...(3.16) ú ú û ù ê ê ë é ÷÷ ø ö çç è æ +-=+-= - - ~~~~~~~~ )~~~~(~~~),,~,~ ,~|~( 12 12 ZIZZZIDZZDZRZDDaYaVar N etttt e s q s qsqb . ...(3.17) Como )~~~~~ (),,~,~ ,~|~( 2 aZXYaYeE e --= bsqb e ~),,~,~ ,~|~( 2 aaYaE e =sqb , usando as expressões (3.16) e (3.17) as equações (3.14) e (3.15) podem ser escritas como: ú ú û ù ê ê ë é ú ú û ù ê ê ë é ÷÷ ø ö çç è æ +-+----= - Ù 122 22 2 ~~~~ )~~~~~ ()~~~~~ ( 1 ),,~,~ ,~|( N ete Ne t ee IZZITraZXYaZXYN aYE q s q s sbbsqbs e ú ú û ù ê ê ë é ú ú û ù ê ê ë é ÷÷ ø ö çç è æ +-+= - Ù ~~~~~~~~ 1 ),,~,~ ,~|( 12 2 ZIZZZITraa s aYE N ettt e s q s qsqbq . Então, um processo iterativo estará dado por: ÷÷ ø ö çç è æ +÷÷ ø ö çç è æ += - - - ~)~~~ (~~)~~~ (~~ 1)(2)( 1 1)(2)()( YIZZXXIZZX N m e tmt N m e tmtm sqsqb , ...(3.18) ÷ ø ö ç è æ -÷÷ ø ö çç è æ += - )( 1 )(2)()()( ~~~~~~~~~ m N m e tmtmm XYIZZZa bsqq , ...(3.19) 50 ú ú û ù ê ê ë é ú ú û ù ê ê ë é ÷÷ ø ö çç è æ +-+----= - + 1 )( )(2 )( )(2 )(2)()()()()1(2 ~~~~ )~~~~~ ()~~~~~ ( 1 Nm m et m m e N m e mmtmmm e IZZITraZXYaZXYN q s q s sbbs ... (3.20) e ú ú û ù ê ê ë é ú ú û ù ê ê ë é ÷÷ ø ö çç è æ +-+= - + ~~~~~~~~ 1 1 )( )(2 )()()()1( ZIZZZITraa s Nm m ettmmtmm s q s qq . ... (3.21) O algoritmo funciona do seguinte modo: 1. Decidir os valores iniciais de )0(2es e )0(q . 2. Na etapa M, obter o valor de )( ~ mb , )(~ ma , usando (3.18) e (3.19). 3. Na etapa E, calcular )1(2 +mes e )1( +mq , usando (3.19) e (3.20). 4. Incrementar em 1 unidade o contador se não há convergência. 3.4 Teste de Hipóteses. Como os parâmetros de interesse são ~ b , 2es e q , para fazer testes de hipóteses e intervalos de confianças apropriados, a Função de Escore, obtida na equação (3.6) e a Matriz de Informação de Fisher, obtida na equação (3.7) são necessários para formular alguma hipótese. · Teste de Hipótese sob q H0 : q = 0 H1 : q > 0 51 Estatística: ( )( ) ( )( ) ( )( ) 2 )1(1 ~ cqqq UU t -I , onde ) ~~~ (~~~)~~~ ( 2 1 )~~~(2 1 21 )( bbq XYGZZXYZZGTrU ttt --+-= -- e ( ) ( ) ( ) ( ) ( )( ) 1,1 ,,,1 2222 --- III-I=I eeeet sqssqsqqq . · Teste de Hipótese para 1b que representa a associação entre ~Y e ~X . A hipótese de interes é: H0 : 1b = 0 H1 : 1b ¹ 0. Neste caso, utilizamos a estatística ( )( ) ( )( ) ( )( ) 2 )1(1 ~ cbbb UU t -I , onde, ) ~~~ (~~ 1 )( bb XYGXU t -= - , e ( ) 111 )~~~( --- =I XGX tb . 3.5 Um estudo de Simulação. Para implementar este estudo precisou-se simular o modelo gerando de uma variável )1,0(~ NX , para cada um dos quatro estratos considerados no estudo )4( =s ; cada variável aleatória (efeito do estrato), considerou-se como uma distribuição normal com média zero e variância 1 ( )1=q ( ))1,0(~ Nai ; para o erro considera-se uma distribuição normal com média zero e variância 1 em cada estrato 52 ( 12 =es ), e os parâmetros fixos 10 =b e 11 =b . Neste caso para estudar o desempenho dos estimadores, considerou-se o erro quadrático médio (EQM), para diferentes tamanhos da amostra. Inicialmente consideramos tamanhos das amostras para cada estrato do modo seguinte: n1=4; n2=8; n3=5; n4=7, sendo o tamanho total do experimento igual a N=24. A seguir, para estudar o comportamento dos estimadores em outras situações multiplicamos cada ni por uma constante até fazer 6 vezes o seu tamanho inicial. Para o presente estudo consideramos os algoritmos Fisher Scoring e algoritmo EM. Na notação usada nas tabelas, Erro=viés e D.P.= desvio padrão. Depois de 150 iterações obtemos os seguintes resultados. 1. Os resultados das médias das 150 iterações dos estimadores dos parâmetros para o algoritmo Fisher Scoring são apresentados nas seguintes tabelas: Tabela 3.1.- Estimadores dos parâmetros no Modelo Misto usando o algoritmo de Fisher Scoring para tamanhos das amostras n1=4, n2=8, n3=5, n4=7, N=24. Parâmetro Estimadores Variância D.P. Erro EQM 0b 1,0061 0,22578 0,4752 0,0060592 0,25409 1b 1,0036 0,049998 0,2236 0,0035985 0,052882 q 0,73753 0,11748 0,3428 -0,26247 0,10961 2 es 0,92982 0,096029 0,3099 -0,070178 0,56162 53 Tabela 3.2.- Estimadores dos parâmetros no Modelo Misto usando o algoritmo de Fisher Scoring para tamanhos das amostras n1=8, n2=16, n3=10, n4=14, N=48. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,97448 0,19403 0,4405 -0,02552 0,27432 1b 1,0207 0,022176 0,1489 0,020706 0,026201 q 0,69425 0,099979 0,3162 -0,30575 0,47252 2 es 0,96923 0,044508 0,2110 -0,03077 0,050322 Tabela 3.3.- Estimadores dos parâmetros no Modelo Misto usando o algoritmo de Fisher Scoring para tamanhos das amostras n1=12, n2=24, n3=15, n4=21, N=72. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,99203 0,17664 0,4203 -0,0079 0,32641 1b 0,99666 0,014878 0,1220 -0,0033 0,018229 q 0,65210 0,079983 0,2828 -0,3479 0,36732 2 es 0,99327 0,029561 0,1719 -0,0067 0,028347 Tabela 3.4.- Estimadores dos parâmetros no Modelo Misto usando o algoritmo de Fisher Scoring para tamanhos das amostras n1=16, n2=32, n3=20, n4=28, N=96. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,98454 0,18596 0,4312 -0,0154 0,28736 1b 1,0090 0,010716 0,1035 0,00903 0,010027 q 0,70511 0,093718 0,3061 -0,2948 0,38205 2 es 0,98458 0,021476 0,1465 -0,0154 0,028267 54 Tabela 3.5.- Estimadores dos parâmetros no Modelo Misto usando o algoritmo de Fisher Scoring para tamanhos das amostras n1=20, n2=40, n3=25, n4=35, N=120. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,91993 0,19760 0,4445 -0,0801 0,255501b 0,98807 0,0087376 0,0935 -0,0119 0,0085941 q 0,76046 0,10705 0,3272 -0,2395 0,38864 2 es 0,99906 0,017333 0,1317 -0,0009 0,016900 Tabela 3.6.- Estimadores dos parâmetros no Modelo Misto usando o algoritmo de Fisher Scoring para tamanhos das amostras n1=24, n2=48, n3=30, n4=42, N=144. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,98206 0,19616 0,4429 -0,0179 0,27095 1b 0,98730 0,0070366 0,0839 -0,0127 0,0074691 q 0,76079 0,11454 0,3384 -0,0055 0,48889 2 es 0,99446 0,014244 0,1193 -0,2392 0,017768 Ao considerar todas as tabelas apresentadas percebemos que num modelo de regressão misto sem erros nas variáveis avaliado com o método de Fisher Scoring acontecem os seguintes fatos: · Os estimadores de 0 Ù b , 1 Ù b e 2 e Ù s atingem ao valor paramétrico planejado na simulação. 55 · O estimador de Ù q não atinge ao valor paramétrico planejado na simulação ficando numa faixa compreendida entre 0,6 e 0,8. · O estimador que apresenta menos variabilidade é o estimador 1 Ù b , seguindo em importância a variabilidade de 2 e Ù s . · Os estimadores 0 Ù b e Ù q apresentam maior variabilidade. · O estimador 1 Ù b apresenta pouco viés, sendo seu EQM próximo de zero, sendo este estimador o mais estável. · Quando consideramos ao estimador de 2 e Ù s , observamos que seu EQM atinge ao valor de zero só quando aumentamos o tamanho da amostra. Isto não esta acontecendo com os EQM dos estimadores 0 Ù b e Ù q . · Por outro lado, um intervalo aproximado de 95% de confiança para Ù q , cobre 0,1=q . 56 Gráfico 3.1.- Comportamento dos estimadores na simulação ao usar o algoritmo Fisher Scoring. Avaliação dos estimadores 0 0.2 0.4 0.6 0.8 1 1.2 N=24 N=48 N=72 N=96 N=120 N=144 Tamanhos da amostra V al o re s o b ti d o s betha0 betha1 thetha sigmae No gráfico 3.1 pode notar-se que os estimadores 0 Ù b , 1 Ù b e 2 e Ù s num modelo linear misto sem erros nas variáveis atingem aos valores propostos como parâmetros na simulação, mas os estimadores dos efeitos aleatórios Ù q não atingem ao valor proposto como parâmetro na simulação, ainda quando se aumenta o tamanho da amostra, se estabiliza em um valor por abaixo de 0.8, isto quer dizer que os diferentes tamanhos da amostra afetam o comportamento do estimador ou devido à aleatoriedade de ~i a faz que o estimador se afaste do verdadeiro valor do parâmetro. 57 Gráfico 3.2.- Comportamento dos erros Quadráticos Médios na simulação ao usar o algoritmo Fisher Scoring. Avaliação dos EQM 0 0.1 0.2 0.3 0.4 0.5 0.6 N=24 N=48 N=72 N=96 N=120 N=144 tamanho da amostra E Q M betha0 betha1 thetha sigmae No gráfico 3.2, pode-se ver que os EQM de 1 Ù b e 2 e Ù s a medida que se incrementa o tamanho da amostra estes valores atingem ao valor zero o qual nos permite concluir que estes estimadores são consistentes, enquanto os outros dois 0 Ù b e Ù q não chegam a atingir ao valor de zero, mais vemos que se estabilizam numa faixa de 0,25 e 0,35, mas ainda assim devido à pouca variabilidade podemos dizer que estes estimadores são confiáveis. 58 2. Os resultados finais para o algoritmo EM (Método de Henderson) são apresentados nas seguintes tabelas: Tabela 3.7.- Estimadores do Modelo Misto usando o algoritmo EM para tamanhos das amostras n1=4, n2=8, n3=5, n4=7, N=24. Parâmetro Estimadores Variância D.P. Erro EQM 0b 1,0057 0,22761 0,4771 0,0056912 0,25481 1b 1,0057 0,044114 0,2100 0,0057089 0,053157 q 0,76505 0,12791 0,3576 -0,99659 1,5002 2 es 0,82170 0,074989 0,2738 -1,0109 1,7824 Tabela 3.8.- Estimadores do Modelo Misto usando o algoritmo EM para tamanhos das amostras n1=8, n2=16, n3=10, n4=14, N=48. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,97459 0,19519 0,4418 -0,02541 0,27479 1b 1,0209 0,020614 0,1436 0,020887 0,026254 q 0,70509 0,038346 0,1958 -1,0088 1,5183 2 es 0,90140 0,10461 0,3234 -0,94748 1,6643 Tabela 3.9.- Estimadores do Modelo Misto usando o algoritmo EM para tamanhos das amostras n1=12, n2=24, n3=15, n4=21, N=72. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,99199 0,17752 0,4213 -0,0080 0,32636 1b 0,99675 0,014092 0,1187 -0,0032 0,018215 q 0,65877 0,082506 0,2872 -1,0077 1,7082 2 es 0,94075 0,026424 0,1626 -1,0058 1,5892 59 Tabela 3.10.- Estimadores do Modelo Misto usando o algoritmo EM para tamanhos das amostras n1=16, n2=32, n3=20, n4=28, N=96. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,98458 0,18745 0,4330 -0,0154 0,28750 1b 1,0090 0,010256 0,1013 0,0089971 0,010042 q 0,71299 0,096854 0,3112 -0,95300 1,5449 2 es 0,94242 0,019591 0,1400 -1,0638 1,8902 Tabela 3.11.- Estimadores do Modelo Misto usando o algoritmo EM para tamanhos das amostras n1=20, n2=40, n3=25, n4=35, N=120. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,91976 0,19990 0,4471 -0,0802 0,25533 1b 0,98804 0,0084246 0,0918 -0,0119 0,0086172 q 0,77097 0,11078 0,3328 -1,0177 1,7802 2 es 0,96324 0,016048 0,1267 -0,9435 1,5766 Tabela 3.12.- Estimadores do Modelo Misto usando o algoritmo EM para tamanhos das amostras n1=24, n2=48, n3=30, n4=42, N=144. Parâmetro Estimadores Variância D.P. Erro EQM 0b 0,98208 0,19814 0,4451 -0,0179 0,27109 1b 0,98727 0,0068164 0,0826 -0,0127 0,0074765 q 0,76967 0,11842 0,3441 -1,0567 1,7509 2 es 0,96334 0,013311 0,1154 -1,0423 1,8261 60 Das tabelas anteriormente apresentadas podemos apreciar que com o método de Henderson se obtém comportamentos parecidos ao algoritmo Fisher Scoring, isto é, os estimadores 0 Ù b , 1 Ù b , 2 e Ù s chegam ao valor do parâmetro proposto, enquanto Ù q não. Gráfico 3.3.- Comportamento dos estimadores na simulação usando o algoritmo EM. Avaliação dos estimadores 0 0,2 0,4 0,6 0,8 1 1,2 N=24 N=48 N=72 N=96 N=120 N=144 Tamanhos da amostra V al o re s o b ti d o s betha0 betha1 thetha sigmae Gráfico 3.4.- Comportamento dos estimadores na simulação ao usar o algoritmo EM. Avaliação dos EQM 0 0,5 1 1,5 2 N=24 N=48 N=72 N=96 N=120 N=144 tamanho da amostra E Q M betha0 betha1 thetha sigmae 61 Pode-se notar do gráfico 3.3 que, os estimadores dos parâmetros 0b , 1b e 2 es se aproximam bastante dos valores reais, enquanto que de q não chega a atingir ao valor real mas se aproxima a medida que o tamanho da amostra aumentam, possivelmente pelos diferentes tamanhos da amostra por estratos. Note-se também que o estimador de 2 es demora para atingir 1, o que acontece quando aumentamos o tamanho da amostra. Quando avaliamos o gráfico dos Erros Quadráticos Médios no gráfico 3.4, nota-se que ao aumentar o tamanho da amostra, o EQM do estimador de 1b tende a zero, o estimador de 0b manteve-se estável numa faixa de 0,2 a 0,4, enquanto que os EQM dos estimadores de q e 2es , são os mais variáveis que os outros dois EQM. Sem fazemos uma comparação entre o algoritmo de Fisher Scoring e o algoritmo EM, encontramos que os estimadores obtidos pelo algoritmo de Fisher Scoring são mais precisos que os estimadores obtidos pelo algoritmo EM posto que os EQM no
Compartilhar