Baixe o app para aproveitar ainda mais
Prévia do material em texto
Gisele Nascimento Patrícia Ferreira de Araújo Estudo acerca do coeficiente de determina- ção nos modelos lineares e algumas genera- lizações. Trabalho de conclusão de curso apresentado para a disciplina Laboratório de Estatística II do curso Bacharelado em Estatística do Setor de Ciências Exatas, da Universidade Federal do Paraná. Orientador: Prof. Fernando L. Pérez Curitiba – PR Junho 2009 2 ESTUDO ACERCA DO COEFICIENTE DE DETERMINAÇÃO NOS MODELOS LINEARES E ALGUMAS GENERALIZAÇÕES Alunas: Gisele Nascimento e Patrícia Ferreira de Araújo Departamento de Estatística Universidade Federal do Paraná RESUMO Nos modelos de regressão uma das medidas da qualidade do ajuste é o chamado coeficiente de determinação ou R². A definição mais conhecida desta medida é especifica dos modelos de regressão lineares com resposta Gaussiana. Com o desenvolvimento de novos modelos de regressão, como os modelos lineares generalizados e outros, faz-se necessário procurar formas mais gerais de definir o R². Estudaremos duas propostas de generalizar o R² a modelos de regressão não gaussianos, os chamados R² de Nagelkerke e o R² de Kullback – Liebler. Mostraremos a utilização destes coeficientes de qualidade do ajuste através de três exemplos. Palavras-chave: Modelos de regressão, Coeficiente de determinação, Modelos lineares generalizados, Modelos de regressão família exponencial. Sumário 1. INTRODUÇÃO .......................................................................................................................................... 4 2. EXTENSÕES DO R² ................................................................................................................................ 10 2.1 R² DE NAGELKERKE ................................................................................................................................... 10 2.2 R² DE KULLBACK - LEIBLER ....................................................................................................................... 12 2.2.1. Modelos de regressão na família exponencial de densidades .......................................................... 12 2.2.2. Dissimilaridade de Kullback-Liebler ............................................................................................. 13 3. EXEMPLOS ILUSTRATIVOS................................................................................................................ 17 3.1. REGRESSÃO LOGÍSTICA ...................................................................................................................... 17 3.2. REGRESSÃO POISSON.......................................................................................................................... 18 3.3. REGRESSÃO GAMA............................................................................................................................. 18 4. DISCUSSÃO ............................................................................................................................................. 19 5. BIBLIOGRAFIA ...................................................................................................................................... 21 6. ANEXOS................................................................................................................................................... 22 6.1 COMANDOS DO R ....................................................................................................................................... 22 4 1. Introdução Este trabalho tem por objetivo estudar propriedades importantes do coeficiente de determi- nação R² no contexto dos modelos lineares assim como algumas das generalizações a outros modelos de regressão. Comecemos então pela definição de coeficiente de determinação R² que é uma medida de bondade do ajuste do modelo selecionado e também uma medida de precisão na predição, tanto de novas observações quanto da média de novas observações, do modelo de regressão linear. Uma medida eficaz de calcular a relação entre duas variáveis aleatórias é o coeficiente de correlação e o coeficiente de determinação é justamente a correlação ao quadrado entre as observações y e os valores preditos pelo modelo µ̂ . Definido como: { }µ,ycorr=R i ˆ 22 , (1) ou simplesmente ( ) ( )∑ ∑ − − − n =i i n =i ii yy µy =R 1 2 1 2 2 ˆ 1 , (2) onde yi são observações independentes, iµ̂ os correspondentes valores preditos pelo mode- lo de regressão linear normal iipPi110i ε+xβ++xβ+β=y ... (3) e y o correspondente valor predito pelo modelo yi =β0 +εi (4) Nestes modelos )N(ε,,ε ni 0,1~... , independentes são conhecidos como erros aleatórios. Lembremos que ippi110ii xβ++xβ+β=µ=)E(y ... e y=β=µ 0ˆˆ , no caso do modelo (4). 5 Podemos afirmar que R² é uma medida de proporção que a soma de quadrados dos desvi- os de cada iy em relação a y pode ser explicada pelas covariáveis nx,,x ......1 . Então, o R² é uma medida de bondade do ajuste do modelo (3), incluindo as covariáveis, em relação do mo- delo (4), no qual nenhuma das covariáveis é considerada. Assim para conjunto de dados com variável dependente, valor de R² perto de 1 reflete o acréscimo na capacidade de predição do modelo de regressão, ignorando a perda de informação devido à possível perda de graus de liberdade. Por exemplo, os dados mostrados da Figura 1 (a) foram gerados pelo modelo iii ε++=y 4x2 satisfazendo que { } 9var =yi e cada )N(εi 0,1~ , 201,......,=i . As estimati- vas do modelo ajustado são quase perfeitas, como pode ser observado a seguir, assim como o valor do coeficiente de determinação R 2= 0,9655 . Na outra situação considerada, agora na Figura 1 (b), em casos onde não faz sentido um modelo de regressão o R² reflete isso, o valor deste coeficiente é R 2= 0,007684 , indicando independência entre a variável explicativa e a variável resposta. O modelo estimado para os dados mostrados na Figura 1 (a) é x+=y 4.13861.6358ˆ e para os dados mostrados na Figura 1 (b) é x+=y 0,130237.3627ˆ . O coeficiente de determinação satisfaz algumas propriedades interessantes. Uma delas nos permite melhor interpretar o R², esta propriedade nos diz que 0≤ R 2 ≤ 1 . Podemos perceber que R 2= 0 somente quando { } y=yE , como é o caso do modelo (4), nesta situação { } 0i β=µ=yE , y=β=µ 0ˆˆ , logo ∑∑ −− n =i i n =i i )y(y=)µ(y 1 22 1 ˆ e 01 1 2 1 2 2 = )y(y )y(y =R n =i i n =i i ∑ ∑ − − − 6 Figura 1: Diferentes modelos de regressão linear simples, (a) ajuste perfeito, (b) modelo errado, nesta situação não faz sentido um modelo de regressão. Interpretamos então que 02 ≈R o modelo não é apropriado para explicar a variável reposta através das variáveis explicativas selecionadas, significando que R² é uma medida da utilidade dos outros termos além do 0β no modelo. Para provar que o R² é limitado superiormente por 1 observaremos primeiro que podemos escrever: . ˆ 1 2 1 2 2 ∑ ∑ − − n =i i n =i i )y(y )yµ( =R Assim, para provar que R 2 ≤ 1 devemos provar que .ˆ YYYXβ TTT ≤ Utilizando as expressões dos estimadores do modelo linear, temos que: HY,Y=YXX)X(XY=YXβ TTTTTT 1ˆ − onde TT XX)X(X=H 1− é uma matriz simétrica e idempotente, ou seja, .H=HH=HHTT Observemos que H)Y,(IY=HYYIYY=YXβYY TTTTTT −−− ˆ o objetivo agora é demonstrar que H)Y(IY T − é uma forma quadrática positiva. Para isso de- vemos provar que HI − é uma matriz definida positiva. Sabemos que a matriz H é simétrica e uma condição necessária e suficiente para uma matriz simétrica ser definida positiva é que e- xista uma matriz não singular P, tal que, PP=HI T− (Rao, 1973). 7 Nesta situação H),(I=H)(IH)(I=H)H)(I(I TT −−−−− logo HI − além de idempotente é definida positiva, portanto: 0,≥− H)Y(IY T ou seja, H)Y(IY T − é uma forma quadrática definida positiva, logo YXβYY TTT ˆ≥ , concluindo- se que 1.2 ≤R Um modelo cujo ajuste seja perfeito implicaria que ii y=µ̂ , portanto ∑ − n =i ii =)µ(y 1 2 0ˆ e conseqüentemente R 2= 1 significando que quanto mais próximo de 1 estivasse o valor do co- eficiente de determinação melhor o ajuste aos dados do modelo proposto. É importante notar que altos valores de R² não necessariamente implicam que o modelo de regressão está bem ajustado. Adicionando variáveis regressoras podemos incrementar o valor de R² sem importar se as novas variáveis regressoras contribuem de fato para o modelo. Então é possível que alguns modelos tenham grandes valores de R² e sua qualidade seja ruim para estimação ou predição de novas observações. x1 y1 x2 y2 x3 y3 x4 y4 10 8.04 10 9.14 10 7.46 8 6.58 8 6.95 8 8.14 8 6.77 8 5.76 13 7.58 13 8.74 13 12.74 8 7.71 9 8.81 9 8.77 9 7.11 8 8.84 11 8.33 11 9.26 11 7.81 8 8.47 14 9.96 14 8.10 14 8.84 8 7.04 6 7.24 6 6.13 6 6.08 8 5.25 4 4.26 4 3.10 4 5.39 19 12.50 12 10.84 12 9.13 12 8.15 8 5.56 7 4.82 7 7.26 7 6.42 8 7.91 5 5.68 5 4.74 5 5.73 8 6.89 média 9 7.5 9 7.5 9 7.5 9 7.5 variância 11 4.12 11 4,12 11 4,12 11 4,12 correlação 0.82 0.82 0.82 0.82 Tabela 1: Quadro conjunto de dados Anscombe e medidas descritivas assim como correlação entre x e y em cada caso. Podemos visualizar isto através dos exemplos em Anscombe (1973). Nesse trabalho o autor apresentou quatro conjuntos de dados com as mesmas médias, variâncias e correlação entre as variáveis respostas e explicativa. Estes dados são reproduzidos na Tabela 1. 8 Algumas estatísticas descritivas importantes destes dados, como média, variância e correlação entre x e y e outras, assumem os mesmos valores e, portanto, as retas de regressão também coincidem. Outras estatísticas descritivas que não influenciam na estimação da reta de regressão não coincidem, como é o caso da mediana e os valores extremos. As estimativas do modelo de regressão )N(εε,+xβ+β=y 10 0,1~11 aparecem na Tabela 2 e são comuns a todos os outros modelos, ou seja, as estimativas dos modelos de regressão relacionados os pares de variáveis )y,)e(xy,(x),y,(x),y,(x 4321 4321 coincidem, sendo que o R 2= 0,665 e o desvio padrão dos resíduos é 1,2370. Também são comuns os resultados da análise de variância da regressão. Desvio Coeficientes Estimativas padrão tobs (P>|tobs|) Intercepto 3.0001 11.1247 2.6670 0.0257 x1 0.5001 0.1179 4.2410 0.0021 Tabela 2: Tabela de análise de regressão No entanto, observando a Figura 2 fica claro que simplesmente com o valor R² não seria possível perceber que nos conjuntos de dados N°2 e N°4 um modelo de regressão linear não faz sentido, no conjunto N°2 devemos transformar a variável explicativa para obtermos um me- lhor ajuste e no conjunto de dados N° 4 não existe relação alguma entre a variável explicativa e resposta. No caso do conjunto de dados N°3 existe uma observação muito diferente das outras que atrapalha completamente e que somente no conjunto de dados N°1 existe uma relação li- near entre a covariável e a resposta. Uma outra propriedade do R² é que ele é crescente conforme aumenta o número de variá- veis explicativas, mesmo que as novas variáveis acrescidas nada tenham a ver com a respos- ta. Devemos lembrar que o procedimento de estimação implica na minimização da função no espaço de parâmetros da regressão, isto é, em R P . ∑ − n =i ii β)x(y 1 2 9 Acontece que se aumentamos em uma dimensão deste espaço, pela inclusão de uma vari- ável explicativa ao modelo, a estimação no espaço de dimensão p seria uma minimização res- trita no espaço de dimensão p+1, e sabemos por cálculo que mínimos restritos são maiores do que mínimos absolutos. Logo o R² obtido no modelo de ordem p é ligeiramente menor do que o R² obtido no modelo de ordem p+1. Figura 2: Gráfico de dispersão e reta de regressão estimada para cada um dos conjuntos de dados apresentados na Tabela 1. Esta propriedade nos diz que adicionando infinitas covariáveis ao modelo, mesmo que não tenham nada a ver com o problema em questão, podemos artificialmente melhorar o coeficien- te de determinação. Por este motivo o R² serve para medir a qualidade do ajuste, mas não é o mais apropriado para comparar modelos, com esse objetivo é recomendado o R² ajustado, de- finido com: 1 1 11 22 −− − −− pn n )R(=Radj (6) e o Critério de Akaike (Akaike, 1974). 10 2. Extensões do R² 2.1 R² DE NAGELKERKE Este coeficiente de determinação foi estudado em diversos trabalhos durante os anos 80 e 90, mas foi no artigo de Nagelkerke(1991) que estudaram-se suas propriedades e onde foi a- presentado de uma maneira mais geral, por esse motivo se atribui o nome Nagelkerke. No arti- go referido é discutida uma generalização do coeficiente de determinação R² para modelos de regressão gerais e uma modificação da definição deste novo R2 permite que se proponha para modelos discretos. A utilização do R², o coeficiente de determinação, também chamado de coeficiente de corre- lação múltipla, está bem estabelecido na análise clássica (Rao, 1973). A sua definição como a proporção de variância "explicada" pelo modelo de regressão faz com que seja útil como uma medida de sucesso da predição da variável dependente a partir das variáveis independentes. É conveniente generalizar a definição de R² para modelos mais gerais, para os quais o con- ceito da variância residual não pode ser facilmente definido e a máxima verossimilhança é o critério de ajuste. A seguinte generalização foi proposta por Cox & Snell (1989, pp. 208-9) e, aparentemente independente, por Magee (1990), mas haviam sido sugeridos anteriormente para modelos de resposta binária por Maddala (1983), { })l()βl( n =)R( 0ˆ 2 1log 2 −−− ( 1a ) ou { } { } n)βL()L(=)l()βl( n =R /22 ˆ/010ˆ 2 exp1 − −−− ( 1b ) onde, )βl( ˆ =log )βL( ˆ e =)l( 0 log )L( 0 indicam a log da verossimilhança do modelo ajustado e do modelo nulo, respectivamente. O R² geral definido em (1b) foi estudado por 11 Nalgelkerke (1991), como mencionamos, e por esse motivo chama-se de R2 de Nagelkerke e escreve-se como R2N. É possível estabelecer que o R²N , tem as seguintes propriedades: 1. É coerente com o R² clássico, que é a definição geral aplicada, por exemplo, na regres- são linear. Isto significa que se a distribuição da variável resposta é normal e o modelo de regressão linear, então, o R2N coincide com o R2 clássico. 2. É coerente com os estimadores de máxima verossimilhança dos parâmetros do modelo que maximizam o R², ou seja, o R2N depende das estimativas de máxima verossimi- lhança dos parâmetros do modelo. 3. É assintóticamente independente do tamanho da amostra n. 4. Interpreta-se como a proporção da “variação” explicada, ou seja, 1-R²N, tem a interpre- tação da proporção não explicada da “variação”. A variação deve ser entendida como qualquer medida de distância. 5. É adimensional, ou seja, não depende da unidade de medida utilizada. Para esclarecer vamosconsiderar o modelo M1 = M2 * M3, por exemplo, o modelo M1 contendo apenas a covariável x1, por exemplo, uma constante, enquanto M2 contém x2 e x1 e M3 contém x1, x2 e x3. Se 2 2.1R indica o R²N do modelo M2 em relação à M1 etc..., então: )R)(R(=)R( 22.1 2 3.2 2 3.1 111 −−− ( 2 ) Em outras palavras, a proporção de variação não explicada pelo modelo M3 relativamente ao modelo M1 é o produto da proporção não explicada por M3 em relação a M2 e a proporção não explicada por M2 em relação a M1. No entanto, o R²N assim definido atinge um valor máximo teórico de menos de 1 para mo- delos discretos, ou seja, modelos cuja variável resposta é discreta. É o caso de situações parti- culares importantes nos modelos lineares generalizados como os modelos de regressão logís- tica e log-linear nos quais as distribuições das variáveis respostas são Bernoulli ou Binomial e Poisson, respectivamente. Este máximo é igual a: { } n)L(=)l(=)(R /212 0102nexp1max −− − 12 Para a regressão logística, com 50% de Y = 1 e 50% de Y = 0 observações, este máximo é igual a 0.75. Este máximo ocorre quando todas as observações são preditas com probabilida- de máxima, isto é P{ Y=1 } = 1 para as observações com Y = 1, e Pr{ Y=1} = 0 para Y = 0 ob- servações. Isto é claramente inaceitável para um coeficiente R². Foi proposto, portanto, de redefinir co- mo R²N: )(RR=R 2 22 /max As propriedades 1, 2, 3 e 5 são automaticamente satisfeitas, segundo afirma Nagelker- ke(1991). Para este mesmo R²N, a propriedade 4 é mais difícil de estabelecer. No entanto, po- de afirmar-se que: { } { } )R(=)(R)(R 22.123.222.1 1logmax1logmax1log −−−− ( 4 ) e desta forma, o critério na propriedade 4 também pode ser estabelecido para manter o R²N corrigido pelo seu máximo teórico. 2.2 R² DE KULLBACK - LEIBLER Como mencionado, para modelos de regressão linear o coeficiente de determinação R² é amplamente utilizado, pois é uma boa medida do ajuste cujas utilidades e limitações são co- nhecidas. A aplicação desta medida para modelos não lineares geralmente conduz a uma me- dida que pode estar fora do intervalo [0,1] e diminui quando regressoras são adicionadas. Algumas alternativas para R² foram especialmente construídas para modelos não lineares usando uma variedade de métodos. Aqui estudaremos mais uma proposta de generalização deste coeficiente, nesta vez utilizará a chamada dissimilaridade Kullback-Liebler e mostrare- mos as expressões correspondentes quando a variável resposta pertence à família exponencial de distribuições. 2.2.1. Modelos de regressão na família exponencial de densidades Suponhamos que a variável dependente Y tem uma distribuição na família exponencial de densidades da forma: 13 )()](exp[);0 yhby(yf θθθ −= onde, θ é o parâmetro canônico, )(θb é a função normalizadora e h(y) é uma função conheci- da. Diferentes θ)b( correspondem a diferentes distribuições. A média de Y, denotada µ é igual a derivada )(θb' , e pode ser demonstrado que é uma função monótona em θ . Regressoras são introduzidas pela especificação de µ como uma função do preditor linear η=x’β, onde x é o vetor de regressoras e β é um desconhecido vetor de parâmetros. Modelos obtidos por diversas escolhas de )(θb e funções de η são chamados modelos lineares gene- ralizados. A função que relaciona a média µ com o preditor linear η=x’β é chamada de função de ligação e é tal que g(µ)=η. O vetor de parâmetros β é estimado por máxima verossimilhança, denotando o estimador como β̂ , baseado na amostra independente { },n,=i),x,(y ii 1,.... com )(yf=)(yf j i µi i µ para ji µ=µ . A estimativa da média para uma observação com regressor x é denotada por )βµ(x'=µ ˆˆ . Por tudo assumimos que o modelo inclui um termo constante. A estimativa da média da resposta quando o modelo assume somente um termo constante é denotada por 0µ̂ . 2.2.2. Dissimilaridade de Kullback-Liebler A medida padrão da informação contida nas observações em uma densidade ( )yf é a informação esperada ou entropia Shannon’s, definida como (f(y))]E[ log . Esta é a base para medir o nível de discrepância entre duas densidades ou divergência de Kullback-Lieber, por- posta em Kullback e Liebler(1959). Considere duas densidades, denotada por (y)fµ1 e (y)fµ2 , parametrizadas apenas pela mé- dia. Neste caso, a fórmula geral para a dissimilaridade ou divergência de Kullback-Leibler (KL) é (y)],f(y)[fE)µ,K( µ µµµ2 2111 /log2≡ (5) quando um segundo fator é adicionado por conveniência, e 1µ E denota expectativa tomada com relação à densidade )µ,K(µ(y)f 2µ 11 . é a informação de 1µ no que diz respeito a 14 2µ e é uma medida de quão próximo 1µ está de 2µ . O termo divergência, em vez de dis- tância é usado porque não satisfazem em geral a simetria triangular e propriedades de uma distância medida. Contudo, 01 ≥)µ,K(µ 2 com igualdade se 21 µµ ff ≡ . Além de (y)fµ1 e (y)fµ2 nós também consideramos a densidade (y)f y , para os quais a mé- dia é igual ao conjunto realizado y. Em seguida, o Kullback-Leibler (KL) divergência µ)K(y, pode ser definido de maneira análoga a (2) (y)]dyf(y)[f(y)f=(y)]f(y)[fEµ)K(y, µyyµyy /log2/log2 ∫≡ (3) A variável aleatória µ)K(y, é uma medida do desvio da média µ . Para a família expo- nencial, Hastie (1987) e Vos (1991) mostram que a expectativa em (3) cai fora e: (y)]f(y)[fµ)K(y, µy /2log≡ No modelo estimado com n indivíduos o estimador Kullback-Leibler (KL) da divergência entre n-vetores y e µ̂ é igual ao dobro da diferença entre o valor máximo do log da verossimilhança possível, isto é, o log da verossimilhança em um modelo completo com o maior número de parâmetros como observações y),l(y ,' e o log da verossimilhança alcançado pelo modelo sob investigação em y),µl( ˆ : y)];µl(y)[l(y;=)](yf)(yf[=)µK(y, i n =i i µi i y ˆ2loglog2ˆ 1 ˆ −−∑ (4) Deixe 0µ̂ denotar o n-vetor com entradas 0µ̂ , o ajuste da máxima verossimilhança estima média da constante do modelo somente. Nós interpretamos )µK(y, 0ˆ como a estimativa das informações, de dados sobre a amostra y potencialmente recuperável pela inclusão de re- gressoras. É a diferença entre a informação contida na amostra de dados sobre y, e os estima- dos usando informações 0µ̂ , a melhor estimativa pontual quando os dados sobre regresso- ras não são utilizadas, onde a informação é medida pela expectativa tomar no que diz respeito ao valor observado y. Ao escolher 0µ̂ para ser o MLE, )µK(y, 0ˆ é minimizado. O R² proposto é a redução proporcional na presente potencialmente recuperável alcançado pelo modelo de regressão: )µK(Y,)µK(Y,=R KL 0 2 ˆ/ˆ1 − (5) 15 Esta medida pode ser utilizada para ajuste de médias obtidas por qualquer método de esti- mação.Na seguinte proposição que restringem a atenção para estimativa ML (que minimiza )ˆ,( µyK ). Proposição : Para ML estimativas dos modelos de regressão da família exponencial baseada na densidade (1), definido em 2KLR (5) tem as seguintes propriedades: 1. RKL 2 não é aumentado quando regressoras são adicionadas. 2. 0≤ RKL 2 ≤ 1 . 3. RKL 2 é um escalar múltiplo da razão da verossimilhança teste para a significância conjunta da variável explicativa. 4. 2KLR iguala a razão de verossimilhança índice y);µl(y);µl( 0ˆ/ˆ1− se e somente se 0.=y)l(y; 5. 2KLR medida da redução proporcional na recuperável informação devido à inclusão de re- gressores, onde a informação é medidapela estimativa Kullback-Leibler divergência (4). Propriedade 4 é de interesse, tal como o índice da razão de verossimilhança, que mede a redução proporcional no log da verossimillhança devido à inclusão de regressoras, por vezes é proposto como uma medida pseudo R² geral. Igualmente ocorre para o modelo Bernoulli, mas em geral o índice da razão de verossimilhança difere e, para outros modelos discretos a variá- vel dependente, é mais pessimista no que se refere à contribuição de regressores, como 0.≤y)l(y; No caso contínuo, grandes valores (positivos ou negativos) do índice da razão de verossimilhança podem ocorrer se y);µl( 0ˆ é perto de zero (positivo ou negativo). Em contra- partida 2KLR será sempre limitada por zero e um. A última propriedade define uma informação teórica para 2KLR . Um aspecto interessante é que a expressão de )ˆ,( µyK em (4) equivale a definição deviance. Portanto 2KLR pode ser interpretado como sendo baseada na deviance residual. A tabela a seguir lista as expressões para o 2KLR em diversos modelos de regressão gene- ralizados: normal, Bernoulli, binomial, Poisson, geométrica, exponencial, gama e normal inversa. 16 17 3. Exemplos Ilustrativos 3.1. REGRESSÃO LOGÍSTICA Utilizaremos como primeiro exemplo dados de um estudo caso-controle sobre câncer de esôfago (Gimeno & Souza, 1995). Oitenta e cinco casos de câncer de esôfago foram compara- dos com 292 controles hospitalares, classificados segundo sexo, idade e os hábitos de beber e fumar. O hábito de beber foi considerado fator de risco de principal interesse. Os dados utilizados no estudo de referência foram reproduzidos na Tabela 3.1. Nela obser- vamos que a variável idade foi dividida em dois grupos: “menor”, os menores de 57 anos inclu- sive e “maior” os maiores de 57 anos de idade. Tabela 3.1 – Dados de um estudo caso-controle sobre câncer de esôfago (Gimeno & Souza, 1995). Sexo Idade Bebe Fuma Caso Controle Total Feminino menor N N 3 30 33 Feminino menor N S 0 15 15 Feminino menor S N 0 14 14 Feminino menor S S 5 13 18 Feminino maior N N 2 41 43 Feminino maior N S 3 8 11 Feminino maior S N 0 6 6 Feminino maior S S 3 2 5 Masculino menor N N 0 9 9 Masculino menor N S 2 12 14 Masculino menor S N 1 8 9 Masculino menor S S 40 58 98 Masculino maior N N 0 6 6 Masculino maior N S 0 19 19 Masculino maior S N 0 4 4 Masculino maior S S 26 47 73 Um primeiro ajuste do modelo de regressão logística foi realizado com todas as variáveis explicativas: sexo, idade, bebe e fuma. Obteve-se que somente a variável bebe e fuma foram significativas. Além disso, verificou-se, através do método AIC, que a melhor função de ligação é a complementar log-log. Após achamos o melhor modelo calculamos o 2NR e 2 KLR , utilizando- se os resultados mostrados a seguir: 0,97142 =RN e 0,6976 2 =RKL . 18 3.2. REGRESSÃO POISSON A tabela 3.2 (exemplo 6, pág. 21, livro de Clarice G,B. Demétrio et all.) mostra os dados refe- rentes à contagem de partículas de vírus para 5 diluições diferentes, sendo que foram usadas 4 repetições para as 4 primeiras diluições e 5 repetições para a última diluição. O objetivo do ex- perimento era estimar o número de partículas de vírus por unidade de volume. Tabela 3.2: Números de partículas de vírus para 5 diluições diferentes. Diluição Contagens 0,3162 13 14 17 22 - 0,1778 9 14 6 14 - 0,1000 4 4 3 5 - 0,0562 3 2 1 3 - 0,0316 2 1 3 2 2 0,98612 =RN e 0,8682 2 =RKL . 3.3. REGRESSÃO GAMA Na tabela abaixo são apresentados os resultados de um experimento em que a resistência (em horas) de um determinado tipo de vidro foi avaliada segundo quatro níveis de voltagem (em kilovolts) e duas temperaturas (em graus Celsius). Estes dados aparecem no livro Statisti- cal Models and Methods for Uniforme Data, Lawless (1982), pág.338. Voltagem (kV) Temperatura (°C) 200 250 300 350 439 572 315 258 904 690 315 258 1092 904 439 347 170 1105 1090 628 588 959 216 241 241 1065 315 315 241 1065 455 332 435 180 1087 473 380 455 0,64802 =RN e 0,6369 2 =RKL . 19 4. Discussão Mostramos duas formas de generalizar o 2R conhecido do modelo de regressão linear, chamadas 2NR proposto por vários pesquisadores e estudadas suas propriedades por Nalgel- kerke (1991) e 2 KLR , o qual é baseado na divergência de Kullback-Leibler, proposto por Ca- meron e Windmeijer (1996). Neste trabalho aplicamos as duas generalizações a situações particulares dos modelos li- neares generalizados, os quais sabidamente pertencem à família exponencial de densidade: modelos gama, logístico e Poisson. Observamos que nos modelos contínuos, isto é, nos modelos de regressão normal e gama os coeficientes 2NR e 2 KLR coincidem aproximadamente. Nos modelos de regressão discretos: logístico e Poisson, observamos uma grande divergência entre os valores obtidos dos coefici- entes 2NR e 2 KLR . Para responder à questão em qual coeficiente de determinação confiar, nas situações discretas, decidimos mostrar comparativamente as observações e estimativas obtidas em cada situação. Sempre lembrando que os resultados apresentados são referentes ao modelo esco- lhido como melhor. A figura (3a) mostra os valores observados e preditos no exemplo de regressão Poisson. Observamos que, embora bem ajustado, a variabilidade das observações para cada covariável não permitiria altos valores de 2R , logo confiamos no resultado obtido com o coeficiente de determinação RKL 2 , baseado na dissimilaridade de Kullbak-Liebler. A figura (3b) mostra as proporções observadas e estimadas no exemplo de regressão logís- tica. Neste caso, os pontos vermelhos indicam as estimativas obtidas pelo modelo escolhido, também observamos que o valor do coeficiente de determinação não deve ser muito elevado. Logo confiamos no resultado obtido com o coeficiente de determinação RKL 2 . 20 Regressão Poisson (3a) Regressão Logística (3b) Figura 3: Gráfico de valores observados e valores preditos. Como um dos resultados do estudo aqui desenvolvido podemos afirmar que o 2KLR subestima o valor do coeficiente de determinação nos modelos discretos. Também podemos afirmar que o valor dos coeficientes 2NR e 2 KLR são aproximadamente iguais nos modelos contínuos. Uma afirmação de Nagelkerke (1991) faz toda a diferença nas aplicações práticas, o valor máximo de 2NR é menor do que 1, logo este coeficiente é utilizado corrigido pelo seu valor máximo. Esta correção mostra que o 2KLR subestima o coeficiente de determinação nos modelos discretos, a menos um valor desconhecido por nós, a partir do qual 2KLR deve ser maior do que 2NR . Isto seria um tema de trabalhos futuros de grande interesse. Baseados nossos conhecimentos atuais, sugerimos dar preferência ao coeficiente de de- terminação 2 KLR nos modelos discretos. Nos modelos contínuos é indiferente a utilização de 2 KLR ou 2 NR . 21 5. Bibliografia � Anscombe, F.J. (1973). Graphs in statistical analysis. The American Statistician, 27, 17- 21. � Cox, D. R. (1972). Regression models and life tables (with discussion). J. R. Ststist. Soc. B34, 187-220. � Akaike, H. (1974). A new look at the statistical model identification. IEEE Transaction on Automatic Contrl, AC-19, 715-723. � Cox, D. R. (1975). Partial likelihood. Biometrika 62, 269-76. � Cox, D. R. & SNELL, E. J. (1989). The Analysis of Binary Data, 2nd ed. London: Chap- man and Hall. � Maddala, G. S. (1983). Limited-Dependent andQualitative Variables in Econometrics. Cambridge University Press. � Magee, L. (1990). R² measures base don Wald and likehood ratio joint significance tes- tes. Am. Statistician 44, 250-3. � Rao, C. R. (1973). Linear Statistical Inference and its Applications, 2nd ed.New York: Wiley. � Rao, C.R. (1973). Linear Statistical Inference and its Applications. John Wiley and Sons, second edition. � Gimeno, S.G.A. e Souza, J.M.P. (1995). Utilização de estratificação e modelo de re- gressão logística na análise de dados de estudos caso-controle. Revista de Saúde Pú- blica, Vol. 29 n°4, pp. 283-289. � Lawless, J.F. (1982). Statistical Models and Methods for Lifetime Data. John Wiley, New York. 22 6. Anexos 6.1 COMANDOS DO R Exemplo Regressão Logística # # Exemplo de regressão logística # # Gimeno & Souza (1995). Utilização de estratificação e modelo de regressão logítica # na análise de dados de estudos casos-controle. # # Revista de Saúde Pública, Vol.29, No.4, pp.283-289 # # Dados # Sexo=c(rep("Feminino",8),rep("Masculino",8)) Sexo=factor(Sexo) Idade=c(rep(c(rep("menos",4),rep("mais",4)),2)) Idade=factor(Idade) Bebe=c(rep(c("N","N","S","S"),4)) Bebe=factor(Bebe) Fuma=c(rep(c("N","S"),8)) Fuma=factor(Fuma) Caso=c(3,0,0,5,2,3,0,3,0,2,1,40,0,0,0,26) Controle=c(30,15,14,13,41,8,6,2,9,12,8,58,6,19,4,47) # # Modelo de regressão logística # ajuste1=glm(cbind(Caso,Controle)~Sexo+Idade+Bebe+Fuma,family=binomial(link='logit')) summary(ajuste1) # ajuste2=glm(cbind(Caso,Controle)~Sexo+Idade+Bebe+Fuma,family=binomial(link='probit')) summary(ajuste2) # ajuste3=glm(cbind(Caso,Controle)~Sexo+Idade+Bebe+Fuma,family=binomial(link='cloglog')) summary(ajuste3) # # Escolha de modelo # AIC(ajuste1,ajuste2,ajuste3) # step(ajuste3) ajuste3.final=update(ajuste3,.~.-Sexo-Idade) summary(ajuste3.final) # # Calculando o R² Nagelkerke # ajuste0=glm(cbind(Caso,Controle)~1,family=binomial(link='cloglog')) 23 # n=length(Caso) # RN=1-exp(-2*(logLik(ajuste3.final)[1]-logLik(ajuste0)[1])/n) RN # # Calculando o valor máximo de RN # Rmax=1-exp(2*logLik(ajuste0)[1]/n) Rmax # # Calculando o R² Nagelkerke corrigido pelo valor máximo # RN/Rmax # # Calculando o R² Kullback-Liebler # media.y=mean(Caso/Controle) # numerador=sum(fitted(ajuste3.final)*log(fitted(ajuste3.final))+(Controle- fitted(ajuste3.final)*log(Controle-fitted(ajuste3.final)))) denominador=sum(media.y*log(media.y)+(Controle-media.y)*log(Controle-media.y)) # RKL=1-numerador/denominador RKL 24 Exemplo Regressão Poisson # Exemplo 6, pág. 21, livro de Clarice G,B. Demétrio et all. # diluicao=c(rep(0.3162,4),rep(0.1778,4),rep(0.1000,4),rep(0.0565,4),rep(0.0316,5)) Contagem=c(13,14,17,22,9,14,6,14,4,4,3,5,3,2,1,3,2,1,3,2,2) # ajuste1=glm(Contagem~diluicao,family=poisson(link='log')) summary(ajuste1) # ajuste2=glm(Contagem~diluicao,family=poisson(link='identity')) summary(ajuste2) # ajuste3=glm(Contagem~diluicao,family=poisson(link='sqrt')) summary(ajuste3) # AIC(ajuste1,ajuste2,ajuste3) # par(mfrow=c(2,3)) plot(ajuste2,which=1:6) # # Calculando o R² Nagelkerke # ajuste0=glm(Contagem~1,family=poisson(link='log')) # n=length(Contagem) # RN=1-exp(-2*(logLik(ajuste2)[1]-logLik(ajuste0)[1])/n) RN # # Calculando o valor máximo de RN # Rmax=1-exp(2*logLik(ajuste0)[1]/n) Rmax # # Calculando o R² Nagelkerke corrigido pelo valor máximo # RN/Rmax # # Calculando o R² Kullback-Liebler # media.y=mean(Contagem) # RKL=1-sum(Contagem*log(Contagem/fitted(ajuste2))-(Contagem- fitted(ajuste2)))/sum(Contagem*log(Contagem/media.y)) RKL 25 Exemplo Regressão Gama # Exemplo do livro de Lawless, 1982, pág. 338) # dados=read.table("http://people.ufpr.br/~lucambio/CE225/1S2009/vidro.dat",h=T) # names(dados) attach(dados) # Voltagem=factor(Voltagem) Temperatura=factor(Temperatura) # # Modelo de regressão gama # ajuste1=glm(TMresist~Voltagem+Temperatura,family=Gamma(link='inverse')) summary(ajuste1) # ajuste2=glm(TMresist~Voltagem+Temperatura,family=Gamma(link='identity')) summary(ajuste2) # ajuste3=glm(TMresist~Voltagem+Temperatura,family=Gamma(link='log')) summary(ajuste3) # AIC(ajuste1,ajuste2,ajuste3) # # # Calculando o R² Nagelkerke # ajuste0=glm(TMresist~1,family=Gamma(link='identity')) # n=length(TMresist) # RN=1-exp(-2*(logLik(ajuste2)[1]-logLik(ajuste0)[1])/n) RN # # Calculando o valor máximo de RN # Rmax=1-exp(2*logLik(ajuste0)[1]/n) Rmax # # Calculando o R² Nagelkerke corrigido pelo valor máximo # RN/Rmax # # Calculando o R² Kullback-Liebler # media.y=mean(TMresist) # RKL=1-sum(log(TMresist/fitted(ajuste2))+(TMresist- fitted(ajuste2))/fitted(ajuste2))/sum(log(TMresist/media.y)) RKL
Compartilhar