Buscar

TCC-Patricia-e-Gisele

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 25 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Gisele Nascimento 
Patrícia Ferreira de Araújo 
 
 
 
 
 
 
 
 
 
 
 
Estudo acerca do coeficiente de determina-
ção nos modelos lineares e algumas genera-
lizações. 
 
 
 
 
 
 Trabalho de conclusão de curso apresentado 
 para a disciplina Laboratório de Estatística II 
 do curso Bacharelado em Estatística do Setor 
 de Ciências Exatas, da Universidade Federal 
 do Paraná. 
 Orientador: Prof. Fernando L. Pérez 
 
 
 
Curitiba – PR 
Junho 2009 
 2
 
ESTUDO ACERCA DO COEFICIENTE DE DETERMINAÇÃO NOS 
MODELOS LINEARES E ALGUMAS GENERALIZAÇÕES 
 
 
 
 
Alunas: Gisele Nascimento e Patrícia Ferreira de Araújo 
Departamento de Estatística 
Universidade Federal do Paraná 
 
 
RESUMO 
 
 
Nos modelos de regressão uma das medidas da qualidade do ajuste é o chamado coeficiente 
de determinação ou R². A definição mais conhecida desta medida é especifica dos modelos de 
regressão lineares com resposta Gaussiana. Com o desenvolvimento de novos modelos de 
regressão, como os modelos lineares generalizados e outros, faz-se necessário procurar 
formas mais gerais de definir o R². Estudaremos duas propostas de generalizar o R² a modelos 
de regressão não gaussianos, os chamados R² de Nagelkerke e o R² de Kullback – Liebler. 
Mostraremos a utilização destes coeficientes de qualidade do ajuste através de três exemplos. 
 
 
 
 
 
 
Palavras-chave: Modelos de regressão, Coeficiente de determinação, Modelos lineares 
generalizados, Modelos de regressão família exponencial. 
Sumário 
 
1. INTRODUÇÃO .......................................................................................................................................... 4 
2. EXTENSÕES DO R² ................................................................................................................................ 10 
2.1 R² DE NAGELKERKE ................................................................................................................................... 10 
2.2 R² DE KULLBACK - LEIBLER ....................................................................................................................... 12 
2.2.1. Modelos de regressão na família exponencial de densidades .......................................................... 12 
2.2.2. Dissimilaridade de Kullback-Liebler ............................................................................................. 13 
3. EXEMPLOS ILUSTRATIVOS................................................................................................................ 17 
3.1. REGRESSÃO LOGÍSTICA ...................................................................................................................... 17 
3.2. REGRESSÃO POISSON.......................................................................................................................... 18 
3.3. REGRESSÃO GAMA............................................................................................................................. 18 
4. DISCUSSÃO ............................................................................................................................................. 19 
5. BIBLIOGRAFIA ...................................................................................................................................... 21 
6. ANEXOS................................................................................................................................................... 22 
6.1 COMANDOS DO R ....................................................................................................................................... 22 
 4
1. Introdução 
 
 Este trabalho tem por objetivo estudar propriedades importantes do coeficiente de determi-
nação R² no contexto dos modelos lineares assim como algumas das generalizações a outros 
modelos de regressão. 
 
 Comecemos então pela definição de coeficiente de determinação R² que é uma medida de 
bondade do ajuste do modelo selecionado e também uma medida de precisão na predição, 
tanto de novas observações quanto da média de novas observações, do modelo de regressão 
linear. 
 Uma medida eficaz de calcular a relação entre duas variáveis aleatórias é o coeficiente de 
correlação e o coeficiente de determinação é justamente a correlação ao quadrado entre as 
observações y e os valores preditos pelo modelo µ̂ . 
 
Definido como: 
 { }µ,ycorr=R i ˆ
22 , (1) 
 
ou simplesmente 
 
( )
( )∑
∑
−
−
−
n
=i
i
n
=i
ii
yy
µy
=R
1
2
1
2
2
ˆ
1 , (2) 
 
onde yi são observações independentes, iµ̂ os correspondentes valores preditos pelo mode-
lo de regressão linear normal 
 
 iipPi110i ε+xβ++xβ+β=y ... (3) 
 
e y o correspondente valor predito pelo modelo 
 
 yi =β0 +εi (4) 
 
Nestes modelos )N(ε,,ε ni 0,1~... , independentes são conhecidos como erros aleatórios. 
Lembremos que ippi110ii xβ++xβ+β=µ=)E(y ... e y=β=µ 0ˆˆ , no caso do modelo (4). 
 5
 Podemos afirmar que R² é uma medida de proporção que a soma de quadrados dos desvi-
os de cada iy em relação a y pode ser explicada pelas covariáveis nx,,x ......1 . Então, o R² é 
uma medida de bondade do ajuste do modelo (3), incluindo as covariáveis, em relação do mo-
delo (4), no qual nenhuma das covariáveis é considerada. Assim para conjunto de dados com 
variável dependente, valor de R² perto de 1 reflete o acréscimo na capacidade de predição do 
modelo de regressão, ignorando a perda de informação devido à possível perda de graus de 
liberdade. 
 
 Por exemplo, os dados mostrados da Figura 1 (a) foram gerados pelo modelo 
iii ε++=y 4x2 satisfazendo que { } 9var =yi e cada )N(εi 0,1~ , 201,......,=i . As estimati-
vas do modelo ajustado são quase perfeitas, como pode ser observado a seguir, assim como o 
valor do coeficiente de determinação R
2= 0,9655 . Na outra situação considerada, agora na 
Figura 1 (b), em casos onde não faz sentido um modelo de regressão o R² reflete isso, o valor 
deste coeficiente é R
2= 0,007684 , indicando independência entre a variável explicativa e a 
variável resposta. O modelo estimado para os dados mostrados na Figura 1 (a) é 
x+=y 4.13861.6358ˆ e para os dados mostrados na Figura 1 (b) é x+=y 0,130237.3627ˆ . 
 
 O coeficiente de determinação satisfaz algumas propriedades interessantes. Uma delas nos 
permite melhor interpretar o R², esta propriedade nos diz que 0≤ R
2
≤ 1 . Podemos perceber 
que R
2= 0 somente quando { } y=yE , como é o caso do modelo (4), nesta situação 
{ } 0i β=µ=yE , y=β=µ 0ˆˆ , logo ∑∑ −−
n
=i
i
n
=i
i )y(y=)µ(y
1
22
1
ˆ e 
 
 01
1
2
1
2
2
=
)y(y
)y(y
=R
n
=i
i
n
=i
i
∑
∑
−
−
− 
 6
 
Figura 1: Diferentes modelos de regressão linear simples, (a) ajuste perfeito, (b) modelo errado, 
nesta situação não faz sentido um modelo de regressão. 
 
 Interpretamos então que 02 ≈R o modelo não é apropriado para explicar a variável reposta 
através das variáveis explicativas selecionadas, significando que R² é uma medida da utilidade 
dos outros termos além do 0β no modelo. Para provar que o R² é limitado superiormente por 1 
observaremos primeiro que podemos escrever: 
.
ˆ
1
2
1
2
2
∑
∑
−
−
n
=i
i
n
=i
i
)y(y
)yµ(
=R 
Assim, para provar que R
2
≤ 1 devemos provar que .ˆ YYYXβ TTT ≤ Utilizando as 
expressões dos estimadores do modelo linear, temos que: 
 HY,Y=YXX)X(XY=YXβ TTTTTT 1ˆ − 
onde TT XX)X(X=H 1− é uma matriz simétrica e idempotente, ou seja, .H=HH=HHTT 
 
Observemos que 
H)Y,(IY=HYYIYY=YXβYY TTTTTT −−− ˆ 
o objetivo agora é demonstrar que H)Y(IY T − é uma forma quadrática positiva. Para isso de-
vemos provar que HI − é uma matriz definida positiva. Sabemos que a matriz H é simétrica e 
uma condição necessária e suficiente para uma matriz simétrica ser definida positiva é que e-
xista uma matriz não singular P, tal que, PP=HI T− (Rao, 1973). 
 
 7
 Nesta situação H),(I=H)(IH)(I=H)H)(I(I TT −−−−− logo HI − além de 
idempotente é definida positiva, portanto: 
0,≥− H)Y(IY T 
 
ou seja, H)Y(IY T − é uma forma quadrática definida positiva, logo YXβYY TTT ˆ≥ , concluindo-
se que 1.2 ≤R 
 Um modelo cujo ajuste seja perfeito implicaria que ii y=µ̂ , portanto ∑ −
n
=i
ii =)µ(y
1
2 0ˆ e 
conseqüentemente R
2= 1 significando que quanto mais próximo de 1 estivasse o valor do co-
eficiente de determinação melhor o ajuste aos dados do modelo proposto. 
 
 É importante notar que altos valores de R² não necessariamente implicam que o modelo de 
regressão está bem ajustado. Adicionando variáveis regressoras podemos incrementar o valor 
de R² sem importar se as novas variáveis regressoras contribuem de fato para o modelo. Então 
é possível que alguns modelos tenham grandes valores de R² e sua qualidade seja ruim para 
estimação ou predição de novas observações. 
 
 x1 y1 x2 y2 x3 y3 x4 y4 
 10 8.04 10 9.14 10 7.46 8 6.58 
 8 6.95 8 8.14 8 6.77 8 5.76 
 13 7.58 13 8.74 13 12.74 8 7.71 
 9 8.81 9 8.77 9 7.11 8 8.84 
 11 8.33 11 9.26 11 7.81 8 8.47 
 14 9.96 14 8.10 14 8.84 8 7.04 
 6 7.24 6 6.13 6 6.08 8 5.25 
 4 4.26 4 3.10 4 5.39 19 12.50 
 12 10.84 12 9.13 12 8.15 8 5.56 
 7 4.82 7 7.26 7 6.42 8 7.91 
 5 5.68 5 4.74 5 5.73 8 6.89 
média 9 7.5 9 7.5 9 7.5 9 7.5 
variância 11 4.12 11 4,12 11 4,12 11 4,12 
correlação 0.82 0.82 0.82 0.82 
 
 Tabela 1: Quadro conjunto de dados Anscombe e medidas descritivas assim como correlação 
 entre x e y em cada caso. 
 
 Podemos visualizar isto através dos exemplos em Anscombe (1973). Nesse trabalho o autor 
apresentou quatro conjuntos de dados com as mesmas médias, variâncias e correlação entre 
as variáveis respostas e explicativa. Estes dados são reproduzidos na Tabela 1. 
 
 8
 Algumas estatísticas descritivas importantes destes dados, como média, variância e 
correlação entre x e y e outras, assumem os mesmos valores e, portanto, as retas de 
regressão também coincidem. Outras estatísticas descritivas que não influenciam na estimação 
da reta de regressão não coincidem, como é o caso da mediana e os valores extremos. 
 
 As estimativas do modelo de regressão )N(εε,+xβ+β=y 10 0,1~11 aparecem na Tabela 2 
e são comuns a todos os outros modelos, ou seja, as estimativas dos modelos de regressão 
relacionados os pares de variáveis )y,)e(xy,(x),y,(x),y,(x 4321 4321 coincidem, sendo que o 
R
2= 0,665 e o desvio padrão dos resíduos é 1,2370. Também são comuns os resultados da 
análise de variância da regressão. 
 
 Desvio 
Coeficientes Estimativas padrão tobs (P>|tobs|) 
Intercepto 3.0001 11.1247 2.6670 0.0257 
x1 0.5001 0.1179 4.2410 0.0021 
 
Tabela 2: Tabela de análise de regressão 
 
 
 No entanto, observando a Figura 2 fica claro que simplesmente com o valor R² não seria 
possível perceber que nos conjuntos de dados N°2 e N°4 um modelo de regressão linear não 
faz sentido, no conjunto N°2 devemos transformar a variável explicativa para obtermos um me-
lhor ajuste e no conjunto de dados N° 4 não existe relação alguma entre a variável explicativa e 
resposta. No caso do conjunto de dados N°3 existe uma observação muito diferente das outras 
que atrapalha completamente e que somente no conjunto de dados N°1 existe uma relação li-
near entre a covariável e a resposta. 
 
 Uma outra propriedade do R² é que ele é crescente conforme aumenta o número de variá-
veis explicativas, mesmo que as novas variáveis acrescidas nada tenham a ver com a respos-
ta. Devemos lembrar que o procedimento de estimação implica na minimização da função no 
espaço de parâmetros da regressão, isto é, em R
P
. 
 
∑ −
n
=i
ii β)x(y
1
2
 
 
 
 
 9
 Acontece que se aumentamos em uma dimensão deste espaço, pela inclusão de uma vari-
ável explicativa ao modelo, a estimação no espaço de dimensão p seria uma minimização res-
trita no espaço de dimensão p+1, e sabemos por cálculo que mínimos restritos são maiores do 
que mínimos absolutos. Logo o R² obtido no modelo de ordem p é ligeiramente menor do que o 
R² obtido no modelo de ordem p+1. 
 
 Figura 2: Gráfico de dispersão e reta de regressão estimada para cada um dos conjuntos de 
dados apresentados na Tabela 1. 
 
 Esta propriedade nos diz que adicionando infinitas covariáveis ao modelo, mesmo que não 
tenham nada a ver com o problema em questão, podemos artificialmente melhorar o coeficien-
te de determinação. Por este motivo o R² serve para medir a qualidade do ajuste, mas não é o 
mais apropriado para comparar modelos, com esse objetivo é recomendado o R² ajustado, de-
finido com: 
 
1
1
11 22
−−
−
−−
pn
n
)R(=Radj (6) 
e o Critério de Akaike (Akaike, 1974). 
 10
2. Extensões do R² 
 
 
2.1 R² DE NAGELKERKE 
 
 
 Este coeficiente de determinação foi estudado em diversos trabalhos durante os anos 80 e 
90, mas foi no artigo de Nagelkerke(1991) que estudaram-se suas propriedades e onde foi a-
presentado de uma maneira mais geral, por esse motivo se atribui o nome Nagelkerke. No arti-
go referido é discutida uma generalização do coeficiente de determinação R² para modelos de 
regressão gerais e uma modificação da definição deste novo R2 permite que se proponha para 
modelos discretos. 
 
 A utilização do R², o coeficiente de determinação, também chamado de coeficiente de corre-
lação múltipla, está bem estabelecido na análise clássica (Rao, 1973). A sua definição como a 
proporção de variância "explicada" pelo modelo de regressão faz com que seja útil como uma 
medida de sucesso da predição da variável dependente a partir das variáveis independentes. 
 
 É conveniente generalizar a definição de R² para modelos mais gerais, para os quais o con-
ceito da variância residual não pode ser facilmente definido e a máxima verossimilhança é o 
critério de ajuste. A seguinte generalização foi proposta por Cox & Snell (1989, pp. 208-9) e, 
aparentemente independente, por Magee (1990), mas haviam sido sugeridos anteriormente 
para modelos de resposta binária por Maddala (1983), 
 
{ })l()βl(
n
=)R( 0ˆ
2
1log 2 −−− ( 1a ) 
 
ou 
{ } { } n)βL()L(=)l()βl(
n
=R
/22 ˆ/010ˆ
2
exp1 −



−−− ( 1b ) 
 
onde, )βl( ˆ =log )βL( ˆ e =)l( 0 log )L( 0 indicam a log da verossimilhança do modelo 
ajustado e do modelo nulo, respectivamente. O R² geral definido em (1b) foi estudado por 
 
 
 11
Nalgelkerke (1991), como mencionamos, e por esse motivo chama-se de R2 de Nagelkerke e 
escreve-se como R2N. 
 
É possível estabelecer que o R²N , tem as seguintes propriedades: 
 
1. É coerente com o R² clássico, que é a definição geral aplicada, por exemplo, na regres-
são linear. Isto significa que se a distribuição da variável resposta é normal e o modelo 
de regressão linear, então, o R2N coincide com o R2 clássico. 
2. É coerente com os estimadores de máxima verossimilhança dos parâmetros do modelo 
que maximizam o R², ou seja, o R2N depende das estimativas de máxima verossimi-
lhança dos parâmetros do modelo. 
3. É assintóticamente independente do tamanho da amostra n. 
4. Interpreta-se como a proporção da “variação” explicada, ou seja, 1-R²N, tem a interpre-
tação da proporção não explicada da “variação”. A variação deve ser entendida como 
qualquer medida de distância. 
5. É adimensional, ou seja, não depende da unidade de medida utilizada. 
 
 Para esclarecer vamosconsiderar o modelo M1 = M2 * M3, por exemplo, o modelo M1 
contendo apenas a covariável x1, por exemplo, uma constante, enquanto M2 contém x2 e x1 e M3 
contém x1, x2 e x3. Se 
2
2.1R indica o R²N do modelo M2 em relação à M1 etc..., então: 
 
 )R)(R(=)R( 22.1
2
3.2
2
3.1 111 −−− ( 2 ) 
 
 Em outras palavras, a proporção de variação não explicada pelo modelo M3 relativamente 
ao modelo M1 é o produto da proporção não explicada por M3 em relação a M2 e a proporção 
não explicada por M2 em relação a M1. 
 
 No entanto, o R²N assim definido atinge um valor máximo teórico de menos de 1 para mo-
delos discretos, ou seja, modelos cuja variável resposta é discreta. É o caso de situações parti-
culares importantes nos modelos lineares generalizados como os modelos de regressão logís-
tica e log-linear nos quais as distribuições das variáveis respostas são Bernoulli ou Binomial e 
Poisson, respectivamente. Este máximo é igual a: 
 
{ } n)L(=)l(=)(R /212 0102nexp1max −− − 
 
 12
 Para a regressão logística, com 50% de Y = 1 e 50% de Y = 0 observações, este máximo é 
igual a 0.75. Este máximo ocorre quando todas as observações são preditas com probabilida-
de máxima, isto é P{ Y=1 } = 1 para as observações com Y = 1, e Pr{ Y=1} = 0 para Y = 0 ob-
servações. 
 Isto é claramente inaceitável para um coeficiente R². Foi proposto, portanto, de redefinir co-
mo R²N: 
 )(RR=R 2 22 /max 
 
 As propriedades 1, 2, 3 e 5 são automaticamente satisfeitas, segundo afirma Nagelker-
ke(1991). Para este mesmo R²N, a propriedade 4 é mais difícil de estabelecer. No entanto, po-
de afirmar-se que: 
 { } { } )R(=)(R)(R 22.123.222.1 1logmax1logmax1log −−−− ( 4 ) 
 
e desta forma, o critério na propriedade 4 também pode ser estabelecido para manter o R²N 
corrigido pelo seu máximo teórico. 
 
 
2.2 R² DE KULLBACK - LEIBLER 
 
 Como mencionado, para modelos de regressão linear o coeficiente de determinação R² é 
amplamente utilizado, pois é uma boa medida do ajuste cujas utilidades e limitações são co-
nhecidas. A aplicação desta medida para modelos não lineares geralmente conduz a uma me-
dida que pode estar fora do intervalo [0,1] e diminui quando regressoras são adicionadas. 
 
 Algumas alternativas para R² foram especialmente construídas para modelos não lineares 
usando uma variedade de métodos. Aqui estudaremos mais uma proposta de generalização 
deste coeficiente, nesta vez utilizará a chamada dissimilaridade Kullback-Liebler e mostrare-
mos as expressões correspondentes quando a variável resposta pertence à família exponencial 
de distribuições. 
 
2.2.1. Modelos de regressão na família exponencial de densidades 
 
 Suponhamos que a variável dependente Y tem uma distribuição na família exponencial de 
densidades da forma: 
 
 13
)()](exp[);0 yhby(yf θθθ −= 
 
onde, θ é o parâmetro canônico, )(θb é a função normalizadora e h(y) é uma função conheci-
da. Diferentes θ)b( correspondem a diferentes distribuições. A média de Y, denotada µ é igual 
a derivada )(θb' , e pode ser demonstrado que é uma função monótona em θ . 
 
 Regressoras são introduzidas pela especificação de µ como uma função do preditor linear 
η=x’β, onde x é o vetor de regressoras e β é um desconhecido vetor de parâmetros. Modelos 
obtidos por diversas escolhas de )(θb e funções de η são chamados modelos lineares gene-
ralizados. A função que relaciona a média µ com o preditor linear η=x’β é chamada de função 
de ligação e é tal que g(µ)=η. 
 
 O vetor de parâmetros β é estimado por máxima verossimilhança, denotando o estimador 
como β̂ , baseado na amostra independente { },n,=i),x,(y ii 1,.... com )(yf=)(yf j
i
µi
i
µ 
para ji µ=µ . A estimativa da média para uma observação com regressor x é denotada por 
)βµ(x'=µ ˆˆ . Por tudo assumimos que o modelo inclui um termo constante. A estimativa da 
média da resposta quando o modelo assume somente um termo constante é denotada por 0µ̂ . 
 
2.2.2. Dissimilaridade de Kullback-Liebler 
 
 A medida padrão da informação contida nas observações em uma densidade ( )yf é a 
informação esperada ou entropia Shannon’s, definida como (f(y))]E[ log . Esta é a base para 
medir o nível de discrepância entre duas densidades ou divergência de Kullback-Lieber, por-
posta em Kullback e Liebler(1959). 
 Considere duas densidades, denotada por (y)fµ1 e (y)fµ2 , parametrizadas apenas pela mé-
dia. Neste caso, a fórmula geral para a dissimilaridade ou divergência de Kullback-Leibler (KL) 
é 
 (y)],f(y)[fE)µ,K( µ µµµ2 2111 /log2≡ (5) 
 
quando um segundo fator é adicionado por conveniência, e 
1µ
E denota expectativa tomada 
com relação à densidade )µ,K(µ(y)f 2µ 11 .
 é a informação de 1µ no que diz respeito a 
 14
2µ e é uma medida de quão próximo 1µ está de 2µ . O termo divergência, em vez de dis-
tância é usado porque não satisfazem em geral a simetria triangular e propriedades de uma 
distância medida. Contudo, 01 ≥)µ,K(µ 2 com igualdade se 21 µµ ff ≡ . 
 
 Além de (y)fµ1 e (y)fµ2 nós também consideramos a densidade (y)f y , para os quais a mé-
dia é igual ao conjunto realizado y. Em seguida, o Kullback-Leibler (KL) divergência µ)K(y, 
pode ser definido de maneira análoga a (2) 
 
 (y)]dyf(y)[f(y)f=(y)]f(y)[fEµ)K(y, µyyµyy /log2/log2 ∫≡ (3) 
 
 A variável aleatória µ)K(y, é uma medida do desvio da média µ . Para a família expo-
nencial, Hastie (1987) e Vos (1991) mostram que a expectativa em (3) cai fora e: 
 
(y)]f(y)[fµ)K(y, µy /2log≡ 
 
 No modelo estimado com n indivíduos o estimador Kullback-Leibler (KL) da divergência 
entre n-vetores y e µ̂ é igual ao dobro da diferença entre o valor máximo do log da 
verossimilhança possível, isto é, o log da verossimilhança em um modelo completo com o 
maior número de parâmetros como observações y),l(y ,' e o log da verossimilhança alcançado 
pelo modelo sob investigação em y),µl( ˆ : 
 y)];µl(y)[l(y;=)](yf)(yf[=)µK(y, i
n
=i
i
µi
i
y
ˆ2loglog2ˆ
1
ˆ −−∑ (4) 
 
 Deixe 0µ̂ denotar o n-vetor com entradas 0µ̂ , o ajuste da máxima verossimilhança 
estima média da constante do modelo somente. Nós interpretamos )µK(y, 0ˆ como a estimativa 
das informações, de dados sobre a amostra y potencialmente recuperável pela inclusão de re-
gressoras. É a diferença entre a informação contida na amostra de dados sobre y, e os estima-
dos usando informações 0µ̂ , a melhor estimativa pontual quando os dados sobre regresso-
ras não são utilizadas, onde a informação é medida pela expectativa tomar no que diz 
respeito ao valor observado y. Ao escolher 0µ̂ para ser o MLE, )µK(y, 0ˆ é minimizado. O R² 
proposto é a redução proporcional na presente potencialmente recuperável alcançado pelo 
modelo de regressão: 
 )µK(Y,)µK(Y,=R
KL 0
2 ˆ/ˆ1 − (5) 
 15
 
 Esta medida pode ser utilizada para ajuste de médias obtidas por qualquer método de esti-
mação.Na seguinte proposição que restringem a atenção para estimativa ML (que minimiza 
)ˆ,( µyK ). 
 
Proposição : Para ML estimativas dos modelos de regressão da família exponencial baseada 
na densidade (1), definido em 2KLR (5) tem as seguintes propriedades: 
 
1. RKL
2
 não é aumentado quando regressoras são adicionadas. 
 
2. 0≤ RKL
2
≤ 1 . 
 
3. RKL
2
 é um escalar múltiplo da razão da verossimilhança teste para a significância conjunta 
da variável explicativa. 
 
4. 2KLR iguala a razão de verossimilhança índice y);µl(y);µl( 0ˆ/ˆ1− se e somente se 0.=y)l(y; 
 
5. 2KLR medida da redução proporcional na recuperável informação devido à inclusão de re-
gressores, onde a informação é medidapela estimativa Kullback-Leibler divergência (4). 
 
 
 Propriedade 4 é de interesse, tal como o índice da razão de verossimilhança, que mede a 
redução proporcional no log da verossimillhança devido à inclusão de regressoras, por vezes é 
proposto como uma medida pseudo R² geral. Igualmente ocorre para o modelo Bernoulli, mas 
em geral o índice da razão de verossimilhança difere e, para outros modelos discretos a variá-
vel dependente, é mais pessimista no que se refere à contribuição de regressores, como 
0.≤y)l(y; 
 
 No caso contínuo, grandes valores (positivos ou negativos) do índice da razão de 
verossimilhança podem ocorrer se y);µl( 0ˆ é perto de zero (positivo ou negativo). Em contra-
partida 2KLR será sempre limitada por zero e um. A última propriedade define uma informação 
teórica para 2KLR . Um aspecto interessante é que a expressão de )ˆ,( µyK em (4) equivale a 
definição deviance. Portanto 2KLR pode ser interpretado como sendo baseada na deviance 
residual. 
 
 A tabela a seguir lista as expressões para o 2KLR em diversos modelos de regressão gene-
ralizados: normal, Bernoulli, binomial, Poisson, geométrica, exponencial, gama e normal 
inversa. 
 
 
 16
 
 17
3. Exemplos Ilustrativos 
 
3.1. REGRESSÃO LOGÍSTICA 
 
 Utilizaremos como primeiro exemplo dados de um estudo caso-controle sobre câncer de 
esôfago (Gimeno & Souza, 1995). Oitenta e cinco casos de câncer de esôfago foram compara-
dos com 292 controles hospitalares, classificados segundo sexo, idade e os hábitos de beber e 
fumar. O hábito de beber foi considerado fator de risco de principal interesse. 
 
 Os dados utilizados no estudo de referência foram reproduzidos na Tabela 3.1. Nela obser-
vamos que a variável idade foi dividida em dois grupos: “menor”, os menores de 57 anos inclu-
sive e “maior” os maiores de 57 anos de idade. 
 
 
 Tabela 3.1 – Dados de um estudo caso-controle sobre câncer de esôfago (Gimeno & Souza, 1995). 
Sexo Idade Bebe Fuma Caso Controle Total 
Feminino menor N N 3 30 33 
Feminino menor N S 0 15 15 
Feminino menor S N 0 14 14 
Feminino menor S S 5 13 18 
Feminino maior N N 2 41 43 
Feminino maior N S 3 8 11 
Feminino maior S N 0 6 6 
Feminino maior S S 3 2 5 
Masculino menor N N 0 9 9 
Masculino menor N S 2 12 14 
Masculino menor S N 1 8 9 
Masculino menor S S 40 58 98 
Masculino maior N N 0 6 6 
Masculino maior N S 0 19 19 
Masculino maior S N 0 4 4 
Masculino maior S S 26 47 73 
 
 
 Um primeiro ajuste do modelo de regressão logística foi realizado com todas as variáveis 
explicativas: sexo, idade, bebe e fuma. Obteve-se que somente a variável bebe e fuma foram 
significativas. Além disso, verificou-se, através do método AIC, que a melhor função de ligação 
é a complementar log-log. Após achamos o melhor modelo calculamos o 2NR e 
2
KLR , utilizando-
se os resultados mostrados a seguir: 
 
0,97142 =RN e 0,6976
2 =RKL . 
 
 18
3.2. REGRESSÃO POISSON 
 
 A tabela 3.2 (exemplo 6, pág. 21, livro de Clarice G,B. Demétrio et all.) mostra os dados refe-
rentes à contagem de partículas de vírus para 5 diluições diferentes, sendo que foram usadas 4 
repetições para as 4 primeiras diluições e 5 repetições para a última diluição. O objetivo do ex-
perimento era estimar o número de partículas de vírus por unidade de volume. 
 
 
Tabela 3.2: Números de partículas de vírus para 5 diluições diferentes. 
Diluição Contagens 
0,3162 13 14 17 22 - 
0,1778 9 14 6 14 - 
0,1000 4 4 3 5 - 
0,0562 3 2 1 3 - 
0,0316 2 1 3 2 2 
 
 
 
0,98612 =RN e 0,8682
2
=RKL . 
 
 
3.3. REGRESSÃO GAMA 
 
 Na tabela abaixo são apresentados os resultados de um experimento em que a resistência 
(em horas) de um determinado tipo de vidro foi avaliada segundo quatro níveis de voltagem 
(em kilovolts) e duas temperaturas (em graus Celsius). Estes dados aparecem no livro Statisti-
cal Models and Methods for Uniforme Data, Lawless (1982), pág.338. 
 
 
Voltagem (kV) Temperatura (°C) 
200 250 300 350 
439 572 315 258 
904 690 315 258 
1092 904 439 347 
170 
1105 1090 628 588 
 
959 216 241 241 
1065 315 315 241 
1065 455 332 435 
180 
1087 473 380 455 
 
 
0,64802 =RN e 0,6369
2 =RKL . 
 19
4. Discussão 
 
 Mostramos duas formas de generalizar o 2R conhecido do modelo de regressão linear, 
chamadas 2NR proposto por vários pesquisadores e estudadas suas propriedades por Nalgel-
kerke (1991) e 2
KLR , o qual é baseado na divergência de Kullback-Leibler, proposto por Ca-
meron e Windmeijer (1996). 
 
 Neste trabalho aplicamos as duas generalizações a situações particulares dos modelos li-
neares generalizados, os quais sabidamente pertencem à família exponencial de densidade: 
modelos gama, logístico e Poisson. 
 
 Observamos que nos modelos contínuos, isto é, nos modelos de regressão normal e gama 
os coeficientes 2NR e 
2
KLR coincidem aproximadamente. Nos modelos de regressão discretos: 
logístico e Poisson, observamos uma grande divergência entre os valores obtidos dos coefici-
entes 2NR e 
2
KLR . 
 
 Para responder à questão em qual coeficiente de determinação confiar, nas situações 
discretas, decidimos mostrar comparativamente as observações e estimativas obtidas em cada 
situação. Sempre lembrando que os resultados apresentados são referentes ao modelo esco-
lhido como melhor. 
 
 A figura (3a) mostra os valores observados e preditos no exemplo de regressão Poisson. 
Observamos que, embora bem ajustado, a variabilidade das observações para cada covariável 
não permitiria altos valores de 2R , logo confiamos no resultado obtido com o coeficiente de 
determinação RKL
2
, baseado na dissimilaridade de Kullbak-Liebler. 
 
 A figura (3b) mostra as proporções observadas e estimadas no exemplo de regressão logís-
tica. Neste caso, os pontos vermelhos indicam as estimativas obtidas pelo modelo escolhido, 
também observamos que o valor do coeficiente de determinação não deve ser muito elevado. 
Logo confiamos no resultado obtido com o coeficiente de determinação RKL
2
. 
 
 
 
 
 20
 Regressão Poisson (3a) Regressão Logística (3b) 
 
Figura 3: Gráfico de valores observados e valores preditos. 
 
 Como um dos resultados do estudo aqui desenvolvido podemos afirmar que o 2KLR 
subestima o valor do coeficiente de determinação nos modelos discretos. Também podemos 
afirmar que o valor dos coeficientes 2NR e 
2
KLR são aproximadamente iguais nos modelos 
contínuos. Uma afirmação de Nagelkerke (1991) faz toda a diferença nas aplicações práticas, o 
valor máximo de 2NR é menor do que 1, logo este coeficiente é utilizado corrigido pelo seu valor 
máximo. Esta correção mostra que o 2KLR subestima o coeficiente de determinação nos 
modelos discretos, a menos um valor desconhecido por nós, a partir do qual 2KLR deve 
ser maior do que 2NR . Isto seria um tema de trabalhos futuros de grande interesse. 
 
 Baseados nossos conhecimentos atuais, sugerimos dar preferência ao coeficiente de de-
terminação 2
KLR nos modelos discretos. Nos modelos contínuos é indiferente a utilização de 
2
KLR ou 
2
NR . 
 
 
 
 
 
 
 
 
 
 
 
 
 21
5. Bibliografia 
 
 
� Anscombe, F.J. (1973). Graphs in statistical analysis. The American Statistician, 27, 17-
21. 
 
� Cox, D. R. (1972). Regression models and life tables (with discussion). J. R. Ststist. Soc. 
B34, 187-220. 
 
� Akaike, H. (1974). A new look at the statistical model identification. IEEE Transaction on 
Automatic Contrl, AC-19, 715-723. 
 
� Cox, D. R. (1975). Partial likelihood. Biometrika 62, 269-76. 
 
� Cox, D. R. & SNELL, E. J. (1989). The Analysis of Binary Data, 2nd ed. London: Chap-
man and Hall. 
 
� Maddala, G. S. (1983). Limited-Dependent andQualitative Variables in Econometrics. 
Cambridge University Press. 
 
� Magee, L. (1990). R² measures base don Wald and likehood ratio joint significance tes-
tes. Am. Statistician 44, 250-3. 
 
� Rao, C. R. (1973). Linear Statistical Inference and its Applications, 2nd ed.New York: 
Wiley. 
 
� Rao, C.R. (1973). Linear Statistical Inference and its Applications. John Wiley and Sons, 
second edition. 
 
� Gimeno, S.G.A. e Souza, J.M.P. (1995). Utilização de estratificação e modelo de re-
gressão logística na análise de dados de estudos caso-controle. Revista de Saúde Pú-
blica, Vol. 29 n°4, pp. 283-289. 
 
� Lawless, J.F. (1982). Statistical Models and Methods for Lifetime Data. John Wiley, New 
York. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 22
6. Anexos 
 
6.1 COMANDOS DO R 
 
 
Exemplo Regressão Logística 
 
 
# 
# Exemplo de regressão logística 
# 
# Gimeno & Souza (1995). Utilização de estratificação e modelo de 
regressão logítica 
# na análise de dados de estudos casos-controle. 
# 
# Revista de Saúde Pública, Vol.29, No.4, pp.283-289 
# 
# Dados 
# 
Sexo=c(rep("Feminino",8),rep("Masculino",8)) 
Sexo=factor(Sexo) 
Idade=c(rep(c(rep("menos",4),rep("mais",4)),2)) 
Idade=factor(Idade) 
Bebe=c(rep(c("N","N","S","S"),4)) 
Bebe=factor(Bebe) 
Fuma=c(rep(c("N","S"),8)) 
Fuma=factor(Fuma) 
Caso=c(3,0,0,5,2,3,0,3,0,2,1,40,0,0,0,26) 
Controle=c(30,15,14,13,41,8,6,2,9,12,8,58,6,19,4,47) 
# 
# Modelo de regressão logística 
# 
ajuste1=glm(cbind(Caso,Controle)~Sexo+Idade+Bebe+Fuma,family=binomial(link='logit')) 
summary(ajuste1) 
# 
ajuste2=glm(cbind(Caso,Controle)~Sexo+Idade+Bebe+Fuma,family=binomial(link='probit')) 
summary(ajuste2) 
# 
ajuste3=glm(cbind(Caso,Controle)~Sexo+Idade+Bebe+Fuma,family=binomial(link='cloglog')) 
summary(ajuste3) 
# 
# Escolha de modelo 
# 
AIC(ajuste1,ajuste2,ajuste3) 
# 
step(ajuste3) 
ajuste3.final=update(ajuste3,.~.-Sexo-Idade) 
summary(ajuste3.final) 
# 
# Calculando o R² Nagelkerke 
# 
ajuste0=glm(cbind(Caso,Controle)~1,family=binomial(link='cloglog')) 
 23
# 
n=length(Caso) 
# 
RN=1-exp(-2*(logLik(ajuste3.final)[1]-logLik(ajuste0)[1])/n) 
RN 
# 
# Calculando o valor máximo de RN 
# 
Rmax=1-exp(2*logLik(ajuste0)[1]/n) 
Rmax 
# 
# Calculando o R² Nagelkerke corrigido pelo valor máximo 
# 
RN/Rmax 
# 
# Calculando o R² Kullback-Liebler 
# 
media.y=mean(Caso/Controle) 
# 
numerador=sum(fitted(ajuste3.final)*log(fitted(ajuste3.final))+(Controle-
fitted(ajuste3.final)*log(Controle-fitted(ajuste3.final)))) 
denominador=sum(media.y*log(media.y)+(Controle-media.y)*log(Controle-media.y)) 
# 
RKL=1-numerador/denominador 
RKL 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 24
Exemplo Regressão Poisson 
 
 
# Exemplo 6, pág. 21, livro de Clarice G,B. Demétrio et all. 
# 
diluicao=c(rep(0.3162,4),rep(0.1778,4),rep(0.1000,4),rep(0.0565,4),rep(0.0316,5)) 
Contagem=c(13,14,17,22,9,14,6,14,4,4,3,5,3,2,1,3,2,1,3,2,2) 
# 
ajuste1=glm(Contagem~diluicao,family=poisson(link='log')) 
summary(ajuste1) 
# 
ajuste2=glm(Contagem~diluicao,family=poisson(link='identity')) 
summary(ajuste2) 
# 
ajuste3=glm(Contagem~diluicao,family=poisson(link='sqrt')) 
summary(ajuste3) 
# 
AIC(ajuste1,ajuste2,ajuste3) 
# 
par(mfrow=c(2,3)) 
plot(ajuste2,which=1:6) 
# 
# Calculando o R² Nagelkerke 
# 
ajuste0=glm(Contagem~1,family=poisson(link='log')) 
# 
n=length(Contagem) 
# 
RN=1-exp(-2*(logLik(ajuste2)[1]-logLik(ajuste0)[1])/n) 
RN 
# 
# Calculando o valor máximo de RN 
# 
Rmax=1-exp(2*logLik(ajuste0)[1]/n) 
Rmax 
# 
# Calculando o R² Nagelkerke corrigido pelo valor máximo 
# 
RN/Rmax 
# 
# Calculando o R² Kullback-Liebler 
# 
media.y=mean(Contagem) 
# 
RKL=1-sum(Contagem*log(Contagem/fitted(ajuste2))-(Contagem-
fitted(ajuste2)))/sum(Contagem*log(Contagem/media.y)) 
RKL 
 
 
 
 
 
 
 
 25
Exemplo Regressão Gama 
 
 
# Exemplo do livro de Lawless, 1982, pág. 338) 
# 
dados=read.table("http://people.ufpr.br/~lucambio/CE225/1S2009/vidro.dat",h=T) 
# 
names(dados) 
attach(dados) 
# 
Voltagem=factor(Voltagem) 
Temperatura=factor(Temperatura) 
# 
# Modelo de regressão gama 
# 
ajuste1=glm(TMresist~Voltagem+Temperatura,family=Gamma(link='inverse')) 
summary(ajuste1) 
# 
ajuste2=glm(TMresist~Voltagem+Temperatura,family=Gamma(link='identity')) 
summary(ajuste2) 
# 
ajuste3=glm(TMresist~Voltagem+Temperatura,family=Gamma(link='log')) 
summary(ajuste3) 
# 
AIC(ajuste1,ajuste2,ajuste3) 
# 
# 
# Calculando o R² Nagelkerke 
# 
ajuste0=glm(TMresist~1,family=Gamma(link='identity')) 
# 
n=length(TMresist) 
# 
RN=1-exp(-2*(logLik(ajuste2)[1]-logLik(ajuste0)[1])/n) 
RN 
# 
# Calculando o valor máximo de RN 
# 
Rmax=1-exp(2*logLik(ajuste0)[1]/n) 
Rmax 
# 
# Calculando o R² Nagelkerke corrigido pelo valor máximo 
# 
RN/Rmax 
# 
# Calculando o R² Kullback-Liebler 
# 
media.y=mean(TMresist) 
# 
RKL=1-sum(log(TMresist/fitted(ajuste2))+(TMresist-
fitted(ajuste2))/fitted(ajuste2))/sum(log(TMresist/media.y)) 
RKL

Continue navegando