Introdução à análise de dados categóricos

•
UNB

João Victor Bispo
09/01/2015
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 212 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 212 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 212 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística Aplicada

24.089 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
INTRODUÇÃO À ANÁLISE DE DADOS
CATEGÓRICOS
SUELY RUIZ GIOLO
Departamento de Estatística
Universidade Federal do Paraná
giolo@ufpr.br
57a Reunião Anual da RBras
ESALQ/USP - Piracicaba/SP
05 a 09 de maio de 2012
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Conteúdo
1 Conceitos Introdutórios, Notação e Exemplos
2 Delineamentos Amostrais e Modelos Associados
3 Dados em Tabelas de Contingência
Testes e Medidas de Associação
4 Alguns Modelos de Regressão
Resposta Binária ou Dicotômica
Resposta Politômica
Resposta Dicotômica em Dados Pareados
5 Diversas Ilustrações (Resultados - Software R)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Bibliografia Básica
Agresti, A. (1995). Introduction to the Analysis of Categorical
Data. New York: Wiley.
Agresti, A. (2002). Categorical data analysis, 2nd ed. New York:
Wiley.
Everitt, B.S. (1977). The Analysis of Contingency Tables.
London: Chapman and Hall.
Hosmer, D.W.; Lemeshow, S. (2000). Applied Logistic
Regression. New York: John Wiley & Sons.
Freeman Jr, D.F. (1987). Applied Categorical Data Analysis.
New York: Marcel Dekker.
Santner, T.J.; Duffy, D.E. (1989). The Statistical Analysis of
Discrete Data. New York: Springer-Verlag.
Stokes, M.E.; Davis, C.S.; Kock, G.G. (2000). Categorical Data
Analysis using the SAS System. SAS. Inst Inc, Cary, NC. USA.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Bibliografia Complementar
Demétrio, C.G.B. (2001). Modelos Lineares Generalizados em
Experimentação Agronômica. Piracicaba: Minicurso 46a Rbras
e 9o SEAGRO.
Giolo, S.R. (2012). Introdução à Análise de Dados Categóricos
com Aplicações. Material Didático, 190p.
Paula, G.A. (2010). Modelos de Regressão com Apoio
Computacional. URL: http://www.ime.usp.br/ giapaula/
Paulino, C.D.M.; Singer, J.M. (2006). Análise de Dados
Categorizados. São Paulo: Blucher.
Poleto, F.Z. (2006). Análise de Dados Categorizados com
Omissão. Dissertação de mestrado. São Paulo: Depto de
Estatística, IME/USP.
Dentre outros ....
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Conceitos Introdutórios
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Introdução
Em diversos estudos é comum o registro de variáveis
qualitativas e quantitativas (contínuas ou discretas)
⇒ melhora do paciente (sim ou não)
⇒ desempenho do candidato (bom, regular ou péssimo)
⇒ local de moradia (norte, sul, leste, oeste)
⇒ horas de alívio de dor de cabeça (0, 1, 2, 3 ou > 4)
⇒ idade (em anos)
Tais variáveis são comumente classificadas de acordo
com suas respectivas escalas de mensuração
⇒ dicotômicas ou binárias
⇒ politômicas (ordinais ou nominais)
⇒ contagens discretas
⇒ contínuas
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Introdução
Por interesse do pesquisador, ou por conveniência,
variáveis contínuas podem ser categorizadas.
⇒ idade: faixas etárias
⇒ resultado de um exame médico: normal ou anormal
⇒ peso: obeso e não-obeso
⇒ peso: < 60, [60, 100), [100, 150) e ≥ 150kg.
Grupar categorias pode ser necessário quando houver
categorias com frequências muito pequenas ou nulas.
Em função do delineamento amostral e dos objetivos, as
variáveis podem ser, ainda, classificadas em:
⇒ variáveis resposta
⇒ variáveis explicativas.
Nem sempre tal classificação é simples ou óbvia.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Objetivos do Minicurso
Apresentar testes, medidas de associação e modelos de
regressão utilizados com frequência em estudos em que:
⇒ variável resposta: categórica
⇒ variáveis explicativas: categóricas e/ou contínuas.
⇓
Análise de dados dessa natureza
⇒ análise de dados categóricos
⇒ análise de dados discretos
Justificativa: distribuições discretas de probabilidade (binomial,
multinomial, poisson, binomial negativa etc.) são usualmente
associadas à variável resposta.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo sobre exposição ao álcool e câncer de esôfago.
Câncer de Esôfago
Consumo de Álcool Sim Não Totais
Sim 96 109 205
Não 104 666 770
Totais 200 775 975
Fonte: Tuyns et al. (1977), Santner e Duffy (1989)
RELAÇÃO
CAUSA︸ ︷︷ ︸ − EFEITO︸ ︷︷ ︸
consumo álcool câncer esôfago
⇓ ⇓
variável explicativa variável resposta
⇓ ⇓
dicotômica dicotômica
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Avaliação de medicamentos no tratamento de pacientes com
diagnóstico de infecção urinária.
Cura
Diagnóstico da Infecção Medicamentos Sim Não Totais
Complicada A 78 28 106
Complicada B 101 11 112
Complicada C 68 46 114
Não complicada A 40 5 45
Não complicada B 54 5 59
Não complicada C 34 6 40
Fonte: Koch et al. (1985)
variável resposta ⇛
{
Cura ⇒ dicotômica
variáveis explicativas ⇛
{
Diagnóstico da Infecção ⇒ dicotômica
Medicamentos ⇒ politômica nominal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo multicentros para avaliacão de medicamentos no
tratamento de infecções respiratórias.
Efeito
Centros Medicamentos Favorável Não favorável Totais
1 Novo 29 16 45
1 Padrão 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrão 24 21 45
Totais 61 29 90
Fonte: Stokes et al. (2000)
variável resposta ⇛
{
Efeito ⇒ dicotômica
variável explicativa ⇛
{
Medicamentos ⇒ politômica nominal
variável estratificadora ⇛
{
Centros
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo sobre medicamentos para dores de cabeça.
Horas de alívio
Medicamentos 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrão 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Fonte: Stokes et al. (2000)
variável resposta ⇛
{
Horas de Alívio ⇒ contagem discreta
⇓
politômica ordinal
variável explicativa ⇛
{
Medicamentos ⇒ politômica nominal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Influência de aditivos na água sobre a limpeza das roupas.
Limpeza
Tratamentos Baixa Média Alta Totais
Água 27 14 5 46
Água + dose única trat padrão 10 17 26 53
Água + dose dupla trat padrão 5 12 50 67
Totais 42 43 81 166
Fonte: Stokes et al. (2000)
variável resposta ⇛
{
Limpeza das Roupas ⇒ politômica ordinal
variável explicativa ⇛
{
Tratamentos ⇒ politômica ordinal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo sobre preferência de programa de aprendizado.
Preferência de Aprendizado
Escola Período Individual Grupo Sala Aula Totais
1 Padrão 10 17 26 53
1 Integral 5 12 50 67
2 Padrão 21 17 26 64
2 Integral 16 12 36 64
3 Padrão 15 15 16 46
3 Integral 12 12 20 44
Fonte: Stokes et al. (2000)
variável resposta ⇛
{
Preferência Aprendizado ⇒ politômica nominal
variáveis explicativas⇛
{
Escola ⇒ politômica nominal
Período Escolar ⇒ politômica nominal
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplos de Dados Categóricos
Estudo crossover de dois períodos para avaliação de
tratamentos (A, B e P = Placebo) em jovens e adultos.
Sequência Efeito
Idade Tratamentos FF FU UF UU Totais
Adultos A:B 1212 6 20 50
Adultos B:P 8 5 6 31 50
Adultos P:A 5 3 22 20 50
Jovens B:A 19 3 25 3 50
Jovens A:P 25 6 6 13 50
Jovens P:B 13 5 21 11 50
Fonte: Stokes et al. (2000)
FF = favorável nos dois períodos; FU = favorável no 1o período e não-favorável no 2o;
UF = não favorável no 1o período e favorável no 2o, UU = não favorável nos dois períodos.
Indivíduo é considerado como sendo seu próprio controle.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
A partir dos exemplos ⇛ dados de estudos em que a
resposta e as variáveis explicativas são categóricas (ou
foram categorizadas) são, sempre que possível, organi-
zados em Tabelas de Contingência.
Nos casos em que se tem duas variáveis, X e Y, com
ambas apresentando duas categorias cada.
Tabela de Contingência 2 × 2.
Categorias da Categorias da resposta Y
variável X j = 1 j = 2 Totais
i = 1 n11 n12 n1+
i = 2 n21 n22 n2+
Totais n+1 n+2 n++ = n
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
Por conveniência, as categorias de X estarão dispostas
nas linhas da tabela, enquanto as de Y, nas colunas.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 n11 n12 n1+
i = 2 n21 n22 n2+
Totais n+1 n+2 n
Frequências nij ⇛ indivíduos na categoria i de X e
categoria j de Y, i, j = 1,2.
Totais marginais-linha ⇛ frequências ni+ (i = 1,2).
Totais marginais-coluna⇛ frequências n+j (j = 1,2).
Total geral ou amostral n ⇛ soma dos nij, i, j = 1,2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 n11 n12 n1+
i = 2 n21 n22 n2+
Totais n+1 n+2 n
pij = P(X = i,Y = j) ⇛ probabilidades conjunta.
p(i)j = P(Y = j | X = i) ⇛ probabilidades condicionais
pi(j) = P(X = i | Y = j) ⇛ probabilidades condicionais
pi+ = P(X = i) ⇛ probabilidades marginais-linha
p+j = P(Y = j) ⇛ probabilidades marginais-coluna
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Terminologia e Notação
Nos casos mais gerais ⇒ Y e X1, . . . ,Xk
Tabelas de Contingência s× r
Categorias da variável resposta
Subpopulações 1 2 · · · r Totais
1 n11 n12 · · · n1r n1+
2 n21 n22 · · · n2r n2+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
s ns1 ns2 · · · nsr ns+
Totais n+1 n+2 · · · n+r n
Subpopulações = combinações das categorias de X1, . . . ,Xk.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Alguns Delineamentos Amostrais
e
Modelos Associados
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Delineamentos Amostrais
Um estudo pode ser planejado de diferentes formas.
A escolha por uma delas depende, dentre outros:
Objetivos do estudo
Custos e tempo envolvidos para obtenção dos resultados
Disponibilidade de uma equipe para condução do estudo
Disponibilidade das unidades amostrais
Viabilidade de acompanhamento das unidades amostrais
A seguir, são apresentados alguns delineamentos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Estudos de Coorte
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Assim, para esses estudos tem-se:
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) n1+
i = 2 (E) n2+
Totais
Desse modo, a probabilidade de um indivíduo pertencer a
categoria j de Y, estando na categoria i de X, é dada por:
p(i)j = P(Y = j | X = i)
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p(1)1 p(1)2 1
i = 2 (E) p(2)1 p(2)2 1
Totais p+1 p+2 1
p(1)1 ⇒ incidência entre os expostos
p(2)1 ⇒ incidência entre os não-expostos
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Sendo assim:
{
N11 ∼ Bin(n1+,p(1)1)
N21 ∼ Bin(n2+,p(2)1)
Modelo probabilístico: produto de binomias
P(N1 = n1,N2 = n2) =
2
∏
i=1
P(Ni1 = ni1,Ni2 = ni2)
=
2
∏
i=1
[
(ni+)!
2
∏
j=1
(p(i)j)nij
(nij)!
]
com (Ni = ni) = (Ni1 = ni1,Ni2 = ni2), i = 1, 2.
Probabilidades p(i)j estimadas por:
p̂(i)j =
nij
ni+
i, j = 1,2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p(1)1 p(1)2 1
i = 2 (E) p(2)1 p(2)2 1
Totais p+1 p+2 1
{
H0: p(1)1 = p(2)1 (= p+1)⇛ hipótese de homogeneidade
HA: p(1)1 6= p(2)1
Karl Pearson propôs
Qp =
2
∑
i=1
2
∑
j=1
(nij− eij)2
eij
∼ χ2(1)

Sob H0 ⇛ E(Ni1) = ni+(p+1) e E(Ni2) = ni+(p+2)
Estimativas⇛ eij =
(ni+)(n+j)
n
i, j = 1,2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Duas outras estatísticas comumente utilizadas são:
1 Estatística da Razão de Verossimilhanças
QL =−2
2
∑
i=1
2
∑
j=1
nij log
(
eij
nij
)
∼ χ2(1)
2 Estatística de Neyman
QN =
2
∑
i=1
2
∑
j=1
(nij− eij)2
nij
∼ χ2(1)
Em certas situações⇛ Teste Exato de Fisher.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p(1)1 p(1)2 = (1−p(1)1) 1
i = 2 (E) p(2)1 p(2)2 = (1−p(2)1) 1
Totais p+1 p+2 1
Note que H0: p(1)1 = p(2)1 pode também ser expressa por:
a) H0: p(1)1−p(2)1︸ ︷︷ ︸= 0
diferença entre incidências ⇒ risco atribuível
b) H0: p(1)1p(2)1︸︷︷︸= 1
razão de incidências ⇒ risco relativo
c) H0: p(1)1/(1−p(1)1)p(2)1/(1−p(2)1) =
p(1)1/p(1)2
p(2)1/p(2)2
=
p(1)1 p(2)2
p(1)2 p(2)1︸ ︷︷ ︸= 1
razão dos produtos cruzados ⇒ odds ratio ou razão de chances
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
odds ou chance = probabilidade evento ocorrerprobabilidade evento não ocorrer
Status de Evento de Interesse
Exposição Sim (D) Não (D) Totais
E 80 20 100
E 25 75 100
Totais 105 95 200
oddsE =
p(1)1
1−p(1)1
⇒ ôddsE = 0,8/0,2 = 4/1
oddsE =
p(2)1
1−p(2)1
⇒ ôddsE = 0,25/0,75 = 1/3
odds ratioE|E = oddsEoddsE ⇒ ÔR = 12
risco relativoE|E =
p(1)1
p(2)1
⇒ R̂R = 0,8/0,25 = 3,2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p(1)1 p(1)2 1
i = 2 (E) p(2)1 p(2)2 1
Totais p+1 p+2 1
ORE|E =
oddsE
oddsE
=
p(1)1/p(1)2
p(2)1/p(2)2
=
p(1)1 p(2)2
p(1)2 p(2)1
⇓
ÔRE|E =
n11n22
n12n21
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Se RR = 1, a probabilidade de resposta positiva não
difere entre os indivíduos expostos e não-expostos.
Se RR > 1, a probabilidade de resposta positiva é
maior entre os indivíduos expostos.
Se RR < 1, a probabilidade de resposta positiva é
maior entre os indivíduos não-expostos.
Se OR = 1, a chance de resposta positiva não difere
entre os indivíduos expostos e não-expostos.
Se OR > 1, a chance de resposta positiva é maior
entre os indivíduos expostos.
Se OR < 1, a chance de resposta positiva é maior
entre os indivíduos não-expostos.
Chance e probabilidade não têm o mesmo significado!
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOSMinicurso - 57a Reunião Anual da RBras
Estimação por Intervalo - Medidas de Associação
Risco Relativo⇛ IC = exp
(
f̂ ± zα/2
√
V̂(f )
)

f = ln(RR) = ln(p(1)1)− ln(p(2)1)
V(f ) = (1−p(1)1)(n1+)(p(1)1) +
(1−p(2)1)
(n2+)(p(2)1)
zα/2 = 100(1−α/2) percentil da N(0,1)
Odds Ratio ⇛ IC = exp
(
f̂ ± zα/2
√
V̂(f )
)

f = ln(OR)
V(f ) =
(
1
n11
+ 1
n12
+ 1
n21
+ 1
n22
)
zα/2 = 100(1−α/2) percentil da N(0,1)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
Obs: instalar package epiR http://www.r-project.org/
> require(epiR)
> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count",
conf.level=0.95, units=100, verbose=FALSE)
Disease + Disease - Total Inc risk Odds
Exposed + 80 20 100 80.0 4.000
Exposed - 25 75 100 25.0 0.333
Total 105 95 200 52.5 1.105
Point estimates and 95% CIs:
---------------------------------------------------------
Inc risk ratio 3.2 (2.25, 4.56)
Odds ratio 12 (6.16, 23.38)
---------------------------------------------------------
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count",
conf.level=0.95, units=100, verbose=TRUE)
$RR
est se lower upper
1 3.2 1.197550 2.247488 4.556197
$OR
est se lower upper
1 12 1.405430 6.158583 23.38200
$chisq
test.statistic df p.value
1 60.65163 1 6.77236e-15
-------------------------------------
# Testes de Pearson e Fisher
> dados<-matrix(c(80,25,20,75),nc=2)
> chisq.test(dados,correct=F)
> fisher.test(dados)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Ensaio Clínico Aleatorizado
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
X Y = Desfecho
Grupos j = 1 (Com) j = 2 (Sem) Totais
i = 1 (Tratado) p(1)1 p(1)2 1
i = 2 (Controle) p(2)1 p(2)2 1
Totais p+1 p+2 1
Delineamento Similar ao dos Estudos de Coorte
⇓
Hipóteses, Testes e Medidas são similares com as devidas
interpretações no contexto do ensaio clínico realizado.
Estudos de Coorte⇛ Observacionais
Ensaios Clínicos ⇛ Experimentais
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Estudos Caso-Controle
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Nesses estudos, amostras de tamanhos n+1 e n+2 são
obtidas das subpopulações de casos e controles.
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E)
i = 2 (E)
Totais n+1 n+2
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1{
N11 ∼ Bin(n+1,p1(1))
N12 ∼ Bin(n+2,p1(2))
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Modelo probabilístico: produto de binomiais tal que:
P(N1 = n1,N2 = n2) =
2
∏
j=1
[
(n+j)!
2
∏
i=1
(pi(j))nij
(nij)!
]
com (Nj = nj) = (N1j = n1j,N2j = n2j) e ∑2i=1 pi(j) = 1, j = 1, 2.
Probabilidades pi(j), i, j = 1, 2, estimadas por:
p̂i(j) =
nij
n+j
Se a suposição de independência entre casos e controles
não for razoável⇛ metodologias mais apropriadas.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1
{
H0: p1(1) = p1(2) (= p1+)⇛ hipótese de homogeneidade
HA: p1(1) 6= p1(2)
Qp =
2
∑
i=1
2
∑
j=1
(nij− eij)2
eij
∼ χ2(1)

Sob H0 ⇛ E(N1j) = n+j(p1+) e E(N2j) = n+j(p2+)
Estimativas⇛ eij =
(ni+)(n+j)
n
i, j = 1,2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
Categorias Categorias de Y
de X j = 1 (C) j = 2 (C) Totais
i = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1
Note que H0: p1(1) = p1(2) pode também ser expressa por:
H0:
p1(1)/(1−p1(1))
p1(2)/(1−p1(2))
=
p1(1)/p2(1)
p1(2)/p2(2)
=
p1(1) p2(2)
p2(1) p1(2)︸ ︷︷ ︸= 1
odds ratio ou razão de chances ou dos produtos cruzados
RR = P(D|E)/P(D| ¯E) não se aplica a esses estudos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Caso-Controle
odds ou chance = probabilidade exposição ao fatorprobabilidade não-exposição ao fator
Status de Grupos
Exposição Casos Controles Totais
E 60 20 80
E 40 80 120
Totais 100 100 200
oddsC =
p1(1)
1−p1(1)
⇒ ôddsC = 0,6/0,4 = 3/2
oddsC =
p1(2)
1−p1(2)
⇒ ôddsE = 0,20/0,80 = 1/4
odds ratioC|C = oddsCoddsC ⇒ ÔR = 6
Nesse exemplo, a chance de exposição ao fator sob estudo
foi maior entre os casos do que entre os controles.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos de Coorte
Categorias Categorias de Y
de X j = 1 (D) j = 2 (D) Totais
i = 1 (E) p1(1) p1(2) p1+
i = 2 (E) p2(1) p2(2) p2+
Totais 1 1 1
ORC|C =
oddsC
oddsC
=
p1(1)/p2(1)
p1(2)/p2(2)
=
p1(1) p2(2)
p1(2) p2(1)
⇓
ÔRC|C =
n11n22
n12n21
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> require(epiR)
> epi.2by2(a=60, b=20, c=40, d=80, method ="case.control",
conf.level = 0.95, units=100, verbose = FALSE)
Disease + Disease - Total Prevalence Odds
Exposed + 60 20 80 75.0 3.0 ?
Exposed - 40 80 120 33.3 0.5 ?
Total 100 100 200 50.0 1.0 ?
> epi.2by2(a=60, b=40, c=20, d=80, method ="case.control",
conf.level = 0.95, units=100, verbose = FALSE)
Exposed + Exposed - Total Prevalence Odds
Disease + 60 40 100 60 1.500
Disease - 20 80 100 20 0.250
Total 80 120 200 40 0.667
Point estimates and 95% CIs:
---------------------------------------------------------
Odds ratio 6 (3.19, 11.29)
---------------------------------------------------------
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Relação entre odds ratio e risco relativo
Doenças raras ⇒ Estudos de Coorte são inviáveis.
Nesses casos ⇒ Estudos Caso-Controle são usuais.
Resultado: Se doença rara ⇛ RR ≈ OR
De fato,
⇛ D = doença, D = não doença, P(D) = 1−P(D)
⇛ E = exposição e E = não-exposição
RR =
p(1)1
p(2)1
=
P(D|E)
P(D|E)
=
P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]
P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)]
=
P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}
P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]}
Se doença rara, P(D) → 0︸ ︷︷ ︸
RR ≈
P(E|D)P(E|D)
P(E|D)P(E|D)
=
p1(1)p2(2)
p2(1)p1(2)
= OR
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Clínico-Epidemiológicos
Estudos Transversais ou Cross-Sectional
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Embora ambas as variáveis sejam respostas, uma delas
é usualmente classificada como variável explicativa.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
i = 2
Totais n
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p11 p12
i = 2 p21 p22
Totais 1
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-SectionalCategorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p11 p12
i = 2 p21 p22
Totais 1
Categorias de X
i = 1 i = 2
Categorias de Y j = 1 j = 2 j = 1 j = 2 Total
p11 p12 p21 p22 1
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Modelo probabilístico: Multinomial tal que:
P(N = n) = P(N11 = n11,N12 = n12,N21 = n21,N22 = n22)
= n!
2
∏
i=1
2
∏
j=1
(pij)nij
(nij)!
em que nij ≥ 0,
2
∑
i,j=1
nij = n e
2
∑
i,j=1
pij = 1.
Probabilidades pij (i, j = 1, 2) estimadas por:
p̂ij =
nij
n
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 p11 p12 p1+
i = 2 p21 p22 p2+
Totais p+1 p+2 1
{
H0: pij = (pi+)(p+j), para i, j = 1,2
HA: pij 6= (pi+)(p+j), para pelo menos um par (i, j),
H0 é usualmente denominada hipótese de independência,
pois a ausência de associação, em termos probabilísticos,
significa independência mútua.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross-Sectional
Considerando o modelo Multinomial a tais estudos
⇓
⇛ Frequências esperadas: E(Nij) = n(pij), i, j = 1,2.
⇛ Desse modo, sob H0 7→ E(Nij) = n(pi+)(p+j), i, j = 1,2.
⇛ Estimativas:
eij = n
(
ni+
n
)(
n+j
n
)
=
(ni+)(n+j)
n
i, j = 1,2
Para testar H0 ⇛ Estatísticas de teste QP, QL e QN .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos Transversais ou Cross Sectional
Das definições de risco relativo e odds ratio, pode-se notar
que ambas não são apropriadas aos estudos transversais.
Em epidemiologia, contudo, a prevalência de doenças é
uma medida de interesse nesses estudos.
prevalência = proporção de indivíduos que ESTÃO doentes em um
determinado tempo específico (época da realização do estudo).
incidência = proporção de indivíduos que TORNARAM-SE doentes no
decorrer de um período de tempo específico de acompanhamento.
Assim, se condicionarmos aos totais ni+ e se for dada a
devida atenção às interpretações, é comum o uso da OR
e da razão de prevalências (RP) nesses estudos.
ÔR = n11n22
n12n21
e R̂P =
n11/n1+
n21/n2+
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> epi.2by2(a=60, b=20, c=40, d=80, method="cross.sectional",
conf.level = 0.95, units=100, verbose = FALSE)
Disease + Disease - Total Prevalence Odds
Exposed + 60 20 80 75.0 3.0
Exposed - 40 80 120 33.3 0.5
Total 100 100 200 50.0 1.0
Point estimates and 95% CIs:
-----------------------------------------------------------
Prevalence ratio 2.25 (1.70, 2.99)
Odds ratio 6 (3.19, 11.29)
-----------------------------------------------------------
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Durante o planejamento e execução dos estudos, nem
sempre é possível estabelecer o total de participantes.
Tempo de duração do estudo é, então, pré-estabelecido.
Sendo assim, Nij, i, j = 1,2, são contagens aleatórias, com
Nij, e também N, conhecidas somente após o término da
coleta dos dados.
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1
i = 2
Totais
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Insetos coletados em armadilhas e sexados.
Sexo
Armadilha Machos Fêmeas Totais
Alaranjada 246 17 263
Amarela 458 32 490
Totais 704 49 753
Fonte: Silveira Neto et al. (1976), Demétrio (2001)
Assumindo que certas suposições são válidas/razoáveis.
em um determinado intervalo de tempo, o no de insetos é independente do no
de insetos em qualquer outro intervalo disjunto,
a distribuição do número de insetos depende somente do comprimento do
intervalo de tempo considerado e não do seu instante inicial,
a probabilidade de um inseto passar em um intervalo de tempo suficientemente
pequeno é proporcional ao comprimento do intervalo,
a probabilidade de que dois ou mais insetos passem simultaneamente em um
intervalo de tempo suficientemente pequeno é desprezível.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Então, é usual assumir
Nij ∼ Poisson (µij = tλij), i, j = 1, 2
⇒ λij a taxa média por unidade de tempo
⇒ t a duração do experimento.
Considerando Nij independentes, i, j = 1, 2
Modelo Produto de Poisson independentes
P(N = n) =
2
∏
i=1
2
∏
j=1
P(Nij = nij) =
2
∏
i=1
2
∏
j=1
e−µij(µij)nij
(nij)!
, µij > 0
com (N = n) = (N11 = n11,N12 = n12,N21 = n21,N22 = n22).
Estimativas⇛ µ̂ij = nij, i, j = 1, 2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Categorias Categorias de Y
de X j = 1 j = 2 Totais
i = 1 µ11 µ12 µ1+
i = 2 µ21 µ22 µ2+
Totais µ+1 µ+2 µ
Sob este modelo, ausência de associação entre X e Y{
H0:
µ1j
µ1+ =
µ2j
µ2+
(
=
µ+j
µ
)
, para j = 1,2.
HA:
µ1j
µ1+ 6=
µ2j
µ2+{
H0 : µij = (µi+) (µ+j)µ , para i, j = 1,2.
HA: µij 6= (µi+) (µ+j)µ , para ao menos um par ij.
Hipótese H0 ⇛ hipótese de multiplicatividade
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estudos com Tempo de Duração Fixado
Para testar tais hipóteses
Estatísticas QP, QL e QN
Como Nij ∼ Poisson(µij), i, j = 1,2, segue que:
⇛ E(Nij) = µij
⇛ Assim, sob H0, E(Nij) = (µi+)(µ+j)µ
⇛ Logo, eij = (ni+)(n+j)n , pois µ̂i+ = ni+, µ̂+j = n+j e µ̂ = n.
Obs: estudos dessa natureza são frequentemente
analisados assumindo-se o modelo Multinomial.
Justificativa: a distribuição de probabilidades do vetor
(N11, . . . ,N22), Nij Poisson independentes, condicional à
soma N = ∑i,j Nij, segue distribuição Multinomial (N, p),
com p = (p11, . . . ,p22), em que pij = µij∑i,j µij , para i, j = 1, 2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Considerações sobre os Delineamentos Amostrais
Os delineamentos amostrais apresentados estão dentre
os mais usuais. Como visto, seus respectivos modelos
probabilísticos são obtidos com base nos esquemas
amostrais adotados.
Naturalmente, em estudos com outros esquemas, haverá
a necessidade de se considerar outros modelos.
As conclusões estarão, contudo, condicionadas à validade
das suposições distribucionais.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Alguns Estudos Descritos na Literatura
1 Framingham Heart Study
⇛ fatores associados à doenças cardiovasculares.
2 Nurses’ Health Study
⇛ consequências do uso de contraceptivos orais a longo prazo.
3 Life Span Study
⇛ expectativa de vida - efeito radiação bomba atômica Japão.
4 Pelotas Birth Cohort Study
⇛ saúde infantil e materna.
5 Baependi Heart Study
⇛ fatores associados à doenças cardiovasculares - população miscigenada.
6 Medicine, Angioplasty, or Surgery Study (MASS-II).
⇛ comparação de tratamentos - pacientes c/ doença coronária multiarterial.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Extensões
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r ( > 2)
1. Variáveis Y e X nominais
Estabelecidas as hipóteses apropriadas:
Se ni+fixos ⇛ hipótese de homogeneidade
Se n fixo ⇛ hipótese de independência
Se totais aleatórios ⇛ hipótese de multiplicatividade
QP =
s
∑
i=1
r
∑
j=1
(nij− eij)2
eij
∼ χ2(s−1)(r−1)
com eij =
(ni+)(n+j)
n
, i = 1, . . . ,s e j = 1, . . . ,r.
Alternativamente⇛ Estatísticas QL ou QN .
Em algumas situações⇛ Teste Exato de Fisher.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplo: X e Y nominais e n fixo (s e r > 2
Estudo transversal para avaliar a presença de associação
entre partido político e local de moradia.
Local de Moradia
Partido Político A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 836 548 2570
Fonte: Stokes et al. (2000)
Modelo associado⇛ Multinomial{
H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2,3,4
HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).
QP = 273,92 (p < 0,0001, g.l = 6)⇛ há evidências de
associação entre partido político e local de moradia.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> dados<-matrix(c(221,200,208,160,291,106,360,160,316,
140,311,97),nc=4)
> dados
[,1] [,2] [,3] [,4]
[1,] 221 160 360 140
[2,] 200 291 160 311
[3,] 208 106 316 97
> chisq.test(dados,correct=F)
Pearson’s Chi-squared test
data: dados
X-squared = 273.9188, df = 6, p-value < 2.2e-16
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r
2. Variável Y ordinal e X nominal com totais ni+ fixos
Avaliação de tratamentos em pacientes com artrite reumatóide.
Melhora do Paciente
Tratamentos Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
Fonte: Stokes et al. (2000)
Nesses casos, a estatística QP pode ser utilizada para
testar H0 : p1 = p2 = ...= pr (hípótese de homogeneidade)
Modelo associado⇛ Produto de multinomiais.
Contudo, a natureza ordinal da variável resposta não
estaria sendo levada em consideração.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Alternativa⇛ atribuir escores a = (a1,a2, . . . ,ar) para as
categorias de Y e definir um escore médio Fi para cada
subpopulação tal que:
Fi =
r
∑
j=1
aj (p(i)j) i = 1, . . . ,s.
Se s = 2, como no exemplo da artrite⇛ H0: F1 = F2.
f i = ∑rj=1 aj (p̂(i)j) = ∑rj=1 aj
( nij
ni+
)
, i = 1,2
E(f 1|H0) = ∑rj=1 aj
(
E(N1j)
n1+
)
= ∑rj=1 aj
(
n+j
n
)
= µa
V(f 1|H0) = (n− n1+)(n1+)(n−1)
r
∑
j=1
(aj−µa)2
( n+j
n
)
︸ ︷︷ ︸=
(n− n1+)
(n1+)(n−1)
νa.
νa
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Desse modo, para testar H0: F1 = F2 foi proposto:
QS = (f 1−µa)
2
(n − n1+)
(n1+)(n−1)νa
=
(n−1)
(n−n1+)
(n1+)(f 1−µa)2
va︸ ︷︷ ︸
∼ χ21
estatística escore médio
Se s > 2 ⇛ H0: F1 = F2 = . . .= Fs.
QS = (n−1)
n
∑si=1(ni+)(f i−µa)2
va︸ ︷︷ ︸∼ χ2(s−1)
estatística escore médio
Se H0 for rejeitada ⇒ comparações dois a dois.
⇑
paralelo com análise de variância um-fator
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> dados<-matrix(c(13,29,7,7,21,7),nc=3)
> escore<-c(0,1,2)
> fb1<-(sum(dados[1,]*escore))/sum(dados[1,])
> fb2<-(sum(dados[2,]*escore))/sum(dados[2,])
> cbind(fb1,fb2)
fb1 fb2
[1,] 1.195122 0.4883721
> esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3])))/
sum(dados)
> mua<-sum(escore*esp); va<-sum((escore-mua)^2*esp)
> vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,])*
(sum(dados)-1)))*va
> QS = ((fb1-mua)^2)/vbf1; gl<-nrow(dados)-1
> p<-1-pchisq(QS,gl)
> cbind(QS, p)
QS p
[1,] 12.85902 0.0003358568
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Ensaio clínico aleatorizado realizado para avaliar um novo
medicamento utilizado para aliviar dores de cabeça.
Horas de alívio
Medicamentos 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrão 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Fonte: Stokes et al. (2000)
Modelo associado⇛ Produto de Multinomiais.
Devido a natureza discreta das categorias de Y
Pode-se utilizar a estatística escore médio
H0: F1 = F2 = F3.
QS = 13,7346 (p = 0,001, g.l. = 2)⇛ há evidências de que
pelo menos dois medicamentos diferem entre si.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variável Y ordinal e X nominal com totais ni+ fixos
Mas quais medicamentos diferem entre si?
Comparações dois a dois, controlando erro do tipo I
(por ex., pelo método de Bonferroni).
⇛ Estimativas: f 1 = 1,36, f 2 = 2,64 e f 3 = 2,41
⇛ Considerando α = 0,05 ⇒ 0,05/3 = 0,017.
⇛ Placebo vs padrão: QS = 11,66 (p = 0,0006, g.l. = 1)
⇛ Placebo vs novo: QS = 8,60 (p = 0,0034, g.l. = 1)
⇛ Padrão vs novo: QS = 0,46 (p = 0,4950, g.l. = 1).
Há evidências de que placebo 6= novo e padrão.
Note que existem frequências esperadas < 5
⇛ inviabiliza uso de QP, mas não o de QS.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r
3.1 Variáveis Y e X ordinais e total n fixo
Estudo transversal realizado para investigar associação
entre uso de tabaco e a consciência do risco em usá-lo.
Tabaco
Consciência do risco Não usa Usa Totais
Mínima 70 33 103
Moderada 202 40 242
Substancial 218 11 229
Totais 490 84 574
Fonte: Stokes et al. (2000)
Modelo associado: multinomial.{
H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2
HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j).
Estatísticas QP, QL ou QN .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis Y e X ordinais e total n fixo
Porém, a variável uso de tabaco é dicotômica, enquanto
consciência do risco em usá-lo é ordinal⇛ pode-se
pensar em considerar escores para ambas.
Por exemplo, c = (c1,c2,c3) = (1,2,3) para as categorias de
consciência do risco de uso do tabaco e a = (a1,a2) = (0,1)
para as categorias não usa e usa tabaco.
Desse modo, pode-se definir o escore médio
F =
3
∑
i=1
2
∑
j=1
ci aj pij
Estimativa ⇛ f =
3
∑
i=1
2
∑
j=1
ci aj p̂ij =
3
∑
i=1
2
∑
j=1
ci aj nij
n
.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis Y e X ordinais e total n fixo
Sob H0 segue que:
E(f ) =
3
∑
i=1
2
∑
j=1
ci aj
n
E(Nij) =
3
∑
i=1
ci
(ni+
n
) 2
∑
j=1
aj
(n+j
n
)
= µc µa
V(f ) =
{
3
∑
i=1
(ci−µc)2
(ni+
n
) 2
∑
j=1
(aj−µa)2(n+j/n)
(n−1)
}
.
Para amostras grandes⇛ f ∼ Normal.
QCS = (f − µc µa)
2
V(f ) = . . .= (n− 1)(rac)
2︸ ︷︷ ︸∼ χ21
estatística da correlação
com rac o coeficiente de correlação de Pearson.
Dados de tabaco ⇛ QCS = 42,94 (p < 0,0001)
⇛ Há associação entre a consciência do risco e o uso de tabaco.
⇛ Uso tabaco ⇓ à medida que consciência do risco ⇑ (rac =−0,274).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> x<-c(rep(1,103),rep(2,242),rep(3,229))
> y<-c(rep(0,70),rep(1,33),rep(0,202),rep(1,40),
rep(0,218),rep(1,11))
> rac<-cor(y,x)
> rac
[1] -0.2737401
> n<-length(x)
> QCS<-(n-1)*rac^2
> p<-1-pchisq(QCS,1)
> cbind(QCS,p)QCS p
[1,] 42.93697 5.653222e-11
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Outra situação em que Y e X ordinais
3.2 Variáveis Y e X ordinais e totais ni+ fixos
Influência de aditivos na água sobre a limpeza das roupas.
Limpeza
Tratamentos Baixa Média Alta Totais
Água 27 14 5 46
Água + dose única trat padrão 10 17 26 53
Água + dose dupla trat padrão 5 12 50 67
Totais 42 43 81 166
Fonte: Stokes et al. (2000)
Assumindo: a = (1, 2, 3) categorias de limpeza das roupas
c = (1, 2, 3) categorias de tratamento.
⇛ QCS = 50,6 (p < 0,0001, g.l.=1), com rac = 0,554.
⇛ Há evidencias de associação entre X e Y.
⇛ Limpeza ⇑ com o ⇑ da dosagem pois rac > 0.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis Y e X ordinais e totais ni+ fixos)
Em contrapartida, como os ni+ são fixos
⇛ QS = 52,77 (p < 0,00001, g.l.= 2).
⇛ Comparações dos tratamentos, dois a dois:
H0 : ¯F1 = ¯F2 ⇒ QS = 21,71 (p < 0,0001, g.l. = 1)
H0 : ¯F1 = ¯F3 ⇒ QS = 49,06 (p < 0,0001, g.l. = 1)
H0 : ¯F2 = ¯F3 ⇒ QS = 8,02 (p = 0,0046, g.l. = 1).
Para α = 0,05 ⇛ 0,05/3 = 0,017.
Rejeita-se as três hipóteses nulas testadas.
Como ¯f1 = 1,52 < ¯f2 = 2,30 < ¯f3 = 2,67
Limpeza das roupas ⇑ com o ⇑ da dosagem do aditivo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Tabelas de Contingência s× r
Assim, se as variáveis Y e X forem ordinais e escores
puderem ser assumidos para as categorias de ambas
⇓
Se total n fixo⇛ estatística da correlação
QCS = (n−1)(rac)2 ∼ χ21
rac = coeficiente de correlação de Pearson.
Se ni+ fixos⇛ estatísticas escore e/ou da correlação
QS e/ou QCS.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Análise Estratificada
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Variáveis de Confundimento ou Estratificadoras
Nos estudos em geral⇛ atenção deve ser dada às
variáveis de confundimento ou estratificadoras.
Tais variáveis podem confundir uma aparente relação causal.
Sendo assim, é necessário controlar ou minimizar o efeito das
mesmas para obtenção de conclusões mais confiáveis.
Análises que consideram o efeito dessas variáves são
usualmente denominadas análises estratificadas.
Isto porque as análises são realizadas com os dados
estratificados pelas categorias dessas variáveis.
A estratificação pode ser resultado do delineamento adotado
ou sua necessidade pode aparecer após a coleta dos dados.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplo de Variável de Confundimento
Câncer de Pulmão
Fumo Passivo Fumo Voluntário Sim Não Totais
Sim Sim
Sim Não
Totais
Não Sim
Não Não
Totais
variável resposta ⇛
{
Câncer de Pulmão
variável explicativa ⇛
{
Fumo Voluntário
variável confundimento ⇛
{
Fumo Passivo
Obs: caso a influência do confundimento entre fumo voluntário
e fumo passivo não seja considerada, associação entre tabaco
e câncer de pulmão pode até mesmo não ser detectada, ou sua
intensidade não ser bem avaliada.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Exemplo de Variável Estratificadora
Efeito
Centros Medicamentos Favorável Não favorável Totais
1 Novo 29 16 45
1 Padrão 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrão 24 21 45
Totais 61 29 90
variável resposta ⇛
{
Efeito
variável explicativa ⇛
{
Medicamentos
variável estratificadora ⇛
{
Centros Médicos
Há diferenças entre os centros e entre os pacientes atendidos neles
⇛ razoável que seu efeito seja controlado na análise.
Analogia com a análise de delineamentos experimentais⇛ centros
médicos têm o sentido de blocos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Mantel-Haenszel no Ensaio Clínico Multicentros
Em tais situações⇛ Estatística Mantel-Haenszel (1959).
No estudo multicentros tem-se:
conjunto de q = 2 tabelas de cont. 2 × 2 (h = 1, . . . ,q)
Resposta
Tratamentos j = 1 j = 2 Totais
i = 1 nh11 nh12 nh1+
i = 2 nh21 nh22 nh2+
Totais nh+1 nh+2 nh
totais marginais-linha nhi+ fixos nas q = 2 tabelas.
interesse em testar H0: ph(1)1 = ph(2)1, h = 1, . . . ,q
condicional a H0, Nh11 ∼ Hipergeométrica tal que
eh11 = E(Nh11 | nh,nh1+,nh+1) =
(nh1+)(nh+1)
nh
vh11 = V(Nh11 | nh,nh1+,nh+1) =
(nh1+)(nh2+)(nh+1)(nh+2)
(nh)2(nh− 1)
.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estatística de Mantel-Haenszel
Sob H0 e para ∑qh=1 nh suficientemente grande
QMH =
(
q
∑
h=1
nh11−
q
∑
h=1
eh11
)2
q
∑
h=1
vh11
∼ χ2(1)
QMH é eficaz para avaliar associações se a maioria das
diferenças (ph(1)1− ph(2)1) apresentar o mesmo sinal.
Havendo homogeneidade das OR nas q tabelas 2 × 2
ÔRMH =
q
∑
h=1
nh11 nh22
nh
q
∑
h=1
nh12 nh21
nh
.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resultados - Ensaio Clínico Multicentros
QMH = 18,41 (p < 0,0001), indicando associação entre as
variáveis tratamento e resposta do paciente, controlando
pela variável estratificadora centro médico.
Também, o medicamento novo apresenta proporção de
resposta favorável maior do que a do placebo, uma vez
que p̂h(1)1 > p̂h(2)1, para h = 1,2.
ÔR1 = 4,01 e ÔR2 = 4,04 (homogêneas)
ÔRMH = 4,028 ⇒ a odds de melhora dos
pacientes que receberam o novo tratamento
foi ≈ 4 vezes a dos que receberam placebo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2))
> mantelhaen.test(tab, correct=F)
Mantel-Haenszel test without continuity correction
data: tab
X-squared = 18.4106, df = 1, p-value = 1.781e-05
alternative hypothesis: true common odds ratio
is not equal to 1
95 percent confidence interval:
2.105716 7.708353
sample estimates:
common odds ratio
4.028846
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Extensões da Estatística de Mantel-Haenszel
Extensões na presença de uma variável estratificadora
Y ordinal e X nominal com totais ni+ fixos⇛ QSMH
Y e X ordinais com totais ni+ fixos⇛ QSMH ou QCSMH
Y e X ordinais com total n fixo ⇛ QCSMH
QSMH ⇛ Estatística escore médio estendida de M-H
QSMH ⇛ Estatística da correlação estendida de M-H
Para mais detalhes ⇒ Stokes et al. (2000).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelos para Dados com
Resposta Dicotômica
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Dados com Resposta Binária ou Dicotômica
Para estudar a existência de associação entre um con-
junto de variáveis X = (X1, X2, ..., Xk) e uma resposta
dicotômica Y ⇒ modelos de regressão são usuais.
X1 X2 ... Xk︸ ︷︷ ︸ ֌ Y︸︷︷︸
O modelo de regressão logística é um dos mais populares
nestas situações.
Quanto às variáveis X, estas podem ser um
misto de variáveis categóricas e contínuas.
As categóricas são incorporadas aos modelos
por meio de variáveis dummy.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
Para introduzir o modelo de regressão logística, considere
os dados de um estudo sobre doença coronariana.
Doença coronária
Idade (X = x) Sim (Y = 1) Não (Y = 0) Totais P(Y= 1 | x)
20-29 1 9 10 0,10
30-34 2 13 15 0,13
35-39 3 9 12 0,25
40-44 5 10 15 0,33
45-49 6 7 13 0,46
50-54 5 3 8 0,63
55-59 13 4 17 0,76
60-69 8 2 10 0,80
Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)
E(Y | x)︸ ︷︷ ︸ = 1 × P(Y = 1 | x) + 0 × P(Y = 0 | x) = P(Y = 1 | x)︸ ︷︷ ︸.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
30 40 50 60
0.
1
0.
2
0.
3
0.
4
0.
5
0.
6
0.
7
0.
8
Idade(em anos)
E[
Y|x
]
Note que à medida que a x = idade cresce, E(Y | x) também cresce.
A mudança na E(Y | x) por unidade de mudança em x se torna
progressivamente menor quando E(Y | x) próxima de 0 ou 1.
Relação entre idade e E(Y | x) não é, portanto, linear, mas sim
sigmoidal (forma de S).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
Similar à regressão linear⇛ interesse em modelar E(Y | x).
Necessário, contudo, considerar que:
E(Y | x) pertence ao intervalo [0, 1].
Relação entre X e E(Y | x) tem a forma de S.
⇓
Sugere distribuição acumulada de uma v.a.
⇓
Distribuição logística se tornou popular por:
ser extremamente flexível e fácil de ser utilizada.
conduzir a interpretações simples.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
E(Y | x) = P(Y = 1 | x)︸ ︷︷ ︸= θ (x) =
exp
{
β0 +
p
∑
k=1
βkxk
}
1+ exp
{
β0 +
p
∑
k=1
βkxk
}
1−θ (x) = 1
1+ exp
{
β0 +
p
∑
k=1
βkxk
} .
sendo x = (x1, x2, . . . , xp) = valores observados das variáveis X,
β0 = constante e βk (k = 1, . . . ,p) os p parâmetros de regressão.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Modelo de Regressão Logística Dicotômica
θ(x) = exp{β
′
x}
1+ exp{β ′x} e 1−θ(x) =
1
1+ exp{β ′x}
ln
(
θ(x)
1−θ(x)
)
= β0 +
p
∑
k=1
βkxk = β ′x.
Esta transformação é denominada logito.
A razão entre θ(x) e 1−θ(x)⇒ definição de odds
⇓
odds = θ(x)
1−θ(x) = exp
{β ′x}.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Estimação do vetor β e das variâncias-covariâncias de β̂
Estimação de β ⇒ Método da Máxima Verossimilhança
L(β ) =
n
∏
ℓ=1
P(Y = yℓ | xℓ) =
n
∏
ℓ=1
(
θ(xℓ)
)yℓ (1−θ(xℓ))1−yℓ
yℓ = 1, se indivíduo l apresentou a resposta e yℓ = 0, c.c.
Valores de β que maximizam lnL(β )⇒ β̂ .
Distribuição assintótica de β̂ ⇛ Normal
Estimação da matriz de variâncias-covariâncias de β̂
Σ(β ) = [I(β )]−1 = matriz de variâncias-covariâncias
I(β ) = matriz contendo o negativo das derivadas
parciais de 2a ordem de lnL(β ).
Estimadores são obtidos por avaliar Σ(β ) em β̂ .
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Significância dos Efeitos das Variáveis
Testar hipóteses relativas aos parâmetros βk (k = 1, . . . ,p)
1. Teste da Razão de Verossimilhanças (TRV)
TRV =−2ln
[
LS
LC
]
= 2ln(LC)−2ln(LS)︸ ︷︷ ︸ ∼ χ2(q)
diferença de deviances
LS: função de verossimilhança associada ao modelo sem a(s)
variável(is) sob investigação
LC: função de verossimilhança associada ao modelo com a(s)
variável(is) sob investigação
q = diferença de parâmetros entre os dois modelos.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Análise de Deviances e Seleção de Modelos
Considere que modelos encaixados sejam ajustados aos
dados de um estudo em que Y é binária e X1 e X2 são
categóricas com duas categorias cada.
Tabela de Análise de Deviances (ANODEV).
Modelos g.l. Deviances TRV 6= g.l.
Nulo glN DN
X1 glN −1 D1 DN −D1 1
X2 | X1 glN −2 D2 D1−D2 1
X1 ∗X2 | X1,X2 glN −3 D3 D2−D3 1
glN = g.l. do modelo nulo = número de subpopulações − 1
Obs: na presença de dados faltantes, o tamanho amostral
nos modelos sequenciais dependerá das variáveis Xk que
os compõem⇛ TRV apresentará problemas.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Significância dos Efeitos das Variáveis
2. Teste de Wald (Wald, 1943)
i) Para testar hipóteses relativas a um parâmetro
H0 : βk = 0, k = 1, . . . ,p
W =
(β̂j)2
V̂ar(β̂j)
∼ χ21
ii) Para hipóteses relativas a q≥ 2 parâmetros
H0 : β ∗ = 0 (β ∗ = vetor q×1)
W = (β̂ ∗)′[Σ̂(β̂ ∗)]−1(β̂ ∗)∼ χ2q
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Diagnóstico do Modelo Ajustado
Sob a hipótese H0: modelo ajustado é satisfatório, faz-se
uso de estatisticas que resumem a concordância entre os
valores observados e os preditos pelo modelo.
QP = ∑i,j
(
nij−eij
)2
eij ∼ χ
2
m
QL = 2∑i,j nij ln
(
nij
eij
)
∼ χ2m
eij = ni+ θ̂ (xi), j = 1 e eij = ni+ (1− θ̂(xi)), j = 2.
ni+ = sujeitos na i-ésima subpopulação da tabela de dados s×2.
θ̂(xi) = probabilidade P(Y = 1 | xi) predita pelo modelo ajustado.
eij = frequências esperadas sob o modelo ajustado.
m = no subpopulações− no parâmetros do modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Diagnóstico do Modelo Ajustado
Na presença de variáveis contínuas⇛ frequências muito
pequenas para a grande maioria das s subpopulações.
⇓
inviabiliza o uso de QL e QP
⇓
Hosmer e Lemeshow (1989) propuseram uma estatística
alternativa, QHL, que é obtida calculando-se a estatística
qui-quadrado de Pearson a partir de uma tabela g×2 de
frequências observadas e preditas
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Diagnóstico do Modelo Ajustado
Inicialmente, as n observações são ordenadas em ordem
crescente das probabilidades θ(x) preditas pelo modelo.
Tais observações são, então, divididas em g grupos (g =
10, por exemplo). No 10 grupo ficam as n1 observações
com probabilidades estimadas < 0,1 e, no último, as ng
observações com probabilidades ≥ 0,9.
QHL =
g
∑
i=1
(oi−niθ (xi))2
ni θ (xi)(1−θ (xi))
∼ χ2(g−2)
ni = frequência de observações no grupo i
oi = frequência de resposta Y = 1 no grupo i
θ (xi) = probab. média estimada de resposta Y = 1 no grupo i.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> dados1<-read.table("chd4a.txt",h=T)
> attach(dados1)
> dados1
dc sexo ecg idade
1 0 0 0 28
2 0 0 0 34
3 0 0 0 38
4 1 0 0 41
...
76 1 1 2 58
77 1 1 2 59
78 1 1 2 60
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Recursos do Software R
Comandos R
> ajust<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"),
data=dados1)
> summary(ajust)
> anova(ajust, test="Chisq")
> source("http://www.poleto.com/funcoes/gof.bino.txt")
> gof.bino(ajust, grupos=10)
$x2
[1] 5.754939
$df
[1] 8
$pvalue
[1] 0.6746605
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resíduos de Pearson e Resíduos Deviance
Limitação das estatísticas Qp e QL ⇛ único valor é utilizado
para resumir uma quantidade considerável de informação.
Pregibon (1981) estendeu os métodos de diagnóstico de
regressão linear para a regressão logística, fazendo uso
dos componentes individuais das estatísticas Qp e QL.
ci =
ni1− (ni+) θ̂ (xi)√
(ni+) θ̂ (xi)(1− θ̂ (xi))︸ ︷︷ ︸
, i = 1, · · · ,s.
resíduos de Pearson
Componentes ci são denominados resíduos de Pearson,
pois a soma deles ao quadrado resulta em QP, i.e.,
QP =
s
∑i=1
(ci)
2
.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resíduos deviance
Analogamente, os componentes di são denominados
resíduos deviance, pois a soma deles ao quadrado
resulta em QL, isto é,
QL =
s
∑
i=1
(di)2.
di =±
[
2ni1 ln
(
ni1
ei1
)
+2(ni+−ni1) ln
(
ni+−ni1
ni+− ei1
)]1/2
︸ ︷︷ ︸
resíduos deviance
ei1 = (ni+) θ̂ (xi), para i = 1, . . . ,s.
sinal de di ⇛ definido a partir das diferenças (ni1− ei1).
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Resíduos deviance
Distribuição aproximada dos resíduos ci e di ∼ N(0,1).
Resíduos excedendo ± 2,5 pode indicar
possível falta de ajuste do modelo
presença de outliers
padrões sistemáticos de variação.
1 2 3 4 5 6 7 8
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
ï
R
es
íd
uo
s 
de
 P
e
a
rs
o
n
1 2 3 4 5 6 7 8
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
i
R
es
íd
uo
s 
de
vi
an
ce
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Sobre a Distribuição dos Resíduos
Assumindo que os resíduos di seguem distribuição
aproximada normal ⇒ construir normal Q-Q plot com
envelope simulado (Davison e Gigli, 1989).
−2 −1 0 1 2
−
2
−
1
0
1
2
Percentis
D
ev
ia
nc
e
Q−Q PlotQ−Q PlotQ−Q Plot
Se os resíduos estiverem dentro do envelope simulado⇛
evidências favoráveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Sobre a Distribuição dos Resíduos
Ben e Yohai (2004) argumentam, contudo, que para
alguns MLG, tal distribuição pode estar distante da
normalidade.
Assim, propuseram uma estimativa da distribuição dos
resíduos di, de modo que no Q-Q plot tais resíduos são
graficado versus os quantis da distribuição estimada.
Ben MG, Yohai VJ (2004). Quantile-quantile plot for
deviance residuals in the generalized linear model.
J. of Comput. & Graphical Statistics, 13(1): 36-47.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Métodos Auxiliares
Poder Preditivo do Modelo Ajustado
Para avaliar o poder preditivo do modelo é necessário
estabelecer um ponto de corte (0 < pc < 1), tal que:
a) Probabilidades preditas pelo modelo ≥ pc⇛ Y = 1
b) Probabilidades preditas pelo modelo < pc⇛ Y = 0.
Resposta Resposta Predita pelo Modelo
Observada Y = 1 (+) Y = 0 (−) Totais
Y = 1 (+) a b (a + b)
Y = 0 (−) c d (c + d)
Totais (a + c) (b + d) n
⇛ Sensibilidade = a
a+b = taxa de verdadeiros +
⇛ Especificidade = d
c+d = taxa de verdadeiros −
⇛ Valor Preditivo = a+d
n
= proporção geral de acertos
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Métodos Auxiliares
Para diversos pontos de corte⇛ Curva ROC
Pares (x, y) = (1 − especificidade, sensibilidade).
Modelo com discriminação perfeita⇛ (x, y) = (0,1).
Pontos de corte próximos ao canto superior esquerdo,
produzirão os maiores % de acertos (V+ e V−).
Quanto mais próxima de 1 for a área abaixo da curva,
melhor o poder de predição do modelo.
1 − especificidade
se
n
si
bi
lid
ad
e
0.0 0.2 0.4 0.6 0.8 1.0
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Doença coronária
Idade (X = x) Sim (Y = 1) Não (Y = 0) Totais E(Y | x)
20-29 1 9 10 0,10
30-34 2 13 15 0,13
35-39 3 9 12 0,25
40-44 5 10 15 0,33
45-49 6 7 13 0,46
50-54 5 3 8 0,63
55-59 13 4 17 0,76
60-69 8 2 10 0,80
Totais 43 57 100 0,43
Fonte: Hosmer e Lemeshow (1989)
β̂0 = −5,123 (e.p. = 1,11) e β̂1 = 0,1058 (e.p. = 0,023).
θ̂ (x) = exp{−5,123+ 0,1058 x}
1+ exp{−5,123+ 0,1058 x}
ln
(
θ̂ (x)
1− θ̂(x)
)
=−5,123+ 0,1058 x
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Tabela 1. Diferenças de deviances
Modelos g.l. Deviances Diferenças 6= g.l.
Nulo 7 28,7015
X: idade 6 0,5838 28,1177 1
Tabela 2. Análise de Deviance (ANODEV)
Fonte de variação g.l. Deviances TRV valor p
Regressão 1 28,1177 28,1177 < 0,00001
Deviance residual 6 0,5838
Deviance total 7 28,7015
Evidências de associação entre idade e doença coronária.
Ainda, teste de Wald⇛ W = 20,49 (g.l. = 1, p < 0,00001)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Qp = 0,59 (p = 0,9965) e QL = 0,58 (p = 0,9967), g.l.= 6.
Resíduos ci e di entre −2,5 e 2,5.
1 2 3 4 5 6 7 8
−
2
−
1
0
1
2
Index
re
sí
du
os
 P
e
a
rs
o
n
1 2 3 4 5 6 7 8
−
2
−
1
0
1
2
Index
re
sí
du
os
 d
ev
ia
nc
e
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−
3
−
2
−
1
0
1
2
3
Normal Q−Q Plot
Percentis da N(0,1)
Co
m
po
ne
nt
e 
do
 D
es
vio
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
Área abaixo da curva ROC: AUC = 0,7838.
Evidências favoráveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
30 40 50 60
0.
0
0.
2
0.
4
0.
6
0.
8
idade
E(
Y|x
)
A partir do modelo ajustado tem-se, por exemplo:
xi θ̂ (xi) 1− θ̂(xi) θ̂(xi)1−θ̂(xi) = exp{β̂0 + β̂1xi}
26 0,0853 0,9147 exp{β̂0 + β̂1 ∗ 26}= 0,093
27 0,0939 0,9061 exp{β̂0 + β̂1 ∗ 27}= 0,103
65 0,8524 0,1476 exp{β̂0 + β̂1 ∗ 65}= 5,774
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 1: Dados sobre Doença Coronária vs Idade
Relembrando que θ(xi)
1−θ(xi)
= odds, segue que:
ÔR =
odds(27)
odds(26) = exp{β̂1(27−26)} = exp{β̂1} ≈ 1,11
ÔR =
odds(65)
odds(26) = exp{β̂1(65−26)} = exp{β̂1 ∗39} ≈ 62
A odds de doença coronária entre indivíduos com 65 anos
de idade é ≈ 62 vezes a dos indivíduos com 26 anos.
Obs: OR nos modelos de regressão logística são denominadas
OR ajustadas, uma vez que o efeito βk associado à covariável k
é estimado na presença dos demais no modelo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> resim<-c(1,2,3,5,6,5,13,8)
> resnao<-c(9,13,9,10,7,3,4,2)
> idade<-c(25,32,38,43,47,53,57,65)
> dados<-as.data.frame(cbind(resim,resnao,idade))
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~idade,
family=binomial(link="logit"),data=dados)
> anova(ajust,test="Chisq")
> summary(ajust)
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=’deviance’)
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,6)
> cbind(QL,p1)
> plot(dev,ylim=c(-2,2),ylab="residuos deviance",pch=16)
> abline(h=0, lty=3)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,6)
> cbind(QP,p2)
> plot(rpears,ylim=c(-2,2),ylab="residuos Pearson",pch=16)
> abline(h=0,lty=3)
> theta<-resim/(resim+resnao)
> plot(idade,theta,ylim=range(0,0.9),xlab="idade",
ylab="E(Y|x)",pch=16)
> idade<-20:70
> modajust<-(exp(-5.123+0.1058*idade))/(1+ exp(-5.123+
0.1058*idade))
> lines(idade,modajust)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomialcom Link Logit
Comandos R
> ntot<-c(10,15,12,15,13,8,17,10)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> dados1<-read.table("coronaria.txt",h=T)
# dados 1 = arquivo com 1 indivíduo por linha (100 x 2)
> attach(dados1)
> dados1[1:3,]
y idade
1 25
0 25
0 25
...
> require(Epi)
> ROC(form=y~idade,plot="ROC")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Ensaio Clinico aleatorizado em que três tratamentos foram
avaliados em pacientes que no diagnóstico apresentaram
infecção urinária complicada ou não de ser curada.
Cura
Diagnóstico da Infecção Medicamentos Sim Não Totais
Complicada A 78 28 106
Complicada B 101 11 112
Complicada C 68 46 114
Não complicada A 40 5 45
Não complicada B 54 5 59
Não complicada C 34 6 40
Fonte: Koch et al. (1985)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Resposta dicotômica e duas covariáveis em que:
xi1 =
{
1 se infecção complicada
0 caso contrário.
xi2 =

(xi21,xi22) = (1,0) se tratamento A
(xi21,xi22) = (0,1) se tratamento B
(xi21,xi22) = (0,0) se tratamento C⇛ refêrencia.
Tabela 1. Diferenças de deviances.
Modelos g.l. deviances 6= deviances 6= g.l. valor p
Nulo 5 44,473 – – –
X1 4 30,628 13,844 1 0,0002
X2 | X1 2 2,515 28,114 2 < 0,0001
X1 ∗X2 | X1,X2 0 0,000 2,515 2 0,2843
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Efeito da interação⇛ não significativo (p = 0,2843).
Foram então testados os efeitos principais
Efeito de X1 ⇛ significativo (p = 0,0002).
Efeito de X2|X1 ⇛ significativo (p < 0,0001).
Tabela 2. Análise de Deviance (ANODEV).
Fonte de variação g.l. deviances TRV valor p
Regressão 3 41,958 41,958 < 0,00001
Deviance residual 2 2,515
Deviance total 5 44,473
As variáveis X1 = diagnóstico e X2 = tratamento reduzem
substancialmente a deviance total.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Estatísticas de qualidade de ajuste do modelo
QL = 2,515 (p = 0,2844) e QP = 2,757 (p = 0,2519).
Valores observados e preditos pelo modelo e resíduos
deviance e de Pearson.
θ (xi) θ̂(xi) di ci
0,735 0,739 −0,077 −0,077
0,902 0,882 0,646 0,630
0,596 0,612 −0,344 −0,345
0,889 0,881 0,162 0,161
0,915 0,951 −1,182 −1,302
0,850 0,805 0,740 0,717
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Gráfico dos resíduos deviance e Normal QQ-Plot
1 2 3 4 5 6
−
3
−
2
−
1
0
1
2
3
Index
rs
íd
uo
s 
de
vi
an
ce
−1.0 −0.5 0.0 0.5 1.0
−
2
−
1
0
1
2
3
Normal Q−Q Plot
Percentis da N(0,1)
Co
m
po
ne
nt
e 
do
 D
es
vio
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
Área abaixo da curva ROC⇛ AUC = 0,70.
Evidências favoráveis ao modelo ajustado.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Tabela 3. Estimativas dos parâmetros do modelo ajustado.
Parâmetros Estimativas erro padrão
β0: constante 1,4184 0,2986
β1: infecção complicada −0,9616 0,2997
β2: tratamento A 0,5847 0,2641
β3: tratamento B 1,5608 0,3158
ln
(
θ̂(xi)
1− θ̂ (xi)
)
= 1,4184−0,9616 xi1 +0,5847 xi21 +1,5608 xi22
θ̂(xi) =
exp{1,4184−0,9616 xi1 +0,5847 xi21 +1,5608 xi22}
1+exp{1,4184−0,9616 xi1 +0,5847 xi21 +1,5608 xi22}
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 2: Estudo sobre Infecções Urinárias
Infecção Tratamentos θ̂(xi)
1−θ̂(xi)
= odds
Complicada A exp{β̂0 + β̂1 + ˆβ2}
Complicada B exp{β̂0 + β̂1 + ˆβ3}
Complicada C exp{β̂0 + β̂1}
Não complicada A exp{β̂0 + β̂2}
Não complicada B exp{β̂0 + β̂3}
Não complicada C exp{β̂0}
ÔRC|NC = exp{β̂1}= 0,38
⇓
ÔRNC|C = exp{−β̂1}= 2,6
ÔRA|C = exp{β̂2}= 1,79
ÔRB|C = exp{β̂3}= 4,76
ÔRB|A = exp{β̂3− β̂2}= 2,65
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> resim<-c(78,101,68,40,54,34)
> resnao<-c(28,11,46,5,5,6)
> diag<-c(1,1,1,0,0,0)
> trat<-c(2,3,1,2,3,1)
> dados<-as.data.frame(cbind(resim,resnao,diag,trat))
> attach(dados)
> ajust<-glm(as.matrix(dados[,c(1,2)])~factor(diag)+
factor(trat),family=binomial(link="logit"),data=dados)
> summary(ajust)
> anova(ajust,test="Chisq")
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,2)
> cbind(QL,p1)
> plot(dev, pch=16,ylim=c(-3,3),ylab="Residuos deviance")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,2)
> cbind(QP,p2)
> ntot<-c(106,112,114,45,59,40)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> dados1<-read.table("infec.txt", h=T)
> dados1 # arquivo com 1 indivíduo por linha (476 x 3)
x1 x2 y # x1 = diag e x2 = trat
1 2 1
1 2 1
...
> attach(dados1)
> require(Epi)
> ROC(form=y~factor(x1)+factor(x2),plot="ROC")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Objetivo: estudar associação de bronquite com
smk = status de fumo (0 se não usa e 1 se usa),
ses = status sócio-econômico (0 se alto e 1 se baixo)
idade = 0 se < 40 anos e 1 se ≥ 40 anos.
Bronquite
smk ses idade Sim Não Totais
0 1 0 38 73 111
0 1 1 48 86 134
0 0 0 28 67 95
0 0 1 40 84 124
1 1 0 84 89 173
1 1 1 102 46 148
1 0 0 47 96 143
1 0 1 59 53 112
Fonte: Kleinbaum (1994)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Tabela 1. Diferenças de deviances - modelos sequenciais.
Modelos g.l. Dev. TRV 6= g.l. valor p
Nulo 7 72,798
X1 6 40,336 32,462 1 < 0,0001
X2 | X1 5 27,511 12,825 1 0,0003
X3 | X1,X2 4 11,025 16,486 1 < 0,0001
X1 ∗X2 | X1,X2,X3 3 7,910 3,115 1 0,0775
X1 ∗X3 | X1,X2,X3,X1 ∗X2 2 0,032 7,879 1 0,0050
X2 ∗X3 | X1,X2,X3,X1 ∗X2,X1 ∗X3 1 0,031 0,001 1 0,9763
X1 ∗X2 ∗X3 | X1,X2,X3 + duplas 0 0,000 0,031 1 0,8602
X1 = smk, X2 = ses e X3 = idade
Modelo ⇛ X1,X2,X3 +X1 ∗X3 +X1 ∗X2
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
θ (xi) θ̂(xi)
0.3389166 0.3423423
0.3610467 0.3582090
0.2987395 0.2947368
0.3195141 0.3225806
0.4870962 0.4855491
0.6873808 0.6891892
0.3267997 0.3286713
0.5291753 0.5267857
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−
2
−
1
0
1
2
Normal Q−Q Plot
Percentis da N(0,1)
Co
m
po
ne
nt
e 
do
 D
es
vio
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
1 2 3 4 5 6 7 8
−
0.
4
−
0.
2
0.
0
0.
2
0.
4
Index
R
es
id
uo
s 
de
vi
an
ce
QL = QP = 0,0318 (p = 0,999).
Área abaixo curva ROC = 0.64.
Evidências a favor do modelo.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Parâmetros Estimativas Erro-padrão
β0 −0,8533 0,1856
β1: x1 = smk 0,1306 0,2408
β2: x2 = ses 0,1852 0,1982
β3: x3 = idade 0,0973 0,1991
β4: (x1 ∗x2) = smk∗ses 0,4859 0,2637β5: (x1 ∗x3) = smk∗idade 0,7422 0,2643
smk ses idade smk∗ses smk∗idade odds = θ̂ (xi)
1−θ̂(xi)
0 1 0 0 0 exp{β̂0 + β̂2}
0 1 1 0 0 exp{β̂0 + β̂2 + β̂3}
0 0 0 0 0 exp{β̂0}
0 0 1 0 0 exp{β̂0 + β̂3}
1 1 0 1 0 exp{β̂0 + β̂1 + β̂2 + β̂4}
1 1 1 1 1 exp{β̂0 + β̂1 + β̂2 + β̂3 + β̂4 + β̂5}
1 0 0 0 0 exp{β̂0 + β̂1}
1 0 1 0 1 exp{β̂0 + β̂1 + β̂3 + β̂5}
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
Na presença de interações significativas:
ÔRsmk(1|0) =

exp{β̂1} se ses = 0 e idade = 0
exp{β̂1 + β̂4} se ses = 1 e idade = 0
exp{β̂1 + β̂5} se ses = 0 e idade = 1
exp{β̂1 + β̂4 + β̂5} se ses = 1 e idade = 1
ÔRsmk(1|0) = exp{β̂1 + β̂4 ses+ β̂5 idade}
Assim, para, por exemplo, pacientes com ses alto = 0 e idade
> 40 anos (idade = 1), a odds de bronquite entre os que fumam
é exp{0,1306+ 0,7422}= 2,4 vezes a dos que não fumam.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
ÔRses(1|0) =
{
exp{β̂2} se smk = 0
exp{β̂2 + β̂4} se smk = 1
ÔRses(1|0) = exp{β̂2 + β̂4 smk}
Assim, para pacientes que fumam, a odds de bronquite entre os
com ses baixo (ses = 1) é exp{0,1852+ 0,4859}= 1,95 vezes a
dos com ses alto (ses = 0).
Para os que não fumam (smk = 0), tal odds é exp{0,1852}= 1,2.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustração 3: Estudo sobre Bronquite
ÔRidade(1|0) =
{
exp{β̂3} se smk = 0
exp{β̂3 + β̂5} se smk = 1
ÔRidade(1|0) = exp{β̂3 + β̂5 smk}
Desse modo, para os que fumam, a odds de bronquite entre os
com idade ≥ 40 anos é exp{0,0973+ 0,7422}= 2,3 vezes a dos
com idade < 40 anos.
Para os que não fumam tal odds é exp{0,0973}= 1,1.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> brc<-read.table("bronquite.txt",h=T)
> attach(brc)
> brc
sim nao smk ses idade
38 73 0 1 0
48 86 0 1 1
28 67 0 0 0
40 84 0 0 1
84 89 1 1 0
102 46 1 1 1
47 96 1 0 0
59 53 1 0 1
> ajust<-glm(as.matrix(ex3[,c(1,2)])~smk+ses+idade+
smk*ses+smk*idade,family=binomial,data=brc)
> anova(ajust,test="Chisq")
> summary(ajust)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ajust$y
> ajust$fitted.values
> dev<-residuals(ajust,type=’deviance’)
> dev
> QL<-sum(dev^2)
> p1<-1-pchisq(QL,6)
> cbind(QL,p1)
> rpears<-residuals(ajust,type=’pearson’)
> rpears
> QP<-sum(rpears^2)
> p2<-1-pchisq(QP,6)
> cbind(QP,p2)
> plot(dev, pch=16,ylim=c(-0.5,0.5),ylab="Residuos deviance")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ajustando Modelo Binomial com Link Logit
Comandos R
> ntot<-c(111,134,95,124,173,148,143,112)
> fit.model<-ajust
> source("http://www.ime.usp.br/~giapaula/envelr_bino")
> brc1<-read.table("bronquite1.txt",h=T)
> attach(brc1)
# brc1 = arquivo com 1 indivíduo por linha (1040 x 4)
> brc1
x1 x2 x3 y
0 1 0 1
0 1 0 1
...
1 0 1 0
> require(Epi)
> ROC(form=y~x1+x2+x3+x1*x2+x1*x3,plot="ROC")
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Links Paramétricos Alternativos para Dados Binários
Alguns links para dados com resposta binária.
θ (x) = F(β ′x) links paramétricos alternativos
exp{β ′x}
1+ exp{β ′x} logito ⇒ ln
(
θ (x)
1−θ (x)
)
Φ(β ′x) probito ⇒ Φ−1(θ (x))
1−exp{−exp{β ′x}} clog-log ⇒ ln(− ln(1−θ (x)))
1
2 +
arctg(β ′x)
pi cauchy ⇒ F−1(θ (x))
Φ(·) denota a função de distribuição da N(0,1), arctg = arco tangente
F(·)denota a função de distribuição da Cauchy(0,1) ∼ t-Student(1g.l.)
⇛ Simétricos: logístico, probito e cauchy
⇛ Assimétrico: complemento log-log.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Links Alternativos para Dados Binários
−4 −2 0 2 4
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
x
th
et
a(x
)
logístico
probito
clog−log
cauchy
Procedimentos de estimação, qualidade e diagnóstico são
análogos aos do modelo logístico.
Interpretação dos parâmetros difere da apresentada para
o modelo logístico.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
Bioensaio conduzido em laboratório por Machado (2006).
Objetivo: concentração ideal de uma suspensão viral.
Mortes
Diluições (CPI/ml) Sim Não Totais
Testemunha 0 30 30
103 1 29 30
106 4 26 30
107 15 15 30
108 28 2 30
109 29 1 30
xi = logaritmo neperiano das diluições.
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando Links Alternativos - Bioensaio
0 5 10 15 20 25
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
ln(diluição)
Pr
op
or
çã
o 
de
 m
or
te
s
Logístico ⇒ θ (xi) =
exp{β0 +β1xi}
1+exp{β0 +β1xi}
Probito ⇒ θ (xi) = Φ(β0 +β1xi)
Clog-log ⇒ θ (xi) = 1−exp{−exp{β0 +β1xi}}
Cauchy ⇒ θ (xi) =
1
2
+
arctan(β0 +β1xi)
pi
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando Links Alternativos - Bioensaio
Estatística deviance de qualidade de ajuste
Logito Probito Clog-log Cauchy
QL 6,59 10,99 6,18 1,72
p-valor 0,158 0,027 0,186 0,787
−1.0 0.0 1.0
−
2
−
1
0
1
2
Normal Q−Q Plot
Percentis da N(0,1)
D
ev
ia
nc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
−1.0 0.0 1.0
−
3
−
1
0
1
2
Normal Q−Q Plot
Percentis da N(0,1)
D
ev
ia
nc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
−1.0 0.0 1.0
−
2
0
1
2
3
Normal Q−Q Plot
Percentis da N(0,1)
D
ev
ia
nc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
−1.0 0.0 1.0
−
4
−
2
0
2
4
Normal Q−Q Plot
Percentis da N(0,1)
D
ev
ia
nc
e
Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
a) logito b) probito c) clog-log d) Cauchy
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
Evidências a favor do modelo Binomial com link cauchy.
Estimativas
links β̂0 (e.p.) β̂1 (e.p.)
Logito −12,863 (2,27) 0,708 (0,12)
Probito − 6,244 (1,07) 0,347 (0,06)
Clog-log − 8,143 (1,26) 0,422 (0,06)
Cauchy −26,678 (9,47) 1,451 (0,51)
Usual nos bioensaios: dose letal mediana⇛ LD50
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
x50 = ln(L̂D50) L̂D50
Logito ln
(
0,50
1− 0,50
)
= β̂0 + β̂1x − β̂0β̂1 ≈ 18,17 (7,7)
7
Probito Φ−1(0,50) = β̂0 + β̂1x − β̂0β̂1 ≈ 18,00 (6,6)
7
Clog-log ln(− ln(1− 0,50)) = β̂0 + β̂1x −0,3665−β̂0β̂1 ≈ 18,43 (10)
7
Cauchy F−1(0,50) = β̂0 + β̂1x − β̂0β̂1 ≈ 18,39 (9,7)
7
Obs: para os modelos com links simétricos ⇛ x50 =− β̂0β̂1 .
Estimação por ponto e intervalo da LD50: Finney (1971),
Willians (1986), Kelly (2001), Kelly e Lindsey (2002), ...
Koenker, R. Parametric links for binary response. URL:
www.econ.uiuc.edu/∼roger/research/links/Rnews.pdf
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS
Minicurso - 57a Reunião Anual da RBras
Ilustrando links Alternativos - Bioensaio
0 5 10 15 20 25
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
ln(diluições)
pr
op
or
çã
o 
de
 m
or
te
s logístico
probito
clog−log
cauchy
(18.386, 0.5)
Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE