Baixe o app para aproveitar ainda mais
Prévia do material em texto
INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS SUELY RUIZ GIOLO Departamento de Estatística Universidade Federal do Paraná giolo@ufpr.br 57a Reunião Anual da RBras ESALQ/USP - Piracicaba/SP 05 a 09 de maio de 2012 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Conteúdo 1 Conceitos Introdutórios, Notação e Exemplos 2 Delineamentos Amostrais e Modelos Associados 3 Dados em Tabelas de Contingência Testes e Medidas de Associação 4 Alguns Modelos de Regressão Resposta Binária ou Dicotômica Resposta Politômica Resposta Dicotômica em Dados Pareados 5 Diversas Ilustrações (Resultados - Software R) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Bibliografia Básica Agresti, A. (1995). Introduction to the Analysis of Categorical Data. New York: Wiley. Agresti, A. (2002). Categorical data analysis, 2nd ed. New York: Wiley. Everitt, B.S. (1977). The Analysis of Contingency Tables. London: Chapman and Hall. Hosmer, D.W.; Lemeshow, S. (2000). Applied Logistic Regression. New York: John Wiley & Sons. Freeman Jr, D.F. (1987). Applied Categorical Data Analysis. New York: Marcel Dekker. Santner, T.J.; Duffy, D.E. (1989). The Statistical Analysis of Discrete Data. New York: Springer-Verlag. Stokes, M.E.; Davis, C.S.; Kock, G.G. (2000). Categorical Data Analysis using the SAS System. SAS. Inst Inc, Cary, NC. USA. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Bibliografia Complementar Demétrio, C.G.B. (2001). Modelos Lineares Generalizados em Experimentação Agronômica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO. Giolo, S.R. (2012). Introdução à Análise de Dados Categóricos com Aplicações. Material Didático, 190p. Paula, G.A. (2010). Modelos de Regressão com Apoio Computacional. URL: http://www.ime.usp.br/ giapaula/ Paulino, C.D.M.; Singer, J.M. (2006). Análise de Dados Categorizados. São Paulo: Blucher. Poleto, F.Z. (2006). Análise de Dados Categorizados com Omissão. Dissertação de mestrado. São Paulo: Depto de Estatística, IME/USP. Dentre outros .... Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Conceitos Introdutórios Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Introdução Em diversos estudos é comum o registro de variáveis qualitativas e quantitativas (contínuas ou discretas) ⇒ melhora do paciente (sim ou não) ⇒ desempenho do candidato (bom, regular ou péssimo) ⇒ local de moradia (norte, sul, leste, oeste) ⇒ horas de alívio de dor de cabeça (0, 1, 2, 3 ou > 4) ⇒ idade (em anos) Tais variáveis são comumente classificadas de acordo com suas respectivas escalas de mensuração ⇒ dicotômicas ou binárias ⇒ politômicas (ordinais ou nominais) ⇒ contagens discretas ⇒ contínuas Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Introdução Por interesse do pesquisador, ou por conveniência, variáveis contínuas podem ser categorizadas. ⇒ idade: faixas etárias ⇒ resultado de um exame médico: normal ou anormal ⇒ peso: obeso e não-obeso ⇒ peso: < 60, [60, 100), [100, 150) e ≥ 150kg. Grupar categorias pode ser necessário quando houver categorias com frequências muito pequenas ou nulas. Em função do delineamento amostral e dos objetivos, as variáveis podem ser, ainda, classificadas em: ⇒ variáveis resposta ⇒ variáveis explicativas. Nem sempre tal classificação é simples ou óbvia. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Objetivos do Minicurso Apresentar testes, medidas de associação e modelos de regressão utilizados com frequência em estudos em que: ⇒ variável resposta: categórica ⇒ variáveis explicativas: categóricas e/ou contínuas. ⇓ Análise de dados dessa natureza ⇒ análise de dados categóricos ⇒ análise de dados discretos Justificativa: distribuições discretas de probabilidade (binomial, multinomial, poisson, binomial negativa etc.) são usualmente associadas à variável resposta. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplos de Dados Categóricos Estudo sobre exposição ao álcool e câncer de esôfago. Câncer de Esôfago Consumo de Álcool Sim Não Totais Sim 96 109 205 Não 104 666 770 Totais 200 775 975 Fonte: Tuyns et al. (1977), Santner e Duffy (1989) RELAÇÃO CAUSA︸ ︷︷ ︸ − EFEITO︸ ︷︷ ︸ consumo álcool câncer esôfago ⇓ ⇓ variável explicativa variável resposta ⇓ ⇓ dicotômica dicotômica Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplos de Dados Categóricos Avaliação de medicamentos no tratamento de pacientes com diagnóstico de infecção urinária. Cura Diagnóstico da Infecção Medicamentos Sim Não Totais Complicada A 78 28 106 Complicada B 101 11 112 Complicada C 68 46 114 Não complicada A 40 5 45 Não complicada B 54 5 59 Não complicada C 34 6 40 Fonte: Koch et al. (1985) variável resposta ⇛ { Cura ⇒ dicotômica variáveis explicativas ⇛ { Diagnóstico da Infecção ⇒ dicotômica Medicamentos ⇒ politômica nominal Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplos de Dados Categóricos Estudo multicentros para avaliacão de medicamentos no tratamento de infecções respiratórias. Efeito Centros Medicamentos Favorável Não favorável Totais 1 Novo 29 16 45 1 Padrão 14 31 45 Totais 43 47 90 2 Novo 37 8 45 2 Padrão 24 21 45 Totais 61 29 90 Fonte: Stokes et al. (2000) variável resposta ⇛ { Efeito ⇒ dicotômica variável explicativa ⇛ { Medicamentos ⇒ politômica nominal variável estratificadora ⇛ { Centros Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplos de Dados Categóricos Estudo sobre medicamentos para dores de cabeça. Horas de alívio Medicamentos 0 1 2 3 4 Totais Placebo 6 9 6 3 1 25 Padrão 1 4 6 6 8 25 Novo 2 5 6 8 6 27 Totais 9 18 18 17 15 77 Fonte: Stokes et al. (2000) variável resposta ⇛ { Horas de Alívio ⇒ contagem discreta ⇓ politômica ordinal variável explicativa ⇛ { Medicamentos ⇒ politômica nominal Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplos de Dados Categóricos Influência de aditivos na água sobre a limpeza das roupas. Limpeza Tratamentos Baixa Média Alta Totais Água 27 14 5 46 Água + dose única trat padrão 10 17 26 53 Água + dose dupla trat padrão 5 12 50 67 Totais 42 43 81 166 Fonte: Stokes et al. (2000) variável resposta ⇛ { Limpeza das Roupas ⇒ politômica ordinal variável explicativa ⇛ { Tratamentos ⇒ politômica ordinal Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplos de Dados Categóricos Estudo sobre preferência de programa de aprendizado. Preferência de Aprendizado Escola Período Individual Grupo Sala Aula Totais 1 Padrão 10 17 26 53 1 Integral 5 12 50 67 2 Padrão 21 17 26 64 2 Integral 16 12 36 64 3 Padrão 15 15 16 46 3 Integral 12 12 20 44 Fonte: Stokes et al. (2000) variável resposta ⇛ { Preferência Aprendizado ⇒ politômica nominal variáveis explicativas⇛ { Escola ⇒ politômica nominal Período Escolar ⇒ politômica nominal Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplos de Dados Categóricos Estudo crossover de dois períodos para avaliação de tratamentos (A, B e P = Placebo) em jovens e adultos. Sequência Efeito Idade Tratamentos FF FU UF UU Totais Adultos A:B 1212 6 20 50 Adultos B:P 8 5 6 31 50 Adultos P:A 5 3 22 20 50 Jovens B:A 19 3 25 3 50 Jovens A:P 25 6 6 13 50 Jovens P:B 13 5 21 11 50 Fonte: Stokes et al. (2000) FF = favorável nos dois períodos; FU = favorável no 1o período e não-favorável no 2o; UF = não favorável no 1o período e favorável no 2o, UU = não favorável nos dois períodos. Indivíduo é considerado como sendo seu próprio controle. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Terminologia e Notação A partir dos exemplos ⇛ dados de estudos em que a resposta e as variáveis explicativas são categóricas (ou foram categorizadas) são, sempre que possível, organi- zados em Tabelas de Contingência. Nos casos em que se tem duas variáveis, X e Y, com ambas apresentando duas categorias cada. Tabela de Contingência 2 × 2. Categorias da Categorias da resposta Y variável X j = 1 j = 2 Totais i = 1 n11 n12 n1+ i = 2 n21 n22 n2+ Totais n+1 n+2 n++ = n Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Terminologia e Notação Por conveniência, as categorias de X estarão dispostas nas linhas da tabela, enquanto as de Y, nas colunas. Categorias Categorias de Y de X j = 1 j = 2 Totais i = 1 n11 n12 n1+ i = 2 n21 n22 n2+ Totais n+1 n+2 n Frequências nij ⇛ indivíduos na categoria i de X e categoria j de Y, i, j = 1,2. Totais marginais-linha ⇛ frequências ni+ (i = 1,2). Totais marginais-coluna⇛ frequências n+j (j = 1,2). Total geral ou amostral n ⇛ soma dos nij, i, j = 1,2. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Terminologia e Notação Categorias Categorias de Y de X j = 1 j = 2 Totais i = 1 n11 n12 n1+ i = 2 n21 n22 n2+ Totais n+1 n+2 n pij = P(X = i,Y = j) ⇛ probabilidades conjunta. p(i)j = P(Y = j | X = i) ⇛ probabilidades condicionais pi(j) = P(X = i | Y = j) ⇛ probabilidades condicionais pi+ = P(X = i) ⇛ probabilidades marginais-linha p+j = P(Y = j) ⇛ probabilidades marginais-coluna Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Terminologia e Notação Nos casos mais gerais ⇒ Y e X1, . . . ,Xk Tabelas de Contingência s× r Categorias da variável resposta Subpopulações 1 2 · · · r Totais 1 n11 n12 · · · n1r n1+ 2 n21 n22 · · · n2r n2+ . . . . . . . . . . . . . . . . . . s ns1 ns2 · · · nsr ns+ Totais n+1 n+2 · · · n+r n Subpopulações = combinações das categorias de X1, . . . ,Xk. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Alguns Delineamentos Amostrais e Modelos Associados Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Delineamentos Amostrais Um estudo pode ser planejado de diferentes formas. A escolha por uma delas depende, dentre outros: Objetivos do estudo Custos e tempo envolvidos para obtenção dos resultados Disponibilidade de uma equipe para condução do estudo Disponibilidade das unidades amostrais Viabilidade de acompanhamento das unidades amostrais A seguir, são apresentados alguns delineamentos. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Clínico-Epidemiológicos Estudos de Coorte Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Assim, para esses estudos tem-se: Categorias Categorias de Y de X j = 1 (D) j = 2 (D) Totais i = 1 (E) n1+ i = 2 (E) n2+ Totais Desse modo, a probabilidade de um indivíduo pertencer a categoria j de Y, estando na categoria i de X, é dada por: p(i)j = P(Y = j | X = i) Categorias Categorias de Y de X j = 1 (D) j = 2 (D) Totais i = 1 (E) p(1)1 p(1)2 1 i = 2 (E) p(2)1 p(2)2 1 Totais p+1 p+2 1 p(1)1 ⇒ incidência entre os expostos p(2)1 ⇒ incidência entre os não-expostos Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Sendo assim: { N11 ∼ Bin(n1+,p(1)1) N21 ∼ Bin(n2+,p(2)1) Modelo probabilístico: produto de binomias P(N1 = n1,N2 = n2) = 2 ∏ i=1 P(Ni1 = ni1,Ni2 = ni2) = 2 ∏ i=1 [ (ni+)! 2 ∏ j=1 (p(i)j)nij (nij)! ] com (Ni = ni) = (Ni1 = ni1,Ni2 = ni2), i = 1, 2. Probabilidades p(i)j estimadas por: p̂(i)j = nij ni+ i, j = 1,2 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Categorias Categorias de Y de X j = 1 (D) j = 2 (D) Totais i = 1 (E) p(1)1 p(1)2 1 i = 2 (E) p(2)1 p(2)2 1 Totais p+1 p+2 1 { H0: p(1)1 = p(2)1 (= p+1)⇛ hipótese de homogeneidade HA: p(1)1 6= p(2)1 Karl Pearson propôs Qp = 2 ∑ i=1 2 ∑ j=1 (nij− eij)2 eij ∼ χ2(1) Sob H0 ⇛ E(Ni1) = ni+(p+1) e E(Ni2) = ni+(p+2) Estimativas⇛ eij = (ni+)(n+j) n i, j = 1,2 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Duas outras estatísticas comumente utilizadas são: 1 Estatística da Razão de Verossimilhanças QL =−2 2 ∑ i=1 2 ∑ j=1 nij log ( eij nij ) ∼ χ2(1) 2 Estatística de Neyman QN = 2 ∑ i=1 2 ∑ j=1 (nij− eij)2 nij ∼ χ2(1) Em certas situações⇛ Teste Exato de Fisher. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Categorias Categorias de Y de X j = 1 (D) j = 2 (D) Totais i = 1 (E) p(1)1 p(1)2 = (1−p(1)1) 1 i = 2 (E) p(2)1 p(2)2 = (1−p(2)1) 1 Totais p+1 p+2 1 Note que H0: p(1)1 = p(2)1 pode também ser expressa por: a) H0: p(1)1−p(2)1︸ ︷︷ ︸= 0 diferença entre incidências ⇒ risco atribuível b) H0: p(1)1p(2)1︸︷︷︸= 1 razão de incidências ⇒ risco relativo c) H0: p(1)1/(1−p(1)1)p(2)1/(1−p(2)1) = p(1)1/p(1)2 p(2)1/p(2)2 = p(1)1 p(2)2 p(1)2 p(2)1︸ ︷︷ ︸= 1 razão dos produtos cruzados ⇒ odds ratio ou razão de chances Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte odds ou chance = probabilidade evento ocorrerprobabilidade evento não ocorrer Status de Evento de Interesse Exposição Sim (D) Não (D) Totais E 80 20 100 E 25 75 100 Totais 105 95 200 oddsE = p(1)1 1−p(1)1 ⇒ ôddsE = 0,8/0,2 = 4/1 oddsE = p(2)1 1−p(2)1 ⇒ ôddsE = 0,25/0,75 = 1/3 odds ratioE|E = oddsEoddsE ⇒ ÔR = 12 risco relativoE|E = p(1)1 p(2)1 ⇒ R̂R = 0,8/0,25 = 3,2. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Categorias Categorias de Y de X j = 1 (D) j = 2 (D) Totais i = 1 (E) p(1)1 p(1)2 1 i = 2 (E) p(2)1 p(2)2 1 Totais p+1 p+2 1 ORE|E = oddsE oddsE = p(1)1/p(1)2 p(2)1/p(2)2 = p(1)1 p(2)2 p(1)2 p(2)1 ⇓ ÔRE|E = n11n22 n12n21 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Se RR = 1, a probabilidade de resposta positiva não difere entre os indivíduos expostos e não-expostos. Se RR > 1, a probabilidade de resposta positiva é maior entre os indivíduos expostos. Se RR < 1, a probabilidade de resposta positiva é maior entre os indivíduos não-expostos. Se OR = 1, a chance de resposta positiva não difere entre os indivíduos expostos e não-expostos. Se OR > 1, a chance de resposta positiva é maior entre os indivíduos expostos. Se OR < 1, a chance de resposta positiva é maior entre os indivíduos não-expostos. Chance e probabilidade não têm o mesmo significado! Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOSMinicurso - 57a Reunião Anual da RBras Estimação por Intervalo - Medidas de Associação Risco Relativo⇛ IC = exp ( f̂ ± zα/2 √ V̂(f ) ) f = ln(RR) = ln(p(1)1)− ln(p(2)1) V(f ) = (1−p(1)1)(n1+)(p(1)1) + (1−p(2)1) (n2+)(p(2)1) zα/2 = 100(1−α/2) percentil da N(0,1) Odds Ratio ⇛ IC = exp ( f̂ ± zα/2 √ V̂(f ) ) f = ln(OR) V(f ) = ( 1 n11 + 1 n12 + 1 n21 + 1 n22 ) zα/2 = 100(1−α/2) percentil da N(0,1) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R Obs: instalar package epiR http://www.r-project.org/ > require(epiR) > epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count", conf.level=0.95, units=100, verbose=FALSE) Disease + Disease - Total Inc risk Odds Exposed + 80 20 100 80.0 4.000 Exposed - 25 75 100 25.0 0.333 Total 105 95 200 52.5 1.105 Point estimates and 95% CIs: --------------------------------------------------------- Inc risk ratio 3.2 (2.25, 4.56) Odds ratio 12 (6.16, 23.38) --------------------------------------------------------- Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > epi.2by2(a=80, b=20, c=25, d=75, method="cohort.count", conf.level=0.95, units=100, verbose=TRUE) $RR est se lower upper 1 3.2 1.197550 2.247488 4.556197 $OR est se lower upper 1 12 1.405430 6.158583 23.38200 $chisq test.statistic df p.value 1 60.65163 1 6.77236e-15 ------------------------------------- # Testes de Pearson e Fisher > dados<-matrix(c(80,25,20,75),nc=2) > chisq.test(dados,correct=F) > fisher.test(dados) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Clínico-Epidemiológicos Ensaio Clínico Aleatorizado Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Clínico-Epidemiológicos X Y = Desfecho Grupos j = 1 (Com) j = 2 (Sem) Totais i = 1 (Tratado) p(1)1 p(1)2 1 i = 2 (Controle) p(2)1 p(2)2 1 Totais p+1 p+2 1 Delineamento Similar ao dos Estudos de Coorte ⇓ Hipóteses, Testes e Medidas são similares com as devidas interpretações no contexto do ensaio clínico realizado. Estudos de Coorte⇛ Observacionais Ensaios Clínicos ⇛ Experimentais Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Clínico-Epidemiológicos Estudos Caso-Controle Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Caso-Controle Nesses estudos, amostras de tamanhos n+1 e n+2 são obtidas das subpopulações de casos e controles. Categorias Categorias de Y de X j = 1 (C) j = 2 (C) Totais i = 1 (E) i = 2 (E) Totais n+1 n+2 Categorias Categorias de Y de X j = 1 (C) j = 2 (C) Totais i = 1 (E) p1(1) p1(2) p1+ i = 2 (E) p2(1) p2(2) p2+ Totais 1 1 1{ N11 ∼ Bin(n+1,p1(1)) N12 ∼ Bin(n+2,p1(2)) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Caso-Controle Modelo probabilístico: produto de binomiais tal que: P(N1 = n1,N2 = n2) = 2 ∏ j=1 [ (n+j)! 2 ∏ i=1 (pi(j))nij (nij)! ] com (Nj = nj) = (N1j = n1j,N2j = n2j) e ∑2i=1 pi(j) = 1, j = 1, 2. Probabilidades pi(j), i, j = 1, 2, estimadas por: p̂i(j) = nij n+j Se a suposição de independência entre casos e controles não for razoável⇛ metodologias mais apropriadas. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Caso-Controle Categorias Categorias de Y de X j = 1 (C) j = 2 (C) Totais i = 1 (E) p1(1) p1(2) p1+ i = 2 (E) p2(1) p2(2) p2+ Totais 1 1 1 { H0: p1(1) = p1(2) (= p1+)⇛ hipótese de homogeneidade HA: p1(1) 6= p1(2) Qp = 2 ∑ i=1 2 ∑ j=1 (nij− eij)2 eij ∼ χ2(1) Sob H0 ⇛ E(N1j) = n+j(p1+) e E(N2j) = n+j(p2+) Estimativas⇛ eij = (ni+)(n+j) n i, j = 1,2 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Caso-Controle Categorias Categorias de Y de X j = 1 (C) j = 2 (C) Totais i = 1 (E) p1(1) p1(2) p1+ i = 2 (E) p2(1) p2(2) p2+ Totais 1 1 1 Note que H0: p1(1) = p1(2) pode também ser expressa por: H0: p1(1)/(1−p1(1)) p1(2)/(1−p1(2)) = p1(1)/p2(1) p1(2)/p2(2) = p1(1) p2(2) p2(1) p1(2)︸ ︷︷ ︸= 1 odds ratio ou razão de chances ou dos produtos cruzados RR = P(D|E)/P(D| ¯E) não se aplica a esses estudos. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Caso-Controle odds ou chance = probabilidade exposição ao fatorprobabilidade não-exposição ao fator Status de Grupos Exposição Casos Controles Totais E 60 20 80 E 40 80 120 Totais 100 100 200 oddsC = p1(1) 1−p1(1) ⇒ ôddsC = 0,6/0,4 = 3/2 oddsC = p1(2) 1−p1(2) ⇒ ôddsE = 0,20/0,80 = 1/4 odds ratioC|C = oddsCoddsC ⇒ ÔR = 6 Nesse exemplo, a chance de exposição ao fator sob estudo foi maior entre os casos do que entre os controles. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos de Coorte Categorias Categorias de Y de X j = 1 (D) j = 2 (D) Totais i = 1 (E) p1(1) p1(2) p1+ i = 2 (E) p2(1) p2(2) p2+ Totais 1 1 1 ORC|C = oddsC oddsC = p1(1)/p2(1) p1(2)/p2(2) = p1(1) p2(2) p1(2) p2(1) ⇓ ÔRC|C = n11n22 n12n21 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > require(epiR) > epi.2by2(a=60, b=20, c=40, d=80, method ="case.control", conf.level = 0.95, units=100, verbose = FALSE) Disease + Disease - Total Prevalence Odds Exposed + 60 20 80 75.0 3.0 ? Exposed - 40 80 120 33.3 0.5 ? Total 100 100 200 50.0 1.0 ? > epi.2by2(a=60, b=40, c=20, d=80, method ="case.control", conf.level = 0.95, units=100, verbose = FALSE) Exposed + Exposed - Total Prevalence Odds Disease + 60 40 100 60 1.500 Disease - 20 80 100 20 0.250 Total 80 120 200 40 0.667 Point estimates and 95% CIs: --------------------------------------------------------- Odds ratio 6 (3.19, 11.29) --------------------------------------------------------- Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Relação entre odds ratio e risco relativo Doenças raras ⇒ Estudos de Coorte são inviáveis. Nesses casos ⇒ Estudos Caso-Controle são usuais. Resultado: Se doença rara ⇛ RR ≈ OR De fato, ⇛ D = doença, D = não doença, P(D) = 1−P(D) ⇛ E = exposição e E = não-exposição RR = p(1)1 p(2)1 = P(D|E) P(D|E) = P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)] P(D)P(E|D)/[P(D)P(E|D)+P(D)P(E|D)] = P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]} P(E|D){P(E|D)+P(D)[P(E|D)−P(E|D)]} Se doença rara, P(D) → 0︸ ︷︷ ︸ RR ≈ P(E|D)P(E|D) P(E|D)P(E|D) = p1(1)p2(2) p2(1)p1(2) = OR Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Clínico-Epidemiológicos Estudos Transversais ou Cross-Sectional Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Transversais ou Cross-Sectional Embora ambas as variáveis sejam respostas, uma delas é usualmente classificada como variável explicativa. Categorias Categorias de Y de X j = 1 j = 2 Totais i = 1 i = 2 Totais n Categorias Categorias de Y de X j = 1 j = 2 Totais i = 1 p11 p12 i = 2 p21 p22 Totais 1 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Transversais ou Cross-SectionalCategorias Categorias de Y de X j = 1 j = 2 Totais i = 1 p11 p12 i = 2 p21 p22 Totais 1 Categorias de X i = 1 i = 2 Categorias de Y j = 1 j = 2 j = 1 j = 2 Total p11 p12 p21 p22 1 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Transversais ou Cross-Sectional Modelo probabilístico: Multinomial tal que: P(N = n) = P(N11 = n11,N12 = n12,N21 = n21,N22 = n22) = n! 2 ∏ i=1 2 ∏ j=1 (pij)nij (nij)! em que nij ≥ 0, 2 ∑ i,j=1 nij = n e 2 ∑ i,j=1 pij = 1. Probabilidades pij (i, j = 1, 2) estimadas por: p̂ij = nij n Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Transversais ou Cross-Sectional Categorias Categorias de Y de X j = 1 j = 2 Totais i = 1 p11 p12 p1+ i = 2 p21 p22 p2+ Totais p+1 p+2 1 { H0: pij = (pi+)(p+j), para i, j = 1,2 HA: pij 6= (pi+)(p+j), para pelo menos um par (i, j), H0 é usualmente denominada hipótese de independência, pois a ausência de associação, em termos probabilísticos, significa independência mútua. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Transversais ou Cross-Sectional Considerando o modelo Multinomial a tais estudos ⇓ ⇛ Frequências esperadas: E(Nij) = n(pij), i, j = 1,2. ⇛ Desse modo, sob H0 7→ E(Nij) = n(pi+)(p+j), i, j = 1,2. ⇛ Estimativas: eij = n ( ni+ n )( n+j n ) = (ni+)(n+j) n i, j = 1,2 Para testar H0 ⇛ Estatísticas de teste QP, QL e QN . Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos Transversais ou Cross Sectional Das definições de risco relativo e odds ratio, pode-se notar que ambas não são apropriadas aos estudos transversais. Em epidemiologia, contudo, a prevalência de doenças é uma medida de interesse nesses estudos. prevalência = proporção de indivíduos que ESTÃO doentes em um determinado tempo específico (época da realização do estudo). incidência = proporção de indivíduos que TORNARAM-SE doentes no decorrer de um período de tempo específico de acompanhamento. Assim, se condicionarmos aos totais ni+ e se for dada a devida atenção às interpretações, é comum o uso da OR e da razão de prevalências (RP) nesses estudos. ÔR = n11n22 n12n21 e R̂P = n11/n1+ n21/n2+ Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > epi.2by2(a=60, b=20, c=40, d=80, method="cross.sectional", conf.level = 0.95, units=100, verbose = FALSE) Disease + Disease - Total Prevalence Odds Exposed + 60 20 80 75.0 3.0 Exposed - 40 80 120 33.3 0.5 Total 100 100 200 50.0 1.0 Point estimates and 95% CIs: ----------------------------------------------------------- Prevalence ratio 2.25 (1.70, 2.99) Odds ratio 6 (3.19, 11.29) ----------------------------------------------------------- Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos com Tempo de Duração Fixado Durante o planejamento e execução dos estudos, nem sempre é possível estabelecer o total de participantes. Tempo de duração do estudo é, então, pré-estabelecido. Sendo assim, Nij, i, j = 1,2, são contagens aleatórias, com Nij, e também N, conhecidas somente após o término da coleta dos dados. Categorias Categorias de Y de X j = 1 j = 2 Totais i = 1 i = 2 Totais Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos com Tempo de Duração Fixado Insetos coletados em armadilhas e sexados. Sexo Armadilha Machos Fêmeas Totais Alaranjada 246 17 263 Amarela 458 32 490 Totais 704 49 753 Fonte: Silveira Neto et al. (1976), Demétrio (2001) Assumindo que certas suposições são válidas/razoáveis. em um determinado intervalo de tempo, o no de insetos é independente do no de insetos em qualquer outro intervalo disjunto, a distribuição do número de insetos depende somente do comprimento do intervalo de tempo considerado e não do seu instante inicial, a probabilidade de um inseto passar em um intervalo de tempo suficientemente pequeno é proporcional ao comprimento do intervalo, a probabilidade de que dois ou mais insetos passem simultaneamente em um intervalo de tempo suficientemente pequeno é desprezível. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos com Tempo de Duração Fixado Então, é usual assumir Nij ∼ Poisson (µij = tλij), i, j = 1, 2 ⇒ λij a taxa média por unidade de tempo ⇒ t a duração do experimento. Considerando Nij independentes, i, j = 1, 2 Modelo Produto de Poisson independentes P(N = n) = 2 ∏ i=1 2 ∏ j=1 P(Nij = nij) = 2 ∏ i=1 2 ∏ j=1 e−µij(µij)nij (nij)! , µij > 0 com (N = n) = (N11 = n11,N12 = n12,N21 = n21,N22 = n22). Estimativas⇛ µ̂ij = nij, i, j = 1, 2. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos com Tempo de Duração Fixado Categorias Categorias de Y de X j = 1 j = 2 Totais i = 1 µ11 µ12 µ1+ i = 2 µ21 µ22 µ2+ Totais µ+1 µ+2 µ Sob este modelo, ausência de associação entre X e Y{ H0: µ1j µ1+ = µ2j µ2+ ( = µ+j µ ) , para j = 1,2. HA: µ1j µ1+ 6= µ2j µ2+{ H0 : µij = (µi+) (µ+j)µ , para i, j = 1,2. HA: µij 6= (µi+) (µ+j)µ , para ao menos um par ij. Hipótese H0 ⇛ hipótese de multiplicatividade Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estudos com Tempo de Duração Fixado Para testar tais hipóteses Estatísticas QP, QL e QN Como Nij ∼ Poisson(µij), i, j = 1,2, segue que: ⇛ E(Nij) = µij ⇛ Assim, sob H0, E(Nij) = (µi+)(µ+j)µ ⇛ Logo, eij = (ni+)(n+j)n , pois µ̂i+ = ni+, µ̂+j = n+j e µ̂ = n. Obs: estudos dessa natureza são frequentemente analisados assumindo-se o modelo Multinomial. Justificativa: a distribuição de probabilidades do vetor (N11, . . . ,N22), Nij Poisson independentes, condicional à soma N = ∑i,j Nij, segue distribuição Multinomial (N, p), com p = (p11, . . . ,p22), em que pij = µij∑i,j µij , para i, j = 1, 2. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Considerações sobre os Delineamentos Amostrais Os delineamentos amostrais apresentados estão dentre os mais usuais. Como visto, seus respectivos modelos probabilísticos são obtidos com base nos esquemas amostrais adotados. Naturalmente, em estudos com outros esquemas, haverá a necessidade de se considerar outros modelos. As conclusões estarão, contudo, condicionadas à validade das suposições distribucionais. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Alguns Estudos Descritos na Literatura 1 Framingham Heart Study ⇛ fatores associados à doenças cardiovasculares. 2 Nurses’ Health Study ⇛ consequências do uso de contraceptivos orais a longo prazo. 3 Life Span Study ⇛ expectativa de vida - efeito radiação bomba atômica Japão. 4 Pelotas Birth Cohort Study ⇛ saúde infantil e materna. 5 Baependi Heart Study ⇛ fatores associados à doenças cardiovasculares - população miscigenada. 6 Medicine, Angioplasty, or Surgery Study (MASS-II). ⇛ comparação de tratamentos - pacientes c/ doença coronária multiarterial. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Extensões Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Tabelas de Contingência s× r ( > 2) 1. Variáveis Y e X nominais Estabelecidas as hipóteses apropriadas: Se ni+fixos ⇛ hipótese de homogeneidade Se n fixo ⇛ hipótese de independência Se totais aleatórios ⇛ hipótese de multiplicatividade QP = s ∑ i=1 r ∑ j=1 (nij− eij)2 eij ∼ χ2(s−1)(r−1) com eij = (ni+)(n+j) n , i = 1, . . . ,s e j = 1, . . . ,r. Alternativamente⇛ Estatísticas QL ou QN . Em algumas situações⇛ Teste Exato de Fisher. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplo: X e Y nominais e n fixo (s e r > 2 Estudo transversal para avaliar a presença de associação entre partido político e local de moradia. Local de Moradia Partido Político A B C D Totais Democrata 221 160 360 140 881 Independente 200 291 160 311 962 Republicano 208 106 316 97 727 Totais 629 557 836 548 2570 Fonte: Stokes et al. (2000) Modelo associado⇛ Multinomial{ H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2,3,4 HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j). QP = 273,92 (p < 0,0001, g.l = 6)⇛ há evidências de associação entre partido político e local de moradia. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > dados<-matrix(c(221,200,208,160,291,106,360,160,316, 140,311,97),nc=4) > dados [,1] [,2] [,3] [,4] [1,] 221 160 360 140 [2,] 200 291 160 311 [3,] 208 106 316 97 > chisq.test(dados,correct=F) Pearson’s Chi-squared test data: dados X-squared = 273.9188, df = 6, p-value < 2.2e-16 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Tabelas de Contingência s× r 2. Variável Y ordinal e X nominal com totais ni+ fixos Avaliação de tratamentos em pacientes com artrite reumatóide. Melhora do Paciente Tratamentos Nenhuma Alguma Acentuada Totais Ativo 13 7 21 41 Placebo 29 7 7 43 Totais 42 14 28 84 Fonte: Stokes et al. (2000) Nesses casos, a estatística QP pode ser utilizada para testar H0 : p1 = p2 = ...= pr (hípótese de homogeneidade) Modelo associado⇛ Produto de multinomiais. Contudo, a natureza ordinal da variável resposta não estaria sendo levada em consideração. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variável Y ordinal e X nominal com totais ni+ fixos Alternativa⇛ atribuir escores a = (a1,a2, . . . ,ar) para as categorias de Y e definir um escore médio Fi para cada subpopulação tal que: Fi = r ∑ j=1 aj (p(i)j) i = 1, . . . ,s. Se s = 2, como no exemplo da artrite⇛ H0: F1 = F2. f i = ∑rj=1 aj (p̂(i)j) = ∑rj=1 aj ( nij ni+ ) , i = 1,2 E(f 1|H0) = ∑rj=1 aj ( E(N1j) n1+ ) = ∑rj=1 aj ( n+j n ) = µa V(f 1|H0) = (n− n1+)(n1+)(n−1) r ∑ j=1 (aj−µa)2 ( n+j n ) ︸ ︷︷ ︸= (n− n1+) (n1+)(n−1) νa. νa Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variável Y ordinal e X nominal com totais ni+ fixos Desse modo, para testar H0: F1 = F2 foi proposto: QS = (f 1−µa) 2 (n − n1+) (n1+)(n−1)νa = (n−1) (n−n1+) (n1+)(f 1−µa)2 va︸ ︷︷ ︸ ∼ χ21 estatística escore médio Se s > 2 ⇛ H0: F1 = F2 = . . .= Fs. QS = (n−1) n ∑si=1(ni+)(f i−µa)2 va︸ ︷︷ ︸∼ χ2(s−1) estatística escore médio Se H0 for rejeitada ⇒ comparações dois a dois. ⇑ paralelo com análise de variância um-fator Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > dados<-matrix(c(13,29,7,7,21,7),nc=3) > escore<-c(0,1,2) > fb1<-(sum(dados[1,]*escore))/sum(dados[1,]) > fb2<-(sum(dados[2,]*escore))/sum(dados[2,]) > cbind(fb1,fb2) fb1 fb2 [1,] 1.195122 0.4883721 > esp<-(c(sum(dados[,1]),sum(dados[,2]),sum(dados[,3])))/ sum(dados) > mua<-sum(escore*esp); va<-sum((escore-mua)^2*esp) > vbf1<-((sum(dados) - sum(dados[1,]))/(sum(dados[1,])* (sum(dados)-1)))*va > QS = ((fb1-mua)^2)/vbf1; gl<-nrow(dados)-1 > p<-1-pchisq(QS,gl) > cbind(QS, p) QS p [1,] 12.85902 0.0003358568 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variável Y ordinal e X nominal com totais ni+ fixos Ensaio clínico aleatorizado realizado para avaliar um novo medicamento utilizado para aliviar dores de cabeça. Horas de alívio Medicamentos 0 1 2 3 4 Totais Placebo 6 9 6 3 1 25 Padrão 1 4 6 6 8 25 Novo 2 5 6 8 6 27 Totais 9 18 18 17 15 77 Fonte: Stokes et al. (2000) Modelo associado⇛ Produto de Multinomiais. Devido a natureza discreta das categorias de Y Pode-se utilizar a estatística escore médio H0: F1 = F2 = F3. QS = 13,7346 (p = 0,001, g.l. = 2)⇛ há evidências de que pelo menos dois medicamentos diferem entre si. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variável Y ordinal e X nominal com totais ni+ fixos Mas quais medicamentos diferem entre si? Comparações dois a dois, controlando erro do tipo I (por ex., pelo método de Bonferroni). ⇛ Estimativas: f 1 = 1,36, f 2 = 2,64 e f 3 = 2,41 ⇛ Considerando α = 0,05 ⇒ 0,05/3 = 0,017. ⇛ Placebo vs padrão: QS = 11,66 (p = 0,0006, g.l. = 1) ⇛ Placebo vs novo: QS = 8,60 (p = 0,0034, g.l. = 1) ⇛ Padrão vs novo: QS = 0,46 (p = 0,4950, g.l. = 1). Há evidências de que placebo 6= novo e padrão. Note que existem frequências esperadas < 5 ⇛ inviabiliza uso de QP, mas não o de QS. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Tabelas de Contingência s× r 3.1 Variáveis Y e X ordinais e total n fixo Estudo transversal realizado para investigar associação entre uso de tabaco e a consciência do risco em usá-lo. Tabaco Consciência do risco Não usa Usa Totais Mínima 70 33 103 Moderada 202 40 242 Substancial 218 11 229 Totais 490 84 574 Fonte: Stokes et al. (2000) Modelo associado: multinomial.{ H0 : pij = (pi+) (p+j), para i = 1,2,3 e j = 1,2 HA : pij 6= (pi+) (p+j), para pelo menos um par (i, j). Estatísticas QP, QL ou QN . Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variáveis Y e X ordinais e total n fixo Porém, a variável uso de tabaco é dicotômica, enquanto consciência do risco em usá-lo é ordinal⇛ pode-se pensar em considerar escores para ambas. Por exemplo, c = (c1,c2,c3) = (1,2,3) para as categorias de consciência do risco de uso do tabaco e a = (a1,a2) = (0,1) para as categorias não usa e usa tabaco. Desse modo, pode-se definir o escore médio F = 3 ∑ i=1 2 ∑ j=1 ci aj pij Estimativa ⇛ f = 3 ∑ i=1 2 ∑ j=1 ci aj p̂ij = 3 ∑ i=1 2 ∑ j=1 ci aj nij n . Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variáveis Y e X ordinais e total n fixo Sob H0 segue que: E(f ) = 3 ∑ i=1 2 ∑ j=1 ci aj n E(Nij) = 3 ∑ i=1 ci (ni+ n ) 2 ∑ j=1 aj (n+j n ) = µc µa V(f ) = { 3 ∑ i=1 (ci−µc)2 (ni+ n ) 2 ∑ j=1 (aj−µa)2(n+j/n) (n−1) } . Para amostras grandes⇛ f ∼ Normal. QCS = (f − µc µa) 2 V(f ) = . . .= (n− 1)(rac) 2︸ ︷︷ ︸∼ χ21 estatística da correlação com rac o coeficiente de correlação de Pearson. Dados de tabaco ⇛ QCS = 42,94 (p < 0,0001) ⇛ Há associação entre a consciência do risco e o uso de tabaco. ⇛ Uso tabaco ⇓ à medida que consciência do risco ⇑ (rac =−0,274). Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > x<-c(rep(1,103),rep(2,242),rep(3,229)) > y<-c(rep(0,70),rep(1,33),rep(0,202),rep(1,40), rep(0,218),rep(1,11)) > rac<-cor(y,x) > rac [1] -0.2737401 > n<-length(x) > QCS<-(n-1)*rac^2 > p<-1-pchisq(QCS,1) > cbind(QCS,p)QCS p [1,] 42.93697 5.653222e-11 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Outra situação em que Y e X ordinais 3.2 Variáveis Y e X ordinais e totais ni+ fixos Influência de aditivos na água sobre a limpeza das roupas. Limpeza Tratamentos Baixa Média Alta Totais Água 27 14 5 46 Água + dose única trat padrão 10 17 26 53 Água + dose dupla trat padrão 5 12 50 67 Totais 42 43 81 166 Fonte: Stokes et al. (2000) Assumindo: a = (1, 2, 3) categorias de limpeza das roupas c = (1, 2, 3) categorias de tratamento. ⇛ QCS = 50,6 (p < 0,0001, g.l.=1), com rac = 0,554. ⇛ Há evidencias de associação entre X e Y. ⇛ Limpeza ⇑ com o ⇑ da dosagem pois rac > 0. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variáveis Y e X ordinais e totais ni+ fixos) Em contrapartida, como os ni+ são fixos ⇛ QS = 52,77 (p < 0,00001, g.l.= 2). ⇛ Comparações dos tratamentos, dois a dois: H0 : ¯F1 = ¯F2 ⇒ QS = 21,71 (p < 0,0001, g.l. = 1) H0 : ¯F1 = ¯F3 ⇒ QS = 49,06 (p < 0,0001, g.l. = 1) H0 : ¯F2 = ¯F3 ⇒ QS = 8,02 (p = 0,0046, g.l. = 1). Para α = 0,05 ⇛ 0,05/3 = 0,017. Rejeita-se as três hipóteses nulas testadas. Como ¯f1 = 1,52 < ¯f2 = 2,30 < ¯f3 = 2,67 Limpeza das roupas ⇑ com o ⇑ da dosagem do aditivo. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Tabelas de Contingência s× r Assim, se as variáveis Y e X forem ordinais e escores puderem ser assumidos para as categorias de ambas ⇓ Se total n fixo⇛ estatística da correlação QCS = (n−1)(rac)2 ∼ χ21 rac = coeficiente de correlação de Pearson. Se ni+ fixos⇛ estatísticas escore e/ou da correlação QS e/ou QCS. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Análise Estratificada Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Variáveis de Confundimento ou Estratificadoras Nos estudos em geral⇛ atenção deve ser dada às variáveis de confundimento ou estratificadoras. Tais variáveis podem confundir uma aparente relação causal. Sendo assim, é necessário controlar ou minimizar o efeito das mesmas para obtenção de conclusões mais confiáveis. Análises que consideram o efeito dessas variáves são usualmente denominadas análises estratificadas. Isto porque as análises são realizadas com os dados estratificados pelas categorias dessas variáveis. A estratificação pode ser resultado do delineamento adotado ou sua necessidade pode aparecer após a coleta dos dados. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplo de Variável de Confundimento Câncer de Pulmão Fumo Passivo Fumo Voluntário Sim Não Totais Sim Sim Sim Não Totais Não Sim Não Não Totais variável resposta ⇛ { Câncer de Pulmão variável explicativa ⇛ { Fumo Voluntário variável confundimento ⇛ { Fumo Passivo Obs: caso a influência do confundimento entre fumo voluntário e fumo passivo não seja considerada, associação entre tabaco e câncer de pulmão pode até mesmo não ser detectada, ou sua intensidade não ser bem avaliada. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Exemplo de Variável Estratificadora Efeito Centros Medicamentos Favorável Não favorável Totais 1 Novo 29 16 45 1 Padrão 14 31 45 Totais 43 47 90 2 Novo 37 8 45 2 Padrão 24 21 45 Totais 61 29 90 variável resposta ⇛ { Efeito variável explicativa ⇛ { Medicamentos variável estratificadora ⇛ { Centros Médicos Há diferenças entre os centros e entre os pacientes atendidos neles ⇛ razoável que seu efeito seja controlado na análise. Analogia com a análise de delineamentos experimentais⇛ centros médicos têm o sentido de blocos. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Mantel-Haenszel no Ensaio Clínico Multicentros Em tais situações⇛ Estatística Mantel-Haenszel (1959). No estudo multicentros tem-se: conjunto de q = 2 tabelas de cont. 2 × 2 (h = 1, . . . ,q) Resposta Tratamentos j = 1 j = 2 Totais i = 1 nh11 nh12 nh1+ i = 2 nh21 nh22 nh2+ Totais nh+1 nh+2 nh totais marginais-linha nhi+ fixos nas q = 2 tabelas. interesse em testar H0: ph(1)1 = ph(2)1, h = 1, . . . ,q condicional a H0, Nh11 ∼ Hipergeométrica tal que eh11 = E(Nh11 | nh,nh1+,nh+1) = (nh1+)(nh+1) nh vh11 = V(Nh11 | nh,nh1+,nh+1) = (nh1+)(nh2+)(nh+1)(nh+2) (nh)2(nh− 1) . Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estatística de Mantel-Haenszel Sob H0 e para ∑qh=1 nh suficientemente grande QMH = ( q ∑ h=1 nh11− q ∑ h=1 eh11 )2 q ∑ h=1 vh11 ∼ χ2(1) QMH é eficaz para avaliar associações se a maioria das diferenças (ph(1)1− ph(2)1) apresentar o mesmo sinal. Havendo homogeneidade das OR nas q tabelas 2 × 2 ÔRMH = q ∑ h=1 nh11 nh22 nh q ∑ h=1 nh12 nh21 nh . Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Resultados - Ensaio Clínico Multicentros QMH = 18,41 (p < 0,0001), indicando associação entre as variáveis tratamento e resposta do paciente, controlando pela variável estratificadora centro médico. Também, o medicamento novo apresenta proporção de resposta favorável maior do que a do placebo, uma vez que p̂h(1)1 > p̂h(2)1, para h = 1,2. ÔR1 = 4,01 e ÔR2 = 4,04 (homogêneas) ÔRMH = 4,028 ⇒ a odds de melhora dos pacientes que receberam o novo tratamento foi ≈ 4 vezes a dos que receberam placebo. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > tab<-array(c(29,14,16,31,37,24,8,21),dim=c(2,2,2)) > mantelhaen.test(tab, correct=F) Mantel-Haenszel test without continuity correction data: tab X-squared = 18.4106, df = 1, p-value = 1.781e-05 alternative hypothesis: true common odds ratio is not equal to 1 95 percent confidence interval: 2.105716 7.708353 sample estimates: common odds ratio 4.028846 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Extensões da Estatística de Mantel-Haenszel Extensões na presença de uma variável estratificadora Y ordinal e X nominal com totais ni+ fixos⇛ QSMH Y e X ordinais com totais ni+ fixos⇛ QSMH ou QCSMH Y e X ordinais com total n fixo ⇛ QCSMH QSMH ⇛ Estatística escore médio estendida de M-H QSMH ⇛ Estatística da correlação estendida de M-H Para mais detalhes ⇒ Stokes et al. (2000). Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Modelos para Dados com Resposta Dicotômica Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Dados com Resposta Binária ou Dicotômica Para estudar a existência de associação entre um con- junto de variáveis X = (X1, X2, ..., Xk) e uma resposta dicotômica Y ⇒ modelos de regressão são usuais. X1 X2 ... Xk︸ ︷︷ ︸ Y︸︷︷︸ O modelo de regressão logística é um dos mais populares nestas situações. Quanto às variáveis X, estas podem ser um misto de variáveis categóricas e contínuas. As categóricas são incorporadas aos modelos por meio de variáveis dummy. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Modelo de Regressão Logística Dicotômica Para introduzir o modelo de regressão logística, considere os dados de um estudo sobre doença coronariana. Doença coronária Idade (X = x) Sim (Y = 1) Não (Y = 0) Totais P(Y= 1 | x) 20-29 1 9 10 0,10 30-34 2 13 15 0,13 35-39 3 9 12 0,25 40-44 5 10 15 0,33 45-49 6 7 13 0,46 50-54 5 3 8 0,63 55-59 13 4 17 0,76 60-69 8 2 10 0,80 Totais 43 57 100 0,43 Fonte: Hosmer e Lemeshow (1989) E(Y | x)︸ ︷︷ ︸ = 1 × P(Y = 1 | x) + 0 × P(Y = 0 | x) = P(Y = 1 | x)︸ ︷︷ ︸. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Modelo de Regressão Logística Dicotômica 30 40 50 60 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 Idade(em anos) E[ Y|x ] Note que à medida que a x = idade cresce, E(Y | x) também cresce. A mudança na E(Y | x) por unidade de mudança em x se torna progressivamente menor quando E(Y | x) próxima de 0 ou 1. Relação entre idade e E(Y | x) não é, portanto, linear, mas sim sigmoidal (forma de S). Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Modelo de Regressão Logística Dicotômica Similar à regressão linear⇛ interesse em modelar E(Y | x). Necessário, contudo, considerar que: E(Y | x) pertence ao intervalo [0, 1]. Relação entre X e E(Y | x) tem a forma de S. ⇓ Sugere distribuição acumulada de uma v.a. ⇓ Distribuição logística se tornou popular por: ser extremamente flexível e fácil de ser utilizada. conduzir a interpretações simples. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Modelo de Regressão Logística Dicotômica E(Y | x) = P(Y = 1 | x)︸ ︷︷ ︸= θ (x) = exp { β0 + p ∑ k=1 βkxk } 1+ exp { β0 + p ∑ k=1 βkxk } 1−θ (x) = 1 1+ exp { β0 + p ∑ k=1 βkxk } . sendo x = (x1, x2, . . . , xp) = valores observados das variáveis X, β0 = constante e βk (k = 1, . . . ,p) os p parâmetros de regressão. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Modelo de Regressão Logística Dicotômica θ(x) = exp{β ′ x} 1+ exp{β ′x} e 1−θ(x) = 1 1+ exp{β ′x} ln ( θ(x) 1−θ(x) ) = β0 + p ∑ k=1 βkxk = β ′x. Esta transformação é denominada logito. A razão entre θ(x) e 1−θ(x)⇒ definição de odds ⇓ odds = θ(x) 1−θ(x) = exp {β ′x}. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Estimação do vetor β e das variâncias-covariâncias de β̂ Estimação de β ⇒ Método da Máxima Verossimilhança L(β ) = n ∏ ℓ=1 P(Y = yℓ | xℓ) = n ∏ ℓ=1 ( θ(xℓ) )yℓ (1−θ(xℓ))1−yℓ yℓ = 1, se indivíduo l apresentou a resposta e yℓ = 0, c.c. Valores de β que maximizam lnL(β )⇒ β̂ . Distribuição assintótica de β̂ ⇛ Normal Estimação da matriz de variâncias-covariâncias de β̂ Σ(β ) = [I(β )]−1 = matriz de variâncias-covariâncias I(β ) = matriz contendo o negativo das derivadas parciais de 2a ordem de lnL(β ). Estimadores são obtidos por avaliar Σ(β ) em β̂ . Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Significância dos Efeitos das Variáveis Testar hipóteses relativas aos parâmetros βk (k = 1, . . . ,p) 1. Teste da Razão de Verossimilhanças (TRV) TRV =−2ln [ LS LC ] = 2ln(LC)−2ln(LS)︸ ︷︷ ︸ ∼ χ2(q) diferença de deviances LS: função de verossimilhança associada ao modelo sem a(s) variável(is) sob investigação LC: função de verossimilhança associada ao modelo com a(s) variável(is) sob investigação q = diferença de parâmetros entre os dois modelos. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Análise de Deviances e Seleção de Modelos Considere que modelos encaixados sejam ajustados aos dados de um estudo em que Y é binária e X1 e X2 são categóricas com duas categorias cada. Tabela de Análise de Deviances (ANODEV). Modelos g.l. Deviances TRV 6= g.l. Nulo glN DN X1 glN −1 D1 DN −D1 1 X2 | X1 glN −2 D2 D1−D2 1 X1 ∗X2 | X1,X2 glN −3 D3 D2−D3 1 glN = g.l. do modelo nulo = número de subpopulações − 1 Obs: na presença de dados faltantes, o tamanho amostral nos modelos sequenciais dependerá das variáveis Xk que os compõem⇛ TRV apresentará problemas. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Significância dos Efeitos das Variáveis 2. Teste de Wald (Wald, 1943) i) Para testar hipóteses relativas a um parâmetro H0 : βk = 0, k = 1, . . . ,p W = (β̂j)2 V̂ar(β̂j) ∼ χ21 ii) Para hipóteses relativas a q≥ 2 parâmetros H0 : β ∗ = 0 (β ∗ = vetor q×1) W = (β̂ ∗)′[Σ̂(β̂ ∗)]−1(β̂ ∗)∼ χ2q Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Diagnóstico do Modelo Ajustado Sob a hipótese H0: modelo ajustado é satisfatório, faz-se uso de estatisticas que resumem a concordância entre os valores observados e os preditos pelo modelo. QP = ∑i,j ( nij−eij )2 eij ∼ χ 2 m QL = 2∑i,j nij ln ( nij eij ) ∼ χ2m eij = ni+ θ̂ (xi), j = 1 e eij = ni+ (1− θ̂(xi)), j = 2. ni+ = sujeitos na i-ésima subpopulação da tabela de dados s×2. θ̂(xi) = probabilidade P(Y = 1 | xi) predita pelo modelo ajustado. eij = frequências esperadas sob o modelo ajustado. m = no subpopulações− no parâmetros do modelo ajustado. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Diagnóstico do Modelo Ajustado Na presença de variáveis contínuas⇛ frequências muito pequenas para a grande maioria das s subpopulações. ⇓ inviabiliza o uso de QL e QP ⇓ Hosmer e Lemeshow (1989) propuseram uma estatística alternativa, QHL, que é obtida calculando-se a estatística qui-quadrado de Pearson a partir de uma tabela g×2 de frequências observadas e preditas Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Diagnóstico do Modelo Ajustado Inicialmente, as n observações são ordenadas em ordem crescente das probabilidades θ(x) preditas pelo modelo. Tais observações são, então, divididas em g grupos (g = 10, por exemplo). No 10 grupo ficam as n1 observações com probabilidades estimadas < 0,1 e, no último, as ng observações com probabilidades ≥ 0,9. QHL = g ∑ i=1 (oi−niθ (xi))2 ni θ (xi)(1−θ (xi)) ∼ χ2(g−2) ni = frequência de observações no grupo i oi = frequência de resposta Y = 1 no grupo i θ (xi) = probab. média estimada de resposta Y = 1 no grupo i. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > dados1<-read.table("chd4a.txt",h=T) > attach(dados1) > dados1 dc sexo ecg idade 1 0 0 0 28 2 0 0 0 34 3 0 0 0 38 4 1 0 0 41 ... 76 1 1 2 58 77 1 1 2 59 78 1 1 2 60 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Recursos do Software R Comandos R > ajust<-glm(dc~sexo+ecg+idade,family=binomial(link="logit"), data=dados1) > summary(ajust) > anova(ajust, test="Chisq") > source("http://www.poleto.com/funcoes/gof.bino.txt") > gof.bino(ajust, grupos=10) $x2 [1] 5.754939 $df [1] 8 $pvalue [1] 0.6746605 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Resíduos de Pearson e Resíduos Deviance Limitação das estatísticas Qp e QL ⇛ único valor é utilizado para resumir uma quantidade considerável de informação. Pregibon (1981) estendeu os métodos de diagnóstico de regressão linear para a regressão logística, fazendo uso dos componentes individuais das estatísticas Qp e QL. ci = ni1− (ni+) θ̂ (xi)√ (ni+) θ̂ (xi)(1− θ̂ (xi))︸ ︷︷ ︸ , i = 1, · · · ,s. resíduos de Pearson Componentes ci são denominados resíduos de Pearson, pois a soma deles ao quadrado resulta em QP, i.e., QP = s ∑i=1 (ci) 2 . Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Resíduos deviance Analogamente, os componentes di são denominados resíduos deviance, pois a soma deles ao quadrado resulta em QL, isto é, QL = s ∑ i=1 (di)2. di =± [ 2ni1 ln ( ni1 ei1 ) +2(ni+−ni1) ln ( ni+−ni1 ni+− ei1 )]1/2 ︸ ︷︷ ︸ resíduos deviance ei1 = (ni+) θ̂ (xi), para i = 1, . . . ,s. sinal de di ⇛ definido a partir das diferenças (ni1− ei1). Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Resíduos deviance Distribuição aproximada dos resíduos ci e di ∼ N(0,1). Resíduos excedendo ± 2,5 pode indicar possível falta de ajuste do modelo presença de outliers padrões sistemáticos de variação. 1 2 3 4 5 6 7 8 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 ï R es íd uo s de P e a rs o n 1 2 3 4 5 6 7 8 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 i R es íd uo s de vi an ce Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Sobre a Distribuição dos Resíduos Assumindo que os resíduos di seguem distribuição aproximada normal ⇒ construir normal Q-Q plot com envelope simulado (Davison e Gigli, 1989). −2 −1 0 1 2 − 2 − 1 0 1 2 Percentis D ev ia nc e Q−Q PlotQ−Q PlotQ−Q Plot Se os resíduos estiverem dentro do envelope simulado⇛ evidências favoráveis ao modelo ajustado. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Sobre a Distribuição dos Resíduos Ben e Yohai (2004) argumentam, contudo, que para alguns MLG, tal distribuição pode estar distante da normalidade. Assim, propuseram uma estimativa da distribuição dos resíduos di, de modo que no Q-Q plot tais resíduos são graficado versus os quantis da distribuição estimada. Ben MG, Yohai VJ (2004). Quantile-quantile plot for deviance residuals in the generalized linear model. J. of Comput. & Graphical Statistics, 13(1): 36-47. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Métodos Auxiliares Poder Preditivo do Modelo Ajustado Para avaliar o poder preditivo do modelo é necessário estabelecer um ponto de corte (0 < pc < 1), tal que: a) Probabilidades preditas pelo modelo ≥ pc⇛ Y = 1 b) Probabilidades preditas pelo modelo < pc⇛ Y = 0. Resposta Resposta Predita pelo Modelo Observada Y = 1 (+) Y = 0 (−) Totais Y = 1 (+) a b (a + b) Y = 0 (−) c d (c + d) Totais (a + c) (b + d) n ⇛ Sensibilidade = a a+b = taxa de verdadeiros + ⇛ Especificidade = d c+d = taxa de verdadeiros − ⇛ Valor Preditivo = a+d n = proporção geral de acertos Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Métodos Auxiliares Para diversos pontos de corte⇛ Curva ROC Pares (x, y) = (1 − especificidade, sensibilidade). Modelo com discriminação perfeita⇛ (x, y) = (0,1). Pontos de corte próximos ao canto superior esquerdo, produzirão os maiores % de acertos (V+ e V−). Quanto mais próxima de 1 for a área abaixo da curva, melhor o poder de predição do modelo. 1 − especificidade se n si bi lid ad e 0.0 0.2 0.4 0.6 0.8 1.0 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 1: Dados sobre Doença Coronária vs Idade Doença coronária Idade (X = x) Sim (Y = 1) Não (Y = 0) Totais E(Y | x) 20-29 1 9 10 0,10 30-34 2 13 15 0,13 35-39 3 9 12 0,25 40-44 5 10 15 0,33 45-49 6 7 13 0,46 50-54 5 3 8 0,63 55-59 13 4 17 0,76 60-69 8 2 10 0,80 Totais 43 57 100 0,43 Fonte: Hosmer e Lemeshow (1989) β̂0 = −5,123 (e.p. = 1,11) e β̂1 = 0,1058 (e.p. = 0,023). θ̂ (x) = exp{−5,123+ 0,1058 x} 1+ exp{−5,123+ 0,1058 x} ln ( θ̂ (x) 1− θ̂(x) ) =−5,123+ 0,1058 x Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 1: Dados sobre Doença Coronária vs Idade Tabela 1. Diferenças de deviances Modelos g.l. Deviances Diferenças 6= g.l. Nulo 7 28,7015 X: idade 6 0,5838 28,1177 1 Tabela 2. Análise de Deviance (ANODEV) Fonte de variação g.l. Deviances TRV valor p Regressão 1 28,1177 28,1177 < 0,00001 Deviance residual 6 0,5838 Deviance total 7 28,7015 Evidências de associação entre idade e doença coronária. Ainda, teste de Wald⇛ W = 20,49 (g.l. = 1, p < 0,00001) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 1: Dados sobre Doença Coronária vs Idade Qp = 0,59 (p = 0,9965) e QL = 0,58 (p = 0,9967), g.l.= 6. Resíduos ci e di entre −2,5 e 2,5. 1 2 3 4 5 6 7 8 − 2 − 1 0 1 2 Index re sí du os P e a rs o n 1 2 3 4 5 6 7 8 − 2 − 1 0 1 2 Index re sí du os d ev ia nc e −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 − 3 − 2 − 1 0 1 2 3 Normal Q−Q Plot Percentis da N(0,1) Co m po ne nt e do D es vio Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot Área abaixo da curva ROC: AUC = 0,7838. Evidências favoráveis ao modelo ajustado. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 1: Dados sobre Doença Coronária vs Idade 30 40 50 60 0. 0 0. 2 0. 4 0. 6 0. 8 idade E( Y|x ) A partir do modelo ajustado tem-se, por exemplo: xi θ̂ (xi) 1− θ̂(xi) θ̂(xi)1−θ̂(xi) = exp{β̂0 + β̂1xi} 26 0,0853 0,9147 exp{β̂0 + β̂1 ∗ 26}= 0,093 27 0,0939 0,9061 exp{β̂0 + β̂1 ∗ 27}= 0,103 65 0,8524 0,1476 exp{β̂0 + β̂1 ∗ 65}= 5,774 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 1: Dados sobre Doença Coronária vs Idade Relembrando que θ(xi) 1−θ(xi) = odds, segue que: ÔR = odds(27) odds(26) = exp{β̂1(27−26)} = exp{β̂1} ≈ 1,11 ÔR = odds(65) odds(26) = exp{β̂1(65−26)} = exp{β̂1 ∗39} ≈ 62 A odds de doença coronária entre indivíduos com 65 anos de idade é ≈ 62 vezes a dos indivíduos com 26 anos. Obs: OR nos modelos de regressão logística são denominadas OR ajustadas, uma vez que o efeito βk associado à covariável k é estimado na presença dos demais no modelo. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomial com Link Logit Comandos R > resim<-c(1,2,3,5,6,5,13,8) > resnao<-c(9,13,9,10,7,3,4,2) > idade<-c(25,32,38,43,47,53,57,65) > dados<-as.data.frame(cbind(resim,resnao,idade)) > attach(dados) > ajust<-glm(as.matrix(dados[,c(1,2)])~idade, family=binomial(link="logit"),data=dados) > anova(ajust,test="Chisq") > summary(ajust) > ajust$y > ajust$fitted.values > dev<-residuals(ajust,type=’deviance’) > QL<-sum(dev^2) > p1<-1-pchisq(QL,6) > cbind(QL,p1) > plot(dev,ylim=c(-2,2),ylab="residuos deviance",pch=16) > abline(h=0, lty=3) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomial com Link Logit Comandos R > rpears<-residuals(ajust,type=’pearson’) > rpears > QP<-sum(rpears^2) > p2<-1-pchisq(QP,6) > cbind(QP,p2) > plot(rpears,ylim=c(-2,2),ylab="residuos Pearson",pch=16) > abline(h=0,lty=3) > theta<-resim/(resim+resnao) > plot(idade,theta,ylim=range(0,0.9),xlab="idade", ylab="E(Y|x)",pch=16) > idade<-20:70 > modajust<-(exp(-5.123+0.1058*idade))/(1+ exp(-5.123+ 0.1058*idade)) > lines(idade,modajust) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomialcom Link Logit Comandos R > ntot<-c(10,15,12,15,13,8,17,10) > fit.model<-ajust > source("http://www.ime.usp.br/~giapaula/envelr_bino") > dados1<-read.table("coronaria.txt",h=T) # dados 1 = arquivo com 1 indivíduo por linha (100 x 2) > attach(dados1) > dados1[1:3,] y idade 1 25 0 25 0 25 ... > require(Epi) > ROC(form=y~idade,plot="ROC") Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 2: Estudo sobre Infecções Urinárias Ensaio Clinico aleatorizado em que três tratamentos foram avaliados em pacientes que no diagnóstico apresentaram infecção urinária complicada ou não de ser curada. Cura Diagnóstico da Infecção Medicamentos Sim Não Totais Complicada A 78 28 106 Complicada B 101 11 112 Complicada C 68 46 114 Não complicada A 40 5 45 Não complicada B 54 5 59 Não complicada C 34 6 40 Fonte: Koch et al. (1985) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 2: Estudo sobre Infecções Urinárias Resposta dicotômica e duas covariáveis em que: xi1 = { 1 se infecção complicada 0 caso contrário. xi2 = (xi21,xi22) = (1,0) se tratamento A (xi21,xi22) = (0,1) se tratamento B (xi21,xi22) = (0,0) se tratamento C⇛ refêrencia. Tabela 1. Diferenças de deviances. Modelos g.l. deviances 6= deviances 6= g.l. valor p Nulo 5 44,473 – – – X1 4 30,628 13,844 1 0,0002 X2 | X1 2 2,515 28,114 2 < 0,0001 X1 ∗X2 | X1,X2 0 0,000 2,515 2 0,2843 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 2: Estudo sobre Infecções Urinárias Efeito da interação⇛ não significativo (p = 0,2843). Foram então testados os efeitos principais Efeito de X1 ⇛ significativo (p = 0,0002). Efeito de X2|X1 ⇛ significativo (p < 0,0001). Tabela 2. Análise de Deviance (ANODEV). Fonte de variação g.l. deviances TRV valor p Regressão 3 41,958 41,958 < 0,00001 Deviance residual 2 2,515 Deviance total 5 44,473 As variáveis X1 = diagnóstico e X2 = tratamento reduzem substancialmente a deviance total. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 2: Estudo sobre Infecções Urinárias Estatísticas de qualidade de ajuste do modelo QL = 2,515 (p = 0,2844) e QP = 2,757 (p = 0,2519). Valores observados e preditos pelo modelo e resíduos deviance e de Pearson. θ (xi) θ̂(xi) di ci 0,735 0,739 −0,077 −0,077 0,902 0,882 0,646 0,630 0,596 0,612 −0,344 −0,345 0,889 0,881 0,162 0,161 0,915 0,951 −1,182 −1,302 0,850 0,805 0,740 0,717 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 2: Estudo sobre Infecções Urinárias Gráfico dos resíduos deviance e Normal QQ-Plot 1 2 3 4 5 6 − 3 − 2 − 1 0 1 2 3 Index rs íd uo s de vi an ce −1.0 −0.5 0.0 0.5 1.0 − 2 − 1 0 1 2 3 Normal Q−Q Plot Percentis da N(0,1) Co m po ne nt e do D es vio Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot Área abaixo da curva ROC⇛ AUC = 0,70. Evidências favoráveis ao modelo ajustado. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 2: Estudo sobre Infecções Urinárias Tabela 3. Estimativas dos parâmetros do modelo ajustado. Parâmetros Estimativas erro padrão β0: constante 1,4184 0,2986 β1: infecção complicada −0,9616 0,2997 β2: tratamento A 0,5847 0,2641 β3: tratamento B 1,5608 0,3158 ln ( θ̂(xi) 1− θ̂ (xi) ) = 1,4184−0,9616 xi1 +0,5847 xi21 +1,5608 xi22 θ̂(xi) = exp{1,4184−0,9616 xi1 +0,5847 xi21 +1,5608 xi22} 1+exp{1,4184−0,9616 xi1 +0,5847 xi21 +1,5608 xi22} Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 2: Estudo sobre Infecções Urinárias Infecção Tratamentos θ̂(xi) 1−θ̂(xi) = odds Complicada A exp{β̂0 + β̂1 + ˆβ2} Complicada B exp{β̂0 + β̂1 + ˆβ3} Complicada C exp{β̂0 + β̂1} Não complicada A exp{β̂0 + β̂2} Não complicada B exp{β̂0 + β̂3} Não complicada C exp{β̂0} ÔRC|NC = exp{β̂1}= 0,38 ⇓ ÔRNC|C = exp{−β̂1}= 2,6 ÔRA|C = exp{β̂2}= 1,79 ÔRB|C = exp{β̂3}= 4,76 ÔRB|A = exp{β̂3− β̂2}= 2,65 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomial com Link Logit Comandos R > resim<-c(78,101,68,40,54,34) > resnao<-c(28,11,46,5,5,6) > diag<-c(1,1,1,0,0,0) > trat<-c(2,3,1,2,3,1) > dados<-as.data.frame(cbind(resim,resnao,diag,trat)) > attach(dados) > ajust<-glm(as.matrix(dados[,c(1,2)])~factor(diag)+ factor(trat),family=binomial(link="logit"),data=dados) > summary(ajust) > anova(ajust,test="Chisq") > ajust$y > ajust$fitted.values > dev<-residuals(ajust,type=’deviance’) > dev > QL<-sum(dev^2) > p1<-1-pchisq(QL,2) > cbind(QL,p1) > plot(dev, pch=16,ylim=c(-3,3),ylab="Residuos deviance") Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomial com Link Logit Comandos R > rpears<-residuals(ajust,type=’pearson’) > rpears > QP<-sum(rpears^2) > p2<-1-pchisq(QP,2) > cbind(QP,p2) > ntot<-c(106,112,114,45,59,40) > fit.model<-ajust > source("http://www.ime.usp.br/~giapaula/envelr_bino") > dados1<-read.table("infec.txt", h=T) > dados1 # arquivo com 1 indivíduo por linha (476 x 3) x1 x2 y # x1 = diag e x2 = trat 1 2 1 1 2 1 ... > attach(dados1) > require(Epi) > ROC(form=y~factor(x1)+factor(x2),plot="ROC") Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 3: Estudo sobre Bronquite Objetivo: estudar associação de bronquite com smk = status de fumo (0 se não usa e 1 se usa), ses = status sócio-econômico (0 se alto e 1 se baixo) idade = 0 se < 40 anos e 1 se ≥ 40 anos. Bronquite smk ses idade Sim Não Totais 0 1 0 38 73 111 0 1 1 48 86 134 0 0 0 28 67 95 0 0 1 40 84 124 1 1 0 84 89 173 1 1 1 102 46 148 1 0 0 47 96 143 1 0 1 59 53 112 Fonte: Kleinbaum (1994) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 3: Estudo sobre Bronquite Tabela 1. Diferenças de deviances - modelos sequenciais. Modelos g.l. Dev. TRV 6= g.l. valor p Nulo 7 72,798 X1 6 40,336 32,462 1 < 0,0001 X2 | X1 5 27,511 12,825 1 0,0003 X3 | X1,X2 4 11,025 16,486 1 < 0,0001 X1 ∗X2 | X1,X2,X3 3 7,910 3,115 1 0,0775 X1 ∗X3 | X1,X2,X3,X1 ∗X2 2 0,032 7,879 1 0,0050 X2 ∗X3 | X1,X2,X3,X1 ∗X2,X1 ∗X3 1 0,031 0,001 1 0,9763 X1 ∗X2 ∗X3 | X1,X2,X3 + duplas 0 0,000 0,031 1 0,8602 X1 = smk, X2 = ses e X3 = idade Modelo ⇛ X1,X2,X3 +X1 ∗X3 +X1 ∗X2 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 3: Estudo sobre Bronquite θ (xi) θ̂(xi) 0.3389166 0.3423423 0.3610467 0.3582090 0.2987395 0.2947368 0.3195141 0.3225806 0.4870962 0.4855491 0.6873808 0.6891892 0.3267997 0.3286713 0.5291753 0.5267857 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 − 2 − 1 0 1 2 Normal Q−Q Plot Percentis da N(0,1) Co m po ne nt e do D es vio Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot 1 2 3 4 5 6 7 8 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 Index R es id uo s de vi an ce QL = QP = 0,0318 (p = 0,999). Área abaixo curva ROC = 0.64. Evidências a favor do modelo. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 3: Estudo sobre Bronquite Parâmetros Estimativas Erro-padrão β0 −0,8533 0,1856 β1: x1 = smk 0,1306 0,2408 β2: x2 = ses 0,1852 0,1982 β3: x3 = idade 0,0973 0,1991 β4: (x1 ∗x2) = smk∗ses 0,4859 0,2637β5: (x1 ∗x3) = smk∗idade 0,7422 0,2643 smk ses idade smk∗ses smk∗idade odds = θ̂ (xi) 1−θ̂(xi) 0 1 0 0 0 exp{β̂0 + β̂2} 0 1 1 0 0 exp{β̂0 + β̂2 + β̂3} 0 0 0 0 0 exp{β̂0} 0 0 1 0 0 exp{β̂0 + β̂3} 1 1 0 1 0 exp{β̂0 + β̂1 + β̂2 + β̂4} 1 1 1 1 1 exp{β̂0 + β̂1 + β̂2 + β̂3 + β̂4 + β̂5} 1 0 0 0 0 exp{β̂0 + β̂1} 1 0 1 0 1 exp{β̂0 + β̂1 + β̂3 + β̂5} Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 3: Estudo sobre Bronquite Na presença de interações significativas: ÔRsmk(1|0) = exp{β̂1} se ses = 0 e idade = 0 exp{β̂1 + β̂4} se ses = 1 e idade = 0 exp{β̂1 + β̂5} se ses = 0 e idade = 1 exp{β̂1 + β̂4 + β̂5} se ses = 1 e idade = 1 ÔRsmk(1|0) = exp{β̂1 + β̂4 ses+ β̂5 idade} Assim, para, por exemplo, pacientes com ses alto = 0 e idade > 40 anos (idade = 1), a odds de bronquite entre os que fumam é exp{0,1306+ 0,7422}= 2,4 vezes a dos que não fumam. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 3: Estudo sobre Bronquite ÔRses(1|0) = { exp{β̂2} se smk = 0 exp{β̂2 + β̂4} se smk = 1 ÔRses(1|0) = exp{β̂2 + β̂4 smk} Assim, para pacientes que fumam, a odds de bronquite entre os com ses baixo (ses = 1) é exp{0,1852+ 0,4859}= 1,95 vezes a dos com ses alto (ses = 0). Para os que não fumam (smk = 0), tal odds é exp{0,1852}= 1,2. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustração 3: Estudo sobre Bronquite ÔRidade(1|0) = { exp{β̂3} se smk = 0 exp{β̂3 + β̂5} se smk = 1 ÔRidade(1|0) = exp{β̂3 + β̂5 smk} Desse modo, para os que fumam, a odds de bronquite entre os com idade ≥ 40 anos é exp{0,0973+ 0,7422}= 2,3 vezes a dos com idade < 40 anos. Para os que não fumam tal odds é exp{0,0973}= 1,1. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomial com Link Logit Comandos R > brc<-read.table("bronquite.txt",h=T) > attach(brc) > brc sim nao smk ses idade 38 73 0 1 0 48 86 0 1 1 28 67 0 0 0 40 84 0 0 1 84 89 1 1 0 102 46 1 1 1 47 96 1 0 0 59 53 1 0 1 > ajust<-glm(as.matrix(ex3[,c(1,2)])~smk+ses+idade+ smk*ses+smk*idade,family=binomial,data=brc) > anova(ajust,test="Chisq") > summary(ajust) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomial com Link Logit Comandos R > ajust$y > ajust$fitted.values > dev<-residuals(ajust,type=’deviance’) > dev > QL<-sum(dev^2) > p1<-1-pchisq(QL,6) > cbind(QL,p1) > rpears<-residuals(ajust,type=’pearson’) > rpears > QP<-sum(rpears^2) > p2<-1-pchisq(QP,6) > cbind(QP,p2) > plot(dev, pch=16,ylim=c(-0.5,0.5),ylab="Residuos deviance") Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ajustando Modelo Binomial com Link Logit Comandos R > ntot<-c(111,134,95,124,173,148,143,112) > fit.model<-ajust > source("http://www.ime.usp.br/~giapaula/envelr_bino") > brc1<-read.table("bronquite1.txt",h=T) > attach(brc1) # brc1 = arquivo com 1 indivíduo por linha (1040 x 4) > brc1 x1 x2 x3 y 0 1 0 1 0 1 0 1 ... 1 0 1 0 > require(Epi) > ROC(form=y~x1+x2+x3+x1*x2+x1*x3,plot="ROC") Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Links Paramétricos Alternativos para Dados Binários Alguns links para dados com resposta binária. θ (x) = F(β ′x) links paramétricos alternativos exp{β ′x} 1+ exp{β ′x} logito ⇒ ln ( θ (x) 1−θ (x) ) Φ(β ′x) probito ⇒ Φ−1(θ (x)) 1−exp{−exp{β ′x}} clog-log ⇒ ln(− ln(1−θ (x))) 1 2 + arctg(β ′x) pi cauchy ⇒ F−1(θ (x)) Φ(·) denota a função de distribuição da N(0,1), arctg = arco tangente F(·)denota a função de distribuição da Cauchy(0,1) ∼ t-Student(1g.l.) ⇛ Simétricos: logístico, probito e cauchy ⇛ Assimétrico: complemento log-log. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Links Alternativos para Dados Binários −4 −2 0 2 4 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 x th et a(x ) logístico probito clog−log cauchy Procedimentos de estimação, qualidade e diagnóstico são análogos aos do modelo logístico. Interpretação dos parâmetros difere da apresentada para o modelo logístico. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustrando links Alternativos - Bioensaio Bioensaio conduzido em laboratório por Machado (2006). Objetivo: concentração ideal de uma suspensão viral. Mortes Diluições (CPI/ml) Sim Não Totais Testemunha 0 30 30 103 1 29 30 106 4 26 30 107 15 15 30 108 28 2 30 109 29 1 30 xi = logaritmo neperiano das diluições. Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustrando Links Alternativos - Bioensaio 0 5 10 15 20 25 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 ln(diluição) Pr op or çã o de m or te s Logístico ⇒ θ (xi) = exp{β0 +β1xi} 1+exp{β0 +β1xi} Probito ⇒ θ (xi) = Φ(β0 +β1xi) Clog-log ⇒ θ (xi) = 1−exp{−exp{β0 +β1xi}} Cauchy ⇒ θ (xi) = 1 2 + arctan(β0 +β1xi) pi Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustrando Links Alternativos - Bioensaio Estatística deviance de qualidade de ajuste Logito Probito Clog-log Cauchy QL 6,59 10,99 6,18 1,72 p-valor 0,158 0,027 0,186 0,787 −1.0 0.0 1.0 − 2 − 1 0 1 2 Normal Q−Q Plot Percentis da N(0,1) D ev ia nc e Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot −1.0 0.0 1.0 − 3 − 1 0 1 2 Normal Q−Q Plot Percentis da N(0,1) D ev ia nc e Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot −1.0 0.0 1.0 − 2 0 1 2 3 Normal Q−Q Plot Percentis da N(0,1) D ev ia nc e Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot −1.0 0.0 1.0 − 4 − 2 0 2 4 Normal Q−Q Plot Percentis da N(0,1) D ev ia nc e Normal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot a) logito b) probito c) clog-log d) Cauchy Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustrando links Alternativos - Bioensaio Evidências a favor do modelo Binomial com link cauchy. Estimativas links β̂0 (e.p.) β̂1 (e.p.) Logito −12,863 (2,27) 0,708 (0,12) Probito − 6,244 (1,07) 0,347 (0,06) Clog-log − 8,143 (1,26) 0,422 (0,06) Cauchy −26,678 (9,47) 1,451 (0,51) Usual nos bioensaios: dose letal mediana⇛ LD50 Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustrando links Alternativos - Bioensaio x50 = ln(L̂D50) L̂D50 Logito ln ( 0,50 1− 0,50 ) = β̂0 + β̂1x − β̂0β̂1 ≈ 18,17 (7,7) 7 Probito Φ−1(0,50) = β̂0 + β̂1x − β̂0β̂1 ≈ 18,00 (6,6) 7 Clog-log ln(− ln(1− 0,50)) = β̂0 + β̂1x −0,3665−β̂0β̂1 ≈ 18,43 (10) 7 Cauchy F−1(0,50) = β̂0 + β̂1x − β̂0β̂1 ≈ 18,39 (9,7) 7 Obs: para os modelos com links simétricos ⇛ x50 =− β̂0β̂1 . Estimação por ponto e intervalo da LD50: Finney (1971), Willians (1986), Kelly (2001), Kelly e Lindsey (2002), ... Koenker, R. Parametric links for binary response. URL: www.econ.uiuc.edu/∼roger/research/links/Rnews.pdf Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE DE DADOS CATEGÓRICOS Minicurso - 57a Reunião Anual da RBras Ilustrando links Alternativos - Bioensaio 0 5 10 15 20 25 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 ln(diluições) pr op or çã o de m or te s logístico probito clog−log cauchy (18.386, 0.5) Giolo, S.R. (2012) INTRODUÇÃO À ANÁLISE
Compartilhar