Buscar

Curso de Estatística para Médicos

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 172 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 172 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 172 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

A v . G e t ú l i o V a r g a s 3 3 3 , Q u i t a n d i n h a . P e t r ó p o l i s , R J . T e l . : 2 4 2 2 3 3 - 6 1 5 0
LNCC-Petrópolis,
Ministério da
Ciência, Tecnolgia
e Inovação
Sociedade de
Computação
Científica
Sociedade de
Computação
Científica
SCC
informação / inscrições: verao@lncc.br / www.lncc.br
L a b o r a t ó r i o
Nac iona l de
Computação
C i e n t í f i c a
Ba
síli
o d
e B
rag
an
ça
 Pe
rei
ra
Pro
fes
so
r ti
tul
ar 
de
 Bi
oe
sta
tíst
ica
 da
 Fa
cu
lda
de
 de
 M
ed
ici
na
 da
 UF
RJ
Pro
fes
so
r ti
tul
ar 
de
 Es
ta
tíst
ica
 Ap
lic
ad
a d
a C
OP
PE
Em
ília
 M
ato
s d
o N
as
cim
en
to
Pe
sq
uis
ad
ora
 da
 C
OP
PE
 e 
do
 C
NP
q
Ap
re
nd
iza
do
Es
ta
tís
tic
o e
m
Me
dic
ina
de
 ve
rão
Pro
gra
ma
28 de Janeiro a 01 de Fevereiro de 2013
Objetivos 
• Apresentar a metodologia estatística para estudantes de 
medicina e médicos, de forma conceitual sem ênfase em 
matemática (segundo preconizado por um dos criadores da 
Medicina Baseada em Evidência , Dr David Sackett). 
• Desmistificar o uso inadequado, automatizado e 
indiscriminado de métodos estatísticos na pesquisa médica. 
• Dar uma visão geral introdutória de métodos estatísticos 
modernos que contribuem para o conhecimento médico. 
Ementa 
• Papel da estatística na medicina. Tipos de medidas. Estatística 
fisiológica. Probabilidade, distribuições e propriedades. 
Medidas descritivas: posição ,dispersão e forma. 
Representação gráfica. 
• Inferência frequentista e Bayesiana: estimação, testes e 
intervalos. Análise de sobrevivência Modelos de regressão: 
linear logística , Poisson e Cox. 
• Aplicações Médicas de métodos de aprendizado estatístico 
(redes neurais, árvores de classificação, regressão e de 
sobrevivência. Máquinas de vetores suporte) e de estatística 
multivariada (modelos log lineares, e grafos não orientados, 
regressão LASSO para escolha de variáveis) 
• Apresentação do R-project (sistema computacional) 
Índice 
• Capítulo 1 Estatística em Medicina 
• Capítulo 2 Observações e Probabilidade 
• Capítulo 3 Inferência Estatística, Frequentista ou Clássica 
• Capítulo 4 Modelos Estatísticos e Aplicações 
CAPÍTULO 1 
ESTATÍSTICA EM MEDICINA 
Estatística 
 
 
 
Um assunto que a maioria dos estatísticos acha difícil 
porém que quase todos os médicos são especialistas. 
 
 
Estatísticos são vistos como: 
 
• Desnecessários: alguém que sabe usar pacotes estatísticos. 
 
• Técnicos necessários: digitadores de números. 
 
• Demônios necessários: a benção do estatístico é necessária para 
publicação. 
 
• Mágicos necessários : pode obter significância manipulando os 
dados (Lies, Damn lies, and Statistics – Disraeli). 
 
Ou como: 
 
 
• Deus: Salvador, responde as rezas. 
 
• Bispo: Abençoa, ouve aos pecados. 
 
• Padre : Companheiro. 
 
• Sacristão: Servo, faz o que é mandado. 
Estatístico como colega: 
 
• Coletando informação adequadamente. 
 
• Interpretando informação adequadamente. 
 
• Analisando informação adequadamente. 
 
• Podendo pescar ou ensinar como pescar. 
 
• Estar disposto a ensinar os conceitos atrás da metodologia. 
 
• Precisa ter um conhecimento da área de aplicação para ser um 
consultor eficiente. 
Efeito da revolução do computador: 
• Liberou os cálculos cansativos 
• Facilita a análise exploratória de dados 
• Permite trabalhar com grande massa de dados 
• Permitiu trabalhar com métodos multivariados complexos 
• Permite o uso de métodos computacionalmente intensivos 
• Permite a possibilidade de estudar convergência assintótica e 
revolucionou o ensino 
 
• Sistemas computacionais comerciais: caros , tornando-se inviável 
 
Sistemas gratuitos: 
• Sistema R 
• WinBugs 
• Etc. 
Desenvolvimento histórico: 
 
Começo do século 20 (antes de 1950): 
• Aplicações a agricultura 
• Modelos paramétricos (Gaussianos) 
• Univariados 
 
Anos 1960-1980: 
• Aplicações biomédicas 
• Modelos lineares 
• Multivariado 
 
Anos após 1990 e século 21: 
• Genética 
• Métodos computacionais intensivos 
• Modelos longitudinais, multidimensionais , complexos , não lineares, métodos robustos etc 
• Aprendizado Estatístico 
 
Exemplos: tese de doutorado da Clinica Medica (CART) – Dra Fernanda Mello e da COPPE (redes neurais) – Dra 
Alcione Miranda dos Santos, ambas desenvolvidas na UPT – Unidade de Pesquisa de Tuberculose do HUCFF - Prêmios 
2002 e 2004 de Ciência e Tecnologia do SUS. 
Outras: Amália Reis (Doutorado Medicina, Redes Neurais), Emília Nascimento (Mestrado Produçao, Redes Neurais), Rodrigo Collazo 
(Mestrado Produçao – Support Vector Machine), Alfredo Passos (Mestrado Produçao – Redes Neurais Probabilísticas) – todas na área de 
Medicina. 
 
Interação 
 
Medicina x Estatística 
 
Como promovê-la? Por que? 
Por que? 
Dificuldades com as diversas fórmulas estatísticas para o clínico-futuro-
realizador de um ensaio clínico: 
 
Causas: 
•Elas assustam e dão medo de usar 
•Elas são difíceis de lembrar 
•Elas requerem um conhecimento de matemática e estatística muito longe do 
conhecimento e experiência do clínico (would-be-trialist) 
•O tempo necessário para entender suas nuances será feito às expensas de 
manter competência clínica, vida social, uma auto-imagem positiva e um 
senso de humor 
•Elas existem isoladas e sem relação com cada uma das outras 
 
(Tenha cuidado com o homem que trabalha duro para aprender algo , aprende , e no 
final não está mais competente do que antes. Ele está cheio de re-sentimento 
criminoso com as pessoas que não são competentes, mas que não chegaram à sua 
situação da maneira difícil). 
Como? 
David Sackett (2001): 
 
Solução é uma introdução a Estatística Fisiológica 
 
Esqueça as fórmulas (eu sei menos fórmulas hoje do que quando planejei 
meu primeiro RCT em 1963) 
 
Nunca trabalhe sozinho, porém sempre com um estatístico (a grande maioria 
de clínicos que eu encontrei sabem suficiente estatística para arranjar 
problemas, porém não o suficiente para sair deles) 
 
Empregue “estatística fisiológica”: 
 
A importância das formulas estatísticas não está na sua individualidade mas 
sim na sua combinação criteriosa. Clínicos as entenderão bem melhor se 
pensarem nelas em termos fisiológicos, análogos a combinar os 
determinantes do sistema sanguíneo de pressão arterial. 
A única formula da estatística fisiológica é 
ridiculamente simples: 
sinal
confiança n
ruído

Quão curto é 
o intervalo de 
confiança 
Diferença entre os 
efeitos do tratamento 
experimental e do 
controle 
Soma de todos os fatores 
que podem afetar o sinal 
(Incerteza) 
Nº de pacientes 
na amostra 
 e se for Bayesiano 
 
 P(θ / X) α P(θ)P(X / θ) 
 
 
Duas Culturas 
Cultura de Modelagem dos 
Dados 
Cultura Algorítmica 
Estatística:Teoria em busca de dados Data Mining:Dados em busca de teoria 
“A mente que se abre a uma nova idéia 
jamais voltará ao seu tamanho original” 
 
Albert Einstein. 
O Problema do Epidemiologista 
 
 
Um epidemiologista foi enviado a uma região para conferir a 
prevalência de uma doença. Ele foi informado que os casos foram 
numerados seqüencialmente, e durante um período ele observou uma 
amostra aleatória de 5 doentes. Não querendo consultar os 
prontuários, de difícil acesso, será que ele pode fazer algumas 
afirmações sobre o número de casos baseado nos números de 
registros dos pacientes vistos no período (amostra) : 405,280, 73, 
440, 179 ? 
i)Inicialmente consideremos o problema de estimação 
 
Ordenemos os pontos em uma linha reta 
 73 179 280 405 440 
 ______________________________________ N = ? 
O início da linha é o número 1, qual será o ponto final N à direita que 
corresponderá ao numero de casos prevalentes ? Sabemos que o 
ponto deve ser maior ou igual a 440. 
 
Podemos argumentar que, se temos 72 números menores que o 
menor valor observado (73), é razoável supor que podemos ter 
também 72 números acima de 440. Em linguagem estatística, uma 
estimativa razoável para a prevalência seria 440 + 72 = 512. 
Um outro argumento seria considerar que se temos 279 números 
menores que a mediana 280 seria razoável supor que também 
teríamos 279 acima da mediana. Uma outra estimativa seria então 280 
+ 279 = 559. 
 
Temos duas estimativas, a primeira 512,denominada estimativa pelo 
extremo-(ee) e a segunda 559,denominada estimativa pela mediana-
(em). Qual delas escolher ? Bioestatísticos tem métodos para 
responder essas questões, que ilustraremos a seguir. 
 
Suponha que o verdadeiro numero dos casos prevalentes seja 550. 
Neste caso, os erros são 
 
 
 erro (ee) = |550 - 512| = 38 
 erro (em) = |550 - 559| = 9 
 
Para conferir se esta diferença entre os erros tem algum padrão, observamos 
mais três amostras com os resultados: 
 
 Amostra ee (erro) em (erro) 
1 – (405, 280, 73, 440, 179) 512 (38) 559 (9) 
2 – (72, 132, 189, 314, 290) 385 (165) 377 (173) 
3 – (191, 124, 460, 256, 401) 583 (33) 511 (39) 
4 – (450, 485, 56, 383, 399) 540 (10) 797 (247) 
 
Verificamos que a média dos erros são: 
 
 ee: (38+165+33+10)/4=61,5 
 em: (9+173+39+247)/4=117 
 
Pode-se mostrar que, se continuássemos a tirar amostras a média dos erros 
de ee seriam menores. 
Uma outra razão para escolher ee é que em alguns casos em produz 
resultados inconsistentes. Por exemplo, se na nossa amostra inicial o 
maior número fosse 650 em vez de 440, em continuaria a ser 559, o 
que é uma estimativa ruim já que observamos 650. 
 
Bioestatísticos, através da teoria das probabilidades desenvolveram 
métodos e critérios para escolher entre estimativas, a serem 
apresentados na Seção 3. 
 
É interessante mencionar que estimativas estatísticas semelhantes as 
anteriores, sobre o número de tanques produzidos pelos alemães na 
Segunda Guerra Mundial, eram muito mais precisas do que as 
baseadas em fontes de inteligência. 
ii) Consideremos agora o problema de testar uma hipótese 
 
Suponha que não sabemos o valor do numero de casos prevalentes e 
que desejamos testar a hipótese de que o mesmo é 1000, baseado na 
amostra: 405, 280, 73, 440, 179. Isto é, a amostra obtida permite que 
duvidemos que N = 1000? Por que? 
 
Para avaliar a evidência experimental (amostra) com a afirmação da 
hipótese (N = 1000) façamos primeiro uma analogia com o 
lançamento de uma moeda. 
 
Sob a suposição de que N = 1000, associemos números menores que 
500 com C – cara, e maiores que 500 com K – coroa, 
esquematicamente. 
x______________ x ___________________ x 
0 500 1000 
Cara – C Coroa = K 
p(C) = 1/2 p(K) = 1/2 
É fácil verificar que lançando a moeda: 
 
2 vezes, temos os resultados possíveis: CC, CK, KC, KK e logo como são 
equiprováveis p(CC) = 1/4 = 1/22 
 
3 vezes, temos os resultados: CCC, KKK, CCK, CKC, KCC, CKK, KCK, KKC, 
e logo p(CCC) = 1/8 = 1/23 
… … … 
 
5 vezes, temos p(CCCCCC) = 1/25 = 1/32 = 0,031 
 
Logo se N = 1000 a probabilidade da amostra observada é 1/32, já que 
os números observados são menores que 500. Portanto temos duas 
alternativas: a afirmação (N = 1000) é verdadeira e um evento raro 
ocorreu ou a afirmação não é verdadeira. A segunda afirmativa parece 
mais razoável. 
iii) Finalmente consideremos estimação por intervalos ou intervalos 
de confiança 
 
Inicialmente observe que na analogia anterior, “CCCCC” e “todos os 5 
números são menores que 500” eram equivalentes com probabilidade 
p(CCCCCC) = 1/32 = 1/25 = 1/2 . 1/2 . 1/2 . 1/2 . 1/2 = 0.031. Na 
realidade os 5 números são menores ou iguais a 440 e portanto a 
probabilidade de escolher um número menor que 440 entre os 
números menores ou igual a 1000 é 440/1000. Logo a probabilidade 
exata de escolher 5 números desta forma é: 
 
440/1000 . 440/1000 . 440/1000 . 440/1000 . 440/1000 = 0,016 
 
que é bem menor que a probabilidade aproximada 0.031, isto é, este 
método indica que se N = 1000 a amostra é mais rara ainda. 
Vamos agora testar as hipóteses: N = 900, 800, 700 etc. De forma 
análoga teríamos: 
 
 
 N p 
 1000 (440/1000)^5 = 0,016 
 900 (440/900)^5 = 0,028 
 800 (440/800)^5 = 0,05 = 1/20 
 700 (440/700)^5 = 0,098 
Alguns bioestatísticos consideram p = 0,05 como ponto divisório entre 
probabilidades “pequenas” que sugerem rejeição da hipótese e 
probabilidades “grandes” demais para sugerir rejeição. Neste caso 
valores maiores que 800, para o numero desconhecido de doentes são 
rejeitados pois tem probabilidades “pequenas” associadas, e valores 
menores ou iguais a 800 não são rejeitados pois tem probabilidades 
“grandes” associadas. Neste caso afirmamos que: 
 N  800 com 95% de confiança 
 
O mesmo tipo de raciocínio pode ser usado para obter um limite 
inferior. Sabemos que o valor mínimo é 440, que foi observado. Caso o 
número de doentes seja 440 a probabilidade deste doente não ser 
observado na amostra é (439/440)^5 e logo a probabilidade dele ser 
observado é: 
 0.011 = 1 – (439/440)^5 
 
Como é uma probabilidade “pequena”, N = 440 é rejeitado, ou seja N 
deve ser maior que 440. 
De forma análoga temos: 
 
 N p 
 440 1 – (439/440)5 = 0.011 
 441 1 – (439/441)5 = 0.022 
 444 1 – (439/444)5 = 0.05 = 1/20 
 
e N  444 com 95% de confiança, e combinando os dois resultados: 
 
 444  N  800 com 90% de confiança 
 
Finalmente, é importante mencionar que a regra de valor p = 0,05 não 
deve ser considerada estritamente. Em aplicações, outros valores de p 
(0.10, 0.015, ou 0.01) podem ser usados. É mais conveniente 
determinar o valor p e decidir em cada problema específico se o 
evento é raro ou não. 
Problema 
Dados, Amostras, 
Informação 
Parâmetros 
Envolvidos 
Estimadores Hipóteses Estatística de Teste Distribuição Amostral p-Valor 
Intervalo de Confiança 
(1-)% 
Do epidemiologista 
(405, 280, 73, 440, 179) 
tamanho = 5 
N – n0. doentes 
ee, em 
extremo, mediana 
H0: N = 1000 
N0s. menores que 500 supondo 
N = 1000  (C e K) 
Binomial – lançamentos C e K 
P(CCCCC) = 0.031 
ou melhor 0,016 
444  N  800,  = 0.10 
Uma proporção p 
(x1,…,xn) x = 1 ou 0 
tamanho = n 
p – proporção de 1 
n
x
 p i


 
2
1
 p :H0 
 
 
 pˆ1pˆ
n/1/2-pˆ Zobs


 
Aproximadamente N(0,1), Z normal 
Ver tabela da normal 
para Zobs 
 
 
ˆ1pˆ
 Zpˆ /2
n
p
 
 
Uma média  
(x1,…,xn) 
tamanho = n 
, 2 
 ix 
n
1
 x
 
 2i
2
x 
1-n
1
   xsx
 
H0:  = 0 
Tobs = 
 
n
s
/0-x
 
Distribuição tn-1 
Ver tabela de tn-1, 
para tobs 
n
s
 t x /2 1,-n 
 
Razão de variâncias 
y
2
x


 
(x1, …, xn), (y1, …, yn) 
tamanhos n e m 
x, y 
2
y
2
x ,
 
y e x
 
 
2
xs
e 
 
2
ys
 
1 :H
y
2
x
0 


 
2
y
2
x
obs
s
s
 F 
 
2
y
2
x s s 
 
Distribuição F(n-1, m-1) 
Ver tabela 
 1-m ,1nF 12/a1 
 e 
F/2(n-1, m-1) 
/22y
2
x
2
y
2
x
/2-1
2
y
2 F 
s
s
 F /s  

xs
 
Diferença de proporções 
px – py 
(x1, …, xn), (y1, …, ym) 
x1, y1 = 1 ou 0 
tamanhos n e m 
px, py 
m
y
 pˆ 
n
x
 ˆ y

xp
 
H0: px – py = 0 
   
n
pˆ1pˆ
 
n
pˆ1pˆ
pˆ - pˆ
 Z
yyxx
yx
obs




 
Aproximadamente N(0,1), Z normal 
Ver tabela do normal 
para Zobs 
 pˆ - pˆ yx
 
   
m
p
n
p yx ˆ1pˆ 
ˆ1pˆ
 Z
yx
/2




 
Diferença de médias: x - y 
Variâncias iguais 
2
y
2
x 
 
e desconhecidos 
(x1, …, xn), (y1, …, ym) 
tamanhos n e m 
x, y 
2
y
2
x
2 
 y ,x
 
   
2 - m n 
s 1-m s 1-n
 s
2
y
2
x
c



 
H0: x - y = 0 
m
1
 
n
1
 s
y - x
 t
c
obs


 
Distribuição tn+m-2 
Ver tabela de tn+m-2 
para tobs 
 y - x
 
m
t mn
1
 
n
1
 s c2/,2  
 
Diferença de média: x - y 
Variâncias desiguais e 
desconhecidas 
yx ˆ ˆ 
 
 
(x1, …, xn), (y1, …, ym) 
tamanhos n e m 
x, y 
2
y
2
x ,
 
y e x
 
 
2
xs
e 
 
2
ys
 H0: x - y = 0 
m
s
 
n
s
y - x
 t
2
y
2
x
obs


 Distribuição t0 com g.l. 
   


















1nn
s
 
1nn
s
m
s
 
n
s
 
2
2
2
4
y
2
4
x
2
y
2
x
 
Ver tabela de t0 para 
tobs se n e m maior 
que 15 use normal Z 
para Zobs 
 y - x
 
m
s
 
s
 
2
y
2
x
/2 0, 
n
t 
 
Teste pareado de igualdade de 
médias 
(x1, …, xn), (y1, …, yn) 
(y1 – x1, …, yn – xn) 
tamanhos n 
x, y 
d = y - x 
n
d
 d i


 
 
1n
dd
 s i2d

 

 
H0: y - x = 0 
n/s
d
 t
d
obs 
 
Distribuição tn-1 
Ver tabela de tn-1 para 
tobs nd /s t d/2 1,-n 
 
Teste de ajustamento 
Frequências relativas iguais a 
frequência de uma distribuição 
Histograma com K 
classes 
Parâmetros da 
distribuição 
 se f(x ) 
Estimadores ^
θ
 e histograma de f(x, ^
θ
) 
H0: dados 
seguem f(x ) 
2
k
1i i
ii2
obs
E
E - O
  







 
Oi – frequência observada 
Ei – frequência esperada segundo 
f(x) 
Distribuição 
2
m1k 
 
M – número de parâmetros da distribuição 
teórica 
Ver tabela de 
2
m1k 
 para 
2
obs
 
 - 
Teste de independência e 
homogeneidade em tabelas de 
contingência 
Tabela de contingência 
p por q 
Frequências supondo 
independência 
ij = .i .j 
jiij .
^
.
^^
θθθ 
 
N
nij
ij 
^
θ
 
H0: 
classificações 
 
independentes 
2
p
1j
q
1i i
ii2
obs
E
E - O
   






 
 
Oi – frequência observada 
Ei – frequência esperada supondo 
independência 
Distribuição 
  
2
1q1p 
 
Ver tabela de 
  
2
1q1p 
 para 
2
obs
 
 - 
Wilcoxon-Man-Whitney para 
comparação de duas médias 
(x1, …, xn) 
(y1, …, ym) 
suponha n < m 
N = n + m 
 - postos - H0: x - y = 0 
Wobs = n(N + 1) – R 
R = soma das ordenações da menor 
amostra ou Robs 
Distribuição de W – M – W e se n e m maior 
que 15 R tem distribuição aproximadamente 
normal com 
 
2
1mnn
 R


 
6
 m
 R2R


 
Ver tabela de W – M 
– W para W ou tabela 
da normal para 
R
Robs - R


 - 
 
Exemplos 
1) Testes de Significância e Testes Diagnósticos 
Teste Doença Total 
Presente D+ Ausente D- 
Positivo 
(T+) 
Correto positivo 
 a 
Falso positivo 
 c 
T+ positivo 
Negativo 
(T-) 
Falso negativo 
 b 
Correto Negativo 
 d 
T- negativo 
Total D – doentes 
 a + b 
A – ausência 
 c + d 
N = a + b + 
c + d 
Tabela 1 – Resultado de teste diagnóstico 
Quantidades Associadas 
• p(T+/D+) = a/(a+b) = S – sensibilidade 
• p(T-/D-) = d/(c+d) = E – especificidade 
• p(D+) = (a+b)/N = prevalência 
• p(T+) = (a+c)/N = positividade do teste 
• p(T-) = (b+d)/N = negatividade do teste 
• p(D+/T+) = a/(a+c) = VPP – valor preditivo positivo 
• p(D-/T-) = d/(b+d) = VPN – valor preditivo negativo 
Tabela 2 – Decisões e erros de teste de hipótese 
Decisão do Realidade 
Teste H0: D
- é verdadeira HA: D
+ é verdadeira 
Não Rejeita H0 (T
-) 
(Rejeita HA ) 
Decisão correta 
Probabilidade: 1 -  
Nível de confiança 
Erro tipo II 
Probabilidade:  
Não Rejeita HA (T
+) 
(Rejeita H0) 
Erro tipo I 
Probabilidade:  
Nível de significância 
p-p-Valor 
Decisão correta 
Probabilidade: 1 -  
Poder 
Tabela 3 – Analogias: teste diagnóstico x teste de hipóteses 
Proporção Símbolo Teste Diagnóstico Teste de Hipótese 
Correto positivo S = P(T+/D+) Sensibilidade 1-: poder 
Correto negativo E = P(T-/D-) Especificidade 1-: nível de confiança 
Falso positivo P(T+/D-) 1 – Especificidade : erro tipo I, valor-p 
nível de significância 
Falso negativo P(T-/D+) 1 – Sensibilidade : erro tipo II 
2) Verossimilhança 
• Um determinado medicamento em teste foi utilizado em 10 
pacientes, deste 7 ficaram curados 
• Se soubermos a eficácia p.ex (= 0,7) podemos calcular a 
probabilidade de obter x curas em 10 pacientes 
 
 
• O problema é que a real eficácia (π) deste medicamento é 
desconhecida e então definimos a função de verossimilhança. 
• O valor da verossimilhança de cada valor de π é: 
   
37
10
| 7 1
0
L x      
 7
  1010| 0,7 0,7 (1 0,7)
x x xP x C   
Verossimilhança de π 
y  
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
0 .349 .107 .028 .006 .001 
1 .387 .269 .121 .04 .01 .002 
2 .194 .302 .234 .121 .044 .01 .002 
3 .057 .201 .267 .215 .117 .043 .009 .001 
4 .011 .088 .2 .251 .205 .111 .036 .005 
5 .002 .027 .103 .201 .246 .201 .103 .027 .002 
6 .005 .036 .111 .205 .251 .2 .088 .011 
7 .001 .009 .043 .117 .215 .267 .201 .057 
8 .002 .01 .044 .121 .234 .302 .194 
9 .002 .01 .04 .121 .269 .387 
10 .001 .006 .028 .107 .349 
1 1 1 1 1 1 1 1 1 
Estimador de máxima 
verossimilhança 
Razão de Verossimilhança 
• Corresponde a quantas vezes um determinado valor é mais 
plausível que outro. 
 
 
• Exemplo: π=0,7 ou π=0,5 
 
 
 
0,7 | 7 0,267
2,28
0,5 | 7 0,117
L x
L x


 
 
 
3) Inferência Bayesiana 
• O Teorema de Bayes transforma a crença prévia (distribuição a 
priori, prevalência antes do teste, risco inical) através da 
verossimilhança (dados, resultado do teste) em uma crença 
posterior (distribuição a posteriori, prevalência após resultado do 
teste). 
• Vamos considerar o mesmo caso do remédio experimental. 
• Mas temos 6 médicos com crenças prévias na eficiência do remédio 
• Temos uma distribuição a priori a eficiência (π) do remédio 
• A verossimilhança seria a experiência onde 7 de 10 ficaram curados 
• Com isto a distribuição a posteriori da eficiência (π) do remédio é: 
π Priori-p() Verossimilhança Priori x verossimilhança Posteriori p(/y=7) 
0,4 1/6 = 0,167 0,043 0,167 X 0,043 = 0,007 0,007/,163 = 0,043 
0,5 2/6 = 0,333 0,117 0,333 X 0,117 = 0,039 0,039/,163 = 0,239 
0,6 2/6 = 0,333 0,215 0,333 X 0,215 = 0,072 0,072/,163 = 0,442 
0,7 1/6 = 0,1670,267 0,167 X 0,267 = 0,045 0,045/,163 = 0,276 
total 1, N,A 0,163 1, 
Estimador de 
máxima 
probabilidade 
posterior 
Eficiência (π) Nº de médicos P(π) 
0,4 1 1/6 
0,5 2 2/6 
0,6 2 2/6 
0,7 1 1/6 
Algumas reflexões 
 
1)Exemplo de interpretação incorreta do valor-p 
 
A verificação da falta de entendimento do significado do Valor-P, 
tem sido testado em turmas de pós-graduação de Medicina e 
Engenharia usando os seguintes questionários de Diamond e 
Forrester e Freeman respectivamente. 
Questionário 1 – (Diamond e Forrester) 
 
O que você concluiria se um experimento clínico bem planejado, 
realizado para verificar o efeito de um certo tratamento, resultou em 
uma resposta benéfica (p < 0,05)? 
 
a. de acordo com este resultado, as chances são menos de 5% de que 
a terapia não tem efeito; 
 
b. as chances são menos de 5% em obter este resultado se a terapia 
não tem feito; 
 
c. as chances são menos de 5% de não ter obtido esse resultado se a 
terapia tem efeito; 
 
d. nenhum acima. 
Questionário 2 – (Freeman) 
 
Um experimento controlado, realizado para determinar a eficácia de 
um novo tratamento que o mesmo é significativamente melhor que 
placebo (p< 0,05). Qual das seguintes afirmações você prefere? 
 
a. foi aprovado que o tratamento foi melhor que placebo; 
 
b. se o tratamento não tem efeito, há menos de 5% de chance de se 
obter tal resultado; 
 
c. o efeito observado do tratamento é tão grande que há menos de 5% 
de chance do tratamento não seria melhor que placebo; 
 
d. realmente não sei o que é valor – p e não quero adivinhar. 
A conclusão obtida com as aplicações destes questionários a alunos de 
pós-graduação de engenharia e medicina e com presença de alguns 
estatísticos coincide com as dos autores. 
A resposta correta em ambos é b) mas em geral mais de 50% das 
pessoas respondem incorretamente e todos tem dificuldades de 
distinguir a diferença entre as escolhas. 
 
Em um curso de doutorado em medicina apliquei estes questionários 
em alunos que já haviam feito pelo menos um curso de estatística e 
um curso de analise crítica de artigos médicos com analises 
estatísticas. Foi desconcertante verificar que nenhum dos 18 
participantes respondeu corretamente. 
 
Uma coisa a ser pensada é :porque ensinar e dar tanta importância a 
algo que confunde tanto? 
2) Alguns mal entendidos 
 
Significância 
Eu suponho que e nossa falsa realidade e não devíamos nos apropriar da palavra 
“significância”. Ela parece boa, importante, muito desejável pela fraternidade médica. 
Se os pioneiros da estatística tivessem chamado de “improbabilidade“ eu duvido que 
teríamos os problemas de interpretação que temos hoje. 
(Dr Fisher, 2004) 
 
Comparação com valores críticos tabelados foi arbitrário, embora razoável nos anos 
1930, quando os testes estatísticos tinham que ser trabalhosamente tabelados. 
Asteriscos também datam de uma época que a mais avançada tecnologia em um 
escritório era a máquina de escrever. 
E o destino dos gurus (no caso Sir Ronald Fisher) que o que ele vê como uma opção 
conveniente porém arbitrária vire uma lei escrita na pedra. É uma filosofia a ser 
abandonada. 
(Allan Reese, 2004) 
Nenhum modelo é melhor que os dados na qual ele se baseia. 
(Piantadosi,1997) 
 
Quando não rejeitamos uma hipótese, na realidade o que ocorre e que 
a amostra não e suficientemente grande para rejeitar a mesma. Se 
aumentarmos o número de observações rejeitamos qualquer 
hipótese. 
 
Todo modelo é errado, alguns são úteis. (G.E.P. Box, 1979) 
 
Quando realizamos um ensaio clínico e testamos o tratamento A 
contra o tratamento B, é claro que sempre encontraremos diferença 
estatísticamente significante (basta ter um número grande de 
pacientes), já que os agentes em A e B são diferentes. O importante é 
saber se a diferença observada e Clinicamente Significante e não que é 
estatisticamente significante (para isto basta aumentar o tamanho da 
amostra) 
 
Eu não sei de nenhuma disciplina além da Estatística na qual seja uma 
recomendação positiva para um novo livro (ou mesmo um curso) e a 
ser mencionado na capa, que o mesmo não foi escrito por um 
especialista. Algum leitor médico, alguma editora médica, algum 
estudante de medicina assistiria minha nova introdução a cirurgia do 
cérebro – muito mais simples e muito mais claro do que aquelas 
escritas por neuro-cirurgiões profissionais, com aquelas quantidades 
de detalhes confusos? 
Eu acredito (e espero) que não. 
(M.J.R Healy, 1991) 
 
O pesquisador que buscar aconselhamento já com os dados coletados 
e o experimento realizado, em geral só obterá um atestado de óbito do 
ensaio. Nenhuma análise estatística sofisticada vai remediar uma 
coleta mal planejada. Isto é, o trabalho do estatístico começa bem 
antes da investigação se iniciar. 
Eu acho altamente indesejável enviar estatísticos juniores sozinhos 
para um departamento cheio de médicos renomados. Eles precisam 
aprender antes trabalhando com outros estatísticos seniores para 
ganhar experiência. Só assim eles aprendem que ajuda podem melhor 
oferecer. 
(Dr Fisher, 2004) 
 
Experiência não se aprende, se adquire. 
 
Estatísticos juniores devem ensinar cursos avançados e estatísticos 
seniores devem ensinar cursos introdutórios, porque se os estudantes 
começam mal eles não serão capazes de avançar. 
(Sir David Cox, 2004) 
 
 
 
 Outra dificuldade para sedimentar o mercado é o fato de na 
maioria dos lugares não existir estatísticos seniors. .... Muito 
dos problemas de convencimento dos pesquisadores 
(médicos) em aceitar as suas sugestões ( do estatístico)não é 
do conhecimento técnico, mas sim o de autoridade . (Wilton 
Bussad ) 
Conclusão: 
 
Existe uma velha piada sobre quatro irmãos, com idades de 4, 5, 6 e 18 anos, 
que viram da janela um homem e uma mulher nus em uma cama. 
 
O garoto de 4 anos: Vejam aquele homem e aquela mulher! Eles estão 
lutando. 
O garoto de 5 anos: Bobo, eles estão fazendo sexo. 
O garoto de 6 anos: Sim, mas muito mal. 
O jovem de 18 anos: Concorda, e estava preocupado com seu casamento 
próximo 
 
O garoto de 4 anos não sabia nada sobre sexo. O de 5 anos tinha chegado a 
um entendimento conceitual, e o de 6 anos sabia suficientemente bem sobre 
sexo (provavelmente sem ter experimentado), para ser um observador critico. 
O objetivo desta interação é tornar alguns (Clínicos) em um Estatístico de 6 
anos e outros (Epidemiologistas) em um Estatístico de 18 anos. 
Bioestatístico ou Epidemiologista - Alguém que não acredita que 
Colombo descobriu a América porque ele disse que estava procurando 
a Índia no ensaio original. 
 
Significância Estatística - O oposto do Iraque : todo mundo quer ir lá, 
mas ninguém está certo como. 
 
Ensaio Clinico - Um experimento que qualquer tolo pode planejar e 
freqüentemente planeja. 
 
Bayesiano - aquele que esperava vagamente um cavalo (priori), dando 
uma rápida olhada em um burro (verossimilhança), conclui fortemente 
que viu uma mula (posteriori). 
CAPÍTULO 2 
OBSERVAÇÕES E PROBABILIDADE 
Tipos de observações
Modelos Probabilísticos 
 
1. Introdução 
 
 A concepção atual de ciência é de aprendizado sobre um fenômeno em estudo 
através de: 
1. observação 
2. construção de um modelo para explicar ou descrever as observações 
3. usar o modelo para predizer observações futuras (o comportamento futuro do 
fenômeno). Se as observações futuras não estão de acordo com as predições, o modelo 
deve ser modificado. 
 
 Os modelos podem ser descritos de forma conceitual (em linguagem corrente), 
física (protótipo, maquete) ou matemática. A escolha em utilizar um desses tipos de 
modelos é do cientista.Nada impede que o modelo seja descrito verbalmente ou usando 
um protótipo. A desvantagem é que a forma verbal não teria a precisão necessária no 
raciocínio dedutivo e o uso de um protótipo é cara, pesada, perigosa, etc. 
 Por outro lado a matemática é uma linguagem mais precisa e ao mesmo tempo 
de grande generalidade. Podemos dizer que a matemática é a linguagem da ciência e a 
evidência que se tem na ciência, é que de acordo com o desenvolvimento do assunto o 
mesmo se torna cada vez mais matemático. 
 Em ciência nem tudo é conhecido com certeza absoluta, a razão é que para 
muitas coisas da realidade, estamos ainda ignorantes. Isto não significa que não temos 
informação, porém nos leva a aceitação do acaso ou aleatoriedade e a utilização de 
modelos probabilísticos. Tais modelos além de representar as regularidades da natureza 
através de uma componente determinística representa a incerteza através de uma 
componente probabilística. 
 O epidemiologista utiliza esse tipo de modelo para verificar a ocorrência ou não 
de certos eventos na história natural da doença. 
 A medida de incerteza nos modelos é dada pela noção de probabilidades, cujas 
definições são: 
 
Definições de Probabilidade 
 
• Clássica 
possíveiscasosdenúmero
favoráveiscasosdenúmerop = 
Exemplo: P (nascer de sexo masculino) = 
2
1 = 0,5 
 
• Frequentista – p é o valor que parece se estabilizar a freqüência de um evento 
quando o número de realizações do experimento aumenta. 
Exemplo: P (nascer de sexo masculino) = 0,51 ou 0,52 na grande maioria de populações 
observadas. 
 
• Subjetiva – p é baseado na informação que você tem sobre o evento. 
Exemplo: P (habitante ser do sexo feminino) em uma cidade que você atuará como 
médico e você tem a informação de grande emigração de homens em busca de trabalho. 
Exemplo: P (de um novo paciente em seu consultório vir a tratar da hipófise). 
 
 Se você é endocrinologista famoso no tratamento de hipófise, sua avaliação 
desta probabilidade será diferente da prevalença na população geral. 
 Cada definição é aplicada em diferentes contextos. 
2. Modelo Binário 
 
 Suponha um estudo que acompanhou um grupo de pessoas por um período, para 
estudar a mortalidade por uma causa específica (exemplo: câncer). Temos três 
possibilidades: M – morte pela causa específica, S – sobrevida e C – censura (morte por 
outra causa ou abandono do estudo). 
 Suponha П1 = P(M), probabilidade de morte, П2 = P(C), probabilidade de 
censura e 1 – П1 – П2 = P(S), probabilidade de sobrevida e/ou sobrevivência. 
M
C
П1
П2
1 – П1 – П2 S
 
 Se não houver censura temos o modelo binário 
M
П
1 – П 
S 
 Uma importante alternativa para representar o modelo binário é através dos odds 
ou razão de chances de morte contra sobrevida 
Π−
Π=Ω
1
 ou invertendo Ω+
Ω=Π
1
 
 Observe que se a doença é rara, isto é, a probabilidade П é pequena 
Π≈Ω 
Exemplos: 
Se P(M) = 0,75 3
25,0
75,0 ==Ω 
Se P(M) = 0,50 1
50,0
50,0 ==Ω 
Se P(M) = 0,25 333,0
75,0
25,0 ==Ω 
Se P(M) = 0,003 003,0003009,0
997,0
003,0 ≈==Ω 
Se Ω = 0,3 23,0
3,01
3,0 =+=Ω 
Se Ω = 3 75,0
4
3 ==Ω 
Se Ω = 0,003 003,000299,0
003,01
003,0 ≈=+=Ω 
 As seguintes propriedades são observadas: 
I) 10 ≤≤ p
II) P(evento certo) = 1 = P(M ou S ou C) 
III) P(M ou C) = P(M) + P(C) = П1 + П2 se os eventos são mutuamente exclusivos 
 
3. Estimação de Parâmetros 
 
 Sem o valor de П o modelo não serve para predição. Nosso problema mais 
interessante é usar os dados para estimar П. 
 Parece óbvio, que se estudarmos N indivíduos por um período de tempo e M 
morrem e N – M sobrevivem uma estimativa П será 
N
M e a Ω por 
MN
M
− . Além disso 
teremos mais confiança nas estimativas se N = 1000 do que se N = 10. 
4. O Modelo é Verdadeiro? 
 
 É óbvio que um modelo que supõe que um grupo de pacientes tem a mesma 
probabilidade de morte, independente, de por exemplo, sexo, idade, condição de vida, 
etc. não representa verdadeiramente o fenômeno. 
 Na verdade devemos perguntar se o modelo é útil. 
 Na realidade: “Todos os modelos são errados porém alguns são úteis”. 
 
5. Probabilidade Condicional 
 
 As probabilidades de morte por câncer podem ser melhor preditas, se soubermos 
os hábitos de fumo dos indivíduos. Se as probabilidades são 0,015 para fumantes e 
0,005 para não fumantes chamamos estas probabilidades de condicionais. 
 As causas ou eventos que alteram as probabilidades são chamados exposições. 
 Podemos representar as probabilidades condicionais às classificações: exposto 
(E+) e não exposto (E-) pela árvore. 
 
E+
E-
0,4 
0,6 
M – 0,006
S – 0,394
0,015 
0,985 
M – 0,003
0,005
0,995 S – 0,597 
 Estamos supondo as probabilidades nos ramos conhecidos. As probabilidades 
das combinações de exposição (E+, E-) e resultado (M, S) são obtidos por multiplicação 
e a notação é 
P(E+ e M) = P(E+) P(M/E+) = 0,4 x 0,015 = 0,006 
P(E+ e S) = P(E+) P(S/E+) = 0,4 x 0,985 = 0,394 
P(E- e M) = P(E-) P(M/E-) = 0,6 x 0,005 = 0,003 
P(E- e S) = P(E-) P(S/E-) = 0,6 x 0,995 = 0,597 
 A probabilidade de morte é (independente da exposição) 
0,009 = 0,006 + 0,003 = P(E+ e M) + P(E- e M) = P(M) 
 A probabilidade de não exposição é P(E-) = 0,6. 
 A probabilidade de sobreviver é 0,597 + 0,394 = 0,991. 
 A probabilidade de E- ou S é 
P(E- ou S) = P(E-) + P(S) – P(E- e S) = 0,6 + 0,991 – 0,597 = 0,994 
 Temos então mais as propriedades: 
IV) P(E e M) = P(E) P(M/E) (Lei da Multiplicação) 
V) P(E ou S) = P(E) + P(S) – P(E e S) se os eventos podem ocorrer juntos, isto é, 
não são mutuamente exclusivos (Lei de Adição) 
 
6. Independência Estatística 
 
 No caso anterior a probabilidade de morte difere de acordo com exposição ou 
não ao fumo. 
 Se a probabilidade de morte é a mesma se o indivíduo é exposto ou não aquele 
fator, dizemos que a morte e o fator de exposição são estatisticamente independentes. 
 Por exemplo, morte por câncer e cor dos cabelos (louro, preto) teríamos 
L 
P 
0,3 
0,7 
M – 0,0027
S – 0,2973 
0,009 
0,991 
M – 0,0063
S – 0,6937
0,009
0,991 
 
 Observe que: 
0,0027 = P(L e M) = P(L) P(M/L) = P(L) P(M/P) = P(L) P(M) 
 Analogamente 
P(L e S) = P(L) P(S/L) = P(L) P(S) 
P(P e M) = P(P) P(M/P) = P(P) P(M) 
P(P e S) = P(P) P(S/P) = P(P) P(S) 
 Logo a propriedade 
VI) Se L e M são eventos independentes 
P(L e M) = P(L) P(M) 
P(M/L) = P(M) 
P(L/M) = P(L) 
 
 
7. Mudando o Condicionamento: Regra de Bayes 
 A aplicação das propriedades anteriores permite mudar a direção das predições. 
Por exemplo, um modelo para a probabilidade de morte dado exposição, pode ser 
transformado em um modelo para a probabilidade de exposição dado morte. 
M 
S 
0,009 
0,991 
0,006 
0,003 
(1) 
(2) 
0,394 
(3) 
(4) 
0,597 
 
 Os ramos são obtidos por: 
 
(1) 
)/()()/()(
)/()(
667,0
009,0
006,0
)()(
)(
)(
)()/(
−−++
++
−+
++
+
+=
===+==
EMPEPEMPEP
EMPEP
MeEPMeEP
MeEP
MP
MeEPMEP
 
Isto é, com os dados da árvore (modelo) condicionada em E+ e E- calculamos os dados 
da árvore (modelo) condicionado em M e S. 
 Analogamente, para os outros ramos obtemos 
 
(2) 33,0
009,0
003,0 = (3) 3976,0
991,0
394,0 = (4) 6024,0
991,0
597,0 = 
 
Regra de Bayes 
 
 Se E+ e E- são eventos mutuamente exclusivos e exaustivos e M pode 
ocorrer com os E isto é M = (M e E+) ou (M e E-) 
 
−+=+= −−++
,,
)/()()/()(
)/()()/( i
EMPEPEMPEP
EMPEPMEP iii 
 
8. Construção de Tabelas de Vida ou Curva de Sobrevivência 
 
a) Seqüência de modelos bináriosConsidere o exemplo de um estudo durante 3 anos e as mortes em cada ano 
0,3 M
 
P(M no 1° ano) = 0,3 
P(M no 2° ano) = 0,7 x 0,2 = 0,14 
P(M no 3° ano) = 0,7 x 0,8 x 0,1 = 0,056 
P(5 aos 3 anos) = 0,7 x 0,8 x 0,9 = 0,504 
 As probabilidades acumuladas de sobrevida são: 
0,9 
3 2 1 
S 0,7 
0,2 M
S 0,8 
0,1 M
S 
P(S ao 1° ano) = 0,7 
P(S ao 2° ano) = 0,7 x 0,8 
P(S ao 3° ano) = 0,7 x 0,8 x 0,9 
b) Estimando as probabilidades condicionais de morte 
 
 Suponha que 100 indivíduos são acompanhados por 3 anos e que ocorreram 10 
mortes no primeiro ano, 15 mortes no segundo ano e 8 mortes no terceiro ano, 
sobrevivendo 67 ao fim de 3 anos. 
67 
M
S 
10 
90 
M
S 
15 
75 
M8 
S 
 
 As probabilidades condicionais de morte são 
75
8,
90
15,
100
10 
 A probabilidade acumulada de sobrevida 
P(S no 1° ano) = 
100
90 
P(S no 2° ano) = 
90
75
100
90
100
75 = 
P(S no 3° ano) = 
75
67
90
75
100
90
100
67 = 
 
c) Tabela de vida com censura 
 Neste caso supomos que os indivíduos censurados saíram uniformemente 
durante o ano ou equivalentemente permaneceram até o meio do ano. 
 A tabela a seguir considera a sobrevida de um grupo de mulheres com câncer no 
cérvix diagnosticado como estágio I (M – morte, C – censura, N – população sob risco). 
Ano N M C 
2
C 
2
' CNN −= S(t) 
1 110 5 5 2,5 107,5 0,9535 
2 100 7 7 3,5 96,5 0,9275 
3 86 7 7 3,5 82,5 0,9152 
4 72 3 8 4,0 68,0 0,9559 
 
0,9152 
M
S 
0,0465 
0,9535 
M
S 
0,0725 
0,9275 
M
S 
0,0848
0,9559 
M0,0441
S 
d) Tempo de morte e censura exatos. Estimativa de Kaplan – Méier 
 Se conhecemos os tempos de morte e de censura exatos, não é necessário supor 
que as censuras ocorrem continuamente no intervalo. 
 Probabilidade Condicional 
Mês N M C M S 
Probabilidade Acumulada de 
Sobrevivência 
0 50 2 - 04,0
50
2 = 0,96 0,96 
1 48 1 - 0208,0
48
1 = 0,9792 0,96 x 0,9792 = 0,94 
2 47 2 - 0426,0
47
2 = 0,9574 0,94 x 0,9574 = 0,90 
3 45 1 1 0222,0
45
1 = 0,9778 0,90 x 0,9778 = 0,88 
8 43 1 - 0233,0
43
1 = 0,9767 0,80 x 0,9767 = 0,86 
 
Distribuições de Variáveis Aleatórias 
 
1. Variáveis Aleatórias 
 
 Em geral os eventos que observamos se apresentam numericamente ou pelo 
menos podemos representá-los assim. Por exemplo no modelo binário poderíamos 
associar: 
M → 1 
S → 0 
 A esses valores numéricos chamamos variáveis aleatórias que podem ser 
discretas ou contínuas. 
 As leis de probabilidade relativas a esses valores numéricos são associadas tendo 
em vista: 
 
i. o conhecimento da estrutura do fenômeno e portanto o que é razoável supor no caso; e 
ii. escolhendo um modelo que melhor se ajusta aos dados observados sobre o fenômeno. 
 
2. Histogramas e Funções de Densidade 
 
 Consideremos a tabela abaixo com a distribuição das famílias dos EUA pelo seu 
tamanho. 
Tamanho (n° de pessoas) % 
2 33,6 
3 20,2 
4 19,3 
5 12,8 
6 7,1 
7 ou mais 7,0 
TOTAL 100,0 
 
 Uma tabela de freqüência (relativa) fornece o número (a percentagem) de 
indivíduos em cada categoria ou intervalo da variável. 
 Um histograma é um gráfico construído de uma tabela de freqüência (relativa). 
 Por convenção o histograma é construído de tal forma que a frequência relativa 
de cada classe corresponda a área do retângulo correspondente aquela classe. 
 
 Se ∏i é a frequência relativa (estimative da probabilidade) e fi é a altura do 
retângulo e ∆i o comprimento da base temos 
∏i = fi ∆i (área) 
 Como ∏i e ∆i são conhecidos, calculamos 
i
i
if ∆
Π= 
 A altura fi é conhecida como densidade de probabilidade. 
 Se ∆i = 1 então fi = ∏i , que ocorre quando as variáveis são discretas, neste caso 
chamamos fi simplesmente distribuição de probabilidades. 
 Frequentemente, a forma do histograma fica mais fácil de visualizar unindo os 
pontos médios no alto dos retângulos, criando os polígonos de freqüência ou de 
probabilidades. 
3. Estatísticas de Resumo 
 
 É claro que as tabelas de freqüências e histogramas são resumos de protocolos 
obtidos de levantamentos de todas as unidades, ou de uma amostra. 
 Podemos ainda querer resumir ainda mais os dados através de algumas 
estatísticas descritivas ou de resumo. Algumas delas são: 
i. M – max, o maior valor observado; 
ii. m – min, o menos valor observado; 
iii. M0 – moda, o valor mais observado, isto é, com maior freqüência; 
iv. Q2 = Md – mediana, o valor que separa as observações em duas partes iguais, metade 
menor que Md e metade maior que Md; 
v. Q1 – primeiro quartil, o valor que separa as observações em duas partes, um quarto 
menor que Q1 e três quartos maior que Q1; 
vi. Q3 – terceiro quartil, o valor que separa as observações em duas partes, três quartos 
menor que Q3 e um quarto maior que Q3; 
vii. X – média amostral ou empírica: 
∑
=
=
N
i
iXN
X
1
1 ; 
viii. S2 – variância amostral ou empírica e S – desvio padrão 
( )∑
=
−=
N
i
i XXN
S
1
22 1 e 2SDPS == ; 
ix. R – amplitude total 
R = M – m; e 
x. RI – amplitude interquartilica 
RI = Q3 – Q1
 Note, por exemplo, que M0, Md e X são medidas de posição ou locação, 
enquanto S2 e R são medidas de variação. 
 Diversas outras medidas de variação e forma podem ser construídas a partir 
destas medidas básicas, inclusive gráficos com o Box-Plot: 
 
M
Q3
Md
Q1
m
 
 Vamos nos concentrar apenas na média e variância. 
 
4. Funções de Densidades Teóricas 
 
 Vimos que o histograma resume as observações sobre um fenômeno (processo 
gerador dos dados). 
 Vamos agora descrever algumas funções de densidade com pequeno número de 
parâmetros que possam representar adequadamente os dados. Isto é, vamos criar um 
catálogo de funções e suas propriedades e que possam adequadamente representar 
nossos dados e seja um candidato a representar o processo gerador dos dados. Ou ainda, 
desejamos uma curva que seja próxima do polígono de freqüência. 
 Observe que a média e a variância empíricas terão correspondentes teóricos 
nestas curvas. 
5. Distribuições para Contagem 
 
i. Distribuição Uniforme 
 É uma distribuição em que 
Ii
Ii
,,1,1 Κ==Π 
Exemplo: Número de crianças nascidas com certa doença em cada mês. 
MÊS NÚMERO 
Janeiro 8 
Fevereiro 19 
Março 11 
Abril 12 
Maio 16 
Junho 8 
Julho 7 
Agosto 5 
Setembro 8 
Outubro 3 
Novembro 8 
Dezembro 8 
TOTAL 113 
 
 
 
ii. Distribuição Binomial 
( ) ( ) nyppp
y
n
pyf i
yy
i
iii
ii ,,1,0101, Κ=≤≤−⎟⎟⎠
⎞
⎜⎜⎝
⎛==Π 
a. média = np variância = np (1-p) 
b. Estrutura 
 Fixamos n experimentos e verificamos o número y de sucessos onde a 
probabilidade de sucesso é constante e igual a p em cada realização do experimento e os 
experimentos são independentes. 
Exemplo: Supondo que a probabilidade de nascimento do sexo masculino, e que as 
probabilidades de nascimento de cada sexo em uma família é constante (dúvida?). 
 Para famílias de tamanho 12 as probabilidades de nascimento do sexo masculino 
serão 
( ) 12,,1,0
2
1
2
112 12 Κ=⎟⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛⎟⎟⎠
⎞
⎜⎜⎝
⎛=Π
−
y
y
y
yy
 
 Observou-se 6115 famílias de tamanho 12 na Saxonia obtendo-se p 0,519 e as 
figuras abaixo (a qualidade do ajustamento deve ser julgado!!). 
≈
 
iv. Distribuição Geométrica ou de tempo de espera 
( ) ( ) Κ,1,0101, 1 =≤≤−==Π − iyii yppppyf i 
a. média = 
p
p−1 variância = 21p
p− 
b. Estrutura: 
 É o número de experimentos até a ocorrência do primeiro sucesso, onde a 
probabilidade de sucesso é constante em cada realização e as realizações sãoindependentes entre si. 
 É uma distribuição sem memória, isto é, como as probabilidades são constantes 
não importa quantos experimentos (tempo) já se realizaram. Como as probabilidades 
constantes não importa quantos experimentos (tempo) já se realizaram. 
Exemplo: Número de dias que um hospital leva até ocupar todos os leitos disponíveis. 
Dias de Espera Frquência % Geométrica p = 0,658 
0 678 0,671 0,658 
1 227 0,225 0,225 
2 56 0,055 0,077 
3 28 0,028 0,026 
4 8 0,008 0,009 
5+ 14 0,014 0,005 
 
p = 0,658 519,0=X 
 
iii. Distribuição de Poisson 
( ) Κ,1,0
!
, ===Π
−
i
i
y
iii yy
eyf
iλλ
λ
 
a. média = λ variância = λ 
b. Estrutura: 
 Ocorre nas condições da binomial com n muito grande e p muito pequeno, isto é, 
a distribuição de probabilidades de eventos raros. Alternativamente é a probabilidade de 
ocorrência de eventos aleatoriamente distribuídos em intervalos de tempo ou espaço. 
Exemplo: Número de pacientes que chegam a dois hospitais I e II para operação de 
coração. 
NÚMERO DE DIAS NÚMERO DE 
PACIENTES I II 
0 13 31 
1 31 90 
2 40 30 
3 31 12 
4 18 4 
5 ou mais 22 4 
TOTAL 155 182 
Média 2,56 1,23 
Variância 2,63 1,25 
 
 Como as médias e variâncias empíricas são iguais em cada hospital a 
distribuição de Poisson deve ser adequada. 
 
6. Distribuições de Variáveis Contínuas 
i. Distribuição Normal 
( ) ( ) ∞<<∞−∆=∆=Π −− yeyf iyiii i µσπσσµ 22
1
2
2
2
1,, 
a. média = µ variância = 2σ
b. Estrutura: 
 Ocorre para fenômenos causados pela soma de um número grande de fatores, 
cada um com aproximadamente a mesma importância, e independência entre eles 
(Teorema Central do Limite). 
 
 
Exemplo: Número de horas para se recuperar de uma operação. 
Hours Students Multinomial Normal Residual 
5-9 3 0,115 0,105 0,159 
10-14 8 0,308 0,198 1,260 
15-19 6 0,231 0,250 -0,199 
20-24 5 0,192 0,213 -0,233 
25-29 1 0,038 0,123 -1,225 
30-34 2 0,077 0,047 0,691 
35-39 0 0,000 0,012 -0,567 
40-44 1 0,038 0,002 3,974 
 
 
ii. Distribuição Log Normal 
( ) ( ) 0
2
1,,
2
2 log2
1
2
2 ≥∆∆=Π −− ye
y
yf i
y
iii
i µσ
πσσµ 
a. média = 2
2σµ+
e variância = ( )1222 −+ σσµ ee 
b. Estrutura: 
 A variável log(y) tem distribuição normal. Ocorre para fenômenos causados pelo 
produto de um número grande de fatores cada um com aproximadamente a mesma 
importância e independência entre eles. 
 
 
Hours Students Multinomial Log Normal Residual 
5-9 3 0,115 0,134 0,262 
10-14 8 0,308 0,300 0,070 
15-19 6 0,231 0,248 -0,179 
20-24 5 0,192 0,151 0,547 
25-29 1 0,038 0,082 -0,769 
30-34 2 0,077 0,042 0,859 
35-39 0 0,000 0,022 -0,752 
40-44 1 0,038 0,011 1,310 
 
 
iii. Distribuição Exponencial 
( ) 0, >∆=∆=Π − yeyf iyiii iλλλ 
a. média = λ
1 variância = 2
1
λ 
b. Estrutura: 
 É uma distribuição sem memória. Útil para tempo de vida onde não há 
envelhecimento. 
 
 
Exemplo: Duração em dias entre desastres em mina de carvão no Reino Unido. 
diasX 4,213= 
Days Disasters Multinominal Exponential 
0-20 28 0,147 0,089 
20-40 20 0,105 0,081 
40-60 17 0,089 0,074 
60-80 11 0,058 0,068 
80-100 14 0,074 0,061 
100-120 6 0,032 0,056 
120-140 13 0,068 0,051 
140-200 17 0,089 0,127 
200-260 16 0,084 0,096 
260-320 11 0,058 0,072 
320-380 13 0,068 0,055 
380-440 3 0,016 0,041 
440-500 4 0,021 0,031 
>500 17 0,089 0,098 
 
 
 
 
 
 
 
 
 
1851-1891 1891-1962 Time Disasters Multi. Exp. Disasters Multi. Exp. 
0-20 22 0,176 0,157 6 0,092 0,049 
20-40 17 0,136 0,132 3 0,046 0,047 
40-60 13 0,104 0,111 4 0,062 0,044 
60-80 8 0,064 0,094 3 0,046 0,042 
80-100 14 0,112 0,079 0 0,000 0,040 
100-120 6 0,048 0,067 0 0,000 0,038 
120-140 9 0,072 0,056 4 0,062 0,036 
140-200 12 0,096 0,120 5 0,077 0,098 
200-260 11 0,088 0,072 5 0,077 0,085 
260-320 4 0,032 0,043 7 0,108 0,073 
320-380 4 0,032 0,026 9 0,138 0,063 
380-440 2 0,016 0,015 1 0,015 0,054 
440-500 0 0,000 0,009 4 0,062 0,046 
>500 2 0,016 0,018 15 0,231 0,286 
 
001 >≥>∆= + δααδα
α
ii
i
y
y
 
 
( )
( ) ( )
( )
( ) dadeespecificiaprevalênciVPN
testedodenegativida
dadeespecificiaprevalênciVPN
adesensibilidaprevalêncidadeespecificiaprevalênci
dadeespecificiaprevalênciVPN
×−∝
×−=
−×+×−
×−=
1
1
11
1
 
Em termos de inferência as expressões em destaque se traduzem como: 
Posteriori ∝ priori ×verossimilhança 
Isto é, o teorema de Bayes transforma a crença a priori (distribuição a priori, prevalência 
antes do teste) através da verossimilhança (dados, resultado do teste) em crença a 
posteriori (distribuição a posteriori, prevalência após resultado do teste). 
 Consideramos o problema da seção anterior em que tínhamos 10 pacientes para 
receber a droga A. Suponha que as crenças a priori (antes de aplicar a droga) sobre a 
eficácia - π fossem: 
 
Distribuição a priori de π : 
π 0,4 0,5 0,6 0,7 
P(π ) 1/6 2/6 2/6 1/6 
 
 Após aplicar a droga verificamos que 7 pacientes ficaram curados. Com os 
valores da tabela e a fórmula para as posteriores os cálculos das crenças a posteriores 
pode ser vistas na tabela a seguir. 
Cálculos Bayesianos 
π Priori-p(π ) Verossimilhança Priori x Verossimilhança Posteriori p(π /y=7) 
0,4 1/6 = 0,167 0,043 0,007 0,007/0,163 = 0,043 
0,5 2/6 = 0,333 0,117 0,039 0,039/0,163 = 0,239 
0,6 2/6 = 0,333 0,215 0,072 0,072/0,163 = 0,442 
0,7 1/6 = 0,167 0,267 0,045 0,045/0,163 = 0,276 
- 1,000 - 0,163 1,000 
 
 Vemos então como a informação a priori é modificada pela informação dos 
dados, y = 7, tendo havido um deslocamento da distribuição a posteriori, para a direita, 
em relação a distribuição a priori. 
 Uma estimativa Bayesiana (de máxima probabilidade a posteriori) seria = 0,6, 
que contrasta com o estimador clássico, neste caso = 7/10 = 0,7. 
^π
^π
 A hipótese H0: π = 0,4 seria rejeitada, pois tem probabilidade a posteriori muito 
baixa: p(π = 0,4/y = 7) = 0,043. 
 Em geral, se (y1,...,yn) são observações independentes de uma densidade de 
probabilidade f(y/θ ), onde θ é um parâmetro com valores contínuos e g(θ ) é a função 
de densidade a priori de θ , a regra de Bayes fornece 
f(θ /y) ∝ g(θ ) f(y/θ ), 
que servirá de base para inferências sobre θ . Por exemplo Estimadores Bayesianos, 
Intervalos Bayesianos e Testes Bayesianos são obtidos a partir da densidade a posteriori 
que resume a informação dos dados e as informações a priori. 
CAPÍTULO 3 
INFERÊNCIA ESTATÍSTICA 
FREQUENTISTA OU CLÁSSICA 
Estimação
Estimação: conjunto de procedimentos que permitem obter dos
dados uma aproximação (bem como uma medida da qualidade da
aproximação) para uma quantidade de interesse cujo valor é
desconhecido, denominado parâmetro e denotado genericamente por
θ.
Estimação
• Estatística é qualquer função dos dados amostrais. Se for  utilizada 
como aproximação de um valor desconhecido é chamada 
estimador.
• O valor numérico do estimador obtido de uma amostra é chamado 
de estimativa. 
• No problema do epidemiologista consideramos os estimadores   ee
e em e as suas estimativas 512 e 559 .
Distribuição amostral
Se retirarmos diversas amostras de mesmo tamanho de uma
população, para cada amostra teremos um valor para o estimador.
Esses valores têm uma média, variância, mediana, etc. e uma
distribuição.
O desvio padrão desses valores chama‐se Erro Padrão (da Estimativa)
e a sua distribuição chama‐se Distribuição Amostral (do Estimador).
No problema do epidemiologista, a distribuição das 
caras e coroas é uma distribuição amostral .
Para ilustrar, considere-se o caso da média. A 
Figura 1 apresenta a distribuição amostral da média 
amostral , para n = 2, n = 5 e n = 10 
de diferentespopulações. Observe que para n = 10 a 
distribuição de assemelha-se à distribuição normal, 
ilustrando um forte efeito do Teorema Central do 
Limite, que prova que se espera obter uma 
distribuição normal sempre que a variação nos dados 
for devida a soma de efeitos independentes e que 
nenhum deles é predominante.
∑=
=
n
1i
i/nX X
Figura – Histogramas correspondentes à
distribuição amostral de para algumas
populações
Propriedades dos estimadores
• não viciado ou não tendencioso ;
• preciso ou de pequena variação;
• consistente
• eficiente.
Não tendencioso 
e impreciso
Tendencioso 
e impreciso
Tendencioso 
e preciso
Não tendencioso 
e preciso
Estimador Não Tendencioso
• Também chamado de não viciado
• Fornece uma estimativa em torno do valor verdadeiro do 
parâmetro, sem uma tendência de erro em uma direção especifica. 
Estimador Preciso
• Quando a estimativa tem  uma pequena variação
• Ou seja tem um pequeno erro padrão
Estimador Consistente
• O estimador é consistente quando suas estimativas se aproximam 
do valor verdadeiro que se quer estimar, à medida que a amostra 
cresce.
Estimador Eficiente
• Quando comparamos dois estimadores não tendenciosos
• Um é dito mais eficiente que outro quando seu erro padrão for
menor que o erro padrão do outro
Exemplo
• Considere a amostra da altura de 25 pacientes retirados de uma
população com altura média de 1,7 m e 4 cm de variância:
• {1,67; 1,62; 1,74; 1,68; 1,63; 1,70; 1,64; 1,63; 1,65; 1,75; 1,72; 1,64;
1,66; 1,68; 1,71; 1,68; 1,71; 1,64; 1,72; 1,64; 1,74; 1,72; 1,69; 1,69;
1,65}
Estimador
• Neste caso
•É um estimador preciso pois
com erro padrão de:
•Note que o estimador é consistente pois quanto maior o N
menor o EP
Testes Estatísticos
Apresentamos a seguir alguns comentários  ,que achamos 
importantes e nem sempre são bem explicitados em livros textos 
Testes Estatístico 
Basicamente em um teste estatístico supomos que a hipótese (a 
ser testada ) é verdadeira e obtemos a probabilidade  (valor‐p) 
da amostra selecionada . Se esta probabilidade é pequena , 
temos duas possibilidades : a) A hipótese é verdadeira e fomos 
muito azarados e tiramos uma amostra muito estranha , ou b) A 
hipótese não é verdadeira . Obviamente a segunda alternativa é 
mais razoável.  
Portanto o valor‐p não é a probabilidade da hipótese ser 
verdadeira P( H verdadeira ) mas sim a improbabilidade da 
mesma isto é P(Amostra observada supondo a hipótese 
verdadeira). 
Logo se os  fundadores das estatística frequentista ou clássica 
(Sir Ronald Fisher,Jersy Neyman e Egon Pearson) tivessem 
chamado o valor pequeno desta probabilidade de 
“improbabilidade”  em vez de “significante” , ele seria muito 
menos mal interpretado. 
Outro detalhe a esclarecer, é o costume,  quase um tabu de se 
fixar o valo‐p em 0.05 (5%) para definir pequeno ou grande , sem 
levar em conta o problema especifico.   
Como exemplo , não se entraria em um avião se a probabilidade 
de acidente for grande 0.051 (5,1)  , mas entraríamos no avião se 
esta probabilidade for 0.049 (4.9%).  
Sir Ronald Fisher sugeriu este valor numa época, anos 1920,  em 
que a ferramenta mais moderna em um laboratório era uma 
maquina de escrever 
Intervalos de confiança  
Na estatística clássica para um intervalo de confiança supomos 
que se tirássemos um numero grande de amostras de mesmo 
tamanho n e para cada amostra calculássemos um intervalo, por 
exemplo de 95% de confiança para um parâmetro desconhecido 
( p. ex.  a média ), 95% destes intervalos conteriam o o 
parâmetro desconhecido .  
Como observamos apenas uma amostra seriamos muito 
azarados de ter tirado uma amostra entre as 5% que não contem 
o parâmetro. Logo é mais razoável supor ou termos confiança 
que tiramos uma entre as 95% amostras que contém o 
parâmetro.  
Observe que 95% não é a  Pr{parâmetro estar no intervalo}  mas 
sim a confiança que temos do intervalo conter o parâmetro.  
 
Relação entre testes e intervalos  
Vemos então que testes e intervalos de confiança são 
relacionados, podemos dizer que um é o dual ao outro. Um 
intervalo de confiança contém todos os valores do parâmetro 
que seriam aceitos em um teste. 
Finalmente  segundo Sr David Cox , devemos distinguir Teste de 
Significância (Sir Ronald Fisher ) que somente considera  a 
hipótese sob teste  ao passo que Teste de Hipótese (Neyman‐
Pearson)  considera  não só hipótese sob teste mas também uma 
hipótese alternativa.  
 
9 Hipótese nula
Exemplo:
H0: não há diferença entre tratamentos
¾ Teste de hipóteses 
9 Hipótese alternativa
Exemplo:
H1: há diferença entre tratamentos
9 Critério de decisão estatística de teste
¾ Teste de hipóteses 
9 Estatística de teste mede a 
discrepância entre os valores amostrais 
observados e os esperados caso H0 fosse 
verdadeira.
9 Uma grande distância medida pela 
distribuição de probabilidade indica que H0
não é verdadeira, devendo ser rejeitada.
¾ Respostas dicotômicas: amostras independentes
9 Teste Z para comparação de proporções
9 Estatística de teste:
 
( ) ( )
2
22
1
11
21
ˆ1ˆˆ1ˆ
ˆˆ
n
pp
n
pp
pp
Z −+−
−= 
( ) ⎟⎟⎠
⎞
⎜⎜⎝
⎛ +−
−=
21
21*
11ˆ1ˆ
ˆˆ
nn
pp
pp
Zou
 pˆ é a prob. estimada de sucesso nas duas amostras
combinadas
 
21
21ˆ
nn
mmp +
+=
n1 e n2 é o tamanho de cada amostra
m1 e m2 é o nº de sucessos em cada amostra
9 Ex: Comparação de drogas contra náusea
¾ Respostas dicotômicas: amostras independentes
grupo 1 n1 = 200 marinheiros pílula A
grupo 2 n2 = 200 marinheiros pílula B
grupo 1 m1 = 152 marinheiros não enjoaram
grupo 2 m2 = 132 marinheiros não enjoaram
9 H0: Não há diferença entre as pílulas A e B
ƒ A eficácia das pílulas A e B é a mesma?
9 Ex: Comparação de drogas contra náusea
¾ Respostas dicotômicas: amostras independentes
1ª Estatística de teste:
Valor-p: P(Z > 2,22) = 1 – P(Z ≤ 2,22) = 1 – 0,9868 = 0,0132
Proporções estimadas:
 
76,0
200
152ˆ 1 ==p
 
66,0
200
132ˆ 2 ==p
 
71,0
200200
132152ˆ =+
+=p
 
( ) ( ) ( ) ( ) 22,2
200
66,0166,0
200
76,0176,0
66,076,0
ˆ1ˆˆ1ˆ
ˆˆ
2
22
1
11
21 =−+−
−=−+−
−=
n
pp
n
pp
ppZ
9 Ex: Comparação de drogas contra náusea
¾ Respostas dicotômicas: amostras independentes
2ª Estatística de teste:
 
( ) ( )
20,2
200
1
200
171,0171,0
66,076,0
11ˆ1ˆ
ˆˆ
21
21* =
⎟⎠
⎞⎜⎝
⎛ +−
−=
⎟⎟⎠
⎞
⎜⎜⎝
⎛ +−
−=
nn
pp
ppZ
Proporções estimadas:
 
76,0
200
152ˆ 1 ==p
 
66,0
200
132ˆ 2 ==p
 
71,0
200200
132152ˆ =+
+=p
Valor-p: P(Z > 2,20) = 1 – P(Z ≤ 2,20) = 1 – 0,9861 = 0,0139
9 Rejeita-se H0 a um nível de significância de 5% e 
conclui-se que as pílulas A e B possuem eficácias 
diferentes 
Exemplos para precauções ao usar um teste de hipóteses: 
1) Suponha que separamos dois grupos de pessoas , um 
grupo A com 3 homens e o grupo B com 2 homens e 1 
mulher . Após dois anos nasce um filho no grupo B 
(paternidade não definida !!!!). 
Testes  estatísticos de diferença de proporções como visto 
acima aplicados a esses dados aceitariam as hipóteses  
i) Não há diferença de proporções quanto ao sexo no
grupos A e B 
s 
m isso que mulher não é necessária para 
rocriação? 
de em lançar bola ao 
 
basketball e assinar contrato com a NBA nos EUA. 
ii) Não há diferença de fertilidade nos dois grupos A e 
B  
Conclui‐se  co
p
 
2) Eu e Michael Jordan lançamos 7 bolas ao cesto. Eu 
acertei 3 lances , Michael Jordan acertou os 7 lances . 
Aplicando um teste estatístico como visto acima conclui‐
se que não há diferença de habilida
cesto entre Eu e Michael Jordan .  
Portanto finalizo aquiminha aula para me dedicar ao
 
CAPÍTULO 4 
MODELOS ESTATÍSTICOS 
E APLICAÇÕES 
Modelos Lineares Tradicionais 
 Acronym 
Linear Models LM 
Multivariate LMs MLM 
Generalized LMs GLM 
Linear Mixed Models LMM 
Non-linear Models NLM 
Non-linear Mixed Models NLMM 
Generalized LMMs GLMM 
Generalized Additive Ms GAM 
Modelos de Regressão Usuais em Medicina 
Regressão Linear (- < Y < ) Y = 0 + 1X1 + 2X2 +  
Regressão Logística (Y=0 ou 1) log[P(Y =1)/P(Y =0)] = 0 + 1X1 + 2X2 
Regressão de Cox (Taxa de risco: 0 < λ(t) < ) log[λ(t)] = log(λ0)+ 1X1 + 2X2 
Covariável
Estimativa do 
Coeficiente
Erro 
Padrão
Estatística 
de Teste
P-valor
(Intercepto 0) 3,088 0,132 23,316 <0,0000001
Idade -0,016 0,003 -5,758 <0,0000001
Sexo -0,254 0,083 -3,054 0,002
Fumante -0,206 0,102 -2,012 0,044
PSA -0,169 0,078 -2,175 0,030
Regressão de Poisson (Taxa de risco: 0 < λ < ) log[λ] = 0 + 1X1 + 2X2 
Estatísticas de teste: t –student (regressão linear) e para 
amostras grandes z-normal (Wald ) ou 2 (razão de verossimilhança) 
Modelos Lineares Iterativos Generalizados -
GLIM 
Componente Aleatório: distribuição f(y:) com média de Y=  
Componente Sistemático: 0 + 1X1 + 2X2 
Função de Ligação: g() = 0 + 1X1 + 2X2 
OBS.: Os resultados são obtidos como na tabela das regressões usuais 
Modelos Aditivos Generalizados - GAM 
Este modelo generaliza o modelo GLIM modificando a componente 
sistemática, que passa a ser não paramétrica, com a forma 
Função de Ligação: g() = 0 + f1(X1) + f2(X2) 
E agora no lugar de estimativa de coeficientes teremos funções das 
covariáveis , funções estas estimadas não parametricamente. 
Mínimos Quadrados 
𝑆 = 𝑟𝑖
2
𝑛
1=1
 
𝑟𝑖 = 𝑦𝑖 − 𝑓 𝑥𝑖 , 𝛽 
𝑓 𝑥, 𝛽 = 𝛽0 + 𝛽1𝑥 
Ridge Regression e Elastic Net 
𝛽 𝑟𝑖𝑑𝑔𝑒 = arg min
𝛽
𝑦 − 𝑋𝛽 2
2 + 𝜆 𝛽 2
2 
𝛽 𝑙𝑎𝑠𝑠𝑜 = arg min
𝛽
𝑦 − 𝑋𝛽 2
2 + 𝜆 𝛽 1 
Isto é, minimiza a soma dos erros ao quadrado sujeito a 
 
Lasso 
𝛽 𝑒𝑛𝑒𝑡 = 1 +
𝜆2
𝑛
arg min
𝛽
𝑦 − 𝑋𝛽 2
2 + 𝜆2 𝛽 2
2 +𝜆1 𝛽 1 
• Mínimos quadrados obtém estimadores de Beta que minimizem 
 
• Ridge Regression é útil quando há multicolinearidade entre as covariáveis 
• Lasso é útil na escolha de variáveis 
• Elastic Net é útil para colinearidade, escolha de variáveis e se aplica se p > n 
𝑆 = 𝑟𝑖
2
𝑛
1=1
 
Support Vector Machine (SVM): 
definição e vantagens 
• Treinamento da SVM: consiste na seleção de um hiperplano que 
minimize o risco estrutural, a partir da resolução de um problema 
convexo quadrático (PCQ). 
 
• Esta técnica de aprendizado, quando associada à função núcleo, 
permite a construção de classificadores não-lineares, através do 
mapeamento dos dados iniciais em um espaço de dimensão superior 
ao original. 
 
• Boa generalização, ou seja, uma boa capacidade de predizer 
corretamente o desfecho de indivíduos não utilizados na amostra de 
treinamento. 
 
• Técnica classificatória de elevado poder distintivo, de custo 
computacional relativamente baixo e de fácil implementação. 
H(x)=a0+a
Tx=
0 
Hiperplano 
separador 
 
Vetor suporte 
 
Vetor 
suporte 
 
Margem 
funcional 
 
Vetor 
suporte 
 
 Retas separadoras : a) Pequena margem b) Grande margem. 
• O classificador linear em um espaço de 
dimensão superior corresponderá a um 
classificador não-linear no espaço original. 
 
• Teorema da Separabilidade de Cover: 
• Um problema de difícil classificação é mais provável de ser 
linearmente separável em um espaço de dimensões mais 
elevadas. 
 
x
x
x
o
o
o
xxxx
xxxx ooo xxx
• Se o problema for separável os vetores de suporte são obtidos a 
partir de um problema de otimizaçao do tipo 
, 
 Max 
2||w||
1
 
St. 
01)( bwxy ii
, 
• Se o problema não for separável os vetores de suporte são obtidos 
utilizando uma função (núcleo) para trabalharmos em um espaço 
de maior dimensão e os vetores de suporte são obtidos de um 
problema de otimização do tipo Max 



l
i
jijiji
l
i
i xxyyaaa
11
)()(
2
1  
 St. 
,,...,1,0 liai 
 and 



l
i
ii ya
1
0
, 
As funções núcleo: 
 
• Vantagens: 
Evita a maldição da dimensionalidade; 
Reduz o custo computacional. 
 
• Consequência: 
Torna os problemas tratáveis, mesmo quando se 
trabalha em espaço de dimensões elevadas. 
Modelos de Classificação e Regressão: CART 
Redes Neurais Artificiais 
APLICAÇÕES 
Regressão de Poisson 
1 – Modelo Linear Iterativo Generalizado 
Pereira et al., 2010a 
Regressão de Poisson 
distribuição f(y:) com média de Y = λ 
 
link: log[λ] = 0 + 1X1 + 2X2 
2 – Modelo Linear Iterativo Generalizado 
Modelo Log-linear 
Distribuição multivariada y=(fa, fb ...), 
f(y:) multinomial com média i=npi para cada variável fi
 link: log(f)=λa + λb + λc+ λab + λac..... 
Terzi et al., 2010 
MSc Maria Beatriz Altschüller (Medicina) 
3 – Modelo Linear Iterativo Generalizado 
Objetivo 
 Avaliar a relação entre as presenças de: disfunção do nódulo 
sinusal, pelo teste Holter, disfunção ventricular, pelo 
ecocardiograma, e anticorpos agonistas muscarínicos no soro. 
 
Método 
 69 pacientes chagásicos crônicos, em vários estádios da 
doença 
 Modelo Log-linear 
Modelo Log-linear 
 
IC 
 
DV 
 
DNS 
 
ECG 
 
AcM2 
 
idade 
Representação gráfica das relações entre as variáveis pelo teste qui-quadrado. Linhas cheias 
representam os valores de p <0,05, as tracejadas os valores de p ≥0,05 e ≤0,10 e as pontilhadas 
os valores de p >0,10 e <0,16. 
 
AcM2: anticorpos com ação agonita de receptores muscarínicos M2; DNS: disfunção do nódulo sinusal; ECG: 
eletrocardiograma alterado; DV: disfunção ventricular; IC: insuficiência cardíaca. 
 
sexo 
Fonte: SDM/ HUCFF (2003-2005) 
Tabela 2x2 
Modelo log linear Distribuição multivariada y=(fa, fb ...), 
f(y:) multinomial com média i=npi para cada variável fi
 link: log(f)=λa + λb + λc+ λab + λac..... 
 
AcM2 DNS DV IC 
ECG 
λ=1,3 λ=1,5 
 
λ=1,9 
λ=1,5 
• Interdependência entre a disfunção nodal e a ventricular (p=0,0005; 
λDNS:DV=1,5) e entre a disfunção nodal e os anticorpos (p=0,002; 
λAcM2:DNS=1,3) 
• Não houve relação entre os anticorpos e a disfunção ventricular. 
• Sexo e idade não tiveram influência sobre as outras variáveis. 
AcM2: anticorpo com ação agonista de receptores muscarínicos M2; DNS: disfunção do nódulo sinusal, DV: disfunção ventricular, ECG: eletrocardiograma 
alterado, IC: clínica de insuficiência cardíaca. 
 
Fonte: SDM/ HUCFF (2003-2005) 
4 – Regressão de Cox 
Objetivo 
 Investigar a associação entre o tempo de sobrevida e as 
variáveis explicativas: sexo, idade, tipo sanguíneo, imc, 
etiologia da doença, câncer de fígado, MELD 
 
Método 
 529 pacientes acompanhados de nov/1977 a jul/2006 
 Regressão de Cox 
Nascimento et al., 2012 
Taxa de risco: 0 < λ(t) <  
 
log[λ(t)] = log(λ0)+ 1X1 + 2X2 
Regressão de Cox 
5 – LASSO 
Objetivo 
 Analisar os fatores prognósticos para sobrevivência e recorrência 
do CHC em pacientes portadores de infecção crônica pelo VHC 
submetidos a transplante hepático no Hospital Universitário 
ClementinoFraga Filho, no período de 1998 a 2008. 
Método 
 174 pacientes com cirrose hepática submetidos a transplante 
 selecionados 76 casos de pacientes que apresentaram CHC nas 
análises dos fígados explantados 
MSc Raphael Iglesias O. Vidal (Medicina) 
6 – Árvore de Regressão 
Dados 
 Dados diários de qualidade do ar em NY medidos de maio a 
setembro/1973 (Chambers et al., 1983). 
Variáveis 
 Ozone: Mean ozone in parts per billion from 1300 to 1500 hours at 
Roosevelt Island 
 Solar.R: Solar radiation in Langleys in the frequency band 4000–7700 
Angstroms from 0800 to 1200 hours at Central Park 
 Wind: Average wind speed in miles per hour at 0700 and 1000 hours at 
LaGuardia Airport 
 Temp: Maximum daily temperature in degrees Fahrenheit at La Guardia 
Airport. 
7 – Árvore de Classificação 
Landesmann et al., 2011 
8 – Árvore de Sobrevida 
Nascimento et al., 2012 
9 – Redes Neurais Artificiais – Multilayer Perceptron 
Objetivo 
 Investigar a associação entre a poluição atmosférica e condições 
climáticas no número de internações hospitalares, por motivo de 
bronquiolite infantil. 
 Uso das redes neurais MLP para reproduzir a análise de WILLEMS et al. 
(2005, apud Nascimento, 2006), que utilizaram os modelos aditivos 
generalizados. 
 
Método 
 419 pacientes acompanhados de 1977 a 2000, em 34 hospitais de Paris 
 12 variáveis climáticas e 5 de poluição atmosférica 
MSc Emilia M. Nascimento (Pesquisa Operacional) 
Análise de relevância 
10 – Redes Neurais Artificiais – Self-Organizing Map 
Objetivo 
Reconhecimento de padrões em dados de emissão de raios gama. 
Pereira et al., 2010b 
11 – Máquinas de vetores suporte 
 
Objetivo 
Predição do risco de morte por síndrome coronariana aguda 
usando a ferramenta SVM, que consiste de uma máquina de 
aprendizado criada a partir de três corpos teóricos: 
• teoria de generalização, 
• núcleo, 
• e teoria de otimização. 
Proposição de critérios alternativos para a seleção das variáveis. 
MSc Rodrigo A. Collazo (Pesquisa Operacional) 
Método 
Dados provenientes da Tese de Doutorado de REIS (2007); 
Os dados foram coletados a partir de um estudo de coorte 
prospectivo, com pacientes internados com SCA, no município 
de Niterói, RJ; 
A coleta das informações foi feita no período entre julho/agosto 
de 2004 e junho/julho de 2005; 
Pacientes internados em cinco hospitais, sendo três públicos e 
dois privados; 
Condições: idade superior a 20 anos e não apresentar: sinais de 
doenças neoplásicas em fase terminal, politraumatismos e 
demência. 
 Amostra: 25 variáveis agrupadas em 6 categorias: 
 
• variáveis antropométricas, sociais e hábitos de vida: idade, índice 
de massa corporal (IMC), sexo, escolaridade, atividade física (AF), 
tabagismo; 
• variáveis de história prévia cardiovascular: infarto do miocárdio 
prévio (IMP), qualquer revascularização prévia (QRP), história 
familiar de doença arterial coronariana (DAC); 
• variáveis clínicas e laboratoriais na admissão hospitalar: tipo de 
síndrome coronariana aguda (SCA), tempo para 1º atendimento 
médico (1ºAM), frequência cardíaca (FC), Classe Killip, creatinina; 
• variáveis de diagnóstico: hipertensão arterial sistólica (HAS), 
colesterol elevado, triglicerídios elevados, colesterol-HDL baixo; 
• variáveis genéticas: 7 alelos de 3 polimorfismos; 
• variável de desfecho. 
Quatro critérios para seleção de variáveis: o critério 
desenvolvido em 2008 por CHEN et al. e três 
modificações de Collazo (2009): 
 
• Critério CZCL; 
 
• Critério CZCL Adaptado; 
 
• Critério CZCL Dual; 
 
• Critério CZCL Adaptado Dual. 
Seleção de variáveis: comparação entre os critérios 
Ordem CZCL CZCL Adaptado CZCL Dual CZCL Adap. Dual MIFS-U 
1 QRP QRP Creatinina Creatinina Idade 
2 Alelo E3 HAS FC FC QRP 
3 1ºAM 1ºAM Idade Killip Creatinina 
4 Alelo E2 Alelo I HDL Idade IMC 
5 Infarto Prévio Infarto Prévio Tabagismo Alelo E3 Genótipo DD 
6 HAS AF Escolaridade Alelo D Genótipo E4E4 
Seleção de Variáveis e Previsão do Desfecho 
Variáveis ν escala a (%) e (%) s (%) 
Creatinina, QRP, Idade 0.16 0.3 97.5 98.3 87.5 
Creatinina, QRP, Idade, HAS 0.16 0.6 97.7 98.6 87.5 
Creatinina, QRP, Idade, FC 0.16 0.1 96.1 97.6 79.3 
Creatinina, QRP, Idade, HAS, 
FC 
0.16 0.3 96.4 97.9 79.3 
Creatinina, QRP, Idade, 1ºAM 0.17 0.5 70.4 70 75 
Creatinina, QRP, Idade, HAS, 
1ºAM 
0.15 0.6 79.8 81.1 64.3 
Creatinina, QRP, Idade 
(Reis, 2007) 
- - 70.7 69.8 78.3 
O conjunto de variáveis que apresentou o melhor 
desempenho foi o mesmo encontrado por REIS (2007), 
que usou redes neurais e um critério de informação na 
escolha de variáveis. 
O resultado foi a construção de um classificador que 
superou o desempenho da RNA feedforward construída 
sobre o mesmo banco de dados e apresentada em REIS 
(2007) 
Referências 
Altman, D. G. e Bland J. M. – 1991- Improving doctor’s understanding of statistics. (with discussion). 
Journal of the Royal Statistical Society A, 154, 223-267. 
Altschüller, M.B.C.M.-2006-Prevalência de Anticorpos IgG com Ação Agonista Muscarínica em Pacientes 
Chagásicos Crônicos Portadores de Disfunção do Nódulo Sinusal com e sem Disfunção Ventricular. 
Dissertação de Mestrado em Medicina (Cardiologia), FM/UFRJ. 
Box, G. E. P.- 1979- Robustness in the strategy of scientific model building. In R.L. Launer and G.N. 
Wilkinson. (eds.) Robustness in Statistics, Academic Press. 
Breiman ,L-2001-Statistical Modeling: The two cultures (with discussion), Statistical Sciences ,16(3),199-231 
Bussab, W.- 2004- Entrevista ao Boletim da ABE 58, AnoXX,14-20. 
Chambers, J. M., Cleveland, W. S., Kleiner, B. and Tukey, P. A. -1983 - Graphical Methods for Data Analysis. 
Belmont, CA: Wadsworth. 
Clayton D, Hills,M-1993-Statistical Models in Epidemiology. Oxford Univ. Press. 
Collazo, R.A -2009- Aplicação de “Support Vector Machines” à Classificação do Risco de Morte de Pacientes 
com Síndrome Coronariana Aguda. Dissertação de Mestrado (Pesquisa Operacional), COPPE/UFRJ 
Cox,D.R.– 2004 – The accidental statistician. Significance ,1, 27-29. 
Diamond GA, Forrester JS-1983- Clinical trials and statistical verdicts: probable grounds for appeal. ANN. 
Inter. Med. ,98, 385-394 
Dr. Fisher – 2004- Dr Fisher casebook, Significance,1, 26.(editoriais de Significance) 
Freeman PR- 1993-The role of p-value in analyzing trials results (with discussion) Stat Med ,12,1443-1458 
Healy, M.J.R.- 1979- Does medical Statistics exist? Bulletin Applied Statistics, 6, 137-183 
Hoffman,P. e Grinstein, G. – 1997- Visualizations for high dimensional data mining- table visualizations 
(http://home.concast.net/~patrick.hoffman/viz/MIV-data mining.pdf) 
Landesmann, M. C. P., Fonseca, L. M. B., Pereira, B.B., Nascimento, E.M., Rosado-de-Castro, P. H., Souza, S. 
A. L., Lima, R. S. L., Pedrosa, R.C. -2011- Iodine-123 Metaiodobenzylguanidine Cardiac Imaging as a Method 
to Detect Early Sympathetic Neuronal Dysfunction in Chagasic Patients With Normal or Borderline 
Electrocardiogram and Preserved Ventricular Function. Clinical Nuclear Medicine. , v.36, p.757 - 761. 
Lindsey,JK-1995- Introductory Statistics : A Modelling Approach. Oxford Sc.Publ. 
 
Nascimento, EM-2006-Redes Neurais Artificiais: Uma Aplicação no Estudo da Poluição Atmosférica e seus 
Efeitos Adversos à Saúde, Dissertação de Mestrado (Pesquisa Operacional), COPPE/UFRJ. 
Nascimento, EM-2010- Tópicos em Aprendizado Estatístico na Pesquisa Clinica. Tese de Doutorado 
(Pesquisa Operacional). COPPE/UFRJ 
Nascimento, E.M., Pereira, B.B., Seixas, J. M. -2009- Redes Neurais Artificiais: Uma Aplicação no Estudo da

Outros materiais

Materiais relacionados

Perguntas relacionadas

Materiais recentes

Perguntas Recentes