Estatistica usado o R
224 pág.

Estatistica usado o R


DisciplinaBioestatística I4.639 materiais34.907 seguidores
Pré-visualização50 páginas
usar o mesmo código, apenas calculando o módulo e diminuindo a correção:
z1<-(abs(dif)-corr)/sqrt(varian)
Conferindo como na letra (a):
> 2*pnorm(z1, lower.tail=F)
[1] 0.07015673
> pchisq(z1^2, df=1, lower.tail=F)
[1] 0.07015673
> z1^2
[1] 3.279350
(c) O que há de estranho nessa saída é que o IC não é concordante com o p-valor relatado
quando usamos a correção de continuidade: para um p-valor de 0.07, que não nos permitiria rejeitar
a hipótese nula, temos um IC 95% que não contém zero, ou seja, pelo IC nós poderíamos rejeitar
H0.
2. Por que o teste do Qui-quadrado para as k proporções não é recomendado para o nosso
exemplo da aula. Faça um teste que contorne esse problema.
Pelo motivo mais popular de todos: pelo menos um dos valores esperados para uma das
caselas foi menor que 5. Vamos ver:
> chisq.test(caesar.shoe)$expected
 <4 4 4.5 5 5.5 6+
Yes 2.695157 4.287749 5.145299 5.880342 6.615385 18.37607
No 19.304843 30.712251 36.854701 42.119658 47.384615 131.62393
Warning message: 
Chi-squared approximation may be incorrect in: chisq.test(caesar.shoe)
Isso necessita um teste exato: Fisher. Como tínhamos usado o exemplo caesar.shoe,
vamos aplicá-lo:
> fisher.test(caesar.shoe)
 Fisher's Exact Test for Count Data
data: caesar.shoe 
2
p-value = 0.05766
alternative hypothesis: two.sided 
Ainda assim não podemos rejeitar H0.
3. Explique o código usado para o cálculo do IC da OR pelo método de Woolf
O código é simplesmente a aplicação dos cálculos da OR e sua variância e estabelecimento
dos ICs. Vamos ver:
or.woolf <- function(x, alfa=0.05)
{
y<-c((x[1,1]*x[2,2])/(x[1,2]*x[2,1])) # Calculando a OR
z<-exp(log(y)+(c(-1,1)*qnorm(1-
(alfa/2))*sqrt((1/x[1,1])+(1/x[1,2])+(1/x[2,1])+(1/x[2,2])))) # Calculando o IC
round(c(&quot;OR&quot;=y, &quot;IC&quot;=z),3)
}
Primeiro a função é definida com 2 argumentos, um sem default, que é o x e outro com um
valor pré-estabelecido, alfa=0.05. Em seguida, o objeto y recebe o cálculo da razão dos produtos
cruzados (como está indicado, inclusive). Depois o objeto recebe aquela contaria toda para calcular
o IC. O interessante é que foi possível fazer tudo em um passo apenas, o que pode parecer confuso
inicialmente, mas foi possível criar apenas um objeto para isso. Repare que o último passo é
exponenciar o IC calculado para o log da OR. Finalmente, a saída é arredondada para 3 casas
decimais e o objeto ganha os nomes nas colunas \u201cOR\u201d e \u201cIC\u201d.
4. Volte ao exemplo do teste de Fisher. Calcule agora a OR e os ICs pelos métodos de Woolf
e Miettinen. Todos os resultados são coerentes uns com os outros? Discuta esses
resultados.
Essa questão acabou ficando com um peguinha por causa de um descuido na hora de criar a
função para calcular o IC pelo método de Miettinen. O problema é que para funcionar, você tem
que entrar só o corpo da tabela como fizemos para o teste de Fisher:
or.miett(tabela[1:2,1:2]) #certo
 OR IC1 IC2 
 6.750 0.855 53.318 
> or.miett(tabela) #ERRADO!!!
 OR IC1 IC2 
 6.750 1.243 36.667 
O primeiro é que está certo. Lembre-se que o IC de Miettinen tem sempre que concordar
com o teste do Qui-quadrado:
> chisq.test(tabela[1:2,1:2])
 Pearson's Chi-squared test with Yates' continuity correction
data: tabela[1:2, 1:2] 
X-squared = 3.2793, df = 1, p-value = 0.07016
No qual não rejeitamos H0. Logo o esse IC tem que conter o zero. Para o IC de Woolf, tanto
faz usar o corpo da tabela somente ou a tabela com as marginais:
> or.woolf(tabela[1:2,1:2])
 OR IC1 IC2 
 6.750 1.162 39.200 
3
> or.woolf(tabela)
 OR IC1 IC2 
 6.750 1.162 39.200 
Bem, mas o importante é notar como os intervalos são diferentes, e se compararmos com o
teste de Fisher, veremos que na verdade o IC de Miettinen é bem mais próximo do IC calculado
para o IC da OR de máxima verossimilhança condicional que o de Woolf. Além disso, e mais
importante, eles são coerentes, ou seja ambos apontam para não rejeição da hipótese nula. Vamos
conferir:
> fisher.test(tabela[1:2,1:2])
 Fisher's Exact Test for Count Data
data: tabela[1:2, 1:2] 
p-value = 0.04718
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.9006803 57.2549701 
sample estimates:
odds ratio 
 6.180528 
Na verdade, recentemente o método de Woolf vem sendo bastante criticado por causa da sua
instabilidade e falta de acurácia em algumas situações.
5. Usando a função power.prop.test() faça uma curva de poder para um experimento que
testa duas proporções quaisquer. Estabeleça o problema, o teste de hipóteses e discuta
diferentes tamanhos de amostra para o seu problema. Que sugestão você teria para
construir essa curva para um experimento que usasse apenas uma amostra?
Vamos testar se a freqüência alélica do alelo delta-32 do gene codificador do receptor CCR5
é diferente entre caucasianos e negros. Nosso teste de hipóteses seria:
H 0: p1= p2
H 0: p1\u2260 p2
Baseado na literatura, a diferença de proporções é bastante grande para esse problema, da
ordem de 20% para os caucasianos e 1% para os negros. Para manter tudo bem simples, vamos
admitir que a diferença que queremos é essa mesmo e vamos estudar apenas o poder que teremos
para tamanhos de amostra diferentes, mas vamos fazer ao contrário: fornecer o poder e ver o
tamanho necessário:
x<-seq(0.5,0.95,0.05)
tamanho<-0
for (i in 1:length(x))
tamanho[i]<-ceiling(power.prop.test(p1=0.2, p2=0.01, power=x[i])$n)
O resultado em é na verdade o tamanho em cada grupo. Podemos então fazer um gráfico,
multiplicando por 2 esse vetor:
> plot(tamanho*2,x, type=&quot;b&quot;)
> abline(h=0.85)
Veja o resultado abaixo:
4
Para conhecer exatamente o tamanho de amostra por grupo para termos 85% de poder:
> tamanho[x==&quot;0.85&quot;]
[1] 46
Esse tamanho de amostra parece bastante razoável para o nosso problema.
A sugestão para uma amostra, como não está implementado no R seria ou implementar ou
então usar simulações para calcular os poderes para diferentes tamanhos de amostra.
Do livro:
6. (7.2.) Em 747 casos de febre das Montanhas Rochosas, foram registrados 210 óbitos em
uma determinada região dos EUA. Em outra região, de 661 casos, 122 faleceram. A
diferença de letalidade da doença entre essas regiões é estatisticamente significante?
Aqui temos várias alternativas para testar. Primeiro pela proporção
> prop.test(c(210,122),c(747,661))
 2-sample test for equality of proportions with continuity
correction
data: c(210, 122) out of c(747, 661) 
X-squared = 17.612, df = 1, p-value = 2.709e-05
alternative hypothesis: two.sided 
95 percent confidence interval:
 0.05138139 0.14172994 
sample estimates:
 prop 1 prop 2 
0.2811245 0.1845688
Poderíamos criar uma tabelinha para usar o teste Qui-quadrado e Fishher também:
tabelinha<-matrix(c(210,122,747-210,661-122), nrow=2)
E agora podemos aplicar os testes:
5
> chisq.test(tabelinha)
 Pearson's Chi-squared test with Yates' continuity correction
data: tabelinha 
X-squared = 17.612, df = 1, p-value = 2.709e-05
> fisher.test(tabelinha)
 Fisher's Exact Test for Count Data
data: tabelinha 
p-value = 2.39e-05
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 1.331814 2.246053 
sample estimates:
odds ratio 
 1.727031 
Nesse caso, não há dúvida: todos os testes apontam para a rejeição de H0, portanto a
diferença das proporções é estatisticamente significante. Fique à vontade para aplicar as nossas
funções para OR também.
7. (7.3 ) Duas drogas foram testadas para úlcera péptica e comparadas quanto à sua
efetividade. Os resultados foram:
Curou Não curou Total
Pirenzepin
a 23 7 30
Tritiozina 18 13 31
Total 41 20 61
Estabeleça o teste de hipóteses para este experimento e faça um teste Qui-quadrado e
também o teste exato de Fisher sobre esses dados e discuta as diferenças entre eles. Baseie-se tanto
no p-valor quanto no IC 95%
Vamos criar a nossa tabela para esse problema
drogas<-matrix(c(23,18,7,13), nrow=2)
Agora podemos aplicar os