Estatistica usado o R
224 pág.

Estatistica usado o R


DisciplinaBioestatística I4.694 materiais34.997 seguidores
Pré-visualização50 páginas
ranks são na verdade distribuídas como uma variável aleatória discreta), por uma
distribuição contínua (a Normal), é necessário fazer uma correção para que o valor seja melhor
aproximado. Na verdade essa correção é bastante fácil de se fazer: basta nós acrescentarmos meia
unidade à diferença da média observada e da média teórica, sempre em direção à hipótese nula, i.e.
se a diferença for negativa, vamos somar 0.5; se for positiva, vamos diminuir 0.5. Como já vimos
que no nosso caso o z foi negativo, vamos somar:
> 2*pnorm((12-media+0.5)/sqrt(variancia))
[1] 0.002121613
Ufa! Chegamos ao resultado finalmente. Mas agora, alguém arrisca dizer como poderíamos
fazer esta conta dar certo com a correção de continuidade, mesmo sem sabermos se o z é positivo ou
negativo? Exercício à vista...
Teste t pareado
Testes pareados são empregados quando temos duas medidas em uma mesma unidade
experimental. Um exemplo seria a mensuração de uma certa característica antes e após uma
determinada intervenção, ou mesmo em dois períodos distintos no tempo, como o banco de dados
que já vimos de aporte energético no período pré- e pós-menstrual (intake).
A idéia do teste é simplesmente subtrair uma observação da outra em uma mesma unidade e
então tratar o teste como se fosse um teste t de amostra única, que já vimos anteriormente. Nesse
caso, obviamente estaremos usando menos graus de liberdade, pois o nosso tamanho de amostra
14
será o número de unidades experimentais, ou seja, o número de pares e não o número de
observações.
Existe porém um pré-requisito para a validade do teste que é a independência entre a
distribuição das diferenças e os seus níveis, ou seja, a distribuição das diferenças não pode ter
nenhum padrão definido em relação, por exemplo à média das observações dos pares. Aliás, um
método gráfico usado para verificar este fato é exatamente um gráfico de dispersão (scatter plot)
exatamente assim, conhecido como gráfico de Bland-Altman.
Vamos usar então o banco intake para esse nosso exemplo:
data(intake)
attach(intake)
Verifique o seu conteúdo e note que são as mesmas 11 observações que já tínhamos usado,
mas agora com as observações pareadas também.
Vamos começar verificando o gráfico de Bland-Altman 
diferenca <- post-pre
medias <- apply(intake,1,mean)
plot(diferenca,medias)
A distribuição parece estar bem aleatória, não sendo preciso nenhum tipo de transformação
desses dados para adequação. Para fazer esse teste no R, o código é bem parecido:
> t.test(post, pre, paired=T)
 Paired t-test
data: post and pre 
t = -11.9414, df = 10, p-value = 3.059e-07
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -1566.838 -1074.072 
sample estimates:
mean of the differences 
 -1320.455 
Não creio que seja necessário explicar essa saída, não é mesmo? Não tem nada de muito
diferente em relação aos outros tipos de teste t. Repare que os graus de liberdade nesse caso é igual
a 10 e não 20, como seria no caso de um teste t para duas amostras.
É sempre bom frisar que uma vez tendo observações pareadas, não podemos analisar esses
dados como se eles não fossem pareados. Isso porque uma das pré-suposições básicas do teste t
para duas amostras é que elas sejam independentes, o que obviamente não acontece no caso do teste
pareado. O que acontece nesta situação é um inflacionameto da variância da nossa estimativa com
uma conseqüente perda de poder do teste.
Vale a pena também mostrar que esse teste é exatamente igual a fazermos a diferença entre
as observações e aplicar um teste t para uma amostra, comparando com uma média igual a zero (se
a diferença em média for zero, não haveria diferença entre os grupos). Veja como ficaria:
> t.test(diferenca)
 One Sample t-test
data: diferenca 
t = -11.9414, df = 10, p-value = 3.059e-07
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -1566.838 -1074.072 
15
sample estimates:
mean of x 
-1320.455 
Teste de Wilcoxon pareado
O teste não paramétrico para observações pareadas também é igual a se aplicar o teste do
sinal do posto às diferenças, o mesmo caso do teste t que acabamos de ver. Os argumentos são
inclusive bem parecidos com o anterior. Veja:
> wilcox.test(post, pre, paired=T)
 Wilcoxon signed rank test with continuity correction
data: post and pre 
V = 0, p-value = 0.00384
alternative hypothesis: true mu is not equal to 0 
Warning message: 
Cannot compute exact p-value with ties in: wilcox.test.default(post, pre,
paired = T)
A única possível surpresa neste caso seria o fato de o p-valor ser bem mais alto que no caso
do teste paramétrico. Isso acontece porque como o teste t usa as médias de fato, a sua significância
pode ser muito grande, dependendo de quão grande é a diferença entre as médias. Já o teste não-
paramétrico é limitado, pois ele usa os ranks e não os valores mesmo. Por exemplo, esse p-valor
que foi calculado é o menor p-valor possível para esse tamanho de amostra, pois todas as diferenças
são negativas (veja que o V = 0). 
Repare que nesse caso, como no teste t pareado, o teste de Wilcoxon pareado se reduz
também a um teste a uma amostra das diferenças. Confira:
> wilcox.test(pre-post)
 Wilcoxon signed rank test with continuity correction
data: pre - post 
V = 66, p-value = 0.00384
alternative hypothesis: true mu is not equal to 0 
Warning message: 
Cannot compute exact p-value with ties in: wilcox.test.default(pre - post)
Poder e tamanho de amostra para testes t
Na aula passada, nós vimos como calcular o poder de um teste e também o tamanho de
amostras, usando o exemplo de um teste t para uma amostra, e através de métodos aproximados e
simulações (que como dissemos muitas vezes é o único recurso que temos para alguns casos.)
Comentamos então que existem sim métodos específicos para o teste t, mas que em geral usa-se a
aproximação pela Normal.
A idéia geral do poder já foi passada, e não entraremos em detalhes aqui sobre o que
significa cada uma dessas coisas, e procuraremos apenas mostras as funções disponíveis no R para
esse fim. Para dizer a verdade, nessa seção falaremos apenas da função power.t.test(), cujo
nome não deixa dúvidas sobre o que ela faz.
Como discutimos anteriormente, o poder de um teste depende basicamente de 4 fatores: o
tamanho da amostra, a diferença a ser detectada, a dispersão da população e o nível de significância
estabelecido (o nosso alfa). Obviamente, se nós estabelecermos 4 desses 5 fatores envolvidos, o
16
quinto pode ser calculado (reveja a função de poder que nós discutimos na aula passada.) É
exatamente isso que esta função faz. Dê uma olhada na sua ajuda:
?power.t.test
Repare que ela tem justamente esses 5 argumentos e mais dois que estabelecem que tipo de
teste t está sendo aplicado e se se trata de um teste uni ou bicaudal. Vamos ver então como ele
funciona, usando o mesmo exemplo que usamos na última aula. Tínhamos criado uma função para
calcular aproximadamente o tamanho de uma amostra, lembra?
tamanho.amostra <- function(alfa=0.05, poder=0.8, dif, var, bilateral=T)
{
if (bilateral){
zalfa<-qnorm(1-(alfa/2))
}else{
zalfa<-qnorm(1-alfa)
}
ceiling(((qnorm(poder)+zalfa)^2)*var/(dif^2))
}
E achamos o seguinte tamanho de amostra para esse problema:
> tamanho.amostra(alfa=0.05, poder=0.8, dif=10, var=625, bilateral=T)
[1] 50
Agora vamos conferir com a função que não usa a aproximação Normal:
> power.t.test(n=NULL, delta=10, sd=25, sig.level=0.05, power=0.8,
type=&quot;one.sample&quot;)
 One-sample t test power calculation 
 n = 51.00957
 delta = 10
 sd = 25
 sig.level = 0.05
 power = 0.8
 alternative = two.sided
A primeira coisa a ser notada é que tivemos que modificar um pouquinho as coisas aqui, já
que os argumentos desta função são diferentes dos da função que nós criamos anteriormente.
Repare que o argumento n ganhou o valor NULL, significando que eu quero achar esse valor (ele
poderia simplesmente se omitido