Estatistica usado o R
224 pág.

Estatistica usado o R


DisciplinaBioestatística I4.653 materiais34.961 seguidores
Pré-visualização50 páginas
calcular uma área abaixo da curva de densidade (fdp) que tenha 95% de toda
a massa de probabilidade. O que sobrar será a nossa área de rejeição... Mas será que isso é
suficiente para o nosso veredicto, ou seja, para definir a nossa área de rejeição?
Não... Como você deve estar pensando, existem infinitas áreas com valor 0.95 sob a curva
de densidade de uma t99, não é verdade?. Veja a figura abaixo:
4
A área hachurada de todas essas curvas têm uma área de 0.95. Porém, a área da curva no
canto inferior direito tem uma outra característica que a fará ser a única dentre as infinitas áreas de
não rejeição que será usada no nosso julgamento. Alguém arrisca dizer que característica é essa?
Isso mesmo: a simetria das áreas de rejeição. Esta é a única área de não rejeição que
proporciona áreas de rejeição simétricas, ou seja, com área iguais (a 0.025 cada, no caso de um alfa
de 0.05). Como o nosso teste é bilateral, e nós não sabíamos a priori se a estatística seria maior ou
menor que o valor sob a hipótese nula, é justo que a massa de probabilidade destinada aos valores
menores que 100 fosse a mesma que a dos valores maiores que 100.
Aposto que agora surgiu uma nova dúvida... Estávamos felizes, falando de média igual a
100, 112, etc, e me aparecem umas curvas com valores de -4 a 4???!!! Não se desespere ainda...
Como já mencionei, se trata de uma distribuição t, e não faz sentido falarmos em médias que não
sejam iguais a zero \u2013 ao contrário da Normal, que pode assumir várias médias diferentes (afinal ela
é um dos seus parâmetros), a distribuição t tem sempre média zero.
Tudo bem, mas então como é que eu posso comparar alguma coisa com essa curva? Os
valores são muito diferentes... É aí que entra o famoso cálculo da estatística T, que você já deve ter
ouvido falar, e que vai ser na verdade parte do nosso processamento das evidências apresentadas.
Vamos recordar o seu cálculo:
T =
\ue097
x\u2212\ue0c20
s2/n
Repare que a obtenção do T envolve todas as evidências colhidas: a média amostral, a
variância da amostra e o tamanho da amostra. Essa conta pode ser feita facilmente no R:
(mean(pam.idosos)-100)/sqrt(var(pam.idosos)/100)
[1] 5.405571
5
-4 -2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
 Density function
X
Y
-4 -2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
 Density function
X
Y
-4 -2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
 Density function
X
Y
-4 -2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
 Density function
X
Y
Confira com o resultado obtido com o t.test() acima... Esse processo de obtenção do T é
equivalente à padronização que fazemos quando estamos trabalhando com a distribuição Normal
(lembra?) A única diferença é que em vez de usar a variância da população, estamos usando a da
amostra.
É claro que neste caso, com o gráfico (aquele inferior direito que calculamos acima) e com
esse valor, é possível de cara dar o veredicto de rejeitar a hipótese nula e condenar a média desta
sub-população a ser diferente da média da população geral, não é mesmo? Afinal 5.4 está bastante
distante dos cerca de 2 (valor no \u201colhômetro\u201d) para o limite da área de rejeição à direita do gráfico,
concorda? Vamos ver, só para conferir:
A seta ali à direita representa o 5.4. Ele está bastante na área de rejeição, não é mesmo? Mas
e se a nossa estatística T estivesse muito próxima do valor 2, por exemplo? Ficaria difícil ver no
olho se deveríamos condenar ou absolver a nossa média... Bem, existem duas maneiras de se
contornar este problema...
A primeira é calculando-se exatamente os valores críticos, que nada mais são do que os
limites do intervalo para o qual nós construímos a área de não rejeição. Ora, se a estatística
calculada cair dentro deste intervalo, ela estará na área de não rejeição e a nossa média será
6
-6 -4 -2 0 2 4 6
0.
0
0.
1
0.
2
0.
3
0.
4
 Density function
X
Y
absolvida. Se cair fora do intervalo, estará na área de rejeição e a média será condenada
(rejeitaremos a hipótese nula.)
O cálculo desse intervalo é fácil, e só depende na verdade da distribuição em questão e seus
parâmetros. Basta calcularmos dois quantis: o primeiro, que será o limite inferior desse intervalo,
que no nosso caso aqui será para uma t onde teremos uma área de 0.025, contando desde menos
infinito até este quantil. Isso nós já aprendemos a fazer no R, não é mesmo?
> qt(0.025, df=99)
[1] -1.984217
O limite superior deste intervalo é calculado para a mesma t99 para se obter uma área de
também 0.025 a partir desse valor até mais infinito. Claro que pela simetria da distribuição t
podemos também calcular o quantil que corresponde a uma área de 1 \u2013 0.025 = 0.975, indo de
menos infinito até esse valor. Bem para dizer a verdade não precisamos calcular nada, já que devido
à simetria em torno de zero este valor obrigatoriamente é igual ao valor acima, só que com sinal
positivo. Duvida? Então faça:
qt(0.025, df=99, lower.tail=F)
ou
qt(0.975, df=99)
A outra maneira de se fazer isso é calculando-se o famoso p-valor. Mas para facilitar as
nossas contas, vamos agora comparar a nossa população de idosos com uma média de 106 mmHg e
não mais com 100 mmHg como estávamos fazendo anteriormente. Veja bem que a nossa curva não
muda, ela continua sendo a mesma e o intervalo de (-1.98,1.98) ainda é o mesmo \u2013 eles não
dependem do valor que queremos testar. O nosso teste porém mudou:
H0: \ue0c2\u2212106=0
H1: \ue0c2\u2212106\u22600
Obviamente a nossa estatística T mudou, pois ela depende de \ue0c20 , que mudou agora.
Vamos fazer um novo teste t:
> t.test(pam.idosos, mu=106)
 One Sample t-test
data: pam.idosos 
t = 2.7646, df = 99, p-value = 0.006799
alternative hypothesis: true mean is not equal to 106 
95 percent confidence interval:
 107.7729 116.7887 
sample estimates:
mean of x 
 112.2808 
Repare que obviamente o IC 95% para a média amostral também não mudou. Aliás,
somente dois valores foram alterados: o valor da estatística T e justamente o p-valor. Como
funciona então o p-valor? É simples: o p-valor é a área sob a curva (nesse caso a t99) a partir do
quantil do mesmo valor da estatística T que foi calculada até mais infinito (para um T positivo), ou
a área de menos infinito até a estatística T, se ela for negativa. Como recaímos no primeiro caso,
vamos ver como fica:
7
p\u2212 valor=\u222b
T
\ue083\u221e
f \ue09e t\ue09f dt
Onde a f(t) é a fdp de uma t99. Vamos conferir no R, usando funções já conhecidas nossas:
> pt(2.7646, df=99, lower.tail=F)
[1] 0.003399186
Epa! Esse p-valor não é igual ao p-valor calculado no nosso teste t acima (0.006799)!!!! O
que está acontecendo aqui? Calma. O problema aqui é que nós estamos fazendo um teste bilateral,
lembra? Nós não sabíamos a priori se a média da amostra seria maior ou menor que o meu valor de
teste (você pode dizer que para este segundo caso, nós já sabíamos... bom, mas temos que fingir que
não sabíamos, ou estaríamos apresentando evidências para o nosso júri com informações
privilegiadas, o que não é justo...)
Quando estávamos construindo a nossa área de não rejeição, o fato de acharmos duas áreas
de rejeição simétricas fez sentido, para este teste bilateral, mas não dá para entender muito bem para
o caso do p-valor, Não é mesmo? É mesmo! Tanto que para calcular o p-valor para um teste
bilateral, usamos uma convenção, que é multiplicar o valor encontrado por 2 (o que na verdade
corresponde a calcular a integral para os intervalos simétricos e somar os dois valores.) Complicou?
Vamos ver devagar:
p\u2212 valor=2×\u222b
T
\ue083\u221e
f \ue09e t\ue09f dt =\u222b
T
\ue083\u221e
f \ue09e t\ue09f dt \ue083\u222b
\u2212\u221e
\u2212T
f \ue09e t\ue09f dt
Conferindo no R:
> 2*pt(2.7646, df=99, lower.tail=F)
[1] 0.006798372
> pt(2.7646, df=99, lower.tail=F)+pt(-2.7646, df=99)
[1] 0.006798372
Muito bem, conferindo com o valor obtido no teste t acima, o resultado bate. Mas afinal de
contas, qual é a interpretação desse p-valor? Não parece tão intuitivo quanto a nossa área de
rejeição... E de fato não é...
O que ele representa é a probabilidade de se selecionar uma amostra, cuja média amostral é
pelo menos \ue097x\u2212\ue0c20 (pode ser esta diferença ou uma diferença maior, mais para o lado do
infinito), se a verdadeira média da população