A maior rede de estudos do Brasil

Grátis
224 pág.
Estatistica usado o R

Pré-visualização | Página 22 de 50

IV V
0
20
0
40
0
60
0
80
0
Boxplot de IGF-I por Tanner
Classificação de Tanner
M F
0
20
0
40
0
60
0
80
0
Boxplot de IGF-I por Sexo
Sexo
Módulo Estatística I no R
Autor: Antonio Guilherme Fonseca Pacheco
Pré-requisitos: Conhecimento prévio do ambiente R. Especificamente, o leitor deve estar
familiarizado com os módulos “Básico”, “Entrada e Saída de Dados” e também “Manuseando
dados no R”.
Bibliotecas necessárias: ISwR
Aula 3 – Distribuições amostrais
Livro: NA
Mistérios da Estatística
• O TLC
• A distribuição amostral da média e o Intervalo de Confiança
• As variâncias da população e da amostra
Exercícios
O conteúdo desta aula não está disponível no nosso livro texto de referência. Nós achamos,
porém, que ele vai nos ajudar a explicar melhor alguns conceitos, fundamentais para se entender
com mais clareza questões de inferência e testes de hipóteses que serão vistos mais adiante, usando
o que nós já vimos como base para esta aula.
Uma primeira questão que deve surgir muito cedo na cabeça de qualquer pessoa que começa
a aprender estatística é como é possível acreditar no Teorema do Limite Central (TLC) sem nunca
ter visto como ele funciona na prática. Bem, quando você lê em um livro de estatística que a
distribuição da média amostral de uma população normal é normal, acredito que intuitivamente
você concorde (sem talvez entender muito bem o que isso quer dizer), mas e quando você lê que a
distribuição da média amostral de qualquer distribuição converge assintoticamente (na verdade
converge em distribuição, mas isso é outro assunto...) para uma normal, eu não creio que esse
conceito fique entendido e assimilado na cabeça de quem lê.
A primeira questão aqui é entender que, apesar da média amostral ser bem intuitiva e, como
você deve se lembrar, o seu cálculo é feito da mesma maneira que o cálculo da média da população,
ela é na verdade uma variável aleatória (e não um número!!!) e que portanto ela tem uma
determinada distribuição. A sua próxima pergunta é: mas então quando eu calculo a pressão arterial
média dos meus pacientes, essa medida não é um número???
Vamos por partes... É um número, sem dúvida, mas ele representa a média de uma única
amostra da sua população e a ele estará associado uma probabilidade de estar suficientemente
próximo da verdadeira média da população (a qual eu nunca conhecerei com certeza, a menos que
realize um censo nesta população). É por causa desta noção – que eu usei de forma livre aqui e
espero que nenhum estatístico esteja por perto, pois ele pode ter um troço – que nós usamos sempre
um estimador intervalar (o nosso conhecido intervalo de confiança.)
Como vocês devem saber, o intervalo de confiança representa um intervalo numérico tal
que, se nós retirássemos k amostras de tamanho n de uma população, para um k suficientemente
grande, aproximadamente 95% dos k intervalos, calculados a partir de cada uma das amostras,
conteriam o verdadeiro valor da média da população (claro que você já concluiu que isso é para um
intervalo de confiança 95% da média, né?)
Ah, e tem ainda a misteriosa variância da amostra, que por incrível que pareça não é
estimada corretamente pela mesma fórmula usada para a variância da população, mas que como a
média também é uma variável aleatória (alguém lembra qual a sua distribuição???)
1
O TLC
Bom, chega de papo e vamos tentar entender alguns desses mistérios com a ajuda do R.
Vamos começar pelo TLC. Vamos verificar que, dada uma distribuição qualquer, a distribuição da
média amostral converge para uma distribuição normal, com média x , igual à média da
população e variância  2 /n , ou seja, a variância da população sobre o tamanho da amostra.
Bem, vamos ver como isso funciona, então?
A idéia inicial é gerar uma amostra de uma distribuição qualquer e depois usar uma função
que você já deve ter visto para retirar amostras dessa distribuição, que será considerada a minha
população sobre a qual queremos fazer inferências. Para visualizarmos a distribuição da média
amostral, não precisamos retirar todas as possíveis amostras (até porque seria muito trabalhoso, por
exemplo obter todas as possíveis amostras de n = 30 de uma população de N = 1000. Isso daria nada
menos que 100030  – experimente fazer a conta no R com a função:
choose(1000, 30)
Grandinho o número, né?
;-)
E olha que isso seria sem reposição!!! Na verdade a toda a teoria amostral é desenvolvida
para casos com reposição. Alguém se arrisca dizer qual seria o número total de amostras com
reposição neste caso? Pois é: 100030 ou 1032 , diria que bastante trabalhoso...
Em vez disso, vamos retirar umas 500 amostras mais ou menos e ver o que acontece com
esta distribuição. Para facilitar a nossa vida, vamos usar uma função que eu inventei, e vamos ver se
conseguimos entender o que se passa:
histo.mean <- function(x, n=2, b=500)
#x é um vetor com uma distribuição populacional; n é o tamanho de cada amostra e b o número
de amostras 
{
z <- mat.or.vec(0,1) #Inicialização do vetor z
for (i in 1:b) #Loop para obter as médias das b amostras
{
z[i] <- mean(sample(x,n)) #O verdadeiro truque
}
w <- list("n" = n, "mean.pop"=mean(x), "var.pop" = (length(x)-1)*var(x)/length(x))
#Adicionando a média e a variância da população
w$mean.sampl <- mean(z) #Acrescentando a média amostral
w$var.mean.sampl <- var(z) #Acrescentando a variância amostral
hist(z, main="Histograma da média amostral de x") #Fazendo o Histograma
w
}
Sinto que neste momento o desespero tomou conta de você... Calma, nem tudo está
perdido... Eu coloquei alguns comentários (tudo o que for seguido do símbolo #) que explica cada
um dos passos dessa função. Tente entender o que está acontecendo. Em resumo, essa função pega
um vetor x com uma distribuição qualquer, tira b amostras (500 por default) de tamanho n (2 por
default.) Com isso, a função calcula a média dessas 500 amostras e as armazena num vetor z. Então
uma lista é criada com algumas informações úteis tanto com respeito à população quanto às
amostras (experimente a função mais tarde para entender melhor.) Por último, um histograma das
médias amostrais é desenhado.
Você já deve saber que para utilizar esta função, basta marcá-la, copiá-la e colá-la no
prompt do R. Bem, então vamos começar a brincar. Vamos “fabricar” uma distribuição, digamos
normal para começar... Vamos assumir que temos 1000 idosos, dos quais nós queremos estudar a
pressão arterial média (PAM), onde a média é em torno de 100 mmHg e a variância é de 16
mmHg2:
2
x <- rnorm(1000, mean=100, sd=4)
Agora vamos usar a nossa função para construir uma distribuição de 500 amostras dessas
1000 PAMs d n = 2 (é isso mesmo, a nossa amostrinha é só de 2):
> histo.mean(x)
$n
[1] 2
$mean.pop
[1] 100.078
$var.pop
[1] 16.74125
$mean.sampl
[1] 100.1585
$var.mean.sampl
[1] 8.1367
3
Histograma da média amostral de x
z
90 95 100 105 110
0
20
40
60
80
10
0
12
0
Você deve ter notado que além dessa saída acima (que deve ser diferente para você, é claro,
já que a nossa população foi gerada aleatoriamente!!!), um histograma também foi gerado, como
você deve ter visto na sua sessão do R. Surpreso com os resultados? É isso mesmo: ainda que a
nossa amostrinha tenha sido de apenas 2 observações, a sua distribuição é bastante normal, sua
média é bastante próxima da média da população (compare a saída mean.pop e mean.sampl
acima.) Além disso, a sua variância (da média) é bastante próxima da metade da variância da
população (ou seja, a variância da população dividida pelo tamanho da amostra.)
Bem, mas por enquanto não teve graça, né? A população já tinha uma distribuição normal,
então não surpreende muito que a distribuição da média amostral seja normal também...
Vamos brincar um pouco agora com distribuições populacionais bem diferentes da normal.
Que tal começarmos pela uniforme?
x <- runif(1000)
Como você deve se lembrar, esta distribuição é muito diferente da normal. Confira:
> hist(x)
Veja agora o que acontece com a distribuição amostral da média com o n = 2:
4
Histogram