Estatistica usado o R
224 pág.

Estatistica usado o R


DisciplinaBioestatística I4.715 materiais35.069 seguidores
Pré-visualização50 páginas
sobre a qual gostaríamos de inferir certas \u201ccaracterísticas\u201d, como a sua
média ou a sua variância, por exemplo.
A idéia é sempre a mesma das bolinhas numeradas em uma urna. Se nós tivermos por
exemplo 10 bolinhas numeradas de 1 a 10 em uma urna, qual é a chance de nós escolhermos
exatamente, por exemplo a bolinha com o número 5? Intuitivamente você vai responder que essa
chance é de 1 em 10, 1/10 ou 10%. Nesse caso o que acontece é que as bolinhas têm uma chance
igual de serem escolhidas, certo? Pois se eu perguntasse sobre a chance da bolinha com o número 3,
a resposta seria a mesma.
Agora, e se eu perguntasse qual seria a probabilidade de se retirar a bolinha com o número 5
e a bolinha com o número 3? Nesse caso, você tem que me fazer duas perguntas pelo menos. A
primeira é se a ordem de retirada deve ser levada em conta ou não (ou seja, se sortear a bolinha 5 e
em seguida a 3 deve ser diferente de sortear a bolinha 3 e em seguida a 5, ou não). A segunda
pergunta é se uma vez sorteada uma bolinha ela deve ser devolvida à urna ou não para ser sorteada
a segunda bolinha. Essas perguntas são fundamentais porque elas vão alterar significativamente a
resposta. Muito bem, vamos assumir a situação mais comum, que é quando a ordem não importa e
calcular as probabilidades com e sem reposição.
Para o caso com reposição, nós teremos a probabilidade de sortear a bolinha 3 (0.1) e a
bolinha 5 (0.1) ou a bolinha 5 (0.1) e a bolinha 3 (0.1). Em probabilidade existe um macete
interessante: quando falamos da probabilidade de acontecer um evento e outro evento, estamos
falando de uma multiplicação. Se estamos falando da probabilidade de acontecer um evento ou
outro evento, estamos falando de uma soma. Pescou? Pois é, essa probabilidade vai ser (0.1x0.1) +
(0.1x0.1) = 0.02.
Já para o caso sem reposição, a cosa muda um pouco de figura. Agora, a probabilidade do
segundo elemento a ser sorteado vai ser diferente da do primeiro, pois vai ter uma bolinha a menos
na minha urna. Então, nesse caso, apesar do raciocínio ser o mesmo, os números mudam. Olha só,
eu vou copiar a mesma frase lá de cima, só mudando as probabilidades: Para o caso sem reposição,
nós teremos a probabilidade de sortear a bolinha 3 (1/10) e a bolinha 5 (1/9) ou a bolinha 5 (1/10) e
a bolinha 3 (1/9). Então, essa probabilidade vai ser (1/10x1/9) + (1/10x1/9) = 0.0222.
Como você percebeu, a probabilidade no segundo caso é maior que no primeiro, já que a
probabilidade de se sortear uma determinada bolinha na segunda tentativa é maior (o denominador
é menor) que na primeira.
Agora um último problema antes de nós partirmos para a nossa parte prática de fato. Todos
esses exemplos são compostos de bolinhas que têm uma probabilidade igual de ser sorteada. Mas
isso não necessariamente acontece assim. Vamos supor que por exemplo nós só tivéssemos
bolinhas com o número 1 e com o número 2, mas que temos 4 com o número 1 e 6 com o número 2.
Bem, agora qual seria a probabilidade de se escolher uma bolinha com o número 1? A resposta
também é intuitiva, e será 4/10 = 40% \u2013 o número de bolinhas com o número 1 dividido pelo total
de bolinhas na urna... E da bolinha com o número 2? Nesse caso, seria 6/10 = 60%. Neste caso, as
bolinhas têm uma probabilidade diferente de serem sorteadas. O caso de uma segunda bolinha,
vamos deixar para um desafio para vocês que é um problema um pouco mais complicado.
Muito bem, esse papo todo é só para refrescar a sua memória sobre probabilidade, porque a
nossa intenção aqui é ver coisas acontecendo na prática.
A função sample()
Tudo muito bonito esse papo de amostra aleatória e probabilidade, mas como o R pode nos
ajudar com isso? Bem, o R possui uma função bastante interessante, que é a função sample() que
para quem conhece essa palavra em inglês já deduziu que serve para amostrar alguma coisa. E é
isso mesmo: ela serve para criar uma amostra aleatória de um vetor qualquer, com ou sem reposição
e com probabilidades iguais ou não. Vamos ver então como essa função funciona e como ela vai
nos ajudar a entender melhor esses problemas de probabilidade.
Primeiro, vamos simular a situação onde temos a urna com as bolinhas numeradas de 1 a 10.
A maneira mais simples é criar um vetor chamado urna, com valores de 1 a 10:
urna <- 1:10
Agora, nós poderíamos pedir para a função sortear uma bolinha pra a gente, assim:
sample(urna, 1)
Experimente também tirar 2 amostras (ou seja, duas bolinhas) da nossa urna:
sample(urna, 1)
Faça várias vezes e veja o que acontece...
Bem, na verdade fica meio difícil ver o que realmente acontece quando essa função trabalha,
não é mesmo? O programa está simplesmente atribuindo uma probabilidade igual a cada um dos
elementos e retornando um ou dois deles. Bem, mas quando dizemos que a probabilidade de se
sortear a bolinha x, o que realmente queremos dizer com isso?
Queremos dizer que se nós repetirmos este experimento (retirar uma bolinha) n vezes, onde
n é um número grande (diz-se inclusive que tende para o infinito \u2013 grande para chuchu), então em
média, a bolinha de número x será sorteada em uma fração p das vezes. Por que não tentamos então
fazer isso? Vamos criar uma função para tirar várias amostras de tamanho 1 e guardá-las em um
vetor. Em seguida, vamos ver quantas vezes uma determinada bolinha (número) aparece no nosso
vetor, dividindo este número pelo tamanho do vetor. Complicou? Vamos tentar na prática, então:
probab <- function (x, size=length(bolinha), repos = FALSE, prob = NULL,
times=10000, bolinha=1, order=F)
{
el <- bolinha
pr <- 0
z<-0
if(order){
for (i in 1:times)
{
z <- sample(x, size=size, replace = repos, prob=prob)
if (sum(el==z)/length(el)==1)
{
pr[i] <- 1
}else{
pr[i] <- 0
}
}
}else{
for (i in 1:times)
{
z <- sample(x, size=size, replace = repos, prob=prob)
if (sum(el%in%z)/length(el)==1)
{
pr[i] <- 1
}else{
pr[i] <- 0
}
}
}
sum(pr)/times
}
O que estamos fazendo é apenas tirar uma amostra 10000 vezes e comparando com
elementos que nós determinamos para ver qual a porcentagem (ou probabilidade) de se obter
aquela(s) bolinha(s) indicada(s), quando a ordem não importa (por default). Vamos ver como isso
funciona.
Vamos primeiro ver qual a probabilidade de se escolher a bolinha número 3 (a essa altura
você já notou que para uma bolinha só não faz diferença se é com ou sem reposição, né? Para a
bolinha número 3, teríamos:
> probab(urna, bolinha=3)
[1] 0.1017
Bastante próximo do que tínhamos calculado anteriormente, não? Bem, e agora para as
bolinhas 3 e 5, como ficaria? Nesse caso depende se é com ou sem reposição. No caso sem
reposição, a probabilidade deve ser em torno de 0.022. Vamos conferir:
> probab(urna, repos=F, bolinha=c(3,5))
[1] 0.0229
Repare que tivemos que usar a função c() para escolhermos as bolinhas 3 e 5. E agora no
caso da com reposição? Esperamos uma probabilidade menor, em torno de 0.2. Vamos ver como
funciona:
> probab(urna, repos=T, bolinha=c(3,5))
[1] 0.0206
Muito bem. Mas lembre-se que quando você for fazer isso no R, os resultados de cada uma
das suas tentativas vai ser diferente do que eu obtive quando fiz, pois a função sample() escolhe as
bolinhas aleatoriamente...
Repare também que esta função serve para calcular as probabilidades aproximadas quando a
ordem de retirada importa, com o argumento order=T, se for necessário. Vamos ver só um exemplo
rápido:
> probab(urna, repos=T, order=T, bolinha=c(3,5))
[1] 0.0099
Um resultado esperado, já que se a ordem importa, não nos interessa a amostra (5,3), mas
apenas a amostra (3,5), e claro, a probabilidade deve ser aproximadamente a metade da anterior.
Distribuições Discretas
Como você já deve ter aprendido, as distribuições de fenômenos naturais dos quais
queremos fazer inferências a respeito se dividem em dois grandes grupos: variáveis discretas e
variáveis contínuas. Vamos começar pelas discretas. Elas são empregadas para descrever
fenômenos que só podem assumir números inteiros. Um exemplo muito freqüente em
epidemiologia é o número de pacientes com uma determinada doença em