A maior rede de estudos do Brasil

Grátis
224 pág.
Estatistica usado o R

Pré-visualização | Página 15 de 50

de família porque existem várias delas para diversas
distribuições no R) sempre começam com a letra d, seguida de uma abreviação do nome da
distribuição. Por exemplo, quando construímos o gráfico da fdp da Normal, nós usamos o comando:
curve(dnorm(x), from=-3, to=3)
Como se tratava da Normal, a abreviação é norm, e a função se chama então dnorm(). 
Veja um resumo das abreviações usadas para algumas distribuições na tabela abaixo:
Tabela 1.1 – Abreviações e argumentos usados pelo R para gerar distribuições. Antes
da abreviação, deve-se acrescentar a letra d para a fdp, p para a função de densidade
acumulada, q para a função de quantis e r para geração aleatória de uma amostra. Os
argumentos são descritos juntamente com os valores default, quando houver. Veja texto para
detalhes.
Distribuição Abreviação Argumentos com default
Binomial binom n= p=
Geométrica geom prob=
Hipergeométrica hyper m= n= k=
Binomial negativa nbinom size= prob=
Poisson pois lambda=
Uniforme unif min=0 max=1
Normal norm mean=0 sd=1
Exponencial exp rate=1
Qui-Quadrada chisq df=
t de Student t df=
F de Snedcor f df1= df2=
Weibull weibull shape= scale=1
Gama gamma shape= rate=1
Beta beta shape1= shape2=
Repare que apesar de na tabela estar assinalado que as funções para a Normal possuem 2
argumentos, eles foram omitidos no código acima. Isso ocorreu porque algumas destas funções têm
valores default, e no caso da Normal, como você já deve ter observado são mean=0 e sd=1.
A função curve() vai desenhar um gráfico de uma função qualquer de x. Nesse caso a
função é justamente a função dnorm(), que gera a densidade de uma normal. Além disso, a função
curve() também toma os argumentos from e to, para estabelecer os limites do gráfico.
Mas afinal de contas, que valor é retornado por esta função? É simplesmente o resultado da
fdp no ponto x. Quer ver um exemplo? Vamos ver a fdp da Normal (0,1):
f x = 1
2 e
− x
2
2
Vamos agora no R calcular o valor dessa função quando x = 0:
> dnorm(0)
[1] 0.3989423
Lembre-se que esse valor, por se tratar de uma distribuição contínua, NÃO corresponde à
probabilidade de se obter o valor x = 0 em uma Normal (0,1)!!!
Bem, vamos fazer este cálculo na mão agora e conferir. Basta substituir por 0 onde existe x
na equação acima:
f 0= 1
2 e
− 0
2
2 =
1
2 e
−0
=
1
2≃0.3989
Função de distribuição acumulada
Já a função de distribuição acumulada é bastante usada, não em exemplos, como nós
também vimos anteriormente, mas também para cálculos corriqueiramente utilizados em estatística.
Para a construção de um gráfico da função de distribuição acumulada da Normal, nós
usamos o comando:
x<-seq(-3,3,0.01)
plot(x, pnorm(x), type="l")
Onde nós criamos um vetor x como uma seqüência de -3 a 3, de 0.01 a 0.01 e depois
plotamos esse vetor contra os valores retornados pela função pnorm(). Como você deve ter
percebido, para gerarmos densidades acumuladas, acrescentamos a letra p antes de uma das
abreviações descritas na Tabela 1.1.
Aliás, é aqui que entra a nossa compreensão superficial sobre a integral de uma função. O
que a pnorm() faz é calcular o resultado desta conta:
P X ≤ x =F x =∫
−∞
x
f x  dx
Onde a f(x) vai ser a fdp de alguma distribuição, neste caso, a Normal (0,1) e que nós já
vimos que o resultado é:
P X ≤ x =F x =∫
−∞
x
1
2 e
− x
2
2 dx
Agora você deve estar se perguntando: mas porque existem aquelas imensas tabelas para a
distribuição Normal (0,1) que vêm nas costas de todo livro de estatística, se o valor da função de
distribuição acumulada é apenas uma conta, uma função de x aplicada a um determinado valor?
Nesse caso, a gente poderia calcular na mão, com fizemos com a fdp, não?
Bem... não. O problema é que a “conta” ∫
−∞
x
1
2 e
− x
2
2 dx não tem resultado algébrico
definido (ou seja, não é possível obter uma outra função a partir deste cálculo) e então os resultados
têm que ser obtidos por cálculo numérico. Daí a grande importância da implementação de funções
do tipo da pnorm().
Além então dos gráficos que nós vimos, com estas funções é possível calcular uma série de
coisas úteis para estatística, que substituem a consulta das tabelas. Digamos, por exemplo, que uma
certa característica de uma população siga uma distribuição Normal, com média 100 e DP de 20.
Uma pergunta pertinente sobre esta população seria: qual a percerntagem de pessoas nesta
população que possuem um valor igual ou menor a 75? Para responder, podemos fazer:
> pnorm(75, mean=100, sd=20)
[1] 0.1056498
Ou seja, cerca de 10.56% das pessoas possuem um valor igual ou menor que 75. Mas afinal
de contas, como podemos visualizar esses resultados? Como foi mencionado, esse valor que foi
encontrado nada mais é do que a área abaixo da curva da fdp desta Normal (100, 400). Vamos ver
como isso funciona, mas desta vez só mostrarei o resultado final (seria um pouco complicado pedir
para você fazer esse gráfico, mas se estiver interessado, não se acanhe em entrar em contato.)
O que observamos na figura acima é a fdp desta normal, com a área hachurada de menos
infinito (embora não dê pra visualizar muito bem) até o valor que queríamos de 75. Esta área vale
exatamente o valor que nós achamos acima, ou seja, 0.1056. Para reforçar, essa conta para esta
normal é dada por:
F 75=∫
−∞
75
1
2×20 exp− x−10022×202  dx
Significa que estou calculando a integral (que é a área sob a curva) de menos infinito até 75
da fdp da Normal (100, 400.) Note que eu apenas substituí os valores de  e de  2 na
equação acima.
Testes estatísticos também são uma aplicação direta dessas funções. Por exemplo, mais
tarde você vai aprender a usar e interpretar o famoso teste t de Student. Sem entrar em detalhes,
basicamente será calculada uma estatística T, a qual terá uma distribuição t com n-1 graus de
liberdade (onde n é o tamanho da amostra.) Para se calcular o famoso p-valor associado a esta
0 50 100 150 200
0.
00
0
0.
00
5
0.
01
0
0.
01
5
0.
02
0
 Density function
X
Y
estatística, usamos a função pt(). Digamos que para uma amostra de 100 pacientes, a estatística
que você calculou foi -2.55. Para calcular o p-valor:
> pt(-2.55, df=99)
[1] 0.006152768
Como você aprenderá mais tarde, a distribuição t tem um único parâmetro, que são os graus
de liberdade (degrees of freedom em inglês – daí o argumento df). Mas não se preocupe com nada
disso agora, é apenas para já ter em mente a utilidade da função.
Novamente, esse valor é também uma área, mas sob a curva da fdp de uma distribuição t
com 99 graus de liberdade, indo de menos infinito até -2.55, como mostrado na curva abaixo.
Só para fixar, sem querer complicar muito, vamos admitir que a distribuição t99 tenha uma
fdp genérica, do tipo f  t , usando t só para indicar que se trata de uma distribuição t. Então, a
área assinalada abaixo corresponde à conta:
F −2.55= ∫
−∞
−2.55
f  t dt
Cuja solução, como você já deve ter adivinhado, também não tem um resultado definido
algebricamente.
-4 -2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
 Density function
X
Y
Quantis
A próxima família de funções são as que geram quantis. Se você está achando isso um
palavrão, não posso culpá-lo. Essa função é na verdade apenas a função inversa da função de
densidade acumulada. Assim, ela responde à seguinte pergunta: a que valor de x corresponde uma
probabilidade acumulada de 0.975, por exemplo. Aliás, numa Normal (0,1), qual seria mesmo esse
valor?
> qnorm(0.975, mean=0, sd=1)
[1] 1.959964
Isso mesmo, o nosso bom e velho 1.96...
A utilização dos quantis será bastante importante quando estudarmos também intervalos de
confiança, pois como veremos, precisaremos do valor desta função para calcular quanto deve ser
somado à média amostral por exemplo para obter-se o limite superior do seu intervalo de confiança
(e subtrair-se também para obter-se o limite inferior.) Vamos ver um rápido exemplo: Por exemplo,
um IC 95% para uma média amostral com variância da população desconhecida é dada por (não se
assuste se você não entendeu o que isso quer