224 pág.

Pré-visualização | Página 15 de 50
de família porque existem várias delas para diversas distribuições no R) sempre começam com a letra d, seguida de uma abreviação do nome da distribuição. Por exemplo, quando construímos o gráfico da fdp da Normal, nós usamos o comando: curve(dnorm(x), from=-3, to=3) Como se tratava da Normal, a abreviação é norm, e a função se chama então dnorm(). Veja um resumo das abreviações usadas para algumas distribuições na tabela abaixo: Tabela 1.1 – Abreviações e argumentos usados pelo R para gerar distribuições. Antes da abreviação, deve-se acrescentar a letra d para a fdp, p para a função de densidade acumulada, q para a função de quantis e r para geração aleatória de uma amostra. Os argumentos são descritos juntamente com os valores default, quando houver. Veja texto para detalhes. Distribuição Abreviação Argumentos com default Binomial binom n= p= Geométrica geom prob= Hipergeométrica hyper m= n= k= Binomial negativa nbinom size= prob= Poisson pois lambda= Uniforme unif min=0 max=1 Normal norm mean=0 sd=1 Exponencial exp rate=1 Qui-Quadrada chisq df= t de Student t df= F de Snedcor f df1= df2= Weibull weibull shape= scale=1 Gama gamma shape= rate=1 Beta beta shape1= shape2= Repare que apesar de na tabela estar assinalado que as funções para a Normal possuem 2 argumentos, eles foram omitidos no código acima. Isso ocorreu porque algumas destas funções têm valores default, e no caso da Normal, como você já deve ter observado são mean=0 e sd=1. A função curve() vai desenhar um gráfico de uma função qualquer de x. Nesse caso a função é justamente a função dnorm(), que gera a densidade de uma normal. Além disso, a função curve() também toma os argumentos from e to, para estabelecer os limites do gráfico. Mas afinal de contas, que valor é retornado por esta função? É simplesmente o resultado da fdp no ponto x. Quer ver um exemplo? Vamos ver a fdp da Normal (0,1): f x = 1 2 e − x 2 2 Vamos agora no R calcular o valor dessa função quando x = 0: > dnorm(0) [1] 0.3989423 Lembre-se que esse valor, por se tratar de uma distribuição contínua, NÃO corresponde à probabilidade de se obter o valor x = 0 em uma Normal (0,1)!!! Bem, vamos fazer este cálculo na mão agora e conferir. Basta substituir por 0 onde existe x na equação acima: f 0= 1 2 e − 0 2 2 = 1 2 e −0 = 1 2≃0.3989 Função de distribuição acumulada Já a função de distribuição acumulada é bastante usada, não em exemplos, como nós também vimos anteriormente, mas também para cálculos corriqueiramente utilizados em estatística. Para a construção de um gráfico da função de distribuição acumulada da Normal, nós usamos o comando: x<-seq(-3,3,0.01) plot(x, pnorm(x), type="l") Onde nós criamos um vetor x como uma seqüência de -3 a 3, de 0.01 a 0.01 e depois plotamos esse vetor contra os valores retornados pela função pnorm(). Como você deve ter percebido, para gerarmos densidades acumuladas, acrescentamos a letra p antes de uma das abreviações descritas na Tabela 1.1. Aliás, é aqui que entra a nossa compreensão superficial sobre a integral de uma função. O que a pnorm() faz é calcular o resultado desta conta: P X ≤ x =F x =∫ −∞ x f x dx Onde a f(x) vai ser a fdp de alguma distribuição, neste caso, a Normal (0,1) e que nós já vimos que o resultado é: P X ≤ x =F x =∫ −∞ x 1 2 e − x 2 2 dx Agora você deve estar se perguntando: mas porque existem aquelas imensas tabelas para a distribuição Normal (0,1) que vêm nas costas de todo livro de estatística, se o valor da função de distribuição acumulada é apenas uma conta, uma função de x aplicada a um determinado valor? Nesse caso, a gente poderia calcular na mão, com fizemos com a fdp, não? Bem... não. O problema é que a “conta” ∫ −∞ x 1 2 e − x 2 2 dx não tem resultado algébrico definido (ou seja, não é possível obter uma outra função a partir deste cálculo) e então os resultados têm que ser obtidos por cálculo numérico. Daí a grande importância da implementação de funções do tipo da pnorm(). Além então dos gráficos que nós vimos, com estas funções é possível calcular uma série de coisas úteis para estatística, que substituem a consulta das tabelas. Digamos, por exemplo, que uma certa característica de uma população siga uma distribuição Normal, com média 100 e DP de 20. Uma pergunta pertinente sobre esta população seria: qual a percerntagem de pessoas nesta população que possuem um valor igual ou menor a 75? Para responder, podemos fazer: > pnorm(75, mean=100, sd=20) [1] 0.1056498 Ou seja, cerca de 10.56% das pessoas possuem um valor igual ou menor que 75. Mas afinal de contas, como podemos visualizar esses resultados? Como foi mencionado, esse valor que foi encontrado nada mais é do que a área abaixo da curva da fdp desta Normal (100, 400). Vamos ver como isso funciona, mas desta vez só mostrarei o resultado final (seria um pouco complicado pedir para você fazer esse gráfico, mas se estiver interessado, não se acanhe em entrar em contato.) O que observamos na figura acima é a fdp desta normal, com a área hachurada de menos infinito (embora não dê pra visualizar muito bem) até o valor que queríamos de 75. Esta área vale exatamente o valor que nós achamos acima, ou seja, 0.1056. Para reforçar, essa conta para esta normal é dada por: F 75=∫ −∞ 75 1 2×20 exp− x−10022×202 dx Significa que estou calculando a integral (que é a área sob a curva) de menos infinito até 75 da fdp da Normal (100, 400.) Note que eu apenas substituí os valores de e de 2 na equação acima. Testes estatísticos também são uma aplicação direta dessas funções. Por exemplo, mais tarde você vai aprender a usar e interpretar o famoso teste t de Student. Sem entrar em detalhes, basicamente será calculada uma estatística T, a qual terá uma distribuição t com n-1 graus de liberdade (onde n é o tamanho da amostra.) Para se calcular o famoso p-valor associado a esta 0 50 100 150 200 0. 00 0 0. 00 5 0. 01 0 0. 01 5 0. 02 0 Density function X Y estatística, usamos a função pt(). Digamos que para uma amostra de 100 pacientes, a estatística que você calculou foi -2.55. Para calcular o p-valor: > pt(-2.55, df=99) [1] 0.006152768 Como você aprenderá mais tarde, a distribuição t tem um único parâmetro, que são os graus de liberdade (degrees of freedom em inglês – daí o argumento df). Mas não se preocupe com nada disso agora, é apenas para já ter em mente a utilidade da função. Novamente, esse valor é também uma área, mas sob a curva da fdp de uma distribuição t com 99 graus de liberdade, indo de menos infinito até -2.55, como mostrado na curva abaixo. Só para fixar, sem querer complicar muito, vamos admitir que a distribuição t99 tenha uma fdp genérica, do tipo f t , usando t só para indicar que se trata de uma distribuição t. Então, a área assinalada abaixo corresponde à conta: F −2.55= ∫ −∞ −2.55 f t dt Cuja solução, como você já deve ter adivinhado, também não tem um resultado definido algebricamente. -4 -2 0 2 4 0. 0 0. 1 0. 2 0. 3 0. 4 Density function X Y Quantis A próxima família de funções são as que geram quantis. Se você está achando isso um palavrão, não posso culpá-lo. Essa função é na verdade apenas a função inversa da função de densidade acumulada. Assim, ela responde à seguinte pergunta: a que valor de x corresponde uma probabilidade acumulada de 0.975, por exemplo. Aliás, numa Normal (0,1), qual seria mesmo esse valor? > qnorm(0.975, mean=0, sd=1) [1] 1.959964 Isso mesmo, o nosso bom e velho 1.96... A utilização dos quantis será bastante importante quando estudarmos também intervalos de confiança, pois como veremos, precisaremos do valor desta função para calcular quanto deve ser somado à média amostral por exemplo para obter-se o limite superior do seu intervalo de confiança (e subtrair-se também para obter-se o limite inferior.) Vamos ver um rápido exemplo: Por exemplo, um IC 95% para uma média amostral com variância da população desconhecida é dada por (não se assuste se você não entendeu o que isso quer