Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade de Bras´ılia IE - Departamento de Estat´ıstica Projeto Reuni Apostila de Probabilidade Estat´ıstica usando o software R Iracema Veiga Madeira Mauriz Relato´rio Final Orientador: Prof.º Eduardo Monteiro de Castro Gomes Bras´ılia 4 de fevereiro de 2011 Suma´rio 1 Introduc¸a˜o 4 2 Varia´vel Aleato´ria Discreta 4 2.1 Func¸a˜o de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Distribuic¸a˜o Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3 Distribuic¸a˜o Binomial . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Distribuic¸a˜o Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 Varia´vel Aleato´ria Cont´ınua 11 3.1 Func¸a˜o de Densidade de Probabilidade - f(x) ou f.d.p . . . . . . . 11 3.2 Distribuic¸a˜o Uniforme . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3 Distribuic¸a˜o Normal . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.4 Distribuic¸a˜o Exponencial . . . . . . . . . . . . . . . . . . . . . . 21 3.5 Esperanc¸a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4 Inserindo dados 26 5 Tabelas 29 6 Medidas Descritivas 30 7 Gra´ficos 35 8 Simulando dados 42 9 Amostragem 46 10 Teste de Hipo´teses 47 11 Teste para a Me´dia e Proporc¸a˜o Populacional 48 11.1 Teste para Me´dia com Variaˆncia Desconhecida . . . . . . . . . . 48 11.2 Teste para Me´dia com Variaˆncia Conhecida . . . . . . . . . . . . 51 11.3 Teste de Proporc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . 54 12 Comparac¸a˜o de Me´dias - Teste t pareado 57 12.1 Teste para Comparac¸a˜o de Duas Me´dias de amostras indepen- dentes com Variaˆncias Desconhecidas . . . . . . . . . . . . . . . . 62 12.1.1 Variaˆncias Desconhecidas e Iguais . . . . . . . . . . . . . 62 12.1.2 Variaˆncias Desconhecidas e Diferentes . . . . . . . . . . . 64 12.2 Teste para Comparac¸a˜o de Duas Me´dias de amostras indepen- dentes com Variaˆncias Conhecidas . . . . . . . . . . . . . . . . . 67 13 Teste para Variaˆncia 71 14 Distribuic¸a˜o Amostral da Me´dia 73 Varia´veis Aleato´rias Discretas 1 Introduc¸a˜o Esse material foi desenvolvido no aˆmbito do programa de Bolsas de Gradua- c¸a˜o Reuni de Assisteˆncia ao ensino. Teve como objetivo introduzir os estudantes das disciplinas ba´sicas de estat´ıstica ao Software gratuito e livre de programac¸a˜o estat´ıstica R. Os to´picos aqui abordados permitem que os alunos desenvolvam de forma pra´tica os aspectos teo´ricos abordados em sala de aula. O material esta´ organizado de forma que os to´picos abordados em cada sec¸a˜o sa˜o brevemente revisados e sua aplicac¸a˜o e´ exemplificada com a utilizac¸a˜o do R. 2 Varia´vel Aleato´ria Discreta O conceito de Varia´vel Aleato´ria Discreta X (v.a X) esta´ relacionado ao conceito de uma func¸a˜o definida no espac¸o amostral Ω e assumindo valores reais, ou seja, uma v.a X estara´ bem caracterizada se indicarmos os poss´ı- veis valores x1, x2, ..., xn, ...que ela pode assumir e as respectivas probabilidades p(x1), p(x2), ..., p(xn), ... .Define-se, enta˜o, uma v.a X por ser uma func¸a˜o, no espac¸o amostral Ω, e com valores no conjunto enumera´vel de pontos da reta. 4 2.1 Func¸a˜o de Probabilidade A func¸a˜o de probabilidade da v.a. discreta X, que assume valores x1, x2, ..., xn, ... e´ a func¸a˜o (xi, p(xi)), que a cada valor de xi associa a sua probabilidade de ocor- reˆncia, isto e´, p(xi) = P (X = xi) = pi, i = 1, 2, ... A func¸a˜o de distribuic¸a˜o acumulada ou f.d.a ou f.d F(x), dada uma v.a. X e´ dada por: F (x) = P (X ≤ x) O programa R possibilita calcular operac¸o˜es com distribuic¸o˜es de probabi- lidades. Para cada distribuic¸a˜o ha´ quatro operac¸o˜es indicadas pelas seguintes letras(para exemplificar utilizou-se a func¸a˜o binomial): d: calcula a densidade de propabilidade f(x) no ponto. O comando usado e´ dbinom(x, size). p: calcula a func¸a˜o de probabilidade acumulada F (x) no ponto. Calcula-se atrave´s da expressa˜o:pbinom(q, size, prob). q: calcula o quantil correspondente a uma dada probabilidade, que e´ calcu- lada por: qbinom(p, size, prob). r: gera uma amostra pseudo-aleato´ria da distribuic¸a˜o por meio de rbinom(n, size, prob). Para gerar sempre a mesma amostra pseudo-aleato´ria e´ preciso usar o co- mando set.seed(a). Esse comando permite que se escolha um ponto inicial qualquer, a, para comec¸ar a amostra. Assim, para o exemplo da binomial, usar primeiramente set.seed(a) e depois rbinom(n, size, prob) para gerar sempre a mesma amostra pseudo-aleato´ria. 2.2 Distribuic¸a˜o Bernoulli A distribuic¸a˜o de Bernoulli e´ a distribuic¸a˜o discreta de espac¸o amostral 0,1 que pode ter como resultado da realizac¸a˜o de um determinado experimento: um sucesso(resultado desejado, igual a 1), ou um fracasso(resultado indesejado, igual a 0), com probabilidades dadas por: P (X = 1) = p e P (X = 0) = 1− p = q Dado X = nu´mero de sucessos em uma u´nica tentativa do experimento realizado. A sua func¸a˜o de probabilidade e´ dada por: P (X = x) = pxq1−x 2.3 Distribuic¸a˜o Binomial A distribuic¸a˜o binomial e´ a distribuic¸a˜o de probabilidade discreta do nu´mero de sucessos numa sequeˆncia de n tentativas independentes, de forma que cada tentativa tem como resultado apenas duas possibilidades: sucesso (p) ou fra- casso (1 − p). Logo, a Binomial e´ uma repetic¸a˜o de n Bernoulli independentes com o mesmo paraˆmetro p e onde a probabilidade de sucesso e´ a mesma, per- manece constante, a cada tentativa ou repetic¸a˜o do experimento. A func¸a˜o de probabilidade de uma distribuic¸a˜o binomial e´ dada por: b(k;n, p) = P (X = k|n, p) = n! k!(n− k)!p kqn−k onde n, p sa˜o seus paraˆmetros e k= 0,1,...,n. Obs.: Os tipos de varia´veis que podem ser representados pelos modelos dis- cretos acima apresentados, Bernoulli e Binomial, sa˜o dicotoˆmicos, sim ou na˜o, menina ou menino, a favor ou contra. Exemplo 6.12(pa´g. 144). Consideremos uma situac¸a˜o em que uma moeda seja ’honesta’,isto e´, P(sucesso)=P(cara)=0.5. Seja X uma v.a. com distribuic¸a˜o Binomial com n=3 e p = 0.5. 1- Calcule as probabilidades abaixo utilizando o R: a)P (X = 0) > dbinom(0, 3, 0.5) [1] 0.125 b)P (X = 1) > dbinom(1, 3, 0.5) [1] 0.375 c)P (X < 3) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) > pbinom(2, 3, 0.5) [1] 0.875 d) Calcular P (1 < X ≤ 2) = P (X = 2) > dbinom(2, 3, 0.5) [1] 0.375 e) Calcular o terciro quartil da distribuic¸a˜o binomial. Para calcular quantis utiliza-se o chamado p-quantil de X, Q(p). Se P (X ≤ Q(p)) ≥ p, caso contra´rio, P (X ≤ Q(p)) ≤ 1− p, para 0 < p < 1. > qbinom(3/4, 3, 0.5) [1] 2 2- Fazer o gra´fico da func¸a˜o de densidade e de probabilidade. 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0. 15 0. 20 0. 25 0. 30 0. 35 x fx 0;0.125 1;0.375 2;0.375 3;0.125 Figura 1: Gráfico função de densidade l l l l 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0. 2 0. 4 0. 6 0. 8 1. 0 x Fx Figura 2: Gráfico Distribuição Acumulada 2.4 Distribuic¸a˜o Poisson A distribuic¸a˜o de Poisson e´ uma distribuic¸a˜o discreta que expressa a probabi- lidade de um determinado nu´mero de eventos que ocorrem em um dado per´ıodo de tempo ou espac¸o, caso cada evento seja independente do tempo decorrido desde o u´ltimo evento e, ainda, esses eventos devem ocorrer com uma taxa me´- dia conhecida, λ,(ou desconhecida, sendo que nesse caso a taxa e´ estimada). . A func¸a˜o de probabilidade de Poisson e´ dada por: P (X = k) = e−λ(λ)k k! ; k = 0, 1, ..., n;λ > 0 onde λ = np. Obs.: Os tipos de varia´veis que podem ser representados pelo modelo discreto Poisson sa˜o: dados que representam a ide´ia de contagem, como o nu´mero de clientes que chegamem uma loja, ou o nu´mero de chamadas em uma central telefoˆnica, bem como o nu´mero de brotos encontrados em uma planta. Com o R e´ poss´ıvel calcular a densidade, a func¸a˜o de probabilidade, o quartil e gerar uma amostra com os seguintes comandos, respectivamente: dpois(x, lambda) ppois(q, lambda) qpois(p, lambda) rpois(n, lambda) Exemplo 6.17 pa´g.149 Bussab. Uma situac¸a˜o pra´tica de interesse na qual a distribuic¸a˜o de Poisson e´ empregada diz respeito a` desintegrac¸a˜o de substaˆncias radioativas. Considere o uraˆnio 238(U238), por exemplo. Cada nu´cleo de U238 tem uma probabilidade muito pequena, 4, 9 ∗ 10−18 de se desintegrar, emitindo uma part´ıcula α, em um segundo. Considere, agora, um nu´mero grande n de nu´cleos e a v.a. N=nu´mero de nu´cleos que se desintegram. Admitindo-se que a desintegrac¸a˜o de um nu´cleo na˜o afeta a probabilidade de desintegrac¸a˜o de qualquer outro nu´cleo(independeˆncia), a v.a. N tem uma distribuic¸a˜o binomial, com paraˆmetros n e p, este dado pelo valor acima. Logo, estamos numa situac¸a˜o em que podemos usar a func¸a˜o de probabilidade da Poisson acima, ou seja, aproximar probabilidades binomiais por probabilidades de Poisson. Seja X uma v.a. com distribuic¸a˜o Poisson com λ = np = 3, 7. a)Calcular P(N=0). > dpois(0, 3.7) [1] 0.02472353 b) Calcular P(N=2). > dpois(2, 3.7) [1] 0.1692325 c) Calcular P (N ≤ 2)= P (N = 0) + P (N = 1) + P (N = 2) > dpois(0, 3.7) + dpois(1, 3.7) + dpois(2, 3.7) [1] 0.2854331 ou, simplesmente, usar o ppois(2,3.7) > ppois(2, 3.7) [1] 0.2854331 Logo, P (N ≤ 2)= 0,2854331 3 Varia´vel Aleato´ria Cont´ınua O conceito de Varia´vel Aleato´ria Cont´ınua X (v.a X) esta´ relacionado ao conceito de uma func¸a˜o definida no espac¸o amostral Ω e assumindo valores num intervalo de nu´meros reais. Qualquer func¸a˜o f, que seja na˜o negativa e cuja a´rea total sobre a curva seja igual a` unidade, caracterizara´ uma v.a. cont´ınua. 3.1 Func¸a˜o de Densidade de Probabilidade - f(x) ou f.d.p A a´rea correpondente ao intervalo [a,b) em um histograma indica a proba- bilidade de a varia´vel estar entre a e b, que e´ calculada por meio de P (a ≤ X ≤ b) = ∫ b a f(x)dx Verifica-se, enta˜o, que a f(x) e´ um indicador da concentrac¸a˜o de probabili- dade nos poss´ıveis valores de X e que a a´rea sob a curva entre dois pontos fornece a probabilidade de ocorreˆncia de algum evento. Se a e b forem dois nu´meros quaiquer, P (a ≤ X ≤ b) = F (b)− F (a) A func¸a˜o de distribuic¸a˜o acumulada ou f.d.a ou f.d F(x), dada uma v.a. cont´ınua X e´ dada por: F (x) = P (X ≤ x),−∞ < x <∞F (x) = ∫ x −∞ f(t)dt Observe que e´ poss´ıvel encontrar a f.d.p. por meio da f.d.a F ′(x) = dF (x) d(x) = f(x) Obs.: Alguns exemplos de v.a. cont´ınuas sa˜o: peso, altura, tempo de vida da luz. Assim como para as v.a.discretas, para as v.a. cont´ınuas e´ poss´ıvel obter com o R a densidade de probabilidade, a f.d.p., a f.d.a, os quantis de uma pro- babilidade e uma amostra de uma determinada distribuic¸a˜o. O programa R possibilita calcular operac¸o˜es com distribuic¸o˜es de probabilidades. Para cada distribuic¸a˜o ha´ quatro operac¸o˜es indicadas pelas seguintes letras (exemplo dos comandos com a func¸a˜o normal padra˜o, se na˜o e´ necessa´rio especificar os paraˆ- metros): d: calcula a densidade de propabilidade f(x) no ponto. O comando usado e´ dnorm(x,mean = 0, sd = 1). p: calcula a func¸a˜o de probabilidade acumulada F (x) no ponto. Calcula-se atrave´s da expressa˜o: pnorm(q,mean = 0, sd = 1). q: calcula o quantil correspondente a uma dada probabilidade, que e´ calcu- lada por: qnorm(p,mean = 0, sd = 1). r: gera uma amostra de n elementos por meio de rnorm(n,mean = 0, sd = 1). 3.2 Distribuic¸a˜o Uniforme A distribuic¸a˜o uniforme e´ um dos modelos mais simples das v.a. cont´ınuas. A v.a. X tem uma distribuic¸a˜o uniforme no intervalo[α, β] se sua f.d.p e´ dada por: f(x;α, β) = { 1 β−α , se α ≤ x ≤ β 0 , caso contra´rio Supondo uma f.d.p, onde X ∼U[α = 0, β = 1], enta˜o tem-se o Gra´fico da Uniforme no R: 0.0 0.2 0.4 0.6 0.8 1.0 0. 6 0. 8 1. 0 1. 2 1. 4 x y A func¸a˜o de distribuic¸a˜o acumulada da uniforme e´ encontrada por: F (x) = P (X ≤ x) = ∫ x −∞ f(x)dx = 0 , se x < α x−α β−α , se α ≤ x < β 1 , se x ≤ β Para a distribuic¸a˜o uniforme cont´ınua usa-se as func¸o˜es unif(d), sendo que as letras: p, q, d ou r devem ser colocadas anteriormente, ou seja: dunif(x, min=0, max=1) punif(q, min=0, max=1) qunif(p, min=0, max=1) runif(n, min=0, max=1) Ex.7.8. pa´gina 174. Um caso particular bastante interessante e´ aquele em que α = −1/2 e β = 1/2. Indicando essa v.a. por U, teremos f(u) = { 1 , se − 1/2 ≤ u ≤ 1/2 0 , caso contra´rio Nessa situac¸a˜o temos que a f.d.a. e´ dada por F (u) = 0 , se u ≤ −1/2u+ 1/2 , se − 1/2 ≤ u ≤ 1/2 1 , se u > −1/2 No R podemos calcular: a)A densidade de f(u) > dunif(0.25, min = -0.5, max = 0.5) [1] 1 > dunif(0.6, min = -0.5, max = 0.5) [1] 0 Como −1/2 ≤ u ≤ 1/2, e u = 0, 6, obtem-se f(0.6) = 0. Ja´ para u = 0, 5, f(0.6) = 1. b)P (U ≤ .25) > punif(0.25, min = -0.5, max = 0.5) [1] 0.75 c)O quantil > qunif(1, min = -0.5, max = 0.5) [1] 0.5 d)Calcular P (−1/4 ≤ U ≤ 1/4) = F (−1/4)− F (1/4) = 1/2 > punif(0.25, min = -0.5, max = 0.5) - punif(-0.25, min = -0.5, + max = 0.5) [1] 0.5 e)Gerar uma amostra pseudo-aleato´ria de 3 elementos da uniforme U ∼ (−.5, .5). > runif(3, min = -0.5, max = 0.5) [1] 0.32855097 0.02604061 0.38964768 3.3 Distribuic¸a˜o Normal A v.a. X tem distribuic¸a˜o Normal com paraˆmetros µ e σ2, com (−∞ < µ < ∞) e (0 < σ2 <∞), se sua densidade e´ dada por f(x;µ, σ2) = { 1 σ √ 2Π e −(x−µ)2 2σ2 , se −∞ ≤ x ≤ ∞ A f.d.a F (y) de uma v.a. normal X, com me´dia µ e variaˆncia σ2 e´ obtida integrando-se f(x;µ, σ2) de −∞ ate´ y, ou seja, F (y) = ∫ y −∞ f(x;µ, σ2)dx , y ∈ < (1) A distribuic¸a˜o Normal e´ implementada por argumentos que combinam as letras acima com o termo norm. Supondo a distribuic¸a˜o Normal padra˜o N(µ = 0, s2 = 1). Para a func¸a˜o de densidade com paraˆmetros (µ = 0, s2 = 1) no ponto -1 tem-se > dnorm(-1) [1] 0.2419707 Outra forma de calcular esse valor seria substituir x por -1 na expressa˜o da normal padra˜o, logo, > (1/sqrt(2 * pi)) * exp((-1/2) * (-1)^2) [1] 0.2419707 A func¸a˜o pnorm(−1) calcula a probabilidade P (X ≤ −1) > pnorm(-1) [1] 0.1586553 O comando qnorm(0.975) calcula o valor de k tal que P (X ≤ k) = 0.975. > qnorm(0.975) [1] 1.959964 Por fim, o comando rnorm(n) gera uma amostra de n elementos da normal padra˜o. Observe que os valores obtidos por esse comando podem variar a cada comando executado. > rnorm(10) [1] 0.37335590 0.91659139 -0.04028924 -1.12255911 -0.22202701 0.07371280 [7] 0.75732008 -0.25158546 -1.29903820 1.15289952 Para gerar sempre os mesmos n elementos da normal padra˜o, utiliza-se uma semente, ou seja, um ponto de in´ıcio que pode ser qualquer valor inteiro positivo. > set.seed(577) > rnorm(10) [1] -0.2429937 -1.1683717 0.6501176 -0.6705117 1.7867175 0.2490895 [7] 0.1105752 -2.0950771 0.4970406 -1.8447424 Exemplo 7.9(pa´g. 179). Os depo´sitos efetuados no Banco da Ribeira du- rante o meˆs de janeiro sa˜o distribu´ıdos normalmente, com me´dia de 10.000, 00 e desvio padra˜o de 1.500, 00. Um depo´sito e´ selecionado ao acaso dentre todos os referentes ao meˆs em questa˜o. Encontrar a probabilidade de que o depo´sito seja: a) P (X ≤ 10000) > pnorm(10000, mean = 10000, sd = 1500) [1] 0.5 b) P (X ≥ 10000) > 1 - pnorm(10000, m = 10000, s = 1500) [1] 0.5 ou simplesmente por > pnorm(10000, m = 10000, s = 1500, lower = F) [1] 0.5c) P (12000 ≤ X ≤ 15000) > pnorm(15000, 10000, 1500) - pnorm(12000, 10000, 1500) [1] 0.09078216 d) P (X > 20000) > 1 - pnorm(20000, m = 10000, s = 1500) [1] 1.308398e-11 2- Fazer o gra´fico da func¸a˜o de densidade e de probabilidade. a) Para fazer esses gra´ficos toma-se uma sequeˆncia de valores de X e, para cada um desses se calcula o valor das func¸o˜es f(x) e F (x). Depois une-se os pontos (x, f(x)) em um gra´fico e (x, F (x)) no outro. > par(mfrow = c(1, 2)) > x <- seq(4000, 16000, len = 10000) > fx <- dnorm(x, 10000, 1500) > plot(x, fx, type = "l") > title(sub = "Figura : Gra´fico da Densidade") > Fx <- pnorm(x, 10000, 1500) > plot(x, Fx, type = "l") > title(sub = "Figura : Gra´fico da Func¸~ao de Distribuic¸~ao Acumulada") 4000 8000 14000 0. 00 00 0 0. 00 01 0 0. 00 02 0 x fx Figura : Gráfico da Densidade 4000 8000 14000 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 x Fx Figura : Gráfico da Função de Distribuição Acumulada b) Obtendo o gra´fico de P (12000 ≤ X ≤ 15000) Primeiramente, define-se o gra´fico desta distribuic¸a˜o, usando-se a func¸a˜o plot. Depois, para marcar o gra´fico utiliza-se da func¸a˜o polygon. > x <- seq(4000, 16000, len = 10000) > fx <- dnorm(x, 10000, 1500) > plot(x, fx, type = "l") > title(sub = "Figura : Gra´fico da Densidade") > ax <- c(12000, 12000, x[x > 12000], 15000, 15000) > ay <- c(0, dnorm(12000), fx[x > 12000], dnorm(15000), 0) > polygon(ax, ay, dens = 10) 4000 6000 8000 10000 12000 14000 16000 0. 00 00 0 0. 00 01 0 0. 00 02 0 x fx Figura : Gráfico da Densidade 3.4 Distribuic¸a˜o Exponencial A distribuic¸a˜o de Exponencial e´ uma distribuic¸a˜o cont´ınua, com paraˆmetro λ > 0 e tem sua f.d.p dada por: f(t;λ) = { 1 λe −t λ , se t ≥ 0 0 , se t < 0 Ex. 7.10. pa´g.180. O tempo de vida(em horas) de um transistor pode ser considerado uma v.a. com distribuic¸a˜o exponencial com λ = 500. Segue-se que a vida me´dia do transistor e´ E(T)=500 horas e a probabilidade de que ele dure mais do que a me´dia e´ P (T > 500)=?. Para ilustrar o uso do R podemos obter a resposta de P (T > 500) usando integrac¸a˜o nume´rica ou usando a func¸a˜o pexp. Curiosidade: no R e´ poss´ıvel resolver P (T > 500) calculando a integral, ou seja, por integrac¸a˜o nume´rica temos que criar uma func¸a˜o com a expressa˜o da exponencial e depois intgrar no intervalo pedido. Esse resultado deve ser igual ao encontrado utilizando a func¸a˜o exponencial dispon´ıvel no R,ou seja, P (T > 500) = 0, 3678. > fexp <- function(x, lambda = 500) { + fx <- ifelse(x < 0, 0, (1/lambda) * exp(-x/lambda)) + return(fx) + } > integrate(fexp, 500, Inf) 0.3678794 with absolute error < 4.1e-06 Pela func¸a˜o pexp com o comando: > pexp(500, rate = 1/500, lower = F) [1] 0.3678794 Obs.: P (T > 500) = pexp(500, rate = 1/500, lower = F ) = 0, 3678 e esse argumento corresponde a 1/λ na equac¸a˜o exponencial. Gra´fico de F(t) 0 500 1000 1500 2000 0. 00 00 0. 00 05 0. 00 10 0. 00 15 0. 00 20 x fx Figura : Gráfico da Função de Densidade 3.5 Esperanc¸a O valor me´dio, tambe´m chamado de esperanc¸a ou expectaˆncia matema´tica de X, de uma v.a. X discreta, assumindo valores x1, ...xn e´ dada por: E(X) = n∑ i=1 xiP (X = xi) = n∑ i=1 xipi O s´ımbolo usado para indicar a me´dia e´ E(X) = µ(X) ou simplesmente µ. Ressalta-se que dada uma v.a. discreta X e a sua func¸a˜o de probabilidade P (x), a esperanc¸a matema´tica de uma func¸a˜o h(X) e´ dada por: E[h(X)] = n∑ i=1 h(xi)p(xi) Ja´ para uma v.a. cont´ınua e sua func¸a˜o de densidade p(x), a esperanc¸a matema´tica de uma func¸a˜o h(X) e´ dada por: E[h(X)] = ∫ ∞ −∞ h(xi)p(xi) Usando a distribuic¸a˜o exponencial como exemplo, calcula-se a sua esperanc¸a e variaˆncia dessa distribuic¸a˜o a partir de E[X] = ∫ ∞ 0 xf(x) = λ e a variaˆncia e´ V ar[X] = ∫ ∞ 0 (x− E[X])2f(x)dx = λ2 Pode-se obter esses valores no R fazendo a integrac¸a˜o nume´rica: Primeira- mente, define-se as func¸o˜es para a esperanc¸a e a variaˆncia e, por fim, integra-se. Verificando: Seja X uma v.a. Exp(500), sua esperanc¸a e´ calculada por: > e.exp <- function(x, lambda = 500) { + ex <- x * (1/lambda) * exp(-x/lambda) + return(ex) + } > integrate(e.exp, 0, Inf) 500 with absolute error < 0.00088 Ou simplesmente usanso o seguinte comando: > ex <- integrate(e.exp, 0, Inf)$value > ex [1] 500 A variaˆncia dessa v.a. X e´ : > v.exp <- function(x, lambda = 500, exp.x) { + vx <- ((x - exp.x)^2) * (1/lambda) * exp(-x/lambda) + return(vx) + } > integrate(v.exp, 0, Inf, exp.x = ex) 250000 with absolute error < 6.9 > vx <- integrate(e.exp, 0, Inf)$value > vx [1] 500 Vimos a utilizac¸a˜o do R para ca´lculos e gra´ficos de probabilidades, a seguir veremos como analisar ou descrever conjuntos de dados. 4 Inserindo dados Existem diversas formas de se obter um conjunto de dados para utilizac¸a˜o com o R. Existem diversos conjuntos de dados dispon´ıveis a partir da instalac¸a˜o do R e podem ser acessados pela digitac¸a˜o do nome do banco de dados. O comando data() gera uma listagem com os bancos de dados dispon´ıveis para os pacotes carregados. Os dados podem ser digitados, e para isso deve-se criar um objeto de classe data.frame e posteriormente utilizar o comando fix(objeto) para poder digitar as observac¸o˜es em uma planilha. Uma outra forma de obter um conjunto de dados e´ pela importac¸a˜o do mesmo. A importac¸a˜o pode ser feita de um disco local ou de algum enderec¸o na Internet. O exemplo apresentado nessa sec¸a˜o mostra a importac¸a˜o de um banco de dados de um arquivo em uma pasta local no computador. Adapta- c¸o˜es a` programac¸a˜o para importac¸a˜o de dados de outro formato ou local po- dem ser consultados na documentac¸a˜o do R utilizando por exemplo o comando: ?read.table Primeiramente, vamos inserir o conjunto de dados hipote´ticos de 36 fun- ciona´rios da companhia ′Milsa′ do livro Estat´ıstica Ba´sica de W.Bussab e P. Moretin. Para entrar com esses dados deve-se usar o comando data.frame, pois ha´ diferentes tipos de varia´veis: catego´ricas e nume´ricas(qualitativas e quantita- tivas). Para entrar com estes dados diretemente no R usou-se o editor que vem com o programa. Para digitar rapidamente estes dados codificou-se as varia´- veis: estado civil(1-Solteiro;2-Casado); grau de instruc¸a˜o(1-ensino fundamental; 2-ensino me´dio); regia˜o(1-Interior;2-Capitel;3-Outro). Note que nessa forma de inserir os dados ale´m de digitar os dados na planilha, tambe´m deve escolher o nome de cada varia´veis. Para isso, basta clicar no nome da varia´vel e escolher a opc¸a˜o CHANGE NAME e informar o novo nome da varia´vel, ou simplesmente clicar duas vezes no nome da varia´vel e digitar o nome. Precisa-se, ainda, in- formar para o programa que as varia´veis codificadas na˜o sa˜o nume´ricas e sim catego´ricas. No R varia´veis catego´ricas sa˜o definidas usando o comando factor(). Por fim, apo´s digitar os dados pode-se visualiza´-los digitando milsa e conserta´- los, caso necessa´rio, por meio do comando fix(milsa). Apo´s digitar as varia´veis categorizadas, pode-se defini-las usando o comando as.factor() a seguir: > milsa <- read.table("milsa.txt", head = T) > milsa$instrucao <- as.factor(milsa$instrucao) > levels(milsa$instrucao) <- c("fundamental", "medio", "superior") > milsa$regiao <- as.factor(milsa$regiao) > levels(milsa$regiao) <- c("interior", "capital", "outro") Apo´s a entrada dos dados precisa-se definir uma varia´vel u´nica idade a partir das varia´veis ano e meˆs que forma digitadas. Nesse banco de dados e´ convenientefazer: > milsa$idade <- round(milsa$ano + milsa$mes/12, digits = 2) > head(milsa) civil instrucao filhos salario ano mes regiao idade 1 solteiro fundamental NA 4.00 26 3 interior 26.25 2 casado fundamental 1 4.56 32 10 capital 32.83 3 casado fundamental 2 5.25 36 5 capital 36.42 4 solteiro medio NA 5.73 20 10 outro 20.83 5 solteiro fundamental NA 6.26 40 7 outro 40.58 6 casado fundamental 0 6.66 28 0 interior 28.00 O comando head permite mostrar apenas as seis primeiras linhas do banco de dados. Para ver o nome das varia´veis contidas no banco, as dimenso˜es do data-frame usa-se, respectivamente: > names(milsa) [1] "civil" "instrucao" "filhos" "salario" "ano" "mes" [7] "regiao" "idade" > dim(milsa) [1] 36 8 5 Tabelas Constuindo uma tabela para as varia´veis: Qualitativa (estado civil) vs Qua- litativa (grau de instruc¸a˜o); Qualitativa (grau de instruc¸a˜o) vs Quantitativa (sala´rio) e Qualitativa (grau de instruc¸a˜o) vs Qualitativa (regia˜o). Nessas tabelas de varia´veis qualitativas obteve-se tanto as frequeˆncias abso- lutas quanto as relativas por linha com duas casas decimais. Para essa aproxi- mac¸a˜o usou-se o comando round. > civ.gi.tab <- table(milsa$civil, milsa$instrucao) > civ.gi.tab fundamental medio superior casado 5 12 3 solteiro 7 6 3 > round(civ.gi.tab/as.vector(table(milsa$civil)), digits = 2) fundamental medio superior casado 0.25 0.60 0.15 solteiro 0.44 0.38 0.19 Na tabela abaixo usou-se de intervalos para quantificar a varia´vel quantita- tiva (sala´rio) vs qualitativa (grau de instruc¸a˜o). > table(milsa$instrucao, cut(milsa$salario, quantile(milsa$salario))) (1,7.43] (7.43,9.79] (9.79,13.7] (13.7,23.3] fundamental 7 2 2 1 medio 1 7 5 4 superior 0 0 2 4 Por fim, fez-se uma tabela entre as varia´veis qualitativa (grau de instruc¸a˜o) e qualitativa (regia˜o). > table(milsa$instrucao, milsa$regiao) interior capital outro fundamental 3 4 5 medio 7 5 6 superior 2 2 2 6 Medidas Descritivas A ana´lise dos dados pode ser feita por meio de medidas de posic¸a˜o, medidas de dispersa˜o, gra´ficos, correlac¸a˜o, dentre outras. As medidas de posic¸a˜o central caracterizam os grupos como um todo, descrevendo- os de forma mais compacta do que as tabelas e os gra´ficos. A moda, me´dia aritme´tica e mediana sa˜o as mais utilizadas para resumir o conjunto de valores representativos que se deseja estudar. A moda e´ a observac¸a˜o mais frequente do conjunto de dados. A mediana e´ a observac¸a˜o que ocupa a posic¸a˜o central da se´rie de observac¸o˜es, quando esta˜o ordenadas em ordem crescente. Por fim, a me´dia aritme´tica e´ a soma das observac¸o˜es dividida pelo nu´mero delas. No R pode-se obter essas medidas facilmente. No exemplo abaixo, para a varia´vel qualitativa ordinal, instruc¸a˜o, calculou-se as seguintes medidas: moda e mediana(so´ e´ calculada para varia´veis nume´ricas ou ordinais). > instrucao.moda <- names(table(milsa$instrucao))[table(milsa$instrucao) == + max(table(milsa$instrucao))] > instrucao.moda [1] "medio" > levels(milsa$instrucao)[median(as.numeric(milsa$instrucao))] [1] "medio" Para a varia´vel filhos pode-se calcular as medidas: mediana(de posic¸a˜o) e me´dia. > median(milsa$filhos, na.rm = T) [1] 2 > mean(milsa$filhos, na.rm = T) [1] 1.65 As medidas de dispersa˜o buscam medir a variabilidade de um conjunto de dados. Dentre as mais usuais medidas de dispersa˜o, destacam-se: a amplitude- range, variaˆncia-var, desvio padra˜o-sd, coeficiente de variac¸a˜o. O comando summary e´ uma func¸a˜o gene´rica muito u´til. Essa e´ usada para produzir resultados de resumo de variados modelos de func¸o˜es, os quais envolvem me´todos particulares que dependem da classe do primeiro argumento da func¸a˜o. Esse comando gera, enta˜o, diversas respostas dependendo do tipo de func¸a˜o e da varia´vel usada. Verifica-se, no exemplo a seguir, o uso dessa func¸a˜o para varia´vel nume´rica, obtendo as seguintes medidas: Min. 1st Qu. Median Mean 3rd Qu. Max. No exemplo abaixo calculou-se essas medidas para a varia´vel sala´rio: mı´nimo e ma´ximo, amplitude total, me´dia, desvio padra˜o, variaˆncia e, por fim, usa-se o comando summary. > range(milsa$salario, na.rm = T) [1] 1.0 23.3 > diff(range(milsa$salario, na.rm = T)) [1] 22.3 > mean(milsa$salario) [1] 10.74194 > sd(milsa$salario, na.rm = T) [1] 4.843526 > var(milsa$salario) [1] 23.45975 > summary(milsa$salario) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 7.428 9.785 10.740 13.660 23.300 A func¸a˜o tapply aplica a func¸a˜o desejada para cada grupo de valores dados por uma u´nica combinac¸a˜o dos n´ıveis de certos fatores de um banco de dados. No exemplo abaixo usamos essa func¸a˜o para calcular as me´dias, as variaˆncias, e quartis para a varia´vel sala´rio discriminadas pelo grau de instruc¸a˜o, respecti- vamente. > tapply(milsa$salario, milsa$instrucao, mean) fundamental medio superior 7.836667 10.767778 16.475000 > tapply(milsa$salario, milsa$instrucao, var) fundamental medio superior 8.740679 19.122159 20.271950 > tapply(milsa$salario, milsa$instrucao, quantile) $fundamental 0% 25% 50% 75% 100% 4.0000 6.0075 7.1250 9.1625 13.8500 $medio 0% 25% 50% 75% 100% 1.0000 8.2750 10.2650 13.5075 19.4000 $superior 0% 25% 50% 75% 100% 10.5300 13.6475 16.7400 18.3775 23.3000 A func¸a˜o cor do R calcula a correlac¸a˜o entre duas varia´veis. No exemplo abaixo, tem-se que a correlac¸a˜o entre a varia´vel quantitativa(sala´rio) vs quanti- tativa(idade) e´ de aproximadamente 40 %, indicando uma correlac¸a˜o positiva, mas na˜o muito forte. > cor(milsa$idade, milsa$salario) [1] 0.4106862 7 Gra´ficos O gra´fico de pizza, tambe´m conhecido como gra´fico em setores, representa a composic¸a˜o de partes de um todo, consistindo em um c´ırculo arbitra´rio, re- presentando o todo, dividido em setores, representando as partes de maneira proporcional. Esse valor normalmente e´ apresentado em porcentagem. Ex.2.4,pa´g.15: Tomemos como ilustrac¸a˜o a varia´vel Y: grau de instruc¸a˜o, exemplificada nas Tabelas 2.2 e 2.3. O gra´fico em barras consiste em construir retaˆngulos ou barras, em que uma das dimenso˜es e´ proporcional a` magnitude a ser representada ni ou fi, sendo a outra arbitra´ria, pore´m igual a todas as barras. Essas barras sa˜o dispostas paralela, horizontal ou verticalmente umas a`s outras. > par(mfrow = c(1, 2)) > barplot(table(milsa$instrucao), names.arg = c("Fund", "Me´dio", + "Sup")) > title(sub = "Figura : Gra´fico de Barras") > pie(table(milsa$instrucao), labels = round(table(milsa$instrucao)/26, + 2), main = "Grau de Instruc¸~ao") > legend(-1, -1.5, c("Fundamental", "Me´dio", "Superior"), cex = 1, + fill = c("white", "lightblue", "mistyrose")) > title(sub = "Figura : Gra´fico de Pizza") Fund Médio Sup 0 5 10 15 Figura : Gráfico de Barras 0.46 0.69 0.23 Grau de Instrução Fundamental Médio Superior Figura : Gráfico de Pizza Ex.2.5.pa´g.16: Considere a distribuic¸a˜o da varia´vel Z, nu´mero de filhos dos empregados casados da sec¸a˜o de orc¸amentos da Companhia MB(Tabela 2.1). l l l l l 0 1 2 3 4 5 6 7 Gráfico de Dispersão Filhos Fr eq uê nc ia A bs ol ut a 0 1 2 3 5 l l l l l 0. 00 0. 05 0. 10 0. 15 0. 20 0. 25 0. 30 0. 35 Gráfico de Dispersão Filhos Fr eq ue nc ia R el at iva 0 1 2 3 5 Ale´m do gra´fico em barras, pode-se fazer um gra´fico de dispersa˜o, unidimensio- nal(valores sa˜o representados por pontos ao longo da reta). Os valores repetidos podem ser representados por nu´meros, indicando o nu´merode repetic¸o˜es, ou podem ser empilhados um em cima do outro a cada vez que repete. l l l l l 1 2 3 4 5 5 10 15 20 Gráfico de Frequência Acumulada Filhos Fr eq uê nc ia A cu m ul ad a O box plot e´ um dos mais usuais gra´ficos da estat´ıstica. Esse gra´fico re- presenta a dispersa˜o dos dados, revelando a mediana e os quartis, medidas de posic¸a˜o. Atrave´s de uma representac¸a˜o com um retaˆngulo e dois segmentos de reta e´ poss´ıvel verificar a posic¸a˜o central do conjunto ordenado dos dados. A base do retaˆngulo central e´ representada pelo primeiro quartil, ou seja, abaixo desse ponto esta˜o situadas 25 % das observac¸o˜es. A divisa˜o do retaˆngulo repre- senta a mediana,separatriz ou medida de ordenamento, isto e´, acima e abaixo desse segmento de reta ha´ 50 % das observac¸o˜es. O topo da caixa corresponde ao terceiro quartil, indicando que acima desse ponto situam-se 25 % das obser- vac¸o˜es e, abaixo, 75 %. Pode haver, ainda, alguns dados que se apresentam de forma irregular em relac¸a˜o dos demais, que sa˜o os valores muitos altos ou muitos baixos, denomina- dos outliers. Ale´m disso, pode-se fazer diversos boxplot em um u´nico gra´fico, o que permite comparar as medidas das varia´veis em questa˜o. Um exemplo disso e´ dado para a varia´vel sala´rio e regia˜o. Ex.2.7.pa´g.18: O histograma e´ um gra´fico de barras cont´ıguas, com as bases proporcionais aos intervalos das classes e a a´rea de cada retaˆngulo proporcional a` respectiva frequeˆncia. Pode-se usar tanto a frequeˆncia absoluta como a relativa. Obs.: Tanto o gra´fico em barras como o histograma fornecem uma ide´ia de como e´ a forma da distribuic¸a˜o da varia´vel sob considerac¸a˜o. > par(mfrow = c(2, 2)) > hist(milsa$salario, ylab = "Freque^ncia", xlab = "Sala´rio", main = "Histograma") > boxplot(milsa$salario, xlab = "Sala´rio", main = "Box plot") > boxplot(milsa$salario ~ milsa$regiao, main = "Box plot da regi~ao e sala´rio ") Histograma Salário Fr eq uê nc ia 0 5 10 15 20 25 0 5 10 15 l 5 10 15 20 Box plot Salário interior capital outro 5 10 15 20 Box plot da região e salário O ramo-e-folhas tambe´m permite verificar a forma da distribuic¸a˜o da varia´- vel, mas a grande vantagem desse gra´fico e´ que na˜o se perde informac¸a˜o sobre os dados em si, ou perde-se pouca informac¸a˜o. A escolha do nu´mero de linhas do ramo-e-folhas e´ equivalente a` escolha do nu´mero de classes de um histograma. Quando se tem muitas folhas em cada ramo, pode-se duplicar os ramos, onde coloca-se folhas de 0 a 4 em uma linha e de 5 a 9 em outra linha. As informa- c¸o˜es obtidas no ramo-e-folhas e´ como se distribuem os valores, se ha´ outliers, um valor menos ou mais t´ıpico para o conjunto de dados, se ha´ assimetria dos dados. > stem(milsa$salario) The decimal point is at the | 0 | 0 2 | 4 | 0637 6 | 379446 8 | 15791388 10 | 5816 12 | 08268 14 | 7 16 | 0263 18 | 84 20 | 22 | 3 Ex.2.9: Os dados abaixo referem-se a` dureza de 30 pec¸as de alumı´nio(Hoaglin, Mosteller e Tukey, 1983, pa´g.13) Nesse exemplo, calculou-se os quantis dos 30 dados das pec¸as de alumı´nio, bem como o ramo-e-folhas. Em seguida, fez-se o seu histograma. > dados <- c(53, 70.2, 84.3, 69.5, 77.8, 87.5, 53.4, 82.5, 67.3, + 54.1, 70.5, 71.4, 95.4, 51.1, 74.4, 55.7, 63.5, 85.8, 53.5, + 64.3, 82.7, 78.5, 55.7, 69.1, 72.3, 59.5, 55.3, 73, 52.4, + 50.7) > quantile(dados) 0% 25% 50% 75% 100% 50.70 55.40 69.30 76.95 95.40 A func¸a˜o quantile fornece os quantis dos dados ou banco de dados. > stem(dados) The decimal point is 1 digit(s) to the right of the | 5 | 1123344 5 | 566 6 | 044 6 | 79 7 | 0011234 7 | 89 8 | 334 8 | 68 9 | 9 | 5 > hist(dados, freq = TRUE, ylab = "Freque^ncia", xlab = "Pec¸as de Alumı´nios", + main = "Histograma") Histograma Peças de Alumínios Fr eq uê nc ia 50 60 70 80 90 100 0 2 4 6 8 10 8 Simulando dados Ao inve´s de entrar com os dados e´ poss´ıvel simular e utilizar as medidas descritivas para avaliar os resultados dessa simulac¸a˜o. 1- Distribuic¸a˜o Cont´ınua Primeiramente, simulou-se para a distribuic¸a˜o cont´ınua normal 50 dados com me´dia igual a zero e desvio padra˜o igual a um e obteve-se as medidas descritivas dessa simulac¸a˜o. Verificou-se que como os dados sa˜o simulados, os valores da me´dia e do desvio padra˜o na˜o sa˜o exatos como os escolhidos. a)Normal > aaa <- rnorm(50, mean = 0, sd = 1) > mean(aaa) [1] -0.02986135 > var(aaa) [1] 0.7819218 > median(aaa) [1] -0.1035376 > sd(aaa) [1] 0.8842634 > range(aaa) [1] -1.948260 1.943953 > summary(aaa) Min. 1st Qu. Median Mean 3rd Qu. Max. -1.94800 -0.57210 -0.10350 -0.02986 0.55580 1.94400 Em seguida, obteve-se o histograma e o ramo e folhas desses dados. Verifica- se que o ramo e folhas apresenta o mesmo formato da distribuic¸a˜o apresentada no histograma. Histograma Números aleatórios Fr eq uê nc ia −2 −1 0 1 2 0 5 10 15 Figura : Histograma de Números Aleatórios de uma Distribuição Normal > stem(aaa) The decimal point is at the | -1 | 96 -1 | 43220 -0 | 987766655 -0 | 44432211111100 0 | 112234 0 | 566779 1 | 01233 1 | 789 b) Exponencial Nesse exemplo, simulou-se 500 nu´meros aleato´rias de uma distribuic¸a˜o ex- ponencial e, em seguida, obteve-se as suas medidas descritivas, o histograma e o diagrama de dispersa˜o. > aaa <- rexp(500) > mean(aaa) [1] 0.9095183 > var(aaa) [1] 0.8742256 > median(aaa) [1] 0.596399 > sd(aaa) [1] 0.9350003 > range(aaa) [1] 0.001699688 5.792387686 > summary(aaa) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0017 0.2435 0.5964 0.9095 1.2330 5.7920 Histograma Observações Fr eq uê nc ia 0 1 2 3 4 5 6 0 50 10 0 15 0 20 0 Figura : Histograma l l l l l l ll ll l l ll l ll l l l l ll l l l l l l l l l l l l ll l l l l ll l l l l l l l l l l l l l ll l l l l ll l l l l l l l l l l ll l l l l lll l l l l l l l l l l ll l llll l l l l l l ll l l l l l l l l l l l ll l l l ll l l l l l l lll l l l l l lll l l l l l l l l l l l l l ll l l l ll l l l l l l l l l l l l l l l l l l l ll l l l l l l l l l ll l l l l l l l l l l l l l l l l l l l l l l l l l l l l ll l l l l l l l ll l l l l l l l l ll l l l l l l ll l l l l ll l l l l l ll ll l l l l l l ll l l l l l l l ll l l l l l l l l l l l ll l ll l l l l ll l l l ll ll l l l l l ll l l ll l l l l l l l ll l l l ll l l l l l l l l l ll l l l lll l l l l lll l l l l ll l l l l l l l l l l l l ll l l l l l lll l l l ll l ll l l l l l l l l l l l l l l l l l l l l l l l ll l l l l l l l l l l l ll l ll l l ll l l ll l l l l l l l l l l l ll l l l l l ll l ll l l l l l l ll l l l l l l l l l l l l l l l l l l lll l 0 100 300 500 0 1 2 3 4 5 6 Gráfico de Dispersão números aleatórios O bs er va çõ es Figura : Gráfico de Dispersão 9 Amostragem O comando sample e´ utilizado para obter uma amostra de tamanho espe- c´ıfico com ou sem reposic¸a˜o, dado uma entrada de dados. O comando usado e´ sample(x, size, replace = FALSE, prob = NULL). Primeiramente inserimos os valores de x. > x <- 1:20 > x [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Em seguida geramos uma permutac¸a˜o aleato´ria utilizando o comando sample(x) ou sample(x, replace = FALSE), bem como uma amostragem com reposic¸a˜o. > sample(x) [1] 1 18 12 15 4 10 5 17 6 16 8 7 2 9 14 19 13 20 11 3 > sample(x, replace = TRUE) [1] 13 8 1 17 1 1 6 18 6 11 3 8 6 2 5 9 9 19 3 2 E, por fim, geramos cem amostras Bernoulli, com p = 12 . > sample(c(0, 1), 100, replace = TRUE) [1] 1 1 1 0 0 0 0 0 1 0 0 1 0 0 0 1 1 1 0 1 0 1 0 0 0 0 1 1 0 1 0 0 0 0 0 1 1 [38] 1 1 1 0 0 0 0 1 1 1 0 1 1 0 0 1 1 1 1 0 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 1 1 [75] 0 1 1 1 1 1 0 0 1 0 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 Com o comando sample(x, n) obtemos uma amostra de tamanho n de x, como no exemplo abaixo, temos uma amostra de 5 elementos dentre os 20. > sample(x, 5) [1] 20 19 8 12 18 10 Teste de Hipo´teses Nessa parte estudaremos um dos principais to´picos da infereˆncia estat´ıstica: testes de hipo´teses. Primeiramente apresentaremos o teste para a me´dia com variaˆncia desconhecida e, em seguida, o teste para me´dia com variaˆncia conhe- cida. 11 Teste para a Me´dia e Proporc¸a˜o Populacio- nal 11.1 Teste para Me´dia com Variaˆncia Desconhecida Nesse caso na˜o se tem informac¸o˜es sobre a variaˆncia da varia´vel aleato´ria que esta´ sendo estudada. A princ´ıpio manteremos a suposic¸a˜o de que a varia´vel aleato´ria de interesse tenha distribuic¸a˜o Normal. Como o desvio-padra˜o e´ desconhecido, esse precisa ser estimado. Apo´s alguns ca´lculos e supondo que a nossa amostra aleato´ria seja representada pelo vetor de varia´veis aleato´rias (X1, ...Xn), onde X1 ∼ N(µ, σ2), obtem-se que o estimador para σ2 e´ a variaˆncia amostral S2, isto e´, S2 = ∑n i=1X 2 i − nX 2 n− 1 Define-se, enta˜o, a varia´vel padronizada, que tambe´m e´ uma varia´vel aleato´- ria como, T = X − µ√ S2 n = X − µ S√ n Essa varia´vel T tem uma distribuic¸a˜o t de Student com (n − 1) graus de liberdade e converge para a distribuic¸a˜o Normal padra˜o com grandes amostras. Exemplo 8.5 (Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 259).: Deseja-se investigar se uma certa mole´stia que ataca o rim altera o consumo de oxigeˆnio desse o´rga˜o. Para indiv´ıduos sadios, admite-se que esse consumo tem distribuic¸a˜o Normal com me´dia 12 cm3 por min. Os valores medidos em cinco pacientes com a mole´stia foram: 14,4; 12,9; 15,0; 13,7 e 13,5. Qual seria a conclusa˜o ao n´ıvel de 1 % de significaˆncia? As hipo´teses a serem testadas sa˜o: H0: A mole´stia na˜o altera a me´dia de consumo renal de oxigeˆnio; Ha: Indi- v´ıduos portadores da mole´stia teˆm me´dia alterada. Isso equivale a testar em termos de me´dia populacional se: Hipo´teses = { H0 : µ = 12 H1 : µ 6= 12 Insere-se os dados e realiza-se o teste de hipo´tese pelo comando t.test(). > x = c(14.4, 12.9, 15, 13.7, 13.5) > t.test(x, alternative = "two.sided", mu = 12, conf.level = 0.01) One Sample t-test data: x t = 5.2099, df = 4, p-value = 0.006472 alternative hypothesis: true mean is not equal to 12 1 percent confidence interval: 13.89514 13.90486 sample estimates: mean of x 13.9 Nesse caso tem-se uma amostra independente X1...Xn e objetiva-se verificar se a me´dia e´ igual a um valor espec´ıfico, 12.0. Pelo saida do R, obtem-se que o Xobs = 13, 9, tobs ∼= 5.20, os graus de liberdade do teste e´ igual a 4 e o p-valor do teste, 0.006472 . Pela tabela da distribuic¸a˜o t-Student com 4 graus de liberdade obtemos os valores da regia˜o cr´ıtica. Assim, RC = {t�<|t < −4.604 ou t > 4.604} Por esse resultado, percebe-se que tobs� RC, logo rejeita-se a hipo´tese nula, isto e´, a mole´stia tem influeˆncia no consumo renal me´dio de oxigeˆnio ao n´ıvel de significaˆncia de um por cento. Outro resultado importante que o software fornece e´ o intervalo de confi- anc¸a(IC). No caso de IC γ para µ com variaˆncia desconhecida e´ dado por: IC(µ, γ) = [ X − t γ 2 S√ n ;X + t γ 2 S√ n ] No exemplo acima, o IC(µ, 0.90) = [13.89514; 13.90486]. Logo, como o IC encontrado na˜o inclui o valor 12 para µ, que foi estabelecido na hipo´tese nula, rejeita-se H0. Alguns to´picos relevantes: Pelo comando t.test() tambe´m conseguimos fazer testes unilaterais, tendo apenas que escolher as opc¸o˜es ”less”ou ”greater”em alternative; A func¸a˜o poder do teste e´ pi(µ) = 1 − β(µ), e´ a probabilidade de rejeitar corretamente a hipo´tese nula dado que ela e´ falsa, ou seja, e´ a probabilidade e se rejeitar H0 como func¸a˜o µ, isto e´, e´ a probabilidade complementar do erro tipo II, β; Para analisar os resultados de um teste de hipo´teses podemos fixar o α ou usar o p-valor; 11.2 Teste para Me´dia com Variaˆncia Conhecida Nesse caso se tem informac¸o˜es sobre a variaˆncia da varia´vel aleato´ria que esta´ sendo estudada. A princ´ıpio manteremos a suposic¸a˜o de que a varia´vel aleato´ria de interesse tenha distribuic¸a˜o Normal. Exemplo 8.3(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 252) : Um pesquisador deseja estudar o efeito de certa substaˆncia no tempo de reac¸a˜o de seres vivos a um certo tipo de est´ımulo. Um experimento e´ desenvolvido com cobaias que sa˜o inoculadas com a substaˆncia e submetidas a um est´ımulo ele´trico, com seus tempos de reac¸a˜o(em segundos) anotados. Os seguintes valores foram obtidos: 9, 1; 9, 3; 7, 2; 7, 5; 13, 3; 10, 9; 7, 2; 9, 9; 8, 0; 8, 6. Admite-se que o tempo de reac¸a˜o segue, em geral, o modelo Normal com me´dia 8 e desvio padra˜o σ = 2 segundos. O pesquisador desconfia, entretanto, que o tempo me´dio sofre alterac¸a˜o por influeˆncia da substaˆncia. Neste caso, as hipo´teses de interesse sa˜o: H0: As cobaias apresentam tempo de reac¸a˜o padra˜o; Ha: As cobaias teˆm o tempo de reac¸a˜o alterado. Isso equivale a testar em termos estat´ısticos que essas hipo´teses envolvem o paraˆmetro µ, de me´dia populacional,e podem ser escritas como: Hipo´teses = { H0 : µ = 8, 0 H1 : µ 6= 8, 0 Dado que o teste envolve µ, considera-se a me´dia amostral,X, para construir a estat´ıstica de teste; onde X ∼ N(µ, 410 ) e a regia˜o cr´ıtica, RC e´ dada por: RC = {x � < : x < xc1 ou x > xc2} Fixando α = 0, 06, tem-se que: 0.06 = P (erro tipoI) = P (rejeitar H0|H0 verdadeira) = P (X � RC|µ = 8.0) = P (X < xc1 ou X > xc2 |µ = 8.0) = P X − 8.0√ 4 10 < xc1 − 8.0√ 4 10 ou X − 8.0√ 4 10 > xc1 − 8.0√ 4 10 = P (Z < zc1 ou Z > zc2) onde, zc1 = (a− 8.0)√ 4 10 zc2 = (b− 8.0)√ 4 10 dado xc1 = a e xc1 = b onde, j = 1, 2 e Z ∼ N(0, 1). Logo, zc1 = −1.88 e zc2 = 1.88. Renomeando xc1 = a e xc2 = b calculam-se esses valores no R da seguinte forma: > v <- sqrt(0.4) > v [1] 0.6324555 > a <- (8 - (1.88 * v)) > a [1] 6.810984 > b <- (8 + (1.88 * v)) > b [1] 9.189016 Logo, RC = { x � < : x < 6.8 ou x > 9.2}. Agora, por meio do comando abaixo, calcula-se a me´dia amostral observada.> x = c(9.1, 9.3, 7.2, 7.5, 13.3, 10.9, 7.2, 9.9, 8, 8.6) > mean(x) [1] 9.1 Calculando a me´dia amostral obtem-se que Xobs = 9.1. Como este valor na˜o pertence a` regia˜o cr´ıtica, aceita-se H0 ao n´ıvel de significaˆncia de 6%, isto e´, o tempo de reac¸a˜o das cobais submetidas a` substaˆncia na˜o fica alterado. 11.3 Teste de Proporc¸a˜o No teste de proporc¸a˜o sa˜o utilizados os mesmos conceitos dos testes de hi- po´teses para a me´dia populacionais, mas o interesse, nesse caso, e´ na proporc¸a˜o de alguma caracter´ıstica na populac¸a˜o. Exemplo 8.4(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 255).: Um relato´rio de uma companhia afirma que 40% de toda a a´gua obtida, atrave´s de poc¸os artesianos no nordeste, e´ salobra. Ha´ muitas controve´rsias sobre essa informac¸a˜o, alguns dizem que a proporc¸a˜o e´ maior, outros que e´ menor. Para dirimir as du´vidas, 400 poc¸os foram sorteados e observou-se, em 120 deles, a´gua salobra. Qual seria a conclusa˜o, ao n´ıvel de 3% ? O primeiro passo e´ estabelecer as hipo´teses nula e alternativa. O paraˆmetro de interesse e´ a proporc¸a˜o de poc¸os com a´gua salobra dentre todos os poc¸os no nordeste. Essa proporc¸a˜o sera´ representada por p. Enta˜o, o teste bilateral sera´: Hipo´teses = { H0 : p = 0.4 Ha : p 6= 0.4 Sabe-se que o melhor estimador para p e´ a proporc¸a˜o amostral pˆ cuja distri- buic¸a˜o pode ser aproximada pela distribuic¸a˜o Normal, ou seja, pˆ ∼ N(p, p(1−p)n ) e a regia˜o cr´ıtica desse teste e´ RC = {x�<|x < pc1 ou x > pc2} Logo, para α = 0.03,e tendo pc1 = a e pc2 = b, os seus valores sa˜o calculados por: P (pˆ < a|H0) = 0.03 2 e P (pˆ < b|H0) = 0.03 2 Portanto, pˆ ∼ N(0.4, 0.4∗0.6400 )= pˆ ∼ N(0.4, 0.24400 ). Assim, 0.03 2 = 0.015 = P (pˆ < a|H0) = P pˆ− 0.4√ 0.24 400 < a− 0.4√ 0.24 400 Da tabela da Normal(0, 1) obtem-se que: − 2.17 = a− 0.4√ 0.24 400 e 2.17 = b− 0.4√ 0.24 400 Logo, a = 0.347 e b = 0.453. Com isso, RC = {x�<|x < 0.347 ou x > 0.453}. > v <- sqrt(0.24/400) > v [1] 0.02449490 > a <- (0.4 - (2.17 * v)) > a [1] 0.3468461 > b <- (0.4 + (2.17 * v)) > b [1] 0.4531539 Calculando o p̂obs: > p <- 120/400 > p [1] 0.3 Como p̂obs = 0.3 pertence a` RC, ha´ evideˆncias estat´ısticas suficientes de que a hipo´tese nula deve ser rejeitada ao n´ıvel de significaˆncia de 3%; ou seja, o relato´rio da companhia na˜o esta´ correto, a quantidade de toda a´gua salobra obtida, atrave´s de poc¸os artesianos no nordeste, e´ diferente de 40%. Pode-se, ainda, usar o comando prop.test para fazer o teste de proporc¸a˜o no R. Nesse exemplo, tem-se os seguintes comandos (onde 120 poc¸os a a´gua e´ salobra, 400 e´ o total de poc¸os, p = 40%): > prop.test(120, 400, p = 0.4, alternative = "two.sided", conf.level = 0.97) 1-sample proportions test with continuity correction data: 120 out of 400, null probability 0.4 X-squared = 16.2526, df = 1, p-value = 5.543e-05 alternative hypothesis: true p is not equal to 0.4 97 percent confidence interval: 0.2516625 0.3531082 sample estimates: p 0.3 12 Comparac¸a˜o de Me´dias - Teste t pareado No teste de hipo´tese para comparac¸a˜o de duas me´dias ha´ uma necessidade de saber como os dados esta˜o dispostos, pois conforme a forma dos dados toma-se um procedimento diferente. Esse fato ficara´ mais claro conforme for avanc¸ando na leitura dos to´picos abaixo. Por exemplo: se os dados forem pareados, usa-se um teste t pareado; mas quando os dados sa˜o independentes, usa-se o teste t condicionado ao conhecimento do valor e igualdade das variaˆncias. Para amostras dependentes, tem-se duas amostras X1,...,Xn e Y1,...,Yn, onde essas observac¸o˜es sa˜o pareadas, ou seja, ha´ uma amostra aos pares (X1, Y1), ..., (Xn, YN ). Quando as amostras sa˜o pareadas ha´ a possibilidade de medic¸a˜o em unidades amostrais diferentes, mas homogeˆneas. Nesse caso, representa-se as medidas tomadas antes e apo´s a intervenc¸a˜o realizada pelas varia´veis aleato´rias Xi e Yi, respectivamente. Assim, chamamos de Di = Yi−Xi o efeito produzido para o i-e´simo indiv´ıduo. Se para i = 1, ..., n, tem-se Di ∼ N(µD, σ2D). Logo, testa-se as seguintes hipo´teses: Hipo´teses = { H0 : µD = 0 H1 : µD 6= 0 O paraˆmetro µD e´ estimado pela me´dia amostral D e, na˜o sabendo o valor de σ2D, estima-se esse por S 2 D e obtem-se: S2 = ∑n i=1(Di −D)2 n− 1 A estat´ıstica do teste e´ dada por: T = D − µD SD√ n Exemplo 9.1(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 294).: Uma distribuidora de combust´ıveis deseja verificar se um novo tipo de gasolina e´ eficaz na revitalizac¸a˜o de motores velhos. Com esse objetivo, seleciona 12 automo´veis de um mesmo modelo com mais de 8 anos de uso e, apo´s regulagem de seus motores, verifica o consumo de combust´ıvel. Em seguida, o carro e´ abastecido com o novo tipo de combust´ıvel durante 15 semanas, e uma nova aferic¸a˜o do consumo e´ feita. Defina as varia´veis aleato´rias Xi e Yi como o rendimento do automo´vel i respec- tivamente antes e apo´s as 15 semanas. Vemos que Xi e Yi foram medidas em uma mesma unidade amostral e,a assim, e´ razoa´vel assumir que exista alguma dependeˆncia entre elas. Ressaltamos que, para i 6= j, devemos ter Xi 6= Xj in- dependentes. O mesmo deve ocorrer para Yi e Yj . Ao medir a caracter´ıstica de interesse em duas ocasio˜es, para cada uma das unidades amostrais, pretende-se diminuir a influeˆncia de outros fatores(muitas vezes imposs´ıveis de serem con- trolados) e ressaltar um poss´ıvel efeito do tipo de gasolina no desempenho do ve´ıculo(pag.296). Os valores observados,em km/l, junto com as diferenc¸as Di, para os 12 automo´veis sa˜o > y = c(11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6, + 10.5, 11.4) > x = c(8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8, 9.5, 8, 6.8) > d = y - x > d [1] 3.5 0.9 3.1 1.7 4.0 1.2 4.9 2.4 5.4 1.1 2.5 4.6 Para verificar se o rendimento aumenta ou na˜o, faz-se um box-plot para as varia´veis x e y e testa se Hipo´teses = { H0 : µD = 0 H1 : µD > 0 onde, µD = E(Y −X). Com os dados obtem-se o Dobs = 2, 9 e estima-se σ 2 D por s 2 Dobs = 2, 4. > mean(d) [1] 2.941667 > var(d) [1] 2.428106 l l Antes Depois 6 8 10 12 Box plot Agora calcula-se a estat´ıstica tobs sob h0. Paired t-test data: y and x t = 6.5396, df = 11, p-value = 2.097e-05 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 2.133833 Inf sample estimates: mean of the differences 2.941667 O comando usado para obter o resultado acima foi t.test(y, x, alternative = ”greater”, paired = TRUE,mu = 0, conf.level = 0.95). Verifica-se que o inter- valo de confianc¸a vai de [2.133833 Inf); mas, na verdade, essa informac¸a˜o serve apenas para o teste, ou seja, para ver que o valor zero na˜o esta´ no intervalo, na˜o servindo para a estimativa. Caso queira saber que o verdadeiro valor desse e´ de [1.95 3,93], deve calcular manualmente, como abaixo. > qt(0.975, length(d) - 1) [1] 2.200985 > mean(d) + 2 * sqrt(var(d)/12) [1] 3.841316 > mean(d) - 2 * sqrt(var(d)/12) [1] 2.042017 Usando o comando t.test(d, alternative = ”greater”,mu = 0, conf.level = 0.95), obtem-se resultados iguais ao comando t.test(y, x, alternative = ”greater”, paired = TRUE,mu = 0, conf.level = 0.95). A diferenc¸a entre esses dois co- mandos e´ o uso de d como a diferenc¸a entre y e x, pois os dados sa˜o pareados, na˜o precisando usar paired = TRUE. Com α = 0, 05 e da tabela t-Student, obtem-se tc=1,796 e do resultadodo R, tobs=6,5 e, em seguida, o intervalo de confianc¸a [2.133833,∞[. Logo, rejeita-se a hipo´tese nula, verificando que o novo combust´ıvel e´ eficaz na melhora do rendi- mento, acarretando diminuic¸a˜o do consumo para o tipo de ve´ıculo considerado no experimento. 12.1 Teste para Comparac¸a˜o de Duas Me´dias de amostras independentes com Variaˆncias Desconhecidas Supondo que se tem amostras independentes X1...Xn e Y1...Yn de duas po- pulac¸o˜es P1 e P2, testaremos se as me´dias dessas populac¸o˜es podem ser consi- deradas iguais ou na˜o. Observa-se que informac¸o˜es adicionais podem fornecer subs´ıdios para o co- nhecimento dos valores das variaˆncias populacionais, no entanto, e´ muito dif´ıcil conhecer o valor da variaˆncia em questa˜o. Logo, verifica-se que os processos geradores dos dados podem auxiliar na obtenc¸a˜o dessa informac¸a˜o. 12.1.1 Variaˆncias Desconhecidas e Iguais Exemplo 9.7(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 305): Digitadores sa˜o trei- nados em uma empresa em duas turmas distintas. Na primeira, denominada Turma J, utiliza-se o me´todo japoneˆs de ensino, ao passo que na segunda turma, denominada Turma A, utiliza-se um me´todo alema˜o. Deseja-se comparar os dois me´todos e para tanto, 16 alunos de cada turma foram escolhidos aleatoriamente e uma mesma tarefa foi atribu´ıda a cada um. Ao final do experimento, o tempo gasto na realizac¸a˜o da tarefa, para cada aluno, foi anotado. No processo, dois computadores utilizados pelos alunos selecionados da turma J e treˆs da turma A apresentaram problemas que impediram a realizac¸a˜o da tarefa; o tamanho da amostra foi assim reduzido para 14 e 13, respectivamente, para as turmas J e A. Apesar de na˜o conhecidas, as variaˆncias populacionais para as duas turmas sa˜o consideradas iguais com base em estudos anteriores. Os dados obtidos foram: > j = c(10, 13, 9, 10, 14, 13, 10, 15, 12, 10, 9, 10, 13, 14) > a = c(15, 12, 18, 16, 15, 17, 17, 15, 16, 17, 11, 17, 14) Supo˜e-se que os dados para a turma J sa˜o representados por varia´veis alea- to´rias independentes X1, ..., Xn1 , e Y1, ..., Yn2 para a turma A. Ale´m disso, Xi ∼ N(µX , σ 2), i = 1, ..., n1 e Yi ∼ N(µY , σ2), j = 1, ..., n2. Ale´m disso as hipo´teses a serem testadas sa˜o: Hipo´teses = { H0 : µX = µY H1 : µX 6= µY sendo, µD = E(Y −X), ou seja, e´ a diferenc¸a do tempo me´dio populacional para os alunos da turma J e da turma A. As amostras dessas turmas fornecem os seguintes valores: > mean(j) [1] 11.57143 > mean(a) [1] 15.38462 > d = c(mean(j) - mean(a)) > d [1] -3.813187 Fazendo o teste de hipo´tese t. > t.test(j, a, alternative = "two.sided", var.equal = TRUE, mu = 0, + conf.level = 0.99) Two Sample t-test data: j and a t = -4.7965, df = 25, p-value = 6.313e-05 alternative hypothesis: true difference in means is not equal to 0 99 percent confidence interval: -6.029173 -1.597201 sample estimates: mean of x mean of y 11.57143 15.38462 Logo, os me´todos de ensino diferem a um n´ıvel de significaˆncia de 0,01. 12.1.2 Variaˆncias Desconhecidas e Diferentes Exemplo(Montgomery): A concentrac¸a˜o de Arseˆnico na a´gua pota´vel pu´blica e´ um potencial risco a` sau´de. Um artigo deArizonaRepublic(Sunday,May, 27, 2001) mencionou a existeˆncia de concentrac¸a˜o de Arseˆnico na a´gua em partes por bi- lha˜o(ppb) em 10 comunidades da regia˜o metropolitana de Phoenix e 10 comu- nidades no Arizona rural. Os dados foram X, Metro Phoenix e Y, Rural Arizona: > x <- c(3, 7, 25, 10, 15, 6, 12, 25, 15, 7) > y <- c(48, 44, 40, 38, 33, 21, 20, 12, 1, 18) A hipo´tese a ser testada e´: Hipo´teses = { H0 : µx = µy H1 : µx 6= µy Calculando a me´dia, variaˆncia e desvio padra˜o. > mean(x) [1] 12.5 > var(x) [1] 58.27778 > sd(x) [1] 7.633988 > mean(y) [1] 27.5 > var(y) [1] 235.6111 > sd(y) [1] 15.34963 Fazendo um gra´fico para os dados. Metro Phoenix Rural Arizona 0 10 20 30 40 Box plot Fazendo o teste t. > t.test(x, y, alternative = "two.sided", var.equal = FALSE, paired = FALSE, + mu = 0, conf.level = 0.95) Welch Two Sample t-test data: x and y t = -2.7669, df = 13.196, p-value = 0.01583 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -26.694067 -3.305933 sample estimates: mean of x mean of y 12.5 27.5 Conclui-se que a hipo´tese nula e´ rejeitada, ou seja, ha´ diferenc¸a estat´ıstica nas me´dias de concentrac¸a˜o de Arseˆnico entre as comunidades. 12.2 Teste para Comparac¸a˜o de Duas Me´dias de amostras independentes com Variaˆncias Conhecidas Exemplo 9.6(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 294).: Uma empresa avalia- dora de imo´veis esta´ estudando as regio˜es central(E) e oeste(O) da cidade de Sa˜o Paulo. O objetivo principal e´ verificar se o prec¸o me´dio, praticado para imo´veis comerciais de um dado tamanho, e´ o mesmo nas duas a´reas. De levantamentos anteriores, a empresa sabe que a a´rea oeste apresenta uma heterogeneidade de prec¸os imobilia´rios(em UPC-unidade padra˜o de construc¸a˜o) maior do que a re- gia˜o central, sendo os desvios padro˜es iguais a 0,82 UPC para a regia˜o oeste e 0,71 UPC para a regia˜o central. Para verificar se os prec¸os me´dios sa˜o iguais ou na˜o, duas amostras, uma de tamanho 20 e outra de tamanho 18 foram retiradas aleatoriamente de cada regia˜o. Os dados sa˜o os seguintes: > E <- c(41.2, 40.5, 39.6, 39.4, 38.9, 39.1, 40.9, 41.2, 40.4, + 40, 40.6, 40.3, 39.2, 40.6, 39.7, 40.3, 40.9, 39.6, 39.7, + 41.2) > O <- c(37.2, 34.9, 38.1, 35.4, 35.7, 37.7, 36.4, 36.6, 36.1, + 37.4, 36.1, 35.9, 36.9, 37.4, 37.5, 38, 36.8, 36.4) Testa-se as hipo´teses: Hipo´teses = { H0 : µX = µY H1 : µX 6= µY Primeiramente, calcula-se algumas medidas descritivas e faz-se um boxplot. > mean(E) [1] 40.165 > var(E) [1] 0.5381842 > sd(E) [1] 0.7336104 > mean(O) [1] 36.69444 > var(O) [1] 0.8264379 > sd(O) [1] 0.9090863 Central−E Oeste−O 35 36 37 38 39 40 41 Box plot Percebe-se que os dados sa˜o obtidos de duas populac¸o˜es Normais tal que: E ∼ N(µE , σ 2 E 20 ) e O ∼ N(µO, σ 2 O 18 ) Calculando o valor da variaˆncia de D, onde D=E −O: V arDbarra = V arD = V arE + V arO Para α = 0.05, obtem-se os valores cr´ıticos na tabela da Normal padra˜o. > LI <- qnorm(0.025) * sqrt(VarDbarra) + 0 > LI [1] -0.4902283 > LS <- qnorm(0.975) * sqrt(VarDbarra) + 0 > LS [1] 0.4902283 ou enta˜o calcula-se: P (rejeitarH0|H0verdadeira) = P (D�RC|µE−µO = 0) = P (Z < LI√ 0.06 ou Z > LS√ 0.06 ) onde LI=Limite Inferior e LS= Limite Superior. Logo, RC = {d � < : d < −0.49 ou d > 0.49}. Como Dobs = 40.2− 36.7 = 3.50 pertence a` regia˜o cr´ıtica, rejeita-se H0, ou seja, os imo´veis situados nas regio˜es central e oeste teˆm prec¸os me´dios diferentes ao n´ıvel de significaˆncia de 0.05. Exemplo(wiener.math.csi.cuny.edu/Statistics/R/simpleR/stat011.html): Su- ponha que uma fa´brica de carros diga que um modelo fac¸a 25 km por litro. Um consumidor pede para que 10 donos desse modelo calcule quantos km por litro e o valor me´dio foi de 22 com desvio padra˜o de 1.5. Essa afirmac¸a˜o da fa´brica de carros e´ verdadeira? Nesse caso temos o seguinte teste de hipo´tese: Hipo´teses = { H0 : µ = 25 H1 : µ 6= 25 Para testa´-la, usando o R, simplesmente informa-se ao R o tipo de teste conveniente. Para esse exemplo, a func¸a˜o t.test na˜o ira´ funcionar ( o conjunto de dados ja´ esta´ resumido), enta˜o no´s estamos por nossa conta. Calcula-se o teste estat´ıstico e depoiso p-valor. > xbar = 22 > s = 1.5 > n = 10 > t = (xbar - 25)/(s/sqrt(n)) > t [1] -6.324555 > pt(t, df = n - 1) [1] 6.846828e-05 Logo, rejeita-se H0, ou seja, a afirmac¸a˜o da fa´brica de carros na˜o e´ confia´vel. 13 Teste para Variaˆncia Conforme vimos acima, se as variaˆncias sa˜o iguais ou diferentes, conhecidas ou na˜o, tem-se que realizar procedimentos diferentes em cada caso. Assim, e´ preciso verificar a igualdade de variaˆncias, o que sera´ exposto nesse to´pico. O teste para variaˆncia tem como objetivo estudar a dispersa˜o dos valores em uma ou mais populac¸o˜es, atrave´s de suas variaˆncias. Exemplo do R help.: Verifique se X e Y tem as mesmas variaˆncias. Primeiramente faz um teste F para comparar as duas variaˆncias. Em seguida analisa os resultados e faremos o box-plot dos dados. Hipo´teses = { H0 : σ 2 x = σ 2 y H1 : σ 2 x 6= σ2y Dado que X ∼ N(0, 4) e Y ∼ N(1, 1), faremos: Entrada de dados. > x <- rnorm(50, mean = 0, sd = 2) > y <- rnorm(30, mean = 1, sd = 1) Gra´fico box plot para as varia´veis. > boxplot(x, y, main = "Box plot", names = c("X", "Y")) X Y − 4 − 2 0 2 4 Box plot Teste de igualdade de variaˆncia pelo comando var.test: > var.test(x, y) F test to compare two variances data: x and y F = 4.5284, num df = 49, denom df = 29, p-value = 4.43e-05 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 2.275171 8.519799 sample estimates: ratio of variances 4.528396 Portanto, ao n´ıvel de significaˆncia de 0,05 , ha´ evideˆncias de que as variaˆncias sa˜o diferentes, dado que o valor testado, 1, na˜o se encontra no intervalo de confianc¸a do teste. Logo, rejeita-se H0. 14 Distribuic¸a˜o Amostral da Me´dia A distribuic¸a˜o amostral da estat´ıstica X, a me´dia amostral, e´ o estudo das me´dias de todas as poss´ıveis AAS de tamanho n de uma populac¸a˜o, ou seja, dada uma populac¸a˜o identificada pela varia´vel aleato´ria X, cujos paraˆmetros sa˜o a me´dia populacional µ = E(X) e a variaˆncia populacional σ2 = V ar(X), retira-se todas as AAS, calcula a me´dia de cada uma delas e, em seguida, estuda- se as propriedades da distribuic¸a˜o amostral obtida. Como exemplo gera-se uma AAS de 50 unidades de uma Uniforme(runif(50)), dessa populac¸a˜o tira-se as AAS(combn),calcula-se suas me´dias(mean) e variaˆn- cias(var) e, no final, faz o histograma com as me´dias de cada uma das as amos- tras(hist)e verifica-se que quanto maior o tamanho da amostra mais ela tende para uma distribuic¸a˜o Normal. > require(caTools) > aaa <- combn(1:50, 5) > vet <- runif(50) > amostra <- function(indice) { + vet[indice] + } > amostra(c(1, 3, 5)) > amostra <- apply(aaa, 1, amostra) > todas <- apply(aaa, 1, amostra) > medidas <- apply(todas, 2, mean) > mean(vet) > var(vet) > mean(medidas) > var(medidas) > hist(medidas) Os dados abaixo mostram a me´dia(0,4970966) e a variaˆncia(0,06781833) da populac¸a˜o e a me´dia(0,4970966) e a variaˆncia(0,01220731) da distribuic¸a˜o amos- tral da me´dia com n=5, bem como o histograma dessa distribuic¸a˜o. Podemos verificar, facilmente, que as me´dias da populac¸a˜o e a me´dia final das amostras de tamanho 5 sa˜o iguais, mas as variaˆncias na˜o. Isso se da´ porque a distribuic¸a˜o amostral da me´dia tem me´dia µ e variaˆncia σ 2 n , onde µ e σ 2 sa˜o, respectivamente a me´dia e a variaˆncia da populac¸a˜o. Verifica-se,enta˜o, essa diferenc¸a, calculando a relac¸a˜o entre essas duas variaˆncias. [1] 0.4970966 [1] 0.06781833 [1] 0.4970966 [1] 0.01220731 > varpop <- var(vet) > varamos <- var(apply(todas, 2, mean)) > varcalc <- varpop/5 Percebe-se, enta˜o, que o valor da variaˆncia calculada(varcalc) e´ igual ao valor da variaˆncia da distribuic¸a˜o amostral da me´dia. Logo, tem-se que a variaˆncia da distribuic¸a˜o amostral e´ igual a raza˜o entre a variaˆncia populacional e o tamanho da amostra, no caso, n=5. Histograma n=5 Fr eq uê nc ia 0.2 0.4 0.6 0.8 0e +0 0 1e +0 5 2e +0 5 3e +0 5 Quando o tamanho da amostra aumenta, independentemente da forma da distribuic¸a˜o da populac¸a˜o, a distribuic¸a˜o amostral de X aproxima-se cada vez mais de uma distribuic¸a˜o Normal, resultado esse conhecido como TLC, Teorema Limite Central. Observe que: E(X) = µ e V ar(X) = σ2 n Agora iremos gerar 100 amostras de tamanho 5 da distribuic¸a˜o de Poisson(1) usando o comando set.sedd e rpois. > set.seed(123) > aaa <- rpois(500, 1) > aaa <- matrix(aaa, ncol = 5) > dim(aaa) [1] 100 5 O pro´ximo passo e´ calcular a me´dia de cada uma dessas 100 amostras. > ybarras <- apply(aaa, 1, mean) Dando continuidade, aumenta-se o tamanho de amostra para n = 200 e repete-se o procedimento. > bbb <- rpois(20000, 1) > bbb <- matrix(bbb, ncol = 200) > dim(bbb) [1] 100 200 Calcula-se a me´dia de cada uma dessas 100 amostras. > xbarras <- apply(bbb, 1, mean) A seguir verifica-se a distribuic¸a˜o de Y e de X para n = 5 e n = 200, respectivamente, fazendo os seus histogramas. Histograma n=5 Fr eq uê nc ia 0.0 0.5 1.0 1.5 2.0 2.5 0 5 15 25 0.0 0.5 1.0 1.5 2.0 0 1 2 3 4 5 6 Curva Normal y Fr eq uê nc ia Histograma n=200 Fr eq uê nc ia 0.0 0.5 1.0 1.5 2.0 2.5 0 5 15 25 0.0 0.5 1.0 1.5 2.0 0 1 2 3 4 5 6 Curva Normal x Fr eq uê nc ia No exemplo seguinte mostra-se como a distribuic¸a˜o amostral do estimador para a me´dia populacional, X, se modifica de acordo com o aumento no tamanho de amostra. No primeiro comando plotamos dois gra´ficos em um u´nico eixo. O primeiro exemplo e´ para n=10, n=50 e o terceiro para a populac¸a˜o. > curve(dnorm(x, 5, 5/sqrt(10)), -20, 20, ylim = c(0, 0.6), col = "violet", + ylab = "Freque^ncia", main = "Distribuc¸~ao Amostral da Me´dia") > curve(dnorm(x, 5, 5/sqrt(50)), -20, 20, ylim = c(0, 0.6), add = T, + col = "orange", ylab = "Freque^ncia", main = "Distribuc¸~ao Amostral da Me´dia") > curve(dnorm(x, 5, 5), -20, 20, ylim = c(0, 0.6), add = T, col = "red", + ylab = "Freque^ncia", main = "Distribuc¸~ao Amostral da Me´dia") > legend(-21, 0.6, c("Populac¸~ao", "n=50", "n=10"), cex = 1, fill = c("red", + "orange", "violet")) > title(sub = "Figura : Gra´fico da Normal") −20 −10 0 10 20 0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 Distribução Amostral da Média x Fr eq uê nc ia População n=50 n=10 Figura : Gráfico da Normal Note como a variaˆncia da me´dia amostral depende do tamanho da amostra. O gra´fico vermelho, da populac¸a˜o, a distribuic¸a˜o e´ semelhante a` distribuic¸a˜o Normal. Ja´ o gra´fico violeta e laranja, com uma amostra de tamanho 10 e 50, respectivamente, tambe´m apresenta distribuic¸a˜o Normal, pore´m com variaˆncia menor. Como as distribuic¸o˜es sa˜o normais, o gra´fico esta´ centrado em torno da me´dia. O que influencia mais e´ a alterac¸a˜o da variaˆncia, ou seja, quanto menor a variaˆncia, a estimativa fica cada vez melhor. Refereˆncias Bussab, Wilton de O. and Morettin, Pedro A. (2008). Estat´ıstica Ba´sica,5ª ed. Editora Saraiva. Magalha˜es, Marcos Nascimento and Lima, Antonio Carlos Pedroso de (2004). Noc¸o˜es de Probabilidade e Estat´ıstica, 6ª ed. EdUsp. Douglas C. Montgomery, George C. Runger (2007). Applied statistics and probability for engineers,4ª ed. Editora John Wiley & Sons, Ltd. Murrell, Paul (2006). R Graphics. Editora Chapman & Hall/CRC. Kuhnert, P.; Venables, B.(2005). An Introduction to R: Software for Sta- tistical Modelling & Computing. CSIRO Mathematical and Information Sciences:Cleveland, Australia Peternelli,L.A.; Mello, M.P. de.(2007). Conhecendo o R: Uma visa˜o Estat´ıs- tica. Editora UFV: Universidade Federal de Vic¸osa . Beasley, Colin Robert (2004). Bioestat´ıstica Usando R. Apostila de exemplos para o Bio´logo.Universidade Federal do Para´ Campus de Braganc¸a. Crawley, Michael J.(2007)The R Book. Editora Wiley & Sons, Ltd Torgo, Lu´ıs(2006). Introduc¸a˜o a` Programac¸a˜o em R. Editora Grupo de Mate- me´tica e Informa´tica, Faculdade de Economia, Universidade do Porto CSI Math Department,Hypothesis Testing Technical report URL http://wiener.math.csi.cuny.edu/Statistics/R/simpleR/stat011.html . Acesso em 18 de novembro 2010. R Development Core Team (2001-2010). R Installation and Administration. Technical report URL http://www.r-project.org/. Acesso em 10 de abril 2010. R Development Core Team (2001-2010). R Data Import/Export. Technical report URL http://www.r-project.org/. Acesso em 23 de setembro 2010. Lumley,Thomas. (2006). R Fundamentals and Programming Techniques. Te- chnical report URL http://www.google.com.br/. Acesso em 18 de outubro 2010. R Development Core Team and UW Dept of Biostatistics Borries, George Freitas von (2007). Introduc¸a˜o a Linguagem de Programac¸a˜o R. Technical report URL http://aprender.unb.br/course/view.php?id=1725 . Acesso em 15 maio 2010. Monteiro, Leadro R. e Gomes-Jr, Jose´ Louvise (2006). Introduc¸a˜o a` Biometria utilizando R. Technical report. URL cran.r-project.org/doc/contrib/biometria.pdf . Acesso em 15 abril 2010. Junior, Paulo Justiniano Ribeiro (2005). Curso sobre o programa computaci- onal R. Technical report. URL http://www.leg.ufpr.br/Rpira/Rpira.pdf. Acesso em 9 abril 2010. Baron, Jonathan .R reference card. Technical report. URL http://aprender.unb.br/course/view.php?id=2486. Acesso em 20 de setembro 2010. Short, Tom.R Reference Card.(2004) Technical report. URL http://aprender.unb.br/course/view.php?id=2486. Acesso em 2 de dezembro 2010. Downloads and Links. Technical report. URL http://www.winedt.com/download.html. Acesso em 13 de abril de 2010. The R Project for Statistical Computing. Technical report. URL http://www.r-project.org/. Acesso em 9 de abril 2010. Download and install Tinn-R for Windows. Technical report. URL http://www.sciviews.org/Tinn-R/index.html. Acesso em 11 abril 2010. Download Now! Technical report. URL http://sourceforge.net/projects/tinn-r/. Acesso em 12 abril 2010. R Development Core Team e R Foundation for Statistical Computing (2008)R: A Language and Environment for Statistical Computing Technical report. URL http://www.R-project.org. Acesso em 13 de janeiro 2011. Introdução Variável Aleatória Discreta Função de Probabilidade Distribuição Bernoulli Distribuição Binomial Distribuição Poisson Variável Aleatória Contínua Função de Densidade de Probabilidade - f(x) ou f.d.p Distribuição Uniforme Distribuição Normal Distribuição Exponencial Esperança Inserindo dados Tabelas Medidas Descritivas Gráficos Simulando dados Amostragem Teste de Hipóteses Teste para a Média e Proporção Populacional Teste para Média com Variância Desconhecida Teste para Média com Variância Conhecida Teste de Proporção Comparação de Médias - Teste t pareado Teste para Comparação de Duas Médias de amostras independentes com Variâncias Desconhecidas Variâncias Desconhecidas e Iguais Variâncias Desconhecidas e Diferentes Teste para Comparação de Duas Médias de amostras independentes com Variâncias Conhecidas Teste para Variância Distribuição Amostral da Média
Compartilhar