Buscar

Apostila de estatística em R

Prévia do material em texto

Universidade de Bras´ılia
IE - Departamento de Estat´ıstica
Projeto Reuni
Apostila de Probabilidade Estat´ıstica usando o
software R
Iracema Veiga Madeira Mauriz
Relato´rio Final
Orientador: Prof.º Eduardo Monteiro de Castro Gomes
Bras´ılia
4 de fevereiro de 2011
Suma´rio
1 Introduc¸a˜o 4
2 Varia´vel Aleato´ria Discreta 4
2.1 Func¸a˜o de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Distribuic¸a˜o Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Distribuic¸a˜o Binomial . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Distribuic¸a˜o Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 Varia´vel Aleato´ria Cont´ınua 11
3.1 Func¸a˜o de Densidade de Probabilidade - f(x) ou f.d.p . . . . . . . 11
3.2 Distribuic¸a˜o Uniforme . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 Distribuic¸a˜o Normal . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4 Distribuic¸a˜o Exponencial . . . . . . . . . . . . . . . . . . . . . . 21
3.5 Esperanc¸a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 Inserindo dados 26
5 Tabelas 29
6 Medidas Descritivas 30
7 Gra´ficos 35
8 Simulando dados 42
9 Amostragem 46
10 Teste de Hipo´teses 47
11 Teste para a Me´dia e Proporc¸a˜o Populacional 48
11.1 Teste para Me´dia com Variaˆncia Desconhecida . . . . . . . . . . 48
11.2 Teste para Me´dia com Variaˆncia Conhecida . . . . . . . . . . . . 51
11.3 Teste de Proporc¸a˜o . . . . . . . . . . . . . . . . . . . . . . . . . . 54
12 Comparac¸a˜o de Me´dias - Teste t pareado 57
12.1 Teste para Comparac¸a˜o de Duas Me´dias de amostras indepen-
dentes com Variaˆncias Desconhecidas . . . . . . . . . . . . . . . . 62
12.1.1 Variaˆncias Desconhecidas e Iguais . . . . . . . . . . . . . 62
12.1.2 Variaˆncias Desconhecidas e Diferentes . . . . . . . . . . . 64
12.2 Teste para Comparac¸a˜o de Duas Me´dias de amostras indepen-
dentes com Variaˆncias Conhecidas . . . . . . . . . . . . . . . . . 67
13 Teste para Variaˆncia 71
14 Distribuic¸a˜o Amostral da Me´dia 73
Varia´veis Aleato´rias Discretas
1 Introduc¸a˜o
Esse material foi desenvolvido no aˆmbito do programa de Bolsas de Gradua-
c¸a˜o Reuni de Assisteˆncia ao ensino. Teve como objetivo introduzir os estudantes
das disciplinas ba´sicas de estat´ıstica ao Software gratuito e livre de programac¸a˜o
estat´ıstica R. Os to´picos aqui abordados permitem que os alunos desenvolvam
de forma pra´tica os aspectos teo´ricos abordados em sala de aula. O material esta´
organizado de forma que os to´picos abordados em cada sec¸a˜o sa˜o brevemente
revisados e sua aplicac¸a˜o e´ exemplificada com a utilizac¸a˜o do R.
2 Varia´vel Aleato´ria Discreta
O conceito de Varia´vel Aleato´ria Discreta X (v.a X) esta´ relacionado ao
conceito de uma func¸a˜o definida no espac¸o amostral Ω e assumindo valores
reais, ou seja, uma v.a X estara´ bem caracterizada se indicarmos os poss´ı-
veis valores x1, x2, ..., xn, ...que ela pode assumir e as respectivas probabilidades
p(x1), p(x2), ..., p(xn), ... .Define-se, enta˜o, uma v.a X por ser uma func¸a˜o, no
espac¸o amostral Ω, e com valores no conjunto enumera´vel de pontos da reta.
4
2.1 Func¸a˜o de Probabilidade
A func¸a˜o de probabilidade da v.a. discreta X, que assume valores x1, x2, ..., xn, ...
e´ a func¸a˜o (xi, p(xi)), que a cada valor de xi associa a sua probabilidade de ocor-
reˆncia, isto e´,
p(xi) = P (X = xi) = pi, i = 1, 2, ...
A func¸a˜o de distribuic¸a˜o acumulada ou f.d.a ou f.d F(x), dada uma v.a. X e´
dada por:
F (x) = P (X ≤ x)
O programa R possibilita calcular operac¸o˜es com distribuic¸o˜es de probabi-
lidades. Para cada distribuic¸a˜o ha´ quatro operac¸o˜es indicadas pelas seguintes
letras(para exemplificar utilizou-se a func¸a˜o binomial):
d: calcula a densidade de propabilidade f(x) no ponto. O comando usado e´
dbinom(x, size).
p: calcula a func¸a˜o de probabilidade acumulada F (x) no ponto. Calcula-se
atrave´s da expressa˜o:pbinom(q, size, prob).
q: calcula o quantil correspondente a uma dada probabilidade, que e´ calcu-
lada por: qbinom(p, size, prob).
r: gera uma amostra pseudo-aleato´ria da distribuic¸a˜o por meio de rbinom(n, size, prob).
Para gerar sempre a mesma amostra pseudo-aleato´ria e´ preciso usar o co-
mando set.seed(a). Esse comando permite que se escolha um ponto inicial
qualquer, a, para comec¸ar a amostra. Assim, para o exemplo da binomial, usar
primeiramente set.seed(a) e depois rbinom(n, size, prob) para gerar sempre a
mesma amostra pseudo-aleato´ria.
2.2 Distribuic¸a˜o Bernoulli
A distribuic¸a˜o de Bernoulli e´ a distribuic¸a˜o discreta de espac¸o amostral 0,1
que pode ter como resultado da realizac¸a˜o de um determinado experimento:
um sucesso(resultado desejado, igual a 1), ou um fracasso(resultado indesejado,
igual a 0), com probabilidades dadas por:
P (X = 1) = p e P (X = 0) = 1− p = q
Dado X = nu´mero de sucessos em uma u´nica tentativa do experimento realizado.
A sua func¸a˜o de probabilidade e´ dada por:
P (X = x) = pxq1−x
2.3 Distribuic¸a˜o Binomial
A distribuic¸a˜o binomial e´ a distribuic¸a˜o de probabilidade discreta do nu´mero
de sucessos numa sequeˆncia de n tentativas independentes, de forma que cada
tentativa tem como resultado apenas duas possibilidades: sucesso (p) ou fra-
casso (1 − p). Logo, a Binomial e´ uma repetic¸a˜o de n Bernoulli independentes
com o mesmo paraˆmetro p e onde a probabilidade de sucesso e´ a mesma, per-
manece constante, a cada tentativa ou repetic¸a˜o do experimento. A func¸a˜o de
probabilidade de uma distribuic¸a˜o binomial e´ dada por:
b(k;n, p) = P (X = k|n, p) = n!
k!(n− k)!p
kqn−k
onde n, p sa˜o seus paraˆmetros e k= 0,1,...,n.
Obs.: Os tipos de varia´veis que podem ser representados pelos modelos dis-
cretos acima apresentados, Bernoulli e Binomial, sa˜o dicotoˆmicos, sim ou na˜o,
menina ou menino, a favor ou contra.
Exemplo 6.12(pa´g. 144). Consideremos uma situac¸a˜o em que uma moeda
seja ’honesta’,isto e´, P(sucesso)=P(cara)=0.5. Seja X uma v.a. com distribuic¸a˜o
Binomial com n=3 e p = 0.5.
1- Calcule as probabilidades abaixo utilizando o R:
a)P (X = 0)
> dbinom(0, 3, 0.5)
[1] 0.125
b)P (X = 1)
> dbinom(1, 3, 0.5)
[1] 0.375
c)P (X < 3) = P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2)
> pbinom(2, 3, 0.5)
[1] 0.875
d) Calcular P (1 < X ≤ 2) = P (X = 2)
> dbinom(2, 3, 0.5)
[1] 0.375
e) Calcular o terciro quartil da distribuic¸a˜o binomial.
Para calcular quantis utiliza-se o chamado p-quantil de X, Q(p). Se P (X ≤
Q(p)) ≥ p, caso contra´rio, P (X ≤ Q(p)) ≤ 1− p, para 0 < p < 1.
> qbinom(3/4, 3, 0.5)
[1] 2
2- Fazer o gra´fico da func¸a˜o de densidade e de probabilidade.
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.
15
0.
20
0.
25
0.
30
0.
35
x
fx
0;0.125
1;0.375 2;0.375
3;0.125
Figura 1: Gráfico função de densidade
l
l
l
l
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.
2
0.
4
0.
6
0.
8
1.
0
x
Fx
Figura 2: Gráfico Distribuição Acumulada
2.4 Distribuic¸a˜o Poisson
A distribuic¸a˜o de Poisson e´ uma distribuic¸a˜o discreta que expressa a probabi-
lidade de um determinado nu´mero de eventos que ocorrem em um dado per´ıodo
de tempo ou espac¸o, caso cada evento seja independente do tempo decorrido
desde o u´ltimo evento e, ainda, esses eventos devem ocorrer com uma taxa me´-
dia conhecida, λ,(ou desconhecida, sendo que nesse caso a taxa e´ estimada). .
A func¸a˜o de probabilidade de Poisson e´ dada por:
P (X = k) =
e−λ(λ)k
k!
; k = 0, 1, ..., n;λ > 0
onde λ = np. Obs.: Os tipos de varia´veis que podem ser representados pelo
modelo discreto Poisson sa˜o: dados que representam a ide´ia de contagem, como
o nu´mero de clientes que chegamem uma loja, ou o nu´mero de chamadas em
uma central telefoˆnica, bem como o nu´mero de brotos encontrados em uma
planta.
Com o R e´ poss´ıvel calcular a densidade, a func¸a˜o de probabilidade, o quartil
e gerar uma amostra com os seguintes comandos, respectivamente:
dpois(x, lambda) ppois(q, lambda) qpois(p, lambda) rpois(n, lambda)
Exemplo 6.17 pa´g.149 Bussab. Uma situac¸a˜o pra´tica de interesse na qual a
distribuic¸a˜o de Poisson e´ empregada diz respeito a` desintegrac¸a˜o de substaˆncias
radioativas. Considere o uraˆnio 238(U238), por exemplo. Cada nu´cleo de U238
tem uma probabilidade muito pequena, 4, 9 ∗ 10−18 de se desintegrar, emitindo
uma part´ıcula α, em um segundo. Considere, agora, um nu´mero grande n de
nu´cleos e a v.a. N=nu´mero de nu´cleos que se desintegram. Admitindo-se que
a desintegrac¸a˜o de um nu´cleo na˜o afeta a probabilidade de desintegrac¸a˜o de
qualquer outro nu´cleo(independeˆncia), a v.a. N tem uma distribuic¸a˜o binomial,
com paraˆmetros n e p, este dado pelo valor acima. Logo, estamos numa situac¸a˜o
em que podemos usar a func¸a˜o de probabilidade da Poisson acima, ou seja,
aproximar probabilidades binomiais por probabilidades de Poisson. Seja X uma
v.a. com distribuic¸a˜o Poisson com λ = np = 3, 7.
a)Calcular P(N=0).
> dpois(0, 3.7)
[1] 0.02472353
b) Calcular P(N=2).
> dpois(2, 3.7)
[1] 0.1692325
c) Calcular P (N ≤ 2)= P (N = 0) + P (N = 1) + P (N = 2)
> dpois(0, 3.7) + dpois(1, 3.7) + dpois(2, 3.7)
[1] 0.2854331
ou, simplesmente, usar o ppois(2,3.7)
> ppois(2, 3.7)
[1] 0.2854331
Logo, P (N ≤ 2)= 0,2854331
3 Varia´vel Aleato´ria Cont´ınua
O conceito de Varia´vel Aleato´ria Cont´ınua X (v.a X) esta´ relacionado ao
conceito de uma func¸a˜o definida no espac¸o amostral Ω e assumindo valores num
intervalo de nu´meros reais. Qualquer func¸a˜o f, que seja na˜o negativa e cuja a´rea
total sobre a curva seja igual a` unidade, caracterizara´ uma v.a. cont´ınua.
3.1 Func¸a˜o de Densidade de Probabilidade - f(x) ou f.d.p
A a´rea correpondente ao intervalo [a,b) em um histograma indica a proba-
bilidade de a varia´vel estar entre a e b, que e´ calculada por meio de
P (a ≤ X ≤ b) =
∫ b
a
f(x)dx
Verifica-se, enta˜o, que a f(x) e´ um indicador da concentrac¸a˜o de probabili-
dade nos poss´ıveis valores de X e que a a´rea sob a curva entre dois pontos fornece
a probabilidade de ocorreˆncia de algum evento. Se a e b forem dois nu´meros
quaiquer,
P (a ≤ X ≤ b) = F (b)− F (a)
A func¸a˜o de distribuic¸a˜o acumulada ou f.d.a ou f.d F(x), dada uma v.a.
cont´ınua X e´ dada por:
F (x) = P (X ≤ x),−∞ < x <∞F (x) =
∫ x
−∞
f(t)dt
Observe que e´ poss´ıvel encontrar a f.d.p. por meio da f.d.a
F ′(x) =
dF (x)
d(x)
= f(x)
Obs.: Alguns exemplos de v.a. cont´ınuas sa˜o: peso, altura, tempo de vida da
luz.
Assim como para as v.a.discretas, para as v.a. cont´ınuas e´ poss´ıvel obter
com o R a densidade de probabilidade, a f.d.p., a f.d.a, os quantis de uma pro-
babilidade e uma amostra de uma determinada distribuic¸a˜o. O programa R
possibilita calcular operac¸o˜es com distribuic¸o˜es de probabilidades. Para cada
distribuic¸a˜o ha´ quatro operac¸o˜es indicadas pelas seguintes letras (exemplo dos
comandos com a func¸a˜o normal padra˜o, se na˜o e´ necessa´rio especificar os paraˆ-
metros):
d: calcula a densidade de propabilidade f(x) no ponto. O comando usado e´
dnorm(x,mean = 0, sd = 1).
p: calcula a func¸a˜o de probabilidade acumulada F (x) no ponto. Calcula-se
atrave´s da expressa˜o: pnorm(q,mean = 0, sd = 1).
q: calcula o quantil correspondente a uma dada probabilidade, que e´ calcu-
lada por: qnorm(p,mean = 0, sd = 1).
r: gera uma amostra de n elementos por meio de rnorm(n,mean = 0, sd =
1).
3.2 Distribuic¸a˜o Uniforme
A distribuic¸a˜o uniforme e´ um dos modelos mais simples das v.a. cont´ınuas.
A v.a. X tem uma distribuic¸a˜o uniforme no intervalo[α, β] se sua f.d.p e´ dada
por:
f(x;α, β) =
{ 1
β−α , se α ≤ x ≤ β
0 , caso contra´rio
Supondo uma f.d.p, onde X ∼U[α = 0, β = 1], enta˜o tem-se o Gra´fico da
Uniforme no R:
0.0 0.2 0.4 0.6 0.8 1.0
0.
6
0.
8
1.
0
1.
2
1.
4
x
y
A func¸a˜o de distribuic¸a˜o acumulada da uniforme e´ encontrada por:
F (x) = P (X ≤ x) =
∫ x
−∞
f(x)dx =

0 , se x < α
x−α
β−α , se α ≤ x < β
1 , se x ≤ β
Para a distribuic¸a˜o uniforme cont´ınua usa-se as func¸o˜es unif(d), sendo que
as letras: p, q, d ou r devem ser colocadas anteriormente, ou seja:
dunif(x, min=0, max=1) punif(q, min=0, max=1) qunif(p, min=0, max=1)
runif(n, min=0, max=1)
Ex.7.8. pa´gina 174. Um caso particular bastante interessante e´ aquele em
que α = −1/2 e β = 1/2. Indicando essa v.a. por U, teremos
f(u) =
{
1 , se − 1/2 ≤ u ≤ 1/2
0 , caso contra´rio
Nessa situac¸a˜o temos que a f.d.a. e´ dada por
F (u) =
 0 , se u ≤ −1/2u+ 1/2 , se − 1/2 ≤ u ≤ 1/2
1 , se u > −1/2
No R podemos calcular:
a)A densidade de f(u)
> dunif(0.25, min = -0.5, max = 0.5)
[1] 1
> dunif(0.6, min = -0.5, max = 0.5)
[1] 0
Como −1/2 ≤ u ≤ 1/2, e u = 0, 6, obtem-se f(0.6) = 0. Ja´ para u = 0, 5,
f(0.6) = 1.
b)P (U ≤ .25)
> punif(0.25, min = -0.5, max = 0.5)
[1] 0.75
c)O quantil
> qunif(1, min = -0.5, max = 0.5)
[1] 0.5
d)Calcular P (−1/4 ≤ U ≤ 1/4) = F (−1/4)− F (1/4) = 1/2
> punif(0.25, min = -0.5, max = 0.5) - punif(-0.25, min = -0.5,
+ max = 0.5)
[1] 0.5
e)Gerar uma amostra pseudo-aleato´ria de 3 elementos da uniforme U ∼
(−.5, .5).
> runif(3, min = -0.5, max = 0.5)
[1] 0.32855097 0.02604061 0.38964768
3.3 Distribuic¸a˜o Normal
A v.a. X tem distribuic¸a˜o Normal com paraˆmetros µ e σ2, com (−∞ < µ <
∞) e (0 < σ2 <∞), se sua densidade e´ dada por
f(x;µ, σ2) =
{
1
σ
√
2Π
e
−(x−µ)2
2σ2 , se −∞ ≤ x ≤ ∞
A f.d.a F (y) de uma v.a. normal X, com me´dia µ e variaˆncia σ2 e´ obtida
integrando-se f(x;µ, σ2) de −∞ ate´ y, ou seja,
F (y) =
∫ y
−∞
f(x;µ, σ2)dx , y ∈ < (1)
A distribuic¸a˜o Normal e´ implementada por argumentos que combinam as
letras acima com o termo norm. Supondo a distribuic¸a˜o Normal padra˜o N(µ =
0, s2 = 1).
Para a func¸a˜o de densidade com paraˆmetros (µ = 0, s2 = 1) no ponto -1
tem-se
> dnorm(-1)
[1] 0.2419707
Outra forma de calcular esse valor seria substituir x por -1 na expressa˜o da
normal padra˜o, logo,
> (1/sqrt(2 * pi)) * exp((-1/2) * (-1)^2)
[1] 0.2419707
A func¸a˜o pnorm(−1) calcula a probabilidade P (X ≤ −1)
> pnorm(-1)
[1] 0.1586553
O comando qnorm(0.975) calcula o valor de k tal que P (X ≤ k) = 0.975.
> qnorm(0.975)
[1] 1.959964
Por fim, o comando rnorm(n) gera uma amostra de n elementos da normal
padra˜o. Observe que os valores obtidos por esse comando podem variar a cada
comando executado.
> rnorm(10)
[1] 0.37335590 0.91659139 -0.04028924 -1.12255911 -0.22202701 0.07371280
[7] 0.75732008 -0.25158546 -1.29903820 1.15289952
Para gerar sempre os mesmos n elementos da normal padra˜o, utiliza-se uma
semente, ou seja, um ponto de in´ıcio que pode ser qualquer valor inteiro positivo.
> set.seed(577)
> rnorm(10)
[1] -0.2429937 -1.1683717 0.6501176 -0.6705117 1.7867175 0.2490895
[7] 0.1105752 -2.0950771 0.4970406 -1.8447424
Exemplo 7.9(pa´g. 179). Os depo´sitos efetuados no Banco da Ribeira du-
rante o meˆs de janeiro sa˜o distribu´ıdos normalmente, com me´dia de 10.000, 00
e desvio padra˜o de 1.500, 00. Um depo´sito e´ selecionado ao acaso dentre todos
os referentes ao meˆs em questa˜o. Encontrar a probabilidade de que o depo´sito
seja:
a) P (X ≤ 10000)
> pnorm(10000, mean = 10000, sd = 1500)
[1] 0.5
b) P (X ≥ 10000)
> 1 - pnorm(10000, m = 10000, s = 1500)
[1] 0.5
ou simplesmente por
> pnorm(10000, m = 10000, s = 1500, lower = F)
[1] 0.5c) P (12000 ≤ X ≤ 15000)
> pnorm(15000, 10000, 1500) - pnorm(12000, 10000, 1500)
[1] 0.09078216
d) P (X > 20000)
> 1 - pnorm(20000, m = 10000, s = 1500)
[1] 1.308398e-11
2- Fazer o gra´fico da func¸a˜o de densidade e de probabilidade.
a) Para fazer esses gra´ficos toma-se uma sequeˆncia de valores de X e, para
cada um desses se calcula o valor das func¸o˜es f(x) e F (x). Depois une-se os
pontos (x, f(x)) em um gra´fico e (x, F (x)) no outro.
> par(mfrow = c(1, 2))
> x <- seq(4000, 16000, len = 10000)
> fx <- dnorm(x, 10000, 1500)
> plot(x, fx, type = "l")
> title(sub = "Figura : Gra´fico da Densidade")
> Fx <- pnorm(x, 10000, 1500)
> plot(x, Fx, type = "l")
> title(sub = "Figura : Gra´fico da Func¸~ao de Distribuic¸~ao Acumulada")
4000 8000 14000
0.
00
00
0
0.
00
01
0
0.
00
02
0
x
fx
Figura : Gráfico da Densidade
4000 8000 14000
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
x
Fx
Figura : Gráfico da Função de Distribuição Acumulada
b) Obtendo o gra´fico de P (12000 ≤ X ≤ 15000)
Primeiramente, define-se o gra´fico desta distribuic¸a˜o, usando-se a func¸a˜o
plot. Depois, para marcar o gra´fico utiliza-se da func¸a˜o polygon.
> x <- seq(4000, 16000, len = 10000)
> fx <- dnorm(x, 10000, 1500)
> plot(x, fx, type = "l")
> title(sub = "Figura : Gra´fico da Densidade")
> ax <- c(12000, 12000, x[x > 12000], 15000, 15000)
> ay <- c(0, dnorm(12000), fx[x > 12000], dnorm(15000), 0)
> polygon(ax, ay, dens = 10)
4000 6000 8000 10000 12000 14000 16000
0.
00
00
0
0.
00
01
0
0.
00
02
0
x
fx
Figura : Gráfico da Densidade
3.4 Distribuic¸a˜o Exponencial
A distribuic¸a˜o de Exponencial e´ uma distribuic¸a˜o cont´ınua, com paraˆmetro
λ > 0 e tem sua f.d.p dada por:
f(t;λ) =
{
1
λe
−t
λ , se t ≥ 0
0 , se t < 0
Ex. 7.10. pa´g.180. O tempo de vida(em horas) de um transistor pode ser
considerado uma v.a. com distribuic¸a˜o exponencial com λ = 500. Segue-se que
a vida me´dia do transistor e´ E(T)=500 horas e a probabilidade de que ele dure
mais do que a me´dia e´ P (T > 500)=?. Para ilustrar o uso do R podemos obter
a resposta de P (T > 500) usando integrac¸a˜o nume´rica ou usando a func¸a˜o pexp.
Curiosidade: no R e´ poss´ıvel resolver P (T > 500) calculando a integral,
ou seja, por integrac¸a˜o nume´rica temos que criar uma func¸a˜o com a expressa˜o
da exponencial e depois intgrar no intervalo pedido. Esse resultado deve ser
igual ao encontrado utilizando a func¸a˜o exponencial dispon´ıvel no R,ou seja,
P (T > 500) = 0, 3678.
> fexp <- function(x, lambda = 500) {
+ fx <- ifelse(x < 0, 0, (1/lambda) * exp(-x/lambda))
+ return(fx)
+ }
> integrate(fexp, 500, Inf)
0.3678794 with absolute error < 4.1e-06
Pela func¸a˜o pexp com o comando:
> pexp(500, rate = 1/500, lower = F)
[1] 0.3678794
Obs.: P (T > 500) = pexp(500, rate = 1/500, lower = F ) = 0, 3678 e esse
argumento corresponde a 1/λ na equac¸a˜o exponencial.
Gra´fico de F(t)
0 500 1000 1500 2000
0.
00
00
0.
00
05
0.
00
10
0.
00
15
0.
00
20
x
fx
Figura : Gráfico da Função de Densidade
3.5 Esperanc¸a
O valor me´dio, tambe´m chamado de esperanc¸a ou expectaˆncia matema´tica
de X, de uma v.a. X discreta, assumindo valores x1, ...xn e´ dada por:
E(X) =
n∑
i=1
xiP (X = xi) =
n∑
i=1
xipi
O s´ımbolo usado para indicar a me´dia e´ E(X) = µ(X) ou simplesmente µ.
Ressalta-se que dada uma v.a. discreta X e a sua func¸a˜o de probabilidade
P (x), a esperanc¸a matema´tica de uma func¸a˜o h(X) e´ dada por:
E[h(X)] =
n∑
i=1
h(xi)p(xi)
Ja´ para uma v.a. cont´ınua e sua func¸a˜o de densidade p(x), a esperanc¸a
matema´tica de uma func¸a˜o h(X) e´ dada por:
E[h(X)] =
∫ ∞
−∞
h(xi)p(xi)
Usando a distribuic¸a˜o exponencial como exemplo, calcula-se a sua esperanc¸a
e variaˆncia dessa distribuic¸a˜o a partir de
E[X] =
∫ ∞
0
xf(x) = λ
e a variaˆncia e´
V ar[X] =
∫ ∞
0
(x− E[X])2f(x)dx = λ2
Pode-se obter esses valores no R fazendo a integrac¸a˜o nume´rica: Primeira-
mente, define-se as func¸o˜es para a esperanc¸a e a variaˆncia e, por fim, integra-se.
Verificando:
Seja X uma v.a. Exp(500), sua esperanc¸a e´ calculada por:
> e.exp <- function(x, lambda = 500) {
+ ex <- x * (1/lambda) * exp(-x/lambda)
+ return(ex)
+ }
> integrate(e.exp, 0, Inf)
500 with absolute error < 0.00088
Ou simplesmente usanso o seguinte comando:
> ex <- integrate(e.exp, 0, Inf)$value
> ex
[1] 500
A variaˆncia dessa v.a. X e´ :
> v.exp <- function(x, lambda = 500, exp.x) {
+ vx <- ((x - exp.x)^2) * (1/lambda) * exp(-x/lambda)
+ return(vx)
+ }
> integrate(v.exp, 0, Inf, exp.x = ex)
250000 with absolute error < 6.9
> vx <- integrate(e.exp, 0, Inf)$value
> vx
[1] 500
Vimos a utilizac¸a˜o do R para ca´lculos e gra´ficos de probabilidades, a seguir
veremos como analisar ou descrever conjuntos de dados.
4 Inserindo dados
Existem diversas formas de se obter um conjunto de dados para utilizac¸a˜o
com o R. Existem diversos conjuntos de dados dispon´ıveis a partir da instalac¸a˜o
do R e podem ser acessados pela digitac¸a˜o do nome do banco de dados. O
comando data() gera uma listagem com os bancos de dados dispon´ıveis para os
pacotes carregados.
Os dados podem ser digitados, e para isso deve-se criar um objeto de classe
data.frame e posteriormente utilizar o comando fix(objeto) para poder digitar
as observac¸o˜es em uma planilha.
Uma outra forma de obter um conjunto de dados e´ pela importac¸a˜o do
mesmo. A importac¸a˜o pode ser feita de um disco local ou de algum enderec¸o
na Internet. O exemplo apresentado nessa sec¸a˜o mostra a importac¸a˜o de um
banco de dados de um arquivo em uma pasta local no computador. Adapta-
c¸o˜es a` programac¸a˜o para importac¸a˜o de dados de outro formato ou local po-
dem ser consultados na documentac¸a˜o do R utilizando por exemplo o comando:
?read.table
Primeiramente, vamos inserir o conjunto de dados hipote´ticos de 36 fun-
ciona´rios da companhia ′Milsa′ do livro Estat´ıstica Ba´sica de W.Bussab e P.
Moretin. Para entrar com esses dados deve-se usar o comando data.frame, pois
ha´ diferentes tipos de varia´veis: catego´ricas e nume´ricas(qualitativas e quantita-
tivas). Para entrar com estes dados diretemente no R usou-se o editor que vem
com o programa. Para digitar rapidamente estes dados codificou-se as varia´-
veis: estado civil(1-Solteiro;2-Casado); grau de instruc¸a˜o(1-ensino fundamental;
2-ensino me´dio); regia˜o(1-Interior;2-Capitel;3-Outro). Note que nessa forma de
inserir os dados ale´m de digitar os dados na planilha, tambe´m deve escolher o
nome de cada varia´veis. Para isso, basta clicar no nome da varia´vel e escolher a
opc¸a˜o CHANGE NAME e informar o novo nome da varia´vel, ou simplesmente
clicar duas vezes no nome da varia´vel e digitar o nome. Precisa-se, ainda, in-
formar para o programa que as varia´veis codificadas na˜o sa˜o nume´ricas e sim
catego´ricas. No R varia´veis catego´ricas sa˜o definidas usando o comando factor().
Por fim, apo´s digitar os dados pode-se visualiza´-los digitando milsa e conserta´-
los, caso necessa´rio, por meio do comando fix(milsa). Apo´s digitar as varia´veis
categorizadas, pode-se defini-las usando o comando as.factor() a seguir:
> milsa <- read.table("milsa.txt", head = T)
> milsa$instrucao <- as.factor(milsa$instrucao)
> levels(milsa$instrucao) <- c("fundamental", "medio", "superior")
> milsa$regiao <- as.factor(milsa$regiao)
> levels(milsa$regiao) <- c("interior", "capital", "outro")
Apo´s a entrada dos dados precisa-se definir uma varia´vel u´nica idade a partir
das varia´veis ano e meˆs que forma digitadas. Nesse banco de dados e´ convenientefazer:
> milsa$idade <- round(milsa$ano + milsa$mes/12, digits = 2)
> head(milsa)
civil instrucao filhos salario ano mes regiao idade
1 solteiro fundamental NA 4.00 26 3 interior 26.25
2 casado fundamental 1 4.56 32 10 capital 32.83
3 casado fundamental 2 5.25 36 5 capital 36.42
4 solteiro medio NA 5.73 20 10 outro 20.83
5 solteiro fundamental NA 6.26 40 7 outro 40.58
6 casado fundamental 0 6.66 28 0 interior 28.00
O comando head permite mostrar apenas as seis primeiras linhas do banco
de dados.
Para ver o nome das varia´veis contidas no banco, as dimenso˜es do data-frame
usa-se, respectivamente:
> names(milsa)
[1] "civil" "instrucao" "filhos" "salario" "ano" "mes"
[7] "regiao" "idade"
> dim(milsa)
[1] 36 8
5 Tabelas
Constuindo uma tabela para as varia´veis: Qualitativa (estado civil) vs Qua-
litativa (grau de instruc¸a˜o); Qualitativa (grau de instruc¸a˜o) vs Quantitativa
(sala´rio) e Qualitativa (grau de instruc¸a˜o) vs Qualitativa (regia˜o).
Nessas tabelas de varia´veis qualitativas obteve-se tanto as frequeˆncias abso-
lutas quanto as relativas por linha com duas casas decimais. Para essa aproxi-
mac¸a˜o usou-se o comando round.
> civ.gi.tab <- table(milsa$civil, milsa$instrucao)
> civ.gi.tab
fundamental medio superior
casado 5 12 3
solteiro 7 6 3
> round(civ.gi.tab/as.vector(table(milsa$civil)), digits = 2)
fundamental medio superior
casado 0.25 0.60 0.15
solteiro 0.44 0.38 0.19
Na tabela abaixo usou-se de intervalos para quantificar a varia´vel quantita-
tiva (sala´rio) vs qualitativa (grau de instruc¸a˜o).
> table(milsa$instrucao, cut(milsa$salario, quantile(milsa$salario)))
(1,7.43] (7.43,9.79] (9.79,13.7] (13.7,23.3]
fundamental 7 2 2 1
medio 1 7 5 4
superior 0 0 2 4
Por fim, fez-se uma tabela entre as varia´veis qualitativa (grau de instruc¸a˜o)
e qualitativa (regia˜o).
> table(milsa$instrucao, milsa$regiao)
interior capital outro
fundamental 3 4 5
medio 7 5 6
superior 2 2 2
6 Medidas Descritivas
A ana´lise dos dados pode ser feita por meio de medidas de posic¸a˜o, medidas
de dispersa˜o, gra´ficos, correlac¸a˜o, dentre outras.
As medidas de posic¸a˜o central caracterizam os grupos como um todo, descrevendo-
os de forma mais compacta do que as tabelas e os gra´ficos. A moda, me´dia
aritme´tica e mediana sa˜o as mais utilizadas para resumir o conjunto de valores
representativos que se deseja estudar. A moda e´ a observac¸a˜o mais frequente
do conjunto de dados. A mediana e´ a observac¸a˜o que ocupa a posic¸a˜o central
da se´rie de observac¸o˜es, quando esta˜o ordenadas em ordem crescente. Por fim,
a me´dia aritme´tica e´ a soma das observac¸o˜es dividida pelo nu´mero delas.
No R pode-se obter essas medidas facilmente. No exemplo abaixo, para a
varia´vel qualitativa ordinal, instruc¸a˜o, calculou-se as seguintes medidas: moda
e mediana(so´ e´ calculada para varia´veis nume´ricas ou ordinais).
> instrucao.moda <- names(table(milsa$instrucao))[table(milsa$instrucao) ==
+ max(table(milsa$instrucao))]
> instrucao.moda
[1] "medio"
> levels(milsa$instrucao)[median(as.numeric(milsa$instrucao))]
[1] "medio"
Para a varia´vel filhos pode-se calcular as medidas: mediana(de posic¸a˜o) e
me´dia.
> median(milsa$filhos, na.rm = T)
[1] 2
> mean(milsa$filhos, na.rm = T)
[1] 1.65
As medidas de dispersa˜o buscam medir a variabilidade de um conjunto de
dados. Dentre as mais usuais medidas de dispersa˜o, destacam-se: a amplitude-
range, variaˆncia-var, desvio padra˜o-sd, coeficiente de variac¸a˜o.
O comando summary e´ uma func¸a˜o gene´rica muito u´til. Essa e´ usada para
produzir resultados de resumo de variados modelos de func¸o˜es, os quais envolvem
me´todos particulares que dependem da classe do primeiro argumento da func¸a˜o.
Esse comando gera, enta˜o, diversas respostas dependendo do tipo de func¸a˜o e
da varia´vel usada. Verifica-se, no exemplo a seguir, o uso dessa func¸a˜o para
varia´vel nume´rica, obtendo as seguintes medidas: Min. 1st Qu. Median Mean
3rd Qu. Max.
No exemplo abaixo calculou-se essas medidas para a varia´vel sala´rio: mı´nimo
e ma´ximo, amplitude total, me´dia, desvio padra˜o, variaˆncia e, por fim, usa-se o
comando summary.
> range(milsa$salario, na.rm = T)
[1] 1.0 23.3
> diff(range(milsa$salario, na.rm = T))
[1] 22.3
> mean(milsa$salario)
[1] 10.74194
> sd(milsa$salario, na.rm = T)
[1] 4.843526
> var(milsa$salario)
[1] 23.45975
> summary(milsa$salario)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 7.428 9.785 10.740 13.660 23.300
A func¸a˜o tapply aplica a func¸a˜o desejada para cada grupo de valores dados
por uma u´nica combinac¸a˜o dos n´ıveis de certos fatores de um banco de dados.
No exemplo abaixo usamos essa func¸a˜o para calcular as me´dias, as variaˆncias,
e quartis para a varia´vel sala´rio discriminadas pelo grau de instruc¸a˜o, respecti-
vamente.
> tapply(milsa$salario, milsa$instrucao, mean)
fundamental medio superior
7.836667 10.767778 16.475000
> tapply(milsa$salario, milsa$instrucao, var)
fundamental medio superior
8.740679 19.122159 20.271950
> tapply(milsa$salario, milsa$instrucao, quantile)
$fundamental
0% 25% 50% 75% 100%
4.0000 6.0075 7.1250 9.1625 13.8500
$medio
0% 25% 50% 75% 100%
1.0000 8.2750 10.2650 13.5075 19.4000
$superior
0% 25% 50% 75% 100%
10.5300 13.6475 16.7400 18.3775 23.3000
A func¸a˜o cor do R calcula a correlac¸a˜o entre duas varia´veis. No exemplo
abaixo, tem-se que a correlac¸a˜o entre a varia´vel quantitativa(sala´rio) vs quanti-
tativa(idade) e´ de aproximadamente 40 %, indicando uma correlac¸a˜o positiva,
mas na˜o muito forte.
> cor(milsa$idade, milsa$salario)
[1] 0.4106862
7 Gra´ficos
O gra´fico de pizza, tambe´m conhecido como gra´fico em setores, representa
a composic¸a˜o de partes de um todo, consistindo em um c´ırculo arbitra´rio, re-
presentando o todo, dividido em setores, representando as partes de maneira
proporcional. Esse valor normalmente e´ apresentado em porcentagem.
Ex.2.4,pa´g.15: Tomemos como ilustrac¸a˜o a varia´vel Y: grau de instruc¸a˜o,
exemplificada nas Tabelas 2.2 e 2.3.
O gra´fico em barras consiste em construir retaˆngulos ou barras, em que uma
das dimenso˜es e´ proporcional a` magnitude a ser representada ni ou fi, sendo
a outra arbitra´ria, pore´m igual a todas as barras. Essas barras sa˜o dispostas
paralela, horizontal ou verticalmente umas a`s outras.
> par(mfrow = c(1, 2))
> barplot(table(milsa$instrucao), names.arg = c("Fund", "Me´dio",
+ "Sup"))
> title(sub = "Figura : Gra´fico de Barras")
> pie(table(milsa$instrucao), labels = round(table(milsa$instrucao)/26,
+ 2), main = "Grau de Instruc¸~ao")
> legend(-1, -1.5, c("Fundamental", "Me´dio", "Superior"), cex = 1,
+ fill = c("white", "lightblue", "mistyrose"))
> title(sub = "Figura : Gra´fico de Pizza")
Fund Médio Sup
0
5
10
15
Figura : Gráfico de Barras
0.46
0.69 0.23
Grau de Instrução
Fundamental
Médio
Superior
Figura : Gráfico de Pizza
Ex.2.5.pa´g.16: Considere a distribuic¸a˜o da varia´vel Z, nu´mero de filhos dos
empregados casados da sec¸a˜o de orc¸amentos da Companhia MB(Tabela 2.1).
l
l
l
l
l
0
1
2
3
4
5
6
7
Gráfico de Dispersão
Filhos
Fr
eq
uê
nc
ia
 A
bs
ol
ut
a
0 1 2 3 5
l
l
l
l
l
0.
00
0.
05
0.
10
0.
15
0.
20
0.
25
0.
30
0.
35
Gráfico de Dispersão
Filhos
Fr
eq
ue
nc
ia
 R
el
at
iva
0 1 2 3 5
Ale´m do gra´fico em barras, pode-se fazer um gra´fico de dispersa˜o, unidimensio-
nal(valores sa˜o representados por pontos ao longo da reta). Os valores repetidos
podem ser representados por nu´meros, indicando o nu´merode repetic¸o˜es, ou
podem ser empilhados um em cima do outro a cada vez que repete.
l
l
l
l
l
1 2 3 4 5
5
10
15
20
Gráfico de Frequência Acumulada
Filhos
Fr
eq
uê
nc
ia
 A
cu
m
ul
ad
a
O box plot e´ um dos mais usuais gra´ficos da estat´ıstica. Esse gra´fico re-
presenta a dispersa˜o dos dados, revelando a mediana e os quartis, medidas de
posic¸a˜o. Atrave´s de uma representac¸a˜o com um retaˆngulo e dois segmentos de
reta e´ poss´ıvel verificar a posic¸a˜o central do conjunto ordenado dos dados. A
base do retaˆngulo central e´ representada pelo primeiro quartil, ou seja, abaixo
desse ponto esta˜o situadas 25 % das observac¸o˜es. A divisa˜o do retaˆngulo repre-
senta a mediana,separatriz ou medida de ordenamento, isto e´, acima e abaixo
desse segmento de reta ha´ 50 % das observac¸o˜es. O topo da caixa corresponde
ao terceiro quartil, indicando que acima desse ponto situam-se 25 % das obser-
vac¸o˜es e, abaixo, 75 %.
Pode haver, ainda, alguns dados que se apresentam de forma irregular em
relac¸a˜o dos demais, que sa˜o os valores muitos altos ou muitos baixos, denomina-
dos outliers. Ale´m disso, pode-se fazer diversos boxplot em um u´nico gra´fico, o
que permite comparar as medidas das varia´veis em questa˜o. Um exemplo disso
e´ dado para a varia´vel sala´rio e regia˜o.
Ex.2.7.pa´g.18: O histograma e´ um gra´fico de barras cont´ıguas, com as bases
proporcionais aos intervalos das classes e a a´rea de cada retaˆngulo proporcional a`
respectiva frequeˆncia. Pode-se usar tanto a frequeˆncia absoluta como a relativa.
Obs.: Tanto o gra´fico em barras como o histograma fornecem uma ide´ia de como
e´ a forma da distribuic¸a˜o da varia´vel sob considerac¸a˜o.
> par(mfrow = c(2, 2))
> hist(milsa$salario, ylab = "Freque^ncia", xlab = "Sala´rio", main = "Histograma")
> boxplot(milsa$salario, xlab = "Sala´rio", main = "Box plot")
> boxplot(milsa$salario ~ milsa$regiao, main = "Box plot da regi~ao e sala´rio ")
Histograma
Salário
Fr
eq
uê
nc
ia
0 5 10 15 20 25
0
5
10
15
l
5
10
15
20
Box plot
Salário
interior capital outro
5
10
15
20
Box plot da região e salário 
O ramo-e-folhas tambe´m permite verificar a forma da distribuic¸a˜o da varia´-
vel, mas a grande vantagem desse gra´fico e´ que na˜o se perde informac¸a˜o sobre os
dados em si, ou perde-se pouca informac¸a˜o. A escolha do nu´mero de linhas do
ramo-e-folhas e´ equivalente a` escolha do nu´mero de classes de um histograma.
Quando se tem muitas folhas em cada ramo, pode-se duplicar os ramos, onde
coloca-se folhas de 0 a 4 em uma linha e de 5 a 9 em outra linha. As informa-
c¸o˜es obtidas no ramo-e-folhas e´ como se distribuem os valores, se ha´ outliers,
um valor menos ou mais t´ıpico para o conjunto de dados, se ha´ assimetria dos
dados.
> stem(milsa$salario)
The decimal point is at the |
0 | 0
2 |
4 | 0637
6 | 379446
8 | 15791388
10 | 5816
12 | 08268
14 | 7
16 | 0263
18 | 84
20 |
22 | 3
Ex.2.9: Os dados abaixo referem-se a` dureza de 30 pec¸as de alumı´nio(Hoaglin,
Mosteller e Tukey, 1983, pa´g.13) Nesse exemplo, calculou-se os quantis dos 30
dados das pec¸as de alumı´nio, bem como o ramo-e-folhas. Em seguida, fez-se o
seu histograma.
> dados <- c(53, 70.2, 84.3, 69.5, 77.8, 87.5, 53.4, 82.5, 67.3,
+ 54.1, 70.5, 71.4, 95.4, 51.1, 74.4, 55.7, 63.5, 85.8, 53.5,
+ 64.3, 82.7, 78.5, 55.7, 69.1, 72.3, 59.5, 55.3, 73, 52.4,
+ 50.7)
> quantile(dados)
0% 25% 50% 75% 100%
50.70 55.40 69.30 76.95 95.40
A func¸a˜o quantile fornece os quantis dos dados ou banco de dados.
> stem(dados)
The decimal point is 1 digit(s) to the right of the |
5 | 1123344
5 | 566
6 | 044
6 | 79
7 | 0011234
7 | 89
8 | 334
8 | 68
9 |
9 | 5
> hist(dados, freq = TRUE, ylab = "Freque^ncia", xlab = "Pec¸as de Alumı´nios",
+ main = "Histograma")
Histograma
Peças de Alumínios
Fr
eq
uê
nc
ia
50 60 70 80 90 100
0
2
4
6
8
10
8 Simulando dados
Ao inve´s de entrar com os dados e´ poss´ıvel simular e utilizar as medidas
descritivas para avaliar os resultados dessa simulac¸a˜o.
1- Distribuic¸a˜o Cont´ınua
Primeiramente, simulou-se para a distribuic¸a˜o cont´ınua normal 50 dados com
me´dia igual a zero e desvio padra˜o igual a um e obteve-se as medidas descritivas
dessa simulac¸a˜o. Verificou-se que como os dados sa˜o simulados, os valores da
me´dia e do desvio padra˜o na˜o sa˜o exatos como os escolhidos.
a)Normal
> aaa <- rnorm(50, mean = 0, sd = 1)
> mean(aaa)
[1] -0.02986135
> var(aaa)
[1] 0.7819218
> median(aaa)
[1] -0.1035376
> sd(aaa)
[1] 0.8842634
> range(aaa)
[1] -1.948260 1.943953
> summary(aaa)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-1.94800 -0.57210 -0.10350 -0.02986 0.55580 1.94400
Em seguida, obteve-se o histograma e o ramo e folhas desses dados. Verifica-
se que o ramo e folhas apresenta o mesmo formato da distribuic¸a˜o apresentada
no histograma.
Histograma
Números aleatórios
Fr
eq
uê
nc
ia
−2 −1 0 1 2
0
5
10
15
Figura : Histograma de Números Aleatórios de uma Distribuição Normal
> stem(aaa)
The decimal point is at the |
-1 | 96
-1 | 43220
-0 | 987766655
-0 | 44432211111100
0 | 112234
0 | 566779
1 | 01233
1 | 789
b) Exponencial
Nesse exemplo, simulou-se 500 nu´meros aleato´rias de uma distribuic¸a˜o ex-
ponencial e, em seguida, obteve-se as suas medidas descritivas, o histograma e
o diagrama de dispersa˜o.
> aaa <- rexp(500)
> mean(aaa)
[1] 0.9095183
> var(aaa)
[1] 0.8742256
> median(aaa)
[1] 0.596399
> sd(aaa)
[1] 0.9350003
> range(aaa)
[1] 0.001699688 5.792387686
> summary(aaa)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0017 0.2435 0.5964 0.9095 1.2330 5.7920
Histograma
Observações
Fr
eq
uê
nc
ia
0 1 2 3 4 5 6
0
50
10
0
15
0
20
0
Figura : Histograma 
l
l
l
l
l
l
ll
ll
l
l
ll
l
ll
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
lll
l
l
l
l
l
l
l
l
l
l
ll
l
llll
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
ll
l
l
l
l
l
l
lll
l
l
l
l
l
lll
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
ll
l
l
l
l
ll
l
l
l
l
l
ll
ll
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
ll
l
ll
l
l
l
l
ll
l
l
l
ll
ll
l
l
l
l
l
ll
l
l
ll
l
l
l
l
l
l
l
ll
l
l
l
ll
l
l
l
l
l
l
l
l
l
ll
l
l
l
lll
l
l
l
l
lll
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
lll
l
l
l
ll
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
ll
l
ll
l
l
ll
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
ll
l
l
l
l
l
ll
l
ll
l
l
l
l
l
l
ll
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
l
lll
l
0 100 300 500
0
1
2
3
4
5
6
Gráfico de Dispersão
números aleatórios
O
bs
er
va
çõ
es
Figura : Gráfico de Dispersão
9 Amostragem
O comando sample e´ utilizado para obter uma amostra de tamanho espe-
c´ıfico com ou sem reposic¸a˜o, dado uma entrada de dados. O comando usado e´
sample(x, size, replace = FALSE, prob = NULL).
Primeiramente inserimos os valores de x.
> x <- 1:20
> x
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Em seguida geramos uma permutac¸a˜o aleato´ria utilizando o comando sample(x)
ou sample(x, replace = FALSE), bem como uma amostragem com reposic¸a˜o.
> sample(x)
[1] 1 18 12 15 4 10 5 17 6 16 8 7 2 9 14 19 13 20 11 3
> sample(x, replace = TRUE)
[1] 13 8 1 17 1 1 6 18 6 11 3 8 6 2 5 9 9 19 3 2
E, por fim, geramos cem amostras Bernoulli, com p = 12 .
> sample(c(0, 1), 100, replace = TRUE)
[1] 1 1 1 0 0 0 0 0 1 0 0 1 0 0 0 1 1 1 0 1 0 1 0 0 0 0 1 1 0 1 0 0 0 0 0 1 1
[38] 1 1 1 0 0 0 0 1 1 1 0 1 1 0 0 1 1 1 1 0 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 1 1
[75] 0 1 1 1 1 1 0 0 1 0 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0
Com o comando sample(x, n) obtemos uma amostra de tamanho n de x,
como no exemplo abaixo, temos uma amostra de 5 elementos dentre os 20.
> sample(x, 5)
[1] 20 19 8 12 18
10 Teste de Hipo´teses
Nessa parte estudaremos um dos principais to´picos da infereˆncia estat´ıstica:
testes de hipo´teses. Primeiramente apresentaremos o teste para a me´dia com
variaˆncia desconhecida e, em seguida, o teste para me´dia com variaˆncia conhe-
cida.
11 Teste para a Me´dia e Proporc¸a˜o Populacio-
nal
11.1 Teste para Me´dia com Variaˆncia Desconhecida
Nesse caso na˜o se tem informac¸o˜es sobre a variaˆncia da varia´vel aleato´ria
que esta´ sendo estudada. A princ´ıpio manteremos a suposic¸a˜o de que a varia´vel
aleato´ria de interesse tenha distribuic¸a˜o Normal.
Como o desvio-padra˜o e´ desconhecido, esse precisa ser estimado. Apo´s alguns
ca´lculos e supondo que a nossa amostra aleato´ria seja representada pelo vetor de
varia´veis aleato´rias (X1, ...Xn), onde X1 ∼ N(µ, σ2), obtem-se que o estimador
para σ2 e´ a variaˆncia amostral S2, isto e´,
S2 =
∑n
i=1X
2
i − nX
2
n− 1
Define-se, enta˜o, a varia´vel padronizada, que tambe´m e´ uma varia´vel aleato´-
ria como,
T =
X − µ√
S2
n
=
X − µ
S√
n
Essa varia´vel T tem uma distribuic¸a˜o t de Student com (n − 1) graus de
liberdade e converge para a distribuic¸a˜o Normal padra˜o com grandes amostras.
Exemplo 8.5 (Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de
Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 259).: Deseja-se investigar
se uma certa mole´stia que ataca o rim altera o consumo de oxigeˆnio desse o´rga˜o.
Para indiv´ıduos sadios, admite-se que esse consumo tem distribuic¸a˜o Normal
com me´dia 12 cm3 por min. Os valores medidos em cinco pacientes com a
mole´stia foram: 14,4; 12,9; 15,0; 13,7 e 13,5. Qual seria a conclusa˜o ao n´ıvel de
1 % de significaˆncia?
As hipo´teses a serem testadas sa˜o:
H0: A mole´stia na˜o altera a me´dia de consumo renal de oxigeˆnio; Ha: Indi-
v´ıduos portadores da mole´stia teˆm me´dia alterada.
Isso equivale a testar em termos de me´dia populacional se:
Hipo´teses =
{
H0 : µ = 12
H1 : µ 6= 12
Insere-se os dados e realiza-se o teste de hipo´tese pelo comando t.test().
> x = c(14.4, 12.9, 15, 13.7, 13.5)
> t.test(x, alternative = "two.sided", mu = 12, conf.level = 0.01)
One Sample t-test
data: x
t = 5.2099, df = 4, p-value = 0.006472
alternative hypothesis: true mean is not equal to 12
1 percent confidence interval:
13.89514 13.90486
sample estimates:
mean of x
13.9
Nesse caso tem-se uma amostra independente X1...Xn e objetiva-se verificar
se a me´dia e´ igual a um valor espec´ıfico, 12.0.
Pelo saida do R, obtem-se que o Xobs = 13, 9, tobs ∼= 5.20, os graus de
liberdade do teste e´ igual a 4 e o p-valor do teste, 0.006472 . Pela tabela da
distribuic¸a˜o t-Student com 4 graus de liberdade obtemos os valores da regia˜o
cr´ıtica. Assim,
RC = {t�<|t < −4.604 ou t > 4.604}
Por esse resultado, percebe-se que tobs� RC, logo rejeita-se a hipo´tese nula,
isto e´, a mole´stia tem influeˆncia no consumo renal me´dio de oxigeˆnio ao n´ıvel
de significaˆncia de um por cento.
Outro resultado importante que o software fornece e´ o intervalo de confi-
anc¸a(IC). No caso de IC γ para µ com variaˆncia desconhecida e´ dado por:
IC(µ, γ) =
[
X − t γ
2
S√
n
;X + t γ
2
S√
n
]
No exemplo acima, o IC(µ, 0.90) = [13.89514; 13.90486]. Logo, como o IC
encontrado na˜o inclui o valor 12 para µ, que foi estabelecido na hipo´tese nula,
rejeita-se H0.
Alguns to´picos relevantes:
ˆ Pelo comando t.test() tambe´m conseguimos fazer testes unilaterais, tendo
apenas que escolher as opc¸o˜es ”less”ou ”greater”em alternative;
ˆ A func¸a˜o poder do teste e´ pi(µ) = 1 − β(µ), e´ a probabilidade de rejeitar
corretamente a hipo´tese nula dado que ela e´ falsa, ou seja, e´ a probabilidade
e se rejeitar H0 como func¸a˜o µ, isto e´, e´ a probabilidade complementar do
erro tipo II, β;
ˆ Para analisar os resultados de um teste de hipo´teses podemos fixar o α ou
usar o p-valor;
11.2 Teste para Me´dia com Variaˆncia Conhecida
Nesse caso se tem informac¸o˜es sobre a variaˆncia da varia´vel aleato´ria que
esta´ sendo estudada. A princ´ıpio manteremos a suposic¸a˜o de que a varia´vel
aleato´ria de interesse tenha distribuic¸a˜o Normal.
Exemplo 8.3(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de
Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 252) : Um pesquisador deseja
estudar o efeito de certa substaˆncia no tempo de reac¸a˜o de seres vivos a um
certo tipo de est´ımulo. Um experimento e´ desenvolvido com cobaias que sa˜o
inoculadas com a substaˆncia e submetidas a um est´ımulo ele´trico, com seus
tempos de reac¸a˜o(em segundos) anotados. Os seguintes valores foram obtidos:
9, 1; 9, 3; 7, 2; 7, 5; 13, 3; 10, 9; 7, 2; 9, 9; 8, 0; 8, 6. Admite-se que o tempo de reac¸a˜o
segue, em geral, o modelo Normal com me´dia 8 e desvio padra˜o σ = 2 segundos.
O pesquisador desconfia, entretanto, que o tempo me´dio sofre alterac¸a˜o por
influeˆncia da substaˆncia. Neste caso, as hipo´teses de interesse sa˜o:
H0: As cobaias apresentam tempo de reac¸a˜o padra˜o;
Ha: As cobaias teˆm o tempo de reac¸a˜o alterado.
Isso equivale a testar em termos estat´ısticos que essas hipo´teses envolvem o
paraˆmetro µ, de me´dia populacional,e podem ser escritas como:
Hipo´teses =
{
H0 : µ = 8, 0
H1 : µ 6= 8, 0
Dado que o teste envolve µ, considera-se a me´dia amostral,X, para construir
a estat´ıstica de teste; onde X ∼ N(µ, 410 ) e a regia˜o cr´ıtica, RC e´ dada por:
RC = {x � < : x < xc1 ou x > xc2}
Fixando α = 0, 06, tem-se que:
0.06 = P (erro tipoI)
= P (rejeitar H0|H0 verdadeira)
= P (X � RC|µ = 8.0)
= P (X < xc1 ou X > xc2 |µ = 8.0)
= P
X − 8.0√
4
10
<
xc1 − 8.0√
4
10
ou
X − 8.0√
4
10
>
xc1 − 8.0√
4
10

= P (Z < zc1 ou Z > zc2)
onde,
zc1 =
(a− 8.0)√
4
10
zc2 =
(b− 8.0)√
4
10
dado xc1 = a e xc1 = b
onde, j = 1, 2 e Z ∼ N(0, 1).
Logo, zc1 = −1.88 e zc2 = 1.88.
Renomeando xc1 = a e xc2 = b calculam-se esses valores no R da seguinte
forma:
> v <- sqrt(0.4)
> v
[1] 0.6324555
> a <- (8 - (1.88 * v))
> a
[1] 6.810984
> b <- (8 + (1.88 * v))
> b
[1] 9.189016
Logo, RC = { x � < : x < 6.8 ou x > 9.2}.
Agora, por meio do comando abaixo, calcula-se a me´dia amostral observada.> x = c(9.1, 9.3, 7.2, 7.5, 13.3, 10.9, 7.2, 9.9, 8, 8.6)
> mean(x)
[1] 9.1
Calculando a me´dia amostral obtem-se que Xobs = 9.1. Como este valor na˜o
pertence a` regia˜o cr´ıtica, aceita-se H0 ao n´ıvel de significaˆncia de 6%, isto e´, o
tempo de reac¸a˜o das cobais submetidas a` substaˆncia na˜o fica alterado.
11.3 Teste de Proporc¸a˜o
No teste de proporc¸a˜o sa˜o utilizados os mesmos conceitos dos testes de hi-
po´teses para a me´dia populacionais, mas o interesse, nesse caso, e´ na proporc¸a˜o
de alguma caracter´ıstica na populac¸a˜o.
Exemplo 8.4(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de
Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 255).: Um relato´rio de uma
companhia afirma que 40% de toda a a´gua obtida, atrave´s de poc¸os artesianos
no nordeste, e´ salobra. Ha´ muitas controve´rsias sobre essa informac¸a˜o, alguns
dizem que a proporc¸a˜o e´ maior, outros que e´ menor. Para dirimir as du´vidas,
400 poc¸os foram sorteados e observou-se, em 120 deles, a´gua salobra. Qual seria
a conclusa˜o, ao n´ıvel de 3% ?
O primeiro passo e´ estabelecer as hipo´teses nula e alternativa. O paraˆmetro
de interesse e´ a proporc¸a˜o de poc¸os com a´gua salobra dentre todos os poc¸os no
nordeste. Essa proporc¸a˜o sera´ representada por p. Enta˜o, o teste bilateral sera´:
Hipo´teses =
{
H0 : p = 0.4
Ha : p 6= 0.4
Sabe-se que o melhor estimador para p e´ a proporc¸a˜o amostral pˆ cuja distri-
buic¸a˜o pode ser aproximada pela distribuic¸a˜o Normal, ou seja, pˆ ∼ N(p, p(1−p)n )
e a regia˜o cr´ıtica desse teste e´ RC = {x�<|x < pc1 ou x > pc2} Logo, para
α = 0.03,e tendo pc1 = a e pc2 = b, os seus valores sa˜o calculados por:
P (pˆ < a|H0) = 0.03
2
e P (pˆ < b|H0) = 0.03
2
Portanto, pˆ ∼ N(0.4, 0.4∗0.6400 )= pˆ ∼ N(0.4, 0.24400 ). Assim,
0.03
2
= 0.015 = P (pˆ < a|H0)
= P
 pˆ− 0.4√
0.24
400
<
a− 0.4√
0.24
400

Da tabela da Normal(0, 1) obtem-se que:
− 2.17 =
a− 0.4√
0.24
400
 e 2.17 =
b− 0.4√
0.24
400

Logo, a = 0.347 e b = 0.453. Com isso, RC = {x�<|x < 0.347 ou x >
0.453}.
> v <- sqrt(0.24/400)
> v
[1] 0.02449490
> a <- (0.4 - (2.17 * v))
> a
[1] 0.3468461
> b <- (0.4 + (2.17 * v))
> b
[1] 0.4531539
Calculando o p̂obs:
> p <- 120/400
> p
[1] 0.3
Como p̂obs = 0.3 pertence a` RC, ha´ evideˆncias estat´ısticas suficientes de que
a hipo´tese nula deve ser rejeitada ao n´ıvel de significaˆncia de 3%; ou seja, o
relato´rio da companhia na˜o esta´ correto, a quantidade de toda a´gua salobra
obtida, atrave´s de poc¸os artesianos no nordeste, e´ diferente de 40%.
Pode-se, ainda, usar o comando prop.test para fazer o teste de proporc¸a˜o
no R. Nesse exemplo, tem-se os seguintes comandos (onde 120 poc¸os a a´gua e´
salobra, 400 e´ o total de poc¸os, p = 40%):
> prop.test(120, 400, p = 0.4, alternative = "two.sided", conf.level = 0.97)
1-sample proportions test with continuity correction
data: 120 out of 400, null probability 0.4
X-squared = 16.2526, df = 1, p-value = 5.543e-05
alternative hypothesis: true p is not equal to 0.4
97 percent confidence interval:
0.2516625 0.3531082
sample estimates:
p
0.3
12 Comparac¸a˜o de Me´dias - Teste t pareado
No teste de hipo´tese para comparac¸a˜o de duas me´dias ha´ uma necessidade de
saber como os dados esta˜o dispostos, pois conforme a forma dos dados toma-se
um procedimento diferente. Esse fato ficara´ mais claro conforme for avanc¸ando
na leitura dos to´picos abaixo. Por exemplo: se os dados forem pareados, usa-se
um teste t pareado; mas quando os dados sa˜o independentes, usa-se o teste t
condicionado ao conhecimento do valor e igualdade das variaˆncias.
Para amostras dependentes, tem-se duas amostras X1,...,Xn e Y1,...,Yn, onde
essas observac¸o˜es sa˜o pareadas, ou seja, ha´ uma amostra aos pares (X1, Y1), ...,
(Xn, YN ). Quando as amostras sa˜o pareadas ha´ a possibilidade de medic¸a˜o em
unidades amostrais diferentes, mas homogeˆneas. Nesse caso, representa-se as
medidas tomadas antes e apo´s a intervenc¸a˜o realizada pelas varia´veis aleato´rias
Xi e Yi, respectivamente. Assim, chamamos de Di = Yi−Xi o efeito produzido
para o i-e´simo indiv´ıduo. Se para i = 1, ..., n, tem-se Di ∼ N(µD, σ2D). Logo,
testa-se as seguintes hipo´teses:
Hipo´teses =
{
H0 : µD = 0
H1 : µD 6= 0
O paraˆmetro µD e´ estimado pela me´dia amostral D e, na˜o sabendo o valor
de σ2D, estima-se esse por S
2
D e obtem-se:
S2 =
∑n
i=1(Di −D)2
n− 1
A estat´ıstica do teste e´ dada por:
T =
D − µD
SD√
n
Exemplo 9.1(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de
Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 294).: Uma distribuidora de
combust´ıveis deseja verificar se um novo tipo de gasolina e´ eficaz na revitalizac¸a˜o
de motores velhos. Com esse objetivo, seleciona 12 automo´veis de um mesmo
modelo com mais de 8 anos de uso e, apo´s regulagem de seus motores, verifica
o consumo de combust´ıvel. Em seguida, o carro e´ abastecido com o novo tipo
de combust´ıvel durante 15 semanas, e uma nova aferic¸a˜o do consumo e´ feita.
Defina as varia´veis aleato´rias Xi e Yi como o rendimento do automo´vel i respec-
tivamente antes e apo´s as 15 semanas. Vemos que Xi e Yi foram medidas em
uma mesma unidade amostral e,a assim, e´ razoa´vel assumir que exista alguma
dependeˆncia entre elas. Ressaltamos que, para i 6= j, devemos ter Xi 6= Xj in-
dependentes. O mesmo deve ocorrer para Yi e Yj . Ao medir a caracter´ıstica de
interesse em duas ocasio˜es, para cada uma das unidades amostrais, pretende-se
diminuir a influeˆncia de outros fatores(muitas vezes imposs´ıveis de serem con-
trolados) e ressaltar um poss´ıvel efeito do tipo de gasolina no desempenho do
ve´ıculo(pag.296).
Os valores observados,em km/l, junto com as diferenc¸as Di, para os 12
automo´veis sa˜o
> y = c(11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6,
+ 10.5, 11.4)
> x = c(8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8, 9.5, 8, 6.8)
> d = y - x
> d
[1] 3.5 0.9 3.1 1.7 4.0 1.2 4.9 2.4 5.4 1.1 2.5 4.6
Para verificar se o rendimento aumenta ou na˜o, faz-se um box-plot para as
varia´veis x e y e testa se
Hipo´teses =
{
H0 : µD = 0
H1 : µD > 0
onde, µD = E(Y −X).
Com os dados obtem-se o Dobs = 2, 9 e estima-se σ
2
D por s
2
Dobs
= 2, 4.
> mean(d)
[1] 2.941667
> var(d)
[1] 2.428106
l
l
Antes Depois
6
8
10
12
Box plot
Agora calcula-se a estat´ıstica tobs sob h0.
Paired t-test
data: y and x
t = 6.5396, df = 11, p-value = 2.097e-05
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
2.133833 Inf
sample estimates:
mean of the differences
2.941667
O comando usado para obter o resultado acima foi t.test(y, x, alternative =
”greater”, paired = TRUE,mu = 0, conf.level = 0.95). Verifica-se que o inter-
valo de confianc¸a vai de [2.133833 Inf); mas, na verdade, essa informac¸a˜o serve
apenas para o teste, ou seja, para ver que o valor zero na˜o esta´ no intervalo, na˜o
servindo para a estimativa. Caso queira saber que o verdadeiro valor desse e´ de
[1.95 3,93], deve calcular manualmente, como abaixo.
> qt(0.975, length(d) - 1)
[1] 2.200985
> mean(d) + 2 * sqrt(var(d)/12)
[1] 3.841316
> mean(d) - 2 * sqrt(var(d)/12)
[1] 2.042017
Usando o comando t.test(d, alternative = ”greater”,mu = 0, conf.level =
0.95), obtem-se resultados iguais ao comando t.test(y, x, alternative = ”greater”,
paired = TRUE,mu = 0, conf.level = 0.95). A diferenc¸a entre esses dois co-
mandos e´ o uso de d como a diferenc¸a entre y e x, pois os dados sa˜o pareados,
na˜o precisando usar paired = TRUE.
Com α = 0, 05 e da tabela t-Student, obtem-se tc=1,796 e do resultadodo R,
tobs=6,5 e, em seguida, o intervalo de confianc¸a [2.133833,∞[. Logo, rejeita-se a
hipo´tese nula, verificando que o novo combust´ıvel e´ eficaz na melhora do rendi-
mento, acarretando diminuic¸a˜o do consumo para o tipo de ve´ıculo considerado
no experimento.
12.1 Teste para Comparac¸a˜o de Duas Me´dias de amostras
independentes com Variaˆncias Desconhecidas
Supondo que se tem amostras independentes X1...Xn e Y1...Yn de duas po-
pulac¸o˜es P1 e P2, testaremos se as me´dias dessas populac¸o˜es podem ser consi-
deradas iguais ou na˜o.
Observa-se que informac¸o˜es adicionais podem fornecer subs´ıdios para o co-
nhecimento dos valores das variaˆncias populacionais, no entanto, e´ muito dif´ıcil
conhecer o valor da variaˆncia em questa˜o. Logo, verifica-se que os processos
geradores dos dados podem auxiliar na obtenc¸a˜o dessa informac¸a˜o.
12.1.1 Variaˆncias Desconhecidas e Iguais
Exemplo 9.7(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de
Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 305): Digitadores sa˜o trei-
nados em uma empresa em duas turmas distintas. Na primeira, denominada
Turma J, utiliza-se o me´todo japoneˆs de ensino, ao passo que na segunda turma,
denominada Turma A, utiliza-se um me´todo alema˜o. Deseja-se comparar os dois
me´todos e para tanto, 16 alunos de cada turma foram escolhidos aleatoriamente
e uma mesma tarefa foi atribu´ıda a cada um. Ao final do experimento, o tempo
gasto na realizac¸a˜o da tarefa, para cada aluno, foi anotado. No processo, dois
computadores utilizados pelos alunos selecionados da turma J e treˆs da turma
A apresentaram problemas que impediram a realizac¸a˜o da tarefa; o tamanho da
amostra foi assim reduzido para 14 e 13, respectivamente, para as turmas J e A.
Apesar de na˜o conhecidas, as variaˆncias populacionais para as duas turmas sa˜o
consideradas iguais com base em estudos anteriores. Os dados obtidos foram:
> j = c(10, 13, 9, 10, 14, 13, 10, 15, 12, 10, 9, 10, 13, 14)
> a = c(15, 12, 18, 16, 15, 17, 17, 15, 16, 17, 11, 17, 14)
Supo˜e-se que os dados para a turma J sa˜o representados por varia´veis alea-
to´rias independentes X1, ..., Xn1 , e Y1, ..., Yn2 para a turma A. Ale´m disso, Xi ∼
N(µX , σ
2), i = 1, ..., n1 e Yi ∼ N(µY , σ2), j = 1, ..., n2. Ale´m disso as hipo´teses
a serem testadas sa˜o:
Hipo´teses =
{
H0 : µX = µY
H1 : µX 6= µY
sendo, µD = E(Y −X), ou seja, e´ a diferenc¸a do tempo me´dio populacional
para os alunos da turma J e da turma A. As amostras dessas turmas fornecem
os seguintes valores:
> mean(j)
[1] 11.57143
> mean(a)
[1] 15.38462
> d = c(mean(j) - mean(a))
> d
[1] -3.813187
Fazendo o teste de hipo´tese t.
> t.test(j, a, alternative = "two.sided", var.equal = TRUE, mu = 0,
+ conf.level = 0.99)
Two Sample t-test
data: j and a
t = -4.7965, df = 25, p-value = 6.313e-05
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval:
-6.029173 -1.597201
sample estimates:
mean of x mean of y
11.57143 15.38462
Logo, os me´todos de ensino diferem a um n´ıvel de significaˆncia de 0,01.
12.1.2 Variaˆncias Desconhecidas e Diferentes
Exemplo(Montgomery): A concentrac¸a˜o de Arseˆnico na a´gua pota´vel pu´blica
e´ um potencial risco a` sau´de. Um artigo deArizonaRepublic(Sunday,May, 27, 2001)
mencionou a existeˆncia de concentrac¸a˜o de Arseˆnico na a´gua em partes por bi-
lha˜o(ppb) em 10 comunidades da regia˜o metropolitana de Phoenix e 10 comu-
nidades no Arizona rural.
Os dados foram X, Metro Phoenix e Y, Rural Arizona:
> x <- c(3, 7, 25, 10, 15, 6, 12, 25, 15, 7)
> y <- c(48, 44, 40, 38, 33, 21, 20, 12, 1, 18)
A hipo´tese a ser testada e´:
Hipo´teses =
{
H0 : µx = µy
H1 : µx 6= µy
Calculando a me´dia, variaˆncia e desvio padra˜o.
> mean(x)
[1] 12.5
> var(x)
[1] 58.27778
> sd(x)
[1] 7.633988
> mean(y)
[1] 27.5
> var(y)
[1] 235.6111
> sd(y)
[1] 15.34963
Fazendo um gra´fico para os dados.
Metro Phoenix Rural Arizona
0
10
20
30
40
Box plot
Fazendo o teste t.
> t.test(x, y, alternative = "two.sided", var.equal = FALSE, paired = FALSE,
+ mu = 0, conf.level = 0.95)
Welch Two Sample t-test
data: x and y
t = -2.7669, df = 13.196, p-value = 0.01583
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-26.694067 -3.305933
sample estimates:
mean of x mean of y
12.5 27.5
Conclui-se que a hipo´tese nula e´ rejeitada, ou seja, ha´ diferenc¸a estat´ıstica
nas me´dias de concentrac¸a˜o de Arseˆnico entre as comunidades.
12.2 Teste para Comparac¸a˜o de Duas Me´dias de amostras
independentes com Variaˆncias Conhecidas
Exemplo 9.6(Marcos Nascimento Magalha˜es e Antonio Carlos Pedroso de
Lima,Noc¸o˜es de Probabilidade e Estat´ıstica da pag 294).: Uma empresa avalia-
dora de imo´veis esta´ estudando as regio˜es central(E) e oeste(O) da cidade de Sa˜o
Paulo. O objetivo principal e´ verificar se o prec¸o me´dio, praticado para imo´veis
comerciais de um dado tamanho, e´ o mesmo nas duas a´reas. De levantamentos
anteriores, a empresa sabe que a a´rea oeste apresenta uma heterogeneidade de
prec¸os imobilia´rios(em UPC-unidade padra˜o de construc¸a˜o) maior do que a re-
gia˜o central, sendo os desvios padro˜es iguais a 0,82 UPC para a regia˜o oeste e
0,71 UPC para a regia˜o central. Para verificar se os prec¸os me´dios sa˜o iguais ou
na˜o, duas amostras, uma de tamanho 20 e outra de tamanho 18 foram retiradas
aleatoriamente de cada regia˜o. Os dados sa˜o os seguintes:
> E <- c(41.2, 40.5, 39.6, 39.4, 38.9, 39.1, 40.9, 41.2, 40.4,
+ 40, 40.6, 40.3, 39.2, 40.6, 39.7, 40.3, 40.9, 39.6, 39.7,
+ 41.2)
> O <- c(37.2, 34.9, 38.1, 35.4, 35.7, 37.7, 36.4, 36.6, 36.1,
+ 37.4, 36.1, 35.9, 36.9, 37.4, 37.5, 38, 36.8, 36.4)
Testa-se as hipo´teses:
Hipo´teses =
{
H0 : µX = µY
H1 : µX 6= µY
Primeiramente, calcula-se algumas medidas descritivas e faz-se um boxplot.
> mean(E)
[1] 40.165
> var(E)
[1] 0.5381842
> sd(E)
[1] 0.7336104
> mean(O)
[1] 36.69444
> var(O)
[1] 0.8264379
> sd(O)
[1] 0.9090863
Central−E Oeste−O
35
36
37
38
39
40
41
Box plot
Percebe-se que os dados sa˜o obtidos de duas populac¸o˜es Normais tal que:
E ∼ N(µE , σ
2
E
20 ) e O ∼ N(µO, σ
2
O
18 )
Calculando o valor da variaˆncia de D, onde D=E −O:
V arDbarra = V arD = V arE + V arO
Para α = 0.05, obtem-se os valores cr´ıticos na tabela da Normal padra˜o.
> LI <- qnorm(0.025) * sqrt(VarDbarra) + 0
> LI
[1] -0.4902283
> LS <- qnorm(0.975) * sqrt(VarDbarra) + 0
> LS
[1] 0.4902283
ou enta˜o calcula-se:
P (rejeitarH0|H0verdadeira) = P (D�RC|µE−µO = 0) = P (Z < LI√
0.06
ou Z >
LS√
0.06
)
onde LI=Limite Inferior e LS= Limite Superior.
Logo, RC = {d � < : d < −0.49 ou d > 0.49}.
Como Dobs = 40.2− 36.7 = 3.50 pertence a` regia˜o cr´ıtica, rejeita-se H0, ou
seja, os imo´veis situados nas regio˜es central e oeste teˆm prec¸os me´dios diferentes
ao n´ıvel de significaˆncia de 0.05.
Exemplo(wiener.math.csi.cuny.edu/Statistics/R/simpleR/stat011.html): Su-
ponha que uma fa´brica de carros diga que um modelo fac¸a 25 km por litro. Um
consumidor pede para que 10 donos desse modelo calcule quantos km por litro
e o valor me´dio foi de 22 com desvio padra˜o de 1.5. Essa afirmac¸a˜o da fa´brica
de carros e´ verdadeira?
Nesse caso temos o seguinte teste de hipo´tese:
Hipo´teses =
{
H0 : µ = 25
H1 : µ 6= 25
Para testa´-la, usando o R, simplesmente informa-se ao R o tipo de teste
conveniente. Para esse exemplo, a func¸a˜o t.test na˜o ira´ funcionar ( o conjunto
de dados ja´ esta´ resumido), enta˜o no´s estamos por nossa conta.
Calcula-se o teste estat´ıstico e depoiso p-valor.
> xbar = 22
> s = 1.5
> n = 10
> t = (xbar - 25)/(s/sqrt(n))
> t
[1] -6.324555
> pt(t, df = n - 1)
[1] 6.846828e-05
Logo, rejeita-se H0, ou seja, a afirmac¸a˜o da fa´brica de carros na˜o e´ confia´vel.
13 Teste para Variaˆncia
Conforme vimos acima, se as variaˆncias sa˜o iguais ou diferentes, conhecidas
ou na˜o, tem-se que realizar procedimentos diferentes em cada caso. Assim, e´
preciso verificar a igualdade de variaˆncias, o que sera´ exposto nesse to´pico. O
teste para variaˆncia tem como objetivo estudar a dispersa˜o dos valores em uma
ou mais populac¸o˜es, atrave´s de suas variaˆncias.
Exemplo do R help.: Verifique se X e Y tem as mesmas variaˆncias.
Primeiramente faz um teste F para comparar as duas variaˆncias. Em seguida
analisa os resultados e faremos o box-plot dos dados.
Hipo´teses =
{
H0 : σ
2
x = σ
2
y
H1 : σ
2
x 6= σ2y
Dado que X ∼ N(0, 4) e Y ∼ N(1, 1), faremos:
Entrada de dados.
> x <- rnorm(50, mean = 0, sd = 2)
> y <- rnorm(30, mean = 1, sd = 1)
Gra´fico box plot para as varia´veis.
> boxplot(x, y, main = "Box plot", names = c("X", "Y"))
X Y
−
4
−
2
0
2
4
Box plot
Teste de igualdade de variaˆncia pelo comando var.test:
> var.test(x, y)
F test to compare two variances
data: x and y
F = 4.5284, num df = 49, denom df = 29, p-value = 4.43e-05
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
2.275171 8.519799
sample estimates:
ratio of variances
4.528396
Portanto, ao n´ıvel de significaˆncia de 0,05 , ha´ evideˆncias de que as variaˆncias
sa˜o diferentes, dado que o valor testado, 1, na˜o se encontra no intervalo de
confianc¸a do teste. Logo, rejeita-se H0.
14 Distribuic¸a˜o Amostral da Me´dia
A distribuic¸a˜o amostral da estat´ıstica X, a me´dia amostral, e´ o estudo das
me´dias de todas as poss´ıveis AAS de tamanho n de uma populac¸a˜o, ou seja,
dada uma populac¸a˜o identificada pela varia´vel aleato´ria X, cujos paraˆmetros
sa˜o a me´dia populacional µ = E(X) e a variaˆncia populacional σ2 = V ar(X),
retira-se todas as AAS, calcula a me´dia de cada uma delas e, em seguida, estuda-
se as propriedades da distribuic¸a˜o amostral obtida.
Como exemplo gera-se uma AAS de 50 unidades de uma Uniforme(runif(50)),
dessa populac¸a˜o tira-se as AAS(combn),calcula-se suas me´dias(mean) e variaˆn-
cias(var) e, no final, faz o histograma com as me´dias de cada uma das as amos-
tras(hist)e verifica-se que quanto maior o tamanho da amostra mais ela tende
para uma distribuic¸a˜o Normal.
> require(caTools)
> aaa <- combn(1:50, 5)
> vet <- runif(50)
> amostra <- function(indice) {
+ vet[indice]
+ }
> amostra(c(1, 3, 5))
> amostra <- apply(aaa, 1, amostra)
> todas <- apply(aaa, 1, amostra)
> medidas <- apply(todas, 2, mean)
> mean(vet)
> var(vet)
> mean(medidas)
> var(medidas)
> hist(medidas)
Os dados abaixo mostram a me´dia(0,4970966) e a variaˆncia(0,06781833) da
populac¸a˜o e a me´dia(0,4970966) e a variaˆncia(0,01220731) da distribuic¸a˜o amos-
tral da me´dia com n=5, bem como o histograma dessa distribuic¸a˜o. Podemos
verificar, facilmente, que as me´dias da populac¸a˜o e a me´dia final das amostras
de tamanho 5 sa˜o iguais, mas as variaˆncias na˜o. Isso se da´ porque a distribuic¸a˜o
amostral da me´dia tem me´dia µ e variaˆncia σ
2
n , onde µ e σ
2 sa˜o, respectivamente
a me´dia e a variaˆncia da populac¸a˜o. Verifica-se,enta˜o, essa diferenc¸a, calculando
a relac¸a˜o entre essas duas variaˆncias.
[1] 0.4970966
[1] 0.06781833
[1] 0.4970966
[1] 0.01220731
> varpop <- var(vet)
> varamos <- var(apply(todas, 2, mean))
> varcalc <- varpop/5
Percebe-se, enta˜o, que o valor da variaˆncia calculada(varcalc) e´ igual ao valor
da variaˆncia da distribuic¸a˜o amostral da me´dia. Logo, tem-se que a variaˆncia da
distribuic¸a˜o amostral e´ igual a raza˜o entre a variaˆncia populacional e o tamanho
da amostra, no caso, n=5.
Histograma
n=5
Fr
eq
uê
nc
ia
0.2 0.4 0.6 0.8
0e
+0
0
1e
+0
5
2e
+0
5
3e
+0
5
Quando o tamanho da amostra aumenta, independentemente da forma da
distribuic¸a˜o da populac¸a˜o, a distribuic¸a˜o amostral de X aproxima-se cada vez
mais de uma distribuic¸a˜o Normal, resultado esse conhecido como TLC, Teorema
Limite Central. Observe que:
E(X) = µ e V ar(X) =
σ2
n
Agora iremos gerar 100 amostras de tamanho 5 da distribuic¸a˜o de Poisson(1)
usando o comando set.sedd e rpois.
> set.seed(123)
> aaa <- rpois(500, 1)
> aaa <- matrix(aaa, ncol = 5)
> dim(aaa)
[1] 100 5
O pro´ximo passo e´ calcular a me´dia de cada uma dessas 100 amostras.
> ybarras <- apply(aaa, 1, mean)
Dando continuidade, aumenta-se o tamanho de amostra para n = 200 e
repete-se o procedimento.
> bbb <- rpois(20000, 1)
> bbb <- matrix(bbb, ncol = 200)
> dim(bbb)
[1] 100 200
Calcula-se a me´dia de cada uma dessas 100 amostras.
> xbarras <- apply(bbb, 1, mean)
A seguir verifica-se a distribuic¸a˜o de Y e de X para n = 5 e n = 200,
respectivamente, fazendo os seus histogramas.
Histograma
n=5
Fr
eq
uê
nc
ia
0.0 0.5 1.0 1.5 2.0 2.5
0
5
15
25
0.0 0.5 1.0 1.5 2.0
0
1
2
3
4
5
6
Curva Normal
y
Fr
eq
uê
nc
ia
Histograma
n=200
Fr
eq
uê
nc
ia
0.0 0.5 1.0 1.5 2.0 2.5
0
5
15
25
0.0 0.5 1.0 1.5 2.0
0
1
2
3
4
5
6
Curva Normal
x
Fr
eq
uê
nc
ia
No exemplo seguinte mostra-se como a distribuic¸a˜o amostral do estimador para
a me´dia populacional, X, se modifica de acordo com o aumento no tamanho de
amostra. No primeiro comando plotamos dois gra´ficos em um u´nico eixo. O
primeiro exemplo e´ para n=10, n=50 e o terceiro para a populac¸a˜o.
> curve(dnorm(x, 5, 5/sqrt(10)), -20, 20, ylim = c(0, 0.6), col = "violet",
+ ylab = "Freque^ncia", main = "Distribuc¸~ao Amostral da Me´dia")
> curve(dnorm(x, 5, 5/sqrt(50)), -20, 20, ylim = c(0, 0.6), add = T,
+ col = "orange", ylab = "Freque^ncia", main = "Distribuc¸~ao Amostral da Me´dia")
> curve(dnorm(x, 5, 5), -20, 20, ylim = c(0, 0.6), add = T, col = "red",
+ ylab = "Freque^ncia", main = "Distribuc¸~ao Amostral da Me´dia")
> legend(-21, 0.6, c("Populac¸~ao", "n=50", "n=10"), cex = 1, fill = c("red",
+ "orange", "violet"))
> title(sub = "Figura : Gra´fico da Normal")
−20 −10 0 10 20
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
0.
6
Distribução Amostral da Média
x
Fr
eq
uê
nc
ia
População
n=50
n=10
Figura : Gráfico da Normal
Note como a variaˆncia da me´dia amostral depende do tamanho da amostra.
O gra´fico vermelho, da populac¸a˜o, a distribuic¸a˜o e´ semelhante a` distribuic¸a˜o
Normal. Ja´ o gra´fico violeta e laranja, com uma amostra de tamanho 10 e 50,
respectivamente, tambe´m apresenta distribuic¸a˜o Normal, pore´m com variaˆncia
menor. Como as distribuic¸o˜es sa˜o normais, o gra´fico esta´ centrado em torno da
me´dia. O que influencia mais e´ a alterac¸a˜o da variaˆncia, ou seja, quanto menor
a variaˆncia, a estimativa fica cada vez melhor.
Refereˆncias
Bussab, Wilton de O. and Morettin, Pedro A. (2008). Estat´ıstica Ba´sica,5ª ed.
Editora Saraiva.
Magalha˜es, Marcos Nascimento and Lima, Antonio Carlos Pedroso de (2004).
Noc¸o˜es de Probabilidade e Estat´ıstica, 6ª ed. EdUsp.
Douglas C. Montgomery, George C. Runger (2007). Applied statistics and
probability for engineers,4ª ed. Editora John Wiley & Sons, Ltd.
Murrell, Paul (2006). R Graphics. Editora Chapman & Hall/CRC.
Kuhnert, P.; Venables, B.(2005). An Introduction to R: Software for Sta-
tistical Modelling & Computing. CSIRO Mathematical and Information
Sciences:Cleveland, Australia
Peternelli,L.A.; Mello, M.P. de.(2007). Conhecendo o R: Uma visa˜o Estat´ıs-
tica. Editora UFV: Universidade Federal de Vic¸osa .
Beasley, Colin Robert (2004). Bioestat´ıstica Usando R. Apostila de exemplos
para o Bio´logo.Universidade Federal do Para´ Campus de Braganc¸a.
Crawley, Michael J.(2007)The R Book. Editora Wiley & Sons, Ltd
Torgo, Lu´ıs(2006). Introduc¸a˜o a` Programac¸a˜o em R. Editora Grupo de Mate-
me´tica e Informa´tica, Faculdade de Economia, Universidade do Porto
CSI Math Department,Hypothesis Testing Technical report
URL http://wiener.math.csi.cuny.edu/Statistics/R/simpleR/stat011.html
. Acesso em 18 de novembro 2010.
R Development Core Team (2001-2010). R Installation and Administration.
Technical report URL http://www.r-project.org/. Acesso em 10 de abril
2010.
R Development Core Team (2001-2010). R Data Import/Export. Technical
report
URL http://www.r-project.org/. Acesso em 23 de setembro 2010.
Lumley,Thomas. (2006). R Fundamentals and Programming Techniques. Te-
chnical report URL http://www.google.com.br/. Acesso em 18 de outubro
2010. R Development Core Team and UW Dept of Biostatistics
Borries, George Freitas von (2007). Introduc¸a˜o a Linguagem de Programac¸a˜o
R. Technical report URL http://aprender.unb.br/course/view.php?id=1725
. Acesso em 15 maio 2010.
Monteiro, Leadro R. e Gomes-Jr, Jose´ Louvise (2006). Introduc¸a˜o a` Biometria
utilizando R. Technical report.
URL cran.r-project.org/doc/contrib/biometria.pdf . Acesso em 15 abril
2010.
Junior, Paulo Justiniano Ribeiro (2005). Curso sobre o programa computaci-
onal R. Technical report.
URL http://www.leg.ufpr.br/Rpira/Rpira.pdf. Acesso em 9 abril 2010.
Baron, Jonathan .R reference card. Technical report.
URL http://aprender.unb.br/course/view.php?id=2486. Acesso em 20 de
setembro 2010.
Short, Tom.R Reference Card.(2004) Technical report.
URL http://aprender.unb.br/course/view.php?id=2486. Acesso em 2 de
dezembro 2010.
Downloads and Links. Technical report.
URL http://www.winedt.com/download.html. Acesso em 13 de abril de
2010.
The R Project for Statistical Computing. Technical report.
URL http://www.r-project.org/. Acesso em 9 de abril 2010.
Download and install Tinn-R for Windows. Technical report.
URL http://www.sciviews.org/Tinn-R/index.html. Acesso em 11 abril 2010.
Download Now! Technical report.
URL http://sourceforge.net/projects/tinn-r/. Acesso em 12 abril 2010.
R Development Core Team e R Foundation for Statistical Computing (2008)R:
A Language and Environment for Statistical Computing Technical report.
URL http://www.R-project.org. Acesso em 13 de janeiro 2011.
	Introdução
	Variável Aleatória Discreta
	Função de Probabilidade
	Distribuição Bernoulli
	Distribuição Binomial
	Distribuição Poisson
	Variável Aleatória Contínua
	Função de Densidade de Probabilidade - f(x) ou f.d.p
	Distribuição Uniforme
	Distribuição Normal
	Distribuição Exponencial
	Esperança
	Inserindo dados
	Tabelas
	Medidas Descritivas
	Gráficos
	Simulando dados
	Amostragem
	Teste de Hipóteses
	Teste para a Média e Proporção Populacional
	Teste para Média com Variância Desconhecida
	Teste para Média com Variância Conhecida
	Teste de Proporção
	Comparação de Médias - Teste t pareado
	Teste para Comparação de Duas Médias de amostras independentes com Variâncias Desconhecidas
	Variâncias Desconhecidas e Iguais
	Variâncias Desconhecidas e Diferentes
	Teste para Comparação de Duas Médias de amostras independentes com Variâncias Conhecidas
	Teste para Variância
	Distribuição Amostral da Média

Continue navegando