APostilaEstatisticaBasica (1)

•
UFRRJ

Milena Lima de Paula
19/08/2021
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 69 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 69 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 69 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

57.434 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Estatı́stica Básica
Universidade Federal Rural do Rio de Janeiro
Profª: Josiane S. Cordeiro Coelho
Prof: Felipe Leite Coelho da Silva
Estatı́stica Básica
1
Capı́tulo 1
Estatı́stica Descritiva
Antes de iniciarmos com a análise exploratória de dados, apresentaremos a notação de
somatório que será utilizada mais adiante.
1.1 Somatório
Podemos utilizar a notação do somatório para representar somas de elementos relaciona-
dos a um conjunto de valores. Seja X = {x1, x2, · · · , xn} um conjunto com n elementos
numéricos. Podemos representar a soma de seus elementos de forma reduzida utilizando
a notação de somatório:
x1 + x2 + · · ·+ xn =
n∑
i=1
xi,
onde lê-se ”somatório de xi para i variando de 1 até n.”
Vejamos alguns exemplos bastante utilizados abaixo.
Sejam os conjuntos de valoresX = {x1, x2, · · · , xn}, Y = {y1, y2, · · · , yn} eZ = {z11, z12, · · · ,
z1k, z21, z22, · · · , z2k, · · · , zn1, zn2, · · · , znk}.
a) Somatório simples:
n∑
i=1
xi = x1 + x2 + · · ·+ xn.
b) Somatório de quadrados:
n∑
i=1
x2i = x
2
1 + x
2
2 + · · ·+ x2n.
c) Quadrado do somatório:(
n∑
i=1
xi
)2
= (x1 + x2 + · · ·+ xn)2 .
2
Estatı́stica Básica
d) Somatório de produtos:
n∑
i=1
xiyi = x1y1 + x2y2 + · · ·+ xnyn.
e) Produto de somatórios:
n∑
i=1
xi
k∑
i=1
yi = (x1 + x2 + · · ·+ xn)(y1 + y2 + · · ·+ yk).
f) Somatório duplo:
n∑
i=1
k∑
j=1
zij =
n∑
i=1
(zi1 + zi2 + · · ·+ zik) = (z11 + z12 + · · ·+ z1k)+· · ·+(zn1 + zn2 + · · ·+ znk) .
A seguir, apresentamos algumas propriedades do somatório que podem ser úteis quando
estamos operando.
Principais propriedades de somatório:
i)
∑n
i=1(xi + yi) =
∑n
i=1 xi +
∑n
i=1 yi.
ii)
∑n
i=1 A = nA, em que A é uma constante.
iii)
∑n
i=1 Axi = A
∑n
i=1 xi, em que A é uma constante.
iv)
∑n
i=1(Axi + A) = A
∑n
i=1 xi + nA, em que A é uma constante.
Exemplo 1: Considere três conjuntos com 6 elementos cada descritos na tabela abaixo:
i 1 2 3 4 5 6
xi 2 3 4 3 2 1
fi 4 5 6 8 10 12
gi 10 6 12 4 5 10
Determine o valor de cada somatório:
a)
∑6
i=1 xi b)
∑4
i=2(fi + xi + gi) c)
∑4
i=2(f
2
i − g2i ) d)
∑6
i=1 xi + f3 − x1
e)
∑3
i=2(3xi + 10fi) f)
∑6
i=1 x5 g)
∑3
i=1
∑6
i=1(xi + fi) h)
∑6
i=1 25
Soluções:
a)
∑6
i=1 xi = x1 + x2 + x3 + x4 + x5 + x6 = 2 + 3 + 4 + 3 + 2 + 1 = 15.
b)
∑4
i=2(fi + xi + gi) = (f2 + x2 + g2) + (f3 + x3 + g3)(f4 + x4 + g4) = (3 + 5 + 6) + (4 + 6 +
12) + (3 + 8 + 4) = 14 + 22 + 15 = 41.
3
Estatı́stica Básica
Exercı́cio:
A tabela a seguir apresenta a variação do preço do dólar no mês de setembro de 2008 e a
compra da moeda realizada por duas empresas. A variável c(x) representa a compra de
dólares pelas duas empresas.
23/09 24/09 25/09 26/09 27/09
Preço do dólar 1.83 1.85 1.82 1.85 1.96
c(xi)(Empresa A) 1000 750 400 900 300
c(xi)(Empresa B) 1200 600 510 780 310
Qual foi a empresa que investiu mais nestes cinco dias do mês de setembro de 2008? E
quanto investiu em reais?
1.2 Principais definições
• Estatı́stica: planejamento, coleta, redução, análise, modelagem e interpretação de
dados.
• Análise exploratória de dados: consiste na redução (tabelas, gráficos e medidas
numéricas), análise e interpretação dos dados.
• Variável: qualquer caracterı́stica observável da unidade de interesse.
• População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum pelo
menos uma variável observável.
• Amostra: qualquer parte (subconjunto) de uma população.
Classificação de uma variável.
• Quantitativas: apresenta como possı́veis realizações uma contagem ou mensuração.
– Discretas: possı́veis resultados formam um conjunto finito ou enumerárel (por
exemplo, 0, 1, 2, · · · ). Ex: nº de irmãos, idade em anos.
– Contı́nuas: possı́veis resultados formam um conjunto não enumerárel (inter-
valos reais). Ex: peso, altura, salário.
4
Estatı́stica Básica
• Qualitativas: apresenta como possı́veis realizações uma qualidade/atributo da uni-
dade de estudo.
– Ordinal: apresenta ordem/hierarquia nos seus possı́veis resultados. Ex: nı́vel
de instrução, classe social.
– Nominal: não apresenta ordem/hierarquia nos seus possı́veis resultados. Ex:
sexo, estado civil, religião.
Exercı́cio: Classifique as seguintes variáveis:
1. Taxa de natalidade na cidade de Seropédica (número de nascimentos por 1000 habi-
tantes (nesta região) em um ano).
2. Grau de ajustamento familiar (baixo, médio e alto).
3. Fertilizante utilizado em plantação de batatas (nenhum, nitrogênio, esterco, nitrogênio
ou esterco);
4. Número de casos diários de Covid-19 no estado do Rio de Janeiro.
5
Estatı́stica Básica
1.3 Representação Tabular de Variáveis: Tabela de Distri-
buição de Frequências
Podemos tabular um conjunto de dados a fim de obter um resumo e/ou uma apresentação
dos dados. A tabulação pode ser feita para variáveis qualitativas ou quantitativas. Se-
guem alguns exemplos.
A tabela abaixo é simples e não faz nenhum tipo de redução dos dados, apenas organiza.
6
Estatı́stica Básica
 
Id Turma Sexo Idade Alt Peso Filhos Toler Exerc TV OpTV 
1 A F 17 1,6 60,5 2 P 0 16 R 
2 A F 18 1,69 55 1 M 0 7 R 
3 A M 18 1,85 72,8 2 P 5 15 R 
4 A M 25 1,85 80,9 2 P 5 20 R 
5 A F 19 1,58 55 1 M 2 5 R 
6 A M 19 1,76 60 3 M 2 2 R 
7 A F 20 1,6 58 1 P 3 7 R 
8 A F 18 1,64 47 1 I 2 10 R 
9 A F 18 1,62 57,8 3 M 3 12 R 
10 A F 17 1,64 58 2 M 2 10 R 
11 A F 18 1,72 70 1 I 10 8 N 
12 A F 18 1,66 54 3 M 0 0 R 
13 A F 21 1,7 58 2 M 6 30 R 
14 A M 19 1,78 68,5 1 I 5 2 N 
15 A F 18 1,65 63,5 1 I 4 10 R 
16 A F 19 1,63 47,4 3 P 0 18 R 
17 A F 17 1,82 66 1 P 3 10 N 
18 A M 18 1,8 85,2 2 P 3 10 R 
19 A F 20 1,6 54,5 1 P 3 5 R 
20 A F 18 1,68 52,5 3 M 7 14 M 
21 A F 21 1,7 60 2 P 8 5 R 
22 A F 18 1,65 58,5 1 M 0 5 R 
23 A F 18 1,57 49,2 1 I 5 10 R 
24 A F 20 1,55 48 1 I 0 28 R 
25 A F 20 1,69 51,6 2 P 8 4 N 
26 A F 19 1,54 57 2 I 6 5 R 
27 B F 23 1,62 63 2 M 8 5 R 
28 B F 18 1,62 52 1 P 1 10 R 
29 B F 18 1,57 49 2 P 3 12 R 
30 B F 25 1,65 59 4 M 1 2 R 
31 B F 18 1,61 52 1 P 2 6 N 
32 B M 17 1,71 73 1 P 1 20 R 
33 B F 17 1,65 56 3 M 2 14 R 
34 B F 17 1,67 58 1 M 4 10 R 
35 B M 18 1,73 87 1 M 7 25 B 
36 B F 18 1,6 47 1 P 5 14 R 
37 B M 17 1,7 95 1 P 10 12 N 
38 B M 21 1,85 84 1 I 6 10 R 
39 B F 18 1,7 60 1 P 5 12 R 
40 B M 18 1,73 73 1 M 4 2 R 
7
Estatı́stica Básica
1.3.1 Tabela de frequências
A tabela de distribuição de frequências apresenta as informações de frequências absolutas,
frequências relativas e acumuladas dos dados observados.
Tabela 1.1: Tabela de frequências.
Classes ni fi fiac Percentual
c1 n1 f1 f1ac 100× f1
c2 n2 f2 f2ac 100× f2
...
...
...
...
ck nk fk 1 100× fk
Total n 1 100%
Considere que:
• k é o número de classes;
• ni é a frequência absoluta, n1 + n2 + · · ·+ nk = n;
• fi é a frequência relativa, fi =
ni
n
;
• fiac é a frequência relativa acumulada, fiac =
i∑
j=1
fj .
Importante: O número de classes (k) para uma tabela de frequências pode ser obtido
utilizando os seguintes métodos:
• Método da raiz quadrada:
k =

√
n, se n > 25;
5, caso contrário.
• Método de Sturges:
k = 1 + 3, 22 log10 n (1.1)
• Também podemos escolher de acordo com nosso interesse na pesquisa.
8
Estatı́stica Básica
Exemplo. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).
Nı́vel de Instrução ni fi % fac
Fundamental 12 0,33 33 0,33
Médio 18 0,50 50 0,83
Superior 6 0,17 17 1,00
Total 36 1,00 100 -
Tabela 1.2: Tabela de Distribuição de Frequências
em que:
ni: frequência absoluta;
fi: frequência relativa;
%: porcentagem;
fac: frequência relativa acumulada.
Tabela de dupla entrada
Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos
(B1, B2, B3 e B4) com agências de mesmo porte em três avenidas (A1, A2 e A3) de uma
cidade:
Tabela 1.3: Dados
Banco/Avenida A1 A2 A3 Total
B1 2535 24 84
B2 32 28 27 87
B3 27 33 31
B4 41 60 25 126
Total 125 156 107 388
9
Estatı́stica Básica
Exemplo. Foi realizada uma pesquisa com 20 funcionários de uma empresa para avaliar
a preferência entre dois produtos (A e B). A tabela abaixo apresenta os resultados das
seguintes caracterı́sticas investigadas: Renda do trabalho em número de salários mı́nimos
(X); Sexo (F - feminino e M - masculino); Preferência entre os produtos A ou B.
Entrevistado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
No salários (X) 2 3,7 1,7 3 4 5 1,4 3 3 1,8 6 4,8 2,3 1,5 3,2 2,2 1 4,4 2 2
Sexo M M F M F M M F F F M M F M F F M F M F
Preferência A B A B B B A B A A B B A A A A A B A A
Construa uma tabela de frequências de dupla entrada para as variáveis qualitativas.
10
Estatı́stica Básica
1.4 Representação Gráfica de Variáveis
• Qualitativas:
– gráfico de colunas/barras;
– gráfico de setores;
• Quantitativas:
– gráfico de colunas/barras;
– gráfico de linhas;
– gráfico de dispersão;
– ramo e folhas;
– ogiva;
– histograma;
– polı́gono de frequências.
Todos os gráficos a seguir foram gerados utilizando o software livre R. Você pode fazer o
download do programa pela site oficial: https://cran.r-project.org/
1.4.1 Gráfico de Barras/Colunas
Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).
11
Estatı́stica Básica
fundamental médio superior
Grau de Instrução
F
re
qu
ên
ci
a
0
5
10
15
Figura 1.1: Gráfico de barras para variável nı́vel de instrução.
1.4.2 Gráfico de Setores/Pizza
Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).
1(33.3%)
2(50%) 3(16.7%)
1=Fundamental, 2=Médio, 3=Superior
Figura 1.2: Gráfico de setores para variável nı́vel de instrução.
Pode vir acompanhado com uma legenda ou porcentagens ao lado das respostas.
12
Estatı́stica Básica
1.4.3 Gráfico de Linhas
Variável: Nº de filhos por estudante =
{0, 1, 2, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 3, 0, 0, 1, 2, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 5, 2, 0, 1, 3, 0, 2, 3}.
Estudantes
N
º 
de
 fi
lh
os
0 5 10 15 20 25 30 35
0
1
2
3
4
5
Figura 1.3: Gráfico de linhas para variável número de filhos por estudante.
13
Estatı́stica Básica
1.4.4 Gráfico de Dispersão
Útil para séries temporais ou para relacionar duas variáveis quantitativas. Variáveis: Ve-
locidade (4, 4, 7, 7, 8, 9, 10, 10, 10, ..., 24, 25) e Distância (10, 4, 22, 16, 10, 18, 26, 34, ..., 120,
85).
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
Velocidade
D
is
tâ
nc
ia
5 10 15 20 25
0
20
40
60
80
10
0
12
0
Figura 1.4: Gráfico de dispersão entre as variáveis velocidade e distância.
1.4.5 Ramo e folhas
Vejamos um exemplo. Dados: 91,96,98,104,105,108,108,112,112,112,113,113,114,115,115,116,116,116,116,118,118,
118,119,120,121,121,121,121,121,123,123,123,124,126,126,126,126,126,127,127,128,128, 129,
129,129,130,130,130,131,132,132,132,133,133,134,134,134,134,134,134,135,136, 136,137, 138,
141,141,141,142,143,143,144,144,144,144,145,146,146,146,146,147,147, 148,148,149, 150,150,
150, 153,154,154,154,154,,157,157,158,158.
14
Estatı́stica Básica
9 | 168
10 | 4588
11 | 2223345566668889
12 | 0111113334666667788999
13 | 00012223344444455566678
14 | 11123344445666677889
15 | 000344447788
Tabela 1.4: Gráfico de ramo e folhas.
1.4.6 Ogiva
Gráfico das frequências relativas (proporções) acumuladas fac.
Exemplo. Variável: Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11,..., 24, 24, 24, 24, 25),
com frequências relativas = 0.03703704, 0.03703704, 0.01851852, 0.01851852, 0.05555556,
0.03703704, ..., 0.01851852, 0.07407407, 0.09259259).
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
5 10 15 20 25
Velocidade
P
ro
po
rç
ão
 A
cu
m
ul
ad
a 
(F
ac
)
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
Figura 1.5: Gráfico das frequências relativas acumuladas.
15
Estatı́stica Básica
1.4.7 Histograma
Suponha o seguinte conjunto de n = 36 dados:
4,00; 4,56; 5,25; 5,73; 6,26; 6,66; 6,86; 7,39; 7,59; 7,44; 8,12; 8,46 ; 8,74 ; 8,95; 9,13; 9,35; 9,77;
9,80; 10,53; 10,76; 11,06; 11,59; 12,00; 12,79 ;13,23; 13,60; 13,85; 14,69; 14,71; 15,99; 16,22;
16,61; 17,26; 18,75; 19,40; 23,30.
Para construir o histograma, primeiro agrupamos os dados em intervalos de classe e apre-
sentamos em uma tabela de frequências. A fim de agrupar em intervalos, precisamos de-
finir o número de classes. Aqui, utilizaremos o conhecimento do pesquisador escolhendo
o número de classes e realizando o procedimento a seguir.
Calculamos a amplitude total do conjunto:
∆ = 23, 30− 4, 00 = 19, 30.
Suponha que queremos dividir em 5 intervalos de igual tamanho, basta fazer
∆i =
∆
5
=
19, 30
5
= 3, 86 ≈ 4,
(sempre arredondar para mais, garantindo que o último valor seja incluı́do).
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,0700
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,0550
[16,20) 18 5 0,14 14 0,97 0,0350
[20,24) 22 1 0,03 3 1,00 0,0075
Total - 36 1,00 100 - -
em que:
xi: ponto médio do i-ésimo intervalo de classe;
ni: frequência absoluta do i-ésimo intervalo de classe;
fi: frequência relativa do i-ésimo intervalo de classe;
%: porcentagem do i-ésimo intervalo de classe;
fac: frequência relativa acumulada até o i-ésimo intervalo de classe;
16
Estatı́stica Básica
di: densidade do i-ésimo intervalo de classe.
Note que:
• os histogramas são formados por retângulos cujas bases são os intervalos de classes
dos dados agrupados e as alturas são as densidades de cada classe (di).
• podemos ter histogramas de frequências (di = niδi ), de proporção (di =
fi
δi
) e de por-
centagem (di = 100fiδi ).
• nos histogramas de proporção, temos a área total igual a 1.
• nos histogramas de proporção, cada retângulo representa a proporção da respectiva
classe representada.
Salário
D
en
si
da
de
 d
e 
F
re
qu
ên
ci
a
0 4 8 12 16 20 24
0.
00
0.
02
0.
04
0.
06
0.
08
0.
10
28%
33%
22%
14%
3%
Figura 1.6: Histograma.
17
Estatı́stica Básica
1.4.8 Polı́gono de Frequências
●
●
●
●
●
●
●
Salário
D
en
si
da
de
0 5 10 15 20 25 30
0.
00
0.
02
0.
04
0.
06
0.
08
0.
10
Figura 1.7: Polı́gono de frequências.
Podemos também sobrepor o histograma e o polı́gono de frequências:
Salário
D
en
si
da
de
 d
e 
F
re
qu
ên
ci
a
0 4 8 12 16 20 24
0.
00
0.
02
0.
04
0.
06
0.
08
0.
10
●
●
●
●
●
●
●
Figura 1.8: Histograma e polı́gono de frequências.
18
Estatı́stica Básica
Exercı́cio: Considere um conjunto com os dados de idade (em meses) de uma determinada
planta.
1 2 2 6 8 9 15 17 20 20
20 21 27 29 29 35 37 37 43 48
Faça o histograma com 5 classes iniciando no menor valor do conjunto. E, em seguida, o
polı́gono de frequência.
19
Estatı́stica Básica
1.5 Medidas Resumo: Medidas de Posição e Medidas de
Dispersão
As medidas de posição e de dispersão são somente aplicadas aos conjuntos de dados
quantitativos, fornecendo informções que resumem e auxiliam no conhecimento sobre o
conjunto.
Considere um conjunto de dados X = {x1, x2, · · · , xn} com n observações.
1.5.1 Medidas de Posição
São medidas que resumem o conjunto de dados em relação à posição.
• Moda (Mo): é a observação que mais se repete no conjunto de dados. Exemplos:
1. Unimodal: X = {4, 7, 5, 3, 4, 9, 10, 2}, logo Mo = 4.
2. Amodal: X = {4, 7, 5, 3, 9, 10, 2}, logo não existe Mo.
3. Bimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7}, logo Mo = 4 e 7.
4. Multimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7, 9}, logo Mo = 4, 7 e 9.
• Mediana (Md): é o valor do conjunto de dados que divide o conjunto ordenado em
duas partes iguais. Exemplos:
1. X = {4, 7, 5, 3, 9, 10, 2}. Ordenando:
{2, 3, 4, 5, 7, 9, 10},
logo Md = 5, que ocupa a 4ª posiçãono conjunto com 7 observações deixando
3 observações para cada lado.
2. X = {4, 7, 5, 3, 9, 10, 2, 7}. Ordenando:
{2, 3, 4, 5, 7, 7, 9, 10},
que é um conjunto com 8 observações. A mediana é o valor que deixa 4 observações
abaixo e 4 observações acima e, podemos obtê-la tomando o ponto médio en-
tre as observações da 4ª posição e da 5ª posição: Md =
5 + 7
2
= 6, que é um
valor que não pertence ao conjunto de dados. Note que para conjuntos com
total de observações ı́mpar, a mediana pertence ao conjunto, já para total de
observações par, a mediana pode pertencer ou não.
20
Estatı́stica Básica
• Média: é uma medida extremamente conhecida e utilizada. Dependendo do con-
junto de dados, pode ser mais indicado diferentes tipos de médias, como apresenta-
mos abaixo.
– Média Aritmética Simples:
x̄ =
∑n
i=1 xi
n
.
– Média Aritmética Ponderada: Suponha, ainda, um conjunto de pesos W =
{w1, w2, · · · , wn} associado ao conjunto X . A média aritmética do conjunto X
ponderada pelo conjunto W é dada por:
x̄p =
∑n
i=1 xiwi∑n
i=1wi
.
– Média Geométrica:
x̄g =
n
√
x1 × x2 × · · · xn.
Útil para encontrar taxas médias.
– Média Harmônica:
x̄h =
n∑n
i=1
1
xi
.
Útil para encontrar a média de taxas médias e velocidades médias.
Exemplos: Seja o conjunto de observações X = {4, 7, 5, 3, 9, 10, 2}. Vamos determi-
nar cada uma das médias apresentadas acima.
1. x̄ =
4 + 7 + 5 + 3 + 9 + 10 + 2
7
≈ 5, 72;
2. Considere o conjunto de pesos W = {1, 3, 2, 1, 3, 2, 1}, logo:
x̄p =
4 ∗ 1 + 7 ∗ 3 + 5 ∗ 2 + 3 ∗ 1 + 9 ∗ 3 + 10 ∗ 2 + 2 ∗ 1
13
≈ 6, 69;
3. x̄g =
7
√
4× 7× 5× 3× 9× 10× 2 ≈ 4, 98;
4. x̄h =
7
1
4
+ 1
7
+ 1
5
+ 1
3
+ 1
9
+ 1
10
+ 1
2
≈ 4, 28.
• Separatrizes ou Quantis: Dividem o conjunto de dados ordenado em partes iguais.
– Mediana: divide em duas partes iguais (Md).
– Quartis: divide em 4 partes iguais (Q1, Q2, Q3).
– Decis: divide em 10 partes iguais (D1, · · · , D9).
21
Estatı́stica Básica
– Percentis: divide em 100 partes iguais (P1, · · · , P99).
Podemos utilizar a seguinte fórmula para encontrar a posição dos quantis de forma
geral:
s(n+ 1)
r
,
em que s é a ordem do quantil (quartil {1, 2, 3}; decil {1, 2, · · · , 9}; percentil {1, 2, · · · , 99}),
r é o quantil desejado (4,10 ou 100) e n é o tamanho do conjunto de dados.
Exemplo: SejaX = {160, 145, 133, 144, 152, 167, 200, 156, 143, 144, 167, 177, 160, 153, 155}
com n = 15 observações. Encontre os quartis, D3, P25 e P10.
Ordenando, obtemos:
{133, 143, 144, 144, 145, 152, 153, 155, 156, 160, 160, 167, 167, 177, 200}.
1. D3: encontrando a posição
s(n+ 1)
r
=
3 ∗ (15 + 1)
10
= 4, 8 ≈ 5,
logo D3 = 145;
2. P25: encontrando a posição
25 ∗ (15 + 1)
100
= 4,
logo P25 = 144;
3. P10: encontrando a posição
10 ∗ (15 + 1)
100
= 1, 6 ≈ 2,
logo P10 = 143.
Medidas de Posição para Dados Agrupados
Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o
ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Podemos calcular
medidas resumo de um conjunto de dados agrupados, que serão medidas aproximadas, e
não exatas, do conjunto de dados original. Definimos:
• Moda: valor xi com maior ni ou fi.
22
Estatı́stica Básica
• Mediana: vamos encontrar pelo histograma de proporção, utilizando que a as áreas
de cada retângulo corresponde a proporção de observados na respectiva classe.
• Média Aritmética:
x̄ =
∑K
i=1 xini
n
=
K∑
i=1
xifi.
Exemplo: SejaX = {4, 00; 4, 56; 5, 25; 5, 73; 6, 26; 6, 66; 6, 86; 7, 39; 7, 59; 7, 44; 8, 12; 8, 46; 8, 74;
8, 95; 9, 13; 9, 35; 9, 77; 9, 80; 10, 53; 10, 76; 11, 06; 11, 59; 12, 00; 12, 79; 13, 23; 13, 60; 13, 85; 14, 69;
14, 71; 15, 99; 16, 22; 16, 61; 17, 26; 18, 75; 19, 40; 23, 30}, agrupado em 5 intervalos de classes:
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
Salário
D
en
si
da
de
 d
e 
F
re
qu
ên
ci
a
0 4 8 12 16 20 24
0.
00
0.
02
0.
04
0.
06
0.
08
0.
10
28%
33%
22%
14%
3%
1. Moda = 10.
2. Mediana = 10,67 (obtida via histograma). Como determinar? A mediana deixa 50%
dos dados abaixo dela. No primeiro retângulo do histograma, temos 28% dos dados
23
Estatı́stica Básica
(f1) que não é suficiente, então temos que somar mais a proporção de 33% do se-
gundo retângulo, que já ultrapassa os 50% da mediana. Logo, a mediana é um valor
no intervalo de 8 até 12, que determina um retângulo de área 22% para somar com
os 28% do retângulo anterior e totalizar 50%. Temos a seguinte equação:
0,22(área do retângulo determinado pela mediana)=(Md−8)(base do retângulo)*0,0825(altura
do retângulo).
Basta isolarmos a Md e encontramos Md = 8 +
0, 22
0, 0825
= 10, 67.
3. Média Aritmética =
6× 10 + 10× 12 + 14× 8 + 18× 5 + 22× 1
10 + 12 + 8 + 5 + 1
= 6 × 0, 28 + 10 ×
0, 33 + 14× 0, 22 + 18× 0, 14 + 22× 0, 03 = 11, 24.
1.5.2 Medidas de Dispersão
São medidas que resumem o conjunto de dados em relação à dispersão/variabilidade dos
dados.
• Suponha que queremos pensar em dispersão dos dados em torno da sua média
aritmética. Então, poderı́amos olhar para as diferenças de cada xi, para i = 1, · · · , n,
em relação à média x̄, isto é,
xi − x̄,
e, pensando numa única medida para todo conjunto poderı́amos pensar em
n∑
i=1
(xi − x̄) =
n∑
i=1
xi −
n∑
i=1
x̄ = nx̄−
n∑
i=1
x̄ = 0,
que é sempre igual a zero para qualquer que seja X . Para contornar esse problema,
temos as seguintes propostas:
– Desvio médio absoluto:
DMA(X) =
∑n
i=1 |xi − x̄|
n
.
– Variância (amplamente utilizado):
V ar(X) =
∑n
i=1(xi − x̄)2
n
=
∑n
i=1 x
2
i
n
− (x̄)2.
24
Estatı́stica Básica
– Desvio Padrão (retornando a escala original dos dados):
DP (X) =
√
V ar(X).
• Intervalo Interquartı́lico: IQ(X) = Q3(X)−Q1(X).
• Coeficiente de Variação (medida adimensional, muito útil para comaprar conjuntos
com escalas diferentes):
CV (X) =
DP (X)
x̄
,
para x̄ 6= 0.
Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2}. Portanto:
• DMA(X) =
|4− 5, 72|+ |7− 5, 72|+ |5− 5, 72|+ |3− 5, 72|+ |9− 5, 72|+ |10− 5, 72|+ |2− 5, 72|
7
≈
2, 53;
• V AR(X) =
42 + 72 + 52 + 32 + 92 + 102 + 22
7
− 5, 722 ≈ 7, 92;
• DP (X) =
√
7, 92 ≈ 2, 81;
• IQ(X) = 8 − 3, 5 = 4, 5, pois Q1(X) = 3, 5
(
3 + 4
2
)
e Q3(X) = 8
(
7 + 9
2
)
extraı́dos
do conjunto ordenado {2, 3, 4, 5, 7, 9, 10} com 7 observações;
• CV (X) =
2, 81
5, 72
≈ 0, 49.
Medidas de Dispersão para Dados Agrupados
Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o
ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Assim como para as
medidas de posição, podemos calcular as medidas de dispersão de um conjunto de dados
agrupados, que serão medidas aproximadas, e não exatas, do conjunto de dados original.
Definimos:
• DMA(X) =
∑K
i=1 |xi − x̄|ni
n
=
K∑
i=1
|xi − x̄|fi.
• V ar(X) =
∑K
i=1(xi − x̄)2ni
n
=
K∑
i=1
(xi − x̄)2fi =
K∑
i=1
x2i fi − (x̄)2.
25
Estatı́stica Básica
• Desvio padrão, intervalo interquartı́lico e coeficiente de variação: permacem com as
mesmas fórmulas, somente adaptando-se as medidas envolvidas que serão calcula-
das a partir dos dados agrupados.
Calcule todas as medidas de dispersão apresentadas para o conjunto de dados agrupados
da tabela abaixo.
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
Salário
D
en
si
da
de
 d
e 
F
re
qu
ên
ci
a
0 4 8 12 16 20 24
0.
00
0.
02
0.
04
0.
06
0.
08
0.
10
28%
33%
22%
14%
3%
Calculando:
• DMA(X) =
∑K
i=1|xi − x̄|ni
n
=
|6− 11, 24| × 10 + |10− 11, 24| × 12 + |14− 11, 24| × 8 + |18− 11, 24| × 5 + |22− 11, 24| × 1
36
=
3, 72;
• V ar(X) =
K∑
i=1
x2i fi − (x̄)2 = (62 × 0, 28 + 102 × 0, 33 + 142 × 0, 22 + 182 × 0, 14 + 222 ×
0, 03)− (11, 24)2 ≈ 19, 74;
26
Estatı́stica Básica
• DP (X) =
√
19, 7 ≈ 4, 44;
• IQ(X) = Q3(X)−Q1(X) = 14, 545455− 7, 571429 = 6, 974026, pois através do histo-
grama determinamos os quartis:
– Q1 deixa 25% dos dados abaixo dele. No primeiro retângulo do histograma,
temos 28% dos dados (f1) que já ultrapassa os 25% do primeiro quartil. Logo, o
Q1 é um valor no intervalo de 4 até 8. Temos a seguinte equação:
0,25(área do retângulo determinado peloQ1)=(Q1−4)(base do retângulo)*0,07(altura
do retângulo).
Basta isolarmos o Q1 e encontramos Q1 = 4 +
0, 25
0, 07
= 7, 571429.
– Q3 deixa 75% dos dados abaixo dele. Precisamos alcançar no mı́nimo os 75%,
assim precisamos dois 3 primeiros retângulos, que somam 28%+33%+22%=83%
dos dados que ultrapassa os 75% do terceiro quartil. Logo, o Q3 é um valor no
intervalo de 12 até 16, que determina uma área de 14% para somar com os dois
primeiros retângulos um total de 75%. Temos a seguinte equação:
0,14(área do retângulo determinado peloQ3)=(Q3−12)(base do retângulo)*0,055(altura
do retângulo).
Basta isolarmos o Q3 e encontramos Q3 = 12 +
0, 14
0, 055
= 14, 545455.
• CV (X) =
DP (X)
X̄
=
4, 44
11, 24
≈ 0, 40.
1.5.3 Propriedades das Medidas de Posição e Dispersão
Sejam a, b ∈ < e X = {x1, x2, · · · , xn}.
• Se Y = {a, a, · · · , a}, então todas as medidas de posição são iguais a ”a”e todas as
medidas de dispersão são iguais a zero.
• Seja o conjunto Y = {ax1, ax2, · · · , axn}, então ȳ = ax̄, Mo(Y ) = aMo(X), Md(Y ) =
aMd(X); DMA(Y ) = |a|DMA(X), V ar(Y ) = a2V ar(X), DP (Y ) = |a|DP (X),
IQ(Y ) = |a|IQ(X).
• Seja o conjunto Z = {x1 + b, x2 + b, · · · , xn + b}, então z̄ = x̄+ b, Mo(Z) = Mo(X) + b,
Md(Z) = Md(X) + b e o mesmo vale para todos os quantis; as medidas de dispersão
permanecem inalteradasDMA(Z) = DMA(X), V ar(Z) = V ar(X),DP (Z) = DP (X),
IQ(Z) = IQ(X).
27
Estatı́stica Básica
• Seja o conjunto W = {ax1 + b, ax2 + b, · · · , axn + b}, então w̄ = ax̄ + b, Mo(W ) =
aMo(X)+b,Md(W ) = aMd(X)+b e o mesmo vale para todos os quantis;DMA(W ) =
|a|DMA(X), V ar(W ) = a2V ar(X), DP (W ) = |a|DP (X), IQ(W ) = |a|IQ(X).
Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2}. Defina Y = 3X , Z = X + 4 e W = 2X − 1.
Determine:
• as médias de Y , Z, e W :
ȳ = 3x̄ = 3× 5, 72 = 17, 16;
z̄ = x̄+ 4 = 5, 72 + 4 = 9, 72;
w̄ = 2x̄− 1 = 2× 5, 72− 1 = 10, 44.
• as medianas de Y , Z, e W :
Md(Y ) = 3Md(X) = 3× 5 = 15;
Md(Z) = Md(X) + 4 = 5 + 4 = 9;
Md(W ) = 2Md(X)− 1 = 2× 5− 1 = 9.
• as variâncias de Y , Z, e W :
V ar(Y ) = 32V ar(X) = 32 × 7, 92 = 71, 28;
V ar(Z) = V ar(X) = 7, 92;
V ar(W ) = 22V ar(X) = 22 × 7, 92 = 31, 68.
• os desvios padrões de Y , Z, e W :
DP (Y ) =
√
V ar(Y ) =
√
71, 28 = 8, 442748;
DP (Z) =
√
V ar(Z) =
√
7, 92 = 2, 814249;
DP (W ) =
√
V ar(W ) =
√
31, 68 = 5, 628499.
Exercı́cio Segundo um laboratório, os ı́ndices de glicose (em mg por decilitro) de vinte
pacientes no inı́cio da coletagem de um certo dia foram: 77, 75, 82, 76, 69, 71, 80, 66, 85, 77,
72, 100, 80, 86, 74, 90, 69, 89, 74 e 115. Sabendo que
20∑
i=1
xi = 1607 e
20∑
i=1
x2i = 131705
1. Encontre a média e a variância destes ı́ndices.
28
Estatı́stica Básica
2. Encontre a média e a variância destes ı́ndices, supondo que houve um erro de medição
de 10 mg/dL para menos em todos os pacientes.
3. Supondo, ainda, que houve um erro de medição de 10 mg/dL para menos em todos
os pacientes, determine a média e a variância dos ı́ndices multiplicados por -2.
29
Estatı́stica Básica
1.6 Assimetria e Curtose
Vamos falar agora de duas formas de classificação de um conjunto de dados que auxiliam
na sua descrição e entendimento, a assimetria e a curtose.
1.6.1 Assimetria
Um conjunto de dados é dito ser simétrico se sua moda, mediana e média são iguais.
Da mesma forma, se os lados direito e esquerdo do diagrama/gráfico de pontos (ou de
barras), ou do histograma, são a imagem espelhada um do outro. Observe que, para
discutirmos assimetria o conjunto de dados deve ser unimodal.
Caso seja não seja simétrico, dizemos que é assimétrico. Um conjunto de dados é as-
simétrico à direita se a cauda direita do histograma se estende muito mais do que a cauda
esquerda, ou seja, a cauda declina para direita. Nesse caso, temos média>mediana>moda.
E um conjunto de dados é assimétrico à esquerda se a cauda esquerda do histograma
se estende muito mais do que a cauda direita, ou seja, a cauda declina para esquerda.
Nesse caso, temos média<mediana<moda. Seja um conjunto de dados com n observações
Figura 1.9: Possı́veis casos de assimetria. A seta representa a média da distribuição. Fonte:
Apostila de Estatı́stica Descritiva da Ana Maria Farias-UFF
X = {x1, x2, · · · , xn}. Existem vários coeficientes que medem o grau de assimetria de um
conjunto. Vamos estudar o coeficiente de assimetria de Pearson que é dado por:
e =
x̄−Mo(X)
DP (X)
.
Note que:
1. se e = 0, então x̄ − Mo(X) = 0 ⇒ x̄ = Mo(X), logo a distribuição de valores é
simétrica;
30
Estatı́stica Básica
2. se e > 0, então x̄ −Mo(X) > 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ > Mo(X),
logo a distribuição de valores é assimétrica à direita;
3. se e < 0, então x̄ −Mo(X) < 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ < Mo(X),
logo a distribuição de valores é assimétrica à esquerda.
Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9, 4, 5, 6, 6, 4, 8, 2, 6, 4} com 27
observações.
2 3 4 5 6 7 8 9 10
X
F
re
qu
ên
ci
a 
A
bs
ol
ut
a 
0
1
2
3
4
5
Figura 1.10: Gráfico de barras do exemplo
O conjunto X é simétrico? Calcule seu coeficiente de assimetria.
Para isso, precisamos calcular:
• x̄ =
4 + 7 + 5 + 3 + · · ·+ 2 + 6 + 4
27
= 5, 56;
• Mo(X) = 4, que é o valor com maior ocorrência;
• DP (X) =
√
V ar(X) =
√
5, 14 = 2, 27, em que
V ar(X) =
42 + 72 + 52 + 32 + · · ·+ 22 + 62 + 42
27
− (5, 56)2 = 5, 14.
31
Estatı́stica Básica
Portanto, o coeficiente de assimetria é dado por
e =
x̄−Mo(X)
DP (X)
=
5, 56− 4
2, 27
= 0, 69 > 0,
logo a distribuição de valores é assimétrica à direita ou positiva.
1.6.2 Curtose
A curtose ou achatamento de um conjunto de dados mede a concentração ou dispersão
dos valores de um conjunto de valores em relação às medidas de tendência central em
uma distribuição de frequências conhecida (a distribuição Normal padrão que será estu-
dada ainda no curso). Como ainda não conhecemos essa distribuição, podemos entendê-
la como uma distribuição padrão com um grau de achatamento mediano. A distribuição
dos dados pode ser classificada em três classes: leptocúrtica (afunilada), mesocúrtica e
platicúrtica (achatada).
Seja um conjunto de dados com n observações X = {x1, x2, · · · , xn}. Também existem
vários coeficientes de curtose, mas iremos estudar o coeficiente dado por:
c =
m4(X)
DP (X)4
− 3,
em que m4(X) =
∑n
i=1(xi − x̄)4
n
.
Como a curtose da normal padrão é 3, o valor limiar para a classificação da curtose é o
zero. Portanto, dizemos que X é:
1. Leptocúrtica: se c > 0;
2. Mesocúrtica: se c = 0;
32
Estatı́stica Básica
3. Platicúrtica: se c < 0.
Exemplo: Retomando o exemplo anterior, sejaX = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9,
4, 5, 6, 6, 4, 8, 2, 6, 4} com 27 observações. Calcule seu coeficiente de curtose e classifique.
Para isso, precisamos calcular:
• m4(X) =
(4− 5, 56)4 + (7− 5, 56)4 + (5− 5, 56)4 + · · ·+ (6− 5, 56)4 + (4− 5, 56)4
27
=
55, 24;
• DP (X) = 2, 27, calculado no exemplo anterior.
Portanto, o coeficiente de curtose é dado por
c =
m4(X)
DP (X)4
− 3 = 55, 24
2, 274
− 3 = −0, 92 < 0,
logo a distribuição de valores é platicúrtica.
Exercı́cio Segundo a SOBRAC (Sociedade Brasileirade Arritmias Cardı́acas), no Brasil,
40 milhões de pessoas têm algum tipo de Arritmia Cardı́aca. Estima-se que até 20% da
população seja acometida pela doença. O ritmo cardı́aco (ou freqüência cardı́aca) ade-
quado é ritmo regular. A frequência dos batimentos cardı́acos depende da atividade que
o indivı́duo está realizando e é medida pelo número de contrações do coração por uma
unidade de tempo, geralmente por minuto e é expressa em BPM (batimentos por minuto).
A frequência cardı́aca pode variar muito, mas normalmente situa-se entre 60 bpm e 100
bpm num indivı́duo em repouso ou atividades habituais. Em algumas situações, como
durante exercı́cios fı́sicos de alta intensidade, estes batimentos podem atingir até mesmo
180 bpm. Por outro lado, quando dormimos ou estamos em repouso, a frequência pode
ficar abaixo dos 60 bpm. Seguindo critérios rigorosos, foram medidos os ritmos cardı́acos
de repouso de 10 idosas brasileiras, obtendo-se os seguintes resultados (dados fictı́cios):
51, 55, 77, 99, 60, 75, 77, 85, 65, 62.
Classifique o conjunto de ritmos cardı́acos de repouso em relação ao grau de assimetria e
ao grau de curtose.
33
Estatı́stica Básica
1.7 Boxplot
O Boxplot é uma representação gráfica que para ser construı́do e entendido precisa dos
conhecimentos apresentados anteriormente sobre medidas de posição e dispersão. Por
isso, dapresentaremos esse gráfico somente agora. Esta representação gráfica é bastante
rica no sentido de informar a variabilidade e simetria dos dados, envolvendo os quar-
tis do conjunto observado. Além disso, podemos observar se os dados possuem valores
discrepantes (outliers).
1.7.1 Construção:
O Boxplot é construı́do a partir de um retângulo em que o nı́vel superior é dado pelo ter-
ceiro quartil e o nı́vel inferior pelo primeiro quartil. A mediana é representada por um
traço no interior do retângulo e os segmentos de reta são colocados do retângulo até os
valores máximo e mı́nimo, que não sejam observações discrepantes.
As observações que estiverem acima do limite superior (LS) ou abaixo do limite inferior
(LI) são denominadas de valores discrepantes (pontos exteriores). LI = Q1 −
3
2
IQ, LS =
Q3 +
3
2
IQ e IQ = Q3 −Q1.
Figura 1.11: Boxplot
Exemplo: Construa o boxplot para o conjunto de pesos abaixo.
Dados: 44.0 45.0 45.0 47.0 47.0 47.0 47.4 48.0 49.0 49.0 49.2 50.0 50.0 51.6 52.0 52.0 52.0 52.0
52.5 54.0 54.5 54.5 55.0 55.0 55.0 55.0 56.0 57.0 57.8 58.0 58.0 58.0 58.0 58.5 59.0 59.0 60.0 60.0
34
Estatı́stica Básica
60.0 60.5 63.0 63.5 66.0 67.0 68.5 70.0 71.0 71.0 72.8 73.0 73.0 75.0 79.0 80.9 84.0 85.2 86.0 87.0
95.0 97.0
Primeiro, precisamos verificar se os dados estão ordenados. Nesse caso, estão em ordem
crescente. Precisamos calcular:
• Q1 =
52 + 52
2
= 52, Q2 =
58 + 58
2
= 58 e Q3 =
68, 5 + 70
2
= 69, 25;
• IQ = Q3 −Q1 = 69, 25− 52 = 17, 25;
• LI = Q1 −
3
2
IQ = 52−
3
2
17, 25 = 26, 125;
• LS = Q3 +
3
2
IQ = 69, 25 +
3
2
17, 25 = 95, 125.
Assim, determinamos as alças superior igual a 44 e inferior igual 95, levando ao dado
discrepante 97 que é maior do que o LS de 95,125.
●
50
60
70
80
90
P
es
o 
(K
g)
Figura 1.12: Boxplot para os dados da variável Peso (Kg)
Podemos também ter vários boxplots juntos a fim de comparar diferentes conjuntos de
dados. O eixo y das ordenadas continua igual e apenas usamos o eixo x das abscissas para
distanciarmos os boxplots, sem nenhuma interpretação numérica.
Exercı́cio 1 Suponha que no exercı́cio anterior, sobre os ritmos cardı́acos de repouso, uma
das 10 observações foi corrigida (devido a um erro de registro), sendo 105 bpm ao invés
35
Estatı́stica Básica
de 99 bpm, obtendo-se o novo conjunto de dados (dados fictı́cios): 51, 55, 77, 105, 60, 75,
77, 85, 65, 62. Construa o boxplot.
Exercı́cio 2 Considere o tempo (em minutos) de atendimento em um determinado banco
para um conjunto de 20 pessoas: 2; 2; 2; 3; 3; 4; 4; 4; 4; 4; 5; 5; 6; 6; 10; 12; 15; 17; 23; 25.
Construa o gráfico de boxplot e interprete.
36
Estatı́stica Básica
1.8 Análise Bidimensional de Dados
Estuda a relação/associação/dependência entre duas variáveis de interesse. Pode ser feita
tanto para variáveis quantitativas quanto para variáveis qualitativas.
1.8.1 Análise Bidimensional de Variáveis Quantitativas e pareadas
Quando temos disponı́vel duas variáveis quantitativas pareadas (mesmo número de observações),
inicialmente, uma inspeção visual pode ser feita através de um gráfico de dispersão. Va-
mos desenvolver o conceito dentro de um exemplo.
Exemplo. Suponha as variáveis: Anos de Estudo (6, 4, 8, 8, 9, 12, 13, 9, 25, 15) e Salário
Médio (1, 0.9, 1.2, 1.5, 1.8, 3, 2.5, 2, 10, 4) em milhares.
●●
●
●
●
●
●
●
●
●
Anos de Estudo
S
al
ár
io
 M
éd
io
 (
em
 m
ilh
ar
es
)
5 10 15 20 25
2
4
6
8
10
Figura 1.13: Gráfico de Dispersão das variáveis Anos de Estudo e Salário Médio.
Podemos ainda, utilizar o coeficiente de correlação linear de Pearson para verificar se há
indı́cios de uma relação linear significativa entre essas duas variáveis.
Para utilizar esse coeficiente, precisamos de observações de variáveis pareadas, da forma
{(x1, y1), (x2, y2), · · · , (xn, yn)}. Isso ocorre no caso do exemplo.
37
Estatı́stica Básica
O coeficiente de correlação linear de Pearson é definido por
cor(X, Y ) =
cov(X, Y )
DP (X)DP (Y )
=
∑n
i=1 xiyi − nx̄ȳ√
(
∑n
i=1 x
2
i − nx̄2) (
∑n
i=1 y
2
i − nȳ2)
,
tal que cov(X, Y ) = 1
n
∑n
i=1 [(xi − x̄)(yi − ȳ)] , representa a covariância entre X e Y .
Assim definido, o coeficiente somente assume valores no intervalo [−1, 1]. E, sua interpretação
segue:
• valores do coeficiente mais próximos de -1, indicam maior relação linear negativa/decrescente;
• valores do coeficiente mais próximos de 1, indicam maior relação linear positiva/crescente;
• valores do coeficiente mais próximos de 0, indicam menor relação linear ;
No exemplo, temos para n = 10:∑n
i=1 xi = 109;
∑n
i=1 yi = 27, 9;
∑n
i=1 x
2
i = 1505;
∑n
i=1 y
2
i = 143, 99;
∑n
i=1 xiyi = 443, 9 ;
x̄ = 10, 9 e ȳ = 2, 79;
em que X representa a variável Anos de Estudo e Y representa o Salário Médio.
Assim, obtemos que
cor(X, Y ) =
∑n
i=1 xiyi − nx̄ȳ√
(
∑n
i=1 x
2
i − nx̄2) (
∑n
i=1 y
2
i − nȳ2)
=
443, 9− 10 ∗ 10, 9 ∗ 2, 79√
(1505− 10 ∗ (10, 9)2) (143, 99− 10 ∗ (2, 79)2)
= 0, 944116,
indicando alta relação linear crescente.
1.8.2 Análise Bidimensional para Variáveis Qualitativas ou Quantitati-
vas
Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos
com agências de mesmo porte em três avenidas de uma cidade:
38
Estatı́stica Básica
Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31 91
B4 41 60 25 126
Total 125 156 107 388
Será que a quantia de empréstimos varia de acordo com o banco? Podemos calcular
o coefiente de contigência para começar a responder essa pergunta. Para esse cálculo,
precisamos primeiro construir a tabela de contigência dos dados que contempla tanto a
frequência observada (oij) quanto a esperada(eij), caso haja independência entre as variáveis.
A frequência esperada de cada casela da tabela é dada por:
eij =
total da linha i x total da coluna j
total geral
.
Nesse caso, teremos então:
e11 =
84× 125
388
= 27, 06; e12 =
84× 156
388
= 33, 77 e13 =
84× 107
388
= 23, 17;
e21 =
87× 125
388
= 28, 03; e22 =
87× 156
388
= 34, 98; e23 =
87× 107
388
= 23, 99;
e31 =
91× 125
388
= 29, 32; e32 =
91× 156
388
= 36, 59; e33 =
91× 107
388
= 25, 10;
e41 =
126× 125
388
= 40, 59; e42 =
126× 156
388
= 50, 66; e43 =
126× 107
388
= 34, 75.
E, a tabela de contigência é dada por:
Banco/Avenida A1 A2 A3 Total
oij eij oij eij oij eij
B1 25 27,06 35 33,77 24 23,17 84
B2 32 28,03 28 34,98 27 23,99 87
B3 27 29,32 33 36,59 31 25,10 91
B4 41 40,59 60 50,66 25 34,75 126
Total 125 - 156 - 107 - 388
39Estatı́stica Básica
O coeficiente de contigência é dado por:
C =
√
χ2
χ2 + total geral
,
tal que χ2 =
∑
i
∑
j
(oij − eij)2
eij
é a medida de qui-quadrado e o total geral é o número
total de observações.
No exemplo, obtemos que
χ2 =
(25− 27, 06)2
27, 06
+
(35− 33, 77)2
33, 77
+
(24− 23, 17)2
23, 17
+
(32− 28, 03)2
28, 03
+· · ·+(25− 34, 75)
2
34, 75
= 8, 95.
Logo,
C =
√
8, 95
8, 95 + 388
= 0, 15
indicando que não há relação entre as variáveis.
Uma medida mais robusta é obtida pelo coeficiente de contigência corrigido:
C∗ =
C√
(t− 1)/t
,
em que t = min{total de linhas , total de colunas }.
No exemplo, t = min{4, 3} = 3 e, portanto, C∗ = 0, 15√
(3− 1)/3
= 0, 18, confirmando a
indicação de independência entre as variáveis, dada pelo baixo valor do coeficiente de
contigência.
Exercı́cios.
1. Uma amostra de 10 casais e seus respectivos salários anuais (em salários mı́nimos)
foi colhida em um certo bairro conforme abaixo:
Casal 1 2 3 4 5 6 7 8 9 10 Total
Homem (X) 10 10 10 15 15 15 15 20 20 20 150
Mulher (Y ) 5 10 10 5 10 10 15 10 10 15 100
(a) Construa o diagrama de dispersão.
(b) Encontre a correlação entre os salários anuais.
40
Estatı́stica Básica
(c) Qual a interpretação do coeficiente calculado? A interpretação concorda com o
que foi observado no gráfico de dispersão?
2. Uma companhia de seguros analisou a frequência com que 150 segurados usaram
(ou não) o hospital. Os resultados foram os seguintes:
Uso do Hospital/Sexo Homem Mulher Total
Usaram o hospital 10 20 30
Não usaram o hospital 110 10 120
Total 120 30 150
Queremos verificar se existe ou não relação entre o sexo e o uso do hospital, isto é,
se as variáveis são dependentes.
41
Capı́tulo 2
Probabilidade
2.1 Conceitos Básicos
Definição 1. Um experimento aleatório (�) é um experimento cujo resultado não pode ser previsto,
com certeza, antes de sua ocorrência.
Exemplo 1. (i) Lançar um dado equilibrado duas vezes e observar a soma dos pontos obtidos.
(ii) Taxa de desemprego.
(iii) Ocorrência de chuva amanhã.
Definição 2. Espaço amostral (Ω): é o conjunto de todos os possı́veis resultados de um experimento
aleatório.
Exemplo 2. �1: Lançamento de um dado com 6 faces. Ω = {1, 2, 3, 4, 5, 6}.
�2: Lançamento de dois dados com 6 faces cada. Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} = {(1, 1),
(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4),
(3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1),
(6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}.
�3: medir a vida útil de uma lâmpada. Ω = [0,∞).
Definição 3. Um evento A é qualquer subconjunto do espaço amostral, isto é, A ⊂ Ω.
Exemplo 3. �: Lançamento de um dado com 6 faces.
Exemplos de eventos: A = {2, 4, 6} (face par); B = {5, 6} (face é maior do que 4).
2.1.1 Operações com Eventos Aleatórios
Sejam A e B eventos definidos no espaço amostral Ω.
42
Estatı́stica Básica
1. Interseção: Ocorrência simultânea.
A ∩B = {x ∈ Ω;x ∈ A e x ∈ B}.
2. União: Ocorrência de pelo menos um.
A ∪B = {x ∈ Ω;x ∈ A ou x ∈ B}.
3. Complementar: Negação do evento.
AC = A = {x ∈ Ω;x /∈ A}.
4. Diferença:
A−B = A ∩BC = {x ∈ Ω;x ∈ A e x /∈ B}.
5. A e B são ditos disjuntos ou mutuamente exclusivos, se A ∩B = �.
Exemplo 4. Considere os seguintes eventos no lançamento de um dado com 6 faces:
A= {sair um número par} e B= {sair um número ı́mpar}. Logo: A = {2, 4, 6}; B = {1, 3, 5};
A ∩B = �(disjuntos); A ∪B = Ω; AC = B; A−B = A.
2.1.2 Probabilidade
Definição 4 (Definições Clássicas). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a
um experimento aleatório, então:
(i) Resultados Equiprováveis. Se Ω é finito e seus elementos são equiprováveis, então
P (A) =
nA
nΩ
,
em que nA é o número de elementos (cardinalidade) do evento A e nΩ é o número de elementos de
Ω.
(ii) Geométrica. Se a área de A estiver bem definida, então
P (A) =
área A
área Ω
.
Exemplo 5. (i) Jogar um dado equilibrado com 6 faces e observar a face superior. Logo, P ({1, 2}) =
2
6
.
(ii) Escolher, ao acaso, um ponto do cı́rculo unitário de raio 1 centrado na origem. Então
Ω = {(x, y) ∈ R2;x2 + y2 ≤ 1}.
E,
P ({distância entre o ponto escolhido e a origem é ≤ 1/2}) = π(1/2)
2
π
.
43
Estatı́stica Básica
Definição 5 (Definição Frequentista). Seja o eventoA ⊂ Ω, sendo Ω espaço amostral associado a
um experimento aleatório, então podemos definir probabilidade como o limite da frequência relativa
da ocorrência de A em n repetições independentes do experimento, quando n tende ao infinito, isto
é,
P (A) = lim
n→∞
nA
n
,
em que nA é o número de ocorrências do evento A em n repetições independentes do experimento.
Observe que não é possı́vel repetir o experimento infinitas vezes, logo não podemos ava-
liar de fato essa probabilidade.
Definição 6 (Definição Subjetiva). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a
um experimento aleatório, então a probabilidade de A representa uma medida do grau da crença de
alguém na ocorrência de A.
Exemplo 6. Seja A o evento ´´está chovendo no RJ”. Para alguém que está, por exemplo, em
Portugal e não sabe nada sobre o clima no RJ, provavelmente essa probabilidade seria de 0,5. Por
outro lado, alguém em Seropédica poderia estabelecer que essa probabilidade é de 0,7, se também
está chovendo em Seropédica. Finalmente, para uma pessoa no RJ, essa probabilidade é 1 se está
chovendo no RJ.
Definição 7 (Definição Axiomática). Seja Ω espaço amostral associado a um experimento aleatório.
Uma função P : Ω→ < é chamada de probabilidade se satisfaz os seguintes axiomas:
(1) P (A) ≥ 0, ∀A ⊂ Ω;
(2) P (Ω) = 1;
(3) Se A1, A2, · · · ⊂ Ω são disjuntos, então P (∪∞i=1Ai) =
∞∑
i=1
P (Ai).
2.1.3 Propriedades de Probabilidade:
Sejam P uma probabilidade e A um evento em Ω. Então, as propriedades abaixo são
consequências dos axiomas:
(i) P (Ac) = 1− P (A) (axiomas 2 e 3), com caso particular P (�) = 1− P (Ω) = 0;
(ii) 0 ≤ P (A) ≤ 1 (axioma 1 e (i));
(iii) Se A ⊂ B, então P (B − A) = P (B)− P (A) e P (A) ≤ P (B);
(iv) Se A,B ⊂ Ω, então P (A ∪B) = P (A) + P (B)− P (A ∩B).
44
Estatı́stica Básica
2.1.4 Probabilidade Condicional
Definição 8. Sejam A e B eventos em Ω. A probabilidade condicional de A dado que ocorreu B é
definida por
P (A|B) = P (A ∩B)
P (B)
,
se P (B) > 0. Caso P (B) = 0 então, por convenção, P (A|B) = 0 ou P (A|B) = P (A).
Exemplo 7. Uma carta de um baralho com 52 cartas é retirada ao acaso. Considere os eventos,
C={carta é de copas} e R={carta é um rei}. Encontre P (C), P (C ∩R), P (R) e P (C|R).
Teorema 1 (Regra do Produto). Sejam os eventosA1, A2, ... , An definidos em Ω, com P (∩ni=1Ai) >
0, então
P (∩ni=1Ai) = P (A1)P (A2|A1)P (A3|A1 ∩ A2) · · ·P (An| ∩n−1i=1 Ai).
Definição 9 (Independência de Dois Eventos). Sejam A e B eventos em Ω. A e B são ditos ser
eventos independentes se P (A ∩B) = P (A)P (B).
Uma definição alternativa é que A e B são ditos ser eventos independentes se P (A|B) =
P (A) e P (B|A) = P (B).
Definição 10. A sequência de eventos A1, A2, ... , An é dita formar uma partição do espaço
amostral Ω, se
(i) Ai ∩ Aj = �, para todo i 6= j;
(ii) ∪ni=1Ai = Ω.
Teorema 2 (Lei da Probabilidade Total). Suponha que os eventos A1, A2, ... , An definidos em
Ω formam uma partição de Ω, então
P (B) =
n∑
i=1
P (Ai)P (B|Ai), ∀B ∈ A.
Teorema 3 (Teorema de Bayes). Suponha que os eventosA1, A2, ... , An definidos em Ω formam
uma partição de Ω , então
P (Aj|B) =
P (B|Aj)P (Aj)∑n
i=1 P (Ai)P (B|Ai)
.
Exemplo 8. Uma fábrica produz três tipos de circuitos, sendo: 20% do tipo I , 50% do tipo II e
30% do tipo III . A probabilidade de defeito é, respectivamente, 2%, 8% e 5%.
a) Qual é a probabilidade de um circuito testado não ser defeituoso?
b)Um circuito foi testado aleatoriamente e verificou-se que estava com defeito, qual é a probabilidade
do circuito ser do tipo II?
45
Estatı́stica Básica
2.2 Alguns Conceitos/Resultados Importantes
Leis de Morgan Sejam os conjuntos A1, A2, ... , An. Vale que:
1. (
⋃n
i=1Ai)
C
=
⋂n
i=1 A
C
i ;
2. (
⋂n
i=1Ai)
C
=
⋃n
i=1 A
C
i .
46
Capı́tulo 3
Variáveis Aleatórias
Uma variável aleatória (v.a.) é uma função real X que associa elementos do espaço amos-
tral a valores reais, i.e., X : Ω→ <.
Definição 11 (Variáveis Aleatórias Discretas (v.a.d.) ). Uma variável aleatória X em Ω é dita
ser discreta se assume valores em um conjunto de valores finito ou enumerável infinito.
Exemplo 9. Exemplo:
Suponha 2 lançamentos de uma moeda. Represente por c cara e por k coroa, então Ω = {cc, ck, kc, kk}.
O número de caras observadas nesses 2 lançamentos é uma quantidade numérica e podemos definir
X = ´´nº de caras observadas”. Note que X pode assumir valores no conjunto finito {0, 1, 2}.
Definição 12 (Função de probabilidade (fp)). A função p(·) que atribui a cada valor da variável
aleatória discreta X sua probabilidade é denominada função de probabilidade. Assim, se X assume
valores x1, x2, · · · temos
p(xi) = P (X = xi) = P ({ω ∈ Ω;X(ω) = xi}),
para i = 1, · · · , n.
Também é usual apresentá-la em forma de tabela:
X x1 x2 ...
pi p1 p2 ...
Propriedades da função de probabilidade: Uma função de probabilidade satisfaz as se-
guintes condições:
(i) 0 ≤ p(xi) ≤ 1, ∀i;
(ii)
∑
i p(xi) = 1.
47
Estatı́stica Básica
Exemplo 10. Descreva o comportamento da variável aleatória X que conta o número de caras em
dois lançamentos independentes de uma moeda.
Espaço amostral: Ω = {cc, ck, kc, kk}
Variável aleatória discreta X :
X = xi 0 1 2
p(xi)
1
4
1
2
1
4
Definição 13 (Função de Distribuição (acumulada) (fda)). Seja X uma v.a.d. em Ω, então sua
função de distribuição acumulada é definida por
FX(x) = P (X ≤ x), para todo x ∈ <.
Exemplo 11. Considere o lançamento de uma moeda. Então Ω = {c, k} e a função probabilidade
é dada por P (c) = P (k) = 1/2. Defina X : Ω→ < como:
X =
 1, se ω = c0, se ω = k (3.1)
Vamos obter sua função de distribuição acumulada:
x < 0⇒ F (x) = P (X ≤ x) = 0;
0 ≤ x < 1⇒ F (x) = P (X ≤ x) = P (X = 0) = 1/2;
x ≥ 1⇒ F (x) = P (X ≤ x) = P (X = 0) + P (X = 1) = 1/2 + 1/2 = 1.
Portanto,
F (x) =

0, se x < 0
1/2, se 0 ≤ x < 1
1, se x ≥ 1
(3.2)
Propriedades da função de distribuição acumulada: Uma função de distribuição acumu-
lada F de uma v.a.d. X em Ω goza das seguintes propriedades:
(i) limx→−∞ F (x) = 0 e limx→∞ F (x) = 1;
(ii) F (x) é contı́nua a direita, isto é, limh→0 F (x+ h) = F (x) ;
(iii) F (x) é não decrescente, isto é, ∀x, y ∈ <, se x < y, então F (x) ≤ F (y).
Note que no exemplo acima, as propriedades são satisfeitas pela F encontrada.
48
Estatı́stica Básica
O comportamento de uma variável aleatória e toda informação sobre ela podem ser obti-
dos através de sua função de distribuição acumulada. Além disso, toda função real que
satisfaça as propriedades acima é a função de distribuição acumulada de uma variável
aleatória.
Funções de Variáveis Aleatórias Seja X uma v.a.d. definida em Ω, então a função ou
transformação g : X → < também é uma v.a.d.. Assim, dada a distribuição de X , o
interesse consiste em conhecer o comportamento probabilı́stico de sua transformação.
Exemplo 12. Seja X uma v.a.d. com função de probabilidade dada abaixo:
X = xi -1 0 1
p(xi)
1
3
1
2
1
6
Seja Y = 2X + 1. Logo, a função de probabilidade de Y é dada por:
X = xi -1 0 1
Y = yi = 2xi + 1 -1 1 3
p(yi)
1
3
1
2
1
6
Exemplo 13. Considerando X como no exemplo anterior, definamos Z = X2. Logo, temos que
considerar que tanto X = −1 quanto X = 1 levam a Z = 1, portanto temos que a função de
probabilidade de Z é dada por:
Z = zi = x
2
i 0 1
p(zi)
1
3
+ 1
6
= 1
2
1
2
Definição 14 (Esperança ou Valor Esperado). Seja X uma v.a.d. com função de probabilidade
p, então a esperança (matemática) de X é dada por
E[X] =
∑
x
xp(x),
desde que exista.
Exemplo 14. Como no exemplo anterior, seja X uma v.a.d. com função de probabilidade dada
abaixo:
Determine a esperança de X :
E[X] = −1× 1/3 + 0× 1/2 + 1× 1/6 ≈ −0, 17.
49
Estatı́stica Básica
X = xi -1 0 1
p(xi)
1
3
1
2
1
6
Vale que:
1. Se c é uma constante tal que P (X = c) = 1 então E[X] = c;
2. E[aX + b] = aE[X] + b, para a e b constantes reais.
3.1 Momentos
A fim de conhecer melhor o comportamento probabilı́stico de uma variável aleatória, de
forma segura e universalmente interpretável, podemos obter seus momentos. Os momen-
tos podem ser: momentos em relação a uma certa constante c ∈ < , e momentos absolutos
em relação a essa mesma constante. Note que existem distribuições que não possuem
momentos.
Definição 15 (Momentos). Seja X uma variável aleatória discreta. Para k = 1, 2, · · · e c ∈ <, o
momento de ordem k em relação a c é dado por:
E[(X − c)k],
desde que exista. Podemos ter:
1. Momento absoluto de ordem k em relação a c: E[|X − c|k]. Em todas as próximas definições,
podemos ter a versão usando o valor absoluto.
2. Se c = 0, então o momento é dito ser ordinário: E[Xk].
3. Se c = E[X] <∞, então temos o momento central de ordem k: E[(X − E[X])k].
Os momentos de ordem par fornecem uma indicação da concentração da distribuição
probabilı́stica: se forem muito pequenos, essa concentração será grande, porque os valores
da variável aleatória serão próximos; se forem grandes, será inversa a situação.
Exemplo 15. O primeiro momento ordinário (de ordem k = 1) de uma v.a. X é o seu valor
esperado.
50
Estatı́stica Básica
Definição 16 (Variância). Seja X uma variável aleatória discreta, então a variância de X é defi-
nida por
V ar(X) = E[(X − E[X])2] = E[X2]− (E[X])2,
que é segundo momento central de X . Sua raiz quadrada é o desvio padrão de X , que possui a
mesma unidade dos dados.
Exemplo 16. Considerando o mesmo exemplo anterior, determine a variância de X :
V ar(X) = E[X2]− (E[X])2 = 0, 5− (−0, 17)2 = 0, 4711,
pois E[x2] = −12 × 1/3 + 02 × 1/2 + 12 × 1/6 = 0, 5 e E[X] = −0, 17.
Enquanto que a esperança de uma v.a. é uma medida de locação/localização, a variância
é uma medida de escala (como referência a média).
Exemplo 17. O número X de mensagens enviadas por hora, através de uma rede de compu-
tadores, tem a seguinte distribuição: X assume os valores {10, 12, 15, 20} com probabilidades
{0, 1; 0, 3; 0, 5; 0, 1}, respectivamente. Determine o desvio-padrão de X .
E[X] = 10(0, 1) + 12(0, 3) + 15(0, 5) + 20(0, 1) = 14, 1;
E[X2] = 102(0, 1) + 122(0, 3) + 152(0, 5) + 202(0, 1) = 205, 7;
V ar(X) = 205, 7− 14, 12 = 6, 89⇒ DP (X) =
√
6, 89 = 2, 624881.
Seja X uma v.a.d., vale que:
1. Se c é uma constante tal que P (X = c) = 1 então V ar[X] = 0;
2. V ar[aX + b] = a2V ar[X], para a e b constantes reais.
Definição 17 (Coeficiente de Variação). Seja X uma v.a.d. com esperança µ e desvio padrão σ,
o coeficiente de variação de X é dado por
CV (X) =
σ
µ
.
O coeficiente de variação mede a dispersão relativa da distribuição de X , ao contrário
do desvio padrão, de X , que mede a dispersão absoluta. Note que ele é um coeficiente
adimensional.
51
Estatı́stica Básica
3.2 Alguns Modelos Discretos
Uma v.a. fica completamente especificada pela sua função de distribuição. No caso dis-
creto, podemos também utilizar a função de probabilidade para fazer essa caracterização.
Apresentaremos a seguir alguns modelos discretos, representados por suas funções de
probabilidade, que são aplicáveis em diversas situações práticas.
3.2.1 Modelo Uniforme Discreto
Seja X uma v.a. com n possı́veis valores reais {x1, x2, ..., xn} equiprováveis. Então, X
segue o modelo uniforme discreto e tem função deprobabilidade dada por
p(xi) = P (X = xi) =
 1n , se i = 1, 2, ..., n,0, c.c.
Notação: X ∼ Uniforme{x1, x2, · · · , xn}.
Exemplo 18. Uma rifa tem 100 bilhetes numeradas de 1 a 100. Tenho 5 bilhetes consecutivos e
meu amigo tem outros 5 bilhetes quaisquer. Quem tem maior possibilidade de ser sorteado?
Note que sua função de distribuição acumulada é do tipo escada com saltos nos pontos
{x1, x2, · · · , xn}.
Exercı́cio: Determine sua fda, sua esperança e sua variância.
3.2.2 Modelo Bernoulli
Experimento de Bernoulli: é um experimento aleatório com apenas dois resultados possı́veis:
por convenção, um deles é chamado “sucesso”e o outro “fracasso”.
Exemplo 19. a) Lançar uma moeda e observar o resultado;
b) Pergunta-se a um eleitor se ele vai votar no candidato A ou B.
A distribuição de Bernoulli está associada a um experimento de Bernoulli, onde se define:
X({sucesso}) = 1 e X({fracasso}) = 0, chamando de p a probabilidade de sucesso, com
0 ≤ p ≤ 1.
Assim, uma v.a.d. X segue o modelo de Bernoulli, se assume apenas os valores 0 e 1, e
tem função de probabilidade dada por
p(x) =

p, se x = 1,
(1− p), se x = 0,
0, c.c.
52
Estatı́stica Básica
onde p é a probabilidade de sucesso (X = 1), com 0 ≤ p ≤ 1.
Exemplo 20. Um exemplo clássico do modelo de Bernoulli é o lançamento de uma moeda.
X =
 1, se cara;0, se coroa.
p(1) = p(0) = 1/2 (moeda equilibrada).
Notação: X ∼ Bernoulli(p).
A função de distribuição de X é dada por
FX(x) =

0, se x < 0,
(1− p), se 0 ≤ x < 1,
1, se x ≥ 1.
Exercı́cio: Faça o gráfico desta função e determine sua esperança e sua variância.
3.2.3 Modelo Binomial
Seja X o número de sucessos em n realizações independentes de um experimento de Ber-
noulli com probabilidade p de sucesso. Então,X tem distribuição binomial com parâmetros
n e p, e sua função de probabilidade é dada por
p(x) =

 n
x
 px(1− p)n−x, para x = 0, 1, · · · , n
0, c.c.,
em que
 n
x
 = n!
x! (n− x)!
.
Notação: X ∼ Binomial(n, p).
Exemplo 21. A taxa de imunização de uma vacina é de 80%. Um grupo com 10 pessoas foi
selecionado, desejamos saber o comportamento probabilı́stico do número de pessoas imunizadas
deste grupo. Determine a probabilidade:
a) de 8 pessoas estarem imunizadas;
b) de pelo menos 8 estarem imunizadas;
c) de no máximo 7 estarem imunizadas;
c) de todas estarem imunizadas.
53
Estatı́stica Básica
3.2.4 Modelo Geométrico
Seja X o número de realizações necessárias para a obtenção do primeiro sucesso de um
experimento de Bernoulli com probabilidade p de sucesso. Então, dizemos que X segue o
modelo geométrico com parâmetro p, 0 < p < 1, e tem função de probabilidade dada por
p(x) = P (X = x) =
 p(1− p)x−1, se x = 1, 2, · · · ,0, c.c..
Notação: X ∼ Geo(p).
Exemplo 22. Uma linha de fabricação de um equipamento de precisão é interrompida na primeira
ocorrência de um defeito. Seja 0, 02 é a probabilidade do equipamento ter defeito, qual é o modelo
probabilı́stico que descreve o número de dias até o equipamento parar?
Exercı́cio: Determine sua esperança.
3.2.5 Modelo Binomial Negativo (Pascal)
Seja X o número de realizações necessárias para a obtenção de r sucessos de um experi-
mento de Bernoulli com probabilidade p de sucesso. Então, dizemos que X segue o mo-
delo Binomial Negativo com parâmetros r e p, 0 < p < 1, e tem função de probabilidade
dada por
p(x) = P (X = x) =

 x− 1
r − 1
 pr(1− p)x−r, se x = r, r + 1, · · · ,
0, c.c..
Notação: X ∼ BinNeg(r, p).
Note que o modelo Geométrico é um caso particular do modelo Binomial Negativo, quando
r = 1.
Exemplo 23. Um atirador acerto o alvo na mosca em 30% dos tiros. Qual é a probabilidade de que
somente no vigésimo tiro o atirador acerte na mosca 2 vezes?
3.2.6 Modelo Hipergeométrico
Seja uma população de tamanho N dividida em 2 classes, uma composta de r “sucessos”e
a outra composta de N − r “fracassos”. Desta população, vamos extrair uma amostra de
54
Estatı́stica Básica
tamanho n, sem reposição. Seja X o número de sucessos obtidos, então X segue o modelo
Hipergeométrico com parâmetros N, n, e r, e tem função de probabilidade dada por
p(x) = P (X = x) =

(
r
x
)(
N − r
n− x
)
(
N
n
) , se max{0, n− (N − r)} ≤ x ≤ min{n, r}
0, c.c.,
em que N é o total de elementos do conjunto, n é o tamanho da amostra (n < N ) e r é o
número de “sucessos”.
Notação: X ∼ Hiper(N, n, r).
Exemplo 24. Considere um conjunto com 20 pessoas, das quais 7 são mulheres. Selecionando-se
5 pessoas deste conjunto, sem reposição, qual seria a probabilidade de:
a) 2 mulheres serem escolhidas?
b) 1 homem ser escolhido?
c) apenas mulheres serem escolhidas?
d) pelo menos 5 mulheres serem escolhidas?
e) no máximo 2 homens serem escolhidos?
f) Fernando e Paula serem escolhidos?
g) Paula e Maria serem escolhidas, dado que as pessoas selecionadas foram mulheres?
h) Paula e Maria serem escolhidas, dado que as pessoas selecionadas foram homens?
3.2.7 Modelo de Poisson
Uma v.a.d. X segue o modelo de Poisson de parâmetro λ, λ > 0, se sua função de proba-
bilidade é dada por
p(x) = P (X = x) =

e−λλx
x!
, se x = 0, 1, 2, · · ·
0, c.c..
Notação: X ∼ Poisson(λ), onde λ indica a taxa de ocorrência por unidade de medida.
Aqui, X representa contagens, como contar o número de eventos de um certo tipo que
ocorrem em um instante de tempo fixo (ou superfı́cie ou volume), se estes eventos ocorrem
com uma razão média conhecida e independentemente do tempo desde o último evento.
Exemplo 25. (1) número de chamadas recebidas por uma central telefônica durante um perı́odo de
40 minutos; (2) número de bactérias em um litro de água.
55
Estatı́stica Básica
Exemplo 26 (Bombas em Londres). Durante a Segunda Guerra Mundial a cidade de londres foi
bombardeada por aviões alemães. Um interesse é sobre a aleatoriedade dos alvos, se houve tendência
em lançar em alguns pontos especı́ficos ou não. Subdivindindo-se a parte do sul da cidade em 576
partes, é contado o número de regiões que receberam x bombas, denotado por nx. O total de bombas
nas parte sul foi de 537, levando a uma taxa de 537/576 ≈ 0, 93 bombas por região. Uma maneira
de verificarmos se o modelo Poisson seria aplicável para modelar o número de bombas lançadas
por região, é calcular as frequências de bombas que ocorreram (observadas) fo e comparar com as
frequências esperadas de bombas que seriam lançadas supondo o modelo Poisson válido fe.
Assim, se X representa o nº de bombas em uma região da parte sul, então suponha que X ∼
Poisson(0, 93).
X = x 0 1 2 3 4 5 ou mais
fo 229 211 93 35 7 1
p(x) 0,395 0,367 0,171 0,053 0,012 0,003
fe 227,520 211,392 98,496 30,528 6,912 1,728
Exercı́cio: Determine sua esperança.
56
Estatı́stica Básica
3.3 Variáveis Aleatórias Contı́nuas
Definição 18 (Variáveis Aleatórias Contı́nuas (v.a.c.) ). Uma variável aleatória X é contı́nua
se sua imagem é um conjunto infinito não enumerável (formada por intervalos).
Uma v.a.c. possui uma função de densidade de probabilidade f com a qual podemos cal-
cular probabilidades associadas a variável aleatória.
Uma função de densidade de probabilidade satisfaz as seguintes condições:
(i) f(x) ≥ 0, para todo x ∈ <;
(ii) a área abaixo do gráfico da função f é igual a 1, ou seja,
∫ ∞
−∞
f(x)dx = 1.
Para obtermos a probabilidade de uma v.a.c. assumir valores em um intervalo (a, b], para
a < b, basta calcular
P (a < X ≤ b) =
∫ b
a
f(x)dx.
Note que P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = P (a ≤ X ≤ b).
Portanto, a probabilidade de uma v.a.c. assumir um valor especı́fico é igual a zero, isto é,
P (X = c) = 0, c ∈ <.
Exemplo 27. Considere a função
fX(x) =
 1/4 se 0 ≤ x ≤ 40 c.c.
1. Esboce o gráfico da fX .
2. fX é uma função de densidade de probabilidade de alguma v.a.c. X?
3. Se é uma fdp,então calcule P (2 ≤ X ≤ 3).
Seja X uma v.a.c. com função densidade de probabilidade f(x), podemos definir:
• Função de distribuição acumulada: F (x) = P (X ≤ x) =
∫ x
−∞
f(x)dx, para todo
x ∈ <.
• Esperança: E[X] =
∫
x
xf(x)dx.
• Variância: V ar(X) = E[X2]− E[X]2.
57
Estatı́stica Básica
3.3.1 Modelo Uniforme Contı́nuo
Seja X uma v.a.c. com possı́veis valores no intervalo real [a, b], em que a chance de
ocorrência de intervalos de mesmo tamanho é a mesma. Então, X segue o modelo uni-
forme contı́nuo e tem função densidade de probabilidade dada por
f(x) =
 1b−a , se a ≤ x ≤ b,0, c.c.
Notação: X ∼ Uniforme[a, b].
É fácil ver que a função acima satisfaz as propriedades de função densidade de probabili-
dade f(x) ≥ 0, para todo x ∈ < e que
∫∞
−∞ f(x)dx = 1.
Exemplo 28. O rótulo de refrigerante indica que o conteúdo é de 350 ml. Suponha que a linha
de produção encha as latas de forma que o conteúdo seja uniformemente distribuı́do no intervalo
[345,355].
1. Qual é a probabilidade de que uma lata tenha conteúdo superior a 353 ml?
2. Qual é a probabilidade de que uma lata tenha conteúdo inferior a 346 ml?
3. O controle de qualidade aceita uma lata com conteúdo dentro de 4 ml do conteúdo exibido na
lata. Qual é a proporção de latas rejeitadas nessa linha de produção?
3.3.2 Modelo Normal
Uma v.a.c. X tem distribuição Normal com parâmetros µ e σ2, se sua f.d.p. é dada por
fX(x;µ, σ
2) =
1√
2πσ2
e
−1
2
(
x− µ
σ
)2
, −∞ < x < +∞.
• Notação: X ∼ N(µ;σ2), onde µ é a média e σ2 é a variância.
• Propriedades:
– A f.d.p. fX(x) é simétrica em torno de µ;
– A f.d.p. fX(x)→ 0 quando x→ ±∞;
– O máximo da f.d.p. fX(x) ocorre quando x = µ.
58
Estatı́stica Básica
Para calcular probabilidades associadas a uma v.a.c. normal, terı́amos que resolver inte-
grais que envolvem a f descrita acima. Porém, isto não é possı́vel analiticamente, mas
somente de forma numérica. Sem o auxı́lio de um programa computacional que rea-
lize tal tarefa, não seria possı́vel tabular todas as probabilidades associadas a qualquer
distribuição normal, isto é, para quaisquer valores de µ e σ2 possı́veis. Entretanto, é
possı́vel mostrar que a partir de qualquer normal chegamos em uma normal, chamada
padrão, com parâmetros µ = 0 e σ2 = 1.
−4 −2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
Normal(0,1)
x
D
en
si
da
de
−4 −2 0 2 4
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
Função de distribuição acumulada (FDA)
x
F
D
A
Figura 3.1: Gráficos da função de densidade de probabilidade e da função de distribuição
acumulada da Normal Padrão.
Utilização da tabela Normal padrão
Uma v.a. X tem distribuição Normal padrão ou Normal reduzida, se X ∼ N(0, 1).
Importante:
• Se X ∼ N(0, 1), então podemos usar a tabela Normal padrão.
• Se X ∼ N(µ;σ2) com µ 6= 0 e/ou σ2 6= 1, então temos que padronizar a v.a. X por
Z =
X − µ
σ
∼ N(0, 1).
Exemplo 29.
Suponha que Z tenha distribuição N(0; 1). Usando a tabela da distribuição normal padrão, deter-
mine o valor de probabilidade de:
a)P (0 ≤ Z ≤ 1, 65) b)P (Z ≤ 1, 29) c)P (0 ≤ Z ≤ 1, 34) d)P (−1 ≤ Z ≤ 1)
e)P (Z ≤ 2, 45) f)P (Z ≥ −2, 01) g)P (Z ≥ 1, 65) h)P (Z > 2, 13) i)P (|Z| > 1, 61)
59
Estatı́stica Básica
Exemplo 30.
Suponha que Z tenha distribuição N(0; 1). Empregando a tábua da distribuição normal, determine
o valor de z:
a)P (Z ≥ z) = 0, 5 b)P (0 ≤ Z ≤ z) = 0, 3264 c)P (0 ≤ Z ≤ z) = 0, 3461
d)P (z ≤ Z ≤ 1) = 0, 6826 e)P (−1, 05 ≤ Z ≤ z) = 0, 7280 f)P (Z ≥ z) = 0, 0640
Exemplo 31.
Em determinado laboratório de pesquisa de células tronco para problemas motores nos membros
inferiores estuda a recuperação total dos movimentos. O responsável pelo procedimento afirma
que o tempo que o paciente leva para obter melhoras significativas nos movimento, após cirurgia,
segue uma distribuição Normal com média de 10 meses e desvio padrão de 4 meses. Segundo estas
informações, qual é a probabilidade de um paciente obter melhoras significativas nos movimentos
de 9 a 12 meses após a cirurgia? Até 6 meses? E após 10 meses?
60
Estatı́stica Básica
Tabela 3.1: Probabilidades p = P [0 ≤ Z ≤ z] da Distribuição Normal padrão com valores
de z dados nas margens da tabela
z 0 1 2 3 4 5 6 7 8 9
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000
61
Capı́tulo 4
Inferência
4.0.1 Conceitos Básicos
Definição 19. População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum
pelo menos uma variável observável que pode ser representada por uma v.a. X .
Definição 20. Amostra: é qualquer subconjunto da população.
Definição 21. Parâmetro: é uma medida usada para descrever uma caracterı́stica da população.
Definição 22 (Inferência Estatı́stica). É o uso de técnicas estatı́sticas para gerar afirmações sobre
uma dada caracterı́stica da população a partir de uma amostra.
Por exemplo, a média, a variância, o desvio padrão, a moda, etc.
Em geral, nosso interesse é estimar o valor de um parâmetro ou estimar o valor de uma funçãode
um parâmetro.
Definição 23. Amostra Aleatória Simples (aas): Uma aas de tamanho n de uma v.a. X (po-
pulação) é um conjunto de n v.a.’s X1, X2, · · · , Xn independentes e identicamente distribuı́das
(iid). Isto é, quando escolhemos ao acaso um subconjunto de tamanho n da população de forma que
cada elemento da amostra seja v.a. com a mesma distribuição da população.
Quando a população tem tamanho finito, então o sorteio é feito com reposição mantendo chance
igual de qualquer elemento ser sorteado.
Definição 24. Estatı́stica: qualquer função da amostraX1, X2, · · · , Xn é dita ser uma estatı́stica,
isto é, T é estatı́stica se T = g(X1, X2, · · · , Xn), para g sendo uma função qualquer.
62
Estatı́stica Básica
Assim, T também é uma variável aleatória. As inferências estatı́sticas são baseadas em
estatı́sticas.
Exemplo 32. Exemplos de estatı́sticas: Seja X1, · · · , Xn uma aas de uma população X , podemos
considerar as estatı́sticas
X̄ =
n∑
i=1
Xi
n
Média amostral
σ̂2 =
n∑
i=1
(
Xi − X̄
)2
n
S2 =
n∑
i=1
(
Xi − X̄
)2
n− 1
Variância amostral
X(1) = min{X1, · · · , Xn} Mı́nimo
X(n) = max{X1, · · · , Xn} Máximo
Assim, T também é uma variável aleatória. As inferências estatı́sticas são baseadas em
estatı́sticas.
Definição 25. Estimador: uma estatı́stica T é dita ser estimador de um parâmetro θ se utilizamos
T para estimar θ.
Notação: T = θ̂
Exemplo 33. X̄ é estimador para média populacional µ;
Exemplo 34. σ̂2 e S2 são estimadores para variância populacional σ2.
Definição 26. Estimativa: valor observado de um estimador na amostra.
Propriedades dos estimadores
Algumas propriedades dos estimadores nos ajudam a escolher qual estimador utilizar
para fazer a inferência.
• Estimador não viciado: Um estimador T de θ é dito ser não viciado se E[T ] = θ.
Exemplos: E[X̄] = µ e E(S2) = σ2, com S2 = 1
n−1
∑n
i=1(Xi − X̄)2 .
• Se T1 e T2 são dois estimadores não viciados de θ, diz-se que T1 é mais eficiente do
que T2 se V ar(T1) < V ar(T2).
• Estimador consistente: Tn é um estimador consistente para θ se
limn→∞E[Tn] = θ e limn→∞ V ar(Tn) = 0,
com Tn sendo uma estatı́stica baseada na amostra de tamanho n.
63
Estatı́stica Básica
4.0.2 Distribuição Amostral
A distribuição amostral de uma estatı́stica T é a distribuição de todos os possı́veis valo-
res que ela pode assumir, calculados a partir de todas as possı́veis amostras de mesmo
tamanho.
Distribuição Amostral da Média
Teorema 4. Seja X1, X2, · · · , Xn uma aas de tamanho n de uma população representada pela v.a.
X com média µ e variância σ2. Então, E(X̄) = µ e V ar(X̄) =
σ2
n
.
Importante: Se X ∼ N(µ, σ2), então X̄ ∼ N(µ, σ
2
n
).
Teorema 5. Teorema Central do Limite
Seja X1, X2, · · · , Xn uma aas de tamanho n de uma população X com média µ e variância σ2.
Então, a distribuição de X̄ aproxima-se de uma distribuição Normal com média µ e variância
σ2
n
quando n tende ao infinito (n→∞). Assim, X̄ − µ
σ/
√
n
≈ N(0, 1).
Observação: Geralmente amostras de tamanho n > 30 fornecem uma aproximação razoável.
Exemplo 35. A capacidade máxima de um elevador é de 600Kg. Se a distribuição dos pesos dos
usuários é N(70, 100), qual é a probabilidade de que 8 pessoas ultrapassem esse limite?
4.1 Intervalos de Confiança
Motivação Uma empresa deseja estimar a média de vendas, por estabelecimento, du-
rante o último ano de um determinado produto. Sabemos que o desvio padrão populaci-
onal é de 200 reais. Suponha que temos disponı́vel uma amostra de 25 estabelecimentos,
com média de vendas de 5000 reais.
• Podemos usar X̄ para estimar a verdadeira média desconhecida.
• Podemos obter alguma informação sobre a variabilidade desta estimativa (erro de
amostragem)?
Queremos obter uma estimação intervalar fornecendo uma margem de erro, além da esti-
mativa pontual que obtemos através dos estimadores dos parâmetros.
64
Estatı́stica Básica
4.1.1 Intervalo de confiança para a média de uma população normal com
variância conhecida
Seja X ∼ N(µ, σ2) com variância σ2 conhecida. Se X1, · · · , Xn é uma aas dessa população,
então o intervalo de confiança de nı́vel de confiança (1 − α)% para a média populacional
µ é dado por [
X̄ − zα/2
σ√
n
; X̄ + zα/2
σ√
n
]
.
Importante:
• A margem de erro é dada por: � = zα/2 σ√n ;
• α é o nı́vel de significância, que é um valor no intervalo (0, 1);
• 1 − α é o nı́vel de confiança, que em geral é um valor alto (por exemplo, 0,90; 0,95;
0,99);
• Mesmo quando a população não é Normal, podemos utilizar este intervalo para a
média se n > 30.
A ideia é que o intervalo contenha o verdadeiro valor do parâmetro na maioria das vezes
(ou na maioria das amostras possı́veis), isto é, com probabilidade (1−α). Após a amostra
ser observada, ou o intervalo inclui o verdadeiro valor do parâmetro ou não inclui.
Para entendermos a notação zα/2, considere o nı́vel de confiança do intervalo 1−α = 0, 95,
portanto α = 0, 05 e α/2 = 0, 025. Então, zα/2 = z0,025 é tal que P (Z ≥ z0,025) = 0, 025. A
figura 1 apresenta esse exemplo.
65
Estatı́stica Básica
Normal Padrão
−4 −1.96 0 1.96 4
0.
0
0.
1
0.
2
0.
3
0.
4
95%
2,5% 2,5%
Figura 4.1: Suponha α = 0, 05, portanto 1− α = 0, 95 e zα/2 = 1, 96.
Exemplo 36. Uma empresa deseja estimar a média de vendas, por estabelecimento, durante o
último ano de um determinado produto. Sabemos que o desvio padrão populacional é de 200 reais.
Suponha que temos disponı́vel uma amostra de 25 estabelecimentos, com média de vendas de 5000
reais.
Solução:
• Estimativa pontual para média de vendas: X̄ = 5000;
• Variância da média das vendas:
2002
25
= 1600reais2;
• Supondo normalidade, para um nı́vel de confiança de 95%, temos que
� = zα/2
σ√
n
= 1, 96
200√
25
= 78, 4;
• Logo, o ic de 95% para a média de vendas é dado por:
[5000− 78, 4; 5000 + 78, 4] = [4921, 6; 5078, 4] .
Ideia básica da construção:
Seja X1, · · · , Xn uma aas da distribuição Normal(µ, σ2), com σ2 conhecido.
Podemos definir α tal que P (−zα/2 < Z < zα/2) = 1− α (intervalo simétrico é o de menor
comprimento).
66
Estatı́stica Básica
Sabemos que Z =
√
n(X̄ − µ)
σ
∼ Normal(0, 1), logo podemos escrever
P
(
−zα/2 <
(X̄ − µ)
√
n
σ
< zα/2
)
= 1− α⇔
P
(
−zα/2
σ√
n
< (X̄ − µ) < zα/2
σ√
n
)
= 1− α⇔
P
(
−zα/2
σ√
n
− X̄ < −µ < zα/2
σ√
n
− X̄
)
= 1− α⇔
P
(
X̄ − zα/2
σ√
n
< µ < X̄ + zα/2
σ√
n
)
= 1− α.
Portanto, supondo σ2 conhecido, o intervalo para µ com coeficiente de confiança 1− α é
dado por
[X̄ − �; X̄ + �], em que a margem de erro � = zα/2
σ√
n
.
Intervalo de confiança para a proporção populacional
Considere uma população em que a proporção de elementos com certa caracterı́stica é p.
Podemos definir uma v.a.:
X =
 1, se o elemento possui a caracterı́stica;0, se o elemento não possui a caracterı́stica.
Logo, X ∼ Bernoulli(p), com média E[X] = p e variância V ar(X) = p(1− p).
Suponha X1, · · · , Xn uma aas de X , logo
Y =
n∑
i=1
Xi ∼ Bin(n, p).
Podemos estimar a proporção populacional de portadores da caraterı́stica, utilizando a
estatı́stica
p̂ = X̄ =
n∑
i=1
Xi
n
,
que é um estimador não viciado para p. Pelo TCL, temos que
p̂ = X̄∼̇Normal
(
p,
p(1− p)
n
)
,
em que a aproximação é boa se np ≥ 5 e n(1 − p) ≥ 5. Daı́, podemos proceder usando a
mesma ideia do i.c. para média e obter o i.c. para proporção.
O intervalo de confiança para proporção populacional p com (1−α)% de confiança é dado
por
IC (p; (1− α)) =
[
p̂− zα/2
√
p̂(1− p̂)√
n
; p̂+ zα/2
√
p̂(1− p̂)√
n
]
.
67
Estatı́stica Básica
Exemplo 37. Um levantamento com 1018 adultos, concluiu que 255 deles planejaram gastar me-
nos dinheiro em presentes durante a época de férias de 2018 em comparação ao ano anterior.
a) Qual é a estimativa da proporção de todos os adultos que planejaram gastar menos dinheiro em
presentes durante a época de férias