Buscar

Apostila das Aulas Práticas de Estatística Aplicada à Engenharia

Prévia do material em texto

UNIVERSIDADE FEDERAL DE LAVRAS
DEPARTAMENTO DE ESTATI´STICA
GES 104 - Estat´ıstica Aplicada a` Engenharia
AULAS PRA´TICAS
Semestre 2017/2
Prof. Izabela R. Cardoso de Oliveira
Lavras, MG
Setembro de 2017
Suma´rio
1 Te´cnicas de somato´rio e introduc¸a˜o ao programa R 3
2 Tabela de Distribuic¸a˜o de Frequeˆncias e gra´ficos 7
3 Medidas de posic¸a˜o e de dipersa˜o, assimetria e boxplot 16
4 Teorema de Bayes 24
5 Distribuic¸o˜es de probabilidade discretas: binomial e Poisson 27
6 A distribuic¸a˜o normal 29
7 Distribuic¸o˜es discretas no R 34
8 Distribuic¸o˜es cont´ınuas no R 43
9 Distribuic¸o˜es amostrais 49
10 Distribuic¸o˜es amostrais no R e Q-Q plots 56
11 IC para proporc¸o˜es e dimensionamento de amostras 63
12 Testes de hipo´teses para proporc¸o˜es e variaˆncias 69
13 Testes de hipo´teses no R 74
14 Correlac¸a˜o e Regressa˜o Linear Simples no R 79
ANEXO - Bancos de dados 83
2
1 Te´cnicas de somato´rio e introduc¸a˜o ao programa R
Notac¸a˜o de somato´rio
O s´ımbolo Xj (leia X ı´ndice j) representa qualquer um dos n valores, X1, X2, ..., Xn, assumidos
pela varia´vel X, no conjunto de dados. A letra j, usada como ı´ndice, pode representar qualquer um
dos valores da varia´vel: 1, 2, ..., n. Evidentemente pode ser usada qualquer outra letra ale´m de j.
A soma e´ indicada pela letra grega maiu´scula sigma “
∑
”.
Dessa forma o s´ımbolo
n∑
j=1
e´ usado para representar a soma de todos os valores de X desde
j = 1 ate´ j = n, ou seja, por definic¸a˜o:
n∑
j=1
xj = x1 + x2 + x3 + ...+ xn
Propriedades:
i)
n∑
j=1
axj = ax1 + ax2 + ax3 + ...+ axn = a
n∑
j=1
xj
ii)
n∑
j=1
(axj + byj) = a
n∑
j=1
xj + b
n∑
j=1
yj
iii)
n∑
j=1
(xjyj) = x1y1 + x2y2 + ...+ xnyn 6=
(
n∑
j=1
xj
)(
n∑
j=1
yj
)
iv)
n∑
j=1
k = nk
em que a, b e k sa˜o constantes. Outra notac¸a˜o u´til e´ a de produto´rio:
n∏
j=1
xj = x1.x2. . . . .xn
Exerc´ıcios propostos:
1- Escreva em notac¸a˜o de somato´rio:
a) x1 + x2 + . . .+ x7 b) x1 + x2 + x3 + . . .
c) (x1 + x2 + . . .+ xn)
2 d) x21 + x
2
2 + . . .+ x
2
n
2- Sejam as amostras de tamanho n = 4 dadas por x = [2, 7, 4, 3] e y = [3, 1, 6, 5]. Calcule:
a)
4∑
j=1
xj b)
4∑
j=1
y2j c)
4∑
j=1
xjyj d)
(
4∑
j=1
xj
)(
4∑
j=1
yj
)
e)
4∑
j=1
3xj f)
4∑
j=1
(2xj + 4y
2
j ) g)
4∑
j=1
(x2jyj + 3) h)
4∑
j=1
(xj + 4)
2
i)
4∏
j=1
yj j)
4∏
j=1
xjyj k)
4∏
j=1
xj
4∏
j=1
yj
3
O programa R
O R surgiu do desenvolvimento da linguagem e do ambiente para ana´lise de dados denominada S,
originalmente desenvolvida nos laborato´rios da Bell Laboratories por John Chambers e colabora-
dores. O S-PLUS e´ a versa˜o comercial implementada em linguagem S. Os sistemas R e S-PLUS
podem ser instalados no Windows, MacOS e no Linux.
O software disponibiliza uma grande variedade de me´todos estat´ısticos e uma se´rie de recursos
gra´ficos que permitem a descric¸a˜o detalhada de todos os aspectos que se possa interessar.
Mais que um software que realiza ana´lises estat´ısticas, R e´ um ambiente e uma linguagem de
programac¸a˜o orientada a objeto. Nele, nu´meros, vetores, matrizes, arrays, data frames e listas
podem ficar armazenados em objetos. Pode-se entender objeto como uma “caixinha” onde voceˆ
pode guardar o que quiser. A partir da´ı todas as operac¸o˜es matema´ticas podem ser feitas usando
esses objetos. Isso torna as coisas mais simples.
Exemplo:
> teste=c(1,2,3,4,5,6,7,8,9,10)
> teste
[1] 1 2 3 4 5 6 7 8 9 10
> # soma
> 3+teste
[1] 4 5 6 7 8 9 10 11 12 13
Algumas informac¸o˜es importantes:
ˆ O s´ımbolo # serve para comentar uma linha, ou seja, tudo o que e´ colocado apo´s esse s´ımbolo
na˜o e´ interpretado como comando;
ˆ Casas decimais sa˜o separadas por pontos. Vı´rgulas separam posic¸o˜es no objeto ou argumentos
de func¸a˜o;
ˆ Toda a estruturac¸a˜o de uma func¸a˜o e´ feita utilizando ();
ˆ Existem diferentes maneiras de proceder com a entrada de objetos no R. As duas mais comuns
sa˜o apresentadas a seguir.
> # digitando diretamente os dados
> idade=c(23, 21, 25, 19, 20)
> #importando de um ambiente externo
> dados<-read.table("C:/Users/Izabela/Documents/Izabela/Aulas/2016_2/ABI/Aulas/exemplo.txt",h=T)
> dados
idades
1 23
2 21
3 25
4 19
5 20
4
Resoluc¸a˜o ex.2 em R
> x=c(2,7,4,3) # carregando os dados do vetor x
> y=c(3,1,6,5) # carregando os dados do vetor y
> # a)
> sum(x)
[1] 16
> # b)
> sum(y^2)
[1] 71
> # c)
> sum(x*y)
[1] 52
> # d)
> sum(x)*sum(y)
[1] 240
> # perceba que o resultado da letra c) e´ diferente da letra d) como na propriedade iii)
>
> # e)
> sum(3*x)
[1] 48
> # perceba usando a propiedade i), da´ o mesmo que:
> 3*sum(x)
[1] 48
> # f)
> sum(2*x + 4*y^2)
[1] 316
> # usando as propriedades i) e ii), da´ o mesmo que:
> 2*sum(x) + 4*sum(y^2)
[1] 316
> # g)
> sum(x^2*y + 3)
[1] 214
5
> # usando as propiedades ii) e iv), da´ o mesmo que:
> sum(x^2*y) + 4*3
[1] 214
> # h)
> sum((x + 4)^2)
[1] 270
> # e´ o mesmo que
> sum(x^2 + 2*4*x + 16)
[1] 270
> # que ainda desmembrando as propriedades fica:
> sum(x^2) + 8*sum(x) + 4*16
[1] 270
> # i)
> prod(y)
[1] 90
> # j)
> prod(x*y)
[1] 15120
> # k)
> prod(x)*prod(y)
[1] 15120
Perceba que os resultados das letras j) e k) nos diz que com o produto´rio, ao contra´rio do que
acontece com o somato´rio, temos a seguinte propriedade:
n∏
j=1
xjyj =
n∏
j=1
xj
n∏
j=1
yj
6
2 Tabela de Distribuic¸a˜o de Frequeˆncias e gra´ficos
Para essa aula, considere os bancos de dados apresentados no ANEXO desse material.
Organizac¸a˜o e apresentac¸a˜o de varia´veis QUALITATIVAS
Exerc´ıcio 1: Considere o exemplo 2 referente ao estudo na indu´stria automobil´ıstica, em que
foram avaliados defeitos em novos automo´veis.
a) Qual e´ a varia´vel em estudo? Classifique-a.
b) Obtenha uma tabela de distribuic¸a˜o de frequeˆncias para esses dados.
c) Obtenha gra´ficos de barras (vertical e horizontal).
d) Obtenha um gra´fico de setores (pizza).
> defeitos <- c(rep('A',each=50),rep('C',70), rep('E',10), rep('M',5),rep('TR',10))
> tab.def <- table(defeitos)
> #tab.def
>
> ##Gra´fico de barras verticais
>
> gbarras <- barplot(tab.def,xlab="Tipo de defeito",ylab="Freque^ncia absoluta",
+ col = c("red","blue","black","orange","pink"))
> ##Gra´fico de barras horizontais:
>
> ghor <- barplot(tab.def,horiz=TRUE,ylab="Tipo de defeito",
+ xlab="Freque^ncia absoluta", col = gray(seq(0.4,1.0,length=5)))
> ##Gra´fico de setores
>
> pie(tab.def, col = gray(seq(0.4,1.0, length=5)), radius = 0.9)
> pie(tab.def, col = rainbow(5), radius = 0.9)
7
Gra´fico de Pareto
Podemos, tambe´m, construir um gra´fico de Pareto nessa situac¸a˜o. Para isso, usaremos o pacote
qcc, que deve ser instalado e carregado. Esse gra´fico (nomeado em homenagem ao economista
italiano Vilfredo Pareto) e´ criado com o objetivo de facilitar a visualizac¸a˜o das categorias mais
importantes. Essa ferramenta e´ muito utilizada para visualizar principais tipos de origem de
defeitos, razo˜es mais frequentes de reclamac¸o˜es de consumidores ou as categorias mais essenciais
para que sejam direcionados esforc¸os para a soluc¸a˜o de problemas.
> ##Diagrama de Pareto
> library(qcc) #carrega o pacote qcc
> pareto.chart(tab.def)
Pareto chart analysis for tab.def
Frequency Cum.Freq. Percentage Cum.Percent.
C 70 70 48.275862 48.27586
A 50 120 34.482759 82.75862
E 10 130 6.896552 89.65517
TR 10 140 6.896552 96.55172
M 5 145 3.448276 100.00000
C A E TR M
Pareto Chart for tab.def
Fr
eq
ue
nc
y
0
20
40
60
80
10
0
12
0
14
0
0%
25%
50
%
75
%
10
0%
Cu
m
u
la
tiv
e
 P
e
rc
e
n
ta
ge
8
Exerc´ıcio 2: Obtenha um gra´fico de Pareto para os dados do exemplo 1 e comente suas principais
caracter´ısticas.
> ##Diagrama de Pareto
> library(qcc) #carrega o pacote qcc
> causas <- c(rep("A",34),rep("B",29), rep("C",13), rep("D",17),rep("E",2),
+ rep("F",4),rep("G",3), rep("H",3), rep("I",6),rep("J",1),rep("K",2),
+ rep("L",1), rep("M",5), rep("N",1),rep("O",2),rep("P",2),rep("Q",36),
+ rep("R",1), rep("S",4))
> tab.causa <- table(causas)
> pareto.chart(tab.causa)
Pareto chart analysis for tab.causa
Frequency Cum.Freq. Percentage Cum.Percent.
Q 36 36 21.6867470 21.68675
A 34 70 20.4819277 42.16867
B 29 99 17.4698795 59.63855
D 17 116 10.2409639 69.87952
C 13 129 7.8313253 77.71084
I 6 135 3.6144578 81.32530
M 5 140 3.0120482 84.33735
F 4 144 2.4096386 86.74699
S 4 148 2.4096386 89.15663
G 3 151 1.8072289 90.96386
H 3 154 1.8072289 92.77108
E 2 156 1.2048193 93.97590
K 2 158 1.2048193 95.18072
O 2 160 1.2048193 96.38554
P 2 162 1.2048193 97.59036
J 1 163 0.6024096 98.19277
L 1 164 0.6024096 98.79518
N 1 165 0.6024096 99.39759
R 1 166 0.6024096 100.00000
>
9
Q A B D C I M F S G H E K O P J L N R
Pareto Chart for tab.causa
Fr
eq
ue
nc
y
0
50
10
0
15
0
0%
25
%
50
%
75
%
10
0%
Cu
m
u
la
tiv
e
 P
e
rc
e
n
ta
ge
Outro tipo de gra´fico que tem vasta aplicac¸a˜o na Engenharia, especialmente na a´rea de Controle
de Qualidade, e´ o Diagrama de causa e efeito ou Diagrama de Ishikawa. Os comandos em R para
construir um gra´fico desse tipo esta˜o dispon´ıveis como material complementar na sala do campus
virtual.
10
Organizac¸a˜o e apresentac¸a˜o de varia´veis QUANTITATIVAS
Exerc´ıcio 3: Considere os dados do exemplo 3 e responda os itens a seguir:
a) Qual e´ a varia´vel em estudo? Classifique-a.
b) Obtenha uma tabela de distribuic¸a˜o de frequeˆncias para esses dados. Obs: Agrupe as cate-
gorias com menor frequeˆncia em uma u´nica categoria (ex: “5 ou mais”).
c) Com base na tabela de frequeˆncias obtida, responda as questo˜es:
ˆ Que proporc¸a˜o de lotes na amostra possui no ma´ximo treˆs transdutores fora das especifica-
c¸o˜es?
ˆ Que proporc¸a˜o tem menos de cinco?
ˆ Que proporc¸a˜o possui no mı´nimo duas unidades fora das especificac¸o˜es?
d) Obtenha um gra´fico de linhas para esses dados.
> trans <- c(2,1,2,4,0,1,3,2,0,5,3,3,1,3,2,4,7,0,2,3,
+ 0,4,2,1,3,1,1,3,4,1,2,3,2,2,8,4,5,1,3,1,
+ 5,0,2,3,2,1,0,6,4,2,1,6,0,3,3,3,6,1,2,3)
> tab.trans <- table(trans)
> #tab.trans
> ##Gra´fico de linhas
>
> plot(tab.trans, type="h",
+ xlab="Nu´mero de transdutores fora das especificac¸~oes",ylab="fa")
11
Exerc´ıcio 4: Considere os dados do exemplo 4 e responda:
a) Qual e´ a varia´vel em estudo? Classifique-a.
b) Obtenha uma tabela de distribuic¸a˜o de frequeˆncias para esses dados.
c) Construa um gra´fico adequado para representar esses dados.
Para construirmos uma distribuic¸a˜o de frequeˆncias, devemos dividir a amplitude dos dados em
intervalos, que sa˜o chamados intervalos de classe. Se poss´ıvel, os intervalos de classe devem ser de
igual tamanho. O nu´mero de intervalos de classe depende do nu´mero de observac¸o˜es e da dispersa˜o
dos dados. Uma distribuic¸a˜o de frequencias que use muito poucos ou muitos intervalos de classe
na˜o sera´ suficientemente informativa. Em geral, 5 a 20 intervalos sa˜o satisfato´rios, e o nu´mero de
intervalos deve crescer com n (Hines et al., 2012). Um procedimento para determinar os intervalos
de classe que funciona bem na pra´tica e´ apresentado a seguir.
1o Passo: Determinar o nu´mero de classes (k)
k =
{ √
n, se n ≤ 100
5 log10 n, se n > 100,
em que n e´ o tamanho da amostra. Note que k sera´ sempre o inteiro mais pro´ximo.
2o Passo: Determinar o comprimento de classe (c)
c =
A
k − 1 ,
em que A => obs.− < obs. (amplitude).
3o Passo: Limite inferior da primeira classe (LI1)
LI1 =< obs.− c
2
.
4o Passo: Limites dos outros intervalos
LS1 = LI1 + c.
O limite inferior da segunda classe e´ igualado ao limite superior da 1a classe. O processo e´
repetido para formar as demais classes, devendo parar quando a u´ltima classe for formada. Esse
procedimento foi aplicado aos dados do exemplo 3 e a Tabela de Frequeˆncias obtida e´ apresentada
a seguir.
12
> ##Tabela de Distribuic¸~ao de Freque^ncias
>
> rup <- c(265,197,346,280,265,200,221,265,261,278,205,
+ 286,317,242,254,235,176,262,248,250,
+ 263,274,242,260,281,246,248,271,260,265,
+ 307,243,258,321,294,328,263,245,274,270,
+ 220,231,276,228,223,296,231,301,337,298,
+ 268,267,300,250,260,276,334,280,250,257,
+ 260,281,208,299,308,264,280,274,278,210,
+ 234,265,187,258,235,269,265,253,254,280,
+ 299,214,264,267,283,235,272,287,274,269,
+ 215,318,271,293,277,290,283,258,275, 251)
> n <- length(rup)
> #sort(rup) #ordena os dados
>
> df <- matrix(0,11,3)
> colnames(df)<-c("fa","fr","fp")
> rownames(df)<-c("[166.56;185.45)","[185.45;204.34)","[204.34;223.23)",
+ "[223.23;242.12)","[242.12;261.01)","[261.01;279.90)","[279.90;298.79)",
+ "[298.79;317.68)","[317.68;336.57)","[336.57;355.46)","Total")
> tab.ruptura <- table(cut(rup,breaks=c(166.56,185.45,204.34,223.23,242.12,
+ 261.01,279.90,298.79,317.68,336.57,355.46),include.lowest=TRUE, right = FALSE))
> df[1:10,1] <- tab.ruptura
> df[11,1] <- length(rup)
> for(i in 1:11) {df[i,2]<-df[i,1]/length(rup)}
> for(i in 1:11) {df[i,3]<-df[i,2]*100}
> #df
Histograma
> ##Histograma
>
> h <- hist(rup,breaks=c(166.56,185.45,204.34,223.23,242.12,
+ 261.01,279.90,298.79,317.68,336.57,355.46), right= FALSE, freq=TRUE,
+ ylab="fa",xlab="Forc¸a de ruptura (psi)",main="",col=gray(seq(0.1,1.0,length=9)))
13
Força de ruptura (psi)
fa
200 250 300 350
0
5
10
15
20
25
30
Note que, se aos intervalos de classe sa˜o de igual comprimento, enta˜o as alturas dos retaˆngulos
do histograma sa˜o proporcionais a`s frequeˆncias. Por outro lado, se os intervalos de classes sa˜o de
amplitudes diferentes, enta˜o histogramas de densidade devem ser constru´ıdos. Nesse caso, para
um histograma que mostra a frequeˆncia relativa no eixo vertical, as alturas dos retaˆngulos sa˜o
calculadas como
altura do retaˆngulo (densidade) =
frequeˆncia relativa da classe
amplitude de classe
.
Exemplo: (Devore, 2006) A corrosa˜o das barras de ac¸o da armac¸a˜o e´ um problema se´rio em
estruturas de concreto localizadas em ambientes afetados por condic¸o˜es clima´ticas extremas. Por
esse motivo, os pesquisadores teˆm investigado a utilizac¸a˜o de barras de reforc¸o feitas de material
composto. Um estudo foi executado para desenvolver diretrizes sobre a adereˆncia de barras pla´s-
ticas reforc¸adas com fibra de vidro ao concreto. Considere as 48 observac¸o˜es da resisteˆncia da
adereˆncia medida e a TDF a seguir.
11,5 12,1 9,9 9,3 7,8 6,2 6,6 7,0 13,4 17,1 9,3 5,6
5,7 5,4 5,2 5,1 4,9 10,7 15,2 8,5 4,2 4,0 3,9 3,8
3,6 3,4 20,6 25,5 13,8 12,6 13,1 8,9 8,2 10,7 14,2 7,6
5,2 5,5 5,1 5,0 5,2 4,8 4,1 3,8 3,7 3,6 3,6 3,6
14
Classe 2|–4 4|–6 6|–8 8|–12 12|–20 20|–30
fa 9 15 5 9 8 2
fr 0,1875 0,3125 0,1042 0,1875 0,1667 0,0417
densidade 0,094 0,156 0,052 0,047 0,021 0,004
> ##Histograma de densidades
>
> res <- c(11.5, 12.1, 9.9, 9.3, 7.8, 6.2, 6.6, 7.0, 13.4, 17.1, 9.3, 5.6,
+ 5.7, 5.4, 5.2, 5.1, 4.9, 10.7, 15.2, 8.5, 4.2, 4.0, 3.9, 3.8,
+ 3.6, 3.4, 20.6, 25.5, 13.8, 12.6, 13.1, 8.9, 8.2, 10.7, 14.2, 7.6,
+ 5.2, 5.5, 5.1, 5.0, 5.2, 4.8, 4.1, 3.8, 3.7, 3.6, 3.6, 3.6)
> hd <- hist(res,breaks=c(2,4,6,8,12,20,30), right= FALSE, freq=FALSE,
+ ylab="Densidade",xlab="Resiste^ncia",main="",col="lightyellow")
>
Resistência
D
en
si
da
de5 10 15 20 25 30
0.
00
0.
05
0.
10
0.
15
Refereˆncias
Devore, J. L. (2006) Probabilidade e Estat´ıstica: para Engenharia e Cieˆncias. Sa˜o Paulo: Cengage
Learning.
Hines, W. W.; Montgomery, D. C., Goldsman, D. M., Borror, C. M. (2012) Probabilidade e Esta-
t´ıstica na Engenharia. Rio de Janeiro: LTC.
15
3 Medidas de posic¸a˜o e de dipersa˜o, assimetria e boxplot
Medidas de posic¸a˜o e de dispersa˜o
EXERCICIO 1: (Walpole et al., 2009) Acredita-se que a resisteˆncia a` tensa˜o da borracha silico-
nizada seja uma func¸a˜o da temperatura de cura. Um estudo foi realizado, no qual amostras de 12
espe´cimes de borracha foram preparadas usando temperaturas de cura de 20◦C e 45◦C. Os dados
mostram os valores de resisteˆncia a` tensa˜o, em megapascals:
20◦C: 2,07 2,14 2,22 2,03 2,21 2,03
2,05 2,18 2,09 2,14 2,11 2,02
45◦C: 2,52 2,15 2,49 2,03 2,37 2,05
1,99 2,42 2,08 2,42 2,29 2,01
Com o aux´ılio de uma CALCULADORA, responda os itens a seguir:
a. Calcule a me´dia amostral da resisteˆncia a` tensa˜o para a temperatura de 20◦C.
b. Calcule a mediana amostral da resisteˆncia a` tensa˜o para a temperatura de 20◦C
c. Se a cada dado for somada a constante 10, qual sera´ a nova me´dia amostral da resisteˆncia a`
tensa˜o na temperatura de 20◦C? E se cada dado for multiplicado por 100, qual sera´ a nova me´dia?
d. Calcule a amplitude amostral da resisteˆncia a` tensa˜o a 20◦C. Quais sa˜o as desvantagens dessa
medida?
e. Calcule a variaˆncia e o desvio padra˜o amostrais da resisteˆncia a` tensa˜o a 20◦C. Qual a principal
diferenc¸a entre essas duas medidas de dispersa˜o?
f. Calcule o coeficiente de variac¸a˜o da resisteˆncia a` tensa˜o em ambas as amostras (20◦C e 45◦C).
O aumento nas temperaturas parece influenciar a variabilidade da resisteˆncia a` tensa˜o?
g. Se cada dado for dividido por 10, quais sera˜o os novos valores da amplitude, variaˆncia, desvio
padra˜o e coeficiente de variac¸a˜o em ambas as amostras?
16
No R:
> r20 <- c(2.07,2.14,2.22,2.03, 2.21, 2.03,2.05,2.18,2.09,2.14,2.11,2.02)
> #Item a
> #mean(r20)
>
> #Item b
> #median(r20)
>
> #Item c
> r20_novo <- r20+10
> #mean(r20_novo)
>
> r20_novo2 <- r20*100
> #mean(r20_novo2)
>
> #Item d
> #sort(r20)
> amp20 <- max(r20) - min(r20)
> #amp20
>
> #Item e
> var_r20 <- var(r20)
> #sd(r20)
> ###sqrt(var_r20)
>
> #Item f
> cv20 <- sd(r20)/mean(r20) *100
> #Item g
> r20_novo3 <- r20/10
> #amp20 <- max(r20_novo3) - min(r20_novo3)
> #var20 <- var(r20_novo3)
> #sd20 <- sd(r20_novo3)
> #cv20 <- sd(r20_novo3)/mean(r20_novo3) *100
17
Assimetria
A assimetria reflete o grau de simetria em torno da me´dia. A assimetria negativa resulta em uma
cauda assime´trica na direc¸a˜o dos menores valores da varia´vel, enquanto a assimetria positiva resulta
de uma cauda assime´trica que se estende em direc¸a˜o aos valores mais altos da varia´vel. Varia´veis
com distribuic¸o˜es sime´tricas teˆm assimetria igual a zero e os valores da moda, me´dia e
mediana sa˜o iguais. A figura a seguir ilustra as situac¸o˜es poss´ıveis em relac¸a˜o a` assimetria.
Quando a distribuic¸a˜o dos dados e´ sime´trica (ou em forma de sino) existe a seguinte “regra
emp´ırica”:
1. Aproximadamente 68% das observac¸o˜es estara˜o dentro do intervalo (x¯ − s;x¯ + s), ou para
populac¸o˜es (µ− σ; µ+ σ);
2. Aproximadamente 95% das observac¸o˜es estara˜o dentro do intervalo (x¯− 2s;x¯+ 2s), ou para
populac¸o˜es (µ− 2σ; µ+ 2σ);
3. Aproximadamente 99,7% das observac¸o˜es estara˜o dentro do intervalo (x¯−3s;x¯+3s), ou para
populac¸o˜es (µ− 3σ; µ+ 3σ).
18
EXERCI´CIO 2: (Hines et al., 2012) Um fabricante esta´ estudando o tempo de armazenamento
de seu produto. i) Comente sobre as propriedades dos dados. ii) Calcule a me´dia e a mediana, e
verifique a relac¸a˜o entre elas. iii) Um histograma de frequeˆncias poderia ter sido obtido ao inve´s
do histograma de densidades? Justifique.
> vida <- c(126,131,116,125,134,120,125,150,130,149,129,132,128,126,127,122,111,
+ 148,120,117,134,136,130,134,120,129,147,126,117,143,141,145,162,129,127,133,
+ 129,140,131,133)
> hist(vida,right=FALSE,freq=FALSE,main="",col="lightcoral",xlab="Vida (dias)",
+ ylab="Densidade")
> curve(dnorm(x, mean = 140, sd = 10), col = 1, lty = 3, lwd = 1, add = TRUE)
Vida (dias)
D
en
si
da
de
110 120 130 140 150 160 170
0.
00
0.
01
0.
02
0.
03
0.
04
19
Boxplot
Um resumo esquema´tico denominado Boxplot e´ muito utilizado para descrever as principais carac-
ter´ısticas de um conjunto de dados. O boxplot e´ um gra´fico no qual podemos identificar va´rias
informac¸o˜es sobre os dados tais como: centro, dispersa˜o, quartis, simetria, amplitude e a presenc¸a
de poss´ıveis outliers.
Outlier e´ um valor at´ıpico no conjunto de dados, cujo valor destoa dos demais, ou seja, esta´
distante da maioria dos dados.
Um boxplot e´ constru´ıdo da seguinte maneira:
1. Encontre os quartis da amostra. A posic¸a˜o de cada um dos quartis pode ser calculada pela
seguinte expressa˜o:
PQi =
i(n+ 1)
4
,
em que i = 1, 2, 3.
2. Apo´s ser obtida a posic¸a˜o dos quartis, identifique-os na amostra, procedendo como na ob-
tenc¸a˜o da mediana.
3. Trace um retaˆngulo de modo que uma das extremidades esteja sobre o quartil inferior e a
outra sobre o quartil superior da amostra.
4. Identifique o 2o quartil (mediana), que devera´ estar localizado dentro do retaˆngulo.
5. Calcule a diferenc¸a interquart´ılica, isto e´, o maior menos o menor.
DQ = Q3 −Q1.
6. Agora calcule Q1− 1, 5DQ e Q3 + 1, 5DQ. Trace uma linha comec¸ando das extremidades do
retaˆngulo ate´ cada um dos pontos encontrados.
Se existir algum ponto ale´m da linha tracejada no u´ltimo passo, enta˜o este ponto e´ um potencial
outlier.
Como exemplo, vamos obter boxplots comparativos para os dados sobre resisteˆncia a` tensa˜o da
borracha siliconizada para duas temperaturas diferentes.
> r20 <- c(2.07,2.14,2.22,2.03, 2.21, 2.03,2.05,2.18,2.09,2.14,2.11,2.02)
> r45 <- c(2.52,2.15,2.49,2.03,2.37,2.05,1.99,2.42,2.08,2.42,2.29,2.01)
> #agrupa os valores de resistencia em um unico vetor
> valores <- c(r20,r45)
> #cria um vetor para as temperaturas
> temp <- c(rep(20,each=12),rep(45,each=12))
> #combina os valores de resistencia com os de temperatura
> res <- cbind(valores,temp)
> boxplot(valores ~ temp, data=res,xlab="Temperatura de cura",
+ ylab="Resiste^ncia (MPa)")
> title("Resiste^ncia a` tens~ao da borracha siliconizada")
20
20 45
2.
0
2.
1
2.
2
2.
3
2.
4
2.
5
Temperatura de cura
R
es
is
tê
nc
ia
 (M
Pa
)
Resistência à tensão da borracha siliconizada
21
EXERCI´CIO 3: (Hines et al., 2012) Foram feitas leituras de viscosidade em treˆs misturas dife-
rentes de uma mate´ria-prima usada em uma linha de produc¸a˜o. Um dos objetivos e´ comparar as
treˆs misturas. A figura a seguir apresenta os boxplots para os dados da viscosidade.
a. Comente sobre as principais caracter´ısticas dos dados.
b. Fornec¸a valores aproximados para a mediana, amplitude e amplitude interquart´ılica da varia´vel
estudada.
1 2 3
21
22
23
24
25
26
Mistura
Vi
sc
os
id
ad
e 
(ce
nti
po
ise
)
22
Mais sobre Estat´ıstica descritiva no R
A rotina a seguir refere-se a` obtenc¸a˜o de algumas medidas estat´ısticas e gra´ficos para os dados
do exemplo 3 (forc¸a de ruptura de garrafas de refrigerante). O primeiro comando e´ usado para
importar um arquivo com extensa˜o txt para o R. Antes de utiliza´-lo, lembre-se de escolher o
direto´rio de trabalho.
> dados <- read.table("ruptura.txt",h=T)
> media <- mean(dados[,1])
> mediana <- median(dados[,1])
> var <- var(dados[,1])
> dp <- sd(dados[,1])
> par(mfrow=c(2,1)) #define o nu´mero de gra´ficos na janela> boxplot(dados[,1],xlab="Forc¸a de ruptura (psi)", horizontal=T)
> title("Forc¸a de ruptura de garrafas de refrigerante")
> hist(dados[,1],breaks=c(166.56,185.45,204.34,223.23,242.12,
+ 261.01,279.90,298.79,317.68,336.57,355.46), right= FALSE, freq=TRUE,
+ ylab="fa",xlab="Forc¸a de ruptura (psi)",main="",col=gray(seq(0.1,1.0,length=9)))
>
Para obter estat´ısticas descritivas podemos, tambe´m, usar o pacote fbasics:
> library(fBasics)
> basicStats(dados[,1])
X..dados..1
nobs 100.000000
NAs 0.000000
Minimum 176.000000
Maximum 346.000000
1. Quartile 248.000000
3. Quartile 280.000000
Mean 264.060000
Median 265.000000
Sum 26406.000000
SE Mean 3.201793
LCL Mean 257.706948
UCL Mean 270.413052
Variance 1025.147879
Stdev 32.017931
Skewness -0.125591
Kurtosis 0.365160
Refereˆncias
Hines, W. W.; Montgomery, D. C., Goldsman, D. M., Borror, C. M. (2012) Probabilidade e Esta-
t´ıstica na Engenharia. Rio de Janeiro: LTC.
Walpole, R. E.; Myers, R. H., Myers, S. L., Ye, K. (2009) Probabilidade e Estat´ıstica para Enge-
nharia e Cieˆncias. 8 ed. Sa˜o Paulo: Pearson Prentice Hall.
23
4 Teorema de Bayes
EXERCICIO 1: Uma cadeia de lojas de v´ıdeo vende treˆs marcas diferentes de TV. Dessas vendas,
50% sa˜o da marca 1 (a mais barata), 30% sa˜o da marca 2 e 20% sa˜o da marca 3. Cada fabricante
oferece um ano de garantia para pec¸as e ma˜o-de-obra. E´ sabido que 25% das TVs da marca 1
necessitam de reparos de garantia, enquanto os percentuais correspondentes para as marcas 2 e 3
sa˜o 20% e 10%, respectivamente.
a. Qual e´ a probabilidade de que um comprador selecionado aleatoriamente compre uma TV da
marca 1 que precise de reparo durante a garantia?
b. Qual e´ a probabilidade de que um comprador selecionado aleatoriamente possua um aparelho
que necessite de reparos durante a garantia?
c. Se um cliente voltar a` loja com uma TV que precise de reparos em garantia, qual e´ a probabi-
lidade de ela ser da marca 1? E da marca 2? E da marca 3?
Dica: Considere os eventos
A1: compra da marca 1
A2: compra da marca 2
A3: compra da marca 3
B: precisa de reparo
B¯: na˜o precisa de reparo
e fac¸a um diagrama de a´rvore para essa situac¸a˜o.
24
Lei da Probabilidade Total e Teorema de Bayes
O ca´lculo de uma probabilidade posterior P (Aj|B) (item c) a partir de probabilidades anteriores,
P (Ai), e das probabilidades condicionais, P (B|Ai), desempenha um papel importante em teoria
de probabilidade. A regra regal desses ca´lculos remete ao reverendo Thomas Bayes, que viveu no
se´culo XVIII. Para expressa´-la, precisamos de outros dois resultados.
Partic¸a˜o de Ω: Uma colec¸a˜o de eventos A1, A2, . . . , Ak e´ uma partic¸a˜o do espac¸o amostral Ω se
forem mutuamente exclusivos (disjuntos) e se A1 ∪ A2 ∪ . . . ∪ Ak = Ω.
Exemplo: Eventos A1, A2 e A3.
Lei da Probabilidade Total: Se os eventos A1, A2, . . . , Ak constituem uma partic¸a˜o do espac¸o
amostral Ω, enta˜o para qualquer outro evento B de Ω,
P (B) =P (B|A1)P (A1) + . . .+ P (B|Ak)P (Ak)
=
k∑
i=1
P (B|Ai)P (Ai).
Ja´ que os eventos Ai sa˜o uma partic¸a˜o de Ω, seB ocorrer sera´ com um dos Ai, isto e´, B = (A1eB)
ou . . . ou (AkeB) = (A1∩B)∪ . . .∪ (Ak∩B), onde os eventos (Ai∩B) sa˜o mutuamente exclusivos.
Essa “partic¸a˜o de B” e´ ilustrada na figura a seguir. Assim,
P (B) =
k∑
i=1
P (Ai ∩B) =
k∑
i=1
P (B|Ai)P (Ai).
Exemplo: item b do Exerc´ıcio 1.
Teorema de Bayes: Se os eventos A1, A2, . . . , Ak constituem uma partic¸a˜o do espac¸o amostral
Ω, enta˜o para qualquer evento B em Ω, tal que P (B) > 0, tem-se que
25
P (Aj|B) =P (Aj ∩B)
P (B)
=
P (B|Aj)P (Aj)
P (B|A1)P (A1) + P (B|A2)P (A2) + . . .+ P (B|Ak)P (Ak)
=
P (B|Aj)P (Aj)∑k
i=1 P (B|Ai)P (Ai)
.
Um caso particular e´
P (A|B) = P (A ∩B)
P (B)
=
P (B|A)P (A)
P (B)
.
Essa expressa˜o pode intimidar usua´rios com pouca experieˆncia em probabilidade. Enta˜o, desde
que haja relativamente poucos eventos na partic¸a˜o, pode-se usar um gra´fico de a´rvore para calcular
probabilidades posteriores sem usar o Teorema de Bayes.
EXERCICIO 2: Os arquivos da pol´ıcia revelam que, das v´ıtimas de acidente automobil´ıstico
que utilizam cinto de segudanc¸a, apenas 10% sofrem ferimentos graves, enquanto que a incideˆncia
e´ de 50% entre as v´ıtimas que na˜o utilizam cinto de seguranc¸a. Estima-se que a porcentagem
de motoristas que frequentemente usam o cinto e´ de 60%. A pol´ıcia acaba de ser chamada para
investigar um acidente em que houve um indiv´ıduo gravemente ferido.
a) Calcule a probabilidade de ele estar usando o cinto no momento do acidente.
b) A pessoa que dirigia o outro carro na˜o sofreu ferimentos graves. Calcule a probabilidade dela
estar usando o cinto no momento do acidente.
DICA: Estabelec¸a os eventos (C, NC, F, NF) e obtenha as probabilidades conhecidas do enunciado.
Depois estabelec¸a o evento cuja probabilidade sera´ calculada. Utilize o diagrama de a´rvore ou o
Teorema de Bayes.
EXERCICIO 3: Uma indu´stria usa treˆs planos anal´ıticos para criar e desenvolver certo produto.
Devido aos custos, os treˆs planos sa˜o usados em momentos variados, de modo que os planos 1, 2 e
3 sa˜o usados para 30%, 20% e 50% dos produtos, respectivamente. O ı´ndice de defeitos e´ diferente
para os treˆs procedimentos: P (D|P1) = 0, 01, P (D|P2) = 0, 03 e P (D|P3) = 0, 02,
em que P (D|Pj) e´ a probabilidade de um produto apresentar defeitos dado que veio do plano j.
a) Selecionando um produto aleatoriamente, qual a probabilidade de ele apresentar defeito?
b) Se o produto selecionado apresenta defeito, qual foi provavelmente o plano usado e, por con-
sequeˆncia, responsa´vel pelo defeito?
Refereˆncias
Devore, J. L. (2006) Probabilidade e Estat´ıstica: para Engenharia e Cieˆncias. Sa˜o Paulo: Cengage
Learning.
Walpole, R. E.; Myers, R. H., Myers, S. L., Ye, K. (2009) Probabilidade e Estat´ıstica para Enge-
nharia e Cieˆncias. 8 ed. Sa˜o Paulo: Pearson Prentice Hall.
26
5 Distribuic¸o˜es de probabilidade discretas: binomial e Pois-
son
EXERCICIO 1: Ao testar certo tipo de pneu de caminha˜o em um terreno irregular, descobriu-se
que 25% dos caminho˜es falhavam ao tentar completar o percurso do teste sem ter pneus estourados.
Dos pro´ximos 15 caminho˜es testados, determine a probabilidade de que
a) exatamente treˆs tera˜o pneus estourados;
b) menos de quatro tera˜o pneus estourados.
c) Qual e´ o nu´mero me´dio e o desvio padra˜o de caminho˜es que falham no teste?
EXERCICIO 2: No estudo do desempenho de uma central de computac¸a˜o, o acesso a` Unidade
Central de Processamento (CPU) ocorre com me´dia de 4 requisic¸o˜es por segundo. Essas requisic¸o˜es
podem ser de va´rias naturezas tais como imprimir um arquivo, efetuar um certo ca´lculo ou enviar
uma mensagem pela internet, entre outras.
a) Escolhendo-se ao acaso um intervalo de 1 segundo, qual e´ a probabilidade de haver mais de 2
acessos a` CPU? E do nu´mero de acessos na˜o ultrapassar 5?
b) Considerando agora o intervalo de 10 segundos, tambe´m escolhido ao acaso, qual e´ a probabi-
lidade de haver 50 acessos?
EXERCICIO 3: Quando as placas de circuito integrado usadas na fabricac¸a˜o de TVs sa˜o testa-
das, a porcentagem de placas com defeitos no longo prazo e´ igual a 5%. Em uma amostra aleato´ria
de 25 pec¸as calcule a probabilidade de:
a) Exatamente 2 placas apresentarem defeito.
b) No ma´ximo 3 placas apresentarem defeito.
c) Pelo menos uma placa apresentar defeito.
EXERCICIO 4: Numa linha adutora de a´gua, de 60km de extensa˜o, ocorrem 30 vazamentos no
per´ıodo de um meˆs.
a) Qual a probabilidade de, durante o meˆs, na˜o haver vazamento em um setor de 5km?
b)Qual a probabilidade de ocorrer, durante o meˆs, pelo menos 3 vazamentos num certo setor de
3km?
27
Aproximac¸a˜o da binomial pela Poisson
Em geral, e´ u´til aproximar uma distribuic¸a˜o usandooutra, particularmente quando a aproximac¸a˜o
e´ de mais fa´cil manipulac¸a˜o. Na distribuic¸a˜o Binomial, quando n e´ grande e a probabilidade
de ocorreˆncia de um evento, p, e´ pequena, diz-se que temos um evento raro. Nesta situac¸a˜o, o
ca´lculo pela distribuic¸a˜o Binomial pode se tornar complicado, inclusive estourando a capacidade
de memo´ria das calculadoras mais simples.
Enta˜o, a distribuic¸a˜o Binomial pode ser aproximada pela distribuic¸a˜o Poisson, basta considerar
λ = np. Quanto menor o valor de p e maior o valor de n, melhor a aproximac¸a˜o. Vem da´ı a
denominac¸a˜o de “lei dos casos raros” da distribuic¸a˜o Poisson.
EXERCICIO 5: A probabilidade de um organismo rejeitar determinado medicamento e´ de 0,001.
Foi feito uma pesquisa com 2000 pessoas utilizando este medicamento. Qual e´ a probabilidade de
que exatamente 3 rejeitem o medicamento?
EXERCICIO 6: Em uma certa instalac¸a˜o industrial, acidentes ocorrem com baixa frequeˆncia.
Sabe-se que a probabilidade de ter acidentes em certo dia e´ de 0,005, e os acidentes sa˜o indepen-
dentes uns dos outros.
a) Qual e´ a probabilidade de que, em qualquer per´ıodo de 400 dias, haja um acidente em um dia?
b) Qual e´ a probabilidade de que, nesses 400 dias, acontec¸am, no ma´ximo, treˆs dias com acidentes?
GABARITO
1- a) 0,2251991; b) 0,4612869 ; c) E(X) = 3,75 e σX = 1,677051
2- a) 0,7620 e 0,7851; b) 0,0177
3- a) 0,2305; b) 0,9659; c) 0,7226
4- a) 0,082085; b) 0,191154
5- Exata: 0,1805 e Aproximada: 0,1804
6- a) 0,271; b) 0,857
28
6 A distribuic¸a˜o normal
A distribuic¸a˜o normal e´ a distribuic¸a˜o de probabilidades mais importante da Estat´ıstica. Esta
ditribuic¸a˜o fica completamente definida pelo conhecimento dos paraˆmetros µ e σ2, que sa˜o a me´dia
e a variaˆncia, respectivamente. Para verificar a forma da distribuic¸a˜o conforme estes paraˆmetros
variam, reproduza os co´digos em R abaixo:
> curve(dnorm(x,10,9), main="Distribuic¸~ao Normal com diferentes me´dias e mesma
+ varia^ncia", xlab = "valores de X", ylab= "density", ylim=c(0,0.06), xlim=c(-60,60))
> curve(dnorm(x,1,9),add = TRUE,col="blue")
> curve(dnorm(x,-30,9),add = TRUE,col="red")
> curve(dnorm(x,30,9),add = TRUE,col="green")
> legend(-50,0.06, c("N(10,9)", "N(1,9)", "N(-30,9)","N(30,9)"), lty=c(1,1,1,1),
+ col=c("black", "blue", "red", "green"), cex=.75)
−60 −40 −20 0 20 40 60
0.
00
0.
01
0.
02
0.
03
0.
04
0.
05
0.
06
Distribuição Normal com diferentes médias e mesma 
 variância
valores de X
de
ns
ity
N(10,9)
N(1,9)
N(−30,9)
N(30,9)
> curve(dnorm(x,10,9), main="Distribuic¸~ao Normal com diferentes varia^ncias e mesma
+ me´dia", xlab = "valores de X", ylab= "density", ylim=c(0,0.08), xlim=c(-60,60))
> curve(dnorm(x,10,6),add = TRUE,col="blue")
> curve(dnorm(x,10,5),add = TRUE,col="red")
> curve(dnorm(x,10,15),add = TRUE,col="green")
29
> legend(-50,0.075, c("N(10,9)", "N(10,6)", "N(10,5)","N(10,15)"), lty=c(1,1,1,1),
+ col=c("black", "blue", "red", "green"), cex=.75)
−60 −40 −20 0 20 40 60
0.
00
0.
02
0.
04
0.
06
0.
08
Distribuição Normal com diferentes variâncias e mesma
 média
valores de X
de
ns
ity
N(10,9)
N(10,6)
N(10,5)
N(10,15)
Como vimos, para varia´veis aleato´rias cont´ınuas o ca´lculo de probabilidades e´ feito por meio
da integrac¸a˜o da func¸a˜o densidade de probabilidade. Assim, para uma varia´vel aleato´ria com
distribuic¸a˜o normal, a probabilidade de um valor da varia´vel aleato´ria estar entre dois valores,
digamos a e b, e´ calculada da seguinte maneira:
b∫
a
1
σ
√
2pi
e
−(x−µ)2
2σ2 dx.
Nenhuma das te´cnicas de integrac¸a˜o usuais pode ser usada para calcular esta integral. Dessa
forma, a sa´ıda e´ calcula´-la computacionalmente e colocar os resultados em tabelas. Mas nas va´rias
situac¸o˜es pra´ticas seus dois paraˆmetros (me´dia e variaˆncia) podem assumir diferentes valores, o
que levaria a` construc¸a˜o de diversas tabelas, uma para cada situac¸a˜o.
Para padronizar todas as distribuic¸o˜es normais numa u´nica distribuic¸a˜o e apresentar as proba-
bilidades numa u´nica tabela, e´ realizada uma transformac¸a˜o na varia´vel aleato´ria X, originando
uma nova varia´vel aleato´ria, denominada de varia´vel aleato´ria normal padronizada e usualmente
representada pela letra Z.
Seja X : N(µ, σ2), enta˜o a varia´vel aleato´ria Z definida por:
30
Z =
X − µ
σ
tem distribuic¸a˜o normal padra˜o, isto e´, tem distribuic¸a˜o normal com paraˆmetros µ = 0 e σ2 = 1.
Existem diferentes verso˜es para os valores tabelados da distribuic¸a˜o normal padra˜o. Em todas
as tabelas, a forma como ela foi elaborada, isto e´, as probabilidades que se encontram nela, esta´
especificada em seu t´ıtulo.
> curve(dnorm(x,0,1), main="Distribuic¸~ao Normal Padr~ao", xlab = "valores de Z",
+ ylab= "density",xlim = c(-5,5))
−4 −2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
Distribuição Normal Padrão
valores de Z
de
ns
ity
Para calcular a probabilidade, por exemplo, da varia´vel normal padra˜o ser maior que 1, 52,
basta procurar na tabela a probabilidade correspondente ao valor de Z.Atente para o fato de que a
parte inteira e a primeira casa decimal do valor de Z esta˜o na primeira coluna da tabela enquanto
os valores da segunda casa decimal esta˜o no topo das demais colunas da tabela.
P (Z > 1, 52) = 0, 0643 = 6, 43%.
Graficamente, a probabilidade que estamos procurando e´:
31
0.
0
0.
1
0.
2
0.
3
0.
4
Distribuição Normal Padrão
valores de Z
de
ns
ity
−4 −2 0 1.52 4
EXERCICIO 1: Determine as seguintes probabilidades (a´reas) e fac¸a um esboc¸o da figura para
cada situac¸a˜o:
(a) Acima de 2,3; (b) Entre 0,0 e 1,22; (c) Entre -2,3 e 0,0; (d) Entre -1,96 e 1,96;
(e) Abaixo de -0,18; (f) Entre 0,27 e 1,18; (g) Abaixo de 1,38; (h) Acima de -1,0;
EXEMPLO DE APLICAC¸A˜O: Uma indu´stria ele´trica fabrica laˆmpadas que teˆm vida u´til,
antes de queimarem, normalmente distribu´ıda com me´dia igual a 800 horas e desvio padra˜o de 40
horas.
a) Qual a probabilidade de que uma laˆmpada desta indu´stria dure mais de 834 horas?
b) Qual a probabilidade de que uma laˆmpada se queime entre 778 e 834 horas de uso?
32
EXERCICIO 2: Certa indu´stria produz latas de conservas de modo que o peso e´ uma varia´vel
aleato´ria normalmente distribu´ıda com me´dia de 990g e variaˆncia de 100g2. Se uma lata for sele-
cionada aleatoriamente, qual a probabilidade de que:
a) pese mais de 1Kg?
b) pese menos de 950g?
c) Uma lata e´ aceita pelo controle de qualidade desta indu´stria se seu peso diferir da me´dia em no
ma´ximo ±2 desvios-padra˜o. Qual a probabilidade de uma lata escolhida aleatoriamente ser aceita
pelo controle de qualidade?
EXERCICIO 3: A quantidade de a´gua destilada produzida por certa ma´quina tem distribuic¸a˜o
normal com valor me´dio de 64 ml e desvio padra˜o de 0,78 ml. Qual a capacidade do recipiente C
que assegurara´ que ocorra transbordamento em apenas 1,5% das vezes?
GABARITO
1: a) 0,0107; b) 0,3888; c) 0,4893; d) 0,95; e) 0,4286; f) 0,2746; g) 0,9162; h) 0,8413
Exemplo: a) 0,1977; b) 0,5111
2: a) 0,1587 ou 15,87%; b) 0%; c) 0,9544 ou 95,44%
3: X = 65, 6926ml
33
7 Distribuic¸o˜es discretas no R
Distribuic¸a˜o binomial
A distribuic¸a˜o Binomial tem dois paraˆmetros: n e p. As func¸o˜es no R associadas a essa distribuic¸a˜o
conteˆm o termo “binom” no nome. Basicamente o programa oferece as seguintes func¸o˜es:
ˆ dbinom(x, n, p)
Calcula a probabilidade de cada um dos poss´ıveis valores da varia´vel aleato´ria X, ou seja,
P [X = x]. Caso x seja um vetor de valores poss´ıveis da varia´vel aleto´ria, calcula a probabi-
lidade de cada um destes valores.
ˆ pbinom(q, n, p)
Calcula a probabilidade acumulada ate´ o valor q, isto e´ P [X ≤ q] = prob. Logo esta e´ a sua
func¸a˜o dedistribuic¸a˜o de probabilidade acumulada.
ˆ qbinom(prob, n, p)
Calcula o valor q (ou quantil) da varia´vel aleato´ria que possui probabilidade acumulada ate´
ele dada por prob. Isto e´, P [X ≤ q] = prob. E´ o contra´rio da pbinom.
Este caso e´ mais comum de ser usado em distribuc¸o˜es cont´ınuas (como a normal). No caso
discreto o valor retornado e´ o menor inteiro q tal que P [X ≤ q] ≥ prob.
ˆ rbinom(N, n, p)
Gera uma amostra de tamanho N de uma varia´vel aleato´ria binomial com paraˆmetros n e p.
Ex. 9 - Lista 4: Um processo de produc¸a˜o que fabrica transistores opera, com frac¸a˜o de defei-
tuosos de 2%. Todo dia extrai-se uma amostra aleato´ria de 50 transistores deste processo. Se a
amostra contiver mais de dois defeituosos, o processo deve ser interrompido e a ma´quina regulada
novamente. Qual e´ a probabilidade do processo ser interrompido?
X: nu´mero de transistores defeituosos
n = 50 p = 0.02
X : Bin(50, 0.02)
Desejamos calcular a seguinte probabilidade:
P [X > 2] = 1− P [X = 0]− P [X = 1]− P [X = 2]
> # usando o dbinom
> 1 - dbinom(0,50,0.02) - dbinom(1,50,0.02) - dbinom(2,50,0.02)
[1] 0.07842775
> # usando o pbinom
> 1- pbinom(2,50,0.02)
[1] 0.07842775
Se soube´ssemos a probabilidade e quize´ssemos saber qual o valor da varia´vel aleato´ria tem
probabilidade acumulada ate´ ele de 0.92, poder´ıamos usar o seguinte comando:
34
> qbinom(0.92,50,0.02)
[1] 2
Perceba que a resposta e´ X=2.
O comando lower.tail indica qual probabilidade estamos considerando, se e´ abaixo ou acima do
valor. O default e´ abaixo, mas podemos tambe´m estar interessados em obter o quantil que contem
determinada probabilidade (a´rea) acima. Nesse caso:
> qbinom(0.08,50,0.02, lower.tail = FALSE)
[1] 2
EXERCI´CIO 1: Quando as placas de circuito integrado usadas na fabricac¸a˜o de TVs sa˜o testadas,
a porcentagem de placas com defeitos no longo prazo e´ igual a 5%. Em uma amostra aleato´ria de
25 pec¸as calcule a probabilidade de:
a) Exatamente 2 placas apresentarem defeito. R = 0,2305
b) No ma´ximo 3 placas apresentarem defeito. R = 0,9659
c) Pelo menos uma placa apresentar defeito. R = 0,7226
EXERCI´CIO 2: Uma certa doenc¸a pode ser curada atrave´s de procedimento ciru´rgico em 80%
dos casos. Dentre os que apresentam essa doenc¸a, sorteamos 15 pacientes que sera˜o submetidos a`
cirurgia. Determine:
(a) A probabilidade de todos serem curados. R = 0,0352
(b) A probabilidade de, ao menos, 13 ficarem livres da doenc¸a. R = 0,3980
(c) A probabilidade de, pelo menos, 2 na˜o serem curados. R = 0,8329
35
Distribuic¸a˜o Poisson
A distribuic¸a˜o Poisson tem apenas um paraˆmetro: λ. As func¸o˜es no R associadas a essa distribuic¸a˜o
conteˆm o termo “pois” no nome. Assim como na Binomial, existem 4 func¸o˜es ba´sicas:
ˆ dpois(x, λ)
ˆ ppois(q, λ)
ˆ qpois(p, λ)
ˆ rpois(N, λ)
As operac¸o˜es feitas em cada um sa˜o semelhantes as da distribuic¸a˜o Binomial.
Ex. 14 - Lista 4: A aplicac¸a˜o de um fundo anti-corrosivo em chapas de ac¸o de 1m2 e´ feita
mecanicamente e pode produzir defeitos (pequenas bolhas nas pinturas) com me´dia de 1,5 bolhas
por m2. Pergunta-se a probabilidade de encontrar: (a) Pelo menos um defeito por m2; (b) No
ma´ximo 2 defeitos; (c) Entre 2 e 4 defeitos em 2m2
X: nu´mero de defeitos por m2
λ = 1, 5
X: Poisson(λ = 1, 5)
Desejamos calcular as seguintes probabilidades:
a) P [X ≥ 1] = 1− P [X = 0]
> 1 - dpois(0,1.5)
[1] 0.7768698
b) P [X ≤ 2] = P [X = 0] + P [X = 1] + P [X = 2]
> dpois(0,1.5) + dpois(1,1.5) + dpois(2,1.5)
[1] 0.8088468
> # ou usando o ppois
>
> ppois(2,1.5)
[1] 0.8088468
c) agora λ = 3, assim queremos: P [X = 3]
> dpois(3,3)
[1] 0.2240418
36
EXERCI´CIO 3: A indu´stria de automo´veis esta´ preocupada com uma falha no mecanismo de
freios de determinado modelo. Em me´dia 5 carros por ano apresentam esta falha. Embora na˜o
sejam muitos, visto que a empresa produz milhares de carros, caso esta falha ocorra em uma
rodovia pode acontecer um acidente se´rio.
a) Qual e´ a probabilidade de que nenhum carro por ano apresente esta falha? R = 0,0067
b) Qual e´ a probabilidade de que pelo menos dois carros apresentem este defeito em um
trimestre? R = 0,3554
EXERCI´CIO 4: Na central de atendimento ao cliente de uma empresa chegam em me´dia 6
reclamac¸o˜es por hora. Qual a probabilidade de que:
a) Em uma hora na˜o chegar nenhuma reclamac¸a˜o? R = 0,0025
b) Chegar no ma´ximo 2 reclamac¸o˜es em meia hora? R = 0,4232
37
Aproximac¸a˜o de distribuic¸o˜es discretas a` normal
EXERCICIO 5: Estude as distribuic¸o˜es discretas no R e explique o que acontece com suas for-
mas, de acordo com alguns cena´rios propostos. Para isso, utilize os comandos fornecidos em cada
situac¸a˜o, fazendo as alterac¸o˜es apropriadas nos paraˆmetros. Escreva o que acontece com o formato
da distribuic¸a˜o de probabilidades da varia´vel aleato´ria em questa˜o.
a) Y: Poisson(λ = [0.1, 20])
> #Lambda: min=0.1, max=20
> y <- 0:30
> py <- dpois(y, lambda=0.1)
> plot(y, py, type="h", xlab="y", ylab="Pr(y)", col="red", lwd=4)
b) Y: Binomial(n, p)
b1) Y: Binomial(n = [1, 30], p = 0.4)
> #n: min=1, max=30
>
> y <- 0:30
> py <- dbinom(y, size=1, prob=0.4)
> plot(y, py, type="h", xlab="y", ylab="Pr(y)", col="red", lwd=4)
b2) Y: Binomial(n = 10, p = [0.02, 0.98])
> #p: min=0.02, max=0.98
>
> y <- 0:10
> py <- dbinom(y, size=10, prob=0.02)
> plot(y, py, type="h", xlab="y", ylab="Pr(y)", col="red", lwd=4)
A distribuic¸a˜o normal e´, com frequeˆncia, uma boa aproximac¸a˜o para uma distribuic¸a˜o discreta
quando esta assume uma forma sime´trica. Do ponto de vista teo´rico, algumas distribuic¸o˜es con-
vergem para a normal conforme seus paraˆmetros se aproximam de certos limites. A distribuic¸a˜o
normal e´ uma distribuic¸a˜o aproximada conveniente porque sua func¸a˜o de distribuic¸a˜o acumulada e´
facilmente tabulada. Vale destacar que algumas distribuic¸o˜es cont´ınuas tambe´m podem ser apro-
ximadas por uma normal.
38
Binomial → Normal
O ca´lculo de probabilidades em algumas distribuic¸o˜es binomiais pode ser extremamente tra-
balhoso. Por exemplo, considere n = 135 e p = 0, 6. Qual a probabilidade de que Y ≥ 98, por
exemplo?
Para resolver este problema ter´ıamos que calcular:
P [Y ≥ 98] = P [Y = 98] + P [Y = 99] + ...+ P [Y = 135]
Na realidade, se considera´ssemos que a varia´vel aleato´ria Y pudesse, apesar de discreta, ser
razoavelmente bem descrita por uma distribuic¸a˜o normal, esse ca´lculo se tornaria bem mais simples
usando a varia´vel Z.
Na distribuic¸a˜o binomial, quando o n e´ grande e p e´ pro´ximo a 0,5, a distribuic¸a˜o pode ser
aproximada por uma normal com µ = np e σ2 = np(1− p).
A figura a seguir exibe um gra´fico de barras de probabilidade (distribuic¸a˜o de probabilidade)
para a distribuic¸a˜o binomial com n = 20 e p = 0, 6. Uma curva normal com valor me´dio e desvio
padra˜o iguais aos valores correspondentes para a distribuic¸a˜o binomial (µ = np = 20(0, 6) = 12
e σ =
√
np(1− p) = √20(0, 6)(0, 4) = 2, 19) foi sobreposta no gra´fico de probabilidade. A curva
normal oferece uma aproximac¸a˜o muito boa, especialmente na parte central da figura. A a´rea de
qualquer reteˆngulo (probabilidade de qualquer valor X particular), exceto aqueles nas extremidades
das caudas, pode ser aproximada com precisa˜o pela a´rea correspondente da curva normal.
Um aspecto que deve ser considerado e´ o da descontinuidade das varia´veis discretas. Uma
correc¸a˜o de continuidade deve ser realizada antes do ca´lculo das probabilidades requeridas. Para
entender melhor essa correc¸a˜o, observe, na Figura acima, que os valores da binomial, diga-se Y ,
representam os pontos me´dios dos retaˆngulos e que as a´reas relativas a cada retaˆngulo correspondem
a`s probabilidades associadas aos valores de Y . Assim, P(Y = 10), por exemplo, significaque a
probabilidade poderia ser estimada pela a´rea sob a curva normal que aproxima o gra´fico de barras
no intervalo de 9,5 a 10,5. Definindo X a varia´vel normal com me´dia µ = np e σ2 = np(1 − p),
a probabilidade aproximada pela normal seria dada pela relac¸a˜o: P (Y = y) ∼= P (y − 0, 5 < X <
y + 0, 5). A soma ou subtrac¸a˜o do valor 0,5 e´ a correc¸a˜o de continuidade. Na˜o ha´ regras para o
uso dessa correc¸a˜o. Deve-se ter a percepc¸a˜o de somar ou subtrair 0,5 do valor y. Essa percepc¸a˜o
deve basear-se no fato de a probabilidade de Y = y estar ou na˜o contemplada no evento objeto de
estudo.
39
Na pra´tica, a aproximac¸a˜o e´ adequada se np ≥ 10 e np(1 − p) ≥ 10. Para valores menores
que esses, a distribuic¸a˜o tera´ muita inclinac¸a˜o para que a curva normal fornec¸a uma aproximac¸a˜o
precisa.
EXEMPLO: Um sistema e´ formado por 100 componentes, cada um dos quais com confiabilidade
de 0,85 (probabilidade de funcionamento). Se esses componentes funcionam independentes uns
dos outros e se o sistema completo funciona adequadamente quando pelo menos 80 componentes
funcionam, qual a confiabilidade do sistema?
Y: nu´mero de componentes que funcionam
Y: Binomial(n = 100, p = 0, 85)
Queremos encontrar:
P [Y ≥ 80] = P [Y = 80] + P [Y = 81] + P [Y = 82] + ...+ P [Y = 100]
A distribuic¸a˜o normal pode ser usada para o ca´lculo aproximado dessa probabilidade. Para
isso, consideremos:
E[X] = µ = np = 100(0, 85) = 85
V ar[X] = σ2 = np(1− p) = 100(0, 85)(0, 15) = 12, 75
Agora basta considerar uma varia´vel aleato´ria normal, X, com µ = 85 e σ2 = 12, 75 , e tem-se
uma aproximac¸a˜o Normal para a varia´vel Y.
P [Y ≥ 80] = P [80 ≤ Y ≤ 100] ∼= P [79, 5 ≤ X ≤ 100, 5] = P [−1, 54 ≤ Z ≤ 4, 34]
Portanto, a probabilidade de que o sistema funcione, ou seja, sua confiabilidade, e´, aproxima-
damente:
P [79, 5 ≤ X ≤ 100, 5] = P [−1, 54 ≤ Z ≤ 4, 34] = 0, 5 + 0, 4382 = 0, 9382 ou 93, 82%
40
Poisson → Normal
A aproximac¸a˜o normal a` Poisson e´ realizada nos mesmos moldes da aproximac¸a˜o realizada a`
binomial. A varia´vel Poisson possui me´dia e variaˆncia definidas por µ = σ2 = λ. Controve´rsias
sa˜o encontradas na literatura para a definic¸a˜o de qual deve ser o valor mı´nimo de λ para que a
aproximac¸a˜o seja considerada adequada. Sa˜o sugeridos os valores de λ > 7, ou λ > 15, ou ainda,
λ > 25 para se alcac¸arem boas aproximac¸o˜es.
EXEMPLO: Suponha que a me´dia estimada de um tipo de bacte´ria e´ igual a 27,6 por cm2. Para
utilizar determinado produto o n´ıvel de contaminac¸a˜o da laˆmina deve ser intenso, com mais de 35
bacte´rias por cm2. Determine a probabilidade de que o produto seja usado, isto e´, de que sejam
encontradas mais de 35 bacte´rias por cm2 nesta laˆmina.
Y: nu´mero de bacte´rias
Y: Poisson(λ = 27, 6)
Queremos encontrar:
P [Y > 35] = P [Y = 36] + P [Y = 37] + P [Y = 38] + ...
Ou utilizando a ideia do complemento por:
P [Y > 35] = 1− P [Y = 0] + P [Y = 1] + P [Y = 2] + ...+ P [Y = 35]
Mas mesmo com o complemento, ter´ıamos muito trabalho. A distribuic¸a˜o Normal pode tambe´m
ser utilizada para o ca´lculo aproximado da distribuic¸a˜o Poisson. Para tanto, deve-se calcular a
esperanc¸a e a variaˆncia desta varia´vel aleato´ria:
E[X] = µ = λ = 27, 6
V ar[X] = σ2 = λ = 27, 6
Agora basta considerar uma varia´vel aleato´ria normal, X, com µ = 27, 6 e σ = 5, 25 , e tem-se
uma aproximac¸a˜o Normal para a varia´vel Y.
P [Y > 35] e´ equivalente a P [X > 35, 5] no caso cont´ınuo. Assim, quando X vale 35,5, Z vale:
Z =
35, 5− 27, 6
5, 25
= 1, 51.
Portanto a probabilidade de que sejam encontradas mais que 35 bacte´rias por cm2 na laˆmina
e´ dada por:
P [Y > 35] ∼= P [X > 35, 5] = P [Z > 1, 51] = 0, 0655 ou 6, 55%
41
EXERCICIO 6: Uma ma´quina produz parafusos, dos quais 10% sa˜o defeituosos. Usando a
aproximac¸a˜o da distribuic¸a˜o binomial pela normal, determinar a probabilidade de uma amostra
formada ao acaso de 400 parafusos produzidos pela ma´quina serem defeituosos:
a) no ma´ximo 30;
b) entre 30 e 50 (inclusive os extremos);
c) mais de 35 e menos de 45;
d) mais de 55.
EXERCICIO 7: O nu´mero me´dio de avio˜es que pousam em um aeroporto movimentado de uma
capital e´ de 3 a cada 2 minutos. Com base nestas informac¸o˜es calcule:
a) a probabilidade aproximada de que numa hora, selecionada ao acaso, ocorram pelo menos 75
aterrizagens neste aeroporto.
b) a probabilidade do aeroporto receber entre 100 e 120 avio˜es em uma determinada hora.
GABARITO
Exerc´ıcio 6: a) 0,057053; b) 0,919882; c) 0,546746; d) 0,004940
Exerc´ıcio 7: a) 0,9484; b) 0,1580
42
8 Distribuic¸o˜es cont´ınuas no R
A distribuic¸a˜o gama
Ale´m de definir uma famı´lia de distribuic¸o˜es, a distribuic¸a˜o gama e´ aplicada na modelagem de
tempo de espera, teoria da confiabilidade e teoria das filas.
A figura a seguir ilustra os gra´ficos da fdp gama para algumas combinac¸o˜es (α, β). O paraˆmetro
β e´ denominado paraˆmetro de escala porque os valores diferentes de 1 esticam ou comprimem a
fdp na direc¸a˜o de x.
> curve(dgamma(x,shape=2,scale=1/3), main="Distribuic¸~ao Gama", xlab = "X",
+ ylab= "f(x)", ylim=c(0,1.2), xlim=c(0,8), lwd=2, cex.main=0.8)
> curve(dgamma(x,shape=2,scale=1),add = TRUE,col="green", lwd=2)
> curve(dgamma(x,shape=2,scale=2),add = TRUE,col="red", lwd=2)
> curve(dgamma(x,shape=1,scale=1),add = TRUE,col="blue",lwd=2)
> legend(5.7,1.0, c("Gama(2,1/3)","Gama(2,1)", "Gama(2,2)", "Gama(1,1)"),
+ lty=c(1,1,1,1), lwd=c(2,2,2,2), col=c("black", "green", "red", "blue"), cex=0.75)
0 2 4 6 8
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
1.
2
Distribuição Gama
X
f(x
)
Gama(2,1/3)
Gama(2,1)
Gama(2,2)
Gama(1,1)
43
A distribuic¸a˜o exponencial
A distribuic¸a˜o exponencial e´ um caso especial da distribuic¸a˜o gama, em que α = 1. Essa dis-
tribuic¸a˜o pode ser utilizada para modelar o tempo entre chegadas em instalac¸o˜es de servic¸os e
o tempo ate´ a falha de pec¸as de componentes e sistemas ele´tricos. Uma propiedade interessante
da distribuic¸a˜o exponencial e´ a “falta de memo´ria”. A figura a seguir ilustra os gra´ficos da fdp
exponencial para diferentes valores do paraˆmetro λ.
> curve(dexp(x,rate=2), main="Distribuic¸~ao Exponencial", xlab = "X", ylab= "f(x)",
+ ylim=c(0,2), xlim=c(0,8), lwd=2, cex.main=0.8)
> curve(dexp(x,rate=1),add = TRUE,col="red", lwd=2)
> curve(dexp(x,rate=0.5),add = TRUE,col="blue",lwd=2)
> legend(5.7,1.5, c("Exp(2)", "Exp(1)", "Exp(0.5)"),lty=c(1,1,1),lwd=c(2,2,2),
+ col=c("black", "red", "blue"), cex=.75)
0 2 4 6 8
0.
0
0.
5
1.
0
1.
5
2.
0
Distribuição Exponencial
X
f(x
)
Exp(2)
Exp(1)
Exp(0.5)
Enquanto a distribuic¸a˜o exponencial modela o tempo ate´ a ocorreˆncia de um evento Poisson,
o tempo transcorrido ate´ que um nu´mero espec´ıfico de eventos Poisson acontec¸a e´ uma varia´vel
aleato´ria com distribuic¸a˜o gama. Esse nu´mero espec´ıfico de eventos e´ o paraˆmetro α.
44
A distribuic¸a˜o Weibull
Essa distribuic¸a˜o e´ usada na teoria da confiabilidade e na ana´lise de sobreviveˆncia. A distribuic¸a˜o
Weibull e´ u´til para determinarmos a taxa de falha (ou taxa de risco) ao percebermos o desgaste ou
deteriorac¸a˜o de determinado componente. Essa taxa quantifica o ı´ndice de mudanc¸a, ao longo do
tempo, da probabilidade condicional de que o componente dure um tempo adicional, dado que ele
ja´ durou ate´ o tempo t. Por essa raza˜o, a Weibull e´ mais indicada que a exponencial para modelar
tempos de vida em processos que se deterioram ao longo do tempo.
Na figura a seguir temos a fdp da distribuic¸a˜o Weibull para algumas combinac¸o˜es dos paraˆme-
tros (α, β). Note que a Weibull com β = 1 reduz-se a uma distribuic¸a˜o exponencial.
> curve(dweibull(x,shape=1, scale = 1),
+ main="Distribuic¸~ao Weibull", xlab = "X",
+ ylab= "f(x)", ylim=c(0,1.5), xlim=c(0,2), lwd=2, cex.main=0.8)> curve(dweibull(x,shape=2, scale = 1),add = TRUE,col="blue",lwd=2)
> curve(dweibull(x,shape=3, scale = 1),add = TRUE,col="red", lwd=2)
> legend(1.5,1.2, c("Weibull(1,1)", "Weibull(2,1)", "Weibull(3,1)"),lty=c(1,1,1),
+ lwd=c(2,2,2), col=c("black", "blue", "red"), cex=.75)
0.0 0.5 1.0 1.5 2.0
0.
0
0.
5
1.
0
1.
5
Distribuição Weibull
X
f(x
)
Weibull(1,1)
Weibull(2,1)
Weibull(3,1)
45
Distribuic¸o˜es de probabilidade cont´ınuas utilizando o R
Distribuic¸a˜o normal
A distribuic¸a˜o normal e´ a mais importante das distribuic¸o˜es cont´ınuas e seus paraˆmetros sa˜o: µ e
σ2. As func¸o˜es ba´sicas do R associadas a` distribuic¸a˜o normal no R sa˜o caracterizadas pelo termo
“norm”. As func¸o˜es ba´sicas sa˜o as mesmas das distribuic¸o˜es discretas:
ˆ dnorm(x, µ, σ)
Calcula a densidade no ponto x, isto e´, faz f(x). Tal resultado na˜o pode ser associado com
a probabilidade da varia´vel aleato´ria assumir exatamente o valor x, pois como comentamos,
em uma varia´vel cont´ınua a probabilidade de ela assumir um u´nico valor e igual a zero.
ˆ pnorm(q, µ, σ)
Assim como no caso discreto calcula a probabilidade acumulada ate´ o quantil q, isto e´:
P [X ≤ q].
Lembre-se que a tabela apresentada nessa disciplina conte´m os valores de pro-
babilidade p (ou α) da normal padra˜o (µ = 0, σ = 1) considerando a afirmac¸a˜o
probabil´ıstica P (Z > q) = p. Enta˜o, para encontrar os valores apresentados na
tabela, ou seja, as probabilidades acima de um quantil, deve-se utilizar a opc¸a˜o
lower.tail = FALSE da func¸a˜o pnorm.
ˆ qnorm(p, µ, σ)
Calcula o quantil que tem probabilidade p acumulada ate´ ele, isto e´: P [X ≤ q] = p.
ˆ rnorm(N, µ, σ)
Gera uma amostra aleato´ria de tamanho N de uma distribuic¸a˜o normal com me´dia µ e
variaˆncia σ2.
Ex. 2 - Aula 5: Certa indu´stria produz latas de conservas de modo que o peso e´ uma varia´vel
aleato´ria normalmente distribu´ıda com me´dia de 990g e variaˆncia de 100g2. Se uma lata for
selecionada aleatoriamente, qual a probabilidade de que:
a) pese mais de 1Kg?
X: peso das latas de conserva
µ = 990 σ2 = 100g2
X ∼ N(990, 100)
Queremos saber a seguinte probabilidade: P [X > 1000]. Enta˜o:
> 1 - pnorm(1000,990,10)
[1] 0.1586553
> # ou equivalentemente
> pnorm(1000,990,10, lower.tail = FALSE)
46
[1] 0.1586553
b) pese menos que 950g?
Queremos a probabilidade: P [X < 950]=
> pnorm(950,990,10)
[1] 3.167124e-05
c) Uma lata e´ aceita pelo controle de qualidade desta indu´stria se seu peso diferir da me´dia
em no ma´ximo ±2 desvios-padra˜o. Qual a probabilidade de uma lata escolhida aleatoriamente ser
aceita pelo controle de qualidade?
Temos que o desvio padra˜o e´ igual a 10, logo, queremos saber: P [970 ≤ X ≤ 1010] =
> pnorm(1010,990,10) - pnorm(970,990,10)
[1] 0.9544997
OBS: Note que, por estar utilizando o R, na˜o e´ necessa´rio fazer a transformac¸a˜o para
a distribuic¸a˜o normal padra˜o (Z).
Exerc´ıcio 1: Um fabricante sabe, por experieˆncia passada, que a durac¸a˜o de suas baterias e´ uma
varia´vel aleato´ria que tem distribuic¸a˜o normal com me´dia de 600 dias e desvio padra˜o de 110 dias.
a) Qual e´ a probabilidade de uma bateria, escolhida ao acaso, durar: i. mais de 750 dias? ii.
entre 400 e 800 dias? R = 0,0869; 0,9312
b) Querendo separar as baterias que tem a menor durabilidade o fabricante vai reciclar as 10%
que duram menos. Qual e´ o valor de X que deixa 10% das baterias abaixo dele? R ∼= 459
Distribuic¸a˜o exponencial
Tal distribuic¸a˜o e´ utilizada para modelar varia´veis aleato´rias que assumem apenas valores positivos,
tais como: o tempo entre chegadas em instalac¸o˜es, tempo ate´ a falha de pec¸as de componentes
e sistemas ele´tricos, etc. As func¸o˜es ba´sicas para essa distribuic¸a˜o sa˜o caracterizadas pelo termo
“exp”. Sa˜o elas:
ˆ dexp(x, λ)
ˆ pexp(q, λ)
ˆ qexp(p, λ)
ˆ rexp(N, λ)
47
Ex. 7 - lista 6: O tempo de resposta de computadores e´ uma importante aplicac¸a˜o das distri-
buic¸o˜es gama e exponencial. Suponha que um estudo sobre certo sistema de computador revele
que o tempo de resposta, em segundos, tem uma distribuic¸a˜o exponencial com me´dia de 3 segundos.
a) Qual a probabilidade de que o tempo de resposta exceda 5 segundos?
X: tempo de resposta de computadores
λ = 1/3
X ∼ Exp(1/3)
Desejamos saber: P [X > 5] =
> 1-pexp(5,1/3)
[1] 0.1888756
> # ou alternativamente
>
> pexp(5,1/3, lower.tail = FALSE)
[1] 0.1888756
b) Qual a probabilidade de que o tempo de resposta exceda 10 segundos?
Queremos: P [X > 10]
> 1-pexp(10,1/3)
[1] 0.03567399
> # ou alternativamente
>
> pexp(10,1/3, lower.tail = FALSE)
[1] 0.03567399
c) Qual a probabilidade de que o tempo de resposta esteja entre 5 e 10 segundos?
Queremos: P [5 < X < 10] =
> pexp(10,1/3) - pexp(5,1/3)
[1] 0.1532016
Exerc´ıcio 2: Diversas experieˆncias com determinado tipo de ventilador, usados em motores a
diesel indicam que a distribuic¸a˜o exponencial sugere um bom modelo para ca´lculo do tempo ate´
uma falha. Suponha que o tempo me´dio seja 25.000 horas. Qual e´ a probabilidade de:
a) um ventilador selecionado aleatoriamente durar pelo menos 20.000 horas? No ma´ximo 30.000
horas? Entre 20.000 e 30.000 horas? R=0,449; 0,699; 0,148.
b) Qual a mediana do tempo de vida destes ventiladores? R = ∼= 17329 horas
Desta forma podemos calcular probabilidades para todas as distribuic¸o˜es discretas e
cont´ınuas que existem no R. Como voceˆ observou nos casos acima, existem 4 func¸o˜es
ba´sicas para as distribuic¸o˜es estudadas e o que muda de uma para a outra sa˜o os
paraˆmetros e nome da func¸a˜o ba´sica. No caso da distribuic¸a˜o Weibull o nome e´
“weibull”, no caso da distribuic¸a˜o Gama o nome e´ “gamma”.
48
9 Distribuic¸o˜es amostrais
A distribuic¸a˜o da me´dia amostral (x¯)
EXERCICIO 1: Neste exerc´ıcio vamos obter 1000 amostras de tamanho 20 de uma distribuic¸a˜o
normal com me´dia 100 e variaˆncia 30. Vamos organizar as amostras em uma matriz onde cada
coluna corresponde a uma amostra. A seguir vamos calcular a me´dia de cada amostra. Espera-se
que a me´dia das me´dias amostrais seja 100 e a variaˆncia seja 1,5 (= 30/20), e que a distribuic¸a˜o das
me´dias amostrais seja normal. Para completar vamos obter o gra´fico com o histograma das me´dias
das amostras. (Fonte: http://www.leg.ufpr.br/ paulojus/CE209/ce209praticas/node5.html)
> y <- matrix(rnorm(20000, mean=100, sd=sqrt(30)), ncol=1000)
> ybar <- apply(y, 2, mean)
> length(ybar)
> mean(ybar) # me´dia
> var(ybar) # varia^ncia
> hist(ybar, prob = T)
> curve(dnorm(x, mean=100, sd=sqrt(30/20)), 95, 105, add=T)
EXERCICIO 2: Nesse exerc´ıcio vamos obter 1000 amostras de tamanhos n = 2 (a) e n = 30 (b)
de uma populac¸a˜o com distribuic¸a˜o exponencial (λ = 1). Como no exerc´ıcio anterior, vamos orga-
nizar as amostras em matrizes, com cada coluna correspondendo a uma amostra. A seguir vamos
calcular a me´dia de cada amostra. Finalmente, vamos obter o histograma das me´dias das amostras.
a) amostras de tamanho 2, n = 2:
> y <- matrix(rexp(2000, rate=1), ncol=1000)
> ybar <- apply(y, 2, mean)
> length(ybar)
> mean(ybar) # media
> var(ybar) # varia^ncia
> hist(ybar, prob = T)
b) amostras de tamanho 30, n = 30:
> y <- matrix(rexp(30000, rate=1), ncol=1000)
> ybar <- apply(y, 2, mean)
> length(ybar)
> mean(ybar) # media
> var(ybar) # varia^ncia
> hist(ybar, prob = T)
> curve(dnorm(x, mean=1, sd=sqrt(1/30)), 0.5, 1.5, add=T)
49
EXERCICIO 3: E´ sabido que a dureza Rockwell de certo tipo de pinos tem valor me´dio de 50 e
desvio padra˜o de 1,2.
a) Se a distribuic¸a˜o for normal, qual e´ a probabilidade de a dureza me´dia de uma amostra aleato´ria
de 9 pinos ser no mı´nimo 51?
b) Qual e´ a probabilidade (aproximada) de a dureza me´dia de uma amostra aleato´ria de 40 pinos
ser de no mı´nimo 51?EXERCICIO 4: Se uma ma´quina produz resistores ele´tricos com resisteˆncia me´dia de 40 ohms
e desvio-padra˜o de 2 ohms, qual e´ a probabilidade de que uma amostra aleato´ria de 36 desses
resistores tenha uma resisteˆncia combinada (total) de mais de 1458 ohms?
EXERCICIO 5: Um empresa´rio afirma que apenas 25% de seus produtos precisam passar no-
vamente por algumas etapas da linha de produc¸a˜o, a fim de reparar pequenos defeitos. Calcule a
probabilidade de em uma caixa com 90 destes produtos tenha mais de 30% com defeitos.
50
Amostragem da distribuic¸a˜o normal: outras distribuic¸o˜es amostrais
A distribuic¸a˜o t de Student
As aplicac¸o˜es do Teorema Central do Limite giram em torno de infereˆncias sobre a me´dia popula-
cional. Entretanto, para aplica´-lo assumimos que o desvio padra˜o da populac¸a˜o e´ conhecido. Essa
suposic¸a˜o e´ razoa´vel quando o pesquisador esta´ familiarizado com o sistema ou processo. Mas, em
muitos cena´rios, σ na˜o e´ conhecido e uma estimativa para o mesmo deve ser fornecida pela mesma
informac¸a˜o da amostra que produziu a me´dia amostral x¯. Como resultado, tem-se a estat´ıstica
t =
x¯− µ
s/
√
n
,
em que s e´ o ana´logo amostral de σ.
Dizemos que t possui distribuic¸a˜o t de Student com ν = n − 1 graus de liberdade. Essa
distribuic¸a˜o tem muita aplicac¸a˜o em estat´ıstica e recebeu esse nome em homenagem ao pesquisador
W. S. Gossett que realizou uma importante publicac¸a˜o a seu respeito em 1908 usando o pseudoˆnimo
de Student.
A figura a seguir ilustra diferentes densidades da t de Student, considerando diferentes valores
de ν juntamente com a distribuic¸a˜o normal padra˜o. A distribuic¸a˜o t aproxima-se da normal padra˜o
a` medida que ν aumenta. A distribuic¸a˜o t tem caudas mais leves que a distribuic¸a˜o normal, e esse
fato fica mais evidenciado a` medida que os graus de liberdade diminuem.
> curve(dnorm(x,0,1), xlab = "x", ylab= "f(x)",
+ ylim=c(0,0.5), xlim=c(-4,4), lwd=2)
> curve(dt(x,df=1),add = TRUE,col="blue",lwd=2)
> curve(dt(x,df=5),add = TRUE,col="red", lwd=2)
> curve(dt(x,df=20),add = TRUE,col="green", lwd=2)
> legend(2,0.4, c("Normal(0,1)", "t(df=1)", "t(df=5)","t(df=20)"),
+ lty=c(1,1,1,1),lwd=c(2,2,2,2),
+ col=c("black", "blue", "red","green"), cex=.75)
51
−4 −2 0 2 4
0.
0
0.
1
0.
2
0.
3
0.
4
0.
5
x
f(x
)
Normal(0,1)
t(df=1)
t(df=5)
t(df=20)
A distribuic¸a˜o t e´ similar a` distribuic¸a˜o de Z, ja´ que ambas sa˜o sime´tricas em torno da me´dia
0. Costuma-se denotar por tα o valor t acima do qual encontramos uma a´era igual a α. Ja´ que a
distribuic¸a˜o e´ sime´trica em torno da me´dia 0, temos t1−α = −tα; ou seja, o valor t que deixa uma
a´rea de 1−α a` sua direita e, portanto, uma a´rea de α a` sua esquerda, e´ igual ao negativo do valor
t que deixa uma a´rea de α na cauda direita da distribuic¸a˜o. Ou seja, t0,95 = −t0,05
A distribuic¸a˜o t e´ muito usada em problemas que lidam com infereˆncia sobre a me´dia po-
pulacional ou em problemas que envolvem amostras comparativas (ou seja, em casos em que se
tenta determinar se as me´dias de duas amostras sa˜o significativamente diferentes). O uso dessa
distribuic¸a˜o para a estat´ıstica t requer que a amostra seja originada de uma populac¸a˜o normal.
Exemplo: Um engenheiro qu´ımico afirma que a me´dia populacional do rendimento de certo lote de
processo e´ 500 gramas por mililitro de mate´ria-prima. Para checar essa afirmac¸a˜o, ele amostra 25
lotes a cada meˆs. Qual a probabilidade de, em certa amostra, a me´dia de rendimento ser superior a
510 gramas por mililitro? Assuma que a distribuic¸a˜o dos rendimentos e´ aproximadamente normal e
que o desvio-padra˜o calculado nessa amostra foi S = 40 gramas. Considere P [t > 1, 25] = 0, 1116,
com 24 graus de liberdade.
A varia´vel aleato´ria em estudo e´: X¯: rendimento me´dio do lote. Na˜o conhecemos o desvio
padra˜o populacional (σ), logo devemos usar o desvio padra˜o amostral (S). Se µ = 500, enta˜o:
52
t =
X¯ − µ
s/
√
n
=
510− 500
40
√
25
= 1, 25
Assim, a probabilidade desejada e´:
P [x¯ > 510] = P [t > 1, 25] = 0, 1116 = 11, 16%
Perceba que ate´ aqui tratamos da distribuic¸a˜o de dois dos principais estimadores, media (X¯)
e proporc¸a˜o (pˆ), mas na˜o comentamos sobre o estimador da variaˆncia (S2). As distribuic¸o˜es
amostrais a seguir sa˜o utilizadas para fazermos infereˆncia sobre este estimador, no entanto na˜o
estamos interessados em calcular probabilidades relacionadas ao S2, tais distribuic¸o˜es sera˜o mais
utilizadas em infereˆncia estat´ıstica.
A distribuic¸a˜o χ2
Se s2 e´ a variaˆncia de uma amostra aleato´ria de tamanho n, retirada de uma populac¸a˜o normal,
com variaˆncia σ2, enta˜o a estat´ıstica
χ2 =
(n− 1)s2
σ2
tem distribuic¸a˜o qui-quadrado com ν = n− 1 graus de liberdade. Os valores da varia´vel aleato´ria
χ2 sa˜o calculados de cada amostra. A probabilidade de que uma amostra produza um valor χ2
maior que algum valor especificado e´ igual a` a´rea abaixo da curva a` direita desse valor. Costuma-se
denotar por χ2α o valor χ
2 acima do qual encontramos uma a´rea α.
Para 7 graus de liberdade (ν = 7), por exemplo, o valor de χ2 que deixa uma a´rea de 0,05 a`
direita, e´ χ20,05 = 14, 067. Devido a` falta de simetria, χ
2
0,95 = 2, 167.
Exatamente 95% de uma distribuic¸a˜o qui-quadrado esta´ entre χ20,975 e χ
2
0,025. Um valor de χ
2
que fica a` direita de χ20,025 na˜o e´ prova´vel de ocorrer a menos que o valor assumido de σ
2 seja muito
pequeno. De modo similar, um valor de χ2 que esteja a` esquerda de χ20,975 e´ improva´vel a menos
que o valor assumido de σ2 seja muito grande.
A distribuic¸a˜o qui-quadrado possui va´rias aplicac¸o˜es em estat´ıstica. Uma delas e´ a de propiciar
mecanismos para a realizac¸a˜o de infereˆncias sobre o paraˆmetro σ2 de uma populac¸a˜o normal. Outra
aplicac¸a˜o refere-se aos testes de falta de ajuste de um modelo teo´rico aos dados observados em um
experimento ou levantamento amostral.
> curve(dchisq(x,df=10), xlab = "x", ylab= "f(x)", ylim=c(0,0.1), xlim=c(0,50), lwd=2)
> curve(dchisq(x,df=15),add = TRUE,col="blue",lwd=2)
> curve(dchisq(x,df=20),add = TRUE,col="red",lwd=2)
> legend(30,0.09, c("Qui-quadrado(v=10)", "Qui-quadrado(v=15)", "Qui-quadrado(v=20)"),
+ lty=c(1,1),lwd=c(2,2), col=c("black", "blue","red"), cex=.75)
53
0 10 20 30 40 50
0.
00
0.
02
0.
04
0.
06
0.
08
0.
10
x
f(x
)
Qui−quadrado(v=10)
Qui−quadrado(v=15)
Qui−quadrado(v=20)
A distribuic¸a˜o F
A distribuic¸a˜o F esta´ entre aquelas distribuic¸o˜es de probabilidade mais importantes na estat´ıstica,
tendo, ainda, um maior destaque na estat´ıstica experimental. Sejam duas populac¸o˜es normais de
tamanhos n1 e n2. A estat´ıstica
F =
s21/σ
2
1
s22/σ
2
2
possui distribuic¸a˜o F se σ21 = σ
2
2, com ν1 = n1 − 1 e ν2 = n2 − 1 graus de liberdade.
A curva da distribuic¸a˜o F depende de dois paraˆmetros, ν1 e ν2. Uma vez dados esses dois
valores, podemos identificar a curva. A figura a seguir representa curvas da distribuic¸a˜o F para
diferentes combinac¸o˜es de paraˆmetros.
> curve(df(x,df1=10,df2=30), xlab = "x", ylab= "f(x)",
+ ylim=c(0,1), xlim=c(0,5), lwd=2)
> curve(df(x,df1=6, df2=30),add = TRUE,col="green",lwd=2)
> curve(df(x,df1=6, df2=10),add = TRUE,col="red",lwd=2)
> legend(3,0.6, c("F(10,30)", "F(6,30)", "F(6,10)"),lty=c(1,1,1),lwd=c(2,2,2),
+ col=c("black", "green","red"), cex=.75)
54
0 1 2 3 4 5
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
x
f(x
) F(10,30)F(6,30)
F(6,10)
Inu´meras sa˜o as aplicac¸o˜es da distribuic¸a˜o F na estat´ıstica. A mais importante delas e´ a do
seu emprego nas ana´lises de experimentos. Nesse caso, o investigador cient´ıfico tem por objetivo
comparar os efeitos de dois ou mais tratamentos sob determinadas condic¸o˜es. A hipo´tese de
igualdadede efeitos de tratamentos e´ testada usando a distribuic¸a˜o de probabilidade F .
De forma geral, a distribuic¸a˜o F e´ usada nas situac¸o˜es de duas amostras, para fazermos infereˆn-
cias sobre as variaˆncias populacionais. Por essa raza˜o, a distribuic¸a˜o F e´ chamada de distribuic¸a˜o
da raza˜o de variaˆncias.
GABARITO
Exerc´ıcio 3: a) 0,0062; b) 0; Exerc´ıcio 4: 0,0668; Exerc´ıcio 5: 0,1379
55
10 Distribuic¸o˜es amostrais no R e Q-Q plots
Distribuic¸a˜o t de Student
A distribuic¸a˜o t e´ muito usada em problemas que lidam com infereˆncia sobre a me´dia populaci-
onal ou em problemas que envolvem amostras comparativas (ou seja, em casos em que se tenta
determinar se as me´dias de duas amostras sa˜o significativamente diferentes). Essa distribuic¸a˜o e´
indexada por um paraˆmetro chamado graus de liberdade: ν = n − 1, em que n e´ o tamanho da
amostra.
As func¸o˜es a seguir sa˜o usadas para calcular quantidades associadas a` distribuic¸a˜o t de Student:
ˆ dt(x, df)
ˆ pt(q, df)
ˆ blueqt(p, df)
ˆ rt(N, df)
Nas func¸o˜es acima, o argumento df refere-se ao nu´mero de graus de liberdade, do ingleˆs degrees
of freedom.
Exerc´ıcio 1: Utilizando o R, obtenha os quantis a seguir e esboce as afirmativas probabil´ısticas.
Note que tα e´ o quantil que deixa acima dele uma a´rea ou probabilidade α.
a) tc tal que P (t > tc) = 0, 05 ou t0,05, para ν = 10;
> qt(0.05,df=10, lower.tail = FALSE)
[1] 1.812461
b) t0,95 para n = 20;
c) t0,025 para n = 10;
d) tα/2 tal que P (−tα/2 < t < tα/2) = 0, 95 para ν = 10.
56
Exerc´ıcio 2: Um engenheiro qu´ımico afirma que a me´dia populacional do rendimento de certo lote
de processo e´ 500 g/l de mate´ria-prima. Para checar essa afirmac¸a˜o, ele amostra 25 lotes a cada
meˆs. Assuma que a distribuic¸a˜o dos rendimentos e´ aproximadamente normal e que o desvio-padra˜o
calculado nessa amostra foi S = 40 gramas.
a) Qual a probabilidade de, em certa amostra, a me´dia de rendimento ser superior a 510 g/l?
b) Qual a probabilidade de, em certa amostra, a me´dia de rendimento estar entre 490 e 495 g/l?
> # a)
> pt(1.25,df=24, lower.tail = FALSE)
[1] 0.1116757
> # b)
> pt(-0.625, df=24) - pt(-1.25,df=24)
[1] 0.1572586
57
Distribuic¸a˜o χ2
A distribuic¸a˜o qui-quadrado e´ usada na realizac¸a˜o de infereˆncias sobre o paraˆmetro σ2 de uma
populac¸a˜o normal. Essa distribuic¸a˜o tambe´m e´ indexada pelo paraˆmetro: ν = n− 1.
As func¸o˜es a seguir sa˜o usadas para calcular quantidades associadas a` distribuic¸a˜o χ2:
ˆ dchisq(x, df)
ˆ pchisq(q, df)
ˆ blueqchisq(p, df)
ˆ rchisq(N, df)
Exerc´ıcio 3: Utilizando o R, obtenha os quantis a seguir e esboce as afirmativas probabil´ısticas.
Note que χ2α e´ o quantil que deixa acima dele uma a´rea ou probabilidade α.
a) χ20,025 para n = 11;
> qchisq(0.025,df=10, lower.tail = FALSE)
[1] 20.48318
b) χ20,01 para ν = 6;
c) χ20,05 para ν = 10;
d) χ2α para ν = 8, tal que P (χ
2 < χ2α) = 0, 95.
58
Distribuic¸a˜o F
A distribuic¸a˜o F , tambe´m chamada de distribuic¸a˜o da raza˜o de variaˆncias, e´ usada nas situac¸o˜es
de duas amostras, para fazermos infereˆncias sobre as variaˆncias populacionais. Nessa distribuic¸a˜o
tem-se dois paraˆmetros: ν1 = n1 − 1 e ν2 = n2 − 1, em que n1 e n2 sa˜o os tamanhos amostrais das
populac¸o˜es 1 e 2, respectivamente.
As func¸o˜es a seguir sa˜o usadas para calcular quantidades associadas a` distribuic¸a˜o F :
ˆ df(x, df1, df2)
ˆ pf(q, df1, df2)
ˆ blueqf(p, df1, df2)
ˆ rf(N, df1, df2)
Exerc´ıcio 4: Utilizando o R, obtenha os quantis a seguir e esboce as afirmativas probabil´ısticas.
Note que Fα e´ o quantil que deixa acima dele uma a´rea ou probabilidade α.
a) F0,05 com ν1 = 5 e ν2 = 5;
> qf(0.05,df1=5,df2=5, lower.tail = FALSE)
[1] 5.050329
b) F0,10 com ν1 = 10 e ν2 = 6;
c) F0,01 com ν1 = 1 e ν2 = 10.
OBS: Os exerc´ıcios 1, 3 e 4 foram adaptados das aulas pra´ticas de Estat´ıstica de Ferreira, D. F.
59
Gra´ficos Q-Q plots
Como sabemos se uma distribuic¸a˜o de probabilidades e´ um modelo razoa´vel para os
dados?
Essa questa˜o e´ importante porque muitas das te´cnicas estat´ısticas esta˜o baseadas na suposic¸a˜o
de que a distribuic¸a˜o de probabilidades seja de um tipo espec´ıfico (normal, na maioria dos casos).
Em confiabilidade, por exemplo, a verificac¸a˜o se os dados de tempo de falha sa˜o proveninetes de
uma exponencial identifica o mecanismo de falha. Outra situac¸a˜o e´ a verificac¸a˜o da pressuposic¸a˜o
de normalidade na obtenc¸a˜o de intervalos de confianc¸a usando as distribuic¸o˜es t de Student (n
pequeno), χ2 e F .
Histogramas podem fornecer uma ideia sobre a distribuic¸a˜o probabil´ıstica, mas na˜o sa˜o, em
geral, bons indicadores, a na˜o ser que o tamanho da amostra seja bem grande. Um gra´fico de
probabilidade ou Q-Q plot, como e´ conhecido por alguns autores, e´ um me´todo para determinar se
os dados da amostra obedecem a uma distribuic¸a˜o hipote´tica, baseado no exame visual subjetivo
dos dados. O procedimento e´ simples, pode ser feito rapidamente e e´ mais confia´vel que histogramas
para pequenos a moderados tamanhos amostrais.
De maneira geral, o Q-Q plot e´ um gra´fico de quantis ordenados de um conjunto de dados
versus os quantis ordenados de outro conjunto de dados. Cada ponto (x,y) refere-se ao quantil
de uma distribuic¸a˜o do eixo vertical (y) contra o quantil correspondente de outra distribuic¸a˜o ao
longo do eixo horizontal (x). Se as duas distribuic¸o˜es sa˜o similares, os pontos situam-se na linha
de identidade, y=x.
Os quantis dos dois conjuntos de dados podem ser observados ou teo´ricos. Quando os quantis de
um banco de dados real sa˜o plotados com os quantis correspondentes de uma distribuic¸a˜o teo´rica,
o Q-Q plot resultante serve como uma ferramenta visual para verificar o quanto o conjunto de
dados pode ser ajustado pela distribuic¸a˜o teo´rica.
No R podemos usar a func¸a˜o qqnorm( ) para criar Q-Q plots e avaliar o ajuste de uma distri-
buic¸a˜o normal aos dados. De maneira mais geral, a func¸a˜o qqplot( ) cria Q-Q plots para qualquer
distribuic¸a˜o teo´rica.
Exerc´ıcio 5: Uma importante caracter´ıstica de qualidade da a´gua e´ a concentrac¸a˜o de material
so´lido suspenso. A seguir sa˜o apresentadas 60 medidas de so´lidos suspensos de certo lago. Construa
um histograma e um Q-Q plot (normal) e comente sobre a normalidade desses dados.
42,4 65,7 29,8 58,7 52,1 55,8 57,0 68,7 67,3 67,3 54,3 54,0 73,1 81,3
59,9 56,9 62,2 69,9 66,9 59,0 56,3 43,3 57,4 45,3 80,1 49,7 42,8 42,4
59,6 65,8 61,4 64,0 64,2 72,6 72,5 46,1 53,1 56,1 67,2 70,7 42,6 77,4
54,7 57,1 77,3 39,3 76,4 59,3 51,1 73,8 61,4 73,1 77,3 48,5 89,8 50,7
52,0 59,6 66,1 31,6
> par(mfrow=c(1,2))
> material <- c(42.4, 65.7, 29.8, 58.7, 52.1, 55.8, 57.0, 68.7, 67.3,
+ 67.3, 54.3, 54.0, 73.1, 81.3, 59.9, 56.9, 62.2, 69.9, 66.9, 59.0,
+ 56.3, 43.3, 57.4, 45.3, 80.1, 49.7, 42.8, 42.4, 59.6, 65.8, 61.4,
+ 64.0, 64.2, 72.6, 72.5, 46.1, 53.1, 56.1, 67.2, 70.7, 42.6, 77.4,
+ 54.7, 57.1, 77.3, 39.3, 76.4, 59.3, 51.1, 73.8, 61.4, 73.1, 77.3,
+ 48.5, 89.8, 50.7, 52.0, 59.6, 66.1, 31.6)
60
> hist(material)
> qqnorm(material)
> qqline(material,col=2)
Histogram of material
material
Fr
eq
ue
nc
y
20 40 60 80
0
5
10
15
20
−2 −1 0 1 2
30
40
50
60
70
80
90
Normal Q−Q Plot
Theoretical Quantiles
Sa
m
pl
e 
Qu
an
tile
s
Exerc´ıcio 6: Os dados a seguir referem-se a` varia´vel tempo (minutos) de esgotamento de um
fluido isolante entre eletrodos a 34 kV: 0,19; 0,78; 0,96; 1,31; 2,78; 3,16; 4,15; 4,67; 4,85; 6,5; 7,35;
8,01; 8,27; 12,06; 31,75; 32,52; 33,91; 36,71; 72,89.
a) Construa um histograma e um Q-Q plot (normal) e comente sobre a normalidade desses
dados.
> tempo <- c(0.19,0.78,0.96,1.31,2.78,3.16,4.15,4.67,4.85,6.5,7.35,8.01,8.27,
+ 12.06,31.75,32.52,33.91,36.71,72.89)

Continue navegando