Buscar

333528578 Lista de Exercicios Unificada Engd02 (1)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 69 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Karla: 98898-8011
Universidade Federal da Bahia
Escola Politécnica
Disciplinas ENGD02 e ENGD83
Docente: Karla Patricia S Oliveira R Esquerre
LISTA DE EXERCÍCIOS UNIFICADA
Última atualização: 11/05/2016
ESTATÍSTICA DESCRITIVA
QUESTÃO ED1 OK
Para fins de vistoria ambiental, a concentração de monóxido de carbono (CO, mg/m3) foi medida em 
quatro chaminés. Os dados obtidos são apresentados a seguir, 
Tabela 1 - Dados da concentração (mg/m³) de monóxido de carbono (CO) medida em quatro chaminés
Cham
1 40,5 41,5 42,5 43,5 44,5 45,5 46,5 47,5 48,5 49,5 50,5 51,5 52,5 53,5 54,5 55,5 59,5
Cham
2
41,6
4
58,3
6
42,2
9
57,7
1
42,9
3
57,0
7
43,5
7
56,4
3
44,2
1
55,7
9
44,8
6
55,1
4 45,5 54,5
46,1
4
53,8
6 46,79
Cham
3 35 37 42 53,9 53 50,6 50,5 53,8 52,5 53,6 50,4 52,2 52,7 52,4 52,7 51,4 53,8
Cham
4 44,5 45 45,5 46 46,5 47 47,5 48 48,5 49 49,5 50 50,5 51 51,5 52 52,5
Tabela 2 - Estatísticas descritivas
Variável Média Desvio Padrão Mínimo Q1 Mediana Q3 Máximo
Cham1 48,68 5,39 40,50 44,00 50,0 53,00 59,50
Cham2 49,81 6,33 41,64 50,0 56,11 58,36
Cham3 49,85 35,00 50,45 52,45 53,30 53,90
Cham4 48,50 2,52 44,50 46,25 51,38 72,71
1
Figure 1 - Gráficos de séries temporais
60
55
50
45
40
1512963
60
55
50
45
40
1512963
55
50
45
40
35
52
50
48
46
44
Cham1 Cham2
Cham3 Cham4
Da
do
s
Cham4Cham3Cham2Cham1
60
55
50
45
40
35
2
a) Complete o quadro das estatísticas descritivas destes dados. 
Para a Chaminé 1:
Média amostral:
X´=
X1+…+Xn
n
=1
n∑i=1
n
X i Desvio Padrão amostral:
s=√ 1n−1∑i=1
n
(X i−X´ )
2
Mínimo, máximo e primeiro e terceiro quartis:
Para determinar os valores de mínimo, quartil 1, mediana, quartil 3 e máximo é necessário organizar os 
dados obtidos em ordem crescente.
> sort(chamines$Cham1) #Ordenamento
 [1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5
Como determinar os Quartis:
Q1 = P25
Q2 = P50 = Mediana
Q3 = P75
Cálculo dos percentis:
A posição do percentil de ordem i no conjunto de dados ordenado será definida como:
Posi = i .
n
100 , em que Posi = posição do percentil de ordem i; e n = número de elementos da série.
1) Se Posi = valor inteiro, então o percentil é definido como a média dos valores que ocupam a 
posição Posi e Posi + 1.
2) Se Posi = valor não inteiro, então o percentil é definido como o valor que ocupa a posição u + 1, 
em que u = inteiro mais próximo que seja menor que Posi.
(Notas de Aula, MAT236 – Métodos Estatístico, IM-UFBA)
Q1 = P25
Pos25 = 25 .
17
100 = 4,25 logo Q1 é o valor que ocupa a posição 5 do Rol, portanto Q1 = 44.5
Q2 = P50 = Mediana
Pos50 = 50 .
17
100 = 8,5 logo Q2 é o valor que ocupa a posição 9 do Rol, portanto Q2 = 48.5
Q3 = P75
Pos75 = 75 .
17
100 = 12,75 logo Q3 é o valor que ocupa a posição 13 do Rol, portanto Q3 = 52.5
Alternativamente:
Os quartis dividem a distribuição dos dados em quatro partes iguais. Para determinar o primeiro 
quartil, encontra-se, primeiramente, a mediana, que corresponde ao segundo quartil e que divide os dados
à metade. Em seguida obtêm-se a mediana da primeira e da segunda parte dos dados que foram divididos 
3
pela mediana da distribuição. Essas últimas medianas deverão corresponder ao primeiro quartil e terceiro 
quartil respectivamente. Observar que, para determinar o primeiro e terceiro quartis, a mediana (segundo 
quartil), deve ser considerado na divisão.
No exemplo:
[1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5
Mediana = 48,5
Primeira parte dos dados:
40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5
Primeiro quartil = 44,5
Segunda parte dos dados:
48.5 49.5 50.5 51.5 52.5 53.5 54.5 55.5 59.5
Terceiro quartil = 52,5
No RStudio é possível encontrar os valores de mínimo, quartil 1, mediana, quartil 3 e máximo através da 
função quantile( ).
> quantile(chamines$Cham1) #Quartis
 0% 25% 50% 75% 100% 
40.5 44.5 48.5 52.5 59.5 
Tabela 3 - Estatísticas descritivas através da função summary()
Cham1 Cham2 Cham3 Cham4
Min. :40.50 Min. :41.64 Min. :35.00 Min. :44.5
1st Qu.:44.50 1st Qu.:44.21 1st Qu.:50.50 1st Qu.:46.5
Median :48.50 Median :46.79 Median :52.40 Median :48.5
Mean :48.68 Mean :49.81 Mean :49.85 Mean :48.5
3rd Qu.:52.50 3rd Qu.:55.79 3rd Qu.:53.00 3rd Qu.:50.5
Max. :59.50 Max. :58.36 Max. :53.90 Max. :52.5
Tabela 4 - Estatísticas descritivas obtidas de método alternativo em R
Média Desvio.Padrão Mínimo Quartil.1 Mediana Quartil.3 Máximo
Cham1 48.68 5.39 40.50 44.50 48.50 52.50 59.50
Cham2 49.81 6.33 41.64 44.21 46.79 55.79 58.36
Cham3 49.85 5.90 35.00 50.50 52.40 53.00 53.90
Cham4 48.50 2.52 44.50 46.50 48.50 50.50 52.50
Algumas estatísticas da Tabela 2 contêm inconsistências, se levados em consideração os dados da Tabela 
1. As inconsistências são destacadas em amarelo. A Tabela 5 mostra o quadro preenchido com valores 
devidamente corrigidos.
Tabela 5 - Estatísticas descritivas corrigidas e completadas
Variável Média Desvio Padrão Mínimo Q1 Mediana Q3 Máximo
Cham1 48,68 5,39 40,50 44,50 48,50 52,50 59,50
Cham2 49,81 6,33 41,64 44,21 46,79 55,79 58,36
Cham3 49,85 5,90 35,00 50,50 52,40 53,00 53,90
Cham4 48,50 2,52 44,50 46,50 48,50 50,50 52,50
b) Compare as distribuições quanto à simetria com base nos gráficos acima. 
4
Avaliando somente os gráficos de séries temporais não é possível inferir sobre a simetria das 
distribuições. Avaliando os boxplots, observa-se que, para Cham1 e Cham2 os dados são bastante 
assimétricos, onde boa parte dos dados parecem concentrar-se de um lado e há uma dispersão maior do 
outro. Para Cham3 verifica-se a presença de valores aberrantes, ou seja, valores considerados muito 
distantes da massa de dados. Em Cham4 parece haver uma simetria nos dados, já que a mediana parece 
dividir igualmente a massa de dados, no entanto, verificando o gráfico de séries temporais verifica-se que
os dados não apresentam normalidade, apresentam na verdade comportamento linear. Analisando o 
Histograma de Cham4 comprova-se a uniformidade dos dados, logo verifica-se que não se pode inferir 
sobre simetria em nenhuma das distribuições.
c) Que chaminé apresenta maior variação relativa? Analise criticamente sua resposta. 
Para comparar a variabilidade de duas ou mais distribuições, mesmo quando referem-se a fenômenos 
diferentes e sejam expressas em unidade de medida distintas, pode-se utilizar o Coeficiente de Variação 
de Pearson, uma medida de dispersão relativa dada por:
CV= s
X´
onde s é o desvio padrão amostral e X´ a média amostral.
Para a chaminé 2 o coeficiente de variação não representa a dispersão dos dados devido ao fato da
distribuição ser bimodal, verificado no gráfico histograma. Os dados da chaminé 3 são concentrados 
porém apresentam outliers, que influenciam no cálculo do coeficiente de variação. A retirada dos outliers 
5
Variável Média Desvio Padrão CV (%)
Cham1 48,68 5,39 11,07
Cham2 49,81 6,33 12,71
Cham3 49,85 5,90 11,84
Cham4 48,50 2,52 5,21
acarretariam a redução do desvio padrão dos dados e, por consequência a redução do coeficiente de 
variação. Considerando a presença dos outliers os dados da chaminé 3 apresentam o maior coeficente de 
variação ou maior dispresão relativa. Por último, as chaminés 1 e 4 apresentam comportamento próximo 
do linear, analisando os diagramas de séries temporais. Para a chaminé 1 há, no entanto, um desvio maior 
devido ao último ponto observado que se distancia um pouco da reta, o que acarreta em maior dispersão. 
Para a chaminé 4 os dados seguem um comportamento perfeitamentelinear e por isso o desvio padrão é 
menor, acarretando em menor variação relativa dos dados.
d) As estatísticas calculas podem ser utilizadas para descrever o comportamento dos dados? 
As estatísticas calculadas não são suficientes para descrever o comportamento dos dados já que, através 
dessas, não é possível determinar, por exemplo, o comportamento dos dados.
A análise gráfica que permite uma compreensão melhor acerca dos dados.
Os gráfico Q-Q Plot permitem avaliar se as distribuições são próximas da normalidade.
> par(mar=c(4,4,2,1))
> par(mfrow = c(2, 2))
> sapply(X = c("Cham1","Cham2","Cham3","Cham4"),
+ FUN=function(s) {
+ qqnorm(chamines[,s],
+ ylab= c("gás CO - (mg/m3)"),
+ main = paste("Normal Q-Q Plot, ",s),
+ col = "black",
+ pch=16 )
+ qqline(chamines[,s],
+ col='red' )
+ }
+ )
6
QUESTÃO ED2 OK
Os seguintes dados representam o número de acidentes diários em um complexo industrial (colocados em
ordem crescente), durante o período de 50 dias. (Dados fictícios) 
18 20 20 21 22 24 25 25 26 27
29 29 30 30 31 31 32 33 34 35
36 36 37 37 37 37 38 38 38 40
41 43 44 44 45 45 45 46 47 48
49 50 51 53 54 54 56 58 62 65
a) Construir o histograma de frequência relativa para representar esses dados. 
7
Histogram of acidentes
acidentes
Fr
eq
ue
nc
y
20 30 40 50 60
0
2
4
6
8
10
Gráfico 1. Gerado pela função hist(x= acidentes)
> #Número de amostras:
> n = length(acidentes)
> n
[1] 50
> #Valores extremos:
> min = min(acidentes)
> min
[1] 18
> max = max(acidentes)
> max
[1] 65
> #Amplitude Total:
> AT = max - min
> AT
[1] 47
> #Número de classes:
> k = 1 + 3.3 * log10(n) #Regra de Sturges ou Regra do Logarítmo
> k
[1] 6.606601
> #alternativamente: k = sqrt(n)
> #Lembrar que, mesmo que hajam alguns métodos para determiná-lo, a escolha do número de 
classes dependerá mais do bom senso de quem organiza os dados.
> #O número de classes deve ser um inteiro positivo, logo:
> k = round(k, 0)
> k
[1] 7
> #Amplitude do intervalo de classes:
> h = AT / k
> h
[1] 6.714286
8
> #Alternativa: Sabendo que n=50, faz-se k=10 classes com amplitude h=5, incluindo os dados à 
direita e excluindo à esquerda.
> #intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = FALSE) #right = FALSE para 
Exclusão à direita e Inclusão à esquerda;
> intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = TRUE) #right = TRUE para 
Exclusão à esquerda e Inclusão à direita;
> #Tabela de distribuição de frequências:
> cbind(freqAbs=table(intervalo), freqRel=100*prop.table(table(intervalo)))
 freqAbs freqRel
(15,20] 3 6
(20,25] 5 10
(25,30] 6 12
(30,35] 6 12
(35,40] 10 20
(40,45] 7 14
(45,50] 5 10
(50,55] 4 8
(55,60] 2 4
(60,65] 2 4
right logical; if TRUE, the histogram cells are right-closed (left open) intervals.
Histograma: Número de acidentes diários
N. de acidentes
Fr
eq
uê
nc
ia
 (e
m
 d
ia
s)
10 20 30 40 50 60 70
0
2
4
6
8
10
Gráfico 2. hist() com parâmetro right = TRUE
9
Histograma: Número de acidentes diários
N. de acidentes
Fr
eq
uê
nc
ia
 (e
m
 d
ia
s)
10 20 30 40 50 60 70
0
2
4
6
8
10
Gráfico 3. hist() com parâmetro right = FALSE
b) O estatístico decide separar destes dados os dias com número de acidentes inferior a dois desvios 
padrões abaixo da média e também separar os dias com número de acidentes superior a um e meio
desvio padrão acima da média. Qual a porcentagem de dias que serão separados em cada caso? 
> media = round(mean(acidentes), 2) #Média aritmética
> media
[1] 38.32
> cat("Média de", round(media, digits = 0), "acidentes por dia")
Média de 38 acidentes por dia
> desvioPadrao = round(sd(acidentes), 2) #Desvio Padrão "Standard Deviation"
> desvioPadrao
[1] 11.58
Analisando os dados, dentre os 50 dias, nenhum dia tem número de acidente inferior a 15, portanto, 0% 
dos dias, enquanto que 3 dos 50 dias têm número de acidentes superior a 56, dando um total de 6% dos 
dias.
É necessário verificar a normalidade dos dados observados. Analisando o histograma dos dados, verifica-
se que os dados indicam normalidade.
> x <- seq(-min(acidentes), max(acidentes), 0.001)
> y <- dnorm(x = x, mean = mean(acidentes), sd = sd(acidentes))
> hist(h <- acidentes, probability = TRUE, 
+ col = "lightgreen", main = "", 
+ xlab = "x", ylab = "Densidade de probabilidade")
> 
> lines(x, y, type = "l", col = "red")
10
> ## Admitindo normalidade
> ## Caso 1:
> x = media - 2*desvioPadrao
> x
[1] 15.16
> #z = (x - media) / desvioPadrao
> #z
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail logical; if TRUE (default), probabilities are P[X ??? x]
> prob
[1] 2.275013
> paste0("São separados ", round(prob, 2), "% de dias")
[1] "São separados 2.28% de dias"
> 
> ## Caso 2:
> x = media + 1.5*desvioPadrao
> x
[1] 55.69
> #z = (x - media) / desvioPadrao
> #z
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = FALSE) 
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> prob
[1] 6.68072
> paste0("São separados ", round(prob, 2), "% de dias")
[1] "São separados 6.68% de dias"
A distribuição normal é a que mais se aproxima da distribuição de acidentes diários do complexo 
industrial.
11
0 20 40 60
0
1
2
3
4
FDP, Normal
N. de acidentes
P
 (%
)
0 20 40 60
0
20
40
60
80
FDA, Normal
N. de acidentes
P
 (%
)
> ############ Gráfico da Função Distribuição Acumulada da distribuição Poisson 
############
> x=0:70
> y=100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE);
> names(y)=x;
> plot(y,ylim=c(0,100), type="h", xlim=c(0,75), lwd=2, bty="l", main="FDA, Normal", xlab = "N. de 
acidentes",ylab = "P (%)")
QUESTÃO ED3 OK
Sejam X1 ~ N(150,30), X 2 ~ N(200,20) e X 3 ~ N(100,14) independentes. Seja X = X 1 – X 2 + X 3 também
com distribuição normal. Calcule P(47 ≤ X ≤ 58).
12
Propriedades da Esperança 
1) Dada uma constante a, temos:
E(a + X) = a + E(X)
E(a . X) = a . E(X)
2) Sejam X1, X2,..., Xn variáveis aleatórias 
E(X1 ± X2 ±... ± Xn) = E(X1) ± E(X2) ± ... ± E(Xn)
3) Sejam X e Y variáveis aleatórias independentes. Então, 
E(X.Y) = E(X) . E(Y)
Propriedades da variância 
a) Dada uma constante a, temos: 
V(X + a) = V(X)
V(a . X) = a 2 . V(X) 
b) Sejam X1, X2,..., Xn, n variáveis aleatórias independentes. Então 
V(X1 ± X2 ±... ± Xn) = V(X1) + V(X2) +... + V(Xn) ; As variâncias sempre se somam.
E(X) = E(X1 - X2 + X3) = E(X1) - E(X2) + E(X3) = 150 - 200 + 100 = 50
V(X) = V(X1 - X2 + X3) = V(X1) + V(X2) + V(X3) = 30 + 20 + 14 = 64
Logo, X ~ N(50, 64)
> media = 150 - 200 + 100
> #media = 50
> variancia = 30 + 20 + 14
> #variancia = 64
> 
> desvioPadrao = sqrt(variancia)
> desvioPadrao
[1] 8
> 
> #Calcular P(47 ≤ X ≤ 58).
> 
> #Normalizando: Z ~ N(0, 1)
> z1 = (47 - media) / desvioPadrao
> z1
[1] -0.375
> 
> z2 = (58 - media) / desvioPadrao
> z2
[1] 1
> # Utilizando uma tabela de Distribuição Normal Padrão, pode-se calcular das seguintes formas:
> 
> # P(47 ≤ X ≤ 58) = P(-0.2590674 ≤ Z ≤ 0.6908463)
> 
> #Tabela P(0 ≤ Z ≤ z) = p
> # P(-0.6123724 ≤ Z ≤ 1.632993) = P(0 ≤ Z ≤ 0.6123724) + P(0 ≤ Z ≤ 1.632993)
> #Tabela P(Z ≤ z) = p
> # P(-0.6123724 ≤ Z ≤ 1.632993) = - P(Z ≤ -0.6123724) + P(Z ≤ 1.632993)
> #Tabela P(Z > z) = p
> # P(-0.6123724 ≤ Z ≤ 1.632993) = P(Z > -0.6123724) - P(Z > 1.632993)
> 
13
> # Utilizando funções R:
> 
> 
> #P = pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail logical; if TRUE (default), probabilities are P[X ≤ x]
> p1 = pnorm(q = 47, mean = media, sd = desvioPadrao, lower.tail= TRUE)
> p2 = pnorm(q = 58, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> P = p2 - p1
> P
[1] 0.4875145
> 
> #P = pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = FALSE) 
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> p1 = pnorm(q = 47, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> p2 = pnorm(q = 58, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> P = p1 - p2
> P
[1] 0.4875145
P(47 ≤ X ≤ 58) = 0,4875145 ≅ 49%
QUESTÃO ED4 OK
Que características pretende-se realçar quando se representa um conjunto de dados sob a forma de um
histograma e de um diagrama de séries temporais? 
O histograma fornece uma impressão visual da forma da distribuição das medidas, assim como 
informação sobre a tendência central e o espalhamento ou dispersão dos dados. Essa disposição gráfica 
fornece, frequentemente, discernimento acerca de possíveis escolhas de distribuições de probabilidades 
para usar como um modelo para a população. (Montgomery)
A tendência central é caracterizada pelo valor (ou faixa de valores) típicos da variável.
A dispersão, ou variabilidade, permite representar o quanto os dados variam.
A forma diz respeito à concentração dos dados, de forma a classificar a distribuição quanto à simetria:
Tipos básicos:
- Simétrico (valores igualmente distribuídos em torno de um valor mais provável);
Assimétrico:
- Concentração à esquerda (assimetria com concentração à esquerda ou assimetria com cauda à 
direita);
- Concentração à direita (assimetria com concentração à direita ou com assimetria cauda à 
esquerda);
O diagrama de séries temporais frequentemente permitem enxergar tendências, ciclos ou outras 
características dos dados que não poderiam ser vistas de outra forma. (Montgomery)
Um dos objetivos do estudo de séries temporais é conhecer o comportamento da série ao longo do tempo 
(aumento, estabilidade ou declínio dos valores). Em alguns estudos, esse conhecimento pode ser usado 
para se fazer previsões de valores futuros com base no comportamento dos valores passados.
QUESTÃO ED5
Séries históricas de produção de petroquímicos e vazão de efluentes orgânicos de uma determinada
empresa foram avaliados considerando médias anuais de 4 anos. O engenheiro responsável por esse
processo informou que com o aumento de produção há um maior consumo de matérias primas e insumos,
14
e que no 2º ano houve muitas paradas na planta. Discuta o que acontece com a vazão de efluentes, e sua
relação com a produção, considerando estas informações. (2,5 PONTOS) 
Quando a produção está menor, e portanto menor quantidade de matérias primas e insumos são
consumidos, há um desperdício maior, causando aumento da vazão de efluentes.
Quando a produção aumenta, as matérias primas e insumos são melhor utilizados, de forma que o
desperdício diminui, causando consequentemente redução da vazão de efluentes.
No 2º ano, em função da maior quantidade de paradas, os índices variaram consideravelmente. No
entanto, é possível perceber que, a medida que a produção aumenta, a variabilidade da produção diminui,
ao passo que, se a produção continuar aumentando, a variabilidade da vazão de efluentes parece tender a
aumentar, ou seja, deve haver um ponto ótimo de produção que implique em melhor consumo e
consequentemente menor vazão de efluentes.
Quando há maior 
QUESTÃO ED6
Discos de alumínio são produzidos e a cada 15 minutos 3 discos são retirados da linha e pesados. Os
dados obtidos durante um período de quase 7 horas estão apresentados na tabela abaixo. Estime e analise
criticamente as estatísticas de média e variância do peso dos discos de alumínio (g).
N Tempo Obs Amostra Peso N Tempo Obs Amostr
a
Peso N Tempo Obs Amostr
a
Peso
1 9:00 1 1 170,38
4
29 11:15 2 10 170,667 5
7
13:30 3 19 170,384
2 9:00 2 1 169,81
7
30 11:15 3 10 170,384 5
8
13:45 1 20 170,667
3 9:00 3 1 170,66
7
31 11:30 1 11 171,234 5
9
13:45 2 20 170,667
15
4 9:15 1 2 169,53
3
32 11:30 2 11 170,667 6
0
13:45 3 20 170,667
5 9:15 2 2 169,81
7
33 11:30 3 11 170,951 6
1
14:00 1 21 171,234
6 9:15 3 2 170,38
4
34 11:45 1 12 170,667 6
2
14:00 2 21 171,518
7 9:30 1 3 170,95
1
35 11:45 2 12 170,384 6
3
14:00 3 21 170,951
8 9:30 2 3 170,66
7
36 11:45 3 12 170,100 6
4
14:15 1 22 171,801
9 9:30 3 3 170,66
7
37 12:00 1 13 170,951 6
5
14:15 2 22 170,951
1
0
9:45 1 4 170,66
7
38 12:00 2 13 170,667 6
6
14:15 3 22 171,234
11 9:45 2 4 170,95
1
39 12:00 3 13 171,234 6
7
14:30 1 23 171,518
1
2
9:45 3 4 170,66
7
40 12:15 1 14 170,667 6
8
14:30 2 23 171,234
1
3
10:00 1 5 170,10
0
41 12:15 2 14 170,667 6
9
14:30 3 23 170,667
1
4
10:00 2 5 169,81
7
42 12:15 3 14 170,951 7
0
14:45 1 24 171,518
1
5
10:00 3 5 170,38
4
43 12:30 1 15 170,951 7
1
14:45 2 24 171,234
1
6
10:15 1 6 169,81
7
44 12:30 2 15 170,667 7
2
14:45 3 24 170,951
1
7
10:15 2 6 170,10
0
45 12:30 3 15 170,951 7
3
15:00 1 25 171,234
1
8
10:15 3 6 170,10
0
46 12:45 1 16 170,951 7
4
15:00 2 25 171,801
1
9
10:30 1 7 170,66
7
47 12:45 2 16 170,100 7
5
15:00 3 25 171,518
2
0
10:30 2 7 170,38
4
48 12:45 3 16 170,384 7
6
15:15 1 26 171,518
2
1
10:30 3 7 170,10
0
49 13:00 1 17 171,234 7
7
15:15 2 26 170,951
2
2
10:45 1 8 170,38
4
50 13:00 2 17 170,667 7
8
15:15 3 26 171,234
2
3
10:45 2 8 170,95
1
51 13:00 3 17 170,951 7
9
15:30 1 27 170,951
2
4
10:45 3 8 170,38
4
52 13:15 1 18 171,518 8
0
15:30 2 27 171,234
2
5
11:00 1 9 170,38
4
53 13:15 2 18 170,667 8
1
15:30 3 27 170,951
2
6
11:00 2 9 170,66
7
54 13:15 3 18 171,234 8
2
15:45 1 28 171,801
2
7
11:00 3 9 170,10
0
55 13:30 1 19 170,951 8
3
15:45 2 28 171,801
2
8
11:15 1 10 170,10
0
56 13:30 2 19 171,234 8
4
15:45 3 28 171,518
O Teorema central do limite é um importante resultado da estatística e a demonstração de muitos outros teoremas
estatísticos dependem dele. Em teoria das probabilidades, esse teorema afirma que quando o tamanho da amostra
aumenta, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. (Wikipedia)
QUESTÃO ED7
16
INDÚSTRIACONS
U
M
O 
DE 
ÁG
UA
ICA (m3 
água / 
t 
produ
ção) 
POÇOS DE 
CAPTAÇÃO DE 
ÁGUA BRUTA (1, 
2, 3, 4)
POÇO INTERNO
ÁGUA CLARIFICADA 
(AGC)
ÁGUA 
DESMINERALIZA
DA (AGC)
ÁGUA POTÁVEL 
(AGP)
VAPOR DE ALTA E 
MÉDIA PRESSÃO 
(V-42 e V-15)
Planta 1
Planta 2
Planta 3
Uma determinada empresa química faz uso
de água superficial e de poços no seu
processo produtivo, o qual inclui a operação
de três plantas (figura 1). Um indicador do
consumo de água (ICA) foi construído
considerando a relação entre captação total
de água (ou consumo de água) e produção
total. Analise criticamente qual a influência
da variabilidade dos dados no indicador,
considerando as figuras 2 (a) e (b). (2,5
PONTOS)
Figura 1: Balanço hídrico.
(a)
17
Produção
(b)
Figura 2: Gráficos de dispersão da produção de captação de água total (a) e por tipo de água (b).
DISTRIBUIÇÕES DE PROBABILIDADE
QUESTÃO DP1 OK
A função de densidade de probabilidade do comprimento de uma barra de metal é f(x)=2,0, para 2,3 < x <
2,8. Se as especificações para este processo são de 2,25 a 2,75 metros, que proporção de barras não se
encontra dentro das especificações? (2,5 PONTOS)
Para f(x) ser função densidade, ∫
−∞
+∞
f ( x ) dx=1
18
2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
1.
5
2.
0
2.
5
FDP
y
> #FDP
> par(mar=c(3, 3, 2, 1))
> 
> x = c(2.3, 2.8)
> y = c(2, 2)
> plot(x, y, type="b", xlim = c(2.2, 2.9), main = "FDP")
> grid()
FDA
y2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
> #FDA
> x = c(2.2, 2.3, 2.8, 2.9)
> y = c(0, 2*2.3-4.6, 2*2.8-4.6, 2*2.8-4.6)
> plot(x, y, type="l", axes=FALSE, main = "FDA")
> grid()
19
> axis(side=1, at=seq(2.2, 2.9, 0.1))
> axis(side=2, at=seq(0, 1, length.out = 6))
> box()
QUESTÃO DP2 OK
A função de densidade de probabilidade do peso líquido, em libras, de um pacote de herbicida químico é
f(x)=2,0 para 49,75 < x < 50,25 libras. Se as especificações para este processo são 49,0 a 50,0 libras. 
FDP
y
49.00 49.25 49.50 49.75 50.00 50.25 50.50
1.
5
2.
0
2.
5
> par(mar=c(3, 3, 2, 1))
> 
> x = c(49.75, 50.25)
> y = c(2, 2)
> plot(x, y, type="b", xlim = c(49, 50.5), main = "FDP", axes=FALSE)
> axis(side=1, at=seq(48, 52, 0.25))
> axis(side=2, at=c(1.5, 2, 2.5))
> grid()
> box()
20
FDA
y
49.00 49.25 49.50 49.75 50.00 50.25 50.50
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
> #FDA
> x = c(49, 49.75, 50.25, 50.5)
> y = c(0, 2*49.75-99.5, 2*50.25-99.5, 2*50.25-99.5)
> plot(x, y, type="l", xlim = c(49, 50.5), axes=FALSE, main = "FDA")
> axis(side=1, at=seq(48, 52, 0.25))
> axis(side=2, at=seq(0, 1, length.out = 6))
> grid()
> box()
a) Determine a proporção de barras não se encontra dentro das especificações. 
b) Quanto produto químico está contido em 90% de todos os pacotes? 
c) Calcule a média e a variância. 
21
Referência: Apostila MAT236
QUESTÃO DP3 OK
O tempo gasto no vestibular de uma determinada universidade tem distribuição normal, com média 120
min e desvio padrão de 15 min. (a). Sorteando um aluno ao acaso, qual a probabilidade que ele termine o
exame antes de 100 min. (b) Qual deve ser o tempo de prova de modo a permitir que 95% dos
vestibulandos terminem no prazo estipulado. 
> ### DP3
> par(mar=c(3, 3, 2, 1))
> 
> media = 120 #min
> desvioPadrao = 15 #min
> ############ Gráfico da Função de Probabilidade da distribuição Normal 
############
> x = (media-3.5*desvioPadrao):(media+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = media, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(120, 15²)", xlab = 
"tempo",ylab = "P (%)")
22
80 100 120 140 160
0.
0
0.
5
1.
0
1.
5
2.
0
2.
5
FDP, N(120, 15²)
P
 (%
)
> ############ Gráfico da Função Distribuição Acumulada da distribuição Normal 
############
> x = (media-3.5*desvioPadrao):(media+3.5*desvioPadrao)
> y = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE);
> names(y)=x;
> plot(x, y,ylim=c(0,100), type="l", lwd=2, bty="l", main="FDA, N(120, 15²)", xlab = "tempo",ylab 
= "P (%)")
80 100 120 140 160
0
20
40
60
80
10
0
FDA, N(120, 15²)
P
 (%
)
> #a) Sorteando um aluno ao acaso, determinar a probabilidade de ele terminar o exame antes de 
100 min
> x = 100 #min
> z = (x - media) / desvioPadrao
23
> z #Consultar P(Z ≤ z) na Tabela da Normal Padronizada
[1] -1.333333
> prob = 100 * pnorm(q = z, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail logical; if TRUE (default), probabilities are P[X ≤ x]
> prob
[1] 9.121122
> 
> #diretamente:
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail logical; if TRUE (default), probabilities are P[X ≤ x]
> prob
[1] 9.121122
> 
> paste0("Um aluno ao acaso tem ", round(prob, 2), "% de chance de concluir antes de 100 min.")
[1] "Um aluno ao acaso tem 9.12% de chance de concluir antes de 100 min."
> 
> #b) Determinar qual deve ser o tempo de prova de modo a permitir que 95% dos vestibulandos 
terminem no prazo estipulado
> prob = 95 #%
> prob = prob/100
> prob
[1] 0.95
> 
> #z #Consultar Z da tabela da Normal Padrão
> z = qnorm(p = prob, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail logical; if TRUE (default), probabilities are P[X ≤ x]
> z
[1] 1.644854
> #z = (x - media) / desvioPadrao
> x = (z * desvioPadrao) + media
> x
[1] 144.6728
> 
> #diretamente:
> x = qnorm(p = prob, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail logical; if TRUE (default), probabilities are P[X ≤ x]
> x
[1] 144.6728
> 
> paste0("São necessários ", round(x, 2), " minutos de tempo de prova.")
[1] "São necessários 144.67 minutos de tempo de prova."
QUESTÃO DP4 OK
Suponha que a relação entre a força aplicada x e o tempo até a falha y seja descrita por um modelo de 
regressão linear simples com uma reta de regressão real y = 65-1,2x e σ = 8. Portanto, para qualquer valor
fixo x* de força, o tempo até a falha tem uma distribuição normal com valor médio 65-1,2x* e desvio 
padrão 8. Para x = 20, estime a probabilidade de que o tempo de falha (y) ultrapasse 50 quando a força 
aplicada (x) for igual a (a) 20 e (b) 25. Compare os resultados nas letras (a) e (b) de forma gráfica com 
base na função de distribuição de probabilidade normal.
> ### DP4
> par(mar=c(3, 3, 2, 1))
> 
24
> # x -> Força aplicada
> # y -> Tempo até a falha
> # Modelo: y = 65-1.2*x e σ = 8
> 
> # x* será representado por xq
> # Tempo até a falha ~ Normal(65-1.2*xq, 8²)
> # onde xq representa qualquer valor fixo de força
> 
> desvioPadrao = 8
> 
> # Estimar a probabilidade de o tempo até a falha (y) ultrapassar 50 quando a
> #força aplicada (x) for igual a:
> #a) 20
> x1 = 20
> y1 = 65-1.2*x1
> y1
[1] 41
> #z = (50 - y1) / desvioPadrao
> #z #Consultar P(Z > z) na Tabela da Normal Padronizada
> 
> #P(y > 50)
> prob = 100 * pnorm(q = 50, mean = y1, sd = desvioPadrao, lower.tail = FALSE) 
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> prob
[1] 13.02945
> paste0("Probabilidade de ", round(prob, 2), "% de tempo até falha ultrapassar 50")
[1] "Probabilidade de 13.03% de tempo até falha ultrapassar 50"
> 
> 
> #b) 25
> x2 = 25
> y2 = 65-1.2*x2
> y2
[1] 35
> #z = (50 - y2) / desvioPadrao
> #z #Consultar P(Z > z) na Tabela da Normal Padronizada
> 
> #P(y > 50)
> prob = 100 * pnorm(q = 50, mean = y2, sd = desvioPadrao, lower.tail = FALSE) 
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> prob
[1] 3.039636
> paste0("Probabilidade de ", round(prob, 2), "% de tempo até falha ultrapassar 50")
[1] "Probabilidade de 3.04% de tempo até falha ultrapassar 50"
> 
> #Conclusão: Quanto maior a força aplicada, maior a susceptibilidade à falha.
> # Quanto mais força aplicada, mais rápido deverá falhar.
> par(mfrow = c(1, 1))
> #Comparação gráfica:
> x = (min(y1, y2)-3.5*desvioPadrao):(max(y1, y2)+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = y1, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, Normal(μ, σ²)", xlab = "N. de 
acidentes",ylab = "P (%)", col = "blue")
25
> abline(v=50, col = "black", lty = "dotted")
> ###### Pintando área sob a curva 1: ##############
> cord.x <- c(50, seq(50, max(x), 0.01), max(x))
> cord.y1 <- c(0, dnorm(seq(50, max(x), 0.01), y1, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y1,col='skyblue')
> ################################################
> par(new=TRUE)
> y = 100 * dnorm(x, mean = y2, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l",lty="dotted", lwd=2, bty="o", main="FDP, Normal(μ, σ²)", 
xlab = "N. de acidentes",ylab = "P (%)", col = "red")
> # Adiciona legenda à imagem:
> legend(52, 4.5, legend=c("N(20, 8²)","N(25, 8²)"), lty=c("solid", "dotted"), 
col=c("blue","red"),lwd=3,bty="n")
> ###### Pintando área sob a curva 2: ##############
> #cord.y2 <- c(0, dnorm(seq(50, max(x), 0.01), y2, desvioPadrao), 0) * 100
> #polygon(cord.x,cord.y2,col='skyblue')
> ################################################
10 20 30 40 50 60 70
0
1
2
3
4
5
FDP, Normal(µ, s²)
P
 (%
)
10 20 30 40 50 60 70
0
1
2
3
4
5
FDP, Normal(µ, s²)
P
 (%
)
N(20, 8²)N(25, 8²)
> ### Plotando os dois gráficos lado a lado: #####
> par(mfrow = c(1, 2))
> #Comparação gráfica:
> x = (min(y1, y2)-3.5*desvioPadrao):(max(y1, y2)+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = y1, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(20, 8²)", xlab = "N. de 
acidentes",ylab = "Densidade f(x)")
> ###### Pintando área sob a curva 1:
> cord.x <- c(50, seq(50, max(x), 0.01), max(x))
> cord.y1 <- c(0, dnorm(seq(50, max(x), 0.01), y1, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y1,col='skyblue')
> ################################################
> y = 100 * dnorm(x, mean = y2, sd = desvioPadrao);
> names(y)=x;
26
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(25, 8²)", xlab = "N. de 
acidentes",ylab = "P (%)")
> ###### Pintando área sob a curva 2:
> cord.y2 <- c(0, dnorm(seq(50, max(x), 0.01), y2, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y2,col='skyblue')
> #####################################
> # A área sob a curva em azul, N(20, 8²), é maior do que a área sob a curva em vermelho, N(25, 
8²).
> #portanto, a há uma maior probabilidade de durar mais tempo quando a força aplicada é menor.
10 20 30 40 50 60 70
0
1
2
3
4
5
FDP, N(20, 8²)
D
en
si
da
de
 f(
x)
10 20 30 40 50 60 70
0
1
2
3
4
5
FDP, N(25, 8²)
P
 (%
)
27
QUESTÃO DP5 OK
Dois estudantes foram informados de que alcançaram as variáveis reduzidas (Z) de 0,8 e -0,4, 
respectivamente, em um exame de múltipla escolha de inglês. Se seus rendimentos foram 88 e 64, 
respectivamente: 
a) Determinar a média e o desvio padrão dos rendimentos do exame.
b) Determinar a probabilidade de um estudante alcançar um rendimento maior que 96.
> ### DP5
> par(mar=c(3, 3, 2, 1))
> 
> z1 = 0.8
> x1 = 88
> 
> z2 = -0.4
> x2 = 64
> 
> #a) Determinar a média e o desvio padrão dos rendimentos do exame.
> 
> # As notas dos alunos foram normalizadas, para isso,
> #a média e o desvio padrão devem ser fixos, logo:
28
> #sabendo que a normalização é dada por: z = (x - media) / desvioPadrao
> 
> #onde:
> 
> # z1 = (x1 - media) / desvioPadrao
> # z2 = (x2 - media) / desvioPadrao
> 
> # desvioPadrao = (x1 - media) / z1
> # desvioPadrao = (x2 - media) / z2
> 
> # desvioPadrao = desvioPadrao, logo:
> # (x1 - media) / z1 = (x2 - media) / z2
> # x1 - media = (x2 - media) * (z1 / z2)
> # x1 - media = x2 * (z1 / z2) - media * (z1 / z2) 
> # x1 - media + media * (z1 / z2) = x2 * (z1 / z2)
> # media * (-1 + (z1 / z2)) = -x1 + x2 * (z1 / z2)
> media = (-x1 + x2 * (z1 / z2) ) / (-1 + (z1 / z2))
> media
[1] 72
> 
> # desvioPadrao = (x1 - media) / z1
> desvioPadrao = (x2 - media) / z2
> desvioPadrao
[1] 20
> 
> paste0("μ = ", media, ", σ = ", desvioPadrao)
[1] "µ = 72, s = 20"
> paste0("Rendimento ~ N(", media, ", ", desvioPadrao,"²)")
[1] "Rendimento ~ N(72, 20²)"
> 
> #b) Determinar a probabilidade de um estudante alcançar um rendimento maior que 96.
> 
> z = (96 - media) / desvioPadrao
> z #Consultar P(Z > z) na Tabela da Normal Padronizada
[1] 1.2
> 
> #Através do RStudio:
> prob = 100 * pnorm(q = 96, mean = media, sd = desvioPadrao, lower.tail = FALSE) 
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> prob
[1] 11.50697
> 
> paste0("P(Rendimento > 96) = ", round(prob, 2), "%.")
[1] "P(Rendimento > 96) = 11.51%."
INFERÊNCIA
QUESTÃO I1 OK
Abaixo são apresentadas 20 medidas do tempo residual de inflamabilidade (em segundos) de um
determinado tecido. Determine um intervalo de confiança de 95% para o tempo residual médio de
inflamabilidade. Interprete o resultado. 
9,85 9,93 9,75 9,77 9,67 9,87 9,67 9,94 9,85 9,75
29
9,83 9,92 9,74 9,99 9,88 9,95 9,95 9,93 9,92 9,89
> #I1:
> closeAllConnections()
> rm(list=ls())
> #Tempo residual de inflamabilidade (em segundos) de um determinado tecido:
> dados = c("9,85 9,93 9,75 9,77 9,67 9,87 9,67 9,94 9,85
9,75
+ 9,83 9,92 9,74 9,99 9,88 9,95 9,95 9,93 9,92 9,89")
> #### Dados inseridos com vírgula como decimal, são inseridos como CHAR,
> ##Os tratamentos a seguir os transformam em números com ponto como decimal.
> library("stringr", lib.loc="~/R/win-library/3.3")
> dados = str_replace_all(dados, pattern = " ", "")
> dados = str_replace_all(dados, pattern = ",", ".")
> dados = str_replace_all(dados, pattern = "\t", ",")
> dados = str_replace_all(dados, pattern = "\n", ",")
> dados = strsplit(dados, ",")
> #Transformar em vetor coluna de dados numéricos
> dados = data.matrix(as.numeric(unlist(dados)))
> class(dados)
[1] "matrix"
> dim(dados)
[1] 20 1
> str(dados)
 num [1:20, 1] 9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75 ...
> dados
 [,1]
 [1,] 9.85
 [2,] 9.93
 [3,] 9.75
 [4,] 9.77
 [5,] 9.67
 [6,] 9.87
 [7,] 9.67
 [8,] 9.94
 [9,] 9.85
[10,] 9.75
[11,] 9.83
[12,] 9.92
30
[13,] 9.74
[14,] 9.99
[15,] 9.88
[16,] 9.95
[17,] 9.95
[18,] 9.93
[19,] 9.92
[20,] 9.89
> ## ALTERNATIVAMENTE:
> #Ajustar todos os dados para o padrão R
> #dados = c(9.85, 9.93, 9.75, 9.77, 9.67, 9.87, 9.67, 9.94, 9.85,
9.75,
> # 9.83, 9.92, 9.74, 9.99, 9.88, 9.95, 9.95, 9.93, 9.92, 9.89)
> hist(dados)
> plot(dados)
> #Estimadores:
> mediaAmostral = mean(dados)
> mediaAmostral # X-Barra
[1] 9.8525
> #Desvio padrao estimado
> s = sd(dados)
> s #com σ desconhecido, estima-se s
[1] 0.09645697
> #Intervaço de confiança de (1-α)*100 = 95% ∴
> #Nível de significância α = 5% = 0.05
> n = length(dados)
> n
[1] 20
> #As observações não são Normais, no entanto espera-se que as médias sigam distribuição normal
> #Admitindo normalidade de médias, com amostra pequena de n elementos (n < 30)
> #e desvio padrão desconhecido:
> #com σ desconhecido, estima-se o desvio através de s
> # T = (mediaAmostral - μ) / (s / sqrt(n)) ~ t(n-1)
> #Intervalo de confiança:
> #IC = [μ, 100(1-α)%] = mediaAmostral ± ( t(α/2, n-1) * s/sqrt(n) )
> #IC = [μ, 100(1-α)%] = [mediaAmostral - ( t(α/2, n-1) * s/sqrt(n) ); mediaAmostral + ( t(α/2, n-1) * 
s/sqrt(n) )]
> α = 0.05 #5%, nível de significância
> n #tamanho da amostra
[1] 20
> #distribuição t-Student
> t = qt(p = (α/2), df = (n-1), lower.tail = FALSE)
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> t
[1] 2.093024
> IC = c( mediaAmostral - (t * s/sqrt(n)), mediaAmostral + (t * s/sqrt(n)) )
> IC
[1] 9.807357 9.897643
> #Alternativamente, utilizando função do R:
> t.test(x = dados, alternative = "two.sided", mu = mediaAmostral, conf.level = 0.95)
One Sample t-test
data: dados
t = 0, df = 19, p-value = 1
31
alternative hypothesis: true mean is not equal to 9.8525
95 percent confidence interval:
 9.807357 9.897643
sample estimates:
mean of x 
 9.8525 
> ###
> #Para um grau de confiança de 95%, o Intervalo de confiança,
> #IC = [9.807357, 9.897643]
> #Espera-se que o tempo residual médio de inflamabilidade esteja continho no intervalo IC com 
95% de confiança.
QUESTÃO I2 OK
A tensão de ruptura dos cabos produzidos por um fabricante apresenta a média de 1800kg e o desvio
padrão de 100kg. Mediante nova técnica no processo de fabricação, proclamou-se que a tensão de ruptura
pode ter aumentado. Para testar essa declaração, ensaiou-se uma amostra de 50 cabos, tendo-se
determinado a tensão média de ruptura de 1850kg. Pode-se confirmar a declaração com nível de
significância 0,01? 
> #I2:
> closeAllConnections()
> rm(list=ls())
> # Processo:
> μ = 1800 #kg
> σ = 100 #kg
> #Amostra:
> n = 50 #tamanho amostral
> mediaAmostral = 1850 #kg
> ##Testar suspeita de que a média aumentou:
> #Teste de hipóteses para a média populacional com σ² conhecido e n ≥ 30.
> α = 0.01 #1%, nível de significância
> z = (mediaAmostral - μ) / (σ / sqrt(n))
> #Teste Unilateral à Direita
> # H0: μ = 1800 (μ ≤ 1800)Média não aumentou
> # H1: μ > 1800 Média aumentou
> #Rejeitar H0 se z > zα
> zα = qnorm(p = 1-α, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail logical; if TRUE (default), probabilities are P[X ≤ x]
> zα = qnorm(p = α, mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> #Decisão:
> paste0("H0: μ = μ0 (μ <= μ0); H1: Média aumentou")
[1] "H0: µ = µ0 (µ <= µ0); H1: Média aumentou"
> if (z > zα) { paste0("Rejeitar H0") } else { paste0("Não rejeitar H0") }
[1] "Rejeitar H0"
> ######Teste pelo P-Valor para Normal unilateral:
> #z = (mediaAmostral - μ) / (σ / sqrt(n))
> p.valor = pnorm(q = abs(z), mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail logical; if FALSE, probabilities are P[X > x].
> if (p.valor > α) { paste0("Não rejeitar H0") } else { paste0("Rejeitar H0") }
[1] "Rejeitar H0"
32
Conclusão: Ao nível de confiança de 99%, verifica-se que há evidências suficientes para suspeitar que a
tensão de ruptura dos cabos aumentou.
QUESTÃO I3
O desempenho de dois catalisadores está sendo testada de forma a determinar-se se eles exigem tempos
diferentes de imersão para a remoção de quantidades idênticas de material fotorressistente. Doze lotes
foram submetidos ao catalisador 1, resultando em uma média amostral do tempo de imersão de 24,6
minutos e em um desvio padrão de 0,85 minutos. Quinze lotes foram submetidos ao catalisador 2,
resultando em um tempo médio de imersão de 22,1 minutos e um desvio padrão de 0,98 minutos.
Verifique se há diferença significativa entre o desempenho dos catalisadores considerando um nível de
significância de 5% considerando: 
Os desvios populacionais são desconhecidos assim, estes foram estimados. Não sendo possível identificar se as variâncias são 
iguais ou diferentes, inferiu-se sobre o desempenho em cada caso. Para cada caso, para 95% de confiança, os desempenhos de 
cada catalisador são diferentes.
33
Montgomery, 4ªEd, p. 213-214
a) Intervalo de confiança. Justifique sua resposta. 
b) Teste de hipóteses. Justifique sua resposta. 
O zero não faz parte do intervalo, logo a diferença entre as médias é diferente de zero, portanto, os
processos são diferentes.
QUESTÃO I4 OK
Dado que a expressão para o tamanho da amostra para a proporção  é 
22 )()1)((   pZn
,
descreva detalhadamente como maximizar n se o parâmetro  é desconhecido? Lembre-se:  é a
proporção da população. 
> #I4:
> #Montgomery, 196-197
> #TRIOLA, 273-274
> # n = Z²(π)(1-π) / (p-π)²
> #A expressão mostra que o tamanho amostral não depende do tamanho N da população; o 
tamanho amostral depende do nível de confiança desejado, que aparece na estatística Z, e da 
margem de erro dada por (p-π) no denominador.
> #Para maximizar o tamanho amostral, toma-se a primeira derivada da parcela (π)(1-π) igualando 
à zero para determinar o máximo local:
> # d[π(1-π)]/dπ = 0
> # 1.(1-π) + π.(-1) = 0
> # 1-π-π = 0
> # -2π = -1
> # π = 1/2 = 0.5
> #Ou seja, π(1-π) é máximo quando π = 0.5. Quando não se tem informação alguma a respeito da 
proporção de uma população, é razoável supor que esta proporção esteja dividida igualmente, 
π=0.5 e (1-π)=0.5, para n suficientemente grande.
> #Logo, definida uma margem de erro e o nível de confiança da estatística, o tamanho amostral 
pode ser maximizado fazendo π = 0.5.
> #Parece comum tratar essa suposição como um abordagem conservadora ou otimista.
> #Ou ainda, fazendo a primeira derivada igual a zero considerando a parcela do erro:
> # d[ (π)(1-π) / (p-π)² ]/dπ = 0
> #obtem-se:
34
> # π = p / (2p-1), tal que a função tem assintota vertical em p=1/2. (e assintota horizontal em 
π=1/2)
> #Dessa forma é interessante que o pesquisador defina o erro admissível, (p-π).
n=Z
2(π )(1−π )
( p−π )2
dπ (1−π )
dπ
QUESTÃO I5 OK
Deseja-se estimar a resistência média de certo tipo de peça com precisão de 2kg e 95% de confiança.
Desconhecendo-se a variabilidade dessa resistência, roperam-se cinco peças, obtendo-se para elas os
seguintes valores de sua resistência (em kg): 50,58,52,49,55. Com base no resultado obtido, determinou-
se que deveriam ser rompidas mais quinze peças, a fim de se conseguir o resultado desejado. Qual sua
opinião a respeito dessa conclusão? 
> #I5:
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> closeAllConnections()
> rm(list=ls())
> 
############################################################
#########
> dados = c(50,58,52,49,55)
> erro = 2 #kg
> α = 0.05 #5%, nível de significância
> s = sd(dados)
> s
[1] 3.701351
> n = length(dados)
> n
[1] 5
> #distribuição t-Student
> t = qt(p = (α/2), df = (n-1), lower.tail = FALSE)
> t
[1] 2.776445
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #n = 27
[1] 27
> #distribuição t-Student
> #Calculando a nova probabilidade t com df=27-1:
> t = qt(p = (α/2), df = (n-1), lower.tail = FALSE)
> t
[1] 2.055529
> #Calculando novo n, com erro=2kg:
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #N = 15
[1] 15
QUESTÃO I6
Foram realizados testes sobre a força de tração em duas classes diferentes de ligas de alumínio usadas na
fabricação de aviões de transporte comerciais. Pela experiência passada com o processo de fabricação de
35
ligas e pelo procedimento de teste, se supõem conhecidos os desvios padrões das forças de tração. Os
dados obtidos são apresentados na tabela abaixo:
Classe de
liga
Tamanho da
amostra
Força de tração amostral média
(kg/mm2)
Desvio padrão
(kg/mm2)
1 10 87,6 1,0
2 12 74,5 1,5
Se μ1 e μ2 representam as verdadeiras forças médias de tração para as duas classes de ligas, encontre um 
intervalo de confiança de 90% para a diferença das médias. Interprete o resultado. 
QUESTÃO I7
A empresa Água de Poço fornece água engarrafada para as casas do perímetro municipal em vasilhames
de 15 litros. O gerente quer estimar o número médio de vasilhames que uma casa usa por mês. Uma
amostra de 75 casas é selecionada e o número de vasilhames registrado é igual a é 3,2. O desvio padrão é
conhecido e igual a 0,78. a) O que podemos deduzir de um intervalo de confiança de 92% para a média
mensal de vasilhames registrados por casa? b) Considerando que o gerente acha o intervalo estimado no
item (a) muito grande, quantas casas ele deveria amostrar para construir um intervalo de 99% com erro
menor que 0,10 vasilhames? 
QUESTÃO I8
Você concorda com a seguinte afirmativa? Experimentos pareados são usados, dentre outras
situações, quando é difícil controlar todos os fatores que podem influenciar a variável em estudo.
Justifique sua resposta com base no exemplo a seguir. Sugestão: Compare os resultados obtidos entre os
testes pareados e testes para amostras independentes
Exemplo: Deseja-se testar dois métodos de análise (A e B), que são realizados as segundas, quartas e
sextas-feiras (Seg, Qua, Sex). Dados levantados referentes aos métodos são apresentados na tabela
abaixo.
Método
Dia A B Diferença
Seg 5 3 2
Qua 7 5 2
Sex 8 6 2
Médias 6,67 4,67 2
Variâncias 2,3 2,3 0
QUESTÃO I9
Um sistema de tratamento de gases na foi mudado com a expectativa de que a intervenção pudesse
reduzir o nível de poluição em 25 unidades, sem alteração significativa da variabilidade do processo. Ou
seja, deseja-se detectar se a média antes da intervenção e após a intervenção diferem em 25 unidades. As
estimativas antes da intervenção são: média = 234,3 e desvio padrão = 58, baseados em uma amostra de
tamanho igual a 10. O gerente de projeto deseja determinar, com 95% de confiança, se a redução de 25
unidades foi obtida. 
QUESTÃO I10
Deseja-se estimar o intervalo de confiança da proporção de um experimento. Considere que há um
incremento de 20% do custo de coleta de dados a cada retorno a campo. Indique como a pesquisa deveria
ser realizada em campode forma a minimizar o uso dos recursos financeiros, garantindo um nível de
confiança de 90%.
36
Tratar das distribuições Z e T, tratar da definição do ERRO esperado, tratar do desvio da população, se já
é conhecido, se há dados históricos, e para o caso de precisar estimar baseado em alguma amostra, falar
da amostragem. (iniciar pela amostragem?)
 
REGRESSÃO LINEAR MÚLTIPLA
QUESTÃO RLM1 OK
Acredita-se que a vazão de vapor (em ton/h) usada mensalmente por uma planta química está relacionada
com a temperatura ambiente (em oF) daquele mês. Os usos e temperaturas dos últimos anos estão 
mostradas na tabela que segue: 
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Temp. 21 24 32 47 50 59 68 74 62 50 41 30
Vazão/1000 185,79 214,47 288,03 424,84 454,58 539,03 621,55 675,06 562,03 542,93 369,95 273,98
> closeAllConnections()
> rm(list=ls())
> par(mar=c(4,4,1,1))
> par(mfrow=c(1,1))
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> planta = read.table(file = "RegressaoLinearMultipla/RLM1/PlantaQuimica.txt", header = TRUE, dec 
= ',')
> #Importante: Deve haver um \n ao fim do vetor de dados no arquivos .txt para evitar um alerta no
RStudio
> #Transpor matriz mantendo os nomes do cabeçário:
> planta = setNames(data.frame(t(planta[,-1])), planta[,1])
> modelo = lm(planta$`Vazão/1000` ~ planta$Temp.) #Modelo Linear
> summary(modelo)
Call:
lm(formula = planta$`Vazão/1000` ~ planta$Temp.)
Residuals:
 Min 1Q Median 3Q Max 
-11.528 -8.467 -6.977 -6.130 81.014 
Coefficients:
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) -3.2621 23.0726 -0.141 0.89 
planta$Temp. 9.3036 0.4673 19.910 2.24e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.88 on 10 degrees of freedom
Multiple R-squared: 0.9754, Adjusted R-squared: 0.9729 
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09
> plot(planta$Temp.)
Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura é diferente de Zero, 
comparando a qualquer nível de significância, já que a probabilidade é da ordem de 10-9. O coeficiente de
interceptação (coeficiente linear) por sua vez, não pode ser considerado como diferente de Zero já que a 
probabilidade é muito alta, ou ainda, adotando um nível de significância, α = 5%, a hipótese nula, H0: B0
= 0, não poderá ser rejeitada.
Conclusão: β0 = 0 e β1 = 9.3036
37
2 4 6 8 10 12
20
30
40
50
60
70
Index
pl
an
ta
$T
em
p.
> plot(planta$`Vazão/1000`)
2 4 6 8 10 12
20
0
30
0
40
0
50
0
60
0
Index
pl
an
ta
$`
V
az
ão
/1
00
0`
> plot(planta$Temp., planta$`Vazão/1000`)
38
20 30 40 50 60 70
20
0
30
0
40
0
50
0
60
0
planta$Temp.
pl
an
ta
$`
V
az
ão
/1
00
0`
> hist(modelo$residuals)
Histogram of modelo$residuals
modelo$residuals
Fr
eq
ue
nc
y
-20 0 20 40 60 80 100
0
2
4
6
8
10
> boxplot(modelo$residuals)
39
0
20
40
60
80
> #Teste de Shapiro-Wilk -> Verificar se um conjunto de dados é normal
> shapiro.test(modelo$residuals)
Shapiro-Wilk normality test
data: modelo$residuals
W = 0.41436, p-value = 4.413e-06
> boxplot(planta$Temp.)
Avaliando o p-valor do Teste de Normalidade, conclui-se que os resíduos são normais, já que o p-valor é 
muito pequeno quando comparado a qualquer nível de significância.
20
30
40
50
60
70
> boxplot(planta$`Vazão/1000`) #Verificar pontos aberrantes (Valores atípicos)
40
20
0
30
0
40
0
50
0
60
0
> #Gráficos de avaliação de modelo
> par(mar=c(4,5,2,2))
> par(mfrow = c(2, 2))
> plot(modelo)
200 300 400 500 600 700
-2
0
0
20
40
60
80
Fitted values
R
es
id
ua
ls
Residuals vs Fitted
10
9 8
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
0
1
2
3
Theoretical Quantiles
S
ta
nd
ar
di
ze
d 
re
si
du
al
s
Normal Q-Q
10
9 8
200 300 400 500 600 700
0.
0
0.
5
1.
0
1.
5
Fitted values
S
ta
nd
ar
di
ze
d 
re
si
du
al
s
Scale-Location
10
9 8
0.00 0.05 0.10 0.15 0.20 0.25 0.30
0
1
2
3
Leverage
S
ta
nd
ar
di
ze
d 
re
si
du
al
s
Cook's distance
0.5
1
Residuals vs Leverage
10
89
> #R² é o valor que explica o quanto o modelo representa os dados.
> #R² Ajustado - Penalização do R² pelo número de parâmetros que se adiciona e tamanho amostral
a) Assuma que o modelo de regressão linear simples é apropriado e ajuste o modelo de regressão 
relacionando a vazão de vapor (y) e a temperatura (x). 
Vazao = -3,26 + 9,30*Temp
b) Avalie a significância do modelo de regressão. 
Multiple R-squared: 0.9754, Adjusted R-squared: 0.9729 
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09
41
O coeficiente de determinação múltipla, R² e o R² ajustado servem como parâmetro para explicar a 
variabilidade dos dados observados usando as variáveis independentes. Como o modelo tem uma única 
variável independente, a Temperatura, e tanto o R² múltiplo quanto o R² ajustado são muito próximo de 1,
pode-se concluir que 97% dos dados de vazão observados são explicados pela variação da temperatura.
A significância é melhor avaliada a partir da análise de variância que retorna uma estatística F = 396.4 
com p-valor da ordem de 10-9 que, para as hipóteses:
H0: β1=0 , não existe relação linear
H1: β1≠0 , existe relação linear
e para um nível de significância muito pequeno, por exemplo α=0,01 que retorna uma estatística F = 
6055,85, F0,01 ;1 ;n−2=F0,01 ;1 ;10=6055,85 , conclui-se que a hipótese nula pode ser rejeitada, ou seja, 
para um nível de confiança de 99% existe relação linear entre Vazão e Temperatura ( β1≠0 ).
c) Analise o significado de cada p-valor (P) apresentado ao lado 
fazendo-se uso do teste de hipóteses. Você faria alguma sugestão 
de alteração do seu modelo de regressão? 
Predictor t-valor p-valor
Constant -0.14 0.890
Temp. 19.91 0.000
Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura é diferente de Zero, 
comparando a qualquer nível de significância, já que a probabilidade é da ordem de 10-9. O coeficiente de
interceptação (coeficiente linear) por sua vez, não pode ser considerado como diferente de Zero já que a 
probabilidade é muito alta, ou ainda, adotando um nível de significância, α = 5%, a hipótese nula,
H 0: β0=0 , não poderá ser rejeitada.
Conclusão: β0 = 0 e β1 = 9.3036
QUESTÃO RLM2 SINTETIZAR
Como identificar a existência de correlação não linear entre as variáveis? Qual a influência de pontos
aberrantes em um modelo de regressão?
Uma relação linear é uma tendência nos dados que pode ser modelada por uma linha reta.
####
Uma relação linear é uma tendência nos dados que pode ser modelada por uma linha reta que mostra uma
taxa estável de aumento ou redução.
Se a relação entre duas variáveis não é linear, a taxa de aumento ou redução pode mudar quando uma 
variável muda, causando um "padrão curvo" nos dados. Essa tendência curva pode ser melhor modelada 
por uma função não linear
####
A associação linear entre duas variáveis é avaliada usando correlação. Para predizer o valor de uma 
variável contínua a partir de uma outra variável e para descrever a relação entre duas variáveis utiliza-se 
regressão (veja o próximo capítulo).
O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos dados para obter 
alguma ideia da forma e grau de associação entre duas variáveis.
Para obter uma medida do grau de associação da relação linear entre duas variáveis, usamos o coeficiente
de correlação
42
Somente relações lineares são detectadas pelo coeficiente de correlação que acabamos de descrever 
(também chamado coeficientede correlação de Pearson). Nos dados abaixo, mesmo existindo uma clara 
relação (não-linear) entre e , o coeficiente de correlação é zero. Sempre faça o gráfico dos dados de 
modo que você possa visualizar tais relações.
####
A análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre são um bom juiz da 
intensidade de uma relação linear.
Os diagramas a seguir ilustram precisamente os mesmos dados, mas o gráfico inferior é menor em um 
campo mais amplo (escala diferente).
Nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade de espaço em 
branco em torno do aglomerado dos pontos.
Deve-se, então, utilizar uma medida numérica para suplementar o gráfico.
Coeficiente de Correlação Linear (r)
r -> mede o grau de relacionamento linear entre valores emparelhados x e y em uma
amostra.
Mede a intensidade e a direção da relação linear entre duas variáveis quantitativas.
Chamado também de Coeficiente de Correlação de Pearson (Karl Pearson, 1857-1936).
Quanto mais próximo de –1: maior correlação negativa
Quanto mais próximo de 1: maior correlação positiva
Quanto mais próximo de 0: menor a correlação linear
O valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para uma escala 
diferente.
O valor de r não é afetado pela escolha de x ou y. Permutando x e y, r permanece inalterado.
r: só mede a intensidade ou grau de relacionamentos lineares. Não serve para medir intensidade de 
relacionamentos não lineares.
http://leg.ufpr.br/~paulojus/CE003/ce003/node8.html
https://www.eecis.udel.edu/~portnoi/classroom/prob_estatistica/2006_2/lecture_slides/aula20.pdf
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-
correlation/basics/what-is-a-linear-relationship/
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-
correlation/basics/linear-nonlinear-and-monotonic-relationships/
O coeficiente de correlação é sensível a pontos aberrantes, portanto é importante que o diagrama de
pontos seja analisado.
O coeficiente de determinação múltipla, R² e o R² ajustado servem como parâmetro para explicar a 
variabilidade dos dados observados usando as variáveis independentes. Quando R² ajustado é mais 
próximo de 1, indica que existe relação linear, no entanto deve-se tomar cuidado pois a adição de 
variáveis aumenta o valor de R².
Para avaliar a existência ou não da relação linear, pode-se recorrer ao teste de hipóteses, onde avalia-se a 
significância do modelo através das hipóteses:
H0: β i=0 , não existe relação linear
43
H1: β i≠0 , existe relação linear
Definido um α e calculando a estatística F é possível realizar o teste de hipóteses para verificar a 
existência da relação linear.
Fcalculado=
MQ regressão
MQresiduos
Encontra-se o valor de F para o nível de significância estabelecido e, comparando com o Fcalculado , 
temos:
Se Fα ; glN; glD<Fcalculado , rejeita-se a hipótese nula, H 0 , portanto, conclui-se que os dados indicam 
relação linear. Caso contrário, não há indícios que indiquem a existência da relação linear.
É possível ainda avaliar a existência de correlação não-linear a partir da análise gráfica dos resíduos, de 
modo que, através da análise dos resíduos pode-se observar comportamento diferente do comportamento 
linear ou outras inadequações do modelo, como dependência dos erros, desgaste, ou seja, variância não-
constante.
QUESTÃO RLM3 ANULADA
Os dados de amostra x1, x2, ..., xn algumas vezes representam uma série temporal, onde xi = valor
observado de uma variável resposta x no momento t. Frequentemente, a série observada mostra grande
variação aleatória, o que dificulta o estudo do comportamento de longo prazo. Nessas situações, é
desejável produzir uma versão suavizada da série. Uma das técnicas usadas é a suavização exponencial.
O valor de uma constante de suavização α é escolhido (0 < α < 1). Então, com 
tx
 = valor ajustado no
instante t, definimos 
tx
 = x1, e para t = 2, 3, ..., n, 
  11  ttt xxx 
.
a) Considere a seguinte série temporal em que xt = temperatura de um efluente em uma estação de
tratamento de esgoto no dia t: 47, 54, 53, 50, 46, 46, 47, 50, 51, 50, 46, 52, 50, 50. Plote cada coordenada
xt em relação a t em um sistema bidimensional (um gráfico de série temporal). Parece haver algum
padrão?
44
b) Calcule o 
tx
 usando α = 0,1. Repita para α = 0,5. Que valor de α fornece uma série 
tx
 mais
suavizada?
c) Substitua 
  211 1   ttt xxx 
no lado direito da expressão de 
tx
 e então substitua 
2tx
em termos
de xt-2, 
3tx
 e assim por diante. De quantos valores de xt, xt-1, ..., x1, 
tx
 depende? O que acontece com o
coeficiente de xt-k quando k aumenta?
d) Consulte o item (c). Se t for grande, qual é a sensibilidade de 
tx
 em relação ao valor inicial 
tx
 = x1?
Explique.
QUESTÃO RLM4
Considerando que o modelo de predição da Demanda Bioquímica de Oxigênio (DBO) construído em sala
de aula (05/05/08) não foi satisfatório, novos dados foram fornecidos pela empresa e são apresentados na
planilha Q4 do arquivo Dados. Construa um modelo de regressão linear múltipla para predição da DBO
fazendo-se uso dos novos dados fornecidos (planilha Q4), analise criticamente os resultados obtidos e
sugira meios para melhoria do modelo.
Nomenclatura (Planilha Q4)
in: entrada do volume de controle
out: saída do volume de controle
Dados do efluente:
Vaz: Vazão
Col: Cor
Cond: Condutividade
DBO: Demanda bioquímica de oxigênio
DQO: Demanda química de oxigênio
Nam: Nitrogênio amoniacal
NN: Nitrogênio nitrato
SS: Sólidos suspensos
T: Temperatura da água
Dados de produção:
PCel: Produção de celulose
PPapel: Produção de papel
Outros:
Chuva: Precipitação diária
QUESTÃO RLM5
Acredita-se que a vazão de vapor (em ton/h) usada mensalmente por uma planta química está relacionada
com a temperatura ambiente (em oF) daquele mês. Os usos e temperaturas dos últimos anos estão
mostradas na tabela que segue:
QUESTÃO REPETIDA
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Temp. 21 24 32 47 50 59 68 74 62 50 41 30
Vazão/1000 185,79 214,47 288,03 424,84 454,58 539,03 621,55 675,06 562,03 542,93 369,95 273,98
a) Assuma que o modelo de regressão linear simples é apropriado e ajuste o modelo de regressão 
relacionando a vazão de vapor (y) e a temperatura (x). 
45
b) Avalie a significância do modelo de regressão. 
c) Analise o significado de cada p-valor (P) apresentado ao lado 
fazendo-se uso do teste de hipóteses. Você faria alguma sugestão 
de alteração do seu modelo de regressão? 
Predictor T P
Constant -0.14 0.890
Temp. 19.91 0.000
QUESTÃO RLM6 SINTETIZAR
– O modelo de regressão linear pode ser extrapolado? Como definir o domínio de aplicação de um
modelo de regressão linear? Justifique sua resposta 
“Relações de regressão são válidas somente para valores do regressor dentro da faixa dos dados originais.
A relação linear que temos tentado considerar pode ser válida sobre toda a faixa original de x, mas ela
pode ser improvável de ser mantida se extrapolarmos – isto é, se usarmos valores de x além daquela
faixa. Em outras palavras, à medida que nos movemos além da faixa de valores de x para a qual os dados
foram coletados, tornamo-nos menos certos acerca da validade do modelo adotado. Modelos de regressão
não são necessariamente válidos para finalidades de extrapolação.
Agora, isso não significa ‘nunca extrapole’. Há situações com problemas em ciências e em engenharia em
que a extrapolação de um modelo de regressão é a única maneira para abordar o problema. No entanto, há
uma grande advertência para ser cauteloso. Uma extrapolação modesta pode ser perfeitamente certa em
muitos casos, porém uma grande extrapolaçãoquase sempre não produzirá resultados aceitáveis.”
MONTGOMERY
“Realizar previsões sobre o comportamento futuro de algum fenômeno da realidade”.
“Neste caso extrapola-se para o futuro as relações de causa-efeito – já observadas no passado – entre as
variáveis.”
“Extrapolação: A relação linear assumida para as variáveis resposta e explicativa não pode ser estendida
para fora do domínio de atuação dos dados observados, a não ser que haja informação adicional sobre a
validade do modelo para esse domínio estendido.”
“Modelos de regressão linear não costumam ser válidos para fins de extrapolação, apenas de
interpolação”
O modelo de regressão é uma representação de uma massa de dados obtidos experimentalmente,
portanto, esse modelo deverá ser usado para fins de interpolação. Havendo elementos que justifiquem a
possibilidade de extrapolação e ainda, tomando todo cuidado com essa extrapolação, é possível fazê-la.
QUESTÃO RLM7 OK
Um modelo linear multivariado foi construído para representar uma variável de um processo. Para tanto,
foi utilizado o método Stepwise. Sendo você um especialista do processo, sugira um meio de interferir na
seleção das variáveis pelo método Stepwise; justifique sua resposta considerando inclusive conceitos
estatísticos.
“Qualquer procedimento para seleção ou exclusão de variáveis de um modelo é baseado em um algoritmo
que checa a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra 
de decisão. A importância da variável é definida em termos de uma medida de significância estatística do 
coeficiente associado à variável para o modelo. Essa estatística depende das suposições do modelo. 
No Stepwise da regressão linear um teste F é usado desde que os erros tenham distribuição normal.”1
1
 http://www.portalaction.com.br/analise-de-regressao/4251-selecao-stepwise
46
Sabendo disso, o especialista, conhecendo o processo estudado e sabendo da importância ou não de 
determinadas variáveis, poderá interferir na seleção de variáveis alterando o nível de significância, α , 
do teste. 
A regressão stepwise padrão adiciona e remove preditores conforme necessário em cada etapa. O 
procedimento para quando todas as variáveis fora do modelo possuem valores p maiores que o alfa 
especificado para inclusão e quando todas as variáveis no modelo possuem valores p menores que ou 
iguais aos valores alfa para exclusão.
Variável sai do modelose p-valor ¿α
Variável entra no modelo se p-valor ¿α
Dessa forma, aumenta-se o nível de significância para permitir que determinada variável entre no modelo
e diminui-se o nível de significância para fazer com que determinada variável saia do modelo, tendo em 
vista a importância da variável em questão através do teste de hipóteses.
Problemas com a regressão stepwise:2
 Quando duas variáveis preditoras são altamente correlacionadas, é possível que 
apenas uma fique no modelo mesmo se a outra for importante.
 Como o procedimento ajusta muitos modelos, ele pode selecionar aqueles que 
ajustam os dados bem apenas por acaso.
 A regressão stepwise pode não parar necessariamente com o modelo com o valor 
R² mais alto possível para um número especificado de preditores.
 Procedimentos automáticos não consideram conhecimento especializado que o 
analista poderia ter sobre os dados. Por isso o modelo selecionado pode não ser o 
melhor sob um ponto de vista prático.
PLANEJAMENTO DE EXPERIMENTOS
QUESTÃO PE1
Um planejamento de experimentos foi realizado com o objetivo de aumentar a atividade de uma
determinada enzima em função do pH e temperatura. Desta forma o experimento foi realizado de acordo
com a tabela a seguir:
Fatores Ordem Repetições MédiasA B 1 2 3
- - 1 218 121 170 200
+ - 2 67 73 76 72
2
 http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-
correlation/basics/basics-of-stepwise-regression/
47
- + 3 402 399 411 404
+ + 4 222 258 270 250
Médias = (Rep.1 + Rep.2 + Rep.3)/3 ?
Observar valor errado.
Repetição 2 = 211 resulta em média = 199,67
De acordo com os dados, 
a) Calcule os efeitos principais, o efeito sinérgico, e indique as condições de maior atividade enzimática. 
Efeito de A = -141; Efeito de B = 191; Efeito AB = -13;
A atividade da enzima diminui, em média, em 141 unidades, quando o fator A passa do nível inferior para
o nível superior.
A atividade da enzima aumenta, em média, em 191 unidades, quando o fator B passa do nível inferior 
para o nível superior.
Avaliando o efeito sinérgico AB, percebe-se que há uma significativa interação entre estas variáveis, no 
entanto, essa interação não se mostra tão significativa em vista dos efeitos individuais.
Quando AB passa do nível inferior para o nível superior, a atividade da enzima diminui, em média, em 13
unidades.
Conclusão: Deve-se adotar A com nível inferior (-1) e B com nível superior (+1) para que se tenha 
máximo aumento da atividade da enzima.
b) Critique a forma que os experimentos foram realizados. 
1. Foram realizados na ordem, não é uma boa opção, no entanto deve ter sido feito observando a
independência nos resultados ou em função da impossibilidade de alterar os fatores em outra ordem que
não a apresentada.
2. Os dados foram coletados em triplicatas e então calculadas as médias para cada combinação.
Essa medida fornece uma melhor confiabilidade dos dados e permite inferências do processo (?).
3. Os níveis dos fatores não são apresentados na tabela.
4. O valor obtido para a média do primeiro fator não corresponde aos valores obtidos nas
repetições.
5. Deveriam ser informadas as condições e os momentos de coleta das observações, já que em
muitos problemas a forma como uma variável é coletada e o tempo até a coleta são fatores importantes a
serem considerados.
c) Caso realizássemos o experimento inserindo mais uma variável (tipo de enzima), quais devem ser as
premissas adotadas para alcançar o modelo de regressão? 
Embora já se conhece a natureza de algumas variáveis através do experimento previamente
realizado, todos os tratamentos do novo experimento deverão ser considerados, pois não se conhece a
sinergia entre as variáveis já estudadas e a nova variável (tipo de enzima).
Na impossibilidade de realizar o experimento com todos os tratamentos, alguns deverão ser
selecionados criteriosamente a fim de abranger toda a natureza do experimento.
1. Definir os níveis do(s) fator(es) para verificar quantos tratamentos serão necessários avaliar,
através do planejamento fatorial: n1 x n2 x n3, ou n^k onde k é o número de fatores com n níveis cada.
2. Verificar quantos experimentos poderão ser realizados.
3. Selecionar tratamentos a serem experimentados, na impossibilidade de realizar todos. Essa
seleção poderá considerar as variáveis já observadas no experimento anterior de forma a otimizar o
entendimento acerca dos novos resultados.
Fatorial completo x Fatorial fracionário
Fatorial fracionário: Tratamento = n^(k-1); Usa uma fração de todo o planejamento fatorial.
4. Deve-se observar ainda o grau de confundimento dos fatores.
48
QUESTÃO PE2
Um experimento conhecido por Teste de Jarro é realizado para encontrar-se as melhores condições 
operacionais para a quebra da emulsão óleo-água com uma combinação de cloreto férrico e ácido 
sulfúrico de forma que o óleo livre possa ser removido por flotação. Um experimento fatorial completo 
foi realizado, obtendo-se os resultados apresentados ao lado. 
a) Estime e analise os efeitos principais e de interação 
do ácido sulfúrico e do cloreto férrico e indique qual a 
melhor condição para a separação da emulsão óleo-água.
b) Proponha meios de estimar a significância dos 
resultados obtidos.
c) Qual a vantagem em se realizar cada experimento em 
duplicata?
QUESTÃO PE3
Deseja-se maximizaro rendimento de uma reação e para tanto, foi realizado um planejamento
experimental. Que conclusões se pode tomar a partir do experimento realizado cujos resultados são
apresentados abaixo. Critique a forma como os fatores foram estabelecidos. 
Corrida Ordem Temperatura
(oC)
Tempo de
reação
(min)
Rendimento
(%)
1 4 40 Baixo 57 61
2 2 60 Baixo 92 88
3 3 40 Alto 55 53
4 1 60 Alto 66 70
Analisando os dados, verifica-se que o rendimento é maximizado quando a Temperatura é 60°C e o 
Tempo de reação é Baixo; no entanto há algumas críticas quanto ao modelo e portanto essa conclusão 
deve ser observada com cuidado:
1. Todos os tratamentos foram considerados.
2. A ordem foi alterada porém não privilegiou mudanças significativas dos níveis dos 
fatores, já que só altera uma variável por vez, da mesma forma que ocorreria se a 
ordem não fosse alterada.
49
3. Os dados de rendimento foram obtidos em duplicatas. As médias para cada 
tratamento devem ser calculadas.
4. Os Tempos de reação são anunciados em minutos, porém são indicados através dos 
níveis Baixo e Alto, assim não se sabe qual é esse tempo, dificultando a inferência 
sobre o processo.
5. Necessário calcular os efeitos principais e os efeitos sinérgicos.
QUESTÃO PE4
Um experimento conhecido por Teste de Jarro é realizado para encontrar-se as melhores condições operacionais 
para a quebra da emulsão óleo-água com uma combinação de cloreto férrico e ácido sulfúrico de forma que o óleo 
livre possa ser removido por flotação. A concentração inicial do óleo é de 5000 ml/L e dois experimentos 
sequenciais foram realizados. O que se pode concluir dos experimentos 1 e 2? Critique a forma em que os 
experimentos foram realizados. 
Experimento 1 Experimento 2
FeCl3 (mg/L) 1,0 1,1 1,2 1,3 1,4 1,3 1,3 1,3
H2SO4 (mg/L) 0,1 0,1 0,1 0,1 0,1 0 0,1 0,2
Óleo (mg/L) 4200 2400 1700 175 650 1600 175 500
QUESTÃO PE5
Considere que se deseja realizar experimentos considerando três fatores e uma resposta e que apenas 5 
experimentos possam ser realizados. 
a) Proponha um planejamento de experimentos e indique que experimentos serão realizados. 
Justifique sua resposta.
b) Indique qual a resolução (grau de confundimento) e que fatores serão confundidos considerando 
sua resposta em (a). Justifique sua resposta.
c) Como você avaliaria a existência de relações não lineares entre fatores e respostas? Justifique sua 
resposta.
CONTROLE ESTATÍSTICO DE PROCESSOS
QUESTÃO CEP1
O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.
50
a) Avalie os dados da tabela acima e construa o(s) gráfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento. 
b) Qual a premissa principal a ser considerada na construção da carta de controle de individuais (X-
barra) e de subgrupos (X-barra-barra)? 
Amostras B1 B2 B3 B4 B5
1 0,831 0,829 0,8400 0,836 0,826
2 0,834 0,826 0,8312 0,831 0,831
3 0,836 0,826 0,8220 0,831 0,816
4 0,833 0,831 0,8310 0,835 0,833
5 0,830 0,831 0,8330 0,831 0,820
6 0,829 0,828 0,8320 0,828 0,841
7 0,835 0,833 0,8300 0,829 0,841
8 0,818 0,838 0,8340 0,835 0,830
9 0,841 0,831 0,8330 0,831 0,832
10 0,832 0,828 0,8320 0,836 0,825
11 0,831 0,838 0,8270 0,844 0,826
12 0,831 0,826 0,8320 0,828 0,827
13 0,838 0,822 0,8300 0,835 0,830
14 0,815 0,832 0,8310 0,831 0,838
QUESTÃO CEP2
O programa Águapura vem atuando na redução do consumo de água da UFBA, tendo obtido resultados
significativos através de um acompanhamento sistemático vianet do consumo por unidade
(http://teclim.ufba.br/aguapura/index.php, ver exemplo abaixo). Considerando conceitos da estatística,
proponha outra(s) forma(s) de acompanhamento do consumo de água da UFBA. Descreva todas as
premissas e implicações consideradas na(s) sua(s) proposta(s). 
Consumo de água diário (à esquerda) e mensal 
(acima) da Escola Politécnica. Finais de semana são 
destacados em amarelo (gráfico à esquerda).
QUESTÃO CEP3
Dois gráficos de controle (a) e (b) foram construídos considerando dados de subgrupos de tamanho 5 e 4, 
respectivamente. Analise criticamente estes gráficos de controle e discuta se eles poderiam ser utilizados 
para o acompanhamento de processos. 
51
252321191715131197531
16
14
12
10
8
Sample
Sa
m
pl
e 
M
ea
n
__
X=11,530
UCL=15,049
LCL=8,012
252321191715131197531
12
9
6
3
0
Sample
Sa
m
pl
e R
an
ge
_
R=6,1
UCL=12,90
LCL=0
Xbar-R Chart of dados
(a)
252321191715131197531
22,8
21,6
20,4
19,2
18,0
Sample
Sa
m
pl
e M
ea
n
__
X=20,154
UCL=21,395
LCL=18,912
252321191715131197531
4
3
2
1
0
Sample
Sa
m
pl
e 
Ra
ng
e
_
R=2,152
UCL=4,550
LCL=0
Xbar-R Chart of dados
(b)
QUESTÃO CEP4
O conteúdo de cobre, em ppm, de um banho de platina é medido três vezes ao dia e os resultados de X-
barra e R são apresentados na tabela abaixo. Sabendo-se que os limites de especificação são 6,0 ± 1,0: a)
Indique se esse processo está sobre controle (Utilize apenas a regra 1: pontos fora dos limites de controle)
e b) Estime a capabilidade do processo e interprete o resultado. 
Dia 1 2 3 4 5 6 7 8 9 10 11 12 13
X-barra 5,45 5,3
9
6,8
5
6,7
4
5,8
3
7,2
2
6,3
9
6,5
0
7,1
5
5,9
2
6,4
5
5,3
8
6,0
3
R 1,21 0,9
5
1,4
3
1,2
9
1,3
5
0,8
8
0,9
2
1,1
3
1,2
5
1,0
5
0,9
8
1,3
6
0,8
3
Dia 14 15 16 17 18 19 20 21 22 23 24 25
X-barra 7,01 5,8
3
6,3
5
6,0
5
7,11 7,3
2
5,9
0
5,5
0
6,3
2
6,5
5
5,9
0
5,9
5
R 1,45 1,3
7
1,0
4
0,8
3
1,3
5
1,0
9
1,2
2
0,9
8
1,2
1
0,7
6
1,2
0
1,1
9
QUESTÃO CEP5
Barras de chocolate são produzidas e a cada 15 minutos 3 barras são retiradas da linha e pesadas. Cartas 
de controle para média e amplitude são construídas para monitorar o peso dessas barras; o tamanho da 
amostra é 3 e X-barra e R são estimadas a cada 28 amostras, obtendo-se, respectivamente, 170,785g e 
0,515g. 
a) Estime os limites de controle para X-barra e R. 
b) Estime o desvio padrão deste processo. Com base na carta de controle (X-barra) abaixo, verifique se 
este valor estimado representa a variabiliade do processo (justifique sua resposta). 
52
 
Sample
Sa
m
pl
e 
M
ea
n
28252219161310741
171.6
171.2
170.8
170.4
170.0
__
X=170.785
UCL=171.313
LCL=170.258
Sample
Sa
m
pl
e 
Ra
ng
e
28252219161310741
1.5
1.0
0.5
0.0
_
R=0.515
UCL=1.327
LCL=0
1
1
1
1
1
1
Xbar-R Chart of Peso
n
 
2 3 4 5 6 7 8 9 10
D
4
 
3,
27
2,
57
2,
28
2,
11
2,
00
1,
92
1,
86
1,
82
1,
78
D
3
 
0 0 0 0 0 0,
08
0,
14
0,
18
0,
22
A
2
 
1,
88
1,
02
0,
73
0,
58
0,
48
0,
42
0,
37
0,
34
0,
31
n
 
A1 A2 d2 D3 D4 E2
1 3,7
6
1,88 1,12
8
0 3,2
7 
2,6
6
2
 
2,3
9
1,02
3
1,69
3
0 2,5
7
1,7
7
3
 
1,8
8
0,72
9
2,05
9
0 2,2
8 
1,4
6
QUESTÃO CEP6
53
O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.
a) Avalie os dados da tabela acima e construa o(s) gráfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento. 
b) Qual a premissa principal a ser considerada na construção da carta de controle de individuais (X-
barra) e de subgrupos (X-barra-barra)? 
Amostras B1 B2 B3 B4

Outros materiais