Semana 2 - Exercícios de apoio - Estatítica e Probabilidade - PES300_rev

•

Anhanguera

0

Diego Reis

28/02/2024

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 9 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.240 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Universidade Virtual do Estado de São Paulo – UNIVESP
PES300 Estatı́stica e Probabilidade – 2022b4
Professor: José Ricardo G. Mendonça
Exercı́cios de apoio – Semana 2
Organização e apresentação de dados quantitativos
Exercı́cios resolvidos
1. A tabela abaixo registra o nı́vel de colesterol (em mg/100 mℓ) no sangue de pacientes
entre 50 e 60 anos de idade coletados em determinada clı́nica de cardiologia:
103 131 134 142 123 145 139 128 140 132
117 127 136 145 143 129 134 146 144 138
136 132 116 137 119 131 129 128 134 145
(a) Organize os dados em uma tabela de frequências com cinco intervalos de classe
e desenhe um histograma para os dados agrupados, indicando todos os valores
pertinentes na figura.
O menor nı́vel de colesterol observado foi x(1) = 103mg/100 mℓ e o maior nı́vel
foi x(30) = 146mg/100 mℓ, de forma que podemos escolher 5 intervalos de classe
de largura ∆ = 10mg/100 mℓ começando em 100mg/100 mℓ e terminando em
150mg/100 mℓ. A densidade de frequência de cada intervalo de classe vale di =
fi/∆i = fi/10, já que todos os ∆i = 10mg/100 mℓ. A tabela dos dados agrupados
e o respectivo histograma são dados a seguir.
Colesterol (mg/100 mℓ) ni fi di = fi/∆i
100 ⊢ 110 1 0,033 0,003
110 ⊢ 120 3 0,100 0,010
120 ⊢ 130 6 0,200 0,020
130 ⊢ 140 12 0,400 0,040
140 ⊢ 150 8 0,267 0,027
Total 30 1,000
∑
i di∆i = 1,000
(b) Determine o tipo de simetria da distribuição dos dados da amostra através de um
gráfico de simetria.
1
Colesterol
100 110 120 130 140 150
0.00
0.01
0.02
0.03
0.04
1
3
6
12
8
Nível de colesterol
D
en
si
da
de
 d
e 
fr
eq
uê
nc
ia
Para elaborar o gráfico de simetria devemos calcular as distâncias dos pontos ui =
med(x)− x(i) à esquerda e vi = x(n+1−i) − med(x) à direita da mediana dos dados
(i = 1, 2, . . . , n/2 para n par) e compará-los com o que seria esperado em uma
situação completamente simétrica, na qual ui = vi. Fazendo os cálculos encontramos
med(x) = 1
2
(x(15) + x(16)) = 134 e os pontos
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
ui 31 18 17 15 11 7 6 6 5 5 3 3 2 2 0
vi 12 11 11 11 10 9 8 6 5 4 3 2 2 0 0
O gráfico de dispersão com os pontos (ui, vi) junto com a curva u = v pontilhada
para comparação aparece na Figura 1(b). Vemos claramente tanto a partir da tabela
quanto da figura que a distribuição é assimétrica com uma cauda à esquerda, revelada
pelos valores de ui razoavelmente maiores que os valores de vi para i = 1 a 4.
2. O histograma a seguir representa a distribuição de massas de uma amostra das ameixas
(Prunus salicina) colhidas em determinada fazenda em Jundiaı́, SP, no inı́cio de 2022.
(a) Calcule a média e o desvio padrão das massas das ameixas da amostra.
Calculamos a média a partir dos pontos médios dos intervalos de classe representados
no histograma(a)
x =
1
n
∑
classe i
nixi =
1
1118
(9× 25 + · · ·+ 4× 95) = 63110
1118
≃ 56,4g.
(a)Omitimos as unidades nas fórmulas, inserindo-as novamente nos resultados finais.
2
0 5 10 15 20 25 30
0
5
10
15
20
25
30
u
v
Figura 1(b): Gráfico de simetria para os dados de nı́vel de colesterol da amostra de Problema 1.
Ameixas
20 30 40 50 60 70 80 90 100
0.000
0.005
0.010
0.015
0.020
0.025
0.030
9
56
317
290
319
86
37
4
massa (g)
D
en
si
da
de
 d
e 
fr
eq
uê
nc
ia
O desvio padrão dos dados agregados é dado por
dp(x) =
√
1
n
∑
classe i
nix2i − x2 =
=
√
1
1118
[
9× (25)2 + · · ·+ 4× (95)2
]
− (56,4)2 ≃
√
148,3 ≃ 12,2g.
3
(b) O fazendeiro decide usar as sementes das 100 ameixas mais pesadas da amostra para
o próximo plantio. Para isso ele deve selecionar ameixas a partir de qual valor de
massa?
As 100 ameixas mais pesadas correspondem às 37 + 4 = 41 ameixas dos 7o¯ e
8o¯ intervalos de classe mais 59 ameixas do 6
o
¯ intervalo de classe. O ponto que
corresponde à menor massa dentre as 100 ameixas mais pesadas vale portanto
(m−70)/27 = (80−70)/86, ou seja, o fazendeiro deve selecionar todas as ameixas
de massa maior ou igual a m ≃ 73,1g para o próximo plantio.
Uma maneira equivalente de resolver o problema consiste em reparar que as 100
ameixas mais pesadas correspondem às 100/1118 = 8,9% ameixas mais pesadas, de
forma que para encontrar a massa da mais leve dentre elas procuramos pelo quantil
p(100%− 8,9%) = p(0,911).
3. Em uma granja, observou-se a seguinte distribuição do número de frangos (ni) em relação
às suas massas (em gramas):
Massa (g) ni
960 ⊢ 980 60
980 ⊢ 1000 160
1000 ⊢ 1020 280
1020 ⊢ 1040 260
1040 ⊢ 1060 160
1060 ⊢ 1080 80
Total 1000
(a) Queremos dividir os frangos em quatro categorias em relação às suas massas:
categoria D (os 20% mais leves), C (os 30% seguintes), B (os 30% seguintes)
e A (os 20% mais pesados). Quais são os limites de massa entre as categorias A, B,
C e D?
Podemos ver facilmente que os 20% mais leves incluem os frangos do primeiro
intervalo (que totaliza 6% do total) e mais alguns do segundo intervalo. Mais
especificamente, precisamos de 14% do segundo intervalo, de forma que
(P20 − 980)︸ ︷︷ ︸
base
· (16%/20)︸ ︷︷ ︸
altura= fi/∆i
= 14% ⇒ P20 = 997,5 g.
Procedendo da mesma forma encontramos P50 = 1020,0 g e P80 = 1045,0 g. Assim,
os intervalos de massa para os frangos das categorias A a D são dados por
4
A: 1045,0 ⊢ 1080,0 g
B: 1020,0 ⊢ 1045,0 g
C: 997,5 ⊢ 1020,0 g
D: 960,0 ⊢ 997,5 g
(b) O granjeiro decide separar os animais com peso inferior a 2 desvios padrões abaixo
da média para receber reforço de ração e os animais com peso superior a 1,5 desvios
padrões acima da média para servirem de reprodutores. Quantos animais serão
separados em cada caso?
Precisamos calcular o desvio padrão para os dados agrupados. A fórmula é
σ2 =
1
n
k∑
i=1
ni(xi − x)2,
onde n é o número total de dados (no caso, n = 1000), ni é a frequência absoluta dos
dados incidentes no i-ésimo intervalo de classe (no caso, k = 6 intervalos de classe), xi é
o ponto médio do i-ésimo intervalo (x1 = 970 g, x2 = 990 g, . . . , x6 = 1070 g) e x é a
média dos dados, que pode ser obtida como a média ponderada
x =
1
n
k∑
i=1
ni xi.
Calculando o valor médio x obtemos
x =
1
1000
(
60 · 970 + · · ·+ 80 · 1070
)
=
1020800
1000
= 1020,8 g,
e daı́ obtemos para o desvio padrão
σ2 =
1
1000
[
60 · (970− 1020,8)2+ · · ·+80 · (1070− 1020,8)2
]
=
691389,2
1000
≃ 691,4 g2,
de onde segue σ =
√
σ2 ≃
√
691,4 g2 ≃ 26,3 g.
Os frangos que estão 2 desvios padrões abaixo da média possuem massa inferior a
x − 2σ = (1020,2 − 2 · 26,3) g = 968,2 g e os frangos que estão 1,5 desvios padrões
acima da média possuem massa superior a x+1,5σ = (1020,2+ 1,5 · 26,3) g = 1060,3 g.
Assim, os frangos que receberão reforço de ração estão no primeiro intervalo e são em
número de
968,2− 960
nR
=
980− 960
60
⇒ nR = 24 (R de “reforço”),
enquanto os frangos que serão separados como reprodutores estão no sexto e último
intervalo e são em número de
1080− 1060,3
nM
=
1080− 1060
80
⇒ nM = 79 (M de “matrizes”).
5
4. A tabela abaixo registra as vazões médias mensais (em m3/s) do curso d’água Rio Caman-
ducaia (ou Rio da Guardinha), localizado no municı́pio de Jaguariúna, SP (22◦ 40′ 23′′ S,
46◦ 58′ 21′′ O), ao longo de 2015 e 2016:(b)
J F M A M J J A S O N D
2015 2.8 15.1 10.6 4.8 4.4 5.1 3.2 1.9 6.5 4.0 9.1 23.3
2016 29.6 19.4 33.5 9.1 9.5 30.7 8.3 7.2 5.6 8.4 8.7 9.8
(a) Determine a média, a moda, a mediana e o desvio padrão das vazões médias mensais
observadas.
Temos 24 valores de vazões médias mensais, que vamos denotar por x1 (J/2015),
. . . , x24 (D/2016). Para obter o valor médio das vazões mensais durante 2015–2016
basta calcular(c)
x =
1
24
24∑
i=1
xi =
1
24
(x1 + · · ·+ x24) =
270.6
24
≃ 11.3,
isto é, a vazão média mensal do Rio Camanducaia durante 2015–2016 foi de
11.3m3/s.
Para calcular a moda e a mediana dos dados precisamos primeiro ordená-los:
1.9 2.8 3.2 4.0 4.4 4.8 5.1 5.6 6.5 7.2 8.3 8.4
8.7 9.1 9.1 9.5 9.8 10.6 15.1 19.4 23.3 29.6 30.7 33.5
A partir dos dados ordenados obtemos que sua moda vale mod(x)= 9.1m3/s e sua
mediana vale med(x) = 1
2
(x(12) + x(13)) = 8.55m3/s.
O desvio padrão é dado por dp(x) =
√
σ2, onde
σ2 =
1
n
24∑
i=1
x2i − x2 =
1
24
(x21 + · · ·+ x224)− x2 =
4999.12
24
− (11.275)2 ≃ 81.17,
de forma que o desvio padrão dos valores de vazão obervados vale dp(x) ≃ 9.0m3/s.
(b) Organize os dados em uma tabela de frequências com intervalos de classe de largura
7 m3/s e desenhe um histograma para os dados agrupados, indicando os valores
pertinentes em ambos os eixos.
A menor vazão média no perı́odo foi x(1) = x8 = 1.9m3/s e a maior vazão média
foi x(24) = x15 = 33.5m3/s, de forma que podemos escolher os intervalos de classe
(b)Fonte: Banco de Dados Hidrológicos do DAEE – Departamento de Águas e Energia Elétrica do Estado de São
Paulo. Disponı́vel em: http://www.hidrologia.daee.sp.gov.br/.
(c)Estamos usando um ‘ponto’ ao invés de uma ‘vı́rgula’ para separar a parte decimal de um número; isto é, ao invés
de escrever 2,3, escrevemos 2.3.
6
começando em x = 0 e terminando em x = 35, em um total de 5 intervalos de classe
de largura ∆ = 7m3/s, conforme a tabela abaixo. A densidade de frequência de
cada intervalo de classe vale di = fi/∆i = fi/7, já que todos os ∆i = ∆ = 7. A
Figura 1(b) apresenta histograma correspondente.
Vazão (m3/s) ni fi di
0 ⊢ 7 9 0.375 0.054
7 ⊢ 14 9 0.375 0.054
14 ⊢ 21 2 0.083 0.012
21 ⊢ 28 1 0.042 0.006
28 ⊢ 35 3 0.125 0.018
Total 24 1.000
∑
i di∆i = 1
Vazão média mensal do Rio Camanducaia (2015/2016)
0 7 14 21 28 35
0.00
0.01
0.02
0.03
0.04
0.05
0.06
9 9
2
1
3
m3/s
D
en
si
da
de
 d
e 
fr
eq
uê
nc
ia
Figura 4(b): Histograma da vazão média mensal do Rio Camanducaia ao longo de 2015–2016.
(c) Calcule novamente os valores da média e do desvio padrão dos dados usando os
dados agrupados da tabela de frequências obtida no item (b).
Para calcular a média e o desvio padrão dos dados a partir dos dados agrupados
usamos o ponto médio xi de cada intervalo de classe i como “valor representativo”
da classe. Assim,
xagr =
1
24
∑
classes i
nixi =
1
24
(9×3.5+9×10.5+ · · ·+3×31.5) = 280
24
≃ 11.7m3/s.
Esse valor é significantemente maior que o valor obtido diretamente a partir dos dados
principalmente porque as 9 incidências no segundo intervalo de classe correspondem
todas, exceto uma, a valores menores que o do ponto médio 10.5 do intervalo.
7
O cálculo do desvio padrão segue a mesma lógica – usar os pontos médios dos
intervalos de classe:
σ2agr =
1
24
∑
classes i
ni(xi − xagr)2 =
1
24
[
9× (3.5− 280
24
)2 + · · ·+ 3× (31.5− 280
24
)2
]
=
=
20251
3
24
≃ 84.4,
de onde obtemos dpagr(x) ≃ 9.2m3/s, valor muito próximo daquele obtido direta-
mente a partir dos dados.
5. A variância de um conjunto de dados x1, . . . , xn é dada por
σ2 =
1
n
n∑
i=1
(xi − x)2,
onde x é a média dos valores de x.
(a) Mostre que a variância também pode ser calculada como σ2 =
1
n
n∑
i=1
x2i − x2.
Basta desenvolver o produto na expressão para σ2:
σ2 =
1
n
n∑
i=1
(xi−x)2 =
1
n
n∑
i=1
(
x2i−2xi x+x2
)
=
1
n
n∑
i=1
x2i−2x·
1
n
n∑
i=1
xi︸ ︷︷ ︸
x
+
1
n
n∑
i=1
x2︸ ︷︷ ︸
nx2
.
O segundo termo no lado direito da equação acima vale −2x ·x = −2x2 e o terceiro
termo vale
1
n
· nx2 = x2, de forma que juntando tudo obtemos
σ2 =
1
n
n∑
i=1
(xi − x)2 =
1
n
n∑
i=1
x2i − x2.
(b) O que acontece com a média, a mediana e o desvio padrão de uma série de dados
quando (i) cada observação é multiplicada por 3, (ii) subtrai-se a média geral x de
cada observação e (iii) subtrai-se a média geral x de cada observação e divide-se
pelo desvio padrão dp(x)?
(i) A média é dada por x = 1
n
∑
i xi. Se multiplicamos cada observação por
3 obtemos a expressão x′ = 1
n
∑
i 3xi = 3
1
n
∑
i xi = 3x, e portanto a média
é multiplicada por 3. A mediana é dada ou por um dos valores xi (quando n
é ı́mpar) ou por uma média entre dois valores (quando n é par), de maneira
que a mediana também será multiplicada por 3. Já o desvio padrão é dado por
dp(x) =
√∑
i x
2
i − x2, de forma que se cada xi for multiplicado por 3 obtemos
8
dp(x′) =
√∑
i(3xi)
2 − (3x)2 = 3
√∑
i x
2
i − x2 = 3dp(x), e o desvio padrão será
multiplicado por 3 igualmente.
(ii) Obviamente se subtrairmos a média x de cada observação obtemos a nova
média x′ = 1
n
∑
i(xi − x) =
1
n
∑
i xi − x = 0. A nova mediana simplesmente
será dada por med(x′) = med(x) − x sem nenhuma propriedade especial a me-
nos que a distribuição dos dados seja simétrica, quando então med(x) = x e
med(x′) = 0; a igualdade é muito rara de acontecer exatamente com dados re-
ais, mas frequentemente temos med(x) ≃ x. O desvio padrão será dado por
dp(x′) =
√∑
i(xi − x)2 − x′2, mas como já observamos que x′ = 0, obtemos
dp(x′) =
√∑
i(xi − x)2 = dp(x), e o desvio padrão não se altera.
De maneira mais geral, quando xi → x′i = xi+ a, a média x′ dos valores deslocados
se torna
x′ =
1
n
n∑
i=1
x′i =
1
n
n∑
i=1
(xi + a) =
1
n
n∑
i=1
xi +
1
n
n∑
i=1
a = x+ a,
isto é, a média se desloca como um todo por a, x′ = x+ a. Daı́ a variância σ′2 dos
valores deslocados se torna
σ′2 =
1
n
n∑
i=1
(x′i − x′)2 =
1
n
n∑
i=1
(
xi + a− x− a
)2
=
1
n
n∑
i=1
(xi − x)2 = σ2.
(iii) Juntando os resultados obtidos nos itens (i) e (ii), vemos que neste caso x′ = 0,
dp(x′) = dp(x)/dp(x) = 1 e a mediana será um número dado por med(x′) =
(med(x)− x)/dp(x).
⋆ — ⋆ — ⋆
9