Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Virtual do Estado de São Paulo – UNIVESP PES300 Estatı́stica e Probabilidade – 2022b4 Professor: José Ricardo G. Mendonça Exercı́cios de apoio – Semana 2 Organização e apresentação de dados quantitativos Exercı́cios resolvidos 1. A tabela abaixo registra o nı́vel de colesterol (em mg/100 mℓ) no sangue de pacientes entre 50 e 60 anos de idade coletados em determinada clı́nica de cardiologia: 103 131 134 142 123 145 139 128 140 132 117 127 136 145 143 129 134 146 144 138 136 132 116 137 119 131 129 128 134 145 (a) Organize os dados em uma tabela de frequências com cinco intervalos de classe e desenhe um histograma para os dados agrupados, indicando todos os valores pertinentes na figura. O menor nı́vel de colesterol observado foi x(1) = 103mg/100 mℓ e o maior nı́vel foi x(30) = 146mg/100 mℓ, de forma que podemos escolher 5 intervalos de classe de largura ∆ = 10mg/100 mℓ começando em 100mg/100 mℓ e terminando em 150mg/100 mℓ. A densidade de frequência de cada intervalo de classe vale di = fi/∆i = fi/10, já que todos os ∆i = 10mg/100 mℓ. A tabela dos dados agrupados e o respectivo histograma são dados a seguir. Colesterol (mg/100 mℓ) ni fi di = fi/∆i 100 ⊢ 110 1 0,033 0,003 110 ⊢ 120 3 0,100 0,010 120 ⊢ 130 6 0,200 0,020 130 ⊢ 140 12 0,400 0,040 140 ⊢ 150 8 0,267 0,027 Total 30 1,000 ∑ i di∆i = 1,000 (b) Determine o tipo de simetria da distribuição dos dados da amostra através de um gráfico de simetria. 1 Colesterol 100 110 120 130 140 150 0.00 0.01 0.02 0.03 0.04 1 3 6 12 8 Nível de colesterol D en si da de d e fr eq uê nc ia Para elaborar o gráfico de simetria devemos calcular as distâncias dos pontos ui = med(x)− x(i) à esquerda e vi = x(n+1−i) − med(x) à direita da mediana dos dados (i = 1, 2, . . . , n/2 para n par) e compará-los com o que seria esperado em uma situação completamente simétrica, na qual ui = vi. Fazendo os cálculos encontramos med(x) = 1 2 (x(15) + x(16)) = 134 e os pontos i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 ui 31 18 17 15 11 7 6 6 5 5 3 3 2 2 0 vi 12 11 11 11 10 9 8 6 5 4 3 2 2 0 0 O gráfico de dispersão com os pontos (ui, vi) junto com a curva u = v pontilhada para comparação aparece na Figura 1(b). Vemos claramente tanto a partir da tabela quanto da figura que a distribuição é assimétrica com uma cauda à esquerda, revelada pelos valores de ui razoavelmente maiores que os valores de vi para i = 1 a 4. 2. O histograma a seguir representa a distribuição de massas de uma amostra das ameixas (Prunus salicina) colhidas em determinada fazenda em Jundiaı́, SP, no inı́cio de 2022. (a) Calcule a média e o desvio padrão das massas das ameixas da amostra. Calculamos a média a partir dos pontos médios dos intervalos de classe representados no histograma(a) x = 1 n ∑ classe i nixi = 1 1118 (9× 25 + · · ·+ 4× 95) = 63110 1118 ≃ 56,4g. (a)Omitimos as unidades nas fórmulas, inserindo-as novamente nos resultados finais. 2 0 5 10 15 20 25 30 0 5 10 15 20 25 30 u v Figura 1(b): Gráfico de simetria para os dados de nı́vel de colesterol da amostra de Problema 1. Ameixas 20 30 40 50 60 70 80 90 100 0.000 0.005 0.010 0.015 0.020 0.025 0.030 9 56 317 290 319 86 37 4 massa (g) D en si da de d e fr eq uê nc ia O desvio padrão dos dados agregados é dado por dp(x) = √ 1 n ∑ classe i nix2i − x2 = = √ 1 1118 [ 9× (25)2 + · · ·+ 4× (95)2 ] − (56,4)2 ≃ √ 148,3 ≃ 12,2g. 3 (b) O fazendeiro decide usar as sementes das 100 ameixas mais pesadas da amostra para o próximo plantio. Para isso ele deve selecionar ameixas a partir de qual valor de massa? As 100 ameixas mais pesadas correspondem às 37 + 4 = 41 ameixas dos 7o¯ e 8o¯ intervalos de classe mais 59 ameixas do 6 o ¯ intervalo de classe. O ponto que corresponde à menor massa dentre as 100 ameixas mais pesadas vale portanto (m−70)/27 = (80−70)/86, ou seja, o fazendeiro deve selecionar todas as ameixas de massa maior ou igual a m ≃ 73,1g para o próximo plantio. Uma maneira equivalente de resolver o problema consiste em reparar que as 100 ameixas mais pesadas correspondem às 100/1118 = 8,9% ameixas mais pesadas, de forma que para encontrar a massa da mais leve dentre elas procuramos pelo quantil p(100%− 8,9%) = p(0,911). 3. Em uma granja, observou-se a seguinte distribuição do número de frangos (ni) em relação às suas massas (em gramas): Massa (g) ni 960 ⊢ 980 60 980 ⊢ 1000 160 1000 ⊢ 1020 280 1020 ⊢ 1040 260 1040 ⊢ 1060 160 1060 ⊢ 1080 80 Total 1000 (a) Queremos dividir os frangos em quatro categorias em relação às suas massas: categoria D (os 20% mais leves), C (os 30% seguintes), B (os 30% seguintes) e A (os 20% mais pesados). Quais são os limites de massa entre as categorias A, B, C e D? Podemos ver facilmente que os 20% mais leves incluem os frangos do primeiro intervalo (que totaliza 6% do total) e mais alguns do segundo intervalo. Mais especificamente, precisamos de 14% do segundo intervalo, de forma que (P20 − 980)︸ ︷︷ ︸ base · (16%/20)︸ ︷︷ ︸ altura= fi/∆i = 14% ⇒ P20 = 997,5 g. Procedendo da mesma forma encontramos P50 = 1020,0 g e P80 = 1045,0 g. Assim, os intervalos de massa para os frangos das categorias A a D são dados por 4 A: 1045,0 ⊢ 1080,0 g B: 1020,0 ⊢ 1045,0 g C: 997,5 ⊢ 1020,0 g D: 960,0 ⊢ 997,5 g (b) O granjeiro decide separar os animais com peso inferior a 2 desvios padrões abaixo da média para receber reforço de ração e os animais com peso superior a 1,5 desvios padrões acima da média para servirem de reprodutores. Quantos animais serão separados em cada caso? Precisamos calcular o desvio padrão para os dados agrupados. A fórmula é σ2 = 1 n k∑ i=1 ni(xi − x)2, onde n é o número total de dados (no caso, n = 1000), ni é a frequência absoluta dos dados incidentes no i-ésimo intervalo de classe (no caso, k = 6 intervalos de classe), xi é o ponto médio do i-ésimo intervalo (x1 = 970 g, x2 = 990 g, . . . , x6 = 1070 g) e x é a média dos dados, que pode ser obtida como a média ponderada x = 1 n k∑ i=1 ni xi. Calculando o valor médio x obtemos x = 1 1000 ( 60 · 970 + · · ·+ 80 · 1070 ) = 1020800 1000 = 1020,8 g, e daı́ obtemos para o desvio padrão σ2 = 1 1000 [ 60 · (970− 1020,8)2+ · · ·+80 · (1070− 1020,8)2 ] = 691389,2 1000 ≃ 691,4 g2, de onde segue σ = √ σ2 ≃ √ 691,4 g2 ≃ 26,3 g. Os frangos que estão 2 desvios padrões abaixo da média possuem massa inferior a x − 2σ = (1020,2 − 2 · 26,3) g = 968,2 g e os frangos que estão 1,5 desvios padrões acima da média possuem massa superior a x+1,5σ = (1020,2+ 1,5 · 26,3) g = 1060,3 g. Assim, os frangos que receberão reforço de ração estão no primeiro intervalo e são em número de 968,2− 960 nR = 980− 960 60 ⇒ nR = 24 (R de “reforço”), enquanto os frangos que serão separados como reprodutores estão no sexto e último intervalo e são em número de 1080− 1060,3 nM = 1080− 1060 80 ⇒ nM = 79 (M de “matrizes”). 5 4. A tabela abaixo registra as vazões médias mensais (em m3/s) do curso d’água Rio Caman- ducaia (ou Rio da Guardinha), localizado no municı́pio de Jaguariúna, SP (22◦ 40′ 23′′ S, 46◦ 58′ 21′′ O), ao longo de 2015 e 2016:(b) J F M A M J J A S O N D 2015 2.8 15.1 10.6 4.8 4.4 5.1 3.2 1.9 6.5 4.0 9.1 23.3 2016 29.6 19.4 33.5 9.1 9.5 30.7 8.3 7.2 5.6 8.4 8.7 9.8 (a) Determine a média, a moda, a mediana e o desvio padrão das vazões médias mensais observadas. Temos 24 valores de vazões médias mensais, que vamos denotar por x1 (J/2015), . . . , x24 (D/2016). Para obter o valor médio das vazões mensais durante 2015–2016 basta calcular(c) x = 1 24 24∑ i=1 xi = 1 24 (x1 + · · ·+ x24) = 270.6 24 ≃ 11.3, isto é, a vazão média mensal do Rio Camanducaia durante 2015–2016 foi de 11.3m3/s. Para calcular a moda e a mediana dos dados precisamos primeiro ordená-los: 1.9 2.8 3.2 4.0 4.4 4.8 5.1 5.6 6.5 7.2 8.3 8.4 8.7 9.1 9.1 9.5 9.8 10.6 15.1 19.4 23.3 29.6 30.7 33.5 A partir dos dados ordenados obtemos que sua moda vale mod(x)= 9.1m3/s e sua mediana vale med(x) = 1 2 (x(12) + x(13)) = 8.55m3/s. O desvio padrão é dado por dp(x) = √ σ2, onde σ2 = 1 n 24∑ i=1 x2i − x2 = 1 24 (x21 + · · ·+ x224)− x2 = 4999.12 24 − (11.275)2 ≃ 81.17, de forma que o desvio padrão dos valores de vazão obervados vale dp(x) ≃ 9.0m3/s. (b) Organize os dados em uma tabela de frequências com intervalos de classe de largura 7 m3/s e desenhe um histograma para os dados agrupados, indicando os valores pertinentes em ambos os eixos. A menor vazão média no perı́odo foi x(1) = x8 = 1.9m3/s e a maior vazão média foi x(24) = x15 = 33.5m3/s, de forma que podemos escolher os intervalos de classe (b)Fonte: Banco de Dados Hidrológicos do DAEE – Departamento de Águas e Energia Elétrica do Estado de São Paulo. Disponı́vel em: http://www.hidrologia.daee.sp.gov.br/. (c)Estamos usando um ‘ponto’ ao invés de uma ‘vı́rgula’ para separar a parte decimal de um número; isto é, ao invés de escrever 2,3, escrevemos 2.3. 6 começando em x = 0 e terminando em x = 35, em um total de 5 intervalos de classe de largura ∆ = 7m3/s, conforme a tabela abaixo. A densidade de frequência de cada intervalo de classe vale di = fi/∆i = fi/7, já que todos os ∆i = ∆ = 7. A Figura 1(b) apresenta histograma correspondente. Vazão (m3/s) ni fi di 0 ⊢ 7 9 0.375 0.054 7 ⊢ 14 9 0.375 0.054 14 ⊢ 21 2 0.083 0.012 21 ⊢ 28 1 0.042 0.006 28 ⊢ 35 3 0.125 0.018 Total 24 1.000 ∑ i di∆i = 1 Vazão média mensal do Rio Camanducaia (2015/2016) 0 7 14 21 28 35 0.00 0.01 0.02 0.03 0.04 0.05 0.06 9 9 2 1 3 m3/s D en si da de d e fr eq uê nc ia Figura 4(b): Histograma da vazão média mensal do Rio Camanducaia ao longo de 2015–2016. (c) Calcule novamente os valores da média e do desvio padrão dos dados usando os dados agrupados da tabela de frequências obtida no item (b). Para calcular a média e o desvio padrão dos dados a partir dos dados agrupados usamos o ponto médio xi de cada intervalo de classe i como “valor representativo” da classe. Assim, xagr = 1 24 ∑ classes i nixi = 1 24 (9×3.5+9×10.5+ · · ·+3×31.5) = 280 24 ≃ 11.7m3/s. Esse valor é significantemente maior que o valor obtido diretamente a partir dos dados principalmente porque as 9 incidências no segundo intervalo de classe correspondem todas, exceto uma, a valores menores que o do ponto médio 10.5 do intervalo. 7 O cálculo do desvio padrão segue a mesma lógica – usar os pontos médios dos intervalos de classe: σ2agr = 1 24 ∑ classes i ni(xi − xagr)2 = 1 24 [ 9× (3.5− 280 24 )2 + · · ·+ 3× (31.5− 280 24 )2 ] = = 20251 3 24 ≃ 84.4, de onde obtemos dpagr(x) ≃ 9.2m3/s, valor muito próximo daquele obtido direta- mente a partir dos dados. 5. A variância de um conjunto de dados x1, . . . , xn é dada por σ2 = 1 n n∑ i=1 (xi − x)2, onde x é a média dos valores de x. (a) Mostre que a variância também pode ser calculada como σ2 = 1 n n∑ i=1 x2i − x2. Basta desenvolver o produto na expressão para σ2: σ2 = 1 n n∑ i=1 (xi−x)2 = 1 n n∑ i=1 ( x2i−2xi x+x2 ) = 1 n n∑ i=1 x2i−2x· 1 n n∑ i=1 xi︸ ︷︷ ︸ x + 1 n n∑ i=1 x2︸ ︷︷ ︸ nx2 . O segundo termo no lado direito da equação acima vale −2x ·x = −2x2 e o terceiro termo vale 1 n · nx2 = x2, de forma que juntando tudo obtemos σ2 = 1 n n∑ i=1 (xi − x)2 = 1 n n∑ i=1 x2i − x2. (b) O que acontece com a média, a mediana e o desvio padrão de uma série de dados quando (i) cada observação é multiplicada por 3, (ii) subtrai-se a média geral x de cada observação e (iii) subtrai-se a média geral x de cada observação e divide-se pelo desvio padrão dp(x)? (i) A média é dada por x = 1 n ∑ i xi. Se multiplicamos cada observação por 3 obtemos a expressão x′ = 1 n ∑ i 3xi = 3 1 n ∑ i xi = 3x, e portanto a média é multiplicada por 3. A mediana é dada ou por um dos valores xi (quando n é ı́mpar) ou por uma média entre dois valores (quando n é par), de maneira que a mediana também será multiplicada por 3. Já o desvio padrão é dado por dp(x) = √∑ i x 2 i − x2, de forma que se cada xi for multiplicado por 3 obtemos 8 dp(x′) = √∑ i(3xi) 2 − (3x)2 = 3 √∑ i x 2 i − x2 = 3dp(x), e o desvio padrão será multiplicado por 3 igualmente. (ii) Obviamente se subtrairmos a média x de cada observação obtemos a nova média x′ = 1 n ∑ i(xi − x) = 1 n ∑ i xi − x = 0. A nova mediana simplesmente será dada por med(x′) = med(x) − x sem nenhuma propriedade especial a me- nos que a distribuição dos dados seja simétrica, quando então med(x) = x e med(x′) = 0; a igualdade é muito rara de acontecer exatamente com dados re- ais, mas frequentemente temos med(x) ≃ x. O desvio padrão será dado por dp(x′) = √∑ i(xi − x)2 − x′2, mas como já observamos que x′ = 0, obtemos dp(x′) = √∑ i(xi − x)2 = dp(x), e o desvio padrão não se altera. De maneira mais geral, quando xi → x′i = xi+ a, a média x′ dos valores deslocados se torna x′ = 1 n n∑ i=1 x′i = 1 n n∑ i=1 (xi + a) = 1 n n∑ i=1 xi + 1 n n∑ i=1 a = x+ a, isto é, a média se desloca como um todo por a, x′ = x+ a. Daı́ a variância σ′2 dos valores deslocados se torna σ′2 = 1 n n∑ i=1 (x′i − x′)2 = 1 n n∑ i=1 ( xi + a− x− a )2 = 1 n n∑ i=1 (xi − x)2 = σ2. (iii) Juntando os resultados obtidos nos itens (i) e (ii), vemos que neste caso x′ = 0, dp(x′) = dp(x)/dp(x) = 1 e a mediana será um número dado por med(x′) = (med(x)− x)/dp(x). ⋆ — ⋆ — ⋆ 9
Compartilhar