Baixe o app para aproveitar ainda mais
Prévia do material em texto
Resolução da Primeira Lista de Exercícios - Assunto: Estatística Descritiva 1) Os dados seguintes referem-se ás alturas (em cm) de um grupo de 30 pessoas. Denote este grupo por grupo 1. c(161,164,166,167,167,169,169,169,170,170,170,170,170,170,171 172,172,173,173,173,174,174,174,175,176,176,176,176,177,184) a) Complete a tabela de freqüências da variável idade Altura (cm) Freqüência Absoluta Freqüência relativa Densidade de Freqüência 160 |----165 2 0,067 0,013 165|-----170 6 0,200 0,040 170|-----175 15 0,500 0,100 175|-----180 6 0,200 0,040 180|-----185 1 0,033 0,007 Total 30 1 - Frequência Relativa = Frequência Absoluta / Frequência Total Densidade de Frequência = Frequência Relativa / Amplitude da classe b) Qual a classe de maior freqüência? A classe de maior frequência é a de altura entre 170cm e 174cm. c) Faça o histograma de densidades para os dados acima e comente sobre sua forma. Observa-se que o histograma das densidades apresenta forma simétrica, onde há maior concentração de pessoas nas alturas entre 170 e 174 cm, seguido por quem tem entre 165 e 169 e entre 175 e 179, ambos com a mesma frequência. Pessoas muito baixas ou muito altas são menos frequentes nesta amostra. d) Complete o diagrama de ramo e folhas para as alturas. 16| 14 16| 677999 17|000000122333444 17|566667 18|4 16|1 indica altura igual a 161 cm. e) Calcule as seguintes medidas descritivas de altura: média, mediana, amplitude total, variância e desvio padrão. Mediana = 171,5 Variânca: 83,19s 2 = Desvio Padrão 45,483,19s == f) Construa também o gráfico de freqüências acumuladas. Marque no gráfico onde está localizada a mediana. 2) Para um outro grupo de 40 pessoas, encontrou-se a distribuição de freqüências apresentada na tabela abaixo Histograma de alturas do grupo 2 altura(cm) fre qu en ci a a bs ol u ta 150 155 160 165 170 175 180 0 2 4 6 8 10 A partir do histograma acima, complete a tabela de distribuição de freqüências: a) Em qual classe da distribuição de freqüências se encontra a mediana. 3ª classe – temos 32,5% doa valores até o valor 160 (limite superior da 2ª classe) e 54,5% doas valores até o valor 165 (limites superior da 3ª classe) . Como a mediana corresponde ao valor tal que a freqüência acumulada é igual a 50%, ela está na 3ª classe. b) Encontre de forma aproximada o valor da mediana. A mediana está na terceira classe: mediana = 160 + a No intervalo entre 160 e a mediana (com comprimento igual a Mediana – 165) temos 17,5% dos valores. No intervalo entre 160 e 165 ( com comprimento 5) temos 22,5% dos valores.Logo assumindo que dentro do intervalo a distribuição dos valores é uniforme (usando regra de três ) temos (mediana-160) x 0,225 = 5 x 0,175 Mediana = 160 + 5 x (0,175/0,225) = 168,38 c) Obtenha de forma aproximada o valor da altura média. Média pode ser calculada assumindo que os valores de cada classe são iguais ao ponto médio da classe. Deste modo Altura (cm) Freqüência Absoluta Freqüência relativa Densidade de Freqüência 150 |-----155 3 0,075 0,015 155 |-----160 10 0,250 0,050 160 |-----165 9 0,225 0,045 165 |-----170 9 0,225 0,045 170 |-----175 8 0,200 0,040 175 |-----180 1 0,025 0,005 Total 40 1 - 164 40 )5,172 x 1()5,172 x 8()5,167 x 9()5,162 x 9()5,157 x 10()5,152 x 3( x = +++++ ≈ d) Utilizando o mesmo raciocínio utilizado para calcular a média ache de forma aproximada o desvio padrão das alturas. Compare os desvios padrão dos 2 grupos. Para calcular o desvio padrão fazemos como no caso da média. Assuma que os valores dentro de cada classe são iguais ao ponto médio. 77,684,45s84,45 140 1710 s 1710))1645,172( x 1(.........))1645,157( x 10())1645,152( x 3()xx( 2 222240 1i i ==⇒= − ≈ =−++−+−≈−∑ = e) Utilizando a informação das tabelas de freqüência, dos histogramas e das medidas descritivas faça uma comparação dos dois grupos de pessoas quanto à altura. 3) Uma pesquisa ouviu 15 mulheres sobre certo assunto. Uma das perguntas foi relativa a idade. Das 15 mulheres, 13 responderam suas idades, que foram: 19, 21, 29, 21, 24, 26, 28, 17, 19, 21, 25, 28, 17. Duas delas disseram que tinham mais de 30 anos. Que medida de tendência central você utilizaria para descrever a idade deste grupo de 15 mulheres. Justifique. Nesse caso utilizaria a mediana como medida de tendência central, pois como não se sabe exatamente a idade das duas mulheres que responderam ter mais de 30 anos, a média não poderia ser medida corretamente. Por esses dados serem extremos, não seriam necessários no cálculo da mediana. 4) Os salários dos empregados de um empresa têm média igual a R$1.000,00 e desvio padrão igual a R$100,00. Qual será a média e o desvio padrão dos salários após um aumento salarial a) de R$50,00 para cada funcionário? b) de 10% para cada funcionário? a) Aumentando R$ 50,00 para cada funcionário, o aumento seria homogêneo e, portanto, elevaria a média na mesma quantidade em que se aumentam os salários e o desvio-padrão permaneceria o mesmo. Ou seja, a média passaria a ser de R$ 1.050,00 e o desvio-padrão continuaria sendo de R$100,00. b) Aumento 10% do salário de cada funcionário, ambas as medidas seriam aumentadas igualmente em 10%. Ou seja, a média passaria a ser de R$ 1.100,00 e o desvio-padrão seria de R$ 110,00. 5) Um estudo foi conduzido comparando mulheres adolescentes que sofriam de bulimia com. mulheres adolescentes saudáveis com composição corporal e níveis de atividades físicas similares Abaixo são listados o consumo calórico diário, medido em quilocalorias, para amostras de adolescentes bulimica e não bulimicas. Bulímicas: 15,9 16 16,5 17 17,6 18,1 18,4 18,9 18,9 19,6 21,5 21,6 22,9 23,6 24,1 24,5 25,1 25,2 25,6 28 28,7 29,2 30,9 30,6 Saudáveis 20,7 22,4 23,1 23,8 24,5 25,3 25,7 30,6 33,2 33,7 36,6 37,1 37,4 40,8 a) Complete a tabela seguinte o com as medidas que faltam e utilize-as para comparar os 2 grupos. N Media Mediana Variância Desvio padrão Percentil 25 Percentil 75 Coeficiente de variação Bulimicas 24 22,43 22,25 23,03 4,80 18,32 23,30 0,2139 Saudáveis 14 29,64 28,15 45,30 6,73 23,38 35,88 0,2271 b) Utilizando as medidas acima, compare os dois grupos. Como esperado o consumo calórico das adolescentes saudáveis foi superior ao das adolescentes bulímicas, o que evidenciado por valores da média e mediana do primeiro grupo. Observe que o desvio padrão das saudáveis é superior ao das doentes, indicando que em média as saudáveis encontram-se mais distante da média que as doentes. Entretanto os grupos parecem ser igualmente homogêneos o que é evidenciado pelos valores de coeficientes de variação muito próximos entre si. 6) A seguir são mostrados os tempos de espera em fila (em minutos) de clientes de duas agências bancária com 3 caixas: Agência com sistema de fila única (agência A) Agência com filas individuais para os caixas. (agência B) Agência A 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7 7,8 Agência B 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10 a) Complete a tabela com as medidas que faltam. b) Utilize as medidas apresentadas na tabela para argumentar a favor de um dos dois tipos de fila: fila única ou filas individuais para os caixas. Média Mediana Variância DesvioPadrão Amplitude Agência A 7,20 7,30 0,24 0,49 1,30 Agência B 7,15 7,20 3,32 1,82 5,80 A fila única é preferível, pois apesar de apresentar médias e medianas superiores às filas individuais para os caixas, as medidas de variabilidade são inferiores. As fila única é mais justa a media que os tempos de espera são mais homogêneos, enquanto nas filas individual a incerteza sobre o tempo de espera é muito maior. 7) Os boxplots abaixo referem-se ao expiratório forçado em um segundo (FEV1) medido para homens com e sem pneumoconiosis. V o lu m e e x p ir a tó ri o Não DoentesDoentes 120 110 100 90 80 70 60 50 40 Boxplot para volume expiratório a) Faça uma comparação entre doentes e não doentes a partir do boxplot. Comente sobre a tendência central, variabilidade e simetria das distribuições. 1) O volume expiratório forçado em um segundo medido em homens com pneumoconiosis é em geral inferior ao observado nos homens saudáveis, pois a sua mediana é inferior e também apresenta menor variabilidade (evidenciada pela maior distância interquartíliza). Ambas as distribuições são relativamente assimétricas. No grupo doente os 25% dos valores inferiores à mediana encontram-se distribuídos num intervalo maior do que aquele onde estão distribuídos os 25% superiores à mediana . No grupo dos não doentes este comportamento ocorre de maneira oposta. 2) Os dados utilizados para construir os boxplots acima são dados nos diagramas de ramo e folhas seguintes. Doentes Não Doentes 4| 0379 6| 017 5| 0037888 7| 59 6| 259 8| 0379 7|13455789 9| 8| 07 10| 059 9| 0 11| 5 10| 05 Observação: 4| 0 é igual a 40 N Media Mediana Desvio padrão Percentil 25 Percentil 75 Coeficiente de variação Distância Interquartílica Doentes 27 67,51 69,00 16,86 55 78 0,24981 22,5 Não Doentes 13 85,38 83,00 17,81 75 100 0,20866 25 b) Complete a tabela acima com as medidas que faltam. c) Compare os 2 grupos quanto á variação dos valores de FEV1. Observa-se na tabela acima que as medidas de tendência central quanto ao FEV1 em doentes é inferior às medidas dos homens que não estão doentes. O desvio-padrão observado para os doentes também é inferior, e consequentemente, têm menor distância interquartílica, mas maior coeficiente de variação. d) Considere um indivíduo doente com FEV1 igual a 75 e um indivíduo não doente com FEV1 igual a 89. Qual dos dois é mais discrepante em relação à média do grupo? Porque? Vamos medir a distância em relação á media em desvio padrão, isto é calculando o escore padronizado ou escore Z. Doente: 44,0 86,16 51,6775Z =−= Não doente: 31,0 81,17 38,8389Z =−= Enquanto o doente encontra-se a uma distância de 0,44 desvios padrão da média de seu grupo, o não doente encontra-se a uma distância de 0,31 desvio padrão da média de seu grupo. Portanto, o doente com valor de FEV igual a 75 é mais discrepante em relação ao grupo do que o não doente com FEV igual a 85. e) Diga qual o significado estatístico do percentil 75 para o FEV1? O percentil 75 indica a medida de FEV1 tal que 75% dos valores medidos sejam iguais ou inferiores à ela. 8) Um pesquisador, desejando estudar a qualidade de vida nos 120 bairros de uma cidade, mediu quatro variáveis em cada um. Na Tabela 1 a seguir são mostradas algumas estatísticas descritivas destas variáveis. Tabela 1: Estatísticas descritivas das quatro variáveis medidas nos 120 bairros pesquisados. Variáveis Média Mediana DP AT Min. Max. Percentil l 25 Percentil 75 Renda domiciliar per capita (em reais) 700 350 200 1000 100 1100 200 600 Porcentagem de casas com energia elétrica 80 80 8 40 60 100 72 88 Porcentagem de casas com saneamento básico 76 70 15 40 60 100 65 77 Número de praças públicas 4 8 2 10 0 10 4 9 DP: desvio padrão; AT: amplitude total; Min.: menor valor; Max.: maior valor. a) Em qual dessas variáveis os bairros são mais homogêneos? Em qual eles variam mais? Justifique. Para verificar homogeneidade, calculamos o coeficiente de variação para as variáveis estudadas para medir a variabilidade em função da média: Renda domiciliar per capita (em reais) = 0,2857143 Porcentagem de casas com energia elétrica = 0,1 Porcentagem de casas com saneamento básico = 0,1973684 Número de praças públicas = 0,5 Observando os resultados acima, temos que a variável que mede o percentual de casas com energia elétrica é a mais homogênea e a variável número de praças públicas a mais heterogênea. b) Qual variável da Tabela 1 está representada no Histograma A? E no Histograma B ? Justifique. Histograma A Histograma B De acordo com os limites mínimos e máximos, as variáveis representadas são: Porcentagem de casas com energia elétrica e Porcentagem de casas com saneamento básico. Observando as medidas de tendência central da tabela, tem-se que a primeira, possui mediana igual a 80 e a segunda mediana igual a 76 e, portanto, menor que a primeira. Logo, o histograma A é da variável que mede o percentual de casas com energia elétrica e o histograma B é da variável que mede o percentual de casas com saneamento básico.
Compartilhar