Prévia do material em texto
Departamento: Departamento de Matemática Disciplina: Estatística Nível: Graduação Monitores: Cassio Basile, Rafael Pinholi e Tiago Almeida Docente(s) Responsável(eis): Profa Gláucia Amorim Faria, Prof. Alan Rodrigo Panosso e Profa Mara Lúcia Martins Lopes 5ª Lista de Estatística Estatística Descritiva: Medidas de Dispersão I - Exercício Resolvido Exemplo 1 (FERREIRA, 2015) Os dados apresentados a seguir referem-se ao levantamento dos intervalos de parto em meses para uma amostra em n = 20 produtores rurais atendidos pelo plano “Panela Cheia” (Roesler, 1997), realizado na região oeste do Paraná, no município de Marechal Cândido Rondon, em 1992. Os resultados dos intervalos entre partos em meses são dados por: 11,80 11,90 12,00 12,30 12,80 12,99 13,10 13,50 13,80 14,10 14,55 14,65 14,70 15,00 15,10 15,20 15,50 15,80 15,90 15,96 a. Obter a amplitude total (A). Qual é o seu significado e suas limitações? b. Obter a variância S² e o desvio padrão S. c. Determinar o coeficiente de variação CV. Qual é seu significado? Qual é a principal diferença entre o desvio padrão e de variância? d. Se cada dado for dividido por 12, para se obter o intervalo entre partos em anos, quais serão os novos valores da amplitude, variância, desvio padrão, CV e erro padrão da média? Resposta As medidas de dispersão e as demais quantidades solicitadas a respeito dos dados dos intervalos de partos do município de Marechal Cândido Rondon são: a) A amplitude é dada por: A =x(n) − x(1) = 15,96 − 11,80 = 4,16 meses. A amplitude total representa a variação entre o menor e o maior valor, sendo simples de calcular e interpretar. Possui a limitação de tender a aumentar com o aumento da amostra, pois quanto maior a amostra maior a chance de amostrar valores extremos da população que ocorrem com baixa frequência. Também é influenciada por valores extremos, os outliers, pois envolve apenas o valor mínimo e máximo da amostra. Da mesma forma, por considerar apenas os dois valores extremos da amostra, pode não retratar a real variabilidade do conjunto de dados. Veja o exemplo: 2, 4, 4, 4, 4, 4, 4, 10. A amplitude total é igual a 8, mas os dados intermediários da amostra não apresentam variabilidade. b) A variância e o desvio padrão são: �� = 119 ��11,80� + ⋯ + 15,86²� − �11,80� + ⋯ + 15,86²�² 20 � �� = ��� �3975,717 − ���,��²�� � = 1,973451 !"² e, � = #1,973451 = 1,404796 !". c) O coeficiente de variação CV é dado por: %& = 1,40479614,0325 ×100% = 10,01102% O coeficiente de variação expressa a variabilidade da amostra em porcentagem da média, sendo uma medida adimensional que não depende da grandeza dos dados. Já a variância e o desvio padrão, são medidas de variabilidade absoluta dos dados em torno da média. A diferença entre as duas medidas é que a variância é uma grandeza que está na unidade dos dados ao quadrado (meses2) e o desvio padrão, na mesma unidade dos dados, sendo mais fácil de interpretar. d) O erro padrão da média é dado por: �)* = �√, = 1,404796 √20 = 0,3141219 Para responder a questão formulada, é necessário obter o coeficiente de precisão por %- = �)*.* ×100% = 0,3141219 14,0325 ×100% = 2,238531% Como o erro padrão representou apenas 2,24% do valor médio, concluí-se que a média popula- cional foi estimada com alta precisão, pois o erro relativo (CP) foi muito pequeno. Para representar um conjunto de dados com duas medidas descritivas, deve-se utilizar uma medida de posição e outra de dispersão. Se a amostra possuir uma distribuição simétrica ou com pequena assimetria apenas, deve-se utilizar a média como medida de posição. Se a distribuição for assimétrica, as medidas de posição robustas, como mediana e moda, devem ser preferidas, pois são pouco influenciadas por valores extremos. Como medida de dispersão, podemos utilizar ou a variância, ou o desvio padrão ou o coeficiente de variação, se o interesse for retratar a variabilidade entre os elementos da amostra em relação a sua média. Se por outro lado, o interesse for na precisão da estimativa da média populacional, ou o erro padrão ou o CP devem ser utilizados. A escolha entre uma medida absoluta e relativa fica a critério do pesquisador, pois podemos facilmente migrar de uma para outra. f) As novas medidas de variabilidade após a divisão dos dados originais pela constante k = 12 são: i) A nova amplitude total é: /∗ = 12 = 3,���� = 0,3466667 4,5. ii) A nova variância é: ��∗ = 6727 = �,�893����² = 0,01370452 4,5² iii) O novo desvio padrão é: �∗ = 62 = �,3�38���� = 0,1170663 4,5. iv) O novo CV é: %&∗ = 6∗)*∗ ×100% = 6 2:)* 2: ×100% = %& = 10,01102% Isto indica que a variabilidade relativa não se altera, com a transformação de unidade, mas as variabilidades absolutas são alteradas. v) O novo erro padrão da média e o novo CP são: �)*∗ = 6;<2 = �,9�3������ = 0,02617682 e %-∗ = %- = 2,238531% Exemplo 2 Agrupar os dados do intervalo entre partos em classes (distribuição de frequências), resolver e responder as questões apresentadas a seguir: a. Determinar a média, a mediana e a moda. b. Calcular a amplitude, variância, desvio padrão, CV , erro padrão da média e CP. c. Após o programa Panela Cheia o intervalo de partos apresentou média de 13,85 e desvio padrão de 2,00 meses. Qual é a situação que apresentou maior variabilidade, anterior ou posterior ao Plano Governamental? Em qual caso a média foi calculada com maior precisão? Justifique sua resposta com os cálculos apropriados. Resposta Para agrupar os dados deve-se obter: O número de classe é dado por k = √n = √20 ≈ 4 e amplitude total por A = X(20) − X(1) = 15,96−11,80 = 4,16. Assim, a amplitude de classe é dada por c = A/(k −1) = 4,16/3 ≈ 1,39 e o limite inferior da primeira classe por LI1 = x(1) −c/2 = 11,80−1,39/2 = 11,11. Os demais limites de classe são obtidos somando-se c = 1,39 aos limites anteriormente obtidos. A distribuição de frequências é: Classe de Peso Xi Fi Fri Fpi(%) 11,11|--12,50 11,81 4 0,20 20 12,50|--13,89 13,20 5 0,25 25 13,89|--15,28 14,59 7 0,35 35 15,28|--16,67 15,98 4 0,20 20 a. A média aritmética é dada por: A diferença encontrada para a média dos dados não agrupados (14,0325) pode ser atribuída ao agrupamento. Toda forma de representar os dados de uma maneira mais simplificada conduz a algum tipo de perda de precisão. Ms o que deve ficar claro é que apesar de menos precisa, a estimativa obtida a partir dos dados agrupados é uma “estimativa confiável” da média populacional, tanto quanto a estimativa dos dados originais. A perda de precisão é, em geral, pequena e pode ser considerada desprezível. A mediana é obtida da seguinte maneira. A classe mediana é aquela que contém a posição número n/2 = 20/2 = 10. Portanto, a classe mediana é a terceira, pois as frequências acumuladas das duas primeiras classes somam apenas 9, que é inferior a 10. Logo, Para obter a moda, é necessário determinar a classe de maior frequência, ou seja, a classe modal. A classe modal neste exercício é a terceira. A diferença das frequências da classe modal e classe anterior é ∆1 = 7−5 = 2 e a diferença das frequências da classe modal e classe posterior é ∆2 = 7−4 = 3. Assim, tem-se As três medidas, média, mediana e moda, estão muito próximas e isso é um indicativo que a distribuição dos dados deve ser aproximadamente simétrica. b. As medidas de dispersão para os dados agrupados são dadas na sequência. A amplitude total é dada por a variância, por o desvio-padrão, por o erro-padrão da média, por e o CP, por c. Para responder estas questões é necessário determinar o CV e o CP, antes e após o plano panela cheia. Na tabela seguinte foram resumidas as informações necessárias. medida de variabilidade Antes do plano Após o plano CV 10,01% 14,44% CP 2,24%3,23% Como o CV do pós plano é maior do que o CV pré plano, há uma maior variabilidade dos intervalos de parto após o plano panela cheia ter sido implementado. Da mesma forma, houve uma menor precisão na estimativa da média populacional na situação pós plano, pois o erro padrão expresso em porcentagem da média (CP) foi maior do que na situação pré plano. II - Exercícios Propostos 1 - O que acontece com a média, a mediana e o desvio padrão de uma série de dados quando (BUSSAB e MORETTIN, 2013): a. Cada observação é multiplicada por 2? b. Soma-se 10 a cada observação? c. Subtrai-se a média geral de cada observação? 2 - Os ganhos de peso, em kg, de 80 novilhos nelore mantidos numa pastagem em determinado período foram os seguintes (LIMA e LIMA, 2015): 36 45 60 39 57 32 39 40 63 37 42 42 44 30 47 39 15 39 25 39 57 48 44 37 44 38 21 56 52 50 41 37 39 28 43 39 29 45 48 46 31 34 36 38 43 24 38 41 46 42 33 30 36 23 39 35 33 35 47 39 28 31 32 49 39 19 49 39 42 43 20 58 34 56 35 50 27 36 40 37 a) Calcule a amplitude Total, variância, desvio-padrão, e cv. 3 - Estudando-se o consumo diário de leite, verificou-se que em certa região, 20% das famílias consomem até um litro, 50% consomem entre 1 e 2 litros, 20% consomem entre 2 e 3 litros e o restante consome entre 3 e 5 litros. Para a variável em estudo (BUSSAB e MORETTIN, 2013): a. Construa um histograma; b. Calcule a variância e o desvio padrão; c. Qual o valor do 1ª quartil. 4 - São contadas o número de lagartas tipo “rosca”(Agrotis ipisilon) em 25 canteiros de mudas de eucalipto da Fazenda Experimental da UFLA. Encontrou-se o seguinte resultado (LIMA e LIMA, 2015: 1 1 3 3 1 4 2 0 4 4 1 1 3 2 3 4 0 2 0 3 1 1 2 1 2 a) Calcule a amplitude total, variância, desvio-padrão, e cv. 5 - A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada na tabela abaixo (BUSSAB e MORETTIN, 2013): a. Qual a média e o desvio padrão da variável salário? b. O bairro B apresenta para a mesma variável uma média de 7,2 e um desvio padrão de 15,1. Em qual dos bairros a população é mais homogênea quanto a renda? 6 - Resuma os pesos de 50 espigas de milho (expressos em gramas) amostradas de um paiol na tabela de distribuição de frequência abaixo (LIMA e LIMA, 2015): Dados brutos, ordenados: 184 184 185 186 187 188 189 190 190 191 192 193 193 193 194 194 195 195 195 195 195 195 195 195 195 196 197 197 198 198 199 199 200 200 200 201 201 203 203 204 204 205 205 206 206 207 207 208 210 211 Tabela de Distribuição de Frequência a) Calcule a amplitude total, variância, desvio-padrão, e cv. 7 - Dado o histograma abaixo, calcular a média, a variância, a moda, a mediana e o 1º quartil (BUSSAB e MORETTIN, 2013): 8 - A Sports Authority vende cinco tipos diferentes de bolas medicinais, cujos pesos (em kg) são dados na tabela a seguir (KOKOSKA, 2012): 10 12 15 18 25 a. Ache a variância e o desvio-padrão para a média amostral. b. Suponha que uma amostra aleatória de tamanho três seja selecionada dessa população sem reposição. Ache a média, a variância e o desvio-padrão para a mediana amostral. 10 - Os dados a seguir referem-se ao número de galhas de nematóides observadas em n = 85 plantas de uma determinada espécie. A amostra foi obtida na UFLA, Lavras, MG. Determinar: a) Calcular: a amplitude, variância, desvio padrão e o erro padrão da média. b) Determinar: CV e CP. c) Se os dados forem multiplicados por k = 10, quais são os novos valores de todas estas medidas de dispersão? 11 - No Posto Agrometeorológico da seção de Climatologia Agrícola da EMBRAPA em Itaguaí, RJ, foram registrados a evaporação e a insolação, durante o período de 1961 à 1996. As médias mensais encontradas durante o período foram as seguintes (LIMA e LIMA, 2015): Evaporação (mm): 97,9 94,1 77,4 71,3 73,4 75,5 86,2 105,9 99,2 93,6 79,6 87,3 Insolação (horas): 199,1 184,3 190,6 190,9 201,6 200,6 211,1 208,1 141,1 141,1 151,1 164,4 a) Qual atributo meteorológico é mais variável? b) Indique e justifique a medida estatística utilizada na comparação. 12 - Um pesquisador da área de Ciência de Alimentos examinou juntamente com sua equipe um lote de 150 caixas de bananas-maçã escolhidas aleatoriamente de um carregamento de 10.000 caixas, anotando o número de pencas com “empedramento”. Foram obtidos os seguintes resultados (LIMA e LIMA, 2015): a) Qual é o número médio de pencas empedradas por caixa? b) Qual é o desvio-padrão do número de pencas empedradas por caixa? c) Qual deverá ser a estimativa do número total de pencas empedradas no carregamento? 13 - Uma pesquisa recente com estudantes da Minneapolis North High School incluiu uma pergunta sobre o número de computadores em suas casas. Os dados (agrupados) estão resumidos a seguir (KOKOSKA, 2012): Número de Computadores Frequência da Ocorrência 0 3 1 27 2 23 3 7 4 3 5 1 Encontre a variância, o desvio padrão amostral e o coeficiente de variação dos números de computadores nas casas. 14 - Considere o seguinte conjunto de dados (KOKOSKA, 2012). 21 28 38 12 33 47 51 11 81 36 a. Ache a variância amostral e o desvio-padrão amostral. b. Subtraindo-se 20 de cada observação na parte (a), forma-se um novo conjunto de dados. 1 8 18 -8 13 27 31 -9 61 16 Ache a variância amostral e o desvio-padrão amostral para esse novo conjunto de dados. Como esses valores se relacionam com a variância amostral e o desvio-padrão amostral encontrados na parte (a)? c. Se cada observação na parte (a) for multiplicada por 20, forma-se o seguinte conjunto de dados. 420 560 760 240 660 940 1020 220 1620 720 Ache a variância amostral e o desvio-padrão amostral para esse novo conjunto de dados. Como esses valores se relacionam com a variância amostral e o desvio-padrão amostral encontrados na parte (a)? 15 - Duas medidas destinadas a dar uma medida relativa de variabilidade são o coeficiente de variação, denotado por CV, e o coeficiente de variação quartílica, denotado por CVQ. Essas medidas são definidas por: %& = 6)* ×100% %&= = >?@>A>?B>A ×100% Registraram-se as áreas (em pés quadrados) para casas construídas em dois novos empreendimentos residenciais em San Antonio (um na região Norte Central e um na região Oeste da cidade) e os dados constam da tabela que segue (KOKOSKA, 2012). Empreendimento Norte Central 2038 1939 2024 1990 2109 2102 1918 20222 Empreendimento Região Oeste 2061 2383 2638 2142 2382 1489 2070 2340 1725 2368 1674 1877 a. Calcule CV e CVQ para cada empreendimento. b. Compare os coeficientes de variação e os coeficientes de variação quartı́lica, respectivamente, para os dois empreendimentos. Qual conjunto de dados tem maior variabilidade? 16 - Os dados abaixo se referem à produção média diária, em quilogramas, de leite de um rebanho da raça Gir, pertencente à Fazenda Santana da Serra no Município de Cajuru, SP (PANOSSO, 2015). Produção de Leite (kg) Nº de Vacas [ 3, 7) 22 [ 7, 11) 35 [11, 15) 52 [15, 19) 85 [19, 23) 63 [23, 27) 43 [27, 31) 28 Total 328 a. Calcular a variância, o desvio padrão e o coeficiente de variação (CV). b. Construa o gráfico de Boxplot para esta variável. c. Considerando que até um CV de 20%, o rebanho é tomado como homogêneo, qual a sua conclusão para esse rebanho. Referencias Bibliográficas: ● BUSSAB, W.O. e MORETTIN, P.A. Estatística Básica. 8. ed. São Paulo, Atual Editora, 2013. ● FERREIRA, D. F. Lista da 4a aula prática da disicplina GEX112. Disponível em: <http://www.dex.ufla.br/~danielff/cex163.htm>. Acessado em 16 de novembro de 2016. ● KOKOSKA, Stephen. Introdução à Estatística - Uma Abordagem por Resolução de Problemas. LTC, 12/2012. VitalBook file. ● PANOSSO, A. R. no Lista de Exercício. UNESP-Campus Ilha Solteira). ● LIMA, P. C.; LIMA, R.R. de. Guia de Estudos de Estatistica, Apostila utilizada nos cursos de nivelamento de estatística da pós graduação da UFLA. 2015.