Baixe o app para aproveitar ainda mais
Prévia do material em texto
MAIS DE 30 M ILHÕE S DE EXEM PLARE S VEN DIDOS NO M UNDO 486 problemas resolvidos passo a passo 660 problemas práticos adicionais Metodologia que facilita o aprendizado Inclui soluções de problemas com os softwares mais usados MURRAY R. SPIEGEL LARRY J. STEPHENS ESTATÍSTICA 4a edição S755e Spiegel, Murray R. Estatística [recurso eletrônico] / Murray R. Spiegel, Larry J. Stephens ; tradução José Lucimar do Nascimento. – 4. ed. – Dados eletrônicos. – Porto Alegre : Bookman, 2009. Editado também como livro impresso em 2009. ISBN 978-85-7780-520-4 1. Estatística. I. Stephens, Larry J. II. Título. CDU 311 Catalogação na publicação: Renata de Souza Borges CRB-10/Prov-021/08 Murray R. Spiegel recebeu o grau de M.S. em Física e o de Ph.D. em Matemática na Cornell University. Ele foi cogitado para estudar em Harvard University, Columbia University, Oak Ridge e Rensselaer Polytechnic Institute e trabalhou como consultor em matemática para diversas empresas de grande porte. Atualmente é Professor e Presidente do Departamento de Matemática no Rensselaer Polytechnic Institute no Hartford Graduate Center. Ele interessou-se por vários ramos da matemática, especialmente aqueles que envolvem a aplicação em problemas de física e engenharia. Ele foi autor de diversos artigos de jornais e 14 livros em vários ramos da matemática. Larry J. Stephens é Professor de Matemática na University of Nebraska em Omaha, onde leciona desde 1974. Ele também lecionou na University of Arizona, Gonzaga University e Oklahoma State University. Trabalhou também em instituições como a NASA, a Lawrence Berkeley National Laboratory e o Los Alamos National Laboratory. Fez extensos trabalhos de consultoria e, ao longo de 10 anos foi consultor e responsável por seminários num gru- po de engenheiros da 3M em Valley, Nebraska. O Dr. Stephens tem mais de 35 anos de experiência no ensino de metodologia estatística, estatística em engenharia e estatística matemática. Tem mais de 50 publicações em jornais profi ssionais, e escreveu livros que fazem parte da Coleção Schaum bem como livros da série Utterly Confused and Demystifi ed publicado pela McGraw-Hill. DISPERSÃO OU VARIAÇÃO O grau para o qual os dados numéricos tendem a dispersar-se em torno de um valor médio é denominado de variação ou dispersão dos dados. Existem várias medidas de dispersão ou variação, sendo as mais comuns a am- plitude total, o desvio médio, a semi-amplitude interquartílica, a amplitude entre os percentis 10 e 90 e o desvio padrão. AMPLITUDE TOTAL A amplitude total de um conjunto de números é a diferença entre o maior e o menor número do conjunto. Exemplo 1 a amplitude total do conjunto 2, 3, 3, 5, 5, 5, 8, 10, 12, é: 12 – 2 � 10. Algumas vezes, a amplitude total é indicada, simplesmente, pela citação do menor e do maior número. Neste caso, por exemplo, a amplitude total poderia ser indicada como 2 a 12 ou 2–12. DESVIO MÉDIO O desvio médio de um conjunto de N números X1, X2,..., XN é abreviando por DM e é definido por em que é a média aritmética dos números e é o valor absoluto do desvio de em relação a (O valor absoluto de um número é ele próprio, sem o sinal que lhe é associado, e é indicado por meio de duas linhas verticais, uma em cada lado do número; assim, ⎪ – 4⎪ � 4; ⎪ + 3⎪ � 3 ⎪ 6⎪ � 6; ⎪ – 0,84⎪ � 0,84.) Desvio Padrão e Outras Medidas de Dispersão Capítulo 4 116 ESTATÍSTICA Exemplo 2 Determine o desvio médio do conjunto de números 2, 3, 6, 8, 11. Se X1, X2,..., XK ocorrem com as freqüências f1, f2,..., fK respectivamente, o desvio médio poderá ser escrito como em que Essa forma é útil para dados agrupados, em que os representam os pontos mé- dios e os são as freqüências de classe correspondentes. Ocasionalmente, o desvio médio é definido em termos dos desvios absolutos, em relação à mediana ou a ou- tra média, em vez da aritmética. Uma propriedade interessante da soma é que ela é mínima quando a é a mediana, ou seja, o desvio médio em relação à mediana é um mínimo. Note que seria mais apropriado usar a terminologia desvio médio absoluto, em vez de desvio médio. AMPLITUDE SEMI-INTERQUARTÍLICA A amplitude semi-interquartílica ou desvio quartílico de um conjunto de dados é indicada por Q e é definida por em que Q1 e Q3 são o primeiro e o terceiro quartis referentes aos dados (veja os Problemas 4.6 e 4.7). A amplitude interquartílica Q3 – Q1 é usada algumas vezes, mas a amplitude semi-interquartílica é mais comum como medida de dispersão. AMPLITUDE ENTRE OS PERCENTIS 10 E 90 A amplitude percentílica entre 10 e 90 de um conjunto de dados é definida por em que P10 e P90 são o 10º e 90º percentis referentes aos dados (veja o Problema 4.8). A semi-amplitude percen- tílica entre 10 e 90, ½ (P90 – P10), também pode ser usada, mas normalmente isso não acontece. DESVIO PADRÃO O desvio padrão de um conjunto de N números X1, X2,..., XN é indicado por s e definido por em que x representa o desvio de cada um dos números Xj em relação à média Assim, s é a raiz média quadrática (RMS) dos desvios, em relação à média ou, como é muitas vezes denominado, o desvio da raiz média quadrática. CAPÍTULO 4 • DESVIO PADRÃO E OUTRAS MEDIDAS DE DISPERSÃO 117 Se X1, X2,..., XK ocorrem com as freqüências f1, f2,..., fK, respectivamente, o desvio padrão pode ser definido como em que Esta equação é útil para os dados agrupados. Às vezes, o desvio padrão correspondente aos dados de uma amostra é definido com (N – 1), em lugar de N nos denominadores das Equações (5) e (6), porque o valor resultante representa uma estimativa melhor do des- vio padrão da população da qual a amostra foi extraída. Para grandes valores de N (certamente N > 30) não há, praticamente, diferenças entre as duas definições. Também, quando for necessária melhor estimativa, poderá ser obtida multiplicando-se o desvio padrão, calculado de acordo com a primeira definição, por Por essa razão, podemos conservar a definição anteriormente apresentada nas Equações (5) e (6). VARIÂNCIA A variância de um conjunto de dados é definida como o quadrado do desvio padrão e é, deste modo, representada por s2, símbolo definido nas Equações (5) e (6). Quando é necessário distinguir entre o desvio padrão de uma população e o de uma amostra dela, adota-se freqüentemente o símbolo s para o último e (letra minúscula grega sigma) para o primeiro, assim, s2 e repre- sentariam a variância da amostra e a variância da população, respectivamente. MÉTODOS ABREVIADOS PARA O CÁLCULO DO DESVIO PADRÃO As Equações (5) e (6) podem ser escritas, respectivamente, sob as formas equivalentes em que indica a média dos quadrados dos diferentes valores de X, ao passo que indica o quadrado da média dos diferentes valores de X (veja os Problemas 4.12 e 4.14). Se é o desvio de cada valor de , em relação a uma constante arbitrária A, os resultados de (7) e (8) tornam-se, respectivamente, (Veja os Problemas 4.15 e 4.17.) 118 ESTATÍSTICA Quando os dados estão agrupados em uma distribuição de freqüência, cujos intervalos de classe têm a mesma amplitude c, temos ou e o resultado de (10) torna-se Esta equação proporciona um método bastante abreviado para o cálculo do desvio padrão, que deveria ser sempre usada para dados agrupados, quando as amplitudes dos intervalos de classe forem iguais. Esse é denominado método abreviado e é exatamente análogo ao utilizado para o cálculo da média aritmética dos dados agrupados, no Capítulo 3 (veja os Problemas 4.16 a 4.19). PROPRIEDADES DO DESVIO PADRÃO 1. O desvio padrão (DP) pode ser definido por em que a é uma média próxima da aritmética. De todos esses desvios padrões, o mínimo é aquele para o qual por causa da Propriedade 2 no Capítulo 3. Essa propriedade fornece uma importante razão para que o des- vio padrão seja definido como acima. Para a demonstração dessa propriedade, veja o Problema 4.27. 2. Para as distribuições normais (veja o Capítulo 7) isso significaque (como mostra a Figura 4-1): (a) 68,27% dos casos estão incluídos entre e (ou seja, um desvio padrão de cada lado da média). (b) 95,45% dos casos estão incluídos entre e (ou seja, dois desvios padrões de cada lado da média). (c) 99,73% dos casos estão incluídos entre e (ou seja, três desvios padrões de cada lado da média). Para as distribuições moderadamente assimétricas, as porcentagens acima podem ser aproximadamente man- tidas (veja o Problema 4.24). 3. Suponha-se que dois conjuntos constem de N1 e N2 números (ou duas distribuições de freqüência com as freqüências totais N1 e N2), tenham variâncias dadas por e , respectivamente, e a mesma média En- tão, a variância conjunta ou combinada de ambos os conjuntos (ou ambas as distribuições de freqüências) é dada por Note que é a medida aritmética ponderada das variâncias. Esse resultado pode ser generalizado para três ou mais conjuntos. 4. O teorema de Chebyshev afirma que para existe pelo menos de distribuição de probabilidade para qualquer variável dentro de k desvios padrão da média. Em particular, quando k � 2, exis- te pelo menos ou 75% dos dados no intervalo quando k � 3 existem pelo menos ou 89% dos dados no intervalo e quando k � 4 existem pelo menos ou 93,75% dos dados no intervalo CAPÍTULO 4 • DESVIO PADRÃO E OUTRAS MEDIDAS DE DISPERSÃO 119 Média DP Média DP Média DP Média DP Média DP Média DP Figura 4-1 Ilustração da regra empírica. CONTROLE DE CHARLIER O controle de Charlier, para os cálculos da média e do desvio padrão pelo método abreviado (desvio em classes), utiliza as seguintes identidades (Veja o Problema 4.20.) 120 ESTATÍSTICA CORREÇÃO DE SHEPPARD PARA A VARIÂNCIA O cálculo do desvio padrão conduz a certo erro, devido ao agrupamento dos dados em classes (erro de agrupa- mento). Para corrigir o erro de agrupamento, adotamos a seguinte equação Variância corrigida variância de dados agrupados em que c é a amplitude do intervalo de classe. O termo corretivo, c2⁄12, que é subtraído, é denominado correção de Sheppard. É usado para as distribuições de variáveis contínuas, cujas “extremidades” tendem gradualmente para zero em ambas as direções. Os estatísticos divergem a respeito de quando e se as correções de Sheppard devem ser aplicadas. Certamen- te, elas não deveriam ser aplicadas sem um exame completo da situação. Isso não somente porque muitas vezes elas tendem a super corrigir, substituindo erros antigos por novos. Neste livro, a menos que haja indicação em contrário, não serão usadas essas correções. RELAÇÕES EMPÍRICAS ENTRE AS MEDIDAS DE DISPERSÃO Para as distribuições moderadamente assimétricas, temos as fórmulas empíricas Desvio médio (desvio padrão) Amplitude semi-interquartílica (desvio padrão) Essas expressões resultam do fato de que para distribuições normais, o desvio médio e a amplitude semi-inter- quartílica são iguais, respectivamente, a 0,7979 e 0,6745 vezes o desvio padrão. DISPERSÃO ABSOLUTA E RELATIVA. COEFICIENTE DE VARIAÇÃO A variação ou dispersão real, determinada a partir do desvio padrão, ou qualquer outra medida de dispersão, é denominada dispersão absoluta. Entretanto, uma variação ou dispersão de 10 cm, na medida de uma distância de 1.000 m, é inteiramente diferente, quanto ao efeito, da mesma variação de 10 cm em uma distância de 20 m. Uma medida desse efeito é proporcionada pela dispersão relativa, definida por Se a dispersão absoluta é o desvio padrão s e a média é a aritmética a dispersão relativa é denominada coeficiente de variação ou de dispersão; este é indicado por V e dado por Coeficiente de variação e geralmente expresso em percentagem. Outras possibilidades também ocorrem (veja o Problema 4.30). Note que o coeficiente de variação é independente das unidades adotadas. Por isso, é útil na comparação de distribuições cujas unidades podem ser diferentes. Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando está próximo de zero. CAPÍTULO 4 • DESVIO PADRÃO E OUTRAS MEDIDAS DE DISPERSÃO 121 VARIÁVEL PADRONIZADA, ESCORES PADRONIZADOS A variável que mede o desvio em relação à média, em unidades de desvio padrão, é denominada variável padro- nizada e é uma quantidade adimensional (ou seja, independe das unidades usadas), e é dada por Se os desvios em relação à média forem dados em unidades de desvio padrão, diz-se que estão expressos em unidades padrão ou escores padrão. Essas grandezas são muito valiosas para a comparação das distribuições (veja o Problema 4.31). SOFTWARE E MEDIDAS DE DISPERSÃO Os softwares usados em estatística fornecem uma variedade de medidas de dispersão. As medidas de dispersão são geralmente dadas em estatística descritiva. O EXCEL permite ao usuário o cálculo de todas as medidas discu- tidas nesse livro. O MINITAB e o EXCEL são discutidos e as respostas de outros pacotes de softwares são dadas nos problemas resolvidos. Exemplo 3 (a) O EXCEL fornece os cálculos de várias medidas de dispersão. O exemplo a seguir ilustra várias desses medi- das. Foi feita uma pesquisa em uma grande companhia e a pergunta foi: quantos e-mails você envia por sema- na? Os resultados para 75 empregados são mostrados em A1:E15 de uma planilha EXCEL. A amplitude é dada por �MAX(A1:E15)–MIN(A1:E15) ou 125 – 24 � 101. O desvio médio é dado por �AVEDEV(A1:E15) ou 24,42. A amplitude semi-interquartílica é dada pela expressão �(PERCENTILE(A1:E15,0.75)- PERCENTILE(A1:E15,0.25))/2 ou 22. A amplitude percentílica entre 10 e 90 é dada por PERCENTILE(A1:15,0.9)- PERCENTILE(A1:E15,0.1) ou 82,6. O desvio padrão e a variância são dados por �STDEV(A1:E15) ou 29,2563 e �VAR(A1:E15) ou 855,932 para amostras e �STDEVA(A1:E15) ou 29,0606 e �VARP(A1:E15) ou 844,52 para populações. 122 ESTATÍSTICA Figura 4-2 Caixa de diálogo do MINITAB. A caixa de diálogo na Figura 4-2 mostra as opções de escolha no MINITAB para medidas de dispersão e de tendên- cia central. O resultado de saída é o seguinte: Estatística descritiva: e-mails Problemas Resolvidos Amplitude total 4.1 Determine a amplitude total de cada um dos conjuntos de números: (a) 12, 6, 7, 3, 15, 10, 18, 5; (b) 9, 3, 8, 8, 9, 8, 9, 18. SOLUÇÃO Em ambos os casos, amplitude total � número maior – número menor � 18 – 3 � 15. Entretanto, como se vê nos róis de (a) e de (b), há variação ou dispersão muito maior em (a) do que em (b). De fato, (b) consiste, principalmente, de oitos e noves. Como a amplitude total não indica nenhuma diferença entre os conjuntos, não é uma boa medida de dispersão para este caso. Em geral, quando houver valores extremos, a amplitude total é uma medida insatisfatória para a dispersão. Consegue-se um aperfeiçoamento, mediante a exclusão dos casos extremos 3 e 18. Então, para (a), a amplitude total é (15 – 5) � 10, enquanto para (b) ela é (9 – 8) � 1, o que indica claramente o fato de (a) apresentar maior dis- persão do que (b). Entretanto, não é desse modo que a amplitude total é definida. O intervalo semi-interquartílico e a amplitude entre os percentis 10 e 90 foram planejados para melhorar a amplitude total, mediante a eliminação dos casos extremos. 4.2 Determinar a amplitude total das alturas dos estudantes da Universidade XYZ, apresentada na Tabela 2.1. CAPÍTULO 4 • DESVIO PADRÃO E OUTRAS MEDIDAS DE DISPERSÃO 123 SOLUÇÃO Há duas maneiras para definir a amplitude total para os dados agrupados. 1º método Amplitude total � ponto médio da classe mais elevada � ponto médio da classe mais baixa � 186,5 � 154,5 � 32 cm. 2º método Amplitude total � limite superior verdadeiro da classe mais elevada � limite inferior verdadeiro da classe mais baixa � 190,5 – 150,5 � 40 cm. O 1º método tende a eliminar, de certo modo, os casos extremos. Desvio médio 4.3 Determine o desvio médio dos conjuntos de números de Problema 4.1. SOLUÇÃO (a) A média aritmética é O desvio médio é O desvio médio indica que o conjunto (b) apresenta dispersão menor do que (a), como esperado. Encerraaqui o trecho do livro disponibilizado para esta Unidade de Aprendizagem. Na Biblioteca Virtual da Instituição, você encontra a obra na íntegra. Página em branco
Compartilhar