Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 44 4 MEDIDAS DE DISPERSÃO 4.1 DEFINIÇÃO Medidas de dispersão ou medidas de variação são medidas que servem para descrever a variação dos dados de uma distribuição. As principais medidas de variação: (a) amplitude total, (b) desvio médio absoluto, (c) variância, (d) desvio padrão, (e) coeficiente de variação, (f) variância da média, (g) desvio padrão da média, etc. Suponhamos que uma determinada pessoa (Martha) retire 15 amostras de seu sangue, no mesmo dia, e manda fazer a análise de sangue em relação ao número de hemácias por mm3, em três laboratórios diferentes, usando cinco nomes falsos. O objetivo é saber a confiabilidade dos resultados (confiabilidade dos laboratórios). Os resultados, em milhões de hemácias por mm3, estão descritos na Tabela 4.1. Tabela 4.1. Análises de amostras de sangue, com relação ao número de hemácias (milhões/mm3), de Martha, em três laboratórios diferentes, usando cinco nomes falsos. Nomes Laboratórios A B C Kellen 5,2 5,1 7,4 Keila 5,8 5,0 3,5 Karla 4,6 5,0 4,1 Maria 4,4 4,9 6,8 Conceição 5,0 5,0 3,2 Médias 5,0 5,0 5,0 Analisando a Tabela 4.1, pode-se dizer que os três laboratórios são iguais, se levássemos em consideração somente as médias. Entretanto, se levarmos em consideração os valores das análises de sangue de cada laboratório, verificamos que o laboratório C é o menos confiável, pois apresentou maior variação entre os dados do sangue de uma mesma pessoa (Martha). Tanto é que ora diz que a Martha tem 7,4 milhões de hemácias/mm3 e ora diz que ela tem 3,2 milhões de hemácias/mm3, para um mesmo sangue. O mais confiável é o laboratório B, pois apresentou menor variação, isto Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 45 é, está variando de 4,9 a 5,1 milhões de hemácias/mm3 Esta variação dos dados pode ser representada por meio das medidas de dispersão. Portanto, para descrevermos uma população ou uma amostra, é necessário que as mesmas sejam representadas, no mínimo, por duas medidas, sendo uma de tendência central e outra de dispersão. Geralmente, estas duas medidas são a média e o desvio padrão. Deste exemplo, pode-se tirar as seguintes conclusões: a) a média (medida de tendência central) não é suficiente para mostrar a distribuição dos dados; b) quanto menor a variação, mais confiáveis são os dados; e c) necessitamos de uma outra medida para estudarmos a distribuição dos dados (medida de dispersão ou de variação). O leitor poderá notar que por meio das medidas de variação é possível saber qual laboratório é o mais confiável. Por exemplo, vamos supor que o laboratório C fosse um método tradicional de dosagem de hemácias e que os laboratórios A e B fossem dois novos métodos. Pode-se concluir que estes dois novos métodos aparentam ser melhores do que o tradicional e, para afirmarmos isto estatisticamente, seria necessário a aplicação do teste “F” de Snedecor, o qual será abordado oportunamente. 4.2 PRINCIPAIS MEDIDAS DE VARIAÇÃO OU DE DISPERSÃO 4.2.1 Amplitude total Por definição, amplitude total dos dados é a diferença entre os limites superior (maior valor) e inferior (menor valor) dos dados, isto é, AT = lim sup - lim inf. Exemplo 4.1. Determine na Tabela 5.1 a amplitude total dos dados. Solução: Laboratório A: AT = 5,8 - 4,4 = 1,4 milhões de hemácias/mm3. Laboratório B: AT = 5,1 - 4,9 = 0,2 milhões de hemácias/mm3. Laboratório C: AT = 7,4 - 3,2 = 4,2 milhões de hemácias/mm3. Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 46 O leitor poderá verificar que quanto menor a variação, menor será a amplitude total e, conseqüentemente, maior será a confiabilidade. Portanto, o laboratório B é o mais confiável, pois tem a menor amplitude total. Pode-se verificar que se não houvesse variação (todos os valores iguais), todas as medidas de dispersão seriam nulas. 4.2.2 Desvio médio absoluto Por definição, o desvio médio absoluto é a média dos desvios absolutos dos valores em relação à média. DM = Xi - X / n É uma medida de pouco uso em estatística. Exemplo 4.2. Calcule o desvio médio absoluto dos dados referentes a cada laboratório, na Tabela 4.2. Solução: Laboratório A: DM = Xi - X / n = { 5,2 - 5,0 + ... + 5,0 - 5,0 } / 5 = 2,0 / 5 = 0,4 milhões de hemácias por mm3. Laboratório B: DM = Xi - X / n = { 5,1 - 5,0 + ... + 5,0 - 5,0 } / 5 = 0,2 / 5 = 0,04 milhões de hemácias por mm3. Laboratório C: DM = Xi - X / n = { 7,4 - 5,0 + ... + 3,2 - 5,0 } / 5 = 8,4 / 5 = 1,68 milhões de hemácias por mm3. 4.2.3 Variância e desvio padrão A variância e o desvio padrão são as mais importantes medidas de dispersão. Há uma relação entre estas duas medidas. O desvio padrão é a raiz quadrada positiva da variância e, logicamente, a variância é o quadrado do desvio padrão. Por exemplo: Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 47 Se o desvio padrão vale 10, então a variância vale 100; se o desvio padrão vale 5 m, então a variância vale 25 m2; e se o desvio padrão vale 4 kg, então a variância vale 16 kg2 . Se a variância vale 36, então o desvio padrão vale 6 e se a variância vale 64 m2 então o desvio padrão vale 8 m. A unidade do desvio padrão é igual a dos dados e da média, enquanto que a unidade da variância é sempre ao quadrado. Como se vê, a variância não é expressa nas mesmas unidades dos dados originais, dificultando a compreensão da mesma, tendo em vista que kg2 é pouco usado, por exemplo. Temos a variância e o desvio padrão em populações e amostras. 4.2.3.1 Variância da população 4.2.3.1.1 Variância da população para dados não agrupados No caso de população, para dados não agrupados, a variância é representada por 2 (sigma dois) e este parâmetro é definido por: 2 = 1 N (Xi - )2 fórmula teórica 2 = 1 N { Xi2 - ( Xi )2 / N } fórmula prática Exemplo 4.3 É dada a população: X1 = 5 kg, X2 = 8 kg e X3 = 2 kg. Determine a variância usando as duas fórmulas. a) 2 = 1 N (Xi - )2 fórmula teórica. = x N i i N = 1 = 3 285 ++ = 3 15 = 5 kg 2 = 1 N (Xi - )2 = 3 1 (Xi - 5)2 = 3 1 { (5 - 5)2 + (8 - 5)2 + (2 - 5)2 } 2 = 3 1 { (0)2 + (3)2 + (-3)2 } = 3 18 = 6 kg2 b) 2 = 1 N { Xi2 - ( Xi )2 / N } fórmula prática Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 48 2 = 1 N { Xi2 - ( Xi )2 / N } = 3 1 { 52 + 82 + 22 – (5 + 8 + 2)2 / 3 } 2 = 3 1 { 52 + 82 + 22 – (5 + 8 + 2)2 / 3 } = 3 1 { 93 – (15)2 / 3 } = 3 1 { 93 – 75 } = 3 18 = 6 kg2 4.2.3.1.2 Variância da população para dados agrupados Quando os dados são apresentados por meio de freqüências, ou seja, os dados são agrupados, a variância é determinada pelas seguintes fórmulas: 2 = ( Xi - )2 fi / fi fórmula teórica 2 = { Xi2 fi - ( Xi fi )2 / fi } / fi fórmula prática Exemplo 4.4 É dada a população: X1 = 5 kg, f1 = 2; X2 = 8 kg, f2 = 4 e X3 = 2 kg, f3 = 4. Determine a variância usando as duas fórmulas. = Xi fi / fi = { 5 x 2 + 8 x 4 + 2 x 4 } / (2 + 4 + 4) = 50 / 10 = 5 kg a) 2 = ( Xi - )2 fi / fi fórmula teórica 2 = ( Xi - )2 fi / fi = { (5 – 5)2 x 2 + (8 – 5)2 x 4 + (2 – 5)2 x 4 } / 10 = 7,2 kg2 b) 2 = { Xi2 fi - ( Xi fi )2 / fi } / fi fórmula prática 2 = { 52 x 2 + 82 x 4 + 22 x 4 – (5 x 2 + 8 x 4 + 2 x 4)2 / 10 } / 10 2 = { 52 x 2 + 82 x 4 + 22 x 4 – (5 x 2 + 8 x 4 + 2 x 4)2 / 10} / 10 = { 322 – 250 } / 10 2 = 72 / 10 = 7,2 kg2 4.2.3.2 Desvio padrão da população 4.2.3.2.1 Desvio padrão da população para dados não agrupados No caso de população, para dados não agrupados, o desvio padrão é representado por (sigma) e este parâmetro é definido por: = { 2 }1/ 2 = { 1 N (Xi - )2 }1/ 2 fórmula teórica = { 2 }1/ 2 = [ 1 N { Xi2 - ( Xi)2 / N } ] 1/ 2 fórmula prática No caso do exemplo 4.3 o desvio padrão da população é dado por: = { 2 }1/ 2 = { 6 kg2 }1/ 2 = 26kg = 2,45 kg Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 49 4.2.3.2.2 Desvio padrão da população para dados agrupados Quando os dados são apresentados por meio de freqüências, ou seja, os dados são agrupados, o desvio padrão é determinado pelas seguintes fórmulas: = { 2 }1/ 2 = { ( Xi - )2 fi / fi }1/ 2 fórmula teórica = { 2 }1/ 2 = [ { Xi2 fi - ( Xi fi )2 / fi } / fi ]1/ 2 fórmula prática O exemplo 4.4 mostra que o desvio padrão é dado por: = { 2 }1/ 2 = { 7,2 kg2 }1/ 2 = 22,7 kg = 2,68 kg Nos cálculos dos desvios padrões, tanto para dados agrupados quanto para dados não agrupados, devemos primeiramente determinar as variâncias dos dados para depois extrairmos a raiz quadrada dos resultados e, desta forma, teremos os valores dos desvios padrões. A utilização da fórmula prática é sempre preferível, principalmente quando a média não é um valor exato. Já vimos que no caso de população, temos 4 fórmulas para a determinação da variância, sendo que duas delas referem-se a valores não agrupados (sem freqüências ou pesos) e as outras duas a dados agrupados. Em ambos os casos, têm-se fórmulas teóricas e práticas. Agora estudaremos a variância no caso de amostras. 4.2.3.3 Variância da amostra 4.2.3.3.1 Variância da amostra para dados não agrupados No caso de amostra, para dados não agrupados, a variância é representada por s2 (esse dois) e esta estimativa é definida por: s2 = 1 1n − (Xi - X )2 fórmula teórica s2 = 1 1n − { Xi2 - ( Xi )2 / n } fórmula prática Exemplo 4.5 É dada a amostra: X1 = 5 kg, X2 = 8 kg e X3 = 2 kg. Determine a variância usando as duas fórmulas. a) s2 = 1 1n − (Xi - X )2 fórmula teórica Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 50 X = n x n i i =1 = 3 285 ++ = 3 15 = 5 kg s2 = 1 1n − (Xi - X )2 = 13 1 − (Xi - 5)2 = 2 1 { (5 - 5)2 + (8 - 5)2 + (2 - 5)2 } s2 = 2 1 { (0)2 + (3)2 + (-3)2 } = 2 18 = 9 kg2 b) s2 = 1 1n − { Xi2 - ( Xi )2 / n } fórmula prática s2 = 1 1n − { Xi2 - ( Xi )2 / n } = 2 1 { 52 + 82 + 22 – (5 + 8 + 2)2 / 3 } s2 = 2 1 { 52 + 82 + 22 – (5 + 8 + 2)2 / 3 } = 2 1 { 93 – (15)2 / 3 } = 2 1 { 93 – 75 } = 2 18 = 9 kg2 4.2.3.3.2 Variância da amostra para dados agrupados Quando os dados são apresentados por meio de freqüências, ou seja, os dados são agrupados, a variância é determinada pelas seguintes fórmulas: s2 = ( Xi - X )2 fi / ( fi - 1) fórmula teórica s2 = { Xi2 fi - ( Xi fi )2 / fi } / ( fi - 1) fórmula prática Exemplo 4.6 É dada a população: X1 = 5 kg, f1 = 2; X2 = 8 kg, f2 = 4 e X3 = 2 kg, f3 = 4. Determine a variância usando as duas fórmulas. X = Xi fi / fi = { 5 x 2 + 8 x 4 + 2 x 4 } / (2 + 4 + 4) = 50 / 10 = 5 kg a) s2 = ( Xi - X )2 fi / ( fi –1) fórmula teórica s2 = ( Xi - X )2 fi / ( fi –1) = { (5 – 5)2 x 2 + (8 – 5)2 x 4 + (2 – 5)2 x 4 } / 9 = 8 kg2 b) s2 = { Xi2 fi - ( Xi fi )2 / fi } / ( fi –1) fórmula prática s2 = { 52 x 2 + 82 x 4 + 22 x 4 – (5 x 2 + 8 x 4 + 2 x 4)2 / 10 } / 9 s2 = { 52 x 2 + 82 x 4 + 22 x 4 – (5 x 2 + 8 x 4 + 2 x 4)2 / 10 } / 9 = { 322 – 250 } / 9 s2 = 72 / 9 = 8 kg2 4.2.3.4 Desvio padrão da amostra Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 51 4.2.3.4.1 Desvio padrão da amostra para dados não agrupados No caso de amostra, para dados não agrupados, o desvio padrão é representado por s (esse) e esta estimativa é definida por: s = { s2 }1/ 2 = { 1 1n − ( Xi - X )2 } 1/ 2 fórmula teórica s = { s2 }1/ 2 = [ 1 1n − { Xi2 - ( Xi )2 / n } ] 1/ 2 fórmula prática No caso do exemplo 4.5 o desvio padrão da população é dado por: s = { s2 }1/ 2 = { 9 kg2 }1/ 2 = 29kg = 3 kg 4.2.3.4.2 Desvio padrão da amostra para dados agrupados Quando os dados são apresentados por meio de freqüências, ou seja, os dados são agrupados, o desvio padrão da amostra é determinado pelas seguintes fórmulas: s = { s2 }1/ 2 = { ( Xi - X )2 fi / ( fi - 1) } 1 /2 fórmula teórica s = { s2 }1/ 2 = [ { Xi2 fi - ( Xi fi )2 / fi } / ( fi - 1) ]1 /2 fórmula prática O exemplo 4.6 mostra que o desvio padrão é dado por: s = { s2 }1/ 2 = { 8 kg2 }1/ 2 = 28kg = 2,83 kg Observação: Embora o leitor pense que a determinação da variância usando a fórmula teórica é mais fácil, isto não é verdade. O mais fácil é quando usamos a fórmula prática. No exemplo em questão, o uso da fórmula teórica se tornou mais fácil do que o da fórmula prática pois a média foi exata e sem casas decimais. 4.2.4 Coeficiente de variação O Coeficiente de variação (C.V.), em percentagem, é definido pela seguinte fórmula: C.V. = 100 s / X O coeficiente de variação dá uma idéia da precisão dos dados, isto é, quanto mais baixo, menor variação existe entre os dados, relativamente à média. Um cuidado especial deve ser tomado em relação ao coeficiente de variação. É quando a média dos dados tende para zero, porque neste caso o C.V. tenderá para infinito. Portanto, não faz sentido discutir o C.V. quando a média é próxima de zero. Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 52 Outro cuidado que deve ser tomado em relação ao coeficiente de variação é com relação à natureza dos dados, pois um coeficiente de variação de 20%, por exemplo, pode ser excelente para determinadas variáveis e razoável para outras. No caso da cultura da soja, um coeficiente de variação de 45% é péssimo para a produção de sementes e excelente para o número de nódulos, cujo coeficiente de variação é geralmente superior a 75%. Portanto, esta medida de dispersão deve ser utilizada com bastante cautela, pois depende do material que está sendo analisado. O coeficiente de variação serve também para comparar a variabilidade dos dados nos casos de dados de características diferentes. Por exemplo, quando se diz que a média do ganho de peso dos leitões aos 140 dias de idade é de 80 kg, com um desvio padrão de 8 kg, verifica-se que o coeficiente de variação é de 10%. Por outro lado, ao se afirmar que a média de glicose no sangue é de 90 mg/dL, com um desvio padrão de 9 mg/dL, significa que o coeficiente de variação é também de 10%. Portanto, o coeficiente de variação, que é uma medida relativa, expressa em percentagem, serve para comparar características diferentes, ou seja, peso de leitões (kg) com glicose nos sangue (mg/dL), cujas unidades são totalmente diferentes. Em ambos os casos o coeficiente de variação é de 10%, ou seja, têm a mesma variabilidade relativa. A variabilidade absoluta é determinada pelos valores da variância ou do desvio padrão e neste caso, a variabilidade absoluta de cada característica não poderia ser comparada, haja vista que são unidades diferentes. Assim, para se comparar a variabilidade entre os pesos dos leitões com as quantidades de glicose no sangue, somente podem ser usados os coeficientes de variação. Exemplo 4.7 Sejamtrês raças de leitões (Duroc, Landrace e New Hampshire), cujos resultados, aos 140 dias de idade, estão expressos na Tabela dada a seguir: Tabela 4.2. Médias, variâncias, desvios padrões e coeficientes de variação de três raças de leitões. Raças Médias Variâncias Desvios padrões C. Variação Duroc 100 kg 324 kg2 18 kg 18% Landrace 90 kg 324 kg2 18 kg 20% New Hampshire 80 kg 256 kg2 16 kg 20% Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 53 Neste exemplo, pode-se verificar que as raças Duroc e Landrace têm a mesma variabilidade absoluta (variância igual a 324 kg2 e desvio padrão 18 kg), porém a raça Duroc tem menor variabilidade relativa (18%). A raça Duroc (variância igual a 324 kg2 e desvio padrão 18 kg) tem maior variabilidade absoluta do que a raça New Hampshire (variância igual a 256 kg2 e desvio padrão 16 kg), porém a raça Duroc (18%) tem menor variabilidade relativa do que a raça New Hampshire (20%). As raças Landrace e New Hampshire têm a mesma variabilidade relativa (20%), embora a raça Landrace tenha a maior variabilidade absoluta (variância igual a 324 kg2 e desvio padrão 18 kg). Exemplo 4.8 Calcule a dispersão relativa (coeficiente de variação) dos seguintes dados da amostra, referente às alturas: X1 = 1,70 m X2 = 1,72 m X3 = 1,71 m X4 = 1,70 m X5 = 1,67 m Solução: X = Xi / n = (1,70 + 1,72 + ... + 1,67) / 5 = 1,70 m. s2 = 1 1n − ( Xi - X )2 = 1 5 1− [ ( 1,70 - 1,70 )2 + ( 1,72 - 1,70 )2 + ... + ( 1,67 - 1,70)2 ] s2 = 0,0014 / 4 = 0,000350 m2 . Portanto, o valor do desvio padrão é: s = 0 000350, = 0,0187 m O coeficiente de variação é C.V. = 100 . 0,0187 / 1,70 = 1,10%. 4.2.5 Variância e desvio padrão da média 4.2.5.1 Variância da média A variância da média é igual a variância da população (2) dividida pelo tamanho da amostra (n). 2 X = 2 / n onde 2 X leia-se “ sigma dois de xis barra ”. 4.2.5.2 Desvio padrão da média Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 54 O desvio padrão da média é definido como sendo a raiz quadrada positiva da variância da média (2 X )1/2 ou senão como o desvio padrão da média () dividido pela raiz quadrada do tamanho da amostra ( n ), isto é, X = [ 2 X ] ½ ou X = / n O desvio padrão da média é de grande utilidade na estatística e em outros capítulos veremos a sua aplicação. Quando não se conhece a variância da população (2) ou o desvio padrão da população (), mas sim as suas respectivas estimativas (s2 ou s), pode-se obter as estimativas da variância da média ou do desvio padrão da média, como se segue: s2 X = s2 / n s X = [s2 X ] ½ ou s X = s / n A expressão s X = s / n é denominada erro padrão da média. Exemplo 4.9 Sabe-se que a variância de uma população vale 16 m2. Retirando-se uma amostra de 100 elementos, pergunta-se: a) qual o valor da variância da média ? b) qual o valor do desvio padrão da média ? Solução: a) 2 X = 2 / n = 16 / 100 = 0,16 m2 b) X = [2 X ] ½ = 0 16, = 0,40 m ou X = / n = 4 / 100 = 4/10 = 0,40 m. Exemplo 4.10 De uma população, retirou-se uma amostra de 25 elementos, obtendo-se desta amostra uma variância igual a 100 kg2. Pergunta-se: a) o valor da estimativa da variância da média ? b) o valor do erro padrão da média ? Solução: a) s2 X = s2 / n = 100 / 25 = 4 kg2. b) s X = [s2 X ] ½ = 4 = 2 kg ou s X = s / n = 10 / 25 = 2 kg. Exercício 4.1 Obtenha, por mero acaso, uma amostra de 10 elementos em sua área de atuação e determine: a) a amplitude total dos dados. Estatística/Bioestatística – Lauro Boechat Batista ; Keila Batista dos Santos - Cap. 4 - Medidas de Dispersão 55 b) a variância e o desvio padrão dos dados da amostra, usando as duas fórmulas (teórica e prática). c) o coeficiente de variação. d) a variância e o erro padrão da média. Exercício 4.2 Considere a seguinte população das alturas dos alunos de uma determinada classe e a seguir determine: X1 = 1,80 m X2 = 1,79 m X3 = 1,81 m X4 = 1,82 m X5 = 1,78 m a) a amplitude total dos dados. b) a variância. c) o desvio padrão da população. Exercício 4.3. Considere uma amostra de 40 comprimidos de atenolol, dados em mg, e a seguir determine: X1 = 40 mg X2 = 38 mg X3 = 41 mg X4 = 42 mg X5 = 39 mg. a) a amplitude total dos dados. b) a variância. d) o desvio padrão da amostra. e) o coeficiente de variação. 4 MEDIDAS DE DISPERSÃO
Compartilhar