Baixe o app para aproveitar ainda mais
Prévia do material em texto
04/09/2017 1 Medidas de Dispersão 2º semestre/2017 Medidas de Posição ou Tendência Central Medidas de localização: descrevem um aspecto dos dados numéricos que é a posição do “centro” da distribuição Não descrevem um outro aspecto importante, que é a variabilidade, ou seja, a medida de afastamento dos dados em relação a um valor central. Medidas de Variação ou Dispersão Medidas de posição indicam um valor importante, mas não devem ser usadas isoladamente para sintetizar um conjunto de dados A dispersão dos dados em torno deste valor central é outra estatística fundamental para acompanhar as medidas de tendência central Medidas de Variação ou Dispersão As estatísticas usadas para mensurar essa variabilidade são chamadas de medidas de dispersão ou de variação As mais comuns são: amplitude total dos dados, distância interquartis, desvio médio, variância, desvio padrão e o coeficiente de variação Exemplo: Notas de cinco alunos no ano letivo Observa-se que para os cinco alunos a média das notas durante o ano é 5. No entanto, percebe-se que o aluno E apresenta notas mais dispersas que os demais. Alunos 1º Bim 2º Bim 3º Bim 4º Bim A 5 5 5 5 B 4 4 6 6 C 3 5 7 5 D 0 5 5 10 E 0 0 10 10 Amplitude A amplitude total, At, é uma indicação aproximada da dispersão ou variabilidade. É definida como a diferença entre o maior e o menor valor do conjunto de dados At = valor máximo – valor mínimo 04/09/2017 2 Amplitude No exemplo anterior a amplitude total para os cinco conjuntos de observações é: AtA = 0 AtB = 2 AtC = 4 AtD = 10 AtE = 10 A amplitude total é fácil de calcular, mas tem a desvantagem de levar em conta apenas dois valores, desprezando a informação das outras observações do conjunto. Isso torna a amplitude total uma medida muito sensível à presença de valores extremos; Em trabalhos científicos, é bastante comum apresentar a medida de tendência central acompanhada do valor mínimo e máximo entre parênteses e não a amplitude Intervalo Interquartil Distância interquartil = Q3 – Q1 = diferença entre o terceiro e o primeiro quartis Medida de amplitude modificada, não considera os extremos somente, mas 50% dos dados que estão no centro do conjunto Intervalo Interquartil Definição: IIQ = Q3 – Q1 Exemplo: X={11 13 8 9 7 4} 1. Ordenando os dados: 4 7 8 9 11 13 2. Mediana = 8,5 3. Dividindo em dois subconjuntos: 4 7 8 9 11 13 Q1 e Q3 correspondem às medianas desses conjuntos → Q1=7; Q3 = 11 IIQ = Q3 – Q1 = 4 Interpretação: A variação máxima entre 50% das observações mais próximas da mediana é de 4. O IIQ é uma medida muito mais robusta do que a amplitude dos dados. Útil para representar a distribuição de uma variável quantitativa contínua Apresenta a posição da mediana, 1º e 3º quartis, e outros pontos que estejam mais distanciados do cento do conjunto de dados Identificação de pontos extremos (outliers) de um conjunto de dados Permite avaliar facilmente os valores típicos, a assimetria, a dispersão e os dados discrepantes de conjuntos de dados referentes à variáveis QUANTITATIVAS Diagrama de Caixas – Box Plot Diagrama de Caixas – Box Plot Esquema dos 5 números: Mediana, 1º Quartil,3º Quartil e os extremos inferior e superior do conjunto são identificados Traçam-se dois retângulos (duas caixas): uma representa a “distância” entre a Mediana e o 1º Quartil, e o outro a “distância” entre o 3º Quartil e a Mediana. A partir dos Quartis são desenhadas linhas verticais até os últimos valores não discrepantes, tanto abaixo quanto acima. Valores discrepantes (“outliers”) são aqueles que são: MENORES do que 1º Quartil - 1,5 x (3ºQ – 1ºQ) ou MAIORES do que 3º Quartil + 1,5 x (3ºQ – 1ºQ) Diagrama de Caixas – Box Plot * * * * Discrepantes superiores Discrepantes inferiores Md 1º Q 3º Q 3º Q + 1,5 x (3ºQ – 1ºQ) 1º Q - 1,5 x (3ºQ – 1ºQ) 04/09/2017 3 Diagrama de Caixas – Box Plot (Exemplo) Valores típicos: 5,5; 6,25; 8,5 Assimetria: Adm Mat: assimétrica Dispersão: Maior na Adm Mat, seguida por Adm Not Valores discrepantes: Somente inferiores Adm Not e Med Diagrama de Caixas – Box Plot (Exemplo) Box plots indicating overweight (a), obesity (b) and combined (c) trends in Indian children and adolescents (1981-2013) The box plot included the 25th and 75th percentiles and data labels plotted were median values with the minimum and maximum. Ranjani H, Mehreen TS, Pradeepa R, et al. Epidemiology of childhood overweight & obesity in India: A systematic review. The Indian Journal of Medical Research. 2016;143(2):160-174. doi:10.4103/0971-5916.180203. Desvio Outra forma de medir ou quantificar a dispersão das observações é calculando-se os desvios de cada observação em relação à medida de tendência central (geralmente a média) O desvio, d, é definido como a diferença entre o valor observado e a medida de tendência central do conjunto de observações de uma variável xxd ii Desvio Dadas as idades de 5 crianças, calcule os desvios em relação à média (𝒙ഥ) 𝒙ഥ = 30/5 = 6 Idade (x) Desvio (𝒙 − 𝒙ഥ) 3 3 – 6 = -3 6 6 – 6 = 0 5 5 – 6 = -1 7 7 – 6 = 1 9 9 – 6 = 3 Desvio Problema: O somatório dos desvios de todas as observações em relação à média é “zero”, pela própria característica desta medida de centro, que representa o ponto de equilíbrio, anulando os desvios em relação a média => trabalhar com o módulo ou o quadrado dos desvios Desvio Quadrático Dadas as idades de 5 crianças, calcule os desvios em relação à média (𝒙ഥ) 𝒙ഥ = 30/5 = 6 Idade (x) Desvio (𝒙 − 𝒙ഥ) Desvio Quadrático (𝒙 − 𝒙ഥ)2 3 3 – 6 = -3 (-3) 2 = 9 6 6 – 6 = 0 02 = 0 5 5 – 6 = -1 (-1) 2 = 1 7 7 – 6 = 1 12 = 1 9 9 – 6 = 3 32 = 9 04/09/2017 4 Variância A Variância de um conjunto de x1, x2, ... , xn de observações de uma amostra é denotada por s2 e definida por: Obs.: Se estamos trabalhando com dados populacionais, não amostrais, divide-se por n e não (n-1) )1( )( 2 1 1 2 2 n n x x xs n i in i i )1()1( )( 1 2 1 2 2 n xx n d xs n i i n i i Fórmula alternativa Desvio Quadrático Dadas as idades de 5 crianças, calcule os desvios em relação à média (𝒙ഥ) 𝒙ഥ = 30/5 = 6 Idade (x) Desvio (𝒙 − 𝒙ഥ) Desvio Quadrático (𝒙 − 𝒙ഥ)2 3 3 – 6 = -3 (-3) 2 = 9 6 6 – 6 = 0 02 = 0 5 5 – 6 = -1 (-1) 2 = 1 7 7 – 6 = 1 12 = 1 9 9 – 6 = 3 32 = 9 5 4 20 15 91109 )1( 1 2 2 n xx s n i i Desvio Padrão (Sempre usado!) Como a variância é uma medida que expressa um desvio quadrático médio, sua unidade é o quadrado da unidade dos dados, e isto pode causar dificuldades de interpretação Portanto, costuma-se usar a raiz quadrada da variância, o que é denominado desvio padrão. O desvio padrão é mais adequado porque tem a mesma unidade dos dados Desvio Padrão O desvio padrão, s, de um conjunto de x1, x2, ... , xn observações é definido por: 1 1 2 2 n xx ss n i i 24,25 :exemplo No s Desvio Padrão O desvio padrão, isoladamente, tem interpretação limitada sobre a variabilidade de um conjunto de dados É difícil avaliar separadamente se o desvio padrão é grande ou pequeno Coeficiente de Variação O coeficiente de variação, CV, é uma medida de variabilidade relativa definido como a razão percentual entre o desvio padrão e a média, sendo assim uma medida adimensional, e expressaem percentual 𝐶𝑉 = ௦ ௫̅ × 100 , s = desvio padrão �̅� = média No exemplo: 𝐶𝑉 = 5 6 × 100 = 37,3% 04/09/2017 5 CVidade =11,6/58,8*100 = 19,7% Cvtempo de diag =7,3/9,0*100 = 81,1% CVimc =5,2/28,3*100 = 18,4% CVidade-casos =13,0/56,7*100 = 22,9% CVidade-controles =11,9/53,1*100 = 22,4% CVimc-casos =4,6/27,5*100 = 16,7% CVimc-controles =4,9/26,1*100 = 18,8% Exemplo Nota Desvio Desvio Quadrático A 8 B 5 C 5 D 8 E 4 Soma 30 Média 6 Exemplo Nota Desvio Desvio Quadrático A 8 2 4 B 5 -1 1 C 5 -1 1 D 8 2 4 E 4 -2 4 Soma 30 0 14 Média 6 Variância = 14/4 =3,5 Desvio Padrão =1,9 Coef. de Variação = 31% Exemplo Idade Desvio Desvio Quadrático A 56 5,2 27,0 B 68 17,2 295,8 C 32 -18,8 353,4 D 45 -5,8 33,6 E 27 -23,8 566,4 F 65 14,2 201,6 G 77 26,2 686,4 H 33 -17,8 316,8 I 60 9,2 84,6 J 45 -5,8 33,6 Soma 508 0,0 2.599,6 Média = 50,8 Var = 288,84 dp = 17,00
Compartilhar