Baixe o app para aproveitar ainda mais
Prévia do material em texto
- UNIDADE 04 – Medidas Estatísticas (Medidas de Variabilidade) Unidade 04– Medidas de Variabilidade − 3 − UNIDADE 03 − Medidas estatísticas para descrição de dados ............................................... 3 1 − Introdução ........................................................................................................................... 3 2 − Medida de Variabilidade...................................................................................................... 4 2.1 − Medida de variabilidade para dados brutos ................................................................. 4 2.2 − Medidas de variabilidade para dados agrupados em tabelas de frequência ............ 15 2.2.1 − Dados agrupados em tabelas de frequência sem classe .................................. 15 2.2.2 − Dados agrupados em tabelas de frequência com classe .................................. 16 2.3 − Algumas aplicações do desvio-padrão ...................................................................... 18 3 - Anexos ............................................................................................................................... 21 Unidade 04– Medidas de Variabilidade − 4 − 3 4 5 6 7 8 9 10 3 4 5 6 7 8 9 10 UNIDADE 04 − Medidas estatísticas para descrição de dados 1 − Introdução A medida de dispersão ou de variabilidade procura “medir” o quanto os valores de um conjunto de dados estão afastados ou dispersos em relação a uma medida central, normalmente a média aritmética. As medidas de posição central (média, mediana, etc) vistas anteriormente, não conseguem sozinhas descrever bem uma distribuição de valores. Considere a quantidade de gols feitos por dois times nos últimos sete campeonatos nacionais. Time A: 80, 78, 80, 85, 75, 85, 80 Time B: 50, 78, 67, 85, 88, 94, 98 Cada time fez, em média, 80 gols em cada ano, nos levando a crer que ambos os times tiveram desempenhos iguais nos últimos sete campeonatos. Analisando a quantidade de gols marcados pelos times, notaremos que essa quantidade varia de 75 a 85 gols no time ‘A’, enquanto que a do time ‘B’ varia de 50 a 98 gols, e com essa análise da variação na quantidade de gols marcados podemos ver que o desempenho é bem distinto de ambos os times. Para quantificar a variação presente em um conjunto de dados, temos de nos valer das medidas de dispersão ou de variabilidade. As medidas usuais são: Medidas de dispersão absoluta Desvio-padrão Variância Amplitude Desvio médio absoluto Medidas de dispersão relativa Coeficiente de variação 30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 100 Unidade 04– Medidas de Variabilidade − 5 − 2 − Medida de Variabilidade 2.1 − Medida de variabilidade para dados brutos As medidas abaixo se referem aos dados brutos, ou seja, dados não agrupados em tabelas de frequência. • Amplitude A amplitude amostral é diferença entre o maior e o menor valor do conjunto de dados. A t = Máximo − Mínimo Para o conjunto x = {9, 4, 5, 10, 7} a amplitude amostral será: A t = 10 − 4 = 6 É a medida mais simples de dispersão. Quanto maior for a amplitude, mais afastados estão os valores (maior dispersão ou variabilidade). A amplitude será sempre maior ou igual a zero, NUNCA negativa. Apesar de sua simplicidade, a amplitude deixa um pouco a desejar, principalmente quando temos grandes conjuntos de dados, pois ela só leva em consideração os valores extremos (mínimo e máximo) de um conjunto, deixando de lado os valores intermediários. EXEMPLO 01 - Calcule a amplitude dos dois conjuntos abaixo. x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} Solução --------------------------------------------------------------------------------------------- Os dois conjuntos abaixo têm mesma amplitude, deixando a entender que ambos têm a mesma variabilidade, mas o que vemos pelo diagrama de pontos é que a variabilidade não é igual (é maior no conjunto y). x = {7, 7, 4, 7, 10} At = 6 y = {9, 4, 5, 10, 7} At = 6 3 4 5 3 4 5 6 7 8 6 7 8 9 10 9 10 11 12 11 12 A amplitude tem grande aplicação na área de controle de qualidade ou em situações onde desejamos uma rápida medida de variabilidade dos dados. Unidade 04– Medidas de Variabilidade − 6 − • Desvio médio absoluto O grande inconveniente da amplitude é que ela usa apenas os valores extremos dos dados, deixando de lado os demais valores. Uma medida que considera todos os valores do conjunto seria mais interessante e mais justo para representar a variabilidade dos dados. O desvio médio absoluto, representado por DMA, é uma das medidas de dispersão que leva em consideração todos os valores do conjunto. O DMA analisa a dispersão dos dados em torno de um valor central, representado pela média aritmética. O desvio médio absoluto é dado pela fórmula abaixo: n x i − x x − x + x − x + L + x − x DMA = i=1 = 1 2 n n n onde xi = i-ésimo valor da variável n = número de valores (tamanho da amostra) xi i − x = módulo do desvio de xi em relação à média Como se vê, o desvio médio absoluto pode ser visto como uma média do afastamento dos valores em relação à média do conjunto. Quanto maior o DMA, mais afastados os valores estarão da média, portanto maior será a variabilidade. O DMA é uma medida sempre maior ou igual à zero, NUNCA negativa. EXEMPLO 02 - Calcule o desvio médio absoluto dos dois conjuntos de dados abaixo. x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} Solução --------------------------------------------------------------------------------------------- O modo mais prático de calcular o desvio médio absoluto é formar uma tabela com os valores e calcular o módulo dos desvios em torno da média. Veja abaixo como ficariam os cálculos. Conjunto x Conjunto y DMA X n x i − x = i=1 = n 6 = 1,2 5 DMA Y n yi − y = i=1 = n 5 = 2,0 xi x i − x x i − x 7 0 0 7 0 0 4 -3 3 7 0 0 10 3 3 - = 0 = 6 yi y i − y y i − y 9 2 2 4 -3 3 5 -2 2 10 3 3 7 0 0 - = 0 = 10 10 Unidade 04– Medidas de Variabilidade − 7 − Como o DMAY foi maior que o DMAX, conclui-se que o conjunto y apresenta maior variabilidade em seus valores do que o conjunto x. Apesar de usar todos os valores do conjunto e resolver aquele “problema” apresentado pela amplitude, o desvio médio absoluto também apresenta alguns pontos fracos, dentre eles: • O DMA é bastante influenciado pelos valores atípicos (outliers); • Pelo fato de trabalhar com o módulo, certas propriedades estatísticas do DMA são difíceis de serem verificadas1. 1 Verificar se um estimador é não-viciado e com menor variabilidade. Unidade 04– Medidas de Variabilidade − 7 − n Y n X A variância amostral, representada por s2, é uma medida de variabilidade baseada nos desvios de cada valor em torno da média. Como esses desvios podem assumir valores positivos e negativos, a soma de todos eles será sempre zero. Para evitar que a soma dê sempre zero, avariância trabalha com os desvios elevados ao quadrado2. A variância é dada pela fórmula abaixo: (xi − x ) 2 onde n s 2 = i=1 n − 1 (xi i=1 − x )2 = (x − x )2 (x − x )2 + L + (x − x )2 (soma dos desvios ao quadrado) A variância é uma média dos desvios ao quadrado. Quanto maior a variância, mais afastados os valores estarão da média, portanto maior será a variabilidade dos valores. A variância é uma medida sempre maior ou igual a zero, NUNCA negativa. EXEMPLO 03 - Calcule a variância dos dois conjuntos de dados abaixo. x = {7, 7, 4, 7, 10} y = {9, 4, 5, 10, 7} Solução --------------------------------------------------------------------------------------------- O modo mais prático é também formar uma tabela com os valores, Conjunto x Conjunto y (xi − x ) 2 18 (yi − y ) 2 26 s 2 = i=1 = = 4,5 s 2 = i=1 = = 6,5 x n − 1 5 − 1 y n − 1 5 − 1 Como o 2 foi menor que o s2 , conclui-se que o conjunto x apresenta menor variabilidade em seus valores do que o conjunto y (os valores de x estão mais homogêneos em torno da média). 2 O DMA calcula o módulo de cada desvio, em vez de elevar cada desvio ao quadrado. • Variância amostral (s2) e desvio-padrão amostral (s) n n s 1 2 xi x i − x (x − i x)2 7 0 0 7 0 0 4 -3 9 7 0 0 10 3 9 - = 0 = 18 yi y i − y (y − i y)2 9 2 4 4 -3 9 5 -2 4 10 3 9 7 0 0 - = 0 = 26 Unidade 04– Medidas de Variabilidade − 8 − variância Pelo fato de trabalhar com os desvios elevados ao quadrado, a unidade de medida da variância é também elevada ao quadrado também. Por exemplo, se conjunto x do exemplo anterior se referir à idade (em anos) de cinco crianças, então a variância será igual a 4,5 anos2. Se o conjunto se referir ao salário (em mil reais) de cinco funcionários, então a variância será igual a 4.500 reais2 e, por fim, se o conjunto se referir ao número de filhos de cinco famílias, então a variância será igual 4,5 filhos2. Fica difícil ter alguma interpretação prática para a variância, já que sua unidade de medida não é a mesma dos dados originais. Para resolver essa pequena inconveniência, bastou tirar a raiz quadrada do valor da variância, dessa forma, surgiu o desvio-padrão. O desvio-padrão amostral, representada por s, é apenas a raiz quadrada da variância. Portanto sua fórmula é dada por: s = → s = EXEMPLO 04 - No exemplo anterior, calcule o desvio-padrão dos dois conjuntos de dados. Solução --------------------------------------------------------------------------------------------- O desvio-padrão do conjunto x é s x = 4,5 = 2,12 O desvio-padrão do conjunto y é s y = 6,5 = 2,55 Quanto maior o valor do desvio-padrão, mais afastados os valores estarão da média, portanto maior será a variabilidade dos valores. A unidade de medida do desvio-padrão é a mesma unidade dos dados originais. Por exemplo, se conjunto x do exemplo anterior se referir à idade (em anos) de cinco crianças, então o desvio-padrão será igual a 2,12 anos e, por fim, se o conjunto se referir ao salário (em mil reais) de cinco funcionários, então o desvio-padrão será igual a 2.120 reais. O que de fato é o desvio-padrão? Essa é a pergunta mais frequente do aluno. O que podemos dizer é que o desvio-padrão é uma medida do quanto os valores estão afastados da média (ou uns dos outros para ser mais fácil de entender), sua utilidade é mais visível quando ele é usado para comparar a variabilidade entre diversos conjuntos de valores. Por exemplo, suponha alguém esteja interessado em um emprego oferecido por duas pelas empresas. O resumo dos salários dessas empresas está na tabela abaixo: Empresa Salário médio Desvio-padrão dos salários A B 1500 reais 1500 reais 50 reais 250 reais O salário médio de ambas as empresas é 1500 reais, então a pessoa interessada deve estar ciente de que o seu salário vai girar em torno desse valor. Analisando o desvio- padrão, vemos que a variabilidade dos salários na empresa ‘A’ é muito menor indicando que os salários dessa empresa estão bem próximos de 1500 do que os salários da i x ) i=1 n − 1 Unidade 04– Medidas de Variabilidade − 9 − N empresa ‘B’. Então, se a escolha não fosse influenciada por outros fatores (plano de carreira, plano de saúde, vale refeição, etc), a empresa ‘A’ seria mais interessante do que a ‘B’. Variância e desvio-padrão populacional Por outro lado, quando trabalhamos com os dados de uma população (o que não é tão comum assim na prática), a variância passa a ser denominada de variância populacional e é denotado pelo símbolo 2 (leia-se sigma ao quadrado). Na realidade, o cálculo é semelhante ao cálculo da variância amostral, com exceção de que no denominador não há a subtração do valor 1. A fórmula da variância populacional é: (xi − µ) 2 onde xi = i-ésimo valor da variável X = média populacional N = amanho da população σ 2 = i=1 N O desvio-padrão populacional é denotado por é calculado por: σ = EXEMPLO 05 - Imagine uma pequena região fictícia com apenas 8 famílias. Abaixo estão listados as renda (em reais) destas famílias. 450 560 550 300 620 400 500 580 Assumindo que esta região é a sua população de interesse, calcule a desvio-padrão populacional destas famílias. Solução --------------------------------------------------------------------------------------------- N Média populacional: xi µ = i=1 = N 450 + 560 + L + 580 8 = 3960 8 = 495 reais Desvio-padrão populacional: σ = = = = 99,50 O desvio-padrão populacional das rendas é 99,50 reais. i i=1 Unidade 04– Medidas de Variabilidade − 10 − 4,5 i=1 n 1 Por que na variância amostral a divisão é por n - 1 e não por n? Quando temos os dados de toda a população, o cálculo da variância é feito dividindo a soma dos desvios ao quadrado pelo tamanho da população N, obtendo, então, uma média desses desvios. Entretanto, na estatística, frequentemente trabalhamos com uma amostra apenas e o desejo é usar essa amostra para obter estimativas de parâmetros da população, entre eles a variância populacional (2). Ao calcular a variância amostral (s2) usando n no denominador, o valor obtido de s2 estará subestimando a real variância (2). Então, para melhorar a estimativa da real variância (2), calculamos a variância usando o n – 1 no denominador, em vez de n. Fórmula alternativa de calcular a variância e/ou o desvio-padrão Há uma fórmula alternativa que nos permite calcular a variância e o desvio-padrão amostral. n 2 x i 2 n 2 i=1 Variância s = n − 1 x i − n Desvio-padrão s = onde: n x = x + x + L + x x2 = x2 + x 2 + L+ x 2 i 1 2 n i=1 i 1 2 n i=1 EXEMPLO 06 - Calcule a variância do conjunto x = {7, 7, 4, 7, 10} usando a fórmula alternativa. Variância: 1 (35)2 s2 = 5 − 1 263 − = 4,5 5 Desvio-padrão: s = = 2,12 1 n x 2 − i=1 n x i 2 n − 1 i=1 xi x 2 i 7 497 49 4 16 7 49 10 100 xi = 35 x 2 = 263 i Unidade 04– Medidas de Variabilidade − 11 − Propriedades do desvio-padrão Suponha que os dados do conjunto x = {x1, x2,..., xn} têm um desvio-padrão sx: (1) Somando-se (ou subtraindo-se) uma constante a a todos os valores de uma variável, o desvio-padrão do conjunto não se altera. Se yi = xi a s y = sx (2) Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante b, o desvio-padrão do conjunto fica multiplicado (ou dividido) dessa constante. Se yi = bxi s y = bsx (3) Combinando as propriedades (1) e (2), temos: Se yi = bxi a s y = bsx EXEMPLO 07 - Considere o conjunto x = {1, 2, 3, 3, 4, 5}, cujo desvio-padrão é sx = 1,4142. a) Se cada xi for adicionado o valor 6, qual será o desvio-padrão dos ‘novos’ valores? b) Se cada xi for multiplicado pelo valor 4, qual será o desvio-padrão dos ‘novos’ valores? Solução --------------------------------------------------------------------------------------------- Vamos aplicar as propriedades vistas acima. a) Se yi = xi + 6, então s y = sx = 1,4142 (veja a coluna 2 da tabela abaixo) b) Se yi = 4*xi, então abaixo) s y = 4 s x = 4*1,4142 = 5,6568 (veja a coluna 3 da tabela (1) xi (2) yi = xi + 6 (3) yi = 4*xi 1 7 4 2 8 8 3 9 12 3 9 12 4 10 16 5 11 20 sx = 1,4142 sy = 1,4142 sy = 5,6569 Unidade 04– Medidas de Variabilidade − 12 − EXEMPLO 08 - Sabendo que X é um conjunto de valores com desvio-padrão sx = 15, calcule o desvio-padrão e a variância do conjunto Y = 4 (X − 10)+ 6. 5 Solução --------------------------------------------------------------------------------------------- Vamos primeiro desenvolver a fórmula do Y Y = 4 (X − 10)+ 6 = 4 X − 4 10 + 6 = 4 X − 8 + 6 = 4 X − 2 5 5 5 5 5 Portanto, Y = 4 X − 2 e aplicando a propriedade (3) s 5 y = 4 s 5 x = 4 15 = 12. 5 EXEMPLO 09 - O desvio-padrão dos salários dos funcionários de uma empresa é 30 reais. No próximo mês, cada funcionário receberá um aumento de 50 reais e no mês seguinte um aumento de 20%, determine o desvio-padrão dos “novos” salários após estes aumentos. Unidade 04– Medidas de Variabilidade − 13 − • Coeficiente de variação (CV) A amplitude, o desvio médio absoluto, a variância e o desvio-padrão são medidas absolutas de dispersão. O coeficiente de variação, representado por CV, é uma medida relativa de dispersão, pois leva em consideração a média do conjunto de dados. Ele é a razão entre o desvio-padrão s e a média x , isto é: CV = s x Como se pode ver, o CV é adimensional (não tem unidade de medida) e multiplicando o valor obtido por 100, ele será expresso em percentual (%). O coeficiente de variação é indicado para comparar variabilidade de variáveis com unidades diferentes ou comparar variabilidade entre conjuntos com médias bem diferentes. EXEMPLO 10 - Considere os quatro conjuntos de valores: X = Peso de recém-nascidos (em kg) = {4, 5, 6, 5} Y = Peso da mãe (em kg) = {65, 75, 68, 60} Z = Altura da mãe (em cm) = {178, 176, 170, 160} Z = Altura do pai (em cm) = {185, 180, 175, 160} QUADRO RESUMO dp = desvio-padrão Comparando variabilidade entre as variáveis X e Y → As unidades de medidas são as mesmas para ambas as variáveis, porém o peso médio da mãe (67 kg) é muito diferente do peso médio da criança (5 kg). Nesse caso, a melhor forma de comparar a variabilidade é usar o coeficiente de variação (CVX = 16,3% e CVY = 9,4%). Comparando os resultados, vê-se que a variação relativa dos pesos3 é maior para os recém-nascidos do que para as mães. Comparando variabilidade entre as variáveis Y e Z → As unidades de medidas são bem diferentes (kg para peso e cm para altura). Nesse caso, a única forma de comparar a variabilidade é usando o coeficiente de variação (CVY = 9,4% e CVZ = 9,4%). Comparando os resultados, vê-se que a variação relativa é maior para os pesos das mães. Comparando variabilidade entre as variáveis Z e Q 3 Variação em torno da média. X = Peso de recém- nascidos (em kg) Y = Peso da mãe dos recém-nascidos (em kg) Z = Altura da mãe dos recém-nascidos (em cm) Q = Altura do pai dos recém-nascidos (em cm) média = 5 kg dp = 0,82 kg CV = 16,3% média = 67 kg dp = 6,78 kg CV = 9,4% média = 171 cm dp = 8,08 cm CV = 4,7% média = 175 cm dp = 10,8 cm CV = 6,2% Unidade 04– Medidas de Variabilidade − 14 − → As unidades de medidas são as mesmas e as médias são bem parecidas (171 cm das mães e 175 cm dos pais). Nesse caso, podemos usar tanto o desvio-padrão quanto o coeficiente de variação. Comparando os resultados, vê-se que há uma maior variabilidade nas alturas dos pais (dp = 10,8 cm e CV = 6,2%) do que nas alturas das mães (dp = 8,08 cm e CV = 4,7%). EXEMPLO 11 - Sabendo que X é um conjunto de valores com média de x = 5 e variância s2 = 25, calcule o coeficiente de variação (CV) do conjunto Y = 3X + 8 X − 10 + 100 . 4 Unidade 04– Medidas de Variabilidade − 15 − n − 1 2.2 − Medidas de variabilidade para dados agrupados em tabelas de frequência 2.2.1 − Dados agrupados em tabelas de frequência sem classe Se os dados estão agrupados em tabela sem classe, então xi é o valor da nossa variável de interesse e fi é a frequência desse valor. Da mesma forma que levamos em consideração as freuüências fi no cálculo da média agrupada, também devemos considerá-las no cálculo da variância e desvio-padrão. As duas fórmulas dão os mesmos resultados e, em se tratando de tabelas, a segunda fórmula abaixo é mais prática. n n 2 (x − x)2 f x f i i 2 i=1 2 1 n 2 i=1 i i s = n − 1 ou s = x i fi − i=1 n EXEMPLO 12 - A tabela abaixo mostra a distribuição do o número de filhos para uma amostra de 20 funcionários. Calcule a variância e o desvio-padrão do número de filhos dos funcionários. Quantidade de filhos Número de Filhos Quantidade de funcionários (fi) 0 5 1 7 2 5 3 2 4 1 Solução --------------------------------------------------------------------------------------------- Para facilitar o cálculo da média, vamos acrescentar coluna xifi, que é o produto de cada valor xi pela sua respectiva frequência fi. Lembrando de que, em uma tabela de frequência, fi = n e da tabela ao lado temos: f = 20, x f = 27, x 2f = 61 i i i Variância: s2 = 1 61 − i i (27)2 = 1,29 (filho) 20 − 1 20 2 xi fi xifi x 2f i i 0 5 0 0 1 7 7 7 2 5 10 20 3 2 6 18 4 1 4 16 Total 20 27 61 Unidade 04– Medidas de Variabilidade − 16 − 1,29 Desvio-padrão: s = = 1,14 filho Unidade 04– Medidas de Variabilidade − 17 − n − 1 i 2.2.2 − Dados agrupados em tabelas de frequência com classe Se os dados estão agrupados em tabela com intervalo de classe, então xi é o ponto médio da classe e fi é a frequência dessa classe. As duas fórmulas dão os mesmos resultados e, em se tratando de tabelas, a segunda fórmula abaixo é novamente a mais prática. n n 2 (x − x)2 f x f i i 2 i=1 2 1 n 2 i=1 i i s = n − 1 ou s = x i fi − i=1 n EXEMPLO 13 - A tabela abaixo mostra a distribuição dos salários (em salários- mínimos) para uma amostra de 20 funcionários. Calcule o salário médio desses funcionários. TABELA - Salários dos funcionários Salários (em SM) Quantidade de funcionários fi 4,0 |⎯ 8,0 5 8,0 |⎯ 12,0 7 12,0 |⎯ 16,0 4 16,0 |⎯ 20,0 3 20,0 |⎯ 24,0 1 Solução --------------------------------------------------------------------------------------------- Complete a tabela acrescentando uma coluna com o ponto médio de cada classe (xi) e uma coluna com o produto xi fi . i i Da tabela ao lado temos: fi = 20 x i f i = 232 Obs. xi = ponto médio da classe i x 2f = 3120 Variância amostral n 2 x ifi 2 s2 = 1 x 2f − i=1 = 1 3120 − (232) = 22,574 (SM)2 n − 1 i i i=1 n 20 − 1 n i Salários xi fi x i fi x 2f 4,0 |⎯ 8,0 6 5 30 180 8,0 |⎯ 12,0 10 7 70 700 12,0 |⎯ 16,0 14 4 56 784 16,0 |⎯ 20,0 18 3 54 972 20,0 |⎯ 24,0 22 1 22 484 Total --- 20 232 3120 Unidade 04– Medidas de Variabilidade − 18 − 22,57 2 0 Desvio-padrão amostral: s = = 4,75 SM Unidade 04– Medidas de Variabilidade − 19 − EXEMPLO 14 - (Bussab e Morettin, modificado) A tabela abaixo mostra a distribuição dos frangos de uma granja em relação ao peso (em gramas). a) Calcule a variância (s2) e o desvio-padrão (s) dos pesos dos frangos desta granja. b) O dono da granja sabe que 95% dos fangos têm pesos que estão a dois desvios- padrões à partir da média, ou seja, dentro do intervalo x (2 s). Quais são os limites inferior e superior deste intervalo? Peso (em gramas) Quantidade de frangos fi 960 |⎯ 980 60 980 |⎯ 1000 160 1000 |⎯ 1020 280 1020 |⎯ 1040 260 1040 |⎯ 1060 160 1060 |⎯ 1080 80 Unidade 04– Medidas de Variabilidade − 20 − 2.3 − Algumas aplicações do desvio-padrão a) Regra empírica Para conjunto de dados simétricos em forma de sino, uma útil regra prática pode ser aplicada a estes dados. Esta regra, algumas vezes chamada de regra empírica, nos diz que: • Cerca de 68,3% dos valores estarão dentro de uma distância de 1 desvio- padrão em torno da média (ou seja, média 1*dp). • Cerca de 95,4% dos valores estarão dentro de uma distância de 2 desvios- padrões em torno da média (ou seja, média 2*dp). • Cerca de 99,7% dos valores estarão dentro de uma distância de 3 desvios- padrões em torno da média (ou seja, média 3*dp). Como exemplo, suponha que as notas dos candidatos em um vestibular tenham uma média de 90 pontos com um desvio-padrão de 20 pontos. Assumindo que as notas se distribuem simetricamente em torno da média (em forma de sino), podemos dizer que: Cerca de 95,4% dos alunos obtiveram notas dentro do intervalo 90 (2*20) = 90 40, ou seja, de 50 pontos a 130 pontos (nove de cada dez tiram notas de 50 a 130 pontos). A regra acima deve ser usada em conjunto de dados distribuídos simetricamente em torna da média em forma de sino. Veja as figuras abaixo que mostra uma distribuição simétrica e assimétrica. Dados simétricos (em forma de sino) Dados assimétricos (não simétricos em torno da média) Uma alternativa é o uso da regra do Tchebychev, usada para situações mais gerais. b) Regra Tchebychev <<< Incluir depois >>> Unidade 04– Medidas de Variabilidade − 21 − c) Escore z (ou z-escore) O escore z de um valor x é o número de desvios-padrões que este valor x está acima ou abaixo da média. O escore z pode ser obtido pela fórmula abaixo: z = valor − média dp onde dp = desvio-padrão Usando o escore z para classificar um valor como não-usual O escore z pode ser usado para classificar um valor como atípico (valor não-usual, não comum ou outlier) ou típico (valor usual ou comum). Para conjunto de dados simétricos em torno da média podemos usar a regra abaixo: z < −2 valor atípico (considerado valor muito pequeno) z > +2 valor atípico (considerado como muito grande) −2 z +2 valor usual (considerado como valor comum) Como exemplo, considere que os homens adultos em geral têm uma altura média de 175 cm com um desvio-padrão de 6 cm. O jogador de basquetebol norte-americano Michael Jordan tem uma altura de 1,98 metro, portanto seu escore z é z = valor − média = 198 − 175 = 3,8 Michael Jordan dp 6 Como z = 3,8 é maior que 2, então podemos concluir que a altura de Michael Jordan não é comum em homens adultos em geral (esta altura seria um valor não-usual). E o jogador brasileiro Romário que tem altura de 1,69 metro, o que você poderia dizer sobre sua altura? Tente responder. Usando o escore z para fazer comparações entre valores O escore z também pode ser usado comparar valores vindo de diferentes conjuntos de dados. Por exemplo, suponha que uma prova foi aplicada aos alunos de duas turmas (A e B). Na turma A, a nota média foi de 10 pontos com desvio-padrão de 5 pontos. Na turma B, a nota média foi de 15 pontos com desvio-padrão de 10 pontos. Vamos comparar o desempenho de dois alunos: Narizinho da turma A: obteve 18 pontos Pedrinho da turma B: obteve 25 pontos. Unidade 04– Medidas de Variabilidade − 20 − O z-escore da Narizinho foi: z = 18 − 10 = 1,6 Narizinho 5 O z-escore do Pedrinho foi: 25 − 15 Significa que a nota de Narizinho está 1,6 desvio-padrão acima da média da sua turma (A). Significa que a nota de Pedrinho está 1 desvio-padrão z Pedrinho = 10 = 1,0 acima da média da turma Usando o escore z podemos concluir que a aluna Narizinho teve um desempenho melhor dentro da sua turma do que o aluno Pedrinho. Unidade 04– Medidas de Variabilidade − 21 − (x i − )2 i=1 3 - Anexos Diferenças entre a média (amostral e populacional) e desvio-padrão (amostral e populacional) Na grande maioria das vezes os dados que temos representam uma amostra retirada de uma população de interesse. E se, de repente, os nossos dados representarem uma população, como iremos calcular a média populacional, a variância populacional e o desvio-padrão populacional? Média Cálculo da média populacional () x i = i=1 = x1 + x 2 + L + x N Cálculo da média amostral ( x ) x i x = i=1 = x1 + x 2 +L + x n N N n n Na realidade, para as médias a única diferença é na notação usada: µ para média populacional e x para média amostral. Variância Cálculo da variância populacional (2) (x i − )2 2 = i=1 N Cálculo da variância amostral (s2) (x i − x)2 s 2 = i=1 n −1 Além da diferença na notação usada (2 para variância populacional e s2 para variância amostral) note que no denominador de 2 usa-se N, enquanto que s2 o usa-se n – 1. Desvo-padrão Cálculo da desvio-padrão populacional () Cálculo da desviio-padrão amostral (s) = s = EXEMPLO: Imaginem um país hipotético com apenas 4 estados, com os valores representando o PIB (em milhões de dólares) de cada estado. 6 10 16 12 Já que só tem 4 estados, os valores acima representam a populaçãode todos os estados daquele país (N = 4). Neste caso, a média populacional, a variância populacional e o desvio-padrão populacional são: x i Média populacional: = i=1 = 6 +10 +16 +12 = 44 = 11 milhões (PIB médio destes estados) 4 4 4 N n N n 4 (x i − x)2 i=1 n −1 Unidade 04– Medidas de Variabilidade − 22 − (x i − )2 i=1 var iância 13 (x i − x)2 i=1 n −1 var iância 17,33 Variância populacional: 2 (x i − )2 = i=1 N (6 −11)2 + (10 −11)2 + (16 −11)2 + (12 −11)2 = 4 = 25 +1+ 25 +1 = 52 = 13 4 4 Desvio-padrão populacional: = = = = 3,61 milhões EXEMPLO: Imaginem um país hipotético com vários estados, onde apenas 4 estados foram sorteados aleatoriamente (amostra de 4 estrados) e registrado o PIB (em milhões de dólares) de cada um deles. 6 10 16 12 Como os 4 estados foram sorteados de uma população de vários estados, então os valores acima vêm de uma amostra (n = 4) e não de uma população. Neste caso, a média amostral, a variância amostral e o desvio-padrão amostral são: x i Média amostral: x = i=1 = 6 +10 +16 +12 = 44 = 11 milhões (PIB médio destes estados) 4 4 4 n Variância amostral: (x i − x)2 s 2 = i=1 n −1 (6 −11)2 + (10 −11)2 + (16 −11)2 + (12 −11)2 = 4 −1 = 25 + 1 + 25 + 1 = 52 = 17,33 milhões2 3 3 Desvio-padrão amostral: s = = = = 4,16 milhões Observem que, ao calcular a variância amostral, o denominador foi n − 1 N 4
Compartilhar