Baixe o app para aproveitar ainda mais
Prévia do material em texto
FUNDAÇÃO UNIVERSIDADE FEDERAL DO ABC UFABC ESTATÍSTICA MEDIDAS DESCRITIVAS PROF. Dr. OSMAR DOMINGUES 2 SUMÁRIO MEDIDAS DESCRITIVAS .......................................................................................... 3 MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL ..................................... 3 MÉDIA ARITMÉTICA ( X ou ) .......................................................................... 3 Cálculo da Média Aritmética................................................................................ 3 1. Séries Simples = lista de dados = dados brutos .......................................... 3 2. Séries Agrupadas = Tabelas – Variável Discreta ou Contínua ..................... 4 MÉDIA GEOMÉTRICA (G).................................................................................. 5 Cálculo da Média Geométrica ............................................................................. 5 1. Séries Simples ............................................................................................ 5 2. Séries Agrupadas – Tabelas – Variável Discreta ou Contínua ..................... 7 MÉDIA HARMÔNICA (H) .................................................................................... 9 Cálculo da Média Harmônica .............................................................................. 9 1. Séries Simples ............................................................................................ 9 2. Séries Agrupadas = Tabelas – Variável discreta ou Contínua ................... 10 MODA (Mo) ....................................................................................................... 11 Cálculo da Moda ............................................................................................... 11 1. Séries Simples .......................................................................................... 11 2. Séries Agrupadas = Tabelas – Variável Discreta ou Continua ................... 11 MEDIANA (Me) ................................................................................................. 12 Cálculo da Mediana ....................................................................................... 12 1. Séries Simples .......................................................................................... 12 1.1. Quando n (nº de elementos) é impar................................................... 12 1.2. Quando n (nº de elementos) é par ...................................................... 13 2. Séries Agrupadas – Tabelas – Variável Discreta ou Continua ................ 13 2.1 Quando n = Fi = for impar ................................................................ 13 2.2 Quando n = Fi = for par ................................................................... 14 MEDIDAS DE ORDENAÇÃO ............................................................................ 15 Cálculo de Separatrizes ou Medidas de Ordenação ......................................... 16 1. Séries Simples e Séries Agrupadas (V. Discretas ou Contínuas). ................. 16 MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE .......................................... 19 1. VARIÂNCIA................................................................................................... 21 2. DESVIO-PADRÃO ........................................................................................ 22 3. COEFICIENTE DE VARIAÇÃO ..................................................................... 23 MEDIDAS DE ASSIMETRIA ................................................................................. 26 MEDIDA DE CURTOSE ....................................................................................... 28 TESTE DE NORMALIDADE UNIVARIADA DA SÉRIE ......................................... 29 OUTLIERS OU DADOS EXTREMADOS .............................................................. 30 USANDO O EXCEL .............................................................................................. 31 Referências Bibliográficas. ................................................................................... 34 3 MEDIDAS DESCRITIVAS São métodos numéricos que integram o ramo da estatística descritiva, que são utilizadas para descrever e analisar fenômenoS coletivoS. Dividem-se em: Medidas de Posição. Medidas de Ordenação. Medidas de Dispersão. Medidas de Assimetria. Medidas de Curtose. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL São utilizadas para representar fenômenos coletivos através de um único valor, que fornece uma idéia geral a respeito do fato ou fenômeno analisado. Dividem-se em: Matemáticas: Média Aritmética Média Geométrica Média Harmônica Não Matemáticas: Moda e Mediana MÉDIA ARITMÉTICA ( X ou ) É a mais intuitiva e uma das mais importantes das medidas de posição. Tem uso generalizado., Deve ser empregada com cuidado, pois, por ser uma medida matemática, sofre influência de todos os valores presentes na série. Na hipótese da presença de dados extremados na série, a média aritmética terá sua representatividade afetada negativamente. É representada por: X Para uma amostra. Para uma população. Cálculo da Média Aritmética 1. Séries Simples = lista de dados = dados brutos Sejam X1, X2, X3, ...Xn, os n valores assumidos pela variável Xi, representando uma série simples. A média aritmética simples desse conjunto de dados e obtida por: 4 X = = n XXXX n321 = X = = n X i Exemplo: Uma empresa apresentou durante 6 meses sucessivos de expansão, as seguintes quantidades de empregados: 4, 6, 8, 9, 12, 15. Calcular o número médio de empregados do período. Solução: o problema não especifica se os dados representam uma amostra ou uma população. Assim, pode-se considerar a média populacional. X = = 9 6 54 6 15129864 empregados. 2. Séries Agrupadas = Tabelas – Variável Discreta ou Contínua Os dados Xi (X1, X2, X3, ..., Xn) que apresentam repetições, respectivamente, F1, F2, F3, ...,Fn, têm média aritmética ponderada dada por: X = = i ii n321 nn332211 F FX FFFF FXFXFXFX Exemplo: Os dados constantes da tabela abaixo, referem-se ao número de empregados de uma amostra de 40 empresas do setor metalúrgico do ABC. Calcular o número médio de empregados desta amostra. Número de Empregados (Xi) Número de Empresas (Fi) 4 3 6 10 8 12 9 3 12 9 15 3 Soma 40 Solução: Nesse caso, percebe-se que os dados estão agrupados em uma distribuição de freqüência e que a variável (Xi) é discreta. Logo a solução consiste em aplicar a fórmula da média aritmética ponderada. Deve-se, portanto, desenvolver uma coluna adicional contendo o produto de Xi por Fi e o respectivo somatório. 5 Número de Empregados (Xi) Número de Empresas (Fi) Calculo Auxiliar:XiFi 4 3 12 6 10 60 8 12 96 9 3 27 12 9 108 15 3 45 Soma 40 348 A média aritmética amostral será: X = i ii F FX = 40 348 = 8,7 empregados MÉDIA GEOMÉTRICA (G) Trata-se de um tipo especial de média, que deve ser utilizada sempre que as séries representarem: Progressão Geométrica (PG); ou Porcentagens Sucessivas (quando diferentes porcentagens incidem uma sobre as outras). Nestes casos a média aritmética não se mostram adequadas pois não desconsidera a incidência cumulativa dos dados. As progressões geométricas não são comuns em assuntos empresariais, mas não é incomum o surgimento de séries com crescimento exponencial, situação em que a média geométrica é a mais indicada. Cálculo da Média Geométrica 1. Séries Simples Sejam X1, X2, X3, ...Xn , os n valores assumidos pela variável Xi, representativo de uma série simples, no formato de uma PG, a média geométrica simples desse conjuntode dados e obtida por: n n321 XXXXG = n iX Exemplo: Dados: 4, 8, 16, 32, 64, 128 calcular a média desse conjunto de dados. 6 Solução: O problema não especifica qual das médias deve ser utilizada. Porém, observando-se que os dados representam uma PG, deve ser utilizada a média geométrica, pois a radiciação elimina o efeito exponencial da PG. 6 128x64x32x16x8x4G (4x8x16x32x64x128)(1/6) = (134.217.728)(1/6) = 22,627 Exemplo: As porcentagens abaixo foram obtidas através de números relativos seqüenciais de base móvel. Pede-se determinar a porcentagem média do período. Jan Fev Mar Abr Mai Jun 7,25% 6,39% 4,36% 2,88% 3,78% 2,10% Solução: A série foi obtida através de números relativos de base móvel. Assim são porcentagens sucessivas, onde deve ser aplicada a média geométrica para que se possa eliminar o efeito cumulativo das porcentagens. Antes, porém, as porcentagens devem ser transformadas em números relativos, aplicando-se a formula: 1 100 %x os resultados das transformações são: Jan Fev Mar Abr Mai Jun 7,25% 6,39% 4,36% 2,88% 3,78% 2,10% 1,0725 1,0639 1,0436 1,0288 1,0378 1,0210 Em seguida, calcula-se a média geométrica dos números relativos, como indicado a seguir: 6 0210,10378,10288,10436,10639,10725,1 xxxxxG = G = (1,29808) (1/6) = G = 1,04444 = nº relativo médio Para retornar para porcentagem, deve-se percorrer caminho inverso, ou seja: (nº relativo – 1) x 100 (1,04444 -1)x100 = 4,444% taxa média do período. 7 2. Séries Agrupadas – Tabelas – Variável Discreta ou Contínua Sejam X1, X2, X3, ..., Xn os n valores assumidos pela variável Xi, representativo de uma série no formato de uma PG. Se os dados Xi apresentam repetições, respectivamente, F1, F2, F3, ...,Fn, então a média geométrica ponderada desse conjunto de dados será obtida por: i n321 F F n F 3 F 2 F 1 XXXXG = G = i iF F iX Exemplo: Dados: Variável Xi 4 8 16 32 64 128 Freqüência Fi 3 5 2 3 4 2 Pede-se, calcular a média desse conjunto de dados. Solução: O problema não especifica qual das médias deve ser utilizada, porém, observa-se que os dados representam uma PG. Nesse caso, deve ser utilizada a média geométrica, pois a radiciação elimina o efeito exponencial da PG. 19 243253 128x64x32x16x8x4G (43x85x162x323x644x1282)(1/19) = G = (4,8357x1024)(1/19) = 19,915 Como pode ser observado no exemplo, o produto de potências pode conduzir a números muito altos, cujo cálculo pode se tornar inviável até para máquinas de calcular com maior capacidade de memória e dígitos. A solução alternativa que se apresenta, consiste em utilizar logaritmos decimais (base 10) e transformar as fórmulas para as que se seguem: Série Simples: n )X(log Glog i G = antilog do log G G = 10x Série Ponderada: i ii F ]F)X[(log Glog G = antilog do log G G = 10x Também é possível empregar logaritmo natural (base e), quando as fórmulas são adaptadas para: Série Simples: n )X(ln Gln i G = antilog do ln G G = ex 8 Série Ponderada: i ii F ]F)X[(ln Gln G = antilog do ln G G = ex Exemplo: Resolver os exemplos anteriores, utilizando logaritmos. 1. Série Simples Usando Logaritmo na base 10 O primeiro passo consiste em calcular os logarítmos dos valores das séries: Xi 4 8 16 32 64 128 Soma logXi 0,6021 0,9031 1,2041 1,5051 1,8062 2,1072 8,1278 Em seguida, calcula-se a soma dos logXi, tem-se: 8,1278. Assim, logG = 3546,1 6 1278,8 . Fazendo-se o antilog, tem-se G = 101,3546 = 22,63. Usando logaritmo natural (ln): O primeiro passo consiste em calcular os logarítmos naturais dos valores das séries: Xi 4 8 16 32 64 128 Soma lnXi 1,3863 2,0794 2,7726 3,4657 4,1589 4,852 18,7149 Somando-se os lnXi, tem-se: 18,7149. Assim, lnG = 1192,3 6 7149,18 . Fazendo-se o antilog, tem-se G = e3,1192 = 22,63. 2. Série Agrupada Usando Logaritmos na Base 10 O primeiro passo é, novamente, calcular os logaritmos dos valores da variável: Xi 4 8 16 32 64 128 Somas Fi 3 5 2 3 4 2 19 LogXi 0,6021 0,9031 1,2041 1,5051 1,8062 2,1072 (LogXi)Fi 1,8063 4,5155 2,4082 4,5153 7,2248 4,2144 24,6845 Em seguida, calcule o produto dos logaritmos pelas freqüências simples. Some esses produtos A média Geométrica Ponderada é obtida por 19 6845,24 log G = 1,2991 Fazendo-se o antilog, tem-se G = 101,2991 = 19,915. 9 Usando Logaritmos Naturais Também se pode obter o mesmo valor usando logaritmo natural, conforme segue: Xi 4 8 16 32 64 128 Somas Fi 3 5 2 3 4 2 19 lnXi 1,3863 2,0794 2,7726 3,4657 4,1589 4,852 (lnXi)Fi 4,1589 10,397 5,5452 10,3971 16,6356 9,704 56,8378 A média Geométrica Ponderada é obtida por 19 8378,56 Gln = 2,9915 Fazendo-se o antilog, tem-se G = e2,9915 = 19,915. MÉDIA HARMÔNICA (H) Trata-se de um outro tipo especial de média, que deve ser utilizada sempre que a série apresentar uma relação inversa entre os dados, como por exemplo, nos casos de cálculo de velocidade média, pois na medida que a velocidade aumenta, o tempo do trajeto diminui. A média Harmônica corresponde ao inverso da média aritmética com os dados invertidos. A utilização dos inversos na fórmula elimina a relação inversa existente na série de dados. Cálculo da Média Harmônica 1. Séries Simples Sejam X1, X2, X3, ...,Xn , os n valores assumidos pela variável Xi, representativo de uma série simples. A média harmônica simples desse conjunto de dados e obtida por: iX 1 n H Exemplo: Os tempos de escoamento do estoque de um produto em três lojas de uma mesma rede de supermercados foram: Loja 1 = 8 meses; Loja 2: 10 meses; Loja 3: 6 meses. Determinar o tempo médio de escoamento dos estoques nas três lojas. 10 Solução: Admite-se que nesse caso os estoques das três lojas são iguais. Nesse caso, deve-se empregar a média harmônica, que é mais apropriada do que a média aritmética, em função da existência de uma relação inversa entre velocidade e tempo. 66,7 391667,0 3 6 1 10 1 8 1 3 H meses. 2. Séries Agrupadas = Tabelas – Variável discreta ou Contínua Sejam X1, X2, X3, ..., Xn os n valores assumidos pela variável Xi, representativo de uma série que apresenta uma relação inversa. Se os dados Xi apresentam repetições, respectivamente, F1, F2, F3, ...,Fn, então a média harmônica ponderada desse conjunto de dados será obtida por: i i i X F F H Se os estoques mencionados no exemplo anterior não fossem iguais, deve-se ponderar os tempos de escoamento com os respectivos estoques. Nesse caso, a formula a ser utilizada deveria ser a da média harmônica ponderada. Exemplo: O estoque de matéria prima de uma fábrica está distribuído por três unidades diferentes. Os tempos de escoamento desses estoques também são diferentes e estão apresentados no quadro a seguir: Unidade A B C Tempo de Escoamento (Xi) 15 22 25 Estoque em Unidades (Fi) 1.800 1.500 2.000 Solução: Para calcular o tempo médio de escoamento do estoque foram efetuados os cálculos abaixo: Unidade A B C Somas Tempo de Escoamento (meses) 15 22 25 Estoque em Unidades 1.800 1.500 2.000 5.300 (Fi/Xi) 120 68,1818 80 268,1818 A média harmônica é dada por 1818,268 300.5 H = 19,763 meses 11 MODA (Mo) A Moda é uma medida de posição considerada não matemática porque não envolve todos os elementos da série. É utilizada para destacar o elemento que mais se repete num conjunto de dados, ou seja, a moda é o elemento que apresenta a maior freqüência num certo conjunto de dados, representativo de um fenômeno coletivo. Cálculo da Moda 1. Séries Simples A moda não é calculada. Apenas indicada. Exemplo: Dados Xi = 2, 4, 6, 8, 4, 6, 10, 4. Calcular a moda. Solução: Neste caso, a série e simples. Basta identificar qual é o elemento mais freqüente: Mo = 42. Séries Agrupadas = Tabelas – Variável Discreta ou Continua Nesse caso a moda corresponde ao elemento que apresenta a maior freqüência e, portanto, também é facilmente identificado. Exemplo: A tabela abaixo representa o número de empregados de uma amostra de 55 empresas: Nº de Empregados 0 1 2 3 4 5 Nº de Empresas 5 15 22 9 3 1 Solução: A maior freqüência nessa distribuição é 22. Assim, a moda do número de funcionários desta amostra é 2, ou seja, Mo = 2 funcionários, indicando que o número mais freqüente de funcionários na amostra é 2 (irmãos). 12 MEDIANA (Me) A Mediana também é uma medida de posição não matemática porque não envolve todos os elementos da série. É utilizada para destacar o elemento central em um conjunto de dados, ou seja, a mediana é o elemento que divide uma série em duas partes iguais. É uma medida de posição importante porque deixa 50% dos elementos da série abaixo do seu valor e 50% dos elementos da série acima do seu valor. Por isso é considerada uma medida robusta. Além disso, por estar no centro da série, a mediana não sofre interferência dos valores extremos. Exatamente por isso acaba sendo uma medida mais útil e mais interessante do que a própria média, principalmente para a análise e interpretação de fatos sócio-econômicos. Cálculo da Mediana 1. Séries Simples 1.1. Quando n (nº de elementos) é impar Nesse caso a mediana terá o valor correspondente ao termo central, após a série ter sido arranjada em ordem crescente. Exemplo: Os salários de 7 pessoas graduadas em Economia que trabalham no departamento Econômico de uma empresa: Dados: Xi= 2.350; 2.450; 2.550; 2.380; 2.255; 2.210; 2.390. Solução: Colocando-se os dados em ordem crescente, tem-se: Xi = 2.210; 2.255; 2.350; 2.380; 2.390; 2.450; 2.550. n = 7 impar. Logo a mediana é igual ao termo central 2.210 2.255 2.350 2.380 2.390 2.450 2.550 Termo Central: 4º elemento: valor = R$ 2.380 = Mediana Me = 2380 50% das pessoas ganham até $ 2.380. Elemento Central = Me = 2380 13 1.2. Quando n (nº de elementos) é par Nesse caso a mediana terá o valor correspondente à média aritmética simples dos valores dos dois termos centrais, após a série ter sido arranjada em ordem crescente. Exemplo: Os salários de 8 pessoas graduadas em Economia que trabalham no departamento Econômico de uma empresa: Dados: Xi= 2.350; 2.450; 2.550; 2.380; 2.255; 2.210; 2.390; 2.630. Solução: Ordenando-se a série tem-se: Xi = 2.210; 2.255; 2.350; 2.380; 2.390; 2.450; 2.550; 2.630. n = 8 par. Logo a mediana é igual à média aritmética simples dos valores dos dois termos centrais, 2.210 2.255 2.350 2.380 2.390 2.450 2.550 2.630 Termos Centrais: 4º elemento = 2.380; 5º elemento = 2.390 Me = 2 23902380 = 2.385 50% dos empregados recebem salários de até $2.385 2. Séries Agrupadas – Tabelas – Variável Discreta ou Continua Nesse caso o processo de cálculo é semelhante ao descrito para a série simples. Por ser uma distribuição de freqüência, os dados já estão em ordem crescente. Caso isso não ocorra, a série deve ser ordenada previamente. 2.1 Quando n = Fi = for impar Nesse caso a mediana terá o valor do termo central, dado por TC = 2 1n Elementos Centrais 14 Exemplo: Abaixo é apresentada a distribuição do número de funcionários de um conjunto de 55 empresas. Nº Funcionários (Xi) 0 1 2 3 4 5 Nº Empresas (Fi) 5 15 22 9 3 1 Fiac 5 20 42 51 54 55 Solução: n é impar. O Termo Central = TC = 2 155 =28º elemento da série – ou seja a mediana terá o valor correspondente ao 28º elemento da série. Olhando-se para a freqüência acumulada, nota-se que o valor correspondente ao 28º elemento é 2. Logo: Me = 2 funcionários 50% das empresas têm até 2 funcionários. 2.2 Quando n = Fi = for par Nesse caso a mediana terá o valor correspondente à média aritmética dos valores dos dois termos centrais, dados por TC = 2 n e 1 2 n Exemplo: Abaixo é apresentada a distribuição do número de funcionários de um conjunto de 80 empresas: Nº Funcionários (Xi) 0 1 2 3 4 5 Nº Empresas (Fi) 5 15 20 23 10 7 Fiac 5 20 40 63 73 80 Solução: n é par. Os Termos Centrais são TC = 2 80 = 40º elemento da série e 1 2 80 = 41º elemento da série. Valor do 40º elemento da série = 2 Valor do 41º elemento da série = 3. Portanto Me = 2 32 = 2,5 funcionários 50% das empresas têm até 2,5 funcionários. 15 MEDIDAS DE ORDENAÇÃO São medidas que são utilizadas para fazer cortes ordenados em uma série, visando a identificação de características relevantes. Dividem-se em: Quartis Decis Percentis 1. QUARTIS São os elementos de uma série, que a dividem em 4 partes iguais, ou seja, de 25% em 25% 2. DECIS São os elementos de uma série, que a dividem em 10 partes iguais, ou seja, de 10% em 10% D1 D2 D3 D4 D5 … 3. PERCENTIS São os elementos de uma série, que a dividem em 100 partes iguais, ou seja, de 1% em 1% P10 P11 P25 P50 P75 25% Q1 Q2 Q3 10% 1% 16 Notar que os percentis, por efetuarem cortes de um em um por cento, podem substituir todas as outras separatrizes mencionadas: Decis Percentis Quartis Percentis D1 = P10 Q1 = P25 D2 = P20 Q2 = P50 D3 = P30 Q3 = P75 D4 = P40 D5 = P50 Mediana = Me = D5=Q2=P50 D6 = P60 D7 = P70 D8 = P80 D9 = P90 O cálculo dessas medidas de ordenação é mais usual nas distribuições de freqüência de variável contínua. Entretanto, é possível efetuar o seu cálculo também nas séries de dados agrupados (variável discreta) ou nas séries simples. Cálculo de Separatrizes ou Medidas de Ordenação 1. Séries Simples e Séries Agrupadas (V. Discretas ou Contínuas). É possível calcular essas medidas em séries simples, usando para isso um procedimento semelhante ao da mediana. Lembrando que os Percentis substituem todas as demais Medidas de Ordenação ou Separatrizes. Como o próprio nome ordenamento sugere, a série precisa ser colocada em ordem crescente. Isso fará com que o menor elemento da série assuma a posição 1 e o maior valor da série assuma a posição n. Estabelecer uma ordem numa série de n observações ordenadas de forma crescente é associar esses elementos à série de números naturais 1, 2, 3, ... , n (Lapponi, 1997, p. 59). O cálculo de uma medida de ordenamento, implica em querer conhecer qual a posição que um determinado valor no conjunto das n observações. 17 Cálculo do Percentil Para efetuar o cálculo é preciso relembrar que os percentis dividem a série em 100 partes iguais de 1 em 1 porcento. Assim, a série ordem ordenada de 1 a n equivale de 0% a 100% em termos de posicionamento. 1 2 x n Logo, pode ser construída a seguinte relação: 0p 1x %0%100 1n onde: n = número de observações x = ordem de uma determinada observação p = percentil desejado expresso em % A partir dessa relação é possível determinar: Percentil = %100 1n 1x p dado o nº de ordem, permite identificar qual o percentil em % correspondente. Ordem = 1 100 p )1n(x dado o percentil em %, permite identificar o nº de ordem do elemento na série e a partir dele o valor do percentil correspondente. Exemplo: Dada uma série, calcular os percentis: P10, P20, P30, ...., P90, P95 e os Quartis Q1, Q2, Q3 54 64 128 130 116 124 118 108 58 60 92 86 76 58 64 70 74 62 86 90 132 133 135 138 84 74 72 52 96 94 0% p 100 % Posição Ordem da Série 18 Solução: A primeira tarefa consiste em ordenar a série e enumeraras posições dos dados ordenados, como apresentado na quadro abaixo: Dados 52 54 58 58 60 62 64 64 70 72 Nº de ordem 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º Dados 74 74 76 84 86 86 90 92 94 96 Nº de ordem 11º 12º 13º 14º 15º 16º 17º 18º 19º 20º Dados 108 116 118 124 128 130 132 133 135 138 Nº de ordem 21º 22º 23º 24º 25º 26º 27º 28º 29º 30º Percentil 10 = 1 100 p )1n(x 1 100 %10 )130(x =3,9º O elemento 3,9º da série não existe. Assim, deve-se fazer a interpolação linear entre os valores da 3ª e 4ª posições. Nesse caso o elemento 3º vale 58 e o 4º elemento da série vale 58. Portanto, o elemento 3,9º vale também 58. Percentil 20 = 1 100 p )1n(x 1 100 %20 )130(x =6,8º O elemento 6,8º da série não existe. Assim, deve-se fazer a interpolação linear entre os valores da 6ª e 7ª posições. Nesse caso o elemento 6º vale 62 e o 7º elemento da série vale 64. Portanto, o elemento 6,8º vale 63,6. )6264()67( 1,0 = 2 x)68,6( 0,8 = x x =1,6 então P20 = 62+1,6 = 63,6 Respeitando-se os mesmos procedimentos, o quadro abaixo apresenta os demais resultados dos cálculos solicitados: Percentil nº Ordem Valor Percentil nº Ordem valor P10 3,9º 58 P60 18,4º 92,8 P20 6,8º 63,6 P70 21,3º 110,4 P30 9,7º 71,4 P80 24,2º 124,8 P40 12,6º 75,2 P90 27,1º 132,1 P50 15,5º 86 P95 28,55º 134,1 No tocante aos Quartis, deve-se lembrar que os mesmos também podem ser substituídos por Percentis. Assim, o procedimento de cálculo é exatamente o mesmo descrito acima. Q1 = P25 , Q2 = P50 e Q3 = P75 19 Os resultados dos cálculos desses Quartis = Percentis são apresentados no quadro a seguir: Quartil Percentil nº Ordem Valor Q1 P25 8,25º 65,5 Q2 P50 15,5º 86 Q3 P75 22,75º 117,5 EXEMPLO DO CALCULO DO Q3 OU P75 O elemento 22,75º da série não existe. Assim, deve-se fazer a interpolação linear entre os valores da 22ª e 23ª posições. Nesse caso o elemento 22° vale 116 e o 23º elemento da série vale 118. Portanto, o elemento 6,8º vale 63,6. )116118()2223( 1,0 = 2 x2275,22( 0,75 = x x =1,6 então P75 = 116+1,50 = 117,5 Existirão situações em que se quer conhecer o valor acima da qual ou abaixo da qual se tem uma certa quantidade ou uma certa porcentagem, como por exemplo, no exercício anterior: a) Acima de qual valor estão os 15% dos clientes que mais gastaram em suas compras?. b) Abaixo de qual valor estão os 30% dos clientes que menos gastaram? MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE Depois de conhecer as medidas de posição ou de tendência central, que dão uma idéia geral a respeito do fato estudado, outra característica importante dos dados que precisa ser estudada é a dispersão. Dispersão significa o grau de variação que os dados apresentam entre si e entre cada um deles e uma medida de posição considerada como referência. Dois conjuntos de dados podem diferir entre si tanto pelo valor da medida de tendência central como na dispersão. Em outras situações, podem existir dois conjuntos de dados que apresentem a mesma medida de tendência central, mas que podem divergir bastante em termos de dispersão, ou seja, na distância entre os valores assumidos pelos diferentes elementos da série. Veja nos exemplos a seguir o conceito de dispersão, para um conjunto de dados que apresenta a mesma amplitude total (15-7): 20 Média = 11 Média = 11,5 Média = 13,6 Embora a amplitude total (15-7) seja, por si só, uma medida da dispersão total dos dados, ela é uma medida muito fraca, pois não leva em consideração como os dados estão distribuídos dentro de um certo intervalo (menor e maior valor da série). Assim, torna-se necessário, encontrar medidas de dispersão que dêem boa indicação das distâncias entre os dados e destes em relação a um ponto de referência, como por exemplo, uma medida de posição ou de tendência central. A rigor, as medidas de posição ou de tendência central serão mais representativas para um certo conjunto de dados, quanto menor for a dispersão dos valores da série, ou quanto menor for a distância entre os valores de um conjunto de dados. As medidas de dispersão então, podem ser entendidas como medidas que permitem avaliar a representatividade das medidas de posição. 7 8 9 10 11 12 13 14 15 7 8 9 10 11 12 13 14 15 7 8 9 10 11 12 13 14 15 21 Medidas como a média geométrica, média harmônica e moda, geralmente não são testadas em relação a sua representatividade, pois são calculadas em situações específicas. Já a mediana e a média aritmética, e principalmente esta última, precisam ser checadas em termos de representatividade. Esta representatividade sempre será tanto maior, quanto menor for a dispersão observada nos valores das séries onde a medida de posição foi calculada. Para a mediana existem algumas poucas medidas de dispersão, como o desvio mediano e o intervalo semi-interquartílico. Essas medidas não serão abordadas neste material, para que se possa concentrar maiores esforços na análise da dispersão dos dados em torno da média aritmética. As medidas de dispersão mais utilizadas para verificar a representatividade da média aritmética são: Variância Desvio-padrão Coeficiente de variação. Essas medidas de dispersão são apresentadas em dois conceitos: Populacional quando os dados são representativos de uma população o Variância, indicada por 2 o Desvio-padrão, indicado por o Coeficiente de variação, indicado por CV Amostral quando os dados são representativos de uma amostra. o Variância, indicada por S2 o Desvio-padrão, indicado por S o Coeficiente de variação, indicado por CVs 1. VARIÂNCIA Indica o quadrado da dispersão média absoluta dos dados (Xi) em torno da própria média aritmética. Corresponde à média do quadrado dos afastamentos de cada dado (Xi) em relação à própria média aritmética. Quanto menor for o seu valor, menor será a dispersão e, mais representativa será a média aritmética. É obtida a partir das seguintes fórmulas: 22 Séries Simples POPULACIONAL AMOSTRAL Processo Longo e Simplificado Processo Longo e Simplificado Estas fórmulas devem ser usadas sempre que os dados não apresentam freqüências, sejam os dados populacionais ou amostrais. As fórmulas amostrais deverão ser usadas sempre que houver indicação expressa de que os dados representam uma amostra. Distribuições de Freqüência Dados Discretos e/ou Contínuos (onde Xi = Ponto Médio das Classes) POPULACIONAL AMOSTRAL Processo Longo Onde: Processo Simplificado Onde: 2. DESVIO-PADRÃO Trata-se da mais importante das medidas de dispersão. Indica a dispersão média absoluta dos dados em torno da própria média aritmética. Quanto menor for o seu valor, mais representativa será a média aritmética. Corresponde à raiz quadrada da média dos afastamentos de cada dado (Xi) em relação a própria média aritmética, ou seja, o desvio-padrão corresponde à raiz quadrada do resultado da variância. Suas fórmulas são: POPULACIONAL AMOSTRAL = 2 S = 2S Em sendo o resultado de uma raiz quadrada o desvio-padrão pode assumir resultados com sinais positivos e negativos, e exatamente por isso, reflete a variação média absoluta dos dados em torno da média aritmética. O entendimento do significado do desvio-padrão nos processos produtivos trouxe um grande avanço nos estudos sobre a qualidade. Isso porque todos os processos produtivos apresentam variabilidade e essa variabilidade é medida pelo desvio- 23 padrão. Quanto menor for o desvio-padrão de um processo produtivo, menor será a variabilidade apresentada no produto final e, portanto, maior qualidadeterá o produto. A Teoria dos Seis Sigmas, muito em voga na atualidade na área da qualidade, busca reduzir ainda mais a variabilidade dos processos produtivos, ou seja, busca reduzir a possibilidade do processo apresentar defeito. 3. COEFICIENTE DE VARIAÇÃO Tendo em vista a dificuldade da análise da representatividade da média aritmética a partir do valor do desvio-padrão, principalmente nos casos em que as médias apresentavam valores diferentes, surgiu a idéia de encontrar uma medida que pudesse ser expressa em termos relativos. O coeficiente de variação veio solucionar o problema, uma vez que indica a dispersão média relativa dos dados em torno da média aritmética. Surgiu em função da dificuldade da decisão sobre a magnitude da dispersão média absoluta (desvio padrão), para séries cujas médias são diferentes. O coeficiente de variação é expresso em porcentagem e, por isso apresenta maior facilidade para interpretado. POPULACIONAL AMOSTRAL CV = 100 CVS= 100 X S Interpretação Se CV 15% dispersão é baixa a média é uma medida com boa representatividade. Se 15% < CV 30% dispersão é regular a média é uma medida regular para representar a série Se CV > 30% dispersão é alta a média não é uma medida adequada para representar a série. Observação: Quando não houver nenhuma indicação específica de que os dados são representativos de uma amostra, deve ser adotado o cálculo do parâmetro populacional. Exemplos. Calcular a variância, o desvio padrão e o coeficiente de variação das seguintes séries. 1. Variável: nº de peças defeituosas por dia (Xi)= 27, 25, 20, 15, 30, 28 e 25 24 Não há qualquer tipo de indicação se os dados são amostrais. Assim, deve-se adotar o parâmetro populacional. Variância: Utilizando a formula do processo longo: 1º passo: calcular a média aritmética simples: = 24,2857 unidades defeituosas 2º passo: aplicar a formula da variância populacional simples – processo longo: Desvio-Padrão: Coeficiente de Variação: Dispersão regular – média tem representatividade regular como medida de posição ou de tendência central. 15 20 25 27 28 30 2. Variável: Número de carros nas filas de um posto de pedágio Xi = 25 24 23 28 30 25 26 27 29 20 21 22 20 21 22 23 25 27 29 30 23 25 24 28 27 26 25 25 24 22 Para calcular a variância, o desvio padrão e o coeficiente de variação, o processo poderia ser exatamente o mesmo utilizado no exercício anterior. Todavia, como a série apresenta várias repetições, é aconselhável construir uma distribuição de freqüência do tipo adequado à variável discreta. O Quadro abaixo apresenta a distribuição elabora a partir dos dados da tabela, bem como os cálculos dos Média = 24,2857 4,7724 4,7724 25 somatórios necessários para o cálculo dos parâmetros utilizando o processo simplificado, mais indicado por permitir obter o resultado mais rapidamente. Xi Fi XiFi Xi 2 Fi 20 2 40 800 21 2 42 882 22 3 66 1.452 23 3 69 1.587 24 3 72 1.728 25 6 150 3.750 26 2 52 1.352 27 3 81 2.187 28 2 56 1.568 29 2 58 1.682 30 2 60 1.800 Totais 30 746 18.788 A média = = 866724 30 746 , carros; A variância = 2 = 2 30 746 30 18788 = 7,9156 carros 2 processo simplificado. O Desvio-Padrão = 9156,7 = 2,8135 carros O Coeficiente de Variação = CV = 100 866724 81352 , , =11,31% - dispersão baixa. A média aritmética representa adequadamente essa série. Observação: 1. Todos os exemplos anteriores representam os processos de cálculo da variância, do desvio-padrão e do coeficiente de variação populacionais. Para calcular a variância, o desvio-padrão e o coeficiente de variação amostrais os passos e os cálculos auxiliares são exatamente os mesmos. Só há alteração das fórmulas. Vide quadro de fórmulas da página 37. 2. Não foram abordadas neste texto, outras medidas de posição voltadas para checar a representatividade da média aritmética, como a amplitude total (mencionada), o desvio-médio e o escore reduzido, bem como aquelas destinadas a verificar a representatividade da mediana, como o desvio- mediano e a amplitude semi-interquartílica. 26 MEDIDAS DE ASSIMETRIA A classificação das séries estatísticas segundo o formato gráfico já foi estudada anteriormente, quando foi possível destacar que as distribuições unimodais podem assumir o formato simétrico, assimétrico positivo e assimétrico negativo. Neste tópico, pretende-se estudar o cálculo de medidas que indiquem estes formatos. Nas distribuições simétricas X = Me= Mo com concentração de elementos nos valores centrais da série. X = Me = Mo Nas distribuições de Assimetria Positiva Mo < Me< X com concentração de elementos nos valores iniciais (baixos). Mo <Me< X Nas distribuições de Assimetria Negativa X < Me< Mo com concentração de elementos nos valores altos. X < Me< Mo 27 K. Pearson se dedicou ao estudo dos desvios da posição simétrica e construiu uma relação matemática entre as três medidas de posição, que é particularmente válida nas distribuições de freqüência levemente assimétricas, ou seja, com pequenos desvios em relação à posição de simetria. A relação matemática construída por Pearson é a seguinte: )MX(3MX eo Observação: Todas as relações acima também são válidas quando X é substituída por A partir desta relação, também construiu um coeficiente de assimetria,, denominado primeiro coeficiente de Pearson: 1º Coeficiente de Pearson Mo As1 ou S MoX As1 ou )Me(3 As1 ou S )MeX(3 As1 Interpretação: a) Quanto ao sinal Se As1 = 0 Distribuição simétrica Se As1 < 0 Distribuição Assimétrica Negativa Se As1 > 0 Distribuição Assimétrica Positiva b) Quanto à intensidade 0,1As0 1 ASSIMETRIA FRAÇA As1 > 1,0 ASSIMETRIA FORTE Nas situações nas quais a série não apresenta condições para o cálculo da média e desvio padrão, ou ainda não apresente uma moda e possível utilizar: 2º Coeficiente de Pearson 13 e13 2 QQ M2QQ As Interpretação a) Quanto ao sinal Se As2 = 0 Distribuição simétrica Se As2 < 0 Distribuição Assimétrica Negativa Se As2 > 0 Distribuição Assimétrica Positiva 28 b) Quanto à intensidade 2,0As0 2 ASSIMETRIA FRACA 0,1As2,0 2 ASSIMETRIA FORTE MEDIDA DE CURTOSE Visa identificar o grau de achatamento de uma série estatística. Neste caso são três as possibilidades: Para medir o grau de curtose pode-se utilizar o seguinte coeficiente: Interpretação: Se K = 0,263 Curva Mesocúrtica Se K < 0,263 Curva Leptocúrtica Se K > 0,263 Curva Platicúrtica Curva Leptocúrtica Curva Mesocuúrtica Curva Platicúrtica 29 TESTE DE NORMALIDADE UNIVARIADA DA SÉRIE Os coeficientes de assimetria e de Curtose também podem ser utilizados para estudos dos desvios da normalidade nas séries estatísticas, baseados em testes de normalidade simples, que verificam a rejeição ou não das seguintes hipóteses: H0: a distribuição da variável xi é normal (para i = 1, 2, 3, ...,n); H1: a distribuição da variável xi não é normal. O teste consiste no uso de uma norma prática baseada nos valores da assimetria e curtose obtidos a partir das fórmulas descritas no quadro a seguir. Os valores estatísticos assim obtidos são comparados com os limites críticos extraídos da distribuição normal padronizada. Com 95% de confiança Com 99% de confiança Zassimetria = n 6 Assimetria Zcurtose = n 24 Curtose INTERPRETAÇÃO Fonte:Adaptado a partir de Hair Jr et al (2005a, p. 78). Tanto Hair Jr et al (2005a, p. 78) como Pestana e Gageiro (2000, p. 63-64) recomendam que: Se Zassimetria esteja situado no intervalo de -1,96 a 1,96 (com 95% de confiança) ou de -2,58 a 2,58 (com 99% de confiança), a hipótese de a distribuição de notas ser simétrica não seja rejeitada. RC RC 30 O estudo da curtose se faz mediante a fórmula contida no quadro, que permite apurar a estatística Zcurtose que pode ser usada como um teste de normalidade (i.e., não se pode rejeitar normalidade se a relação for entre -2 e +2. Um valor positivo grande para curtose indica que as extremidades da distribuição são mais largas do que a de uma distribuição normal (platicúrtica); um valor negativo para curtose indica extremidades mais estreitas (leptocúrtica). OUTLIERS OU DADOS EXTREMADOS A presença de valores extremados ou extremos numa série de dados sempre provoca inconvenientes e distorções na análise estatística dos resultados. Dessa forma é interessante identificar ou detectar a presença desses outliers num conjunto de dados, antes mesmo de concluir as análises. 1º Método: Alguns autores sugerem a utilização do Escore Reduzido, para detectar valores extremos, ou seja, sugerem a padronização dos dados da série através da fórmula: Será considerado um dado extremo (outlier), quando o escore reduzido (Z) for maior do que 3 (em módulo). Entretanto, esse método tem a desvantagem do fato dos valores da média e do desvio-padrão serem afetados pelos valores extremos existentes na série, cujo objetivo é identificar e isolar. 2º Método: Outros autores sugerem a utilização do gráfico Boxplots, que corresponde ao trabalho com quartis. Para tanto, deve-se calcular o Quartil Primeiro (Q1) e o Quartil Terceiro (Q3). A diferença entre o Q3 e o Q1 é chamado de Intervalo Interquartílico. I = Q3 - Q1 Os dados situados fora do intervalo abaixo, podem ser considerados dados extremos. 31 OUTLIERS MODERADOS OUTLIERS SEVEROS Li = Q1 I5,1 Ls = Q3 I5,1 Li = Q1 I0,3 Ls = Q3 I0,3 O segundo método é mais interessante do que o primeiro porque os quartis NÃO são afetados pela presença de valores extremos na série, já que essas medidas levam em consideração a quantidade de elementos de uma série e não os valores assumidos pela variável em análise. USANDO O EXCEL Todos os parâmetros aqui indicados podem ser obtidos de maneira muito simples usando uma ferramenta eletrônica do tipo do Excel. Entretanto cabe uma ressalva. Todas as ferramentas eletrônicas trabalham com os dados brutos ou com o rol, ou seja, trabalham com as informações primárias, também classificadas como séries simples. Isso significa que não se pode aplicar as ferramentas disponíveis nos diferentes tipos de planilhas eletrônicas sobre distribuições de freqüências pré- elaboradas ou fornecidas por instituições de pesquisas (prontas ou dados secundários). Para esses casos é necessário empregar os conceitos registrados nesse material de apoio. A seguir passa-se à apresentação de cada uma das funções estatísticas disponíveis na planilha eletrônica Excel, aplicada a um conjunto de dados, disposto numa faixa de células. Os dados podem estar dispostos numa única coluna ou em várias colunas contíguas. MÉDIA ARITMÉTICA Caminho Sintaxe da função f(x) Estatística MÉDIA =MÉDIA(núm1;núm2; ...) MÉDIA GEOMETRIA Caminho Sintaxe da função f(x) Estatística MÉDIA.GEOMÉTRICA =MÉDIA.GEOMETRICA(num1;num2;...) MÉDIA HARMÕNICA Caminho Sintaxe da função f(x) Estatística MÉDIA.HARMÔNICA =MÉDIA.HARMÕNICA(num1;num2;...) MODA Caminho Sintaxe da função f(x) Estatística MODO =MODO(num1;num2;...) 32 MÉDIANA Caminho Sintaxe da função f(x) Estatística MED =MED(num1;num2;...) QUARTIS Caminho Sintaxe da função f(x) Estatística Quartil =QUARTIL(matriz;quarto) quarto = 1,2,3, PERCENTIS Caminho Sintaxe da função f(x) Estatística Percentil =PERCENTIL(matriz;k) K=0,01 ...0,99 VARIÂNCIA POPULACIONAL Caminho Sintaxe da função f(x) Estatística VARP =VARP(num1;num2;...) DESVIO PADRÃO POPULACIONAL Caminho Sintaxe da função f(x) Estatística DESVPADP =DESVPADP(num1;num2;...) VARIÂNCIA AMOSTRAL Caminho Sintaxe da função f(x) Estatística VAR =VAR(num1;num2;...) DESVIO PADRÃO AMOSTRAL Caminho Sintaxe da função f(x) Estatística DESVPAD =DESVPAD(num1;num2;...) Também existe uma ferramenta de análise que gera as principais informações estatísticas a partir de uma série de dados, dispostos numa faixa em uma única coluna. FerramentasAnálise de Dados Quando será apresentada a janela a seguir: Escolha a opção “Estatística Descritiva” e click em OK. A janela a seguir é apresentada: 33 Preencha os campos desta janela da seguinte forma: Informe o Intervalo de Entrada que deverá ser uma faixa relativa a uma única coluna (também pode ser uma única linha. Nessa segunda opção, deve alterar o campo Agrupado por para Linhas). Assinale Rótulos na primeira linha, caso tenha incluído na faixa de dados o título da coluna ou linha. Caso contrário, deixe em branco. Informe o Intervalo de saída, ou seja, a célula onde deseja que os resultados sejam gerados. Se não informar, os resultados serão gerados numa nova planilha. Marque Resumo estatístico Clique OK Em seguida o Excel ira gerar uma tabela com a seguinte configuração, que representa um resumo estatístico, ou uma síntese das principais informações estatísticas de uma série de dados. Coluna1 Média Erro padrão Mediana Modo Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem 34 Referências Bibliográficas. ANDERSON, David R.; SWEENEY, Dennis J.; WILLIAMS, Thomas A. Estatística Aplicada à Administração e Economia. Editora Pioneira. São Paulo, 2002. BARBETTA, Pedro Alberto; REIS, Marcelo Menezes e BORNIA, Antonio Cezar – Estatística para Cursos de Engenharia e Informática – Editora Atlas, São Paulo, 2004 BUSSAB, Wilton de O.; MORETIN, Pedro A. Estatística Básica 5ª Edição. Editora Saraiva, São Paulo, 2002. HAIR JR., J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Análise Multivariada de Dados. 5. ed. Porto Alegre: Bookman, 2005a. LAPPONI, Juan Carlos. Estatística Usando Excel 5 e 7. Lapponi Treinamento e Editora. São Paulo, 1997. LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatística. Teoria e Aplicações Usando o Microsoft Excel em Português. LCT Editora. São Paulo, 2000. MARTINS, Gilberto de Andrade; DONAIRE, Denis. Princípios de Estatística. 3ª Edição. Editora Atlas, São Paulo, 1987. MARTINS, Gilberto de Andrade. Estatística Geral e Aplicada. Editora Atlas, São Paulo, 2001. PESTANA, Maria Helena; GAGEIRO, João Nunes. Análise de Dados para Ciências Sociais - A Complementaridade do SPSS. 2. ed. Revisada e Ampliada: Lisboa: Edições Silabo, 2000. TRIOLA, Mario F. Introdução à Estatística – 7ª Edição. Livros Técnicos e Científicos Editora. Rio de Janeiro, 1999.
Compartilhar