Baixe o app para aproveitar ainda mais
Prévia do material em texto
�PAGE � �PAGE �33� ESCOLA DE ENGENHARIA DE LORENA – EEL – USP DISCIPLINA: ESTATÍSTICA CAPÍTULO 2: Características Numéricas de uma Distribuição de Freqüências – Medidas Estatísticas 2.0 Introdução 2.1 Medidas de Posição 2.1.1 Moda 2.1.2 Mediana 2.1.3 Média 2.1.4 Propriedades das Medidas de Posição de uma Distribuição de Freqüências 2.2 Medidas de Dispersão 2.2.1 Amplitude 2.2.2 Desvio Médio 2.2.3 Variância 2.2.4 Desvio Padrão 2.2.5 Coeficiente de Variação 2.2.6 Propriedades das Medidas de Dispersão de uma Distribuição de Freqüências 2.3 Outra Forma de Análise dos Dados Levantados 2.3.1 Quartil ou Junta 2.3.2 Decil 2.3.3 Percentil 2.3.4 Intervalo Interquartil 2.3.5 Dispersão Inferior e Superior 2.3.6 Outliers 2.4 Momentos de uma Distribuição de Freqüências 2.5 Medidas de Assimetria de uma Distribuição de Freqüências 2.5.1 Coeficiente de Assimetria 2.5.2 Índice de Assimetria de Pearson 2.6 Medidas de Achatamento ou Curtose de uma Distribuição de Freqüências 2.6.1 Coeficiente de Curtose 2.0 Introdução Freqüentemente é necessário simplificar a apresentação das distribuições de freqüências por meio de valores numéricos em menor quantidade e com boa significação, substituindo assim as representações em forma de tabelas ou em forma gráfica. Estes valores numéricos são chamados de Medidas da distribuição, pois irão procurar quantificar seus aspectos de interesse. As medidas conhecidas de uma distribuição de freqüências são aquelas que indicam a sua Posição, a sua Dispersão, a sua Assimetria / Simetria, e o seu Achatamento ou Curtose. As medidas de posição e de dispersão são as mais importantes e conseqüentemente as mais utilizadas. 2.1 Medidas de Posição As medidas de posição servem para localizar a distribuição de freqüências sobre o eixo de variação da variável em estudo. São três as medidas de posição mais comuns; a moda, a média e a mediana. A média e a mediana são medidas de tendência central e visam representar “onde” os valores estão localizados ou posicionados. A terceira medida de posição é a Moda, que procura indicar a região dos dados que possui a maior freqüência. 2.1.1 Moda (Mo) (ou modas) Moda (ou modas) de um conjunto de valores é o valor (ou são os valores) de máxima freqüência do conjunto de valores do levantamento de dados. Quando a distribuição é apresentada em classes de freqüências, a classe que contém a moda é chamada de Classe Modal. O cálculo da moda pode se dar por: a) Em distribuições não agrupadas em classes de freqüências: verifica-se, através da contagem, qual é o resultado de maior freqüência. Este será o valor da Moda. b) Em distribuições agrupadas em classes de freqüências, a moda poderá ser obtida por três modos; - Processo de Czuber - Moc onde: li = limite inferior da classe modal hi = amplitude da classe modal d1 = diferença entre a freqüência da classe modal e a freqüência da classe imediatamente anterior à classe modal d2 = diferença entre a freqüência da classe modal e a freqüência da classe imediatamente posterior à classe modal - Processo de King - Mok onde: li = limite inferior da classe modal hi = amplitude da classe modal f.ant = freqüência da classe imediatamente anterior à classe modal f.post = freqüência da classe imediatamente posterior à classe modal - Processo de Pearson - MoP 2.1.2 Mediana (Md) A mediana é uma quantidade que procura caracterizar o centro da distribuição de freqüências com base na ordem dos valores que formam o conjunto de dados. O cálculo da mediana pode se dar por: a) Em distribuições não agrupadas em classes (os dados deverão estar na forma de rol): a1) Quando o número de dados é ímpar: Md = valor de ordem (N + 1) / 2 a2) Quando o número de dados é par: Md = valor médio entre os valores de ordem N/2 e (N/2) +1 b) Em distribuições agrupadas em classes de freqüências; onde: li = é o limite inferior da classe que contém a mediana; N = número total de observações; Fac = freqüência acumulada abaixo da classe que contém a mediana; fmd = freqüência da classe que contém a mediana; hmd = amplitude da classe que contém a mediana. A mediana de uma distribuição em classes de freqüências pode ser geometricamente interpretada como o ponto tal que uma vertical por ele traçada divide a área sob o histograma em duas partes iguais. A mediana de uma distribuição pode ser analiticamente interpretada como o ponto que divide a quantidade de observações, subtraída de 1, em duas partes iguais, quando N for impar; sendo que neste caso a mediana será uma das observações. A mediana de uma distribuição pode ser analiticamente interpretada como o ponto que divide a quantidade de observações, em duas partes iguais, quando N for par; sendo que neste caso a mediana não será uma das observações. 2.1.3 Média (Me) A média ( ou Me) é a media aritmética dos valores da distribuição. È uma quantidade que caracteriza o centro da distribuição de freqüências em termos dos valores reais das observações. a) A média em distribuições não agrupadas em classes será dada por: a1) Média amostral, em distribuições não agrupadas em classes: ou a2) Média populacional, em distribuições não agrupadas em classes: ou b) A média em distribuições agrupadas em classes será dada por: b1) Média amostral, em distribuições agrupadas em classes: ou b2) Média populacional, em distribuições agrupadas em classes: ou Nas fórmulas de médias, tem-se: n = número total de observações da amostra N = número total de observações da população xi = observações das amostras / populações; ou ponto central da classe de freqüência Ci = ponto central da classe de freqüência = média amostral = média populacional Exemplo: Calcular a moda, a mediana e a média, da seguinte amostra: a) 35 36 37 38 40 40 41 43 46 Mo= 40 Md = 40 Me = = 39,56 b) 35 36 37 38 40 40 41 43 Mo = 40 Md = = 39 Me = = 38,75 Exemplo: Calcular a moda (Czuber), a mediana e a média, da seguinte amostra: Classe Freqüência 39, 5 44,5 3 44,5 49,5 8 49,5 54,5 16 54,5 59,5 12 59,5 64,5 7 64,5 69,5 3 69,5 74,5 1 Total 50 Moda Classe Modal: 49,5 54,5 Mediana Classe da Mediana: 49,5 54,5 = 53,88 Média = Observações: 1ª) A mediana pode ser usada como alternativa, em relação à média, para caracterizar o centro da distribuição. Em certos casos, efetivamente, seu uso é mais conveniente; como por exemplo no caso de distribuições de rendas visto que não sofre influência de valores extremos. 2ª) A mediana deve ser usada também, nos casos em que as distribuições de freqüências em classes de freqüências, apresentam classes abertas nos extremos; visto que nestes casos o cálculo da média a rigor não pode ser efetuado. 3ª) Relação Empírica entre Média, Mediana e Moda A seguinte relação é considerada como uma regra geral: Esta expressão indica geometricamente que a mediana situa-se entre a média e a moda, sendo que a sua distância para a moda é aproximadamente o dobro da sua distância para a média. � Mo Md Me Me Md Mo 2.1.4 Propriedades das Medidasde Posição de uma Distribuição de Freqüências 1ª) Multiplicando-se todos os valores de uma variável, por uma constante, a média da nova distribuição ficará multiplicada por essa constante. Primeira distribuição: x1, x2, ..., xn Segunda distribuição: kx1, kx2, ..., kxn 2ª) Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média da nova distribuição ficará aumentada ou diminuída dessa constante. Primeira distribuição: x1, x2, ..., xn Segunda distribuição: (x1 ± k), (x2 ± k), ..., (xn ± k) 3ª) A média de uma constante é a própria constante. xi = k 4ª) Utilizando as propriedades anteriores, pode-se introduzir simplificações no cálculo da média; o que será particularmente útil se os valores da variável forem muito elevados. - Assim pode-se subtrair uma constante conveniente, de todos os valores da variável; calculando-se então a sua média; e em seguida soma-se essa constante ao resultado dessa média; obtendo-se a média final. - Para distribuições agrupadas em classes de igual amplitude, pode-se efetuar a chamada CODIFICAÇÃO DE DADOS, que consiste em aplicar aos valores dos centros das classes da distribuição (Ci), uma transformação linear da forma: onde: - xo = é um valor constante, convenientemente escolhido entre os valores de Ci. É recomendado que o valor escolhido seja o mais central possível; - h = amplitudes das classes de freqüências; A média da nova distribuição (Z) será dada por: Da expressão da codificação de dados, tira-se: . A média destes valores, que é a média da distribuição será obtida por: Exemplo: Calcular, utilizando a técnica da codificação de dados, a média da amostra indicada abaixo. Classe Freqüência 39, 5 44,5 3 44,5 49,5 8 49,5 54,5 16 54,5 59,5 12 59,5 64,5 7 64,5 69,5 3 69,5 74,5 1 Total 50 Considerando xo = 57 e sabendo que h = 5, tem-se: Classe Freqüência Ci zi zi..fi 39, 5 44,5 3 42 - 3 - 9 44,5 49,5 8 47 - 2 - 16 49,5 54,5 16 52 -1 - 16 54,5 59,5 12 57 0 0 59,5 64,5 7 62 1 7 64,5 69,5 3 67 2 6 69,5 74,5 1 72 3 3 Total 50 - - - 25 = 5.(-0,5) + 57 = 54,5 2.2 Medidas de Dispersão A informação fornecida pelas medidas de posição necessita, em geral, ser complementada por medidas de dispersão que indiquem o quanto os dados se apresentam dispersos em torno da região central; isto é, necessitam de medidas que caracterizem o grau de variação existente no conjunto de valores. As medidas de dispersão mais usadas são: a Amplitude, o Desvio Médio, a Variância, o Desvio Padrão e o Coeficiente de Variação. 2.2.1 Amplitude - R A amplitude (R) é definida como sendo a diferença entre o maior e o menor valor do conjunto de dados: R = xmáx..- xmin. Como esta medida depende apenas de dois valores do conjunto de dados, ela não é muito representativa da dispersão e portanto não é utilizada. 2.2.2 Desvio Médio – DM O desvio médio é a média aritmética dos desvios absolutos das observações, para a sua média (média dessas observações) O desvio médio é a medida de dispersão que apresenta a variação real dos dados em torno da média; apesar disso ela não é a medida de dispersão mais utilizada. 2.2.3 Variância – VAR / S2 A variância é a média dos quadrados dos desvios das observações, em relação à média da distribuição. É a média quadrática da distribuição. A variância amostral é dada por: A variância populacional é dada por: Observação: É importante notar que se os dados representarem uma amostra e não toda a população, nas expressões do Desvio Médio e da Variância serão utilizados no denominador o valor (N – 1), por motivos que serão explicados na Teoria da Estatística Indutiva. 2.2.4 Desvio Padrão – DP / S O desvio padrão é a raiz quadrada da média quadrática dos desvios em relação à média da distribuição, sendo obtido através da raiz quadrada (positiva) da variância. Esta é a medida mais utilizada para verificação da dispersão dos dados. O desvio padrão amostral é dado por: O desvio padrão populacional é dado por: 2.2.5 Coeficiente de Variação – CV O coeficiente de variação é uma medida relativa da dispersão e é definido como o quociente entre o desvio padrão e a média. O coeficiente de variação amostral é dado por: CV = O coeficiente de variação populacional é dado por: CV = A vantagem do coeficiente de variação é caracterizar a dispersão dos dados em termos relativos ao seu valor médio; assim uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada com a ordem de grandeza dos valores da variável. Este engano é eliminado pelo coeficiente de variação. Assim sendo, o coeficiente de variação é a melhor medida para comparação de dispersões de diferentes distribuições. Uma variante do coeficiente de variação é o Coeficiente de variação de Thorndike, que não muito utilizada: Importante: Quando se trabalha com todos os dados de uma população finita de tamanho N, pode-se calcular todas as medidas de posição e dispersão usando as fórmulas já apresentadas; Quando se trabalha com população infinita, a média e o desvio padrão são inobserváveis; Na maioria das vezes não se trabalha com as populações por questões de custo, tempo, fidedignidade das observações, ou porque a população é infinita. Nestes casos os valores de ( e ( são estimados pelos valores da média e do desvio padrão conseguidos a partir de uma amostra ou seqüência de amostras; As medidas obtidas de uma população ou usadas para descrever uma população são chamadas de parâmetro; enquanto que as medidas da amostra são chamadas de estatísticas; assim tem-se; Medidas Estatísticas Parâmetros Média ( Variância S2 (2 Número de elementos n N Proporção p 5) Assim tem-se: Exemplo: Calcular a amplitude total (range), o desvio médio, a variância, o desvio padrão e o coeficiente de variação da distribuição amostral: 35 36 37 38 40 40 41 43 46 = 38,75 (já calculado) R = xmáx.- xmin..= 46 – 35 = 11 = DM = xi 35 38,75 - 3,75 14,0625 36 38,75 - 2,75 7,5625 37 38,75 - 1,75 3,0625 38 38,75 - 0,75 0,5625 40 38,75 1,25 1,5625 40 38,75 1,25 1,5625 41 38,75 2,25 5,0625 43 38,75 4,25 18,0625 46 38,75 7,25 52,5625 Total - - 104,0625 CV = Exemplo: Calcular a amplitude total (range), o desvio médio, a variância, o desvio padrão e o coeficiente de variação da distribuição amostral: = 54,5 (já calculado) Classe Freqüência 39, 5 44,5 3 44,5 49,5 8 49,5 54,5 16 54,5 59,5 12 59,5 64,5 7 64,5 69,5 3 69,5 74,5 1 Total 50 R = xmáx.- xmin..= 74,5 – 39,5 = 35 = = = = 5,5 Classe Freqüência Ci Ci - (Ci - )2 (Ci - )2.fi 39, 5 44,5 3 42 - 12,5 156,25 468,75 44,5 49,5 8 47 - 7,5 56,25 450,00 49,5 54,5 16 52 - 2,5 6,25 100,00 54,5 59,5 12 57 2,5 6,25 75,00 59,5 64,5 7 62 - 7,5 56,25 393,75 64,5 69,5 3 67 12,5 156,25468,75 69,5 74,5 1 72 17,5 306,25 306,25 Total 50 - 2.262,50 CV = Observações: 1ª) O desvio médio é, em geral, aproximadamente igual a 0,8 vezes o desvio padrão. 2ª) A variância, quando os dados são apresentados em classes de freqüências, deve ser calculada pela fórmula: Para amostra: Para população: Esta variância é aproximadamente igual a variância exata dos n ou N dados originais. A rigor, a variância calculada com base nos dados agrupados em classes, tende a ser ligeiramente superior à aquela calculada com base nos dados originais, especialmente quando as distribuições são unimodais e aproximadamente simétricas. Isso porque, nesses casos, a tendência real em cada classe é a de que os valores originais do conjunto de dados se situem com mais freqüência, na metade da classe mais próxima da moda da distribuição, a qual deverá ser próxima da média. Ora, ao se substituir todos os valores originais da classe pelo seu ponto médio, a tendência em geral é majorar a soma dos quadrados das diferenças em relação à correspondente a essa classe. Uma tentativa no sentido de corrigir essa tendência é feita pela chamada CORREÇÃO DE SHEPPARD para a variância, a qual, em primeira aproximação, indica que se deve subtrair h2/12 à variância calculada com base nos dados agrupados. 3ª) As expressões: = não são, em geral, as mais apropriadas para o cálculo da variância, pois geralmente é um valor fracionário, o que viria a dificultar o cálculo das quantidades (xi - )2. Notando que: Pode ser feito, então: 4ª) Relação empírica entre Desvio Padrão e Amplitude Na quase totalidade dos casos práticos, o desvio padrão supera um sexto e é inferior a um terço da amplitude, isto é: 2.2.6 Propriedades das Medidas de Dispersão da Distribuição 1ª) O somatório dos desvios das observações para a média é igual a zero. x1, x2, ... , xn d1 = x1 - d2 = x2 - d3 = x3 - . . . . . . dn = xn - 2ª) O somatório dos desvios dos pontos médios das classes, de uma distribuição em classes de freqüências, para a média da distribuição é igual a zero. 3ª) Multiplicando-se todos os valores de uma variável por uma constante, a variância da distribuição ficará multiplicada pelo quadrado dessa constante. V(k.x) = k2. V(x) V(k.x) = k2. V(x) 4ª) Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a variância não se altera. V(x + k) = V(x) 1º Modo de Demonstração V(x + k) = V(x) V(x + k) = V(x) 2º Modo de Demonstração = = V(x) V(x + k) = V(x) 5ª) A soma dos quadrados dos desvios de um conjunto de números xi, em relação a qualquer número a, é um mínimo, quando a = , e somente neste caso. Comprovação: a) Demonstrar que (w2 + p.w + q), em que p e q são constantes dadas, apresenta um valor mínimo somente quando . É possível dizer que: w2 + pw + q = (w + p)2 + q - p2 Sabe-se que (q - p2) = constante A expressão então atinge o seu menor valor quando: w + p = 0, donde w = - b) Considerando o item a), será demonstrado que , tem valor mínimo somente quando a = . = = = = a2 – 2a + Comparando com (w2 + p.w + q) tira-se: a = w p = -2 q = A expressão tem um valor mínimo quando: w = a = - = = = Logo: a = 6ª) Para distribuições unimodais e simétricas (Normais) em torno do ponto central, a 5a propriedade indica que: a) 68,26% das observações estarão situadas entre e ; isto é um desvio padrão de cada lado da média b) 95,44% das observações estarão incluídas entre e ; isto é dois desvios padrão de cada lado da média. c) 99,73% das observações estarão incluídas entre e ; isto é três desvios padrão de cada lado da média. 7ª) Considerando dois conjuntos de valores com N1 e N2 observações, tendo variâncias e , respectivamente; e a mesma média ; a variância conjunta ou combinada da ambos os conjuntos será dada por: Isto é, trata-se da média ponderada das variâncias, que poderá se estender a 3 ou mais conjuntos de valores. 8ª) O desvio padrão é maior do que o desvio médio. 9ª) Somando-se ou subtraindo-se uma constante qualquer a todos os valores de uma coleção de dados, o desvio padrão da nova coleção será igual ao desvio padrão da primeira coleção; isto é, o desvio padrão não se altera. 10ª) Ao se multiplicar uma constante qualquer por todos os valores de uma coleção de dados, o desvio padrão da nova coleção será igual ao desvio padrão da coleção inicial, multiplicado por esta constante. 11ª) Ao se dividir todos os valores de uma coleção de dados por uma constante qualquer, o desvio padrão da nova coleção será igual ao desvio padrão da coleção inicial, dividido por esta constante. Observações: As propriedades podem introduzir simplificações úteis no cálculo da variância. Uma delas consiste em subtrair de todos os valores da distribuição, uma constante conveniente, antes de realizar o cálculo, pois pela 4ª Propriedade, o resultado do cálculo não se altera. Assim é possível simplificar o trabalho de cálculo, utilizando valores menores. A codificação de dados, já vista para o cálculo da média, em geral, é bastante útil no cálculo da variância, especialmente no caso de dados agrupados em classes de mesmo tamanho. A codificação de dados será dada por: onde: xi = dados da distribuição x0 = um valor constante convenientemente escolhido entre os valores de xi h = tamanho ou amplitude das classes. A variância será dada por: Exemplo: Considerando a distribuição abaixo, calcular a variância pela forma codificada. Classe Freqüência 39, 5 44,5 3 44,5 49,5 8 49,5 54,5 16 54,5 59,5 12 59,5 64,5 7 64,5 69,5 3 69,5 74,5 1 Total 50 Considerando xo = 57 e sabendo que h = 5, tem-se: Classe Freqüência Ci zi zi..fi 39, 5 44,5 3 42 - 3 - 9 27 44,5 49,5 8 47 - 2 - 16 32 49,5 54,5 16 52 -1 - 16 16 54,5 59,5 12 57 0 0 0 59,5 64,5 7 62 1 7 7 64,5 69,5 3 67 2 6 12 69,5 74,5 1 72 3 3 9 Total 50 - - - 25 103 = 25 . 1,84 = 46 O termo pode também ser escrito nas seguintes formas: - - n. Sendo a primeira a mais conveniente. O cálculo da média e da variância pelo processo codificado é chamado de PROCESSO ABREVIADO; sendo que o contrário é chamado de PROCESSO LONGO. Controle de Charlier O controle de Charlier, para os cálculos da média e do desvio padrão pelo método abreviado, utiliza as seguintes desigualdades: - - 2.3 Outra Forma de Análise dos Dados Levantados Tanto a média quanto o desvio padrão podem não ser medidas adequadas para representar um conjunto de valores, pois: - são afetados, de forma exagerada, pelos valores extremos; - não mostram a idéia da assimetria da distribuição de valores. Para contornar estes fatos, TUKEY sugeriu as seguintes medidas: Mediana - Md Extremos – Superior (Es) e Inferior (Ei) Quartis (Q) ou Juntas (J)Estas medidas devem ser obtidas, sempre, com os dados apresentados na forma de ROL (isto é: ordenados de forma crescente, da esquerda para a direita; e de cima para baixo). 2.3.1 Quartil ou Junta Cada quartil ou junta faz com a distribuição de dados, o mesmo que a mediana faz; isto é, divide a distribuição em partes. No caso da mediana as partes representam metades da distribuição; enquanto que no caso dos quartis, as partes representam quartas partes. Assim, tem-se: Abaixo do quartil ou junta Quartil ou junta Acima do quartil ou junta ¼ Q1 ou J1 3/4 2/4 Q2 ou J2 2/4 ¾ Q3 ou J3 1/4 O Q2 equivale à mediana. As medidas de Tukey seriam, então: - Ei – Extremo inferior - Q1 ou J1 – 1º Quartil ou 1ª Junta - Mediana - Md (Q2/J2) ou 2º Quartil ou 2a Junta - Q3 ou J3 – 3º Quartil ou 3ª Junta - Es – Extremo superior Estas cinco medidas são chamadas de Estatísticas de Ordem e são medidas resistentes de posição de uma distribuição. Uma medida estatística de posição ou de dispersão é chamada Resistente quando for pouco afetada por mudanças de uma pequena porção de dados. A mediana é uma medida resistente enquanto que a média não é. Representação gráfica do esquema dos cinco números � 2.3.2 Decil É o ponto que divide a distribuição em duas partes, ambas correspondendo à partes decimais da distribuição Abaixo do Decil Decil Acima do Decil 1/10 1º 9/10 2/10 2º 8/10 3/10 3º 7/10 4/10 4º 6/10 5/10 5º 5/10 6/10 6º 4/10 7/10 7º 3/10 8/10 8º 2/10 9/10 9º 1/10 2.3.3 Percentil É o ponto que divide a distribuição em duas partes, ambas correspondendo à partes centesimais da distribuição. Abaixo do Percentil Percentil Acima do Percentil 1/100 1º 99/100 2/100 2º 98/100 . . . . . . . . . 40/100 40º 60/100 . . . . . . . . . 50/100 50º 50/100 . . . . . . . . . 66/100 66º 34/100 . . . . . . . . . 99/100 99º 1/100 Exemplo: Considere a distribuição de salários (em termos de número de salários mínimos) de 36 funcionários de uma empresa. Classes de salários fi (100% x fri) 4,00 8,00 10 28 8,00 12,00 12 33 12,00 16,00 8 22 16,00 20,00 5 14 20,00 24,00 1 3 Total 36 100 Determinar os seguintes pontos da distribuição: a) Mediana (Q2) b) 2o, 3o, e 7o Decil c) J1 e J3 d) 24o, 55o, e76o Percentil Cálculo da Mediana/Q2 (pela coluna de freqüências absolutas – fi) Divide-se o total de freqüência (36) por 4 e multiplica-se por 2 (Md), obtendo-se 18 observações acumuladas, isto é, na segunda classe de freqüências. Esta classe será, então usada para o cálculo da Mediana/Q2. A segunda classe como um todo acumula 12 observações e está sendo procurado nela o acúmulo de 8 (18 – 10) tem-se então: Md = 10,7 b1) Cálculo do 2ºD ou D2 (pela coluna de freqüências absolutas – fi) Divide-se o total de freqüência (36) por 10 e multiplica-se por 2 (2ºD), obtendo-se 7,2 observações acumuladas, isto é, na primeira classe de freqüências. Esta classe será, então usada para o cálculo do 2ºD. A primeira classe como um todo acumula 10 observações e está sendo procurado nela o acúmulo de 7,2; tem-se então: 2ºD = 6,88 b2) Cálculo do 3ºD ou D3 (pela coluna de porcentagem - %) Verifica-se que na primeira classe ocorre o acúmulo de 28%; porém busca-se o acúmulo de 30%. Este valor estará situado na segunda classe de porcentagens. Essa classe será, então usada para o cálculo do 3ºD. A segunda classe como um todo acumula 33% e está sendo procurado nela o acúmulo de 2% (30 – 28), tem-se então: 3ºD = 8,24 b3) Cálculo do 7ºD ou D7 (pela coluna de porcentagem - %) Verifica-se que na primeira classe ocorre o acúmulo de 28%; na segunda 33%; que somam 61%, porém busca-se o acúmulo de 70%. Este valor estará situado na terceira classe de porcentagens. Essa classe será, então usada parta o cálculo do 7ºD. A terceira classe como um todo acumula 22% e está sendo procurado nela o acúmulo de 9% (70 – 61), tem-se então: 7ºD = 13,64 c1) Cálculo do J1 ou Q1 (pela coluna de freqüências absolutas – fi) Divide-se o total de freqüência (36) por 4 e multiplica-se por 1 (J1), obtendo-se 9 observações acumuladas, isto é, na primeira classe de freqüências. Esta classe será, então usada para o cálculo da J1(25º Percentil). A primeira classe como um todo acumula 10 observações e está sendo procurado nela o acúmulo de 9, tem-se então: J1 ou Q1 = 7,6 c2) Cálculo do J3 ou Q3 (pela coluna de porcentagens – %) Verifica-se que na primeira classe ocorre o acúmulo de porcentagens de 28%; na segunda 33%; que somam 61%, porém busca-se o acúmulo de 75% (J3). Este valor estará situado na terceira classe de porcentagens. Essa classe será, então usada para o cálculo da J3 ou Q3. A terceira classe como um todo acumula 22% e está sendo procurado nela o acúmulo de 14% (75 – 61) das observações, tem-se então: J3 ou Q3 = 14,5 d1) Cálculo do 24º Percentil ou 24P (pela coluna de freqüências absolutas – fi) Divide-se o total de freqüência (36) por 100 e multiplica-se por 24 (24ºP), obtendo-se 8,64 observações acumuladas, isto é, na primeira classe de freqüências. Esta classe será, então usada para o cálculo do 24ºP. A primeira classe como um todo acumula 10 observações e está sendo procurado nela o acúmulo de 8,64; tem-se então: 24ºP = 7,46 d2) Cálculo do 55º Percentil ou 55P (pela coluna de porcentagens de freqüências %) Verifica-se que na primeira classe ocorre o acúmulo de porcentagens de 28%; na segunda 33%; que somam 61%; isto é, o acúmulo procurado de 55% encontra-se nesta segunda classe de freqüências. Essa classe será, então usada para o cálculo do 55ºP. A segunda classe como um todo acumula 33% e está sendo procurado nela o acúmulo de 27% (55 – 28 ) das observações, tem-se então: 55ºP = 11,28 d3) Cálculo do 76º Percentil ou 76P (pela coluna de porcentagens de freqüências %) Verifica-se que na primeira classe ocorre o acúmulo de porcentagens de 28%; na segunda 33%; que somam 61%; isto é, o acúmulo procurado de 76% encontra-se na terceira classe de freqüências. Essa classe será, então usada para o cálculo do 76ºP. A terceira classe como um todo acumula 22% e está sendo procurado nela o acúmulo de 15% (76 – 61) das observações, tem-se então: 76ºP = 14,73 2.3.4 Intervalo Interquartil - dj É a medida de dispersão que apresenta a diferença entre o 3º e o 1º quartil (ou junta) dj = Q3 – Q1 2.3.5 Dispersão Inferior e Superior A dispersão inferior é indicada pela diferença entre o 2º Quartil e o extremo inferior. Dispersão inferior = Q2 - Ei = J2 – Ei = Md - Ei A dispersão superior é indicada pela diferença entre o extremo superior e o 2º quartil. Dispersão superior = Es – Q2 = Es – J2 = Es - Md Observação: A comparação destas distâncias fornece a informação sobre a forma da distribuição. Para uma distribuição simétrica em torno de um ponto central, deveria apresentar: J2 – J1 = J3 – J2 J1 – Ei = Es – J3 A dispersão inferior aproximadamente igual á dispersão superior As distâncias entre mediana e juntas menores do que as distâncias entre extremos e juntas. � Ei J1 J2 J3 Es 2.3.6 Outliers Os valores que estão muito aquém de J1 ou muito além de J3 são definidos como observações discrepantes ou “Outliers”. São considerados como dados discrepantes, aqueles: menores do que (J1- dj) maiores do que (J3 + dj) Os valores discrepantes devem ser desprezados antes do procedimento de cálculo e da inferência estatística. x � x 2.4 Momentos de uma Distribuição de Freqüências Momentos de uma distribuição de freqüências são medidas desta distribuição. Define-se como momento de ordem t de uma distribuição amostral: Define-se como momento de ordem t, centrado em relação a uma constante a, de uma distribuição amostral: O momento mais importante de uma distribuição é o momento centrado em relação a , o qual é conhecido como simplesmente MOMENTO CENTRADO e é dado por: Nos casos de distribuições agrupadas em classes de freqüências, tem-se: Observações: 1ª) O momento de 1ª ordem é a média da distribuição: M1 = 2ª) O primeiro momento centrado é igual a zero: M1 = 0 3ª) O segundo momento centrado é igual à variância: M2 = S2 4ª) Interessa particularmente saber calcular os momentos centrados de terceira e de quarta ordens, que serão dados por: Considerando os dados agrupados em classes de freqüências, tem-se: 5ª) Os cálculos indicados podem ser efetuados através da codificação de dados, apresentada anteriormente. Assim codificação de dados, já vista para o cálculo da média, em geral, é também útil no cálculo dos momentos, inclusive no caso de dados agrupados em classes de freqüências, de mesmo tamanho. A codificação de dados será dada por: onde: xi = dados da distribuição x0 = um valor constante convenientemente escolhido entre os valores de xi h = tamanho ou amplitude das classes. O segundo momento será dado por: O terceiro momento será dado por: 2.5 Medidas de Assimetria de uma Distribuição de Freqüências Essas medidas procuram caracterizar como e quanto a distribuição de freqüências se afasta da condição de simetria. As distribuições alongadas à direita são ditas positivamente assimétricas; enquanto que as alongadas à esquerda são ditas negativamente assimétricas. As medidas de assimetria, conforme sejam positivas ou negativas, procuram indicar o tipo de distribuição quanto ao aspecto da assimetria; enquanto que o valor zero da medida vai indicar a simetria. POSITIVA NEGATIVA 2.5.1 Coeficiente de Assimetria – a3 O coeficiente de assimetria indica o sentido da assimetria e é dado por: a3 = Exemplo: Considerando a distribuição dos tempos gastos pelos funcionários para preencher um certo formulário: Classe Freqüência 39, 5 44,5 3 44,5 49,5 8 49,5 54,5 16 54,5 59,5 12 59,5 64,5 7 64,5 69,5 3 69,5 74,5 1 Total 50 O cálculo do coeficiente de assimetria será dado por, considerando: = 54,5 e s = 6,78 (já calculados) Classe fi Ci 39, 5 44,5 3 42 222264 5292 44,5 49,5 8 47 830584 17672 49,5 54,5 16 52 2249728 43264 54,5 59,5 12 57 2222316 38988 59,5 64,5 7 62 1668296 26908 64,5 69,5 3 67 902289 13467 69,5 74,5 1 72 373248 5184 Total 50 - 8468725 150775 = 169374,5 – 163,5 . 3015,5 + 323757,25 M3 = 169374,5 – 493034,25 + 323757,25 = 97,5 a3 = = Efetuando o cálculo pela codificação de dados, considerando: h = 5 e xo = 57 Classe fi Ci zi zi..fi 39, 5 44,5 3 42 - 3 - 9 27 - 81 44,5 49,5 8 47 - 2 - 16 32 - 64 49,5 54,5 16 52 -1 - 16 16 - 16 54,5 59,5 12 57 0 0 0 0 59,5 64,5 7 62 1 7 7 7 64,5 69,5 3 67 2 6 12 24 69,5 74,5 1 72 3 3 9 27 Total 50 - - - 25 103 - 103 = - 2,06 + 3,09 – 0,25 = 0,78 = 53.0,78 = 97,5 a3 = = = 0,313 2.5.2 Índice de Assimetria de Pearson É dado por: Exemplo: Considerando o exemplo anterior, tem-se: = = 0,246 Observações: 1a) Quando < 0,15 Praticamente Simétrica Quando 0,15 < < 1 Assimetria Moderada Quando > 1 Assimetria Forte 2a) Este índice é também conhecido como Primeiro Coeficiente de Assimetria de Pearson sendo que o Segundo Coeficiente de Assimetria de Pearson é dado por: 3a) Outras medidas de Assimetria, definidas em termos de quartis e percentis, são: Coeficiente Quartílico de Assimetria CA = Coeficiente de Assimetria entre os Percentis 10 - 90 2.6 Medidas de Achatamento ou Curtose de uma Distribuição de Freqüências Estas medidas procuram caracterizar a forma da distribuição quanto ao seu achatamento. O termo médio de comparação é dado pela distribuição normal, modelo teórico de distribuição estudado pelo cálculo de probabilidades, cujo tipo de achatamento é dito Mesocúrtica. As distribuições mais achatadas do que a normal são ditas Platicúrticas e as menos achatadas do que a normal são ditas Leptocúrticas. � Distribuições Platicúrticas, Mesocúrticas e Leptocúrticas A caracterização do achatamento de uma distribuição só tem sentido em termos práticos, se a distribuição for pelo menos aproximadamente simétrica. 2.6.1 Coeficiente de Achatamento ou Curtose – a4 É dado por: Observações: 1a) Quando a4 < 3 Platicúrtica Quando a4 = 3 Mesocúrtica Quando a4 > 3 Leptocúrtica 2ª) Outra medida de Curtose conhecida e baseada nos Quartis e Percentis é dada por: K = Coeficiente Percentílico de Curtose = onde: Q = = Amplitude Semi-Quartílica Quando k = 0,263 A distribuição é considerada Normal, isto é Mesocúrtica Exemplo: Considerando o exemplo anterior: Classe fi Ci zi zi..fi 39, 5 44,5 3 42 - 3 - 9 27 - 81 243 44,5 49,5 8 47 - 2 - 16 32 - 64 128 49,5 54,5 16 52 -1 - 16 16 - 16 16 54,5 59,5 12 57 0 0 0 0 0 59,5 64,5 7 62 1 7 7 7 7 64,5 69,5 3 67 2 6 12 24 48 69,5 74,5 1 72 3 3 9 27 81 Total 50 - - - 25 103 - 103 523 M4z = 10,46 – 4,12 + 3,09 – 0,1875 = 9,2425 M4x= h4. M4z = 625 . 9,2425 = 5.776,5625 = = 2,73 Platicúrtica Observação: Outra medida de Curtose conhecida e baseada nos Quartis e Percentis é dada por: K = Coeficiente Percentílico de Curtose = Q = = Amplitude Semi-Interquartílica Quando k = 0,263 → Distribuição Normal (Simetria) Es Ei J3 J1 Md N 50% dos Dados J3 J2 J1 � EMBED Equation.3 ��� � EMBED Equation.3 ��� � EMBED Equation.3 ��� _1328511014.unknown _1328535134.unknown _1328596469.unknown _1328690213.unknown _1329048771.unknown _1329122796.unknown _1329140744.unknown _1329235391.unknown _1329312713.unknown _1329314613.unknown _1329314897.unknown _1374325723.unknown _1375791945.unknown _1375792087.unknown_1374325661.unknown _1329314719.unknown _1329314382.unknown _1329314402.unknown _1329312765.unknown _1329313667.unknown _1329282796.unknown _1329283234.unknown _1329283285.unknown _1329283154.unknown _1329236922.unknown _1329237372.unknown _1329237884.unknown _1329235556.unknown _1329202252.unknown _1329203011.unknown _1329203168.unknown _1329202357.unknown _1329201973.unknown _1329201716.unknown _1329136630.unknown _1329137713.unknown _1329140573.unknown _1329139520.unknown _1329139540.unknown _1329138826.unknown _1329136859.unknown _1329137612.unknown _1329136704.unknown _1329123002.unknown _1329133278.unknown _1329133855.unknown _1329135649.unknown _1329123191.unknown _1329122844.unknown _1329122894.unknown _1329122804.unknown _1329112171.unknown _1329121888.unknown _1329122562.unknown _1329121497.unknown _1329121641.unknown _1329121778.unknown _1329112531.unknown _1329109483.unknown _1329110634.unknown _1329108868.unknown _1328979079.unknown _1328980306.unknown _1329047866.unknown _1329048350.unknown _1329047336.unknown _1328979972.unknown _1328980191.unknown _1328979480.unknown _1328978004.unknown _1328978578.unknown _1328979021.unknown _1328978196.unknown _1328940391.unknown _1328977984.unknown _1328977753.unknown _1328940362.unknown _1328681882.unknown _1328687431.unknown _1328688244.unknown _1328689681.unknown _1328689924.unknown _1328689429.unknown _1328687981.unknown _1328688135.unknown _1328687468.unknown _1328686487.unknown _1328686565.unknown _1328687417.unknown _1328681966.unknown _1328683790.unknown _1328686060.unknown _1328684086.unknown _1328682024.unknown _1328683505.unknown _1328681913.unknown _1328597559.unknown _1328597932.unknown _1328598096.unknown _1328598139.unknown _1328597958.unknown _1328597742.unknown _1328597768.unknown _1328597598.unknown _1328596961.unknown _1328597285.unknown _1328597365.unknown _1328597005.unknown _1328596797.unknown _1328596836.unknown _1328596572.unknown _1328593574.unknown _1328595749.unknown _1328596111.unknown _1328596181.unknown _1328596284.unknown _1328595849.unknown _1328595934.unknown _1328594870.unknown _1328595537.unknown _1328595609.unknown _1328595151.unknown _1328594537.unknown _1328594583.unknown _1328594172.unknown _1328594441.unknown _1328593835.unknown _1328591767.unknown _1328592514.unknown _1328593111.unknown _1328593235.unknown _1328592844.unknown _1328592418.unknown _1328592450.unknown _1328592413.unknown _1328592380.unknown _1328535496.unknown _1328535650.unknown _1328535219.unknown _1328530449.unknown _1328532168.unknown _1328534441.unknown _1328534884.unknown _1328535127.unknown _1328534725.unknown _1328532571.unknown _1328532984.unknown _1328532276.unknown _1328531417.unknown _1328531929.unknown _1328531945.unknown _1328531471.unknown _1328531147.unknown _1328531240.unknown _1328530703.unknown _1328526192.unknown _1328526835.unknown _1328527172.unknown _1328527262.unknown _1328527086.unknown _1328526586.unknown _1328526658.unknown _1328526286.unknown _1328513360.unknown _1328524345.unknown _1328524454.unknown _1328516974.unknown _1328524108.unknown _1328524253.unknown _1328513581.unknown _1328514710.unknown _1328512009.unknown _1328512533.unknown _1328512663.unknown _1328511380.unknown _1328362863.unknown _1328505215.unknown _1328507989.unknown _1328510298.unknown _1328508721.unknown _1328509663.unknown _1328505975.unknown _1328507228.unknown _1328505869.unknown _1328363514.unknown _1328363948.unknown _1328504770.unknown _1328504902.unknown _1328364027.unknown _1328363728.unknown _1328363138.unknown _1328363478.unknown _1328363070.unknown _1059384504.unknown _1283867878.unknown _1328362574.unknown _1328362684.unknown _1283868345.unknown _1059385142.unknown _1282718966.unknown _1283867516.unknown _1282719029.unknown _1282656942.unknown _1282657005.unknown _1059384817.unknown _1059385141.unknown _1059384574.unknown _1059382982.unknown _1059383149.unknown _1059383366.unknown _1059381951.unknown _1059382035.unknown _1059382847.unknown _1059381534.unknown
Compartilhar