Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva – Distribuição de Frequência • FREQUÊNCIA ABSOLUTA: É o número de vezes que determinado valor aparece em uma população ou amostra. É determinada por meio da contagem dos dados que estão entre os limites da classe. DISTRIBUIÇÕES DE FREQUÊNCIA • FREQUÊNCIA RELATIVA: É a proporção de certo valor em uma população ou amostra. • FREQUÊNCIA ACUMULADA: É a soma dos valores das freqüências absoluta. Valores estes que vão se acumulando, a partir das classes, conforme sugere a referida freqüência. CONSTRUÇÃO DE DISTRIBUIÇÕES DE FREQUÊNCIA Para aplicar tais conceitos vamos utilizar o conjunto de dados a seguir, que se refere a idade de 50 pessoas escolhidas aleatoriamente: EXEMPLO 1.1: 54 47 50 55 55 47 48 53 50 49 45 50 50 51 47 51 48 45 44 50 52 49 51 51 47 53 49 46 61 49 52 48 39 46 52 51 57 49 45 50 54 43 53 55 50 53 52 52 51 47 Tais dados são considerados dados brutos, pois não estão organizados numericamente, dessa forma não estão preparados para uma análise estatística. CONSTRUÇÃO DE DISTRIBUIÇÕES DE FREQUÊNCIA Organizando os dados, apresentados no exemplo 1.1 em ordem crescente, tem- se o que chamamos em estatística de rol, ou seja, a organização dos dados brutos, que pode ser feita em ordem crescente ou também em ordem decrescente. 39 45 47 48 49 50 51 52 53 55 43 46 47 49 50 50 51 52 53 55 44 46 47 49 50 50 51 52 53 55 45 47 48 49 50 51 51 52 54 57 45 47 48 49 50 51 52 53 54 61 Para construirmos uma tabela de distribuição de freqüências, utilizaremos um roteiro sugerido por Scott (1979), que consiste em: CONSTRUÇÃO DE DISTRIBUIÇÕES DE FREQUÊNCIA 1º passo - Determinar o número de classes (k): Em geral, até 100 dados usa-se tomar o inteiro mais próximo da raiz quadrada do número de dados (n). Para conjunto com mais de 100 observações, usa-se o inteiro mais próximo de 5.log(n), conforme sugerido no roteiro apresentado. Como no exemplo 1.1, n = 50. (n = número de observações que formam a amostra) 707,7 50 ≈≈ = = k k nk Devemos observar que o valor de k, deverá ser representado por um número inteiro, pois este representa a quantidade de classes que a distribuição de freqüência irá apresentar. CONSTRUÇÃO DE DISTRIBUIÇÕES DE FREQUÊNCIA )( 1− ∆ = k c )( 67,366,36 22 1 ≈== − ∆ = k c xmínimoxmáximo −=∆ 2º passo - Determinar a amplitude total da amostra (∆) e a amplitude das classes (c): No exemplo 1.1: No exemplo 1.1: 223961 =−=∆ CONSTRUÇÃO DE DISTRIBUIÇÕES DE FREQUÊNCIA 21 c xmínimoLI −= 3º passo - Determinar o limite inferior da primeira classe e os demais limites de cada uma das classes: Limite inferior da primeira classe. No exemplo 1.1: 16,37 2 67,339 1 1 = −= LI LI Sendo assim: cLILILS +== 121 83,4067,316,371 =+=LS No exemplo 1.1: CONSTRUÇÃO DE DISTRIBUIÇÕES DE FREQUÊNCIA • Organizando os dados, apresentados no exemplo 1.1 em ordem crescente, tem- se o que chamamos em estatística de rol, ou seja, a organização dos dados brutos, que pode ser feita em ordem crescente ou também em ordem decrescente. 39 45 47 48 49 50 51 52 53 55 43 46 47 49 50 50 51 52 53 55 44 46 47 49 50 50 51 52 53 55 45 47 48 49 50 51 51 52 54 57 45 47 48 49 50 51 52 53 54 61 Para construirmos uma tabela de distribuição de freqüências, utilizaremos um roteiro sugerido por Scott (1979), que consiste em: Distribuição de Frequência • Tabela 01: Distribuição de Frequência, referente aos dados apresentados no Exemplo 1.1. Classe Frequência absoluta Frequência Acumulada Frequência Relativa 37,16├ 40,83 1 1 0,02 40,83├ 44,50 2 3 0,04 44,50├ 48,17 13 16 0,26 48,17├ 51,84 18 34 0,36 51,84├ 55,51 14 48 0,28 55,51├ 59,18 1 49 0,02 59,18├ 62,85 1 50 0,02 Total 50 - 1,00 Devemos observar que: • O somatório dos valores que representam as frequências absolutas de cada classe será sempre igual ao número de dados apresentados no conjunto (amostra n). • A frequência acumulada não tem total, porém o último valor apresentado em tal frequência será igual ao total apresentado pela freqüência absoluta, ou seja igual a n. • O total referente a frequência relativa é igual a um. Algumas vezes por critérios de arredondamento por ser que esse total apresente uma pequena variação pra mais ou pra menos. • OBS: A partir dos intervalos de classe construídos na aula anterior, calcularemos os pontos médios de cada classe, que passarão a representar os valores correspondentes aos dados coletados, ou seja, irão representar a síntese do conjunto de valores apresentados. Podemos considerar o ponto médio de cada classe como sendo a média aritmética dos valores agrupados na respectiva classe. Distribuição de Frequência • Tabela 01: Distribuição de Frequência, referente aos dados apresentados no Exemplo 1.1. Classe Frequência absoluta Frequência Acumulada Frequência Relativa 37,16├ 40,83 1 1 0,02 40,83├ 44,50 2 3 0,04 44,50├ 48,17 13 16 0,26 48,17├ 51,84 18 34 0,36 51,84├ 55,51 14 48 0,28 55,51├ 59,18 1 49 0,02 59,18├ 62,85 1 50 0,02 Total 50 - 1,00 Tabela 02: Cálculos preliminares. Ponto Médio de classe 38,99 38,99 42,66 85,32 46,33 602,29 50,00 900,00 53,67 751,38 57,34 57,34 61,01 61,01 Total 2496,33 ( )ix ii fx . xx i − ( )2xxi − MEDIDAS DE TENDÊNCIA CENTRAL Tomaremos as tabelas 01 e 02 como referência para os cálculos a serem realizados. • Média - Esta é a medida de tendência central mais utilizada. MÉDIA ARITMÉTICA (dados não agrupados) • No exemplo 1.1: Média aritmética (dados não agrupados): n x x n i i∑ = − 1 92,49 50 2496 50 61....4443391 == +++ == ∑ = n x x n i i MEDIDAS DE TENDÊNCIA CENTRAL MÉDIA PONDERADA (dados agrupados) Onde: No exemplo 1.1: Média ponderada (dados agrupados): ∑ ∑ = = = n i i n i ii f fx x 1 1 . ∑ = = n i fin 1 92,49 50 33,2496 50 01,61...32,8599,38 . 1 1 == +++ =− ∑ ∑ = = n i i n i ii f fx x MEDIDAS DE TENDÊNCIA CENTRAL • Moda - É o valor que ocorre com mais freqüência em um conjunto de valores. Ou seja, é o valor que mais se repete. As distribuições que apresentam uma moda única são chamadas de unimodais, duas bimodais e mais de duas multimodais. Existem distribuições que não apresentam nenhuma moda são amodais. • Quando os valores não estão agrupados em classes, basta observar na amostra o valor que mais se repete. Para valores agrupados em classes, usaremos a seguinte fórmula: cLImo mo . 21 1 ∆+∆ ∆ += • Onde: = Limite inferior da classe modal. são as diferenças entre a frequência absoluta da classe modal e as frequências absolutas das classes anterior e posterior, respectivamente. • No exemplo 1.1: moLI 21 ∆∆ e 21,5067,3. 45 517,48 = + +=mo MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE TENDÊNCIA CENTRAL • Mediana - É o valor que centra a distribuição, ou seja, que a divide em duas partes de frequências absoluta iguais. Existem dois casos a considerar para o cálculo da mediana: • 1º - n (número de termos) é ímpar. Nesse caso, a mediana será o valor da variável que ocupa o posto de ordem . • 2º - n (número de termos) é par. Nesse caso, não existirá no conjunto ordenado um único valor que ocupe a posição central, isto é, a mediana será indeterminada, pois qualquer valor compreendido entre os valores que ocupem os postos de ordem e pode ser considerado o centro de ordenação. 2 1+n 2 n 2 2+n • Esta medida (mediana) pode ser facilmente estabelecida caso as observações estejam dispostas em ordem crescente ou decrescente. Porém, para calcularmos a mediana a partir de dados agrupados em classes, usaremos a seguinte fórmula: cf Fn LImd md AA md . 2 − += MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE TENDÊNCIA CENTRAL • Onde: = Limite inferior da classe mediana = Freqüência acumulada anterior à classe mediana = Freqüência da classe mediana • No exemplo 1.1: mdLI AAF fmd 005,5067,3. 18 162517,48 = − +=md Medidas de Dispersão MEDIDAS DE DISPERSÃO • No cálculo da média, hásempre informação que se perde. A média, apesar de ser uma medida muito utilizada em estatística, é muitas vezes insuficiente para caracterizar uma distribuição. O mesmo podemos dizer sobre a moda e a mediana, também são medidas que não informam muito sobre como as variáveis se alteram, porém não são suficientes para se descrever uma amostra. Por isso é necessário calcular outro indicador que informe sobre a maneira com que os dados se distribuem em torno da média. Para tanto estudaremos as seguintes medidas de dispersão: MEDIDAS DE DISPERSÃO • 1.4.1 - Amplitude Total - É a diferença entre o maior e o menor valor observado na série. (Quanto maior a diferença maior a dispersão) • No exemplo 1.1: xmínimoxmáximo −=∆ 223961 =−=∆ MEDIDAS DE DISPERSÃO • Variância - É a soma dos quadrados dos desvios de cada elemento da distribuição de freqüência, dividida pelo número total de elementos menos um. • Desvio é a diferença que cada valor tem em relação à média aritmética : • Variância para dados amostrais: • No exemplo 1.1: − __ xx i 1 1 2 __ 1 2 − − = ∑ = n xx s n i )( 6974,7 49 9881,122...7076,524649,119 1 2 2 = +++ = ∑ = n is Tabela 02: Cálculos preliminares. Ponto Médio de classe 38,99 38,99 -10,93 119,4649 42,66 85,32 -7,26 52,7076 46,33 602,29 -3,59 12,8881 50,00 900,00 0,08 0,0064 53,67 751,38 3,75 14,0625 57,34 57,34 7,42 55,0564 61,01 61,01 11,09 122,9881 Total 2496,33 - 377,174 ( )ix ii fx . xx i − ( )2xxi − MEDIDAS DE DISPERSÃO Considerações sobre a variância: • A variância é uma medida quadrática, não refletindo a grandeza original da medida. Assim, se tomarmos uma amostra cuja unidade de medida dos dados seja em cm, a variância será expressa em cm². Embora a variância represente uma medida de dispersão importante a sua apresentação como forma quadrática é em muitos casos inconveniente. Sendo assim usa-se o desvio padrão para expressar a dispersão dos dados na mesma unidade de medida do conjunto. Como veremos a seguir. MEDIDAS DE DISPERSÃO • Desvio Padrão: O desvio padrão nada mais é que a raiz quadrada da variância. Dessa forma, é a raiz quadrática dos desvios, ou seja, uma medida de dispersão baseada em todos os dados e na sua grandeza original. • Desvio padrão amostral: • No exemplo 1.1: 21 2 __ 1 s n xx s n i i = − − = ∑ = 7744,26974,7 ==s MEDIDAS DE DISPERSÃO • Coeficiente De Variação: É a relação entre o desvio padrão e a média, multiplicados por 100. (para amostra). • Dessa forma o desvio padrão é expresso como uma medida de variabilidade relativa à media da variável. A idéia envolvida é a de que duas distribuições de igual variabilidade, a variabilidade relativa é maior na que possuir média mais baixa. • O coeficiente de variação é uma medida adimensional (uma porcentagem), pois tanto o desvio padrão quanto a média, está expresso na mesma unidade de medida dos dados. Utiliza-se o coeficiente de variação na comparação do grau de concentração em torno da média para séries distintas. • No exemplo 1.1: 100 __ ×= x sCV 5569.5100 9266,49 7744,2 ==CV
Compartilhar