Baixe o app para aproveitar ainda mais
Prévia do material em texto
MÉTODOS QUANTITATIVOS APLICADOS À CONTABILIDADE ESTATÍSTICA DESCRITIVA 1 INTRODUÇÃO O que é estatística? É o campo do conhecimento científico que trata da coleta, organização, descrição, análise e interpretação de dados com a finalidade de se obter conclusões para a tomada de decisões. A estatística é uma forma de raciocínio, aliada a uma coleção de ferramentas e métodos, projetada para nos ajudar a entender o mundo. Divisão da estatística Estatística Descritiva – em um sentido mais amplo, a Estatística descritiva tem como objetivo observar fenômenos da mesma natureza, a coleta de dados numéricos referentes a esses fenômenos, a organização e classificação desses dados observados e a apresentação através de gráficos e tabelas, além do cálculo de medidas (estatísticas) que permitem descrever resumidamente os fenômenos. A Estatística Descritiva pode ser sintetizada no diagrama a seguir: Inferência Estatística – refere-se ao processo de generalização feito a partir de resultados particulares. Consiste em obter e generalizar conclusões para o todo, com base no particular. O processo de generalização está associado a uma margem de incerteza. A existência da incerteza deve-se ao fato de que a conclusão que se pretende obter para o todo, baseia-se em uma parcela do total. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teria da probabilidade. Conceitos básicos População – é o conjunto de elementos (pessoas, coisas, objetos) que têm em comum uma característica em estudo. A população pode ser: Finita - quando apresenta um número limitado de indivíduos. Ex.: População constituída por todos os alunos da Universidade Federal do Ceará em um ano. Infinita - quando o número de observações for infinito. Ex.: População constituída de todos os resultados (cara e coroa) em sucessivos lances de uma moeda. 2 Amostra - é o conjunto de elementos retirados da população, suficientemente representativos dessa população. Através da análise dessa amostra estaremos aptos para analisar os resultados da mesma forma que se estudássemos toda a população. Obs.: A amostra é sempre finita. Quanto maior for a amostra mais significativo é o estudo. Parâmetro - é uma característica numérica estabelecida para toda uma população. Estimador - é uma característica numérica estabelecida para uma amostra. Dado Estatístico - é sempre um número real. Primitivo ou Bruto - é aquele que não sofreu nenhuma transformação matemática. Número direto. Elaborado ou secundário - é aquele que sofreu transformação matemática. Ex. porcentagem, média etc. Variável - é qualquer característica de um elemento observado (pessoa, objeto ou animal). Algumas variáveis, como sexo e designação de emprego, simplesmente enquadram os indivíduos em categorias. Outras, como altura e renda anual, tomam valores numéricos com os quais podemos fazer cálculos. Uma variável pode ser: Qualitativa - quando seus valores são expressos por atributos: sexo (masculino – feminino), cor da pele (branca, preta, amarela, vermelha). As variáveis qualitativas se dividem em Nominal e Ordinal. Variável Nominal é aquela para a qual não existe nenhuma ordenação nas prováveis realizações. Ex.: População: empregados das empresas de uma cidade. Variáveis: Sexo, estado civil, religião A variável ordinal é aquela para a qual existe certa ordem ou hierarquia nos possíveis resultados. Ex.: População: empregados das empresas de uma cidade. Variáveis: nível socioeconômico, nível de escolaridade. Quantitativa - quando seus valores são expressos em números (salários dos operários, idade dos alunos de uma escola, número de filhos etc.). Uma variável quantitativa que pode assumir, teoricamente, qualquer valor entre dois limites recebe o nome de variável contínua (altura, peso etc.); uma variável que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome de variável discreta (número de filhos, número de vitórias). As variáveis quantitativas se dividem em discreta e contínua. Discretas - são aquelas cujos possíveis valores formam um conjunto finito ou enumerável de números e que resultam, frequentemente, de uma contagem. Ex.: número de funcionários, número de empresas. 3 Contínuas - são aquelas cujos possíveis valores formam um intervalo de números reais e que resultam, normalmente, de uma mensuração (medida). Ex.: tempo de produção. 4 2 ESTATÍSTICA DESCRITIVA Distribuição de Frequências A Distribuição de Frequência é uma disposição de dados numéricos, de acordo com o tamanho ou magnitude dos mesmos. Neste tipo de série não variam local, tempo e o fato. A distribuição de frequência pode ser apresentada por valor (único) ou por grupo de escalares (classes), discriminando a frequência dos mesmos. Na distribuição de frequência por valor deve-se representar os valores e o número de vezes que esse ocorreu. Exemplo: Notas dos aprovados no concurso AFRF/2000 - SP Notas Frequências 0 2 1 4 2 5 3 4 4 8 5 3 6 9 7 5 8 2 9 8 Total 50 Na Distribuição de frequência por classe mostra-se as faixas de valores (classes) e o número de ocorrências dentro dessa faixa. Os intervalos de classe podem ser abertos ou fechados. Intervalos abertos são representados por um segmento de reta (─ 20). Intervalos fechados são representados por segmentos de retas com uma pequena perpendicular (⊣ 100). Notas dos aprovados no concurso AFRF/2000 - SP Notas (Classes) Frequências 0 Ⱶ 20 10 20 Ⱶ 40 15 40 Ⱶ 60 50 60 Ⱶ 80 20 80 Ⱶ 100 5 Total 100 Os Elementos da distribuição de frequência são: Classe de Frequência - As classes de frequência são os intervalos em que a variável “notas” foi agrupada. Ex: A classe 20 ⊢ 40 representa (contêm) as notas de 20 até 40, 40 não incluso. 5 Limites de uma classe (li, LS) - Os limites de classe são os valores ínfimo e supremo da classe, sendo que o limite inferior (li) o ínfimo da classe e limite superior (LS) o supremo da classe. Ex: na terceira classe, o ínfimo é 40 e o supremo 60. Intervalo ou amplitude de uma classe (h) - O intervalo de uma classe é a diferença entre o supremo e o ínfimo. h= Ls− li No exemplo, todas as classes tem h=20 Obs.: Quando o limite inferior da classe coincide com o limite superior da classe anterior, ele é chamado de limite real. Caso contrário será chamado de limite aparente, e o limite real será a média aritmética entre eles. Notas dos concorrentes aprovados no concurso AFTN/94-SP Notas fi Frequências Acumuladas fr fr (%) Abaixo de A partir de 0 |- 20 10 10 100 0,10 10% 20 |- 40 15 25 90 0,15 15% 40 |- 60 50 75 75 0,5 50% 60 |- 80 20 95 25 0,20 20% 80 |- 100 5 100 5 0,05 5% Total 100 1 Amplitude total (AT) - Amplitude total é a diferença entre o maior valor e o menor valor da amostra. No exemplo AT=100 – 0 = 100. Ponto médio da classe - É a média aritmética entre o limite superior e o limite inferior. 𝑿𝒊 = 𝑳𝒊 + 𝒍𝒊 𝟐 Frequência absoluta simples (fi) - É o número de observações que ocorreram em determinada classe. No exemplo, a frequência absoluta simples da quarta classe é 20. Frequência total (N) - A frequência total é a soma de todas as frequências absolutas. 𝑛 = ∑ 𝑓𝑖 𝑘 𝑖=1 Onde: k – número de classes; fi – Frequência absoluta da i-ésima classe; n – Frequência total. Frequência Acumulada Crescente – (ou Frequência absoluta acumulada “abaixo de”, ou Frequência absoluta acumulada “até”) que representaremos por Fac é a soma das frequências absolutas anteriores de uma determinada classe. Por exemplo, no caso da distribuição de frequência das notas dos concorrentes aprovados no concurso AFTN/94-SP, a frequência 6 acumulada crescente da terceira classeé a frequência acumulada abaixo de 60 que é a soma de 10 + 15 + 50 = 75. Em outras palavras, a frequência absoluta acumulada “abaixo de” uma classe ou de um valor individual é a soma das frequências simples absoluta da classe ou de um valor com as frequências simples absoluta das classes ou dos valores anteriores. A expressão “abaixo de” refere-se ao fato de que as frequências a serem acumuladas corresponderem aos valores menores ou anteriores ao valor ou à classe cuja frequência acumulada se quer obter, incluindo no cálculo a frequência do valor ou da classe. Quando se quer saber quantas observações existem até uma determinada classe ou valor individual, recorre-se à frequência acumulada “abaixo”. Frequência Acumulada Decrescente – ou Frequência absoluta acumulada “a partir de”, ou Frequência absoluta acumulada “acima de”), representada por Fad é a soma das frequências absolutas posteriores a uma determinada classe. Em outras palavras, a frequência absoluta acumulada “acima de” uma classe ou de um valor individual representa o número de observações existentes além do valor ou da classe, incluindo no cálculo as observações correspondentes a esse valor ou a essa classe. Para obter a frequência absoluta acumulada “acima de”, soma-se à frequência simples absoluta da classe ou do valor individual as frequências simples absolutas das classes ou dos valores individuais posteriores. Frequência relativa (fri) - É a razão entre a frequência absoluta e a frequência total. 𝑓𝑟𝑖 = 𝑓𝑖 𝑛 Na quinta classe do exemplo a frequência relativa é 5/100, ou seja, 0,05 ou representado de outra forma, 5%. Frequência relativa acumulada “abaixo de” (fr ad) - A frequência relativa acumulada da classe ou do valor individual i é igual a soma da frequência simples relativa da classe ou do valor individual com as frequências simples relativas das classes ou dos valores individuais anteriores. As frequências relativas acumuladas podem ser obtidas de duas formas: 1. Acumulando as frequências simples relativas de acordo com a definição de frequências acumuladas. 2. Calculando as frequências relativas diretamente a partir das frequências absolutas de acordo com a definição de frequências relativas: 𝑓𝑟 = 𝑓𝑖 𝑛 Frequência relativa acumulada “acima de” (fr ac) – A frequência relativa acumulada “acima de” uma classe ou do valor individual i é igual à soma da frequência simples relativas da classe ou do valor individual com as frequências simples relativas das classes ou dos valores posteriores. Pode- se obter as frequências relativas acumuladas “acima de” a partir da: 1) definição de frequências acumuladas; 2) definição de frequências relativas. 7 Histograma e polígono de frequência Histograma: é a representação gráfica de uma distribuição de frequência por meio de retângulos justapostos. Polígono de frequência: é a representação gráfica de uma distribuição por meio de um polígono. Observe a distribuição abaixo: Classe fi Xi Fac fri fri ac 21 |-- 24 8 22,5 8 0,267 0,267 24 |-- 27 9 25,5 17 0,300 0,567 27 |-- 30 1 28,5 18 0,033 0,600 30 |-- 33 4 31,5 22 0,133 0,733 33 |-- 36 7 34,5 29 0,233 0,966 36 |-- 39 1 37,5 30 0,033 1,000 Total 30 - - 1,000 - Histograma e Polígono de frequência simples da tabela acima Polígono de frequência acumulada da distribuição acima Medidas de Tendência Central São estatísticas que representam uma série de dados, com o objetivo de mostrar a posição da distribuição em relação ao eixo horizontal. 8 As medidas de posição mais importantes são as medidas de tendência central, que revelam a tendência de agrupamento dos dados observados em torno dos valores centrais. As principais medidas de tendência central são: Média (aritmética, geométrica, harmônica, quadrática) Moda Mediana Separatrizes Medidas de posição para dados não agrupados em classes Média Aritmética Média Aritmética Simples – A média aritmética simples de um conjunto de números é igual ao quociente entre a soma dos valores do conjunto e o número total de valores. �̅� = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 onde: �̅� - média aritmética simples; 𝑥𝑖 - valores da variável; n - número de observações. Ex.: Sejam os valores abaixo correspondente aos salários de 5 funcionários de uma empresa. Calcular a média aritmética simples. x1 = 800,00; x2 = 780,00; x3 = 820,00; x4 = 810,00; x5 = 790,00 Então: �̅� = 800 + 780 + 820 + 810 + 790 5 = 800 �̅� = 800,00 A média aritmética simples será calculada sempre que os valores vierem representados individualmente. Média Aritmética Ponderada – A média aritmética ponderada é utilizada quando os valores do conjunto tiverem pesos diferentes. No caso da média aritmética simples, todos os valores possuem o mesmo peso. A média aritmética ponderada é o quociente entre o produto dos valores da variável pelos respectivos pesos e a soma dos pesos. 9 �̅�𝑝 = ∑ 𝑥𝑖𝑝𝑖 𝑛 𝑖=1 ∑ 𝑝𝑖 𝑛 𝑖=1 Onde: �̅�𝑝 – média aritmética ponderada; xi ̶ valores da variável; pi ̶ pesos dos valores da variável; n – número de observações; Sejam os dados abaixo, relativos as notas que um candidato obteve devido a realização das provas relativas a um concurso público. Prova Nota Peso Português 8,0 3 Matemática 7,5 3 Biologia 5,0 2 História 4,0 2 Calcule a média aritmética ponderada. �̅�𝑝 = 8 × 3 + 7,5 × 3 + 5 × 2 + 4 × 2 3 + 3 + 2 + 2 = 6,45 �̅�𝑝 = 6,45 Moda (Mo) – A moda é a medida de tendência central, definida como o valor mais frequente (predominante) da distribuição. O conjunto de valores de uma distribuição, em relação a moda, pode ser: Amodal - não apresenta uma moda, isto é, todos os valores da variável em estudo ocorreram com a mesma intensidade (frequência). Plurimodal - quando houver mais de um valor predominante. Ex.: Calcular a moda dos seguintes conjuntos de valores: x = {4, 5, 5, 6, 6, 6, 7, 7, 8, 8} Mo = 6 y = {4, 4, 5, 5, 6, 6} Amodal, pois seus três valores apareceram 2 vezes cada um. z = {1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6} Mo1 = 2 e Mo2 = 5, conjunto bimodal, dado que os valores 2 e 5 apresentam o maior número de ocorrências. w = {1, 2, 3, 4, 5} Amodal Mediana (Md) – Mediana é o valor central de um rol, ou seja, a mediana de um conjunto de valores ordenados (crescente ou decrescente) é a medida que divide este conjunto em duas partes iguais, cujo valor está sucedido de 50% e antecedido de 50% desse conjunto de observações. 10 A mediana também é considerada uma medida separatriz, pois separa a distribuição (a série) ou conjunto de dados em partes iguais. É uma medida muito utilizada na análise de dados estatísticos, especialmente quando se atribui pouca importância aos valores extremos da variável. A mediana é um valor que ocupa uma determinada ordem ou posição na série ordenada. Estando ordenados os valores de uma série e sendo “n” o número de elementos da série, o valor mediano será: Se n for ímpar: a mediana será o termo de ordem: 2 1 n p onde: p – elemento mediano (posição); n – número de elementos do conjunto. Se n for par: a mediana será a média aritmética dos termos de ordem 2 n e 1 2 n : 𝑝1 = 𝑛 2 𝑝2 = 𝑛 2 + 1 𝑀𝑑 = 𝑝1+𝑝2 2 Ex.: 1) Para a série {2, 5, 6, 9, 10, 13, 15, 16, 18}; n = 9 A mediana será o termo de ordem 5 2 19 p Assim, Md = 10, que corresponde ao 5º termo da distribuição. 2) Para a série {2, 6, 7, 10, 12, 13, 18, 21}; n = 8 A mediana será o termo de ordem: 51 2 8 1 2 4 2 8 2 21 n p n p 𝑀𝑑 = 10+12 2 = 11 Veja que a mediana depende da posição e não dos valores dos elementos na série ordenada. Essa é uma das diferenças marcantes entre a mediana e a média (que se deixa influenciar,e muito, pelos valores extremos). Medidas de posição para dados agrupados em classes Média Aritmética para dados agrupados em classes O valor de Xi passa a ser o ponto médio do intervalo. 11 �̅� = ∑ 𝑋𝑖𝑓𝑖 𝑘 𝑖=1 ∑ 𝑓𝑖 𝑛 𝑖=1 Onde: �̅� – média aritmética; 𝑋𝑖 – ponto médio de classe; K – número de classes; n – número de observações. Ex.: Considere a seguinte distribuição de frequências: Classes Xi fi Xifi 10 | 20 20 | 30 30 | 40 40 | 50 50 | 60 5 10 15 10 5 15 25 35 45 55 75 250 525 450 275 ∑ 175 1575 �̅� = 5×15+10×25+15×35+10×45+5×55 15+25+35+45+55 → �̅� = 1575 175 = 9 A Média Aritmética é muito utilizada, pela simplicidade e rapidez de seu cálculo, sempre que se deseja obter um valor médio estável e significativo que inclua em seu cálculo todos os valores. É também muito utilizada na determinação de índices de grande importância estatística. Moda A moda é simplesmente o ponto médio da classe de maior frequência, a classe modal (que possui a frequência modal). Vejamos o exemplo a seguir: Classes fi 10 |̶ 20 2 20 |̶ 30 3 30 |̶ 40 10 40 |̶ 50 9 50 |̶ 60 4 Total n = 28 A classe modal é a terceira: 30 | ̶ 40. O ponto médio desta classe é a média entre os limites 30 e 40. Portanto a moda bruta da distribuição é 35. Método de Czuber – Consiste em um dos métodos mais utilizados para o cálculo de modas para dados agrupados (variáveis contínuas). O método de Czuber, para o cálculo da moda elaborada, leva em consideração a frequência da classe modal e as frequências das classes adjacentes. 12 𝑀𝑜 = 𝑙𝑖 + ℎ [ 𝑓𝑀𝑜−𝑓𝑎𝑛𝑡 2 𝑓𝑀𝑜−(𝑓𝑎𝑛𝑡+𝑓𝑝𝑜𝑠𝑡) ] onde: 𝑙𝑖 - limite inferior da classe modal h - amplitude do intervalo de classe fMo - frequência simples da classe modal f ant - frequência simples da classe anterior à classe modal f post - frequência simples da classe posterior à classe modal Vejamos o valor da moda pelo método de Czuber para a distribuição de frequências da tabela anterior. Classe Modal: 30 | ̶ 40 𝑙𝑖 = 30 h = 10 fMo = 10 f ant = 3 f post = 9 𝑀𝑜 = 30 + 10 [ 10−3 2×10−(3+9 ] = Mo = 38,75 Outra forma de escrever a fórmula de Czuber 𝑀𝑜 = 𝑙𝑖 + ∆1 ∆1 + ∆2 × ℎ Onde 𝑙𝑖= limite inferior da classe modal ∆1= diferença entre a frequência da classe modal e a frequência da classe imediatamente anterior ∆1= diferença entre a frequência da classe modal e a frequência da classe imediatamente posterior ℎ = amplitude da classe modal 13 Demonstração Temos que: ∆1= fMO ̶ fant ∆2 = fMO - fpost l = limite inferior da classe modal ls=limite superior da classe modal c = amplitude do intervalo de classe (constante) Consideremos os seguintes triângulos semelhantes ARS e ATU Dado a propriedade dos triângulos semelhantes, podemos escrever a seguinte proporção: 𝐶𝐴 𝑆𝑅 = 𝐴𝐷 𝑇𝑈 Mas, CA = 𝑀𝑜 − 𝑙 SR = ∆1 AD = 𝑙𝑠 − 𝑀𝑜 TU=∆2 Então: 𝑀𝑜 − 𝑙 ∆1 = 𝑙𝑠 − 𝑀𝑜 ∆2 14 A determinação da Mo é feita a partir dessa última relação: (𝑀𝑜 − 𝑙)∆2= (𝑙𝑠 − 𝑀𝑜)∆1 𝑀𝑜∆2 − 𝑙∆2= 𝑙𝑠∆1 − 𝑀𝑜∆1 𝑀𝑜∆2 − 𝑀𝑜∆1= 𝑙∆2 + 𝑙𝑠∆1 𝑀𝑜 = 𝑙∆2 + 𝑙𝑠∆1 ∆1 + ∆2 Como 𝑙𝑠 = 𝑙 + 𝑐, o numerador da expressão ficará 𝑙∆2 + 𝑙𝑠∆1= 𝑙∆2 + (𝑙 + 𝑐)∆1= 𝑙∆2 + 𝑙∆1 + 𝑐∆1 = 𝑙(∆1 + ∆2) + 𝑐∆1 Portanto, 𝑀𝑜 = 𝑙(∆1 + ∆2) + 𝑐∆1 ∆1 + ∆2 𝑀𝑜 = 𝑙(∆1 + ∆2) ∆1 + ∆2 + 𝑐∆1 ∆1 + ∆2 𝑀𝑜 = 𝑙 + 𝑐 ∆1 ∆1 + ∆2 Método de King – O cálculo da moda pelo método de King desloca o valor modal em direção à suas classes adjacentes. A fórmula para cálculo da moda de King é: Mo = li + fpostfant fpos h onde: li - limite inferior da classe modal; h - amplitude do intervalo de classe; f ant - frequência simples da classe anterior à classe modal; f post - frequência simples da classe posterior à classe modal. Calculando a moda de King para a tabela de frequências mostrada anteriormente: Classe modal: 30 |-- 40; li = 30 h = 10 f ant = 3 f post = 9 15 Mo = 30 + 93 9 10 = 37,5 Observe que os três valores de moda são diferentes! Qual deles escolher? A moda absoluta baseia-se no ponto médio, que pode ou não ser um bom representante da classe. A moda de King não leva em conta a frequência da própria classe modal, o que ocorre na de Czuber. Mas estes três procedimentos são aproximações, a moda real seria obtida a partir dos dados brutos. Mediana Para o caso de uma distribuição, a ordem, a partir de qualquer um dos extremos, é dada por: 1º Passo: Calcula-se a ordem 𝑛 2 . Como a variável é contínua, não se preocupe se n é par ou ímpar. 2º Passo: Determinam-se as frequências acumuladas, para a identificação da classe que contém a mediana (classe Md). 3º Passo: Utiliza-se a fórmula: Md = limd + fmd hantFac n 2 Onde: limd = limite inferior da classe Md n = número de elementos da distribuição Fac ant = frequência acumulada anterior à classe Md h = amplitude da classe Md fmd = frequência da classe Md Classes fi Fac 35 | 45 45 | 55 55 | 65 65 | 75 75 | 85 85 | 95 5 12 18 14 6 3 5 17 35 49 55 58 = 58 Identificar os termos: limd = 55; n = 58; Fac ant = 17; h = 10; fmd = 18. Construir os passos: 16 1º Passo: 29 2 58 2 n 2º Passo: Identificar a classe Md pela Fac. Nesse caso, o 29º terno está na 3ª classe. 3º Passo: Aplicar a fórmula Md = 55 + 18 1017 2 58 = 61,67 Uso da Mediana: a) quando se quer exatamente o valor que separa a metade da distribuição; b) quando a distribuição tem resultados discrepantes e pairam dúvidas sobre sua validade e correção; c) quando se quer tornar objetivo a avaliação de uma classe. Outra maneira de calcular a mediana Considere o exemplo abaixo: Classe de salários Ponto médio Frequência absoluta (fi) Frequência relativa (fri) Frequência relativa acumulada (fri acum.) 4 |- 8 6 10 0,2778 0,2778 8 |- 12 10 12 0,3333 0,6111 12 |- 16 14 8 0,2222 0,8333 16 |- 20 18 5 0,1389 0,9722 20 |- 24 22 1 0,0278 1,0000 36 1 Para o cálculo do valor da mediana, encontra-se a classe onde está a mediana. Faz-se, então, a proporcionalidade entre a área e a base dos retângulos hachurados e o que define a classe mediana. 12−8 33% = 𝑀𝑑−8 22% = Md = 10,67 17 Medidas Separatrizes As medidas separatrizes separam uma série em partes iguais, tendo como função identificar a posição relativa de um indivíduo no grupo a qual pertence. As medidas separatrizes são: 1) Mediana (também uma medida de tendência central); 2) Quartis; 3) Quintis; 4) Decis; e 5) Percentis (Porcentis, ou simplesmente Centis). Quartis → separam um conjunto de dados em quatro partes iguais, cada uma delas ficando com 25% de seus elementos. i) Primeiro quartil (Q1) → separa a sequência ordenada deixando 25% de seus elementos à esquerda e 75% de seus elementos à direita. É o valor situado de tal modo no conjunto de dados que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. ii) Segundo quartil (Q2) → separa a sequência ordenada, deixando 50% de seus elementos à esquerda e 50% de seus elementos à direita. Q2 é a Mediana da série (Q2 = Md). iii) Terceiro Quartil (Q3) → é valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior. 18 Quintis → separam a série ordenada em cinco partes iguais, cada uma ficando com 20% de seus elementos. i) Primeiro quintil (K1) → separa a sequência ordenada, deixando à sua esquerda 20% de seus valores e à sua direita 80% de seus valores. ii) De modo análogo são definidosos outros quintis. Decis → separam a série ordenada em dez partes iguais, cada uma ficando com 10% de seus elementos. i) Primeiro decil (D1) → separa a série ordenada, deixando 10% de seus valores à esquerda e 90% à direita. ii) Para os demais decis utiliza-se raciocínio análogo. iii) De especial interesse é o quinto decil, que separa o conjunto em duas partes iguais, logo D5 = Md. Percentis (Porcentis ou Centis) → separam a sequência ordenada em 100 partes iguais. Ou seja, os percentis são os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos: P1, P2, ... , P90, P99 i) Primeiro percentil (P1) → separa a série ordenada, deixando 1% de seus valores à esquerda e 99% de seus valores à direita. ii) De modo análogo são definidos os outros percentis. iii) É evidente que P20 = K1; P25 = Q1; P50 = Md = Q2 e P75 = Q3. Veja que os quartis, quintis e decis são múltiplos dos percentis, logo basta estabelecer a fórmula de cálculo para os percentis. Todas as outras medidas podem ser identificadas como percentis. 19 Q1 = P25 Q2 = P50 Q3 = P75 K1 = P20 K2 = P40 K3 = P60 K4 = P80 D1 = P10 D6 = P60 D2 = P20 D7 = P70 D3 = P30 D8 = P80 D4 = P40 D9 = P90 D5 = P50 Medidas separatrizes para variável discreta Quando os dados estão apresentados na forma de uma variável discreta, eles já estão naturalmente ordenados. i) Calcula-se 𝑖 = 𝑝×𝑛 100 para localizar a posição do p-ésimo percentil na série. ii) Utiliza-se a frequência acumulada da série para localizar o elemento que ocupa esta posição. Exemplo: Xi Fi 2 3 4 5 5 8 7 6 10 2 Calcule o 4º Decil (D4) Veja que D4 = P40 O número de elementos da série é ∑ fi = 24 Logo, 100 2440 = 9,6. Este valor não inteiro implica que D4 = P40 é o valor de posição 10 da série. 20 Xi fi Fac 2 3 3 4 5 8 5 8 16 → aqui está o 10º elemento 7 6 22 10 2 24 Veja que D4 = P40 = 5 Interpretação: 40% dos valores da série são valores menores ou iguais a 5 e 60% dos valores da série são maiores ou iguais a 5. Medidas separatrizes para variável contínua Dados apresentados na forma de variáveis contínuas já estão naturalmente ordenados e o número de elementos da série é n = ∑ fi . Utilizando a fórmula: 𝑃𝑖 = 𝑙𝑖 + ( 𝑝×𝑛 100 −𝐹𝑎𝑐 𝑎𝑛𝑡 𝑓𝑖 ) × ℎ Onde: 𝑃𝑖= Percentil i (i = 1, 2, 3, ..., 99) 𝑙𝑖 = limite inferior da classe que contém o percentil i n → número de elementos da série Fac ant → frequência acumulada da classe anterior a classe que contém o elemento 𝑃𝑖 fi → frequência simples da classe que contém o percentil i h → amplitude do intervalo de classe. Exemplo: Considere a distribuição de frequência Classe Intervalo de Classe fi Fac 1 0 |− 10 16 16 2 10 |− 20 18 34 3 20 |− 30 24 58 4 30 |− 40 35 93 → Aqui está a o elemento de ordem 78,75 5 40 |− 50 12 105 21 ∑ fi = 105 Calcule o 3º quartil (Q3) Veja que Q3 = P75 i = 100 np = 100 10575 = 78,75. Identificar a posição P75 = 78,75 nas frequências acumuladas crescentes. Logo: P75 = 30 + 35 5875,78 10 = 35,93 Ou seja, Q3 = P75 = 35,93 Interpretação: 75% dos valores da série são menores ou iguais a 35,93 e 25% dos valores da série são maiores ou iguais a 35,93. Medidas de dispersão É a maior ou menor variação – variabilidade - dos valores de uma variável em torno de um valor de tendência central (média ou mediana) tomado como ponto de comparação. A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z: X = {70, 70, 70, 70, 70} Y = {68, 69, 70, 71, 72} Z = {5, 15, 50, 120, 160} Observamos então que os três conjuntos apresentam a mesma média aritmética = 350/5 = 70 Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa. Concluímos então que o conjunto X apresenta dispersão nula e que o conjunto Y apresenta uma dispersão menor que o conjunto Z. Medidas de dispersão medem o grau de dispersão de uma variável em torno de uma medida de posição. IMPORTANTE!!! Não se deve confundir percentis com percentagens. Um percentil é relacionado somente com a posição relativa de uma observação quando comparada com os outros valores. Desse modo, se um estudante que acerta 75% de um teste, mas cuja nota é o 40º percentil, significa que somente 40% da turma tiveram nota pior que aquele estudante e 60% saíram-se melhor. 22 Amplitude total É a única medida de dispersão que não tem na média o ponto de referência. Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado: AT = X máximo − X mínimo. Exemplo: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: AT = 70 - 40 = 30 Quando os dados estão agrupados sem intervalos de classe ainda temos: AT = X máximo - X mínimo. Exemplo: xi fi 0 2 1 6 3 5 4 3 AT = 4 - 0 = 4 Com intervalos de classe a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então AT = L máximo – l mínimo Exemplo: Classes fi 4 |------- 6 6 6 |------- 8 2 8 |------- 10 3 AT = 10 - 4 = 6 A amplitude total tem o inconveniente e só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão. Desvio quartil Também chamado de amplitude semi-interquatílica e é baseada nos quartis. Símbolo: Dq Fórmula: Dq = 2 13 QQ Observações: 1. O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. Além do mais, não é afetado pelos valores extremos, grandes ou pequenos, sendo 23 recomendado, por conseguinte, quando entre os dados figurem valores extremos que não se consideram representativos. 2. O desvio quartil deverá ser usado preferencialmente quando a medida de tendência central for a mediana. 3. Trata-se de uma medida insensível à distribuição dos itens menores que Q1, entre Q1 e Q3 e maiores que Q3. Exemplo: Para os valores 40, 45, 48, 62 e 70 o desvio quartil será: Q1 = 2 4045 = 42,5 Q3 = 2 6270 = 66 Dq = 2 5,4266 = 11,75 Desvio médio absoluto Para dados brutos É a média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de tendência central: média ou mediana. Símbolo = Dm Fórmula: para a Média = n Xi || Fórmula: para a Mediana = n MdXi || As barras verticais indicam que são tomados os valores absolutos, prescindindo do sinal dos desvios. Exemplo: Calcular o desvio médio do conjunto de números { - 4 , - 3 , - 2 , 3 , 5 } = −0,2 e Md = −2 Tabela auxiliar para cálculo do desvio médio Xi Xi - | Xi - | Xi - Md | Xi - Md | - 4 (- 4) - (- 0,2) = -3,8 3,8 (- 4) - (-2) = - 2 2 - 3 (- 3) - (- 0,2) = -2,8 2,8 (- 3) - (-2) = - 1 1 - 2 (- 2) - (- 0,2) = -1,8 1,8 (- 2) - (-2) = 0 0 3 3 - (- 0,2) = 3,2 3,2 3 - (-2) = 5 5 5 5 - (- 0,2) = 5,2 5,2 5 - (-2) = 7 7 Desvio médio = 16,8 Desvio médio = 15 Pela Média: Dm = 5 8,16 = 3,36 Pela Mediana : Dm = 5 15 = 3 Para Dados Tabulados 24 Se os valores vierem dispostos em uma tabela de frequências,agrupados ou não em classes, serão usadas as seguintes fórmulas: Cálculo pela média: Dm = fi fiXi )( Cálculo pela mediana: Dm = fi fiMdXi )( Exemplo de cálculo pela média: Xi fi Xifi Xi - | Xi - | | Xi - | fi 3 2 6 4,7 - 1,7 1,7 3,4 4 2 8 4,7 - 0,7 0,7 1,4 5 3 15 4,7 0,3 0,3 0,9 6 3 18 4,7 1,3 1,3 3,9 10 47 9,6 Dm = 10 6,9 = 0,96 Para o cálculo do Desvio médio pela mediana segue-se o mesmo raciocínio Xi fi Md Xi – Md | Xi - Md | |Xi - Md| fi 3 2 5 - 2 2 4 4 2 5 - 1 1 2 5 3 5 0 0 0 6 3 5 1 1 1 10 7 Dm = 10 7 = 0,70 Obs.: Apesar de o desvio médio expressar de forma aceitável a dispersão de uma amostra, não é tão frequentemente empregado como o desvio-padrão. O desvio médio despreza o fato de alguns desvios serem negativos e outros positivos, pois essa medida os trata como se fossem todos positivos. Todavia será preferido o uso do desvio médio em lugar do desvio-padrão, quando esse for indevidamente influenciado pelos desvios extremos. Desvio Padrão É a medida de dispersão mais geralmente empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada por . 25 = √ ∑(𝑋𝑖− �̅�)2 𝑛 A fórmula acima é empregada quando tratamos de uma população de dados não agrupados. Quando nosso interesse não se restringe à descrição dos dados, mas, partindo da amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que consiste em usar o divisor n − 1 em lugar de n. A fórmula ficará então: s = √∑(𝑋𝑖− �̅�) 2 𝑛−1 Exemplo: Calcular o desvio padrão amostral dos dados abaixo: Xi fi Xi fi Xi 2)( Xi fiXi 2)( 0 6 0 1,98 -1,98 3,9204 23,5224 1 8 8 1,98 -0,98 0,9604 7,6832 2 22 44 1,98 0,02 0,0004 0,0088 3 9 27 1,98 1,02 1,0404 9,3636 4 5 20 1,98 2,02 4,0804 20,4020 50 99 60,98 �̅� = 99 50 = 1,98 𝜎2 = 60,98 50−1 = 1,2445 𝜎 = √1,2445 = 1,1156 O desvio padrão goza de algumas propriedades, dentre as quais destacamos: 1. Somando-se (ou subtraindo-se) uma constante a todos os valores de uma variável, o desvio padrão não se altera. 2. Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado (ou dividido) por essa constante. Desvio padrão para dados agrupados em forma de classes Quando os dados estão agrupados (temos a presença de frequências) a fórmula do desvio padrão ficará: = √ ∑[(𝑋𝑖− �̅�)2 ×𝑓𝑖] 𝑛 ou s = √ ∑[(𝑋𝑖− �̅�)2 ×𝑓𝑖] 𝑛−1 , quando se trata de uma amostra. Exemplo: Calcule o desvio padrão dos dados dispostos no quadro abaixo: Classes fi Xi Xifi Xi2fi 18 |- 25 6 21,5 129 2773,5 25 |- 32 10 28,5 285 8122,5 32 |- 39 13 35,5 461,5 16383,25 39 |- 46 8 42,5 340 14450 46 |- 53 6 49,5 297 14701,5 53 |- 60 5 56,5 282,5 15961,25 26 60 |- 67 2 63,5 127 8064,5 50 1922 80456,5 �̅� = 1922 50 = 38,44 𝑠2 = 80456,5 − 19222 50 49 = 134,18 𝑠 = √134,18 = 11,58 Interpretação do desvio padrão Regra empírica Para qualquer distribuição amostral com média e desvio padrão s, há: i) O intervalo �̅� ± 𝑺 contém 60% e 80% de todas as observações amostrais. A porcentagem aproxima-se de 70% para distribuições aproximadamente simétricas, chegando a 90% para distribuições fortemente simétricas. ii) O intervalo �̅� ± 2𝑺 contém aproximadamente 95% das observações para distribuições simétricas e aproximadamente 100% para distribuições com assimetria elevada. iii) O intervalo �̅� ± 3𝑺 contém aproximadamente 100% das observações amostrais, para distribuições simétricas. Teorema de Tchebycheff i) O intervalo �̅� ± 2𝑺 contém, no mínimo, 75% de todas as observações amostrais. ii) O intervalo �̅� ± 3𝑺 contém, no mínimo, 89% de todas as observações amostrais. Para o exemplo: Temos �̅� ± 𝑺 ⇒ 38,44 – 11,58 = 26,86 e 38,44 + 11,58 = 50,02, ou seja no intervalo [26,86; 50,02] temos aproximadamente 32 50 = 0,64, ou seja 64% das observações. Isto é, o intervalo compreendido entre a média e um desvio padrão contém aproximadamente 64% das informações. Para �̅� ± 2𝑺 ⇒ 38,44 – 2 × 11,58 = 15,28 e 38,44 + 2 × 11,58 = 61,60, ou seja, no intervalo [15,28; 61,60] temos aproximadamente 100% das observações. Variância É o desvio padrão elevado ao quadrado e é simbolizado por S2. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. 27 Medidas de dispersão relativa Coeficiente de Variação de Pearson ou simplesmente Coeficiente de Variação Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CVP: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média referentes a dados de uma mesma série). A fórmula do CVP = 100 s (o resultado neste caso é expresso em percentual, entretanto pode ser expresso também através de um fator decimal, desprezando assim o valor 100 da fórmula). Exemplo: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos: Discriminação Média Desvio Padrão Estaturas 175 cm 5,0 cm Pesos 68 kg 2,0 kg Qual das medidas (Estatura ou Peso) possui maior homogeneidade? Resposta: Teremos que calcular o CVP da Estatura e o CVP do Peso. O resultado menor será o de maior homogeneidade (menor dispersão ou variabilidade). CVP estatura = 100 175 5 = 2,85 % CVP peso = 100 68 2 = 2,94 %. Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos. CVT: Coeficiente de Variação de Thorndike É igual ao quociente entre o desvio padrão e a mediana. CVT = Md s ou CVT = 100 Md s quando queremos o resultado em %. CVQ: Coeficiente Quartílico de Variação 28 Esse coeficiente é definido pela seguinte expressão: CVQ = 13 13 QQ QQ ou 100 13 13 QQ QQ para resultado em percentual. Desvio Quartil Reduzido: Dqr = Md QQ 2 13 ou 100 2 13 Md QQ para resultado em percentual. Escore padronizado O Escore Padronizado é uma medida relativa de dispersão para uma variável aleatória X, dada por: s xx Zi i , onde: x = média amostral, s = desvio padrão amostral. Um escore Zi negativo indica que a observação xi está à esquerda da média, enquanto um escore positivo indica que a observação está à direita da média. Ex.: São dadas as médias e os desvios padrões das avaliações de duas disciplinas: Português → Px = 6,5 e SP = 1,2 Matemática → Mx = 5,0 e SM = 0,9 Relativamente às disciplinas Português e Matemática, em qual delas obteve melhor desempenho um aluno com 7,5 em Português e 6,0 em Matemática? Solução: Nota em Português: 2,1 5,65,7 PZ = 0,83 Nota em Matemática: 9,0 0,50,6 MZ = 1,11 O melhor desempenho relativo ocorreu na disciplina Matemática,pois ZM > ZP, Observe que em termos absolutos o aluno conseguiu melhor nota em Português. Outliers Os outliers são valores que não guardam qualquer semelhança com a parte significativa da distribuição. Para detectá-los, pode-se calcular o escore padronizado (Zi) e considerar outliers as observações cujos escores, em valor absoluto (em módulo), sejam maiores do que 3. Exemplo: Os dados de uma pesquisa revelaram média 0,243 e desvio padrão 0,052 para determinada variável. Verificar se os dados 0,380 e 0,455 podem ser considerados observações da referida variável. Solução: Sejam: x = 0,243 e s = 0,052 Para xi = 0,380 → 052,0 243,0380,0 iZ = 2,63 Para xi = 0,455 → 052,0 243,0455,0 iZ = 4,08 Conclusão: O dado 0,380 pode ser considerado normal. O dado 0,455 pode ser considerado um outlier, portanto deve ser descartado da amostra. 29 Assimetria e curtose Medidas de Assimetria Denomina-se assimetria o grau de afastamento de uma distribuição da unidade de simetria. Numa distribuição simétrica a média, mediana e a moda coincidem; numa distribuição assimétrica à esquerda ou negativa, a média é menor que a mediana e menor que a moda; e numa distribuição assimétrica à direita ou positiva, a média é maior que a mediana e maior que a moda. v o l t a r a v a n ç a ri n í c i o Condição X = Md = Mo Distribuição de Frequência Simétrica X = Md = Mo Curva de frequência simétrica v o l t a r a v a n ç a ri n í c i o Condição X < Md < Mo Distribuição de Frequência Assimétrica Negativa X MoMd Curva de frequência assimétrica à esquerda ou negativa v o l t a r a v a n ç a ri n í c i o Condição X > Md > Mo Distribuição de Frequência Assimétrica Positiva XMo Md Curva de frequência assimétrica à direita ou positiva 30 É possível utilizar os valores da média e da moda para se determinar uma medida de assimetria. - Mo = 0 assimetria nula ou distribuição simétrica; - Mo 0 assimetria negativa ou à esquerda; - Mo 0 assimetria positiva ou à direita. Na quase totalidade dos casos práticos, o desvio padrão supera um sexto da amplitude e é inferior a um terço da amplitude, isto é: 36 TT AS A Essa relação é útil até mesmo para a verificação de erros grosseiros no cálculo do desvio padrão. Coeficientes de Assimetria O coeficiente de assimetria permite distinguir as distribuições assimétricas. Um valor negativo indica que a cauda do lado esquerdo da função densidade de probabilidade é maior que a do lado direito. Um valor positivo para a assimetria indica que a cauda do lado direito é maior que a do lado esquerdo. Um valor nulo indica que os valores são distribuídos de maneira relativamente iguais em ambos os lados da média, mas não implica necessariamente, uma distribuição simétrica. i) Coeficiente momento de assimetria b𝟏 = ∑ [(𝑋𝑖 − �̅�) 3]𝑓𝑖 𝑘 𝑖=1 𝑛 𝑠3 se a distribuição é assimétrica positiva ⇒ b1 > 0 se a distribuição é assimétrica negativa ⇒ b1 < 0 se a distribuição é (perfeitamente) simétrica ⇒ b1 = 0 ii) Coeficientes de Assimetria de Karl Pearson Primeiro Coeficiente de Assimetria de Pearson AS1 = S Mo Segundo Coeficiente de Assimetria de Pearson AS2 = S Md )(3 Se AS = 0 → Distribuição simétrica; Se 0,15 | As | 1, a assimetria é considerada moderada; Se | As | 1, a assimetria é forte. 31 Obs.: As medidas de assimetria de Pearson podem variar de valor numérico, mas nuca de sinal. iii) Coeficiente Quartil de Assimetria ASQ = 13 13 2 QQ QMdQ , Sendo Q1 o 1º Quartil, Q3 o 3º Quartil e Md a Mediana. O Coeficiente Quartil de assimetria assume valores entre +1 e -1. −1 ≤ ASQ ≤ − 0,3 → assimétrica negativa forte. − 0,3 < ASQ < −0,1 → assimétrica negativa moderada. −0,1 ≤ ASQ < 0 → assimétrica negativa fraca. ASQ = 0 → simétrica. 0 < ASQ ≤ 0,1 → assimétrica positiva fraca. 0,1 < ASQ < 0,3 → assimétrica positiva moderada. 0,3 ≤ ASQ ≤ 1 → assimétrica positiva forte. Coeficiente de Curtose Denomina-se Curtose o grau de achatamento ou de afilamento da área central de uma distribuição em relação a uma curva padrão, denominada de curva normal. Curva de frequências normalmente achatada − MESOCÚRTICA – grau de achatamento equivalente ao da curva normal Curva de frequências com alto grau de achatamento − PLATICÚRTICA – grau de achatamento inferior ao da curva normal. Os dados estão fracamente concentrados em torno da moda da distribuição. Curva de frequências com alto grau de afilamento − LEPTOCÚRTICA – grau de afilamento superior ao da curva normal. Os dados estão fortemente concentrados em torno da moda da distribuição. Medidas de Curtose 32 i) Coeficiente Produto Momento de Curtose b𝟐 = 1 𝑛 ∑ [ 𝑋𝑖−�̅� 𝑠 ] 4 − 3𝑛𝑖=1 ou b𝟐 = ∑ (𝑋𝑖−�̅�) 4 𝑓𝑖 𝑘 𝑖=1 𝑛 𝑠4 − 3 Se b2 = 0, então a função de distribuição tem o mesmo achatamento da distribuição normal, chamamos essas funções de mesócurticas. Se b2 > 0, dizemos que a função de distribuição é leptocúrtica e possui a curva da função de distribuição mais afunilada com um pico mais alto do que a distribuição normal. Neste caso dizemos que essa distribuição possui caudas pesadas. Se b2 < 0, então a função de distribuição é mais achatada do que a distribuição normal . Dizemos que esta curva da função de distribuição é platicúrtica. Fonte: Portal Action: http://www.portalaction.com.br/estatistica-basica/26-curtose ii) Medida Quartílica de CURTOSE K1 = )(2 1090 13 PP QQ Se K1 > 0,263 – Curva Platicúrtica Se K1 = 0,263 – Curva Mesocúrtica Se K1 < 0,263 – Curva Leptocúrtica Exemplo: Seja a distribuição de frequências abaixo, relativa ao grau de endividamento dos membros de uma carteira em determinado banco. Classes (k) Xi fi fri fri ac Xifi (𝐗𝒊 − �̅�) 𝟑𝒇𝒊 Xi 2fi (𝐗𝒊 − �̅�) 𝟒𝒇𝒊 0 |- 5 2,5 61 0,122 0,122 152,5 -234713 381,25 3677950 33 5 |- 10 7,5 107 0,214 0,336 802,5 -129980 6018,75 1386888 10 |- 15 12,5 97 0,194 0,53 1212,5 -17681,6 15156,25 100254,5 15 |- 20 17,5 77 0,154 0,684 1347,5 -23,1588 23581,25 15,51636 20 |- 30 25 77 0,154 0,838 1925 24533,12 48125 167561,2 30 |- 50 40 63 0,126 0,964 2520 655392,9 100800 14307228 50 |- 75 62,5 18 0,036 1 1125 1568071 70312,5 69512584 ∑ 500 1 9085 1865599 264375 89152481 Fonte: ARTES, Rinaldo. Disponível em: https://www.ime.usp.br/~mbranco/MedidasdeAssimetria_2014.pdf Média = 18,17 Moda = 5 + ( 107−61 2×107−61−97 ) 5 = 5 + 46 214−61−97 × 5 = 5 + 46 56 × 5 = 5 + 4,107 Moda = 9,107 Mediana = 15−10 0,194 = 𝑀𝑑−10 0,164 → 5 × 0,164 = 0,194(𝑀𝑑 − 10) → 0,82 + 1,94 = 0,194𝑀𝑑 Mediana = 14,23 Quartil 1 – Q1 = 10−5 0,214 = 𝑄1−5 0,128 → 5 × 0,128 = 0,214(𝑄1 − 5) → 0,64 + 1,07 = 0,214𝑄1 Q1 = 7,99 Quartil 3 – Q3 = 30−20 0,154 = 𝑄3−20 0,066 → 10 × 0,066 = 0,154 (𝑄3 − 20) → 0,66 + 3,08 = 0,154𝑄3 Q3 = 24,28 Percentil 10 – P10 = 5−0 0,122 = 𝑃10−0 0,1 → 5 × 0,1 = 0,122(𝑃10 − 0) → 0,5 = 0,122𝑃10 P10 = 4,1 Percentil 90 – P90 = 50−30 0,126 = 𝑃90−30 0,062 → 20 × 0,062 = 0,126(𝑃90 − 30) → 5,021 = 0,126𝑃90 P90 = 39,85 Desvio padrão = √ 264375− 90852 500 499 34 Desvio padrão = 14,11 Coeficiente momento de assimetria (b1) b𝟏 = ∑ [(𝑋𝑖 − �̅�) 3]𝑓𝑖 𝑘 𝑖=1 𝑛 𝑠3 = 1865599 500 14,113 = 3731,199 2807,221 = 1,33 Primeiro Coeficiente de Assimetria de Pearson → 𝐀𝐒𝟏 = �̅�−𝐌𝐨 𝐬 = 𝟏𝟖,𝟏𝟕−𝟗,𝟏𝟎𝟕 𝟏𝟒,𝟏𝟏 AS1 = 0,642 Segundo Coeficiente de Assimetria de Pearson → 𝐀𝐒𝟐 = 𝟑(�̅�−𝐌𝐝) 𝐬 = 𝟑(𝟏𝟖,𝟏𝟕−𝟏𝟒,𝟐𝟑) 𝟏𝟒,𝟏𝟏 AS2 = 0,838 Coeficiente quartílico de assimetria - AS𝑄 = 𝑄3−2𝑀𝑑+𝑄1 𝑄3−𝑄1 = 24,28−2×14,23+7,99 24,28−7,99 ASQ = 3,81 Conclusão: em todos os cálculos dos coeficientes de assimetria os resultados foram positivos (AS >0), portanto a distribuição de frequências apresenta assimetria positiva ou à direita. Coeficiente momento de Curtose b𝟐 = ∑ (Xi − X̅) 4fi k i=1 n s4 − 3 = 89152481 500 14,114 − 3 b2 = 1,5, se b2 > 0 – Curva Leptocúrtica Coeficiente percentílico de Curtose 𝐾1 = 𝑄3 − 𝑄1 2(𝑃90 − 𝑃10) = 24,28 − 7,99 2 (30,85 − 4,1) = 16,29 2 × 35,75 K1 = 0,22; se K1 < 0,263 – Curva Leptocúrtica
Compartilhar