Baixe o app para aproveitar ainda mais
Prévia do material em texto
Luana de Melo Pereira Disciplina: Estatística Básica Universidade Federal de Pelotas Centro das Engenharias 2.3. MEDIDAS DESCRITIVAS MEDIDAS DESCRITIVAS Medidas de localização, posição ou tendência central Medidas separatrizes Medidas de variação ou dispersão Medidas de formato 2 Introdução e Conceitos 3 Uma outra maneira de se resumir os dados de uma variável numérica, além de tabelas e gráficos, é apresentá- los na forma de valores numéricos, denominados medidas descritivas, as quais devem fornecer toda a informação relevante a respeito dos dados e desse modo auxiliar na análise do comportamento dos mesmos. 4 Os processos de análise procuram responder a algumas questões, tais como: Serão os dados quase todos iguais? Serão muito diferentes uns dos outros? De que modo são diferentes? Existem alguns dados muito diferentes da maior parte? 5 Medidas de Localização ou Tendência Central Descrevem valores que caracterizam o centro da distribuição; Fazem parte dessas medidas a média, mediana e a moda. 6 Medidas Separatrizes São valores que indicam limites para proporções de observações em um conjunto de dados ordenados; São medidas intuitivas, de fácil compreensão e frequentemente resistentes; Fazem parte dessas medidas os quartis, percentis e também a mediana. 7 Medidas de Variação São valores que informam sobre a variabilidade dos dados; São, juntamente com as medidas de posição, indispensáveis para descrever um conjunto de dados; Fazem parte dessas medidas a amplitude total, a variância, o desvio padrão e o coeficiente de variação. 8 Maior variação Medidas de Formato São quantidades que informam sobre o modo como os valores se distribuem; Fazem parte dessas medidas os coeficientes de assimetria e curtose. 9 Média aritmética Mediana Moda Quartis Percentis Amplitude total Variância Desvio padrão Coeficiente de variação Coeficiente de assimetria Coeficiente de curtose MEDIDAS DE POSIÇÃO MEDIDAS SEPARATRIZES MEDIDAS DE FORMATO MEDIDAS DE VARIAÇÃO 10 Existe uma grande variedade de medidas descritivas Como escolher a mais adequada? Com que objetivo a medida está sendo obtida? É fácil de interpretar? Existem valores atípicos que podem afetá-la exageradamente? O propósito da análise é meramente descritivo ou planeja-se fazer inferências? 11 Jogadores de basquete 2,08 1,98 1,95 2,03 2,10 1,93 1,58 12 Valores Atípicos ou Discrepantes Jóqueis 1,58 1,62 1,65 1,55 1,57 1,60 1,98 atípico atípico Estatura (m) Média aritmética É a mais utilizada; Apresenta facilidade de cálculo e de compreensão; propriedades matemáticas e estatísticas. 13 Medidas de Localização ou Tendência Central Definição: é uma combinação linear de todas as observações. Conjunto de observações: x1, x2 ,..., xn Conjunto de coeficientes: c1, c2 ,..., cn combinação linear: c1 x1 + c2 x2 +... + cn xn = ii xc Simples Ponderada Todos os valores participam do cálculo com o mesmo peso. Pelo menos um dos valores participa com peso diferente. Média aritmética 14 Os coeficientes são pesos (pi ) p1 = p2 = ... = pn = p px1 + px2 +... + pxn = ii xp ipx p1x1 + p2x2 +...+ pnxn = Média aritmética simples x soma de todos os valores total de valores somados n i x A média de um conjunto de n valores x1, x2 ,..., xn é definida como: n i i n xnn xxX 11 1... 15 Exemplo 16 Os valores que seguem são os tempos de uso (horas/semana) de um modelo profissional de motosserras. Calcule o tempo médio de uso semanal. 12 9 11 7 9 14 10 1411 7 10149711912 , X 10,3 h/semana Em média, as motosserras são usadas 10,3 horas por semana. Média aritmética ponderada px soma de produtos de valores e pesos soma dos pesos ip ii p x Algumas vezes associa-se a cada observação xi um peso pi, onde esse peso representa a importância atribuída a cada observação. Nesse caso a média ponderada é calculada como: n 1=i i n x .... .... p p pp xpxp pX i ii n nn 1 1 11 17 Exemplo 18 Um exame de seleção é composto de três provas onde as duas primeiras tem peso 1 e a terceira tem peso 2. Um candidato com notas 70 75 e 90 terá média final: 2581 4 902751701 , )()()( X 70.(1) + 75.(1) + 90.(2) Propriedades da média aritmética 1a propriedade: A média de um conjunto de dados que não varia, ou seja, cujos valores são uma constante, é a própria constante. Verificação numérica: 4 4, 4, 4, 4,xi 4x 19 2a propriedade: Ao somar uma constante c por todos os valores de um conjunto de dados, sua média também é somada por esta constante. xi = 9, 7, 5, 10, 4 7x xi+2 = 11, 9, 7, 12, 6 n 2)(x x i 2x 9 5 45 5 6127911 Somar c=2 cxx 27x cx 2x Verificação numérica: 20 3a propriedade: Ao multiplicar uma constante c por todos os valores de um conjunto de dados, sua média também é multiplicada por esta constante. xi = 9, 7, 5, 10, 4 7x Verificação numérica: 2xi = 18, 14, 10, 20, 8 n 2x x i 2x 14 5 70 5 820101418 Multiplicar por c=2 xcx 72x cx 2x 21 i xi )x(xi 1 9 2 7 3 5 4 10 5 4 35 xi = 9, 7, 5, 10, 4 7x 4a propriedade: A soma de todos os desvios em relação à média de um conjunto de valores é nula. 0)x(x i desvio diferença entre a observação e a média aritmética 2 0 -2 3 -3 0 Verificação numérica: 22 7xc 5a propriedade: A soma dos quadrados dos desvios em relação a uma constante c é mínima quando c = . x 2i c)(x é mínima quando c = x i xi )x(xi 2 i )x(x 2 i 5)(x 2 i 10)(x 1 9 2 2 7 0 3 5 -2 4 10 3 5 4 -3 35 0 4 0 4 9 9 26 16 4 0 25 1 46 1 9 25 0 36 71 Verificação numérica: 5c 10c 23 No cálculo da média participam todos os valores observados. É uma medida de fácil interpretação e presta-se muito bem a tratamentos estatísticos adicionais. É uma medida que sempre existe e é única. É o ponto de equilíbrio de uma distribuição, sendo tão mais eficiente quanto mais simétrica for a distribuição dos valores ao seu redor. características 24 4 5 7 9 10 x Md 4 5 7 9 15 x 4 5 7 9 25 x 10 8 10 8 7 7 7 Md Md 7 Desvantagem: É uma medida altamente influenciada por valores atípicos ou discrepantes (não resistente). 25 É a medida que divide um conjunto de dados ordenado em duas partes aproximadamente iguais: 50% dos valores ficam abaixo e 50% ficam acima da mediana. Mediana (Md) Para obter a mediana: 1. Ordenar os dados em ordem crescente2. Determinar a posição (p) da mediana Md 50% 50% x(1) x(n) 26 Os valores abaixo se referem ao peso (Kg) colocado sobre a extremidade de um cabo de aço. xi = 5, 9, 7, 4, 12, 10 Exemplo 27 n = 6 (par) 1. Ordenar os dados x(i) = 4, 5, 7, 9, 10, 12 2. Determinar a posição (p) da mediana 2 1n p 3,5 2 16 2 xx Md (4)(3) 8 2 97 kg 8Md p1=3 p2=4 50% dos pesos colocados sobre a extremidade do cabo de aço é inferior a 8kg. Define exatamente o centro de uma distribuição, mesmo quando os valores se distribuem assimetricamente em torno da média; É determinada mesmo sem utilizar todos os valores do conjunto de dados; É uma medida que sempre existe e é única; É uma medida resistente, ou seja, não sofre influência de valores discrepantes. Desvantagem: É uma medida que não se presta a cálculos matemáticos. características 28 Moda (Mo) É o valor de maior ocorrência num conjunto de dados. É a única medida que pode não existir e, existindo, pode não ser única. 1. Interpretação para variáveis discretas: xi = 9, 5, 4, 5, 7, 1, 2, 2 xi = 5, 7, 3, 7, 9, 5, 9, 3 não existe Mo (conjunto amodal) Mo = 2 e 5 (conjunto bimodal) Mo = 8 xi = 12, 8, 7, 5, 7, 4, 8, 8, 9 29 Exemplos X=número de unidades defeituosas em um lote de produção. 2. Interpretação para variáveis contínuas: 30 Y= percentuais de retenção de enxofre em 42 vertentes do nordeste dos EUA. Valores de variáveis contínuas, em geral, não se repetem. A moda tem importância apenas conceitual, estando relacionada com o pico da distribuição: classe modal: maior frequência Moda é o ponto da distribuição onde temos a maior frequência. Y=percentuais de retenção de enxofre em 42 vertentes do nordeste dos EUA. É uma medida que têm existência real dentro do conjunto de dados e em grande número de vezes; Não exige cálculo, apenas uma contagem; Pode ser determinada também para variáveis categóricas. características Desvantagem: É uma medida que não se presta a cálculos matemáticos. Deixa sem representação todos os valores do conjunto de dados que não forem iguais a ela. Pode não existir. 31 Exercício Uma amostra de 20 operários de uma companhia apresentou os seguintes salários recebidos durante certa semana, já dispostos em ordem crescente: 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 155 ; 155; 165 ; 165 ; 180 ; 180 ; 190 ; 200 ; 205 ; 225 ; 230 ; 240 Determinar: (a) a média (b) a mediana (c) a moda. (d) Indicar qual medida utilizaria para apresentar os dados, e explicar em que sentido cada valor poderia ser considerado, supondo que você estivesse em cada uma das seguintes posições: (I) Vice-Presidente da companhia encarregado da negociação coletiva. (II) Presidente do grupo negociador dos empregados. (e) Se for dado um aumento de 20% para todos os funcionários, qual será o novo salário médio? (f) Se for dado um aumento de R$25,00 a todos os funcionários, como fica a média dos salários? 32 a) =R$ 170,50 b) Md= R$ 160,00 c) Mo = R$ 140,00 e) Como vice-presidente trabalharia com o valor médio dos salários, pois foi o mais alto em relação as demais medidas, já como presidente negociador dos empregados utilizaria a moda como medida de maior ocorrência para lutar por melhores salários. e) = 170,50 x 0,2 = R$ 204,60 f) = 170,50 + 25 = R$ 195,50 Respostas x x x 33 34 Quartis dividem o conjunto ordenado em quatro partes Decis dividem o conjunto ordenado em dez partes Percentis dividem o conjunto ordenado em cem partes Mediana divide o conjunto ordenado em duas partes Buscam dividir os valores ordenados de uma variável em proporções aproximadamente iguais. Medidas Separatrizes q=nº de divisões, logo q=2: duas divisões, q=4: quatro divisões,..., q 50% 25% p=1/q é a proporção aproximada de valores contidos dentro de cada divisão 35 São três medidas que dividem um conjunto de dados ordenado em quatro partes aproximadamente iguais. Md 25% Q1 Primeiro quartil (Q1): 25% dos valores abaixo e 75% acima dele 25% Q2 Segundo quartil (Q2): 50% dos valores abaixo e 50% acima dele 25% 25% Q3 Terceiro quartil (Q3): 75% dos valores abaixo e 25% acima dele x(1) x(n) Quartis (Qi) 36 Para obter os quartis: 1. Ordenar os dados 2. Determinar a posição (p) de cada quartil Dois casos: n ímpar n par 4 1n p1 Posição do Q1 4 1)2(n p2 Posição do Q2 4 1)3(n p3 Posição do Q3 4 2n p1 Posição do Q1 4 22n p2 Posição do Q2 4 23n p3 Posição do Q3 37 i i (p ) Q x Se p não for inteiro, tomamos os dois inteiros mais próximos. 7,5pi Exemplo: 7 8 2 xx Q (8)(7) i O quartil será a média aritmética dos dois valores que ocupam essas duas posições. 38 Foram registrados os tempos de uso (horas/mês) de um modelo profissional de motosserras. Os valores obtidos foram: 69 58 70 80 46 61 65 74 75 55 67 56 70 72 61 66 58 68 70 68 58 Para o conjunto de valores, calcule os quartis e interprete esses valores. Q1 = 58 Q2 = 67 Q3 = 70 Exercício 39 2 Média Medidas de Variação 2 2 Garrafas PET entrando em enchedora http://superenvase.blogspot.com.br i xi yi zi 1 2,0 1,7 1,9 2 1,8 1,9 2,0 3 2,1 2,2 2,1 4 1,9 2,0 2,1 5 2,2 2,2 1,9 10 10 10 40 Objetivo indicar quanto os valores diferem entre si ou quanto eles se afastam da média Medidas de variação mais utilizadas: Complementam as medidas de tendência central Amplitude total Amplitude interquartílica Variância Desvio padrão Coeficiente de variação 41 at (1)(n)t xxa EIESat ES: extremo superior do conjunto de dados ordenado EI: extremo inferior do conjunto de dados ordenado EI=x(1) ES=x(n) Amplitude total (at) Fornece uma ideia inicial de variação; É obtida pela diferença entre o maior valor e o menor valor de um conjunto de dados 42 kg9312 EIESat Significado: todos os valores do conjunto de dados diferem, no máximo, em 9 kg. Desvantagens extremamente influenciada por valores discrepantes pouco precisa Os valores abaixo se referem ao peso (Kg) colocado sobre a extremidade de um cabo de aço. xi = 3, 3, 4, 6, 7, 9, 9, 11, 12 Exemplo variabilidade at 43 1 3 q QQa Q1 : primeiro quartil Q3 : terceiro quartil EI ES Q3 Q1 aq É obtida pela diferença entre o terceiro e o primeiro quartis Amplitude interquartílica (aq) 44 Os valores abaixo se referem ao peso (Kg) colocado sobre a extremidade de um cabo de aço. xi = 3, 3, 4, 6, 7, 9, 9, 11, 12 kg6,53,510 Significado: pelo menos 50% das observações diferem, no máximo, em 6,5 kg Vantagem medida resistente (não é afetada por valores discrepantes) 1 3 q QQa Q1 = 3,5 kg e Q3 = 10 kg 2,5 4 19 4 1n p1 7,5 4 193 4 1n3 p3 Exemplo variabilidade aq 45 Medidas de dispersão baseadas na média O elemento básico dessa dispersão é o desvio: mede quanto cada valor varia em relação à média )x(xi Desvio:46 0,20,2 xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2 Exemplo: 0,28,1 0,21,2 0,29,1 0,22,2 variação do xi em relação à média 2,0Lx )x(xi 0 -0,2 0,1 -0,1 0,2 0 )x(xi Média dos desvios variação média do conjunto de valores soma de todos os desvios 47 Solução: elevar os desvios ao quadrado desvios negativos ficam positivos e podem ser somados 2i )x(x soma dos quadrados dos desvios quadrados dos desvios 0,20,2 0,28,1 0,21,2 0,29,1 0,22,2 )x(xi 0,0 -0,2 0,1 -0,1 0,2 2i )x(x 0,00 0,04 0,01 0,01 0,04 0,1 2i )x(x x 48 Variância (s2) Medida de variação mais utilizada: facilidade de compreensão propriedades estatísticas importantes para a inferência Considera o desvio da média como unidade básica da variação: Definida como a média dos quadrados dos desvios 1-n )x(x s 2 i2 49 • Porque este denominador confere à variância melhores propriedades estatísticas (importante na inferência estatística). Por que utilizar n-1 como denominador? n )x(x s 2 i2 n Quando o objetivo for apenas descrever a variação de um conjunto de valores, podemos usar o denominador n. 1-n )x(x s 2 i2 Quando o objetivo for estimar a variação de uma população por meio da variação de um conjunto de valores (amostra), devemos usar o denominador n-1. 50 Os valores abaixo se referem ao peso (Kg) colocado sobre a extremidade de um cabo de aço. xi = 9, 7, 5, 10, 4 kg 7x 1n )x(x s 2 i2 6,5 4 26 4 99404 15 7)(47)(107)(57)(77)(9 22222 22 kg6,5s unidade de medida fica elevada ao quadrado Exemplo 51 Propriedades da variância 1a propriedade: A variância de um conjunto de dados que não varia, ou seja, cujos valores são uma constante, é zero. xi = 7, 7, 7, 7, 7 0 15 7)(77)(77)(77)(77)(7 s 22222 2 7x Verificação numérica: 52 2ª propriedade: Ao somar uma constante c a todos os valores de um conjunto de dados, a variância destes dados não se altera. xi = 9, 7, 5, 10, 4 xi+2 = 11, 9, 7, 12, 6 Somar c=2 2kg 6,5 4 26 4 99404 15 9)(69)(129)(79)(99)(11 s 22222 2 2x 6,5s2 7x 9x 2x cxx cx Verificação numérica: 22 cx ss 6,5s 2 2x 53 3ª propriedade: Ao multiplicar todos os valores de um conjunto de dados por uma constante c, a variância destes dados fica multiplicada pelo quadrado desta constante. xi = 9, 7, 5, 10, 4 Multiplicar por c=2 6,5s2 7x Verificação numérica: 2xi= 18, 14, 10, 20, 8 2kg 26 4 104 4 363616016 15 14)(814)(2014)(1014)(1414)(18 s 22222 2 2x 14x2x 6,522 xcxcx 26s22x 222 xc scs 54 Desvantagens da variância: 2. Como a unidade de medida fica elevada ao quadrado, a interpretação da variância se torna mais difícil. 1. Como a variância é calculada a partir da média, é uma medida pouco resistente, ou seja, muito influenciada por valores atípicos. • Para solucionar o problema de interpretação da variância surge outra medida: o desvio padrão. 55 22 L 025,0s L 2x 2ss 20,025Ls L16,0s É definido como a raiz quadrada positiva da variância 2ss Desvio padrão (S) xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2 Exemplo: 56 16,02 sx Apresentação do desvio padrão: Volume médio de 2L com uma variação média de 0,16L acima e abaixo da média. Significado: variação média em torno da média aritmética. Exemplo 57 2L Média 2L 2L i xi yi zi 1 2,0 1,7 1,9 2 1,8 1,9 2,0 3 2,1 2,2 2,1 4 1,9 2,0 2,1 5 2,2 2,2 1,9 10 10 10 Desvio padrão 0,16L ? ? Variância 0,025 ? ? L2 = 0,045 Exemplo 58 0,18 4 L 2x xi = 1,7 – 1,9 – 2,2 – 2,0 – 2,2 2i )x(x = 0,09 – 0,01 – 0,04 – 0,00 – 0,04 2ss 20,045Ls L21,0s 2L 1-n )x(x s 2 i2 Exemplo 59 0,04 0,01 4 L 2x xi = 1,9 – 2,0 – 2,1 – 2,1 – 1,9 2i )x(x = 0,01 – 0,00 – 0,01 – 0,01 – 0,01 2ss 20,01Ls L1,0s 2L 1-n )x(x s 2 i2 60 Garrafas PET entrando em enchedora http://superenvase.blogspot.com.br i xi yi zi 1 2,0 1,7 1,9 2 1,8 1,9 2,0 3 2,1 2,2 2,1 4 1,9 2,0 2,1 5 2,2 2,2 1,9 10 10 10 Solução 2L Média 2L 2L Desvio padrão 0,14L 0,21L 0,10L Variância 0,02 0,045 0,01 L2 L2 L2 61 Os valores abaixo se referem ao peso (Kg) colocado sobre a extremidade de um cabo de aço. Exemplo 22 kg 6,5s kg 7x xi = 9, 7, 5, 10, 4 2ss 2kg 6,5s kg 2,55s 62 Coeficiente de Variação (CV) O coeficiente de variação é definido como a proporção (ou percentual) da média representada pelo desvio padrão. 100% x s CV xi = 9, 7, 5, 10, 4 kg 2,55s kg 7x 100% x s CV 100% kg 7 kg 2,55 36,4% Exemplo Os valores ao lado se referem ao peso (Kg) colocado sobre a extremidade de um cabo de aço. 63 Vantagens: Esta comparação não deve ser feita através de qualquer medida de variação em duas situações: quando as médias dos conjuntos comparados são muito desiguais quando as unidades de medida são diferentes Nessas situações devemos usar o CV. O CV é não tem unidade de medida (expresso em %); O CV é uma medida relativa, pois relaciona o desvio padrão com a sua respectiva média aritmética; O CV é a medida mais utilizada para comparar variabilidades de diferentes conjuntos de dados; 64 Um engenheiro está analisando as espessuras de peças fabricadas em duas máquinas de corte. Consideremos que x1i e x2i são conjuntos de valores referentes as medidas de espessura (mm) das peças produzidas pela máquina A e pela máquina B, para as quais foram obtidas as seguintes medidas: máquina A (X1): máquina B (X2): mm 51x1 s1 = 12mm 72mmx2 s2 = 16mm Exemplo 1 65 CV1 = 23,53% O maior desvio padrão, quando comparado à sua média, representou menor variação. Quando as médias são diferentes, devemos usar o CV. Qual grupo varia mais em relação à espessura das peças? CV2 = 22,22% mm 51x1 s1 = 12mm 72mmx2 s2 = 16mm máquina A (X1) máquina B (X2) 66 Consideremos, agora, que xi e yi são conjuntos de valores referentes a estaturas (em cm) e pesos (em kg) de um grupo de estudantes, para os quais foram obtidas as seguintes medidas: CVX = 15,73% CVY = 16,13% cm178x sX = 28 cm Estatura (X): kg62y sY = 10 kg Peso (Y): Peso e altura não são grandezas comparáveis. Quando as unidades de medida são diferentes, devemos usar o CV. Exemplo 2 67 Contou-se o número de defeitos de solda em determinado lote de carrocerias durante os sete dias de uma semana, com os seguintes resultados: 14 20 20 20 15 16 18 a) Determine a média, a mediana e a moda. b) Calcule a variância, o desvio padrão e o coeficiente de variação. Exercício 2 x=17,6 Md=18 Mo=20 s =6,62 s=2,57 CV=14,64% 68 O formato é um aspecto importante de uma distribuição. Está relacionado com as ideias de simetria e curtose. Medidasde Formato Medidas de assimetria Medidas de curtose 69 cauda cauda centro A simetria em torno de um eixo indica que o formato da distribuição à esquerda e à direita desse eixo é o mesmo. A curtose está relacionada com o grau de concentração das observações no centro e nas caudas da distribuição. 70 22 3 3 mm m a Informam se a maioria dos valores se localiza à esquerda, ou à direita, ou se estão distribuídos uniformemente em torno da média aritmética. Uma das medidas de assimetria mais precisas é o coeficiente de assimetria (a3), calculado a partir do segundo e do terceiro momentos centrados na média: Indica o grau e o sentido do afastamento da simetria. Medidas de assimetria n )x(x m 2 i 2 n )x(x m 3 i 3 71 Se a3=0, a distribuição é classificada como simétrica, indicando que os valores estão uniformemente distribuídos em torno da média. Classificação quanto à simetria MoMdx 72 Se a3>0, a distribuição é classificada como assimétrica positiva, indicando que a maioria dos valores são menores ou se localizam à esquerda da média (cauda para direita). xMdMo 73 Se a3<0, a distribuição é classificada como assimétrica negativa, indicando que a maioria dos valores são maiores ou se localizam à direita da média (cauda para esquerda). MoMdx 74 Interpretação teórica populações Se a3<0 assimétrica negativa Se a3=0 simétrica Se a3>0 assimétrica positiva Interpretação prática amostras Se a3< -0,5 assimétrica negativa Se -0,5< a3 >0,5 simétrica Se a3> 0,5 assimétrica positiva 75 Uma distribuição simétrica possui muitas vantagens: Não há ambigüidade na indicação do centro. Numa distribuição unimodal a simetria implica que a média, mediana e moda coincidam ou, em termos amostrais, estejam muito próximas. Em geral, a interpretação e as aplicações são mais simples. Muitos procedimentos usuais pressupõem uma distribuição normal, que é uma distribuição simétrica. Em muitas situações onde o modelo não é normal, os procedimentos são robustos e é suficiente que a distribuição seja simétrica, podendo-se utilizar procedimentos matemáticos capazes de converter os dados para a simetria. 76 Indicam o grau de achatamento de uma distribuição; A curtose não tem interpretação tão intuitiva quanto a simetria, por isso, em geral, é discutida apenas para distribuições simétricas; O coeficiente de curtose é calculado a partir do segundo e do quarto momentos centrados na média. Medidas de curtose 2 2 4 4 m m a n )x(x m 2 i 2 n )x(x m 4 i 4 A classificação é feita tendo por base a curtose que ocorre na distribuição normal (mesocúrtica). 77 Classificação quanto à curtose Se a4=3 mesocúrtica concentração das observações ocorre de forma semelhante à da distribuição normal. Distribuição normal mesocúrtica 78 Se a4<3 platicúrtica baixa concentração de valores no centro, tornando a distribuição mais achatada que a distribuição normal. 79 Se a4>3 leptocúrtica alta concentração de valores no centro e nas caudas, o que provoca um pico maior que o da distribuição normal. APRESENTAÇÃO DOS DADOS Dados não agrupados 80 Dados agrupados em classe São os dados apresentados em rol São os dados apresentados em tabela de distribuição de frequências Medidas Descritivas Dados não agrupados – todas as medidas vistas. Dados agrupados em classe – média, classe mediana, classe modal, variância, desvio padrão, CV, coeficientes de assimetria e curtose. n Fc x jj p Média 81 Mediana e Moda Variância 1n xcF s 2 pjj2 Desvio padrão 2ss Coeficiente de variação 100% x s CV MEDIDAS PARA DADOS AGRUPADOS 2 2 4 4 m m a Coeficiente de assimetria n xcF m 2 pjj2 n xcF m 4 pjj4 Coeficiente de curtose 22 3 3 mm m a n xcF m 2 pjj2 n xcF m3 3 pjj Classe modal: classe com a maior Fj. Classe mediana: é a primeira classe da F’j que compreende a posição da mediana. j Classes jF 1 3,11 | 16,00 8 2 16,00 | 28,89 20 3 28,89 | 41,78 6 4 41,78 | 54,67 8 5 54,67 | 67,56 3 6 67,56 | 80,45 1 7 80,45 || 93,34 4 50 3,11 8,88 9,26 10,81 12,69 13,78 15,23 15,62 17,00 17,39 18,36 18,43 19,27 19,50 19,54 20,16 20,59 22,22 23,04 24,47 24,58 25,13 26,24 26,26 27,65 28,06 28,08 28,38 32,03 36,37 38,98 38,64 39,16 41,02 42,97 44,08 44,67 45,40 46,69 48,65 50,39 52,75 54,80 59,07 61,22 70,32 82,70 85,76 86,37 93,34 Dados agrupados em classe Dados não agrupados um supermercado registrou o valor gasto pelos primeiros 50 clientes que passaram em determinado caixa. 82 Exemplo j Classes jc jF 1 3,11 | 16,00 9,555 8 2 16,00 | 28,89 22,445 20 3 28,89 | 41,78 35,335 6 4 41,78 | 54,67 48,225 8 5 54,67 | 67,56 61,115 3 6 67,56 | 80,45 74,005 1 7 80,45 || 93,34 86,895 4 50 n x x i não estão disponíveis Pressuposição Distribuição simétrica dentro dos intervalos Medidas para dados agrupados em classe 83 j Classes jc jF jc jF 1 3,11 | 16,00 9,555 8 2 16,00 | 28,89 22,445 20 3 28,89 | 41,78 35,335 6 4 41,78 | 54,67 48,225 8 5 54,67 | 67,56 61,115 3 6 67,56 | 80,45 74,005 1 7 80,45 || 93,34 86,895 4 50 9,555 x 8 = 76,44 22,445 x 20 = 448,90 35,335 x 6 = 212,01 n Fc x jj p jjFc Média 48,225 x 8 = 385,80 61,115 x 3 = 183,345 74,005 x 1 = 74,005 86,895 x 4 = 347,58 = 1.728,08 1728,08 34,56 reais 50 gasto no supermercado 84 j Classes jc jF jF jc jF 1 3,11 | 16,00 9,555 8 8 76,44 2 16,00 | 28,89 22,445 20 28 448,90 3 28,89 | 41,78 35,335 6 34 212,01 4 41,78 | 54,67 48,225 8 42 385,80 5 54,67 | 67,56 61,115 3 45 183,35 6 67,56 | 80,45 74,005 1 46 74,01 7 80,45 || 93,34 86,895 4 50 347,58 50 1.728,08 Classe modal Classe mediana Posição da Mediana n 1 p 25,5 2 25 26 Classe modal: classe com a maior frequência absoluta. Classe mediana: é a primeira classe da frequência absoluta acumulada que compreende a posição da mediana.. Mediana e Moda 85 86 j Classes jc jF 2 jj )( xcF 3 jj )( xcF 4 jj )( xcF 1 3,11 | 16,00 9,555 8 2 16,00 | 28,89 22,445 20 3 28,89 | 41,78 35,335 6 4 41,78 | 54,67 48,225 8 5 54,67 | 67,56 61,115 3 6 67,56 | 80,45 74,005 1 7 80,45 || 93,34 86,895 4 50 reais34,56xp Variância e momentos 8 (9,555- 34,56)2 = 5.002,00 20 (22,445- 34,56)2 = 2.935,46 6 (35,335- 34,56)2 = 3,60 24062,15 1n xcF s 2 jj2 -125075,01 -35563,15 2,79 20413,57 56177,21 61372,79 573372,26 550700,46 3127500,75 430847,59 2,16 278951,39 1491785,83 2420849,78 30007437,16 37757374,66 . . . . . . . . . . . . 0092,11014 50 550700,46 n xcF m 3 pjj 3 49,755147 50 637757374,6n xcF m 4 pjj 4 243,481 50 24062,15 n xcF m 2 pjj 2 87 2 2 jj2 reais491,06 49 24062,15 1n xcF s reais22,16491,06ss 2 reais 22,1634,56 sx 64,12%100% 34,56 22,16 100% x s CV variância Desvio padrão Coeficiente de variação Coeficiente de assimetria Coeficiente de curtose 043,1 15,10557 0092,11014 243,481243,481 0092,11014 mm m a 22 3 3 26,3 825,231594 49,755147 243,481 49,755147 m m a 22 2 4 4 a3>0 = assimétrica positiva a4>3 = leptocúrtica 88 DDaaddooss nnããoo aaggrruuppaaddooss DDaaddooss aaggrruuppaaddooss eemm ccllaassssee x = 34,78 reais x = 34,56 reais Md = 27,31 reais Classe mediana: [16,00 ; 28,89) Mo não existe Classe modal: [16,00 ; 28,89) s 2 = 471,32 reais 2 s 2 = 491,06 reais 2 s = 21,71 reais s = 22,16 reais CV = 62,42% CV = 64,12% 89 Próxima aula - 2.4. Análise exploratória de dados Resumo de cinco números Gráfico de caixas Diagrama de ramo e folhas
Compartilhar