Baixe o app para aproveitar ainda mais
Prévia do material em texto
Estatística Descritiva Prof. Henrique Dantas Neder Instituto de Economia Universidade Federal de Uberlândia – Typeset by FoilTEX – 1 Tópicos introdutórios • A estatística descritiva trata dos métodos estatísticos empregados para descr- ever os dados. • Em geral quando os dados são coletados ou organizados em uma tabela existe grande dificuldade em observar ou detectar quais são as suas principais características. • A estatística descritiva subdivide-se em três importantes seções: 1) os métodos de apresentação gráfica dos dados e os métodos; 2) métodos de apresentação tabular de dados e 3) os métodos de construção de indicadores estatísticos. – Typeset by FoilTEX – 2 • No primeiro grupo são tratados os distintos tipos de gráficos. Entre eles temos os gráficos gerais, tais como gráficos de barras, gráficos de setor, etc e os gráficos mais propriamente voltados para a análise estatística tais como histograma, diagrama Box-Plot, diagrama de dispersão. • No segundo grupo são tratadas as formas tabulares de apresentação de dados, indicando os principais tipos de frequencia. • No terceiro grupo são propostos diversos indicadores de posição, de dispersão e de forma das distribuições estatísticas. Iremos tratar incialmente deste último grupo. Os principais indicadores de posição são a média, a mediana e a moda da distribuição. A média amostral é indicada pelo símbolo x. – Typeset by FoilTEX – 3 A fórmula matemática para indicar o cálculo de uma média amostral é: x¯ = ∑ xi n (1) Muitas vezes os dados podem ser apresentados na forma agrupada, tal como: intervalo frequência (fi) 1-50 20 50-100 30 100-150 40 150-200 50 200-250 35 250-300 25 A partir destes dados podemos calcular a média da seguinte forma: – Typeset by FoilTEX – 4 intervalo frequência (fi) ponto médio da classe (mi) fi ×mi 1-50 20 25 500 50-100 30 75 2250 100-150 40 125 5000 150-200 50 175 8750 200-250 35 225 7875 250-300 25 275 6875 soma 200 31250 Neste caso, para o caso do cálculo da média da amostra, vamos aplicar a seguinte expressão: x = ∑ fipmi n (2) – Typeset by FoilTEX – 5 x = ∑ fipmi n = 20 × 25 + 30 × 75 + 40 ××125 + 50 × 175 + 35 × 225 + 25 × 275 200 = 156, 25 Outro indicador importante da estatística descritiva. Neste caso iremos distinguir entre dois tipos de variância: a variância calculada a partir de uma amostra e a variância calculada a partir de uma população. As expressões matemáticas que representam estas duas variâncias são respectivamente: s2 = ∑ (xi − x¯)2 n− 1 (3) σ2 = ∑ (xi − µ)2 N (4) – Typeset by FoilTEX – 6 Fórmula para o cálculo da variância amostral. Fórmula para o cálculo da variância populacional. Os valores dos desvio-padrões são iguais a raiz quadrada dos valores das respectivas variâncias. Por exemplo, se tivermos uma sequencia de valores para uma variável correspondente a uma amostra, digamos: 3, 10, 15, 17, 15, 5, 10, 12 xi (xi − x)2 3 (3− 10.875)2 = 62.015625 10 (10− 10.875)2 = .765625 15 (15− 10.875)2 = 17.015625 17 (17− 10.875)2 = 37.515625 15 (15− 10.875)2 = 17.015625 5 (5− 10.875)2 = 34.515625 10 (10− 10.875)2 = .765625 12 (12− 10.875)2 = 1.265625 soma 170.875 – Typeset by FoilTEX – 7 Como estamos supondo que os dados da primeira coluna da tabela acima referem-se a uma amostra, então utilizaremos a expressão (3): s2 = ∑ (Xi−X¯)2 n−1 = 170.875 8−1 = 24.4107 s = √ 24.4107 = 4.94072 Fazemos uma demostração deste cálculo através do Stata. Em um primeiro passo, utilizamos o comando summarize para calcular a média da variável. Observe que através deste comando já obtemos o valor do desvio padrão amostral que é 4,94072. Depois pedimos através do comando generate para calcular uma variável igual aos valores dos desvios da primeira variável em relação a média elevados ao quadrado. Em terceiro lugar, através do comando tabstat, calculamos a soma destes desvios e o resultado é 170.875 (que é a soma dos quadrados dos desvios). Finalmente, através do comando display pedimos para o Stata mostrar o resultado da raiz quadrada da divisão desta soma de desvios ao quadrado pelo valor de n-1. – Typeset by FoilTEX – 8 . summ var1 variable obs mean Std.dev. min max var1 8 10.875 4.94072 3 17 . gen var2 = (var1 - r(mean))^2 . tabstat var2, s(sum) variable sum var2 170.875 . disp sqrt(170.875/(8-1)) 4.94072 O cálculo da variância quando temos os dados apresentados na forma agrupada em classes de frequencias segue um procedimento semelhante ao adotado para – Typeset by FoilTEX – 9 a média quando os dados estão neste formato. Vamos usar o mesmo exemplo anterior para o cálculo da média: intervalo frequência (fi) ponto médio da classe (pmi) fi(pmi − x¯)2 1-50 20 25 20.(25-34,72)2 50-100 30 75 30.(75-34,72)2 100-150 40 125 40.(125-34,72)2 150-200 50 175 50.(175-34,72)2 200-250 35 225 35.(225-34,72)2 250-300 25 275 25.(275-34,72)2 soma =4071096 s2 = ∑ (xi−x¯)2 n−1 = 4071096 199 = 20457.768 Existem também métodos que podem ser empregados para calcular valores da mediana, quartis, decis e percentis. A mediana é uma medida de posição – Typeset by FoilTEX – 10 que indica o valor da variável correpondente a um valor de frequencia relativa acumulada igual a 0.50 (ou 50%). Em outras palavras, a mediana é o valor da variável que supera 50% dos valores desta variável quando são ordenados do manor para o maior (ordem crescente). Vejamos um exemplo - a seguinte sequencia de números já ordenada: 3,4,4,4,7,10,17,17,23,2425,31,33 Como temos um número ímpar (13) de observações, o valor da mediana é igual ao valor do elemento central na sequencia, ou seja, o sétimo elemento. Por tanto a mediana é igual a 17. Se a sequencia incluir mais um elemento: 3,4,4,4,7,10,17,17,23,24,25,31,33,50 A mediana é igual a semi-soma dos dois elementos centrais da sequencia. – Typeset by FoilTEX – 11 Neste caso a mediana é também igual a 17. Pode-se perceber que a mediana tem uma caracteristica curiosa que a média não possui: o valor da mediana não é afetado pelos valores extremos de uma distribuição. Por exemplo, se trocarmos, na sequência anterior, o valor 50 por 1000, a mediana continuará a ser 17. No entanto, o valor da média ficará bastante alterado. O cálculo da mediana para dados agrupados segue uma idéia distinta do cálculo da média para dados agrupados. Suponhamos o mesmo exemplo do quadro anterior: – Typeset by FoilTEX – 12 intervalo frequencia (fi) frequencia acumulada (Fi) frequencia relativa acumulada 1-50 20 20 0,100 50-100 30 50 0,250 100-150 40 90 0,450 150-200 45 135 0,675 200-250 40 175 0.875 250-300 25 200 1.000 Vamos introduzir uma expressão para a determinação aproximada da mediana para os dados acima: X.5 = Linf + (n/2− Fa) fi,.5 × a (5) onde: – Typeset by FoilTEX – 13 X.5 é o valor da mediana, Linf é o limite inferior da classe de frequência que contem a mediana, Fa é a frequência acumulada da classe que contém a mediana, n é o tamanho da amostra, f i,.5 é a frequencia absoluta da classe que contem a mediana e a é a amplitude do intervalo de frequência que contém a mediana. No caso do exemplo anterior: X.5 = 150 + 100−90 45 × 50 = 161.111 Os valores dos quartis, decis e percentis podem ser determinados através de um cálculo semelhente utilizando a mesma idéia. Vamos agora desenvolver algumas expressões referentes ao cálculo da variância e do desvio padrão. A expressão para o cálculo da variância de uma população pode ser manipulada da seguinte forma: σ2 = ∑ (Xi−µ)2 N = ∑ (X2i−2Xiµ+µ2 N = ∑ X2i− ∑ 2Xiµ+ ∑ X¯2 N = – Typeset by FoilTEX – 14 ∑ X2i−2 ¯µ ∑ Xi+Nµ2 N = ∑ X2i−2µ×Nµ+Nµ2 N = ∑ X2i−Nµ2 N = ∑ X2i N − µ2 σ2 = ∑ X2i N − µ2(6) Na sequencia de dados de um exemplo anterior - 3, 10, 15, 17, 15, 5, 10, 12, podemos calcular a variância de duas formas, de acordo com a tabela abaixo: – Typeset by FoilTEX – 15 Xi X2i (Xi − µ) (Xi − µ)2 3 9 -7,785 62.015625 10 100 -0,875 0.765625 15 225 4,125 17.015625 17 289 6,125 37.515625 15 225 4,125 17.015625 5 25 -5,875 34.515625 10 100 -0,875 0.765625 12 144 1,125 1.265625 soma 1117 0 170.875 A média µé igual a 10,875. A primeira forma de calcular a variância é: σ2 = ∑ (Xi−µ)2 N = 170,875 8 = 21.359375 A segunda forma é: – Typeset by FoilTEX – 16 σ2 = ∑ X2i N − µ2 = 11178 − 10, 8752 = 21.359375 As mesmas relações podem ser deduzidas para a variância amostral e para as expressões referentes ao cálculo da variância para dados agrupados.Neste último caso, a variância pode ser calculada de duas formas distintas. Vejamos um exemplo anterior: intervalo frequência(fi) ponto médio (mi) fi ×mi fi ×m2i fi × (mi − µ)2 1-50 20 25 500 12500 344531.25 50-100 30 75 2250 168750 198046.875 100-150 40 125 5000 625000 39062.5 150-200 50 175 8750 1531250 17578.125 200-250 35 225 7875 1771875 165429.6875 250-300 25 275 6875 1690625 352539.0625 soma 200 31250 6000000 1117187.5 Cálculo da média: – Typeset by FoilTEX – 17 µ = ∑ Xi N = ∑ fi×mi N = 31250 200 = 156.25 Primeira forma de calcular a variância: σ2 = ∑ fi×(mi−µ)2 N = 1117187.5 200 = 5585.9375 Segunda forma de calcular a variância: σ2 = ∑ fi×m2i N -µ 2 =6000000200 − 156.252 = 5585.9375 EXERCÍCIOS Exercicio 1)Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. – Typeset by FoilTEX – 18 classes P(%) 70-90 5 90-110 45 110-130 40 130-150 70 150-170 85 170-190 95 190-210 100 Assinale a opção que corresponde à estimativa da freqüência relativa de observações de X menores ou iguais a 145. a) 62,5% b) 70,0% c) 50,0% d) 45,0% e) 53,4% Exercicio 2)Para a solução da próxima questão utilize o enunciado que se segue. O atributo do tipo contínuo X, observado como um inteiro, numa amostra – Typeset by FoilTEX – 19 de tamanho 100, obtida de uma população de 1000 indivíduos, produziu a tabela de freqüências seguinte: classes frequencia (f) 29,5-39,5 4 39,5-49,5 8 49,5-59,5 14 59,5-69,5 20 69,5-79,5 26 79,5-89,5 18 89,5-99,5 10 Assinale a opção que corresponde à estimativa do número de indivíduos na população com valores do atributo X menores ou iguais a 95,5 e maiores do que 50,5. – Typeset by FoilTEX – 20 a) 700 b) 638 c) 826 d) 995 e) 900 Exercício 3) A média e a variância do conjunto dos salários pagos por uma empresa eram de $285.000 e 1,1627x1010, respectivamente. O valor da variância do conjunto dos salários após o corte de três zeros na moeda é: a) 1,1627x107 b) 1,1627x106 c) 1,1627x105 d) 1,1627x104 Exercício 4) Em certa empresa, o salário médio era de $90.000,00 e o desvio padrão dos salários era de $10.000,00. Todos os salários receberam um aumento de 10%. O desvio padrão dos salários passou a ser de: a) 10.000, b) 10.100, c) 10.500, d)10.900, e) 11.000 Exercício 5) Os dados seguintes, ordenados do menor para o maior, foram obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa de valores internacional. A unidade monetária é o dólar americano. 4, 5, 5, 6, 6, – Typeset by FoilTEX – 21 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Os valores seguintes foram calculados para a amostra:∑ Xi = 490 e∑ X2i − ( ∑ Xi) 2/50 = 668 Assinale a opção que corresponde à mediana e à variância amostral, respecti- vamente (com aproximação de uma casa decimal). a) (9,0 13,6) b) (9,5 14,0) c) (8,0 15,0) d) (8,0 13,6) e) (9,0 14,0) Exercício 6) Numa amostra de tamanho 20 de uma população de contas a receber, representadas genericamente por X, foram determinadas a média amostral M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale a opção que dá o coeficiente de variação amostral de X. – Typeset by FoilTEX – 22 a) 3,0 % b) 9,3% c) 17,0% d)17,3% e) 10,0% Exercício 7) Um atributo W tem media amostral a6=0 e desvio padrao positivo b6=1. Considere a transformacao Z=(W-a)/b. Assinale a opcao correta. a) A media amostral de Z coincide com a de W. b) O coeficiente de variacao amostral de Z e unitario. c) O coeficiente de variacao amostral de Z nao esta definido. d) A media de Z e a/b. e) O coeficiente de variacao amostral de W e o de Z coincidem. Exercício 8) Os dados seguintes, ordenados do menor para o maior, foram obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa de valores internacional. A unidade monetária é o dólar americano.4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Pode-se afirmar que: a) a distribuição amostral dos preços tem assimetria negativa. b) a distribuição – Typeset by FoilTEX – 23 amostral dos preços tem assimetria positiva. c) a distribuição amostral dos preços é simétrica. d) a distribuição amostral dos preços indica a existência de duas sub-populações com assimetria negativa. e) nada se pode afirmar quanto à simetria da distribuição amostral dos preços. Exercício 9) Assinale a opção correta. a) Para qualquer distribuição amostral, se a soma dos desvios das obser- vações relativamente à média for negativa, a distribuição amostral terá assimetria negativa. b) O coeficiente de variação é uma medida que depende da unidade em que as observações amostrais são medidas. c) O coeficiente de variação do atributo obtido pela subtração da média de cada observação e posterior divisão pelo desvio padrão não está definido. – Typeset by FoilTEX – 24 d) Para qualquer distribuição amostral pode-se afirmar com certeza que 95% das observações amostrais estarão compreendidas entre a média menos dois desvios padrões e a média mais dois desvios padrões. e) As distribuições amostrais mesocúrticas em geral apresentam cauda pesada e curtose excessiva. Exercício 10) Os montantes de venda a um grupo de clientes de um supermer- cado forneceram os seguintes sumários: média aritmética=$1,20 , mediana=$0,53 e moda=$0,25. Com base nestas informações, assinale a opção correta: a) A distribuição é assimétrica à direita. b) A distribuição é assimétrica à esquerda. c) A distribuição é simétrica. – Typeset by FoilTEX – 25 d) Entre os três indicadores de posição apresentados, a média aritmética é a melhor medida de tendência central. e) O segundo quartil dos dados acima é dado por $0,25. TEOREMA DE CHEBYSHEV (OU DESIGUALDADE DE CHEBYSHEV) Enunciando de forma livre (e nem um pouco rigorosa) o enunciado poderia ser: “Para qualquer distribuição estatística de uma variável X(tendo esta variável qualquer forma de distribuição, simétrica ou assimétrica) , pode-se afirmar que: P (|X − µ| ≥ kσ) ≤ 1 k2 ou P (|X − µ| ≤ kσ) ≤ 1− 1 k2 Vamos exemplificar com o seguinte exercício resolvido: – Typeset by FoilTEX – 26 Exercício 10) As realizações anuais Xi dos salários anuais de uma firma com N empregados produziram as estatísticas: µ = 1N ∑ Xi = R$14300, 00 e σ = [ 1N ∑ (Xi − X¯)2]0.5 = R1200, 00 Seja P a proporção de empregados com salários fora do intervalo {R$12.500,00 ; R$16.100,00}. Assinale a opção correta: a) P é no máximo ½ b) P é no máximo 1/1,5 c)P é no mínimo ½ d) P é no máximo 1/2,25 e) P é no máximo 1/20 – Typeset by FoilTEX – 27 Solução: Vemos que o limite inferior 12500 = 14300 - k*1200 e k = (14300-12500)/1200=1,5 Pela desigualdade de Chebyshev acima podemos afirmar que: P (|X − 14300| ≥ 1, 5 ∗ 1200) ≤ 1 1,52 Exercício 11) Tem-se um conjunto de N mensuracoes X1, ... , XN com media aritmetica µ e variancia σ2, onde µ = (X1 + ... + XN )/ N e σ2 = 1N ∑ (Xi−µ)2. Seja θ a proporcao dessas mensuracoes que diferem de µ, em valor absoluto, por pelo menos 2σ. Assinale a opção correta. a) Apenas com o conhecimento de µ e σ nao podemos determinarθ exata- mente, mas sabe-se que 0,25 ≥θ. b) O conhecimento de µe σe suficiente para determinar θexatamente, na realidade tem-se θ= 5% para qualquer conjunto de dados X1, ... , XN . – Typeset by FoilTEX – 28 c) O conhecimento de µe σe suficiente para determinar θ exatamente, na realidade tem-se θ = 95% para qualquer conjunto de dados X1, ... , XN . d) O conhecimento de µ e σ e suficiente para determinar θ exatamente, na realidade tem-se θ = 30% para qualquer conjunto de dados X1, ... , XN . e) O conhecimento de µ e S e suficiente para determinar θexatamente, na realidade tem-se θ= 15% para qualquer conjunto de dados X1, ... , XN . Exercício 12) Numa amostra de tamanho 20 de uma população de contas a receber, representadas genericamente por X, foram determinadas a média amostral M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale a opção que dá o coeficiente de variação amostral de X. a) 3,0 % b) 9,3% – Typeset by FoilTEX – 29 c) 17,0% d)17,3% e) 10,0% Exercício 13) Em um ensaio para o estudo da distribuição de um atributo financeiro (X) foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. A próxima questão refere-se a esses ensaios. – Typeset by FoilTEX – 30 classes P(%) 70-90 5 90-110 15 110-130 40 130-150 70 150-170 85 170-190 95 190-210 100 Considere a transformação Z=(X-140)/10. Para o atributo Z encontrou-se∑ Z2i fi = 1680 , onde fi é a freqüência simples da classe i e Zi o ponto médio de classe transformado. Assinale a opção que dá a variância amostral do atributo X. a) 720,00 – Typeset by FoilTEX – 31 b) 840,20 c) 900,10 d) 1200,15 e) 560,30 Exercício 14) Um atributo W tem média amostral a 6=0 e desvio padrão positivo b6=1. Considere a transformação Z=(W-a)/b. Assinale a opção correta. a) A média amostral de Z coincide com a de W. b) O coeficiente de variação amostral de Z é unitário. c) O coeficiente de variação amostral de Z não está definido. d) A média de Z é a/b. – Typeset by FoilTEX – 32 e) O coeficiente de variação amostral de W e o de Z coincidem. Exercício 15) O atributo Z=(X-2)/3 tem média amostral 20 e variância amostral 2,56. Assinale a opção que corresponde ao coeficiente de variação amostral de X. a) 12,9% b) 50,1% c) 7,7% d) 31,2% e) 10,0% Exercício 16) A média e variância de uma primeira série de 15 observações são respectivamente: x¯1 = 30 s21 = 25, e a média e variância de uma segunda – Typeset by FoilTEX – 33 série de 20 observações são: x¯2 = 40 s22 = 36. Qual a média e a variância do conjunto das 35 observações? Exercício 17) Numa série de n = 25 medições obteve-se x¯ = 56 m e s = 2 m. Depois de obtidos estes resultados descobriu-se que tinha sido cometido um engano numa das medições, que foi registada com o valor 64m. Determine a média e o desvio padrão, admitindo que a medição incorrecta é omitida. Exercício 18) A média e o desvio-padrão obtidos num lote de produção de 100 peças mecânicas são respectivamente, 16 Kg e 40g. Uma peça particular do lote pesa 18Kg. Assinale a opção que dá o valor padronizado do peso dessa peça. a) –50 b) 0,05 c) 50 – Typeset by FoilTEX – 34 d) –0,05 e) 0,02 – Typeset by FoilTEX – 35
Compartilhar