Estatística Descritiva

•

UFU

Luana Clara

26.08.2016

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.146 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Estatística Descritiva
Prof. Henrique Dantas Neder
Instituto de Economia
Universidade Federal de Uberlândia
– Typeset by FoilTEX – 1
Tópicos introdutórios
• A estatística descritiva trata dos métodos estatísticos empregados para descr-
ever os dados.
• Em geral quando os dados são coletados ou organizados em uma tabela
existe grande dificuldade em observar ou detectar quais são as suas principais
características.
• A estatística descritiva subdivide-se em três importantes seções: 1) os métodos
de apresentação gráfica dos dados e os métodos; 2) métodos de apresentação
tabular de dados e 3) os métodos de construção de indicadores estatísticos.
– Typeset by FoilTEX – 2
• No primeiro grupo são tratados os distintos tipos de gráficos. Entre eles
temos os gráficos gerais, tais como gráficos de barras, gráficos de setor, etc
e os gráficos mais propriamente voltados para a análise estatística tais como
histograma, diagrama Box-Plot, diagrama de dispersão.
• No segundo grupo são tratadas as formas tabulares de apresentação de dados,
indicando os principais tipos de frequencia.
• No terceiro grupo são propostos diversos indicadores de posição, de dispersão
e de forma das distribuições estatísticas.
Iremos tratar incialmente deste último grupo. Os principais indicadores de
posição são a média, a mediana e a moda da distribuição. A média amostral é
indicada pelo símbolo x.
– Typeset by FoilTEX – 3
A fórmula matemática para indicar o cálculo de uma média amostral é:
x¯ =
∑
xi
n
(1)
Muitas vezes os dados podem ser apresentados na forma agrupada, tal como:
intervalo frequência (fi)
1-50 20
50-100 30
100-150 40
150-200 50
200-250 35
250-300 25
A partir destes dados podemos calcular a média da seguinte forma:
– Typeset by FoilTEX – 4
intervalo frequência (fi) ponto médio da classe (mi) fi ×mi
1-50 20 25 500
50-100 30 75 2250
100-150 40 125 5000
150-200 50 175 8750
200-250 35 225 7875
250-300 25 275 6875
soma 200 31250
Neste caso, para o caso do cálculo da média da amostra, vamos aplicar a
seguinte expressão:
x =
∑
fipmi
n
(2)
– Typeset by FoilTEX – 5
x =
∑
fipmi
n
=
20 × 25 + 30 × 75 + 40 ××125 + 50 × 175 + 35 × 225 + 25 × 275
200
= 156, 25
Outro indicador importante da estatística descritiva. Neste caso iremos
distinguir entre dois tipos de variância: a variância calculada a partir de uma
amostra e a variância calculada a partir de uma população. As expressões
matemáticas que representam estas duas variâncias são respectivamente:
s2 =
∑
(xi − x¯)2
n− 1 (3)
σ2 =
∑
(xi − µ)2
N
(4)
– Typeset by FoilTEX – 6
Fórmula para o cálculo da variância amostral.
Fórmula para o cálculo da variância populacional.
Os valores dos desvio-padrões são iguais a raiz quadrada dos valores das
respectivas variâncias. Por exemplo, se tivermos uma sequencia de valores para
uma variável correspondente a uma amostra, digamos:
3, 10, 15, 17, 15, 5, 10, 12
xi (xi − x)2
3 (3− 10.875)2 = 62.015625
10 (10− 10.875)2 = .765625
15 (15− 10.875)2 = 17.015625
17 (17− 10.875)2 = 37.515625
15 (15− 10.875)2 = 17.015625
5 (5− 10.875)2 = 34.515625
10 (10− 10.875)2 = .765625
12 (12− 10.875)2 = 1.265625
soma 170.875
– Typeset by FoilTEX – 7
Como estamos supondo que os dados da primeira coluna da tabela acima
referem-se a uma amostra, então utilizaremos a expressão (3):
s2 =
∑
(Xi−X¯)2
n−1 =
170.875
8−1 = 24.4107
s =
√
24.4107 = 4.94072
Fazemos uma demostração deste cálculo através do Stata. Em um primeiro
passo, utilizamos o comando summarize para calcular a média da variável. Observe
que através deste comando já obtemos o valor do desvio padrão amostral que é
4,94072. Depois pedimos através do comando generate para calcular uma variável
igual aos valores dos desvios da primeira variável em relação a média elevados ao
quadrado. Em terceiro lugar, através do comando tabstat, calculamos a soma
destes desvios e o resultado é 170.875 (que é a soma dos quadrados dos desvios).
Finalmente, através do comando display pedimos para o Stata mostrar o resultado
da raiz quadrada da divisão desta soma de desvios ao quadrado pelo valor de n-1.
– Typeset by FoilTEX – 8
. summ var1
variable obs mean Std.dev. min max
var1 8 10.875 4.94072 3 17
. gen var2 = (var1 - r(mean))^2
. tabstat var2, s(sum)
variable sum
var2 170.875
. disp sqrt(170.875/(8-1))
4.94072
O cálculo da variância quando temos os dados apresentados na forma agrupada
em classes de frequencias segue um procedimento semelhante ao adotado para
– Typeset by FoilTEX – 9
a média quando os dados estão neste formato. Vamos usar o mesmo exemplo
anterior para o cálculo da média:
intervalo frequência (fi) ponto médio da classe (pmi) fi(pmi − x¯)2
1-50 20 25 20.(25-34,72)2
50-100 30 75 30.(75-34,72)2
100-150 40 125 40.(125-34,72)2
150-200 50 175 50.(175-34,72)2
200-250 35 225 35.(225-34,72)2
250-300 25 275 25.(275-34,72)2
soma =4071096
s2 =
∑
(xi−x¯)2
n−1 =
4071096
199 = 20457.768
Existem também métodos que podem ser empregados para calcular valores
da mediana, quartis, decis e percentis. A mediana é uma medida de posição
– Typeset by FoilTEX – 10
que indica o valor da variável correpondente a um valor de frequencia relativa
acumulada igual a 0.50 (ou 50%). Em outras palavras, a mediana é o valor da
variável que supera 50% dos valores desta variável quando são ordenados do manor
para o maior (ordem crescente). Vejamos um exemplo - a seguinte sequencia de
números já ordenada:
3,4,4,4,7,10,17,17,23,2425,31,33
Como temos um número ímpar (13) de observações, o valor da mediana é
igual ao valor do elemento central na sequencia, ou seja, o sétimo elemento. Por
tanto a mediana é igual a 17.
Se a sequencia incluir mais um elemento:
3,4,4,4,7,10,17,17,23,24,25,31,33,50
A mediana é igual a semi-soma dos dois elementos centrais da sequencia.
– Typeset by FoilTEX – 11
Neste caso a mediana é também igual a 17. Pode-se perceber que a mediana
tem uma caracteristica curiosa que a média não possui: o valor da mediana não é
afetado pelos valores extremos de uma distribuição. Por exemplo, se trocarmos,
na sequência anterior, o valor 50 por 1000, a mediana continuará a ser 17. No
entanto, o valor da média ficará bastante alterado.
O cálculo da mediana para dados agrupados segue uma idéia distinta do
cálculo da média para dados agrupados. Suponhamos o mesmo exemplo do
quadro anterior:
– Typeset by FoilTEX – 12
intervalo frequencia (fi) frequencia acumulada (Fi) frequencia relativa acumulada
1-50 20 20 0,100
50-100 30 50 0,250
100-150 40 90 0,450
150-200 45 135 0,675
200-250 40 175 0.875
250-300 25 200 1.000
Vamos introduzir uma expressão para a determinação aproximada da mediana
para os dados acima:
X.5 = Linf +
(n/2− Fa)
fi,.5
× a (5)
onde:
– Typeset by FoilTEX – 13
X.5 é o valor da mediana, Linf é o limite inferior da classe de frequência
que contem a mediana, Fa é a frequência acumulada da classe que contém a
mediana, n é o tamanho da amostra, f i,.5 é a frequencia absoluta da classe que
contem a mediana e a é a amplitude do intervalo de frequência que contém a
mediana. No caso do exemplo anterior:
X.5 = 150 +
100−90
45 × 50 = 161.111
Os valores dos quartis, decis e percentis podem ser determinados através de
um cálculo semelhente utilizando a mesma idéia.
Vamos agora desenvolver algumas expressões referentes ao cálculo da variância
e do desvio padrão. A expressão para o cálculo da variância de uma população
pode ser manipulada da seguinte forma:
σ2 =
∑
(Xi−µ)2
N =
∑
(X2i−2Xiµ+µ2
N =
∑
X2i−
∑
2Xiµ+
∑
X¯2
N =
– Typeset by FoilTEX – 14
∑
X2i−2 ¯µ
∑
Xi+Nµ2
N =
∑
X2i−2µ×Nµ+Nµ2
N =
∑
X2i−Nµ2
N =
∑
X2i
N − µ2
σ2 =
∑
X2i
N
− µ2(6)
Na sequencia de dados de um exemplo anterior - 3, 10, 15, 17, 15, 5, 10, 12,
podemos calcular a variância de duas formas, de acordo com a tabela abaixo:
– Typeset by FoilTEX – 15
Xi X2i (Xi − µ) (Xi − µ)2
3 9 -7,785 62.015625
10 100 -0,875 0.765625
15 225 4,125 17.015625
17 289 6,125 37.515625
15 225 4,125 17.015625
5 25 -5,875 34.515625
10 100 -0,875 0.765625
12 144 1,125 1.265625
soma 1117 0 170.875
A média µé igual a 10,875. A primeira forma de calcular a variância é:
σ2 =
∑
(Xi−µ)2
N =
170,875
8 = 21.359375
A segunda forma é:
– Typeset by FoilTEX – 16
σ2 =
∑
X2i
N − µ2 = 11178 − 10, 8752 = 21.359375
As mesmas relações podem ser deduzidas para a variância amostral e para as
expressões referentes ao cálculo da variância para dados agrupados.Neste último
caso, a variância pode ser calculada de duas formas distintas. Vejamos um
exemplo anterior:
intervalo frequência(fi) ponto médio (mi) fi ×mi fi ×m2i fi × (mi − µ)2
1-50 20 25 500 12500 344531.25
50-100 30 75 2250 168750 198046.875
100-150 40 125 5000 625000 39062.5
150-200 50 175 8750 1531250 17578.125
200-250 35 225 7875 1771875 165429.6875
250-300 25 275 6875 1690625 352539.0625
soma 200 31250 6000000 1117187.5
Cálculo da média:
– Typeset by FoilTEX – 17
µ =
∑
Xi
N =
∑
fi×mi
N =
31250
200 = 156.25
Primeira forma de calcular a variância:
σ2 =
∑
fi×(mi−µ)2
N =
1117187.5
200 = 5585.9375
Segunda forma de calcular a variância:
σ2 =
∑
fi×m2i
N -µ
2 =6000000200 − 156.252 = 5585.9375
EXERCÍCIOS
Exercicio 1)Em um ensaio para o estudo da distribuição de um atributo
financeiro (X) foram examinados 200 itens de natureza contábil do balanço de
uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna
Classes representa intervalos de valores de X em reais e a coluna P representa
a freqüência relativa acumulada. Não existem observações coincidentes com os
extremos das classes.
– Typeset by FoilTEX – 18
classes P(%)
70-90 5
90-110 45
110-130 40
130-150 70
150-170 85
170-190 95
190-210 100
Assinale a opção que corresponde à estimativa da freqüência relativa de
observações de X menores ou iguais a 145.
a) 62,5% b) 70,0% c) 50,0% d) 45,0% e) 53,4%
Exercicio 2)Para a solução da próxima questão utilize o enunciado que se
segue. O atributo do tipo contínuo X, observado como um inteiro, numa amostra
– Typeset by FoilTEX – 19
de tamanho 100, obtida de uma população de 1000 indivíduos, produziu a tabela
de freqüências seguinte:
classes frequencia (f)
29,5-39,5 4
39,5-49,5 8
49,5-59,5 14
59,5-69,5 20
69,5-79,5 26
79,5-89,5 18
89,5-99,5 10
Assinale a opção que corresponde à estimativa do número de indivíduos na
população com valores do atributo X menores ou iguais a 95,5 e maiores do que
50,5.
– Typeset by FoilTEX – 20
a) 700 b) 638 c) 826 d) 995 e) 900
Exercício 3) A média e a variância do conjunto dos salários pagos por uma
empresa eram de $285.000 e 1,1627x1010, respectivamente. O valor da variância
do conjunto dos salários após o corte de três zeros na moeda é:
a) 1,1627x107 b) 1,1627x106 c) 1,1627x105 d) 1,1627x104
Exercício 4) Em certa empresa, o salário médio era de $90.000,00 e o desvio
padrão dos salários era de $10.000,00. Todos os salários receberam um aumento
de 10%. O desvio padrão dos salários passou a ser de:
a) 10.000, b) 10.100, c) 10.500, d)10.900, e) 11.000
Exercício 5) Os dados seguintes, ordenados do menor para o maior, foram
obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa
de valores internacional. A unidade monetária é o dólar americano. 4, 5, 5, 6, 6,
– Typeset by FoilTEX – 21
6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10,
10, 10, 10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Os valores
seguintes foram calculados para a amostra:∑
Xi = 490 e∑
X2i − (
∑
Xi)
2/50 = 668
Assinale a opção que corresponde à mediana e à variância amostral, respecti-
vamente (com aproximação de uma casa decimal).
a) (9,0 13,6) b) (9,5 14,0) c) (8,0 15,0) d) (8,0 13,6) e) (9,0 14,0)
Exercício 6) Numa amostra de tamanho 20 de uma população de contas a
receber, representadas genericamente por X, foram determinadas a média amostral
M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale
a opção que dá o coeficiente de variação amostral de X.
– Typeset by FoilTEX – 22
a) 3,0 % b) 9,3% c) 17,0% d)17,3% e) 10,0%
Exercício 7) Um atributo W tem media amostral a6=0 e desvio padrao positivo
b6=1. Considere a transformacao Z=(W-a)/b. Assinale a opcao correta.
a) A media amostral de Z coincide com a de W. b) O coeficiente de variacao
amostral de Z e unitario. c) O coeficiente de variacao amostral de Z nao esta
definido. d) A media de Z e a/b. e) O coeficiente de variacao amostral de W e o
de Z coincidem.
Exercício 8) Os dados seguintes, ordenados do menor para o maior, foram
obtidos de uma amostra aleatória, de 50 preços (Xi) de ações, tomada numa bolsa
de valores internacional. A unidade monetária é o dólar americano.4, 5, 5, 6, 6, 6,
6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10,
10, 10, 11, 11, 12, 12, 13, 13,14, 15, 15, 15, 16, 16, 18, 23 Pode-se afirmar que:
a) a distribuição amostral dos preços tem assimetria negativa. b) a distribuição
– Typeset by FoilTEX – 23
amostral dos preços tem assimetria positiva. c) a distribuição amostral dos preços
é simétrica. d) a distribuição amostral dos preços indica a existência de duas
sub-populações com assimetria negativa. e) nada se pode afirmar quanto à
simetria da distribuição amostral dos preços.
Exercício 9) Assinale a opção correta.
a) Para qualquer distribuição amostral, se a soma dos desvios das obser-
vações relativamente à média for negativa, a distribuição amostral terá assimetria
negativa.
b) O coeficiente de variação é uma medida que depende da unidade em que
as observações amostrais são medidas.
c) O coeficiente de variação do atributo obtido pela subtração da média de
cada observação e posterior divisão pelo desvio padrão não está definido.
– Typeset by FoilTEX – 24
d) Para qualquer distribuição amostral pode-se afirmar com certeza que 95%
das observações amostrais estarão compreendidas entre a média menos dois
desvios padrões e a média mais dois desvios padrões.
e) As distribuições amostrais mesocúrticas em geral apresentam cauda pesada
e curtose excessiva.
Exercício 10) Os montantes de venda a um grupo de clientes de um supermer-
cado forneceram os seguintes sumários: média aritmética=$1,20 , mediana=$0,53
e moda=$0,25. Com base nestas informações, assinale a opção correta:
a) A distribuição é assimétrica à direita.
b) A distribuição é assimétrica à esquerda.
c) A distribuição é simétrica.
– Typeset by FoilTEX – 25
d) Entre os três indicadores de posição apresentados, a média aritmética é a
melhor medida de tendência central.
e) O segundo quartil dos dados acima é dado por $0,25.
TEOREMA DE CHEBYSHEV (OU DESIGUALDADE DE CHEBYSHEV)
Enunciando de forma livre (e nem um pouco rigorosa) o enunciado poderia
ser:
“Para qualquer distribuição estatística de uma variável X(tendo esta variável
qualquer forma de distribuição, simétrica ou assimétrica) , pode-se afirmar que:
P (|X − µ| ≥ kσ) ≤ 1
k2
ou P (|X − µ| ≤ kσ) ≤ 1− 1
k2
Vamos exemplificar com o seguinte exercício resolvido:
– Typeset by FoilTEX – 26
Exercício 10) As realizações anuais Xi dos salários anuais de uma firma com
N empregados produziram as estatísticas:
µ = 1N
∑
Xi = R$14300, 00 e σ = [ 1N
∑
(Xi − X¯)2]0.5 = R1200, 00
Seja P a proporção de empregados com salários fora do intervalo {R$12.500,00
; R$16.100,00}. Assinale a opção correta:
a) P é no máximo ½
b) P é no máximo 1/1,5
c)P é no mínimo ½
d) P é no máximo 1/2,25
e) P é no máximo 1/20
– Typeset by FoilTEX – 27
Solução: Vemos que o limite inferior 12500 = 14300 - k*1200 e k =
(14300-12500)/1200=1,5
Pela desigualdade de Chebyshev acima podemos afirmar que:
P (|X − 14300| ≥ 1, 5 ∗ 1200) ≤ 1
1,52
Exercício 11) Tem-se um conjunto de N mensuracoes X1, ... , XN com media
aritmetica µ e variancia σ2, onde µ = (X1 + ... + XN )/ N e σ2 = 1N
∑
(Xi−µ)2.
Seja θ a proporcao dessas mensuracoes que diferem de µ, em valor absoluto, por
pelo menos 2σ. Assinale a opção correta.
a) Apenas com o conhecimento de µ e σ nao podemos determinarθ exata-
mente, mas sabe-se que 0,25 ≥θ.
b) O conhecimento de µe σe suficiente para determinar θexatamente, na
realidade tem-se θ= 5% para qualquer conjunto de dados X1, ... , XN .
– Typeset by FoilTEX – 28
c) O conhecimento de µe σe suficiente para determinar θ exatamente, na
realidade tem-se θ = 95% para qualquer conjunto de dados X1, ... , XN .
d) O conhecimento de µ e σ e suficiente para determinar θ exatamente, na
realidade tem-se θ = 30% para qualquer conjunto de dados X1, ... , XN .
e) O conhecimento de µ e S e suficiente para determinar θexatamente, na
realidade tem-se θ= 15% para qualquer conjunto de dados X1, ... , XN .
Exercício 12) Numa amostra de tamanho 20 de uma população de contas a
receber, representadas genericamente por X, foram determinadas a média amostral
M = 100 e o desvio-padrão S =13 da variável transformada (X-200)/5. Assinale
a opção que dá o coeficiente de variação amostral de X.
a) 3,0 %
b) 9,3%
– Typeset by FoilTEX – 29
c) 17,0%
d)17,3%
e) 10,0%
Exercício 13) Em um ensaio para o estudo da distribuição de um atributo
financeiro (X) foram examinados 200 itens de natureza contábil do balanço de
uma empresa. Esse exercício produziu a tabela de freqüências abaixo. A coluna
Classes representa intervalos de valores de X em reais e a coluna P representa
a freqüência relativa acumulada. Não existem observações coincidentes com os
extremos das classes. A próxima questão refere-se a esses ensaios.
– Typeset by FoilTEX – 30
classes P(%)
70-90 5
90-110 15
110-130 40
130-150 70
150-170 85
170-190 95
190-210 100
Considere a transformação Z=(X-140)/10. Para o atributo Z encontrou-se∑
Z2i fi = 1680 , onde fi é a freqüência simples da classe i e Zi o ponto médio
de classe transformado. Assinale a opção que dá a variância amostral do atributo
X.
a) 720,00
– Typeset by FoilTEX – 31
b) 840,20
c) 900,10
d) 1200,15
e) 560,30
Exercício 14) Um atributo W tem média amostral a 6=0 e desvio padrão positivo
b6=1. Considere a transformação Z=(W-a)/b. Assinale a opção correta.
a) A média amostral de Z coincide com a de W.
b) O coeficiente de variação amostral de Z é unitário.
c) O coeficiente de variação amostral de Z não está definido.
d) A média de Z é a/b.
– Typeset by FoilTEX – 32
e) O coeficiente de variação amostral de W e o de Z coincidem.
Exercício 15) O atributo Z=(X-2)/3 tem média amostral 20 e variância
amostral 2,56. Assinale a opção que corresponde ao coeficiente de variação
amostral de X.
a) 12,9%
b) 50,1%
c) 7,7%
d) 31,2%
e) 10,0%
Exercício 16) A média e variância de uma primeira série de 15 observações
são respectivamente: x¯1 = 30 s21 = 25, e a média e variância de uma segunda
– Typeset by FoilTEX – 33
série de 20 observações são: x¯2 = 40 s22 = 36. Qual a média e a variância do
conjunto das 35 observações?
Exercício 17) Numa série de n = 25 medições obteve-se x¯ = 56 m e s = 2
m. Depois de obtidos estes resultados descobriu-se que tinha sido cometido um
engano numa das medições, que foi registada com o valor 64m. Determine a
média e o desvio padrão, admitindo que a medição incorrecta é omitida.
Exercício 18) A média e o desvio-padrão obtidos num lote de produção de 100
peças mecânicas são respectivamente, 16 Kg e 40g. Uma peça particular do lote
pesa 18Kg. Assinale a opção que dá o valor padronizado do peso dessa peça.
a) –50
b) 0,05
c) 50
– Typeset by FoilTEX – 34
d) –0,05
e) 0,02
– Typeset by FoilTEX – 35