Buscar

Estatística Descritiva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística – ferramentas para coleta e análise de dados
Parte 1: Descrição e Apresentação de dados
� Variáveis
� População e Amostra
� Distribuições de freqüência: Tabelas e gráficos
� Medidas resumo de um conjunto de dados
Medidas de posição: média, mediana, moda, quantis
Medidas de variação: variância, desvio padrão, 
coeficiente de variação 
� Outros gráficos: gráficos de linha, boxplot
Informações sobre estado civil, escolaridade, número de filhos,salários 
(em salários mínimos), idade (anos) e região de origem dos empregados 
de uma empresa.
Número do
Indivíduo
Estado 
Civil
Escolaridade Número 
de Filhos
Salário 
(em SM)
Idade 
(anos)
Região 
origem
1 solteiro 1º grau * 4,00 26 Interior
2 casado 1o. grau 1 4,56 32 capital
3 casado 1o. grau 2 5,25 36 capital
4 solteiro 2o. grau * 5,73 20 outro
5 solteiro 1o. grau * 6,26 40 outro
6 casado 1o. grau 0 6,66 28 interior
7 solteiro 1o. grau * 6,86 41 interior
8 solteiro 1o. grau * 7,39 43 capital
9 casado 2o. grau 1 7,59 34 capital
10 solteiro 2o. grau * 7,44 23 outro
11 casado 2o. grau 2 8,12 33 interior
12 solteiro 1o. grau * 8,46 27 capital
13 solteiro 2o. grau * 8,74 37 outro
14 casado 1o. grau 3 8,95 44 outro
15 casado 2o. grau 0 9,13 30 interior
Número do
Indivíduo
Estado
Civil
Escolaridade Número de 
Filhos
Salário
(em SM)
Idade
(anos)
Região
origem
16 solteiro 2o. grau * 9,35 38 outro
17 casado 2o. grau 1 9,77 31 capital
18 casado 1o. grau 2 9,80 39 outro
19 solteiro superior * 10,53 25 interior
20 solteiro 2o. grau * 10,76 37 interior
21 casado 2o. grau 1 11,06 30 outro
22 solteiro 2o. grau * 11,59 34 capital
23 solteiro 1o. grau * 12,00 41 outro
24 casado superior 0 12,79 26 outro
25 casado 2o. grau 2 13,23 32 interior
26 casado 2o. grau 2 13,60 35 outro
27 solteiro 1o. grau * 13,85 46 outro
28 casado 2o. grau 0 14,69 29 interior
29 casado 2o. grau 5 14,71 40 interior
30 casado 2o. grau 2 15,99 35 capital
31 solteiro superior * 16,22 31 outro
32 casado 2o. grau 1 16,61 36 interior
33 casado superior 3 17,26 43 capital
34 solteiro superior * 18,75 33 capital
35 casado 2o. grau 2 19,40 48 capital
36 casado superior 3 23,30 42 interior
* informação faltante
Organização padrão de um conjunto de dados
Linha – indivíduos
Colunas – variáveis
Classificação das variáveis:
Quantitativas 
� Discreta – assume um conjunto enumerável de valores (número de filhos) 
� Contínuas – assume um conjunto não enumerável de valores (salário, idade)
Qualitativas
� ordinais (escolaridade)
� nominais (sexo, região de origem)
Outras classificações existem mas não serão consideradas.
Para responder perguntas sobre as variáveis precisamos conhecer como elas se 
comportam – precisamos conhecer a sua distribuição 
Como fazemos isto? A partir da observação de um conjunto de dados da 
variável de interesse
Este conjunto de dados pode ser uma população ou uma amostra
População: conjunto de indivíduos para os quais desejamos fazer inferências. 
Amostra: Sub-conjunto da população que é observado e a partir do qual 
desejamos fazer inferências para a população
Nesta primeira parte do curso, sobre descrição e apresentação de dados, não 
vamos fazer distinção entre população e amostra. 
Descrição de uma variável qualitativa
�Tabelas de Freqüências
� Diagramas de barras
�Diagrama de setores (ou diagrama de pizza)
Tabela 1: Distribuição empregados da empresa segundo grau de escolaridade
Grau de escolaridade Frequência
ni
Proporção
fi
1º grau
2º grau
3º grau
12
18
06
0,3333
0,5000
0,1667
Total 36 1,0000
Figura 1: Distribuição dos empregados 
da empresa MB segundo grau de 
instrução
0
5
10
15
20
1o. Grau 2o. Grau superior
Grau de Instrução
F
r
e
q
u
ê
n
c
i
a
Figura 2: D istr ibuiç ão dos empregados da 
empresa MB segundo grau de instrução
2o. Grau
50%
superior
17%
1o. Grau
33%
� Podem ser construídos com freqüências absolutas relativas
�Diagrama de setores não é recomendado para variáveis ordinais 
� Quando for fazer comparações entre grupos utilize sempre freqüências relativas
Tabela 2: Distribuição dos empregados da empresa segundo o salário
Salário Frequência (ni) Proporção(fi)
04|----08
08|----12
12|----16
16|----20
20|----24
10
12
8
5
1
0,2778
0,3333
0,2222
0,1389
0,0278
Total 36 1,00
Descrição de Variáveis Quantitativas
� Tabelas de frequência
� Histogramas
2420161284
30
20
10
0
Salario
P
e
r
c
e
n
t
Figura 5: Histograma para o salário dos empregados
Histograma de densidade
Densidade = freqüência relativa / largura do intervalo
Deve ser utilizado sempre as classes do histograma tem larguras 
diferentes
Salário Frequência (ni) Proporção(fi) Densidade
04|----08
08|----12
12|----16
16|----20
20|----24
10
12
8
5
1
0,2778
0,3333
0,2222
0,1389
0,0278
0,0695
0,0833 
0,0556
0,0347
0,0069
Total 36 1,00 0,25
2420161284
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
Salario
D
e
n
s
i
t
y
Figura 4: Histograma para o salário dos empregados
2420161284
30
20
10
0
Salario
P
e
r
c
e
n
t
Figura 5: Histograma para o salário dos empregados
Tabela 4: Distribuição dos empregados da empresa segundo o salário
Salário Frequência
ni
Proporção
fi
Densidade
04|----08
08|----12
12|----16
16|----24
10
12
8
6
0,2778
0,3333
0,2222
0,1667
0,06945
0,08336
0,05555
0,04167
Total 36 1,00 0,25
�Ultima classe tem tamanho diferente das demais
24161284
30
20
10
0
Salario
P
e
r
c
e
n
t
Figura 6: Histograma para o salário dos empregados
24161284
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
Salario
D
e
n
s
i
t
y
Figura 7: Histograma para o salário dos empregados
No histograma, as freqüências 
dos intervalos são representadas 
pelas áreas dos retângulos. Então 
as áreas dever ser iguais às 
freqüências ou devem guardar a 
mesma proporcionalidade com as 
freqüências, isto é
area = k f(x).
No primeiro grafico isto não 
acontece. Observe que no último 
intervalo a área = 8 f(x), diferente 
dos outros onde a área = 4 f(x). 
Portanto este gráfico não está
correto.
O segundo gráfico está correto. 
No eixo vertical colocamos a 
densidade (freqüência/largura do 
intervalo). Deste modo a área de 
cada retângulo é exatamente igual 
à freqüência do intervalo.
Descrição de Variáveis Quantitativas Discretas 
Tabela 2: Distribuição dos empregados 
da empresa segundo o número de filhos
Número de 
Filhos
Frequência
ni
Proporção
fi
0
1
2
3
4
5
4
5
7
3
0
1
0,20
0,25
0,35
0,15
0,00
0,05
Total 20 1,00
histograma para número de filhos
número de filhos
f
r
e
q
u
ê
n
c
i
a
0 1 2 3 4 5
0
1
2
3
4
5
6
7
Freqüências Acumuladas
Tabela 5: Frequências absolutas e relativas, simples e acumuladas, 
dos empregados da empresa segundo o salário
----------1,0036Total
0,2778
0,6111
0,8333
0,9722
1,0000
10
22
30
35
36
0,2778
0,3333
0,2222
0,1389
0,0278
10
12
8
5
1
04|----08
08|----12
12|----16
16|----20
20|----24
Proporção
Acumulada (Fi)
Frequência
Acumulada (Ni)
Proporção (fi)Frequência (ni)Salário
F ig u r a 8 : G r á f ic o d e P r o p o r ç õ e s 
A c u m u la d a s p a r a S a lá r io s
0
0 ,5
1
0 4 8 1 2 1 6 2 0 2 4
S a lá r io s
P
r
o
p
o
r
ç
ã
o
 
a
c
u
m
u
l
a
d
a
Salário Mediano
Diagrama de ramo e folhas
Útil para reapresentar a distribuiçãode freqüência para pequenos conjuntos de dados
Diagrama de ramo e Folhas para IDADE
2 |034
2 |56789
3 |0011223344
3 |55667789
4 |00112334
4 |68
Diagrama de Ramo e Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 95
9|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30
Medidas Resumo de um Conjunto de Dados para 
variáveis quantitativas
Medidas de Centro: média, mediana e moda
Média Aritmética Simples
n
x
x
n
i
i∑
=
=
1
xi é o valor observado da variável de interesse para o indivíduo i,
n é o tamanho da amostra.
Lê-se x barra
Quando o conjunto de dados consiste da população é usual usar a 
notação 
N
x
N
1i
i∑
=
=µ onde N é o tamanho da população.
65,1
20
)53332222222111110000(
x =
+++++++++++++++++++
=
k
5
1k
kfx)20
1
x5()
20
3
x3()
20
7
x2()
20
5
x1()
20
4
x0( ∑
=
=++++=
Exemplo: Número de filhos
k xk – No. de filhos frequência - fk
0| 0000 1 0 4/20
0| 11111 2 1 5/20
0| 2222222 3 2 7/20
0| 333 4 3 3/20
0| 5 4 0/20
0| 5 6 5 1/20
Esta forma de calcular a média será muito útil quando 
estudarmos as distribuições de probabilidade
Diagrama de Ramo e Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 95
9|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30 12,11=x
Como calcular aproximadamente a média a partir 
da tabela de freqüências? 
1,667
3,333
3,111
2,500
0,612
0,2778
0,3333
0,2222
0,1389
0,0278
6
10
14
18
22
04|----08
08|----12
12|----16
16|----20
20|----24
Proporção
(fk)
11,222
sk x fkPonto Médio 
(sk)
Salário
22,11fsx k
K
1k
k =≈∑
=
Mediana – valor que divide o conjunto de dados ao meio
Pelo menos 50% dos valores são menores ou iguais a mediana
Pelo menos 50% dos valores são maiores ou iguais a mediana
Como calcular a mediana?
Número de filhos 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 
n = 20 20 x 0,50 = 10
pelo menos 10 observações menores ou iguais a mediana
pelo menos 10 observações maiores ou iguais a mediana
0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5
Mediana =(1+2)/2 = 1,5 (média das 2 observações centrais)
Caso de n ímpar
n = 21 21 x 0,50 = 10,5
pelo menos 10,5 (11) observações menores ou iguais a mediana 
pelo menos 10,5 (11) observações maiores ou iguais a mediana
0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5 5
Mediana = 2 (observação central)
1) Para o cálculo da mediana é necessário que as observações estejam ordenadas
2) A média é mais sensível a ocorrência de valores extremos
Exemplo: salários (em reais) de 10 pessoas:
200 200 250 260 285 300 320 330 350 3000 Mediana = 292,5 
Excluindo a observação 3000 da amostra Mediana = 285
5,549=x
22,277=x
Moda de uma distribuição – valor que ocorre com maior freqüência
Número de filhos 
0| 0000
0| 11111
0| 2222222 Moda = 2
0| 333
0|
0| 1
Distribuição Unimodal Distribuição Bimodal
Pouco utilizada como medida descritiva
Histogram of x
x
F
r
e
q
u
e
n
c
y
0 100 200 300 400 500
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
Histogram of x
x
F
r
e
q
u
e
n
c
y
50 100 150
0
5
0
0
1
0
0
0
1
5
0
0
2
0
0
0
Distribuição simétrica Distribuições Assimétricas
Media = mediana = moda Média > mediana Média < mediana
Histogram of x
x
F
r
e
q
u
e
n
c
y
200 300 400 500 600
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
Medidas de Variação
Desvio Padrão Amostral : mede a distância média das observações em torno
da média amostral. 
Considere as idades de 10 pessoas
Se todas têm a mesma idade não existe variação nos dados
Quanto mais diferentes as pessoas forem quanto à idade maior é a 
variação entre elas.
Como medir a variação entre os indivíduos?
1
)(
1
2
−
−
=
∑
=
n
xx
s
n
i
i
)( xx − 2)( xx −
28,40196SOMA
0,36(19 –19,6) = -0,61910
2,56(18 –19,6) = -1,6189
0,36(19 –19,6) = -0,6198
0,16(20 –19,6) = 0,4207
1,96(21 –19,6) = 1,4216
11,56(23 –19,6) = 3,4235
6,76(17 –19,6) = -2,6174
1,96(21 –19,6) = 1,4213
0,16(20 –19,6) = 0,4202
2,56(18 –19,6) = -1,6181
x - Idade (anos)Indivíduo
anos 6,19x = anos 78,116,3
110
4,28
s ==
−
=
s2 = 3,16 anos2 é chamado de variância amostral.
Quando o nosso conjunto de dados consiste de uma população utilizamos 
outra notação para o desvio padrão e a variância
N
)x(
N
1i
2
i∑
=
µ−
=σ
N
)x(
N
1i
2
i
2
∑
=
µ−
=σ
Para interpretar o desvio padrão
� Quanto maior o desvio padrão, maior é a variação das observações em torno da 
média.
� Para qualquer conjunto de dados temos pelo menos 75% dos dados dentro do 
intervalo (Média – 2 DP, Média + 2 DP) e pelo menos 89% dos dados dentro do 
Intervalo (Média – 3 DP, Média + 3 DP).
� Para distribuições simétricas em forma de sino (distribuições normais)
O intervalo (Média – 1 DP, Média + 1 DP) contém 68,3% dos dados
O intervalo (Média – 2 DP, Média + 2 DP) contém 95,4% dos dados
O intervalo (Média – 3 DP, Média + 3 DP) contém 99,7% dos dados
Escores padronizados
Mede a distância de um indivíduo em relação à média em desvios padrão
Considere as notas de dois alunos na disciplina de Estatística, ambos com nota 25, 
mas oriundos de turmas diferentes. Qual deles teve melhor desempenho em relação 
ao grupo
3
5
Desvio Padrão
1,6720B
120A
zMédiaTurma
s
xxZ )( −=
O escore padronizado indica a posição do individuo dentro do grupo. 
A variável padronizada tem média zero e desvio padrão igual a 1. 
Geralmente a padronização de variáveis é feita para a construção de 
indicadores. 
Coeficiente de variação
É uma medida de variação que independe da unidade de medida
x
sCV =
Diz o quanto o desvio padrão representa em relação à média. È usualmente 
expresso como porcentagem. 
Um pesquisador, desejando estudar a qualidade de vida nos 120 
bairros de uma cidade, mediu quatro variáveis em cada um.
10
100
100
1100
Maximo
50%010284Número de praças públicas
19,74%6040157076Porcentagem de casas
com saneamento básico
10%604088080Porcentagem de casas
com energia elétrica
28,57%1001000200350700Renda domiciliar per 
capita (em reais)
CVMinimoAmplitudeD.P.MedianaMédiaVariáveis
Com relação à qual variável os bairros são mais homogêneos?
E mais heterogêneos?
Quantis
A mediana divide o conjunto de dados em duas partes de mesmo tamanho.
Para dividirmos um conjunto de dados em 4 partes precisamos de 3
números – os quartis
Para dividirmos um conjunto de dados em 10 partes precisamos de 9 
números – os decis
Para dividirmos um conjunto de dados em 100 partes precisamos de 99 
números – os percentis
De modo geral chamamos estas quantidade de quantis da distribuição de 
frequências.
q(p) – quantil de ordem p
pelo menos 100 p% dos valores são menores ou iguais a q(p)
pelo menos 100 (1-p)% dos valores são maiores ou iguais a q(p)
q(0,25), q(0,50), q(0,75) – (1º, 2º e 3º. Quartis)
q(0,10), q(0,20), q(0,30),...., q(0,90) – decis
q(0,01), q(0,02),........., q(0,99) – percentis
Como calcular um quantil?
q(0,75) = ?
36 x 0,75 = 27
36 x 0,25 = 09
pelo menos 27 observações menores ou iguais a q(0,75)
pelo menos 09 observações maiores ou iguais a q(0,75)q(0,75) = (13,85+14,69)/2 = 14,27
Se o número resultante da multiplicação de n (tamanho 
do conjunto de dados) por p (ordem do quantil) for inteiro, 
o quantil será a média da observação de ordem np com a 
observação de ordem np +1 
Diagrama de Ramo e 
Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 95
9|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30
Como calcular um quantil?
q(0,20) = ?
36 x 0,20 = 7,2
36 x 0,25 = 28,8
pelo menos 7,2 observações ≤ a q(0,75) 8
pelo menos 28,8 observações ≥ a q(0,75) 29
q(0,20) = 7,39
Se o número resultante da multiplicação de n (tamanho 
do conjunto de dados) por p (ordem do quantil) for 
fracionário, o quantil será a observação cuja ordem ígual
ao valor np arredondado para cima. 
Diagrama de Ramo e 
Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 95
9|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30
Os quartis junto com os valores mínimos e máximos podem ser usados 
para construir um gráfico esquemático da distribuição de freqüências 
chamado de diagrama de caixas ou boxplot
2422201816141210864
7
6
5
4
3
2
1
0
Salario
F
r
e
q
u
e
n
c
y
Histogram of Salario
25155
Salario
Boxplot of Salario
25155
Salario
Boxplot of Salario
Min. Q1 Q2 Q3 Max.
O tamanho da caixa é
chamado de distância 
Interquartílica (DQ) é usado 
como medida de variação. 
Observações atípicas são observações destoantes no conjunto de dados 
encontradas nos extremos da distribuição. Todas observações que encontram-
se a uma distância maior do que 1,5 DQ abaixo do primeiro quartil ou a uma 
distância maior do que 1,5 DQ acima do terceiro quartil são chamadas 
“outliers”. Observações além de 3 DQ são chamadas “outliers extremos”
A regra acima pode ser incluída na construção do boxplot. Os asteriscos 
indicam os valores identificados como “outliers”. 
Considere os salários (em SM) de 30 homens e 30 mulheres
25.022.520.017.515.012.510.07.55.02.50.0
40
30
20
10
0
SalarioF
P
e
r
c
e
n
t
Histograma de salários - sexo feminino
454035302520151050
30
20
10
0
SalárioM
P
e
r
c
e
n
t
Histograma de salários - sexo masculino
MF
40
30
20
10
0
SEXO
S
a
l
á
r
i
o
Média ponderada: Consiste numa média onde as observações possuem 
pesos diferentes.
Um pesquisador deseja medir a variação nos preços do café da manha. Para 
isto ele pretendo construir um índice. Considerando que uma cesta de café da 
manha é composta por pães, café, leite e derivados.
No último mês ele observou a seguinte variação nos preços.
1,07Leite e derivados
1,05Variação média
1,05pão
1,03café
Variação mensal nos preços
Preço atual/Preço anterior
Produto
Na média calculada acima todos os produtos tem o mesmo peso. 
As contribuições de cada um dos produtos no custo da cesta de cafés são 
diferentes. Assuma que do valor gasto com a cesta de café 10% é gasto com 
café, 40% com pães e 50% com leite e derivados.
Então ao calcular a média das variações de preço devemos dar pesos 
diferentes aos produtos, isto é calcular uma média ponderada
058,1
10,04,010,0
1,07) x (0,50 1,05) x (0,40 1,03) x 10,0(
xw =++
++
=
Para o exemplo
∑
∑
=
=
=
n
1i
i
n
1i
ii
w
w
xw
x

Outros materiais