Buscar

Estatística - Aula 01 Conceitos Iniciais

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística – ferramentas para coleta e análise de dados
Parte 1: Descrição e Apresentação de dados
� Variáveis
� População e Amostra
� Distribuições de freqüência: Tabelas e gráficos
� Medidas resumo de um conjunto de dados
Medidas de posição: média, mediana, moda, quantis
Medidas de variação: variância, desvio padrão, 
coeficiente de variação 
� Outros gráficos: gráficos de linha, boxplot
� Associação entre variáveis: diagrama de dispersão, correlação
Informações sobre estado civil, escolaridade, número de filhos,salários 
(em salários mínimos), idade (anos) e região de origem dos empregados 
de uma empresa.
Número do
Indivíduo
Estado 
Civil
Escolaridade Número 
de Filhos
Salário 
(em SM)
Idade 
(anos)
Região 
origem
1 solteiro 1º grau * 4,00 26 Interior
2 casado 1o. grau 1 4,56 32 capital
3 casado 1o. grau 2 5,25 36 capital
4 solteiro 2o. grau * 5,73 20 outro
5 solteiro 1o. grau * 6,26 40 outro
6 casado 1o. grau 0 6,66 28 interior
7 solteiro 1o. grau * 6,86 41 interior
8 solteiro 1o. grau * 7,39 43 capital
9 casado 2o. grau 1 7,59 34 capital
10 solteiro 2o. grau * 7,44 23 outro
11 casado 2o. grau 2 8,12 33 interior
12 solteiro 1o. grau * 8,46 27 capital
13 solteiro 2o. grau * 8,74 37 outro
14 casado 1o. grau 3 8,95 44 outro
15 casado 2o. grau 0 9,13 30 interior
Número do
Indivíduo
Estado
Civil
Escolaridade Número de 
Filhos
Salário
(em SM)
Idade
(anos)
Região
origem
16 solteiro 2o. grau * 9,35 38 outro
17 casado 2o. grau 1 9,77 31 capital
18 casado 1o. grau 2 9,80 39 outro
19 solteiro superior * 10,53 25 interior
20 solteiro 2o. grau * 10,76 37 interior
21 casado 2o. grau 1 11,06 30 outro
22 solteiro 2o. grau * 11,59 34 capital
23 solteiro 1o. grau * 12,00 41 outro
24 casado superior 0 12,79 26 outro
25 casado 2o. grau 2 13,23 32 interior
26 casado 2o. grau 2 13,60 35 outro
27 solteiro 1o. grau * 13,85 46 outro
28 casado 2o. grau 0 14,69 29 interior
29 casado 2o. grau 5 14,71 40 interior
30 casado 2o. grau 2 15,99 35 capital
31 solteiro superior * 16,22 31 outro
32 casado 2o. grau 1 16,61 36 interior
33 casado superior 3 17,26 43 capital
34 solteiro superior * 18,75 33 capital
35 casado 2o. grau 2 19,40 48 capital
36 casado superior 3 23,30 42 interior
* informação faltante
Organização padrão de um conjunto de dados
Linha – indivíduos
Colunas – variáveis
Classificação das variáveis:
Quantitativas 
� Discreta – assume um conjunto enumerável de valores (número de filhos) 
� Contínuas – assume um conjunto não enumerável de valores (salário, idade)
Qualitativas
� ordinais (escolaridade)
� nominais (sexo, região de origem)
Outras classificações existem mas não serão consideradas.
Para responder perguntas sobre as variáveis precisamos conhecer como elas se 
comportam – precisamos conhecer a sua distribuição 
Como fazemos isto? A partir da observação de um conjunto de dados da 
variável de interesse
Este conjunto de dados pode ser uma população ou uma amostra
População: conjunto de indivíduos para os quais desejamos fazer inferências. 
Amostra: Sub-conjunto da população que é observado e a partir do qual 
desejamos fazer inferências para a população
Nesta primeira parte do curso, sobre descrição e apresentação de dados, não 
vamos fazer distinção entre população e amostra. 
Descrição de uma variável qualitativa
�Tabelas de Freqüências
� Diagramas de barras
�Diagrama de setores
Tabela 1: Distribuição empregados da empresa segundo grau de escolaridade
Grau de escolaridade Frequência
ni
Proporção
fi
1º grau
2º grau
3º grau
12
18
06
0,3333
0,5000
0,1667
Total 36 1,0000
Figura 1: Distribuição dos empregados 
da empresa MB segundo grau de 
instrução
0
5
10
15
20
1o. Grau 2o. Grau superior
Grau de Instrução
Fr
eq
u
ên
ci
a
Figura 2: D istr ibuiç ão dos empregados da 
empresa MB segundo grau de instruç ão
2o. Grau
50%
superior
17%
1o. Grau
33%
� Podem ser construídos com freqüências absolutas relativas
� Quando for fazer comparações entre grupos utilize sempre freqüências relativas
Descrição de Variáveis Quantitativas
� Distribuições de Freqüências
� Histogramas
Tabela 2: Distribuição dos empregados da empresa segundo 
o número de filhos
Número de 
Filhos
Frequência
ni
Proporção
fi
0
1
2
3
4
5
4
5
7
3
0
1
0,20
0,25
0,35
0,15
0,00
0,05
Total 20 1,00
543210
30
20
10
0
No. Filhos
Pe
rc
en
t
Figura 3: Histograma para o número de filhos
histograma para número de filhos
número de filhos
fre
qu
ên
ci
a
0 1 2 3 4 5
0
1
2
3
4
5
6
7
Tabela 3: Distribuição dos empregados da empresa segundo o salário
Salário Frequência (ni) Proporção(fi)
04|----08
08|----12
12|----16
16|----20
20|----24
10
12
8
5
1
0,2778
0,3333
0,2222
0,1389
0,0278
Total 36 1,00
2420161284
30
20
10
0
Salario
Pe
rc
en
t
Figura 5: Histograma para o salário dos empregados
Histograma de densidade
Densidade = freqüência relativa / largura do intervalo
Deve ser utilizado sempre as classes do histograma tem larguras diferentes
Salário Frequência (ni) Proporção(fi) Densidade
04|----08
08|----12
12|----16
16|----20
20|----24
10
12
8
5
1
0,2778
0,3333
0,2222
0,1389
0,0278
0,0695
0,0833 
0,0556
0,0347
0,0069
Total 36 1,00 0,25
2420161284
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
Salario
De
ns
ity
Figura 4: Histograma para o salário dos empregados
2420161284
30
20
10
0
Salario
Pe
rc
en
t
Figura 5: Histograma para o salário dos empregados
Tabela 4: Distribuição dos empregados da empresa segundo o salário
Salário Frequência
ni
Proporção
fi
Densidade
04|----08
08|----12
12|----16
16|----24
10
12
8
6
0,2778
0,3333
0,2222
0,1667
0,06945
0,08336
0,05555
0,04167
Total 36 1,00 0,25
24161284
30
20
10
0
Salario
Pe
rc
en
t
Figura 6: Histograma para o salário dos empregados
24161284
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
Salario
De
ns
ity
Figura 7: Histograma para o salário dos empregados
No histograma as freqüências 
dos intervalos são representadas 
pelas áreas dos retângulos. Então 
as áreas dever ser iguais às 
freqüências ou devem guardar a 
mesma proporcionalidade com as 
freqüências, isto é
area = k f(x).
No primeiro grafico isto não 
acontece. Observe que no último 
intervalo a área = 8 f(x), diferente 
dos outros onde a área = 4 f(x). 
Portanto este gráfico não está
correto.
O segundo gráfico está correto. 
No eixo vertical colocamos a 
densidade (freqüência/largura do 
intervalo). Deste modo a área de 
cada retângulo é exatamente igual 
à freqüência do intervalo.
Freqüências Acumuladas
Tabela 5: Frequências absolutas e relativas, simples e acumuladas, 
dos empregados da empresa segundo o salário
----------1,0036Total
0,2778
0,6111
0,8333
0,9722
1,0000
10
22
30
35
36
0,2778
0,3333
0,2222
0,1389
0,0278
10
12
8
5
1
04|----08
08|----12
12|----16
16|----20
20|----24
Proporção
Acumulada (Fi)
Frequência
Acumulada (Ni)
Proporção (fi)Frequência (ni)Salário
F ig u r a 8 : G r á f ic o d e P r o p o r ç õ e s 
A c u m u la d a s p a r a S a lá r io s
0
0 ,5
1
0 4 8 1 2 1 6 2 0 2 4
S a lá r io s
Pr
op
or
ção
 
ac
um
ula
da
Salário Mediano
Diagrama de ramo e folhas
Útil para reapresentar a distribuição de freqüência para pequenos conjuntos de dados
Diagrama de ramo e Folhas para IDADE
2 |034
2 |56789
3 |0011223344
3 |55667789
4 |00112334
4 |68
Diagrama de Ramo e Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 959|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30
Medidas Resumo de um Conjunto de Dados para 
variáveis quantitativas
Medidas de Centro: média, mediana e moda
Média Aritmética Simples
n
x
x
n
i
i∑
=
=
1
xi é o valor observado da variável de interesse para o indivíduo i,
n é o tamanho da amostra.
Lê-se x barra
Quando o conjunto de dados consiste da população é usual usar a 
notação 
N
x
N
1i
i∑
=
=µ onde N é o tamanho da população.
65,1
20
)53332222222111110000(
x =
+++++++++++++++++++
=
k
5
1k
kfx)20
1
x5()
20
3
x3()
20
7
x2()
20
5
x1()
20
4
x0( ∑
=
=++++=
Exemplo: Número de filhos
k xk – No. de filhos frequência - fk
0| 0000 1 0 4/20
0| 11111 2 1 5/20
0| 2222222 3 2 7/20
0| 333 4 3 3/20
0| 5 4 0/20
0| 5 6 5 1/20
Esta forma de calcular a média será muito útil quando 
estudarmos as distribuições de probabilidade
Diagrama de Ramo e Folhas para Salário
4|00 56
5|25 73
6|26 66 86
7|39 44 59
8|12 46 74 95
9|13 35 77 88
10|53 76
11|06 59
12|00 79
13|23 60 85
14|69 71
15|99
16|22 61
17|26
18|75
19|40
20|
21|
22|
23|30 12,11=x
Como calcular aproximadamente a média a partir 
da tabela de freqüências? 
1,667
3,333
3,111
2,500
0,612
0,2778
0,3333
0,2222
0,1389
0,0278
6
10
14
18
22
04|----08
08|----12
12|----16
16|----20
20|----24
Proporção
(fk)
11,222
sk x fkPonto Médio 
(sk)
Salário
22,11fsx k
K
1k
k =≈ ∑
=
Mediana – valor que divide o conjunto de dados ao meio
Pelo menos 50% dos valores são menores ou iguais a mediana
Pelo menos 50% dos valores são maiores ou iguais a mediana
Como calcular a mediana?
Número de filhos 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 
n = 20 20 x 0,50 = 10
pelo menos 10 observações menores ou iguais a mediana
pelo menos 10 observações maiores ou iguais a mediana
0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5
Mediana =(1+2)/2 = 1,5 (média das 2 observações centrais)
Caso de n ímpar
n = 21 21 x 0,50 = 10,5
pelo menos 10,5 (11) observações menores ou iguais a mediana 
pelo menos 10,5 (11) observações maiores ou iguais a mediana
0 0 0 0 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 5 5
Mediana = 2 (observação central)
1) Para o cálculo da mediana é necessário que as observações estejam ordenadas
2) A média é mais sensível a ocorrência de valores extremos
Exemplo: salários (em reais) de 10 pessoas:
200 200 250 260 285 300 320 330 350 3000 Mediana = 292,5 
Excluindo a observação 3000 da amostra Mediana = 285
5,549=x
22,277=x
Moda de uma distribuição – valor que ocorre com maior freqüência
Número de filhos 
0| 0000
0| 11111
0| 2222222 Moda = 2
0| 333
0|
0| 1
Distribuição Unimodal Distribuição Bimodal
Pouco utilizada como medida descritiva
Histogram of x
x
Fr
e
qu
e
nc
y
0 100 200 300 400 500
0
50
10
0
15
0
20
0
25
0
Histogram of x
x
Fr
eq
u
en
cy
50 100 150
0
50
0
10
00
15
00
20
00
Distribuição simétrica Distribuições Assimétricas
Media = mediana = moda Média > mediana Média < mediana
Histogram of x
x
Fr
eq
u
en
cy
200 300 400 500 600
0
50
10
0
15
0
20
0
25
0
30
0
Medidas de Variação
Desvio Padrão Amostral : mede a distância média das observações em torno
da média amostral. 
Considere as idades de 10 pessoas
Se todas têm a mesma idade não existe variação nos dados
Quanto mais diferentes as pessoas forem quanto à idade maior é a 
variação entre elas.
Como medir a variação entre os indivíduos?
1
)(
1
2
−
−
=
∑
=
n
xx
s
n
i
i
)( xx − 2)( xx −
28,40196SOMA
0,36(19 –19,6) = -0,61910
2,56(18 –19,6) = -1,6189
0,36(19 –19,6) = -0,6198
0,16(20 –19,6) = 0,4207
1,96(21 –19,6) = 1,4216
11,56(23 –19,6) = 3,4235
6,76(17 –19,6) = -2,6174
1,96(21 –19,6) = 1,4213
0,16(20 –19,6) = 0,4202
2,56(18 –19,6) = -1,6181
x - Idade (anos)Indivíduo
anos 6,19x = anos 78,116,3
110
4,28
s ==
−
=
s2 = 3,16 anos2 é chamado de variância amostral.
Quando o nosso conjunto de dados consiste de uma população utilizamos 
outra notação para o desvio padrão e a variância
N
)x(
N
1i
2
i∑
=
µ−
=σ
N
)x(
N
1i
2
i
2
∑
=
µ−
=σ
Para interpretar o desvio padrão
� Quanto maior o desvio padrão, maior é a variação das observações em torno da 
média.
� Para qualquer conjunto de dados temos pelo menos 75% dos dados dentro do 
intervalo (Média – 2 DP, Média + 2 DP) e pelo menos 89% dos dados dentro do 
Intervalo (Média – 3 DP, Média + 3 DP).
� Para distribuições simétricas em forma de sino (distribuições normais)
O intervalo (Média – 1 DP, Média + 1 DP) contém 68,3% dos dados
O intervalo (Média – 2 DP, Média + 2 DP) contém 95,4% dos dados
O intervalo (Média – 3 DP, Média + 3 DP) contém 99,7% dos dados
Escores padronizados
Mede a distância de um indivíduo em relação à média em desvios padrão
Considere as notas de dois alunos na disciplina de Estatística, ambos com nota 25, 
mas oriundos de turmas diferentes. Qual deles teve melhor desempenho em relação 
ao grupo
3
5
Desvio Padrão
1,6720B
120A
zMédiaTurma
s
xxZ )( −=
O escore padronizado indica a posição do individuo dentro do grupo. 
Coeficiente de variação
É uma medida de variação que independe da unidade de medida
x
sCV =
Diz o quanto o desvio padrão representa em relação à média. È usualmente 
expresso como porcentagem. 
Um pesquisador, desejando estudar a qualidade de vida nos 120 
bairros de uma cidade, mediu quatro variáveis em cada um.
10
100
100
1100
Maximo
50%010284Número de praças públicas
19,74%6040157076Porcentagem de casas
com saneamento básico
10%604088080Porcentagem de casas
com energia elétrica
28,57%1001000200350700Renda domiciliar per 
capita (em reais)
CVMinimoAmplitudeD.P.MedianaMédiaVariáveis
Com relação à qual variável os bairros são mais homogêneos?
E mais heterogêneos?

Outros materiais