Buscar

Estatística - Cap 3 - Análise exploratória de dados

Prévia do material em texto

BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Estatística para Cursos de Estatística para Cursos de 
Engenharia e InformáticaEngenharia e Informática
Cap. 3 Cap. 3 –– Análise exploratória de Análise exploratória de 
dadosdados
Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia
São Paulo: Atlas, 2004
APOIO:
Fundação de Apoio à Pesquisa Científica e Tecnológica do Estado de Santa Catarina 
(FAPESC)
Departamento de Informática e Estatística – UFSC (INE/CTC/UFSC)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveisDados e variáveis
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveisDados e variáveis
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Dados e variáveisDados e variáveis
variável
qualitativa ou 
categórica
quantitativa
dados qualitativos 
ou categorizados
dados quantitativos
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüênciasDistribuição de freqüências
• A distribuição de freqüências consiste na 
organização dos dados de acordo com as 
ocorrências dos diferentes resultados observados.
• Pode ser apresentada em tabela ou gráfico.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
DadosDados
Provedor usado por cada usuárioProvedor usado por cada usuário
A
A
B
C
B
D
B
B
B
C
31
32
33
34
35
36
37
38
39
40
B
A
A
B
A
A
B
D
D
C
21
22
23
24
25
26
27
28
29
30
C
A
B
D
A
B
B
C
D
B
11
12
13
14
15
16
17
18
19
20
C
A
B
B
C
B
D
B
B
A
1
2
3
4
5
6
7
8
9
10
provedorindivíduoprovedorindivíduoprovedorindivíduoprovedorindivíduo
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas
100,040Total 
15,06D
17,57C
42,517B
25,010A
PercentagemFreqüênciaProvedor
Tabela. Distribuição de freqüências do 
provedor usado pelo visitante do site. 
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Gráfico de colunas para a apresentação da distribuição 
de freqüências do provedor usado pelo visitante do site. 
0%
10%
20%
30%
40%
50%
A B C D
provedor
Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis qualitativasDistribuição de freqüências para variáveis qualitativas
Gráfico de setores para a apresentação da distribuição 
de freqüências do provedor usado pelo visitante do site. 
25%
42%
18%
15%
A
B
C
D
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Distribuição de freqüências para variáveis Distribuição de freqüências para variáveis 
quantitativas discretasquantitativas discretas
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6 7
Número de defeitos
% de itens
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Variáveis contínuasVariáveis contínuas
Construção da distribuição de freqüênciasConstrução da distribuição de freqüências
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1
5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2
8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7
8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6
5,7 6,2 4,9 5,1 6,0 4,7 14,1 5,3
4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9
6,5 5,9 
amplitude dos dados
11 classes de amplitude unitária
4 5 6 7 8 9 10 11 12 13 14 15
4,7 14,1
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Tabela de freqüências: variável contínuaTabela de freqüências: variável contínua
-10050-Total 
14
50
76
84
94
98
98
98
98
98
100
14
36
26
8
10
4
0
0
0
0
2
7
18
13
4
5
2
0
0
0
0
1
4,5
5,5
6,5
7,5
8,5
9,5
10,5
11,5
12,5
13,5
14,5
4 |— 5
5 |— 6
6 |— 7
7 |— 8
8 |— 9
9 |— 10
10 |— 11
11 |— 12
12 |— 13
13 |— 14
14 |— 15
Percentagem 
acumulada
100Fj
Percentagem de 
observações
100fj
Número de 
observações
nj
Ponto
médio
Classes de
tempo 
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
HistogramaHistograma
tempo (em segundos) para carga de um aplicativo
n
ú
m
e
r
o
 
d
e
 
o
b
s
e
r
v
a
ç
õ
e
s
0
2
4
6
8
10
12
14
16
18
20
3 4 5 6 7 8 9 10 11 12 13 14 15
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes em termos da posição 
central 
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes quanto à dispersão 
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes quanto à assimetria 
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Formas de uma distribuição de freqüênciasFormas de uma distribuição de freqüências
• Distribuições diferentes quanto à curtose 
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas descritivasMedidas descritivas
• A média aritmética: uma medida de posição 
central.
∑
=
=+++= n
i
i
n x
nn
xxx
x
1
21 1...
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemplo
36,0 31,3 36,6
32,5 39,2 35,9
37,0 34,4 29,8
33,9 43,2 35,5
40,2 33,6 33,4
35,2 38,1 33,0
80
34,8 36,8 37,4
38,9 38,7 42,5
35,7 40,4 41,7
36,9 34,5 40,0
36,6 35,7 35,3
35,1 30,2 37,2
70
32,9 32,7 34,8
34,9 33,8 34,9
31,0 30,6 32,8
31,9 31,2 31,2
29,7 28,7 30,2
31,3 31,2 31,7
60
302520Temperatura (0C)
Tempo (minutos)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemplo
35,335,635,680
38,238,235,070
34,031,430,560
302520tura (0C)
Tempo (minutos)Tempera-
Médias aritméticas do rendimento, para diferentes níveis de
temperatura e tempo de reação, num processo químico. 
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemplo
Rendimento médio em função 
do tempo e temperatura
 60 graus
 70 graus
 80 graus20 25 30
Tempo (minutos)
29
30
31
32
33
34
35
36
37
38
39
R
e
n
d
i
m
e
n
t
o
 
(
%
)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Exemplo: notas dos alunos de três turmasExemplo: notas dos alunos de três turmas
6,00
6,00
6,00
4 5 5 6 6 7 7 8
1 2 4 6 6 9 10 10
0 6 7 7 7 7,5 7,5
A
B
C
Média da turmaNotas dos alunosTurma
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenhariae Informática. Atlas, 2004
Exemplo: notas dos alunos de três turmasExemplo: notas dos alunos de três turmas
0 2 4 6 8 10 12
notas
Turma A
Turma B
Turma C
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?Como medir a dispersão?
Exemplo: Turma A (4 5 5 6 6 7 7 8)
4 5 6 7 8
distância (desvio) em relação à média
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?Como medir a dispersão?
xxi −
4 1 1 0 0 1 1 4Desvios quadráticos
-2 -1 -1 0 0 1 1 2Desvios em relação à média
6Média
4 5 5 6 6 7 7 8xiValores (notas dos alunos)
resultados numéricosnotaçãoDescrição
( )2xxi −
x
( )∑
=
−−=
n
i
i xxn
s
1
22
1
1Variância (da amostra):
1,71
18
411001142 =−
+++++++=s
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Como medir a dispersão?Como medir a dispersão?
xxi −
4 1 1 0 0 1 1 4Desvios quadráticos
-2 -1 -1 0 0 1 1 2Desvios em relação à média
6Média
4 5 5 6 6 7 7 8xiValores (notas dos alunos)
resultados numéricosnotaçãoDescrição
( )2xxi −
x
Desvio padrão (da amostra): ( )∑
=
−−=
n
i
i xxn
s
1
2
1
1
31,11,71
18
41100114 ==−
+++++++=s
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas descritivas das notas finais dos Medidas descritivas das notas finais dos 
alunos de três turmas. alunos de três turmas. 
1,31
3,51
2,69
6,00
6,00
6,00
8
8
7
A
B
C
Desvio
padrão
MédiaNúmero de
alunos
Turma
Interprete.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Ex:Ex: Rendimento de um processo químicoRendimento de um processo químico
Desvio padrão do rendimento em
 função do tempo e temperatura
 60 graus
 70 graus
80 graus20 25 30
Tempo
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
D
e
s
v
i
o
 
p
a
d
r
ã
o
 
d
o
 
r
e
n
d
i
m
e
n
t
o
Rendimento médio em função 
do tempo e temperatura
 60 graus
 70 graus
80 graus20 25 30
Tempo (minutos)
29
30
31
32
33
34
35
36
37
38
39
R
e
n
d
i
m
e
n
t
o
 
(
%
)
Interprete.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Outra forma de calcular o desvio padrãoOutra forma de calcular o desvio padrão
⎟⎟⎠
⎞⎜⎜⎝
⎛ −−= ∑=
2
1
2
1
1 xnx
n
s
n
i
i
Valores xi : 4 5 5 6 6 7 7 8
48
1
=∑
=
n
i
ix 6=x
Valores ao quadrado xi2 : 16 25 25 36 36 49 49 64
300
1
2 =∑
=
n
i
ix
1,31 = 
7
12 = 
7
288 300 = 
7
)8.(6 300 = 
2 −−s
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas baseadas na ordenação dos dadosMedidas baseadas na ordenação dos dados
25%
25%
25%
25%
Quartil
inferior mediana Quartil
superior
qi md qs
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Medidas baseadas na ordenação dos dadosMedidas baseadas na ordenação dos dados
4
1:deposição +nqi
2
1:deposição +nmd
4
)1(3:deposição +nqs
Dados ordenados:
25%
25%25%
25%
qi md qs
Se fracionário Î interpolação linear
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
ExemploExemplo
Observações: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12. 
Ordenando:
3 5 5 6 7 8 9 11 12 15 18
n = 11
3
4
1: deposição =+nqi
6
2
1: de posição =+nmd
5=iq
8=dm
9
4
)1(3:deposição =+nqs 12=sq
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Comparação entre média e medianaComparação entre média e mediana
• A média é mais influenciada por valores 
discrepantes.
0 10 20 30 40 50 60 70
md = 22,5
50% dos valores 50% dos valores
7,24=x
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Comparação entre média e medianaComparação entre média e mediana
50%50%
média = mediana
(a) distribuição
simétrica
50%
50%
mediana média
(b) distribuição
assimétrica
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Diagrama em caixasDiagrama em caixas
qs + 1,5dq
qi
md
qs
max
min
dq = qs - qi
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Diagrama em caixas e forma da distribuiçãoDiagrama em caixas e forma da distribuição
25%
25%
25%
25%
25% 25%
25%
25%
y
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Interprete o gráficoInterprete o gráfico
3
8
13
18
23
28
Monte
Verde
Encosta
do Morro
Renda
familiar
(sal. mín.)
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempoObservações ao longo do tempo
• EXEMPLO: todos os dias é retirada uma amostra 
de dez sacos de leite de um laticínio, durante 23 
dias.
• Quer-se acompanhar o nível e a variabilidade do 
peso.
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempoObservações ao longo do tempo
Gráfico das médias amostrais
amostra 
p
e
s
o
 
(
g
)
1029,8
1033,0
1036,2
1029
1030
1031
1032
1033
1034
1035
1036
1037
1 5 10 15 20
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Observações ao longo do tempoObservações ao longo do tempo
Gráfico dos desvios padrão amostrais
amostra 
p
e
s
o
 
(
g
)
0,92
3,30
5,68
0
1
2
3
4
5
6
7
1 5 10 15 20
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Orientação geral para análise exploratória de Orientação geral para análise exploratória de 
dados não temporaisdados não temporais
Análise 
univariada
Variável 
qualitativa
Variável 
quantitativa
Distribuição de 
freqüências
Percentagens
Tabela
Gráfico de 
barras, colunas 
ou setores
Distribuição de 
freqüências
Medidas descritivas (média, 
desvio padrão, mediana, etc.)
Histograma
Ramo-e-folhas
BARBETTA, REIS e BORNIA – Estatística para Cursos de Engenharia e Informática. Atlas, 2004
Orientação geral para análise exploratória de Orientação geral para análise exploratória de 
dados não temporaisdados não temporais
Análise 
biivariada
Uma variável quantitativa 
e outra qualitativa
Duas variáveis 
qualitativas
Duas variáveis 
quantitativas
Medidas descritivas da 
variável quantitativa em cada 
categoria da qualitativa
Diagrama em caixas múltiplo
Tabela de contingência (Cap. 10)
Diagrama de dispersão (Cap. 11)
Coeficiente de correlação (Cap. 11)

Continue navegando