Buscar

5-Análise exploratória

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise Exploratória de Dados
� Resumo de cinco números
� Box-plot (gráfico de caixa)
1
Análise exploratória de dadosAnálise exploratória de dados
� A média aritméticamédia aritmética e o desvio padrãodesvio padrão são medidas muito 
utilizadas.
� Porém, essas medidas descrevem de formadescrevem de forma ótimaótima distribuições � Porém, essas medidas descrevem de formadescrevem de forma ótimaótima distribuições 
de frequências simétricassimétricas.
� Numa distribuição assimétricaassimétrica seus valores são bastante 
afetados pelos valores discrepantes (não são medidas resistentes).
1970 1970 →→→→→→→→ John John TukeyTukey propôs técnicas que 
contornavam esses problemas. O conjunto 
dessas técnicas recebeu a denominação de 
2
dessas técnicas recebeu a denominação de 
Análise Exploratória de Dados.Análise Exploratória de Dados.
John Wilder TukeyJohn Wilder Tukey
(1915 (1915 -- 2000)2000)
Principais técnicas exploratórias:Principais técnicas exploratórias:
�������� Resumo de cinco númerosResumo de cinco números
�������� BoxBox--plotplot
Resumo de cinco númerosResumo de cinco números
�������� mediana (MdMd)
�������� primeiro (QQ ) e terceiro (QQ ) quartis
Descreve o conjunto de dados através de cinco valores:
�������� primeiro (QQ11) e terceiro (QQ33) quartis
�������� extremos inferior (EIEI) e superior (ESES)
MdMdQQ11 QQ33EIEI ESES
3
25% 25% 25% 25%
O resumo de cinco números fornece uma ideia da simetria O resumo de cinco números fornece uma ideia da simetria 
(formato) da distribuição porque o percentual de valores (formato) da distribuição porque o percentual de valores 
dentro de cada intervalo é conhecido (25%).dentro de cada intervalo é conhecido (25%).
A diferença entre o primeiro quartilprimeiro quartil e extremo inferiorextremo inferior é 
aproximadamente igual à diferença entre o extremo superiorextremo superior e 
A distribuição é considerada simétricasimétrica se:
SimetriaSimetria
1.1.
aproximadamente igual à diferença entre o extremo superiorextremo superior e 
o terceiro quartilterceiro quartil ((QQ11 –– EI EI ≅≅ ES ES –– QQ33))
MdMdQQ11 QQ33EIEI ESES
4
A diferença entre a medianamediana e o primeiro quartilprimeiro quartil é 
aproximadamente igual à diferença entre o terceiro quartilterceiro quartil e a 
medianamediana ((Md Md –– QQ11 ≅≅ QQ3 3 –– MdMd))
2.2.
Condições para a simetria Condições para a simetria Q1 Q1 –– EI EI ≅≅ ES ES –– Q3Q3
Md Md –– Q1 Q1 ≅≅ Q3 Q3 –– MdMd
Distribuição UniformeDistribuição Uniforme
MdQ1 Q3
50%
5
MdMdQQ11 QQ33EIEI ESES
Condições para a simetria Condições para a simetria Q1 Q1 –– EI EI ≅≅ ES ES –– Q3Q3
Md Md –– Q1 Q1 ≅≅ Q3 Q3 –– MdMd
Curva da BanheiraCurva da Banheira
(Distribuição (Distribuição WeibullWeibull))
MdQ1 Q3
50%
6
MdMdQQ11 QQ33EIEI ESES
Condições para a simetria Condições para a simetria Q1 Q1 –– EI EI ≅≅ ES ES –– Q3Q3
Md Md –– Q1 Q1 ≅≅ Q3 Q3 –– MdMd
Distribuição NormalDistribuição NormalDistribuição NormalDistribuição Normal
MdQ1 Q3
50%
7
MdMdQQ11 QQ33EIEI ESES
Casos assimétricosCasos assimétricos
Assimetria Negativa
aq
Assimetria Positiva
8
aq
Exercício proposto: Os dados abaixo se referem aos pesos
ao nascer (em kg) de 61 bovinos machos da raça Ibagé.
Encontre o resumo de cinco números e classifique quanto à
simetria da distribuição.
16 17 17 18 18 18 19 20 20 20 20 20 21 21 2216 17 17 18 18 18 19 20 20 20 20 20 21 21 22
22 23 23 23 23 23 23 23 23 23 25 25 25 25 25
25 26 26 27 27 27 27 28 28 28 29 29 29 30 30
30 30 30 30 30 31 32 33 33 33 34 34 35 36 39 45
15,5
4
161
4
1np1 =
+
=
+
=
( ) ( ) 46,5
4
163
4
1n3p3 =
+
=
+
=
1( ) ( ) 31
4
1612
4
1n2p2 =
+
=
+
=
9
Resumo de cinco númerosResumo de cinco números
Assimétrica Assimétrica positivapositiva
MdMdQQ11 QQ33EIEI ESES
16 22 25 30 45
O critério usado para identificar valores discrepantes num 
conjunto de dados é baseado em duas medidas:
Identificação de valores discrepantes Identificação de valores discrepantes 
(atípicos)(atípicos)
conjunto de dados é baseado em duas medidas:
CercaCerca inferiorinferior →→→→→→→→ CICI == QQ11 –– 11,,55aaqq
CercaCerca superiorsuperior →→→→→→→→ CSCS == QQ33 ++ 11,,55aaqq
10
MdMdQQ11 QQ33CICI CSCS
aq
1,5aq 1,5aq
Discrepante Discrepante 
inferiorinferior
Discrepante Discrepante 
superiorsuperior
No exemplo referente aos pesos ao nascer de bovinos, 
serão considerados discrepantes os valores que estiverem 
fora dos limites da cerca superior e da cerca inferior:
16 17 17 18 18 18 19 20 20 20 20 20 21 21 22
CI = QCI = Q11 –– 1,5 1,5 aaqq = 22 = 22 –– 1,5 1,5 ×××× 8 = 108 = 10
CS = QCS = Q + 1,5 + 1,5 aa = 30 + 1,5 = 30 + 1,5 ×××× 8 = 428 = 42
16 22 25 30 aaqq=8=8
QQ11 QQ33
16 17 17 18 18 18 19 20 20 20 20 20 21 21 22
22 23 23 23 23 23 23 23 23 23 25 25 25 25 25
25 26 26 27 27 27 27 28 28 28 29 29 29 30 30
30 30 30 30 30 31 32 33 33 33 34 34 35 36 39 45
11
CS = QCS = Q33 + 1,5 + 1,5 aaqq = 30 + 1,5 = 30 + 1,5 ×××× 8 = 428 = 42
Verificamos que o valor 4545 ultrapassa a cerca superior, 
portanto, é classificado como discrepante superiordiscrepante superior. 
Eventualmente, esses valores podem ser oriundos de 
O que fazer quando identificamos valores O que fazer quando identificamos valores 
discrepantes?discrepantes?
Investigar a sua origem.
�������� Eventualmente, esses valores podem ser oriundos de 
erroserros na aferição ou no registro dos dados.
Entretanto, valores discrepantes podem, de fato, fazer 
parte do conjunto de dados, reforçando a característica 
assimétrica da distribuição.
Distribuições com caudas longas têm uma tendência 
maior de produzir valores discrepantes.
��������
��������
��������
12
maior de produzir valores discrepantes.
Uma inspeção cuidadosa nos dados e nas eventuais causas Uma inspeção cuidadosa nos dados e nas eventuais causas 
da ocorrência de valores discrepantes é sempre uma da ocorrência de valores discrepantes é sempre uma 
providência necessária antes que qualquer atitude seja tomada providência necessária antes que qualquer atitude seja tomada 
em relação a esses dados.em relação a esses dados.
BoxBox--plotplot
A informação dada pelo resumo de cinco números 
pode ser apresentada na forma de um boxbox--plotplot que 
agrega uma série de informações sobre a 
�� pposiçãoosição
�� ddispersãoispersão
�� aassimetriassimetria
agrega uma série de informações sobre a 
distribuição:
13
�� aassimetriassimetria
�� caudascaudas
�� dadosdados discrepantesdiscrepantes
Discrepante superiorDiscrepante superior
40 -
45 -
**
Maior valor não discrepante do conjuntoMaior valor não discrepante do conjunto
Terceiro quartilTerceiro quartil
MedianaMediana
Primeiro quartilPrimeiro quartil25 -
30 -
35 -
14
Discrepante inferiorDiscrepante inferior15 -
20 -
**
Menor valor não discrepante do conjuntoMenor valor não discrepante do conjunto
40 -
45 -
**
A posição centralposição central dos valores é dada 
pela medianamediana e a dispersãodispersão pela 
amplitude interquartílicaamplitude interquartílica.
��������
��������
25 -
30 -
35 - As posições relativas da medianamediana e 
dos quartisquartis e o formato dos bigodesformato dos bigodes
dão uma noção da simetriasimetria e do 
tamanho das caudastamanho das caudas da distribuição.
��������
Assimetria positiva Assimetria negativaSimetria
15
15 -
20 -
**
Assimetria positiva Assimetria negativaSimetria
40 -
45 -
40 -
45 -
**
40 -
45 -
**
**
Exemplos:Exemplos:
25 -
30 -
35 -
25 -
30 -
35 -
25 -
30 -
35 -
**
16
Assimétrica positivaAssimétrica positivaAssimétricanegativaAssimétrica negativa SimétricaSimétrica
15 -
20 -
15 -
20 -
15 -
20 -
Consideremos o conjunto de dados referentes ao peso ao
nascer (kg) de bovinos machos da raça Ibagé:
16 17 17 18 18 18 19 20 20 20 20
20 21 21 22 22 23 23 23 23 23 23
23 23 23 25 25 25 25 25 25 26 26
45 -
**
23 23 23 25 25 25 25 25 25 26 26
27 27 27 27 28 28 28 29 29 29 30
30 30 30 30 30 30 31 32 33 33 33
34 34 35 36 39 45
30 -
35 -
40 -
MdMdQQ11 QQ33EIEI ESES
16 22 25 30 45
17
15 -
20 -
25 -
CI = Q1 CI = Q1 –– 1,5 1,5 aaqq = 22 = 22 –– 1,5 1,5 ×××× 8 = 108 = 10
CS = Q3 + 1,5 CS = Q3 + 1,5 aaqq = 30 + 1,5 = 30 + 1,5 ×××× 8 = 428 = 42
Verificamos que o valor 4545 ultrapassa a cerca superior, 
portanto, é classificado como discrepante superiordiscrepante superior. 
Os dados abaixo se referem aos valores gastos (em reais) pelas 
primeiras 50 pessoas que entraram em um determinado 
Supermercado, no dia 01/03/2013.
Exercício: Fazer o resumo de cinco números e o box-plot.
9,26 10,81 3,11 85,76 70,32 82,70 18,43 19,54 23,04 24,47 
26,24 26,26 24,58 28,38 28,06 28,08 25,13 27,65 32,03 36,37 
19,27 19,50 18,36 52,75 61,22 86,37 93,34 22,22 20,16 20,59 
54,80 59,07 50,39 45,40 44,08 44,67 38,64 42,97 46,69 48,65 
39,16 41,02 38,98 15,62 13,78 15,23 8,88 12,69 17,00 17,39 
 
18
3,11 8,88 9,26 10,81 12,69 13,78 15,23 15,62 17,00 17,39 
18,36 18,43 19,27 19,50 19,54 20,16 20,59 22,22 23,04 24,47 
24,58 25,13 26,24 26,26 27,65 28,06 28,08 28,38 32,03 36,37 
38,98 38,64 39,16 41,02 42,97 44,08 44,67 45,40 46,69 48,65 
50,39 52,75 54,80 59,07 61,22 70,32 82,70 85,76 86,37 93,34 
 
 
Solução:
p(Q1) = 13
p(Q2) = 25,5
p(Q3) = 38
100
80
60
40
4849
50
Os valores 85,76 ; 86,37 
e 93,34 são considerados 
discrepantes
19
50N =
VAR1
20
0
-20
Assimetria positiva

Outros materiais