Buscar

Análise exploratória de dados

Prévia do material em texto

Variáveis e Séries Estatísticas
• Listas De Dados
Tipos de variáveis:
■ quantitativas:
(conjunto típico de estados/valores
É um conjunto numérico)
■ qualitativas:
(conjunto típico de estados/valores
NÃO É um conjunto numérico)
Listas de dados: exemplos
�� ��19 ; 20 ; 20 ; 19 ; 21 ; 19 ; 22 ; 20 ; 20 ; 20 ; 21 ; 22 ; 19
�� ��0,12 ; 0,15 ; 0,10 ; 0,10 ; 0,20 ; 0,13 ; 0,21 ; 0,18
�� ��251 ; 230 ; 272 ; 244 ; 210 ; 299 ; 268 ; 225
�� ��So ; Ca ; Se ; So ; So ; Ca ; Di ; Vi ; So ; Ca ; Vi ; Di ; Ca
Fixada uma variável...
O resultado �nal da coleta de dados: uma lista com valores
observados da variável...
O objeto primitivo da estatística clássica:
→várias �ocorrências� de uma mesma variável...→sequência de valores de uma mesma variável coletadas em
uma determinada população (ou amostra)
...a lista de dados�
�
�

Partindo de uma lista de dados, há procedimentos
padronizados de como processá-la...
A seguir, focamos no tratamento de dados quantitativos...
O objeto primitivo da estatística básica...
...a lista de dados�� ��x1 ; x2 ; . . . ; xn
em geral, considerar valores numéricos reais (isto é, no
conjunto R )
em geral, lista desordenada
em geral, possíveis valores repetidos na lista
Medindo a variável na população ou em uma amostra...
Fixada uma população em estudo e
�xada uma variável em estudo, duas situações:
▶Observar a variável em toda a população,
registrando a lista de valores.
(lista populacional)
▶Observar a variável somente em uma amostra da população,
registrando a lista de valores.
(lista amostral)
Sínteses grá�ca de dados
quantitivos
• Diagrama de Pontos (�dot-plot�)
• Diagrama de Caixa (�box-plot�)
2,3 ; 2,5 ; 2,7 ; 2,9 ; 3,1 ; 3,4 ; 3,6 ; 3,9 ;
4,1 ; 4,3 ; 4,5 ; 4,7 ; 4,9 ; 5,1 ; 5,3 ; 5,6 ;
5,8 ; 6,1 ; 6,3 ; 6,5 ; 6,7 ; 6,9 ; 7,1 ; 7,3 ;
7,4 ; 7,6 ; 7,8 ; 8,0 ; 8,2 ; 8,4 ; 8,6 ; 8,8 ;↖
lista de dados
diagrama de pontos associado↙
2 3 4 5 6 7 8 9
ou, alternativamente,
2 3 4 5 6 7 8 9
Exemplo: lista de dados & diagrama de pontos
123 ; 110 ; 95 ; 153 ; 106 ; 118 ; 125 ; 94 ;
140 ; 96 ; 112 ; 128 ; 98 ; 114 ; 102 ; 99 ;
137 ; 100 ; 116 ; 120 ; 130 ; 124 ; 146 ; 108 ;
127 ; 103 ; 150 ; 132 ; 93 ; 143 ; 97 ; 122 ;
90 100 110 120 130 140 150 160
Exemplo: lista de dados & diagrama de pontos
123 ; 110 ; 95 ; 153 ; 106 ; 118 ; 125 ; 94 ;
140 ; 96 ; 112 ; 128 ; 98 ; 114 ; 102 ; 99 ;
137 ; 100 ; 116 ; 120 ; 130 ; 124 ; 146 ; 108 ;
127 ; 103 ; 150 ; 132 ; 93 ; 143 ; 97 ; 122 ;
90 100 110 120 130 140 150 160
metade dos
pontos
metade dos
pontos
90 100 110 120 130 140 150 160
Mediana=117
'
&
$
%
mediana:
a �bissetriz� dos dados...
um ponto de corte na escala que �reparte dados pela metade�
(nos dois lados, quantidades iguais de pontos)
'
&
$
%
Para cada lista de dados quantitativos
podemos associar um número que representa a bissetriz dos dados.
Esse número fornece uma informação importante sobre os dados...
Uma síntese sobre os dados...
Uma medida sumária...
medida sumária:
número calculado a partir dos �dados� que revela
alguma característica geral/coletiva/global
Medidas sumárias
Medidas de Centralidade:
média
mediana
Medidas de Variabilidade
variância, desvio padrão, desvio padrão relativo
distância interquartil
continuando a dividir...
dados seccionados em quatro partes iguais
Mediana
Q1/4 Q3/4
90 100 110 120 130 140 150 160
Q1/4 Q3/4
�Distância Interquartil� = Q3/4 −Q1/4
= 129-101
= 28
'
&
$
%
A mediana:
um número
que representa/indica localização central
dos dados
'
&
$
%
A distância interquartil:
um número
que representa/quanti�ca dispersão dos
dados
Q2/4
Q1/4 Q3/4
M
í
n
i
m
o
M
á
x
i
m
o
90 100 110 120 130 140 150 160
90 100 110 120 130 140 150 160
↑
diagrama de caixas (�box-plot�)
uma síntese grá�ca dos dados
Exemplo
2,3 ; 2,5 ; 2,7 ; 2,9 ; 3,1 ; 3,4 ; 3,6 ; 3,9 ;
4,1 ; 4,3 ; 4,5 ; 4,7 ; 4,9 ; 5,1 ; 5,3 ; 5,6 ;
5,8 ; 6,1 ; 6,3 ; 6,5 ; 6,7 ; 6,9 ; 7,1 ; 7,3 ;
7,4 ; 7,6 ; 7,8 ; 8,0 ; 8,2 ; 8,4 ; 8,6 ; 8,8 ;
2 3 4 5 6 7 8 9
2 3 4 5 6 7 8 9
Box-Plot sintetizando Dot-Plot: Exemplos
uma �caixa� envolvendo os �50% pontos centrais�↓
O comprimento da caixa:
�distância interquartil�
(uma medida de dispersão)
Comparando dispersão...
Considere duas séries de dados resultantes de dois sistemas similares, mesma
variável sendo estudada, cujos diagramas estão abaixo.
Quais dados tem dispersão maior?
Exercícios
Em cada um dos box-plots abaixo,
extrair mediana e distância interquartil
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59
48,3 48,4 48,5 48,6 48,7 48,8 48,9 49,0 49,1 49,2 49,3 49,4 49,5 49,6
-19 -18 -17 -16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3
Exercícios
Em cada um dos box-plots abaixo,
extrair mediana e distância interquartil
-1,0-0,9-0,8-0,7-0,6-0,5-0,4-0,3-0,2-0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7
238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253
-0,08-0,07-0,06-0,05-0,04-0,03-0,02-0,01 0,00 0,01 0,02 0,03 0,04 0,05
�Exercício�
Considere a seguinte lista de dados
35;70;43;54;62;17;86;42;33;59;30;93;88;39;84;48;
Desenhar o box-plot dos dados...
Primeira providência: ordenar os dados. Resultando em
17;30;33;35;39;42;43;48;54;59;62;70;82;86;88;93;
É interessante desenhar o dot-plot primeiro... e deduzir cortes visualmente...
10 20 30 40 50 60 70 80 90
Q1/4 = 37 Q2/4 = 51 Q3/4 = 76
Dot-plot&Box-plot:
10 20 30 40 50 60 70 80 90
Box-plot:
10 20 30 40 50 60 70 80 90
Exercício
Considere os seguintes dados (já ordenados) e o respectivo dot-plot.
19; 22; 25; 28; 30; 38; 49; 59; 61; 72; 75; 80; 81; 83;
10 20 30 40 50 60 70 80 90
Desenhar o box-plot dos dados...
19;22;25;28;30;38;49;59;61;72;75;80;81;83;
Dot-plot&Box-plot:
10 20 30 40 50 60 70 80 90
Box-plot:
10 20 30 40 50 60 70 80 90