MT803_Aula2_Preparacao_Dados
20 pág.

MT803_Aula2_Preparacao_Dados


DisciplinaIntrodução à Probabilidade e A Estatística II215 materiais1.662 seguidores
Pré-visualização4 páginas
Métodos Usados na
Preparação de Dados
Stanley Robson de M. Oliveira
Limpeza
Integração e 
Transformação de Dados
2MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffdPor que pré-processar os dados?
\ufffdSumarização de dados descritivos.
\ufffd Limpeza dos dados.
\ufffd Integração e transformação de dados.
Índice
3MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd No mundo real, geralmente os dados são (têm):
\ufffd Incompletos: ausência de valores de atributos, 
ausência de atributos de interesse, ou dados com 
valores agregados.
\ufffd Ruídos: existências de erros ou outliers.
\ufffd Inconsistentes: informações desatualizadas ou 
oriundas de erros no momento de introdução dos 
dados.
Por que pré-processar os dados?
4MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Por que pré-processar os dados? \u2026
\ufffd Sem qualidade de dados, não há qualidade nos 
resultados da mineração de dados!
\ufffd Decisões com qualidade são baseadas em 
dados com qualidade.
\ufffd Data Warehouse precisa de integração 
consistente de qualidade de dados.
5MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Limpeza dos dados
\ufffd Preencher valores faltantes;
\ufffd Reduzir ruídos nos dados;
\ufffd Identificar e remover outliers;
\ufffd Eliminar inconsistências.
\ufffd Integração de dados
\ufffd Integração de múltiplos repositórios;
\ufffd Cubos de dados;
\ufffd Arquivos.
Principais tarefas no pré-processamento
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Principais tarefas no pré-processamento
\ufffd Transformação de dados
\ufffd Normalização;
\ufffd Agregação.
\ufffd Redução de dados
\ufffd Obtenção da representação reduzida em volume, 
mas que produza resultados analíticos similares.
\ufffd Discretização de dados
\ufffd Uma forma de redução de dados, mas com interesse 
particular, especialmente para dados numéricos.
7MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Formas de pré-processamento de dados
1, 3, 5, 7, 9 0.00, 0.25, 0.50, 0.75, 1.00
\u2022 Limpeza dos dados
\u2022 Integração dos dados
\u2022 Transformação dos dados
\u2022 Redução dos dados
[0, 1]
A1 A2 A3 A4 A5 . . . A125
A1 A2 A3 A4. . . A681
2
3
.
.
.
10800
1
2
.
.
.
5425
8MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffdPor que pré-processar os dados?
\ufffdSumarização de dados descritivos.
\ufffd Limpeza dos dados.
\ufffd Integração e transformação de dados.
Índice
9MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Motivação:
\ufffd Melhor entendimento sobre os dados: tendência central, variação
e distribuição.
\ufffd Medidas de posição e de dispersão dos dados:
\ufffd média, max, min, quartils, outliers, variância, etc.
\ufffd Dimensões numéricas: relação c/ intervalos ordenados.
\ufffd Dispersão de dados: analisada em múltiplas granularidades.
\ufffd Análise de Boxplot ou quartil em intervalos ordenados.
\ufffd Medidas de Assimetria: (simetria e assimetria)
\ufffd Indicador da forma da distribuição dos dados.
Características descritivas de dados
10MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Medidas de Posição (tendência central)
\ufffd Média aritmética simples:
\ufffd Média aritmética ponderada:
\ufffd Moda (Mo):
\ufffd É o valor mais frequente em um conjunto de valores numéricos. 
\ufffd Mediana (Md):
\ufffd Dado um grupo de dados ordenados, a mediana separa a metade 
inferior da amostra da metade superior. 
\u2211
=
=
n
i
ix
n
x
1
1
\u2211
\u2211
=
==
n
i
i
n
i
ii
w
xw
x
1
1
N
x\u2211
=µ
\u3a7\u3a7
11MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Exemplos
\ufffd Para o seguinte conjunto: {1, 3, 5, 7, 9}
\ufffd A média é 5; 
\ufffd A mediana é 5.
\ufffd No entanto, para o conjunto: {1, 2, 7, 7, 13}
\ufffd A mediana é 7, enquanto a média é 6;
\ufffd A moda é 7.
\ufffd Qual seria a mediana para o conjunto: {1, 2, 4, 
10, 12, 13}?
Mediana = (4 + 10)/2 = 7.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Separatrizes
\ufffd Não são medidas de tendência central. 
\ufffd As separatrizes estão ligadas à mediana relativamente à
sua característica de separar a série em duas partes 
que apresentam o mesmo número de valores.
\ufffd As separatrizes são:
\ufffd Quartil: divide um conjunto de dados em quatro partes 
iguais.
\ufffd Decil: divide um conjunto de dados em dez partes iguais.
\ufffd Percentil: divide um conjunto de dados em cem partes 
iguais.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Exemplo de Separatrizes
\ufffd Quartil: Os quartis dividem o conjunto de dados em 
quatro partes iguais:
\ufffd Se (Md - Q1) = (Q3 - Md) => distribuição simétrica.
\ufffd Se (Md - Q1) < (Q3 - Md) => assimetria à direita ou 
positiva;
\ufffd Se (Md - Q1) > (Q3 - Md) => assimetria à esquerda ou 
negativa.
14MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Mediana, média e moda de 
dados com distribuição simétrica
e assimétrica.
Mean
Median
Mode 
Distribuição Simétrica e Assimétrica
15MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Medindo a dispersão dos dados
\ufffd Quartils, outliers e boxplots
\ufffd Quartils: Q1 (25
o percentil), Q3 (75
o percentil).
\ufffd Amplitude interquartílica (Inter-quartile range): 
IQR = Q3 \u2013Q1 (50% dos dados).
\ufffd Sumário dos cinco números : min, Q1, Mediana, Q3, max.
\ufffd Boxplot: uma linha central mostrando a mediana, uma 
linha inferior mostrando o primeiro quartil, uma linha 
superior mostrando o terceiro quartil. 
\ufffd Outliers: Limite Inferior = Q1 \u2013 1.5 x IQR; 
Limite Superior = Q3 + 1.5 x IQR.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Medindo a dispersão dos dados ...
\ufffd Variância e desvio padrão (amostra: s, população: \u3c3)
\ufffd Variância:
\ufffd Desvio padrão s (ou \u3c3) é a raiz quadrada da variância 
s2 (ou \u3c32)
\u2211 \u2211\u2211
= ==
\u2212
\u2212
=\u2212
\u2212
=
n
i
n
i
ii
n
i
i x
n
x
n
xx
n
s
1 1
22
1
22 ])(
1
[
1
1
)(
1
1
\u2211\u2211
==
\u2212=\u2212=
n
i
i
n
i
i x
N
x
N 1
22
1
22 1)(
1
µµ\u3c3
17MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Análise de Boxplot
\ufffd Boxplot:
\ufffd O p-ésimo percentil tem no mínimo p% dos valores abaixo daquele 
ponto e no mínimo (100 - p)% dos valores acima. 
\ufffd Se uma altura de 1,80m é o 90o. percentil de uma turma de 
estudantes, então 90% da turma tem alturas menores que 1,80m e 
10% têm altura superior a 1,80m. 
outlier
10th percentile
25th percentile
75th percentile
50th percentile
90th percentile
\ufffd Um percentil é uma medida da 
posição relativa de uma unidade 
observacional em relação a todas as 
outras. 
18MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Exemplo de BoxPlots
\ufffd Boxplots podem ser usados para comparar a dispersão dos 
valores de atributos.
19MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
95%
\u22123 \u22122 \u22121 0 +1 +2 +3
\ufffd A distribuição normal com média \u3bc\u3bc\u3bc\u3bc e desvio padrão \u3c3\u3c3\u3c3\u3c3:
\ufffd No intervalo de \u3bc\u2013\u3c3 até \u3bc+\u3c3: contém 68% das observações;
\ufffd No intervalo de \u3bc\u20132\u3c3 até \u3bc+2\u3c3: contém 95% das observações;
\ufffd No intervalo de \u3bc\u20133\u3c3 até \u3bc+3\u3c3: contém 99.7% das observações.
68%
\u22123 \u22122 \u22121 0 +1 +2 +3
99.7%
\u22123 \u22122 \u22121 0 +1 +2 +3
Propriedades da distribuição normal
20MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Análise de Histogramas
\ufffd Gráfico que mostra a estatística básica da descrição de classes.
\ufffd Histograma de Freqüências
\ufffd Mostra a distribuição dos valores de uma variável;
\ufffd Consiste em um conjunto de retângulos, em que cada retângulo representa a 
freqüência de uma das classes presentes nos dados.
(a) Amplitudes iguais (b) Amplitude desiguais
Idade dos alunos da disciplina Inferência Estatística do curso de
Estatística da UEM, 21/03/2005.
21MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Coeficiente de correlação (também conhecido como coeficiente de
Pearson):
Onde n é o número de observações, e são as médias das variáveis 
A e B, \u3c3A e \u3c3B são os devios-padrão de A e B.
\ufffd Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior 
for o valor rA,B, maior será a correlação entres as variáveis A e B).
\ufffd rA,B = 0: A e B são independentes ou não possuem relacionamento; 
\ufffd rA,B < 0: A e B são negativamente correlacionadas.
BABA n
BAnAB
n
BBAA
r BA
\u3c3\u3c3\u3c3\u3c3 )1(
)(
)1(
))((
,
\u2212
\u2212
=
\u2212
\u2212\u2212
=
\u2211\u2211
A B
Análise de correlação
22MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Exemplos de diagramas de dispersão
Relacionamento negativo 
moderado
Cerca de 
-0,7
Relacionamento negativo perfeito
-1,0
Relacionamento positivo 
moderado