Buscar

MT803_Aula2_Preparacao_Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Métodos Usados na
Preparação de Dados
Stanley Robson de M. Oliveira
Limpeza
Integração e 
Transformação de Dados
2MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Por que pré-processar os dados?
�Sumarização de dados descritivos.
� Limpeza dos dados.
� Integração e transformação de dados.
Índice
3MT-803: Tópicos em Matemática Aplicada – Aula 2.
� No mundo real, geralmente os dados são (têm):
� Incompletos: ausência de valores de atributos, 
ausência de atributos de interesse, ou dados com 
valores agregados.
� Ruídos: existências de erros ou outliers.
� Inconsistentes: informações desatualizadas ou 
oriundas de erros no momento de introdução dos 
dados.
Por que pré-processar os dados?
4MT-803: Tópicos em Matemática Aplicada – Aula 2.
Por que pré-processar os dados? …
� Sem qualidade de dados, não há qualidade nos 
resultados da mineração de dados!
� Decisões com qualidade são baseadas em 
dados com qualidade.
� Data Warehouse precisa de integração 
consistente de qualidade de dados.
5MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Limpeza dos dados
� Preencher valores faltantes;
� Reduzir ruídos nos dados;
� Identificar e remover outliers;
� Eliminar inconsistências.
� Integração de dados
� Integração de múltiplos repositórios;
� Cubos de dados;
� Arquivos.
Principais tarefas no pré-processamento
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Principais tarefas no pré-processamento
� Transformação de dados
� Normalização;
� Agregação.
� Redução de dados
� Obtenção da representação reduzida em volume, 
mas que produza resultados analíticos similares.
� Discretização de dados
� Uma forma de redução de dados, mas com interesse 
particular, especialmente para dados numéricos.
7MT-803: Tópicos em Matemática Aplicada – Aula 2.
Formas de pré-processamento de dados
1, 3, 5, 7, 9 0.00, 0.25, 0.50, 0.75, 1.00
• Limpeza dos dados
• Integração dos dados
• Transformação dos dados
• Redução dos dados
[0, 1]
A1 A2 A3 A4 A5 . . . A125
A1 A2 A3 A4. . . A681
2
3
.
.
.
10800
1
2
.
.
.
5425
8MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Por que pré-processar os dados?
�Sumarização de dados descritivos.
� Limpeza dos dados.
� Integração e transformação de dados.
Índice
9MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Motivação:
� Melhor entendimento sobre os dados: tendência central, variação
e distribuição.
� Medidas de posição e de dispersão dos dados:
� média, max, min, quartils, outliers, variância, etc.
� Dimensões numéricas: relação c/ intervalos ordenados.
� Dispersão de dados: analisada em múltiplas granularidades.
� Análise de Boxplot ou quartil em intervalos ordenados.
� Medidas de Assimetria: (simetria e assimetria)
� Indicador da forma da distribuição dos dados.
Características descritivas de dados
10MT-803: Tópicos em Matemática Aplicada – Aula 2.
Medidas de Posição (tendência central)
� Média aritmética simples:
� Média aritmética ponderada:
� Moda (Mo):
� É o valor mais frequente em um conjunto de valores numéricos. 
� Mediana (Md):
� Dado um grupo de dados ordenados, a mediana separa a metade 
inferior da amostra da metade superior. 
∑
=
=
n
i
ix
n
x
1
1
∑
∑
=
==
n
i
i
n
i
ii
w
xw
x
1
1
N
x∑
=µ
ΧΧ
11MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exemplos
� Para o seguinte conjunto: {1, 3, 5, 7, 9}
� A média é 5; 
� A mediana é 5.
� No entanto, para o conjunto: {1, 2, 7, 7, 13}
� A mediana é 7, enquanto a média é 6;
� A moda é 7.
� Qual seria a mediana para o conjunto: {1, 2, 4, 
10, 12, 13}?
Mediana = (4 + 10)/2 = 7.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Separatrizes
� Não são medidas de tendência central. 
� As separatrizes estão ligadas à mediana relativamente à
sua característica de separar a série em duas partes 
que apresentam o mesmo número de valores.
� As separatrizes são:
� Quartil: divide um conjunto de dados em quatro partes 
iguais.
� Decil: divide um conjunto de dados em dez partes iguais.
� Percentil: divide um conjunto de dados em cem partes 
iguais.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exemplo de Separatrizes
� Quartil: Os quartis dividem o conjunto de dados em 
quatro partes iguais:
� Se (Md - Q1) = (Q3 - Md) => distribuição simétrica.
� Se (Md - Q1) < (Q3 - Md) => assimetria à direita ou 
positiva;
� Se (Md - Q1) > (Q3 - Md) => assimetria à esquerda ou 
negativa.
14MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Mediana, média e moda de 
dados com distribuição simétrica
e assimétrica.
Mean
Median
Mode 
Distribuição Simétrica e Assimétrica
15MT-803: Tópicos em Matemática Aplicada – Aula 2.
Medindo a dispersão dos dados
� Quartils, outliers e boxplots
� Quartils: Q1 (25
o percentil), Q3 (75
o percentil).
� Amplitude interquartílica (Inter-quartile range): 
IQR = Q3 –Q1 (50% dos dados).
� Sumário dos cinco números : min, Q1, Mediana, Q3, max.
� Boxplot: uma linha central mostrando a mediana, uma 
linha inferior mostrando o primeiro quartil, uma linha 
superior mostrando o terceiro quartil. 
� Outliers: Limite Inferior = Q1 – 1.5 x IQR; 
Limite Superior = Q3 + 1.5 x IQR.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Medindo a dispersão dos dados ...
� Variância e desvio padrão (amostra: s, população: σ)
� Variância:
� Desvio padrão s (ou σ) é a raiz quadrada da variância 
s2 (ou σ2)
∑ ∑∑
= ==
−
−
=−
−
=
n
i
n
i
ii
n
i
i x
n
x
n
xx
n
s
1 1
22
1
22 ])(
1
[
1
1
)(
1
1
∑∑
==
−=−=
n
i
i
n
i
i x
N
x
N 1
22
1
22 1)(
1
µµσ
17MT-803: Tópicos em Matemática Aplicada – Aula 2.
Análise de Boxplot
� Boxplot:
� O p-ésimo percentil tem no mínimo p% dos valores abaixo daquele 
ponto e no mínimo (100 - p)% dos valores acima. 
� Se uma altura de 1,80m é o 90o. percentil de uma turma de 
estudantes, então 90% da turma tem alturas menores que 1,80m e 
10% têm altura superior a 1,80m. 
outlier
10th percentile
25th percentile
75th percentile
50th percentile
90th percentile
� Um percentil é uma medida da 
posição relativa de uma unidade 
observacional em relação a todas as 
outras. 
18MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exemplo de BoxPlots
� Boxplots podem ser usados para comparar a dispersão dos 
valores de atributos.
19MT-803: Tópicos em Matemática Aplicada – Aula 2.
95%
−3 −2 −1 0 +1 +2 +3
� A distribuição normal com média μμμμ e desvio padrão σσσσ:
� No intervalo de μ–σ até μ+σ: contém 68% das observações;
� No intervalo de μ–2σ até μ+2σ: contém 95% das observações;
� No intervalo de μ–3σ até μ+3σ: contém 99.7% das observações.
68%
−3 −2 −1 0 +1 +2 +3
99.7%
−3 −2 −1 0 +1 +2 +3
Propriedades da distribuição normal
20MT-803: Tópicos em Matemática Aplicada – Aula 2.
Análise de Histogramas
� Gráfico que mostra a estatística básica da descrição de classes.
� Histograma de Freqüências
� Mostra a distribuição dos valores de uma variável;
� Consiste em um conjunto de retângulos, em que cada retângulo representa a 
freqüência de uma das classes presentes nos dados.
(a) Amplitudes iguais (b) Amplitude desiguais
Idade dos alunos da disciplina Inferência Estatística do curso de
Estatística da UEM, 21/03/2005.
21MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Coeficiente de correlação (também conhecido como coeficiente de
Pearson):
Onde n é o número de observações, e são as médias das variáveis 
A e B, σA e σB são os devios-padrão de A e B.
� Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior 
for o valor rA,B, maior será a correlação entres as variáveis A e B).
� rA,B = 0: A e B são independentes ou não possuem relacionamento; 
� rA,B < 0: A e B são negativamente correlacionadas.
BABA n
BAnAB
n
BBAA
r BA
σσσσ )1(
)(
)1(
))((
,
−
−
=
−
−−
=
∑∑
A B
Análise de correlação
22MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exemplos de diagramas de dispersão
Relacionamento negativo 
moderado
Cerca de 
-0,7
Relacionamento negativo perfeito
-1,0
Relacionamento positivo 
moderadoCerca de 
0,7
Relacionamento positivo perfeito+1,00
Diagrama de dispersãoDescrição do relacionamentoValor de r
23MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exemplos de ausência de relacionamento
24MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Por que pré-processar os dados?
�Sumarização de dados descritivos.
� Limpeza dos dados.
� Integração e transformação de dados.
Índice
25MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Relevância:
� “Data cleaning is one of the three biggest problems in data 
warehousing” — Ralph Kimball.
� “Data cleaning is the number one problem in data 
warehousing” — DCI (Downtown Cincinnati Inc.) survey.
� Procedimentos para limpeza dos dados:
� Preencher valores faltantes;
� Identificar outliers e remover ruídos nos dados;
� Corrigir e eliminar inconsistências.
� Remover redundâncias causadas pela integração de 
dados.
Limpeza dos dados
26MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Em muitos casos, dados podem ser incompletos:
� Muitas observações podem não possuir valores para alguns 
atributos (Ex.: renda anual de clientes em dados de vendas).
� Valores faltantes ocorrem devido: 
� Problemas com equipamentos (perdas de dados);
� Inconsistência com outros registros e portanto são deletados;
� Dados não digitados por causa de mal interpretação;
� Alguns dados não são importantes no momento da entrada;
� Falta de registros históricos ou mudança nos dados.
� Em muitos casos, valores faltantes podem ser inferidos. 
Valores faltantes
27MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes
� Método 1: Ignorar as observações (registros):
� A alternativa mais simples.
� Deve ser usado somente se a observação
possui vários atributos com valores faltantes.
� É um método ineficiente:
� Parte da informação é perdida;
� É um método pobre quando a porcentagem de 
valores faltantes varia entre os atributos.
28MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
� Método 2: Preencher os valores manualmente.
� Essa alternativa só vale a pena se o dataset for 
muito pequeno.
� Ineficiência desse método:
� Consome muito tempo;
� Impraticável para grandes datasets.
29MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
� Método 3: Usar a média do atributo para 
preencher os valores faltantes.
� Exemplo: se idade média de um grupo de 
pessoas é 45, esse valor deve ser usado para 
preencher os valores faltantes.
� Vantagem:
� Procedimento simples de ser implementado.
30MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
� Método 4: Para atributo nominal, usar a moda
para preencher os valores faltantes.
� A moda é o valor mais freqüente em um 
conjunto de valores.
� Pode não ser uma boa alternativa quando o 
atributo considerado é o atributo classe.
31MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
� Método 5: Usar a média para observações 
pertencentes a uma mesma classe.
� Nesse caso, o valor faltante não está no atributo
classe.
� Exemplo: se um cliente não possui informação sobre 
o consumo mensal de cartão de crédito, substitua o 
valor faltante pela média de consumo de clientes na 
categoria (mesma classe).
� Em caso de atributo nominal (não-classe), use 
a moda do atributo considerando as observações 
que pertencem a mesma classe.
32MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
� Método 6: Preencher os valores faltantes por 
meio de uma regressão linear.
� O primeiro passo é identificar se o atributo com 
valores faltantes tem uma boa correlação 
(r > 0,7) com um outro atributo do dataset.
� O segundo passo é fazer a regressão entre os 
atributos correlacionados.
� Importante: esse método deve ser usado com 
muito cuidado, pois pode inserir ruído nos 
dados.
33MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
� Método 7: Usar o método KNN (k- Nearest
Neighbor) – Vizinho mais próximo.
� Eficiente para atributos discretos e contínuos.
� Para atributos discretos, usar o valor mais 
freqüente entre os k vizinhos do valor faltante.
� Para atributos contínuos, usar a média entre os k
vizinhos do valor faltante.
� A única desvantagem é que esse procedimento 
pode consumir muito tempo em grandes datasets.
34MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com valores faltantes ...
� Método 8: Usar o valor mais provável que é
baseado em inferência.
� Exemplo: Determinar o valor faltante usando 
uma árvore de decisão, um modelo
Bayesiano, etc.
� O método é muito eficiente, mas é também 
muito caro computacionalmente.
35MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Ruído: erro aleatório ou variância nos valores de 
uma determinada variável.
� Valores incorretos de atributos podem ocorrer 
devido:
� Falhas nos equipamentos de coleta de dados;
� Problemas na entrada de dados;
� Problemas na transmissão de dados;
� Limitação tecnológica;
� Inconsistência na convenção de nomes;
� Transformações erradas aplicadas aos dados. 
Ruído nos dados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Ruído
�Ruído refere-se à modificação de valores originais:
� Exemplos: distorção da voz de uma pessoa quando 
está falando ao telefone ou ruídos na tela de uma TV.
Duas ondas senoidais Duas ondas senoidais + Ruído
37MT-803: Tópicos em Matemática Aplicada – Aula 2.
Análise de agrupamento
Outliers podem ser detectados por meios de agrupamentos (clusters). 
Intuitivamente, objetos que estão fora dos clusters são outliers.
Outlier
Outlier
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Outliers
�Outliers são objetos com características
diferentes da maioria dos outros objetos em um 
conjunto de dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Eliminação de inconsistências
� Erro na entrada de dados: Tipo de inconsistência 
muito comum.
� Causado quando mais de um usuário editam no mesmo 
arquivo. 
� Exemplo: para o atributo data, um usuário preenche os 
dados no formato “dd/mm/aaaa”, enquanto o outro 
usuário usa o formato “yyyy/mm/dd”. 
� Atributo com valores diferentes para a mesma 
informação:
� Exemplo: um atributo que armazena informação sobre 
Unidades da Federação assume os valores São Paulo, 
SP, S.P., S. Paulo, Sao_Paulo.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Eliminação de inconsistências ...
� Mesmo valor de um atributo para diferentes rótulos: 
O mesmo dado é representado por rótulos diferentes. 
� A correção da inconsistência seria uma alteração do 
valor do atributo Vento para uma das tuplas.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Eliminação de inconsistências ...
� Regra baseada em informações externas: Alguns dos 
dados inconsistentes podem ser corrigidos 
manualmente utilizando referências externas.
� Regra baseada em dependência de atributos: 
Algumas regras podem ser utilizadas para detectar 
violações nas restrições de integridade dos dados, 
tais como funções de dependência entre atributos.
� Regra de unicidade: Os valores de uma determinada 
tupla não podem se repetidos. Esse problema 
compromete a precisão de modelos de predição.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Eliminação de inconsistências ...
� Regra de verificação de valor ausente: A informação 
incompleta deve então ser tratada com os métodos de 
imputação.
� Regra com restrição de domínio: Podem ser usadas 
regras para que os valores de um atributo: (a) estejam 
dentro de uma faixa, (b) adotem certo padrão, (c) aceitem 
somente itens que estão em um conjunto (lista).
� Regra de nulidade: Um NULL (nulo) indica a ausência de 
valor para um atributo – não existe ou não informado:
� O valor NULL aparece muito em dados coletados quando os 
entrevistados não querem informar dados confidenciais. 
� NOT NULL é uma restrição automática para chave candidata 
(primary key), garantindo que a informação deve sempre existir,como no caso do CPF de um cliente.
43MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Por que pré-processar os dados?
�Sumarização de dados descritivos.
� Limpeza dos dados.
� Integração e transformação de dados.
Índice
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Integração de dados
� Processo que combina dados residentes em 
diferentes fontes, mantendo a consistência e a 
coerência dos dados integrados.
Fertilidade
Pedologia
Mapeamento
BD Solos
Dados 
Integrados
ETC
45MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Metadados podem ser utilizados para ajudar a unificar os 
atributos e transformar os dados.
� O atributo Sigla do primeiro esquema assume os valores T e P, 
representando cultura temporária e cultura perene, enquanto no 
segundo esquema, os valores do atributo Sigla são CT e CP. 
Integração de esquemas
46MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com redundância na integração
� Dados redundantes geralmente provêm da 
integração de múltiplas fontes de dados:
� Identificação de objeto: o mesmo atributo pode ter 
diferentes nomes em diferentes datasets;
� Dados derivados: um atributo pode ser um “atributo 
derivado” uma outra tabela (Ex.: atributo receita 
proveniente de serviço, patente, etc.).
� Atributos redundantes podem ser detectados por 
meio de análise de correlação.
� Lembrando: correlação mede a força, a 
intensidade ou grau de relacionamento entre 2 ou 
mais variáveis.
47MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Coeficiente de correlação (também conhecido como coeficiente de 
Pearson):
Onde n é o número de observações, e são as médias das variáveis 
A e B, σA e σB são os devios-padrão de A e B.
� Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior 
for o valor rA,B, maior será a correlação entres as variáveis A e B).
� rA,B = 0: A e B são independentes ou não possuem relacionamento; 
� rA,B < 0: A e B são negativamente correlacionadas.
BABA n
BAnAB
n
BBAA
r BA
σσσσ )1(
)(
)1(
))((
,
−
−
=
−
−−
=
∑∑
A B
Análise de correlação (dados numéricos)
48MT-803: Tópicos em Matemática Aplicada – Aula 2.
Análise de correlação (dados categóricos)
� χχχχ2 (teste do qui-quadrado)
� As freqüências observadas são obtidas diretamente dos dados das 
amostras, enquanto que as freqüências esperadas são calculadas a 
partir destas. 
� Quanto maior o valor de χχχχ2, mais provável é a correlação das 
variáveis.
� Cuidado: Correlação não implica casualidade:
� Número de hospitais e número carros roubados em uma cidade pode ser 
correlacionado;
� Ambas as variáveis estão ligadas com uma terceira variável: população.
∑
−
=
Expected
ExpectedObserved 22 )(χ
49MT-803: Tópicos em Matemática Aplicada – Aula 2.
Qui-quadrado (χ2)
� O teste do χχχχ2 é muito eficiente para avaliar a associação 
existente entre variáveis qualitativas. 
� O analista de dados estará sempre trabalhando com 
duas hipóteses: 
� H0: não há associação entre os atributos (independência)
� H1: há associação entre os atributos. 
� A hipótese H0 é rejeitada para valores elevados de χχχχ2.
� O cálculo dos graus de liberdade de χχχχ2 é dado por:
gl = (número de linhas – 1) × (número de colunas – 1)
50MT-803: Tópicos em Matemática Aplicada – Aula 2.
Qui-quadrado (χ2) ...
A forma da função de densidade de χ2
Aceita H0 se χ2 está
nesse intervalo
Probabilidade
de rejeitar H0
Rejeitamos a hipótese nula se χχχχ2 for maior que o valor crítico
fornecido pela tabela. Para 1 grau de liberdade, o valor crítico é 3,841.
Valor crítico p/ nível de significância de 5%
Aceita H1
51MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Os números entre parênteses são os valores esperados, 
calculados com base na distribuição dos dados das duas categorias.
� O resultado mostra que gostar_ficção_científica e jogar_xadrez são 
correlacionadas nesse grupo:
93.507
840
)8401000(
360
)360200(
210
)21050(
90
)90250( 22222 =
−
+
−
+
−
+
−
=χ
15001200300Soma (colunas)
10501000(840)50(210)Não gosta de ficção científica
450200(360)250(90)Gosta de ficção científica
Soma (linhas)Não joga xadrezJoga xadrez
Exemplo do cálculo de χ2
Neste caso, a hipótese nula é rejeitada, pois 507.93 > 3.841. 
Então, as variáveis estudadas são correlacionadas.
52MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Principais métodos para transformação de dados: 
(transformações nos valores de atributos):
� Normalização Min-Max;
� Normalização Z-score;
� Normalização por escala decimal.
Transformação de dados
53MT-803: Tópicos em Matemática Aplicada – Aula 2.
Normalização
� Normalização⇒ variáveis com mesmo peso.
� Min-Max para um atributo f:
� Z-score : 
� Desvio absoluto médio :
� Por escala decimal: 
fff novoMinnovoMinnovoMax
x
 
ff
fif
if
S +−×
−
−
= )(
minmax
min
f
fif
if
mx
 z
σ
−
=
|)|...|||(|1
21 fnffffff
mxmxmxns −++−+−=
j
v
v
10
'=
Onde j é o menor inteiro tal que Max(|ν’|) < 1
54MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exemplos de normalização
� Normalização Min-Max: [novo_minA, novo_maxA]
� Ex. Suponha que o atributo salário varia de R$12,000 a R$98,000. 
Qual é o valor do salário R$73,600 no intervalo [0.0, 1.0]?
� Normalização Z-score (μ: média, σ: desvio padrão):
� Ex. Seja μ = 54,000 e σ = 16,000. Então
fff novoMinnovoMinnovoMax
x
 
ff
fif
if
S +−×
−
−
= )(
minmax
min
716.00)00.1(
000,12000,98
000,12600,73
=+−
−
−
225.1
000,16
000,54600,73
=
−
f
fif
if
mx
 z
σ
−
=
Aspectos Relevantes na fase de 
Preparação de Dados
Stanley Robson de M. Oliveira
MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Você sabe que Mineração de Dados é um projeto 
contínuo de busca de inteligência e inferência
aplicada aos dados?
� Você sabe com detalhe qual é o seu problema?
� Seus objetivos e metas estão claramente definidos?
� Você definiu o grau de suas expectativas? Qual o 
resultado desejado?
Fatores para o Sucesso Mineração de Dados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Existem requisitos de análises complexas, 
tendências escondidas, perfis de comportamento, 
verificação de hipóteses?
� Você detém técnicas necessárias e possui equipe 
com domínio de análise de dados?
� Você tem os dados necessários, na granularidade
desejada?
Fatores para o Sucesso Mineração de Dados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
A fase de pré-processamento de dados
� No mundo real, dados coletados e organizados 
tendem a ser:
� incompletos;
� fora de padrões; 
� redundantes; e 
� inconsistentes. 
� A fase de pré-processamento de dados inicia-
se após a coleta e organização desses dados.
� Esta fase pode consumir até 60% do tempo
disponível para exploração de dados (Pyle,1999).
MT-803: Tópicos em Matemática Aplicada – Aula 2.
A importância da preparação de dados
� Preparação de dados: a etapa que consome a 
maior parte de tempo no processo de KDD.
� O sucesso ou fracasso de um projeto de 
mineração de dados está relacionado à
preparação de dados.
� A preparação de dados ajuda um analista:
� Interpretar melhor os resultados;
� Entender os limites nos dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
A importância da preparação de dados
� CASO 1- Preparação de dados p/ Warehousing:
� Ineficiente para algumas tarefas de mineração;
� Compromete a precisão dos modelos;
� A preparação pode destruir informações úteis para o 
processo de mineração de dados.
� CASO 2 - Preparação de dados p/ Mineração:
� Melhora fortemente a precisão do modelo;
� Produz grande economia em termos de tempo, 
esforço e dinheiro.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exploração de Dados: Estágios
254c. Modelagem
3154b. Explorar cenários
15604a. Preparação
4. Mineração de 
dados
5113. Especificação da 
implementação
1492. Explorar possíveis 
soluções
15101. Identificação do 
Problema
Importância p/ Sucesso
(% do total)
Tempo Necessário 
(% do total)
20 80
80 20
Caracterização e 
Representação de Dados
Stanley Robson de M. OliveiraAtributos Relacionamentos
MT-803: Tópicos em Matemática Aplicada – Aula 2.
O que são objetos e atributos?
• Um dataset é uma coleção de
objetos e seus atributos.
• Um atributo é uma propriedade ou 
característica de um objeto.
– Exemplos: idade de uma 
pessoa, altura, etc.
– Atributo é também conhecido 
como variável, campo, 
parâmetro ou “feature”.
• Uma coleção de atributos descrevem 
um objeto.
– Objeto é também conhecido 
como registro, observação, 
ponto, entidade ou instância.
Tid Retorno Estado 
Civil 
Renda 
Anual Mentiu 
1 Sim Solteiro 125K Não 
2 Não Casado 100K Não 
3 Não Solteiro 70K Não 
4 Sim Casado 120K Não 
5 Não Divorciado 95K Sim 
6 Não Casado 60K Não 
7 Sim Divorciado 220K Não 
8 Não Solteiro 85K Sim 
9 Não Casado 75K Não 
10 Não Solteiro 90K Sim 
10 
 
Atributos
Objetos
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Tipos de Atributos
� Principais tipos de atributos:
� Nominal – assumem valores sem ordem natural.
� Exemplos: Os meios de comunicação para transferência de 
tecnologia: {rádio, televisão, internet, jornal e revista}.
� Numérico – assumem valores numéricos.
� Exemplos: valores inteiros e reais (chuva, temperatura).
� Ordinal – assumem valores com ordem natural.
� Exemplos: Os estádios fenológicos da cultura de milho são: 
{plantio, emergência, floração e colheita}.
� Intervalo
� Exemplos: datas, temperaturas em Celsius ou Fahrenheit.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Valores de Atributos
�Valores de atributos são números ou símbolos
associados a um atributo.
�Diferença entre atributos e valores de atributos:
� Um mesmo atributo pode ser mapeado para diferentes 
valores de atributos:
� Exemplo: altura pode ser medida em metros ou centímetros.
� Diferentes atributos podem ser mapeados para o 
mesmo conjunto de valores:
� Exemplo: Valores de atributos de ID e idade são inteiros.
� Propriedades de atributos podem ser diferentes:
� ID não tem limite, mas idade tem valor máximo e mínimo.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Valores de Atributos: Propriedades
�O tipo de um atributo depende de suas 
propriedades:
� Diferença: = ≠
� Ordem (relação): < > 
� Adição: + -
� Multiplicação: * /
� Atributo Nominal: diferença.
� Atributo Ordinal: diferença e ordem.
� Atributo Intervalo: diferença, ordem e adição.
� Atributo Numérico: todas as 4 propriedades.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Atributos precisam ser analisados cuidadosamente, pois eles têm 
faixa de valores diferentes.
1
2
3
5
5
7
8
15
10 4
A
B
C
D
E
Domínio de um atributo
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Atributo Transformação Comentários
Nominal qualquer permutação de valores Se todos os IDs de 
empregados forem 
mudados, haverá alguma 
diferença?
Ordinal Uma ordem preservando mudança 
de valores, i.e., 
novo_valor = f(valor_antigo)
onde f é uma função monotônica.
Um atributo contendo a 
noção de {regular, bom, 
excelente} pode ser 
representado pelos valores 
{1, 2, 3} ou { 0.5, 1,10}.
Intervalo novo_valor =a * valor_anterior + 
b, onde a e b são constantes.
A escala das temperaturas 
de Fahrenheit e Celsius
diferem em termos do valor 
inicial.
Taxa ou 
Proporção
novo_valor = a * valor_antigo Comprimento pode ser 
medido em metros ou 
centímetros.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Atributos Discretos e Contínuos
� Atributos Discretos:
� Têm um conjunto de valores finitos.
� Exemplos: CEP, o conjunto de palavras em uma coleção de 
documentos.
� Geralmente são representados como variáveis inteiras. 
� Importante: atributos binários são um caso especial de 
atributos discretos.
� Atributos Contínuos
� Geralmente são representados por valores reais.
� Exemplos: temperatura, altura, precipitação. 
� Atributos contínuos podem ser medidos e representados
usando-se um número finito de dígitos.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Baseados em Registros
� Matriz de dados
� Coleção de Documentos
� Dados transacionais
�Baseados em Gráficos
� World Wide Web 
� Estruturas Moleculares
�Baseados em uma Ordem (sequência)
� Dado espacial
� Dado temporal
� Dado sequencial
� Dado com sequência genética
Tipos de Datasets (conjunto de dados)
MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Dimensionality (dimensionalidade)
� O desafio é a redução da dimensão.
�Sparsity (esparsidade)
� Somente a presença do dado conta.
�Resolução
� Padrões dependem de uma escala.
Características de dados estruturados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Datasets baseados em registros
�Os dados consistem em uma coleção de 
registros, com um conjunto fixo de atributos. 
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Matriz de Dados
• Os objetos têm o mesmo conjunto fixo de atributos;
• O dataset pode ser visto como um conjunto de pontos
no espaço multidimensional, onde cada dimensão é
um atributo.
• O conjunto de dados pode ser representado por uma 
matriz m × n, onde cada uma das m linhas representa 
um objeto e as n colunas correspondem aos atributos.
Nome Sexo Febre Tosse Test-1 Test-2 Test-3 Test-4 
Jack M P N P N N N 
Mary F P N P N P N 
Jim M P P N N N N 
 
 
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Coleção de Documentos
�Cada documento torna-se um vetor de termos: 
� Cada termo é uma componente (atributo) do vetor;
� O valor de cada componente é o número de vezes
que o termo ocorre em um documento (freqüência). 
se
a
so
n
tim
e
o
u
t
lo
st
w
in
g
a
m
e
sco
re
b
a
ll
p
lay
co
a
ch
te
a
m
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Transacionais
• Um tipo especial de dataset, onde:
– Cada registro (transação) contém um conjunto de 
itens. 
– Exemplo: Lista de produtos comprados em um 
supermercado por um determinado cliente. 
{queijo, vinho}400
{café, queijo, pão, vinho}300
{queijo, torrada, vinho}200
{café, pão, pizza}100
Lista de ItensTID
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Datasets Baseados em Gráficos
�Exemplos: Grafos e Links em páginas HTML.
5
2
1
 2
5
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Químicos
�Molécula de Benzeno : C6H6
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Baseados em Ordem
�Sequências de transações
Um elemento 
da seqüência
Itens/Eventos
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Baseados em Ordem ...
� Dados de sequências genômicas.
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Baseados em Ordem ...
�Dados espaço-temporal.
Temperatura 
média mensal da 
terra e do oceano.
Janeiro

Outros materiais