MT803_Aula2_Preparacao_Dados
20 pág.

MT803_Aula2_Preparacao_Dados

Disciplina:Introdução à Probabilidade e A Estatística II155 materiais1.636 seguidores
Pré-visualização4 páginas
como no caso do CPF de um cliente.

43MT-803: Tópicos em Matemática Aplicada – Aula 2.

�Por que pré-processar os dados?

�Sumarização de dados descritivos.

� Limpeza dos dados.

� Integração e transformação de dados.

Índice

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Integração de dados
� Processo que combina dados residentes em

diferentes fontes, mantendo a consistência e a
coerência dos dados integrados.

Fertilidade

Pedologia

Mapeamento

BD Solos

Dados
Integrados

ETC

45MT-803: Tópicos em Matemática Aplicada – Aula 2.

� Metadados podem ser utilizados para ajudar a unificar os
atributos e transformar os dados.

� O atributo Sigla do primeiro esquema assume os valores T e P,
representando cultura temporária e cultura perene, enquanto no

segundo esquema, os valores do atributo Sigla são CT e CP.

Integração de esquemas

46MT-803: Tópicos em Matemática Aplicada – Aula 2.

Lidando com redundância na integração
� Dados redundantes geralmente provêm da

integração de múltiplas fontes de dados:
� Identificação de objeto: o mesmo atributo pode ter

diferentes nomes em diferentes datasets;

� Dados derivados: um atributo pode ser um “atributo
derivado” uma outra tabela (Ex.: atributo receita

proveniente de serviço, patente, etc.).

� Atributos redundantes podem ser detectados por
meio de análise de correlação.

� Lembrando: correlação mede a força, a
intensidade ou grau de relacionamento entre 2 ou
mais variáveis.

47MT-803: Tópicos em Matemática Aplicada – Aula 2.

� Coeficiente de correlação (também conhecido como coeficiente de
Pearson):

Onde n é o número de observações, e são as médias das variáveis
A e B, σA e σB são os devios-padrão de A e B.

� Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior
for o valor rA,B, maior será a correlação entres as variáveis A e B).

� rA,B = 0: A e B são independentes ou não possuem relacionamento;

� rA,B < 0: A e B são negativamente correlacionadas.

BABA n

BAnAB

n

BBAA
r BA

σσσσ )1(

)(

)1(

))((
,

−

−
=

−

−−
=

∑∑

A B

Análise de correlação (dados numéricos)

48MT-803: Tópicos em Matemática Aplicada – Aula 2.

Análise de correlação (dados categóricos)

� χχχχ2 (teste do qui-quadrado)

� As freqüências observadas são obtidas diretamente dos dados das
amostras, enquanto que as freqüências esperadas são calculadas a

partir destas.

� Quanto maior o valor de χχχχ2, mais provável é a correlação das
variáveis.

� Cuidado: Correlação não implica casualidade:

� Número de hospitais e número carros roubados em uma cidade pode ser
correlacionado;

� Ambas as variáveis estão ligadas com uma terceira variável: população.

∑
−

=
Expected

ExpectedObserved 22 )(χ

49MT-803: Tópicos em Matemática Aplicada – Aula 2.

Qui-quadrado (χ2)
� O teste do χχχχ2 é muito eficiente para avaliar a associação

existente entre variáveis qualitativas.

� O analista de dados estará sempre trabalhando com
duas hipóteses:

� H0: não há associação entre os atributos (independência)

� H1: há associação entre os atributos.

� A hipótese H0 é rejeitada para valores elevados de χχχχ2.

� O cálculo dos graus de liberdade de χχχχ2 é dado por:

gl = (número de linhas – 1) × (número de colunas – 1)

50MT-803: Tópicos em Matemática Aplicada – Aula 2.

Qui-quadrado (χ2) ...
A forma da função de densidade de χ2

Aceita H0 se χ2 está
nesse intervalo

Probabilidade
de rejeitar H0

Rejeitamos a hipótese nula se χχχχ2 for maior que o valor crítico
fornecido pela tabela. Para 1 grau de liberdade, o valor crítico é 3,841.

Valor crítico p/ nível de significância de 5%

Aceita H1

51MT-803: Tópicos em Matemática Aplicada – Aula 2.

� Os números entre parênteses são os valores esperados,
calculados com base na distribuição dos dados das duas categorias.

� O resultado mostra que gostar_ficção_científica e jogar_xadrez são
correlacionadas nesse grupo:

93.507
840

)8401000(

360

)360200(

210

)21050(

90

)90250( 22222 =
−

+
−

+
−

+
−

=χ

15001200300Soma (colunas)

10501000(840)50(210)Não gosta de ficção científica

450200(360)250(90)Gosta de ficção científica

Soma (linhas)Não joga xadrezJoga xadrez

Exemplo do cálculo de χ2

Neste caso, a hipótese nula é rejeitada, pois 507.93 > 3.841.
Então, as variáveis estudadas são correlacionadas.

52MT-803: Tópicos em Matemática Aplicada – Aula 2.

� Principais métodos para transformação de dados:
(transformações nos valores de atributos):

� Normalização Min-Max;

� Normalização Z-score;

� Normalização por escala decimal.

Transformação de dados

53MT-803: Tópicos em Matemática Aplicada – Aula 2.

Normalização
� Normalização⇒ variáveis com mesmo peso.

� Min-Max para um atributo f:

� Z-score :

� Desvio absoluto médio :

� Por escala decimal:

fff novoMinnovoMinnovoMax
x

ff

fif

if
S +−×

−

−
= )(

minmax

min

f

fif

if

mx
 z

σ

−
=

|)|...|||(|1
21 fnffffff

mxmxmxns −++−+−=

j

v
v

10
'=

Onde j é o menor inteiro tal que Max(|ν’|) < 1

54MT-803: Tópicos em Matemática Aplicada – Aula 2.

Exemplos de normalização

� Normalização Min-Max: [novo_minA, novo_maxA]

� Ex. Suponha que o atributo salário varia de R$12,000 a R$98,000.

Qual é o valor do salário R$73,600 no intervalo [0.0, 1.0]?

� Normalização Z-score (μ: média, σ: desvio padrão):

� Ex. Seja μ = 54,000 e σ = 16,000. Então

fff novoMinnovoMinnovoMax
x

ff

fif

if
S +−×

−

−
= )(

minmax

min

716.00)00.1(
000,12000,98

000,12600,73
=+−

−

−

225.1
000,16

000,54600,73
=

−

f

fif

if

mx
 z

σ

−
=

Aspectos Relevantes na fase de
Preparação de Dados

Stanley Robson de M. Oliveira

MT-803: Tópicos em Matemática Aplicada – Aula 2.

� Você sabe que Mineração de Dados é um projeto
contínuo de busca de inteligência e inferência

aplicada aos dados?

� Você sabe com detalhe qual é o seu problema?

� Seus objetivos e metas estão claramente definidos?

� Você definiu o grau de suas expectativas? Qual o
resultado desejado?

Fatores para o Sucesso Mineração de Dados

MT-803: Tópicos em Matemática Aplicada – Aula 2.

� Existem requisitos de análises complexas,
tendências escondidas, perfis de comportamento,

verificação de hipóteses?

� Você detém técnicas necessárias e possui equipe
com domínio de análise de dados?

� Você tem os dados necessários, na granularidade
desejada?

Fatores para o Sucesso Mineração de Dados

MT-803: Tópicos em Matemática Aplicada – Aula 2.

A fase de pré-processamento de dados

� No mundo real, dados coletados e organizados
tendem a ser:

� incompletos;

� fora de padrões;

� redundantes; e

� inconsistentes.

� A fase de pré-processamento de dados inicia-
se após a coleta e organização desses dados.

� Esta fase pode consumir até 60% do tempo
disponível para exploração de dados (Pyle,1999).

MT-803: Tópicos em Matemática Aplicada – Aula 2.

A importância da preparação de dados

� Preparação de dados: a etapa que consome a
maior parte de tempo no processo de KDD.

� O sucesso ou fracasso de um projeto de
mineração de dados está relacionado à

preparação de dados.

� A preparação de dados ajuda um analista:

� Interpretar melhor os resultados;

� Entender os limites nos dados.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

A importância da preparação de dados

� CASO 1- Preparação de dados p/ Warehousing:
� Ineficiente para algumas tarefas de mineração;

� Compromete a precisão dos modelos;

� A preparação pode destruir informações úteis para o
processo de mineração de dados.

� CASO 2 - Preparação de dados p/ Mineração:
� Melhora fortemente a precisão do modelo;

� Produz grande economia em termos de tempo,
esforço e dinheiro.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Exploração de Dados: Estágios

254c. Modelagem

3154b. Explorar cenários

15604a. Preparação

4. Mineração de
dados

5113. Especificação da
implementação

1492. Explorar possíveis
soluções

15101. Identificação do
Problema

Importância p/ Sucesso
(% do total)

Tempo Necessário
(% do total)

20 80

80 20

Caracterização e
Representação de Dados

Stanley Robson de M. Oliveira