A maior rede de estudos do Brasil

Grátis
20 pág.
MT803_Aula2_Preparacao_Dados

Pré-visualização | Página 3 de 4

como no caso do CPF de um cliente.
43MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Por que pré-processar os dados?
�Sumarização de dados descritivos.
� Limpeza dos dados.
� Integração e transformação de dados.
Índice
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Integração de dados
� Processo que combina dados residentes em 
diferentes fontes, mantendo a consistência e a 
coerência dos dados integrados.
Fertilidade
Pedologia
Mapeamento
BD Solos
Dados 
Integrados
ETC
45MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Metadados podem ser utilizados para ajudar a unificar os 
atributos e transformar os dados.
� O atributo Sigla do primeiro esquema assume os valores T e P, 
representando cultura temporária e cultura perene, enquanto no 
segundo esquema, os valores do atributo Sigla são CT e CP. 
Integração de esquemas
46MT-803: Tópicos em Matemática Aplicada – Aula 2.
Lidando com redundância na integração
� Dados redundantes geralmente provêm da 
integração de múltiplas fontes de dados:
� Identificação de objeto: o mesmo atributo pode ter 
diferentes nomes em diferentes datasets;
� Dados derivados: um atributo pode ser um “atributo 
derivado” uma outra tabela (Ex.: atributo receita 
proveniente de serviço, patente, etc.).
� Atributos redundantes podem ser detectados por 
meio de análise de correlação.
� Lembrando: correlação mede a força, a 
intensidade ou grau de relacionamento entre 2 ou 
mais variáveis.
47MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Coeficiente de correlação (também conhecido como coeficiente de 
Pearson):
Onde n é o número de observações, e são as médias das variáveis 
A e B, σA e σB são os devios-padrão de A e B.
� Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior 
for o valor rA,B, maior será a correlação entres as variáveis A e B).
� rA,B = 0: A e B são independentes ou não possuem relacionamento; 
� rA,B < 0: A e B são negativamente correlacionadas.
BABA n
BAnAB
n
BBAA
r BA
σσσσ )1(
)(
)1(
))((
,
−
−
=
−
−−
=
∑∑
A B
Análise de correlação (dados numéricos)
48MT-803: Tópicos em Matemática Aplicada – Aula 2.
Análise de correlação (dados categóricos)
� χχχχ2 (teste do qui-quadrado)
� As freqüências observadas são obtidas diretamente dos dados das 
amostras, enquanto que as freqüências esperadas são calculadas a 
partir destas. 
� Quanto maior o valor de χχχχ2, mais provável é a correlação das 
variáveis.
� Cuidado: Correlação não implica casualidade:
� Número de hospitais e número carros roubados em uma cidade pode ser 
correlacionado;
� Ambas as variáveis estão ligadas com uma terceira variável: população.
∑
−
=
Expected
ExpectedObserved 22 )(χ
49MT-803: Tópicos em Matemática Aplicada – Aula 2.
Qui-quadrado (χ2)
� O teste do χχχχ2 é muito eficiente para avaliar a associação 
existente entre variáveis qualitativas. 
� O analista de dados estará sempre trabalhando com 
duas hipóteses: 
� H0: não há associação entre os atributos (independência)
� H1: há associação entre os atributos. 
� A hipótese H0 é rejeitada para valores elevados de χχχχ2.
� O cálculo dos graus de liberdade de χχχχ2 é dado por:
gl = (número de linhas – 1) × (número de colunas – 1)
50MT-803: Tópicos em Matemática Aplicada – Aula 2.
Qui-quadrado (χ2) ...
A forma da função de densidade de χ2
Aceita H0 se χ2 está
nesse intervalo
Probabilidade
de rejeitar H0
Rejeitamos a hipótese nula se χχχχ2 for maior que o valor crítico
fornecido pela tabela. Para 1 grau de liberdade, o valor crítico é 3,841.
Valor crítico p/ nível de significância de 5%
Aceita H1
51MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Os números entre parênteses são os valores esperados, 
calculados com base na distribuição dos dados das duas categorias.
� O resultado mostra que gostar_ficção_científica e jogar_xadrez são 
correlacionadas nesse grupo:
93.507
840
)8401000(
360
)360200(
210
)21050(
90
)90250( 22222 =
−
+
−
+
−
+
−
=χ
15001200300Soma (colunas)
10501000(840)50(210)Não gosta de ficção científica
450200(360)250(90)Gosta de ficção científica
Soma (linhas)Não joga xadrezJoga xadrez
Exemplo do cálculo de χ2
Neste caso, a hipótese nula é rejeitada, pois 507.93 > 3.841. 
Então, as variáveis estudadas são correlacionadas.
52MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Principais métodos para transformação de dados: 
(transformações nos valores de atributos):
� Normalização Min-Max;
� Normalização Z-score;
� Normalização por escala decimal.
Transformação de dados
53MT-803: Tópicos em Matemática Aplicada – Aula 2.
Normalização
� Normalização⇒ variáveis com mesmo peso.
� Min-Max para um atributo f:
� Z-score : 
� Desvio absoluto médio :
� Por escala decimal: 
fff novoMinnovoMinnovoMax
x
 
ff
fif
if
S +−×
−
−
= )(
minmax
min
f
fif
if
mx
 z
σ
−
=
|)|...|||(|1
21 fnffffff
mxmxmxns −++−+−=
j
v
v
10
'=
Onde j é o menor inteiro tal que Max(|ν’|) < 1
54MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exemplos de normalização
� Normalização Min-Max: [novo_minA, novo_maxA]
� Ex. Suponha que o atributo salário varia de R$12,000 a R$98,000. 
Qual é o valor do salário R$73,600 no intervalo [0.0, 1.0]?
� Normalização Z-score (μ: média, σ: desvio padrão):
� Ex. Seja μ = 54,000 e σ = 16,000. Então
fff novoMinnovoMinnovoMax
x
 
ff
fif
if
S +−×
−
−
= )(
minmax
min
716.00)00.1(
000,12000,98
000,12600,73
=+−
−
−
225.1
000,16
000,54600,73
=
−
f
fif
if
mx
 z
σ
−
=
Aspectos Relevantes na fase de 
Preparação de Dados
Stanley Robson de M. Oliveira
MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Você sabe que Mineração de Dados é um projeto 
contínuo de busca de inteligência e inferência
aplicada aos dados?
� Você sabe com detalhe qual é o seu problema?
� Seus objetivos e metas estão claramente definidos?
� Você definiu o grau de suas expectativas? Qual o 
resultado desejado?
Fatores para o Sucesso Mineração de Dados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Existem requisitos de análises complexas, 
tendências escondidas, perfis de comportamento, 
verificação de hipóteses?
� Você detém técnicas necessárias e possui equipe 
com domínio de análise de dados?
� Você tem os dados necessários, na granularidade
desejada?
Fatores para o Sucesso Mineração de Dados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
A fase de pré-processamento de dados
� No mundo real, dados coletados e organizados 
tendem a ser:
� incompletos;
� fora de padrões; 
� redundantes; e 
� inconsistentes. 
� A fase de pré-processamento de dados inicia-
se após a coleta e organização desses dados.
� Esta fase pode consumir até 60% do tempo
disponível para exploração de dados (Pyle,1999).
MT-803: Tópicos em Matemática Aplicada – Aula 2.
A importância da preparação de dados
� Preparação de dados: a etapa que consome a 
maior parte de tempo no processo de KDD.
� O sucesso ou fracasso de um projeto de 
mineração de dados está relacionado à
preparação de dados.
� A preparação de dados ajuda um analista:
� Interpretar melhor os resultados;
� Entender os limites nos dados.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
A importância da preparação de dados
� CASO 1- Preparação de dados p/ Warehousing:
� Ineficiente para algumas tarefas de mineração;
� Compromete a precisão dos modelos;
� A preparação pode destruir informações úteis para o 
processo de mineração de dados.
� CASO 2 - Preparação de dados p/ Mineração:
� Melhora fortemente a precisão do modelo;
� Produz grande economia em termos de tempo, 
esforço e dinheiro.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Exploração de Dados: Estágios
254c. Modelagem
3154b. Explorar cenários
15604a. Preparação
4. Mineração de 
dados
5113. Especificação da 
implementação
1492. Explorar possíveis 
soluções
15101. Identificação do 
Problema
Importância p/ Sucesso
(% do total)
Tempo Necessário 
(% do total)
20 80
80 20
Caracterização e 
Representação de Dados
Stanley Robson de M. Oliveira

Crie agora seu perfil grátis para visualizar sem restrições.