MT803_Aula2_Preparacao_Dados
20 pág.

MT803_Aula2_Preparacao_Dados


DisciplinaIntrodução à Probabilidade e A Estatística II215 materiais1.664 seguidores
Pré-visualização4 páginas
como no caso do CPF de um cliente.
43MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffdPor que pré-processar os dados?
\ufffdSumarização de dados descritivos.
\ufffd Limpeza dos dados.
\ufffd Integração e transformação de dados.
Índice
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Integração de dados
\ufffd Processo que combina dados residentes em 
diferentes fontes, mantendo a consistência e a 
coerência dos dados integrados.
Fertilidade
Pedologia
Mapeamento
BD Solos
Dados 
Integrados
ETC
45MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Metadados podem ser utilizados para ajudar a unificar os 
atributos e transformar os dados.
\ufffd O atributo Sigla do primeiro esquema assume os valores T e P, 
representando cultura temporária e cultura perene, enquanto no 
segundo esquema, os valores do atributo Sigla são CT e CP. 
Integração de esquemas
46MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com redundância na integração
\ufffd Dados redundantes geralmente provêm da 
integração de múltiplas fontes de dados:
\ufffd Identificação de objeto: o mesmo atributo pode ter 
diferentes nomes em diferentes datasets;
\ufffd Dados derivados: um atributo pode ser um \u201catributo 
derivado\u201d uma outra tabela (Ex.: atributo receita 
proveniente de serviço, patente, etc.).
\ufffd Atributos redundantes podem ser detectados por 
meio de análise de correlação.
\ufffd Lembrando: correlação mede a força, a 
intensidade ou grau de relacionamento entre 2 ou 
mais variáveis.
47MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Coeficiente de correlação (também conhecido como coeficiente de 
Pearson):
Onde n é o número de observações, e são as médias das variáveis 
A e B, \u3c3A e \u3c3B são os devios-padrão de A e B.
\ufffd Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior 
for o valor rA,B, maior será a correlação entres as variáveis A e B).
\ufffd rA,B = 0: A e B são independentes ou não possuem relacionamento; 
\ufffd rA,B < 0: A e B são negativamente correlacionadas.
BABA n
BAnAB
n
BBAA
r BA
\u3c3\u3c3\u3c3\u3c3 )1(
)(
)1(
))((
,
\u2212
\u2212
=
\u2212
\u2212\u2212
=
\u2211\u2211
A B
Análise de correlação (dados numéricos)
48MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Análise de correlação (dados categóricos)
\ufffd \u3c7\u3c7\u3c7\u3c72 (teste do qui-quadrado)
\ufffd As freqüências observadas são obtidas diretamente dos dados das 
amostras, enquanto que as freqüências esperadas são calculadas a 
partir destas. 
\ufffd Quanto maior o valor de \u3c7\u3c7\u3c7\u3c72, mais provável é a correlação das 
variáveis.
\ufffd Cuidado: Correlação não implica casualidade:
\ufffd Número de hospitais e número carros roubados em uma cidade pode ser 
correlacionado;
\ufffd Ambas as variáveis estão ligadas com uma terceira variável: população.
\u2211
\u2212
=
Expected
ExpectedObserved 22 )(\u3c7
49MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Qui-quadrado (\u3c72)
\ufffd O teste do \u3c7\u3c7\u3c7\u3c72 é muito eficiente para avaliar a associação 
existente entre variáveis qualitativas. 
\ufffd O analista de dados estará sempre trabalhando com 
duas hipóteses: 
\ufffd H0: não há associação entre os atributos (independência)
\ufffd H1: há associação entre os atributos. 
\ufffd A hipótese H0 é rejeitada para valores elevados de \u3c7\u3c7\u3c7\u3c72.
\ufffd O cálculo dos graus de liberdade de \u3c7\u3c7\u3c7\u3c72 é dado por:
gl = (número de linhas \u2013 1) × (número de colunas \u2013 1)
50MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Qui-quadrado (\u3c72) ...
A forma da função de densidade de \u3c72
Aceita H0 se \u3c72 está
nesse intervalo
Probabilidade
de rejeitar H0
Rejeitamos a hipótese nula se \u3c7\u3c7\u3c7\u3c72 for maior que o valor crítico
fornecido pela tabela. Para 1 grau de liberdade, o valor crítico é 3,841.
Valor crítico p/ nível de significância de 5%
Aceita H1
51MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Os números entre parênteses são os valores esperados, 
calculados com base na distribuição dos dados das duas categorias.
\ufffd O resultado mostra que gostar_ficção_científica e jogar_xadrez são 
correlacionadas nesse grupo:
93.507
840
)8401000(
360
)360200(
210
)21050(
90
)90250( 22222 =
\u2212
+
\u2212
+
\u2212
+
\u2212
=\u3c7
15001200300Soma (colunas)
10501000(840)50(210)Não gosta de ficção científica
450200(360)250(90)Gosta de ficção científica
Soma (linhas)Não joga xadrezJoga xadrez
Exemplo do cálculo de \u3c72
Neste caso, a hipótese nula é rejeitada, pois 507.93 > 3.841. 
Então, as variáveis estudadas são correlacionadas.
52MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Principais métodos para transformação de dados: 
(transformações nos valores de atributos):
\ufffd Normalização Min-Max;
\ufffd Normalização Z-score;
\ufffd Normalização por escala decimal.
Transformação de dados
53MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Normalização
\ufffd Normalização\u21d2 variáveis com mesmo peso.
\ufffd Min-Max para um atributo f:
\ufffd Z-score : 
\ufffd Desvio absoluto médio :
\ufffd Por escala decimal: 
fff novoMinnovoMinnovoMax
x
 
ff
fif
if
S +\u2212×
\u2212
\u2212
= )(
minmax
min
f
fif
if
mx
 z
\u3c3
\u2212
=
|)|...|||(|1
21 fnffffff
mxmxmxns \u2212++\u2212+\u2212=
j
v
v
10
'=
Onde j é o menor inteiro tal que Max(|\u3bd\u2019|) < 1
54MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Exemplos de normalização
\ufffd Normalização Min-Max: [novo_minA, novo_maxA]
\ufffd Ex. Suponha que o atributo salário varia de R$12,000 a R$98,000. 
Qual é o valor do salário R$73,600 no intervalo [0.0, 1.0]?
\ufffd Normalização Z-score (\u3bc: média, \u3c3: desvio padrão):
\ufffd Ex. Seja \u3bc = 54,000 e \u3c3 = 16,000. Então
fff novoMinnovoMinnovoMax
x
 
ff
fif
if
S +\u2212×
\u2212
\u2212
= )(
minmax
min
716.00)00.1(
000,12000,98
000,12600,73
=+\u2212
\u2212
\u2212
225.1
000,16
000,54600,73
=
\u2212
f
fif
if
mx
 z
\u3c3
\u2212
=
Aspectos Relevantes na fase de 
Preparação de Dados
Stanley Robson de M. Oliveira
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Você sabe que Mineração de Dados é um projeto 
contínuo de busca de inteligência e inferência
aplicada aos dados?
\ufffd Você sabe com detalhe qual é o seu problema?
\ufffd Seus objetivos e metas estão claramente definidos?
\ufffd Você definiu o grau de suas expectativas? Qual o 
resultado desejado?
Fatores para o Sucesso Mineração de Dados
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Existem requisitos de análises complexas, 
tendências escondidas, perfis de comportamento, 
verificação de hipóteses?
\ufffd Você detém técnicas necessárias e possui equipe 
com domínio de análise de dados?
\ufffd Você tem os dados necessários, na granularidade
desejada?
Fatores para o Sucesso Mineração de Dados
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
A fase de pré-processamento de dados
\ufffd No mundo real, dados coletados e organizados 
tendem a ser:
\ufffd incompletos;
\ufffd fora de padrões; 
\ufffd redundantes; e 
\ufffd inconsistentes. 
\ufffd A fase de pré-processamento de dados inicia-
se após a coleta e organização desses dados.
\ufffd Esta fase pode consumir até 60% do tempo
disponível para exploração de dados (Pyle,1999).
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
A importância da preparação de dados
\ufffd Preparação de dados: a etapa que consome a 
maior parte de tempo no processo de KDD.
\ufffd O sucesso ou fracasso de um projeto de 
mineração de dados está relacionado à
preparação de dados.
\ufffd A preparação de dados ajuda um analista:
\ufffd Interpretar melhor os resultados;
\ufffd Entender os limites nos dados.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
A importância da preparação de dados
\ufffd CASO 1- Preparação de dados p/ Warehousing:
\ufffd Ineficiente para algumas tarefas de mineração;
\ufffd Compromete a precisão dos modelos;
\ufffd A preparação pode destruir informações úteis para o 
processo de mineração de dados.
\ufffd CASO 2 - Preparação de dados p/ Mineração:
\ufffd Melhora fortemente a precisão do modelo;
\ufffd Produz grande economia em termos de tempo, 
esforço e dinheiro.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Exploração de Dados: Estágios
254c. Modelagem
3154b. Explorar cenários
15604a. Preparação
4. Mineração de 
dados
5113. Especificação da 
implementação
1492. Explorar possíveis 
soluções
15101. Identificação do 
Problema
Importância p/ Sucesso
(% do total)
Tempo Necessário 
(% do total)
20 80
80 20
Caracterização e 
Representação de Dados
Stanley Robson de M. Oliveira