MT803_Aula2_Preparacao_Dados
20 pág.

MT803_Aula2_Preparacao_Dados


DisciplinaIntrodução à Probabilidade e A Estatística II215 materiais1.668 seguidores
Pré-visualização4 páginas
Cerca de 
0,7
Relacionamento positivo perfeito+1,00
Diagrama de dispersãoDescrição do relacionamentoValor de r
23MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Exemplos de ausência de relacionamento
24MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffdPor que pré-processar os dados?
\ufffdSumarização de dados descritivos.
\ufffd Limpeza dos dados.
\ufffd Integração e transformação de dados.
Índice
25MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Relevância:
\ufffd \u201cData cleaning is one of the three biggest problems in data 
warehousing\u201d \u2014 Ralph Kimball.
\ufffd \u201cData cleaning is the number one problem in data 
warehousing\u201d \u2014 DCI (Downtown Cincinnati Inc.) survey.
\ufffd Procedimentos para limpeza dos dados:
\ufffd Preencher valores faltantes;
\ufffd Identificar outliers e remover ruídos nos dados;
\ufffd Corrigir e eliminar inconsistências.
\ufffd Remover redundâncias causadas pela integração de 
dados.
Limpeza dos dados
26MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Em muitos casos, dados podem ser incompletos:
\ufffd Muitas observações podem não possuir valores para alguns 
atributos (Ex.: renda anual de clientes em dados de vendas).
\ufffd Valores faltantes ocorrem devido: 
\ufffd Problemas com equipamentos (perdas de dados);
\ufffd Inconsistência com outros registros e portanto são deletados;
\ufffd Dados não digitados por causa de mal interpretação;
\ufffd Alguns dados não são importantes no momento da entrada;
\ufffd Falta de registros históricos ou mudança nos dados.
\ufffd Em muitos casos, valores faltantes podem ser inferidos. 
Valores faltantes
27MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes
\ufffd Método 1: Ignorar as observações (registros):
\ufffd A alternativa mais simples.
\ufffd Deve ser usado somente se a observação
possui vários atributos com valores faltantes.
\ufffd É um método ineficiente:
\ufffd Parte da informação é perdida;
\ufffd É um método pobre quando a porcentagem de 
valores faltantes varia entre os atributos.
28MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes ...
\ufffd Método 2: Preencher os valores manualmente.
\ufffd Essa alternativa só vale a pena se o dataset for 
muito pequeno.
\ufffd Ineficiência desse método:
\ufffd Consome muito tempo;
\ufffd Impraticável para grandes datasets.
29MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes ...
\ufffd Método 3: Usar a média do atributo para 
preencher os valores faltantes.
\ufffd Exemplo: se idade média de um grupo de 
pessoas é 45, esse valor deve ser usado para 
preencher os valores faltantes.
\ufffd Vantagem:
\ufffd Procedimento simples de ser implementado.
30MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes ...
\ufffd Método 4: Para atributo nominal, usar a moda
para preencher os valores faltantes.
\ufffd A moda é o valor mais freqüente em um 
conjunto de valores.
\ufffd Pode não ser uma boa alternativa quando o 
atributo considerado é o atributo classe.
31MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes ...
\ufffd Método 5: Usar a média para observações 
pertencentes a uma mesma classe.
\ufffd Nesse caso, o valor faltante não está no atributo
classe.
\ufffd Exemplo: se um cliente não possui informação sobre 
o consumo mensal de cartão de crédito, substitua o 
valor faltante pela média de consumo de clientes na 
categoria (mesma classe).
\ufffd Em caso de atributo nominal (não-classe), use 
a moda do atributo considerando as observações 
que pertencem a mesma classe.
32MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes ...
\ufffd Método 6: Preencher os valores faltantes por 
meio de uma regressão linear.
\ufffd O primeiro passo é identificar se o atributo com 
valores faltantes tem uma boa correlação 
(r > 0,7) com um outro atributo do dataset.
\ufffd O segundo passo é fazer a regressão entre os 
atributos correlacionados.
\ufffd Importante: esse método deve ser usado com 
muito cuidado, pois pode inserir ruído nos 
dados.
33MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes ...
\ufffd Método 7: Usar o método KNN (k- Nearest
Neighbor) \u2013 Vizinho mais próximo.
\ufffd Eficiente para atributos discretos e contínuos.
\ufffd Para atributos discretos, usar o valor mais 
freqüente entre os k vizinhos do valor faltante.
\ufffd Para atributos contínuos, usar a média entre os k
vizinhos do valor faltante.
\ufffd A única desvantagem é que esse procedimento 
pode consumir muito tempo em grandes datasets.
34MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Lidando com valores faltantes ...
\ufffd Método 8: Usar o valor mais provável que é
baseado em inferência.
\ufffd Exemplo: Determinar o valor faltante usando 
uma árvore de decisão, um modelo
Bayesiano, etc.
\ufffd O método é muito eficiente, mas é também 
muito caro computacionalmente.
35MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Ruído: erro aleatório ou variância nos valores de 
uma determinada variável.
\ufffd Valores incorretos de atributos podem ocorrer 
devido:
\ufffd Falhas nos equipamentos de coleta de dados;
\ufffd Problemas na entrada de dados;
\ufffd Problemas na transmissão de dados;
\ufffd Limitação tecnológica;
\ufffd Inconsistência na convenção de nomes;
\ufffd Transformações erradas aplicadas aos dados. 
Ruído nos dados
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Ruído
\ufffdRuído refere-se à modificação de valores originais:
\ufffd Exemplos: distorção da voz de uma pessoa quando 
está falando ao telefone ou ruídos na tela de uma TV.
Duas ondas senoidais Duas ondas senoidais + Ruído
37MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Análise de agrupamento
Outliers podem ser detectados por meios de agrupamentos (clusters). 
Intuitivamente, objetos que estão fora dos clusters são outliers.
Outlier
Outlier
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Outliers
\ufffdOutliers são objetos com características
diferentes da maioria dos outros objetos em um 
conjunto de dados.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Eliminação de inconsistências
\ufffd Erro na entrada de dados: Tipo de inconsistência 
muito comum.
\ufffd Causado quando mais de um usuário editam no mesmo 
arquivo. 
\ufffd Exemplo: para o atributo data, um usuário preenche os 
dados no formato \u201cdd/mm/aaaa\u201d, enquanto o outro 
usuário usa o formato \u201cyyyy/mm/dd\u201d. 
\ufffd Atributo com valores diferentes para a mesma 
informação:
\ufffd Exemplo: um atributo que armazena informação sobre 
Unidades da Federação assume os valores São Paulo, 
SP, S.P., S. Paulo, Sao_Paulo.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Eliminação de inconsistências ...
\ufffd Mesmo valor de um atributo para diferentes rótulos: 
O mesmo dado é representado por rótulos diferentes. 
\ufffd A correção da inconsistência seria uma alteração do 
valor do atributo Vento para uma das tuplas.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Eliminação de inconsistências ...
\ufffd Regra baseada em informações externas: Alguns dos 
dados inconsistentes podem ser corrigidos 
manualmente utilizando referências externas.
\ufffd Regra baseada em dependência de atributos: 
Algumas regras podem ser utilizadas para detectar 
violações nas restrições de integridade dos dados, 
tais como funções de dependência entre atributos.
\ufffd Regra de unicidade: Os valores de uma determinada 
tupla não podem se repetidos. Esse problema 
compromete a precisão de modelos de predição.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Eliminação de inconsistências ...
\ufffd Regra de verificação de valor ausente: A informação 
incompleta deve então ser tratada com os métodos de 
imputação.
\ufffd Regra com restrição de domínio: Podem ser usadas 
regras para que os valores de um atributo: (a) estejam 
dentro de uma faixa, (b) adotem certo padrão, (c) aceitem 
somente itens que estão em um conjunto (lista).
\ufffd Regra de nulidade: Um NULL (nulo) indica a ausência de 
valor para um atributo \u2013 não existe ou não informado:
\ufffd O valor NULL aparece muito em dados coletados quando os 
entrevistados não querem informar dados confidenciais. 
\ufffd NOT NULL é uma restrição automática para chave candidata 
(primary key), garantindo que a informação deve sempre existir,