Prévia do material em texto
1 Levantamento de Dados Pré-Processamento • Agregação • Amostragem • Redução das dimensões • Seleção do conjunto de atributos • Criação de Atributo • Discretização • Transformação de atributo Agregação • Combina 2 ou mais atributos ou objetos em um único atributo ou objeto. Ex. todas as vendas de motos, carros e caminhões colocadas como venda de veículos. Número de clientes agregados por estado e não cidade • Reduz o número de dados tornando os algoritmos mais rápidos • Menos variabilidade nos dados. Ex. Clientes no estado é uma média das cidades Amostragem • Em muitos casos o banco de dados é muito grande para ser usado como inteiro tornando o desempenho ruim • Útil usar um subconjunto dos dados obtido por amostra • Útil no início da mineração de dados para se ter uma idéia do melhor algoritmo a ser utilizado • Pode ser usado também para obtenção dos resultados finais Amostragem • A amostragem funciona na suposição de que aplicar a mineração de dados em um subconjunto de dados (amostra) obterá resultados semelhantes ao da utilização do banco de dados completo • A amostra deverá ser representativa e portanto ter propriedades semelhantes ao banco de dados originais Amostragem • Amostragem ao acaso: Todos os objetos tem a mesma probabilidade de serem usados • Amostragem sem reposição: se o objeto e amostrado ele não pode ser de novo • Amostragem com reposição: se o objeto foi amostrado ele pode ser escolhido de novo podendo ser duplicado • Amostragem por faixa: dados são divididos em faixas e cada faixa é amostrada ao acaso 2 Amostragem • Se a amostra for muito grande os algoritmos rodam lentamente • Se amostra muito pequena ela não é representativa dos dados • Processo de amostragem podem interferir na qualidade dos dados obtidos Representatividade em relação ao tamanho da amostra Redução das dimensões • Quanto maior o número de atributo maior o número de dimensões • Com mais dimensões os dados ficam mais esparsos • Distância e a densidade são essenciais para vários algoritmos e são afetadas pelo número de dimensões Dispersão dos Dados Dispersão dos Dados Dispersão dos Dados 3 Redução das dimensões • Reduzir dimensões • Reduz tempo e espaço gasto pelos algoritmos • Facilita visualização dos dados • Pode eliminar atributos irrelevantes e ruído Seleção do conjunto de atributos • Selecionar apenas atributos relevantes • Diminui o número de dimensões • Muitos dados estão duplicados ou são semelhantes. Ex. Preço ao consumidor e imposto pago pode ele • Atributos irrelevantes: Número do RG ou CPF para comportamento do consumidor Seleção do conjunto de atributos • Seleção de atributos por força bruta: tenta todos os conjuntos de atributos até encontrar o melhor conjunto • Algoritmos específicos para seleção de atributos. Ex: Simulated Annealing, Algoritmos genéticos, Métodos numéricos • Algoritmos de mineração de dados faz a seleção automaticamente Criação de Atributo • Um novo atributos pode substituir atributos antigos com vantagens • Um novo atributo pode ser uma combinação dos antigos. Ex: Preço + Imposto → Faturamento Líquido (Preço – Imposto) • Os dados podem ser mapeados em um novo espaço. Ex. Transformada de Fourier Transformada de Fourier Discretização • Muitos dados são quantitativos (números) e tem variação muito grande • Em muitos casos eles seriam melhor representados de forma qualitativa (classes) • Risco de não pagamento ( 11,3% → risco baixo valor 1 ) • Taxa de sucesso em uma cirurgia ( 89,1% → Alta valor 9 ) • Algoritmos de mineração de dados ficam mais rápidos • Alguns algoritmos so funcionam com dados discretizados (Ex. Apriori) 4 Discretização Transformação de atributo • Um conjunto de atributos numéricos pode ser mapeado para outro conjunto de valores mantendo as propriedades relativas • Algumas funções comuns são : log(x), ex, |x|, xk etc. • Normalização: – Ex 10, 20, 40, 80 → 0.125 0.25 0.5 1 Similaridade • Dois objetos de dados são iguais se similaridade é 1 totalmente diferentes se for 0 • Em muitos casos é necessário medir a distância entre dois objetos Distância • Distância Euclidiana • N é o número de dimensões, pk e qk são os atributos kth para os objetos p e q. ∑ = −= n k kk qpdist 1 2)( Distância • Distância Minkowski • N é o número de dimensões, pk e qk são os atributos kth para os objetos p e q. • Generalização da distância Euclidiana r n k r kk qpdist 1 1 )||( ∑ = −= Distância Minkowski point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L1 p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0 L2 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 L∞∞∞∞ p1 p2 p3 p4 p1 0 2 3 5 p2 2 0 1 3 p3 3 1 0 2 p4 5 3 2 0 5 Correlação • A correlação mede a relação entre dois objetos de forma linear • Correlação de 1 indica que se os atributos de um objeto aumentam os atributos do outro objeto também aumentam de forma aumento proporcional • Correlação de 0 indica que não há correlação • Correlação de -1 indica que se os atributos de um objeto aumentam os atributos do outro objeto diminui de forma aumento proporcional Correlação