Baixe o app para aproveitar ainda mais
Prévia do material em texto
Métodos Usados na Preparação de Dados Stanley Robson de M. Oliveira Limpeza Integração e Transformação de Dados 2MT-803: Tópicos em Matemática Aplicada – Aula 2. �Por que pré-processar os dados? �Sumarização de dados descritivos. � Limpeza dos dados. � Integração e transformação de dados. Índice 3MT-803: Tópicos em Matemática Aplicada – Aula 2. � No mundo real, geralmente os dados são (têm): � Incompletos: ausência de valores de atributos, ausência de atributos de interesse, ou dados com valores agregados. � Ruídos: existências de erros ou outliers. � Inconsistentes: informações desatualizadas ou oriundas de erros no momento de introdução dos dados. Por que pré-processar os dados? 4MT-803: Tópicos em Matemática Aplicada – Aula 2. Por que pré-processar os dados? … � Sem qualidade de dados, não há qualidade nos resultados da mineração de dados! � Decisões com qualidade são baseadas em dados com qualidade. � Data Warehouse precisa de integração consistente de qualidade de dados. 5MT-803: Tópicos em Matemática Aplicada – Aula 2. � Limpeza dos dados � Preencher valores faltantes; � Reduzir ruídos nos dados; � Identificar e remover outliers; � Eliminar inconsistências. � Integração de dados � Integração de múltiplos repositórios; � Cubos de dados; � Arquivos. Principais tarefas no pré-processamento MT-803: Tópicos em Matemática Aplicada – Aula 2. Principais tarefas no pré-processamento � Transformação de dados � Normalização; � Agregação. � Redução de dados � Obtenção da representação reduzida em volume, mas que produza resultados analíticos similares. � Discretização de dados � Uma forma de redução de dados, mas com interesse particular, especialmente para dados numéricos. 7MT-803: Tópicos em Matemática Aplicada – Aula 2. Formas de pré-processamento de dados 1, 3, 5, 7, 9 0.00, 0.25, 0.50, 0.75, 1.00 • Limpeza dos dados • Integração dos dados • Transformação dos dados • Redução dos dados [0, 1] A1 A2 A3 A4 A5 . . . A125 A1 A2 A3 A4. . . A681 2 3 . . . 10800 1 2 . . . 5425 8MT-803: Tópicos em Matemática Aplicada – Aula 2. �Por que pré-processar os dados? �Sumarização de dados descritivos. � Limpeza dos dados. � Integração e transformação de dados. Índice 9MT-803: Tópicos em Matemática Aplicada – Aula 2. � Motivação: � Melhor entendimento sobre os dados: tendência central, variação e distribuição. � Medidas de posição e de dispersão dos dados: � média, max, min, quartils, outliers, variância, etc. � Dimensões numéricas: relação c/ intervalos ordenados. � Dispersão de dados: analisada em múltiplas granularidades. � Análise de Boxplot ou quartil em intervalos ordenados. � Medidas de Assimetria: (simetria e assimetria) � Indicador da forma da distribuição dos dados. Características descritivas de dados 10MT-803: Tópicos em Matemática Aplicada – Aula 2. Medidas de Posição (tendência central) � Média aritmética simples: � Média aritmética ponderada: � Moda (Mo): � É o valor mais frequente em um conjunto de valores numéricos. � Mediana (Md): � Dado um grupo de dados ordenados, a mediana separa a metade inferior da amostra da metade superior. ∑ = = n i ix n x 1 1 ∑ ∑ = == n i i n i ii w xw x 1 1 N x∑ =µ ΧΧ 11MT-803: Tópicos em Matemática Aplicada – Aula 2. Exemplos � Para o seguinte conjunto: {1, 3, 5, 7, 9} � A média é 5; � A mediana é 5. � No entanto, para o conjunto: {1, 2, 7, 7, 13} � A mediana é 7, enquanto a média é 6; � A moda é 7. � Qual seria a mediana para o conjunto: {1, 2, 4, 10, 12, 13}? Mediana = (4 + 10)/2 = 7. MT-803: Tópicos em Matemática Aplicada – Aula 2. Separatrizes � Não são medidas de tendência central. � As separatrizes estão ligadas à mediana relativamente à sua característica de separar a série em duas partes que apresentam o mesmo número de valores. � As separatrizes são: � Quartil: divide um conjunto de dados em quatro partes iguais. � Decil: divide um conjunto de dados em dez partes iguais. � Percentil: divide um conjunto de dados em cem partes iguais. MT-803: Tópicos em Matemática Aplicada – Aula 2. Exemplo de Separatrizes � Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais: � Se (Md - Q1) = (Q3 - Md) => distribuição simétrica. � Se (Md - Q1) < (Q3 - Md) => assimetria à direita ou positiva; � Se (Md - Q1) > (Q3 - Md) => assimetria à esquerda ou negativa. 14MT-803: Tópicos em Matemática Aplicada – Aula 2. � Mediana, média e moda de dados com distribuição simétrica e assimétrica. Mean Median Mode Distribuição Simétrica e Assimétrica 15MT-803: Tópicos em Matemática Aplicada – Aula 2. Medindo a dispersão dos dados � Quartils, outliers e boxplots � Quartils: Q1 (25 o percentil), Q3 (75 o percentil). � Amplitude interquartílica (Inter-quartile range): IQR = Q3 –Q1 (50% dos dados). � Sumário dos cinco números : min, Q1, Mediana, Q3, max. � Boxplot: uma linha central mostrando a mediana, uma linha inferior mostrando o primeiro quartil, uma linha superior mostrando o terceiro quartil. � Outliers: Limite Inferior = Q1 – 1.5 x IQR; Limite Superior = Q3 + 1.5 x IQR. MT-803: Tópicos em Matemática Aplicada – Aula 2. Medindo a dispersão dos dados ... � Variância e desvio padrão (amostra: s, população: σ) � Variância: � Desvio padrão s (ou σ) é a raiz quadrada da variância s2 (ou σ2) ∑ ∑∑ = == − − =− − = n i n i ii n i i x n x n xx n s 1 1 22 1 22 ])( 1 [ 1 1 )( 1 1 ∑∑ == −=−= n i i n i i x N x N 1 22 1 22 1)( 1 µµσ 17MT-803: Tópicos em Matemática Aplicada – Aula 2. Análise de Boxplot � Boxplot: � O p-ésimo percentil tem no mínimo p% dos valores abaixo daquele ponto e no mínimo (100 - p)% dos valores acima. � Se uma altura de 1,80m é o 90o. percentil de uma turma de estudantes, então 90% da turma tem alturas menores que 1,80m e 10% têm altura superior a 1,80m. outlier 10th percentile 25th percentile 75th percentile 50th percentile 90th percentile � Um percentil é uma medida da posição relativa de uma unidade observacional em relação a todas as outras. 18MT-803: Tópicos em Matemática Aplicada – Aula 2. Exemplo de BoxPlots � Boxplots podem ser usados para comparar a dispersão dos valores de atributos. 19MT-803: Tópicos em Matemática Aplicada – Aula 2. 95% −3 −2 −1 0 +1 +2 +3 � A distribuição normal com média μμμμ e desvio padrão σσσσ: � No intervalo de μ–σ até μ+σ: contém 68% das observações; � No intervalo de μ–2σ até μ+2σ: contém 95% das observações; � No intervalo de μ–3σ até μ+3σ: contém 99.7% das observações. 68% −3 −2 −1 0 +1 +2 +3 99.7% −3 −2 −1 0 +1 +2 +3 Propriedades da distribuição normal 20MT-803: Tópicos em Matemática Aplicada – Aula 2. Análise de Histogramas � Gráfico que mostra a estatística básica da descrição de classes. � Histograma de Freqüências � Mostra a distribuição dos valores de uma variável; � Consiste em um conjunto de retângulos, em que cada retângulo representa a freqüência de uma das classes presentes nos dados. (a) Amplitudes iguais (b) Amplitude desiguais Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, 21/03/2005. 21MT-803: Tópicos em Matemática Aplicada – Aula 2. � Coeficiente de correlação (também conhecido como coeficiente de Pearson): Onde n é o número de observações, e são as médias das variáveis A e B, σA e σB são os devios-padrão de A e B. � Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior for o valor rA,B, maior será a correlação entres as variáveis A e B). � rA,B = 0: A e B são independentes ou não possuem relacionamento; � rA,B < 0: A e B são negativamente correlacionadas. BABA n BAnAB n BBAA r BA σσσσ )1( )( )1( ))(( , − − = − −− = ∑∑ A B Análise de correlação 22MT-803: Tópicos em Matemática Aplicada – Aula 2. Exemplos de diagramas de dispersão Relacionamento negativo moderado Cerca de -0,7 Relacionamento negativo perfeito -1,0 Relacionamento positivo moderadoCerca de 0,7 Relacionamento positivo perfeito+1,00 Diagrama de dispersãoDescrição do relacionamentoValor de r 23MT-803: Tópicos em Matemática Aplicada – Aula 2. Exemplos de ausência de relacionamento 24MT-803: Tópicos em Matemática Aplicada – Aula 2. �Por que pré-processar os dados? �Sumarização de dados descritivos. � Limpeza dos dados. � Integração e transformação de dados. Índice 25MT-803: Tópicos em Matemática Aplicada – Aula 2. � Relevância: � “Data cleaning is one of the three biggest problems in data warehousing” — Ralph Kimball. � “Data cleaning is the number one problem in data warehousing” — DCI (Downtown Cincinnati Inc.) survey. � Procedimentos para limpeza dos dados: � Preencher valores faltantes; � Identificar outliers e remover ruídos nos dados; � Corrigir e eliminar inconsistências. � Remover redundâncias causadas pela integração de dados. Limpeza dos dados 26MT-803: Tópicos em Matemática Aplicada – Aula 2. � Em muitos casos, dados podem ser incompletos: � Muitas observações podem não possuir valores para alguns atributos (Ex.: renda anual de clientes em dados de vendas). � Valores faltantes ocorrem devido: � Problemas com equipamentos (perdas de dados); � Inconsistência com outros registros e portanto são deletados; � Dados não digitados por causa de mal interpretação; � Alguns dados não são importantes no momento da entrada; � Falta de registros históricos ou mudança nos dados. � Em muitos casos, valores faltantes podem ser inferidos. Valores faltantes 27MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes � Método 1: Ignorar as observações (registros): � A alternativa mais simples. � Deve ser usado somente se a observação possui vários atributos com valores faltantes. � É um método ineficiente: � Parte da informação é perdida; � É um método pobre quando a porcentagem de valores faltantes varia entre os atributos. 28MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... � Método 2: Preencher os valores manualmente. � Essa alternativa só vale a pena se o dataset for muito pequeno. � Ineficiência desse método: � Consome muito tempo; � Impraticável para grandes datasets. 29MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... � Método 3: Usar a média do atributo para preencher os valores faltantes. � Exemplo: se idade média de um grupo de pessoas é 45, esse valor deve ser usado para preencher os valores faltantes. � Vantagem: � Procedimento simples de ser implementado. 30MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... � Método 4: Para atributo nominal, usar a moda para preencher os valores faltantes. � A moda é o valor mais freqüente em um conjunto de valores. � Pode não ser uma boa alternativa quando o atributo considerado é o atributo classe. 31MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... � Método 5: Usar a média para observações pertencentes a uma mesma classe. � Nesse caso, o valor faltante não está no atributo classe. � Exemplo: se um cliente não possui informação sobre o consumo mensal de cartão de crédito, substitua o valor faltante pela média de consumo de clientes na categoria (mesma classe). � Em caso de atributo nominal (não-classe), use a moda do atributo considerando as observações que pertencem a mesma classe. 32MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... � Método 6: Preencher os valores faltantes por meio de uma regressão linear. � O primeiro passo é identificar se o atributo com valores faltantes tem uma boa correlação (r > 0,7) com um outro atributo do dataset. � O segundo passo é fazer a regressão entre os atributos correlacionados. � Importante: esse método deve ser usado com muito cuidado, pois pode inserir ruído nos dados. 33MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... � Método 7: Usar o método KNN (k- Nearest Neighbor) – Vizinho mais próximo. � Eficiente para atributos discretos e contínuos. � Para atributos discretos, usar o valor mais freqüente entre os k vizinhos do valor faltante. � Para atributos contínuos, usar a média entre os k vizinhos do valor faltante. � A única desvantagem é que esse procedimento pode consumir muito tempo em grandes datasets. 34MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com valores faltantes ... � Método 8: Usar o valor mais provável que é baseado em inferência. � Exemplo: Determinar o valor faltante usando uma árvore de decisão, um modelo Bayesiano, etc. � O método é muito eficiente, mas é também muito caro computacionalmente. 35MT-803: Tópicos em Matemática Aplicada – Aula 2. � Ruído: erro aleatório ou variância nos valores de uma determinada variável. � Valores incorretos de atributos podem ocorrer devido: � Falhas nos equipamentos de coleta de dados; � Problemas na entrada de dados; � Problemas na transmissão de dados; � Limitação tecnológica; � Inconsistência na convenção de nomes; � Transformações erradas aplicadas aos dados. Ruído nos dados MT-803: Tópicos em Matemática Aplicada – Aula 2. Ruído �Ruído refere-se à modificação de valores originais: � Exemplos: distorção da voz de uma pessoa quando está falando ao telefone ou ruídos na tela de uma TV. Duas ondas senoidais Duas ondas senoidais + Ruído 37MT-803: Tópicos em Matemática Aplicada – Aula 2. Análise de agrupamento Outliers podem ser detectados por meios de agrupamentos (clusters). Intuitivamente, objetos que estão fora dos clusters são outliers. Outlier Outlier MT-803: Tópicos em Matemática Aplicada – Aula 2. Outliers �Outliers são objetos com características diferentes da maioria dos outros objetos em um conjunto de dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. Eliminação de inconsistências � Erro na entrada de dados: Tipo de inconsistência muito comum. � Causado quando mais de um usuário editam no mesmo arquivo. � Exemplo: para o atributo data, um usuário preenche os dados no formato “dd/mm/aaaa”, enquanto o outro usuário usa o formato “yyyy/mm/dd”. � Atributo com valores diferentes para a mesma informação: � Exemplo: um atributo que armazena informação sobre Unidades da Federação assume os valores São Paulo, SP, S.P., S. Paulo, Sao_Paulo. MT-803: Tópicos em Matemática Aplicada – Aula 2. Eliminação de inconsistências ... � Mesmo valor de um atributo para diferentes rótulos: O mesmo dado é representado por rótulos diferentes. � A correção da inconsistência seria uma alteração do valor do atributo Vento para uma das tuplas. MT-803: Tópicos em Matemática Aplicada – Aula 2. Eliminação de inconsistências ... � Regra baseada em informações externas: Alguns dos dados inconsistentes podem ser corrigidos manualmente utilizando referências externas. � Regra baseada em dependência de atributos: Algumas regras podem ser utilizadas para detectar violações nas restrições de integridade dos dados, tais como funções de dependência entre atributos. � Regra de unicidade: Os valores de uma determinada tupla não podem se repetidos. Esse problema compromete a precisão de modelos de predição. MT-803: Tópicos em Matemática Aplicada – Aula 2. Eliminação de inconsistências ... � Regra de verificação de valor ausente: A informação incompleta deve então ser tratada com os métodos de imputação. � Regra com restrição de domínio: Podem ser usadas regras para que os valores de um atributo: (a) estejam dentro de uma faixa, (b) adotem certo padrão, (c) aceitem somente itens que estão em um conjunto (lista). � Regra de nulidade: Um NULL (nulo) indica a ausência de valor para um atributo – não existe ou não informado: � O valor NULL aparece muito em dados coletados quando os entrevistados não querem informar dados confidenciais. � NOT NULL é uma restrição automática para chave candidata (primary key), garantindo que a informação deve sempre existir,como no caso do CPF de um cliente. 43MT-803: Tópicos em Matemática Aplicada – Aula 2. �Por que pré-processar os dados? �Sumarização de dados descritivos. � Limpeza dos dados. � Integração e transformação de dados. Índice MT-803: Tópicos em Matemática Aplicada – Aula 2. Integração de dados � Processo que combina dados residentes em diferentes fontes, mantendo a consistência e a coerência dos dados integrados. Fertilidade Pedologia Mapeamento BD Solos Dados Integrados ETC 45MT-803: Tópicos em Matemática Aplicada – Aula 2. � Metadados podem ser utilizados para ajudar a unificar os atributos e transformar os dados. � O atributo Sigla do primeiro esquema assume os valores T e P, representando cultura temporária e cultura perene, enquanto no segundo esquema, os valores do atributo Sigla são CT e CP. Integração de esquemas 46MT-803: Tópicos em Matemática Aplicada – Aula 2. Lidando com redundância na integração � Dados redundantes geralmente provêm da integração de múltiplas fontes de dados: � Identificação de objeto: o mesmo atributo pode ter diferentes nomes em diferentes datasets; � Dados derivados: um atributo pode ser um “atributo derivado” uma outra tabela (Ex.: atributo receita proveniente de serviço, patente, etc.). � Atributos redundantes podem ser detectados por meio de análise de correlação. � Lembrando: correlação mede a força, a intensidade ou grau de relacionamento entre 2 ou mais variáveis. 47MT-803: Tópicos em Matemática Aplicada – Aula 2. � Coeficiente de correlação (também conhecido como coeficiente de Pearson): Onde n é o número de observações, e são as médias das variáveis A e B, σA e σB são os devios-padrão de A e B. � Se rA,B > 0, A e B são positivamente correlacionadas (quanto maior for o valor rA,B, maior será a correlação entres as variáveis A e B). � rA,B = 0: A e B são independentes ou não possuem relacionamento; � rA,B < 0: A e B são negativamente correlacionadas. BABA n BAnAB n BBAA r BA σσσσ )1( )( )1( ))(( , − − = − −− = ∑∑ A B Análise de correlação (dados numéricos) 48MT-803: Tópicos em Matemática Aplicada – Aula 2. Análise de correlação (dados categóricos) � χχχχ2 (teste do qui-quadrado) � As freqüências observadas são obtidas diretamente dos dados das amostras, enquanto que as freqüências esperadas são calculadas a partir destas. � Quanto maior o valor de χχχχ2, mais provável é a correlação das variáveis. � Cuidado: Correlação não implica casualidade: � Número de hospitais e número carros roubados em uma cidade pode ser correlacionado; � Ambas as variáveis estão ligadas com uma terceira variável: população. ∑ − = Expected ExpectedObserved 22 )(χ 49MT-803: Tópicos em Matemática Aplicada – Aula 2. Qui-quadrado (χ2) � O teste do χχχχ2 é muito eficiente para avaliar a associação existente entre variáveis qualitativas. � O analista de dados estará sempre trabalhando com duas hipóteses: � H0: não há associação entre os atributos (independência) � H1: há associação entre os atributos. � A hipótese H0 é rejeitada para valores elevados de χχχχ2. � O cálculo dos graus de liberdade de χχχχ2 é dado por: gl = (número de linhas – 1) × (número de colunas – 1) 50MT-803: Tópicos em Matemática Aplicada – Aula 2. Qui-quadrado (χ2) ... A forma da função de densidade de χ2 Aceita H0 se χ2 está nesse intervalo Probabilidade de rejeitar H0 Rejeitamos a hipótese nula se χχχχ2 for maior que o valor crítico fornecido pela tabela. Para 1 grau de liberdade, o valor crítico é 3,841. Valor crítico p/ nível de significância de 5% Aceita H1 51MT-803: Tópicos em Matemática Aplicada – Aula 2. � Os números entre parênteses são os valores esperados, calculados com base na distribuição dos dados das duas categorias. � O resultado mostra que gostar_ficção_científica e jogar_xadrez são correlacionadas nesse grupo: 93.507 840 )8401000( 360 )360200( 210 )21050( 90 )90250( 22222 = − + − + − + − =χ 15001200300Soma (colunas) 10501000(840)50(210)Não gosta de ficção científica 450200(360)250(90)Gosta de ficção científica Soma (linhas)Não joga xadrezJoga xadrez Exemplo do cálculo de χ2 Neste caso, a hipótese nula é rejeitada, pois 507.93 > 3.841. Então, as variáveis estudadas são correlacionadas. 52MT-803: Tópicos em Matemática Aplicada – Aula 2. � Principais métodos para transformação de dados: (transformações nos valores de atributos): � Normalização Min-Max; � Normalização Z-score; � Normalização por escala decimal. Transformação de dados 53MT-803: Tópicos em Matemática Aplicada – Aula 2. Normalização � Normalização⇒ variáveis com mesmo peso. � Min-Max para um atributo f: � Z-score : � Desvio absoluto médio : � Por escala decimal: fff novoMinnovoMinnovoMax x ff fif if S +−× − − = )( minmax min f fif if mx z σ − = |)|...|||(|1 21 fnffffff mxmxmxns −++−+−= j v v 10 '= Onde j é o menor inteiro tal que Max(|ν’|) < 1 54MT-803: Tópicos em Matemática Aplicada – Aula 2. Exemplos de normalização � Normalização Min-Max: [novo_minA, novo_maxA] � Ex. Suponha que o atributo salário varia de R$12,000 a R$98,000. Qual é o valor do salário R$73,600 no intervalo [0.0, 1.0]? � Normalização Z-score (μ: média, σ: desvio padrão): � Ex. Seja μ = 54,000 e σ = 16,000. Então fff novoMinnovoMinnovoMax x ff fif if S +−× − − = )( minmax min 716.00)00.1( 000,12000,98 000,12600,73 =+− − − 225.1 000,16 000,54600,73 = − f fif if mx z σ − = Aspectos Relevantes na fase de Preparação de Dados Stanley Robson de M. Oliveira MT-803: Tópicos em Matemática Aplicada – Aula 2. � Você sabe que Mineração de Dados é um projeto contínuo de busca de inteligência e inferência aplicada aos dados? � Você sabe com detalhe qual é o seu problema? � Seus objetivos e metas estão claramente definidos? � Você definiu o grau de suas expectativas? Qual o resultado desejado? Fatores para o Sucesso Mineração de Dados MT-803: Tópicos em Matemática Aplicada – Aula 2. � Existem requisitos de análises complexas, tendências escondidas, perfis de comportamento, verificação de hipóteses? � Você detém técnicas necessárias e possui equipe com domínio de análise de dados? � Você tem os dados necessários, na granularidade desejada? Fatores para o Sucesso Mineração de Dados MT-803: Tópicos em Matemática Aplicada – Aula 2. A fase de pré-processamento de dados � No mundo real, dados coletados e organizados tendem a ser: � incompletos; � fora de padrões; � redundantes; e � inconsistentes. � A fase de pré-processamento de dados inicia- se após a coleta e organização desses dados. � Esta fase pode consumir até 60% do tempo disponível para exploração de dados (Pyle,1999). MT-803: Tópicos em Matemática Aplicada – Aula 2. A importância da preparação de dados � Preparação de dados: a etapa que consome a maior parte de tempo no processo de KDD. � O sucesso ou fracasso de um projeto de mineração de dados está relacionado à preparação de dados. � A preparação de dados ajuda um analista: � Interpretar melhor os resultados; � Entender os limites nos dados. MT-803: Tópicos em Matemática Aplicada – Aula 2. A importância da preparação de dados � CASO 1- Preparação de dados p/ Warehousing: � Ineficiente para algumas tarefas de mineração; � Compromete a precisão dos modelos; � A preparação pode destruir informações úteis para o processo de mineração de dados. � CASO 2 - Preparação de dados p/ Mineração: � Melhora fortemente a precisão do modelo; � Produz grande economia em termos de tempo, esforço e dinheiro. MT-803: Tópicos em Matemática Aplicada – Aula 2. Exploração de Dados: Estágios 254c. Modelagem 3154b. Explorar cenários 15604a. Preparação 4. Mineração de dados 5113. Especificação da implementação 1492. Explorar possíveis soluções 15101. Identificação do Problema Importância p/ Sucesso (% do total) Tempo Necessário (% do total) 20 80 80 20 Caracterização e Representação de Dados Stanley Robson de M. OliveiraAtributos Relacionamentos MT-803: Tópicos em Matemática Aplicada – Aula 2. O que são objetos e atributos? • Um dataset é uma coleção de objetos e seus atributos. • Um atributo é uma propriedade ou característica de um objeto. – Exemplos: idade de uma pessoa, altura, etc. – Atributo é também conhecido como variável, campo, parâmetro ou “feature”. • Uma coleção de atributos descrevem um objeto. – Objeto é também conhecido como registro, observação, ponto, entidade ou instância. Tid Retorno Estado Civil Renda Anual Mentiu 1 Sim Solteiro 125K Não 2 Não Casado 100K Não 3 Não Solteiro 70K Não 4 Sim Casado 120K Não 5 Não Divorciado 95K Sim 6 Não Casado 60K Não 7 Sim Divorciado 220K Não 8 Não Solteiro 85K Sim 9 Não Casado 75K Não 10 Não Solteiro 90K Sim 10 Atributos Objetos MT-803: Tópicos em Matemática Aplicada – Aula 2. Tipos de Atributos � Principais tipos de atributos: � Nominal – assumem valores sem ordem natural. � Exemplos: Os meios de comunicação para transferência de tecnologia: {rádio, televisão, internet, jornal e revista}. � Numérico – assumem valores numéricos. � Exemplos: valores inteiros e reais (chuva, temperatura). � Ordinal – assumem valores com ordem natural. � Exemplos: Os estádios fenológicos da cultura de milho são: {plantio, emergência, floração e colheita}. � Intervalo � Exemplos: datas, temperaturas em Celsius ou Fahrenheit. MT-803: Tópicos em Matemática Aplicada – Aula 2. Valores de Atributos �Valores de atributos são números ou símbolos associados a um atributo. �Diferença entre atributos e valores de atributos: � Um mesmo atributo pode ser mapeado para diferentes valores de atributos: � Exemplo: altura pode ser medida em metros ou centímetros. � Diferentes atributos podem ser mapeados para o mesmo conjunto de valores: � Exemplo: Valores de atributos de ID e idade são inteiros. � Propriedades de atributos podem ser diferentes: � ID não tem limite, mas idade tem valor máximo e mínimo. MT-803: Tópicos em Matemática Aplicada – Aula 2. Valores de Atributos: Propriedades �O tipo de um atributo depende de suas propriedades: � Diferença: = ≠ � Ordem (relação): < > � Adição: + - � Multiplicação: * / � Atributo Nominal: diferença. � Atributo Ordinal: diferença e ordem. � Atributo Intervalo: diferença, ordem e adição. � Atributo Numérico: todas as 4 propriedades. MT-803: Tópicos em Matemática Aplicada – Aula 2. � Atributos precisam ser analisados cuidadosamente, pois eles têm faixa de valores diferentes. 1 2 3 5 5 7 8 15 10 4 A B C D E Domínio de um atributo MT-803: Tópicos em Matemática Aplicada – Aula 2. Atributo Transformação Comentários Nominal qualquer permutação de valores Se todos os IDs de empregados forem mudados, haverá alguma diferença? Ordinal Uma ordem preservando mudança de valores, i.e., novo_valor = f(valor_antigo) onde f é uma função monotônica. Um atributo contendo a noção de {regular, bom, excelente} pode ser representado pelos valores {1, 2, 3} ou { 0.5, 1,10}. Intervalo novo_valor =a * valor_anterior + b, onde a e b são constantes. A escala das temperaturas de Fahrenheit e Celsius diferem em termos do valor inicial. Taxa ou Proporção novo_valor = a * valor_antigo Comprimento pode ser medido em metros ou centímetros. MT-803: Tópicos em Matemática Aplicada – Aula 2. Atributos Discretos e Contínuos � Atributos Discretos: � Têm um conjunto de valores finitos. � Exemplos: CEP, o conjunto de palavras em uma coleção de documentos. � Geralmente são representados como variáveis inteiras. � Importante: atributos binários são um caso especial de atributos discretos. � Atributos Contínuos � Geralmente são representados por valores reais. � Exemplos: temperatura, altura, precipitação. � Atributos contínuos podem ser medidos e representados usando-se um número finito de dígitos. MT-803: Tópicos em Matemática Aplicada – Aula 2. �Baseados em Registros � Matriz de dados � Coleção de Documentos � Dados transacionais �Baseados em Gráficos � World Wide Web � Estruturas Moleculares �Baseados em uma Ordem (sequência) � Dado espacial � Dado temporal � Dado sequencial � Dado com sequência genética Tipos de Datasets (conjunto de dados) MT-803: Tópicos em Matemática Aplicada – Aula 2. �Dimensionality (dimensionalidade) � O desafio é a redução da dimensão. �Sparsity (esparsidade) � Somente a presença do dado conta. �Resolução � Padrões dependem de uma escala. Características de dados estruturados MT-803: Tópicos em Matemática Aplicada – Aula 2. Datasets baseados em registros �Os dados consistem em uma coleção de registros, com um conjunto fixo de atributos. MT-803: Tópicos em Matemática Aplicada – Aula 2. Matriz de Dados • Os objetos têm o mesmo conjunto fixo de atributos; • O dataset pode ser visto como um conjunto de pontos no espaço multidimensional, onde cada dimensão é um atributo. • O conjunto de dados pode ser representado por uma matriz m × n, onde cada uma das m linhas representa um objeto e as n colunas correspondem aos atributos. Nome Sexo Febre Tosse Test-1 Test-2 Test-3 Test-4 Jack M P N P N N N Mary F P N P N P N Jim M P P N N N N MT-803: Tópicos em Matemática Aplicada – Aula 2. Coleção de Documentos �Cada documento torna-se um vetor de termos: � Cada termo é uma componente (atributo) do vetor; � O valor de cada componente é o número de vezes que o termo ocorre em um documento (freqüência). se a so n tim e o u t lo st w in g a m e sco re b a ll p lay co a ch te a m MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Transacionais • Um tipo especial de dataset, onde: – Cada registro (transação) contém um conjunto de itens. – Exemplo: Lista de produtos comprados em um supermercado por um determinado cliente. {queijo, vinho}400 {café, queijo, pão, vinho}300 {queijo, torrada, vinho}200 {café, pão, pizza}100 Lista de ItensTID MT-803: Tópicos em Matemática Aplicada – Aula 2. Datasets Baseados em Gráficos �Exemplos: Grafos e Links em páginas HTML. 5 2 1 2 5 <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Químicos �Molécula de Benzeno : C6H6 MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Baseados em Ordem �Sequências de transações Um elemento da seqüência Itens/Eventos MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Baseados em Ordem ... � Dados de sequências genômicas. GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Baseados em Ordem ... �Dados espaço-temporal. Temperatura média mensal da terra e do oceano. Janeiro
Compartilhar