Grátis
20 pág.

MT803_Aula2_Preparacao_Dados
Denunciar
Pré-visualização | Página 4 de 4
Atributos Relacionamentos MT-803: Tópicos em Matemática Aplicada – Aula 2. O que são objetos e atributos? • Um dataset é uma coleção de objetos e seus atributos. • Um atributo é uma propriedade ou característica de um objeto. – Exemplos: idade de uma pessoa, altura, etc. – Atributo é também conhecido como variável, campo, parâmetro ou “feature”. • Uma coleção de atributos descrevem um objeto. – Objeto é também conhecido como registro, observação, ponto, entidade ou instância. Tid Retorno Estado Civil Renda Anual Mentiu 1 Sim Solteiro 125K Não 2 Não Casado 100K Não 3 Não Solteiro 70K Não 4 Sim Casado 120K Não 5 Não Divorciado 95K Sim 6 Não Casado 60K Não 7 Sim Divorciado 220K Não 8 Não Solteiro 85K Sim 9 Não Casado 75K Não 10 Não Solteiro 90K Sim 10 Atributos Objetos MT-803: Tópicos em Matemática Aplicada – Aula 2. Tipos de Atributos � Principais tipos de atributos: � Nominal – assumem valores sem ordem natural. � Exemplos: Os meios de comunicação para transferência de tecnologia: {rádio, televisão, internet, jornal e revista}. � Numérico – assumem valores numéricos. � Exemplos: valores inteiros e reais (chuva, temperatura). � Ordinal – assumem valores com ordem natural. � Exemplos: Os estádios fenológicos da cultura de milho são: {plantio, emergência, floração e colheita}. � Intervalo � Exemplos: datas, temperaturas em Celsius ou Fahrenheit. MT-803: Tópicos em Matemática Aplicada – Aula 2. Valores de Atributos �Valores de atributos são números ou símbolos associados a um atributo. �Diferença entre atributos e valores de atributos: � Um mesmo atributo pode ser mapeado para diferentes valores de atributos: � Exemplo: altura pode ser medida em metros ou centímetros. � Diferentes atributos podem ser mapeados para o mesmo conjunto de valores: � Exemplo: Valores de atributos de ID e idade são inteiros. � Propriedades de atributos podem ser diferentes: � ID não tem limite, mas idade tem valor máximo e mínimo. MT-803: Tópicos em Matemática Aplicada – Aula 2. Valores de Atributos: Propriedades �O tipo de um atributo depende de suas propriedades: � Diferença: = ≠ � Ordem (relação): < > � Adição: + - � Multiplicação: * / � Atributo Nominal: diferença. � Atributo Ordinal: diferença e ordem. � Atributo Intervalo: diferença, ordem e adição. � Atributo Numérico: todas as 4 propriedades. MT-803: Tópicos em Matemática Aplicada – Aula 2. � Atributos precisam ser analisados cuidadosamente, pois eles têm faixa de valores diferentes. 1 2 3 5 5 7 8 15 10 4 A B C D E Domínio de um atributo MT-803: Tópicos em Matemática Aplicada – Aula 2. Atributo Transformação Comentários Nominal qualquer permutação de valores Se todos os IDs de empregados forem mudados, haverá alguma diferença? Ordinal Uma ordem preservando mudança de valores, i.e., novo_valor = f(valor_antigo) onde f é uma função monotônica. Um atributo contendo a noção de {regular, bom, excelente} pode ser representado pelos valores {1, 2, 3} ou { 0.5, 1,10}. Intervalo novo_valor =a * valor_anterior + b, onde a e b são constantes. A escala das temperaturas de Fahrenheit e Celsius diferem em termos do valor inicial. Taxa ou Proporção novo_valor = a * valor_antigo Comprimento pode ser medido em metros ou centímetros. MT-803: Tópicos em Matemática Aplicada – Aula 2. Atributos Discretos e Contínuos � Atributos Discretos: � Têm um conjunto de valores finitos. � Exemplos: CEP, o conjunto de palavras em uma coleção de documentos. � Geralmente são representados como variáveis inteiras. � Importante: atributos binários são um caso especial de atributos discretos. � Atributos Contínuos � Geralmente são representados por valores reais. � Exemplos: temperatura, altura, precipitação. � Atributos contínuos podem ser medidos e representados usando-se um número finito de dígitos. MT-803: Tópicos em Matemática Aplicada – Aula 2. �Baseados em Registros � Matriz de dados � Coleção de Documentos � Dados transacionais �Baseados em Gráficos � World Wide Web � Estruturas Moleculares �Baseados em uma Ordem (sequência) � Dado espacial � Dado temporal � Dado sequencial � Dado com sequência genética Tipos de Datasets (conjunto de dados) MT-803: Tópicos em Matemática Aplicada – Aula 2. �Dimensionality (dimensionalidade) � O desafio é a redução da dimensão. �Sparsity (esparsidade) � Somente a presença do dado conta. �Resolução � Padrões dependem de uma escala. Características de dados estruturados MT-803: Tópicos em Matemática Aplicada – Aula 2. Datasets baseados em registros �Os dados consistem em uma coleção de registros, com um conjunto fixo de atributos. MT-803: Tópicos em Matemática Aplicada – Aula 2. Matriz de Dados • Os objetos têm o mesmo conjunto fixo de atributos; • O dataset pode ser visto como um conjunto de pontos no espaço multidimensional, onde cada dimensão é um atributo. • O conjunto de dados pode ser representado por uma matriz m × n, onde cada uma das m linhas representa um objeto e as n colunas correspondem aos atributos. Nome Sexo Febre Tosse Test-1 Test-2 Test-3 Test-4 Jack M P N P N N N Mary F P N P N P N Jim M P P N N N N MT-803: Tópicos em Matemática Aplicada – Aula 2. Coleção de Documentos �Cada documento torna-se um vetor de termos: � Cada termo é uma componente (atributo) do vetor; � O valor de cada componente é o número de vezes que o termo ocorre em um documento (freqüência). se a so n tim e o u t lo st w in g a m e sco re b a ll p lay co a ch te a m MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Transacionais • Um tipo especial de dataset, onde: – Cada registro (transação) contém um conjunto de itens. – Exemplo: Lista de produtos comprados em um supermercado por um determinado cliente. {queijo, vinho}400 {café, queijo, pão, vinho}300 {queijo, torrada, vinho}200 {café, pão, pizza}100 Lista de ItensTID MT-803: Tópicos em Matemática Aplicada – Aula 2. Datasets Baseados em Gráficos �Exemplos: Grafos e Links em páginas HTML. 5 2 1 2 5 <a href="papers/papers.html#bbbb"> Data Mining </a> <li> <a href="papers/papers.html#aaaa"> Graph Partitioning </a> <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Químicos �Molécula de Benzeno : C6H6 MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Baseados em Ordem �Sequências de transações Um elemento da seqüência Itens/Eventos MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Baseados em Ordem ... � Dados de sequências genômicas. GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG MT-803: Tópicos em Matemática Aplicada – Aula 2. Dados Baseados em Ordem ... �Dados espaço-temporal. Temperatura média mensal da terra e do oceano. Janeiro