A maior rede de estudos do Brasil

Grátis
20 pág.
MT803_Aula2_Preparacao_Dados

Pré-visualização | Página 4 de 4

Atributos Relacionamentos
MT-803: Tópicos em Matemática Aplicada – Aula 2.
O que são objetos e atributos?
• Um dataset é uma coleção de
objetos e seus atributos.
• Um atributo é uma propriedade ou 
característica de um objeto.
– Exemplos: idade de uma 
pessoa, altura, etc.
– Atributo é também conhecido 
como variável, campo, 
parâmetro ou “feature”.
• Uma coleção de atributos descrevem 
um objeto.
– Objeto é também conhecido 
como registro, observação, 
ponto, entidade ou instância.
Tid Retorno Estado 
Civil 
Renda 
Anual Mentiu 
1 Sim Solteiro 125K Não 
2 Não Casado 100K Não 
3 Não Solteiro 70K Não 
4 Sim Casado 120K Não 
5 Não Divorciado 95K Sim 
6 Não Casado 60K Não 
7 Sim Divorciado 220K Não 
8 Não Solteiro 85K Sim 
9 Não Casado 75K Não 
10 Não Solteiro 90K Sim 
10 
 
Atributos
Objetos
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Tipos de Atributos
� Principais tipos de atributos:
� Nominal – assumem valores sem ordem natural.
� Exemplos: Os meios de comunicação para transferência de 
tecnologia: {rádio, televisão, internet, jornal e revista}.
� Numérico – assumem valores numéricos.
� Exemplos: valores inteiros e reais (chuva, temperatura).
� Ordinal – assumem valores com ordem natural.
� Exemplos: Os estádios fenológicos da cultura de milho são: 
{plantio, emergência, floração e colheita}.
� Intervalo
� Exemplos: datas, temperaturas em Celsius ou Fahrenheit.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Valores de Atributos
�Valores de atributos são números ou símbolos
associados a um atributo.
�Diferença entre atributos e valores de atributos:
� Um mesmo atributo pode ser mapeado para diferentes 
valores de atributos:
� Exemplo: altura pode ser medida em metros ou centímetros.
� Diferentes atributos podem ser mapeados para o 
mesmo conjunto de valores:
� Exemplo: Valores de atributos de ID e idade são inteiros.
� Propriedades de atributos podem ser diferentes:
� ID não tem limite, mas idade tem valor máximo e mínimo.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Valores de Atributos: Propriedades
�O tipo de um atributo depende de suas 
propriedades:
� Diferença: = ≠
� Ordem (relação): < > 
� Adição: + -
� Multiplicação: * /
� Atributo Nominal: diferença.
� Atributo Ordinal: diferença e ordem.
� Atributo Intervalo: diferença, ordem e adição.
� Atributo Numérico: todas as 4 propriedades.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
� Atributos precisam ser analisados cuidadosamente, pois eles têm 
faixa de valores diferentes.
1
2
3
5
5
7
8
15
10 4
A
B
C
D
E
Domínio de um atributo
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Atributo Transformação Comentários
Nominal qualquer permutação de valores Se todos os IDs de 
empregados forem 
mudados, haverá alguma 
diferença?
Ordinal Uma ordem preservando mudança 
de valores, i.e., 
novo_valor = f(valor_antigo)
onde f é uma função monotônica.
Um atributo contendo a 
noção de {regular, bom, 
excelente} pode ser 
representado pelos valores 
{1, 2, 3} ou { 0.5, 1,10}.
Intervalo novo_valor =a * valor_anterior + 
b, onde a e b são constantes.
A escala das temperaturas 
de Fahrenheit e Celsius
diferem em termos do valor 
inicial.
Taxa ou 
Proporção
novo_valor = a * valor_antigo Comprimento pode ser 
medido em metros ou 
centímetros.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Atributos Discretos e Contínuos
� Atributos Discretos:
� Têm um conjunto de valores finitos.
� Exemplos: CEP, o conjunto de palavras em uma coleção de 
documentos.
� Geralmente são representados como variáveis inteiras. 
� Importante: atributos binários são um caso especial de 
atributos discretos.
� Atributos Contínuos
� Geralmente são representados por valores reais.
� Exemplos: temperatura, altura, precipitação. 
� Atributos contínuos podem ser medidos e representados
usando-se um número finito de dígitos.
MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Baseados em Registros
� Matriz de dados
� Coleção de Documentos
� Dados transacionais
�Baseados em Gráficos
� World Wide Web 
� Estruturas Moleculares
�Baseados em uma Ordem (sequência)
� Dado espacial
� Dado temporal
� Dado sequencial
� Dado com sequência genética
Tipos de Datasets (conjunto de dados)
MT-803: Tópicos em Matemática Aplicada – Aula 2.
�Dimensionality (dimensionalidade)
� O desafio é a redução da dimensão.
�Sparsity (esparsidade)
� Somente a presença do dado conta.
�Resolução
� Padrões dependem de uma escala.
Características de dados estruturados
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Datasets baseados em registros
�Os dados consistem em uma coleção de 
registros, com um conjunto fixo de atributos. 
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Matriz de Dados
• Os objetos têm o mesmo conjunto fixo de atributos;
• O dataset pode ser visto como um conjunto de pontos
no espaço multidimensional, onde cada dimensão é
um atributo.
• O conjunto de dados pode ser representado por uma 
matriz m × n, onde cada uma das m linhas representa 
um objeto e as n colunas correspondem aos atributos.
Nome Sexo Febre Tosse Test-1 Test-2 Test-3 Test-4 
Jack M P N P N N N 
Mary F P N P N P N 
Jim M P P N N N N 
 
 
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Coleção de Documentos
�Cada documento torna-se um vetor de termos: 
� Cada termo é uma componente (atributo) do vetor;
� O valor de cada componente é o número de vezes
que o termo ocorre em um documento (freqüência). 
se
a
so
n
tim
e
o
u
t
lo
st
w
in
g
a
m
e
sco
re
b
a
ll
p
lay
co
a
ch
te
a
m
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Transacionais
• Um tipo especial de dataset, onde:
– Cada registro (transação) contém um conjunto de 
itens. 
– Exemplo: Lista de produtos comprados em um 
supermercado por um determinado cliente. 
{queijo, vinho}400
{café, queijo, pão, vinho}300
{queijo, torrada, vinho}200
{café, pão, pizza}100
Lista de ItensTID
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Datasets Baseados em Gráficos
�Exemplos: Grafos e Links em páginas HTML.
5
2
1
 2
5
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Químicos
�Molécula de Benzeno : C6H6
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Baseados em Ordem
�Sequências de transações
Um elemento 
da seqüência
Itens/Eventos
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Baseados em Ordem ...
� Dados de sequências genômicas.
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
MT-803: Tópicos em Matemática Aplicada – Aula 2.
Dados Baseados em Ordem ...
�Dados espaço-temporal.
Temperatura 
média mensal da 
terra e do oceano.
Janeiro

Crie agora seu perfil grátis para visualizar sem restrições.