MT803_Aula2_Preparacao_Dados
20 pág.

MT803_Aula2_Preparacao_Dados

Disciplina:Introdução à Probabilidade e A Estatística II155 materiais1.637 seguidores
Pré-visualização4 páginas
Atributos Relacionamentos

MT-803: Tópicos em Matemática Aplicada – Aula 2.

O que são objetos e atributos?
• Um dataset é uma coleção de

objetos e seus atributos.

• Um atributo é uma propriedade ou
característica de um objeto.

– Exemplos: idade de uma
pessoa, altura, etc.

– Atributo é também conhecido
como variável, campo,

parâmetro ou “feature”.

• Uma coleção de atributos descrevem
um objeto.

– Objeto é também conhecido
como registro, observação,

ponto, entidade ou instância.

Tid Retorno Estado
Civil

Renda
Anual Mentiu

1 Sim Solteiro 125K Não

2 Não Casado 100K Não

3 Não Solteiro 70K Não

4 Sim Casado 120K Não

5 Não Divorciado 95K Sim

6 Não Casado 60K Não

7 Sim Divorciado 220K Não

8 Não Solteiro 85K Sim

9 Não Casado 75K Não

10 Não Solteiro 90K Sim
10

Atributos

Objetos

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Tipos de Atributos
� Principais tipos de atributos:

� Nominal – assumem valores sem ordem natural.

� Exemplos: Os meios de comunicação para transferência de
tecnologia: {rádio, televisão, internet, jornal e revista}.

� Numérico – assumem valores numéricos.

� Exemplos: valores inteiros e reais (chuva, temperatura).

� Ordinal – assumem valores com ordem natural.

� Exemplos: Os estádios fenológicos da cultura de milho são:
{plantio, emergência, floração e colheita}.

� Intervalo

� Exemplos: datas, temperaturas em Celsius ou Fahrenheit.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Valores de Atributos
�Valores de atributos são números ou símbolos

associados a um atributo.

�Diferença entre atributos e valores de atributos:
� Um mesmo atributo pode ser mapeado para diferentes

valores de atributos:
� Exemplo: altura pode ser medida em metros ou centímetros.

� Diferentes atributos podem ser mapeados para o
mesmo conjunto de valores:

� Exemplo: Valores de atributos de ID e idade são inteiros.
� Propriedades de atributos podem ser diferentes:

� ID não tem limite, mas idade tem valor máximo e mínimo.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Valores de Atributos: Propriedades
�O tipo de um atributo depende de suas

propriedades:
� Diferença: = ≠
� Ordem (relação): < >
� Adição: + -
� Multiplicação: * /

� Atributo Nominal: diferença.
� Atributo Ordinal: diferença e ordem.
� Atributo Intervalo: diferença, ordem e adição.
� Atributo Numérico: todas as 4 propriedades.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

� Atributos precisam ser analisados cuidadosamente, pois eles têm
faixa de valores diferentes.

1

2

3

5

5

7

8

15

10 4

A

B

C

D

E

Domínio de um atributo

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Atributo Transformação Comentários

Nominal qualquer permutação de valores Se todos os IDs de

empregados forem

mudados, haverá alguma

diferença?

Ordinal Uma ordem preservando mudança

de valores, i.e.,

novo_valor = f(valor_antigo)

onde f é uma função monotônica.

Um atributo contendo a

noção de {regular, bom,

excelente} pode ser

representado pelos valores

{1, 2, 3} ou { 0.5, 1,10}.

Intervalo novo_valor =a * valor_anterior +

b, onde a e b são constantes.

A escala das temperaturas

de Fahrenheit e Celsius

diferem em termos do valor

inicial.

Taxa ou

Proporção

novo_valor = a * valor_antigo Comprimento pode ser

medido em metros ou

centímetros.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Atributos Discretos e Contínuos
� Atributos Discretos:

� Têm um conjunto de valores finitos.

� Exemplos: CEP, o conjunto de palavras em uma coleção de
documentos.

� Geralmente são representados como variáveis inteiras.

� Importante: atributos binários são um caso especial de
atributos discretos.

� Atributos Contínuos

� Geralmente são representados por valores reais.

� Exemplos: temperatura, altura, precipitação.

� Atributos contínuos podem ser medidos e representados
usando-se um número finito de dígitos.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

�Baseados em Registros
� Matriz de dados

� Coleção de Documentos

� Dados transacionais

�Baseados em Gráficos
� World Wide Web

� Estruturas Moleculares

�Baseados em uma Ordem (sequência)
� Dado espacial

� Dado temporal

� Dado sequencial

� Dado com sequência genética

Tipos de Datasets (conjunto de dados)

MT-803: Tópicos em Matemática Aplicada – Aula 2.

�Dimensionality (dimensionalidade)
� O desafio é a redução da dimensão.

�Sparsity (esparsidade)
� Somente a presença do dado conta.

�Resolução
� Padrões dependem de uma escala.

Características de dados estruturados

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Datasets baseados em registros
�Os dados consistem em uma coleção de

registros, com um conjunto fixo de atributos.

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Matriz de Dados
• Os objetos têm o mesmo conjunto fixo de atributos;

• O dataset pode ser visto como um conjunto de pontos
no espaço multidimensional, onde cada dimensão é

um atributo.

• O conjunto de dados pode ser representado por uma
matriz m × n, onde cada uma das m linhas representa

um objeto e as n colunas correspondem aos atributos.

Nome Sexo Febre Tosse Test-1 Test-2 Test-3 Test-4

Jack M P N P N N N

Mary F P N P N P N

Jim M P P N N N N

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Coleção de Documentos
�Cada documento torna-se um vetor de termos:

� Cada termo é uma componente (atributo) do vetor;
� O valor de cada componente é o número de vezes

que o termo ocorre em um documento (freqüência).

se
a
so
n

tim
e
o
u
t

lo
st

w
in

g
a
m
e

sco
re

b
a
ll

p
lay

co
a
ch

te
a
m

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Dados Transacionais
• Um tipo especial de dataset, onde:

– Cada registro (transação) contém um conjunto de
itens.

– Exemplo: Lista de produtos comprados em um
supermercado por um determinado cliente.

{queijo, vinho}400

{café, queijo, pão, vinho}300

{queijo, torrada, vinho}200

{café, pão, pizza}100

Lista de ItensTID

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Datasets Baseados em Gráficos
�Exemplos: Grafos e Links em páginas HTML.

5

2

1

 2

5

<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
<a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Dados Químicos
�Molécula de Benzeno : C6H6

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Dados Baseados em Ordem
�Sequências de transações

Um elemento

da seqüência

Itens/Eventos

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Dados Baseados em Ordem ...
� Dados de sequências genômicas.

GGTTCCGCCTTCAGCCCCGCGCC

CGCAGGGCCCGCCCCGCGCCGTC

GAGAAGGGCCCGCCTGGCGGGCG

GGGGGAGGCGGGGCCGCCCGAGC

CCAACCGAGTCCGACCAGGTGCC

CCCTCTGCTCGGCCTAGACCTGA

GCTCATTAGGCGGCAGCGGACAG

GCCAAGTAGAACACGCGAAGCGC

TGGGCTGCCTGCTGCGACCAGGG

MT-803: Tópicos em Matemática Aplicada – Aula 2.

Dados Baseados em Ordem ...

�Dados espaço-temporal.

Temperatura

média mensal da

terra e do oceano.

Janeiro