MT803_Aula2_Preparacao_Dados
20 pág.

MT803_Aula2_Preparacao_Dados


DisciplinaIntrodução à Probabilidade e A Estatística II218 materiais1.685 seguidores
Pré-visualização4 páginas
Atributos Relacionamentos
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
O que são objetos e atributos?
\u2022 Um dataset é uma coleção de
objetos e seus atributos.
\u2022 Um atributo é uma propriedade ou 
característica de um objeto.
\u2013 Exemplos: idade de uma 
pessoa, altura, etc.
\u2013 Atributo é também conhecido 
como variável, campo, 
parâmetro ou \u201cfeature\u201d.
\u2022 Uma coleção de atributos descrevem 
um objeto.
\u2013 Objeto é também conhecido 
como registro, observação, 
ponto, entidade ou instância.
Tid Retorno Estado 
Civil 
Renda 
Anual Mentiu 
1 Sim Solteiro 125K Não 
2 Não Casado 100K Não 
3 Não Solteiro 70K Não 
4 Sim Casado 120K Não 
5 Não Divorciado 95K Sim 
6 Não Casado 60K Não 
7 Sim Divorciado 220K Não 
8 Não Solteiro 85K Sim 
9 Não Casado 75K Não 
10 Não Solteiro 90K Sim 
10 
 
Atributos
Objetos
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Tipos de Atributos
\ufffd Principais tipos de atributos:
\ufffd Nominal \u2013 assumem valores sem ordem natural.
\ufffd Exemplos: Os meios de comunicação para transferência de 
tecnologia: {rádio, televisão, internet, jornal e revista}.
\ufffd Numérico \u2013 assumem valores numéricos.
\ufffd Exemplos: valores inteiros e reais (chuva, temperatura).
\ufffd Ordinal \u2013 assumem valores com ordem natural.
\ufffd Exemplos: Os estádios fenológicos da cultura de milho são: 
{plantio, emergência, floração e colheita}.
\ufffd Intervalo
\ufffd Exemplos: datas, temperaturas em Celsius ou Fahrenheit.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Valores de Atributos
\ufffdValores de atributos são números ou símbolos
associados a um atributo.
\ufffdDiferença entre atributos e valores de atributos:
\ufffd Um mesmo atributo pode ser mapeado para diferentes 
valores de atributos:
\ufffd Exemplo: altura pode ser medida em metros ou centímetros.
\ufffd Diferentes atributos podem ser mapeados para o 
mesmo conjunto de valores:
\ufffd Exemplo: Valores de atributos de ID e idade são inteiros.
\ufffd Propriedades de atributos podem ser diferentes:
\ufffd ID não tem limite, mas idade tem valor máximo e mínimo.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Valores de Atributos: Propriedades
\ufffdO tipo de um atributo depende de suas 
propriedades:
\ufffd Diferença: = \u2260
\ufffd Ordem (relação): < > 
\ufffd Adição: + -
\ufffd Multiplicação: * /
\ufffd Atributo Nominal: diferença.
\ufffd Atributo Ordinal: diferença e ordem.
\ufffd Atributo Intervalo: diferença, ordem e adição.
\ufffd Atributo Numérico: todas as 4 propriedades.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffd Atributos precisam ser analisados cuidadosamente, pois eles têm 
faixa de valores diferentes.
1
2
3
5
5
7
8
15
10 4
A
B
C
D
E
Domínio de um atributo
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Atributo Transformação Comentários
Nominal qualquer permutação de valores Se todos os IDs de 
empregados forem 
mudados, haverá alguma 
diferença?
Ordinal Uma ordem preservando mudança 
de valores, i.e., 
novo_valor = f(valor_antigo)
onde f é uma função monotônica.
Um atributo contendo a 
noção de {regular, bom, 
excelente} pode ser 
representado pelos valores 
{1, 2, 3} ou { 0.5, 1,10}.
Intervalo novo_valor =a * valor_anterior + 
b, onde a e b são constantes.
A escala das temperaturas 
de Fahrenheit e Celsius
diferem em termos do valor 
inicial.
Taxa ou 
Proporção
novo_valor = a * valor_antigo Comprimento pode ser 
medido em metros ou 
centímetros.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Atributos Discretos e Contínuos
\ufffd Atributos Discretos:
\ufffd Têm um conjunto de valores finitos.
\ufffd Exemplos: CEP, o conjunto de palavras em uma coleção de 
documentos.
\ufffd Geralmente são representados como variáveis inteiras. 
\ufffd Importante: atributos binários são um caso especial de 
atributos discretos.
\ufffd Atributos Contínuos
\ufffd Geralmente são representados por valores reais.
\ufffd Exemplos: temperatura, altura, precipitação. 
\ufffd Atributos contínuos podem ser medidos e representados
usando-se um número finito de dígitos.
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffdBaseados em Registros
\ufffd Matriz de dados
\ufffd Coleção de Documentos
\ufffd Dados transacionais
\ufffdBaseados em Gráficos
\ufffd World Wide Web 
\ufffd Estruturas Moleculares
\ufffdBaseados em uma Ordem (sequência)
\ufffd Dado espacial
\ufffd Dado temporal
\ufffd Dado sequencial
\ufffd Dado com sequência genética
Tipos de Datasets (conjunto de dados)
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
\ufffdDimensionality (dimensionalidade)
\ufffd O desafio é a redução da dimensão.
\ufffdSparsity (esparsidade)
\ufffd Somente a presença do dado conta.
\ufffdResolução
\ufffd Padrões dependem de uma escala.
Características de dados estruturados
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Datasets baseados em registros
\ufffdOs dados consistem em uma coleção de 
registros, com um conjunto fixo de atributos. 
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Matriz de Dados
\u2022 Os objetos têm o mesmo conjunto fixo de atributos;
\u2022 O dataset pode ser visto como um conjunto de pontos
no espaço multidimensional, onde cada dimensão é
um atributo.
\u2022 O conjunto de dados pode ser representado por uma 
matriz m × n, onde cada uma das m linhas representa 
um objeto e as n colunas correspondem aos atributos.
Nome Sexo Febre Tosse Test-1 Test-2 Test-3 Test-4 
Jack M P N P N N N 
Mary F P N P N P N 
Jim M P P N N N N 
 
 
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Coleção de Documentos
\ufffdCada documento torna-se um vetor de termos: 
\ufffd Cada termo é uma componente (atributo) do vetor;
\ufffd O valor de cada componente é o número de vezes
que o termo ocorre em um documento (freqüência). 
se
a
so
n
tim
e
o
u
t
lo
st
w
in
g
a
m
e
sco
re
b
a
ll
p
lay
co
a
ch
te
a
m
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Dados Transacionais
\u2022 Um tipo especial de dataset, onde:
\u2013 Cada registro (transação) contém um conjunto de 
itens. 
\u2013 Exemplo: Lista de produtos comprados em um 
supermercado por um determinado cliente. 
{queijo, vinho}400
{café, queijo, pão, vinho}300
{queijo, torrada, vinho}200
{café, pão, pizza}100
Lista de ItensTID
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Datasets Baseados em Gráficos
\ufffdExemplos: Grafos e Links em páginas HTML.
5
2
1
 2
5
<a href=&quot;papers/papers.html#bbbb&quot;>
Data Mining </a>
<li>
<a href=&quot;papers/papers.html#aaaa&quot;>
Graph Partitioning </a>
<li>
<a href=&quot;papers/papers.html#aaaa&quot;>
Parallel Solution of Sparse Linear System of Equations </a>
<li>
<a href=&quot;papers/papers.html#ffff&quot;>
N-Body Computation and Dense Linear System Solvers
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Dados Químicos
\ufffdMolécula de Benzeno : C6H6
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Dados Baseados em Ordem
\ufffdSequências de transações
Um elemento 
da seqüência
Itens/Eventos
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Dados Baseados em Ordem ...
\ufffd Dados de sequências genômicas.
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
MT-803: Tópicos em Matemática Aplicada \u2013 Aula 2.
Dados Baseados em Ordem ...
\ufffdDados espaço-temporal.
Temperatura 
média mensal da 
terra e do oceano.
Janeiro