Buscar

Levantamento de Dados em Pesquisa - Aula 03

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
Levantamento de Dados
Pré-Processamento
• Agregação
• Amostragem
• Redução das dimensões
• Seleção do conjunto de atributos
• Criação de Atributo
• Discretização
• Transformação de atributo
Agregação
• Combina 2 ou mais atributos ou objetos em um 
único atributo ou objeto. Ex. todas as vendas de 
motos, carros e caminhões colocadas como 
venda de veículos. Número de clientes 
agregados por estado e não cidade
• Reduz o número de dados tornando os 
algoritmos mais rápidos
• Menos variabilidade nos dados. Ex. Clientes no 
estado é uma média das cidades
Amostragem
• Em muitos casos o banco de dados é muito 
grande para ser usado como inteiro tornando o 
desempenho ruim
• Útil usar um subconjunto dos dados obtido por 
amostra
• Útil no início da mineração de dados para se ter 
uma idéia do melhor algoritmo a ser utilizado 
• Pode ser usado também para obtenção dos 
resultados finais
Amostragem
• A amostragem funciona na suposição de 
que aplicar a mineração de dados em um 
subconjunto de dados (amostra) obterá 
resultados semelhantes ao da utilização 
do banco de dados completo
• A amostra deverá ser representativa e 
portanto ter propriedades semelhantes ao 
banco de dados originais
Amostragem
• Amostragem ao acaso: Todos os objetos tem a 
mesma probabilidade de serem usados
• Amostragem sem reposição: se o objeto e 
amostrado ele não pode ser de novo
• Amostragem com reposição: se o objeto foi 
amostrado ele pode ser escolhido de novo 
podendo ser duplicado
• Amostragem por faixa: dados são divididos em 
faixas e cada faixa é amostrada ao acaso
2
Amostragem
• Se a amostra for muito grande os 
algoritmos rodam lentamente
• Se amostra muito pequena ela não é 
representativa dos dados
• Processo de amostragem podem interferir 
na qualidade dos dados obtidos
Representatividade em relação ao 
tamanho da amostra 
Redução das dimensões
• Quanto maior o número de atributo maior 
o número de dimensões
• Com mais dimensões os dados ficam 
mais esparsos 
• Distância e a densidade são essenciais 
para vários algoritmos e são afetadas pelo 
número de dimensões
Dispersão dos Dados
Dispersão dos Dados Dispersão dos Dados
3
Redução das dimensões
• Reduzir dimensões
• Reduz tempo e espaço gasto pelos 
algoritmos
• Facilita visualização dos dados
• Pode eliminar atributos irrelevantes e 
ruído
Seleção do conjunto de atributos
• Selecionar apenas atributos relevantes
• Diminui o número de dimensões
• Muitos dados estão duplicados ou são 
semelhantes. Ex. Preço ao consumidor e 
imposto pago pode ele
• Atributos irrelevantes: Número do RG ou 
CPF para comportamento do consumidor 
Seleção do conjunto de atributos
• Seleção de atributos por força bruta: tenta 
todos os conjuntos de atributos até 
encontrar o melhor conjunto
• Algoritmos específicos para seleção de 
atributos. Ex: Simulated Annealing, 
Algoritmos genéticos, Métodos numéricos
• Algoritmos de mineração de dados faz a 
seleção automaticamente
Criação de Atributo
• Um novo atributos pode substituir 
atributos antigos com vantagens
• Um novo atributo pode ser uma 
combinação dos antigos. Ex: Preço + 
Imposto → Faturamento Líquido (Preço –
Imposto)
• Os dados podem ser mapeados em um 
novo espaço. Ex. Transformada de 
Fourier 
Transformada de Fourier Discretização
• Muitos dados são quantitativos (números) e tem 
variação muito grande
• Em muitos casos eles seriam melhor representados 
de forma qualitativa (classes)
• Risco de não pagamento ( 11,3% → risco baixo valor 
1 )
• Taxa de sucesso em uma cirurgia ( 89,1% → Alta 
valor 9 )
• Algoritmos de mineração de dados ficam mais rápidos
• Alguns algoritmos so funcionam com dados 
discretizados (Ex. Apriori)
4
Discretização Transformação de atributo
• Um conjunto de atributos numéricos pode 
ser mapeado para outro conjunto de 
valores mantendo as propriedades 
relativas
• Algumas funções comuns são : log(x), ex, 
|x|, xk etc.
• Normalização:
– Ex 10, 20, 40, 80 → 0.125 0.25 0.5 1
Similaridade
• Dois objetos de dados são iguais se 
similaridade é 1 totalmente diferentes se 
for 0
• Em muitos casos é necessário medir a 
distância entre dois objetos
Distância
• Distância Euclidiana 
• N é o número de dimensões, pk e qk são
os atributos kth para os objetos p e q.
∑
=
−=
n
k
kk qpdist
1
2)(
Distância
• Distância Minkowski
• N é o número de dimensões, pk e qk são
os atributos kth para os objetos p e q.
• Generalização da distância Euclidiana
r
n
k
r
kk qpdist
1
1
)||( ∑
=
−=
Distância Minkowski
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
L2 p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
L∞∞∞∞ p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0
5
Correlação
• A correlação mede a relação entre dois objetos 
de forma linear
• Correlação de 1 indica que se os atributos de 
um objeto aumentam os atributos do outro 
objeto também aumentam de forma aumento 
proporcional 
• Correlação de 0 indica que não há correlação
• Correlação de -1 indica que se os atributos de 
um objeto aumentam os atributos do outro 
objeto diminui de forma aumento proporcional
Correlação

Outros materiais