Buscar

Levantamento de Dados em Pesquisa - Aula 02

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
Levantamento de Dados
Dados
Dados
• Um conjunto de objetos e seus atributos
• Objeto: algo físico ou mental ao qual o 
pensamento ou ação é dirigido
• Atributo: característica ou propriedade de 
um objeto
– Altura, cor dos olhos, umidade do ar, etc.
Objetos e Atributos
virginica2.16.6 3.07.6 
versicolor1.34.02.35.5 
versicolor1.54.93.16.9 
setosa0.21.33.24.7
setosa0.21.43.55.1 
EspéciePétala
Largura
Pétala
Tamanho
Sépala
Largura
Sépala
Tamanho
Atributos
• Os valores de atributos são números ou 
símbolos associados aos atributos
• Um atributo pode se mapeado em 
diferentes valores
– Temperatura em Celsius ou Kelvin
– Preço em Reais ou Dollars
• Atributos bem diferentes podem ser 
mapeados em um certo tipo
– Idade e matricula como inteiros
Atributos
• Atributos podem ser mapeados em 
valores de acordo com diferentes escalas
• Tamanho e temperatura tem escala linear
• PH e dB tem escala logarítmica 
• Outras escalas são possíveis 
• Grande impacto nos algoritmos de 
mineração de dados
Tipos de atributos
• Nominal: Atributos se distinguem apenas 
pelo nome. Ex Cor dos olhos, (masculino, 
feminino), (setosa, versicolor)
• Não há noção de ordem entre os termos
• Não se pode medir a distância entre dois 
valores
• Única operação possível ( =, ≠)
2
Tipos de atributos
• Ordinal: Põe uma relação de ordem entre 
os diferentes atributos. Ex: Menções, 
Qualidade do serviço em (ruim, bom, 
ótimo), altura em (baixo, médio e alto). 
• SS > MS, ruim < bom, Alto > baixo
• Adição e subtração não fazem sentido ( 
bom – ruim) (SS + MI)
• Não é possível calcular intervalos
Tipos de atributos
• Intervalo: valores ordenados e medidos 
em intervalos fixos. Ex: Data, temperatura
• As operações de soma e subtração são 
possíveis 
• Distância em termos de intervalo podem 
existir. Ex. 5 graus mais quente, 15 dias 
depois
• Operações de * e / não fazem sentido
Tipos de atributos
• Proporção: Semelhante aos números 
reais todas as operações são possíveis (=, 
≠, +, -, *, /). Ex. Distância em metros, 
quantias monetárias
• São tamanhos diferentes, Ganhou 1000 
Reais, a distância será 1,6 vezes maior
Tipos de atributos
• Para um atributo ser do tipo Proporção é 
necessário o conceito de um ponto zero
• A temperatura em Kelvin é do tipo 
Proporção mas a mesma temperatura em 
Celsius não é.
• Ex: 40 C não é uma temperatura 2 vezes 
maior que 20 C!
Transformações Possíveis
• Em alguns casos pode ser necessário mudar os 
valores de forma a melhorar o desempenho dos 
algoritmos mas sem alterar as características 
dos dados
• Nominal: Permutação de valores. Ex. trocar 
(masculino, feminino) por (homem, mulher) faz 
diferença?
• Ordinal: Mudar valores preservando a ordem. 
Ex. Mapear (ruim, bom, ótimo) para (0, 1 ,2) ou 
(péssimo, razoável, excelente )
Tipos de atributos
• Intervalo: Novo = A * Antigo + B com A e 
B constantes. Ex. Converter temperatura 
Fahrenheit em Celsius 
• Proporção: Novo = A * Antigo com A 
sendo uma constante. Ex. Distância em 
quilômetros ou milhas
3
Tipos de Atributos
• Discretos
– Possui apenas um número finito ou infinito 
contável de valores. Ex.CPF, CEP, número 
de acessos na página
– Valores inteiros
– Valores booleanos são caso específico (0,1)
– Tipos nominal e ordinal e alguns tipo intervalo
Tipos de Atributos
• Contínuos
– Números reais
– Ex. Temperatura, Distância 
– Na práticas os números contínuos são 
representados como discretos nos 
computadores normalmente em ponto 
flutuante de 32 ou 64 bits
– Tipo proporção e alguns tipo intervalo
Tipos de Atributos
• Tipos são importantes na mineração de 
dados
• Muitos algoritmos são baseados na 
comparação entre atributos 
• Setosa > Versicolor e Castanho > Verde 
não fazem sentido mas Distância > 10 KM 
faz
• Variação percentual só faz sentido para 
tipo Proporção
Tipos de Atributos
• É possível transformar um tipo de atributo 
em outro
• Nominal → Contínuo. Ex existem 
algoritmos que só aceitam entradas 
contínuas como redes neurais altura 
média → 1,70 m
• Contínuo → Nominal. Ex. valores 
nominais podem ser mais fáceis de serem 
entendidos risco 57,8% → rejeitar
Dados
• Se um objeto tem um conjunto de N 
atributos então ele pode ser considerado 
um ponto em um espaço de N dimensões 
onde cada dimensão é um atributo
Dados
Veloc. Vento
Km/h
Umidade do
Ar %
Temperatura
C
508030
406020
4
Dados
• Problemas com os dados ocorrem com 
freqüência 
• Problemas comuns com os dados
– Ruído
– Exceções 
– Valores Faltantes
– Dados duplicados
Ruído
• Ruído é uma variação ao acaso dos 
dados de entrada
– Sensor não consegue medir exatamente uma 
temperatura logo, são esperados valores 
ligeiramente diferentes para uma mesma 
temperatura real
– Erros de digitação
• Impossível de eliminar em muitos casos
Ruído
• Em muitos casos o valor que consta no 
banco de dados pode indicar uma grande 
precisão mas que não existe na realidade
• Uma temperatura indicada é de 
23,463789 graus mas o termômetro tem 
erro de 0,1 graus
Exceções
• Em alguns casos existem objetos cujos 
valores dos atributos são muito diferentes 
do resto Ex. (1,462 1,527 1,596 1645)
• Pode ser resultado em um erro na entrada 
dos dados
• Em alguns casos pode afetar muito 
medidas como a média. Pode-se 
considerar sua retirada
Exceções Valores Faltantes
• É comum faltarem valores em atributos
• Normalmente indicado com zero ou algum 
valor ou símbolo padrão
• Motivos
– Erro no equipamento
– Falha na coleta dos dados 
– Junção de conjunto de dados diferentes
5
Valores Faltantes
• A medida pode ser impossível ou não faz 
sentido. Ex. salário caso criança
• Em alguns casos a falta de um valor é um 
dado importante. Ex. valor de exame 
médico vazio significa que ele ainda não 
foi feito
Valores Faltantes
• Soluções :
– Eliminar objetos com dados faltantes
– Estimar os valores que faltam
– Ignorar os valores faltantes
– Completar valores faltantes de acordo com 
probabilidade
Dados duplicados
• Podem existir objetos com os mesmos 
valores de atributos (ou valores bastante 
parecidos)
• Pode acontecer quando se junta bancos 
de dados diferentes
• A mesma pessoa pode aparecer em dois 
bancos e o nome foi abreviado em um 
deles
• Uma pessoa pode ter mais de um e-mail

Continue navegando