Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Levantamento de Dados Dados Dados • Um conjunto de objetos e seus atributos • Objeto: algo físico ou mental ao qual o pensamento ou ação é dirigido • Atributo: característica ou propriedade de um objeto – Altura, cor dos olhos, umidade do ar, etc. Objetos e Atributos virginica2.16.6 3.07.6 versicolor1.34.02.35.5 versicolor1.54.93.16.9 setosa0.21.33.24.7 setosa0.21.43.55.1 EspéciePétala Largura Pétala Tamanho Sépala Largura Sépala Tamanho Atributos • Os valores de atributos são números ou símbolos associados aos atributos • Um atributo pode se mapeado em diferentes valores – Temperatura em Celsius ou Kelvin – Preço em Reais ou Dollars • Atributos bem diferentes podem ser mapeados em um certo tipo – Idade e matricula como inteiros Atributos • Atributos podem ser mapeados em valores de acordo com diferentes escalas • Tamanho e temperatura tem escala linear • PH e dB tem escala logarítmica • Outras escalas são possíveis • Grande impacto nos algoritmos de mineração de dados Tipos de atributos • Nominal: Atributos se distinguem apenas pelo nome. Ex Cor dos olhos, (masculino, feminino), (setosa, versicolor) • Não há noção de ordem entre os termos • Não se pode medir a distância entre dois valores • Única operação possível ( =, ≠) 2 Tipos de atributos • Ordinal: Põe uma relação de ordem entre os diferentes atributos. Ex: Menções, Qualidade do serviço em (ruim, bom, ótimo), altura em (baixo, médio e alto). • SS > MS, ruim < bom, Alto > baixo • Adição e subtração não fazem sentido ( bom – ruim) (SS + MI) • Não é possível calcular intervalos Tipos de atributos • Intervalo: valores ordenados e medidos em intervalos fixos. Ex: Data, temperatura • As operações de soma e subtração são possíveis • Distância em termos de intervalo podem existir. Ex. 5 graus mais quente, 15 dias depois • Operações de * e / não fazem sentido Tipos de atributos • Proporção: Semelhante aos números reais todas as operações são possíveis (=, ≠, +, -, *, /). Ex. Distância em metros, quantias monetárias • São tamanhos diferentes, Ganhou 1000 Reais, a distância será 1,6 vezes maior Tipos de atributos • Para um atributo ser do tipo Proporção é necessário o conceito de um ponto zero • A temperatura em Kelvin é do tipo Proporção mas a mesma temperatura em Celsius não é. • Ex: 40 C não é uma temperatura 2 vezes maior que 20 C! Transformações Possíveis • Em alguns casos pode ser necessário mudar os valores de forma a melhorar o desempenho dos algoritmos mas sem alterar as características dos dados • Nominal: Permutação de valores. Ex. trocar (masculino, feminino) por (homem, mulher) faz diferença? • Ordinal: Mudar valores preservando a ordem. Ex. Mapear (ruim, bom, ótimo) para (0, 1 ,2) ou (péssimo, razoável, excelente ) Tipos de atributos • Intervalo: Novo = A * Antigo + B com A e B constantes. Ex. Converter temperatura Fahrenheit em Celsius • Proporção: Novo = A * Antigo com A sendo uma constante. Ex. Distância em quilômetros ou milhas 3 Tipos de Atributos • Discretos – Possui apenas um número finito ou infinito contável de valores. Ex.CPF, CEP, número de acessos na página – Valores inteiros – Valores booleanos são caso específico (0,1) – Tipos nominal e ordinal e alguns tipo intervalo Tipos de Atributos • Contínuos – Números reais – Ex. Temperatura, Distância – Na práticas os números contínuos são representados como discretos nos computadores normalmente em ponto flutuante de 32 ou 64 bits – Tipo proporção e alguns tipo intervalo Tipos de Atributos • Tipos são importantes na mineração de dados • Muitos algoritmos são baseados na comparação entre atributos • Setosa > Versicolor e Castanho > Verde não fazem sentido mas Distância > 10 KM faz • Variação percentual só faz sentido para tipo Proporção Tipos de Atributos • É possível transformar um tipo de atributo em outro • Nominal → Contínuo. Ex existem algoritmos que só aceitam entradas contínuas como redes neurais altura média → 1,70 m • Contínuo → Nominal. Ex. valores nominais podem ser mais fáceis de serem entendidos risco 57,8% → rejeitar Dados • Se um objeto tem um conjunto de N atributos então ele pode ser considerado um ponto em um espaço de N dimensões onde cada dimensão é um atributo Dados Veloc. Vento Km/h Umidade do Ar % Temperatura C 508030 406020 4 Dados • Problemas com os dados ocorrem com freqüência • Problemas comuns com os dados – Ruído – Exceções – Valores Faltantes – Dados duplicados Ruído • Ruído é uma variação ao acaso dos dados de entrada – Sensor não consegue medir exatamente uma temperatura logo, são esperados valores ligeiramente diferentes para uma mesma temperatura real – Erros de digitação • Impossível de eliminar em muitos casos Ruído • Em muitos casos o valor que consta no banco de dados pode indicar uma grande precisão mas que não existe na realidade • Uma temperatura indicada é de 23,463789 graus mas o termômetro tem erro de 0,1 graus Exceções • Em alguns casos existem objetos cujos valores dos atributos são muito diferentes do resto Ex. (1,462 1,527 1,596 1645) • Pode ser resultado em um erro na entrada dos dados • Em alguns casos pode afetar muito medidas como a média. Pode-se considerar sua retirada Exceções Valores Faltantes • É comum faltarem valores em atributos • Normalmente indicado com zero ou algum valor ou símbolo padrão • Motivos – Erro no equipamento – Falha na coleta dos dados – Junção de conjunto de dados diferentes 5 Valores Faltantes • A medida pode ser impossível ou não faz sentido. Ex. salário caso criança • Em alguns casos a falta de um valor é um dado importante. Ex. valor de exame médico vazio significa que ele ainda não foi feito Valores Faltantes • Soluções : – Eliminar objetos com dados faltantes – Estimar os valores que faltam – Ignorar os valores faltantes – Completar valores faltantes de acordo com probabilidade Dados duplicados • Podem existir objetos com os mesmos valores de atributos (ou valores bastante parecidos) • Pode acontecer quando se junta bancos de dados diferentes • A mesma pessoa pode aparecer em dois bancos e o nome foi abreviado em um deles • Uma pessoa pode ter mais de um e-mail
Compartilhar