Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Levantamento de Dados Exploração dos Dados • Usa a capacidade humana de percepção de padrões • Útil para a fase preliminar de preprocessamento dos dados,escolha dos atributos e escolha dos algoritmos a serem utilizados • Útil para verificação das descobertas • Seres humanos podem descobrir padrões que muitos algoritmos não podem Exploração dos Dados • Estatísticas • Visualização dos dados • OLAP (Online Analytical Processing ) Estatísticas • Exemplo: Classificação de plantas Iris (Douglas Fisher) • Cada espécie tem quatro atributos (tamanhos e larguras para pétalas e sépalas ) • Existem 3 classes correspondendo a 3 espécies • Setosa • Virginica • Versicolour Estatísticas Estatísticas • Estatísticas tentam mostrar propriedades dos dados em poucos números • Medidas comuns: Média e desvio padrão • Normalmente estas estatísticas são fáceis de obter bastando uma passada nos dados 2 Estatísticas • Freqüência: taxa percentual com que determinado atributo ocorre nos dados. Ex. 90% dos clientes moram na cidade • Moda: é o atributo que ocorre o maior número de vezes nos dados. É uma medida mais tolerante a exceções Estatísticas • Percentil útil para dados contínuos e discretos com grande número de valores possíveis • O percentil é dado por xp onde x é um valor possível do atributo e p é um número entre 0 e 100 • O valor x10% é o valor de x tal que 10% de totos os valores de são menores que x. Valor x95% é tal que é maior que 95% de todos os valores Estatísticas • Mediana: Valor onde 50% dos valores estão acima dele e 50% estão abaixo. Não é tão sensível a exceções como a média • No exemplo (1, 2, 4, 10, 13) a mediana é 4 enquanto a média é 6 Estatísticas • Espalhamento dos dados: podem ser usados o desvio padrão, variação ( Valor Máximo – Valor Mínimo), Variação de percentil Ex. x75% - x25% • Alguns são mais sensíveis a exceções que outros Estatísticas Visualização • A visualização tem como objetivo transformar uma seqüência de objetos e atributos em uma representação visual ou tabular que possa mostrar características relevantes dos dados • Utilidade vem da capacidade humana de detectar padrões visuais 3 Visualização • Temperatura dos oceanos • 10 mil pontos com posição e temperatura Visualização Visualização • Os objetos, atributos e relacionamento entre eles podem ser representados de forma gráfica • Objetos normalmente são representados por pontos • Atributos são representados por posição (2D, 3D), cor, tamanho, forma Visualização • Para visualizar os dados normalmente se necessita reduzir o número de dimensões reduzindo o número de atributos considerados • Normalmente dois ou três atributos analisados de cada vez • Normalmente se reduz o número de objetos para facilitar a visualização (amostragem) Visualização • Histograma: forma de visualizar os dados • Divide os valores em intervalos fixos • Indica o número de objetos por cada uma dos intervalos • A forma do histograma pode variar muito com a escolha dos intervalos Visualização • Dados Iris (largura da pétala) com 10 e 20 divisões 4 Visualização • Histograma em duas dimensões • Dados Iris tamanho e largura da pétala Visualização • Box Plots: Mostram graficamente características da distribuição dos atributos • Dá indicação da simetria dos dados • Mostra possíveis exceções Visualização Visualização Visualização • Matrix Plot : usado para comparar vários objetos ou atributos em um mesmo gráfico • Os objetos ou atributos são ordenados • Os atributos geralmente são normalizados • Cores podem ser usadas para para indicar propriedades Visualização 5 Visualização • Scatter plots • Cada objeto corresponde a um ponto • Os valores dos atributos normalmente colocados nos eixos x e y • Cores, tamanho, forma podem designar atributos Visualização Visualização • Coordenadas paralelas • Pode ser usada para visualizar muitas dimensões • Cara dimensão é um eixo paralelo • Um objeto é mostrado como várias linhas passando por vários atributos • Objetos semelhantes tendem a se agrupar • A ordem das dimensões é importante Visualização Visualização • Star Plots – Ponto central – Eixos saem do centro – Gera um polígono • Faces de Chernoff – Associa cada atributo com característica da face – Cada objeto resulta em uma face – Usa capacidade humana de reconhecer e categorizar faces Visualização 6 Visualização Setosa Versicolour Virginica Visualização Visualização Setosa Versicolour Virginica OLAP • On-Line Analytical Processing • Coloca os dados na forma de uma matriz de N dimensões • Alguns atributos são selecionados como dimensões (estes devem ser discretos) • Alguns atributos (alvos) são valores contínuos (ex. preço) ou contadores • Os atributos alvos são somas de valores contínuos ou contadores de valores discretos OLAP • Com dados Iris tamanhos e larguras das pétalas são discretizados (classes) • Cada combinação de classes tem seu contador OLAP 7 OLAP • Tabelas individuais para Setosa, Versicolour e Virgininca
Compartilhar