Buscar

Levantamento de Dados em Pesquisa - Aula 04

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
Levantamento de Dados
Exploração dos Dados
• Usa a capacidade humana de percepção 
de padrões
• Útil para a fase preliminar de 
preprocessamento dos dados,escolha dos 
atributos e escolha dos algoritmos a 
serem utilizados
• Útil para verificação das descobertas
• Seres humanos podem descobrir padrões 
que muitos algoritmos não podem
Exploração dos Dados
• Estatísticas 
• Visualização dos dados
• OLAP (Online Analytical Processing )
Estatísticas
• Exemplo: Classificação de plantas Iris
(Douglas Fisher)
• Cada espécie tem quatro atributos (tamanhos e 
larguras para pétalas e sépalas )
• Existem 3 classes correspondendo a 3 espécies
• Setosa
• Virginica
• Versicolour
Estatísticas Estatísticas
• Estatísticas tentam mostrar propriedades 
dos dados em poucos números
• Medidas comuns: Média e desvio padrão
• Normalmente estas estatísticas são fáceis 
de obter bastando uma passada nos 
dados
2
Estatísticas
• Freqüência: taxa percentual com que 
determinado atributo ocorre nos dados. 
Ex. 90% dos clientes moram na cidade
• Moda: é o atributo que ocorre o maior 
número de vezes nos dados. É uma 
medida mais tolerante a exceções 
Estatísticas
• Percentil útil para dados contínuos e discretos 
com grande número de valores possíveis
• O percentil é dado por xp onde x é um valor 
possível do atributo e p é um número entre 0 e 
100
• O valor x10% é o valor de x tal que 10% de totos
os valores de são menores que x. Valor x95% é 
tal que é maior que 95% de todos os valores
Estatísticas
• Mediana: Valor onde 50% dos valores 
estão acima dele e 50% estão abaixo. 
Não é tão sensível a exceções como a 
média
• No exemplo (1, 2, 4, 10, 13) a mediana é 
4 enquanto a média é 6
Estatísticas
• Espalhamento dos dados: podem ser 
usados o desvio padrão, variação ( Valor 
Máximo – Valor Mínimo), Variação de 
percentil Ex. x75% - x25% 
• Alguns são mais sensíveis a exceções 
que outros 
Estatísticas Visualização
• A visualização tem como objetivo 
transformar uma seqüência de objetos e 
atributos em uma representação visual ou 
tabular que possa mostrar características 
relevantes dos dados
• Utilidade vem da capacidade humana de 
detectar padrões visuais
3
Visualização
• Temperatura dos oceanos
• 10 mil pontos com posição e temperatura
Visualização
Visualização
• Os objetos, atributos e relacionamento 
entre eles podem ser representados de 
forma gráfica
• Objetos normalmente são representados 
por pontos
• Atributos são representados por posição 
(2D, 3D), cor, tamanho, forma
Visualização
• Para visualizar os dados normalmente se 
necessita reduzir o número de dimensões 
reduzindo o número de atributos 
considerados
• Normalmente dois ou três atributos 
analisados de cada vez
• Normalmente se reduz o número de 
objetos para facilitar a visualização 
(amostragem)
Visualização
• Histograma: forma de visualizar os dados
• Divide os valores em intervalos fixos
• Indica o número de objetos por cada uma 
dos intervalos
• A forma do histograma pode variar muito 
com a escolha dos intervalos
Visualização
• Dados Iris (largura da pétala) com 10 e 20 
divisões 
4
Visualização
• Histograma em duas dimensões
• Dados Iris tamanho e largura da pétala
Visualização
• Box Plots: Mostram graficamente 
características da distribuição dos 
atributos
• Dá indicação da simetria dos dados
• Mostra possíveis exceções 
Visualização Visualização
Visualização
• Matrix Plot : usado para comparar vários 
objetos ou atributos em um mesmo gráfico
• Os objetos ou atributos são ordenados
• Os atributos geralmente são normalizados
• Cores podem ser usadas para para indicar 
propriedades 
Visualização
5
Visualização
• Scatter plots
• Cada objeto corresponde a um ponto
• Os valores dos atributos normalmente 
colocados nos eixos x e y
• Cores, tamanho, forma podem designar 
atributos
Visualização
Visualização
• Coordenadas paralelas 
• Pode ser usada para visualizar muitas 
dimensões
• Cara dimensão é um eixo paralelo
• Um objeto é mostrado como várias linhas 
passando por vários atributos
• Objetos semelhantes tendem a se agrupar
• A ordem das dimensões é importante
Visualização
Visualização
• Star Plots
– Ponto central
– Eixos saem do centro
– Gera um polígono
• Faces de Chernoff
– Associa cada atributo com característica da face
– Cada objeto resulta em uma face
– Usa capacidade humana de reconhecer e categorizar 
faces
Visualização
6
Visualização
Setosa
Versicolour
Virginica
Visualização
Visualização
Setosa
Versicolour
Virginica
OLAP
• On-Line Analytical Processing
• Coloca os dados na forma de uma matriz de N 
dimensões
• Alguns atributos são selecionados como 
dimensões (estes devem ser discretos)
• Alguns atributos (alvos) são valores contínuos 
(ex. preço) ou contadores
• Os atributos alvos são somas de valores 
contínuos ou contadores de valores discretos
OLAP
• Com dados Iris
tamanhos e larguras 
das pétalas são 
discretizados
(classes)
• Cada combinação de 
classes tem seu 
contador
OLAP
7
OLAP
• Tabelas individuais para Setosa, 
Versicolour e Virgininca

Outros materiais