Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

MINERAÇÃO DE DADOS
Pré-processamento de dados
E-mail: lucineide.pimenta@uemg.br
Prof.ª Lucineide Pimenta
Período: 8º
Ano: 2021
Pré-processamento de dados
OBJETIVOS - Vamos estudar:
 O processo de preparação da base de dados
 Limpeza de dados
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
2
BASE DE DADOS UTILIZADA
PRÉ-PROCESSAMENTO DE DADOS
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
3
Base de dados utilizada
ID BI-RADS Idade Forma Contorno Densidade Severidade
1 5 67 Lobular Especulada Baixa Maligno
2 4 43 Redonda Circunscrita ? Maligno
3 5 58 Irregular Especulada Baixa Maligno
4 4 28 Redonda Circunscrita Baixa Benigno
5 5 74 Redonda Especulada ? Maligno
6 4 65 Redonda ? Baixa Benigno
7 4 70 ? ? Baixa Benigno
8 5 42 Redonda ? Baixa Benigno 
9 5 57 Redonda Especulada Baixa Maligno
10 5 60 ? Especulada Alta Maligno
4
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Tabela 4: Amostra da base de dados Mamo
O PROCESSO DE PREPARAÇÃO DA BASE DE DADOS
PRÉ-PROCESSAMENTO DE DADOS
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
5
O processo de preparação da base de dados
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
6
 Para Pyle[1999] a preparação da base de dados, ou pré-processamento, manipula e 
transforma os dados brutos de maneira que o conhecimento neles contido possa ser mais 
fácil e corretamente obtido.
 A melhor maneira de pré-processar os dados depende de três fatores centrais:
 1- Os problemas existentes na base bruta (incompletude, inconsistência e ruído).
 2- Quais respostas pretendem-se obter das bases (qual problema deve ser resolvido).
 3- Como operam as técnicas de mineração de dados serão empregadas.
 Esses três fatores quase sempre estão inter-relacionados.
O processo de preparação da base de dados
 Dados de mundo real (dados brutos) obtidos a partir de alguma fonte rotineira ou 
automática de entrada de dados como:
 Sensores, digitadores e medidores
 São geralmente:
 Incompletos, inconsistentes e com ruídos.
 Seguindo o princípio GIGO, esses problemas das bases de dados vão, inevitavelmente, 
promover erros dos algoritmos de mineração.
 Portanto, é indispensável o seu tratamento antes de se aplicar qualquer algoritmo de 
análise.
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
7
O processo de preparação da base de dados
 Cada técnica de mineração é capaz de trabalhar um tipo de dado.
 EXEMPLO:
 As redes neurais normalmente trabalham apenas com dados numéricos.
 Cada neurônio da rede requer que um dado seja apresentado.
 Portanto, os valores ausentes precisam ser imputados de alguma maneira, mesmo que seus valores sejam 
assumidos como nulos.
 As árvores de decisão, em sua maioria, trabalham com dados categóricos.
 Nesse caso, dados contínuos precisam ser discretizados antes da aplicação do algoritmo.
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
8
O processo de preparação da base de dados
 Como não existe uma ferramenta automática capaz de executar a tarefa de pré-
processamento de dados, essa etapa preliminar à mineração deve ser feita de 
maneira estruturada e cuidadosa.
 É comum que a etapa de pré-processamento consuma mais tempo de análise do 
que as etapas de aplicação dos algoritmos de mineração.
 Cada técnica de pré-processamento deve ser aplicada considerando seu efeito 
resultante na base de dados.
 A Figura 1 traz uma visão abrangente do processo de preparação da base de dados 
para análise.
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
9
O processo de preparação da base de dados
10
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Definição do 
algoritmo
Seleção dos 
dados brutos
Definição do 
problema
Limpeza 
Pré-
processamento 
da base
integração
Aplicação do 
algoritmo
redução Transformação 
Figura1: Etapas do processo de preparação da base de dados.
Discretização
O processo de preparação da base de dados
 Na Figura 1 vemos que o primeiro passo é definir o problema a ser resolvido.
 Com base nele, são selecionados os dados a ser utilizados na análise.
 Na sequência, duas etapas são realizadas parcialmente em paralelo:
 É definido um ou mais algoritmos de mineração de dados a ser(em) aplicado(s).
 E, em função deles, algumas etapas de pré-processamento são empregadas na preparação dos 
dados.
 Observe que nem todas as etapas de pré-processamento são diretamente dependentes do 
algoritmo a ser usado.
 EXEMPLO:
 Uma base pode ou não ser reduzida antes da aplicação do algoritmo de mineração
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
11
O processo de preparação da base de dados
 As principais tarefas de pré-processamento são:
 Limpeza: para imputação de valores ausentes, remoção de ruídos e correção de inconsistências.
 Integração: para unir dados de múltiplas fontes em um único local, como armazém de dados (data 
warehouse).
 Redução: para reduzir a dimensão da base de dados, agrupando ou eliminando atributos 
redundantes, ou para reduzir a quantidade de objetos da base, sumarizando os dados.
 Transformação: para padronizar e deixar os dados em um formato passível de aplicação das 
diferentes técnicas de mineração.
 Discretização: para permitir que métodos que trabalham apenas com atributos nominais possam 
ser empregados a um conjunto maior de problemas. Também faz com que a quantidade de valores 
para um dado atributo (contínuo) seja reduzida.
 Essas tarefas serão discutidas nas próximas aulas.
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
12
LIMPEZA DE DADOS
PRÉ-PROCESSAMENTO DE DADOS
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
13
Limpeza de dados
 A baixa qualidade dos dados é um problema que afeta a maior parte das bases de 
dados reais.
 Assim, as ferramentas para a limpeza de dados atuam no sentido de imputar 
valores ausentes, suavizar ruídos, identificar valores discrepantes (outliers) e corrigir 
inconsistências.
 Veremos como se dá cada uma dessas etapas.
14
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Limpeza de dados
 1- Valores ausentes:
 Um valor ausente costuma ser representado por um código de ausência, que pode 
ser um valor específico, um espaço em branco ou um símbolo (“?”).
 A substituição de valores ausentes, também conhecida como imputação, tem como 
objetivo estimar os valores ausentes com base nas informações disponíveis no 
conjunto de dados.
15
* Não é permitida a distribuição desse material. O autor desseconteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Limpeza de dados
16
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 EXEMPLO:
 Na base de dados de mamografias, Mamo (Tabela 4), nota-se a ausência de valões 
para muitos atributos e muitos objetos.
 Mas, os objetos 7 e 10 não possuem dados de “forma”.
 Os objetos 6, 7 e 8 não têm dados do “contorno”.
 E os objetos 2 e 5 não têm dados sobre a “densidade”.
Limpeza de dados
 A imputação de valores ausentes assume que essa ausência de valor implica a perda 
de informação relevante de algum atributo.
 Consequentemente, o valor a ser imputado não deve somar nem subtrair 
informação à base.
 Ou seja, ele não deve enviesar a base.
 E, associado a isso está o fato de que muitos algoritmos de mineração não 
conseguem trabalhar com os dados na ausência de valores.
 Portanto, a imputação é necessária para a análise.
 Além disso, o tratamento incorreto ou a eliminação de objetos com valores 
ausentes pode promover erros das ferramentas de análise.
17
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Limpeza de dados
18
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 Muitas vezes é necessário estabelecer premissas ou caracterizar a distribuição dos 
valores ausentes.
 Dessa forma, a ausência de dados pode ser completamente aleatória quando a 
ausência não depende de fatores externos.
 Missing Completely At Random – MCAR
 Nesse caso, não há diferença sistemática entre os dados com valores ausentes e os 
dados observados.
 EXEMPLO:
 Isso é comum em decorrência de problemas de entrada de dados por digitadores.
Limpeza de dados
 Também há dados ausentes aleatórios, que dependem dos dados observados.
 Missing At Random – MAR
 EXEMPLO:
 Homens estarem mais dispostos a informar sua idade que mulheres.
 Nesse caso, há diferenças entre os dados com valores observados e os dados com 
valores ausentes.
 Mas é possível perceber a forma pela qual eles se diferenciam.
19
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Limpeza de dados
20
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 E por fim, a ausência de dados pode não ser aleatória, quando a ausência 
depende dos valores não observados.
 Not Missing At Random – NMAR
 EXEMPLO:
 O valor do salário de uma pessoa influencia na probabilidade de ela informar esse 
valor corretamente.
Limpeza de dados
 Os métodos tradicionais de imputação de valores ausentes são:
 A) Ignorar o objeto:
 Consiste em remover da base (ignorar) todos aqueles objetos que possuem um ou 
mais valores ausentes.
 Não é um método muito recomendado.
 Ele descarta todo o restante das informações contidas no objeto.
 E pode causar uma redução significativa na base quando a quantidade de objetos 
com valores ausentes é grande.
 EXEMPLO:
 Na base de dados Mamo, esse método removeria da tabela apresentada os objetos 
2, 5, 6, 7, 8 e 10.
 Ou seja, 60% dos objetos.
21
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Limpeza de dados
22
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 B) Imputar manualmente os valores ausentes:
 Consiste em escolher de forma empírica um valor a ser imputado para cada valor 
ausente.
 Também não é um método muito recomendado.
 Demandar grande trabalho manual.
 E, ignora as informações da base no momento da imputação.
 É importante que os valores imputados respeitem o domínio de cada atributo.
 EXEMPLO:
 Na base Mamo, os valores possíveis para os atributos são:
 “forma”: “lobular”, “redonda”, “oval”, “irregular”.
 “contorno”: “circunscrita”, “microlobulada”, “obscura”, “mal definida”, “especulada”.
 “densidade”: “baixa”, “alta”, “iso”, “gordurosa”.
Limpeza de dados
23
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 C) Usar uma constante global para imputar o valor ausente:
 Esse método corresponde a substituir todos os valores ausentes de certo atributo 
por uma constante única.
 Isso pode fazer com que o algoritmo de mineração considere essa constante um 
conceito relevante.
 Portanto, deve ser feito com cautela.
 Como no caso anterior, é preciso observar o domínio de cada atributo.
 EXEMPLO:
 Na base de dados Mamo, qualquer um dos valores possíveis dos atributos 
descritos anteriormente poderia ser usado.
 A forma dos objetos 7 e 10 poderia ser substituída por “lobular”, ou “redonda”, ou 
“oval”, ou “irregular”.
Limpeza de dados
24
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 D) Imputação do tipo hot-deck: 
 Neste método um valor ausente é imputado usando o valor do mesmo atributo de 
um objeto similar aleatoriamente selecionado.
 A similaridade entre os objetos pode ser calculada utilizando, por exemplo, uma 
medida de similaridade ou distância entre os objetos.
Limpeza de dados
25
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 E) Imputar de acordo com a última observação (last observation carried
forward):
 Envolve ordenar a base de dados seguindo um ou mais de seus atributos.
 Feito isso, o algoritmo busca cada valor ausente e usa aquele valor da célula 
imediatamente anterior para imputar o valor ausente.
 Esse processo é repetido até que todos os valores ausentes tenham sido 
imputados.
 Esse método parte da premissa de que, em casos nos quais os valores 
representam medidas contínuas de algum atributo, não há mudança entre a 
última medida e a atual ausente.
 Esse é um tipo de método hot-deck, mas no qual a seleção dos objetos 
similares não é aleatória, e sim baseada em uma ordenação da base.
Limpeza de dados
26
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 F) Usar a medida ou moda de um atributo para imputar o valor ausente:
 O método consiste em substituir os valores ausentes de cada atributo:
 pela média (para atributos numéricos) ou 
 moda (para atributos nominais) dos valores do atributo.
 Essa técnica é bastante usada na prática, mas desconsidera as diferenças entre as 
classes e é suscetível a outliers.
 EXEMPLO:
 No caso da base de dados Mamo, para os dez objetos mostrados:
 a moda do atributo forma é “redonda”, 
 a moda de contorno é “especulada” e 
 a moda de densidade é “baixa”.
Limpeza de dados
27
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 G) Usar a média ou moda de todos os objetos da mesma classe para imputar 
o valor ausente:
 A diferença deste método para o anterior é que a média ou moda é tomada 
considerando apenas os objetos da mesma classe daquele que contém o valor 
ausente.
 Essa abordagem é de fácil implementaçãoe bastante usada na prática, mas 
também é suscetível a outliers.
 EXEMPLO:
 Para os dez objetos da base de dados Mamo, a moda por classe é a mesma da 
moda para a base toda.
 Com exceção do atributo contorno da classe “benigno”, cuja moda é 
“circunscrita”.
Limpeza de dados
28
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 H) Usar modelos preditivos para imputar o valor ausente:
 Qualquer método preditivo pode ser usado para estimar o valor ausente.
 Nesse caso, o atributo com valores ausentes é utilizado como atributo 
dependente, ao passo que os outros atributos são usados como independentes 
para se criar o modelo preditivo.
 Feito isso, o modelo preditivo é usado para estimar os valores ausentes.
Limpeza de dados
29
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 A principal preocupação com relação aos dados ausentes é seu impacto na análise 
a ser realizada.
 EXEMPLO:
 Se uma pesquisa que visa relacionar a idade das mulheres com o seu peso, caso 
boa parte das entrevistadas que estejam acima do peso não o informar, o 
resultado da pesquisa provavelmente terá uma relação enviesada entre idade e 
peso.
 Além disso, como há dados ausentes, é difícil determinar o impacto desses dados 
na pesquisa.
 Uma abordagem mais sistemática de tratamento de valores ausentes deve 
considerar quatro passos:
Limpeza de dados
30
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 Uma abordagem mais sistemática de tratamento de valores ausentes deve 
considerar quatro passos:
 Investigar as razões dos dados ausentes de forma que os evite.
 Investigar o impacto dos dados ausentes no resultado das análises a serem feitas em 
termos de:
 Confiabilidade, validade e generalização das conclusões.
 Considerar os vários métodos de imputação de valores ausentes e,
 Investigar o resultado aplicação de cada um dos métodos considerados no passo 
anterior.
Para refletir...
O poder do conhecimento está em saber o que fazer para conseguir o 
que se deseja – saber quais ações produzem quais resultados, como e 
quando toma-las. O conhecimento, portanto, implica em ter uma coleção 
de ações que funcionam confiavelmente.
Pyle, D. Data preparation for data mining, 1999, p. 7.
31
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Orientações e Informações Gerais
 As dúvidas fora do horário de aula síncrona poderão ser enviadas SOMENTE
pelo “Chat” ou por E-mail.
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
 ATENÇÃO: 
As dúvidas enviadas serão respondidas de 
Segunda-feira à Sexta-feira nos seguintes 
horários:
De 12h00 às 12h30 e 
De 17h00 às 17h30.
32
Considerações Finais
Prof.ª Lucineide Pimenta
E-mail: lucineide.pimenta@uemg.br
Bom descanso!
33
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Referências Básicas
 De Castro, Leandro Nunes; Ferrari, Daniel Gomes. Introdução à mineração de 
dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016.
 ALI, Shawkat; WASIMI, Saleh A.. Data mining: methods and techniques. 
Austrália: Thomson, 2007.
 SINGH, Harry. Data warehouse: conceitos, tecnologias, implementação e 
gerenciamento. São Paulo: Makron Books do Brasil, 2001.
 KIMBALL, Ralph; MERZ, Richard. Data webhouse: construindo o data 
Warehouse para a Web. Rio de Janeiro: Campus, 2000. 
34
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.
Referências Complementares
 CASSARRO, Antônio Carlos. Sistemas de informações para tomadas de decisões. 4. 
ed. rev. e ampl. São Paulo: Cengage Learning, 2010.
 COLAÇO JÚNIOR. Methanias. Projetando sistemas de apoio à decisão baseados 
em data Warehouse. Rio de Janeiro: Axcel Books, 2004.
 HEUSER, Carlos Alberto. Projeto de banco de dados. 5. ed. Porto Alegre: Sagra 
Luzzato; 2004.
 INMOM, W. H.. Como construir o data warehouse. Rio de Janeiro: Campus, 1997.
 MACHADO, Felipe N. R.. Projeto de data warehouse: uma visão multidimensional. 
São Paulo: Érica, 2000. 
35
* Não é permitida a distribuição desse material. O autor desse conteúdo se reserva 
no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.

Mais conteúdos dessa disciplina