Prévia do material em texto
MINERAÇÃO DE DADOS Pré-processamento de dados E-mail: lucineide.pimenta@uemg.br Prof.ª Lucineide Pimenta Período: 8º Ano: 2021 Pré-processamento de dados OBJETIVOS - Vamos estudar: O processo de preparação da base de dados Limpeza de dados * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 2 BASE DE DADOS UTILIZADA PRÉ-PROCESSAMENTO DE DADOS * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 3 Base de dados utilizada ID BI-RADS Idade Forma Contorno Densidade Severidade 1 5 67 Lobular Especulada Baixa Maligno 2 4 43 Redonda Circunscrita ? Maligno 3 5 58 Irregular Especulada Baixa Maligno 4 4 28 Redonda Circunscrita Baixa Benigno 5 5 74 Redonda Especulada ? Maligno 6 4 65 Redonda ? Baixa Benigno 7 4 70 ? ? Baixa Benigno 8 5 42 Redonda ? Baixa Benigno 9 5 57 Redonda Especulada Baixa Maligno 10 5 60 ? Especulada Alta Maligno 4 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Tabela 4: Amostra da base de dados Mamo O PROCESSO DE PREPARAÇÃO DA BASE DE DADOS PRÉ-PROCESSAMENTO DE DADOS * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 5 O processo de preparação da base de dados * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 6 Para Pyle[1999] a preparação da base de dados, ou pré-processamento, manipula e transforma os dados brutos de maneira que o conhecimento neles contido possa ser mais fácil e corretamente obtido. A melhor maneira de pré-processar os dados depende de três fatores centrais: 1- Os problemas existentes na base bruta (incompletude, inconsistência e ruído). 2- Quais respostas pretendem-se obter das bases (qual problema deve ser resolvido). 3- Como operam as técnicas de mineração de dados serão empregadas. Esses três fatores quase sempre estão inter-relacionados. O processo de preparação da base de dados Dados de mundo real (dados brutos) obtidos a partir de alguma fonte rotineira ou automática de entrada de dados como: Sensores, digitadores e medidores São geralmente: Incompletos, inconsistentes e com ruídos. Seguindo o princípio GIGO, esses problemas das bases de dados vão, inevitavelmente, promover erros dos algoritmos de mineração. Portanto, é indispensável o seu tratamento antes de se aplicar qualquer algoritmo de análise. * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 7 O processo de preparação da base de dados Cada técnica de mineração é capaz de trabalhar um tipo de dado. EXEMPLO: As redes neurais normalmente trabalham apenas com dados numéricos. Cada neurônio da rede requer que um dado seja apresentado. Portanto, os valores ausentes precisam ser imputados de alguma maneira, mesmo que seus valores sejam assumidos como nulos. As árvores de decisão, em sua maioria, trabalham com dados categóricos. Nesse caso, dados contínuos precisam ser discretizados antes da aplicação do algoritmo. * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 8 O processo de preparação da base de dados Como não existe uma ferramenta automática capaz de executar a tarefa de pré- processamento de dados, essa etapa preliminar à mineração deve ser feita de maneira estruturada e cuidadosa. É comum que a etapa de pré-processamento consuma mais tempo de análise do que as etapas de aplicação dos algoritmos de mineração. Cada técnica de pré-processamento deve ser aplicada considerando seu efeito resultante na base de dados. A Figura 1 traz uma visão abrangente do processo de preparação da base de dados para análise. * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 9 O processo de preparação da base de dados 10 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Definição do algoritmo Seleção dos dados brutos Definição do problema Limpeza Pré- processamento da base integração Aplicação do algoritmo redução Transformação Figura1: Etapas do processo de preparação da base de dados. Discretização O processo de preparação da base de dados Na Figura 1 vemos que o primeiro passo é definir o problema a ser resolvido. Com base nele, são selecionados os dados a ser utilizados na análise. Na sequência, duas etapas são realizadas parcialmente em paralelo: É definido um ou mais algoritmos de mineração de dados a ser(em) aplicado(s). E, em função deles, algumas etapas de pré-processamento são empregadas na preparação dos dados. Observe que nem todas as etapas de pré-processamento são diretamente dependentes do algoritmo a ser usado. EXEMPLO: Uma base pode ou não ser reduzida antes da aplicação do algoritmo de mineração * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 11 O processo de preparação da base de dados As principais tarefas de pré-processamento são: Limpeza: para imputação de valores ausentes, remoção de ruídos e correção de inconsistências. Integração: para unir dados de múltiplas fontes em um único local, como armazém de dados (data warehouse). Redução: para reduzir a dimensão da base de dados, agrupando ou eliminando atributos redundantes, ou para reduzir a quantidade de objetos da base, sumarizando os dados. Transformação: para padronizar e deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração. Discretização: para permitir que métodos que trabalham apenas com atributos nominais possam ser empregados a um conjunto maior de problemas. Também faz com que a quantidade de valores para um dado atributo (contínuo) seja reduzida. Essas tarefas serão discutidas nas próximas aulas. * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 12 LIMPEZA DE DADOS PRÉ-PROCESSAMENTO DE DADOS * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. 13 Limpeza de dados A baixa qualidade dos dados é um problema que afeta a maior parte das bases de dados reais. Assim, as ferramentas para a limpeza de dados atuam no sentido de imputar valores ausentes, suavizar ruídos, identificar valores discrepantes (outliers) e corrigir inconsistências. Veremos como se dá cada uma dessas etapas. 14 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Limpeza de dados 1- Valores ausentes: Um valor ausente costuma ser representado por um código de ausência, que pode ser um valor específico, um espaço em branco ou um símbolo (“?”). A substituição de valores ausentes, também conhecida como imputação, tem como objetivo estimar os valores ausentes com base nas informações disponíveis no conjunto de dados. 15 * Não é permitida a distribuição desse material. O autor desseconteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Limpeza de dados 16 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. EXEMPLO: Na base de dados de mamografias, Mamo (Tabela 4), nota-se a ausência de valões para muitos atributos e muitos objetos. Mas, os objetos 7 e 10 não possuem dados de “forma”. Os objetos 6, 7 e 8 não têm dados do “contorno”. E os objetos 2 e 5 não têm dados sobre a “densidade”. Limpeza de dados A imputação de valores ausentes assume que essa ausência de valor implica a perda de informação relevante de algum atributo. Consequentemente, o valor a ser imputado não deve somar nem subtrair informação à base. Ou seja, ele não deve enviesar a base. E, associado a isso está o fato de que muitos algoritmos de mineração não conseguem trabalhar com os dados na ausência de valores. Portanto, a imputação é necessária para a análise. Além disso, o tratamento incorreto ou a eliminação de objetos com valores ausentes pode promover erros das ferramentas de análise. 17 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Limpeza de dados 18 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Muitas vezes é necessário estabelecer premissas ou caracterizar a distribuição dos valores ausentes. Dessa forma, a ausência de dados pode ser completamente aleatória quando a ausência não depende de fatores externos. Missing Completely At Random – MCAR Nesse caso, não há diferença sistemática entre os dados com valores ausentes e os dados observados. EXEMPLO: Isso é comum em decorrência de problemas de entrada de dados por digitadores. Limpeza de dados Também há dados ausentes aleatórios, que dependem dos dados observados. Missing At Random – MAR EXEMPLO: Homens estarem mais dispostos a informar sua idade que mulheres. Nesse caso, há diferenças entre os dados com valores observados e os dados com valores ausentes. Mas é possível perceber a forma pela qual eles se diferenciam. 19 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Limpeza de dados 20 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. E por fim, a ausência de dados pode não ser aleatória, quando a ausência depende dos valores não observados. Not Missing At Random – NMAR EXEMPLO: O valor do salário de uma pessoa influencia na probabilidade de ela informar esse valor corretamente. Limpeza de dados Os métodos tradicionais de imputação de valores ausentes são: A) Ignorar o objeto: Consiste em remover da base (ignorar) todos aqueles objetos que possuem um ou mais valores ausentes. Não é um método muito recomendado. Ele descarta todo o restante das informações contidas no objeto. E pode causar uma redução significativa na base quando a quantidade de objetos com valores ausentes é grande. EXEMPLO: Na base de dados Mamo, esse método removeria da tabela apresentada os objetos 2, 5, 6, 7, 8 e 10. Ou seja, 60% dos objetos. 21 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Limpeza de dados 22 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. B) Imputar manualmente os valores ausentes: Consiste em escolher de forma empírica um valor a ser imputado para cada valor ausente. Também não é um método muito recomendado. Demandar grande trabalho manual. E, ignora as informações da base no momento da imputação. É importante que os valores imputados respeitem o domínio de cada atributo. EXEMPLO: Na base Mamo, os valores possíveis para os atributos são: “forma”: “lobular”, “redonda”, “oval”, “irregular”. “contorno”: “circunscrita”, “microlobulada”, “obscura”, “mal definida”, “especulada”. “densidade”: “baixa”, “alta”, “iso”, “gordurosa”. Limpeza de dados 23 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. C) Usar uma constante global para imputar o valor ausente: Esse método corresponde a substituir todos os valores ausentes de certo atributo por uma constante única. Isso pode fazer com que o algoritmo de mineração considere essa constante um conceito relevante. Portanto, deve ser feito com cautela. Como no caso anterior, é preciso observar o domínio de cada atributo. EXEMPLO: Na base de dados Mamo, qualquer um dos valores possíveis dos atributos descritos anteriormente poderia ser usado. A forma dos objetos 7 e 10 poderia ser substituída por “lobular”, ou “redonda”, ou “oval”, ou “irregular”. Limpeza de dados 24 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. D) Imputação do tipo hot-deck: Neste método um valor ausente é imputado usando o valor do mesmo atributo de um objeto similar aleatoriamente selecionado. A similaridade entre os objetos pode ser calculada utilizando, por exemplo, uma medida de similaridade ou distância entre os objetos. Limpeza de dados 25 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. E) Imputar de acordo com a última observação (last observation carried forward): Envolve ordenar a base de dados seguindo um ou mais de seus atributos. Feito isso, o algoritmo busca cada valor ausente e usa aquele valor da célula imediatamente anterior para imputar o valor ausente. Esse processo é repetido até que todos os valores ausentes tenham sido imputados. Esse método parte da premissa de que, em casos nos quais os valores representam medidas contínuas de algum atributo, não há mudança entre a última medida e a atual ausente. Esse é um tipo de método hot-deck, mas no qual a seleção dos objetos similares não é aleatória, e sim baseada em uma ordenação da base. Limpeza de dados 26 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. F) Usar a medida ou moda de um atributo para imputar o valor ausente: O método consiste em substituir os valores ausentes de cada atributo: pela média (para atributos numéricos) ou moda (para atributos nominais) dos valores do atributo. Essa técnica é bastante usada na prática, mas desconsidera as diferenças entre as classes e é suscetível a outliers. EXEMPLO: No caso da base de dados Mamo, para os dez objetos mostrados: a moda do atributo forma é “redonda”, a moda de contorno é “especulada” e a moda de densidade é “baixa”. Limpeza de dados 27 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. G) Usar a média ou moda de todos os objetos da mesma classe para imputar o valor ausente: A diferença deste método para o anterior é que a média ou moda é tomada considerando apenas os objetos da mesma classe daquele que contém o valor ausente. Essa abordagem é de fácil implementaçãoe bastante usada na prática, mas também é suscetível a outliers. EXEMPLO: Para os dez objetos da base de dados Mamo, a moda por classe é a mesma da moda para a base toda. Com exceção do atributo contorno da classe “benigno”, cuja moda é “circunscrita”. Limpeza de dados 28 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. H) Usar modelos preditivos para imputar o valor ausente: Qualquer método preditivo pode ser usado para estimar o valor ausente. Nesse caso, o atributo com valores ausentes é utilizado como atributo dependente, ao passo que os outros atributos são usados como independentes para se criar o modelo preditivo. Feito isso, o modelo preditivo é usado para estimar os valores ausentes. Limpeza de dados 29 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. A principal preocupação com relação aos dados ausentes é seu impacto na análise a ser realizada. EXEMPLO: Se uma pesquisa que visa relacionar a idade das mulheres com o seu peso, caso boa parte das entrevistadas que estejam acima do peso não o informar, o resultado da pesquisa provavelmente terá uma relação enviesada entre idade e peso. Além disso, como há dados ausentes, é difícil determinar o impacto desses dados na pesquisa. Uma abordagem mais sistemática de tratamento de valores ausentes deve considerar quatro passos: Limpeza de dados 30 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Uma abordagem mais sistemática de tratamento de valores ausentes deve considerar quatro passos: Investigar as razões dos dados ausentes de forma que os evite. Investigar o impacto dos dados ausentes no resultado das análises a serem feitas em termos de: Confiabilidade, validade e generalização das conclusões. Considerar os vários métodos de imputação de valores ausentes e, Investigar o resultado aplicação de cada um dos métodos considerados no passo anterior. Para refletir... O poder do conhecimento está em saber o que fazer para conseguir o que se deseja – saber quais ações produzem quais resultados, como e quando toma-las. O conhecimento, portanto, implica em ter uma coleção de ações que funcionam confiavelmente. Pyle, D. Data preparation for data mining, 1999, p. 7. 31 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Orientações e Informações Gerais As dúvidas fora do horário de aula síncrona poderão ser enviadas SOMENTE pelo “Chat” ou por E-mail. * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. ATENÇÃO: As dúvidas enviadas serão respondidas de Segunda-feira à Sexta-feira nos seguintes horários: De 12h00 às 12h30 e De 17h00 às 17h30. 32 Considerações Finais Prof.ª Lucineide Pimenta E-mail: lucineide.pimenta@uemg.br Bom descanso! 33 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Referências Básicas De Castro, Leandro Nunes; Ferrari, Daniel Gomes. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. ALI, Shawkat; WASIMI, Saleh A.. Data mining: methods and techniques. Austrália: Thomson, 2007. SINGH, Harry. Data warehouse: conceitos, tecnologias, implementação e gerenciamento. São Paulo: Makron Books do Brasil, 2001. KIMBALL, Ralph; MERZ, Richard. Data webhouse: construindo o data Warehouse para a Web. Rio de Janeiro: Campus, 2000. 34 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica. Referências Complementares CASSARRO, Antônio Carlos. Sistemas de informações para tomadas de decisões. 4. ed. rev. e ampl. São Paulo: Cengage Learning, 2010. COLAÇO JÚNIOR. Methanias. Projetando sistemas de apoio à decisão baseados em data Warehouse. Rio de Janeiro: Axcel Books, 2004. HEUSER, Carlos Alberto. Projeto de banco de dados. 5. ed. Porto Alegre: Sagra Luzzato; 2004. INMOM, W. H.. Como construir o data warehouse. Rio de Janeiro: Campus, 1997. MACHADO, Felipe N. R.. Projeto de data warehouse: uma visão multidimensional. São Paulo: Érica, 2000. 35 * Não é permitida a distribuição desse material. O autor desse conteúdo se reserva no direito de disponibilizado somente para as aulas dentro da unidade acadêmica.