Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de Combinação de Classificadores usando uma Abordagem Multiobjetivo baseada em Acurácia e Número de Classificadores Sandro Luiz Jailson Lopes Tinôco Universidade Federal de Ouro Preto Dissertação submetida ao Instituto de Ciências Exatas e Biológicas Universidade Federal de Ouro Preto para obtenção do título de Mestre em Ciência da Computação Catalogação: sisbin@sisbin.ufop.br T587a Tinôco, Sandro Luiz Jailson Lopes. Análise de combinação de classificadores usando uma abordagem multiobjetivo baseada em acurácia e número de classificadores [manuscrito] / Sandro Luiz Jailson Lopes Tinôco – 2013. 115 f.: il. color.; grafs.; tabs. Orientador: Prof. Dr. David Menotti Gomes. Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Departamento de Computação. Programa de Pós-graduação em Ciência da Computação. Área de concentração: Recuperação e Tratamento da Informação. 1. Sensoriamento remoto - Teses. 2. Programação linear - Teses. 3. Sistemas de recuperação da informação – Códigos numéricos - Teses. I. Gomes, David Menotti. II. Universidade Federal de Ouro Preto. III. Título. Análise de Combinação de Classificadores usando uma Abordagem Multiobjetivo baseada em Acurácia e Número de Classificadores Resumo O Sensoriamento Remoto é uma forma de obter informações sobre a Terra a partir do espaço, com a finalidade de melhorar a gestão dos recursos naturais, o uso da terra e a proteção do meio ambiente. Esse campo do conhecimento tem se beneficiado dos diversos avanços tecnológicos dentre os quais pode ser citada a imagem hiperespectral. Este tipo de imagem pode ser composto por centenas de bandas, cada uma delas cor- respondendo a uma determinada faixa do espectro eletromagnético. Pode-se perceber a riqueza de informação que tal imagem pode fornecer, conduzindo a uma análise mais precisa. No entanto, para tratar esse volume de informações, tanto em qualidade quanto em quantidade, é necessária a utilização de algoritmos e métodos que consigam tirar proveito de toda a informação fornecida. Uma tarefa comum na análise desses dados é a geração de mapas temáticos a partir da classificação da cobertura terrestre. Tradici- onalmente, procura-se desenvolver diferentes algoritmos de classificação e depois aquele que apresenta o melhor desempenho, ou seja maior acurácia, é escolhido. Este tipo de metodologia pode acarretar em perdas de importantes informações contidas nos clas- sificadores descartados. Uma forma de se evitar isso, que tem sido bastante estudada e utilizada atualmente, é a combinação de múltiplas abordagens de classificação e a consequente produção de mapas temáticos mais precisos. No presente trabalho, é feita a combinação de doze abordagens de classificação, obtidas usando três representações de dados e quatro algoritmos de aprendizagem diferentes. As representações de dados usadas são a Pixelwise, Extended Morphological Profiles (EMP) e Feature Extraction by i Genetic Algorithms (FEGA), que foram classificadas com os algoritmos de aprendiza- gem Support Vector Machines (SVM) com kernel Radial Basis Function (RBF) e kernel Linear, K-Nearest Neighbor (KNN) e Multilayer Perceptron Neural Network (MLP). O método de combinação proposto é baseado em uma combinação linear ponderada, em que um Programa Linear Inteiro (PLI) encontra os pesos para cada abordagem de classificação utilizada e é denominado Weighted Linear Combination optimized by In- teger Linear Programming (WLC-ILP). Para analisar os resultados obtidos, o método proposto foi comparado a outros métodos de combinação como o Weighted Linear Com- bination optimized by Genetic Algorithm (WLC-GA) e, os tradicionais, como Majority Vote (MV) e Average Rule. O (WLC-ILP) superou os resultados dos métodos (MV) e Average Rule e obteve resultados similares ao (WLC-GA), porém, dez vezes mais rápido que este. Uma questão ainda em aberto está relacionada a quantos e quais clas- sificadores de um conjunto utilizar, de forma a obter uma acurácia mais precisa. Não se sabe ao certo o que faz uma combinação produzir resultados, ainda que não seja sempre garantido, melhores do que um único classificador. Alguns autores apontam a diver- sidade de um conjunto como fator principal de êxito de um combinador, no entanto, não existe uma definição formal, amplamente aceita do que seja diversidade. Uma vez que é desejável produzir melhores acurácias utilizando o menor número de classificado- res possível, um Algoritmo Genético Multiobjetivo apresenta-se como meio adequado para realização desta tarefa. Assim, uma análise e seleção de abordagens de classifica- ção a serem combinadas por meio de um Algoritmo Genético Multiobjetivo é proposta neste trabalho, no domínio de imagens hiperespectrais. Ressalta-se que, até o momento, não foi encontrado na literatura, o emprego desta técnica em classificação de imagens hiperespectrais de sensoriamento remoto. ii Analysis of Classifiers Combiner using a Multiobjective Approach: based on Accuracy and Number of Classifiers. Abstract The Remote Sensing is a form’s information extraction about the Earth from space, with the aim of improving the management of natural resources, land use and envi- ronmental protection. This field of knowledge has benefited from many technological advances among which may be mentioned the hyperspectral image. This type of image can be composed of hundreds of bands, each corresponding to a particular range of the electromagnetic spectrum. One can realize the wealth of information that can provide such an image, leading to a more precise analysis. However, to handle this volume of information, both in quality and quantity, and required the use of algorithms and methods which are able to extract the information provided. A common task in data analysis is the generation of thematic maps from the classification of land cover. Tra- ditionally, we try to develop different ranking algorithms and then the one that has the best performance, i.e., higher accuracy is chosen. This type of methodology may result in loss of important information contained in discarded classifiers. One way to avoid this, which has been widely studied and used today, is the combination of multiple approaches to classification and consequent production of thematic maps more accu- rate. In this study, the combination is done twelve classification approaches, obtained by using three data representations and four different learning algorithms. Data re- presentations used are Pixelwise, Extended Morphological Profiles (EMP) and Feature Extraction by Genetic Algorithms (FEGA), who were classified with the learning al- gorithms Support Vector Machines (SVM) with kernel Radial Basis Function (RBF) e kernel Linear, K-Nearest Neighbor (KNN) and Multilayer Perceptron Neural Network iii (MLP). The method of combination proposed is based on a weighted linear combina- tion, where Linear Programming is the weight for each classification approach is used and referred Weighted Linear Combination optimized by Linear Programming (WLC- ILP). To analyze the results obtained, the proposed method was compared to other methods such as the combination Weighted Linear Combination optimized by Genetic Algorithm (WLC-GA), and the traditional, as Majority Vote (MV) and Average Rule. The Weighted Linear Combination optimized by Integer Linear Programming (WLC- ILP) surpassed the results of the methods (MV) and Average Rule and obtained similar results (WLC-GA), however, ten times faster than this. A still open issue is relatedto how many and which use a set of classifiers in order to obtain a more precise accuracy. No one knows for sure what causes a combination produce results, though not always guaranteed, better than a single classifier. Some authors indicate the diversity of a set as the main factor of success of a combiner, however, there is no formal definition, it is widely accepted that the diversity. Since it is desirable to produce better accuracies using the minimum number of classifiers as possible, an multiobjective genetic algorithm is presented as a means suitable for this task. Thus, an analysis and selection classifica- tion approaches to be combined by using a multiobjective genetic algorithm is proposed in this work in the field of spectral images. It is noteworthy that, to date, not found in the literature, the use of this technique in the classification of hyperspectral remote sensing images. iv Declaração Esta dissertação é resultado de meu próprio trabalho, exceto onde referência explícita é feita ao trabalho de outros, e não foi submetida para outra qualificação nesta nem em outra universidade. Sandro Luiz Jailson Lopes Tinôco v Agradecimentos Agradeço a todos que me ajudam direta ou indiretamente neste trabalho. Agradeço a minha família, pelo aconchego. Agradeço aos professores, pela preocupação. Agradeço aos amigos, pelos conselhos. Agradeço ao David, meu orientador. Agradeço à UFOP e Ouro Preto, pelos ensinamentos. Agradeço aos esquecidos não mencionados explicitamente aqui. Agradeço ao Coordenadoria de Aperfeiçoamento de Pessoal de Ensino Superior (CA- PES). Muito Obrigado. vii Prefácio A representação visual da informação desempenha um papel fundamental na vida do ser humano. No dia-a-dia, as imagens assumem as mais diversas funções como, por exemplo, representações gráficas em placas de sinalização, o registro fotográfico para recordação posterior ou, ainda, na manifestação do sentimento em obras de arte. À medida que se desenvolvem novas tecnologias, surgem novas formas de utilização de imagens, aumentando sua área de abrangência aos mais diversos campos científicos. O Sensoriamento Remoto é uma importante área do conhecimento que se utiliza da representação visual, com a finalidade de obter informações sobre o planeta Terra. A importância de tais informações reside no fato de que elas auxiliam o homem na gestão dos recursos naturais, no uso da terra e na proteção do meio ambiente. Pode-se perceber que a quantidade de dados gerada nesse processo, devido â extensão das áreas imageadas, também é extensa, tornando a análise manual, uma tarefa quase impossível. Além disso, a tecnologia desenvolvida para obter essas imagens pode gerar dados que devem ser processados com a utilização de algoritmos que sejam capazes de aproveitar o máximo da informação presente neles. Uma forma de transformar essa informação em conhecimento útil é gerar mapas temáticos, que são a representação de elementos específicos como, por exemplo, caracte- rísticas do solo, vegetação entre outros. Diferentes mapas temáticos podem auxiliar em uma tomada de decisão específica na gestão dos recursos disponíveis. Assim, no presente projeto, imagens de sensoriamento remoto são classificadas por algoritmos e por métodos que combinam esses algoritmos visando produzir mapas temáticos mais precisos. ix Sumário Lista de Figuras xv Lista de Tabelas xix 1 Introdução 1 1.1 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Organização do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Revisão Bibliográfica 7 2.1 Abordagens de Classificação Hiperespectrais: Representações . . . . . . . 7 2.1.1 Representação Espectral . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.2 Representação Espectral-Espacial . . . . . . . . . . . . . . . . . . 9 2.2 Combinação de Classificadores . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Avaliação da Combinação de Classificadores . . . . . . . . . . . . . . . . 13 3 Fundamentação Teórica 15 3.1 Algoritmos de Aprendizagem de Máquina . . . . . . . . . . . . . . . . . . 15 3.1.1 K-Nearest Neighbor (KNN) . . . . . . . . . . . . . . . . . . . . . 16 3.1.2 Multilayer Perceptron Neural Network (MLP) . . . . . . . . . . . 16 3.1.3 Support Vector Machines(SVM) . . . . . . . . . . . . . . . . . . . 17 3.2 Método de Combinação de Classificadores . . . . . . . . . . . . . . . . . 17 3.3 Otimização Combinatória . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3.1 Programação Linear Inteira . . . . . . . . . . . . . . . . . . . . . 21 3.3.2 Algoritmo Genético . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.3 Otimização Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . 25 4 Metodologia 29 4.1 Conjunto de Abordagens de Classificação Base . . . . . . . . . . . . . . . 29 4.2 Weighted Linear Combination optimized by Integer Linear Programming (WLC-ILP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.3 Otimização Multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3.1 Algoritmos Multiobjetivos . . . . . . . . . . . . . . . . . . . . . . 34 4.3.2 Algoritmo Genético Multiobjetivo proposto . . . . . . . . . . . . . 35 5 Experimentos 37 5.1 Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2 Critérios de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.2.1 Protocolo de Treinamento, Validação e Teste . . . . . . . . . . . . 40 5.2.2 Medidas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.3 Configuração dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . 43 5.3.1 Parâmetros das Abordagens de Classificação Base . . . . . . . . . 43 5.3.2 Parâmetros dos Métodos de Combinação . . . . . . . . . . . . . . 44 5.3.3 Algoritmo Genético Multiobjetivo . . . . . . . . . . . . . . . . . . 45 5.4 Esquemas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 xii 6 Resultados e Discussões 47 6.1 Base de Dados Indian Pines . . . . . . . . . . . . . . . . . . . . . . . . . 47 6.1.1 Análise dos Resultados do Método de Combinação WLC-ILP . . . 47 6.1.2 Análise dos Resultados do Algoritmo Genético Multiobjetivo . . . 53 6.2 Base de Dados Pavia University . . . . . . . . . . . . . . . . . . . . . . . 53 6.2.1 Análise dos Resultados do Método de Combinação WLC-ILP . . . 54 6.2.2 Análise dos Resultados do Algoritmo Genético Multiobjetivo . . . 56 7 Conclusões e Trabalhos Futuros 59 7.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 A Apêndice 61 A.1 Modelo para resolução do Programa Linear do Método WLC-ILP . . . . 61 A.2 Resultados dos Experimentos do Método WLC-ILP . . . . . . . . . . . . 63 A.2.1 Base de Dados Indian Pines . . . . . . . . . . . . . . . . . . . . . 63 A.2.2 Base de Dados Pavia Universtiy . . . . . . . . . . . . . . . . . . . 63 A.3 Resultados dos Experimentos com o Algoritmo Genético Multiobjetivo proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 A.3.1 Base de Dados Indian Pines . . . . . . . . . . . . . . . . . . . . . 64 A.3.2 Base de Dados Pava University . . . . . . . . . . . . . . . . . . . 64 Referências Bibliográficas 75 xiii Lista de Figuras 3.1 Perfil de Decisão. Modificado de (Kuncheva, 2004). . . . . . . . . . . . . 19 3.2 Processo de modelagem. Modificado de (Goldbarg and Luna, 2000). . . . 20 3.3 Representação gráfica da região admissível (área colorida de verde) e de pontos extremos (B, C, E, F) do Algoritmo Simplex. Modificado de (Goldbarg and Luna, 2000). . . . . . . . . . . . . . . . . . . . . . . . 23 3.4 Fronteira de Pareto. Modificado de (Deb, 2011).. . . . . . . . . . . . . 26 3.5 Representação gráfica de um problema multiobjetivo função f2 (Schaffer, 1985). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.6 Fronteira de Pareto para a função f2 (Schaffer, 1985). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.1 Diagrama WLC-ILP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2 Representação do genoma, 1 significa presença e 0 ausência de determi- nada abordagem de classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3 Fluxograma do Algoritmo Genético baseado na Fronteira de Pareto pro- posto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.1 Base de dados AVIRIS - Indian Pines. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2 Base de Dados ROSIS - Pavia University . . . . . . . . . . . . . . . . . 40 6.1 Média (asterisco) e intervalo de confiança (barra vertical) de Overall Accuracy (OA) no conjunto de testes para a base de dados Indian Pi- nes com conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Esquema de Avaliação 1, em que todas as abordagens são usadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.2 Média (asterisco) e intervalo de confiança (barra vertical) de OA no con- junto de testes para a base de dados Indian Pines com diferentes conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Esquema de Avaliação 2, em que as quatro melhores abordagens são retiradas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 6.3 Média (asterisco) e intervalo de confiança (barra vertical) de OA no con- junto de testes para a base de dados Indian Pines com diferentes conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Esquema de Avaliação 3, em que as quatro piores abordagens são retiradas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.4 Comparação entre os mapas temáticos do Indian Pines obtidos através da classificação com o melhor classificador Extended Morphological Profiles (EMP)-Support Vector Machines (SVM) e pelo métodos de combinação Weighted Linear Combination optimized by Genetic Algorithm (WLC- GA) e WLC-ILP com todas as abordagens base, com 20% de amostras de treinamento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.5 Tempo de execução (em segundos) do WLC-ILP e WLC-GA na base de dados Indian Pines com diferentes conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Esquema de Avaliação 1, em que as todas as abordagens base são usadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 6.6 Fronteira de Pareto com 25% dos dados de treinamento, para a base dados AVIRIS - Indian Pines sobre 12 classificadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 xvi 6.7 Média (asterisco) e intervalo de confiança (barra vertical) de OA no con- junto de testes para a base de dados Pavia University com conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Esquema de Ava- liação 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.8 Média (asterisco) e intervalo de confiança (barra vertical) de OA no con- junto de testes para a base de dados Pavia University com diferentes conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Es- quema de Avaliação 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.9 Média (asterisco) e intervalo de confiança (barra vertical) de OA no con- junto de testes para a base de dados Pavia University com diferentes conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Es- quema de Avaliação 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.10 Comparação entre os mapas temáticos do Indian Pines obtidos através da classificação com o melhor classificador EMP-SVM e pelo métodos de combinação WLC-GA e WLC-ILP com todas as abordagens base, com 20% de amostras de treinamento. . . . . . . . . . . . . . . . . . . . . . . 57 6.11 Tempo de execução (em segundos) do WLC-ILP e WLC-GA na base de dados Pavia University com diferentes conjuntos de treinamento 10%, 15%, 20% e 25% de amostras, para o Esquema de Avaliação 1, em que as todas as abordagens base são usadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 6.12 Fronteira de Pareto com 10% dos dados de treinamento, para a base dados Pavia University sobre 12 classificadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 A.1 Fronteira de Pareto para a base de dados Indian Pines, com 10%, 15%, 20% e 25% de amostras de treinamento. . . . . . . . . . . . . . . . . . . 73 A.2 Fronteira de Pareto para a base de dados Pavia University, com 10%, 15%, 20% e 25% de amostras de treinamento. . . . . . . . . . . . . . . . 74 xvii Lista de Tabelas 4.1 Abordagens de Classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.1 Número de amostras por classe para o Indian Pines dataset. . . . . . . . 39 5.2 Número de amostras por classe para o Pavia University dataset. . . . . . 40 6.1 Tempo de execução (em segundos) do WLC-ILP e WLC-GA na base de dados Indian Pines. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 6.2 Tempo de execução (em segundos) do WLC-ILP e WLC-GA na base de dados Pavia Universty. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 A.1 Resultados para a base de dados Indian Pines das abordagens individuais: 10% amostras de Validação, 10% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 A.2 Resultados para a base de dados Indian Pines das abordagens individuais: 15% amostras de Validação, 15% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 A.3 Resultados para a base de dados Indian Pines das abordagens individuais: 20% amostras de Validação, 20% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 A.4 Resultados para a base de dados Indian Pines das abordagens individuais: 25% amostras de Validação, 25% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 A.5 Resultados para a base de dados Pavia Universtiy das abordagens indivi- duais: 10% amostras de Validação, 10% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 A.6 Resultados para a base de dados Pavia Universtiy das abordagens indivi- duais: 15% amostras de Validação, 15% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 A.7 Resultados para a base de dados Pavia Universtiy das abordagens indivi- duais: 20% amostras de Validação, 20% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 A.8 Resultados para a base de dados Pavia Universtiy das abordagens indivi- duais: 25% amostras de Validação, 25% amostras de Treinamento e 50% de amostras de Testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 xx “É improfícuo fazer-se com mais o que pode ser feito com menos.” — William de Ockham Nomenclatura AA Average Accuracy AG Algoritmo Genético AGM Algoritmo Genético Multiobjetivo a-MRF adaptative Markov Random Fields AIS Airborne Imaging Spectrometer AM Aprendizagem de Máquina AVIRIS Airborne Visible Infra-Red Imaging Spectrometer CA Class Accuracy DBFE Decision Boundary Feature Extraction DP DecisionProfile EE Elemento Estruturante EM Expectation Maximization EMP Extended Morphological Profiles FEGA Feature Extraction by Genetic Algorithms GALIB GAlib: A C++ Library of Genetic Algorithm Components GDA Generalized Discriminant Analysis HIAT Hyperspectral Image Analysis Toolbox HSEG Hierachical Segmentation xxi IC Intervalo Confiança ICA Independent Component Analysis KFDA Kernel Fisher Discriminant Analysis KNN K-Nearest Neighbor KNWFE Kernel Nonparametric Weighted Feature Extraction KPCA Kernel Principal Component Analysis LIBSVM A Library for Support Vector Machines LDA Linear Discriminant Analysis MCS Multiple Classification System MV Majority Vote MRF Markov Random Fields ML Maximum Likelihood MM Morfologia Matemática MP Morphological Profile MLP Multilayer Perceptron Neural Network MSSC Multiple Spectral-Spatial Classifier MSF Minimum Spanning Forest NLPCA Nonlinear Principal Component Analysis NWFE Nonparametric Weighted Feature Extraction OA Overall Accuracy PC Principal Component PCs Principal Components PCA Principal Component Analysis PLI Programação Linear Inteira xxii PR Post Regularization RBF Radial Basis Function RBFNN Radial Basis Function Neural Networks Reg-AB Regularized AdaBoost Reg-RBFNN Regularized Radial Basis Function Neural Networks ROSIS Reflective Optics System Imaging Spectrometer RFS Random Feature Selection RN Rede Neuronal RNA Rede Neuronal Artificial SR Sensoriamento Remoto SVM Support Vector Machines SVDSS Singular Value Decomposition Band Subset Selection WLC-GA Weighted Linear Combination optimized by Genetic Algorithm WLC-ILP Weighted Linear Combination optimized by Integer Linear Programming xxiii Caṕıtulo 1 Introdução Sensoriamento Remoto (SR) pode ser definido, de forma mais abrangente, como a aqui- sição de informações sobre um objeto sem estar em contato físico com ele, ou seja, são técnicas para a coleta de imagens ou outras formas de dados, que serão posteriormente tratados e analisados, sobre um objeto a partir de medições feitas à distância do ob- jeto (Elachi and Van Zyl, 2006). (Lillesand, 2006) define SR como a ciência e a arte de obter informações sobre um objeto, área ou fenômeno através da análise de dados adquiridos por um dispositivo que não está em contato com o objeto, área ou fenômeno sob investigação. O Sensoriamento Remoto Espacial, objeto do presente trabalho, de acordo coma Resolução 41/65 da Organização das Nações Unidas (ONU, 1986), é concei- tuado como uma forma de obter informações sobre a Terra a partir do espaço, utilizando as propriedades das ondas eletromagnéticas emitidas, refletidas ou difracionadas pelos objetos sensoriados, com a finalidade de melhorar a gestão dos recursos naturais, o uso da terra e a proteção do meio ambiente. É uma tecnologia que envolve um conjunto de programas e equipamentos para auxiliar o homem em suas observações sobre o planeta. Essa coleta de dados e informações de objetos através da medição de sinais à longas distâncias (Prasad et al., 2011), geralmente, é feita por meio de sensores transportados em aviões ou em satélites (Plaza et al., 2009). Nas últimas décadas novos instrumentos de imageamento começaram a ser desen- volvidos. Como exemplo, pode ser citado o sensor Airborne Visible Infra-Red Imaging Spectrometer (AVIRIS), que cobre uma faixa de espectro eletromagnético que vai de 0, 4 µm a 2, 5 µm, com resolução espectral de 10 nm, contendo mais de duzentas ban- das (canais) espectrais (Green et al., 1998). Com isso, o imageamento espectroscópico tem permitido avanços na análise e interpretação de materiais sobre a superfície terres- 1 1. INTRODUÇÃO tre (Plaza et al., 2009), fornecendo imagens compostas de algumas dezenas até centenas de bandas espectrais (Plaza et al., 2009; Tarabalka, 2010). Cada banda espectral repre- senta a reflectância (quantidade de energia refletida) de um material em um determinado comprimento de onda. Então, a resposta espectral para cada posição (canal) do pixel fornece uma imagem denominada hiperespectral ou hipercubo (Chang, 2007). Imagens hiperespectrais são uma evolução das imagens multiespectrais, formadas por quatro a sete canais espectrais, e permitem analisar materiais que não podem ser identificados por estas devido a baixa resolução dos dados multiespectrais (Chang, 2007; Plaza et al., 2009). Dados de SR tem sido usados para vários propósitos, como: gestão de grandes ca- tástrofes, planejamento e gerenciamento urbano, monitoramento ambiental, agricultura, silvicultura, etc. (Benediktsson et al., 2007; Chang, 2007; Prasad et al., 2011). Na mai- oria dessas aplicações, uma análise automática é requerida (Benediktsson et al., 2007) permitindo grandes avanços, principalmente para a interpretação (classificação) dos di- versos materiais terrestres (Chang, 2007; Prasad et al., 2011). A primeira etapa consiste de uma classificação de cada pixel da imagem (Benediktsson et al., 2007). Nessa etapa, como em todos os projetos de reconhecimento de padrões, objetiva-se obter o melhor desempenho de classificação possível. Tradicionalmente, depois de avaliados, escolhe-se o esquema com o melhor desempenho, como solução final para o problema de classifica- ção (Kittler et al., 1998). No entanto, tem-se observado que, nos classificadores descartados, os conjuntos de padrões mal classificados não se sobrepõem, sugerindo que os mesmos poderiam oferecer informação complementar que poderiam melhorar o desempenho do classificador esco- lhido (Kittler et al., 1998). Essa complementaridade pode ser obtida usando representa- ções diferentes de uma mesma entrada (Alpaydin, 1998). Além disso, em sensoriamento remoto, existem dados que fornecem informação espacial com resoluções entre 1 e 30 metros por pixel (Chang, 2007), o que representa uma grande capacidade de distinguir estruturas de objetos complexos, podendo aumentar a acurácia na classificação. Com a intenção de elevar o número de acertos na classificação, diversos autores propõem a junção da informação espectral com a informação espacial (espectral-espacial) (Chang, 2007; Plaza et al., 2009; Prasad et al., 2011). No presente projeto, é proposto um método consensual para combinar classificadores, utilizando uma combinação linear ponderada das probabilidades de saída de cada abor- dagem de classificação. Essa proposta utiliza Programação Linear Inteira (PLI) para encontrar os pesos de cada abordagem de classificação, e é denominada de Weighted 2 1. INTRODUÇÃO Linear Combination by Integer Linear Programming WLC-ILP (Tinôco et al., 2013). As abordagens usadas na combinação foram construídas de forma a constituírem um conjunto diverso (Polikar, 2006) e com informação complementar (Alpaydin, 1998). Para isso, são usadas as representações de dados Pixelwise (Melgani and Bruzzone, 2004) que utiliza apenas informação espectral; EMP (Benediktsson et al., 2005), que utiliza informação espacial extraída através de operações morfológicas e Feature Extraction by Genetic Algorithms (FEGA) (Santos et al., 2012c), que usa Algoritmo Genético (AG) para selecionar características. Para a classificação, são utilizados algoritmos de aprendizagem tradicionais na literatura como SVM (Melgani and Bruzzone, 2004), com kernel Radial Basis Function (RBF) e kernel Linear , Multilayer Perceptron Neural Network (MLP) (Benediktsson et al., 2005) e K-Nearest Neighbor (KNN) (Cover and Hart, 1967). De forma, que o conjunto de classificadores para combinação contém 12 abordagens de classificação. A segunda proposta deste trabalho visa analisar combinações de classificadores atra- vés de um Algoritmo Genético Multiobjetivo (AGM) baseado na Fronteira de Pareto. Alguns autores apontam a diversidade do conjunto de classificadores como fator deter- minante para o sucesso da combinação de classificadores (Polikar, 2006), no entanto, não existe uma definição formal de diversidade amplamente aceita (dos Santos et al., 2006; Gabrysa and Rutab, 2006; Kuncheva, 2004; Kuncheva and Whitaker, 2003).En- tão, através de um AGM, que realiza uma busca dentro do espaço de soluções possíveis, pretende-se obter combinações mais eficientes (menores) mantendo-se ou melhorando a eficácia (acurácia) de classificação. Os experimentos foram realizados nas bases de dados de Sensoriamento Remoto Indian Pines e Pavia University, imagens hiperespectrais obtidas pelos sensores AVI- RIS (Green et al., 1998) e Reflective Optics System Imaging Spectrometer (ROSIS) (Gege et al., 1998), respectivamente. Para verificar a eficiência do método de combina- ção proposto, o WLC-ILP foi comparado com métodos de combinação como WLC-GA e, tradicionais, como Majority Vote (MV) e Average rule. 1.1 Justificativa A quantidade de dados gerada por Sensoriamento Remoto é muito grande, o que torna uma análise manual uma tarefa impossível. Além disso, os dados adquiridos neste sis- 3 1. INTRODUÇÃO tema, possuem uma riqueza de informação que deve ser bem aproveitada, como é o caso das imagens hiperespecrais. Faz-se necessário, então, o uso de métodos e algoritmos que consigam tirar proveito de tal informação de maneira eficiente. A combinação de classificadores tem sido bastante empregada, de maneira geral, com o objetivo de uti- lizar toda a informação disponível, uma vez que a utilização de um único classificador não consegue abranger todo o espaço de classificação. Combinar classificadores leva à questão de como conseguir o máximo de acurácia, qual característica o algoritmo de aprendizagem deve possuir para isso e qual a quantidade de elementos que o conjunto a ser combinado deve ter. Um método, como AGM, que consiga relacionar máxima acurácia e menor número de classificadores, está alinhado a metodologias clássicas de investigação como o Principio da Parcimônia ou Navalha de Occam (Agarwal et al., 2011), que preceituam que não se deve fazer com mais que pode ser feito eficientemente com menos. A Navalha de Occam considera que, havendo mais de uma solução ou explicação para um problema, deve-se escolher a solução ou explicação mais simples, desde que esta solução (mais simples) resolva satisfatoriamente o problema (Blumer et al., 1987; Nunez et al., 2004). Este princípio, um dos principais critérios científicos de todos os tempos, que tem as leis de Newton e as equações de Maxwell do electromagnetismo como exemplos de sua aplica- bilidade, também tem sido aplicado no desenvolvimento de mecanismos computacionais de descoberta de conhecimento (Blumer et al., 1987). 1.2 Objetivos 1 Propor uma forma de combinação de múltiplas abordagens de classificação, usando PLI, que é mais rápida, como alternativa ao WLC-GA (Santos et al., 2013) que usa AG. 2 Comparar o método proposto com métodos tradicionais da literatura e com o WLC-GA. 3 Produzir mapas temáticos que sejam o mais precisos possível. 4 Analisar combinação de múltiplas abordagens de classificação. 5 Apresentar um método para obter combinações de classificadores mais eficientes (menores) mantendo-se a eficácia (acurácia) através de um AGM baseado na Fron- teira de Pareto. 4 1. INTRODUÇÃO 1.3 Contribuições 1 Utilização de PLI para encontrar pesos adequados de cada abordagem de clas- sificação para uma combinação ponderada aplicada à imagens hiperespectrais de sensoriamento remoto. 2 Apresentar um método para análise de combinações de classificadores em imagens hiperespectrais de sensoriamento remoto, até o momento não empregado nesta área, conforme literatura pesquisada. 1.4 Organização do Texto O texto desta dissertação encontra-se organizado da seguinte forma. No Capítulo 1 é feita a contextualização do problema e da solução proposta. O Capítulo 2 apresenta uma revisão bibliográfica sobre o estado da arte de métodos de classificação com ênfase àqueles usados em imagens hiperespectrais de sensoriamento remoto. O Capítulo 3 apresenta os conceitos e fundamentos dos algoritmos e métodos utilizados na abordagem proposta neste trabalho. No Capítulo 4 é mostrado como as base de dados foram tratadas e os algoritmos propostos foram construídos. O Capítulo 5 mostra como os experimentos foram configurados e realizados. No Capítulo 6, os resultados obtidos são apresentados e analisados. No Capítulo 7 uma conclusão e discussão sobre trabalhos futuros são realizados. 5 6 Caṕıtulo 2 Revisão Bibliográfica Este capítulo apresenta o estudo prospectivo realizado com a finalidade de conhecer o estado da arte e os principais conceitos da literatura técnica relacionados ao desen- volvimento do projeto proposto. Tipos de representações de dados e os algoritmos de aprendizagem utilizados para classificá-los são apresentados. São mostrados, ainda, mé- todos de combinação de classificadores e conceitos relacionados à sua eficiência 2.1 Abordagens de Classificação Hiperespectrais: Re- presentações Nesta Seção, são apresentadas duas formas de se utilizar a informação para classificação de dados. Uma que leva em consideração somente a informação contida em cada pixel, a representação espectral. E outra que relaciona a informação de cada pixel à do pixel vizinho, a representação espectral-espacial. 2.1.1 Representação Espectral A tarefa de classificação de imagens hiperespectrais de sensoriamento remoto consiste basicamente em atribuir um rótulo específico a cada um dos pixels que formam a imagem. A classificação que se baseia apenas na informação espectral é denominada de Pixelwise e cada pixel é considerado uma amostra cujo conjunto de características é seu espectro (Tarabalka, 2010). Uma vez que imagens hiperespectrais apresentam alta 7 2. REVISÃO BIBLIOGRÁFICA dimensionalidade, são necessários algoritmos de aprendizagem capazes de se adequarem a essa situação (Plaza et al., 2009). Neste sentido, tem-se mostrado que algoritmos de aprendizagem baseados em ker- nel são mais eficazes que os tradicionais métodos de aprendizagem. Métodos baseados em kernel transformam os dados originais para um novo espaço de características onde se consegue uma melhor separação entre as classes. (Melgani and Bruzzone, 2004) aplicaram o algoritmo de aprendizagem SVM a imagens hiperespectrais, o qual se re- velou uma efetiva e poderosa ferramenta para a interpretação desses dados, superando métodos tradicionais como: Regularized Radial Basis Function Neural Networks (Reg- RBFNN) e KNN. (Camps-Valls and Bruzzone, 2005) analisaram e compararam, em relação à interpretação de dados hiperespectrais, vários algoritmos baseados em kernel como Reg-RBFNN, SVM, Kernel Fisher Discriminant Analysis (KFDA), e Regularized AdaBoost (Reg-AB). Esse estudo revelou a superioridade do algoritmo SVM que, desde então, tem sido apontado por diversos autores por causa de seu bom comportamento face à escassez e alta dimensionalidade das amostras de treinamento. Sua eficácia é considerada como referência em vários trabalhos da literatura (Tarabalka, 2010). De maneira geral, rotular grandes quantidades de dados é um trabalho difícil, e no domínio de imagens hiperespectrais de sensoriamento remoto é necessário ainda um tra- balho de campo, o que dificulta a produção de dados com referência. Com a finalidade de minimizar o problema da escassez de dados hiperespectrais rotulados, técnicas de apren- dizagem ativa combinadas à aprendizagem semi-supervisionada estão sendo cada vez mais utilizadas. Combinando informações de amostras rotuladas e não rotuladas, amos- tras que maximizam o ganho de informação na etapa de aprendizado são identificadas permitindo maior robustez na classificação mesmo utilizando conjuntos de treinamento pequenos (Li et al., 2011, 2010; Tuia and Camps-Valls, 2011). A escassez de dados hiperespectrais rotulados gera, ainda, um outro problema: quanto maior a dimensionalidade, maior será o número de amostras de treinamento necessárias ao bom desempenho do algoritmo de aprendizagem (Alpaydin, 2010; Mit- chell, 1997). É importante salientar que dimensionalidade é o conjunto de características presentes nos dados. Métodos de seleção e extração de características têm o objetivo de manter, até mesmomelhorar, o poder de discriminação dos dados ao mesmo tempo que procura diminuir o conjunto de características. (Kuo et al., 2009) compararam os principais métodos de extração de características discutidos na literatura utilizando diferentes tipos de classificadores: SVM, Maximum 8 2. REVISÃO BIBLIOGRÁFICA Likelihood (ML) e KNN em diversas configurações de amostragem de treinamento. Neste trabalho, foi apresentado o Kernel Nonparametric Weighted Feature Extraction (KNWFE) um método que se utiliza de propriedades dos métodos kernel-based para es- tender o tradicional Nonparametric Weighted Feature Extraction (NWFE). O KNWFE foi comparado com diversos métodos lineares e não-lineares de extração de características presentes na literatura técnica, são eles: Principal Component Analysis (PCA), Kernel Principal Component Analysis (KPCA), Independent Component Analysis (ICA), Linear Discriminant Analysis (LDA), kernel-based LDA ou Generalized Discriminant Analysis (GDA), Decision Boundary Feature Extraction (DBFE) e o tradicional NWFE. O KNWFE apresentou o melhor desempenho, em termos de acurácia, do que os demais métodos, entretanto, não houve um classificador em comum que obtivesse o melhor de- sempenho em todas as condições de testes realizados. Encontrar a melhor combinação - extração de características + classificador - que possua a melhor acurácia em todas as bases de dados, é um problema considerado de difícil tratamento (Bakos and Gamba, 2011; Kuo et al., 2009). Outra maneira de reduzir a dimensionalidade nos dados é conhecida como seleção de características (Bishop, 2006) na qual, diferentemente da extração, não há nenhum tipo de transformação nos dados originais. Existem, basicamente, dois tipos de seleção de características: filter e wrapper. Abordagens do tipo wrapper conduzem uma busca uti- lizando informação proveniente de um classificador (Bishop, 2006), como nos trabalhos de (Bazi and Melgani, 2006; Pal and Foody, 2010; Pedergnana et al., 2012). Abor- dagens filter (Santos et al., 2012a; Velez-Reyes and Jimenez, 1998; Velez-Reyes et al., 2000; Yu and Liu, 2003) são completamente independentes do processo de classifica- ção. Algoritmos baseados em abordagens wrapper tendem a produzir subconjuntos mais adequados para o classificador, embora, em sua maioria, sejam mais lentos que aqueles baseados em filter (Bishop, 2006; Kohavi and John, 1997). 2.1.2 Representação Espectral-Espacial Outra forma de melhorar o desempenho da classificação consiste em acrescentar infor- mação espacial à espectral, obtendo-se, assim uma informação contextual, para inter- pretação de imagens hiperespectrais de sensoriamento remoto (Tarabalka et al., 2010c; Zhon and Wang, 2010). Uma primeira estratégia para isso modela informações con- textuais nas estruturas intrínsecas dos classificadores (Jackson and Landgrebe, 2002; Neher and Srivastava, 2005; Sarkar et al., 2002). As informações contextuais podem 9 2. REVISÃO BIBLIOGRÁFICA ainda regularizar um mapa temático produzido usando um filtro da maioria, e os pixels desse mapa serem novamente rotulados conforme sua vizinhança, processo conhecido como Post Regularization (PR) (Tarabalka et al., 2009b). (Tilton, 1998) propõe um método baseado em crescimento de regiões, para a segmentação de imagens multies- pectrais, Hierachical Segmentation (HSEG), em que uma segmentação hierárquica é realizada iterativamente rotulando pixels de acordo com a região mais semelhante. O método HSEG foi estendido ao domínio das imagens hiperespectrais (Tilton et al., 2006) fornecendo resultados promissores. Outro método de segmentação de imagens é Watershed uma técnica de morfologia matemática para segmentação de imagens (Facon, 1996; Serra, 1982). (Tarabalka et al., 2010b) propuseram uma extensão desse algoritmo ao domínio das imagens hiperespec- trais em que regiões segmentadas da imagem hiperespectral são combinadas usando MV, com uma classificação Pixelwise usando SVM. Usando essa abordagem, mapas temá- ticos com regiões mais homogêneas são obtidos (Tarabalka et al., 2008, 2010b). Um problema desse algoritmo é a oversegmentation (Tarabalka et al., 2010b). Para mi- nimizar esse problema (Tarabalka et al., 2009a) propuseram controlar a segmentação por um conjunto de pixels denominado sementes que são selecionadas através do SVM com saída probabilística. Foram reportados índices de acurácia superiores à aborda- gem tradicional, no entanto, a desvantagem da nova abordagem é que a escolha das sementes é muito dependente do desempenho na classificação Pixelwise (Fauvel et al., 2012). Para aumentar a confiabilidade das sementes selecionadas, (Tarabalka et al., 2010a) propuseram uma abordagem baseada em Multiple Classification System (MCS). Usando o esquema de MV, essa nova abordagem, denominada de Multiple Spectral- Spatial Classifier (MSSC), seleciona automaticamente as sementes que são comuns entre os vários classificadores. Algoritmos de segmentação como HSEG (Tilton, 1998), Watershed (Tarabalka et al., 2010c), ISODATA (Tarabalka et al., 2009a), Expectation Maximization (EM) (Tara- balka et al., 2009a) e Minimum Spanning Forest (MSF) (Tarabalka et al., 2010b) têm sido bastante usados para a regularização de uma classificação do tipo Pixelwise, no domínio das imagens hiperespectrais de sensoriamento remoto. Esses métodos são for- temente dependentes da classificação Pixelwise e falhas nesta etapa podem ocasionar classificações errôneas em regiões da imagem. Uma estratégia, para unir informação espacial e espectral, incorpora informação con- textual nas características extraídas da imagem. Informação espacial e espectral são combinadas em um só vetor de características às quais algum algoritmo de aprendiza- 10 2. REVISÃO BIBLIOGRÁFICA gem pode ser aplicado posteriormente (Benediktsson et al., 2005; Fauvel et al., 2008, 2009; Plaza et al., 2009). (Shen and Lia, 2011) propuseram uma abordagem baseada na 3-D Gabor-Wavelet para a classificação Pixelwise para unir a informação espectral e espacial, em que cada pixel é representado por uma informação extraída pela Wavelet de Gabor. Essa abordagem apresentou elevados índices de acurácia mesmo utilizando poucas amostras de treinamento. Uma clássica abordagem probabilística para modelar informação contextual/espa- cial (Plaza et al., 2009) é a Markov Random Fields (MRF), sobre a qual existe uma extensa literatura (Jackson and Landgrebe, 2002; Neher and Srivastava, 2005; Salzens- tein and Collet, 2006). (Tarabalka et al., 2010d) propuseram a integração de SVM e MRF ( SVM-MRF) na qual uma classificação Pixelwise usando SVM probabilístico é realizada e, em seguida, refinada através de uma regularização usando MRF. Algumas limitações desse método foram tratadas por (Zhang et al., 2011) adaptative Markov Random Fields (a-MRF), elevando os índices de acurácia em relação ao ( SVM-MRF) originalmente proposto. Uma alternativa para modelar informação espectral-espacial aplicada em imagens multi-espectrais e hiperespectrais é conhecida como EMP (Fauvel et al., 2012; Plaza et al., 2009) que se baseia em operações morfológicas (Fauvel et al., 2012) de fecha- mento e abertura por reconstrução (Serra, 1982) criando o chamado Morphological Profile (MP) (Benediktsson et al., 2005). Em uma primeira etapa, algum método de extração de características é aplicado mantendo a informação espectral e, também, di- minuindo o número total de canais da imagem que serão utilizados na construção de cada MP (Benediktsson et al., 2005; Fauvel et al., 2012; Plaza et al., 2009). Em seguida, efetua-se uma operação morfológica (abertura ou fechamento por reconstrução) sobre cada MP, utilizando um Elemento Estruturante (EE) de vários tamanhos diferentes. Os MP dessa segunda etapa são concatenados juntamente com as características extraí- das na primeira etapa, assim, informações espectrais-espaciais são codificadas em um único conjunto de características formando então o EMP (Benediktsson et al., 2005). A classificação pode ser feita, então, utilizando um algoritmode aprendizagem para aprender e inferir sobre esse novo conjunto de características. Em (Benediktsson et al., 2005) essa tarefa foi realizada com MLP. Tradicionalmente o algoritmo de extração de características PCA tem sido empregado com EMP (Benediktsson et al., 2005), no entanto, existem outros estudos que propõem o uso de outros algoritmos, tais como ICA (Dalla Mura et al., 2011; Palmason et al., 2005), KPCA (Fauvel et al., 2009) e PCA não linear (Nonlinear Principal Component Analysis (NLPCA)) (Licciardi et al., 11 2. REVISÃO BIBLIOGRÁFICA 2012), que apresentaram resultados significativamente melhores em relação ao PCA. Ainda, (Fauvel et al., 2008) propuseram a aplicação de algoritmos supervisionados de extração de características, como DBFE e NWFE, sobre os dados hiperespectrais origi- nais e também sobre o EMP, obtendo um novo conjunto mais compacto e discriminativo de características do que aquele produzido pelo EMP. 2.2 Combinação de Classificadores Existem, basicamente, duas estratégias para combinar classificadores: fusão e seleção. Na fusão, supõe-se que cada classificador tem o conhecimento de todo o espaço de carac- terísticas, já, na seleção, cada classificador conhece bem determinada parte do espaço e é responsável pelos objetos desta parte. O projeto de seleção de classificadores garante ao menos a mesma acurácia de treinamento do melhor classificador individual (Kuncheva, 2004). Em dados de sensoriamento remoto, alguns estudos apontam a associação, ou fu- são, de múltiplos sensores como uma técnica adequada para agregar mais informações (Benediktsson and Kanellopoulos, 1999; Briem et al., 2002; Luo and Kay, 1989). (Bene- diktsson and Swain, 1992; Benediktsson et al., 1997) avaliaram métodos de combinação consensual (consensus theoretic methods) (Kuncheva, 2004) para classificação de dados de sensoriamento remoto de múltiplas fontes. Foram investigados diferentes métodos estatísticos lineares e também não-linear baseado em Rede Neuronal (RN) com a fina- lidade de encontrar pesos mais adequados para as regras de combinações consensuais. Ainda utilizando dados de múltiplas fontes, outros métodos de combinação estão sendo utilizados (Alpaydin, 2010; Kittler et al., 1998; Kuncheva, 2004), como bagging (Brei- man, 1996), boosting (Schapire, 1989), stacked generalization (Wolpert, 1992) e casca- ding (Kaynak and Alpaydin, 2000). O uso de métodos de combinação de classificadores em dados de sensoriamento re- moto tem acontecido no domínio de imagens hiperespectrais. (Fauvel, 2007) utilizou a teoria dos conjuntos fuzzy e (Lee and Ersoy, 2007) usaram RN consensuais e hierárquicas para produzir múltiplos classificadores. (Marpu et al., 2009) utilizaram Class-Dependent Neural Networks e a medida de distância Bhattacharya para seleção das características que melhor identificam determinada classe. Nesta linha, (Waske et al., 2010), usando Random Feature Selection (RFS), SVM e a regra de combinação MV, investigaram como a acurácia da classificação dessas imagens é influenciada pelo número de características 12 2. REVISÃO BIBLIOGRÁFICA e o tamanho do conjunto de classificadores. (Santos et al., 2013) propõem combinar classificadores por meio de uma regra de soma ponderada e que encontra os pesos utili- zando um AG. Os resultados obtidos foram superiores aos de regras de combinação como Média e MV. Uma alternativa ao AG, proposta neste trabalho, é a utilização de um PLI para encontrar os pesos. A acurácia dos mapas temáticos produzidos pelas abordagens mencionadas foi superior àquela obtida por sistemas de classificação que usam apenas um classificador. 2.3 Avaliação da Combinação de Classificadores Como visto na Seção 2.2, tem-se obtido excelentes resultados combinando classificado- res. Existem três razões que possibilitam a construção de bons conjuntos de classifi- cadores (Polikar, 2006). A primeira razão é estatística. O algoritmo de aprendizagem pode ser percebido como uma busca, no espaço de hipóteses H, pelas melhores hipóteses. Ocorre um problema estatístico quando a quantidade de dados de treinamento disponível é muito menor que o tamanho do espaço de hipóteses. Com isso algoritmos diferentes podem fornecer uma mesma acurácia sobres estes dados de treinamento. Combinando estes algoritmos reduz-se o risco de escolher um classificador ruim (Dietterich, 2000). A segunda razão é computacional. Muitos algoritmos de aprendizagem realizam busca local ficando sujeitos a estacionarem em um ótimo local. Nos casos em que há muitos dados de treinamento, isso pode acontecer, impedindo que o algoritmo encontre a me- lhor hipótese. Uma combinação desses algoritmos pode fornecer uma aproximação da função desconhecida melhor que um único classificador (Dietterich, 2000). A terceira razão é representacional. Pode acontecer que o espaço do classificador não contenha o classificador ótimo. Por exemplo, se o classificador ótimo é não-linear, mas o classifica- dor escolhido é linear, este não será capaz de encontrar a solução ótima do problema. No entanto, um conjunto de classificadores lineares pode aproximar qualquer fronteira de decisão (Dietterich, 2000; Kuncheva, 2004). Algoritmos de aprendizagem falham nes- tas três questões, então, métodos de combinação tem a promessa de reduzir, e talvez eliminar, estas falhas (Dietterich, 2000). Alguns autores apontam que a questão chave para o melhor desempenho da com- binação de classificadores em relação à utilização de um único classificador é a diver- sidade (Kuncheva, 2004; Polikar, 2006). Classificadores individuais cometem erros em diferentes instâncias. Então se cada classificador comete erros diferentes, uma com- 13 2. REVISÃO BIBLIOGRÁFICA binação destes classificadores pode reduzir o erro total (Polikar, 2006). Um conjunto formado por tais classificadores, isto é, cujas fronteiras de decisão são adequadamente diferentes umas das outras, é dito diverso (Polikar, 2006). Em (Brown and Kuncheva, 2010), os autores propõem o conceito de “boa” e “má” diversidade, para a regra MV. Um valor maior da “boa” diversidade reduz o erro da MV, ao passo que um valor maior de “má” diversidade aumenta o erro. Contudo, não existe uma definição estrita de diver- sidade amplamente aceita (Brown and Kuncheva, 2010; Kuncheva and Whitaker, 2003). Além disso, ainda não está clara qual a relação entre diversidade e acurácia (Brown and Kuncheva, 2010; dos Santos et al., 2006). (Gabrysa and Rutab, 2006) usaram diversidade para reduzir o erro de generalização e concluíram que esta não é uma boa medida para encontrar combinação de classificadores com bom resultado. O desempenho da combinação de classificadores depende de uma seleção cuidadosa dos classificadores a serem combinados. Uma forma de saber qual a melhor combinação, ou seja, quantos e quais classificadores utilizar, seria realizar cada combinação possível dentro de um dado conjunto de classificadores. Pode-se observar que para um número grande de classificadores, esta tarefa demandaria um alto custo computacional, pois, existem 2n − 1 combinações possíveis, então, para um número de classificadores n = 12, seriam 4095 possibilidades. Outra forma, visto que o espaço de busca é grande, poderia ser a utilização de algoritmos que otimizam a busca, como os Algoritmos Evolucionários. Ressalta-se que, além do desempenho em termos de acurácia, é interessante que se obtenha também uma combinação com um conjunto menor de classificadores. Dada a característica do problema, em que se busca, por um lado, maximizar a precisão e, por outro, minimizar o número de classificadores, uma possível solução é usar um AGM (dos Santos et al., 2006). 14 Caṕıtulo 3 Fundamentação Teórica Este capítulo apresenta os conceitos e fundamentos dos algoritmos e métodos utilizados na abordagem proposta neste trabalho. São detalhados algoritmos de aprendizagem de máquina tradicionais como KNN, SVM e MLP. Conceitos relacionados à Combinação de Classificadores são apresentados. São mostradas, também, duas formas de tratar problemasde otimização: Programação Linear e Otimização Multiobjetivo. 3.1 Algoritmos de Aprendizagem de Máquina Aprendizagem de Máquina (AM) é um campo de pesquisa da Inteligência Artificial so- bre o qual existe uma vasta literatura (Alpaydin, 2010; Bishop, 2006; Duda et al., 1995; Mitchell, 1997; Scholkopf and Smola, 2001; Theodoridis and Koutroumbas, 2003). Algo- ritmos de AM são métodos capazes, entre outras habilidades, de extrair conhecimento a partir de amostras de dados e, em geral, são utilizados de modo a gerar classificadores para um conjunto de amostras. Por classificação entende-se o processo de atribuir, a uma determinada informação, o rótulo da classe a qual ela pertence (Russell and Norvig, 2003). Com isso em vista, as técnicas de AM visam induzir, a partir de um conjunto de treinamento, um classificador que deve ser capaz de prever a classe de quaisquer amostras do domínio em que ele foi treinado. Nesta seção serão apresentados os concei- tos básicos de três algoritmos de aprendizagem bem conhecidos na literatura que serão utilizados neste trabalho: KNN, MLP e SVM. 15 3. FUNDAMENTAÇÃO TEÓRICA 3.1.1 K-Nearest Neighbor (KNN) O algoritmo KNN (Cover and Hart, 1967) classifica novas amostras de acordo com as K amostras do conjunto de treinamento mais próximas a essas novas amostras. O KNN usa uma medida de distância para definir a semelhança (proximidade) de uma amostra com outra, o que pode ser aplicado aos pixels (amostras) de imagens hiperespectrais, que estão em algum espaço de característica (Duda et al., 1995; Mitchell, 1997). Dado um conjunto de n pares {(x1, θ1) ,...,(xn, θn)}, em que xi toma valores de um espaço X, e θi toma valores de um conjunto 1, 2, ...,M . Considera-se cada θi como o índice da categoria a que pertence o i-ésimo indivíduo, e cada xi o resultado de um conjunto de medições feitas sobre aquele indivíduo. Se é dado um novo par (x, θ), no qual apenas o valor de x é conhecido e deseja-se estimar θ a partir do conjunto de pontos classificados corretamente, x ′ n ∈ {x1, x2, ..., xn} é o vizinho mais próximo de x se min d(xi, x) = d(x ′ n, x), com i = 1, 2, ..., n. A regra vizinho mais próximo decide que x pertence à categoria θ′n de seu vizinho mais próximo x′n (Cover and Hart, 1967). A distância d é determinada por uma métrica de similaridade, geralmente a distância Euclidiana. Apesar de sua simplicidade, o KNN apresenta um bom desempenho, mas possui algumas desvantagens (Mitchell, 1997) como alto custo computacional para calcular a distância entre a nova amostra e todas outras do conjunto de treinamento; baixa precisão em espaços de características muito elevados e dificuldade em se definir o melhor valor do parâmetro K. 3.1.2 Multilayer Perceptron Neural Network (MLP) Uma Rede Neuronal Artificial (RNA) de múltiplas camadas, ou MLP, é composta por um conjunto de nós fonte os quais representam a camada de entrada ( input layer), uma ou mais camadas escondidas ( hidden layer), e uma camada de saída ( output layer) (Duda et al., 1995; Mitchell, 1997). MLP é uma generalização da RNA Percep- tron comum (Mitchell, 1997), e ao contrário desta, é capaz de aprender funções não lineares. Cada neurônio escondido utiliza uma função de transferência para mapear o espaço de entrada, então, outras camadas podem aprender as características mapeadas como simples discriminantes lineares. Padrões não lineares são aprendidos como linea- res e o resultado é que regiões no espaço de características são associadas à uma classe específica. Assim, uma nova amostra pode ser rotulada de acordo com a região à qual pertence. À medida que mais camadas são acrescentadas à MLP, maior a interação neuronal proporcionada, e melhores separações podem ser feitas no espaço de caracte- rísticas. Desta forma, a MLP pode construir variados limites de decisões no espaço de 16 3. FUNDAMENTAÇÃO TEÓRICA características, determinando diferentes categorias (Duda et al., 1995). Na construção de uma MLP existem alguns aspectos que devem receber atenção especial como a es- colha do tipo de função de transferência, o número de camadas escondidas e neurônios em cada camada, que determinam a complexidade da RNA e devem ser especificados de acordo com o problema a ser tratado. 3.1.3 Support Vector Machines(SVM) No algoritmo de aprendizado SVM, a classificação se baseia na separação das classes através de margens (Alpaydin, 2010). Assim, o objeto de busca do treinamento do SVM consiste em encontrar um hiperplano separador ótimo, ou seja, aquele em que a distân- cia de separação entre as margens de cada classe são máximas. As amostras que estão situadas sobre as margens são as mais informativas para a criação do limite de decisão da classificação e são chamadas de vetores suporte (Alpaydin, 2010; Duda et al., 1995; Scholkopf and Smola, 2001). Uma característica interessante do SVM é a função de ker- nel que tem a finalidade de projetar os vetores de características (amostras) de entrada em um espaço de características maior no qual se consegue tratar problemas que se encontram em espaços não linearmente separáveis (Scholkopf and Smola, 2001). À me- dida que o espaço da dimensão do problema aumenta, aumenta também a probabilidade desse problema se tornar linearmente separável. Além disso, a habilidade de separar dados com distribuição não linear depende da escolha da função kernel, e que deve ser analisada de acordo com o domínio do problema (Alpaydin, 2010; Duda et al., 1995; Scholkopf and Smola, 2001). Os kernels mais usados são: Linear, Polynomial e RBF. 3.2 Método de Combinação de Classificadores O principal objetivo em combinar múltiplos classificadores é produzir uma decisão fi- nal que seja melhor que aquela produzida por um único classificador (Kittler et al., 1998; Kuncheva, 2004; L.I. Kuncheva and Duin, 2001). Dependendo da metodologia de representação de características empregada, as abordagens de combinação podem ser divididas em duas categorias (Alpaydin, 1998): • Representação única: os dados de treinamento possuem a mesma representação para todos os classificadores. 17 3. FUNDAMENTAÇÃO TEÓRICA • Múltiplas representações: os dados de treinamento possuem diferentes representa- ções para diferentes classificadores. Algumas abordagens, como boosting (Schapire, 1989) e bagging (Breiman, 1996), apli- cam N conjuntos distintos de treinamento, retirados de dados de representação única, a um único tipo de algoritmo de aprendizagem, para produzirem N diferentes modelos mais adequados para combinação. Pode-se, ainda, produzir diferentes modelos de um mesmo algoritmo de aprendizagem através da variação de algum parâmetro. Múltiplas representações que caracterizam um mesmo conjunto de dados podem proporcionar di- ferentes resultados de classificação quando utilizadas em um mesmo tipo de algoritmo de aprendizagem. No entanto, o desempenho da combinação de múltiplos classificadores depende de quanto os dados são correlacionados (Alpaydin, 1998; Kuncheva, 2004), isto é, as abordagens de classificação devem produzir erros e acertos o mais independentes possível. De maneira geral, classificadores podem produzir saídas do tipo hard ou soft. Saídas do tipo hard produzem um único valor para cada uma das amostras rotuladas, condi- zente com o número identificador da classe. Nas saídas do tipo soft, tem-se o chamado grau de confiança (Kuncheva, 2004) para cada classe, produzindo mais informação para pós-processamento (Alpaydin, 1998; Kittler et al., 1998; Kuncheva, 2004) e que serão empregadas no presente trabalho. As saídas do tipo soft podem ser valores fuzzy, pro- babilidades a posteriori, graus de certeza ou confiança, entre outros (Kuncheva, 2004). Assim, existem c valores associados à c classes, a partir dos quais, regras consensuais podem ser aplicadas para uma combinação mais efetiva. Para tal, constrói-se primeira- mente o chamado Decision Profile (DP) (Kuncheva, 2004) ilustrado na Figura 3.1. Matematicamente, o DP para um dada amostra x pode ser definido como uma matriz L × c : P (x) = [D1(x),D2(x), ..., DL(x)]T , em que L é o número de classificadores e c o número de classes. Cada predição (saída soft) é representada por um vetor Di(x) = [di,1(x), ..., di,c(x)], em que di,j(x) é o grau de confiança do classificador Di para a classe j (Kuncheva, 2004). Apesar de ser o mais simples (Kittler et al., 1998; Kuncheva, 2004), o método de combinação MV é bastante utilizado na interpretação de imagens hiperespectrais de sensoriamento remoto (Licciardi et al., 2009; Tarabalka et al., 2010a). Nesse método, a classe majoritária dentre as L atribuições é conferida a amostra a ser rotulada. É um método democrático, mas o MV trabalha com atribuições do tipo hard que não usa toda a informação disponível como as saídas do tipo soft fazem. Métodos de combinação 18 3. FUNDAMENTAÇÃO TEÓRICA Figura 3.1: Perfil de Decisão. Modificado de (Kuncheva, 2004). que usam uma única coluna do DP(x) por vez, são conhecidos como Class-Conscious combiners (Kuncheva, 2004) ou consensus theoretic methods (Benediktsson and Swain, 1992). Abaixo são apresentados algumas destas regras: • Maximum (Max): µj(x) =maxi {di,j(x) } • Minimum (Min): µj(x) =mini {di,j(x) } • Average (Aveg): µj(x) = 1LΣ L i=1 {di,j(x) } • Product (Prod): µj(x) = ΠLi=1 {di,j(x) } em que, dado uma amostra x, µj(x) é o novo grau de confiança para a classe j. Essas regras consensuais são chamadas não-treináveis pelo fato de não precisarem da estimação de nenhum parâmetro, como por exemplo, o peso do classificador. Após construção adequada de novos valores de confiança (regras consensuais + DP), para cada amostra de entrada, uma atribuição do tipo hard pode ser efetuada a partir do maior valor de confiança cujo índice representará a categoria ou classe atribuída a uma dada amostra. 3.3 Otimização Combinatória Otimização é o processo de tentar encontrar a melhor solução possível para um problema. Uma etapa importante deste processo consiste na construção de um modelo que pode ser entendido como uma representação simplificada da realidade (Goldbarg and Luna, 19 3. FUNDAMENTAÇÃO TEÓRICA 2000). Constrói-se um modelo, reunindo símbolos representando objetos, de acordo com certas regras, para formar uma estrutura que corresponde ao sistema do mundo real em estudo (Dantzig, 1965), como representado na Figura 3.2. Figura 3.2: Processo de modelagem. Modificado de (Goldbarg and Luna, 2000). É necessário, então, traduzir adequadamente este modelo, o que é chamado de for- mulação. Na fase de formulação do modelo são definidos os tipos de variáveis e o nível de relação entre elas, as representações das restrições e das funções de desempenho de- nominadas de funções objetivo (Goldbarg and Luna, 2000). Uma formulação geral de um Problema de Otimização pode ser representada por: Max ou Min : f(x), (função objetivo) Sujeito a gi(x) > 0, i = 1, 2, ...,m; (restrições de desigualdade) hj(x) = 0, j = 1, 2, ..., p; (restrições de igualdade) em que m e p determinam o número de desigualdade e igualdade, respectivamente. Devem ser destacados alguns conceitos importantes: • Variável de Decisão: as variáveis de decisão são aquelas para as quais existe liber- dade de escolha dos valores que irão receber, ou seja, elas podem se alterar durante o processo de otimização. Podem ser contínuas (reais), inteiras ou discretas. No modelo acima, é representada por x. • Restrições: são funções de igualdade ou desigualdade que definem o conjunto de 20 3. FUNDAMENTAÇÃO TEÓRICA soluções válidas: gi(x) e hi(x). • Espaço de Busca ou Região Viável: É o conjunto, espaço ou região na qual estão as soluções possíveis ou viáveis do problema e é caracterizado pelas variáveis de restrição. • Função Objetivo ou de Avaliação: É a função que se quer otimizar (maximizar ou minimizar). Pode ter uma ou mais variáveis. • Ponto Ótimo: É o ponto, caracterizado pelo vetor x∗ = (x1, x2, ..., xn), formado pelas variáveis de decisão que maximizam (ou minimizam) a Função Objetivo e satisfazem as restrições. • Valor Ótimo: É o valor da função objetivo f(x∗) no ponto ótimo. • Solução Ótima: É o par formado pelo ponto ótimo e valor ótimo [x∗, f(x∗)]. Existem várias formas de resolver problemas de otimização, entre as quais, Algoritmos Paralelos, Programação por Restrições, Teoria dos Grafos, Algoritmos Aproximados, e as que serão utilizadas no presente trabalho, Programação Linear e uma meta-heurística denominada AGM. 3.3.1 Programação Linear Inteira Um Programa Linear Inteiro é um modelo de otimização em que a função objetivo é linear nas variáveis e as restrições consistem em igualdades e desigualdades lineares. Um sistema pode ser representado por um modelo de PLI se possuir as seguintes caracterís- ticas (Dantzig, 1965; Goldbarg and Luna, 2000): • Proporcionalidade: a quantidade de recursos consumidos ou fornecidos por uma atividade deve ser sempre proporcional ao nível de atividade. A quantidade de atividade é denominada de nível de atividade. Assim, se o nível de atividade dobrar, o fluxo de recursos também deve dobrar. • Não-Negatividade: não é possível haver quantidades de atividades negativas. • Aditividade: o custo total é a soma das parcelas de cada atividade. • Separabilidade: pode-se identificar a quantidade de fluxo de recursos para cada atividade separadamente. 21 3. FUNDAMENTAÇÃO TEÓRICA Uma vantagem do modelo de PLI é que existem algoritmos extremamente eficien- tes para sua solução. Dentre eles, destaca-se o algoritmo Simplex (Luenberger, 2003; Papadimitriou and Steiglitz, 1998), desenvolvido por (Dantzig, 1965), que será visto a seguir. Simplex Esse algoritmo tem um conceito simples e, por isso mesmo, eficiente. A partir de uma solução viável do sistema de equações (restrições do Programa Linear), o Simplex vai identificando novas soluções viáveis de valor igual ou melhor que a corrente. Ele possui dois critérios importantes: um que permite sempre encontrar novos e melhores vértices da envoltória convexa do problema e outro que consegue determinar se o vértice escolhido é ou não ótimo (Goldbarg and Luna, 2000). Uma descrição detalhada do algoritmo pode ser encontrada em (Dantzig, 1965) e (Goldbarg and Luna, 2000). A seguir são apresentadas algumas considerações im- portantes e os passos gerais do funcionamento do Simplex, retirado de (Hillier and Lie- berman, 2010): • Variáveis Básicas (VB): m variáveis para as quais os sistema é resolvido. • Variáveis Não Básicas (VNB): o restante das variáveis. • Solução Básica (SB): solução cujos valores das VNB são nulos. • Solução Básica Admissível (SBA): SB com todas as VB maiores ou iguais a zero. • SBA não degenerada: SBA em que as VB são maiores que zero. • SBA degenerada: SBA em que uma ou mais VB são nulas. • Base admissível: uma base que corresponde a uma SBA. • Conjunto Convexo: se o segmento de linha que junta qualquer par de pontos em um conjunto, tal conjunto é dito convexo. • em um conjunto convexo, um ponto x ∈ X é ponto extremo (PE), se e somente se constituir uma SBA do problema de PLI. • o conjunto dos vértices de um politopo X = {x : Ax = b, x ≥ 0, x ∈ Rn } corresponde ao conjunto de soluções básicas admissíveis. 22 3. FUNDAMENTAÇÃO TEÓRICA • o conjunto dos PE da região admissível (área colorida de verde na Figura 3.3) corresponde ao conjunto das SBA e são ambos não vazios, desde que a região admissível seja não vazia. Cada SBA é equivalente a um PE (pontos B, C, E, F da Figura 3.3), mas podem existir várias SBA correspondendo ao mesmo PE, neste caso o Programa Linear é degenerado. Figura 3.3: Representação gráfica da região admissível (área colorida de verde) e de pontos extremos (B, C, E, F) do Algoritmo Simplex. Modificado de (Gold- barg and Luna, 2000). Propriedades dos pontos extremos admissíveis : 1 Se existe apenas uma solução ótima, então tem de ser um PE admissível. 2 Se existem várias soluções ótimas, então pelo menos duas são PE admissíveis ad- jacentes. 3 Existe um número finito de PE admissíveis. 4 Se um PE admissível não tem PE admissíveis adjacentes melhores, entãoesse PE é ótimo. 23 3. FUNDAMENTAÇÃO TEÓRICA Levando-se em conta somente os PE admissíveis, as propriedades 1 e 2, mostram que a busca por uma solução ótima pode ser reduzida e existe um número finito de soluções a considerar conforme propriedade 3. Pela propriedade 4 pode-se testar se um PE é ótimo ou não. O método Simplex utiliza essas quatro propriedades dos pontos extremos admissíveis, apenas examinando poucos PE admissíveis e parando se um deles é ótimo. De maneira iterativa, o algoritmo move-se do PE admissível atual para um melhor PE admissível, até que a solução atual não tenha nenhum PE admissível adjacente melhor. O método Simplex segue seguintes passos: • Passo 1: Começar com um PE admissível. Qualquer PE admissível pode ser adotada como solução inicial, no entanto, uma boa hipótese para a SBA inicial será considerar as variáveis de folga como VB e as originais como VNB. • Passo 2: Mover para um melhor PE admissível adjacente, quantas vezes forem necessárias. Neste passo uma VNB é convertida em uma VB (denominada variável básica de entrada), ao mesmo tempo que uma VB é convertida em uma VNB (variável básica de saída) e, então, identificar a nova SBA. • Passo 3: Testar se PE admissível atual é ótimo, conforme a propriedade 4. 3.3.2 Algoritmo Genético Inicialmente propostos por (Goldberg, 1989), AG são baseados no processo da seleção natural e nos mecanismos da genética. São algoritmos de busca: dado um conjunto de elementos, deseja-se encontrar os que melhor atendam a certas condições.Os AG transformam uma população de indivíduos, de acordo com uma função de aptidão, numa nova geração de indivíduos usando os princípios da genética e sobrevivência dos mais aptos, pela aplicação de operações tais como seleção, recombinação e mutação. Cada indivíduo na população representa uma solução em potencial para um dado problema. O AG procura a solução (indivíduo) que seja muito boa ou a melhor (soluções ótimas ou sub-ótimas) para o problema analisado a partir da criação de populações de indivíduos cada vez mais aptos, que otimizam (maximizam ou minimizam) a função objetivo de interesse (Brownlee, 2011; Goldberg, 1989; Mitchell, 1998; Weise, 2008). É importante entender algumas definições relacionadas com os AG, como: 24 3. FUNDAMENTAÇÃO TEÓRICA • Cromossomo ou Genoma: Sequência linear de caracteres representando alguma informação relativa às variáveis do problema. Cada cromossomo representa uma solução do problema. • Gen ou Gene: É a unidade básica do cromossomo. Cada cromossomo tem um certo número de gens, cada um descrevendo uma certa variável do problema. • População: Conjunto de cromossomos ou soluções. • Geração: O número de iterações que algoritmo deve executar. • Operações Genéticas: Operações que o Algoritmo Genético realiza sobre os cro- mossomos. • Espaço de Busca ou Região Viável: É o conjunto, espaço ou região que compreende as soluções possíveis ou viáveis do problema a ser otimizado. Deve ser caracteri- zado pelas funções de restrição, que definem as soluções viáveis do problema a ser resolvido. • Função Objetivo ou de Avaliação: É a função que se quer otimizar. Ela fornece a qualidade de uma solução candidata, ou seja, a informação numérica do desem- penho de cada cromossomo na população. 3.3.3 Otimização Multiobjetivo Alguns problemas do mundo real apresentam um conjunto de objetivos a serem otimiza- dos, muitas vezes, conflitantes entre si, ou seja, a melhoria de um tem como consequência a degeneração do outro. Assim, não existe uma solução ótima única e sim um conjunto de soluções. Diz-se que as soluções são ótimas quando não existem outras soluções no espaço de busca melhores do que elas considerando simultaneamente todos os objetivos. Um problema multiobjetivo tem a forma (Deb, 2011): Max ou Min fm(x), m = 1, 2, ...,M, restrita a gj(x) ≥ 0, j = 1, 2, ..., J, hk(x) = 0, k = 1, 2, ..., K, x (L) i 6 xi 6 x (U) i , i = 1, 2, ..., n, 25 3. FUNDAMENTAÇÃO TEÓRICA em que x é o vetor de n variáveis de decisão x = (x1, x2, ..., xn)T , x(L)i e x (U) i , representam o valor mínimo e máximo que xi pode assumir, gj e hk são denominadas funções de restrição. As funções de restrição e de limite caracterizam a região factível na qual deve es- tar inserida a solução factível x. A solução será não factível se não pertencer à região factível. Na otimização multiobjetivo as funções objetivos constituem um espaço multi- dimensional denominado espaço de objetivos, Z ⊂ RM , além do espaço de variáveis de decisão da otimização mono-objetivo. Existe um ponto z ∈ RM no espaço de objetivos, f(x) = z = (z1, z2, ..., zM)T para cada solução x no espaço de variáveis de decisão. Em otimização multiobjetivo, as soluções ótimas podem ser definidas a partir do conceito matemático de ordenação parcial, chamado dominação. Diz-se que solução x1 domina a solução x2 (representado por x1 � x2), se ambas as condições a seguir são verdadeiras: • A solução x1 é não pior que x2 em todos os objetivos. Ainda, as soluções são comparadas baseando-se nos valores de sua função objetivo (ou local dos pontos correspondentes no espaço objetivo z1 e z2). • A solução x1 é estritamente melhor que x2 em ao menos um objetivo. Figura 3.4: Fronteira de Pareto. Modificado de (Deb, 2011). Utilizando essa definição, pode-se estabelecer se um ponto domina outro ou não em conjunto de dados como o representado na Figura 3.4. Se um ponto não é dominado por nenhum outro ponto do conjunto, ele é chamado de não dominado. Os pontos 3, 5 e 6 da Figura 3.4 são não dominados e formam o conjunto solução do problema. É importante 26 3. FUNDAMENTAÇÃO TEÓRICA ressaltar que a melhora de um objetivo tem como consequência alguma perda em outro objetivo, então, o que se busca é um equilíbrio entre os pontos não dominados, não sendo possível definir uma solução ótima única. Este conjunto de soluções, quando vi- sualizado, forma uma fronteira denominada fronteira de não dominação. Considerando todos os pontos pertencentes ao espaço de busca, aqueles pontos que formam a fron- teira de não dominação, são denominados soluções ótimas de Pareto. Tomando-se por base um problema de minimização, formalmente, pode-se definir um conjunto ótimo de Pareto (Ehrgott, 2005): Definição Uma solução factível x̂ ∈ X é chamada eficiente ou ótima de Pareto, se não há outro x ∈ X tal que f(x) ≤ f(x̂). Se x̂ é eficiente, f(x̂) é chamado ponto não dominado. Se x1, x2 ∈ X e f(x2) 6 f(x1) diz-se que x1 domina , x2 e f(x1) domina f(x2). O conjunto de todas as soluções eficientes x̂ ∈ X é denotada por XE e é chamado conjunto eficiente. O conjunto de todos pontos não dominados ŷ = f(x̂) ∈ Y , em que x̂ ∈ XE, é denotado por YN chamado de conjunto não dominado. As propriedades da relação de dominância são (Ehrgott, 2005): 1 Não é reflexiva. Uma solução não pode ser dominada por si mesma; 2 Não é simétrica, ou seja, x � y não implica que y � x; 3 Transitiva, dado que se x � y e y � z então x � z. Como exemplo do emprego das definições apresentadas, pode ser citado um pro- blema de otimização multiobjetivo proposto por (Schaffer, 1985), denominado fun- ção f2. Consta de duas funções g e h que devem ser simultaneamente minimizadas: f2 = (g(x), h(x)) sendo g(x) = x2 e h(x) = (x− 2)2. A representação gráfica das funções objetivo g e h pode ser vista na Figura 3.5, na qual pode-se identificar, no intervalo [0, 2], o espaço das soluções ótimas de Pareto. Dentro do intervalo [0, 2] verifica-se que as funções objetivo g e h são conflitantes entre si, ou seja, enquanto uma cresce a outra diminui de valor. A Figura 3.6, mostra as soluções ótimas de Pareto, em um gráfico construído no espaço das funções objetivo. 27 3. FUNDAMENTAÇÃO TEÓRICA Figura 3.5: Representação gráfica de um problema multiobjetivo função f2 (Schaffer, 1985). Figura 3.6: Fronteira de Pareto para a função f2 (Schaffer, 1985). 28 Caṕıtulo 4 Metodologia Com a finalidade de se obter combinações de classificadores mais eficientes (menores) mantendo-se a eficácia (acurácia)
Compartilhar