Buscar

Classificacao-de-nodulos-mamograficos-utilizando-um-comite-de-redes-neurais_LeandroAS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 111 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 111 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 111 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Leandro Augusto da Silva
Classificação de Nódulos Mamográficos
Utilizando um Comitê de
Redes Neurais Artificiais
Dissertação apresentada à Escola Poli-
técnica da Universidade de São Paulo
para obtenção do Título de Mestre em
Engenharia.
São Paulo
2005
Leandro Augusto da Silva
Classificação de Nódulos Mamográficos
Utilizando um Comitê de
Redes Neurais Artificiais
Dissertação apresentada à Escola Poli-
técnica da Universidade de São Paulo
para obtenção do Título de Mestre em
Engenharia.
Área de concentração:
Sistemas Eletrônicos
Orientador:
Prof. Dr.
Emilio Del Moral Hernandez
São Paulo
2005
FICHA CATALOGRÁFICA
Silva, Leandro Augusto da
Classificação de Nódulos Mamográficos Utilizando um Comitê de
Redes Neurais Artificiais. São Paulo, 2005. 94 p.
Dissertação (Mestrado) — Escola Politécnica da Universidade de
São Paulo. Departamento de Sistemas Eletrônicos.
1-Redes Neurais 2-Reconhecimento de Padrões 3-Processamento de
Imagens 4-Diagnóstico por Imagens 5-Mamografia 6-Neoplasias Ma-
márias I. Universidade de São Paulo. Escola Politécnica. Departa-
mento de Sistemas Eletrônicos. Departamento de Sistemas Eletrôni-
cos. II. T.
aos meus pais Cirilo e Vera pelo apoio, compreensão e carinho...
Apoio
Este projeto foi financiado por:
Conselho de Desenvolvimento Científico e Tecnológico (CNPq).
E contou com os recursos adquiridos através do:
Projeto SIIAM (Sistemas Informacionais Integrados para Análise Multi-
sensorial).
Ao orgão financiador, sem o qual este projeto não seria realizado e ao
Projeto SIIAM, sem o qual não poderíamos contar com os equipamentos do la-
boratório, nossos agradecimentos.
Agradecimentos
Gostaria de agradecer à Universidade de São Paulo, à Escola Politécnica e ao
Laboratório de Sistemas Integráveis.
Agradeço ao meu orientador Prof. Dr. Emilio Del Moral Hernandez pela
oportunidade de realizar esse trabalho e ao aprendizado dado na realização do
mestrado sempre desempenhando o papel de orientador no sentido mais puro da
palavra, com paciência nas extensas discussões e sempre buscando as melhores
soluções e estratégias para resolver os inúmeros desafios surgidos ao longo do
mestrado.
Agradeço também o professor Rangaraj Mandayam Rangayyan da Universi-
dade de Calgary, quem colaborou e apoiou esse trabalho e sempre que presente
no Brasil, discutia o desenrolar do projeto com sugestões e críticas que ajudaram
no desenvolvimento da pesquisa. Agradeço também a professora Roseli de Deus
Lopes e o professor Ademar Ferreira pelas críticas, dicas e contribuições.
Agradeço também o grande amigo e companheiro nessa jornada, Humberto
Rodrigo Sandmann que sempre estava disposto a ouvir e discutir idéias, além de
sempre ter boas sugestões para os problemas enfrentados nessa pesquisa.
Também aquelas pessoas que me ajudaram indiretamente: Paula Khater,
Vinícius Maeda, Márcio Binatto e Marcel Macedo.
Por fim, agradeço aos meus pais, quem sempre acreditaram que a educação é
o melhor investimento que pode ser dado ao filho.
Resumo
Este trabalho apresenta uma nova estratégia computacional para classificar nó-
dulos mamográficos, que podem ser identificados por radiologistas nos exames de
mamografia, em benignos ou malignos.
Para a realização dos experimentos computacionais, foram utilizados 57 re-
giões suspeitas de câncer (ROIs) encontrados pelo radiologista nos exames de
mamografia. Das 57 ROIs, 37 foram identificadas como nódulos benignos e 20
identificadas como nódulos malignos, após o exame de biópsia.
Com base nestas 57 ROIs são aplicadas técnicas de processamento de imagens
para extrair determinadas características que possibilitam classificar um nódulo
como benigno ou maligno. Estas características são separadas em três conjuntos:
três características de forma, quatorze características de textura e três caracte-
rísticas de nitidez da borda.
A estratégia computacional usada para classificar esses três conjuntos de ca-
racterísticas foi o classificador Máquina de Comitê. A Máquina de Comitê é
formado por um grupo de classificadores, usados para resolver uma tarefa difícil.
Os membros do comitê são tipicamente Redes Neurais Artificiais. Nesse trabalho
foram usados Perceptrons de Múltiplas Camadas (MLP) como classificador da
Máquina de Comitê. O resultado da classificação é dado pela combinação das
respostas de cada classificador. Experimento envolvendo alteração na configura-
ção da Máquina de Comitê também foi realizado. A precisão da classificação foi
avaliada utilizando o cálculo da área sob a curva Receiver Operating Characteris-
tics (ROC), designada por Az.
O resultado de Az apresentado pela Máquina de Comitê é comparado com o
resultado de outros classificadores neurais, como MLPs e Perceptrons de Camada
Simples (SLP). Os resultados são apresentados pela média e desvio padrão de 20
experimentos.
Para concluir se o resultado apresentado por um classificador é melhor que o
outro, foram realizados testes de hipóteses utilizando a distribuição de Student t.
Abstract
This work addresses a new approach using a committee machine to classify masses
found in mammograms as benign or malignant. The characteristics sets used in
the classification are: Three shape factors, three measures of edge sharpness, and
fourteen texture features. They were used for the classification of 37 regions of
interest (ROIs) related to benign masses and 20 ROIs of malignant tumors.
The committee machine is a group of classifiers used to resolve a difficult
task. Committee members are typically neural networks. In this work, we used a
group of multi-layer perceptrons (MLPs) as a committee machine classifier. The
classification results were realized by combining the responses of these classifiers.
Experiments involving change in the learning algorithm of the committee machine
also were conducted. The classification accuracy was evaluated using the area Az
under the receiver operating characteristics (ROC) curve.
The Az result for the committee machine was compared with the Az results
obtained using MLP and single-layer perceptron (SLP) neural networks. In al-
most all cases, the committee machine outperformed the MLP and SLP. For a
better understanding about the results of the experiments we carried out the hy-
pothesis test using the Student’s t-Distribution and it showed that the Committee
Machine classifier has better results than MLP and SLP classifiers.
Sumário
Lista de Figuras
Lista de Tabelas
Lista de Abreviaturas
Convenções e Lista de Símbolos
1 Introdução 1
1.1 O Problema Câncer de Mama . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Câncer de Mama 6
2.1 Definição do Câncer de Mama . . . . . . . . . . . . . . . . . . . . 6
2.2 Incidência do Câncer de Mama no Brasil e no Mundo . . . . . . . 7
2.3 Mamografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Diagnóstico Auxiliado por Computador ou CAD . . . . . . . . . . 14
3 Extração das Características 17
3.1 Base de Imagens Usadas para o Trabalho . . . . . . . . . . . . . . 17
3.2 Procedimento Clínico de um Radiologista . . . . . . . . . . . . . . 17
3.3 Características de Forma da Borda do Nódulo . . . . . . . . . . . 22
3.4 Características de Textura . . . . . . . . . . . . . . . . . . . . . . 24
3.5 Características de Nitidez da Borda do Nódulo . . . . . . . . . . . 27
4 Classificador Utilizando uma Arquitetura de Rede Neural Arti-
ficial do tipo Máquina de Comitê 31
4.1 Breve Histórico sobre as Redes Neurais Artificiais . . . . . . . . . 31
4.2 Conceitos Básicos sobre as Redes Neurais Artificiais . . . . . . . . 33
4.3 Aplicações das Redes Neurais . . . . . . . . . . . . . . . . . . . . 35
4.4 Máquinas de Comitê . . . . . . . . . .. . . . . . . . . . . . . . . 36
4.4.1 Reforço por Filtragem . . . . . . . . . . . . . . . . . . . . 38
4.4.2 AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4.3 Arquitetura Neural RNNTE - Perceptrons de Múltiplas Ca-
madas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Área Sob a Curva ROC - Az 49
5.1 Métrica de Análise de Desempenho na Medicina . . . . . . . . . . 49
5.2 Métrica de Desempenho para Classificador Automático Aplicado
na Medicina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Experimentos Realizados e Análise 56
6.1 Base de Dados Utilizada nos Experimentos . . . . . . . . . . . . . 56
6.2 Método de Análise de Desempenho - Área Sob a Curva ROC ou Az 60
6.3 Resultados Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.4 Configuração dos Classificadores para a Obtenção dos Resultados 64
6.5 Análises Realizadas . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.5.1 O problema da Dimensionalidade . . . . . . . . . . . . . . 69
6.5.2 Análise dos Resultados com o Teste de Hipóteses . . . . . 71
7 Conclusão e Trabalhos Futuros 81
Anexo A -- Teste de Hipóteses utilizando a distribuição de Student
t 84
Referências Bibliográficas 87
Apêndice A -- Tabela da Distribuição de Student t. 93
Lista de Figuras
2.1 Incidência do câncer de mama no mundo. . . . . . . . . . . . . . . . 8
2.2 Incidência de câncer no Brasil em 2005. . . . . . . . . . . . . . . . . 9
2.3 Ilustração do aparelho de raios-x. . . . . . . . . . . . . . . . . . . . 11
2.4 Exemplos de aquisições de imagens feitas em um exame de raios-x. . . 12
2.5 Diagrama esquemático do sistema CAD. . . . . . . . . . . . . . . . . 16
3.1 Ilustração das 37 ROIs benignas. . . . . . . . . . . . . . . . . . . 18
3.2 Ilustração das 20 ROIs malignas. . . . . . . . . . . . . . . . . . . 19
3.3 Nódulo benigno com contorno circunscrito. . . . . . . . . . . . . . . . 21
3.4 Nódulo maligno com contorno espiculado. . . . . . . . . . . . . . . . 21
3.5 Nódulo benigno com contorno espiculado. . . . . . . . . . . . . . . . 21
3.6 Nódulo maligno com contorno circunscrito. . . . . . . . . . . . . . . . 22
3.7 Nódulo demonstrando a parte côncava e convexa do contorno. . . . . . 23
3.8 Faixa de pixels do contorno do nódulo. . . . . . . . . . . . . . . . . . 27
3.9 Linhas perpendiculares traçadas em torno do contorno do nódulo. . . . 28
3.10 Ilustração de deferentes contornos do nódulo. . . . . . . . . . . . . . 30
4.1 Ilustração de neurônio biológico e neurônio artificial. . . . . . . . . . . 34
4.2 Ilustração dos pesos probabilísticos. . . . . . . . . . . . . . . . . . . 40
4.3 Ilustração da arquitetura Máquina de Comitê. . . . . . . . . . . . . . 42
4.4 Resumo do Algoritmo AdaBoost . . . . . . . . . . . . . . . . . . . 43
4.5 Desempenho do erro de generalização do AdaBoost. . . . . . . . . . . 44
4.6 Desempenho do erro de generalização do aprendizado de retropropaga-
ção do erro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.7 Ilustração do MLP. . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.8 Exemplo da função sigmóide. . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Exemplo de resultados de um diagnóstico. . . . . . . . . . . . . . . . 50
5.2 Exemplo da curva ROC. . . . . . . . . . . . . . . . . . . . . . . . . 54
6.1 Gráfico 3D das características [Fcc, SI, C]. . . . . . . . . . . . . . . . 57
6.2 Gráfico 3D das características [CV, A, contraste]. . . . . . . . . . . . 58
6.3 Ilustração do teste da Máquina de Comitê. . . . . . . . . . . . . . . . 61
6.4 Análise dos resultados de classificação da Máquina de Comitê para a
construção da curva ROC. . . . . . . . . . . . . . . . . . . . . . . . 62
6.5 Ilustração da curva ROC e do Az. . . . . . . . . . . . . . . . . . . . 63
6.6 Curvas de Aprendizagem para as características [Fcc, SI, C]. . . . . . . 67
6.7 Curvas de Aprendizagem para as características de textura. . . . . . . 67
6.8 Curvas de Aprendizagem para as características [CV, A, contraste]. . . 68
6.9 Efeito do problema da dimensionalidade. (Fonte (CAMPOS, 2001)) . . 70
6.10 Comparação entre o classificador Máquina de Comitê configurado “sem
w continuado” e “com w continuado”. . . . . . . . . . . . . . . . . . 74
6.11 Resultados da comparação entre o classificador Máquina de Comitê con-
figurado “sem w continuado” e o classificador MLP. . . . . . . . . . . 75
6.12 Resultados da comparação entre o classificador Máquina de Comitê con-
figurado “sem w continuado” e o classificador SLP. . . . . . . . . . . . 76
6.13 Resultados da comparação entre o classificador Máquina de Comitê con-
figurado “com w continuado” e o classificador MLP. . . . . . . . . . . 77
6.14 Resultados da comparação entre o classificador Máquina de Comitê con-
figurado “com w continuado” e o classificador SLP. . . . . . . . . . . . 78
6.15 Todos os resultados de comparações. . . . . . . . . . . . . . . . . . . 80
A.1 Valores dos percentis (tp) da distribuição de Student t com ν graus
de liberdade (área sombreada = p). Fonte: (SPIEGEL, 1993). . . . 94
Lista de Tabelas
2.1 Tendência mundial do câncer de mama. . . . . . . . . . . . . . . . . 7
5.1 Tabela de Contingência. . . . . . . . . . . . . . . . . . . . . . . . . 51
6.1 Tabela de resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2 Número de especialistas usado no comitê. . . . . . . . . . . . . . . . 66
Lista de Abreviaturas
CAD Diagnóstico Auxiliado por Computador em inglês Computer Aided Diag-
nosis
MLP Perceptrons de Múltiplas Camadas em inglês Multi-Layer Perceptron
SLP Perceptron de Única Camada em inglês Single Layer Perceptron
ROC do inglês Receiving Operating Curve
ROI do inglês Region of Interest
CC Crânio Caudal
MLO Médio Lateral Oblíquo
C compacidade ou compactness
Fcc concavidade fracionária (ou fractional concavity em inglês)
SI grau de “espicularidade” (ou spiculation index em inglês)
A descontinuidade (ou Acutance em inglês)
contraste do inglês contrast
CV coeficiente de variação (ou coefficient of variation em inglês
AdaBoost algoritmo de reforço adaptativo em inglês, adaptive boosting
PAC Provavelmente Aproximadamente Correta em inglês, Probably Approxima-
tely Correct
Convenções e Lista de Símbolos
Na notação das fórmulas, as seguintes convenções foram utilizadas:
• letras maiúsculas são conjuntos, exemplo: D, X, Y ;
• letras minúsculas são elementos de conjunto, exemplo: x, y;
• subscrito diferencia um elemento de um conjunto, exemplo: xi, yi e wi;
• em uma algoritmo: a variável ne significa cada iteração e NTE o número
máximo de iteração;
• função de um vetor x: f(x);
• matriz de pesos sinapticos: w;
• cardinalidade do conjunto de treinamento: N .
1
1 Introdução
1.1 O Problema Câncer de Mama
O câncer de mama é o tipo de câncer que se manifesta com maior freqüência
entre as mulheres brasileiras (INCA, 2002), nas quais a maior incidência ocorre em
mulheres entre 35 e 50 anos. Nos países desenvolvidos, principalmente, observa-se
um aumento constante na incidência de câncer de mama, na maioria dos casos,
em mulheres de meia idade (NCI, 2004).
Desde o início das pesquisas sobre o câncer de mama, a melhor maneira para a
cura da doença é uma rápida detecção. A detecção precoce pode ser conseguida
através do exame de mamografia, que é uma forma particular de radiografia
capaz de registrar imagens da mama com a finalidade de diagnosticar a presença
ou ausência de estruturas que possam indicar a doença. Com esse tipo de exame
pode-se detectar o tumor antes que ele se torne palpável. No entanto, a avaliação
do exame de mamografia e o diagnóstico, que é realizado por um radiologista,
requer bastante habilidade.
Estudos têm mostrado que apenas 20% a 30% de nódulos mamográficos iden-
tificados pelo radiologista, considerados suspeitos e submetidos ao exame de bióp-
sia, são malignos (HERMANN et al., 1987; HALL et al., 1988; JACOBSON; EDEIKEN,
1990; ARAUJO, 2000).
O examede biópsia consiste numa pequena cirurgia destinada a retirar um
1.1 O Problema Câncer de Mama 2
pedaço do nódulo suspeito, ou mesmo o nódulo inteiro, para que este seja anali-
sado. Conforme o caso, isso pode ser feito através de uma biópsia aspirativa por
agulha fina1. Um erro no diagnóstico dado pelo radiologista (falso positivo que
é submeter à biópsia um nódulo suspeito de câncer, o qual se constata não ser
câncer), acarreta em um excessivo custo ao sistema de saúde e traumatismo ao
paciente.
Por estes motivos, vários pesquisadores estão desenvolvendo sistemas que au-
xiliam o radiologista no diagnóstico do câncer evitando o exame desnecessário de
biópsia. Estes sistemas são conhecidos como CAD (Diagnóstico Auxiliado por
Computador em inglês, Computer-Aided-Diagnosis).
Os sistemas CAD auxiliam o radiologista no diagnóstico, atuando em uma
região suspeita de câncer, pré-identificada no exame de mamografia pelo radio-
logista. Assim, quando o radiologista identificar uma região suspeita de câncer
é feita uma marcação (manualmete) do nódulo não palpável suspeito de ser cân-
cer. A região que envolve a marcação é chamada de região de interesse, ROI (em
inglês, Regions of Interest).
São utilizadas técnicas de processamento de imagens para detectar e extrair
determinadas características do nódulo marcado manualmente pelo radiologista
(as ROIs). A partir destas características extraídas, são aplicadas técnicas de
inteligência computacional, que as classificam em benignas ou malignas.
Entre as diversas técnicas utilizadas na extração de características dos nó-
dulos nas ROIs, algumas se destacam, como filtros de Wavelets (FERRARI et al.,
2001), crescimento de região (SHEN et al., 1994), transformada H-dome (HALKIO-
TIS; MANTAS; BOTSIS, 2002) e transformada de Wathershed (SANTOS, 2002).
As Redes Neurais Artificiais (RNA) são um exemplo de técnica de inteligên-
1É um método diagnóstico, que retira células para estudos ao microscópio, para detectar a
exata natureza de um nódulo.
1.2 Objetivo 3
cia computacional que vem sendo utilizada para a classificação das caracterís-
ticas extraídas (HALKIOTIS; MANTAS; BOTSIS, 2002; YU; GUAN, 2000; ANDRE;
RANGAYYAN, 2003). Para isto, diversas arquiteturas de RNA como o Percep-
tron de Múltiplas Camadas (MLP em inglês Multi-Layer Perceptron) (HALKI-
OTIS; MANTAS; BOTSIS, 2002; YU; GUAN, 2000; ANDRE; RANGAYYAN, 2003) e
Perceptron de Única Camada (SLP em inglês Single Layer Perceptron) (ANDRE;
RANGAYYAN, 2003) são aplicadas na tentativa de uma melhor classificação de
nódulos.
1.2 Objetivo
O objetivo do presente trabalho é apresentar uma nova proposta de classificação
de características extraídas das ROIs utilizando redes neurais artificiais. Dessa
maneira, pretende-se melhorar os resultados de discriminação entre nódulo be-
nigno e nódulo maligno, utilizando-se um comitê de Redes Neurais de arquiteturas
de Perceptrons de Múltiplas Camadas. Essa arquitetura é a conhecida como Má-
quina de Comitê, a qual baseia-se em um princípio freqüentemente usado em
engenharia: “dividir e conquistar” (HAYKIN, 1999; DUDA; HART; STORK, 2000;
SCHAPIRE, 1999; HU; HWANG, 2001).
Para medir a capacidade do classificador em discriminar um nódulo maligno
ou benigna é utilizado o método conhecido como área sob a curva ROC (em
inglês Receiver Operating Characteristics), designada por Az (WOODS; BOWYER,
1997; DELEO; CAMPBELL, 1995; DELEO, 2002). A curva ROC também pode
ser utilizada para comparar resultados entre classificadores. Neste trabalho é
mostrado o resultado da área sob a curva ROC (Az) para o classificador Máquina
de Comitê e para os classificadores MLP e SLP (utilizados para a comparação).
Diversas investigações na combinação das características utilizadas (extraídas
1.3 Motivação 4
das ROIs) são realizadas de modo a verificar qual a combinação das características
para a qual o classificador apresenta melhor resultado de discriminação.
1.3 Motivação
A motivação deste trabalho é a sua relevância científica e social na detecção pre-
coce do câncer de mama. O desenvolvimento de um classificador capaz de fornecer
resultados com alto valor de Az permitirá ao radiologista aumentar a sua aferi-
ção no diagnóstico, evitando-se assim erros que acarretam em falsos diagnósticos,
comprometem o paciente psicologicamente e acarretam em gastos desnecessários
ao sistema de saúde.
1.4 Metodologia
Para a realização dos experimentos de classificação, foi utilizado um conjunto
de características (features) extraídas de regiões suspeitas de câncer de mama
identificadas nas imagens de mamografia. Os valores destas características para
as ROIs são fornecidos pela Universidade de Calgary. Assim, este conjunto de
valores de características é dividido em dois novos conjuntos, onde um conjunto
é utilizado como exemplo para o treinamento do classificador e o outro conjunto
é utilizado para o teste do classificador. O resultado da classificação do conjunto
de teste é avaliado utilizando o método da área sob a curva ROC ou Az. O
resultado do classificador Máquina de Comitê é comparado com o resultado do
classificador MLP e SLP. Para verificar se existe diferença significativa entre os
resultados apresentados pelos classificadores, foi realizado o teste de hipóteses
utilizando a distribuição de Student t.
1.5 Estrutura do Texto 5
1.5 Estrutura do Texto
Além da introdução (Capítulo 1), que visa melhorar a compreensão do trabalho,
compõem a dissertação as seguintes partes:
Capítulo 2: este capítulo descreve os problemas do câncer de mama e os fato-
res de risco associados ao aumento na frequência da doença, as particularidades
físicas do mamógrafo e as aquisições necessárias de cada mama. Descreve-se tam-
bém neste capítulo, os sistemas conhecidos como CAD, desenvolvidos utilizando
técnicas de processamento de imagens e de inteligência computacional.
Capítulo 3: as técnicas de processamento de imagens utilizadas para a extra-
ção de características de regiões suspeitas de câncer (ROIs) do exame da mamo-
grafia são apresentadas neste capítulo.
Capítulo 4: é apresentado o classificador utilizando uma rede neural artificial
do tipo Máquina de Comitê.
Capítulo 5: este capítulo apresenta o método de avaliação de desempenho,
utilizado neste trabalho, conhecido como área sob a curva ROC denominado de
Az.
Capítulo 6: os experimentos e análises dos resultados de classificação das
características extraídas das ROIs são apresentados neste capítulo. De maneira
ilustrativa, é explicado também neste capítulo o procedimento para o cálculo de
Az. Descrevem-se também, os resultados obtidos e as configurações dos classifi-
cadores utilizados. As análises sobre o problema da dimensionalidade e o teste
de hipóteses utilizando a distribuição de Student também são abordados neste
capítulo.
Capítulo 7: são discutidas as conclusões sobre os resultados obtidos nos ex-
perimentos realizados e apresentam-se os trabalhos futuros.
6
2 Câncer de Mama
2.1 Definição do Câncer de Mama
O câncer de mama é um tumor maligno causado pela multiplicação exagerada e
desordenada de células do tecido da mama. O tumor é chamado de maligno
quando as células do tecido têm a capacidade de gerar metástases, ou seja,
espalhar-se para outras regiões do corpo. Se estas células chamadas malignas
entrarem na circulação sangüínea podem chegar a outras partes do corpo, inva-
dindo tecidos e órgãos originando novos tumores e, conseqüentemente, levando
uma pessoa ao óbito. Por outro lado, os tumores chamados benignos não possuem
a capacidade de gerar metástases. Os tumores benignos têm um crescimento mais
lento e não ultrapassam um certo tamanho, além de não se espalharem por outros
órgãos. Os tumores benignos não são cancerígenos (SAUDE, 2004).
Pode-se perceber que tanto na formação do tumor maligno quanto do tumor
benigno, inicia-se com um crescimento de células. Esse crescimento de células
forma uma massa, cuja identificação em estágio inicialpode ajudar na cura da
doença. A identificação desta massa pelo especialista recebe alguns nomes que
são sinônimos, como: massa mamária, lesão na mama ou nódulo não palpável.
Neste trabalho adotamos a última definição, nódulo de mama não palpável, mas
algumas vezes, simplificaremos para nódulo.
2.2 Incidência do Câncer de Mama no Brasil e no Mundo 7
2.2 Incidência do Câncer de Mama no Brasil e no
Mundo
O câncer de mama é o segundo mais freqüente tipo de câncer em todo o mundo
e tem se tornado um grave problema para a saúde pública de todos os países
pela sua alta incidência, morbidade, mortalidade e pelo seu elevado custo no
tratamento. A sua incidência é maior na América do Norte e no Norte da Europa;
intermediária no restante da Europa e na América do Sul, e menor na Ásia e nos
países menos desenvolvidos (veja Figura 2.1) (PARKIN, 2000; PAULINELLI et al.,
2003). E como mostrado por Parkin (PARKIN, 2000), a tendência para a incidência
do câncer de mama em todo o mundo é aumentar (veja Tabela 2.1).
No Brasil, o câncer de mama é o tipo de câncer que se manifesta com maior
freqüência, sendo este o maior causador de mortes nessa população. O número
de casos vem aumentando a cada ano (INCA, 2004) (veja na Figura 2.2 a projeção
para 2005).
Número de mortes
(em milhões)
2000 2010 2020 2050
Mundo 1050 1250 1480 1970
Regiões mais desenvolvidas 580 640 690 710
Regiões menos desenvolvidas 470 610 690 710
África 60 80 100 230
Ásia (Japão) 30 30 30 30
Ásia (outros) 320 420 520 750
Europa 350 370 390 380
América do Sul 90 130 170 290
América do Norte 200 230 270 330
Oceania 10 20 20 30
Tabela 2.1: Tendência mundial do câncer de mama.
Tendências para incidência do câncer de mama em todo o mundo para os próximos
anos. Fonte: (PARKIN, 2000)
A maior incidência do câncer ocorre em mulheres entre 35 e 50 anos de idade
2.2 Incidência do Câncer de Mama no Brasil e no Mundo 8
Figura 2.1: Incidência do câncer de mama no mundo.
Variação internacional na incidência do câncer de mama entre mulheres, de 1988 a
1993, por 100000 mulheres por ano. Fonte: (PAULINELLI et al., 2003)
(ARAUJO, 2000). Nos países desenvolvidos, principalmente, observa-se um au-
mento constante na incidência de câncer de mama em mulheres de meia idade
(NCI, 2004).
O aumento do número de pacientes com câncer de mama no Brasil é seme-
lhante à de países desenvolvidos, onde a urbanização levou ao aumento de fatores
de risco do câncer de mama, como a idade tardia da primeira gravidez. Outros
fatores associados que têm aumentado o risco de desenvolver câncer de mama
são:
2.2 Incidência do Câncer de Mama no Brasil e no Mundo 9
Figura 2.2: Incidência de câncer no Brasil em 2005.
Tipos de câncer mais incidentes, estimados para 2005 na população brasileira. Fonte:
(INCA, 2004).
• menarca precoce (antes dos 11 anos);
• menopausa tardia (após os 55 anos);
• não ter filhos (nuliparidade);
• ciclos menstruais menores que 21 dias;
• mãe ou irmã com história de câncer de mama na pré-menopausa;
• dieta rica em gordura animal;
• dieta pobre em fibras;
• obesidade (principalmente após a menopausa);
• ausência de atividade sexual;
• cor branca.
2.3 Mamografia 10
Estes são os principais fatores que favorecem o surgimento do câncer de mama.
Desde a origem da doença de câncer de mama, ainda desconhecida, a melhor
maneira para a cura da doença é uma rárida detecção.
A elevada incidência e a mortalidade por câncer de mama no Brasil e em
países desenvolvidos, como o Canadá, têm levado a estratégias visando à detecção
precoce do câncer de mama.
No Brasil, existe o programa Viva Mulher que é um programa nacional de
controle ao câncer do colo do útero e da mama, cujo objetivo é controlar o câncer
de mama através da detecção precoce evitando a mortalidade e as repercussões
físicas, psíquicas e sociais. Na província canadense de Alberta, existe também um
programa para a detecção precoce do câncer de mama, que é o Alberta Program
for the Early Detection of Breast Cancer. Programas semelhantes a estes existem
em outros países do continente americano e também no continente europeu. Estes
são programas para a detecção precoce do câncer de mama.
O exame de mamografia é uma maneira para a detecção precoce do câncer
de mama, permitindo diagnosticar o tumor maligno antes mesmo que ele se torne
palpável. Na seção seguinte, será descrito em detalhes o exame de mamografia.
2.3 Mamografia
A mamografia é um exame para a detecção precoce do câncer de mama. O
exame de mamografia é uma forma particular de radiografia que examina tecidos
com contrastes relativamente baixo, fibroso e glandular, materiais com densidades
aproximadas, como tumores e tecido da mama normal ou microcalcificação (da
ordem de até 0,1 mm em diâmetro). Para isso é necessário se ter uma boa
resolução espacial e contraste. Para se ter uma imagem com altíssimo contraste
a voltagem deve variar de 25 a 40 KVp (energias mais baixas) para se conseguir
2.3 Mamografia 11
distinguir os tecidos de gordura e músculo. Para altas energias, o coeficiente de
atenuação de massa da gordura, região de interesse na detecção de tumores, teria
uma baixa atenuação da energia, e conseqüentemente a resolução da imagem seria
prejudicada (SOUZA, 2005).
Este exame é destinado a registrar imagens da mama, a fim de diagnosticar
a presença ou ausência de estruturas que possam indicar doenças como o câncer
em estágio inicial. Em virtude de ainda ser um método caro em nosso país, os
especialistas recomendam a realização da mamografia nos casos de exame clínico
suspeito e em mulheres com situação de alto risco, com idade igual ou maior que 40
anos, mesmo que não apresentem alterações no exame clínico (exame de toque)
(INCA, 2002). A mamografia, é realizada em aparelho de raios X apropriado,
chamado de mamógrafo (veja a Figura 2.3).
Figura 2.3: Ilustração do aparelho de raios-x.
Ilustração de um aparelho de raios-X especial para a realização da mamografia.
(Fonte: Disponível em http://www.isu.edu/ departments/anthro/
hhp/nosearch/images/hhp-mamografia. Acessado em 16/03/2004.)
Durante a aquisição da imagem, a mama sofre uma compressão no mamógrafo
2.3 Mamografia 12
(vide ilustração na Figura 2.3) e são feitas duas incidências na mama da esquerda
e na mama da direta: crânio-caudal (CC) e médio-lateral oblíqua (MLO), ilus-
tradas na Figura 2.4. A incidência MLO é mais precisa pelo fato de mostrar uma
quantidade maior do tecido mamário. Por outro lado, a incidência CC serve como
um complemento da incidência MLO.
Figura 2.4: Exemplos de aquisições de imagens feitas em um exame de raios-x.
Ilustrações das duas incidências necessárias no exame de mamografia. É preciso fazer
as mesmas incidências na mama do lado esquerdo e do lado direito. Fonte: Disponível
em http://www.miraluma.com/hcp/presentations/ob/. Acessado em 22/05/2004.
A capacidade de perceber detalhes na imagem da mamografia é considerada
alta, mesmo que estudos evidenciam perdas nos detalhes de 10% a 15% dos casos
de câncer com tumor detectável ao exame clínico (INCA, 2002). Essa capacidade
está diretamente relacionada à idade da mulher. Em mulheres jovens, a densi-
dade do tecido mamário é alta, o que implica na diminuição da capacidade de
percepção.
O reconhecimento de estruturas que possam indicar a presença de câncer se
dá através da constatação de uma diferença de contraste entre os diversos tecidos
envolvidos. Geralmente, as lesões como microcalcificações e nódulos aparecem em
tonalidades mais claras na imagem obtida após a revelação do filme mamográfico.
O diagnóstico de carcinomas1 não palpáveis é possível através de uma mi-
1Carcinomas são os tipos mais comuns de câncer. Eles se originam de células que revestem
2.3 Mamografia 13
nuciosa mamografia, capaz de verificar detalhes que evitem o diagnóstico falso-
positivo2, que acarreta em um aumento dos números desnecessários de biópsias e
os falso-negativos3, que podem levar a um retardo na biópsia.
As causas mais importantesde mamogramas falso-negativos e falso-positivos
são:
• tecido mamário denso (insuficiência de gordura para separar a anormalidade
do parênquima4 mamário circunvizinho);
• fatores técnicos (necessidade de equipamentos especializados e radiologistas
qualificados em perceber sinais sutis no exame) e
• erro de interpretação: radiologistas bem treinados para distinguir com pre-
cisão, algumas características que parecem pertencer a um nódulo benigno,
mas que é maligno e nódulo que é maligno, mas que aparenta ser benigno.
Para contribuir na diminuição dos erros, sistemas computadorizados estão
sendo desenvolvidos para auxiliar os radiologistas na identificação e no diagnós-
tico do câncer de mama. Esses sistemas também são conhecidos como CAD
(Diagnóstico Auxiliado por Computador. Computer Aided Diagnosis), assunto
detalhado na próxima seção.
as superfícies do corpo, incluindo a pele e uma série de revestimentos internos. Entre esses estão
os da boca, garganta, brônquios, o esôfago (o tubo para engolir), estômago, intestino, bexiga,
útero e ovários e os revestimentos dos dutos mamários, próstata e pâncreas (NACAPAN, 2004).
2falso-positivo: quando o paciente não tem câncer, mas o resultado do exame diz que a
pessoa tem a doença. Mais detalhes sobre este conceito no Capítulo 5.
3falso-negativo: quando o paciente tem câncer e o resultado do exame diz que a pessoa não
tem a doença. Mais detalhes sobre este conceito no Capítulo 5.
4Parênquima: Tecido de preenchimento (tecido fundamental) constituído por células vivas,
geralmente com formato poliédrico, apresentando parede primária ou paredes primária e secun-
dária (KRAUS; PISANESCHI, 2004).
2.4 Diagnóstico Auxiliado por Computador ou CAD 14
2.4 Diagnóstico Auxiliado por Computador ou CAD
Com o intuito de minimizar os erros de disgnósticos têm sido desenvolvidos sis-
temas que utilizam técnicas computacionais, comumente chamados de CAD (Di-
agnóstico Auxiliado por Computador em inglês, Computer Aided Diagnosis).
Estes sistemas são desenvolvidos para auxiliar os radiologistas na avaliação
e no diagnóstico dos exames de mamografia e procuram reduzir os números des-
necessários de biópsia, considerando que de 20% a 30% dos casos enviados à
biópsia são comprovadamente malignos (HERMANN et al., 1987; HALL et al., 1988;
JACOBSON; EDEIKEN, 1990; ARAUJO, 2000).
O CAD é desenvolvido conjugando duas ferramentas complementares: técni-
cas de processamento de imagens e técnicas de inteligência computacional. As
técnicas de processamento de imagens são empregadas para detectar as marcações
dos nódulos não palpáveis previamente identificadas pelo radiologista e extrair
destas marcações determinadas características quantitativas (“medidas”). Algu-
mas tentativas de identificação e extração automática de nódulos não palpáveis
na mama em imagens de mamografia foram tentadas por Sahiner et al. (SAHINER
et al., 1998a, 1998b), mas os resultados obtidos com técnicas totalmente automáti-
cas são inferiores quando comparadas com as técnicas que utilizam a experiência
do radiologista.
As técnicas de inteligência computacional são aplicadas para classificar as
características extraídas dos nódulos através das técnicas de processamento de
imagens, como benignas ou malignas. As Redes Neurais Artificiais (RNA) são um
exemplo de técnica de inteligência computacional que vem sendo utilizada para
a classificação dos vetores de características extraídos das imagens de mamogra-
fias (YU; GUAN, 2000; HALKIOTIS; MANTAS; BOTSIS, 2002; ANDRE; RANGAYYAN,
2003; SILVA; DEL-MORAL-HERNANDEZ; RANGAYYAN, 2004, 2005).
2.4 Diagnóstico Auxiliado por Computador ou CAD 15
O procedimento do sistema CAD, neste contexto de trabalho é realizado a
partir das seguintes etapas:
1. O radiologista faz um rastreamento no exame de mamografia e ao identificar
uma lesão (neste trabalho estamos considerando apenas os nódulos não
palpáveis) ele faz uma marcação manual deste nódulo e a região que contém
a marcação, denominada de região suspeita (ROI), é extraída.
2. A partir da ROI digitalizada são aplicadas as técnicas de processamento de
imagens para extrair algumas características do nódulo capazes de caracte-
rizar o nódulo benigno e o nódulo maligno.
3. Estas características extraídas são apresentadas à rede neural artificial (pre-
viamente treinada), que classifica o nódulo como benigno ou maligno.
O procedimento descrito anteriormente, está ilustrado na Figura 2.5.
O objetivo deste trabalho foi utilizar uma proposta de classificação utilizando
um classificador de redes neurais artificiais para melhorar os resultados de classi-
ficação de um sistema CAD. Assim, a contribuição deste trabalho está na etapa
de classificação como indicado na Figura 2.5 pela região destacada (linha pon-
tilhada). As características extraídas das ROIs utilizadas neste trabalho para a
classificação foram fornecidas pelo grupo de pesquisas e colaboradores do Profes-
sor Rangaraj Mandaraj Rangayyan do Departamento de Engenharia Elétrica da
University of Calgary, Calgary, Alberta, Canadá.
Nos próximos capítulos são apresentadas as características extraídas utili-
zando as técnicas de processamento de imagens e em seguida será explicado de-
talhadamente o classificador Máquina de Comitê.
2.4 Diagnóstico Auxiliado por Computador ou CAD 16
Imagem de Mamografia
(Mamograma)
Radiologista Identifica uma Região Suspeita
(ROI - em inglês, Region of Interest)
e faz uma marcação manuscrita
Técnicas de Processamento de Imagens são
aplicadas nessas ROIs digitalizadas para a
extração das características
Métodos de Classificação (Classificadores
Estatísticos ou Redes Neurais Artificiais) são
aplicados para classificar as características
extraidas como malignas ou benignas
Figura 2.5: Diagrama esquemático do sistema CAD.
Ilustração de um diagrama de blocos do procedimento de um sistema CAD. O bloco
destacado por pontilhados, ilustra em qual etapa do sistema CAD o projeto é
aplicado. Este projeto, vem recebendo colaborações do grupo de pesquisas da
University of Calgary que desenvolveram e aplicaram as técnicas de processamento de
imagens para a extração das características dos nódulos não palpáveis suspeitos de
câncer (bloco anterior ao destacado).
17
3 Extração das Características
3.1 Base de Imagens Usadas para o Trabalho
Neste trabalho, foi usado um conjunto de 57 regiões com nódulos suspeitos (ROIs)
de mamogramas digitalizados com uma resolução de 50 µm com 12 bits por pixel.
Das 57 ROIs, 37 foram identificadas como benigna (Figura 3.1) e 20 como ma-
ligna (Figura 3.2), após o exame de biópsia. Os mamogramas foram selecionados
do Programa Alberta para a detecção precoce do câncer de mama (ALBERTA-
CANCER-BOARD, 2001; ALTO; RANGAYYAN; DESAUTELS, 2005).
3.2 Procedimento Clínico de um Radiologista
O procedimento clínico de um radiologista na análise de um mamograma é reali-
zado através do rastreamento na imagem de mamografia (mamograma) em busca
de algum indicador de doença. Algumas anormalidades são facilmente perceptí-
veis, entre outras, destacamos:
• assimetria entre as mamas;
• distorção no tecido da mama;
• aumento na densidade do tecido da mama e
• presença significativa de lesões como nódulos e calcificações.
3.2 Procedimento Clínico de um Radiologista 18
Figura 3.1: Ilustração das 37 ROIs benignas.
(Fonte (ALTO; RANGAYYAN; DESAUTELS, 2005))
3.2 Procedimento Clínico de um Radiologista 19
Figura 3.2: Ilustração das 20 ROIs malignas.
(Fonte (ALTO; RANGAYYAN; DESAUTELS, 2005))
3.2 Procedimento Clínico de um Radiologista 20
Essas anormalidades foram inicialmente apresentadas por Claridge e Richter
(1994).
Para este trabalho, foi investigada a possibilidade de um nódulo não palpável
ser benigno ou maligno através de atributos (características quantitativas) de
nódulos como forma, textura e nitidez da borda. Para facilitar a computação
das características, um radiologista experiente em mamografia fez a marcação
manuscritaem cada borda do nódulo (ALTO; RANGAYYAN; DESAUTELS, 2005).
Em caso de indicadores malignos, observa-se que a forma do nódulo é mais
irregular do que em casos benignos. A maioria dos nódulos benignos possui o
contorno bem circunscrito, compacto e aproximadamente elíptico (Figura 3.3).
Por outro lado, os nódulos malignos geralmente apresentam bordas borradas,
sua aparência é irregular e são cercados por espículos (em inglês, spiculations) ra-
diantes e lineares (forma de estrela), conforme exemplo da Figura 3.4 (CLARIDGE;
RICHTER, 1994; RANGAYYAN; MUDIGONDA; DESAUTELS, 2000; RANGAYYAN et
al., 1997).
Porém, alguns nódulos benignos podem ter bordas espiculadas ou bordas
borradas (Figura 3.5) e alguns nódulos malignos podem ter forma arredondada
e bem definida (Figura 3.6) (CLARIDGE; RICHTER, 1994; RANGAYYAN; MUDI-
GONDA; DESAUTELS, 2000; RANGAYYAN et al., 1997).
Com base nas informações descritas acima, diversos autores vêm pesquisando
técnicas de processamento de imagens para a extração das características de nó-
dulos benignos e malignos para uma correta classificação (FERRARI et al., 2001;
SAHINER et al., 2001; SHEN et al., 1994; SANTOS, 2002; RANGAYYAN; MUDIGONDA;
DESAUTELS, 2000; RANGAYYAN et al., 1997; MUDIGONDA; RANGAYYAN; DESAU-
TELS, 2000; SAHINER et al., 1998a).
3.2 Procedimento Clínico de um Radiologista 21
Figura 3.3: Nódulo benigno com contorno circunscrito.
Ilustração de um nódulo benigno com contorno circunscrito. (Fonte: (RANGAYYAN et
al., 1997) pertencente à base de dados MIAS (mdlb 010rm)).
Figura 3.4: Nódulo maligno com contorno espiculado.
Ilustração de um nódulo maligno com contorno espiculado. (Fonte: (RANGAYYAN et
al., 1997) pertencente à base de dados de Calgary (S-404-94-4)).
Figura 3.5: Nódulo benigno com contorno espiculado.
Ilustração de um nódulo benigno com contorno espiculado. (Fonte: (RANGAYYAN et
al., 1997) pertencente à base de dados MIAS (mdlb 193II)).
3.3 Características de Forma da Borda do Nódulo 22
Figura 3.6: Nódulo maligno com contorno circunscrito.
Ilustração de um nódulo maligno com contorno circunscrito. (Fonte: (RANGAYYAN et
al., 1997) pertencente à base de dados Calgary (fh161878)).
Para este trabalho são utilizadas as características pesquisadas por Rangayyan
et al (RANGAYYAN; MUDIGONDA; DESAUTELS, 2000; RANGAYYAN et al., 1997),
que são as características de forma, textura e nitidez da borda de cada nódulo e
que serão descritas a seguir.
3.3 Características de Forma da Borda do Nódulo
As características de forma extraídas da borda do nódulo de cada ROI são de-
nominadas conforme (RANGAYYAN; MUDIGONDA; DESAUTELS, 2000). Essas ca-
racterísticas são denominadas como: compacidade (ou compactness, em inglês)
(C ), concavidade fracionária (ou fractional concavity, em inglês) (Fcc) e grau de
espicularidade (ou spiculation index, em inglês) (SI ) (RANGAYYAN; MUDIGONDA;
DESAUTELS, 2000). Estas características permitem mensurar a complexidade da
forma do nódulo.
A característica C é uma medida da complexidade do contorno do nódulo
que indica 0 para um círculo e caso a borda se torne mais irregular este valor
é aumentado até um valor máximo 1 (RANGAYYAN; MUDIGONDA; DESAUTELS,
2000). A expressão para o cálculo de C é mostrada a seguir:
3.3 Características de Forma da Borda do Nódulo 23
C = 1 − 4πa
p2
(3.1)
Onde a é a área e p o perímetro do contorno.
A característica Fcc mede a relação entre o comprimento cumulativo da con-
cavidade do contorno e o comprimento total do contorno. Assim, para nódulos
benignos onde geralmente o contorno é arredondado ou oval, o valor apresentado
é baixo (RANGAYYAN; MUDIGONDA; DESAUTELS, 2000); por outro lado, para os
nódulos malignos com o contorno elíptico ou lobulado deve-se esperar por diversas
partes côncavas significativas.
A estimação de Fcc deve ser realizada a partir da segmentação do contorno
do nódulo em duas partes separadas côncavo e convexo por pontos de inflexão
no contorno do nódulo (RANGAYYAN; MUDIGONDA; DESAUTELS, 2000). As par-
tes côncavas e convexas do contorno de um nódulo macrolobulado benigno são
mostrados na Figura 3.7.
Figura 3.7: Nódulo demonstrando a parte côncava e convexa do contorno.
Ilustração de uma ROI com um contorno de nódulo demonstrando a parte côncava em
preto e em branco a parte convexa. (Fonte: (ALTO; RANGAYYAN; DESAUTELS,
2005)).
A característica SI é o cálculo do grau de espicularidade do contorno e utiliza
um método proposto por Rangayyan et al (RANGAYYAN; MUDIGONDA; DESAU-
TELS, 2000), o qual se baseia em um modelo poligonal de um dado contorno
3.4 Características de Textura 24
e uma combinação de comprimento do segmento, larguras de base e ângulos de
possíveis espículos. Carcinomas invasivos, devido a sua natureza de se infiltrar no
tecido da mama, formam um contorno com limites bem definidos distorções em
forma de estrelas em seu contorno características que resultam em altos valores
de SI.
Estas características foram incluídas em nossos experimentos, pela efetivi-
dade na discriminação de nódulos como descrito por Rangayyan (RANGAYYAN;
MUDIGONDA; DESAUTELS, 2000). Quando usadas por classificadores de Redes
Neurais Artificiais, estas características têm se mostrado bastante eficientes na
classificação de nódulos benignos e malignos (ANDRE; RANGAYYAN, 2003; SILVA;
DEL-MORAL-HERNANDEZ; RANGAYYAN, 2004, 2005; ALTO; RANGAYYAN; DESAU-
TELS, 2005).
Estas características [C,Fcc, SI] são chamadas nos próximos capítulos de ca-
racterísticas de forma .
3.4 Características de Textura
Em exames de mamografia pode ser verificado uma variedade de texturas que
representam parênquima, gordura, tecido normal, tecido anormal e nódulos. Pes-
quisadores que têm aplicado as características de textura para a classificação de
nódulos de mama têm indicado que a medida de homogeneidade deve ser usada
para decidir entre um nódulo benigno e maligno (PETROSIAN et al., 1994; CHAN
et al., 1995; BAEG; KEHTARNAVAZ, 2000; MAVROFORAKIS et al., 2002). Mui-
tos pesquisadores têm aplicado varias combinações das características de textura
propostas por Haralick (HARALICK; SHANMUGAM; DINSTEIN, 1973) para imagens
de mamografia com o objetivo de classificá-las de acordo com a microestrutura
interna da mama (MUDIGONDA; RANGAYYAN; DESAUTELS, 2000; MAVROFORA-
3.4 Características de Textura 25
KIS et al., 2002; PETROSIAN et al., 1994; SAHINER et al., 1998a, 1998b; CHAN et al.,
1995).
A formação de microcalcificações no tecido da mama causa mudanças na
textura e com isso começam a desenvolver espículos que podem ser observados
com a formação de linhas pontudas como agulha fina e radiadas na margem do
nódulo. Dessa forma, tem sido feito esforços na quantificação do conteúdo da
textura e das margens do nódulo (MUDIGONDA; RANGAYYAN; DESAUTELS, 2000;
CHAN et al., 1995).
Assim, utilizamos nos nossos estudos um conjunto de características composto
por medidas de textura. Catorze características de textura foram calculadas de
acordo com as definições de Haralick (HARALICK; SHANMUGAM; DINSTEIN, 1973),
a saber:
• Variância (f1): mensura a variação da tonalidade do fundo da ROI.
• Correlação (f2): medida que indica uma estrutura envolvida na textura da
ROI ou um fundo suave.
• Contraste (f3): texturas com baixo contraste geralmente têm valores meno-
res quando comparadas com as texturas de alto contraste porém, artefatos
e texturas rugosas causam um alto valor desta medida.
• Entropia (f4): medida da desorganização entre os pixels do nódulo do ROI.
• Soma da Entropia (f5): medida da soma da quantidade de desorganização
entre os pixels do fundo da ROI.
• Diferença da Entropia (f6): medida da diferença da quantidade de desor-
ganização entre os pixels de um fundo (semelhante a Soma da Entropia).
3.4 Características de Textura 26
• Momento da Diferença Inversa (f7): cálculo da média das tonalidades dos
pixels do fundo da ROI.
• Média da Soma (f8): cálculo da média das tonalidades dos pixels vizinhos
(pares) do fundoda ROI.
• Variância da Soma (f9): mede a variação dos tons do fundo da ROI
• Média da Diferença ou Coeficiente de Máxima Correlação (f10): é um indi-
cador da não homogeneidade da distribuição dos níveis de cinza da ROI.
• Variância da Diferença (f11): medida similar a Variância da Soma, mas com
a média centrada em zero.
• Energia ou Segundo Momento Angular (f12): medida que indica a uniformi-
dade ou suavidade da textura. Texturas homogêneas apresentam um alto
valor de energia comparada com as texturas não homogêneas, pois as textu-
ras suaves possuem densidades mais concentradas que as texturas rugosas.
Texturas rugosas têm densidades com alto espalhamento ou variância.
• MIC1 (f13): medida da correlação com base no cálculo da entropia dos
elementos independentes e pares de elementos da ROI.
• MIC2 (f14): cálculo da média da correlação com base na similaridade entre
a entropia dos elementos independentes da imagem e pares de elementos da
ROI.
As 14 características de textura de Haralick apresentadas anteriormente foram
calculas usando os pixels de uma faixa do contorno do nódulo. Mudigonda et. al.
(MUDIGONDA; RANGAYYAN; DESAUTELS, 2000) mostraram que as características
da textura calculadas usando uma faixa do contorno (faixa ao redor do contorno
do nódulo) pode melhorar a discriminação entre nódulos benignos e malignos,
3.5 Características de Nitidez da Borda do Nódulo 27
quando comparadas com as características de texturas calculadas usando toda
a região do nódulo. A diferença entre uma região do nódulo e uma faixa está
ilustrada na Figura 3.7 e Figura 3.8 respectivamente.
Figura 3.8: Faixa de pixels do contorno do nódulo.
Faixa de pixels utilizada para o cálculo das características de textura. Esta seleção foi
obtida aplicando duas técnicas de morfologia matemática, dilatação e erosão, no
contorno da Figura 3.10b. (Fonte: (ALTO; RANGAYYAN; DESAUTELS, 2005)).
Com o objetivo de extrair a faixa marcada como nódulo, o seu contorno é
erodido para dentro e dilatado para fora do contorno. A região entre o contorno
erodido e dilatado é usada no desenvolvimento da matriz de níveis de cinza que
é necessária para calcular as características de textura. As características de tex-
tura foram calculadas usando imagens com uma resolução de 200 µm suavizadas
por Gaussianas. Nas próximas seções, o conjunto total de 14 características de
textura será chamado de características de textura.
3.5 Características de Nitidez da Borda do Nó-
dulo
O terceiro conjunto de características usado neste trabalho é o das características
de nitidez da borda do nódulo. Estas características são extraídas das regiões em
torno da borda do nódulo (RANGAYYAN et al., 1997; MUDIGONDA; RANGAYYAN;
DESAUTELS, 2000). As características são: descontinuidade (ou Acutance, em
3.5 Características de Nitidez da Borda do Nódulo 28
inglês) (A), contraste (ou contrast em inglês) (contraste) e coeficiente de variação
(ou coefficient of variation, em inglês) (CV ).
O cálculo da característica A, como descrito em Rangayyan et. al. (RANGAYYAN
et al., 1997) é uma medida de suavidade ou mudança na densidade ao longo do
contorno do nódulo (veja Figura 3.9).
Figura 3.9: Linhas perpendiculares traçadas em torno do contorno do nódulo.
Ilustração de linhas perpendiculares a cada décimo de ponto (pixel) do contorno.
Usado para o cálculo da nitidez da borda. (Fonte: (ALTO; RANGAYYAN;
DESAUTELS, 2005)).
Para o cálculo de A, uma linha de pixels é definida na direção perpendicular
de cada pixel do contorno (veja a Figura 3.9). Uma distância de 80 pixels ou 4
mm dentro e fora do contorno do nódulo. No caso de um espículo ou concavidade
limitada, o máximo de pixel possível é usado tal que, a linha dos pixels ao longo
da perpendicular do contorno não cruze o contorno mais de uma vez. A média das
diferenças entre os pixels eqüidistantes no interior e a parte externa ao contorno
do nódulo ao longo da perpendicular de cada pixel da borda é calculada (CV ). O
cálculo do contraste ao longo da perpendicular do contorno também é efetuado
(MUDIGONDA; RANGAYYAN; DESAUTELS, 2000).
Os nódulos benignos tendem a demonstrar a margem mais definida e con-
seqüentemente resultam em uma grande desigualdade nos valores dos pixels entre
a parte interna e externa à ROI do nódulo enquanto que, os nódulos malignos
3.5 Características de Nitidez da Borda do Nódulo 29
tendem a ser mais difusos ou ter margens mal definidas o que resulta em menor
diferença entre os valores dos pixels. As margens de nódulos parcialmente escuros
ou contorno mal definidas devem resultar em baixos valores de A. O valor de A
esperado poderia ser alto se um nódulo é na maior parte redondo, claramente
visível e mais denso que o a região ao redor do tecido da mama.
Um nódulo muito espiculado, como o exemplo da Figura 3.10d, geralmente
terá sua margem fracamente definida e conseqüentemente a diferença entre os
valores dos pixels em torno do contorno é pequena; isto resulta em valor baixo
de A.
O nódulo na Figura 3.10a tem uma margem parcialmente obscura, mas é
possível perceber as mudanças na densidade em torno do contorno do nódulo; o
mesmo acontece nos nódulos da Figura 3.10b e 3.10c. A Figura 3.10d tem um
nódulo altamente espiculado além deste ser parcialmente obscuro, o resultado é
um valor muito baixo de A.
Esse conjunto de características [CV,A, contraste] será chamado nos próxi-
mos capítulos de características de nitidez da borda.
3.5 Características de Nitidez da Borda do Nódulo 30
Figura 3.10: Ilustração de deferentes contornos do nódulo.
(a) Nódulo benigno circunscrito; (b) Nódulo benigno microlobulado; (c) Tumor
maligno espiculado; (d) Tumor maligno espiculado. Os nódulos e seus contornos são
de tamanhos diferentes, mas nesta ilustração eles foram escalados para terem o mesmo
tamanho. A primeira letra do identificador do caso indica um diagnóstico maligno
com “m” e um diagnóstico benigno com “b” baseado na biópsia. As letras após os
números do identificador representam l: esquerda (de left), r : direito (de right); c: de
vista crânio-caudal, o: de vista médio lateral oblíquo. Os últimos dois dígitos
representam o ano da aquisição do mamograma. (Fonte: (ALTO; RANGAYYAN;
DESAUTELS, 2005)).
31
4 Classificador Utilizando uma
Arquitetura de Rede Neural
Artificial do tipo Máquina de
Comitê
Neste Capítulo, será discorrido sobre o classificador neural do tipo Máquina de Co-
mitê, assim como, as categorias encontradas da Máquina de Comitê e os detalhes
de implementação da categoria utilizada. Porém, antes de iniciar as explicações
citadas anteriormente, serão apresentados a seguir um breve histórico, conceitos
básicos e exemplos de aplicações das redes neurais artificiais.
4.1 Breve Histórico sobre as Redes Neurais Arti-
ficiais
As pesquisas sobre redes neurais artificiais tiveram início em 1943 com Warrem
McCulloch e Walter Pitts. A estrutura proposta abstraía a complexidade da
atividade neural em sistemas neurais reais e estabeleceu a base da neurocompu-
tação, concebendo procedimentos matemáticos análogos ao funcionamento dos
neurônios biológicos (KOVACS, 1996). A contribuição desta pesquisa foi pura-
mente conceitual e tomada como base para a maioria dos modelos conexionistas
desenvolvidos posteriormente.
Em 1949 Donald Hebb publica The Organization of Behavior e dá um passo
4.1 Breve Histórico sobre as Redes Neurais Artificiais 32
muito importante na história das redes neurais. Ele propôs um modelo onde se
assumiu que a aprendizagem do conhecimento representado em uma rede neural
seja alcançada pelo fortalecimento das conexões entre os neurônios adjacentes,
sempre que estes estiverem excitados.
Em 1958, Frank Rosenblatt criou o perceptron, um modelo cognitivo que
consistia de unidades sensoriais conectadas a uma única camada de neurônios de
McCulloch e Pitts, capaz de aprender tudo o que pudesse representar. Rosenblatt
demonstrou que, se acrescidas sinapses ajustáveis às redes neurais deMcCulloch e
Pitts, estas poderiam ser treinadas para classificar padrões de classes linearmente
separáveis.
Com base no modelo de McCulloch e Pitts, no início da década de 60 Wi-
drow e Hoff publicaram um artigo especificando o neurônio artificial, denominado
adaline. A contribuição deste trabalho está associada à regra de aprendizagem
proposta, a regra Delta.
Mas, em 1969 Minsky e Papert na publicação Perceptrons, expuseram as li-
mitações do modelo de Rosenblatt, provando que tais redes não são capazes de
resolver uma ampla classe de problemas devido às restrições de representação.
Nesta época, pensava-se que para reproduzir o comportamento do cérebro hu-
mano, bastaria construir uma rede neural suficientemente grande. Uma rigorosa
análise matemática, no entanto, comprovou o pouco poder computacional dos
modelos de redes neurais utilizados na época, levando as pesquisas neste campo
a ficarem esquecidas em meados dos anos 60 até o início da década de 80.
Nos anos 80, o interesse pela área retornou devido, em grande parte, ao surgi-
mento de novos modelos neurais como o proposto por Hopfield e Kohonen em 1982
e de algoritmos de aprendizado mais poderosos. Além disso, nesta mesma época,
ocorreu o surgimento de computadores mais rápidos e poderosos, facilitando a
4.2 Conceitos Básicos sobre as Redes Neurais Artificiais 33
implementação das redes neurais.
O modelo conexionista proposto por John Hopfield em 1982 permitiu esclare-
cer pelas suas características computacionais e estabilidade boa parte das dúvidas
até então existentes em relação ao processo dinâmico executado por certas redes
neurais. No mesmo ano, Kohonen publica um artigo descrevendo a rede neu-
ral artificial baseada em auto-organização e nas características de aprendizado
adaptativo do cérebro humano.
Com a incorporação da dinâmica estocástica, em 1983, Hinton e Seynowsky
estenderam o modelo de Hopfield. Este modelo de rede neural passou a ser
conhecido como Máquina de Boltzmann.
Cerca de dois anos mais tarde, Rumelhart, Hinton e Williams aperfeiçoaram
a idéia de perceptron, criando o algoritmo retropropagação do erro (em inglês,
error backpropagation) (HAYKIN, 1999), levando a uma explosão de interesse em
redes neurais. O sucesso deste algoritmo estimulou o desenvolvimento de muitas
pesquisas em redes neurais artificiais e de uma variedade de modelos cognitivos.
4.2 Conceitos Básicos sobre as Redes Neurais Ar-
tificiais
Na tentativa de se criar um modelo computacional capaz de simular a estrutura
e o funcionamento do cérebro humano, se deu origem as redes neurais artificiais.
A Figura 4.1a ilustra uma representação do neurônio biológico e a Figura
4.1b ilustra uma representação do neurônio artificial. De acordo com estas ilus-
trações, pode-se perceber a semelhança entre as duas estruturas. Analogamente,
as entradas de um neurônio artificial representam os dendritos do neurônio bioló-
gico, a junção aditiva no neurônio artificial representa o corpo celular no neurônio
biológico e a saída do neurônio artificial representa o axônio.
4.2 Conceitos Básicos sobre as Redes Neurais Artificiais 34
Figura 4.1: Ilustração de neurônio biológico e neurônio artificial.
(a) representação de um neurônio biológico; (b) ilustração de um neurônio artificial.
Uma rede neural artificial ou RNA, como será chamada no decorrer do texto,
é uma tradução grosseira do funcionamento do cérebro humano, a partir de algo-
ritmos. As RNAs caracterizam-se por possuírem:
• Elevado número de elementos de processamento simples, inspirados no fun-
cionamento do neurônio biológico;
• Conexão entre os elementos de processamento;
• Cada conexão tem um peso associado que representa o quanto forte é a
interação ou acoplamento entre os elementos de processamento e se a sua
natureza é excitatória ou inibitória.
As redes neurais artificiais possuem várias características vantajosas que es-
timulam as pesquisas na área, entre outras destacamos (HAYKIN, 1999):
• Controle paralelo e distribuído;
• Capacidade de aprendizado através de um conjunto de exemplos sendo estes
com ou sem informação de respostas desejadas;
4.3 Aplicações das Redes Neurais 35
• Capacidade de adaptar a modificações operativas do ambiente (retreina-
mento);
• e outras como robustez, implementação em VLSI e tolerância a falhas.
Por outro lado, ainda não foi explicado conceitualmente como a rede neural
aprende o conhecimento. Esta falta de embasamento teórico das redes neurais
ainda é uma séria desvantagem, pois gera desconfiança na sua aplicação. Outra
desvantagem das redes neurais é o tempo requerido na fase de aprendizado da
rede. Em algumas aplicações a fase de aprendizado pode durar horas e até dias
para ser realizada. Com as crescentes pesquisas em processamento paralelo, em
breve, o tempo de aprendizado não será mais problema. O outro problema, a
desconfiança das RNA, está sendo resolvido com as publicações sobre aplicações
das RNA nas mais diferentes áreas (engenharia, medicina, mercado de risco,
agricultura, etc.)
4.3 Aplicações das Redes Neurais
As Redes Neurais Artificiais (RNA) são um exemplo de técnica de inteligên-
cia computacional que vem sendo utilizada em diversas aplicações como (DUDA;
HART; STORK, 2000):
• reconhecimento de voz,
• reconhecimento de face e classificação,
• reconhecimento de padrões,
• reconhecimento e classificação de imagens para reconhecer: textos, assina-
turas, impressões digitais, objetos e outros.
4.4 Máquinas de Comitê 36
Além destas e outras utilizações a RNA também vem sendo utilizada em
sistemas de auxílio ao diagnóstico (CAD) para classificar regiões de mamogra-
mas suspeitas de câncer (ROIs) em nódulos benignos ou malignos (HALKIOTIS;
MANTAS; BOTSIS, 2002; YU; GUAN, 2000; ANDRE; RANGAYYAN, 2003; SILVA; DEL-
MORAL-HERNANDEZ; RANGAYYAN, 2004, 2005).
Para a classificação das características do nódulo da região de interesse (ROI),
diferentes arquiteturas de RNA vêm sendo empregadas, como o Perceptron de
Múltiplas Camadas (em inglês, Multi-Layer Perceptrons) (MLPs) (HALKIOTIS;
MANTAS; BOTSIS, 2002; YU; GUAN, 2000; ANDRE; RANGAYYAN, 2003), e Percep-
tron de Única Camada (em inglês, Single-Layer Perceptrons) (SLPs) (ANDRE;
RANGAYYAN, 2003) que são aplicadas na tentativa de uma melhor classificação
entre nódulos benignos e malignos.
Com a procura de melhorar os resultados dos classificadores utilizando as
RNA obtidos com as arquiteturas MLP e SLP neste trabalho é apresentada uma
nova proposta para a classificação, também utilizando as redes neurais artificiais
baseadas no principio de dividir e conquistar conhecida como Máquinas de Comitê
(HAYKIN, 1999; SCHAPIRE, 1999; DUDA; HART; STORK, 2000; SCHAPIRE, 2002).
Os resultados iniciais desta tentativa estão apresentados no trabalho de Silva et
al. (SILVA; DEL-MORAL-HERNANDEZ; RANGAYYAN, 2004, 2005).
4.4 Máquinas de Comitê
A idéia básica, é treinar um comitê de RNAs (Redes Neurais Artificiais) para
resolver uma tarefa computacionalmente complexa. Em uma Máquina de Comitê,
os resultados individuais de cada RNA, também chamada de especialista são
combinados para se conseguir um melhor desempenho de generalização. Este
processo é conhecido também como princípio de “dividir e conquistar” (HAYKIN,
4.4 Máquinas de Comitê 37
1999; SCHAPIRE, 1999; DUDA; HART; STORK, 2000; HU; HWANG, 2001).
As Máquinas de Comitê são divididas em duas grandes categorias que são as
estruturas estáticas e as estruturas dinâmicas (HAYKIN, 1999).
As estruturas estáticas são assim consideradas pelo fato das saídas dos espe-
cialistas serem combinadas sem envolver o sinal de entrada (padrões de entrada
envolvidos no treinamento). Esta categoria possui dois métodos de aplicar o sinal
de entrada, que são a média de ensemble e o reforço.
No método média de ensemble, o sinal de entrada é o mesmo para todos os
especialistas e a saída global é dada pela combinação linear das saídas dos especi-
alistas individuais. O método de reforçocaracteriza-se pela diferente distribuição
do sinal de entrada dos especialistas. O reforço pode ser implementado de três
modos, a saber: reforço por filtragem, reforço por sub-amostragem e reforço por
ponderação. Estes três métodos são detalhados em (HAYKIN, 1999).
Por outro lado, as Máquinas de Comitê de estruturas dinâmicas diferem das
estruturas estáticas pelo fato do sinal de entrada estar aplicado não apenas às
entradas dos especialistas, mas também sobre o combinador das saídas dos espe-
cialistas. Desse modo, a saída do comitê depende do sinal de entrada e da saída
dos especialistas.
A principal técnica de estrutura dinâmica é a mistura de especialistas, que
apresenta como característica uma unidade denominada de rede de passagem, res-
ponsável por fazer a combinação não linear das saídas dos especialistas (HAYKIN,
1999).
Em resumo, uma Máquina de Comitê pode ser interpretada como um grupo
de RNAs combinadas para realizar uma classificação. Neste trabalho, será utili-
zado o método de reforço implementado por filtragem da categoria de estrutura
estática da Máquina de Comitê. Como especialista do comitê, será utilizada a
4.4 Máquinas de Comitê 38
arquitetura de RNA, Perceptrons de Múltiplas Camadas (ou MLP, em inglês,
Multi-Layer Perceptrons), com o algoritmo de aprendizado de retropropagação
do erro (HAYKIN, 1999; DUDA; HART; STORK, 2000).
A seguir, será descrito em detalhes o método de reforço por filtragem.
4.4.1 Reforço por Filtragem
Reforço (ou boosting) é um método de estrutura estática da Máquina de Comitê,
cujo objetivo é construir um modelo de aprendizado que seja independente da
distribuição do conjunto de padrões de treinamento. O problema neste método,
é a necessidade de um elevado repertório de amostras (padrões) no conjunto de
treinamento (HAYKIN, 1999; DUDA; HART; STORK, 2000).
Esse problema pode ser superado usando-se o algoritmo chamado AdaBoost
(reforço adaptativo em inglês, adaptive boosting) (HAYKIN, 1999; DUDA; HART;
STORK, 2000; FREUND; SCHAPIRE, 1996, 1997; SCHAPIRE, 1999, 2002); este mé-
todo de reforço por filtragem tem a capacidade de operar com uma quantidade
de padrões do conjunto de treinamento reduzido, pois permite a sua reutilização.
O algoritmo AdaBoost será aplicado na classificação de nódulos mamográficos
(veja também em (SILVA; DEL-MORAL-HERNANDEZ; RANGAYYAN, 2004, 2005)).
O método de aprendizado e operação desse algoritmo de reforço alternativo será
descrito a seguir.
4.4.2 AdaBoost
O AdaBoost (reforço adaptativo em inglês, adaptive boosting) constrói uma com-
posição de especialistas, neste trabalho utilizada a arquitetura neural MLP, com
um comitê de treinamento seqüencial.
O princípio da teoria do AdaBoost consiste em um sistema que pode se ajus-
4.4 Máquinas de Comitê 39
tar adaptativamente aos erros das hipóteses de classificação retornadas por um
conjunto de especialistas. A hipótese final será dada combinando a hipótese de
cada especialista.
O AdaBoost é inspirado no modelo PAC (Provavelmente Aproximadamente
Correto, em inglês, Probably Approximately Correct) (RAO; OBLOW, 1994; HOL-
DEN; RAYNER, 1995; BERGADANO; CUTELLO, 1995; HERNANDEZ-AGUIRRE, 2000),
e sua proposta é melhorar o desempenho de qualquer algoritmo de aprendizado
através de um processo iterativo. Em cada iteração deste processo, um novo es-
pecialista (RNA) é adicionado ao comitê. O índice de iteração é nomeado como
“ne”, onde ne representa o número de especialistas incorporados ao comitê e o
índice de iteração máximo, foi nomeado como “NTE”, onde NTE representa o
número total de especialistas incorporado ao comitê.
A partir de uma arquitetura de rede neural usada para implementar os espe-
cialistas do comitê, nomeados RN1, RN2, . . ., RNne, . . ., RNNTE, e a partir de
um dado conjunto de padrões de treinamento Tr = {(x1, y1), (x2, y2), . . ., (xi, yi),
. . ., (xN , yN)} onde, xi pertence ao mesmo domínio ou espaço instanciado pelo
conjunto de padrões de treinamento X, yi pertence ao conjunto de classes de
saída Y e N é o número de padrões do conjunto de treinamento, o algoritmo
AdaBoost apresenta uma hipótese final com base na combinação da hipótese de
cada especialista.
O algoritmo é baseado na definição de um conjunto adaptativo de pesos pro-
babilísticos associados com os elementos do conjunto de padrões de treinamento.
O particular peso probabilístico distribuído sobre o conjunto de padrões de trei-
namento em cada iteração ne é chamado Dne(i), i = 1, 2, . . . , N .
Inicialmente, para ne = 1, todos os pesos probabilísticos são iguais de mesmos
valores. Os pesos são atualizados em cada iteração ne com base no sucesso ou
4.4 Máquinas de Comitê 40
falha da hipótese hne−1 determinada pelo especialista RNne−1.
Quando o especialista RNne recebe um conjunto de padrões de treinamento
(Trne˜Dne) com os pesos probabilísticos Dne, este produz uma hipótese hne . A
amostra do conjunto de padrões de treinamento classificada erroneamente por
hne terá o seu peso probabilístico aumentado enquanto que a amostra classifi-
cada corretamente terá o seu peso probabilístico diminuído quando considerado
durante o treinamento do novo especialista. Na próxima iteração, o especialista
RNne+1 é forçado a focar nas amostras mais “difíceis” (classificações incorretas)
do conjunto de padrões de treinamento. Este comportamento adaptativo pode
ser observado na Figura 4.2.
Figura 4.2: Ilustração dos pesos probabilísticos.
Atualização do peso probabilístico do conjunto de padrões de treinamento. Perceba
que o peso probabilístico das amostras classificadas incorretamente é aumentado,
enquanto que o peso probabilístico das amostras classificadas corretamente é
diminuído. Neste exemplo foram usados 20 casos (amostras) (1 a 10 benigno e 11 a 20
maligno). A saída desejada é -1 para caso benigno e 1 para caso maligno. Os valores
dos pesos probabilísticos, não pertencem à escala vertical do gráfico, eles foram assim
colocados para facilitar a ilustração da explicação do conceito, pois os valores reais dos
pesos probabilísticos são distribuídos de forma que a soma de todos os pesos
probabilísticos resulta no valor 1 assim, se colocados na escala vertical do gráfico (-1 a
1) a visualização da atualização dos pesos probabilísticos seria prejudicada.
4.4 Máquinas de Comitê 41
A qualidade do resultado da hipótese (hne) é calculada pelo seu erro:
�ne =
N∑
i=1
Dne(i) |hne(x(i)) − y(i)| (4.1)
Onde N é a cardinalidade do conjunto de treinamento.
Uma vez recebida a hipótese hne do especialista é necessário calcular um
parâmetro αne para mensurar a importância com que hne foi determinada.
No resumo do algoritmo AdaBoost (Figura ??) pode ser verificado que αne ≥ 0
se �ne ≤ 0, 5 (onde é assumido que não existe nenhuma perda de generalização) e
que αne será maior conforme �ne diminui) (SCHAPIRE, 1999).
A próxima distribuição Dne é atualizada conforme mostrado na Figura ??.
Dessa maneira, o algoritmo AdaBoost aumenta o peso do padrão de treinamento
classificado incorretamente por hne e diminui o peso do padrão de treinamento
classificado corretamente (veja a Figura 4.2). Assim, os pesos tendem a se con-
centrar nos padrões do conjunto de treinamento mais difíceis.
Esse processo é repetido até que o �ne ≤ erromax ou enquanto ne ≤ NTE,
no final desta iteração, temos um comitê de redes neurais RN1, RN2, . . ., RNne,
. . ., RNNTE, (veja a Figura 4.3). A hipótese final H(x) será dada por:
H(x) = sign
[(
NTE∑
ne=1
αnehne(x)
)]
(4.2)
Dessa forma, o Adaboost vem sendo aplicado em diversos problemas como
reconhecimento de voz continuado (on-line) (SCHWENK, 1999), detecção de face
(VIOLA; JONES, 2001), solução de problemas de diagnóstico de falha em aparelhos
(MURPHEY; CHEN; FELDKAMP, 2001, 2002), tratamento de resultados na detecção
de padrões e classificação em um ambiente real e complexo (detecção de faces em
um ambiente de aeroporto) (JIANG; LOE, 2003), predição das características que
4.4 Máquinas de Comitê 42
Figura4.3: Ilustração da arquitetura Máquina de Comitê.
podem separar drogas de produtos farmacêuticos (GOH; LIM; PEH, 2003).
Neste trabalho foi utilizado o algoritmo AdaBoost para melhorar o aprendi-
zado da arquitetura Perceptron de Múltiplas Camadas treinada com o algoritmo
de aprendizado conhecido como retropropagação do erro. Essa tentativa já foi
realizada por (ROMERO; ALQUEZAR, 2002) em um modelo para ajuste dos pesos
para o critério da soma do erro quadrático, para que a arquitetura neural Percep-
tron de Múltiplas Camadas, apresente o mesmo resultado de classificação, para
classes linearmente separáveis em comparação com os resultados do classificador
SVM (Support Vector Machine). Uma outra tentativa de melhorar o aprendizado
de retropropagação foi realizada em dois trabalhos de Silva et. al. (SILVA; DEL-
MORAL-HERNANDEZ; RANGAYYAN, 2004, 2005) para a classificação de nódulos
mamográficos em benigno ou maligno a partir da região de interesse identificadas
no exame de mamografia pelo radiologista.
4.4 Máquinas de Comitê 43
Resumo Algoritmo do AdaBoost
Figura 4.4: Resumo do Algoritmo AdaBoost
4.4 Máquinas de Comitê 44
O aprendizado de retropropagação é um dos métodos mais simples e mais
populares para o treinamento de redes neurais e utilizado em diversas aplicações,
mas ainda existem problemas como por exemplo, o da generalização (HAYKIN,
1999; MURPHEY; CHEN; FELDKAMP, 2001). Uma tentativa para solucionar esse
problema é aplicar o algoritmo AdaBoost.
Em (HAYKIN, 1999) são apresentados dois gráficos, ilustrados na Figura 4.5
e 4.6, de experimentos de desempenho de erro realizados com o AdaBoost e com
o Perceptron de Múltiplas Camadas treinado com algoritmo de retropropagação.
Figura 4.5: Desempenho do erro de generalização do AdaBoost.
Figura que ilustra o desempenho do erro de generalização do algoritmo AdaBoost.
Figura retirada do livro (HAYKIN, 1999) página 398.
O resultado apresentado pelo AdaBoost (Figura 4.5) mostra que o erro de
teste diminui de acordo com o erro de treinamento, enquanto que nos experi-
mentos com o Perceptron de Múltiplas Camadas treinado com o algoritmo da
retropropagação, o gráfico apresenta um comportamento diferente ao apresen-
tado pelo AdaBoost, o erro de teste (validação) decresce até um mínimo e depois
4.4 Máquinas de Comitê 45
Figura 4.6: Desempenho do erro de generalização do aprendizado de
retropropagação do erro.
Figura que ilustra o desempenho do erro de generalização do aprendizado de
retropropagação dos Perceptrons de Múltiplas Camadas. Figura adaptada do livro
(HAYKIN, 1999) página 243.
aumenta devido ao treinamento excessivo (veja a Figura 4.6). De acordo com
estas duas figuras (Figura 4.5 e Figura 4.6), fica evidente que o algoritmo do
AdaBoost melhora a capacidade de generalização do aprendizado de retropropa-
gação do erro.
Para completar a explicação do classificador máquina de comitê, descreve-se
a seguir a arquitetura neural do especialista (RNNTE) citada anteriormente na
explicação do AdaBoost, a arquitetural neural Perceptron de Múltiplas Camadas.
4.4.3 Arquitetura Neural RNNTE - Perceptrons de Múlti-
plas Camadas
A RNNTE (ou especialista) usada na Máquina de Comitê é a conhecida como ar-
quitetura MLP (Perceptrons de Múltiplas Camadas). As redes neurais de arqui-
tetura MLP tipicamente consistem de uma especificação do número de camadas,
4.4 Máquinas de Comitê 46
tipo de função de ativação de cada unidade e pesos de conexões entre as diferentes
unidades que devem ser definidas para a construção desta arquitetura neural.
A Figura 4.7 ilustra uma arquitetura do tipo MLP com Nem neurônios na
camada de entrada (neurônios sensores), Non neurônios na camada escondida e
com um único neurônio de saída (Ns1).
.
.
.
.
.
.
Camada de
entrada
de nós de fonte
Camada de
neurônios
ocultos
Camada de
neurônios
de saída
x
1
x
2
x
N
N
o
1
N
o
3
N
o
l
N
o
n
N
o
2
N
s
1
Ne
1
Ne
j
Ne
m
y
1
Figura 4.7: Ilustração do MLP.
Ilustração de uma arquitetura de Perceptrons de Múltiplas Camadas (MLP em inglês,
Multi-Layer Perceptrons). Nessa ilustração, a topologia do MLP é a seguinte: Nem
neurônios na camada de entrada (neurônios sensores), Non neurônios na camada
escondida e um único neurônio de saída (Ns1).
O funcionamento da arquitetura MLP é iniciado quando aplicado um dado
padrão de entrada do conjunto de treinamento nos neurônios da camada de en-
trada que se propaga para frente, de camada em camada, até atingir os neurônios
da camada de saída. A resposta de saída fMLP é calculada como mostrado a
seguir:
fMLP (x) = ϕ


Non∑
l=1
vl · ϕ


Nem∑
j=1
wljxl + bl0

+ b0

 , (4.3)
4.4 Máquinas de Comitê 47
onde NOn é o número de neurônios na camada oculta (ou escondida) e Nem é o
número de neurônios na camada de entrada. Os pesos sinápticos são represen-
tados por vl e wlj; bl0 e b0 são os biases; e a função ϕ(·) é a função de ativação,
comumente especificada como sendo a função sigmoidal (Figura 4.8).
Figura 4.8: Exemplo da função sigmóide.
Função sigmóide, usualmente utilizada como função de transferência dos neurônios da
camada escondida e dos neurônios da camada de saída.
O objetivo do processo de treinamento é escolher parâmetros adequados para
minimizar uma função de custo pré-determinada. A função da soma do erro
quadrático é a mais usual:
E(X) =
N∑
i=1
1
2
[fMLP (xi) − yi]2 . (4.4)
Onde N é o número de padrões do conjunto de treinamento.
A função soma do erro quadrático E(X) é uma aproximação para a norma
quadrática da função de erro (fMLP (x) − y) (HAYKIN, 1999).
A arquitetura (conexões, número de neurônios na camada escondida e função
de ativação) é usualmente fixada como um conhecimento a priori; por outro lado,
os pesos são ajustados durante o processo de treinamento pela retropropagação
4.4 Máquinas de Comitê 48
do erro.
Pesquisas têm mostrado que a rede neural de múltiplas camadas (MLP) são
capazes de aprender qualquer tipo de função (KOVACS, 1996; HAYKIN, 1999).
Porém, quando a MLP é treinada com o algoritmo de retropropagação do erro,
a aproximação se torna uma tarefa difícil, devido ao problema do mínimo local.
Assim, para a arquitetura MLP não existe um procedimento a ser aplicado no
algoritmo de retropropagação do erro que possa garantir uma solução ótima, o
mínimo local é sempre uma possibilidade. Apesar disso, o algoritmo de retropro-
pagação, usado no treinamento das redes neurais MLP, têm mostrado eficientes
resultados sobre uma grande faixa de problemas de aplicação. Quanto a topo-
logia da arquitetura, ou seja, quantas camadas escondidas e quantas unidades
de neurônios na camada escondida, ainda não existe um consenso e vêm sendo
bastante pesquisadas.
Experimentos com a arquitetura MLP foram realizados para efeito compa-
rativo com o classificador Máquina de Comitê assim como, outros resultados
apresentados pelos classificadores MLP e SLP foram comparados. As compara-
ções são feitas a partir do resultado de Az de cada classificador. O Az, que é o
cálculo da área sob a curva ROC, é um método utilizado para medir a capacidade
de discriminação. Os detalhes deste método são descritos no próximo capítulo.
49
5 Área Sob a Curva ROC - Az
5.1 Métrica de Análise de Desempenho na Medi-
cina
Na medicina, há a necessidade de estabelecer critérios para determinar se o resul-
tado de um exame é normal ou anormal. A partir de testes, exames (laboratoriais,
raios-x e etc) e também das técnicas de inteligência computacional é possível me-
lhorar a estimativa da probabilidade de que um paciente tenha uma dada doença
ou não.
As medidas (testes) feitas em uma população de pessoas doentes e não do-
entes, na maioria dos exames, geram variáveis contínuas, que estão distribuídas
estatisticamente de alguma maneira específica. O modelo de distribuição esta-
tística mais comumente usado para aproximar as distribuições obtidas experi-
mentalmente em exames tradicionais

Continue navegando