Buscar

Redes neurais artificiais aplicadas na classificação de radionuclídeos a partir da espectroscopia gama e simulação computacional

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 138 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 138 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 138 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

MINISTÉRIO DA DEFESA
EXÉRCITO BRASILEIRO
DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA
INSTITUTO MILITAR DE ENGENHARIA
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA NUCLEAR
MÁRCIO MAGALHÃES DE ANDRADE SILVA
REDES NEURAIS ARTIFICIAIS APLICADAS NA CLASSIFICAÇÃO DE
RADIONUCLÍDEOS A PARTIR DA ESPECTROSCOPIA GAMA E
SIMULAÇÃO COMPUTACIONAL
RIO DE JANEIRO
2021
MÁRCIO MAGALHÃES DE ANDRADE SILVA
REDES NEURAIS ARTIFICIAIS APLICADAS NA CLASSIFICAÇÃO DE
RADIONUCLÍDEOS A PARTIR DA ESPECTROSCOPIA GAMA E
SIMULAÇÃO COMPUTACIONAL
Dissertação apresentada ao Programa de Pós-graduação
em Engenharia Nuclear do Instituto Militar de Engenharia,
como requisito parcial para a obtenção do título de Mestre
em Ciências em Engenharia Nuclear.
Orientador(es): Rudnei Karam Morales, M.C. Professor
Emérito
Wallace Vallory Nunes, D.Sc.
Domingos Oliveira Cardoso, D.Sc.
Rio de Janeiro
2021
©2021
INSTITUTO MILITAR DE ENGENHARIA
Praça General Tibúrcio, 80 – Praia Vermelha
Rio de Janeiro – RJ CEP: 22290-270
Este exemplar é de propriedade do Instituto Militar de Engenharia, que poderá incluí-lo em base
de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.
É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste
trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado,
para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que
seja feita a referência bibliográfica completa.
Os conceitos expressos neste trabalho são de responsabilidade do(s) autor(es) e do(s) orienta-
dor(es).
Silva, Márcio Magalhães de Andrade.
Redes Neurais Artificiais aplicadas na classificação de radionuclídeos a partir
da espectroscopia gama e simulação computacional / Márcio Magalhães de
Andrade Silva. – Rio de Janeiro, 2021.
137 f.
Orientador(es): Rudnei Karam Morales, Wallace Vallory Nunes e Domingos
Oliveira Cardoso.
Dissertação (mestrado) – Instituto Militar de Engenharia, Engenharia Nuclear,
2021.
1. espectroscopia. 2. detecção e instrumentação nuclear. 3. redes neurais
artificiais. 4. redes neurais. 5. radiação. 6. radiação ionizante. i. Morales, Rudnei
Karam (orient.) ii. Nunes, Wallace Vallory (orient.) iii. Cardoso, Domingos
Oliveira (orient.) iv. Título
Esse trabalho é dedicado a dois pequenos futuros cientistas, meus filhos Elisa e Pedro, a
quem são dedicados todos os trabalhos da minha vida.
AGRADECIMENTOS
Ao longo da trajetória que culminou no presente trabalho, muitas pessoas con-
tribuíram, de diferentes formas, de fato que não é possível estabelecer uma ordem de
importância baseada na ordem em que cada um será citado. Todas as pessoas envolvidas
foram importantes! Agradeço a minha família, minha esposa Talita, e meus filhos Elisa
e Pedro, pelo sacrifício compartilhado, pela compreensão nas horas de ausência e por
serem a minha fortaleza nas horas difíceis. Agradeço ao meu ex chefe imediato e grande
amigo, Comandante Jorge Antônio Vasconcellos (Marinha do Brasil), por ter lutado para
viabilizar meu mestrado perante o ambiente profissional, assim como pela amizade por nós
construída. Aos meus orientadores, de forma geral, agradeço pela consideração e amizade,
e fundamentalmente por terem acreditado no potencial do meu trabalho, assim como por
terem defendido a viabilidade e pertinência do mesmo dentro da Seção. Ao orientador
e professor Karan, pelos ensinamentos na área de Detecção e Instrumentação Nuclear,
pelas detalhadas revisões que muito contribuíram para a qualidade do trabalho final. Ao
orientador e professor Wallace, pelos ensinamentos na área de Inteligência Artificial, pela
autonomia a mim concedida, e pelo notório entusiasmo durante todo o desenvolvimento
do estudo. Ao orientador e professor Domingos, pelos ensinamentos e olhar clínico nos
conceitos pertinentes a área de Detecção e Instrumentação Nuclear. A todos os colegas de
curso pelas trocas de experiência e de conhecimento. Aos colegas da COGESN (Marinha do
Brasil), pela amizade, incentivo e troca de ideias. A todos os integrantes da Seção 7, pela
oportunidade a mim concedida, pela dedicação na formação e orientação do corpo discente,
assim como o comprometimento com a notória qualidade e sucesso do programa de pós
graduação em Engenharia Nuclear. Ao Instituto Militar de Engenharia, pela oportunidade
de estudar em uma instituição de excelência acadêmica. Aos demais amigos e colegas, que
contribuíram direta ou indiretamente para a realização deste trabalho.
Talvez devêssemos todos parar por um momento e focar nosso pensamento não apenas em
tornar a Inteligência Artificial mais capaz e bem sucedida, mas em maximizar seu
benefício social. (...) estamos no limiar de um admirável mundo novo que é um lugar
empolgante, embora precário, e vocês são os pioneiros. (Stephen Hawking)
RESUMO
O presente estudo busca o desenvolvimento de um classificador de fontes radioativas baseado
em espectroscopia gama e inteligência artificial, que faz uso do Keras e TensorFlow, ambas
as tecnologias livres e de código aberto. Através dessas tecnologias, foi desenvolvida uma
rede neural artificial (RNA), que faz uso de aprendizagem supervisionada de máquina
e do algoritmo de retropropagação. A rede foi treinada com um conjunto de espectros
provenientes de simulações realizadas pelo código MCNP5. Para atingir o objetivo de
funcionar como classificador dentro do escopo proposto, foram avaliadas várias versões da
rede, no intuito de se estudar o desempenho da mesma, de forma a determinar parâmetros
importantes como a taxa de aprendizagem, o otimizador usado, entre outros, onde foram
avaliados o desempenho da RNA através da análise das curvas de acurácia e perda da
rede. A capacidade de generalização foi aferida pela submissão de espectros levantados
experimentalmente por um aparato composto basicamente de um detector NaI (Tl), um
analisador multicanal, o software Maestro para aquisição dos dados experimentais, que
foram obtidos com o uso de fontes radioativas seladas de 60Co, 137Cs, 152Eu e 133Ba. Foram
selecionadas seis versões da RNA capazes de resolver o problema proposto, com acurácia
maior que 95 %. O primeiro modelo selecionado foi obtido após a definição experimental
da taxa de aprendizagem, momento e otimizador a serem utilizados pela RNA. Esse
modelo classificou os espectros dos radionuclídeos levantados de forma experimental
apontando uma probabilidade de pertinência de 99,84 % em relação ao 60Co, de 97,45 %
em relação ao 137Cs, de 96,19 % em relação ao 152Eu e de 99,99 % em relação ao 133Ba.
O segundo modelo selecionado, que consistiu em uma RNA idêntica ao primeiro modelo,
com aplicação da parada precoce (early-stopping) chegou a classificação dos mesmos
nuclídeos com apontamentos de probabilidades de 99,54 %, 99,45 %, 98,78% e 98,86%
respectivamente. Já o terceiro modelo selecionado, decorrente do aumento experimental
do lote de treinamento, apontou as probabilidades de 100,00 %, 98,97 %, 99,15 % e
99.99 % para a classificação do 60Co, 137Cs, 152Eu e 133Ba, respectivamente. O quarto
modelo, que consistiu da aplicação do early-stopping do terceiro modelo, apresentou as
probabilidades para os mesmos radionuclídeos como sendo respectivamente de 93,58 %,
99,21 %, 97,36 % e 99,66 %. O quinto modelo foi obtido através da inclusão de uma
segunda camada oculta na rede, o que ocasionou na classificação dos radionuclídeos 60Co,
137Cs, 152Eu e 133Ba com as probabilidades respectivas de 99,87 %, 99,99 %, 99,98 % e
99,99 %. O sexto modelo, derivado da aplicação da parada precoce do treinamento, obteve
as probabilidades de 99,39 %, 99,58 %, 94,40 % e 95,83 %, respectivamente. Dessa forma,
todos os modelos selecionados foram capazes de classificar perfeitamente os radionuclídeos
obtidos experimentalmente.
Palavras-chave: espectroscopia. detecção e instrumentação nuclear. redes neurais artifi-
ciais. redes neurais. radiação. radiação ionizante.
ABSTRACT
The present study seeks to develop a classifier of radioactive sources based on gamma
spectroscopy andartificial intelligence, which makes use of Keras and TensorFlow, both
free and open source technologies. Through these technologies, an artificial neural network
(ANN) was developed, which makes use of supervised machine learning and the backprop-
agation algorithm. The neural network was trained with a set of spectra from simulations
performed by the MCNP5 code. In order to achieve the objective of functioning as a classi-
fier within the proposed scope, several versions of the neural network were evaluated, with
intention of studying its performance, in order to determine important parameters such as a
learning rate, the optimizer used, among others, where RNA performance was evaluated by
analyzing the network accuracy and loss curves. The generalization capacity was assessed
by submitting spectra raised experimentally by an apparatus basically composed of a NaI
(Tl) detector, a multichannel analyzer, the Maestro software for the experimental data
acquisition, which were used with the use of sealed radioactive sources of 60Co, 137Cs,
152I and 133Ba. Six versions of the RNA were selected, capable of solving the proposed
problem, with accuracy greater than 95 %. The first selected model was obtained after the
experimental definition of the learning rate, moment and optimizer to be used by ANN.
This model classified the radionuclide spectra collected in an experimental way, pointing
to a membership probability of 99.84 % in relation to the 60Co, of 97.45 % in relation
to the 137Cs, 96.19 % compared to 152Eu and 99.99 % compared to 133Ba. The second
selected model, which consisted of an ANN identical to the first model, with application
of early-stop reached the classification of the same nuclides with probabilities of 99.54 %,
99.45 %, 98.78% and 98.86% respectively. The third model selected, resulting from the
experimental increase of the training batch size, pointed the probabilities of 100.00 %,
98.97 %, 99.15 % and 99.99 % for the classification of the 60Co, 137Cs, 152Eu and 133Ba,
respectively. The fourth model, which consisted of applying the early-stopping of the third
model, presented the probabilities for the same nuclides as being respectively 93.58 %,
99.21 %, 97.36 % and 99 .66 %. The fifth model was obtained through the inclusion of a
second hidden layer in the network, which resulted in the classification of the radionuclides
60Co, 137Cs, 152Eu and 133Ba with the respective odds of 99.87 %, 99.99 %, 99.98 % and
99.99 %. The sixth model, derived from the application of early-stopping training, obtained
probabilities of 99.39 %, 99.58 %, 94.40 % and 95.83 %, respectively. Thus, all selected
models were able to perfectly classify the radionuclides obtained experimentally.
Keywords: spectroscopy. nuclear detection and instrumentation. artificial neural networks.
neural networks. radiation. ionizing radiation.
LISTA DE ILUSTRAÇÕES
Figura 1 – Detector do tipo cintilador, NaI(Tl) de 3 x 3 polegadas . . . . . . . . . 20
Figura 2 – Bandas de energia permitidas e proibidas de um cristal (1) . . . . . . . 22
Figura 3 – Visão esquemática do funcionamento de uma válvula fotomultiplicadora
(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 4 – Espectro em energia para um detector ideal . . . . . . . . . . . . . . . 26
Figura 5 – Espectro em energia com os efeitos estatísticos atuando sobre o detector.
Esses efeitos ampliam a largura do pico, diminuindo a altura do pulso,
e tornam o espectro do efeito Compton contínuo até o fotopico. A linha
tracejada representa o que teria sido registrado na ausência do efeito
Compton (1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Figura 6 – Espectro integral (área hachurada) x espectro diferencial, em azul (1) . 28
Figura 7 – Estrutura básica de um arquivo de entrada do MCNP (3) . . . . . . . 30
Figura 8 – Representação esquemática do processo de simulação pelo MCNP . . . 31
Figura 9 – Superfícies suportadas pelo MCNP (3) . . . . . . . . . . . . . . . . . . 32
Figura 10 – a) definição das superfícies que compõem uma célula (os planos foram
representados como finitos para permitir a visualização); b) Célula
contendo um cilindro resultante das superfícies definidas em (a) . . . . 32
Figura 11 – Trecho do arquivo de entrada no MCNP contendo os cartões de células
e de superfícies que definem a geometria exemplificada pela figura 10 . 33
Figura 12 – Trecho do arquivo de entrada no MCNP contendo exemplos de parte
dos cartões de dados: a) definição do tipo de partícula a ser utilizada
na simulação; b) definição de composição química de material; e c)
simplificações físicas do modelo . . . . . . . . . . . . . . . . . . . . . . 33
Figura 13 – Trecho do arquivo de entrada no MCNP contendo exemplos de parte
dos cartões de dados, referentes à configuração da fonte de radiação. . . 34
Figura 14 – Trecho do arquivo de entrada no MCNP contendo exemplos de parte
dos cartões de dados: a) Tally a ser utilizada na simulação; b) definição
dos parâmetros da função GEB; e c) total de número de histórias a
serem computadas na simulação. . . . . . . . . . . . . . . . . . . . . . 34
Figura 15 – Modelo do perceptron de Rosenblatt (4) . . . . . . . . . . . . . . . . . 36
Figura 16 – Função degrau de ativação (4) . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 17 – Função de ativação logística (4) . . . . . . . . . . . . . . . . . . . . . . 38
Figura 18 – Classificação (4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Figura 19 – Rede MLP com duas camadas ocultas (4) . . . . . . . . . . . . . . . . 40
Figura 20 – Fluxo de propagação dos sinais de função e erro em uma MLP (4) . . . 41
Figura 21 – Gráfico de sinal detalhando as saídas de um neurônio j (4) . . . . . . . 42
Figura 22 – Composição da pilha de software / hardware do Keras (adaptado de (5)) 45
Figura 23 – Trecho da implementação de uma rede neural, com 128 neurônios na
primeira camada e 24 neurônios na camada de saída, usando o Keras . 46
Figura 24 – Exemplo de codificação de rede neural usando o Keras, com a definição
da função de ativação complementar da gauciana . . . . . . . . . . . . 47
Figura 25 – Exemplo de duas distribuições de probabilidade representadas por
histogramas (6) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 26 – Exemplo de função de perda com um parâmetro de aprendizagem,
apresentando dois pontos de mínimo, um mínimo local e o mínimo
global (adaptado de (5)) . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Figura 27 – Comparação entre taxas de aprendizagem. em (a), uma taxa ideal
para um problema hipotético, conflui para o mínimo local a um custo
computacional ideal. (b) representa uma taxa de aprendizagem baixa,
que realiza a convergência para o mínimo local, porém a um, custo mais
alto e (c) representa uma taxa de aprendizagem relativamente alta, que
não converge para o mínimo. (adaptado de (5)) . . . . . . . . . . . . . 51
Figura 28 – Exemplo de superfície de função de perda com dois parâmetro de
aprendizagem (2D) (adaptado de (5)) . . . . . . . . . . . . . . . . . . . 51
Figura 29 – Exemplo de compilação de modelo de RNA com a determinação do
otimizador, função perda e métrica estabelecida . . . . . . . . . . . . . 53
Figura 30 – Exemplo de integração dos conjuntos de dados de treinamento e testes
ao modelo de RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 31 – a) Exemplo de trecho de código com a chamada ao método model.predict;
b) Exemplo de vetor com a distribuição de probabilidade resultante da
classificação de um dado de produção para um problema de três classes
pela RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Figura 32 – Comparação entre Adam e outros otimizadores utilizando MLP (7) . . 56
Figura 33 – Regra da parada precoce, ou Early-stopping . . . . . . . . . . . . . . . 57
Figura 34 – Trecho de código com a codificação do Early-stopping no Keras . . . . 58
Figura 35 – Padrão de nomenclatura dasredes . . . . . . . . . . . . . . . . . . . . 64
Figura 36 – Exemplo das funções de perda e acurácia . . . . . . . . . . . . . . . . . 65
Figura 37 – Fluxo de atividades da primeira fase . . . . . . . . . . . . . . . . . . . 66
Figura 38 – Fontes radioativas utilizadas no levantamento experimental. . . . . . . 67
Figura 39 – Equipamentos utilizados no levantamento experimental. . . . . . . . . 67
Figura 40 – Aparato experimental com o detector NaI(Tl) . . . . . . . . . . . . . . 68
Figura 41 – Diagrama esquemático do aparato experimental e instrumentação. . . . 69
Figura 42 – Mapeamento dos planos da geometria do aparato experimental com o
uso do Blender para uso no arquivo de entrada do MCNP5 . . . . . . . 70
Figura 43 – Recursos do Blender utilizados para auxiliar na definição da geometria
da simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Figura 44 – Simulação da geometria composta com o detector NaI(Tl) . . . . . . . 71
Figura 45 – a) Vista frontal esquemática da geometria do aparato; b) Representação
dos materiais utilizados no aparato . . . . . . . . . . . . . . . . . . . . 72
Figura 46 – a) Vista superior esquemática da geometria do aparato; b) Representa-
ção dos materiais utilizados no aparato . . . . . . . . . . . . . . . . . . 72
Figura 47 – Composição química dos materiais utilizados, incluindo sua proporção
em massa e densidade. . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Figura 48 – Fluxo de atividades da segunda fase . . . . . . . . . . . . . . . . . . . 75
Figura 49 – Curva de calibração ajustada . . . . . . . . . . . . . . . . . . . . . . . 78
Figura 50 – Comparação entre espectros experimental e simulado para o Co-60 com
o detector NaI(Tl) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Figura 51 – Comparação entre espectros experimental e simulado para o Cs-137
com o detector NaI(Tl) . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Figura 52 – Comparação entre espectros experimental e simulado para o Eu-152
com o detector NaI(Tl) . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
Figura 53 – Curvas de acurácia e decaimento da função de perda da MLP RNA3C3N1P 80
Figura 54 – Curvas de acurácia e decaimento da função de perda da MLP RNA3C3N2P 81
Figura 55 – Curvas de acurácia e decaimento da função de perda da MLP RNA3C24N1P 82
Figura 56 – Curvas de acurácia e decaimento da função de perda da MLP RNA3C24N2P 83
Figura 57 – Comparação no uso de diferentes momentos para a taxa de aprendizagem
de 10−2 na RNA3C24N2P . . . . . . . . . . . . . . . . . . . . . . . . . 84
Figura 58 – Comparação no uso de diferentes otimizadores para a MLP RNA3C24N2P 85
Figura 59 – Curvas de acurácia e decaimento da função de perda da MLP RNA3C24N3P 86
Figura 60 – Comparativo entre as curvas das funções perda de treinamento e testes
da MLP RNA3C24N3P . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Figura 61 – Curvas de acurácia e decaimento da função de perda da MLP RNA3C24N4P 88
Figura 62 – Comparativo entre as curvas das funções perda de treinamento e testes
da MLP RNA3C24N4P . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Figura 63 – Curvas de acurácia e decaimento da função de perda da MLP RNA4C24N5P 90
Figura 64 – Comparativo entre as curvas das funções perda de treinamento e testes
da MLP RNA4C24N5P . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Figura 65 – Diagrama esquemático sugerindo um sistema eletrônico composto por
uma placa Arduino, uma placa Raspberry pi, a fim de substituir o
módulo MCB e o software Maestro. . . . . . . . . . . . . . . . . . . . . 94
LISTA DE QUADROS
Quadro 1 – Informações sobre as fontes, sendo as atividades dadas em kBq . . . . 67
Quadro 2 – Informações sobre as fontes . . . . . . . . . . . . . . . . . . . . . . . . 76
Quadro 3 – Separação em classes da rede RNA3C3N1P . . . . . . . . . . . . . . . 80
Quadro 4 – Separação em classes da rede RNA3C3N2P . . . . . . . . . . . . . . . 81
Quadro 5 – Separação em classes da rede RNA3C24N1P . . . . . . . . . . . . . . 83
Quadro 6 – Separação em classes da rede RNA3C24N2P . . . . . . . . . . . . . . 84
Quadro 7 – Separação em classes da rede RNA3C24N3P . . . . . . . . . . . . . . 85
Quadro 8 – Estudo comparativo usando early-stopping com diferentes valores do
parâmetro patience para a RNA3C24N3P . . . . . . . . . . . . . . . . 87
Quadro 9 – Separação em classes da rede RNA3C24N4P . . . . . . . . . . . . . . 87
Quadro 10 – Estudo comparativo usando early-stopping com diferentes valores do
parâmetro patience para a RNA3C24N4P . . . . . . . . . . . . . . . . 89
Quadro 11 – Separação em classes da rede RNA4C24N5P . . . . . . . . . . . . . . 89
Quadro 12 – Estudo comparativo usando early-stopping com diferentes valores do
parâmetro patience para a RNA4C24N5P . . . . . . . . . . . . . . . . 91
Quadro 13 – Resultados de classificação da submissão do 133Ba aos modelos de
classificação viáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Quadro 14 – Erro relativo das simulações do Am-241 . . . . . . . . . . . . . . . . . 114
Quadro 15 – Erro relativo das simulações do Ba-133 . . . . . . . . . . . . . . . . . 115
Quadro 16 – Erro relativo das simulações do Ba-140 . . . . . . . . . . . . . . . . . 116
Quadro 17 – Erro relativo das simulações do Cf-252 . . . . . . . . . . . . . . . . . . 117
Quadro 18 – Erro relativo das simulações do Co-57 . . . . . . . . . . . . . . . . . . 118
Quadro 19 – Erro relativo das simulações do Co-60 . . . . . . . . . . . . . . . . . . 119
Quadro 20 – Erro relativo das simulações do Cs-137 . . . . . . . . . . . . . . . . . 120
Quadro 21 – Erro relativo das simulações do Eu-152 . . . . . . . . . . . . . . . . . 121
Quadro 22 – Erro relativo das simulações do I-131 . . . . . . . . . . . . . . . . . . 122
Quadro 23 – Erro relativo das simulações do I-135 . . . . . . . . . . . . . . . . . . 123
Quadro 24 – Erro relativo das simulações do Ir-192 . . . . . . . . . . . . . . . . . . 124
Quadro 25 – Erro relativo das simulações do K-40 . . . . . . . . . . . . . . . . . . . 125
Quadro 26 – Erro relativo das simulações do Kr-85m . . . . . . . . . . . . . . . . . 126
Quadro 27 – Erro relativo das simulações do Mn-54 . . . . . . . . . . . . . . . . . . 127
Quadro 28 – Erro relativo das simulações do Po-210 . . . . . . . . . . . . . . . . . 128
Quadro 29 – Erro relativo das simulações do Pu-238 . . . . . . . . . . . . . . . . . 129
Quadro 30 – Erro relativo das simulações do Ra-226 . . . . . . . . . . . . . . . . . 130
Quadro 31 – Erro relativo das simulações do Te-132 . . . . . . . . . . . . . . . . . . 131
Quadro 32 – Erro relativo das simulações do Th-132 . . . . . . . . . . . . . . . . . 132
Quadro 33 – Erro relativo das simulações do U-235 . . . . . . . . . . . . . . . . . . 133
Quadro 34 – Erro relativo das simulações do U-238 . . . . . . . . . . . . . . . . . . 134
Quadro 35 – Erro relativo das simulações do Xe-133 . . . . . . . . . . . . . . . . . 135
Quadro 36 – Erro relativo das simulações do Xe-133m . . . . . . . . . . . . . . . . 136
Quadro 37 – Erro relativo das simulações do Xe-135 . . . . . . . . . . . . . . . . . 137
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2 OBJETIVO GERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 OBJETIVOS ESPECÍFICOS . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4 MOTIVAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5 JUSTIFICATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . . 19
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 20
2.1 DETECTOR NAI(TL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 FUNCIONAMENTO DO CINTILADOR . . . . . . . . . . . . . . . . . . . . 21
2.1.2 CARACTERÍSTICAS PRINCIPAIS DOS CINTILADORES DE NAI . . . . . . . 22
2.1.3 VÁLVULAFOTOMULTIPLICADORA . . . . . . . . . . . . . . . . . . . . . 23
2.2 ESPECTROSCOPIA GAMA . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 CALIBRAÇÃO DE SISTEMAS DE CONTAGEM . . . . . . . . . . . . . . . . 28
2.3 SIMULAÇÃO COM MCNP . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1 BLOCOS DE CARTÕES DE SUPERFÍCIES . . . . . . . . . . . . . . . . . . 30
2.3.2 BLOCOS DE CARTÕES DE CÉLULAS . . . . . . . . . . . . . . . . . . . . 31
2.3.3 BLOCOS DE CARTÕES DE DADOS . . . . . . . . . . . . . . . . . . . . . 31
2.4 REDES NEURAIS ARTIFICIAIS . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.1 PERCEPTRON DE ROSENBLATT . . . . . . . . . . . . . . . . . . . . . . 36
2.4.2 APRENDIZADO DE MÁQUINA . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.3 O MODELO MULTILAYER PERCEPTRON E O ALGORITMO DE RETROPRO-
PAGAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.4 CONSTRUÇÃO DE REDES NEURAIS ARTIFICIAIS COM O KERAS . . . . . 43
2.4.5 FUNÇÕES DE ATIVAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.6 FUNÇÃO PERDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4.7 ENTROPIA CRUZADA CATEGÓRICA . . . . . . . . . . . . . . . . . . . . . 48
2.4.8 GRADIENTE DESCENDENTE ESTOCÁSTICO . . . . . . . . . . . . . . . . 49
2.4.9 CODIFICAÇÃO DA FUNÇÃO PERDA E OTIMIZADOR NO KERAS . . . . . . 52
2.4.10 OBTENDO A CLASSIFICAÇÃO DOS DADOS DE PRODUÇÃO . . . . . . . . 53
2.4.11 OVERFITTING E REGULARIZAÇÃO . . . . . . . . . . . . . . . . . . . . . 54
2.4.12 COMPARAÇÃO ENTRE OTIMIZADORES . . . . . . . . . . . . . . . . . . . 55
2.4.13 EARLY-STOPPING, OU INTERRUPÇÃO PRECOCE DO TREINAMENTO . . . 56
2.5 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . 57
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1 NOMENCLATURA DAS RNA . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2 MÉTRICAS UTILIZADAS . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3 PRIMEIRA FASE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.3.1 APARATO EXPERIMENTAL E INSTRUMENTAÇÃO . . . . . . . . . . . . . 66
3.3.2 SIMULAÇÃO COM O MCNP . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.3 RECONHECIMENTO DE PADRÕES UTILIZANDO REDES NEURAIS . . . . . 73
3.4 SEGUNDA FASE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4 RESULTADOS E ANÁLISE . . . . . . . . . . . . . . . . . . . . . . . 77
4.1 PRIMEIRA FASE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1.1 CALIBRAÇÃO EM ENERGIA . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1.2 SIMULAÇÃO COM O MCNP . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1.3 RECONHECIMENTO DE PADRÕES UTILIZANDO REDES NEURAIS . . . . . 78
4.2 SEGUNDA FASE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 92
5.0.1 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.0.2 SUGESTÕES PARA FUTUROS TRABALHOS . . . . . . . . . . . . . . . . . 93
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
APÊNDICE A – CÓDIGO FONTE DAS RNA UTILIZADAS NO
ESTUDO . . . . . . . . . . . . . . . . . . . . . . . 100
APÊNDICE B – ESPECTROS SIMULADOS COM O DETECTOR
NAI(TL) . . . . . . . . . . . . . . . . . . . . . . . 114
16
1 INTRODUÇÃO
A independência tecnológica tem caráter estratégico no posicionamento de um
país frente à comunidade internacional. Prova disso, em linhas gerais, foi o gargalo que
observamos na produção de vacinas contra a COVID-19, no início de 2021, pois a indústria
nacional depende de insumos de alto valor agregado produzido por outros países. Esse fato
trás à luz da observação o fato de que, em situações de crise mundial, depender de nações
estrangeiras pode culminar no fracasso do atendimento a demanda nacional e torna o país
dependente.
Sob essa perspectiva, o desenvolvimento da indústria de defesa é sem dúvida um
objetivo que merece ser perseguido por países que pretendem alcançar independência
tecnológica. O próprio Sistema Militar de Catalogação, o SISMICAT, criado para apoiar o
desenvolvimento das atividades de catalogação no âmbito do gerenciamento logístico do
Ministério da Defesa, possui um órgão de assessoramento que tem como uma das finalidades
a realização de estudos objetivando o desenvolvimento de atividades de nacionalização
referentes aos itens de interesse das Forças Armadas. Além disso, o Ministério da Defesa
também atua no fortalecimento da Base Industrial de Defesa (BID), o que mostra o
interesse do país de adquirir autonomia em tecnologias estratégicas, tornando o Brasil
menos dependente do mercado internacional.
Por sua vez, o mercado internacional oferece equipamentos de detecção que possuem
como funcionalidade a classificação de radionuclídeos, item de interesse das Forças Armadas
Brasileiras no que tange às atividades de Defesa Química Biológica Radiológica e Nuclear
(DQBRN), mais especificamente Defesa Radiológica e Nuclear(DRN). Contudo, adquirir a
solução pronta não garante transferência de tecnologia, nem detalhes sobre o projeto dos
algoritmos de classificação utilizados nesses detectores.
Desenvolver um classificador de radionuclídeos baseado em software, é uma parte
importante do projeto desse tipo de sistema de detecção, que envolve também outros
sistemas integrados, como o detector e a eletrônica embarcada. Contudo, é um passo
importante na direção da obtenção da autonomia no projeto desse tipo de equipamento.
Por outro lado, é notável na literatura aplicações de Redes Neurais Artificial
(RNA) atuando como classificadores em aplicações diversas, inclusive na classificação de
radionuclídeos. Trata-se de um modelo matemático computacional inspirado na dinâmica
de aprendizagem do cérebro biológico, que é baseado em uma rede de células nervosas
(neurônios) e nas conexões que elas formam entre si, denominadas sinapses. Da mesma
forma, as RNA são formadas por interconexões entre neurônios artificiais, denominados
perceptrons. Esse modelo estabelece pesos numéricos entre essas conexões (sinapses), a fim
Capítulo 1. Introdução 17
de prover aprendizagem à rede através da atualização dos valores desses pesos, de forma
análoga ao sistema de aprendizagem do cérebro biológico.
Um radionuclídeo pode ser caracterizado pelo espectro de suas emissões gama,
que é formado a partir da contagem de cada energia de emissão gama proveniente de um
dado radionuclídeo, e ordenação dessas contagens por energia emitida. Dessa forma, o
espectro pode ser representado por um gráfico onde o eixo das abcissas representa a escala
de energia das emissões gama (em keV) e o eixo das ordenadas representa a contagem
de cada faixa de energia obtida pelo sistema de detecção. Contudo, para que a geração
desse espectro seja realizada, é preciso de um sistema de detecção que possua um detector
capaz que transformar a energia da radiação incidente em um pulso elétrico de magnitude
proporcional a essa energia.
O presente estudo descreve a utilização de um aparato experimental de detecção,
composto basicamente por um detector do tipo NaI(Tl) e sua instrumentação eletrônica
necessária. O ponto chave dessa instrumentação é o analisador multicanal, que converte os
pulsos elétricos analógicos em sinais digitais, e promove a discretização desses sinais em
canais, provendo dessa forma, a contagem de pulsos incidentes por canal. A computação dos
dados provenientes dessa contagem é feita pelo software Maestro, capaz de armazenar um
espectro obtido de forma experimental em um arquivo, que servirá para o processamento
posterior do classificador, baseado em inteligência artificial.
Esse trabalho lida com uma abordagem de inteligência artificial denominada
aprendizagem supervisionada de máquina. Isso significa que primeiramente a RNA deverá
ser treinada com espectros conhecidos, para que possa prover a atualização de seus pesos
sinápticos a fim de se tornar assertiva. Após o treinamento, em linhas gerais,a rede estará
apta a classificar radionuclídeos, dentro do contexto de seu treinamento. Neste estudo,
o treinamento foi realizado com dados de simulação computacional, obtidos através da
reprodução do aparato experimental dentro do ambiente de modelagem do código MCNP5,
que sendo de propósito geral, permite a reprodução de qualquer geometria experimental,
simulando o transporte de partículas, com a utilização do Método de Monte Carlo.
Desse modo, a metodologia do estudo pode ser sintetizada pelo uso de RNA e
Aprendizagem Supervisionada de Máquina para a classificação de radionuclídeos baseados
em sua espectroscopia gama, através do uso de simulação para treinamento e testes do
classificador. Posteriormente, o classificador recebe dados de espectros levantados através
do aparato experimental descrito, ou seja, dados que a RNA não conheceu durante o
treinamento, para avaliação dos resultados de classificação obtidos.
Capítulo 1. Introdução 18
1.1 Objetivos
1.2 Objetivo geral
Desenvolver um classificador de fontes radioativas baseado em inteligência artificial,
com o uso de Redes Neurais Artificiais e aprendizagem supervisionada de máquina.
1.3 Objetivos específicos
Os objetivos específicos deste estudo são: (i) Implementar uma técnica de classifica-
ção automatizada de fontes radioativas baseadas em sua espetroscopia gama; (ii) Entender
o funcionamento de classificadores disponíveis no mercado que dispõem de funcionalidade
similar; (iii) Desenvolver um classificador baseado em Redes Neurais Artificiais, cujo o
modelo possa servir como ponto de partida para em um projeto nacional.
1.4 Motivação
Possibilidade de contribuir com o desenvolvimento de um classificador automatizado
de fontes radioativas, que possa ser usado em aplicações de Defesa Radiológica e Nuclear
(DRN);
1.5 Justificativa
O desenvolvimento tecnológico de um país tem um caráter estratégico com relação
à independência frente a nações estrangeiras. Em situações de crise mundial, a dependência
de outras nações para o fornecimento de equipamentos de alto valor agregado pode se
tornar complexo frente a questões diplomáticas e geopolíticas, em especial para países
em desenvolvimento que não detém poder econômico e militar que possa se comparar a
grandes potências. Sob essa ótica, o desenvolvimento da indústria de defesa é um objetivo
importante a ser perseguido por países que pretendem se tornar autossuficientes do ponto
de vista tecnológico. No Brasil, o Sistema Militar de Catalogação, o SISMICAT, foi criado
para apoiar o desenvolvimento das atividades de catalogação no âmbito do gerenciamento
logístico do Ministério da Defesa, possuindo um órgão de assessoramento dedicado ao
estudo de soluções para nacionalização de itens de interesse das forças armadas. Soma-se
a isso a atuação do Ministério da Defesa no fortalecimento da Base Industrial de Defesa
(BID), que objetiva tornar o país mais independente do mercado internacional. Um exemplo
de dependência do mercado internacional dentro da área nuclear é a aquisição de detectores
de radiação gama, principalmente os capazes de identificar amostras de radionuclídeos, para
utilização em aplicações de Defesa Química Biológica Radiológica e Nuclear (DQBRN),
Capítulo 1. Introdução 19
ou mais especificamente Defesa Radiológica e Nuclear(DRN). O mercado internacional
provê a oferta desse tipo de equipamento, mas o simples fato de adquirir não transfere a
tecnologia utilizada para realizar a classificação dos espectros. Dessa forma, entender o
processo de classificação e reconhecimento de padrões, envolvido no objetivo geral deste
estudo, vai ao encontro do processo de se estabelecer uma arquitetura de Rede Neural
Artificial que melhor resolva o problema de classificação proposto.
1.6 Organização da dissertação
O primeiro capítulo consiste em uma introdução ao estudo, onde foram abordados,
em linhas gerais, a contextualização e conceitos básicos envolvidos no trabalho, além da
exposição dos objetivos geral e específicos, a motivação e justificativa do estudo.
O segundo capítulo expõe a fundamentação teórica utilizada para estudo, norteando
sua evolução, análise dos resultados obtidos e discussões. O capítulo também apresenta
uma revisão bibliográfica, onde sintetiza trabalhos relacionados a este estudo.
O terceiro capítulo descreve a metodologia do experimento, seu encadeamento
lógico estabelecido para a perseguição dos objetivos do trabalho.
O quarto capítulo apresenta os resultados obtidos pelo desenvolvimento do classifi-
cador, incluindo a análise desses resultados.
O quinto capítulo apresenta as conclusões, considerações finais e sugestões para
estudos futuros derivados deste trabalho.
Nos apêndices são apresentadas o código fonte das versões de implementação do
classificador, e os espectros obtidos através de simulação computacional.
20
2 FUNDAMENTAÇÃO TEÓRICA
2.1 Detector NaI(Tl)
O funcionamento básico de um detector do tipo cintilador inorgânico, como o
detector de Iodeto de Sódio ativado com Tálio (NaI(Tl)), consiste na conversão da energia
cinética de fótons incidentes, no chamado volume ativo do detector em luz que pode ser
detectada e transformada em sinais elétricos. Segundo KNOLL (2), um detector do tipo
cintilador ideal deve, além de transformar a energia da radiação incidente em luz detectável,
com alta eficiência, fazer com que essa conversão seja linear, ou seja, que a luz gerada seja
proporcional à energia da radiação incidente, em uma faixa tão ampla quanto possível.
Ainda segundo KNOLL (2), outras características desejáveis em um cintilador ideal seria
que o meio material utilizado pelo detector seja transparente ao comprimento de onda da
luz emitida, além de ter boa qualidade e possibilitar a fabricação em tamanhos de interesse
prático, tendo um índice de refração próximo ao do vidro para permitir o acoplamento
eficiente do material cintilador com um tubo fotomultiplicador ou outro sensor de luz. Para
completar o rol de características ideais para um cintilador, este deve ter um tempo curto
de decaimento da luminescência induzida, para que a geração de pulsos de sinal seja rápida.
Em termos práticos, não existem materiais que atendem a todas essas características de
forma simultânea, o que condiciona a escolha do tipo de detector à aplicação em questão.
Detectores inorgânicos constituídos de cristais inorgânicos de halogênios alcalinos, como o
iodeto de sódio, é preferido para aplicações em espectroscopia gama, devido ao alto valor
do número atômico (Z) dos constituintes e a alta densidade de cristais inorgânicos (2). A
figura 1 mostra um modelo de detector do tipo cintilador, NaI(Tl) de 3 x 3 polegadas.
Figura 1 – Detector do tipo cintilador, NaI(Tl) de 3 x 3 polegadas
Capítulo 2. Fundamentação teórica 21
2.1.1 Funcionamento do cintilador
Para o entendimento do mecanismo de fluorescência dos cintiladores, é necessário
entender as faixas de energia permitidas e proibidas para elétrons dentro da estrutura
cristalina. Dessa forma, os estados de energia das camadas eletrônicas de um átomo possuem
uma distribuição discreta, e quando trata-se de um cristal, esses estados permitidos se
mostram ampliados em faixas, ou bandas. A banda de valência é a faixa de energia superior
permitida de um cristal no estado fundamental. Acima dessa faixa permitida, existe a
chamada banda de condução, onde o elétron que chega a essa banda pode se mover
livremente ao longo da rede cristalina. O elétron que é levado à banda de condução, deixa
uma vacância na camada de valência, chamada de buraco, que também pode se mover (1).
Nem sempre um elétron excitado recebe energia suficiente para saltar para a banda
de condução, ficando eletrostaticamente ligado ao buraco da camada de valência. A esse
estado do par elétron-buraco é dado o nome de exciton. Além disso, podem ser criados
estados de energia entre as bandas de valência e condução, por imperfeições ou impurezas
na rede cristalina. O Tálio, por exemplo, cria importantes estados excitados, sendo por
isso denominado ativador,podendo enquanto átomo, existir no estado fundamental ou em
estados excitados. Esta excitação pode ser resultado da absorção de fótons, da captura de
um exciton, ou da captura sucessiva de um elétron e de um buraco. O átomo excitado do
ativador, se permitido, realiza a transição para o estado fundamental, resultando na emissão
de um fóton, que se tiver comprimento de onda do espectro da luz visível, contribuirá para
a cintilação do sistema (1). A figura 2 ilustra as bandas de energia permitidas e proibidas
de um cristal.
Dessa forma, uma partícula carregada que incide no meio de detecção, fornecerá
energia a uma certa quantidade de elétrons de forma que os mesmos cheguem à banda de
condução da rede cristalina, formando portanto, um certo número de pares elétron-buracos.
Nesse cenário, o buraco, positivo, migrará rapidamente para um ponto na rede onde
encontra-se o ativador e ionizá-lo. Em paralelo a esse fenômeno, o elétron do par, que está
na banda de condução, está livre para migrar através do cristal até encontrar esse ativador
ionizado. Se o elétron encontrar o ativador ionizado, criará uma configuração neutra que
pode ter seu próprio conjunto de estados excitados de energia. Se o estado de energia
formado permite uma transição para o estado fundamental, sua desexcitação ocorrerá
muito rapidamente e com alta probabilidade de emissão de um fóton correspondente. É
desejável que esse fóton, gerado pela transição de estados, tenha comprimento de onda na
faixa da luz visível, o que pode ser conseguido com a correta escolha do ativador (2).
Sendo assim o ativador nada mais é do que uma impureza adicionada à rede
cristalina do cintilador, com o objetivo de aumentar a probabilidade da emissão de fótons
de luz visível durante o processo de desexcitação. Os locais que contém os átomos do
ativador são denominados centros de luminescência ou centros de recombinação, tendo
Capítulo 2. Fundamentação teórica 22
Figura 2 – Bandas de energia permitidas e proibidas de um cristal (1)
sua estrutura de energia na rede cristalina como determinante no espectro de emissão do
cintilador (2).
2.1.2 Características principais dos cintiladores de NaI
Entre as características principais, estão o fato de poderem ser produzidos em
cristais únicos de até 0, 75m de diâmetro, com espessura de 0, 25m. Possui alta densidade
(3, 67x103kg/m3), e uma alta eficiência, para detecção de raios gama (devido ao Z elevado).
O espectro de emissão desse detector atinge um pico de comprimento de onda da ordem
de 410nm, sendo a mais alta entre os detectores cintiladores inorgânicos. Dentre as
características indesejáveis estão a fragilidade do cristal, sendo quebradiço e sensível
a choques térmicos e gradiente de temperatura, além de ser altamente higroscópico,
devendo ser mantido encapsulado. Além disso possui uma pequena quantidade de potássio,
responsável pela geração de radiação de background por conta do isótopo 40K (1).
Outra característica importante desse tipo de detector é o tempo de decaimento
dominante do pulso de cintilação, que nesse caso é da ordem de 230 ns, considerado longo
para algumas aplicações de tempo rápido ou alta taxa de contagem. Essa característica
interfere no desempenho do detector em termos de resolução em energia, em comparação
com outros materiais utilizados como cintiladores em detectores mais modernos, que
oferecem maior rendimento de luz e menor não linearidade nesse rendimento. Essa diferença
de rendimento pode chegar a um fator de 2 ou mais (2).
Capítulo 2. Fundamentação teórica 23
É importante destacar a característica higroscópica do cristal NaI(TI), por se tratar
de um material que se deteriora devido a absorção de água, se exposto à atmosfera por
qualquer período de tempo. Isso deve ser levado em consideração tanto na construção
do detector quanto no encapsulamento para uso, que deve ser feito em um recipiente
hermético para evitar tal absorção (2).
2.1.3 Válvula fotomultiplicadora
A luz proveniente do material cintilador do detector é extremamente fraca, dada
por apenas algumas centenas de fótons, e por si só não viabiliza a formação de um sinal
elétrico para utilização em um sistema de conversão da luz em pulsos elétricos. Um tubo
fotomultiplicador é então usado para converter a luz proveniente do detector em um sinal
com amplitude utilizável, sem uma grande adição de ruído elétrico no sistema (2).
O fotocatodo é responsável por converter o maior número possível de fótons
provenientes do cristal cintilador para elétrons de baixa energia, chamados fotoelétrons.
Como apenas algumas centenas de fotoelétrons são gerados nesse processo, o pulso gerado
ainda não tem uma amplitude conveniente para uso prático (2).
A eficiência do processo de conversão de fótons incidentes em fotoelétrons é dada
pela equação 2.1, onde EQ representa a eficiência quântica, Fe o número de fotoelétrons
emitidos e Fi o número de fótons incidentes.
EQ = Fe
Fi
(2.1)
Dessa forma, a fotomultiplicadora consiste em um tubo fechado à vácuo onde
elétrons provenientes do fotocatodo são acelerados por campos elétricos internos ao tubo,
e se utilizam do fenômeno de emissão de elétrons secundários. Tal processo é similar
à conversão do fóton em fotoelétron, uma vez que a energia depositada pelo elétron
incidente no material do dinodo resulta na emissão de um ou mais elétrons secundários,
dependendo da energia desse elétron incidente (esse processo ocorre de forma análoga
ao efeito fotoelétrico). Os elétrons decorrentes desse processo, inclusive os fotoelétrons
provenientes do fotocatodo, sofrem aceleração do campo elétrico, e passam a compor o feixe
de elétrons acelerado até o próximo dinodo, e assim por diante até a saída do dispositivo,
quando então o feixe de elétrons está sendo composto por de 107 a 1010 elétrons. A carga
resultante é coletada no anodo do tubo fotomultiplicador, e gera um pulso proporcional à
quantidade de fotoelétrons gerados, com uma ampla gama de amplitudes (2). A figura 3
mostra a visão esquemática do funcionamento de uma válvula fotomultiplicadora.
Apesar das válvulas fotomultiplicadoras serem amplamente utilizadas como am-
plificadores de luz do detector, existem aplicações que fazem uso de fotodiodos para tal
fim, uma vez que oferecem vantagens como melhor resolução em energia, menor consumo
Capítulo 2. Fundamentação teórica 24
Figura 3 – Visão esquemática do funcionamento de uma válvula fotomultiplicadora (2)
de energia, além do tamanho mais compacto (2). Existem campos onde a aplicação dos
fotodiodos se torna interessante pelas características descritas, tais como tomografia com-
putadorizada por emissão de pósitrons (PET/CT), além de outras aplicações na área da
física nuclear, como a detecção de partículas carregadas (8).
2.2 Espectroscopia gama
Ondas eletromagnéticas podem ser representadas tanto por ondas como por partí-
culas. Em sua perspectiva de onda, são caracterizadas pela frequência e comprimento de
onda. Já quando o fenômeno eletromagnético é entendido em termos de partículas, é dado
o modelo de partícula sem carga e sem massa, que viaja no espaço na velocidade da luz,
sendo sua energia dada por E = hν, onde h é a Constante de Planck e ν a frequência (1).
A detecção é baseada na perspectiva de partículas, chamadas fótons, que são
invisíveis para o detector de radiação, sendo portanto toda a detecção baseada na interação
desses fótons com outras partículas carregadas presentes no meio físico do detector. Dessa
forma, a detecção de raios gama é completamente dependente da transferência de toda ou
parte da energia do fóton incidente para os elétrons do material absorvedor (2).
Sendo assim, quando o fóton transfere energia a um elétron do material absorvedor,
gera um pulso elétrico com altura proporcional à radiação incidente, através dos três tipos
Capítulo 2. Fundamentação teórica 25
principais de interação com a matéria, o efeito fotoelétrico, o efeito Compton e a produção
de pares (energias maiores ou iguais a 1, 022MeV ) (1).
No efeito fotoelétrico, o fóton incidentede raios gama desaparece, produzindo em
seu lugar um fotoelétron, a partir de uma das camadas de elétrons do átomo absorvedor
com uma energia cinética dada pela energia do fóton incidente hν menos a energia de
ligação do elétron em sua camada original. Para energias típicas de raios gama, o mais
provável é que o fotoelétron seja criado na camada K, para a qual as energias de ligação
variam de alguns keV para materiais de baixo Z a dezenas de keV , no caso de materiais
com maior número atômico (2).
A vacância no átomo de onde o elétron foi retirado provoca raio-x, decorrente
do rearranjo dos orbitais, quando um elétron de uma camada mais externa ocupa essa
vacância. O salto quântico do elétron de camada mais externa emite a diferença das
energias de ligação dos orbitais em forma de radiação eletromagnética. O raio-x gerado,
de baixa energia, causa uma interação fotoelétrica secundária, gerando a ejeção de um
segundo elétron. Uma vez que os eventos primário e secundário de interação sucessiva
ocorrem na ordem de tempo de 10−8s, e que a formação do pulso eletrônico ocorre na
ordem de 10−6s, tanto a energia do fotoelétron dada por E, quanto a energia do raio-x
contribuem para o mesmo pulso, sendo a altura de pulso proporcional a (E−Be)+Be = E,
que é igual à energia do fóton incidente (1).
Já no Espalhamento Compton, apenas parte dessa energia é transferida para um
elétron dentro do volume sensível. O fóton espalhado possui a energia remanescente,
podendo interagir ou não novamente dentro do detector. A probabilidade de interação
secundária depende da espessura e material do detector, da posição da primeira interação
e da energia do fóton espalhado (1).
Os elétrons emitidos a partir do Efeito Compton terão sua energia variando de
zero até a energia máxima Tmax, dada pela equação 2.2, onde mc2 representa a energia
associada à massa de repouso do elétron, 511keV .
Tmax = E −
E
1 + 2E/mc2 (2.2)
Os elétrons resultantes do processo produzirão pulsos de altura entre 0 e o corres-
pondente a Tmax. A figura 4 mostra as contribuições do efeito Compton no espectro de
energia de uma fonte hipotética, em um detector de resolução em energia ideal. A figura 5
ilustra um espectro mais próximo ao encontrado na prática de laboratório, com os efeitos
estatísticos atuando sobre o detector.
Algumas vezes a interação Compton ocorre muito próximo da superfície do detector.
Então há uma alta probabilidade do elétron escapar, e somente a energia do fóton espalhado
ser depositada no detector.
Capítulo 2. Fundamentação teórica 26
Figura 4 – Espectro em energia para um detector ideal
Figura 5 – Espectro em energia com os efeitos estatísticos atuando sobre o detector. Esses
efeitos ampliam a largura do pico, diminuindo a altura do pulso, e tornam o
espectro do efeito Compton contínuo até o fotopico. A linha tracejada representa
o que teria sido registrado na ausência do efeito Compton (1)
Na figura 4, a parte do espectro que se inicia no canal 0 e vai até o canal CE é
denominado de Compton Contínuo. O final da região do Compton Contínuo é denominado
Compton Edge, cuja energia mínima do fóton espalhado é dada pela equação 2.3.
Emin =
E
1 + 2E/mc2 (2.3)
Capítulo 2. Fundamentação teórica 27
As vezes pode ser observado um pico de retroespalhamento, proveniente do envólucro
do detector ou do arranjo experimental ao redor do mesmo, como mostrado na figura 5.
Em energias acima de 1, 022 MeV , existe a probabilidade da ocorrência da formação
de pares, que consiste na interação de fótons acima da energia mencionada com o campo
elétrico nuclear de átomos. Nessa interação o fóton desaparece, dando origem a um par
elétron-pósitron, onde a energia total T do sistema é dada por 2.4, onde a energia mínima
de 1, 022 MeV é transformada nas massas de repouso do par elétron-pósitron (511 keV
para cada), e o restante é transferido na forma energia cinética dessas partículas criadas.
Te− + Te+ = T = (E − 1, 022)MeV (2.4)
A energia cinética do par é depositada no detector, gerando pulsos proporcionais a
T = E−1, 022 MeV . A componente de energia a que se refere os 1, 022 MeV , está portanto
dividida em partes iguais nas massas de repouso das partículas. O pósitron tem um tempo
de vida curto, pois rapidamente se combina com um elétron presente no meio material,
provocando uma reação de aniquilação, dando origem a dois raios gama de 511 keV cada.
O tempo em que essa interação ocorre é menor que o tempo necessário para a formação do
pulso, mas não necessariamente os gamas resultantes da aniquilação contribuem para esse
processo. Além disso, existem duas outras, que são o caso em que ambos os fótons gerados
escapam do detector, produzindo uma altura de pulso proporcional a energia (E − 1, 022
MeV ) e não sendo nula a contribuição do efeito para a formação do pulso, e o caso em que
apenas um dos fótons escapa, sendo dada a contribuição formação do pulso, que é gerado
com altura proporcional a (E − 511 keV ). No caso de ambos os fótons contribuírem para
a formação do pulso, este terá altura proporcional a (E − 1, 022 MeV ) + 1, 022 MeV = E
(1).
Se a produção de pares ocorre no envólucro do detector ou no material do arranjo
experimental próximo ao detector, é possível que somente um dos fótons de aniquilação
entre no detector. Nesse caso, uma altura de pulso proporcional à energia 0, 511 MeV
é formada. Todos os picos comentados, a exceção dos picos nas energias emitidas, são
sobrepostas ao Compton contínuo.
Picos referentes a essas energias nem sempre serão observados nos espectros levan-
tados, pois a detecção depende de vários fatores, como o tamanho do detector, a geometria
e colimação da fonte, e a energia dos raios gamas no espectro (1).
Através do levantamento do espectro é possível caracterizar um dado radionuclídeo,
comparando o espectro obtido com as intensidades de emissão teórica, contidas em uma base
de dados nucleares, como a provida pelo laboratório francês LNHB (Laboratoire National
Henri Becquerel), disponível na rede mundial de computadores (9). A intensidade teórica
de emissão atribuída às partículas emitidas, por um dado radionuclídeo, é representativo
Capítulo 2. Fundamentação teórica 28
do número médio de partículas emitidas por desintegração de um núcleo.
2.2.1 Calibração de sistemas de contagem
Como visto nas seções anteriores, a espectroscopia trata da obtenção da distribuição
de energia que dada fonte radioativa fornece ao sistema de detecção, de acordo com suas
características, fornecendo assim uma assinatura radioativa. Existem basicamente dois
tipos de espectros de energia, o espectro diferencial e o espectro integral.
O espectro integral é dado na forma da função N(E), que representa o número de
partículas com energia superior a E, sendo sua forma integral dada pela equação 2.5.
N(E) =
∫ ∞
E
n(E)dE. (2.5)
O espectro diferencial, mais comumente utilizado, é dado na forma n(E)dE, re-
presentando o número de partículas com energias entre E e E + dE, ou simplesmente
n(E), representando o número de partículas com energia E por canal. A figura 6 ilustra a
diferença entre os dois tipos de espectro (1).
Figura 6 – Espectro integral (área hachurada) x espectro diferencial, em azul (1)
Neste estudo interessa o espectro diferencial, que evidencia a contagem de partículas
por canal de energia. Como já discutido anteriormente, para se obter um espectro em
energia, é preciso que o sistema de detecção gere pulsos elétricos de altura proporcional à
energia da radiação incidente. Dessa forma, é razoável supor que para o espectro obtido
ter confiabilidade, a amplificação eletrônica deve ser a mesma para todas as alturas de
pulso. A energia depositada pela radiação deve também ocorrer de forma constante, ou
seja, a energia depositada da partícula incidente deve ocorrer sempre na mesma fração em
relação a energia total (1).
A calibração em energia estabelece, em linhas gerais, a relação entre energia e canal
de contagem do analisador multicanal, ou seja, busca a equação que descreve a pertinência
Capítulo2. Fundamentação teórica 29
de uma dada energia de partícula com o canal que representa essa energia em particular,
equação esta dada pela equação 2.6, onde C representa o número do canal e a1, a2, a3, ...
são constantes, determinadas através da comparação com espectros de fontes conhecidas
(1).
E = a1 + a2C + a3C2 + ... (2.6)
A maioria dos sistemas de detecção são essencialmente lineares, o que torna a
equação 2.6, simplesmente E = a1 + a2C.
Outros fatores devem ser observados com relação à calibração em energia do
sistema de detecção, tais como a faixa de energia a ser estudada e a determinação das
configurações do pré-amplificador / amplificador utilizados. Isso pode ser feito com o uso
de fontes radioativas de energias conhecidas no sistema de detecção, junto da observação
simultânea da formação do pulso eletrônico em um osciloscópio acoplado ao sistema
(saída do amplificador). Deve-se observar a qualidade da formação do pulso, evitando-se a
saturação do mesmo, garantindo que a altura de pulso fique entre 0 V e 10 V (1).
Essa seção objetivou a caracterização dos fenômenos físicos envolvidos no problema
de classificação de radionuclídeos baseados em espectroscopia gama. Na seção 2.3 será
descrito o funcionamento básico do MCNP, código utilizado para simular esses fenômenos,
e importante para a geração de dados para uso da rede neural artificial utilizada para essa
classificação, que será descrita na seção 2.4.
2.3 Simulação com MCNP
MCNP é um código (software) de simulação de fenômenos relacionados a transporte
de radiação, de uso geral, baseado no Método de Monte Carlo, que pode ser utilizado
em simulações que envolvam nêutrons, fótons e elétrons. Pode ser utilizado em modo de
partícula única ou em combinações como fóton / elétron, nêutron fóton, e assim por diante.
As faixas toleradas de energia das partículas nas simulações são de 10−11 MeV a 20 MeV
para nêutrons, de 1 keV a 100 GeV para fótons e de 1 keV a 1 GeV para elétrons (10).
A simulação é realizada utilizando-se de um processo de amostragem estatística
baseado na seleção de números aleatórios, de forma análoga a um jogo de cassino (advém
daí o nome de Monte Carlo), tratando-se de um estudo numérico. Este estudo consiste
basicamente em gerar uma partícula na fonte, e segui-la ao longo de sua trajetória até
o fim de sua vida, que ocorre, por exemplo, em um fenômeno de absorção ou escape do
volume de controle (10). A esse processo de acompanhamento de uma partícula ao longo
de sua vida é dado o nome de história. Os fenômenos que ocorrem a cada interação da
radiação com o meio material incidente, são definidos através de amostragem aleatória de
Capítulo 2. Fundamentação teórica 30
distribuições de probabilidade, baseadas em dados de transporte contidos nas bibliotecas
utilizadas pelo código.
O uso do MCNP consiste em criar um arquivo de entrada, onde são modeladas
a geometria do experimento, a composição dos materiais utilizados na geometria, assim
como a definição das bibliotecas de seções de choque a serem utilizadas, a fonte de radiação
presente, sua localização e características, o formato de saída dos dados em que se deseja
obter o resultado das simulações, e ainda a indicação de técnicas de redução de variância,
caso sejam utilizadas (10).
O arquivo de entrada é dividido em seções específicas, chamados blocos, que por
sua vez agrupam cartões, que efetivamente representam os comandos dados ao código
para determinar o comportamento das simulações. os blocos que consistem basicamente
blocos de cartões de células, blocos de cartões de superfícies, e blocos de cartões de dados.
A definição da geometria é realizada pelos cartões de células e cartões de superfícies,
enquanto os cartões de dados definem as demais características da simulação, como a
composição química dos materiais utilizados, definições de fonte, bibliotecas de dados
nucleares, definição do formato de saída dos dados e técnicas de redução de variância.
Esses cartões são agrupados em blocos, conforme exemplo dado pela figura 7, e serão
detalhados nas seções subsequentes.
Figura 7 – Estrutura básica de um arquivo de entrada do MCNP (3)
Já a figura 8 ilustra em linhas gerais o processamento do MCNP, representando à
esquerda (figura 8, item a) o arquivo de entrada de dados, ao centro (figura 8, item b), a
geração e processamento das histórias ao longo da simulação, enquanto à direita (figura
8, item c) é apresentado um exemplo de saída da simulação, composto por um espectro
simulado de 137Cs, com o uso da tally F8.
2.3.1 Blocos de cartões de superfícies
O cartão de superfícies contém as entidades geométricas elementares que compõem
a definição da geometria da simulação, como planos, cilindros, cones etc. Essas superfícies
são infinitas, sendo representadas funcionalmente como sendo f(x, y, z) = 0, e especificadas
Capítulo 2. Fundamentação teórica 31
Figura 8 – Representação esquemática do processo de simulação pelo MCNP
no arquivo de entrada de forma referencial ao sistema cartesiano de coordenadas, através
do mnemônico da entidade geométrica e do eixo ao qual é paralelo. Por exemplo, uma
superfície cilíndrica paralela ao eixo Z, com raio de 10 cm, que passa pela origem do
sistema de coordenadas, ou seja, nos pontos x = 0 cm, y = 0 cm e z = 0 cm, seria
representado no arquivo de entrada como 1 C/Z 0 0 10, sendo seu comprimento infinito,
onde o primeiro dígito representa o número identificador da superfície (3). O MCNP
suporta vários tipos de superfícies infinitas, como planos, esferas, cones, dentre outros,
detalhados na figura 9.
2.3.2 Blocos de cartões de células
Células são entidades geométricas compostas através de operações booleanas com
superfícies descritas na seção 2.3.1. O item b da figura 10 mostra um exemplo de célula que
consiste em um cilíndro finito, paralelo ao eixo Z. Esse cilindro é definido pela interseção
das 3 superfícies infinitas, ilustradas no item a da figura 10. Os cartões necessários para
a definição do exemplo no arquivo de entrada do mcnp é mostrado na figura 11. Além
das definições da célula em termos das superfícies que a compõem, deve-se definir o
identificador do material do qual é composto a célula (o material será especificado no bloco
de cartões de dados), sua importância em relação aos tipos de partículas suportados pelo
MCNP (definida por um número entre 0 e 1, que significa a probabilidade de sobrevivência
da partícula na célula (3)).
2.3.3 Blocos de cartões de dados
O bloco de dados basicamente especifica os parâmetros do modelo, que não fazem
parte da definição da geometria, enumerados anteriormente. A figura 12 mostra um exemplo
de bloco de cartões de dados, sendo que o item a da figura 12 representa a definição das
radiações que serão usadas na simulação (p para fótons e e para elétrons). No item b da
figura 12, é feita a definição do material, onde M1 representa o número de identificação
do material especificado pelo usuário, seguido de dois números, o primeiro indicando o
Z do elemento químico (no exemplo, 1000 significa Z = 1, ou hidrogênio e 8000 significa
Capítulo 2. Fundamentação teórica 32
Figura 9 – Superfícies suportadas pelo MCNP (3)
Figura 10 – a) definição das superfícies que compõem uma célula (os planos foram repre-
sentados como finitos para permitir a visualização); b) Célula contendo um
cilindro resultante das superfícies definidas em (a)
Z = 8, ou oxigênio), e o segundo indicando o percentual em massa de cada elemento que
compõem o material.
Capítulo 2. Fundamentação teórica 33
Figura 11 – Trecho do arquivo de entrada no MCNP contendo os cartões de células e de
superfícies que definem a geometria exemplificada pela figura 10
Figura 12 – Trecho do arquivo de entrada no MCNP contendo exemplos de parte dos
cartões de dados: a) definição do tipo de partícula a ser utilizada na simulação;
b) definição de composição química de material; e c) simplificações físicas do
modelo
Já no item c da figura 12, o cartão PHYS impõem simplificações físicas, como
a energia acima da qual deixam deser computados fenômenos como fluorescências de
interações fotoelétricas, efeitos de ligação no espalhamento de fótons e espalhamento
coerente (3).Dessa forma, esse cartão é composto por 6 parâmetros, sendo que o primeiro
determina o tipo de radiação para o qual o cartão é aplicado; o segundo indica a energia
de corte (de 10 MeV no exemplo); o terceiro indica se o efeito Bremsstrahlung está
habilitado (0 se desabilitado, 1 caso contrário); o quarto indica se o espalhamento coerente
está habilitado (0 se desabilitado, 1 caso contrário); o quinto parâmetro indica se serão
consideradas interações fotonucleares (-1 para modo analógico, 0 se desabilitado, 1 para
modo polarizado); e o último parâmetro indica se o alargamento Doppler está habilitado
(0 se desabilitado, 1 caso contrário).
A figura 13 ilustra o cartão sdef, contendo as definições da fonte de radiação O
parâmetro pos é a determinação de posicionamento da fonte, seguido das três coordenadas
de posicionamento no plano cartesiano. O parâmetro cel indica a célula na qual a fonte
está contida. O parâmetro par indica o tipo de partícula (o valor 1 se refere a nêutrons, 2
a fótons e 3 a elétrons). O parâmetro erg determina a energia ou distribuição de energia
da fonte. Se for atribuído um valor numérico, o número representará a energia em MeV .
Já no caso do exemplo da figura 13, o valor d1 define que a energia da fonte se dará
por uma distribuição numérica, e requer pelo menos outros dois cartões complementares,
o SI (Source Information), que define a distribuição de energias da fonte e SP(Source
Probabilies), que define as probabilidades de ocorrência das energias descritas pelo cartão
SI (3).
Capítulo 2. Fundamentação teórica 34
Figura 13 – Trecho do arquivo de entrada no MCNP contendo exemplos de parte dos
cartões de dados, referentes à configuração da fonte de radiação.
A figura 14 exemplifica outros cartões de dados fundamentais para a execução da
simulação, sendo o item a referente ao cartão que define como os dados computados serão
exibidos no arquivo de saída, ou seja, a definição da tally utilizada. Este estudo faz uso da
tally F8, que apresenta os dados em termos de distribuição de alturas de pulso ao final da
simulação, das partículas do tipo selecionado (p para fótons) na célula de número igual
ao número inteiro contido no cartão. O cartão contido no item b da figura 14, indica o
uso da função GEB (Gaussian energy broadening), que simula o alargamento dos picos de
energia observados em um detector real. Os 3 parâmetros numéricos definidos neste cartão
se referem aos parâmetros r,s e t que definem a largura de meia altura (FWHM), segundo
a equação 2.7, podendo-se através deste cartão simular a resolução em energia do detector
utilizado (10). Finalmente, no item c da figura 14, o cartão nps determina o número total
de histórias que serão simuladas, ao fim das quais a simulação termina.
Figura 14 – Trecho do arquivo de entrada no MCNP contendo exemplos de parte dos
cartões de dados: a) Tally a ser utilizada na simulação; b) definição dos parâ-
metros da função GEB; e c) total de número de histórias a serem computadas
na simulação.
FWHM = r + s
√
E + tE2 (2.7)
Essa seção objetivou a descrição do funcionamento básico do MCNP, código utilizado
para simular os fenômenos físicos envolvidos no problema de classificação de radionuclídeos,
descritos na seção 2.1, e importante para a geração de dados para uso da rede neural
artificial utilizada para essa classificação. A seção 2.4 trabalhará os conceitos necessários
ao entendimento e construção de uma rede neural artificial.
2.4 Redes Neurais Artificiais
O desenvolvimento de algoritmos classificados como “redes neurais artificiais”
(RNA), ou simplesmente “redes neurais”, foi basicamente motivado pelo entendimento de
Capítulo 2. Fundamentação teórica 35
que o cérebro não funciona como um computador digital convencional, e é extremamente
eficiente no aprendizado e no desenvolvimento de si próprio ao longo da vida do indivíduo,
o que é conhecido como plasticidade cerebral. O cérebro é um sistema de processamento
da informação complexo e não linear, tendo a capacidade de organizar seus componentes
estruturais (neurônio) para a computação de certas tarefas, como o reconhecimento de
padrões, percepção e controle motor do corpo (4).
O conceito de plasticidade cerebral, ou neuroplasticidade, abordada por (4), pode
ser descrita como sendo a capacidade de adaptação do sistema nervoso às mudanças no
ambiente que ocorrem na rotina dos indivíduos. Trata-se de um conceito amplo que engloba
desde a capacidade da resposta a lesões traumáticas do tecido nervoso até alterações sutis
decorrentes de aprendizagem e memória (11).
A plasticidade cerebral é sinônima do desenvolvimento do sistema nervoso, pois
permite a adaptação do mesmo ao ambiente à sua volta. Da mesma forma, uma rede neural
artificial se utiliza de plasticidade para o processamento de informação, sendo igualmente
crucial ao êxito da mesma (4).
De forma geral, uma rede neural é uma máquina ou programa de computador
construído para reproduzir a forma com que o cérebro realiza uma tarefa específica, como
o reconhecimento de padrões. O presente estudo utilizará uma rede neural baseada no
modelo de neurônio artificial denominado perceptron, de forma a possuir várias instâncias
deste neurônio dispostas em rede. As ligações entre os perceptrons são chamadas sinapses
(como entre os células nervosas), e a contribuição de cada sinapse para o aprendizado
gerado pela rede é regulada em termos de pesos atribuídos a essas sinapses.
Dessa forma, uma rede neural artificial se assemelha ao cérebro humano em dois
aspectos específicos: (i) Adquire conhecimento através do ambiente no qual está inserido,
por um processo de aprendizagem e (ii) As conexões entre neurônios são reforçadas pelo
treinamento, de forma a armazenar o aprendizado (4).
Algumas características das redes neurais devem ser destacadas, como a não
linearidade, o mapeamento entre dados de entrada e de saída, a adaptabilidade, reposta
evidencial, tolerância a falhas entre outras (4).
A não linearidade se refere ao fato da rede neural poder assumir um comportamento
de resposta tanto linear quanto não linear, com relação aos dados de entrada, o que é
particularmente interessante ao se tratar problemas que são intrinsecamente não lineares
(4).
O mapeamento entre os dados de entrada e saída é uma característica intimamente
ligada ao tipo de aprendizado da rede denominado de aprendizagem supervisionada de
máquina, técnica que será usada no reconhecimento de padrões aplicado à espectroscopia
utilizada nesse trabalho.
Capítulo 2. Fundamentação teórica 36
A adaptabilidade é uma característica que permite a rede adequar a conjuntura
de pesos sinápticos à realidade apresentada. Dessa forma, uma rede treinada para um
problema específico pode ser perfeitamente adaptada à pequenas mudanças na realidade
desse ambiente, sem precisar de alterações na configuração de sua estrutura.
Acerca da resposta evidencial, em uma aplicação de reconhecimento de padrões,
uma rede neural pode ser projetada para fornecer, além da informação de qual padrão
selecionar dentre muitos, informações sobre a confiabilidade da decisão tomada. Trata-se
da medida de erro (função perda) e acurácia da rede (taxa de assertividade da RNA).
A tolerância a falhas é mais aplicada a redes implementadas via hardware, mas
é interessante mencionar dada a semelhança com a capacidade de plasticidade cerebral.
Quando parte de uma rede neural implementada fisicamente é danificada, ela é ainda viável
dada a natureza distribuída da computação, ou seja, uma rede deve estar amplamente
avariada antes que a qualidade da resposta esteja seriamente comprometida, embora a
qualidade da resposta seja degradada (4).
2.4.1 Perceptron de Rosenblatt
O perceptron foi o primeiro modelo de algoritmo a descrever uma rede neural,
criado pelo psicólogo Rosenblatt, trabalho publicado em 1958 no artigo intitulado The
Perceptron: A probabilistic model forinformation storage and organization in the brain.
Após esse trabalho, houve várias contribuições aos modelos, em diferentes aspectos, por
parte de engenheiros, físicos e matemáticos entre os anos 1960 e 1970 (4).
Figura 15 – Modelo do perceptron de Rosenblatt (4)
O modelo do perceptron está ilustrado na figura 15, consistindo de um nó central
que realiza a computação de uma combinação linear entre um vetor de sinais de entrada e
um vetor de pesos, denominada de junção de soma, dada pela equação 2.8, onde b é um
ajuste em relação ao viés (bias) dos dados de entrada.
Capítulo 2. Fundamentação teórica 37
ν =
m∑
i=1
wixi + b (2.8)
Após realizada essa combinação linear, o resultado passa pela função de ativação
ϕ , que tem o papel de limitar a amplitude do sinal de saída do neurônio, a uma faixa
geralmente normalizada em um intervalo fechado entre 0 e 1, ou alterativamente entre -1
e 1 (4).
Basicamente, existem dois tipos de funções de ativação, as funções de limite
(Threshold Function), também conhecidas como funções degrau, e funções do tipo sigmoide
(Sigmoid Function) (4).
A figura 16 ilustra uma função de ativação do tipo degrau, que retorna -1 caso o
resultado de ν seja menor que zero, e 1 caso contrário.
Figura 16 – Função degrau de ativação (4)
Já a função do tipo sigmoide, tem sua representação gráfica em forma de S, conforme
ilustrado na figura 17. Trata-se de uma função estritamente crescente, que apresenta um
equilíbrio entre o comportamento linear e não linear. A função logística é um tipo de
função sigmoide, definida pela equação 2.9, onde o parâmetro a é chamado parâmetro de
inclinação (slope parameter). variando-se o parâmetro a, obtem-se funções com diferentes
inclinações, sendo que ao aproximá-lo do valor infinito, a função sigmoide se torna uma
função degrau.
ϕ(ν) = 11 + eaν (2.9)
2.4.2 Aprendizado de máquina
Existem basicamente dois tipos de aprendizado de máquina, o aprendizado super-
visionado e o não supervisionado. O primeiro consiste na aplicação de um conjunto de
dados de treinamento que representam os sinais de entrada, e o rótulo (label) da classe
de saída desejada, onde um algoritmo trabalhará de forma iterativa reajustando o vetor
Capítulo 2. Fundamentação teórica 38
Figura 17 – Função de ativação logística (4)
de pesos a cada iteração, até que o classificador se torne assertivo. Já o aprendizado
não supervisionado de máquina consiste em encontrar padrões de interesse em dados de
entrada, sem a utilização de rótulos (label) ou qualquer outra classificação prévia sobre
essas informações. Pode ser utilizado para visualização, compressão ou eliminação de
ruídos sobre dados, a fim de auxiliar no entendimento desses dados (5). O aprendizado
não supervisionado de máquina não será abordado neste estudo.
O objetivo deste estudo dentro do aprendizado de máquina é a classificação, ou
seja, a separação em classes dos sinais de entrada, conforme ilustrado na figura 18, a partir
do aprendizado supervisionado de máquina. Para a aplicação deste tipo de aprendizado,
devemos entender a diferença entre dados de treinamento, teste e produção. Dados de
treinamento são conjuntos de dados que apresentam tanto um vetor de sinais de entrada
conhecido, como o rótulo de classe de saída, usados na fase de treinamento da RNA. Dados
de teste são um subconjunto dos dados de treinamento, separados para que se possa aferir
a capacidade de generalização do aprendizado adquirido pela RNA, de acordo com a
métrica definida. Já os dados de produção, são dados a serem submetidos a uma RNA
previamente treinada, que efetuará a classificação na situação real onde ela é aplicada.
Figura 18 – Classificação (4)
Um exemplo de algoritmo de aprendizagem supervisionada de máquina aplicada ao
perceptron de Rosenblatt, é o teorema de convergência do perceptron. Seja um problema
Capítulo 2. Fundamentação teórica 39
de separação em duas classes, ilustrado na figura 18, e x(n) o vetor de dados de entrada,
dado pela equação 2.10, onde o bias é representado pelo numeral 1, assumindo-se como
um valor de entrada fixo, na primeira posição do vetor de entradas.
x(n) = [1, x1(n), x2(n), ..., xm(n)]T (2.10)
O vetor de pesos correspondente é dado pela equação 2.11, onde o primeiro valor
do vetor de pesos é o numeral zero, que é o peso inicial do bias. Dessa forma, a combinação
linear de saída será dada pela equação 2.12.
w(n) = [0, w1(n), w2(n), ..., wm(n)]T (2.11)
ν =
m∑
i=1
wixi (2.12)
Para que a classificação seja viável, as duas classes do problema devem ser line-
armente separáveis, de forma que se possa traçar um hiperplano de separação, conforme
a figura 18.a. Por tratar-se de um problema de duas dimensões, o hiperplano de decisão
nesse caso é reduzido a um segmento de reta.
Durante o treinamento, uma vez que o conjunto de dados usado para tal fim tem
os rótulos das classes de saída, e sejam esses rótulos nomeados C1 e C2, podemos declarar
a desigualdade 2.13 para cada vetor x de entrada pertencente à classe C1, e 2.14 para cada
vetor x de entrada pertencente à classe C2.
wTx > 0 (2.13)
wTx <= 0 (2.14)
Dessa forma, pode o erro ser calculado em relação a cada valor do vetor de pesos,
que é ajustado de acordo com a condição descrita pela equação 2.15. Se wT (n)x(n) > 0 e
x(n) pertence à classe C2, o ajuste por sua vez é dados pela equação 2.16.
w(n+ 1) = w(n)− η(n)x(n) (2.15)
w(n+ 1) = w(n) + η(n)x(n) (2.16)
Se wT (n)x(n) ≤ 0 e x(n) pertence à classe C1, onde o parâmetro η(n) é conhecido
como taxa de aprendizagem, que é o fator sob o qual o peso é ajustado. Caso wT (n)x(n) > 0
Capítulo 2. Fundamentação teórica 40
e x(n) pertence à classe C1 ou wT (n)x(n) ≤ 0 e x(n) pertence à classe C2, não há ajuste
no peso correspondente.
2.4.3 O modelo Multilayer Perceptron e o algoritmo de retropropagação
O perceptron de Rosenblatt pode ser visto com uma RNA de uma camada, que
é eficiente para problemas de classificação binários, ou seja, que possuem apenas duas
classes linearmente separáveis, como visto na seção 2.4.2.
As limitações do perceptron foram analisadas no trabalho de Minsky & Papert(1969,
appud HAYKIN 2008), que demonstrou que o perceptron era incapaz de generalizar certos
tipos de problemas, e que essa limitação se aplicava inclusive à variante denominada
MultiLayer Perceptron (MLP). Essa conclusão foi responsável pelo descrédito quanto
à capacidade computacional das redes neurais em geral na década de 1980. Contudo,
atualmente a conjectura não mais se justifica, uma vez que existem técnicas avançadas
de treinamento de redes neurais, como o algoritmo de retropropagação, abordado neste
trabalho, e descrito nos parágrafos subsequentes.
A figura 19 ilustra uma MLP de quatro camadas, sendo as camadas internas,
das quais excetuam-se as camadas de entrada e saída, denominadas de camadas ocultas.
Esse tipo de rede tem como característica ser totalmente conectada (fully connected), o
que quer dizer que qualquer perceptron de qualquer camada está conectado a todos os
neurônios da camada anterior (4).
Figura 19 – Rede MLP com duas camadas ocultas (4)
Basicamente existem três características principais para a caracterização de uma
MLP: (i) As funções de ativação utilizadas nos neurônios artificiais da rede devem ser
Capítulo 2. Fundamentação teórica 41
diferenciáveis; (ii) A rede contém uma ou mais camadas ocultas; e (iii) A rede possui um
alto grau de interconectividade, expressa pelos pesos sinápticos da rede.
Com relação ao algoritmo de retropropagação, um conceito importante reside na
diferenciação entre sinais de função e sinais de erro, durante o treinamento da rede. Os
sinais de função são os que ocorrem no sentido natural da MLP, ou seja, são introduzidos
na camada de entrada, passam pelas funções de junção (v) e ativação (ϕ) de camada, se
propagando até a camada de saída. Na saída, é calculado o erro, que propaga-se em sentido
contrário ao sinal de função, objetivando a correção dos pesos sinápticos das camadas
anteriores. A figura 20 ilustra os fluxos dos sinais de função

Continue navegando