Prévia do material em texto
Redes Neurais Artificiais em 45 Minutos inteligência artificial Carlos Sposito Araujo, M.Sc. 2ª edição direitos autorais © 2017 Carlos Sposito-Araujo Todos os direitos reservados Capa: Luiza Rocha e Sposito ******ebook converter DEMO Watermarks******* Para meus três filhos, que aguentaram meu monotema “redes neurais artificiais” durante meses, enquanto eu me encontrava na fase inicial de estudos e tinha certeza de que estava em mãos com a solução para todos os problemas e enigmas do universo! ******ebook converter DEMO Watermarks******* Para quem é este livro? Se você está apenas querendo satisfazer sua curiosidade a respeito de redes neurais artificiais (RNAs), ou mesmo desejando adquirir uma base inicial que permita aprofundar seus conhecimentos em seguida, este livro pode ser uma boa opção. Caso contrário, se você ultrapassou a fase inicial de estudos e já detém a base matemática que fundamenta os conceitos de RNAs, não empenhe seu precioso tempo aqui. Procure uma bibliografia mais aprofundada, como a disponível ao final do livro. Aqui, o objetivo será abrir as portas ao entendimento básico sobre RNAs. ******ebook converter DEMO Watermarks******* Atiçando a curiosidade Considere uma academia de ginástica e musculação. Ela recebe periódicas matrículas, mas também, infelizmente, periódicas desistências. Imagine que o administrador de uma dessas academias desejasse prever, para cada cliente novo, o período de tempo que decorreria entre o dia de sua inscrição e o dia de trancamento da matrícula. Com esta “previsão do futuro” em mãos ele teria condições de fazer um trabalho de convencimento com aqueles cujo abandono estivesse previsto para breve. Essa informação, porém, só seria útil se esse momento de desligamento fosse conhecido com bastante antecedência. Se possível, já no próprio dia de inscrição na academia. Pense agora em outra situação. Dessa vez, em uma empresa de telefonia. Sempre que um cliente atrasa seu pagamento por alguns dias, o sistema de controle da empresa dispara automaticamente uma cobrança via postal, gerando custos. Considerando que uma parte desses usuários com pagamentos atrasados não é composta de maus pagadores, mas sim de clientes esquecidos e clientes viajantes que pagarão suas contas assim que lembrarem ou retornarem de viagem, este custo não necessitaria ocorrer. O mais eficiente seria enviar cobranças apenas para o grupo de verdadeiros maus pagadores. E se fosse possível para a empresa separar a massa de clientes em dois grupos, o de bons pagadores e o de maus pagadores? Pois bem. Esses dois casos são reais e foram resolvidos com a utilização de redes neurais artificiais. ******ebook converter DEMO Watermarks******* Desde o início Em qualquer estudo que você realize sobre RNAs, seja em livros ou artigos científicos, é quase certo que haverá uma explanação inicial básica, caso o autor considere que o leitor ainda não possui conhecimentos técnicos suficientes sobre o assunto. Nesse caso, na maioria absoluta dos textos, as explicações serão bastante parecidas com: “RNAs são técnicas pertencentes ao conjunto de estudos conhecido como Inteligência Computacional (anteriormente chamado de Inteligência Artificial) que se baseiam em modelos matemáticos influenciados pelas estruturas neurais de seres inteligentes e que possuem a capacidade de ampliar o conhecimento através da experiência de casos passados.” Se o parágrafo anterior te deixou com mais dúvidas do que esclarecimentos, não se assuste. Com tranquilidade, chegaremos lá daqui a pouco. Por isso, mesmo que você esteja em dia com os fundamentos sobre funções matemáticas, não pule esse início. O objetivo é o encadeamento dos conceitos, aumentando a complexidade passo a passo. ******ebook converter DEMO Watermarks******* Uma visão inicial Para pensarmos em funções precisamos olhar a ideia de conjuntos. Apesar de ser um conceito primitivo, isto é, sem definição matemática, podemos considerar que um conjunto é uma lista de símbolos ou objetos, como mostra a Figura 1. ******ebook converter DEMO Watermarks******* ******ebook converter DEMO Watermarks******* Há situações em que existe uma correspondência entre os elementos de dois conjuntos. Nesse caso, dizemos que há uma relação entre eles. Algumas relações seguem essas três condições: 1ª condição – A relação entre elementos de dois conjuntos só deve ocorrer em um sentido. Visualmente, quando utilizamos diagramas de Venn, só podem existir setas iniciando em apenas um dos conjuntos, como mostra a Figura 2. Nesse caso, o conjunto de onde partem as relações é chamado de conjunto de partida, ou domínio; o conjunto onde chegam as relações é o conjunto de chegada, ou contradomínio. 2ª condição - Todo elemento do conjunto de partida (domínio) deve se relacionar com um elemento do conjunto de chegada (contradomínio). Contudo, é possível que alguns elementos do contradomínio não recebam relações de elementos do domínio. Visualmente, nos diagramas de Venn, todos os elementos do conjunto de partida devem possuir alguma seta saindo deles e atingindo um elemento do conjunto de chegada. Entretanto, pode haver elementos do conjunto de chegada sem qualquer seta chegando a eles, como indica a Figura 2. 3ª condição - Cada elemento do domínio deve estar relacionado a um e somente um elemento do contradomínio. Nos diagramas de Venn não pode haver mais de uma seta saindo de um mesmo elemento do conjunto de partida. Contudo, é possível chegar mais de uma seta em um mesmo elemento do conjunto de chegada, cada uma dessas setas sendo iniciada em um elemento diferente do conjunto de partida, como mostra a Figura 2. Caso as três condições sejam satisfeitas, a relação passa a ser considerada uma função. ******ebook converter DEMO Watermarks******* * * * Nas funções, como nem todos os elementos do contradomínio necessitam manter um relacionamento com elementos do domínio, conforme diz a 2ª condição, há uma distinção entre contradomínio e um subconjunto seu que contém apenas os elementos que recebem as relações vindas do domínio. Este subconjunto é chamado de imagem. Na Figura 2, o contradomínio é o conjunto {A, C, E, F, H, J} ******ebook converter DEMO Watermarks******* O conjunto imagem, porém, não possui o elemento “H”: {A, C, E, F, J}. ******ebook converter DEMO Watermarks******* Um pouco de álgebra Quando afirmamos em nosso dia a dia que “alguma coisa” está em função de “outra coisa” estamos dizendo que essa “alguma coisa” depende da “outra coisa” para ser definida. Matematicamente falando, dizemos que uma função f de A em B, escrita da forma y=f(x), é uma relação entre os conjuntos A e B, onde cada elemento x pertencente a A associa-se a um e somente um elemento y pertencente a B. Essa relação y=f(x) indica que cada valor de y é obtido a partir de um valor de x previamente escolhido. Isso demonstra que y depende de x, visto que é necessário conhecermos anteriormente o valor de x para que o valor de y possa ser definido. Portanto, dizemos que x é a variável independente e y é a variável dependente. Vejamos um caso prático. Sabemos que o gasto de combustível em um veículo depende de sua velocidade (entre outras variáveis que não serão consideradas aqui para efeito de simplificação). Assim, afirmamos em bom português que o combustível é consumido em função da velocidade do veículo. A velocidade escolhida pelo motorista em cada momento é o fator que comandará essa relação, é a variável independente; o consumo será a variável dependente da velocidade, já que depende dela. Tomando por base a pesquisa da revista Quatro Rodas® com o veículo VW Fox® (clique aqui), podemos criar uma função que pode ser definida na forma tabular (através dos dados colhidos na pesquisa) ou através da expressão analítica y = 42,5 - 0,266 * x ******ebook converter DEMO Watermarks******* https://goo.gl/pMNjHt onde y representa o consumo de combustível e x a velocidade do veículo. É mais fácil visualizar essa função e a relação entre suas duas variáveisatravés do Gráfico 1, onde o domínio situa-se entre 80km/h e 120km/h (limites definidos na pesquisa), o contradomínio entre 0km/L e 25km/L e a imagem entre 10,4km/L e 21,1km/L. Assim, com o que vimos até agora, percebe-se que uma função pode ser explicada como uma regra que descreve a maneira que uma quantidade é determinada (variável dependente) através de outras quantidades (variáveis independentes), sempre de maneira única (como afirma a 3ª condição, vista na seção anterior). ******ebook converter DEMO Watermarks******* Funções com duas variáveis independentes Há situações que necessitam ser definidas por funções que possuem não uma, mas duas variáveis independentes, ambas associadas a uma variável dependente. Isso significa que, para calcularmos o valor da variável dependente, será necessário determinarmos previamente os valores de cada uma das duas variáveis independentes. Matematicamente escrevemos funções com duas variáveis independentes na forma z=f(x,y), ou com outras letras que agradem mais, apesar de ser esta a maneira mais usual. Nesse caso, com duas variáveis independentes, o domínio não será um conjunto de pontos na reta x, como nas funções com apenas uma variável independente, mas sim um conjunto de pares ordenados (x,y) que associam as combinações dos pontos do domínio de cada variável independente dentro de um plano. Veja esse exemplo prático. Segundo o Prof. Dr. Turibio Barros, podemos calcular o gasto calórico (clique aqui) de uma corrida a pé, no plano horizontal, através da função gasto=0,0175*velocidade*peso onde, na representação z=f(x,y), temos que x é a velocidade, y é o peso do corredor e z é o gasto calórico. Em outras palavras, o gasto calórico está em função tanto da velocidade da corrida quanto do peso do corredor. Aplicando números para um melhor entendimento, imaginemos a velocidade de corrida como 11,5km/h e o peso do corredor como 78kg, o que gera o par ordenado (11,5; 78) na função z = f(11,5; 78) Substituindo os valores numéricos na função, teríamos ******ebook converter DEMO Watermarks******* https://goo.gl/A4KrrW gasto=0,0175*11,5*78= 15,7kcal/min Para representar graficamente essa função necessitamos de nossa visão em três dimensões, recorrendo aos eixos x, y e z. No Gráfico 2, a velocidade de corrida situa-se entre 7km/h e 12km/h; o peso encontra-se entre 70kg e 95kg. Ambos os intervalos foram escolhidos arbitrariamente para facilitar a montagem do gráfico, não representando limites reais. O domínio dessa função é o conjunto de pares ordenados que combinam os pontos do eixo x situados entre 7km/h e 12km/h com os pontos do eixo y existentes entre 70kg e 95kg. Os valores de z, o gasto calórico, encontram- se na superfície desenhada no Gráfico 2. ******ebook converter DEMO Watermarks******* Funções com três ou mais variáveis independentes A representação matemática de uma função com três variáveis independentes (e uma dependente, não esqueça) é, em geral, grafada da forma w = f(x, y, z). Por extensão, uma função com quatro variáveis independentes pode ser escrita como s = f(x, y, z, w) e uma função com n variáveis independentes pode ser representada por y = f(x1, x2, x3, ..., xn), ou com quaisquer outras letras que você preferir para representar as variáveis, como já vimos anteriormente. O importante é relacionar as variáveis independentes com a variável dependente. Visto isso, chega-se à seguinte questão: como seria a representação gráfica de uma função com três, quatro ou mais variáveis independentes? Não seria! Afinal, só conseguimos visualizar gráficos até o limite com que enxergamos o mundo, ou seja, três dimensões. Essa impossibilidade visual, porém, em nada atrapalha a construção matemática de funções de n variáveis. Apenas, não teremos a facilidade de observar graficamente algo com esse nível de complexidade, ficando sua representação restrita à álgebra. * * * Na área de avaliação física encontramos um bom exemplo de função com três variáveis. O estudo “Prediction of body composition in female ******ebook converter DEMO Watermarks******* athletes”[1], desenvolvido para estimar a massa corporal magra de mulheres atletas com idade entre 18 e 23 anos, emprega como variáveis independentes o peso total do indivíduo e os perímetros da coxa e do pescoço: MCM=0,757*MCT+0,981*PS–0,516*CX+0,79 onde MCT é a massa corporal total (o peso do indivíduo), PS é o perímetro do pescoço e CX é o perímetro da coxa. Para se obter o valor da variável dependente MCM teríamos que definir previamente os valores das três variáveis independentes MCT, PS e CX. * * * Pensando em funções de quatro variáveis independentes, podemos observar na área de engenharia elétrica o cálculo do dimensionamento de um condutor elétrico através do critério do limite de queda de tensão unitária. Nessa situação teremos Uunit=e(%).V/(IB.L) onde e(%) é a queda de tensão admissível, V é a tensão do circuito, IB é a corrente de projeto, L é o comprimento do circuito. Ou seja, para obter-se o valor da variável dependente Uunit seria necessário definir previamente os valores das quatro variáveis independentes e(%), V, IB e L. Em uma situação prática, substituindo as variáveis na função, teríamos Uunit=0,04*220v/(24,5A*0,015km)= 23,9 V/(A.km) E o gráfico da função? Ele exigiria um desenho em cinco dimensões. Nem pensar!!! ******ebook converter DEMO Watermarks******* * * * Na área de estudo da física podemos tomar emprestada uma função com cinco variáveis independentes, a famosa Lei da Gravitação Universal de Newton, que geraria um gráfico em seis dimensões, caso isso fosse possível. A força F exercida por uma partícula de massa m0, posicionada na origem das coordenadas xyz, sobre outra partícula de massa m situada no ponto (x,y,z), é dado pela função: F(m0,m,x,y,z)=(G.m0.m)/(x2+y2+z2) onde G é a constante de gravitação universal. ******ebook converter DEMO Watermarks******* Gráficos feios X gráficos bonitos Em geral, gráficos que representam funções conhecidas são bonitos e elegantes (sempre considerando que essa é uma opinião personalíssima). Vejamos alguns: ******ebook converter DEMO Watermarks******* ******ebook converter DEMO Watermarks******* ******ebook converter DEMO Watermarks******* ******ebook converter DEMO Watermarks******* Considerando que essas funções são bonitas, elegantes e agradáveis visualmente, como seria então uma função horrorosa, visualmente sem atrativos? Vejamos um caso bem simples de uma função que poderíamos considerar deselegante, com apenas uma variável independente. A Tabela 1 mostra seus valores: ******ebook converter DEMO Watermarks******* ******ebook converter DEMO Watermarks******* Esse seria o gráfico gerado a partir da tabela: Suponha que, apesar de não ser um gráfico bonito nem elegante, ele representasse uma situação real. Nesse caso, poderíamos inferir outros valores da variável dependente y a partir de valores independentes, como x=2,5 ou x=-0,7. Para isso, teríamos dois caminhos: encontrar o valor de y por meio do seu gráfico ou substituir o valor de x na função referente, não importando que expressão esquisita ela tivesse. ******ebook converter DEMO Watermarks******* Uso prático de funções feias e deselegantes Voltemos ao primeiro caso discutido no início do livro, a previsão do momento de trancamento da matrícula na academia. Para que isso funcionasse, que dados você utilizaria? A idade do aluno? A distância de sua residência até a academia? Seu nível profissional? Seu estado civil? Seu peso? O número de filhos? Para tornar a situação mais complexa, pense que existe uma forte possibilidade de haver, entre os frequentadores da academia, alguns vizinhos — ou seja, possuem a mesma distância da residência à academia, um dos dados propostos — que tivessem idades, pesos e profissões as mais díspares possíveis entre si. E todos eles poderiam estar frequentando a academia na mesma época até que, cada um em uma data possivelmente diferente, trancassem suas matrículas.Seria possível, então, criar uma função matemática que associasse a idade, a distância da residência à academia, o peso, o nível profissional, o número de filhos, cujo resultado através da variável dependente indicasse o período de permanência do aluno na academia? Ao entrarmos com os valores de um certo aluno, a função deveria nos devolver, na variável dependente, o intervalo de tempo previsto para a atividade dele no programa de treinamento até o momento do trancamento de sua matrícula. Imagine o quão “esdrúxula” deveria ser uma função assim... ******ebook converter DEMO Watermarks******* RNAs? Estamos cada vez mais perto Esse problema da previsão do período de aderência de um aluno ao programa de atividade física em uma academia foi exatamente o tema de minha pesquisa de mestrado, “Identificação dos Fatores de Aderência em Programas de Atividade Física em Academias Utilizando Inteligência Computacional”[2], tendo o Prof. Dr. Renan Moritz Varnier Rodrigues de Almeida como meu Orientador. Após a análise de 63 variáveis disponíveis no banco de dados da academia chegamos a uma função com 11 variáveis independentes, entre elas o endereço, o gênero, a profissão, o estado civil, e as datas de nascimento, matrícula e trancamento. A variável dependente indicava, como resultado, se haveria ou não uma permanência mínima de seis meses do aluno. Essa dicotomia “menos de seis meses X mais de seis meses” foi uma decisão estratégica baseada em estudos[3] que demonstraram ser este ponto — seis meses — um importante divisor de águas quanto à aderência a programas de atividade física. * * * Outro estudo do qual participei com Costa G.G., Alvarenga A.V. e Pereira W.C.A., “Classificação do Contorno em Mamografias Digitalizadas Utilizando Redes Neurais Artificiais do Tipo ART-2”[4], teve seu foco na análise de nódulos detectados em mamografias, auxiliando o diagnóstico médico com uma “segunda opinião”. Considerando-se que nódulos malignos possuem características de formato — contornos irregulares com prolongamentos a partir de suas bordas — que diferem de nódulos benignos — contornos regulares e forma circular ou ovalada —, a função utilizou seis variáveis independentes, todas relacionadas a características gráficas do nódulo. A variável dependente, também dicotômica, classificava o nódulo em “regular” ou “irregular”. ******ebook converter DEMO Watermarks******* https://www.researchgate.net/publication/242732319_CLASSIFICACAO_DO_CONTORNO_EM_MAMOGRAFIAS_DIGITALIZADAS_UTILIZANDO_REDES_NEURAIS_ARTIFICIAIS_DO_TIPO_ART2 * * * No estudo “Artificial Neural Networks for Infant Mortality Modelling”[5], desenvolvido no Programa de Engenharia Biomédica da COPPE-UFRJ, foram utilizadas 43 variáveis independentes, entre indicadores sociais, econômicos, ambientais e de saúde, de 59 municípios brasileiros, gerando como resultado na variável dependente a taxa de mortalidade infantil desses municípios. Aqui, o objetivo do estudo não foi de previsão, mas sim de classificação. * * * O estudo “Redes Neurais para Prevenção de Inadimplência em Operadoras de Telefonia”[6], segundo exemplo discutido no início do livro, desenvolvido como tese de doutorado no Programa de Engenharia Civil da COPPE-UFRJ, visou identificar previamente o comportamento de clientes inadimplentes, classificando-os pelo tipo de tendência ao não pagamento, possibilitando a tomada de ações preventivas por parte da empresa. Na função foram utilizadas 27 variáveis independentes, a maioria relacionada a médias de fatura, minutos de tráfego e dias de atraso no mês, além de indicadores de tráfego, pulso, dias de atraso e de inadimplência. A variável dependente, também dicotômica, determinava a condição de cliente bom ou ruim. * * * Todos esses estudos possuem em comum o uso de uma função matemática com n variáveis independentes, sendo n tão grande quanto necessário, além de uma variável dependente para retorno do resultado. ******ebook converter DEMO Watermarks******* Chegamos! Finalmente, chegamos ao ponto-chave do livro. Todos os estudos apresentados anteriormente utilizaram redes neurais artificiais. E, olhando com atenção, percebe-se que as RNAs podem ser resumidas, nada mais nada menos, como funções “esdrúxulas” de n variáveis. Mas, por que chamar essas funções de “esdrúxulas”? Apesar de a matemática possuir termos fora do vocabulário do cidadão comum, como ceviana, apótema, folheações holomorfas, teoria ergódica e álgebra nilpotente, o termo “esdrúxula” não é um conceito utilizado neste universo. Na busca de um termo que representasse o quanto essas funções podem ser deselegantes e feias, pelo menos ao que estamos acostumados no ambiente acadêmico dos gráficos e funções elegantes, baseei-me na definição do vocábulo “esdrúxulo” do Dicionário Houaiss®: “fora dos padrões comuns e que causa espanto ou riso; esquisito, extravagante, excêntrico” Desconsiderando o “riso”, o restante da definição parece representar o que seria a feia estética dessas funções. ******ebook converter DEMO Watermarks******* E como é criada a tal função “esdrúxula”? Através dos casos apresentados, vimos que RNAs são, basicamente, funções matemáticas com múltiplas variáveis independentes — normalmente não havendo relações “visíveis a olho nu” entre a maioria delas —, além de uma variável dependente que retorna o resultado. Para que essa função “esdrúxula” seja criada, algumas etapas devem ser percorridas: 1º passo – escolha do modelo de RNAs Cada grupo de problemas possui características e objetivos — controle; classificação; predição; ou aproximação — que o fazem tender para um determinado modelo de RNAs que o resolverá com mais eficiência e precisão. Essa escolha do modelo é fundamental para o sucesso do estudo. 2º passo – seleção do software que gerenciará a rede neural artificial (RNA) A maneira mais prática de gerar a função da RNA, e posteriormente gerenciar sua utilização, é através de algum software já existente. Em geral, esses aplicativos estão preparados para gerenciar mais de um modelo de RNAs. Os softwares mais utilizados são: Matlab® (suporta os modelos de RNAs: Feedforward; Radial Basis; Dynamic; Learning Vector Quantization; Competitive Layers; e Self- Organizing Maps); NeuroDimension® (37 modelos diferentes de RNAs, como Multilayer Perceptron, Probabilistic Neural Network e Support Vector Machines, entre outros); Wolfram Mathematica® (principais modelos de RNAs suportados: ******ebook converter DEMO Watermarks******* https://www.mathworks.com/products/matlab.html http://www.neurodimension.com/ https://www.wolfram.com/mathematica/ Feedforward; Radial Basis Function; Dynamic; Perceptrons; Vector Quantization; Unsupervised Networks; e Hopfield Networks). 3º passo – disponibilizar dados relativos a casos passados O sucesso de uma RNA para solucionar um problema está diretamente relacionado à quantidade de dados disponíveis de entrada e saída, referentes a situações já ocorridas no passado. Quanto maior essa oferta de casos, maior será a chance do software criar uma função que represente o problema passado e resolva os casos futuros. No caso do estudo sobre aderência ao programa de treinamento em academia possuíamos os dados de centenas de ex-alunos, incluindo a informação mais importante para o estudo: as datas de inscrição e de trancamento da matrícula. Ou seja, o período de tempo em que esses ex- alunos estiveram ativos na academia, que foi o ponto-chave da pesquisa. 4º passo – treinamento da RNA De posse dos dados referentes aos casos passados do problema, devemos dividir aleatoriamente essa massa em dois grupos. Um dos grupos será utilizado para alimentar o algoritmo do software escolhido, na fase chamada de treinamento da RNA. Lendo e relendo esses dados por um grande número de vezes, ordenados e reordenados internamente de maneiras diferentes, o aplicativo moldará a função “esdrúxula”. Ao final dessa operação — que pode demorar minutos, horas ou dias de processamento, dependendo da capacidade do computador utilizado, daquantidade de dados e do número de variáveis independentes — o algoritmo terá criado uma função com a capacidade de retornar na variável dependente as respostas históricas referentes ao conjunto de dados introduzidos, o mais aproximado possível dos valores reais. 5º passo – validação da RNA Já com a função provisoriamente criada, serão executados testes com o ******ebook converter DEMO Watermarks******* segundo grupo de dados — aqueles que não foram utilizados anteriormente na fase de treinamento da RNA. A necessidade de separação dos dados em dois grupos visa impedir qualquer influência nesta segunda fase (viés), visto que ocorreriam resultados artificialmente corretos se fossem utilizados os próprios dados responsáveis pela criação da função. Nessa fase de validação, comparando-se as respostas verdadeiras dos casos reais com as respostas geradas pela função, teremos o percentual de acertos ocorridos. Isto indicará se a RNA (ou seja, a função “esdrúxula”) está realmente gerando resultados satisfatórios dentro do valor mínimo de acertos esperados. Em caso negativo, não satisfazendo as expectativas, deve-se retornar à fase de treinamento para tentar refinar a função. Em seguida, nova fase de validação deve tentar confirmar a melhora da eficiência da função. 6º passo – uso efetivo da RNA Após a aprovação dos resultados dos testes da função, a RNA estará pronta para uso pleno, quando então poderá receber valores novos nas variáveis independentes e entregar respostas na variável dependente. ******ebook converter DEMO Watermarks******* Um pouco de história das RNAs Agora, com o entendimento básico sobre o que ocorre dentro da “caixa- preta” de uma RNA, você pode acompanhar melhor a sequência histórica do seu desenvolvimento. As RNAs, consideradas modelos computacionais não algorítmicos, tiveram como inspiração inicial a complexa rede de neurônios do cérebro humano, com seus axônios, dendritos e sinapses. O primeiro modelo foi proposto em 1943 pelo fisiologista Warren McCulloch e pelo matemático Walter Pitts, no histórico trabalho “A Logical Calculus of the Ideas Immanent in Nervous Activity”[7], onde os dois pesquisadores estudaram as analogias existentes entre um neurônio e um processo eletrônico binário[8]. No entanto, o trabalho de McCulloch e Pitts prendeu-se mais à tentativa de descrever um modelo artificial de um neurônio e suas capacidades computacionais do que mesmo apresentar qualquer técnica de aprendizado computacional. Este neurônio de McCulloch-Pitts pode ser modelado como um caso particular de discriminador linear de entradas binárias. No final da década de 1950, em outro importante momento da história do desenvolvimento das RNAs, Frank Rosenblatt, em seu artigo “The Perceptron: a Probabilistic Model for Information Storage and Organization in the Brain”[9], aperfeiçoa as ideias de McCulloch e Pitts, criando uma rede com vários neurônios, também do tipo discriminador linear, e a denomina perceptron. Neste modelo, os neurônios eram dispostos em camadas: a primeira continha os neurônios que recebiam diretamente as entradas; a última continha os neurônios que entregavam as saídas; e as camadas intermediárias, chamadas camadas ocultas, que faziam o verdadeiro processamento. ******ebook converter DEMO Watermarks******* Em 1960, Bernard Widrow e Marcian Hoff aperfeiçoaram o perceptron, criando o ADALINE (ADAptive LInear NEuron)[10]. O aprimoramento introduzido foram os pesos, que multiplicavam as entradas, e sua totalização. Além disso, houve a inclusão da soma de um viés. O passo seguinte foi o aprimoramento do ADALINE, com o desenvolvimento do MADALINE (Many ADALINE), que utilizava vários ADALINEs em paralelo com apenas uma saída, cujo resultado baseava-se em regras intermediárias. Na década de 1970 e início dos anos 1980, os estudos de RNA só não ficaram totalmente paralisados graças aos estudos de Kohonen[11], com a RNA Self-Organizing Maps, e de Paul Werbos[12], com o desenvolvimento do algoritmo Backpropagation. As pesquisas retornaram fortemente a partir do meio da década de 1980 pelas mãos de Gail Carpenter, Stephen Grossberg e colegas[13], desenvolvedores do modelo não supervisionado ART (Adaptive Resonance Theory), baseado no processamento de informações cognitivas humanas. Nos anos seguintes, variantes do modelo ART foram desenvolvidas: ART 1, ART 2, ART 3, ARTMAP, Fuzzy ART, ART 2-A e dART. ******ebook converter DEMO Watermarks******* Algumas aplicações práticas Além das aplicações apresentadas no decorrer do livro — aderência ao treinamento em academia; envio de cobranças em empresa de telefonia; classificação do contorno em mamografias; e modelagem de mortalidade infantil —, seguem agora, para maior ilustração e melhor entendimento, algumas outras utilizadas no dia a dia. ******ebook converter DEMO Watermarks******* Previsão do período de permanência de pacientes Considerando a importância da previsão de recursos para a eficácia do planejamento de uma empresa − e uma unidade hospitalar enquadra-se nesta situação −, Mobley e colegas[14] estudaram a aplicação de modelos matemáticos que auxiliassem a análise e a previsão do período de permanência de pacientes em uma unidade de tratamento pós-coronariano (UTPC), fazendo uso de uma RNA Backpropagation Perceptron Multicamadas e um modelo linear de função de transferência logística (FTL). As variáveis utilizadas foram retiradas do formulário preenchido no momento da admissão do paciente na UTPC. A RNA Backpropagation Perceptron Multicamadas foi testada com duas topologias diferentes − duas e três camadas intermediárias −, ocorrendo resultados semelhantes em ambas, com 72% de acurácia na previsão de permanência, quando foi considerado um dia como erro máximo. Os resultados da FTL, para o mesmo erro máximo de um dia, foi 64% de acurácia. ******ebook converter DEMO Watermarks******* Eletrocardiograma Reconhecendo a importância do eletrocardiograma (ECG) na prática clínica, Maglaveras e colegas[15] revisaram as tendências sobre reconhecimento de padrões de ECG, em especial as transformações não lineares e a utilização de técnicas baseadas em RNAs para reconhecimento de padrões e classificação, sendo os algoritmos testados para a detecção de batimentos isquêmicos e reconhecimento de fibrilação atrial. Soares e Nadal[16], também considerando crucial a importância do ECG no diagnóstico da integridade cardíaca, estudaram um método de detecção automática de alterações do segmento ST utilizando uma RNA Backpropagation Perceptron Multicamadas treinada com o algoritmo Levenberg-Marquardt[17] para classificação de padrões. A extração de parâmetros e a redução de dimensionalidade foram executadas através do uso da Análise de Componentes Principais − método estatístico também utilizado por Muniz e Nadal[18] para distinguir a componente vertical da força de reação do solo em teste de marcha com pacientes portadores de fraturas em membros inferiores. Neste caso, a RNA Backpropagation Perceptron Multicamadas foi treinada com seis topologias diferentes, variando a camada oculta com 6, 10, 15, 20, 25 e 30 neurônios. Graças ao uso da Análise de Componentes Principais, o número inicial de 90 parâmetros de entrada (tamanho dos segmentos ST-T) foi reduzido para apenas cinco, diminuindo o número de neurônios da camada de entrada para este mesmo valor. A camada de saída trabalhou com três neurônios (ST+, ST-, N). A topologia com melhor desempenho foi a que utilizou 15 neurônios na camada oculta. Para a avaliação dos segmentos ST+, os resultados indicaram uma acurácia de 89% e uma sensibilidade de 93%. Em relação às alterações de ST-, a acurácia foi 78% e a sensibilidade 80%. Para os segmentos normais, a acurácia foi de 77%. Estes valores são compatíveis com os sistemas automáticos equivalentes encontrados na ******ebook converter DEMO Watermarks******* literatura, inclusive sistemas mais sofisticados que empregaram metodologia semelhante. Também em um estudo das alterações do segmento ST, por ser consideradoum bom preditor de infarto do miocárdio e morte súbita, Frenkel e Nadal[19] investigaram quatro métodos de representação de ST, dois baseados em parâmetros morfológicos e dois baseados em Análise de Componentes Principais, comparando seus desempenhos: Métodos baseados em parâmetros morfológicos Análise direta do segmento ST[20] em uma única medida de amplitude do ponto localizado 104ms após a onda R; Método RST[21], duas amostras dependentes no intervalo RR que delimitam o segmento ST, sendo utilizado o valor médio de todas as amostras localizadas entre elas. Métodos baseados em Análise de Componentes Principais O coeficiente da primeira Componente Principal; Os coeficientes das seis primeiras Componentes Principais utilizadas como entradas de uma RNA Backpropagation Perceptron Multicamadas. Os resultados apontaram para a possibilidade de utilização de qualquer um dos quatro métodos perante alterações elevadas do segmento ST, acima de 300 µV. Porém, quando ocorreram alterações moderadas, entre 100 µV e 300 µV, a RNA Backpropagation Perceptron Multicamadas teve o melhor resultado, com sensibilidade de 84% e valor preditivo positivo de 75%. ******ebook converter DEMO Watermarks******* Diagnóstico de doenças eritêmato-escamosas David West e Vivian West[22] investigaram a acurácia de modelos de RNAs no diagnóstico de doenças eritêmato-escamosas que possuem identificações visuais bastante semelhantes entre si, assim como as características histopatológicas resultantes de biópsia: psoríase; dermatite seborreica; líquen plano; dermatite crônica; pitiríase rósea; e pitiríase rubra pilar. Para este estudo, os autores utilizaram 34 variáveis dermatológicas que foram aplicadas nos modelos de RNA Backpropagation Perceptron Multicamadas, RNA Self-Organizing Maps e subconjuntos de RNA especialistas. ******ebook converter DEMO Watermarks******* Traumatismo craniano Para criar um sistema de suporte à decisão médica para casos de traumatismo craniano, Li e colegas[23] compararam três modelos matemáticos: regressão linear; RNA Backpropagation Perceptron Multicamadas; e RNA Função de Base Radial. Esses modelos utilizaram as variáveis: tipo de fratura; escala Glasgow Coma[24]; episódios de convulsão; e o grau de recomendação de uma cirurgia de crânio aberto. Os resultados apontaram valores de sensibilidade, especificidade e área sob a curva ROC (Receiver Operating Characteristic), respectivamente para: RNA Backpropagation Perceptron Multicamadas, 88%, 80% e 0,897; RNA Função de Base Radial, 80%, 80% e 0,880; e, regressão linear, 73%, 68% e 0,761. Segundo os autores, os resultados sugerem que RNAs podem ser uma solução melhor para sistemas complexos não lineares de suporte à decisão médica do que técnicas estatísticas convencionais, como a regressão linear. ******ebook converter DEMO Watermarks******* Disfluência infantil e gagueira Considerando o grande desafio que há décadas vem representando a difícil diferenciação entre os casos de disfluência infantil e gagueira, Geetha e colegas[25] utilizaram uma RNA Backpropagation Perceptron Multicamadas com o objetivo de realizar esta discriminação. Para isso, empregaram dados de crianças com idades entre dois e seis anos, divididos em dois grupos: o primeiro, com 25 crianças, foi utilizado para treinamento da RNA Backpropagation Perceptron Multicamadas; o segundo, com 26 crianças, foi empregado para predição do diagnóstico. Apesar do baixo número de casos durante o treinamento da RNA Backpropagation Perceptron Multicamadas, a predição teve uma acurácia de 92%. ******ebook converter DEMO Watermarks******* Administração de insulina Via de regra, a administração de insulina para diabéticos segue parâmetros baseados na experiência e na intuição do médico que assiste o paciente, não havendo informações suficientes na literatura científica que abordem os aspectos práticos da aplicação das doses. Para estudar o assunto, Gogou e colegas[26] utilizaram uma RNA Backpropagation Perceptron Multicamadas que recebeu informações colhidas com especialistas do Reino Unido e da Grécia, a partir de questionários previamente enviados. A RNA Backpropagation Perceptron Multicamadas foi treinada com 100 casos e testada com outros 100 casos de pacientes. O sistema classificou corretamente 92% dos casos de teste, mostrando ser aplicável a este problema. ******ebook converter DEMO Watermarks******* Alterações hemodinâmicas Pequenas mudanças que ocorrem na fisiologia de um paciente são difíceis de detectar, principalmente em unidades de terapia intensiva, onde o ambiente é bombardeado por uma avalanche de sinais de controle enviados simultaneamente por vários dispositivos. Parmanto e colegas[27] utilizaram uma RNA para a classificação e detecção de alterações hemodinâmicas, visto que sua descoberta precoce, acompanhada de uma intervenção apropriada, pode conduzir a uma assistência eficiente ao paciente. Diferente de muitos estudos em Engenharia Biomédica, onde os dados utilizados são estáticos e a RNA Backpropagation Perceptron Multicamadas e a RNA Função de Base Radial são poderosas ferramentas para sistemas médicos de apoio à decisão, esse estudo fez uso de uma RNA Time-Delay[28] para fazer frente aos dados que, necessariamente, são dinâmicos e atualizam-se em tempo real. A RNA Time-Delay conseguiu identificar as condições hemodinâmicas de 1138 situações (93%) em um total de 1224, onde os casos restantes foram 56 de situações de transição (5%) e 30 de dados com ruídos (2%), indicando o modelo RNA Time-Delay para este tipo de aplicação dinâmica. ******ebook converter DEMO Watermarks******* Ataque isquêmico transitório e derrame cerebral Com o propósito de estudar a prevalência de ataque isquêmico transitório e derrame cerebral em populações, Barnes e colegas[29] utilizaram uma RNA Backpropagation Perceptron Multicamadas treinada com dados de um questionário. Apesar de o ataque isquêmico transitório ser um fenômeno subjetivo, tanto para o paciente quanto para o profissional de saúde, podendo com isso resultar em interpretações inconsistentes, os autores acreditam que o conceito da RNA construída para este estudo facilitou a identificação de ataques isquêmicos transitórios e derrames cerebrais. ******ebook converter DEMO Watermarks******* Mais alguns detalhes Apresentados os conceitos básicos e algumas aplicações das RNAs, existem alguns pontos que merecem ser mencionados neste livro introdutório: - Em alguns modelos de RNAs os dados utilizados durante a aplicação real continuam atualizando e ajustando os parâmetros da função, melhorando cada vez mais sua precisão. - Modelos de RNAs diferem radicalmente de técnicas tradicionais de programação, visto que uma estrutura de software como essa não depende dos conhecimentos a priori de um programador a respeito das possíveis soluções. - É importante compreender que, dada a maneira não-algorítmica com que a função da RNA é criada, não se deve esperar um acerto de 100% na fase de validação, muito menos durante a aplicação real com dados novos. As RNAs são aplicadas exatamente naqueles problemas em que não existe um caminho reto, matematicamente exato, para sua solução. - A ideia de uma função bastante complexa, cujos parâmetros são ajustados o mais aproximado possível a uma realidade já passada, nunca será uma garantia de repetição do sucesso no futuro. Em muitos problemas da vida prática é preferível trabalhar com 70%, 80% de acertos, do que não obter resposta alguma. - Em alguns problemas, como no estudo da empresa de telefonia, a captação de datas, faturamentos e minutagens, entre outras informações, é feita automaticamente, sem intervenção manual. Em outras situações, como no estudo da aderência dos alunos ao treinamento na academia, os dados utilizados são digitados durante a matrícula, em geral não havendo ******ebook converter DEMO Watermarks******* conferências posteriores que avalizem a precisão das informações. Neste caso, após constatação de inconsistência, uma parte dos dados deverá serdesprezada manualmente. - Uma característica importante das RNAs é a sua capacidade de generalização, extraindo uma saída útil a partir de um conjunto de dados imperfeito, incompleto ou com ruído, graças ao processamento paralelo dos dados de entrada. Isto a torna bastante tolerante a falhas, exatamente porque o erro em um neurônio pode ser coberto pelas saídas corretas de seus elementos vizinhos. - Existem dois tipos de aprendizado das RNAs, o supervisionado e o não supervisionado: No aprendizado supervisionado são utilizados dois conjuntos de dados, um de entradas e um das saídas correspondentes. Na fase de treinamento, as entradas são apresentadas à RNA, devendo-se verificar o quanto as saídas calculadas correspondem às saídas previamente conhecidas. Em caso negativo, a RNA deverá proceder ao ajuste dos pesos, de forma a armazenar o conhecimento exigido. Esta fase deverá ser repetida com os mesmos dados de entrada e saída até que a taxa de acertos da RNA esteja dentro de uma faixa considerada satisfatória (como falado acima, sempre abaixo de 100%). No aprendizado não supervisionado, também conhecido como autossupervisionado, não existe o conjunto de dados de saída, apenas o conjunto de entradas. Neste caso, a RNA trabalha os dados de entrada classificando-os segundo seus próprios critérios, ou seja, os neurônios são usados como classificadores e os dados como elementos de classificação. ******ebook converter DEMO Watermarks******* ******ebook converter DEMO Watermarks******* Agradecimentos Quando penso em redes neurais artificiais, a primeira pessoa que me vem à mente é o Prof. Dr. Renan Moritz Varnier Rodrigues de Almeida, meu orientador no mestrado em Engenharia Biomédica da COPPE-UFRJ. Assim que lhe falei sobre meu interesse no assunto, ele retornou minutos depois com vários artigos sobre estudos que seu laboratório havia publicado em revistas científicas. Algum tempo depois, estávamos trabalhando juntos na minha dissertação. Especificamente quanto a este livro, agradeço aos meus amigos — em ordem alfabética — Alexandre Seixas, Bethania Teixeira, Carlos Gatts, Fernando Marcellino, Luiz Antonio Pereira e Newton Mansur. Todos dedicaram tempo na minuciosa leitura, brindando-me com importantes colaborações na melhoria do texto. Em casa, contei com a leitura sempre crítica de meus filhos Luiza, Julia e Luiz Carlos, e de minha mulher, Odette. Todos deram ótimas contribuições que me fizeram, inclusive, mudar um pouco a rota do livro. Obrigado a todos! ******ebook converter DEMO Watermarks******* Bibliografia recomendada Applying Neural Networks: A Practical Guide Kevin Swingler Neural Network Learning: Theoretical Foundations Martin Anthony, Peter L. Bartlett An Introduction to Neural Networks Kevin Gurney Make Your Own Neural Network Tariq Rashid Introduction to the Math of Neural Networks Jeff Heaton Code Your Own Neural Network: A step-by-step explanation Steven C. Shaffer Redes Neurais Artificiais. Teoria e Aplicações Antonio de Padua Braga Redes Neurais. Princípios e Prática Simon Haykin ******ebook converter DEMO Watermarks******* https://goo.gl/KuYu9H https://goo.gl/8nJLK8 https://goo.gl/YLekGv https://goo.gl/TFKkiG https://goo.gl/68UpLZ https://goo.gl/BpD5G4 https://goo.gl/993qFq https://goo.gl/AUqjM5 Avaliação Se você tiver tempo, clique aqui para fazer uma rápida avaliação do livro. Obrigado! ******ebook converter DEMO Watermarks******* https://goo.gl/XcuJgV Referências [1] Mayhew, J.L.,Piper, F.C.,Koss, J.A.,Montaldi, D.H., 1983, “Prediction of body composition in female athletes”, Journal of Sports Medicine and Physical Fitness, v. 23, n. 3, p. 333-340. [2] Araujo, C.A.S., 2010, “Identificação dos fatores de aderência em programas de atividade física em academias utilizando inteligência computacional”[dissertação de mestrado], COPPE-UFRJ, Programa de Engenharia Biomédica. [3] Dishman, R.K., 1991, “Increasing and maintaining exercise and physical activity”, Behavior Therapy, v. 22, n. 3, p. 345-378. doi:10.1016/S0005-7894(05)80371-5 Fallon, E.A., Hausenblasb, H.A., Nigg, C.R., 2005, “The transtheoretical model and exercise adherence: examining construct associations in later stages of change”, Psychology of Sport and Exercise, v. 6, n. 6, p. 629- 641. doi:10.1016/j.psychsport.2005.01.003 Robison, J.I., Rogers, M.A., 1994, “Adherence to exercise programmes. Recommendations”, Sports Medicine, v. 17, n. 1, p. 39-52. doi:10.2165/00007256-199417010-00004 [4] Costa, G.G., Alvarenga, A.G., Sposito-Araujo, C.A., Silva, R.M., 2007, “Classificação do contorno em mamografias digitalizadas utilizando redes neurais artificiais do tipo ART-2”, XII Congresso Brasileiro de Física Médica, Foz do Iguaçu, Brasil. ******ebook converter DEMO Watermarks******* https://www.ncbi.nlm.nih.gov/pubmed/6656233 http://www.peb.ufrj.br/teses/Tese0119_2010_06_29.pdf https://www.doi.org/10.1016/S0005-7894(05)80371-5 https://www.doi.org/10.1016/S0005-7894(05)80371-5 https://www.doi.org/10.1016/j.psychsport.2005.01.003 https://www.doi.org/10.1016/j.psychsport.2005.01.003 https://www.doi.org/10.2165/00007256-199417010-00004 https://www.doi.org/10.2165/00007256-199417010-00004 https://www.researchgate.net/publication/242732319_CLASSIFICACAO_DO_CONTORNO_EM_MAMOGRAFIAS_DIGITALIZADAS_UTILIZANDO_REDES_NEURAIS_ARTIFICIAIS_DO_TIPO_ART2 [5] Gismondi, R.C., Almeida, R.M.V.R., Infantosi, A.F.C., 2002, “Artificial neural networks for infant mortality modelling”, Computer Methods and Programs in Biomedicine, v. 69, n. 3, p. 237-247. doi:10.1016/S0169-2607(02)00006-8 [6] Pinheiro, C.A.R., 2005, “Redes neurais para prevenção de inadimplência em operadoras de telefonia” [tese de doutorado], COPPE- UFRJ, Programa de Engenharia Civil. [7] McCulloch, W.S., Pitts, W., 1943, “A logical calculus of the ideas immanent in nervous activity”, Bulletin of Mathematical Biophysics, v. 5, n. 4, p. 115-133. doi:10.1007/BF02478259 [8] Azevedo, F.M., Brasil, L.M., Oliveira, R.C.L., 2000, “Redes neurais: com aplicações em controle e em sistemas especialistas”. 1 ed. Florianópolis, Brasil, Visual Books. Oliveira Junior, H.A. (org), 2007, “Inteligência computacional: aplicada à administração, economia e engenharia em Matlab”. 1 ed. São Paulo, Brasil, Thomson. [9] Rosenblatt, F., 1958, “The perceptron: a probabilistic model for information storage and organization in the brain”, Psychological Review, v. 65, n. 6, p. 386-408. [10] Widrow, B., Hoff, M., 1960, “Adaptive switching circuits”. 1 ed. New York, USA, Institute of Radio Engineers. [11] Kohonen, T., 1982, “Self-organized formation of topologically correct ******ebook converter DEMO Watermarks******* https://www.doi.org/10.1016/S0169-2607(02)00006-8 https://www.doi.org/10.1016/S0169-2607(02)00006-8 http://wwwp.coc.ufrj.br/teses/doutorado/inter/2005/Teses/PINHEIRO_CAR_05_t_D_int.pdf https://www.doi.org/10.1007/BF02478259 https://www.doi.org/10.1007/BF02478259 https://books.google.pt/books/about/Redes_neurais_com_aplica%C3%A7%C3%B5es_em_contro.html?id=BdtpkgEACAAJ https://books.google.pt/books?id=-5aIPgAACAAJ&dq=Intelig%C3%AAncia+Computacional:+Aplicada+%C3%A0+Administra%C3%A7%C3%A3o,+Economia+e+Engenharia+em+Matlab&hl=pt-BR http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.335.3398&rep=rep1&type=pdf http://www.dtic.mil/dtic/tr/fulltext/u2/241531.pdf https://doi.org/10.1007/BF00337288 feature maps”, Biological Cybernetics, v. 43, n. 1, p. 59-69. doi:10.1007/BF00337288 Kohonen, T., 1982, “Analysis of a simple self-organizing process”, Biological Cybernetics, v. 44, n. 2, p. 135-140. doi:10.1007/BF00317973 Kohonen, T., 1989, “Self-organization and associative memory”. 3 ed. New York, EUA, Springer-Verlag. Kohonen, T., 1987, “Adaptive, associative, and self-organizing functions in neural computing”, Applied Optics, v. 26, n. 23, p. 4910-4918. doi:10.1364/AO.26.004910 Kohonen, T., 1988, “The ‘neural’ phonetic typewriter”, Computer, v. 21, n. 3, p. 11-22. doi:10.1109/2.28 [12] Werbos, P.J., 1987, “Building and understandingadaptive systems: a statistical/numerical approach to factory automation and brain research”, IEEE Transactions on Systems, Man, and Cybernetics, v. 17, n. 1, p. 7- 20. doi:10.1109/TSMC.1987.289329 Werbos, P.J., 1988, “Generalization of backpropagation with application to a recurrent gas market model”, Neural Networks, v. 1, n. 4, p. 179- 189. doi:10.1016/0893-6080(88)90007-X Werbos, P.J., 1990, “Consistency of HDP applied to a simple reinforcement learning problem”, Neural Networks, v. 3, n. 2, p. 179- 189. ******ebook converter DEMO Watermarks******* https://doi.org/10.1007/BF00337288 https://doi.org/10.1007/BF00317973 https://doi.org/10.1007/BF00317973 https://amzn.to/2CJvYMa https://doi.org/10.1364/AO.26.004910 https://doi.org/10.1364/AO.26.004910 https://doi.org/10.1109/2.28 https://doi.org/10.1109/2.28 https://doi.org/10.1109/TSMC.1987.289329 https://doi.org/10.1109/TSMC.1987.289329 https://doi.org/10.1016/0893-6080(88)90007-X https://doi.org/10.1016/0893-6080(88)90007-X https://doi.org/10.1016/0893-6080(90)90088-3 doi:10.1016/0893-6080(90)90088-3 [13] Carpenter, G.A., 1989, “Neural network models for pattern recognition and associative memory”, Neural Networks, v. 2, n. 4, p. 243-257. doi:10.1016/0893-6080(89)90035-X Carpenter, G.A., Grossberg, S., 1987, “A Massively parallel architecture for a self-organizing neural pattern recognition machine”, Computer Vision, Graphics, and Image Processing, v. 37, n. 1, p. 54-115. doi:10.1016/S0734-189X(87)80014-2 Carpenter, G.A., Grossberg, S., 1987, “ART 2: self-organization of stable category recognition codes for analog input patterns”, Applied Optics, v. 26, n. 23, p. 4919-4930. doi:10.1364/AO.26.004919 Carpenter, G.A., Grossberg, S., 1988, “The ART of adaptive pattern recognition by a self-organizing neural network”, Computer, v. 21, n. 3, p. 77-88. doi:10.1109/2.33 Carpenter, G.A., Grossberg, S., 1990, “ART 3: hierarchical search using chemical transmitters in self-organizing pattern recognition architectures”, Neural Networks, v. 3, n. 2, p. 129-152. doi:10.1016/0893-6080(90)90085-Y Carpenter, G.A., Grossberg, S., 2002, “Adaptive resonance theory”. In: ARBIB, M.A. (ed), The handbook of brain theory and neural networks, 2 ed., part III, Cambridge, USA, MIT Press. Carpenter, G.A., Grossberg, S., MEHANIAN, C., 1989, “Invariant recognition of cluttered scenes by a self-organizing ART architecture: CORT-X boundary segmentation”, Neural Networks, v. 2, n. 3, p. 169- ******ebook converter DEMO Watermarks******* https://doi.org/10.1016/0893-6080(90)90088-3 https://doi.org/10.1016/0893-6080(89)90035-X https://doi.org/10.1016/0893-6080(89)90035-X https://doi.org/10.1016/S0734-189X(87)80014-2 https://doi.org/10.1016/S0734-189X(87)80014-2 https://doi.org/10.1364/AO.26.004919 https://doi.org/10.1364/AO.26.004919 https://doi.org/10.1109/2.33 https://doi.org/10.1109/2.33 https://doi.org/10.1016/0893-6080(90)90085-Y https://doi.org/10.1016/0893-6080(90)90085-Y https://amzn.to/2O2ApUd https://doi.org/10.1016/0893-6080(89)90002-6 181. doi:10.1016/0893-6080(89)90002-6 Carpenter, G.A., Grossberg, S., Reynolds, J.H., 1991, “ARTMAP: supervised real-time learning and classification of nonstationary data by a self-organizing neural network”, Neural Networks, v. 4, n. 5, p. 565-588. doi:10.1016/0893-6080(91)90012-T Carpenter, G.A., Grossberg, S., Rosen, D.B., 1991, “Fuzzy ART: fast stable learning and categorization of analog patterns by an adaptive resonance system”, Neural Networks, v. 4, n. 6, p. 759-771. doi:10.1016/0893-6080(91)90056-B Carpenter, G.A., Grossberg, S., Rosen, D.B., 1991, “ART 2-A: an adaptive resonance algorithm for rapid category learning and recognition”, Neural Networks, v. 4, n. 4, p. 493-504. doi:10.1109/IJCNN.1991.155329 [14] Mobley, B.A., Leasure, R., Davidson, L., 1995, “Artificial neural network predictions of lengths of stay on a post-coronary care unit”, Heart Lung, v. 24, n. 3, p. 251-256. doi:10.1016/S0147-9563(05)80045-7 [15] Maglaveras, N., Stamkopoulos, T., Diamantaras, K., Pappas, C., Strintzis, M., 1998, “ECG pattern recognition and classification using non-linear transformations and neural networks: a review”, International Journal of Medical Informatics, v. 52, n. 1, p. 191-208. doi:10.1016/S1386-5056(98)00138-5 [16] Soares, P.P.S., Nadal, J., 1999, “Aplicação de uma rede neural feedforward com algoritmo de Levenberg-Marquardt para classificação de alterações do segmento ST do eletrocardiograma”. In: Proceedings of ******ebook converter DEMO Watermarks******* https://doi.org/10.1016/0893-6080(89)90002-6 https://doi.org/10.1016/0893-6080(91)90012-T https://doi.org/10.1016/0893-6080(91)90012-T https://doi.org/10.1016/0893-6080(91)90056-B https://doi.org/10.1016/0893-6080(91)90056-B https://doi.org/10.1109/IJCNN.1991.155329 https://doi.org/10.1109/IJCNN.1991.155329 https://doi.org/10.1016/S0147-9563(05)80045-7 https://doi.org/10.1016/S0147-9563(05)80045-7 https://doi.org/10.1016/S1386-5056(98)00138-5 https://doi.org/10.1016/S1386-5056(98)00138-5 https://www.researchgate.net/publication/228960280_Aplicacao_de_uma_Rede_Neural_Feedforward_com_Algoritmo_de_Levenberg-Marquardt_para_Classificacao_de_Alteracoes_do_Segmento_ST_do_Eletrocardiograma the IV Brazilian Conference on Neural Networks, p. 384-389, São José dos Campos, ITA, Jul. [17] Hagan, M.T., Menhaj, M.B., 1994, “Training feedforward networks with the Marquardt algorithm”, IEEE Transactions on Neural Networks, v. 5, n. 6, p. 989-993. doi:10.1109/72.329697 [18] Muniz, A.M.S., Nadal, J., 2009, “Application of principal component analysis in vertical ground reaction force to discriminate normal and abnormal gait”, Gait & Posture, v. 29, n. 1, p. 31-35. doi:10.1016/j.gaitpost.2008.05.015 [19] Frenkel, D., Nadal, J., 2000, “Comparação de métodos de representação do segmento ST na detecção automática de isquemias miocárdicas”, Revista Brasileira de Engenharia Biomédica, v. 16, n. 3, p. 153-162. [20] Akselrod, S., Norymberg, M., Peled, I., et al., 1987, “Computerised analysis of ST segment changes in ambulatory electrocardiograms”, Medical and Biological Engineering and Computing, v. 25, n. 5, p. 513- 519. doi:10.1007/BF02441743 [21] Benhorim, J., Badilini, F., Moss, A.J., et al., 1996, “New approach to detection of ischemic-type ST segment depression”. In: MOSS, A.J., STERN, S. (eds), Noninvasive electrocardiology: clinical aspects of holter monitoring, chapter 19, London, England, W. B. Saunders. doi:10.1002/clc.4960200326 ******ebook converter DEMO Watermarks******* https://doi.org/10.1109/72.329697 https://doi.org/10.1109/72.329697 https://doi.org/10.1016/j.gaitpost.2008.05.015 https://doi.org/10.1016/j.gaitpost.2008.05.015 http://host-article-assets.s3-website-us-east-1.amazonaws.com/rbeb/5889fb7e5d01231a018b465d/fulltext.pdf https://doi.org/10.1007/BF02441743 https://doi.org/10.1007/BF02441743 https://doi.org/10.1002/clc.4960200326 https://doi.org/10.1002/clc.4960200326 [22] West, D., West, V., 2000, “Improving diagnostic accuracy using a hierarchical neural network to model decision subtasks”, International Journal of Medical Informatics, v. 57, n. 1, p. 41-55. doi:10.1016/S1386-5056(99)00059-3 [23] Li, Y., Liu, L., Chiu, W., Jian, W., 2000, “Neural network modeling for surgical decisions on traumatic brain injury patients”, International Journal of Medical Informatics, v. 57, n. 1, p. 1-9. doi:10.1016/S1386-5056(99)00054-4 [24] Teasdale, G.M., Jennett, B., 1974, “Assessment of Coma and impaired consciousness. A practical scale”, Lancet, v. 304, n. 7872, p. 81-84. doi:10.1016/S0140-6736(74)91639-0 Teasdale, G.M., Murray, L., 2000, “Revisiting the Glasgow Coma scale and Coma score”, Intensive Care Medicine, v. 26, n. 2, p. 153-154. doi:10.1007/s001340050037 [25] Geetha, Y.V., Pratibha, K., Ashok, R., Ravindra, S.K., 2000, “Classification of childhood disfluencies using neural networks”, Journal of Fluency Disorders, v. 25, n. 2, p. 99-117. doi:10.1016/S0094-730X(99)00029-7 [26] Gogou, G., Maglaveras, N., Ambrosiadou,B.V., et al., 2001, “A neural network approach in diabetes management by insulin administration”, Journal of Medical Systems, v. 25, n. 2, p. 119-131. doi:10.1023/A:1005672631019 [27] Parmanto, B., Deneault, L.G., Denault, A.Y., 2001, “Detection of hemodynamic changes in clinical monitoring by time-delay neural ******ebook converter DEMO Watermarks******* https://doi.org/10.1016/S1386-5056(99)00059-3 https://doi.org/10.1016/S1386-5056(99)00059-3 https://doi.org/10.1016/S1386-5056(99)00054-4 https://doi.org/10.1016/S1386-5056(99)00054-4 https://doi.org/10.1016/S0140-6736(74)91639-0 https://doi.org/10.1016/S0140-6736(74)91639-0 https://doi.org/10.1007/s001340050037 https://doi.org/10.1007/s001340050037 https://doi.org/10.1016/S0094-730X(99)00029-7 https://doi.org/10.1016/S0094-730X(99)00029-7 https://doi.org/10.1023/A:1005672631019 https://doi.org/10.1023/A:1005672631019 https://doi.org/10.1016/S1386-5056(01)00174-5 networks”, International Journal of Medical Informatics, v. 63, n. 1-2, p. 91-99. doi:10.1016/S1386-5056(01)00174-5 [28] Lin, D.T., Dayhoff, J.E., Ligomenides, P.A., 1995, “Trajectory production with the adaptive time-delay neural network”, Neural Networks, v. 8, n. 3, p. 447-461. doi:10.1016/0893-6080(94)00104-T Waibel, A., Hanazawa, T., Hinton, G., et al., 1989, “Phoneme recognition using time-delay neural networks”, IEEE Transactions on Acoustics, Speech, and Signal Processing, v. 37, n. 3, p. 328-339. doi:10.1109/29.21701 [29] Barnes, R.W., Toole, J.F., Nelson, J.J., et al., 2006, “Neural networks for ischemic stroke”, Journal of Stroke and Cerebrovascular Diseases, v. 15, n. 5, p. 223-227. doi:10.1016/j.jstrokecerebrovasdis.2006.05.008 ******ebook converter DEMO Watermarks******* https://doi.org/10.1016/S1386-5056(01)00174-5 https://doi.org/10.1016/0893-6080(94)00104-T https://doi.org/10.1016/0893-6080(94)00104-T https://doi.org/10.1109/29.21701 https://doi.org/10.1109/29.21701 https://doi.org/10.1016/j.jstrokecerebrovasdis.2006.05.008 https://doi.org/10.1016/j.jstrokecerebrovasdis.2006.05.008 Atiçando a curiosidade Desde o início Uma visão inicial Um pouco de álgebra Funções com duas variáveis independentes Funções com três ou mais variáveis independentes Gráficos feios X gráficos bonitos Uso prático de funções feias e deselegantes RNAs ? Estamos cada vez mais perto Chegamos ! E como é criada a tal função “ esdrúxula ” ? Um pouco de história das RNAs Algumas aplicações práticas Mais alguns detalhes