Buscar

Redes Neurais

Prévia do material em texto

Nome: Gabriel Miller Silone RA: 234930 
 
 
Redes neurais profundas estão ajudando a decifrar como o cérebro 
funciona 
 
Os neurocientistas estão descobrindo que as redes de aprendizagem profunda, muitas 
vezes criticadas como “caixas pretas”, podem ser bons modelos para a organização de 
cérebros vivos. 
 
No inverno de 2011, Daniel Yamins, um pesquisador de pós-doutorado em neurociência 
computacional no Massachusetts Institute of Technology, às vezes trabalhava até depois 
da meia-noite em seu projeto de visão de máquina. Ele estava projetando 
meticulosamente um sistema que podia reconhecer objetos em fotos, independentemente 
das variações de tamanho, posição e outras propriedades - algo que os humanos fazem 
com facilidade. O sistema era uma rede neural profunda, um tipo de dispositivo 
computacional inspirado na fiação neurológica de cérebros vivos. 
 
“Lembro-me muito bem da época em que encontramos uma rede neural que realmente 
resolvia a tarefa”, disse ele. Eram duas da manhã, um pouco cedo para acordar seu 
conselheiro, James DiCarlo, ou outros colegas, então um animado Yamins deu um 
passeio no ar frio de Cambridge. “Fiquei muito animado”, disse ele. 
 
Isso teria contado como uma realização notável apenas em inteligência artificial, uma das 
muitas que tornariam as redes neurais as queridinhas da tecnologia de IA nos próximos 
anos. Mas esse não era o objetivo principal de Yamins e seus colegas. Para eles e outros 
neurocientistas, este foi um momento crucial no desenvolvimento de modelos 
computacionais para as funções cerebrais. 
 
DiCarlo e Yamins, que agora dirige seu próprio laboratório na Universidade de Stanford, 
fazem parte de um círculo de neurocientistas que usam redes neurais profundas para 
compreender a arquitetura do cérebro. Em particular, os cientistas têm se esforçado para 
entender as razões por trás das especializações dentro do cérebro para várias tarefas. 
Eles se perguntam não apenas por que diferentes partes do cérebro fazem coisas 
diferentes, mas também por que as diferenças podem ser tão específicas: por que, por 
exemplo, o cérebro tem uma área para reconhecer objetos em geral, mas também para 
rostos em particular? Redes neurais profundas estão mostrando que essas 
especializações podem ser a maneira mais eficiente de resolver problemas. 
 
Da mesma forma, pesquisadores demonstraram que as redes profundas mais proficientes 
em classificar fala, música e cheiros simulados têm arquiteturas que parecem paralelas 
aos sistemas auditivo e olfativo do cérebro. Esses paralelos também aparecem em redes 
profundas que podem olhar para uma cena 2D e inferir as propriedades subjacentes dos 
objetos 3D dentro dela, o que ajuda a explicar como a percepção biológica pode ser 
rápida e incrivelmente rica. Todos esses resultados sugerem que as estruturas dos 
sistemas neurais vivos incorporam certas soluções ótimas para as tarefas que assumiram. 
 
Esses sucessos são ainda mais inesperados, dado que os neurocientistas há muito tempo 
são céticos em relação às comparações entre cérebros e redes neurais profundas, cujo 
funcionamento pode ser inescrutável. “Honestamente, ninguém em meu laboratório 
estava fazendo nada com redes profundas [até recentemente]”, disse a neurocientista do 
MIT Nancy Kanwisher. “Agora, a maioria deles os está treinando rotineiramente.” 
 
 
Redes profundas e visão 
 
Redes neurais artificiais são construídas com componentes de interconexão chamados 
perceptrons, que são modelos digitais simplificados de neurônios biológicos. As redes 
têm, pelo menos, duas camadas de perceptrons, uma para a camada de entrada e outra 
para a saída. Sanduiche uma ou mais camadas “ocultas” entre a entrada e a saída e você 
terá uma rede neural “profunda”; quanto maior o número de camadas ocultas, mais 
profunda é a rede. 
 
Redes profundas podem ser treinadas para detectar padrões nos dados, como padrões 
que representam imagens de gatos ou cachorros. O treinamento envolve o uso de um 
algoritmo para ajustar iterativamente a força das conexões entre os perceptrons, de modo 
que a rede aprenda a associar uma determinada entrada (os pixels de uma imagem) com 
o rótulo correto (gato ou cachorro). Uma vez treinada, a rede profunda deve ser capaz de 
classificar uma entrada que ela não tenha visto antes. 
 
Em sua estrutura e função gerais, as redes profundas aspiram vagamente a emular 
cérebros, nos quais as intensidades ajustadas das conexões entre os neurônios refletem 
associações aprendidas. Os neurocientistas frequentemente apontam limitações 
importantes nessa comparação: neurônios individuais podem processar informações mais 
extensivamente do que os perceptrons “burros”, por exemplo, e as redes profundas 
frequentemente dependem de um tipo de comunicação entre perceptrons chamada 
retropropagação que parece não ocorrer nos sistemas nervosos. No entanto, para os 
neurocientistas computacionais, as redes profundas às vezes parecem ser a melhor 
opção disponível para modelar partes do cérebro. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Os pesquisadores que desenvolvem modelos computacionais do sistema visual foram 
influenciados pelo que sabemos do sistema visual dos primatas, particularmente a via 
responsável por reconhecer pessoas, lugares e coisas chamadas fluxo visual ventral. 
(Uma via amplamente separada, o fluxo visual dorsal, processa informações para ver o 
movimento e as posições das coisas.) Em humanos, essa via ventral começa nos olhos e 
prossegue para o núcleo geniculado lateral no tálamo, uma espécie de estação 
retransmissora para informação sensorial. O núcleo geniculado lateral se conecta a uma 
área chamada V1 no córtex visual primário, a jusante da qual estão as áreas V2 e V4, que 
finalmente conduzem ao córtex temporal inferior. (Cérebros de primatas não humanos têm 
estruturas homólogas.) 
 
O insight neurocientífico principal é que o processamento de informações visuais é 
hierárquico e ocorre em estágios: os estágios anteriores processam características de 
baixo nível no campo visual (como bordas, contornos, cores e formas), enquanto 
representações complexas, como objetos inteiros e rostos, surgem apenas mais tarde no 
córtex temporal inferior. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Essas percepções orientaram o projeto da rede profunda por Yamins e seus colegas. Sua 
rede profunda tinha camadas ocultas, algumas das quais realizavam uma “convolução” 
que aplicava o mesmo filtro a todas as partes de uma imagem. Cada convolução capturou 
diferentes características essenciais da imagem, como bordas. As características mais 
básicas foram capturadas nos estágios iniciais da rede e as características mais 
complexas nas fases mais profundas, como no sistema visual dos primatas. Quando uma 
rede neural convolucional (CNN) como esta é treinada para classificar imagens, ela 
começa com valores inicializados aleatoriamente para seus filtros e aprende os valores 
corretos necessários para a tarefa em questão. 
 
A CNN de quatro camadas da equipe pode reconhecer oito categorias de objetos 
(animais, barcos, carros, cadeiras, rostos, frutas, aviões e mesas) retratados em 5.760 
imagens 3D foto-realistas. Os objetos retratados variavam muito em pose, posição e 
escala. Mesmo assim, a rede profunda combinou com o desempenho dos humanos, que 
são extremamente bons em reconhecer objetos, apesar da variação. 
 
Sem o conhecimento de Yamins, uma revolução que se formava no mundo da visão 
computacional também validaria de forma independente a abordagem que ele e seus 
colegas estavam adotando. Logo depois que terminaram de construir sua CNN, outra 
CNN, chamada AlexNet, fez seu nome em um concurso anual de reconhecimento de 
imagem. O AlexNet também foi baseado em uma arquitetura de processamento 
hierárquico que capturou recursos visuais básicos em seus estágios iniciais e recursos 
mais complexos em estágios superiores; foi treinado em 1,2 milhão de imagens rotuladas 
apresentando mil categorias deobjetos. No concurso de 2012, o AlexNet encaminhou 
todos os outros algoritmos testados: Pelas métricas da competição, a taxa de erro do 
AlexNet foi de apenas 15,3%, em comparação com 26,2% de seu concorrente mais 
próximo. Com a vitória da AlexNet, as redes profundas se tornaram concorrentes 
legítimos no campo de IA e aprendizado de máquina. 
 
Yamins e outros membros da equipe de DiCarlo, no entanto, estavam atrás de uma 
recompensa neurocientífica. Se a CNN deles imitasse um sistema visual, eles se 
perguntavam, ele poderia prever as respostas neurais a uma nova imagem? Para 
descobrir, eles primeiro estabeleceram como a atividade em conjuntos de neurônios 
artificiais em seu CNN correspondia à atividade em quase 300 locais no fluxo visual 
ventral de dois macacos rhesus. 
 
Em seguida, eles usaram a CNN para prever como esses locais cerebrais reagiriam 
quando os macacos vissem imagens que não faziam parte do conjunto de dados de 
treinamento. “Não apenas obtivemos boas previsões, mas também há um tipo de 
consistência anatômica”, disse Yamins: As camadas iniciais, intermediárias e tardias da 
CNN previram o comportamento das áreas cerebrais iniciais, intermediárias e de nível 
superior , respectivamente. A forma seguiu a função. 
 
Kanwisher lembra de ter ficado impressionado com o resultado quando foi publicado em 
2014. “Não diz que as unidades da rede profunda individualmente se comportam como 
neurônios biofisicamente”, disse ela. “No entanto, há uma especificidade chocante na 
correspondência funcional.” 
 
 
 
 
 
Especializando-se em sons 
 
 
Depois que os resultados de Yamins e DiCarlo apareceram, a busca por outros modelos 
de rede profunda do cérebros melhores, particularmente para regiões menos bem 
estudadas do que o sistema visual dos primatas. Por exemplo, “ainda não temos uma 
compreensão muito boa do córtex auditivo, especialmente em humanos”, disse Josh 
McDermott, neurocientista do MIT. O aprendizado profundo pode ajudar a gerar hipóteses 
sobre como o cérebro processa os sons? 
 
Esse é o objetivo de McDermott. Sua equipe, que incluía Alexander Kell e Yamins, 
começou a projetar redes profundas para classificar dois tipos de sons: fala e música. 
Primeiro, eles codificaram um modelo da cóclea — o órgão de transdução de som no 
ouvido interno, cujo funcionamento é compreendido em grande detalhe - para processar 
áudio e classificar os sons em canais de frequência diferentes como entradas para uma 
rede neural convolucional. A CNN foi treinada para reconhecer palavras em clipes de 
áudio de fala e para reconhecer os gêneros de clipes musicais misturados com ruído de 
fundo. A equipe buscou uma arquitetura de rede profunda que pudesse executar essas 
tarefas com precisão, sem precisar de muitos recursos. 
 
Três conjuntos de arquiteturas pareciam possíveis. As duas tarefas da rede profunda 
podiam compartilhar apenas a camada de entrada e então se dividir em duas redes 
distintas. No outro extremo, as tarefas poderiam compartilhar a mesma rede para todo o 
seu processamento e se dividir apenas no estágio de saída. Ou pode ser uma das 
dezenas de variantes intermediárias, onde alguns estágios da rede são compartilhados e 
outros são distintos. 
 
Sem surpresa, as redes que tinham caminhos dedicados após a camada de entrada 
superaram as redes que compartilhavam caminhos totalmente. No entanto, uma rede 
híbrida - uma com sete camadas comuns após o estágio de entrada e, em seguida, duas 
redes separadas de cinco camadas cada - se saiu quase tão bem quanto a rede 
totalmente separada. McDermott e colegas escolheram a rede híbrida como a que 
funcionou melhor com o mínimo de recursos computacionais. 
 
Quando eles confrontaram aquela rede híbrida com humanos nessas tarefas, ela se 
encaixou bem. Ele também correspondeu a resultados anteriores de vários pesquisadores 
que sugeriram que o córtex auditivo não primário tem regiões distintas para processar 
música e fala. E em um teste importante publicado em 2018, o modelo previu a atividade 
cerebral em seres humanos: as camadas intermediárias do modelo anteciparam as 
respostas do córtex auditivo primário, e as camadas mais profundas anteciparam áreas 
superiores no córtex auditivo. Essas previsões foram substancialmente melhores do que 
as de modelos não baseados em aprendizado profundo. 
 
“O objetivo da ciência é ser capaz de prever o que os sistemas farão”, disse McDermott. 
“Essas redes neurais artificiais nos aproximam desse objetivo na neurociência.” 
 
Kanwisher, inicialmente cética quanto à utilidade do aprendizado profundo para sua 
própria pesquisa, foi inspirada pelos modelos de McDermott. Kanwisher é mais conhecida 
por seu trabalho em meados da década de 1990, mostrando que uma região do córtex 
temporal inferior chamada área facial fusiforme (FFA) é especializada na identificação de 
faces. O FFA é significativamente mais ativo quando os assuntos olham para imagens de 
rostos do que quando olham para imagens de objetos como casas. Por que o cérebro 
separa o processamento de rostos daquele de outros objetos? 
 
Tradicionalmente, responder a essas perguntas do tipo “por que” tem sido difícil para a 
neurociência. Assim, Kanwisher, junto com sua pós-doutora Katharina Dobs e outros 
colegas, recorreram a redes profundas em busca de ajuda. Eles usaram um sucessor de 
visão computacional para AlexNet - uma rede neural convolucional muito mais profunda 
chamada VGG - e treinaram duas redes profundas separadas em tarefas específicas: 
reconhecer rostos e reconhecer objetos. 
 
A equipe descobriu que a rede profunda treinada para reconhecer rostos era ruim para 
reconhecer objetos e vice-versa, sugerindo que essas redes representam rostos e objetos 
de maneira diferente. Em seguida, a equipe treinou uma única rede em ambas as tarefas. 
Eles descobriram que a rede havia se organizado internamente para segregar o 
processamento de rostos e objetos nos estágios posteriores da rede. “O VGG segrega 
espontaneamente mais nos estágios posteriores”, disse Kanwisher. “Não é necessário 
segregar nos estágios iniciais.” 
 
Isso está de acordo com a maneira como o sistema visual humano é organizado: a 
ramificação ocorre apenas a jusante dos estágios anteriores compartilhados da via visual 
ventral (o núcleo geniculado lateral e as áreas V1 e V2). “Descobrimos que a 
especialização funcional do processamento facial e de objetos surgiu espontaneamente 
em redes profundas treinadas em ambas as tarefas, como acontece no cérebro humano”, 
disse Dobs, que agora está na Universidade Justus Liebig em Giessen, Alemanha. 
 
“O que é mais emocionante para mim é que acho que agora temos uma maneira de 
responder a perguntas sobre por que o cérebro é do jeito que é”, disse Kanwisher. 
 
Camadas de Aromas 
 
Mais evidências desse tipo estão surgindo de pesquisas que abordam a percepção de 
cheiros. No ano passado, o neurocientista computacional Robert Yang e seus colegas da 
Universidade de Columbia projetaram uma rede profunda para modelar o sistema olfativo 
de uma mosca da fruta, que foi mapeado detalhadamente por neurocientistas. 
 
A primeira camada de processamento de odores envolve neurônios sensoriais olfativos, 
cada um dos quais expressa apenas um dos cerca de 50 tipos de receptores de odores. 
Todos os neurônios sensoriais do mesmo tipo, cerca de 10 em média, alcançam um único 
agrupamento de nervos na próxima camada da hierarquia de processamento. Como há 
cerca de 50 desses agrupamentos de nervos em cada lado do cérebro nesta camada, 
isso estabelece um mapeamento um-para-um entre os tipos de neurônios sensoriais e os 
agrupamentos de nervos correspondentes. Os agrupamentos de nervos têm várias 
conexões aleatórias com neurônios na próxima camada, chamada de camada de Kenyon, 
que tem cerca de 2.500 neurônios, cada um dos quais recebe cerca de sete entradas. 
Acredita-se que a camada Kenyon esteja envolvida em representações de alto nível dos 
odores. 
 
Para ver se eles poderiam projetar um modelo computacional para imitaresse processo, 
Yang e seus colegas criaram primeiro um conjunto de dados para imitar cheiros, que não 
ativam os neurônios da mesma forma que as imagens. Se você sobrepor duas imagens 
de gatos, adicionando-as pixel por pixel, a imagem resultante pode não se parecer em 
nada com um gato. No entanto, se você misturar o odor de duas maçãs, provavelmente 
ainda terá o cheiro de maçã. “Essa é uma visão crítica que usamos para projetar nossa 
tarefa de olfato”, disse Yang. Eles construíram sua rede profunda com quatro camadas: 
três que modelavam as camadas de processamento na mosca da fruta e uma camada de 
saída. Quando Yang e seus colegas treinaram esta rede para classificar os odores 
simulados, eles descobriram que a rede convergiu para praticamente a mesma 
conectividade vista no cérebro da mosca-das-frutas: um mapeamento um-para-um da 
camada 1 para a camada 2, 
 
Essa semelhança sugere que tanto a evolução quanto a rede profunda alcançaram uma 
solução ótima. Mas Yang continua desconfiado dos resultados. “Talvez apenas tenhamos 
tido sorte aqui, e talvez isso não generalize”, disse ele. 
 
A próxima etapa do teste será desenvolver redes profundas que podem prever a 
conectividade no sistema olfativo de algum animal ainda não estudado, o que pode então 
ser confirmado por neurocientistas. “Isso fornecerá um teste muito mais rigoroso de nossa 
teoria”, disse Yang, que será transferido para o MIT em julho de 2021. 
 
Não apenas caixas-pretas 
 
Redes profundas são frequentemente ridicularizadas por serem incapazes de generalizar 
para dados que se afastam muito do conjunto de dados de treinamento. Eles também são 
famosos por serem caixas-pretas. É impossível explicar as decisões de uma rede 
profunda examinando os milhões ou mesmo bilhões de parâmetros que a moldam. Não é 
um modelo de rede profunda de alguma parte do cérebro meramente substituindo uma 
caixa-preta por outra? 
 
Não exatamente, na opinião de Yang. “Ainda é mais fácil de estudar do que o cérebro”, 
disse ele. 
 
No ano passado, a equipe de DiCarlo publicou resultados que assumiram a opacidade de 
redes profundas e sua alegada incapacidade de generalizar. Os pesquisadores usaram 
uma versão do AlexNet para modelar o fluxo visual ventral dos macacos e descobriram as 
correspondências entre as unidades de neurônios artificiais e os sítios neurais na área V4 
dos macacos. Então, usando o modelo computacional, eles sintetizaram imagens que 
previram que provocariam níveis anormalmente altos de atividade nos neurônios dos 
macacos. Em um experimento, quando essas imagens “não naturais” foram mostradas a 
macacos, elas aumentaram a atividade de 68% dos sítios neurais além de seus níveis 
normais; em outro, as imagens aumentaram a atividade em um neurônio enquanto a 
suprimiam em neurônios próximos. Ambos os resultados foram previstos pelo modelo de 
rede neural. 
 
Para os pesquisadores, esses resultados sugerem que as redes profundas se 
generalizam para os cérebros e não são totalmente insondáveis. “No entanto, 
reconhecemos que... muitas outras noções de '‘compreensão’' ainda precisam ser 
exploradas para ver se e como esses modelos agregam valor”, escreveram eles. 
 
As convergências em estrutura e desempenho entre redes profundas e cérebros não 
significam necessariamente que funcionem da mesma maneira; há maneiras pelas quais 
eles comprovadamente não o fazem. Mas pode ser que haja semelhanças suficientes 
para os dois tipos de sistemas seguirem os mesmos princípios gerais de governo. 
 
 
Limitações dos modelos 
 
McDermott vê valor terapêutico potencial nesses estudos de rede profunda. Hoje, quando 
as pessoas perdem a audição, geralmente é devido a alterações no ouvido. O sistema 
auditivo do cérebro tem que lidar com a entrada prejudicada. “Portanto, se tivéssemos 
bons modelos do que o resto do sistema auditivo estava fazendo, teríamos uma ideia 
melhor do que fazer para ajudar as pessoas a ouvirem melhor”, disse McDermott. 
 
Ainda assim, McDermott é cauteloso sobre o que as redes profundas podem oferecer. 
“Temos nos esforçado bastante para tentar entender as limitações das redes neurais 
como modelos”, disse ele. 
 
McDermott vê valor terapêutico potencial nesses estudos de rede profunda. Hoje, quando 
as pessoas perdem a audição, geralmente é devido a alterações no ouvido. O sistema 
auditivo do cérebro tem que lidar com a entrada prejudicada. “Portanto, se tivéssemos 
bons modelos do que o resto do sistema auditivo estava fazendo, teríamos uma ideia 
melhor do que fazer para ajudar as pessoas a ouvirem melhor”, disse McDermott. 
 
Ainda assim, McDermott é cauteloso sobre o que as redes profundas podem oferecer. 
“Temos nos esforçado bastante para tentar entender as limitações das redes neurais 
como modelos”, disse ele. 
 
Em uma demonstração impressionante dessas limitações, a estudante de graduação 
Jenelle Feather e outros no laboratório de McDermott focaram nos metâmeros, que são 
sinais de entrada fisicamente distintos que produzem a mesma representação em um 
sistema. Dois metâmeros de áudio, por exemplo, têm formas de onda diferentes, mas têm 
o mesmo som para um humano. Usando um modelo de rede profunda do sistema 
auditivo, a equipe projetou metâmeros de sinais de áudio naturais; esses metâmeros 
ativaram diferentes estágios da rede neural da mesma forma que os clipes de áudio. Se a 
rede neural modelou com precisão o sistema auditivo humano, então os metâmeros 
deveriam soar iguais também. 
 
Mas não foi isso que aconteceu. Os humanos reconheceram os metâmeros que 
produziram a mesma ativação que os clipes de áudio correspondentes nos estágios 
iniciais da rede neural. No entanto, isso não se aplicava a metâmeros com ativações 
correspondentes nos estágios mais profundos da rede: esses metâmeros soavam como 
ruído para humanos. “Portanto, embora sob certas circunstâncias esses tipos de modelos 
façam um trabalho muito bom em replicar o comportamento humano, há algo muito errado 
com eles”, disse McDermott. 
 
Em Stanford, Yamins está explorando maneiras pelas quais esses modelos ainda não são 
representativos do cérebro. Por exemplo, muitos desses modelos precisam de muitos 
dados rotulados para treinamento, enquanto nosso cérebro pode aprender sem esforço 
com apenas um exemplo. Esforços estão em andamento para desenvolver redes 
profundas não supervisionadas que podem aprender com a mesma eficiência. Redes 
profundas também aprendem usando um algoritmo chamado retropropagação, que a 
maioria dos neurocientistas acha que não pode funcionar em tecido neural real porque 
carece das conexões apropriadas. “Houve um grande progresso em termos de regras de 
aprendizagem biologicamente mais plausíveis que realmente funcionam”, disse Yamins. 
 
 
 
Josh Tenenbaum, neurocientista cognitivo do MIT, disse que, embora todos esses 
modelos de rede profunda sejam “etapas reais do progresso”, eles realizam 
principalmente tarefas de classificação ou categorização. Nossos cérebros, entretanto, 
fazem muito mais do que categorizar o que está lá fora. Nosso sistema de visão pode dar 
sentido à geometria das superfícies e à estrutura 3D de uma cena, e pode raciocinar 
sobre os fatores causais subjacentes - por exemplo, pode inferir em tempo real que uma 
árvore desapareceu apenas porque um carro passou na frente disso. 
 
Para entender essa habilidade do cérebro, Ilker Yildirim, anteriormente no MIT e agora na 
Universidade de Yale, trabalhou com Tenenbaum e colegas para construir algo chamado 
de modelo gráfico inverso eficiente. Ele começa com parâmetros que descrevem uma 
face a ser renderizada em um fundo, como sua forma, sua textura, a direção da 
iluminação, a pose da cabeça e assim por diante. Um programa de computação gráfica 
chamado modelo generativo cria uma cena 3D a partir dos parâmetros; então, após vários 
estágios de processamento, ele produz uma imagem 2D daquela cena vista de uma 
determinada posição. Usando os dados 3D e 2D do modelo generativo, os pesquisadores 
treinaram uma versão modificada doAlexNet para prever os parâmetros prováveis de 
uma cena 3D a partir de uma imagem 2D desconhecida. “O sistema aprende a retroceder 
do efeito à causa, 
 
A equipe testou seu modelo verificando suas previsões sobre a atividade no córtex 
temporal inferior de macacos rhesus. Eles apresentaram macacos com 175 imagens, 
mostrando 25 indivíduos em sete poses, e gravaram as assinaturas neurais de “manchas 
faciais”, áreas de processamento visuais especializadas em reconhecimento facial. Eles 
também mostraram as imagens para sua rede de aprendizagem profunda. Na rede, a 
ativação dos neurônios artificiais na primeira camada representa a imagem 2D e a 
ativação na última camada representa os parâmetros 3D. “Ao longo do caminho, ele 
passa por um monte de transformações, que parecem basicamente levar você do 2D para 
o 3D”, disse Tenenbaum. Eles descobriram que as últimas três camadas da rede 
correspondiam notavelmente bem às últimas três camadas da rede de processamento 
facial dos macacos. 
 
Isso sugere que os cérebros usam combinações de modelos generativos e de 
reconhecimento não apenas para reconhecer e caracterizar objetos, mas para inferir as 
estruturas causais inerentes às cenas, tudo em um instante. Tenenbaum reconhece que 
seu modelo não prova que o cérebro funciona dessa maneira. “Mas isso abre a porta para 
fazer essas perguntas de uma forma mecanicista mais refinada”, disse ele. “Deve ser ... 
nos motivando a percorrer isso.”

Continue navegando