Prévia do material em texto
<p>Integração funcional no cérebro</p><p>Karl J Friston</p><p>The Wellcome Dept. of Cognitive Neurology, University College London Queen Square,</p><p>Londres, Reino Unido WC1N 3BG Tel (44) 020 7833 7456 Fax (44) 020 7813 1445 e-mail</p><p>k.friston@fil.ion.ucl.ac.uk</p><p>Índice</p><p>I.</p><p>II.</p><p>III.</p><p>IV.</p><p>V.</p><p>VI.</p><p>Introdução Especialização e integração funcional Aprendizagem representacional Modelos</p><p>generativos e o cérebro Avaliação de arquiteturas funcionais com imagiologia cerebral</p><p>Integração funcional e neuropsicologia Conclusão Referências</p><p>1</p><p>I INTRODUÇÃO</p><p>Esta seção é sobre a integração funcional no cérebro. Este capítulo introduz o contexto neurobiológico da</p><p>integração funcional, em termos de processamento de informação neuronal em hierarquias corticais. Isso</p><p>serve para enquadrar os tipos de questões que podem ser abordadas com análises de conectividade</p><p>funcional e eficaz. De fato, tomamos a teoria bayesiana empírica descrita no capítulo anterior como uma</p><p>possível base para a compreensão da integração entre os níveis de sistemas corticais hierarquicamente</p><p>organizados. Os dois capítulos seguintes (capítulos 19 e 20) tratam dos fundamentos da conectividade</p><p>funcional e eficaz, que são revisitados nos dois capítulos seguintes. Os capítulos 21 e 22 tratam de duas</p><p>perspetivas complementares sobre modelos de integração funcional, a saber, a formulação de Volterra ou</p><p>convolução generalizada e a representação estado-espaço usada pela Modelação Causal Dinâmica. No</p><p>capítulo final, conciliamos várias abordagens, olhando mais de perto para a matemática subjacente.</p><p>Os modelos auto-supervisionados de como o cérebro representa e categoriza as causas da sua</p><p>entrada sensorial podem ser divididos entre aqueles que minimizam a informação mútua (ou seja,</p><p>redundância) entre as respostas evocadas e aqueles que minimizam o erro de previsão. Este capítulo</p><p>descreve um desses modelos e suas implicações para a anatomia funcional das hierarquias corticais</p><p>sensoriais no cérebro. Em seguida, consideramos como as análises de conectividade eficaz podem</p><p>ser usadas para procurar arquiteturas que sejam suficientes para a aprendizagem percetiva e a</p><p>síntese. Muitos modelos de aprendizagem representacional requerem pressupostos prévios sobre a</p><p>distribuição das causas sensoriais. No entanto, como visto no capítulo anterior, a noção de Bayes</p><p>empírico, sugere que esses pressupostos não são necessários e que os priores podem ser aprendidos</p><p>em um contexto hierárquico. O principal ponto levantado neste capítulo é que as conexões</p><p>retrógradas, mediando modelos internos ou generativos de como as entradas sensoriais são causadas,</p><p>são essenciais e que as arquiteturas de feedforward, por si só, não são suficientes. Além disso, as</p><p>não-linearidades em modelos generativos exigem que essas conexões sejam modulatórias para que</p><p>causas estimadas em níveis corticais mais altos possam interagir para prever respostas em níveis</p><p>mais baixos. Isso é importante em relação às assimetrias funcionais em conexões para frente e para</p><p>trás que foram demonstradas empiricamente. Para determinar se as influências retrógradas são</p><p>expressas funcionalmente requer medições da integração funcional entre os sistemas cerebrais. Este</p><p>capítulo resume as abordagens à integração em termos de conectividade funcional e eficaz e utiliza</p><p>as considerações teóricas acima para ilustrar os tipos de questões que podem ser abordadas.</p><p>Especificamente, será mostrado que a neuroimagem funcional pode ser usada para testar interações</p><p>2</p><p>entre entradas bottom-up e top-down para uma área.</p><p>Em conjunto com o crescente interesse em efeitos de campo recetivos contextuais e extraclássicos em</p><p>eletrofisiologia (ou seja, como os campos recetivos dos neurônios sensoriais mudam de acordo com o</p><p>contexto em que um estímulo é apresentado), uma mudança de paradigma semelhante está surgindo na</p><p>neurociência de imagem. Nomeadamente, a apreciação de que a especialização funcional apresenta</p><p>fenómenos extra-clássicos semelhantes; em que uma área cortical pode ser especializada para uma coisa</p><p>em um contexto, mas outra coisa em outro. Estes fenómenos extraclássicos têm implicações para as ideias</p><p>teóricas sobre como o cérebro pode funcionar. Este capítulo usa modelos teóricos de aprendizagem</p><p>representacional como um veículo para ilustrar como a imagem pode ser usada para abordar questões</p><p>importantes sobre arquiteturas cerebrais funcionais.</p><p>Começamos por rever dois princípios fundamentais da organização cerebral, nomeadamente a</p><p>especialização funcional e a integração funcional e como assentam na anatomia e fisiologia das ligações</p><p>cortico-corticais no cérebro. A segunda seção trata da natureza e aprendizagem das representações de</p><p>uma perspetiva teórica ou computacional. O foco principal desta seção é nas arquiteturas funcionais</p><p>implícitas pelo modelo. Os modelos generativos baseados em codificação preditiva baseiam-se em</p><p>hierarquias de projeções para trás e laterais e, criticamente, conferem um papel necessário às conexões</p><p>para trás. Evidências empíricas, provenientes de estudos eletrofisiológicos de animais e estudos de</p><p>neuroimagem funcional de seres humanos, são apresentadas na terceira e quarta seções para ilustrar a</p><p>natureza sensível ao contexto da especialização funcional e como sua expressão depende da integração</p><p>entre áreas corticais remotas. A terceira seção analisa os efeitos extraclássicos na eletrofisiologia, em</p><p>termos das previsões proporcionadas por modelos generativos da função cerebral. O tema das respostas</p><p>evocadas sensíveis ao contexto é generalizado a um nível cortical e estudos de neuroimagem funcional</p><p>humana na secção subsequente. O foco crítico desta seção é a evidência da interação de influências</p><p>ascendentes e descendentes na determinação de respostas cerebrais regionais. Essas interações podem ser</p><p>consideradas assinaturas de conexões retroativas. A seção final revisa algumas das implicações das</p><p>seções de forjamento para estudos de lesões e neuropsicologia. A diásquise dinâmica é descrita, na qual</p><p>respostas neuronais aberrantes podem ser observadas como consequência de danos às áreas distais do</p><p>cérebro fornecendo aferentes habilitadores ou moduladores. Esta seção utiliza neuroimagem em pacientes</p><p>neuropsicológicos e discute as implicações para construtos baseados no modelo de déficit de lesão.</p><p>3</p><p>II ESPECIALIZAÇÃO E INTEGRAÇÃO FUNCIONAL</p><p>Um pano de fundo</p><p>O cérebro parece aderir a dois princípios fundamentais de organização funcional, integração funcional e</p><p>especialização funcional, onde a integração dentro e entre áreas especializadas é mediada por uma</p><p>conectividade eficaz. A distinção relaciona-se com aquela entre 'localismo' e '[des]conexionismo' que</p><p>dominou o pensamento sobre a função cortical no século XIX. Desde as primeiras teorias anatômicas de</p><p>Gall, a identificação de uma determinada região do cérebro com uma função específica tornou-se um</p><p>tema central na neurociência. No entanto, a localização funcional por si só não foi fácil de demonstrar:</p><p>por exemplo, uma reunião que ocorreu em 4 de agosto de 1881 abordou as dificuldades de atribuir função</p><p>a uma área cortical, dada a dependência da atividade cerebral de conexões subjacentes (Phillips et al</p><p>1984). Esta reunião intitulou-se "Localização da função no córtex cerebral". Goltz, embora aceitando os</p><p>resultados da estimulação elétrica no córtex de cães e macacos, considerou que o método de excitação era</p><p>inconclusivo, na medida em que os comportamentos provocados poderiam ter se originado em vias</p><p>relacionadas, ou a corrente poderia ter se espalhado para centros distantes. Em suma, o método de</p><p>excitação não pôde ser usado para inferir a localização funcional porque o localizacionismo descartou as</p><p>interações, ou a integração funcional entre diferentes áreas cerebrais. Propôs-se que os estudos de lesões</p><p>poderiam complementar os experimentos de excitação. Ironicamente, foram observações em pacientes</p><p>com lesões cerebrais alguns anos mais tarde (ver Absher e Benson 1993) que levaram ao conceito de</p><p>sujeitos que visualizem</p><p>objetos relativos a formas sem sentido), com e sem recuperação fonológica, revela a natureza</p><p>fatorial deste experimento. Este design "dois por dois" permite olhar especificamente para a</p><p>interação entre a recuperação fonológica e o reconhecimento de objetos. Esta análise identifica não</p><p>ativações específicas a nível regional, mas interações específicas a nível regional. Quando</p><p>realmente realizamos este experimento, essas interações eram evidentes na região temporal inferior</p><p>inferior esquerda e podem estar associadas à integração da fonologia e do reconhecimento de</p><p>objetos (ver Figura 6 e Friston et al 1996 para detalhes). Alternativamente, esta região pode ser</p><p>pensada como expressando respostas dependentes do reconhecimento que são realizadas em, e</p><p>29</p><p>apenas no, contexto de ter que nomear o objeto visto. Estes resultados podem ser interpretados como</p><p>evidência de especialização contextual para o reconhecimento de objetos que depende de aferentes</p><p>modulatórios [possivelmente de regiões temporais e parietais] que estão implicados na nomeação de</p><p>um objeto visualmente percebido. Não há evidência empírica nestes resultados que sugira que as</p><p>regiões temporais ou parietais são a fonte dessa influência de cima para baixo, mas no próximo</p><p>exemplo a fonte de modulação é abordada explicitamente usando interações psicofisiológicas.</p><p>B Interações Psicofisiológicas</p><p>As interações psicofisiológicas falam diretamente com as interações entre influências ascendentes e</p><p>descendentes, em que uma é modelada como um fator experimental e a outra constitui uma resposta</p><p>cerebral medida. Numa análise das interações psicofisiológicas procura-se explicar uma resposta</p><p>regionalmente específica em termos de uma interação entre a presença de um processo sensório-motor ou</p><p>cognitivo e a atividade noutra parte do cérebro (Friston et al 1997). A suposição aqui é que a região</p><p>remota é a fonte de aferentes modulatórios retrógrados que conferem especificidade funcional à região</p><p>alvo. Por exemplo, combinando informações sobre a atividade no córtex parietal posterior, mediando o</p><p>conjunto atencional ou percetivo pertencente a um determinado atributo de estímulo, podemos identificar</p><p>regiões que respondem a esse estímulo quando, e somente quando, a atividade na fonte parietal é alta? Se</p><p>tal interação existe, então pode-se inferir que a área parietal está modulando as respostas ao atributo de</p><p>estímulo para o qual a área é seletiva. Isto tem ramificações claras em termos da modulação de cima para</p><p>baixo de áreas corticais especializadas por regiões superiores do cérebro.</p><p>O modelo estatístico empregado no teste de interações psicofisiológicas é um modelo de regressão</p><p>simples de conectividade efetiva que incorpora efeitos não lineares (de segunda ordem ou</p><p>modulatórios). Como tal, esta classe de modelo fala diretamente com a especialização funcional de</p><p>um tipo não linear e contextual. A Figura 7 ilustra um exemplo específico (ver Dolan et al 1997 para</p><p>mais pormenores). Os sujeitos foram solicitados a visualizar rostos [degradados] e controles não</p><p>faciais (objeto). A interação entre a atividade na região parietal e a presença de faces foi expressa de</p><p>forma mais significativa na região ínfero-temporal direita, não muito longe da região</p><p>infero-temporal esquerda homóloga implicada no experimento de nomeação de objetos acima. As</p><p>alterações na atividade parietal foram induzidas experimentalmente pela pré-exposição dos</p><p>estímulos [não degradados] antes de alguns exames, mas não de outros para prepará-los. Os dados</p><p>do painel direito da Figura 7 sugerem que a região infero-temporal apresenta respostas específicas</p><p>da face, em relação aos objetos não faciais, quando, e somente quando, a atividade parietal é alta.</p><p>30</p><p>Estes resultados podem ser interpretados como uma resposta face-específica dependente de priming,</p><p>em regiões infero-temporais que são mediadas por interações com o córtex parietal medial. Este é</p><p>um exemplo claro de especialização contextual que depende de efeitos descendentes.</p><p>C Conectividade eficaz</p><p>Os exemplos anteriores, demonstrando especialização contextual, são consistentes com arquiteturas</p><p>funcionais implicadas por modelos generativos. No entanto, não fornecem provas definitivas de uma</p><p>interação entre influências descendentes e ascendentes. Nesta subseção, procuramos evidências diretas</p><p>dessas interações usando imagens funcionais. Isso se baseia em ser capaz de medir a conectividade</p><p>efetiva de uma forma que seja sensível às interações entre as entradas. Isso requer um modelo plausível</p><p>de acoplamento entre regiões cerebrais que possam acomodar efeitos não lineares. Ilustraremos o uso de</p><p>um modelo baseado na expansão Volterra descrita no Capítulo 20 (Conectividade Efetiva) e expandida</p><p>no capítulo subsequente.</p><p>1 Acoplamento não linear entre áreas cerebrais Os modelos lineares de conectividade efetiva assumem</p><p>que as múltiplas entradas para uma região do cérebro são linearmente separáveis. Essa suposição exclui</p><p>conexões dependentes da atividade que são expressas em um contexto e não em outro. A resolução deste</p><p>problema reside na adoção de modelos não lineares como a formulação de Volterra, que incluem</p><p>interações entre inputs. Essas interações podem ser interpretadas como uma modulação dependente do</p><p>contexto ou da atividade da influência que uma região exerce sobre outra (Büchel e Friston, 1997). No</p><p>modelo de Volterra, kernels de segunda ordem modelam efeitos modulatórios. Dentro destes modelos, a</p><p>influência de uma região sobre outra tem duas componentes. i) A influência direta ou determinante dos</p><p>inputs da primeira região (por exemplo, hierarquicamente inferior), independentemente das atividades</p><p>noutros locais e ii) uma componente modulatória dependente da atividade que representa uma interação</p><p>com inputs das restantes regiões (por exemplo, hierarquicamente superiores). Estes são mediados pelos</p><p>kernels de primeira e segunda ordem, respectivamente. O exemplo apresentado na Figura 8 aborda a</p><p>modulação das respostas corticais visuais por mecanismos atencionais (por exemplo, Treue e Maunsell</p><p>1996) e o papel mediador das mudanças dependentes da atividade na conectividade efetiva. Este é o</p><p>mesmo exemplo utilizado na introdução (Capítulo 1) e nos capítulos subsequentes.</p><p>O painel direito da Figura 8 mostra uma caracterização deste efeito modulador em termos do</p><p>aumento das respostas V5, a uma entrada V2 simulada, quando a atividade parietal posterior é</p><p>31</p><p>zero (linha quebrada) e quando é alta (linhas sólidas). Neste estudo, os indivíduos foram</p><p>estudados com RMf em condições de estímulo idênticas (movimento visual subtendido por</p><p>pontos em movimento radial) enquanto manipulavam o componente atencional da tarefa</p><p>(deteção de mudanças de velocidade). As regiões cerebrais e conexões que compõem o modelo</p><p>são mostradas no painel superior. O painel inferior mostra uma caracterização dos efeitos das</p><p>entradas V2 na V5 e sua modulação pelo córtex parietal posterior (CPP) usando entradas</p><p>simuladas em diferentes níveis de atividade da CPP. É evidente que V2 tem um efeito ativador</p><p>em V5 e que PPC aumenta a capacidade de resposta de V5 a estas entradas. A inserção mostra</p><p>todos os voxels em V5 que evidenciaram um efeito modulador (p<0,05 não corrigido). Estes</p><p>voxels foram identificados através de mapas estatísticos paramétricos limiares do teste</p><p>estatístico F para a contribuição de núcleos de segunda ordem envolvendo V2 e PPC, tratando</p><p>todos os outros componentes como variáveis incômodas. A estimativa dos núcleos de Volterra</p><p>e o procedimento de inferência estatística são descritos em Friston e Büchel (2000).</p><p>Este tipo de resultado sugere que as entradas parietais retrógradas podem ser uma explicação suficiente</p><p>para a modulação atencional de respostas extraestriadas evocadas visualmente. Mais importante ainda,</p><p>eles são consistentes com a arquitetura funcional implícita pela codificação preditiva porque estabelecem</p><p>a existência de conexões retroativas funcionalmente</p><p>expressas. As respostas corticais V5 evidenciam uma</p><p>interação entre a entrada ascendente do córtex visual inicial e as influências de cima para baixo do córtex</p><p>parietal. Na seção final, as implicações desse tipo de integração funcional são abordadas do ponto de vista</p><p>do modelo de déficit de lesão e da neuropsicologia.</p><p>VI. INTEGRAÇÃO FUNCIONAL E NEUROPSICOLOGIA</p><p>Se a especialização funcional depende de interações entre áreas corticais, então pode-se prever</p><p>mudanças na especificidade funcional em regiões corticais que recebem aferentes habilitadores ou</p><p>moduladores de uma área danificada. Uma consequência simples é que respostas aberrantes serão</p><p>obtidas em regiões hierarquicamente abaixo da lesão se, e somente se, essas respostas dependerem</p><p>de entradas do local da lesão. No entanto, pode haver outros contextos em que as respostas da região</p><p>são perfeitamente normais (contando com outros aferentes intactos). Isso leva à noção de uma</p><p>anormalidade específica da região dependente do contexto, causada por, mas distante de, uma lesão</p><p>(ou seja, uma resposta anormal que é provocada por algumas tarefas, mas não por outras).</p><p>32</p><p>Referimo-nos a este fenómeno como "diásquise dinâmica" (Price et al 2000). Ver Secção V,</p><p>(Linguagem e Semântica; Parte I) para uma discussão mais psicologicamente aprofundada.</p><p>Uma diásquise dinâmica</p><p>A diásquise clássica, demonstrada pelos primeiros estudos anatômicos e, mais recentemente, por estudos</p><p>de neuroimagem da atividade cerebral em repouso, refere-se a reduções regionalmente específicas na</p><p>atividade metabólica em locais remotos, mas conectados a regiões danificadas. O exemplo mais claro é a</p><p>"diásquise cerebelar cruzada" (Lenzi et al 1982), na qual anormalidades do metabolismo cerebelar são</p><p>observadas caracteristicamente após lesões cerebrais envolvendo o córtex motor. A diásquise dinâmica</p><p>descreve os efeitos sensíveis ao contexto e específicos da tarefa que uma lesão pode ter sobre as respostas</p><p>evocadas de uma região cortical distante. A ideia básica por trás da diásquise dinâmica é que uma região</p><p>cortical viável expressa respostas neuronais aberrantes quando, e somente quando, essas respostas</p><p>dependem de interações com uma região danificada. Isso pode ocorrer porque as respostas normais em</p><p>qualquer região dependem de entradas e interações recíprocas com outras regiões. As regiões envolvidas</p><p>dependerão das operações cognitivas e sensório-motoras envolvidas em um determinado momento. Se</p><p>essas regiões incluírem uma que está danificada, então respostas anormais podem ocorrer. No entanto,</p><p>pode haver situações em que a mesma região responde normalmente, por exemplo, quando a sua</p><p>dinâmica depende apenas da integração com regiões não danificadas. Se a região puder responder</p><p>normalmente em algumas situações, os componentes de condução dianteira devem estar intactos. Isso</p><p>sugere que a diásquise dinâmica só se apresentará quando a lesão envolver uma área hierarquicamente</p><p>equivalente ou superior.</p><p>1 Uma demonstração empírica Investigamos essa possibilidade em um estudo de imagem funcional</p><p>de quatro pacientes afásicos, todos com lesão no córtex frontal inferior posterior esquerdo,</p><p>classicamente conhecido como área de Broca (ver Figura 9 - painéis superiores). Estes doentes</p><p>apresentavam défices de produção de fala, mas compreensão relativamente preservada. Geralmente,</p><p>estudos de imagem funcional só podem fazer inferências sobre respostas neuronais anormais quando</p><p>alterações na estratégia cognitiva podem ser excluídas. Garantimos isso envolvendo os pacientes em</p><p>uma tarefa explícita que eles eram capazes de executar normalmente. Isso envolvia uma resposta de</p><p>pressionamento de tecla quando uma cadeia de letras apresentada visualmente continha uma letra</p><p>com uma característica visual ascendente (por exemplo: h, k, l ou t). Enquanto a tarefa permaneceu</p><p>constante, os estímulos apresentados foram palavras ou cordas de letras consonantais. As ativações</p><p>detetadas para palavras, em relação às letras, foram atribuídas ao processamento de texto implícito.</p><p>33</p><p>Cada paciente apresentou ativação normal do córtex temporal médio posterior esquerdo que tem</p><p>sido associada ao processamento semântico (Price 1998). No entanto, nenhum dos doentes ativou o</p><p>córtex frontal inferior posterior esquerdo (danificado pelo AVC) ou a região temporal inferior</p><p>posterior esquerda (não danificada pelo AVC) (ver Figura 4b). Estas duas regiões são cruciais para a</p><p>produção de palavras (Price 1998). O exame das respostas individuais nesta área revelou que todos</p><p>os indivíduos normais mostraram atividade aumentada para palavras em relação às cadeias de letras</p><p>consonantais, enquanto todos os quatro pacientes mostraram o efeito inverso. As respostas anormais</p><p>no lobo temporal inferior posterior esquerdo ocorreram apesar de esta região não danificada estar</p><p>adjacente e posterior a uma região do córtex temporal médio esquerdo que se ativou normalmente</p><p>(ver coluna média da Figura 9b). Criticamente, esta área pensa-se estar envolvida numa fase mais</p><p>precoce do processamento de texto do que o córtex frontal inferior esquerdo danificado (ou seja, é</p><p>hierarquicamente inferior à lesão). A partir desses resultados, podemos concluir que, durante a tarefa</p><p>de leitura, as respostas na área temporal basal esquerda dependem de entradas aferentes do córtex</p><p>frontal inferior posterior esquerdo. Quando o primeiro paciente foi examinado novamente, durante</p><p>uma tarefa semântica explícita, o lobo temporal inferior posterior esquerdo respondeu normalmente.</p><p>As respostas implícitas anormais relacionadas à leitura foram, portanto, específicas da tarefa.</p><p>Estes resultados servem para ilustrar o conceito de diásquise dinâmica; nomeadamente os efeitos</p><p>anatomicamente remotos e específicos do contexto das lesões cerebrais focais. A diásquise dinâmica</p><p>representa uma forma de desconexão funcional onde a disfunção regional pode ser atribuída à perda de</p><p>entradas habilitadoras de regiões cerebrais hierarquicamente equivalentes ou superiores. Ao contrário das</p><p>síndromes clássicas ou de desconexão anatômica, sua expressão fisiopatológica depende do estado</p><p>funcional do cérebro no momento em que as respostas são evocadas. A diásquise dinâmica pode ser</p><p>característica de muitos insultos cerebrais regionalmente específicos e pode ter implicações para a</p><p>inferência neuropsicológica.</p><p>CONCLUSÃO</p><p>Em conclusão, a capacidade representacional e a função inerente de qualquer neurônio, população</p><p>neuronal ou área cortical no cérebro é dinâmica e sensível ao contexto. A integração funcional, ou</p><p>interações entre sistemas cerebrais, que empregam conexões de condução (de baixo para cima) e para trás</p><p>(de cima para baixo), mediam essa especialização adaptativa e contextual. Uma consequência crítica é</p><p>que as respostas neuronais hierarquicamente organizadas, em qualquer área cortical, podem representar</p><p>coisas diferentes em momentos diferentes. Embora a maioria dos modelos de aprendizagem</p><p>34</p><p>representacional exija pressupostos prévios sobre a distribuição das causas; Bayes empírico sugere que</p><p>esses pressupostos podem ser relaxados e que os priores podem ser aprendidos em um contexto</p><p>hierárquico. Tentámos mostrar que esta previsão hierárquica baseada pode ser implementada em</p><p>arquiteturas semelhantes ao cérebro e de uma forma biologicamente plausível. Os argumentos deste</p><p>capítulo foram desenvolvidos sob modelos generativos de função cerebral, onde sistemas de nível</p><p>superior fornecem uma previsão das entradas para regiões de nível inferior. O conflito entre os dois é</p><p>resolvido por mudanças nas representações de nível superior, que são impulsionadas pelo erro</p><p>subsequente em regiões inferiores, até que a incompatibilidade seja "cancelada". Nesta perspetiva, a</p><p>especialização de qualquer região é determinada tanto por fatores de condução ascendentes como por</p><p>previsões descendentes. A especialização não é, portanto, uma propriedade intrínseca de nenhuma região,</p><p>mas depende tanto de ligações para a frente como para trás com</p><p>outras áreas. Uma vez que estes últimos</p><p>têm acesso ao contexto em que os inputs são gerados, estão em condições de modular a seletividade ou a</p><p>especialização das zonas inferiores.</p><p>A ênfase na neurobiologia teórica tem sido usada para expor a utilidade de ser capaz de medir a</p><p>conectividade eficaz e a importância do acoplamento modulatório ou não linear no cérebro. Estes aspetos</p><p>não lineares da conectividade efetiva serão um tema recorrente nos capítulos subsequentes que discutem a</p><p>conectividade funcional e eficaz de um ponto de vista operacional.</p><p>35</p><p>Referências</p><p>Abbot LF, Varela JA, Karmel Sen, and Nelson SB (1997) Synaptic depression and cortical gain control</p><p>Science 275:220-223 Absher JR and Benson DF. (1993) Síndromes de desconexão: uma visão geral das</p><p>contribuições de Geschwind. Neurologia 43:862-867 Aertsen A e Preißl H. (1991) Dinâmica da atividade</p><p>e conectividade em redes neuronais fisiológicas. em Dinâmica Não Linear e Redes Neuronais. Ed</p><p>Schuster HG VCH editoras Inc. Nova Iorque NY USA p281-302 Ballard DH, Hinton GE, Sejnowski TJ</p><p>(1983) Computação visual paralela. Natureza 306:21-6 Büchel C e Friston KJ. (1997) Modulação da</p><p>conectividade em vias visuais por atenção: interações corticais avaliadas com modelagem de equações</p><p>estruturais e fMRI. Córtex Cerebral 7:768-778 Crick F e Koch C (1998) Restrições nas projeções</p><p>corticais e talâmicas: a hipótese dos laços sem força. Nature 391:245-250 Dayan P, Hinton GE e Neal</p><p>RM (1995) A máquina de Helmholtz. Computação Neural 7:889-904 Dempster AP, Laird NM e Rubin</p><p>(1977) Máxima probabilidade de dados incompletos através do algoritmo EM. J. Roy. Soc. Série B 39;</p><p>1-38 Dolan RJ Fink GR Rolls E Booth M Holmes A Frackowiak RSJ Friston KJ (1997) Como o cérebro</p><p>aprende a ver objetos e rostos em um contexto empobrecido Natureza 389: 596-598 Efron B e Morris C</p><p>(1973) A regra de estimativa de Stein e seus concorrentes – uma abordagem Bayes empírica. J. Am.</p><p>Estatísticas. 68:117-130 Felleman DJ e Van Essen DC (1991) Processamento hierárquico distribuído no</p><p>córtex cerebral de primatas. Córtex Cerebral 1:1-47 Friston KJ (1995) Conectividade funcional e eficaz</p><p>em neuroimagem: Uma síntese Human Brain Mapping 2; 56-78 Friston, KJ Price, CJ, Fletcher P, Moore</p><p>C, Frackowiak, RSJ e Dolan, RJ. (1996) O problema da subtração cognitiva. NeuroImage 4:97-104</p><p>Friston KJ Büchel C Fink GR Morris J Rolls E e Dolan RJ (1997) Interações psicofisiológicas e</p><p>moduladoras em neuroimagem. NeuroImage 6:218-229 Friston KJ e Büchel C (2000) Modulação</p><p>atencional de V5 em humanos Pro Natl Acad.</p><p>EUA 97:7591-7596 Gerstein GL e Perkel DH. (1969) Trens de potenciais de ação</p><p>simultaneamente registrados: Análise e interpretação funcional. Ciência 164: 828-830 Girard P</p><p>e Bullier J. (1989) Atividade visual na área V2 durante a inativação reversível da área 17 no</p><p>36</p><p>macaco. J Neurofisiologia. 62:1287-1301 Hinton GE, Dayan P, Frey, BJ e Neal RM (1995) O</p><p>algoritmo "Wake-Sleep" para redes neurais não supervisionadas. Ciência 268; 1158-1161</p><p>Hirsch JA e Gilbert CD. (1991) Fisiologia sináptica de conexões horizontais no córtex visual</p><p>do gato. J. Neurosci. 11:1800-1809 Kass RE e Steffey D (1989) Inferência bayesiana</p><p>aproximada em modelos hierárquicos condicionalmente independentes (modelos Bayes</p><p>empíricos paramétricos). 407:717-726 Kay J e Phillips WA (1996) Funções de ativação,</p><p>objetivos computacionais e regras de aprendizagem para processadores locais com orientação</p><p>contextual. Computação Neural 9:895-910 Lenzi, GL, Frackowiak, R.S.J., Jones, T. (1982)</p><p>Metabolismo cerebral do oxigênio e fluxo sanguíneo no infarto isquêmico cerebral humano. J.</p><p>Cereb. Fluxo Sanguíneo e Metab. 2: 321-335 Mumford D (1992) Sobre a arquitetura</p><p>computacional do neocórtex. II. O papel das alças corticocorticais. Cybern 66:241-51 McIntosh</p><p>AR (2000) Towards a network theory of cognition. Redes Neurais 13:861-870 Olshausen BA e</p><p>Field DJ (1996) Surgimento de propriedades de campo recetivo de células simples através da</p><p>aprendizagem de um código esparso para imagens naturais. Nature 381:607-609 Pearl J (2000)</p><p>Causalidade, modelos, raciocínio e inferência. Cambridge University Press, Reino Unido.</p><p>Phillips CG Zeki S e HB Barlow HB. (1984) Localização da função no córtex cerebral:</p><p>Passado, presente e futuro. Cérebro 107:327-361 Phillips WA e Singer W (1997) Em busca de</p><p>fundamentos comuns para a computação cortical. Ciências do Comportamento e do Cérebro.</p><p>20:57-83 Price, CJ (1998) A anatomia funcional da compreensão e produção de palavras.</p><p>Tendências. Engrenagem. Sci. 2:281-288.</p><p>Price CJ Warburton EA, Moore, CJ, Frackowiak RSJ e Friston KJ. (2000) Diásquise dinâmica:</p><p>lesões cerebrais humanas anatomicamente remotas e específicas do contexto. Journal of</p><p>Cognitive Neuroscience 00:00-00 Rao RP & Ballard DH (1998) Codificação preditiva no</p><p>córtex visual: Uma interpretação funcional de alguns efeitos de campo recetivos extraclássicos.</p><p>Neurociência da Natureza 2, 79-87 Rao RP (1999). Uma abordagem de estimativa ideal para a</p><p>perceção visual e aprendizagem. Visão Res. 39:1963-89 Rockland K. S. e Pandya D. N. (1979)</p><p>Origens laminares e terminações das conexões corticais do lobo occipital no macaco rhesus.</p><p>Cérebro-Res. 179: 3-20 Salin P-A e Bullier J (1995) Conexões corticocorticais no sistema</p><p>visual: estrutura e função. Psicol. Boi. 75:107-154 Sandell JH e Schiller PH (1982) Efeito da</p><p>37</p><p>área de resfriamento 18 nas células do córtex estriado no macaco-esquilo. J. Neurofisiologia.</p><p>48:38-48 Treue S e Maunsell HR. (1996) Modulação atencional do processamento visual do</p><p>movimento em áreas corticais MT e MST. Nature 382: 539-41 Zeki S e Shipp S (1988) A</p><p>lógica funcional das conexões corticais. Natureza 335:311-317 Zeki S. (1990) As vias de</p><p>movimento do córtex visual. in "Visão: codificação e eficiência" (C Blakemore Ed.)</p><p>Cambridge University Press Reino Unido p321-345</p><p>38</p><p>Gráfico 1</p><p>Esquema de um modelo simples com uma causa univariada e uma observação bivariada. As observações</p><p>são indicadas por pontos no painel direito e agrupadas em torno de uma linha curvilínea. Uma maneira</p><p>parcimoniosa de gerar pontos como esses seria mover para cima e para baixo na linha e adicionar uma</p><p>pequena quantidade de erro aleatório. A posição na linha corresponde ao estado da causa única e à</p><p>probabilidade de selecionar uma determinada posição, a densidade de probabilidade das causas à direita.</p><p>Gráfico 2</p><p>Esquema ilustrando os dois componentes da EM. No E-Step, a distribuição conjunta de causas e</p><p>entradas sob o modelo de reconhecimento muda para se aproximar daquela sob o modelo generativo. Isso</p><p>refina o modelo de reconhecimento. No M-Step a distribuição conjunta sob o modelo generativo muda</p><p>para se aproximar do modelo de reconhecimento. Isso reduz a diferença entre a distribuição de insumos</p><p>implícita pelo modelo generativo e a observada.</p><p>Gráfico 3</p><p>Esquema que ilustra o papel dos priores no enviesamento para uma representação de uma entrada ou</p><p>outra. Painel superior: Ao ler a primeira frase "Jack e Jill subiram a colina", percebemos a palavra</p><p>"evento" como "foi", apesar de ser "evento" (como na segunda frase). No entanto, na ausência de</p><p>qualquer inferência hierárquica, a melhor explicação para o padrão de estimulação visual incorrido pelo</p><p>texto é o grafema 'ev'. Esta corresponderia à estimativa de máxima verossimilhança e seria a mais</p><p>adequada na ausência de informação prévia, do contexto lexical e semântico, sobre qual é o grafema mais</p><p>provável. No entanto, dentro da inferência hierárquica, a semântica (fornecida pela frase) fornece</p><p>previsões de cima para baixo sobre a palavra, que por sua vez prevê os grafemas e, finalmente, a entrada</p><p>visual. A estimativa posterior é responsável por todos esses níveis. Quando os vieses semânticos prévios</p><p>favorecem "foi" e "w", toleramos um pequeno erro como um nível inferior de análise visual para</p><p>minimizar o erro geral de previsão. Painel inferior: (esquerda) O grafema 'ev' é selecionado como a causa</p><p>mais provável de entrada visual. (à direita)</p><p>A letra 'w' é selecionada, pois é (i) uma explicação razoável</p><p>para a entrada sensorial e (ii) está de acordo com expectativas prévias induzidas pelo contexto</p><p>léxico-semântico. As barras representam o erro de previsão, que é minimizado em todos os níveis para</p><p>atingir a causa mais provável.</p><p>39</p><p>Figura 4</p><p>Os modelos hierárquicos incorporam a sensibilidade ao contexto não encontrada em modelos de nível único (c.f. Gráfico</p><p>1). Causas de alto nível determinar a expectativa prévia das causas v no subordinadoeu</p><p>nível. Alterações na pode mudar completamente o marginal p (</p><p>v</p><p>i − 1; θ) e reconhecimento</p><p>p (v | v;</p><p>i i − 1 θ) distribuições nas quais a inferência se baseia.</p><p>Figura 5</p><p>Painel superior: Esquema que representa uma extensão hierárquica para a arquitetura de codificação</p><p>preditiva. Os arranjos hierárquicos dentro do modelo servem para fornecer previsões ou prévias para</p><p>representações no nível abaixo. Os círculos abertos são as unidades de erro e os círculos preenchidos são</p><p>os estados que codificam a expectativa condicional de causas no ambiente. Estas alterações são alteradas</p><p>para minimizar tanto as discrepâncias entre o seu valor previsto como o desfasamento incorrido pela sua</p><p>própria previsão do nível abaixo. Estas duas restrições correspondem, respectivamente, a termos</p><p>anteriores e de probabilidade (ver texto principal). Painel inferior: Uma imagem mais detalhada das</p><p>influências nas unidades principais e de erro.</p><p>Figura 6</p><p>Este exemplo de interações regionalmente específicas provém de uma experiência em que os</p><p>participantes foram convidados a ver formas não objetivas coloridas ou objetos coloridos e a dizer "sim",</p><p>ou a nomear o objeto colorido ou a cor da forma. Esquerda: Uma interação regionalmente específica no</p><p>córtex infero-temporal esquerdo. O limiar SPM é p < 0,05 (não corrigido). Direita: As atividades</p><p>correspondentes nos máximos desta região são retratadas em termos de respostas dependentes do</p><p>reconhecimento de objetos com e sem nomeação. Observa-se que esta região apresenta respostas de</p><p>reconhecimento de objetos quando, e somente quando, há recuperação fonológica. A ativação 'extra' com</p><p>nomenclatura corresponde à interação. Estes dados foram obtidos de seis indivíduos digitalizados 12</p><p>vezes usando PET.</p><p>Figura 7</p><p>Topo: Exemplos dos estímulos apresentados aos sujeitos. Durante a medição das respostas</p><p>cerebrais, apenas estímulos degradados foram mostrados (por exemplo, a imagem da mão direita).</p><p>Em metade dos exames, o sujeito recebeu a causa subjacente desses estímulos, através da</p><p>apresentação da imagem original (por exemplo, à esquerda) antes da digitalização. Este priming</p><p>induziu uma diferença profunda no conjunto percetivo para os estímulos primed, em relação aos não</p><p>40</p><p>primed, Right: Activity observed in a right infero-temporal region, em função da atividade [média</p><p>corrigida] da PPC. Esta região apresentou a interação mais significativa entre a presença de faces em</p><p>estímulos visualmente apresentados e a atividade em um local de referência no córtex parietal</p><p>medial posterior (CPP). Esta análise pode ser pensada como encontrando as áreas que estão sujeitas</p><p>à modulação top-down de respostas específicas da face pela atividade parietal medial. As cruzes</p><p>correspondem à atividade enquanto visualizam estímulos não faciais e os círculos a rostos. A</p><p>essência deste efeito pode ser vista observando que esta região diferencia entre faces e não-faces</p><p>quando, e somente quando, a atividade parietal medial é alta. As linhas correspondem ao melhor</p><p>ajuste polinomial de segunda ordem. Estes dados foram obtidos de seis indivíduos em uso de PET.</p><p>Esquerda: Esquema que descreve o modelo conceitual subjacente no qual aferentes condutores de</p><p>áreas de forma ventral (aqui designadas como V4) excitam respostas infero-temporais (IT), sujeitas</p><p>a modulação permissiva por projeções PPC.</p><p>Figura 8</p><p>Painel superior: Regiões cerebrais e conexões que compõem o modelo. Painel inferior: Caracterização</p><p>dos efeitos das entradas V2 na V5 e sua modulação pelo córtex parietal posterior (CPP). As linhas</p><p>quebradas representam estimativas de respostas V5 quando a atividade PPC é zero, de acordo com um</p><p>modelo Volterra de segunda ordem de conectividade efetiva com entradas para V5 de V2, PPC e pulvinar</p><p>(PUL). As curvas sólidas representam a mesma resposta quando a atividade da PPC é um desvio padrão</p><p>de sua variação sobre as condições. É evidente que V2 tem um efeito ativador em V5 e que PPC aumenta</p><p>a capacidade de resposta de V5 a estas entradas. A inserção mostra todos os voxels em V5 que</p><p>evidenciaram um efeito modulador (p < 0,05 não corrigido). Estes voxels foram identificados através do</p><p>limiar de um SPM (Friston et al 1995b) do teste estatístico F para a contribuição de núcleos de segunda</p><p>ordem envolvendo V2 e PPC (tratando todos os outros termos como variáveis incômodas). Os dados</p><p>foram obtidos com RMf em condições de estímulo idênticas (movimento visual subtendido por pontos</p><p>em movimento radial) enquanto se manipulava o componente atencional da tarefa (deteção de mudanças</p><p>de velocidade).</p><p>Figura 9</p><p>a) Topo: Estas renderizações ilustram a extensão dos infartos cerebrais em quatro pacientes, identificados</p><p>pela morfometria baseada em voxel. Regiões de substância cinzenta reduzida (em relação aos controles</p><p>neurologicamente normais) são mostradas em branco no hemisfério esquerdo. Os SPMs foram limiares</p><p>em P<0,001 não corrigidos. Todos os pacientes apresentaram danos na área de Broca. O primeiro infarto</p><p>da artéria cerebral média esquerda do primeiro paciente (superior esquerdo) foi mais extenso, abrangendo</p><p>41</p><p>regiões temporais e parietais, bem como córtex frontal e motor. b) Parte inferior: SPMs ilustrando os</p><p>resultados de imagem funcional com regiões de ativação significativa mostradas em preto no hemisfério</p><p>esquerdo. Os resultados são apresentados para: (i) Indivíduos normais lendo palavras (esquerda). (ii)</p><p>Ativações comuns a indivíduos normais e pacientes que leem palavras usando uma análise de conjunção</p><p>(meio-topo). (iii) Áreas onde indivíduos normais ativam significativamente mais do que os pacientes que</p><p>leem palavras, usando a interação da condição de tempos de grupo (Média inferior). (iv) O primeiro</p><p>paciente ativando normalmente para uma tarefa semântica. Falhas sensíveis ao contexto para ativar estão</p><p>implícitas nas ativações anormais no primeiro paciente, para a tarefa de leitura implícita, apesar de uma</p><p>ativação normal durante uma tarefa semântica.</p><p>42</p><p>Tabela 1</p><p>Algumas características-chave das conexões cortico-corticais extrínsecas no cérebro</p><p>Organização hierárquica</p><p>• A organização dos córtices visuais pode ser considerada como uma hierarquia (Felleman e Van Essen, 1991).</p><p>• A noção de hierarquia depende de uma distinção entre conexões extrínsecas para frente e para trás.</p><p>• Esta distinção assenta em diferentes especificidades laminares (Rockland e Pandya 1979, Salin e Bullier 1995).</p><p>• As conexões com versões anteriores são mais numerosas e transcendem mais níveis</p><p>• As conexões para trás são mais divergentes do que as conexões para frente (Zeki e Shipp 1988).</p><p>Encaminha conexões Conexões retroativas</p><p>Bifurcações axonais esparsas Topograficamente</p><p>organizadas Originam-se em camadas supragranulares</p><p>Terminam em grande parte nos efeitos pós-sinápticos</p><p>da camada VI através de recetores rápidos AMPA</p><p>(decaimento de 1,3-2,4ms) e GABAA (decaimento de</p><p>6ms).</p><p>Bifurcação axonal abundante Topografia difusa</p><p>Originar-se em camadas bilaminares/infragranulares</p><p>Terminar predominantemente em camadas</p><p>supragranulares Aferentes moduladores ativam</p><p>recetores NMDA sensíveis à tensão lenta (decaimento</p><p>de 50ms)</p><p>43</p><p>Inferência e aprendizagem</p><p>u (</p><p>2 )</p><p>=</p><p>vˆ</p><p>p (</p><p>v</p><p>; i)</p><p>Causa (v)</p><p>G</p><p>(2) ( v, θ . ). . . u. . vˆ p (u; θ)</p><p>v</p><p>u (1) =</p><p>G</p><p>(1) ( v, θ )</p><p>1</p><p>Maximização de expectativas</p><p>p (u)</p><p>p (u; θ)</p><p>p (u)</p><p>p (u; θ)</p><p>E-Passo</p><p>q (v; u, φ )p(u)</p><p>p ( v,u ; θ) = p (u | v; θ) p (v;</p><p>θ)</p><p>p (v; θ)</p><p>Causa (v)</p><p>q (v; u, φ )p(u)</p><p>p ( v,u ; θ) = p (u | v; θ) p (v;</p><p>θ)</p><p>M-Passo</p><p>p (v; θ)</p><p>Causa (v)</p><p>2</p><p>E</p><p>n</p><p>tr</p><p>ad</p><p>a</p><p>(u</p><p>)</p><p>E</p><p>n</p><p>tr</p><p>ad</p><p>a</p><p>(u</p><p>)</p><p>Entrada visual</p><p>Grafémico</p><p>Lexical</p><p>Semântica</p><p>w EV w EV</p><p>Esteve presente</p><p>evento</p><p>Jack e Jill subiram a colina</p><p>o</p><p>1</p><p>o</p><p>2</p><p>Modelos hierárquicos</p><p>G (</p><p>2 v</p><p>3 3,i</p><p>2 )</p><p>p (v | v; θ)</p><p>2</p><p>3</p><p>v2</p><p>G ( v, θ2 3 2)</p><p>p (v |</p><p>2 v</p><p>3; i)</p><p>v</p><p>u ( 2 ) = G (2)1 (v 2 1)</p><p>p (u; θ)</p><p>v2</p><p>u (1) = G (1)1 (v</p><p>2 , (i)</p><p>1</p><p>Contexto 1</p><p>u ( 2 ) = G (2) ( v, θ1 2 1)</p><p>p (u; θ)</p><p>v</p><p>2</p><p>u (1) = (1)</p><p>2</p><p>G ( v, θ</p><p>1 2 1 )</p><p>Contexto 2</p><p>4</p><p>Arquiteturas hierárquicas</p><p>para Bayes Empíricos</p><p>v = G (v + )</p><p>i + e</p><p>i i 1 i</p><p>Para trás e lateral</p><p>&f</p><p>1</p><p>O &f</p><p>2 2</p><p>3 ξ &</p><p>φ</p><p>3 ξ = φ −</p><p>G</p><p>i i i (φ i +,</p><p>i</p><p>1) − λ ξ</p><p>i i i</p><p>v</p><p>v</p><p>1 1 = f</p><p>Avançado e lateral</p><p>φ & =</p><p>∂ ξ T</p><p>1 − i</p><p>+</p><p>i ∂ ξ T ξ −</p><p>i + 1</p><p>o</p><p>+ ∂ f</p><p>i 1i + 1 ∂ φ i</p><p>i + 1</p><p>v v3 2 o</p><p>1</p><p>u</p><p>=</p><p>Reconhecimento antecipado</p><p>efeitos</p><p>− ∂ ξ T</p><p>i − 1 ξ ∂ φ i</p><p>−</p><p>eu</p><p>interações laterais</p><p>− G (φ</p><p>eu</p><p>i + 1,</p><p>θ</p><p>i )</p><p>Efeitos de geração</p><p>retrógrada</p><p>i ∂ ξ T</p><p>− λDescorrelacionando priores mediadores</p><p>− o ∂ φ i</p><p>eu</p><p>interações laterais</p><p>5</p><p>F</p><p>eu</p><p>1</p><p>o</p><p>eu</p><p>o</p><p>eu</p><p>Interações regionais específicas</p><p>Ativações específicas do objeto</p><p>Contexto: sem</p><p>nomenclatura</p><p>nomenclatura</p><p>rC</p><p>B</p><p>F</p><p>a</p><p>ju</p><p>st</p><p>ad</p><p>o</p><p>Modulação da seletividade facial por PPC</p><p>CPP</p><p>superior</p><p>Atividade PPC</p><p>emergência da seletividade facial</p><p>Rostos</p><p>V4</p><p>inferior</p><p>Objetos</p><p>ELE</p><p>rC</p><p>B</p><p>F</p><p>a</p><p>ju</p><p>st</p><p>ad</p><p>o</p><p>CPP</p><p>PUL</p><p>Alterações nas respostas V5 às entradas de V2</p><p>com atividade PPC</p><p>V2 V5</p><p>Atividade PPC = 1 s.d.</p><p>Atividade PPC = 0</p><p>SPM{F}</p><p>a)</p><p>Diásquise dinâmica</p><p>Locais de lesão em quatro pacientes</p><p>b) Padrões de ativação</p><p>Ativações normais</p><p>Leitura implícita</p><p>Ativações em doentes Ativações no primeiro doente</p><p>Leitura implícita Tarefa semântica</p><p>Ativação sensível</p><p>ao contexto</p><p>Falha na ativação</p><p>Leitura implícita</p><p>falha em</p><p>"síndromes de desconexão" e à refutação do localisationism como uma explicação completa ou suficiente</p><p>da organização cortical. A localização funcional implica que uma função pode ser localizada numa área</p><p>cortical, enquanto a especialização sugere que uma área cortical é especializada para alguns aspetos do</p><p>processamento percetivo ou motor, onde esta especialização pode ser anatomicamente segregada dentro</p><p>do córtex. A infraestrutura cortical que suporta uma única função pode então envolver muitas áreas</p><p>especializadas cuja união é mediada pela integração funcional entre elas. A especialização funcional e a</p><p>integração não são exclusivas, são complementares. A especialização funcional só é significativa no</p><p>contexto da integração funcional e vice-versa.</p><p>B Especialização funcional e segregação</p><p>4</p><p>O papel funcional, desempenhado por qualquer componente (por exemplo, área cortical, sub-área,</p><p>população neuronal ou neurônio) do cérebro, é definido em grande parte por suas conexões. Certos</p><p>padrões de projeções corticais são tão comuns que podem equivaler a regras de conectividade cortical.</p><p>"Essas regras giram em torno de uma estratégia, aparentemente, primordial que o córtex cerebral usa - a</p><p>da segregação funcional" (Zeki 1990). A segregação funcional exige que as células com propriedades</p><p>funcionais comuns sejam agrupadas. Esta restrição arquitetônica, por sua vez, requer convergência e</p><p>divergência de conexões corticais. As conexões extrínsecas, entre regiões corticais, não são contínuas,</p><p>mas ocorrem em manchas ou aglomerados. Esta irregularidade tem, em alguns casos, uma relação clara</p><p>com a segregação funcional. Por exemplo, a área visual secundária V2 tem uma arquitetura distinta de</p><p>citocromo oxidase, consistindo em listras grossas, listras finas e interlistras. Quando as gravações são</p><p>feitas em V2, células seletivas direcionalmente (mas não de comprimento de onda ou cor seletivas) são</p><p>encontradas exclusivamente nas listras grossas. A rotulagem retrógrada (ou seja, retrógrada) das células</p><p>em V5 limita-se a estas riscas grossas. Todas as evidências fisiológicas disponíveis sugerem que V5 é</p><p>uma área funcionalmente homogênea especializada para movimento visual. Provas desta natureza apoiam</p><p>a noção de que a conectividade irregular é a infraestrutura anatómica subjacente à segregação funcional e</p><p>à especialização. Se é o caso de os neurónios numa dada área cortical partilharem uma capacidade de</p><p>resposta comum (em virtude da sua conectividade extrínseca) a algum atributo sensório-motor ou</p><p>cognitivo, então esta segregação funcional é também anatómica. Desafiar um sujeito com o atributo</p><p>sensório-motor ou processo cognitivo apropriado deve levar a mudanças de atividade em, e apenas em,</p><p>áreas de interesse. Este é o modelo no qual se baseia a busca de efeitos específicos regionais com</p><p>neuroimagem funcional.</p><p>C Anatomia e fisiologia das conexões cortico-corticais</p><p>Se a especialização assenta na conectividade, então importantes princípios organizacionais devem</p><p>ser incorporados na neuroanatomia e fisiologia das conexões extrínsecas. As conexões extrínsecas</p><p>acoplam diferentes áreas corticais enquanto as conexões intrínsecas estão confinadas à folha</p><p>cortical. Existem certas características das conexões corticocorticais que fornecem fortes pistas</p><p>sobre seu papel funcional. Em resumo, parece haver uma organização hierárquica que se baseia na</p><p>distinção entre conexões para frente e para trás. A designação de uma conexão como para frente</p><p>ou para trás depende principalmente de suas camadas corticais de origem e terminação. Algumas</p><p>características das conexões corticocorticais são apresentadas a seguir e estão resumidas na Tabela</p><p>1. A lista não é exaustiva, nem devidamente qualificada, mas serve para introduzir alguns princípios</p><p>5</p><p>importantes que emergiram de estudos empíricos do córtex visual.</p><p>• Organização hierárquica A organização dos córtices visuais pode ser considerada como uma</p><p>hierarquia de níveis corticais com conexões cortico-corticais extrínsecas recíprocas entre as áreas</p><p>corticais constituintes (Felleman e Van Essen 1991). A noção de hierarquia depende de uma</p><p>distinção entre conexões extrínsecas recíprocas para frente e para trás.</p><p>• Conexões recíprocas Embora as conexões recíprocas, para frente e para trás mostrem uma</p><p>assimetria microestrutural e funcional. As terminações de ambos mostram especificidade laminar.</p><p>As ligações para a frente (de um nível baixo para um nível alto) têm bifurcações axonais esparsas</p><p>e estão topograficamente organizadas; originando-se em camadas supragranulares e terminando</p><p>em grande parte na camada VI. As conexões para trás, por outro lado, mostram bifurcação axonal</p><p>abundante e uma topografia mais difusa. As suas origens são bilaminares/infragranulares e</p><p>terminam predominantemente em camadas supragranulares (Rockland e Pandya 1979, Salin e</p><p>Bullier 1995). As conexões extrínsecas mostram uma convergência ordenada e divergência de</p><p>conexões de um nível cortical para o seguinte. Em um nível macroscópico, um ponto em uma</p><p>determinada área cortical se conectará a uma região de 5 a 8mm de diâmetro em outra. Uma</p><p>distinção importante entre conexões para frente e para trás é que as conexões para trás são mais</p><p>divergentes. Por exemplo, a região de divergência de um ponto em V5 (ou seja, a região que</p><p>recebe aferentes para trás de V5) pode incluir faixas espessas e inter-listras em V2, enquanto a sua</p><p>região de convergência (ou seja, a região que fornece aferentes avançados para V5) é limitada às</p><p>listras grossas (Zeki e Shipp 1988). As conexões para trás são mais abundantes do que as</p><p>conexões para frente e transcendem mais níveis. Por exemplo, a relação entre conexões eferentes</p><p>para frente e aferentes para trás no geniculado lateral é de cerca de 1:10/20. Outra distinção</p><p>importante é que as conexões para trás atravessarão vários níveis hierárquicos, enquanto as</p><p>conexões para frente são mais restritas. Por exemplo, existem conexões para trás de TE e TEO</p><p>para V1, mas não conexões monosinápticas de V1 para TE ou TEO (Salin e Bullier 1995).</p><p>• Ligações funcionalmente assimétricas para a frente e para trás</p><p>6</p><p>Funcionalmente, os estudos de inativação reversível (por exemplo, Sandell e Schiller 1982,</p><p>Girard e Bullier 1988) e de neuroimagem (por exemplo, Büchel e Friston 1997) sugerem que as</p><p>ligações para a frente estão a conduzir, provocando sempre uma resposta, enquanto as ligações</p><p>para trás também podem ser modulatórias. Neste contexto, as conexões retroativas modulatórias</p><p>modulam a capacidade de resposta a outras entradas. A noção de que as conexões diretas estão</p><p>relacionadas com a promulgação e segregação de informações sensoriais é consistente com; (i)</p><p>sua bifurcação axonal esparsa, (ii) terminações axonais irregulares, (iii) e projeções</p><p>topográficas. Em contraposição, as conexões para trás são geralmente consideradas como tendo</p><p>a papel na mediação de efeitos contextuais e na coordenação dos canais de processamento. Isto é coerente</p><p>com; (i) sua bifurcação frequente, (ii) terminações axonais difusas (iii) e topografia mais divergente</p><p>(Salin e Bullier 1995, Crick e Koch 1998). As conexões avançadas meditam seus efeitos pós-sinápticos</p><p>através de recetores rápidos AMPA (decaimento de 1,3-2,4ms) e GABAA (decaimento de 6ms). Os</p><p>efeitos modulatórios podem ser mediados por recetores NMDA. Os recetores NMDA são sensíveis à</p><p>tensão, mostrando dinâmica não linear e lenta (decaimento ~50ms). Eles são encontrados</p><p>predominantemente em camadas supragranulares onde as conexões para trás terminam (Salin e Bullier,</p><p>1995). Essas constantes de tempo lentas novamente apontam para</p><p>a papel na mediação de efeitos contextuais que são mais duradouros do que as respostas sensoriais</p><p>fásicas.</p><p>Existem muitos mecanismos que são responsáveis por estabelecer conexões no cérebro. A</p><p>conectividade resulta da interação entre mecanismos genéticos, epigenéticos e dependentes da</p><p>atividade ou da experiência. No útero, predominam mecanismos epigenéticos, como</p><p>a</p><p>interação entre a topografia da camada cortical em desenvolvimento, a migração celular, a</p><p>expressão gênica e o papel mediador das interações gene-gene e produtos genéticos, como</p><p>moléculas de adesão celular (CAMs). Após o nascimento, as conexões são progressivamente</p><p>refinadas e remodeladas com maior ênfase na plasticidade dependente da atividade e do uso.</p><p>Estas mudanças perduram até à idade adulta com uma reorganização contínua e uma</p><p>plasticidade dependente da experiência que subserve a adaptação comportamental e a</p><p>aprendizagem ao longo da vida. Em resumo, existem dois determinantes básicos da</p><p>conectividade. (i) Plasticidade estrutural, refletindo as interações entre a biologia molecular da</p><p>expressão genética, a migração celular e a neurogénese no cérebro em desenvolvimento. ii)</p><p>Plasticidade sináptica: Modelação dependente da atividade do padrão e da força das ligações</p><p>sinápticas. Esta plasticidade envolve mudanças na forma, expressão e função das sinapses que</p><p>perduram ao longo da vida. A plasticidade é um importante atributo funcional das conexões no</p><p>cérebro e é pensada para subservir a aprendizagem percetiva e processual e memória. Um</p><p>aspeto fundamental desta plasticidade é que ela é geralmente associativa.</p><p>7</p><p>• Plasticidade associativa: A plasticidade sináptica pode ser transitória (por exemplo,</p><p>potenciação a curto prazo, STP ou depressão, DST) ou duradoura (por exemplo,</p><p>potenciação a longo prazo, LTP ou LTD) com muitas constantes de tempo diferentes. Em</p><p>contraste com a plasticidade a curto prazo, as alterações a longo prazo dependem da síntese</p><p>proteica, da remodelação sináptica e de alterações infraestruturais nos processos celulares</p><p>(por exemplo, arbours terminais ou espinhos dendríticos) que são mediados por</p><p>mecanismos dependentes do cálcio. Um aspeto importante dos recetores NMDA, na</p><p>indução de LTP, é que eles conferem associativamente mudanças na força de conexão. Isto</p><p>porque a sua sensibilidade à tensão só permite a entrada de iões de cálcio na célula quando</p><p>existe uma libertação pré-sináptica conjunta de glutamato e uma despolarização</p><p>pós-sináptica suficiente (ou seja, a associação temporal de eventos pré e pós-sinápticos). A</p><p>entrada de cálcio torna a especialização pós-sináptica elegível para potenciação futura,</p><p>promovendo a formação de "tags" sinápticas (por exemplo, Frey e Morris 1998) e outros</p><p>mecanismos intracelulares dependentes do cálcio.</p><p>Em resumo, a anatomia e a fisiologia das conexões corticocorticais sugerem que as conexões diretas estão</p><p>impulsionando e comprometendo as células a uma resposta pré-especificada dado o padrão apropriado de</p><p>entradas. As ligações para trás, por outro lado, são menos topográficas e estão em posição de modular as</p><p>respostas das áreas mais baixas às entradas de condução de áreas mais altas ou mais baixas (ver Tabela</p><p>1). Por exemplo, no córtex visual, Angelucci et al (2002a) utilizaram uma combinação de métodos de</p><p>registro anatômico e fisiológico para determinar a escala espacial e a lógica retinotópica de conexões</p><p>horizontais intra-areais V1 e conexões de feedback inter-areal para V1. "Ao contrário das crenças</p><p>comuns, essas conexões [horizontais monosinápticas] não podem explicar totalmente as dimensões do</p><p>campo surround [dos neurônios V1 do macaco]. A escala espacial dos circuitos de feedback do córtex</p><p>extrastriado para V1 é, em vez disso, proporcional à gama espacial completa de interações</p><p>centro-surround. Assim, essas conexões poderiam representar um substrato anatômico para modulação</p><p>contextual e integração global-local de sinais visuais."</p><p>As conexões cerebrais não são estáticas, mas estão mudando no nível sináptico o tempo todo. Em muitos</p><p>casos, esta plasticidade é associativa. As conexões retrógradas são abundantes no cérebro e estão em</p><p>posição de exercer efeitos poderosos sobre as respostas evocadas, em níveis mais baixos, que definem a</p><p>especialização de qualquer área ou população neuronal. Os efeitos modulatórios implicam que a resposta</p><p>pós-sináptica evocada pela entrada pré-sináptica é modulada, ou interage com, outra. Por definição, esta</p><p>interação deve depender de mecanismos sinápticos ou dendríticos não lineares.</p><p>8</p><p>D Integração funcional e conectividade eficaz</p><p>A eletrofisiologia e a neurociência da imagem estabeleceram firmemente a especialização funcional como</p><p>um princípio da organização cerebral no homem. A integração funcional de áreas especializadas</p><p>revelou-se mais difícil de avaliar. A integração funcional refere-se às interações entre populações</p><p>neuronais especializadas e como essas interações dependem do contexto sensório-motor ou cognitivo. A</p><p>integração funcional é geralmente avaliada examinando as correlações entre a atividade em diferentes</p><p>áreas do cérebro, ou tentando explicar a atividade em uma área em relação às atividades em outros</p><p>lugares. A conectividade funcional é definida como correlações entre eventos neurofisiológicos remotos1.</p><p>No entanto, as correlações podem surgir de várias maneiras. Por exemplo, em gravações de eletrodos</p><p>multiunidades, eles podem resultar de transientes bloqueados por estímulos evocados por uma entrada</p><p>comum ou refletir oscilações induzidas por estímulos mediadas por conexões sinápticas (Gerstein e</p><p>Perkel, 1969). A integração dentro de um sistema distribuído é melhor compreendida em termos de</p><p>conectividade eficaz. A conectividade efetiva refere-se explicitamente à influência que um sistema</p><p>neuronal exerce sobre outro, seja a nível sináptico (ou seja, eficácia sináptica) ou populacional. Foi</p><p>proposto que "a noção [eletrofisiológica] de conectividade efetiva deve ser entendida como o diagrama de</p><p>circuito mais simples possível, dependente do experimento e do tempo, que replicaria as relações de</p><p>tempo observadas entre os neurônios registrados" (Aertsen e Preißl 1991). Isso diz respeito a dois pontos</p><p>importantes: (i) a conectividade efetiva é dinâmica, ou seja, dependente da atividade e do tempo e (ii)</p><p>depende de um modelo das interações. Uma distinção importante, entre os modelos empregados na</p><p>neuroimagem funcional, é se esses modelos são lineares ou não lineares. As caracterizações recentes da</p><p>conectividade efetiva centraram-se em modelos não lineares que acomodam os efeitos modulatórios ou</p><p>não lineares acima mencionados. Uma discussão mais detalhada desses modelos é fornecida nos capítulos</p><p>seguintes, depois que a motivação para sua aplicação é estabelecida abaixo. Neste capítulo, os termos</p><p>modulador e não linear são usados quase como sinônimos. Os efeitos modulatórios implicam que a</p><p>resposta pós-sináptica evocada por uma entrada é modulada, ou interage com, outra. Por definição, esta</p><p>interação deve depender de mecanismos sinápticos não lineares.</p><p>Em resumo, o cérebro pode ser considerado como um conjunto de áreas funcionalmente especializadas</p><p>que são acopladas de forma não linear por conexões eficazes. Empiricamente, parece que as conexões de</p><p>áreas mais baixas para mais altas são predominantemente impulsionadoras, enquanto as conexões para</p><p>trás, que mediam influências de cima para baixo, são mais difusas e são capazes de exercer influências</p><p>modulatórias. Na próxima seção, descrevemos uma perspetiva teórica, fornecida por</p><p>1 De um modo mais geral, qualquer dependência estatística medida pela informação mútua</p><p>9</p><p>'modelos generativos', que destaca a importância funcional de conexões retrógradas e interações não</p><p>lineares.</p><p>III APRENDIZAGEM REPRESENTACIONAL</p><p>Esta seção descreve a heurística por trás da aprendizagem autosupervisionada baseada em Bayes</p><p>empíricos. Esta abordagem é considerada no âmbito dos modelos generativos e segue Dayan e Abbott</p><p>(pp359-397, 2001) aos quais o leitor é encaminhado para um contexto mais detalhado. Uma discussão</p><p>mais heurística dessas questões pode ser encontrada em Friston (2002) Um foco importante desta seção é</p><p>a interação entre as causas da entrada sensorial. Essas interações criam um problema de invariância</p><p>contextual. Em resumo, será mostrado que este problema aponta para a adoção</p><p>de modelos generativos</p><p>onde as interações entre causas de uma perceção são modeladas explicitamente em conexões retrógradas.</p><p>Primeiro, vamos reprisar Bayes empírico no contexto da função cerebral per se. Tendo estabelecido as</p><p>arquiteturas necessárias para a aprendizagem representacional, a implementação neuronal é considerada</p><p>em profundidade suficiente para fazer previsões sobre a anatomia anatômica e funcional que seria</p><p>necessária para implementar Bayes empíricos no cérebro. Concluímos relacionando as previsões teóricas</p><p>com os quatro princípios neurobiológicos listados na seção anterior.</p><p>A A natureza dos inputs, causas e representações</p><p>Aqui uma representação é tomada como um evento neuronal que representa alguma "causa" no</p><p>sensorium. As causas são simplesmente os estados de processos que geram dados sensoriais ou entradas.</p><p>Não é fácil atribuir significado a estes estados sem apelar à forma como categorizamos as coisas,</p><p>percetiva ou conceptualmente. Causas conceituais de alto nível podem ser de natureza categórica, como a</p><p>identidade de um rosto no campo visual ou a categoria semântica à qual um objeto percebido pertence.</p><p>Em um ambiente hierárquico, causas de alto nível podem induzir causas prévias em níveis inferiores que</p><p>são de natureza mais paramétrica. Por exemplo, a causa percetiva "movendo-se rapidamente" pode</p><p>mostrar uma relação um-para-muitos com representações de diferentes velocidades em unidades V5</p><p>(MT). As causas têm relações entre si (por exemplo, "faz parte de") que muitas vezes têm uma estrutura</p><p>hierárquica. Esta ontologia hierárquica é acompanhada por mapeamentos ambíguos muitos-para-um e</p><p>um-para-muitos (por exemplo, uma mesa tem pernas, mas os cavalos também; um relógio de pulso é um</p><p>10</p><p>relógio independentemente da orientação das suas mãos). Esta ambiguidade pode tornar o problema de</p><p>inferir causas a partir de informações sensoriais subdeterminado ou mal colocado.</p><p>Embora as causas possam ser difíceis de descrever, são fáceis de definir operacionalmente. As causas são</p><p>as variáveis ou estados necessários para especificar os produtos de um processo gerador de informação</p><p>sensorial. Para simplificar, vamos enquadrar o problema da representação das causas em termos de uma</p><p>função generativa determinística não linear.</p><p>u = G ( v, θ ) 1</p><p>onde v é um vetor de causas subjacentes no ambiente (por exemplo, a velocidade de um determinado</p><p>objeto, direção da luz radiante etc), e u representa algumas entradas sensoriais. G ( v, θ ) é um</p><p>função que gera inputs a partir das causas. As não-linearidades em Eq(1) representam interações entre as</p><p>causas. As interações de segunda ordem são formalmente idênticas aos termos de interação em modelos</p><p>estatísticos convencionais de dados observados. Estes podem muitas vezes ser vistos como efeitos</p><p>contextuais, onde a expressão de uma determinada causa depende do contexto estabelecido por outra. Por</p><p>exemplo, a extração do movimento do campo visual depende da existência de luminância ou contraste de</p><p>comprimento de onda suficiente para definir o movimento da superfície. Outro exemplo onipresente,</p><p>desde o processamento visual inicial, é a oclusão de um objeto por outro. Na ausência de interações,</p><p>veríamos uma superposição linear de ambos os objetos, mas a entrada visual, causada pela mistura não</p><p>linear dessas duas causas, torna uma ocluída pela outra. A um nível mais cognitivo, a causa associada à</p><p>palavra 'HAMMER' dependerá do contexto semântico (que determina se a palavra é um verbo ou um</p><p>substantivo). Esses efeitos contextuais são profundos e devem ser descontados antes que as</p><p>representações das causas subjacentes possam ser consideradas verídicas.</p><p>O problema com que o cérebro tem de lidar é encontrar uma função do input que reconheça ou represente</p><p>as causas subjacentes. Para fazer isso, o cérebro deve efetivamente desfazer as interações para revelar</p><p>causas contextualmente invariantes. Em outras palavras, o cérebro deve realizar alguma forma de</p><p>desmistura não linear de causas e contexto sem conhecer nenhum dos dois. O ponto-chave aqui é que esta</p><p>mistura não linear pode não ser invertível e que a estimativa das causas a partir da entrada pode ser</p><p>fundamentalmente mal colocada. Por exemplo, nenhuma quantidade de desmistura pode</p><p>discernir as partes de um objeto que são ocluídas por outro. O mapeamento u = v2 fornece um exemplo trivial dessa não invertibilidade. Saber u não determina exclusivamente</p><p>v. A indeterminação correspondente, na aprendizagem probabilística, repousa na explosão</p><p>combinatória de maneiras pelas quais modelos generativos estocásticos podem gerar padrões</p><p>de entrada (Dayan et al 1995). A explosão combinatória representa outro exemplo da relação</p><p>11</p><p>ininvertível "muitos para um" entre causas e entradas.</p><p>Na aprendizagem probabilística permitem-se componentes estocásticos na geração de inputs e o</p><p>reconhecimento de uma determinada causa torna-se probabilístico. Aqui, a questão da invertibilidade</p><p>determinística é substituída pela existência de uma densidade condicional inversa que pode ser</p><p>parametrizada. Embora não seja um fundamento matemático, a parametrização é fundamental para o</p><p>cérebro porque ele tem que codificar os parâmetros dessas densidades com atributos biofísicos de seu</p><p>tecido nervoso. A seguir, consideramos as implicações deste problema. Em resumo, mostraremos que são</p><p>necessários modelos separados de reconhecimento [aproximado] e generativos que induzam a</p><p>necessidade de influências para frente e para trás. Reconhecimento separado e modelos generativos</p><p>resolvem o problema causado pela geração de processos que são difíceis de inverter e falam de um</p><p>possível papel para conexões retrógradas no cérebro.</p><p>B Modelos generativos e aprendizagem representacional</p><p>Os modelos generativos permitem uma formulação genérica de inclinação representacional em um</p><p>contexto supervisionado ou autosupervisionado. Existem muitas formas de modelos generativos que vão</p><p>desde modelos estatísticos convencionais (por exemplo, análise fatorial e de agrupamento) e aqueles</p><p>motivados pela inferência e aprendizagem bayesiana (por exemplo, Dayan et al 1995, Hinton et al 1995).</p><p>O objetivo dos modelos generativos é "aprender representações que são econômicas para descrever, mas</p><p>permitem que a entrada seja reconstruída com precisão" (Hinton et al 1995). A aprendizagem</p><p>representacional é enquadrada em termos de estimativa das densidades de probabilidade das causas. Isto é</p><p>referido como análise de densidade posterior na literatura de estimativa e análise de modo posterior se a</p><p>inferência se restringir a estimar a causa mais provável (Ver Capítulo 17: Inferência Clássica e</p><p>Bayesiana). Embora a aprendizagem por densidade seja formulada a um nível de abstração que evita</p><p>muitas questões de implementação neuronal (por exemplo, a dinâmica da aprendizagem em tempo real),</p><p>ela fornece uma estrutura unificadora que conecta os vários esquemas considerados abaixo.</p><p>Figura 2 sobre aqui</p><p>1 Inferência vs. aprendizagem A equação (1) relaciona o estado desconhecido das causas v e alguns</p><p>parâmetros desconhecidos θ, com as entradas observadas u. O objetivo é fazer inferências sobre as</p><p>causas e aprender os parâmetros. A inferência pode ser simplesmente estimar o estado mais</p><p>provável das causas e é baseada nos produtos da aprendizagem. Uma maneira útil de pensar sobre a</p><p>distinção entre inferência e aprendizagem é em termos de como se contabiliza os padrões ou a</p><p>12</p><p>distribuição dos inputs encontrados. A Figura 1 mostra um exemplo muito simples com uma causa</p><p>univariada e uma observação bivariada. As observações são indicadas por pontos no painel direito e</p><p>agrupadas em torno de uma linha curvilínea. Uma maneira parcimoniosa de gerar pontos como esses</p><p>seria mover para cima e para baixo na linha e adicionar uma pequena quantidade de erro de</p><p>observação. A posição na linha corresponde ao estado da causa única e a probabilidade de selecionar</p><p>uma determinada posição à densidade de probabilidade das causas à direita. Inferência</p><p>significa</p><p>determinar a probabilidade de cada causa potencial dada uma observação. A estimativa refere-se à</p><p>estimativa da causa mais provável, indicada na Figura 1 por v& . Esta estimativa é o ponto mais</p><p>próximo na linha da observação de que a priori tem uma probabilidade razoável de ser selecionado.</p><p>Este exemplo simples introduz a noção de representar observações em termos de pontos que se</p><p>encontram em uma variedade de baixa dimensão no espaço de observação, neste caso uma linha. As</p><p>dimensões desta variedade são as causas. A forma e a posição do coletor dependem dos parâmetros</p><p>θ. Estes têm de ser conhecidos ou aprendidos antes que a inferência sobre qualquer observação em</p><p>particular possa prosseguir. Esta aprendizagem requer múltiplas observações para que a variedade</p><p>possa ser colocada para transectar a maior densidade de observações. Em suma, a aprendizagem</p><p>representacional pode ser interpretada como a aprendizagem de uma variedade de baixa dimensão</p><p>sobre a qual os dados podem ser projetados com perda mínima de informação. Esta variedade é um</p><p>componente essencial dos modelos generativos. O objetivo da aprendizagem é adquirir um modelo</p><p>de reconhecimento para inferência que seja efetivamente o inverso de um modelo generativo.</p><p>Aprender um modelo generativo corresponde a fazer a densidade dos inputs, implicada por um</p><p>modelo generativo p (u; θ) , o mais próximo possível daqueles</p><p>observado p (u) . O modelo generativo é especificado em termos de uma distribuição prévia ao longo do</p><p>causas p (v; θ) e a distribuição generativa ou probabilidade dos inputs dadas as causas</p><p>p (u | v; θ) . Em conjunto, estes definem a distribuição marginal que tem de ser correspondida à</p><p>distribuição de entrada</p><p>) θ; u (p p (u | v; θ) p (v; θ) DV 2</p><p>Veja a Figura 1. Uma vez aprendidos os parâmetros do modelo generativo, através desta</p><p>correspondência, a densidade posterior das causas, dadas as entradas, é dada pelo modelo de</p><p>reconhecimento, que é definido em termos da distribuição de reconhecimento</p><p>13</p><p>p (u | v; θ) p (v; θ)</p><p>p (v | u;</p><p>θ) =</p><p>p (u; θ)</p><p>3</p><p>No entanto, como considerado acima, o modelo generativo pode não ser facilmente invertido e pode</p><p>não ser possível parametrizar a distribuição de reconhecimento. Isto é crucial porque o ponto final</p><p>da aprendizagem é a aquisição de um modelo de reconhecimento útil que pode ser aplicado a inputs</p><p>sensoriais. Uma solução é postular uma distribuição de reconhecimento aproximada q (v; u, φ)</p><p>Isso é coerente com o modelo generativo e que pode ser aprendido ao mesmo tempo. A distribuição de</p><p>reconhecimento aproximada tem alguns parâmetros φ, por exemplo, a força de</p><p>encaminhar conexões ou seu modo (ou seja, valor mais provável). A primeira questão abordada</p><p>nesta seção é se as conexões de encaminhamento são suficientes para a inclinação representacional.</p><p>Estimativa da densidade C e EM</p><p>Na aprendizagem em densidade, a aprendizagem representacional tem dois componentes que são enquadrados</p><p>em termos de maximização de expectativas (EM, Dempster et al 1977). As iterações de um E-Step garantem</p><p>que o reconhecimento se aproxima do inverso do modelo generativo e o M-Step garante que o modelo</p><p>generativo possa prever as entradas observadas. O reconhecimento probabilístico prossegue usando q (v; u,</p><p>φ ) para determinar a probabilidade de que v causou as entradas sensoriais observadas. EM</p><p>Fornece um procedimento útil para estimativa de densidade que ajuda a relacionar muitos</p><p>modelos diferentes dentro de uma estrutura que tem conexões diretas com a mecânica</p><p>estatística. Ambas as etapas do algoritmo EM envolvem a maximização de uma função das</p><p>densidades que corresponde à energia livre negativa na física.</p><p>F = l (u)</p><p>u</p><p>= ∫ φ p ( v,u ; θ)</p><p>l q (v; u, ) ln dv</p><p>q (v; u, φ) 4 = ln p ( v,u; θ) − ln q (v; u,</p><p>q (b)</p><p>q</p><p>= ln p (u; θ) − KL {q (v; u, φ ), p(v|u; θ )}</p><p>Esta função objetiva compreende dois termos. O primeiro é a probabilidade logarítmica esperada das</p><p>entradas sob o modelo generativo. O segundo termo é a divergência de Kullback-Leibler (KL)2 entre</p><p>14</p><p>as densidades de reconhecimento aproximadas e verdadeiras. Criticamente, o KL</p><p>term é sempre positivo, tornando F um limite inferior na probabilidade de log esperada das entradas. A</p><p>maximização de F engloba duas componentes da aprendizagem representacional; (i) aumenta a</p><p>probabilidade dos inputs produzidos pelo modelo generativo e (ii) minimiza a discrepância entre o</p><p>modelo de reconhecimento aproximado e o que implica o modelo generativo. O E-Step aumenta F em</p><p>relação aos parâmetros de reconhecimento φ,</p><p>assegurar uma aproximação verídica à distribuição de reconhecimento implícita pelos parâmetros</p><p>generativos θ. O M-Step muda θ, permitindo que o modelo generativo reproduza os inputs.</p><p>E φ = máximo F</p><p>F</p><p>5</p><p>M θ = máximo F</p><p>Eu</p><p>Existem várias formas de motivar a formulação de energia livre em Eq(4). Uma útil, neste contexto,</p><p>repousa no problema colocado pelos modelos não invertíveis. Este problema é resolvido assumindo</p><p>que é suficiente para corresponder à probabilidade conjunta de entradas e causas sob o modelo</p><p>generativo p ( u,v ; θ) = p (u | v; θ) p (v; θ) com o que implica o reconhecimento das causas</p><p>das entradas encontradas p ( u,v ; φ) = q (v; u, φ )p(u) . Ambas as distribuições estão bem definidas</p><p>mesmo quando p (v | u; θ) não é facilmente parametrizada. Esta correspondência minimiza a</p><p>divergência.</p><p>q (v φ θ =; u, φ )p(u)</p><p>KL {p ( v,u ; ), p ( v,u ; )} ∫ q (v; u, φ )p(u) ln dvdu</p><p>p ( v,u ; θ) = − F − H (u) 6</p><p>Isto equivale a maximizar F porque a entropia das entradas H (u) é fixa. Isto</p><p>perspetiva é usada na Figura 2 para ilustrar as etapas E e M esquematicamente. O E-Step</p><p>ajusta os parâmetros de reconhecimento para corresponder às duas distribuições conjuntas, enquanto o M-Step</p><p>faz exatamente a mesma coisa, mas alterando os parâmetros generativos. A dependência dos parâmetros</p><p>generativos, na distribuição de entrada, é mediada vicariamente no M-Step</p><p>através do reconhecimento. No cenário de invertibilidade, onde q (v; u, φ )=p(v| u; θ) a seringa</p><p>a divergência no Eq(6) reduz-se a KL {p (u ), p (u; θ )} . Como acima, o M-Step então encontra</p><p>2 uma medida da distância ou diferença entre duas densidades de probabilidade</p><p>15</p><p>parâmetros que permitem ao modelo corresponder simplesmente à distribuição de entrada</p><p>observada (ou seja, maximizar a probabilidade esperada).</p><p>Figura 2 sobre aqui</p><p>1 Invertibilidade Esta formulação de inclinação representacional é fundamental para a tese</p><p>desta seção porque sugere que conexões retrógradas e laterais, parametrizando um modelo</p><p>generativo, são essenciais quando o modelo não é invertível. Se o modelo generativo for</p><p>invertível, então o termo KL em Eq(4) pode ser descontado definindo q (v; u, φ )=p(v| u;</p><p>θ) com Eq(3) e aprendizagem</p><p>reduz ao passo M (ou seja, maximiza a probabilidade esperada).</p><p>F = ln p (u;</p><p>θ)</p><p>u</p><p>7</p><p>Em princípio, isso poderia ser feito usando uma arquitetura feedforward correspondente ao inverso do</p><p>modelo generativo. No entanto, quando os processos geradores de inputs não são invertíveis (em termos</p><p>de parametrização da densidade de reconhecimento) são necessários um modelo generativo e um modelo</p><p>de reconhecimento aproximado que são atualizados em M- e E-Steps, respetivamente. Em suma, a</p><p>não-invertibilidade impõe uma parametrização explícita do modelo generativo na aprendizagem</p><p>representacional. No cérebro, esta parametrização pode ser incorporada em conexões retrógradas.</p><p>2 Reconhecimento determinístico Outro caso especial surge quando o reconhecimento é</p><p>determinístico. O reconhecimento torna-se determinístico quando q (v; u, φ) é um Dirac δ</p><p>-função sobre o seu modo v ( u, φ ) . Neste caso,</p><p>A análise de densidade posterior reduz-se a uma análise de modo posterior, momento em que a inferência</p><p>e a estimativa coincidem. Eles são equivalentes no sentido de que inferir a distribuição posterior das</p><p>causas é o mesmo que estimar a causa mais provável dadas as entradas (o estimador máximo a posteriori</p><p>ou MAP). Aqui a integral em</p><p>Eq(4) desaparece, deixando a probabilidade conjunta dos inputs e sua causa</p><p>a serem maximizados</p><p>16</p><p>F = ln p (v (u ), u; θ)</p><p>u</p><p>= ln p (u | v (u ); θ) + ln p (v</p><p>(u ); θ)</p><p>u</p><p>8</p><p>Observe, novamente, que esta função objetiva não requer p (v | u; θ) e evita a</p><p>inversão em Eq(3). Uma ilustração do E-Step para reconhecimento determinístico é mostrada na Figura 4</p><p>(painel inferior). Aqui, a distinção entre determinista e estocástico relaciona-se com a inferência e</p><p>refere-se à forma da densidade de reconhecimento. Deve-se notar que a aprendizagem também poderia</p><p>empregar uma ascensão determinística ou estocástica em F. Trataremos em grande parte de esquemas de</p><p>aprendizagem deterministas.</p><p>3. O EM sumário permite estimar a densidade máxima de verossimilhança exata e aproximada para toda</p><p>uma variedade de modelos generativos que podem ser especificados em termos de distribuições anteriores</p><p>e generativas. Dayan e Abbott (2001) trabalham através de uma série de exemplos didáticos, desde a</p><p>análise de cluster até análises de componentes independentes, dentro deste quadro unificador. Por</p><p>exemplo, a análise fatorial corresponde ao modelo generativo</p><p>p (v; θ) = N (v: 0 , 1 )</p><p>p (u v; θ) = N (u: θ v, Σ )</p><p>9</p><p>Ou seja, as causas subjacentes das entradas são variações normais independentes que são misturadas</p><p>linearmente e adicionadas ao ruído gaussiano para formar entradas. No caso limite de Σ → 0, o modelo</p><p>subsequente torna-se determinista e está em conformidade com a ACP. Simplesmente assumindo priores</p><p>não gaussianos, pode-se especificar modelos generativos para codificação esparsa do tipo proposto por</p><p>Olshausen e Field (1996)</p><p>p (v; θ) = ∏ p (v; θ)</p><p>eu</p><p>p (u v; θ) = N (u: θ v, Σ )</p><p>10</p><p>em que p (v; θ) são escolhidos de modo a serem adequadamente esparsos</p><p>eu (ou seja, cauda pesada) com uma densidade cumulativa</p><p>que corresponde à função de esmagamento no Capítulo 19 (Conectividade funcional). O</p><p>equivalente determinístico da codificação esparsa é o ICA que obtém quando . 0 Σ → As</p><p>relações entre diferentes modelos tornam-se aparentes sob a perspetiva de modelos</p><p>17</p><p>generativos. A seguir, consideramos uma série de modelos que envolvem suposições sobre a</p><p>geração de inputs sensoriais que são relaxados um a um. Em cada ponto, consideramos se eles</p><p>poderiam ser implementados de forma plausível no cérebro.</p><p>Figura 3 sobre aqui</p><p>D Hierarquias corticais e Bayes empíricos</p><p>Bayes empírico aproveita a estrutura hierárquica de um modelo generativo, tratando as estimativas em</p><p>um nível como expectativas prévias para o nível subordinado (Efron e Morris 1973). Isso fornece uma</p><p>estrutura natural dentro da qual tratar hierarquias corticais no cérebro, cada uma fornecendo restrições no</p><p>nível abaixo. Esta abordagem modela o mundo como uma hierarquia de sistemas onde as causas</p><p>supraordenadas induzem, e moderam, mudanças nas causas subordinadas. Por exemplo, a presença de um</p><p>determinado objeto no campo visual altera a luz incidente que incide sobre uma determinada parte da</p><p>retina. Um exemplo mais intuitivo é fornecido na Figura 3. Esses antecedentes oferecem orientação</p><p>contextual para a causa mais provável da entrada. Note que as previsões em níveis mais altos estão</p><p>sujeitas às mesmas restrições, apenas o nível mais alto, se houver um no cérebro, é livre para ser dirigido</p><p>apenas por influências de baixo para cima (embora haja sempre anteriores implícitos). Se o cérebro</p><p>evoluiu para recapitular a estrutura casual do seu ambiente, em termos das suas infraestruturas sensoriais,</p><p>é interessante refletir sobre a possibilidade de os nossos córtices visuais refletirem a estrutura casual</p><p>hierárquica do nosso ambiente.</p><p>1 A natureza dos modelos hierárquicos Considere</p><p>qualquer nível i em uma hierarquia cujas causas v i são induzidos por causas correspondentes em</p><p>o nível acima de</p><p>v</p><p>i . A forma hierárquica do gerador implícito+ modelo + 1 é</p><p>u = G (</p><p>1 v</p><p>2 , (i)1 + e</p><p>1</p><p>v = G ( v, θ ) + ε</p><p>2 2 3 2 2 11</p><p>v</p><p>3 = K</p><p>com</p><p>1 v = u c.f. Eq(1). Tecnicamente, estes modelos enquadram-se na classe de condicionalmente</p><p>modelos hierárquicos independentes quando os termos estocásticos são independentes em cada nível (Kass e Steffey</p><p>1989). Estes modelos também são chamados de modelos Bayes empíricos paramétricos (PEB) porque a interpretação</p><p>óbvia das densidades de nível mais alto como priors levou ao desenvolvimento da metodologia PEB (Efron e Morris</p><p>1973). Muitas vezes, em estatística, esses modelos hierárquicos compreendem apenas dois níveis, o que é uma maneira</p><p>18</p><p>útil de especificar anteriores de encolhimento simples nos parâmetros de modelos de nível único (ver Seção II, Parte</p><p>II). Vamos supor que os termos estocásticos são gaussianos com covariância Σ = Σ (λ</p><p>i i) . Por conseguinte, θ</p><p>eu e λ i</p><p>parametrizar as médias e covariâncias da probabilidade em cada nível.</p><p>p (v</p><p>v</p><p>+ ; θ) = N (v:</p><p>G (v</p><p>i i 1 i i i, θ ), S+ 1 i i) 12</p><p>Esta probabilidade de v também desempenha o papel de um anterior em v</p><p>i i que é maximizada em conjunto com o</p><p>probabilidade do nível abaixo p (v</p><p>i −</p><p>1</p><p>| v; θ) . Esta é a chave para compreender a utilidade do</p><p>eu</p><p>modelos hierárquicos; Ao aprender os parâmetros da distribuição generativa do nível i, está-se</p><p>implicitamente aprendendo os parâmetros da distribuição prévia para o nível i − 1 . Isso possibilita esse</p><p>aprendizado de densidades anteriores.</p><p>Figura 4 sobre aqui</p><p>A natureza hierárquica desses modelos confere uma importante sensibilidade ao contexto para densidades</p><p>de reconhecimento não encontradas em modelos de nível único. Isto é ilustrado na Figura 4, que</p><p>deve ser comparada com a Figura 1. O ponto-chave aqui é que as causas de alto nível v i + 1</p><p>determinar a expectativa prévia das causas v i no nível subordinado. Isto pode ser completamente</p><p>alterar a seringa marginais</p><p>1 i) θ −; v (p e reconhecimento p (v</p><p>eu</p><p>| v i − 1; θ) distribuições em que</p><p>inferência em base. Do ponto de vista múltiplo da inferência, a parte do múltiplo</p><p>G − (v;i 1 i θ i</p><p>−</p><p>) realçadas por expectativas anteriores, alterações de inputs para inputs num</p><p>1 contexto-</p><p>de forma dependente (ver Figura 4). O contexto estabelecido pelos priores não é determinado por eventos</p><p>anteriores, mas é imediato e conferido por níveis hierárquicos superiores. Por exemplo, na Figura 3, o</p><p>contexto semântico induzido pela leitura de uma das frases tem um efeito profundo sobre a causa</p><p>grafêmica mais provável da entrada visual subtendida por 'ev'. A dupla função</p><p>de p (v | v</p><p>+ ; Eu1 ) como uma probabilidade ou densidade generativa para o nível i e uma densidade prévia para o nível i-i</p><p>i</p><p>1 é recapitulado por um duplo papel para as estimativas MAP de v. De uma perspetiva ascendente</p><p>eu</p><p>estes correspondem a parâmetros [modos] das densidades de reconhecimento. No entanto, de uma perspetiva de cima para</p><p>baixo, eles também atuam como parâmetros do modelo generativo, interagindo com θ</p><p>i − 1</p><p>em G ( v, θ ) para dar a expectativa prévia de vi − 1 i i − 1 i. − 1 Embora</p><p>19</p><p>i são parâmetros do modelo forward a que nos referimos como hiperparâmetros</p><p>nos capítulos anteriores e, na estatística clássica, correspondem a componentes de variância.</p><p>Preservaremos a distinção entre θ eu</p><p>e ainda i λ porque podem corresponder a forças de ligações</p><p>laterais e para trás, respetivamente.</p><p>2 Implementação</p><p>A plausibilidade biológica dos Bayes empíricos no cérebro pode ser estabelecida de forma bastante</p><p>simples. Para fazer isso, um esquema hierárquico é descrito com algum detalhe. Por enquanto,</p><p>abordaremos a implementação neuronal em um nível puramente teórico e um tanto heurístico,</p><p>usando a estrutura desenvolvida acima.</p><p>Para simplificar, assumiremos um reconhecimento determinístico tal que q (φ (u ); u) = 1 . Neste estudo</p><p>com independência condicional, F compreende uma série de probabilidades logarítmicas</p><p>l (u) = ln p ( u,v ; θ) = ln p ( u, φ ,K ; θ)</p><p>q 2</p><p>= ln p (u | φ; θ)2 2 3; θ) + K = −+ ln( φ | φ</p><p>1</p><p>2 ξ T ξ −</p><p>1 1</p><p>1 ξ</p><p>T</p><p>2 2</p><p>o</p><p>−</p><p>2</p><p>K</p><p>−</p><p>1 ln |</p><p>2 S | − 1 ln | Σ |</p><p>1 −</p><p>2 2 K</p><p>ξ = φ − Gi i ( φ , θ ) − λi i + 1 i i ξ</p><p>eu</p><p>=</p><p>( 1 +</p><p>λ)</p><p>− 1 (φ −</p><p>G</p><p>i i i (φ i</p><p>+ ,</p><p>1 i ))</p><p>eu</p><p>Aqui</p><p>13</p><p>S1/ 2 = 1 + λ. No cenário de modelos neuronais, a predição [branqueada]</p><p>i i erro é</p><p>codificado pelas atividades das unidades indicadas por ξ. Essas unidades de erro recebem uma previsão de</p><p>eu</p><p>unidades no nível superior3 e ligações a partir das unidades principais φ i sendo previsto.</p><p>As interações horizontais entre as unidades de erro servem para descorrelacioná-las (c.f. Foldiak 1990), onde a ligação lateral simétrica força λ</p><p>i hiperparametrizar as covariâncias de</p><p>os erros Σ i , que são as covariâncias prévias para o nível i − 1 .</p><p>Os estimadores φ</p><p>eu e os parâmetros de força de conexão executam uma subida de gradiente no</p><p>probabilidade de log composto.</p><p>3 Claramente, no cérebro, as conexões retrógradas não são inibitórias, mas, após mediação por interneurônios</p><p>inibitórios, sua influência efetiva pode ser tornada assim.</p><p>20</p><p>E φ &</p><p>i + = ∂ l (u) = − ∂ ξ T ∂ ξ T</p><p>i o −</p><p>i + 1 ξ</p><p>1 ∂ φ ∂ φ i ∂ φ i + 1</p><p>i + 1 i + 1 i + 1</p><p>M</p><p>θ & ∂ F ∂ ξ T</p><p>eui = = − o</p><p>∂ eu ∂ eu</p><p>i i u</p><p>& ∂ F Tλ = = − ∂ ξ eu</p><p>i ∂</p><p>l</p><p>i ∂ l</p><p>eu</p><p>o − ( 1 + λ) − 1</p><p>eu</p><p>u</p><p>14</p><p>Cada um dos componentes de aprendizagem tem uma interpretação neuronal relativamente simples (ver</p><p>abaixo)</p><p>Figura 5 sobre aqui</p><p>E Implicações para a implementação neuronal</p><p>O esquema implícito pelo Eq(14) tem quatro implicações ou previsões claras sobre as arquiteturas</p><p>funcionais necessárias para a sua implementação. Revisamo-los agora em relação à organização cortical</p><p>no cérebro. Um esquema resumindo esses pontos na Figura 5. Em suma, chegamos exatamente aos</p><p>mesmos quatro pontos apresentados na seção anterior.</p><p>• Organização hierárquica Os modelos hierárquicos permitem a aprendizagem Bayesiana</p><p>empírica de densidades prévias e fornecem</p><p>a modelo plausível para entradas sensoriais. Modelos de nível único que não mostram qualquer</p><p>independência condicional (por exemplo, aqueles usados por esquemas conexionistas e infomax)</p><p>dependem de restrições prévias para inferência única e não recorrem a uma organização cortical</p><p>hierárquica. Por outro lado, se a estrutura causal dos processos generativos é hierárquica, isso será</p><p>refletido, literalmente, pelas arquiteturas hierárquicas que tentam minimizar o erro de previsão, não</p><p>apenas no nível de entrada sensorial, mas em todos os níveis (observe a simetria deliberada do</p><p>espelho na Figura 5). A coisa boa sobre esta arquitetura é que as respostas das unidades no ith nível</p><p>φ</p><p>i dependo apenas de</p><p>O erro para o nível atual e o nível imediatamente anterior. Isto decorre da</p><p>independência condicional e é importante porque permite uma implementação</p><p>biologicamente plausível, em que as ligações que conduzem à minimização de erros</p><p>apenas avançam de um nível para o seguinte.</p><p>21</p><p>• Conexões recíprocas Conforme estabelecido no início de sua seção, a não inversibilidade</p><p>dos processos que geram dados sensoriais induz a necessidade de conexões para frente e</p><p>para trás. No modelo hierárquico, a dinâmica das unidades principais</p><p>Fi + estão sujeitos a dois,1</p><p>localmente disponíveis, influências. Um termo de probabilidade ou reconhecimento mediado por</p><p>aferentes avançados das unidades de erro no nível abaixo e um prévio empírico transmitido por unidades</p><p>de erro no mesmo nível. Criticamente, as influências das unidades de erro em ambos os níveis são</p><p>meditadas por conexões lineares com uma força que é exatamente a mesma que a conectividade efetiva</p><p>[negativa] das conexões recíprocas de φ</p><p>1 a</p><p>i + ξ e</p><p>eu</p><p>oi + 1. Funcionalmente, as conexões para frente e laterais são recíprocas, onde para trás</p><p>As conexões geram previsões de respostas de nível inferior. A conectividade efetiva é simplesmente a mudança em uma</p><p>unidade neuronal (neurônio, montagem ou área cortical) induzida por entradas de outra (Friston 1995). Neste caso, ∂ ξ</p><p>eu ∂ φ e ∂ ξi + 1 i + 1 ∂ φ</p><p>i + 1</p><p>A conectividade efetiva na direção dianteira é a transposição recíproca (negativa) daquela na direção retrógrada ∂ ξ</p><p>eu</p><p>i) i β 1, + i φ (i G 1 i + = − ∂ ∂ φ ∂ v i + 1 que é uma função de</p><p>os parâmetros generativos. As ligações laterais, dentro de cada nível, mediam a influência das unidades de</p><p>erro sobre as unidades principais e as ligações intrínsecas λ entre as</p><p>eu</p><p>As unidades de erro decoram-nas, permitindo a competição entre expectativas anteriores com</p><p>diferentes precisões (a precisão é o inverso da variância). Em suma, as conexões laterais, para</p><p>frente e para trás são todas recíprocas, consistentes com observações anatômicas.</p><p>• Conexões funcionalmente assimétricas para frente e para trás As conexões para</p><p>frente são a recíproca da conectividade efetiva para trás do nível superior para o nível</p><p>inferior, existente naquele momento. No entanto, os atributos funcionais das influências</p><p>para frente e para trás são diferentes. As influências das unidades 1 + i φ sobre</p><p>erro unidades em o inferior nível oi instancio o para a frente modelo</p><p>ξ = φ − G (φ, θ</p><p>+ i i i</p><p>i 1) − λ ξ i . Estes podem ser não-lineares, onde cada unidade noi i</p><p>pode modular ou interagir com a influência de outros, de acordo com as não-linearidades em</p><p>G (f + , ii i 1 i) . Em contra-distinção, as influências das unidades em</p><p>não interagem quando se produzem alterações no nível superior porque os seus efeitos são</p><p>linearmente separáveis [ver Eq(27)]. Esta é uma observação fundamental porque a evidência</p><p>22</p><p>empírica, revisada na seção anterior, sugere que as conexões para trás estão em</p><p>uma posição para interagir (por exemplo, embora os recetores NMDA expressem</p><p>predominantemente nas camadas supragranulares que recebem ligações para trás). Conexões</p><p>de encaminhamento não são. Note-se que, embora as conexões de encaminhamento implícitas</p><p>i − ∂ ξ ∂ φ Ti + mediar efeitos linearmente separáveis de</p><p>1 oi em φ i + 1, estas ligações podem</p><p>ser dependentes da atividade e do tempo devido à sua dependência de φi + 1. Em resumo,</p><p>As não-linearidades, na forma como as entradas sensoriais são produzidas, requerem</p><p>interações não lineares no modelo generativo que são mediadas por influências</p><p>retrógradas, mas não requerem conexões para frente para serem modulatórias.</p><p>• Plasticidade associativa As alterações nos parâmetros correspondem à plasticidade no</p><p>sentido de que os parâmetros controlam a força das ligações laterais e para trás. As</p><p>conexões para trás parametrizam as expectativas anteriores do modelo forward e as</p><p>conexões laterais hiperparametrizam as covariâncias anteriores. Juntos, eles</p><p>parametrizam as densidades gaussianas que constituem os primórdios (e probabilidades)</p><p>do modelo. A plasticidade implícita pode ser vista mais claramente com uma</p><p>parametrização explícita das conexões. Por exemplo, deixe G</p><p>i (</p><p>v</p><p>i</p><p>,</p><p>+ 1 θ) = θ v i +. Neste caso1i</p><p>i</p><p>θ & = ( 1 + λ) − 1 ξ φ T</p><p>i i i i + 1 u</p><p>λ & = ( 1 + λ) − 1 (ξ ξ T − 1 )</p><p>i i i i u</p><p>15</p><p>Esta é apenas a plasticidade hebbiana ou associativa, onde as forças de conexão mudam em</p><p>proporção ao produto da atividade pré e pós-sináptica. Uma intuição sobre Eq(15) obtém-se</p><p>considerando as condições em que a mudança esperada nos parâmetros é zero (ou seja, após a</p><p>aprendizagem). Para as conexões para trás, isso implica que não há nenhum componente de erro</p><p>de previsão que possa ser explicado por estimativas no nível superior</p><p>oi φ T</p><p>+ i 1</p><p>= 0 . As conexões laterais param de mudar quando o erro de previsão tem</p><p>foram branqueados ξ i ξ T = 1</p><p>eu</p><p>É evidente que as previsões da análise teórica coincidem quase exatamente com os aspetos</p><p>empíricos das arquiteturas funcionais em córtices visuais destacados pela seção anterior</p><p>(organização hierárquica, reciprocidade, assimetria funcional e plasticidade associativa).</p><p>23</p><p>Embora um tanto inventado, é agradável que as considerações e o</p><p>empirismo neurobiológico convirjam com tanta precisão.</p><p>puramente teórica</p><p>VI MODELOS GENERATIVOS E O CÉREBRO</p><p>Em resumo, os modelos generativos prestam-se naturalmente a um tratamento hierárquico, que considera</p><p>o cérebro como um dispositivo Bayesiano empírico. A dinâmica das unidades</p><p>ou populações é conduzida</p><p>para minimizar o erro de predição em todos os níveis da hierarquia cortical e implicitamente tornar-se</p><p>modos posteriores das causas dadas os dados. O esquema global implícito por Eq. (14) assenta</p><p>confortavelmente na hipótese (Mumford, 1992). "sobre o papel das vias topográficas recíprocas entre</p><p>duas áreas corticais, uma muitas vezes uma área 'superior' lidando com informações mais abstratas sobre</p><p>o mundo, a outra 'inferior', lidando com dados mais concretos. A área superior tenta ajustar suas</p><p>abstrações aos dados que recebe de áreas mais baixas, enviando de volta para elas de suas células</p><p>piramidais profundas uma reconstrução de modelo que melhor se encaixa na visão de nível inferior. A</p><p>área inferior tenta conciliar a reconstrução de sua visão que recebe de áreas mais altas com o que</p><p>conhece, enviando de volta de suas células piramidais superficiais as características em seus dados que</p><p>não são previstas pela área superior. Todo o cálculo é feito com todas as áreas trabalhando</p><p>simultaneamente, mas com ordem imposta pela atividade síncrona nos vários loops top-down,</p><p>bottom-up".</p><p>Um contexto, causas e representações</p><p>A perspetiva bayesiana sugere algo bastante profundo para a visão clássica dos campos recetivos. Se as</p><p>respostas neuronais englobam um termo de probabilidade de baixo para cima e anteriores de cima para</p><p>baixo, então as respostas evocadas pela entrada de baixo para cima devem mudar com o contexto</p><p>estabelecido por expectativas anteriores de níveis mais altos de processamento. Considere o exemplo da</p><p>Figura 3. Aqui, uma unidade que codifica a forma visual de "foi" responde quando lemos a primeira frase</p><p>no topo desta figura. Quando lemos a segunda frase "O último evento foi cancelado", isso não aconteceu.</p><p>Se gravássemos a partir desta unidade, poderíamos inferir que a nossa unidade «foi» foi, em algumas</p><p>circunstâncias, seletiva para a palavra «evento». Isso pode ser difícil de explicar sem uma compreensão</p><p>da inferência hierárquica e do contexto semântico em que o estímulo foi apresentado. Em suma, sob um</p><p>esquema de codificação preditiva, os campos recetivos dos neurônios devem ser sensíveis ao contexto. O</p><p>restante desta subseção trata de evidências empíricas para esses efeitos de campo recetivos extraclássicos.</p><p>24</p><p>Modelos generativos sugerem que o papel das conexões retroativas é fornecer orientação contextual para</p><p>níveis mais baixos através de uma previsão das entradas do nível inferior. Quando essa previsão é</p><p>incompleta ou incompatível com a entrada da área inferior, é gerado um erro que gera mudanças na área</p><p>acima até a reconciliação. Quando, e somente quando, as entradas de condução de baixo para cima estão</p><p>em harmonia com a previsão de cima para baixo, o erro é suprimido e um consenso entre a previsão e a</p><p>entrada real é estabelecido. Dado este modelo conceitual, uma resposta relacionada ao estímulo ou</p><p>"ativação" corresponde a algum sinal de erro transitório que impulsiona a mudança apropriada em áreas</p><p>mais altas até que uma representação verídica de nível superior surja e o erro seja "cancelado" por</p><p>conexões para trás. Claramente, o erro de previsão dependerá do contexto e, consequentemente, as</p><p>conexões para trás conferem sensibilidade ao contexto à especificidade funcional da área inferior. Em</p><p>suma, a ativação não depende apenas da entrada de baixo para cima, mas da diferença entre a entrada de</p><p>baixo para cima e as previsões de cima para baixo.</p><p>A prevalência de efeitos top-down não lineares ou modulatórios pode ser inferida do fato de que o</p><p>contexto interage com o conteúdo das representações. Aqui o contexto é estabelecido simplesmente</p><p>através da expressão de outras causas que não a que está em questão. Conexões para trás de uma área</p><p>superior podem ser consideradas como fornecendo modulação contextual da previsão de outra área.</p><p>Como o efeito do contexto só será expresso quando a coisa que está sendo prevista estiver presente, esses</p><p>aferentes contextuais não devem provocar uma resposta por si só. Efeitos deste tipo, que alteram a</p><p>capacidade de resposta das unidades, mas não provocam uma resposta, são</p><p>a característica distintiva das projeções modulatórias. Em resumo, os modelos hierárquicos oferecem um</p><p>esquema que permite efeitos contextuais; em primeiro lugar, através de respostas tendenciosas em</p><p>relação às suas expectativas prévias e, em segundo lugar, conferindo uma sensibilidade ao contexto a</p><p>estes priores através da componente modulatória das projeções para trás. Em seguida, consideramos a</p><p>natureza das respostas neuronais reais e se elas são consistentes com essa perspetiva.</p><p>B Efeitos extraclássicos e sensíveis ao contexto</p><p>Os modelos clássicos (por exemplo, campos recetivos clássicos) assumem que as respostas evocadas</p><p>serão expressas invariavelmente nas mesmas unidades ou populações neuronais, independentemente</p><p>do contexto. No entanto, as respostas neuronais reais não são invariantes, mas dependem do</p><p>contexto em que são evocadas. Por exemplo, as unidades corticais visuais têm campos recetivos</p><p>dinâmicos que podem mudar de momento para momento [c.f. os efeitos de campo recetivos não</p><p>clássicos modelados em (Rao e Ballard 1999)]. Uma síntese útil de dados para o sistema visual dos</p><p>macacos que destaca os substratos anatômicos e fisiológicos das respostas dependentes do contexto</p><p>25</p><p>pode ser encontrada em Angelucci et al (2002b). Uma conclusão chave dos autores é que "o</p><p>feedback do córtex extrastriado (possivelmente em conjunto com a sobreposição ou</p><p>interdigitalização de campos conexos laterais coativos dentro de V1) pode fornecer um campo</p><p>modulatório surround grande e específico para estímulos. A especificidade do estímulo das</p><p>interações entre o centro e os campos circundantes, pode ser devida à estrutura ordenada e</p><p>correspondente e às diferentes escalas das vias excitatórias intra-areal e de projeção de feedback."</p><p>Existem inúmeros exemplos de respostas neuronais sensíveis ao contexto. Talvez o mais simples seja a</p><p>plasticidade de curto prazo. A plasticidade de curto prazo refere-se a mudanças na força de conexão,</p><p>potenciação ou depressão, após entradas pré-sinápticas (por exemplo, Abbot 1997). Em resumo, as forças</p><p>de conexão subjacentes, que definem o que uma unidade representa, são uma forte função do transitório</p><p>neuronal imediatamente anterior (ou seja, representação precedente). Um segundo exemplo,</p><p>possivelmente mais rico, é o da modulação atencional que pode alterar a sensibilidade dos neurónios a</p><p>diferentes atributos percetivos (por exemplo, Treue e Maunsell 1996). . Foi demonstrado, tanto em</p><p>gravações unitárias em primatas (Treue e Maunsell 1996) como em estudos de RMf funcional humana</p><p>(Büchel e Friston 1997), que a atenção a atributos visuais específicos pode alterar profundamente os</p><p>campos recetivos ou as respostas relacionadas a eventos aos mesmos estímulos.</p><p>Estes tipos de efeitos são comuns no cérebro e são geralmente entendidos em termos da modulação</p><p>dinâmica das propriedades do campo recetivo por aferentes retrógrados e laterais. Há evidências claras de</p><p>que as conexões laterais no córtex visual são de natureza modulatória (Hirsch e Gilbert 1991), falando de</p><p>uma interação entre a segregação funcional implícita na arquitetura colunar de V1 e a dinâmica neuronal</p><p>em populações distais. Estas observações sugerem que as interações laterais e retrógradas podem</p><p>transmitir informações contextuais que moldam as respostas de qualquer neurônio às suas entradas (por</p><p>exemplo, Kay e Phillips 1996, Phillips e Singer 1997) para conferir ao cérebro a capacidade de fazer</p><p>inferências condicionais sobre a entrada sensorial. Ver também McIntosh (2000) que desenvolve a ideia a</p><p>partir de uma perspetiva da neurociência cognitiva "de que uma determinada região isolada pode não</p><p>funcionar como um índice confiável para uma função cognitiva particular. Em vez disso, o contexto</p><p>neural em que uma área está ativa pode definir a função cognitiva." O seu argumento baseia-se em</p><p>caracterizações cuidadosas</p><p>da conectividade eficaz usando neuroimagem.</p><p>26</p><p>C Conclusão</p><p>Em conclusão, a capacidade representacional e a função inerente de qualquer neurônio, população</p><p>neuronal ou área cortical no cérebro é dinâmica e sensível ao contexto. A integração funcional, ou</p><p>interações entre sistemas cerebrais, que empregam conexões de condução (de baixo para cima) e para trás</p><p>(de cima para baixo), mediam essa especialização adaptativa e contextual. A maioria dos modelos de</p><p>aprendizagem representacional requer pressupostos prévios sobre a distribuição das causas. No entanto,</p><p>Bayes empírico sugere que esses pressupostos podem ser relaxados e que os priores podem ser</p><p>aprendidos em um contexto hierárquico. Tentámos mostrar que esta previsão hierárquica pode ser</p><p>implementada em arquiteturas semelhantes ao cérebro e de uma forma biologicamente plausível.</p><p>Um ponto-chave, feito acima, é que as conexões retrógradas, mediando modelos internos ou generativos</p><p>de como as entradas sensoriais são causadas, são essenciais se os processos geradores de inputs são</p><p>difíceis de inverter. Esta não-invertibilidade exige uma parametrização explícita tanto do modelo</p><p>generativo (ligações para trás) como do reconhecimento aproximado (ligações para a frente). Isso sugere</p><p>que as arquiteturas feedforward não são suficientes para a aprendizagem ou perceção representacional.</p><p>Além disso, as não-linearidades em modelos generativos, que tornam necessárias conexões para trás,</p><p>exigem que essas conexões sejam modulatórias; de modo que as causas estimadas em níveis corticais</p><p>mais altos possam interagir para prever respostas em níveis mais baixos. Isto é importante em relação às</p><p>assimetrias nas ligações para a frente e para trás que foram caracterizadas empiricamente.</p><p>Os argumentos nesta seção foram desenvolvidos sob modelos hierárquicos da função cerebral, onde</p><p>sistemas de alto nível fornecem uma previsão das entradas para níveis mais baixos. O conflito entre</p><p>os dois é resolvido por mudanças nas representações de alto nível, que são impulsionadas pelo erro</p><p>subsequente em regiões inferiores, até que a incompatibilidade seja "cancelada". Nesta perspetiva, a</p><p>especialização de qualquer região é determinada tanto por fatores de condução ascendentes como</p><p>por previsões descendentes. A especialização não é, portanto, uma propriedade intrínseca de</p><p>nenhuma região, mas depende tanto de ligações para a frente como para trás com outras áreas. Uma</p><p>vez que estes últimos têm acesso ao contexto em que os inputs são gerados, estão em condições de</p><p>modular a seletividade ou a especialização das zonas inferiores. As implicações para os modelos</p><p>clássicos (por exemplo, campos recetivos clássicos em eletrofisiologia, especialização clássica em</p><p>neuroimagem e conexionismo em modelos cognitivos) são graves e sugerem que esses modelos</p><p>podem fornecer relatos incompletos de arquiteturas cerebrais reais. Por outro lado, a aprendizagem</p><p>representacional, no contexto de modelos generativos hierárquicos, não só dá conta de fenómenos</p><p>27</p><p>extraclássicos vistos empiricamente, como impõe uma visão do cérebro como uma máquina</p><p>inferencial através da sua motivação bayesiana empírica.</p><p>V AVALIAÇÃO DE ARQUITETURAS FUNCIONAIS COM IMAGENS CEREBRAIS</p><p>Claramente, seria bom demonstrar a existência de influências retrógradas com a neuroimagem. Trata-se</p><p>de um problema um pouco mais profundo do que se poderia imaginar. Isso ocorre porque fazer</p><p>inferências causais sobre a conectividade efetiva não é simples (ver Pearl 2000). Poder-se-ia pensar que</p><p>mostrar a atividade regional parcialmente prevista pela atividade a um nível mais elevado seria suficiente</p><p>para confirmar a existência de influências atrasadas, pelo menos a nível populacional. O problema é que</p><p>esta dependência estatística não permite qualquer inferência causal. As dependências estatísticas podem</p><p>facilmente surgir em uma arquitetura puramente avançada, porque a atividade de nível superior é baseada</p><p>na atividade no nível inferior. Uma resolução deste problema é perturbar o nível superior diretamente</p><p>usando estimulação transmagnética ou interrupções patológicas (ver abaixo). No entanto, descontando</p><p>essas intervenções, fica-se com o difícil problema de inferir influências retrógradas, com base em</p><p>medidas que poderiam ser correlacionadas por causa de conexões para frente. Embora existam técnicas</p><p>de modelagem causal que podem resolver esse problema, adotaremos uma abordagem mais simples e</p><p>observaremos que as interações entre influências bottom-up e top-down não podem ser explicadas por</p><p>uma arquitetura puramente feedforward. Tal deve-se ao facto de as influências de cima para baixo não</p><p>terem acesso aos inputs ascendentes. Uma interação, neste contexto, pode ser interpretada como um</p><p>efeito de conexões para trás na eficácia impulsionadora de conexões diretas. Por outras palavras, a</p><p>resposta evocada pelos mesmos inputs ascendentes depende do contexto estabelecido pelos inputs de</p><p>cima para baixo. Esta interação é usada abaixo simplesmente como evidência da existência de influências</p><p>retrógradas. Há casos de codificação preditiva que enfatizam esse fenômeno. Por exemplo, o "modelo de</p><p>filtro de Kalman demonstra como certas formas de atenção podem ser vistas como uma propriedade</p><p>emergente da interação entre expectativas de cima para baixo e sinais de baixo para cima" (Rao 1999).</p><p>O restante deste capítulo se concentra nas evidências dessas interações. Do ponto de vista das</p><p>respostas funcionalmente especializadas, estas interações manifestam-se como uma especialização</p><p>sensível ao contexto ou contextual, em que as respostas específicas da modalidade, da categoria ou</p><p>do exemplo, impulsionadas por inputs ascendentes, são moduladas por influências de cima para</p><p>baixo induzidas pelo conjunto percetivo. A primeira metade desta seção adota essa perceção. A</p><p>28</p><p>segunda parte desta seção usa medições de conectividade efetiva para estabelecer interações entre</p><p>influências ascendentes e descendentes. Todos os exemplos apresentados abaixo baseiam-se em</p><p>tentativas de estabelecer interações, tentando mudar as respostas neuronais evocadas sensorialmente</p><p>através de supostas manipulações de influências de cima para baixo. Estes incluem a indução de</p><p>alterações independentes no conjunto percetivo, cognitivo [atencional] e, na última seção, através do</p><p>estudo de pacientes com lesões cerebrais</p><p>Uma especialização sensível ao contexto</p><p>Se a especialização funcional depende do contexto, então deve-se ser capaz de encontrar evidências de</p><p>respostas funcionalmente específicas, usando neuroimagem, que são expressas em um contexto e não em</p><p>outro. A primeira parte desta seção fornece um exemplo empírico. Se a natureza contextual da</p><p>especialização é mediada por aferentes modulatórios retrógrados, então deve ser possível encontrar</p><p>regiões corticais nas quais respostas funcionalmente específicas, provocadas pelos mesmos estímulos, são</p><p>moduladas pela atividade em áreas superiores. O segundo exemplo mostra que isso é realmente possível.</p><p>Ambos os exemplos dependem de desenhos experimentais multifatoriais.</p><p>1 Desenhos multifatoriais Os desenhos fatoriais combinam dois ou mais fatores dentro de uma</p><p>tarefa ou tarefas. Os desenhos fatoriais podem ser interpretados como a realização de experimentos</p><p>de subtração em dois ou mais contextos diferentes. As diferenças nas ativações, atribuíveis aos</p><p>efeitos do contexto, são simplesmente a interação. Considere um experimento implícito de</p><p>reconhecimento de objetos, por exemplo, nomear (do nome do objeto ou da cor do não-objeto) e</p><p>simplesmente dizer ''sim' durante a visualização passiva de objetos e não-objetos. Os fatores neste</p><p>exemplo são o reconhecimento implícito de objetos com dois níveis (objetos vs. não-objetos) e a</p><p>recuperação fonológica (nomear vs. dizer "sim"). A ideia aqui é analisar a interação entre esses</p><p>fatores, ou o efeito que um fator tem sobre as respostas provocadas pelas mudanças no outro.</p><p>Observar que respostas específicas a objetos são provocadas (pedindo aos</p>