Prévia do material em texto
The Journal of Neuroscience, 2008 DOI:10.1523/JNEUROSCI.2265-08.2008 Daniela Schiller, Ifat Levy, Yael Niv, Joseph E. LeDoux e Elizabeth A. Phelps TRADUÇÃO LIVRE FRANCIELE MAFTUM Do medo à segurança e vice-versa: a reversão do medo no cérebro humano From Fear to Safety and Back: Reversal of Fear in the Human Brain # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A A aprendizagem do medo é um processo rápido e persistente que promove a defesa contra ameaças e reduz a necessidade de reaprender sobre o perigo. No entanto, também é importante reajustar de forma flexível o comportamento do medo quando as circunstâncias mudam. Na verdade, a incapacidade de adaptação às mudanças nas condições pode contribuir para transtornos de ansiedade. Um aspecto central, embora negligenciado, da modulação do medo é a capacidade de mudar com flexibilidade as respostas do medo de um estímulo para outro se um estímulo antes ameaçador se tornar seguro ou um estímulo antes seguro se tornar ameaçador. Nestas situações, a inibição do medo e o desenvolvimento de reações de medo ocorrem simultaneamente, mas são direcionados a alvos diferentes, exigindo respostas precisas sob estresse contínuo. Até à data, a investigação sobre a modulação do medo tem-se centrado principalmente na mudança do medo para a segurança, utilizando paradigmas como a extinção, resultando numa redução do medo. O objetivo do presente estudo foi acompanhar as mudanças dinâmicas do medo para a segurança e da segurança para o medo quando essas transições ocorrem simultaneamente. Usamos neuroimagem funcional em conjunto com um paradigma de reversão do condicionamento do medo. Nossos resultados revelam uma dissociação única dentro do córtex pré-frontal ventromedial entre um estímulo seguro que anteriormente previa o perigo e um estímulo seguro “ingênuo”. Mostramos que as respostas da amígdala e do estriado rastrearam os estímulos preditivos do medo, mudando de forma flexível suas respostas de um estímulo preditivo para outro. Além disso, os erros de predição associados à aprendizagem reversa correlacionaram-se com a ativação do estriado. Estes resultados elucidam como o medo é reajustado para acompanhar adequadamente as mudanças ambientais e os mecanismos cerebrais subjacentes ao controle flexível do medo. Palavras-chave: condicionamento do medo; erro de previsão; reversão; amígdala; estriado; vmPFC # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Introdução A aprendizagem do medo é tipicamente rápida e resistente à modificação (Le-Doux, 2000). Esta tendência para persistir evita a necessidade de re-aprender sobre o perigo e pode ser adaptativa na promoção da fuga e da evitação face às ameaças. Contudo, a capacidade de reajustar o comportamento de forma flexível também é vantajosa, particularmente num ambiente em constante mudança. Essa capacidade pode estar prejudicada nos transtornos de ansiedade, e os pacientes com tais transtornos frequentemente apresentam respostas de medo inadequadas às circunstâncias atuais. Um modelo líder para estudar o medo e a ansiedade no cérebro é o condicionamento do medo pavloviano, um procedimento comportamental no qual um estímulo condicionado emocionalmente neutro (CS), como um tom, é emparelhado com um estímulo de dor (EUA), como choque elétrico. Estudos realizados nas últimas décadas revelaram muito sobre os mecanismos celulares e moleculares envolvidos na aquisição e armazenamento de informações sobre o condicionamento do medo. Como resultado deste trabalho, os mecanismos de extinção do medo, pelos quais as respostas ao medo são enfraquecidas pela apresentação do CS sem os estímulos de dor, também começaram a ser compreendidos. No entanto, elucidar como as respostas ao medo evoluem e enfraquecem através da aprendizagem fornece apenas uma compreensão parcial de como o medo é modulado no cérebro. Para compreender o controle emocional, é crucial esclarecer como as respostas ao medo são manobradas e reajustadas com flexibilidade. Uma forma de estudar a flexibilidade no medo é através da reversão das contingências de reforço aversivo num paradigma de condicionamento do medo. Neste caso, após a aquisição do medo a um CS, a resposta de medo não é eliminada como acontece com a extinção, mas é transferida para outro CS. Esta é uma situação única em que dois processos, o desenvolvimento de uma reação de medo e a sua inibição, ocorrem em paralelo, visando estímulos diferentes. A reversão do medo, portanto, representa um caso mais sofisticado e talvez mais exigente de modulação do medo. O objetivo do presente estudo foi realizar uma análise detalhada da mudança gradual nas respostas fisiológicas e neurais a sinais que se alternam na previsão do perigo. Especificamente, usando ressonância magnética funcional do cérebro inteiro (fMRI), procuramos identificar os mecanismos neurais subjacentes ao controle inibitório da resposta ao medo enquanto o medo ainda está presente, mas é direcionado para outro lugar. Nosso segundo objetivo foi identificar os mecanismos neurais que rastreiam os valores preditivos dos estímulos à medida que eles são revertidos de indutores de medo para indutores de segurança e vice-versa. Para este fim, também examinamos os erros de predição relacionados a tais reversões usando um padrão de resposta de erro de predição gerado pelo algoritmo de aprendizagem por reforço de diferença temporal como um regressor para a ativação cerebral são revertidos de indutor de medo para indutor de segurança e vice-versa. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Figura 1. Representação esquemática do procedimento. A, Cronograma dentro do teste: os estímulos são apresentados em ordem pseudoaleatória por 4s, e os estímulos CS+ terminam com um choque em um terço dos testes. As tentativas são separadas por um intervalo entre tentativas de 12 s. Acima da linha do tempo há uma resposta hemodinâmica BOLD estilizada em um ensaio típico não reforçado. B, Ilustração da linha do tempo geral. A aquisição consistiu na apresentação de dois estímulos, o CS+ e o CS-, em esquema de reforço parcial. Na reversão, os mesmos estímulos foram utilizados, mas as contingências de reforço foram invertidas de modo que o CS- foi emparelhado com o estímulo de dor em cerca de um terço das tentativas. O primeiro julgamento em que o antigo CS- terminou com os estímulos de dor (doravante denominado “novo CS+”) marcou o início da fase de reversão. Para este fim, também examinamos a codificação de erros de predição relacionados a tais reversões usando um padrão de resposta de erro de predição gerado pelo algoritmo de aprendizagem por reforço de diferença temporal como um regressor para a ativação cerebral. O procedimento experimental (ver Fig. 1) consistiu em um estágio de aquisição seguido imediatamente por uma transição não sinalizada para um estágio de reversão. Durante a aquisição, os sujeitos foram apresentados a dois estímulos visuais (faces). Um estímulo coterminou com resultado aversivo (estímulo de dor) em um terço das tentativas (CS+, face A). O outro estímulo nunca foi pareado com o estímulo de dor (CS-, face B). A fase de reversão foi semelhante à aquisição, exceto que a contingência de reforço foi revertida de modo que o estímulo anteriormente não reforçado agora às vezes coterminava com os estímulos de dor (novo CS+, face B), e o estímulo anteriormente reforçado era agora desemparelhado com os estímulos de dor (novo CS+, face B). Materiais e métodos Participantes. Vinte e dois voluntários destros saudáveis foram recrutados para a tarefa de reversão de fMRI. Um sujeito apresentou movimentos excessivos da cabeça durante a ressonância magnética funcional e, portanto, foi excluído de análises posteriores. Quatro indivíduos apresentaram níveis não mensuráveis de condutância da pele (não respondedores), o que não permitiu uma avaliação do condicionamentodo medo. Portanto, não analisamos seus dados de fMRI e eles foram excluídos do experimento. aquisição reversão intervalo entre tentativas CS+ ou CS- 4 s 12 s # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Assim, a amostra final incluiu 17 voluntários destros saudáveis (9 do sexo masculino) entre 18 e 31 anos de idade. O experimento foi aprovado pelo Comitê Universitário de Atividades Envolvendo Seres Humanos. Todos os sujeitos deram consentimento informado e foram pagos pela sua participação. Paradigma de condicionamento e avaliação fisiológica. Foi utilizado um paradigma de discriminação e reversão do medo, com condicionamento de atraso e reforço parcial (fig. 1). Usamos reforço parcial para tornar o aprendizado não trivial e para retardar a aquisição e a reversão. Isto permitiu-nos examinar as fases iniciais e finais de cada fase e o desenvolvimento gradual da aprendizagem do medo e a sua reversão. Os participantes foram informados de que veriam imagens visuais na tela do computador enquanto recebiam choques. O nível dos choques foi definido antes do experimento e, portanto, os sujeitos puderam experimentá-lo de antemão. As instruções eram prestar atenção na tela do computador e tentar descobrir a relação entre os estímulos e os choques. Não foi feita menção a duas etapas ou à reversão de contingências. Os CSs eram dois rostos masculinos levemente irritados da série Ekman (Ekman e Friesen, 1976). Esses estímulos foram escolhidos porque tiveram sucesso na produção de condicionamento e ativação da amígdala em estudos anteriores (Morris et al., 1998; Critchley et al., 2002; Kalisch et al., 2006). Independentemente de qualquer saliência emocional a priori destes estímulos, a utilização de um procedimento de discriminação permitiu-nos detectar diferenças nas propriedades preditivas aprendidas destes estímulos. O estímulo de dor foi um choque elétrico leve no pulso (duração de 200 ms, 50 pulsos/s). Os CSs foram apresentados por 4 s, com intervalo intertentativas (ITI) de 12 s em que foi apresentado um ponto de fixação (fig. 1 A). Na fase de aquisição, uma face (face A) foi pareada com o estímulo de dor em um terço das tentativas (CS+), e a outra (face B) nunca foi pareada com o estímulo de dor (CS-). Na fase de reversão, essas contingências foram revertidas de tal forma que a face B estava agora emparelhada com o estímulo de dor em aproximadamente um terço dos testes (novo CS+) e a face A não estava emparelhada com o estímulo de dor (novo CS-). A ordem dos diferentes tipos de ensaios foi pseudorandomizada (sem ensaios consecutivos reforçados e não mais do que dois ensaios consecutivos de cada tipo), e a designação de faces em CS+ e CS- foi contrabalançada entre os sujeitos. Durante a aquisição, houve 12 apresentações de cada um dos CSs, misturadas com 6 apresentações adicionais do CS+ que terminaram com os estímulos de dor. A reversão ocorreu imediatamente após a aquisição e a transição entre os estágios não foi sinalizada. Esta etapa consistiu em 16 apresentações de cada uma das CS, intercaladas com 7 apresentações adicionais da CS+ que terminaram com os estímulos de dor. Consideramos o primeiro ensaio em que o CS anterior co-terminou com os estímulos de dor como o início da fase de reversão (fig. 1 B). Choques leves foram aplicados através de uma barra de eletrodo estimulante fixada com uma tira de velcro no pulso direito do sujeito. Foi utilizado um estimulador Grass Medical Instruments carregado por corrente estabilizada, com cabos blindados magneticamente e aterrados através de um filtro de RF. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Os sujeitos foram solicitados a definir o nível do choque usando um procedimento de avaliação antes da digitalização. Neste procedimento, um sujeito recebeu primeiro um choque muito leve (10 V, 200 ms, 50 pulsos/s), que foi gradualmente aumentado até um nível que o sujeito indicou como “desconfortável, mas não doloroso” (com um nível máximo de 60V). A condutância da pele foi avaliada com eletrodos blindados de Ag-AgCl, preenchidos com gel eletrolítico padrão de NaCl e fixados nas falanges médias do segundo e terceiro dedos da mão esquerda. Os cabos dos eletrodos foram aterrados através de um painel de filtro de RF. O sinal de condutância da pele foi amplificado e gravado com um módulo de condutância da pele da BIOPAC Systems conectado a um computador Macintosh (Apple Computers). Os dados foram registrados continuamente a uma taxa de 200 amostras por segundo. Uma análise off-line das formas de onda analógicas da condutância da pele foi conduzida com o software AcqKnowledge (BIOPAC Systems). O nível de resposta da condutância da pele foi avaliado para cada tentativa como a diferença de amplitude pico a pico na condutância da pele da maior deflexão (em microsiemens) na janela de latência de 0,5 a 4,5 s após o início do estímulo. O critério de resposta mínima foi 0,02 uS. As respostas abaixo deste critério foram codificadas como zero. Os escores de condutância da pele bruta foram transformados em raiz quadrada para normalizar as distribuições e dimensionados de acordo com a resposta média dos estímulos de dor transformada em raiz quadrada de cada sujeito. Aquisição e análise de neuroimagem. Um scanner de cabeça 3T Siemens Allegra e uma bobina de cabeça padrão Siemens foram utilizados para aquisição de dados. As imagens anatômicas foram adquiridas utilizando protocolo ponderado em T1 (matriz 256 x 256, 176 cortes sagitais de 1 mm). Imagens funcionais foram adquiridas usando uma sequência EPI gradiente-eco de disparo único (TR = 2.000 ms, TE = 25 ms, FOV = 192 cm, ângulo de inversão = 75°, largura de banda = 4.340 Hz/px, espaçamento de eco = 0,29 ms). Foram obtidos trinta e nove cortes oblíquo-axiais contíguos (voxels de 3 x 3 x 3 mm) paralelos à linha AC-PC. A análise dos dados de imagem foi realizada utilizando o pacote de software BrainVoyager QX (Brain Innovation). O pré- processamento de dados de imagem funcional incluiu correção de movimento, correção de tempo de varredura de fatia (usando interpolação de sincronização), suavização espacial usando um filtro gaussiano tridimensional (4 mm FWHM) e remoção de tendência linear voxelwise e filtragem passa-alta de frequências acima de três ciclos por curso de tempo . Um sujeito com movimento >2 mm não foi incluído na análise. Uma análise de modelo linear geral de efeitos aleatórios foi conduzida no sinal de fMRI durante a tarefa de reversão com preditores separados para cada tipo de ensaio (face A, face B) em cada uma das quatro fases: aquisição precoce e tardia e reversão precoce e tardia. Usamos preditores separados para ensaios que terminaram com choque. Isso resultou em 10 preditores de vagões correspondentes à duração de cada tentativa (4s), que foram combinados com uma função de resposta hemodinâmica canônica padrão. Os dados estruturais e funcionais de cada participante foram transformados no espaço estereotáxico padrão de Talairach (Talairach e Tournoux, 1988). # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Para cada região de interesse (ROI), comparamos as respostas médias diferenciais dependentes do nível de oxigenação sanguínea (BOLD) aos estímulos preditivos versus não preditivos em cada fase. Essas análises foram conduzidas na porcentagem média de alteração do sinal BOLD no pico de ativação observado (4 +- 2 s após o deslocamento do estímulo) em comparação com a linha de base (a resposta BOLD média durante os últimos 4 s do ITI). Numa análise complementar, foi utilizado um desenho de modelo linear geral diferente para investigar a activação BOLD relacionada com erros nas previsões do medo, numa análise de todo o cérebro. Um modelo de aprendizagem por diferença temporal foi usado para gerar um regressor de erro de predição de medo. Para cada tentativa definimos dois momentos (t),um no momento do início da sugestão (CS+ ou CS-) e outro no momento do seu deslocamento. Isso resultou em quatro estados st (dois pontos no tempo para duas pistas), cada um com valor predicativo correspondente V(st). Em cada ponto de tempo, o erro de previsão foi definido como a diferença entre duas previsões de valores consecutivos: st = rt + V(st) - V(st - 1), onde rt representa o resultado em cada ponto de tempo, ou seja, aplicação de choque ( rt = 1 para choque e rt = 0 para nenhum choque). Com base neste erro de previsão, as previsões de valores de estado anteriores foram atualizadas de acordo com: V(st -1) = V (st +1) + nt, onde n é a taxa de aprendizagem. A taxa de aprendizagem em si diminuiu após cada tentativa de acordo com n- novo = an-antigo. Os parâmetros deste modelo de aprendizagem por diferença temporal foram um valor inicial Vinit para os dois CSs, uma taxa de aprendizagem n-acq para a fase de aquisição, um termo de decaimento da taxa de aprendizagem a (que permitiu que a aprendizagem diminuísse ao longo do tempo) e uma taxa de aprendizagem n -rev para a fase de reversão (que permitiu a detecção de alterações para aumentar novamente a taxa de aprendizagem que decaiu). Para ajustar esses quatro parâmetros, assumimos que a resposta da condutância da pele no momento do CS está linearmente relacionada ao erro de predição naquele momento (isto é, que está linearmente relacionada ao valor preditivo do CS). Assim, usamos a regressão linear para estimar a escala do erro de predição para cada sujeito (incluindo nesta regressão os termos para a resposta de condutância da pele basal e um desvio linear) e usamos a soma residual dos erros quadrados apenas de ensaios não reforçados (como no ensaios reforçados, a resposta da condutância da pele foi superada pela resposta ao choque) como uma medida da qualidade do ajuste. Reunindo dados sobre assuntos, ajustamos um conjunto de parâmetros, minimizando a soma total dos erros quadráticos. Foram eles: Vinit = 0,69, n-acq = 0,23, n-rev - 0,16 e a = 0,91. A matriz de projeto final para esta análise incluiu, além do regressor de erro de predição, quatro regressores adicionais responsáveis pela ocorrência de inícios de CS+, inícios de CS-, encerramentos de testes com estímulo de dor e encerramentos de testes sem estimulo de dor. Novo CS- > Novo CS+ reversão tardia # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Figura 2. Condutância da pele e respostas vmPFC BOLD ao longo da tarefa de discriminação e reversão. A, Respostas médias de condutância diferencial da pele. A resposta diferencial é calculada como [face A - face B]. Pontuações positivas correspondem a respostas mais fortes à face A, que foi pareada com o choque durante a aquisição (CS+). Pontuações negativas correspondem a respostas mais fortes à face B, que foi emparelhada com o choque durante a reversão (novo CS+). B, Mapa de ativação estatística representando o vmPFC revelado pelo novo CS- > novo CS+ em contraste de reversão tardia (taxa de descoberta falsa novo CS+ em contraste de reversão tardia (2532 mm 3). Barras de erro indicam SEs. Diferença significativa de zero: *p novo CS+ na reversão tardia. Examinamos regiões no mapa estatístico mostrando uma resposta significativa (taxa de falsa descobertaUma ANOVA de três fatores com os principais fatores de estímulo (CS+, CS-), estágio (aquisição, reversão) e fase (precoce, tardia), revelou interação significativa estímulo X estágio X fase (p CS+ na aquisição tardia e novo CS- > novo CS+ na reversão tardia. Como esperado, esta análise revelou ativação apenas no vmPFC. Extraímos a resposta BOLD média no pico de ativação (taxa de descoberta falsa = 0,05; x, y, z = 3, 32, -7) e comparamos a resposta diferencial entre o CS + e CS- na aquisição com a resposta diferencial entre esses estímulos em reversão (Fig. 3). Esta análise revelou uma diferença significativamente maior na reversão em comparação com a aquisição (t(16) = 1,76, p CS- na aquisição inicial para extrair regiões de interesse, e examinamos sua resposta diferencial aos estímulos em estágios subsequentes. Novamente, excluímos desta análise os ensaios CS+ que coterminaram com os EUA. As regiões no mapa estatístico que mostram uma resposta significativa (taxa de descoberta falsa CS- na aquisição inicial com um limiar um pouco mais liberal (p CS- em contraste de aquisição inicial (taxa de falsa descoberta 100 mm3) não revelou áreas adicionais. Estas áreas são semelhantes àquelas encontradas nos contrastes que examinam o valor aversivo diferencial do CS+ e CS- acima. No entanto, enquanto as respostas BOLD tanto no corpo estriado quanto na amígdala corresponderam ao valor aversivo nesses contrastes (Fig. 4), os erros de predição de diferença temporal foram correlacionados apenas com o BOLD estriatal, de acordo com estudos anteriores. Observamos que com este tipo de análise baseada em modelo, não podemos distinguir com segurança entresinais de erro de previsão e sinais de valor previsto. Na verdade, no momento do CS, o sinal de erro de predição e o sinal de valor previsto são iguais e a única diferença entre eles é que o sinal de erro é presumido como pontuado (fásico), enquanto o sinal de valor é mais sustentado durante toda a duração do o CS. Um estudo recente (Hare et al., 2008) tentou separar o sinal de valor e o sinal de erro de predição usando fMRI, mas isso foi feito usando um projeto experimental especial destinado diretamente a separar esses sinais. Como isso não é possível em um projeto de condicionamento padrão como o nosso, aqui realizamos a análise de erro de predição além da análise CS + versus CS- mais convencional “livre de modelo”, principalmente para verificar a consistência com relatórios anteriores. Finalmente, examinamos se, semelhante ao vmPFC, o corpo estriado e a amígdala dissociaram um CS- ingênuo de um CS- que carrega informações conflitantes. Não encontramos diferença entre esses estímulos no corpo estriado (t(16) = -0,82, NS) ou na amígdala (t(16) = -0,70, NS). No entanto, os ROIs da amígdala, estriado e vmPFC foram definidos com base em diferentes contrastes, o que pode distorcer a comparação entre eles. Ou seja, os voxels no vmPFC foram definidos como aqueles que apresentam respostas mais fortes ao novo CS- na reversão tardia, enquanto os voxels na amígdala e no corpo estriado foram definidos como aqueles que apresentam respostas fracas ao CS- na aquisição precoce. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Para comparar as respostas BOLD dessas regiões sob as mesmas condições, definimos novos ROIs nessas áreas com base em suas respostas a um subconjunto de ensaios (todos os ensaios reforçados > fixação, taxa de descoberta falsa CS- no contraste de aquisição inicial. B, A ativação do estriado é indicada pelo círculo amarelo (taxa de descoberta falsaCuriosamente, as respostas do vmPFC aos estímulos preditivos de medo foram semelhantes nos dois estágios, e não conseguimos diferenciar um CS+ ingênuo de um CS+ que carregava informações conflitantes (era seguro, mas agora preditivo de perigo). Em ambos os casos, o vmPFC apresentou resposta diminuída em comparação com os estímulos não preditivos. Tais diminuições para CS+ versus CS- são normalmente observadas durante o condicionamento do medo e são seguidas por respostas aumentadas de CS+ durante a extinção. Os presentes resultados fornecem evidências de que estes aumentos são seletivos para uma CS+ extinta, e não o resultado de uma redução geral na excitação do medo. Esta especificidade é indicada pelo facto de o aumento das respostas ao novo CS- (que equivale a um CS+ extinto) ter sido acompanhado por uma diminuição das respostas ao novo CS+, espelhando a aquisição do medo. Propomos dois papéis possíveis, que não são mutuamente exclusivos, para o vmPFC na reversão do medo. Uma função poderia ser fornecer um sinal de segurança seletivo enquanto as respostas ao medo ainda estão sendo provocadas. Ao inibir a resposta do medo a um estímulo, o vmPFC pode facilitar a transferência desta resposta para o estímulo atualmente preditivo. Em essência, o vmPFC geralmente não sinaliza que é “seguro baixar a guarda”, mas sim sinaliza quais estímulos específicos no ambiente podem ser ignorados com segurança. Prejuízos nessa inibição seletiva do medo podem levar a uma resposta de medo generalizada, por um lado, ou a respostas de medo preservativas, por outro lado (Morgan e LeDoux, 1993). Outra função poderia ser fornecer um sinal de recompensa associado à omissão do resultado aversivo à nova reversão CS-. Pode-se argumentar que um CS- ingênuo é codificado como irrelevante, não provocando, portanto, ativação relacionada à recompensa, enquanto a omissão de um US aversivo do novo CS- confere propriedades gratificantes. Consistente com esta ideia, foi demonstrado que o vmPFC aumenta a ativação em resposta aos resultados de recompensa e reduz a ativação em repouso à punição ou omissão de recompensa. Uma possibilidade alternativa é que qualquer estímulo seguro, independentemente do seu passado, possa envolver mecanismos inibitórios ou mesmo ser considerado recompensador após a reversão ter ocorrido. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Examinar a resposta neural a um segundo CS que não muda de função durante o experimento pode ser informativo a esse respeito: de acordo com essa hipótese, o vmPFC deveria se tornar mais ativo em resposta a esse estímulo após a reversão. Valor preditivo aversivo e erros de previsão Semelhante ao vmPFC, a amígdala e o corpo estriado também discriminaram o CS+ do CS- ao longo da tarefa, embora na direção oposta. Durante a aquisição, essas áreas apresentaram respostas aumentadas ao CS+ em comparação com o CS-. Em sentido inverso, estas regiões aumentaram a resposta ao novo CS+ e reduziram a sua resposta ao novo CS-. Assim, uma reversão completa da ativação neural refletiu a reversão nas respostas de condutância da pele, nosso índice comportamental de medo. Ao contrário do vmPFC, essas regiões não dissociaram um CS- ingênuo de um CS- que carregava informações conflitantes (Fig. 5). A ativação do estriado também foi correlacionada com erros de predição na tarefa de reversão. Há evidências acumuladas ligando respostas BOLD do estriado com erros de previsão de diferença temporal para recompensas. A presente descoberta contribui para o crescente corpo de evidências que apoiam o papel desta estrutura no erro de previsão de diferença temporal também para resultados aversivos. Embora a ativação do estriado tenha sido observada no paradigma de aprendizagem aversiva em humanos e animais, o papel desta região na aprendizagem aversiva está apenas começando a ser compreendido. O presente estudo fornece evidências robustas para o papel do corpo estriado nas previsões do medo e seus erros associados, bem como na reversão flexível da aprendizagem preditiva do medo. Além do estriado, as respostas em outras regiões, incluindo o cingulado anterior dorsal e a ínsula anterior, também se correlacionaram com erros de predição. Essas descobertas são consistentes com relatórios anteriores usando aprendizagem aversiva e podem apontar para diferenças interessantes entre erros de previsão aversivos e apetitivos. No entanto, as respostas BOLD da amígdala não foram significativamente correlacionadas com erros de predição em nossa tarefa. Dois estudos recentes descobriram que a amígdala tem um papel na sinalização de erros de previsão apetitivos e aversivos (perda de dinheiro) (Yacubian et al., 2006). No entanto, um estudo recente de respostas eletrofisiológicas na amígdala de primatas não conseguiu separar sinais relacionados a erros de predição de uma série de outros sinais, como valor de CS, valência de estímulo e respostas seletivas de estímulo de dor. Assim, o cálculo exato realizado pelos neurônios da amígdala enquanto aprendem sobre as consequências aversivas ainda não está claro. No entanto, a amígdala parece ter um papel importante na aquisição inicial do medo, como pode ser visto pela ativação mais robusta na aquisição precoce em comparação com a aquisição tardia. Na fase posterior, o diferencial de resposta ao CS+ versus CS- foi reduzido. Esse achado é consistente com relatos anteriores de que a ativação da amígdala evocada por CS+ diminui com o tempo. Também pode estar relacionado à falta de correlação com o sinal de erro de predição, pois o modelo de diferença temporal prevê maior diferenciação entre os estímulos ao longo do tempo. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Aqui mostramos que, apesar desta diminuição, a amígdala também reajusta de forma flexível a sua resposta após a reversão, permitindo que surja a resposta diferencial oposta. Diferentes tipos de reversão Embora muito pouco se saiba sobre a reversão do condicionamento do medo pavloviano, os mecanismos neurais subjacentes à reversão das respostas instrumentais impulsionadas por resultados aversivos foram investigados mais detalhadamente, implicando a região lateral do CPF ventral. O aumento da ativação nesta área também tem sido associado a punição, omissão de recompensa e mudança de resposta. É possível que as reversões instrumentais e pavlovianas aversivas possam estar dissociadas nas regiões lateral e medial do CPF ventral, respectivamente. O primeiro pode mediar a inibição de respostas instrumentais, enquanto o último pode mediar a inibição de reações fisiológicas de medo. No entanto, existem outras diferenças fundamentais entre esses estudos. Por exemplo, aqui, a inversão ocorreu entre associações aversivas e neutras, enquanto estudos anteriores mudaram entre associações apetitivas e aversivas. Esses estudos também usam reversões em série, o que pode envolver o aprendizado de regras de ordem superior. Assim, estudos adicionais são necessários para elucidar a contribuição diferencial dessas duas regiões para a aprendizagem reversa. Em suma, o presente estudo fornece uma primeira análise detalhada dos componentes da aprendizagem reversa em humanos, com foco particular nos estímulos de segurança. Encontramos evidências da contribuição única do vmPFC para a inibição do medo sob condições adversas, nas quais o medo não diminui, mas precisa ser adequadamente atribuído e controlado. Esses achados são importantes para compreender as disfunções neurais que levam ao controle inadequado do medo associado aos transtornos de ansiedade. Referências Balleine BW, Delgado MR, Hikosaka O (2007) The role of the dorsal stria- tum in reward and decision- making. J Neurosci 27:8161– 8165. Belova MA, Paton JJ, Morrison SE, Salzman CD (2007) Expectation modulates neural responses to pleasant and aversive stimuli in primate amygdala. Neuron 55:970 –984. Bouton ME (1993)Context, time, and memory retrieval in the interference paradigms of Pavlovian learning. Psychol Bull 114:80 –99. Brooks DC, Bouton ME (1993) A retrieval cue for extinction attenuates spontaneous recovery. J Exp Psychol Anim Behav Process 19:77– 89. Buchel C, Dolan RJ (2000) Classical fear conditioning in functional neuro- imaging. Curr Opin Neurobiol 10:219 –223. Buchel C, Morris J, Dolan RJ, Friston KJ (1998) Brain systems mediating aversive conditioning: an event- related fMRI study. Neuron 20:947–957. Cardinal RN, Parkinson JA, Hall J, Everitt BJ (2002) Emotion and motiva- tion: the role of the amygdala, ventral striatum, and prefrontal cortex. Neurosci Biobehav Rev 26:321–352. CoolsR,ClarkL,OwenAM,RobbinsTW (2002) Defining the neural mechanisms of probabilistic reversal learning using event-related functional magnetic resonance imaging. J Neurosci 22:4563– 4567. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Critchley HD, Mathias CJ, Dolan RJ (2002) Fear conditioning in humans: the influence of awareness and autonomic arousal on functional neuroanatomy. Neuron 33:653– 663. DavisM (2000) The role of the amygdala in conditioned and unconditioned fear and anxiety. In: The amygdala: a functional analysis (Aggleton JP, ed), pp. 213–288. Oxford: Oxford UP. DelgadoMR (2007) Reward-related responses in the human striatum. Ann N Y Acad Sci 1104:70 – 88. DunsmoorJE,BandettiniPA,KnightDC (2007) Impact of continuous versus intermittent CSUCS pairing on human brain activation during Pavlovian fear conditioning. Behav Neurosci 121:635– 642. Ekman P, Friesen W (1976) Pictures of facial affect. Palo Alto, CA: Consulting Psychologists. Evers EA, Cools R, Clark L, van der Veen FM, Jolles J, Sahakian BJ, Robbins TW (2005) Serotonergic modulation of prefrontal cortex during negative feedback in probabilistic reversal learning. Neuropsychopharmacol- ogy 30:1138 –1147. Fendt M, Fanselow MS (1999) The neuroanatomical and neurochemical basis of conditioned fear. Neurosci Biobehav Rev 23:743–760. Friston KJ, Tononi G, Reeke GN Jr, Sporns O, Edelman GM (1994) Value- dependent selection in the brain: simulation in a synthetic neural model. Neuroscience 59:229 –243. Gottfried JA, O’Doherty J, Dolan RJ (2002) Appetitive and aversive olfac- tory learning in humans studied using event-related functional magnetic resonance imaging. J Neurosci 22:10829 –10837. Hampton AN, Bossaerts P, O’Doherty JP (2006) The role of the ventrome- dial prefrontal cortex in abstract state-based inference during decision making in humans. J Neurosci 26:8360 – 8367. Hampton AN, Adolphs R, Tyszka JM, O’Doherty JP (2007) Contributions of the amygdala to reward expectancy and choice signals in human pre- frontal cortex. Neuron 55:545–555. HareTA,O’DohertyJ,CamererCF,SchultzW,RangelA (2008) Dissociat- ing the role of he orbitofrontal cortex and the striatum in the computation of goal values and prediction errors. J Neurosci 28:5623–5630. HorvitzJC (2000) Mesolimbo cortical and nigrostriatal dopamine responses to salient non-reward events. Neuroscience 96:651– 656. Jensen J, McIntosh AR, Crawley AP, Mikulis DJ, Remington G, Kapur S (2003) Direct activation of the ventral striatum in anticipation of aver- sive stimuli. Neuron 40:1251–1257. Jensen J, Smith AJ, Willeit M, Crawley AP, Mikulis DJ, Vitcu I, Kapur S (2007) Separatebrainregionscodeforsaliencevs.valenceduringreward prediction in humans. Hum Brain Mapp 28:294 –302. Kalisch R, Korenfeld E, Stephan KE, Weiskopf N, Seymour B, Dolan RJ (2006) Context-dependent human extinction memory is mediated by a ventromedial prefrontal and hippocampal network. J Neurosci 26:9503–9511. Kim H, Shimojo S, O’Doherty JP (2006) Is avoiding an aversive outcome rewarding? Neural substrates of avoidance learning in the human brain. PLoS Biol 4:e233. Knutson B, Wimmer GE (2007) Splitting the difference: how does the brain code reward episodes? Ann N Y Acad Sci 1104:54 – 69. LaBar KS, Gatenby JC, Gore JC, LeDoux JE, Phelps EA (1998) Human amygdala activation during conditioned fear acquisition and extinction: a mixed-trial fMRI study. Neuron 20:937–945. LeDoux JE (2000) Emotion circuits in the brain. Annu Rev Neurosci 23:155–184. McClure SM, Berns GS, Montague PR (2003) Temporal prediction errors in a passive learning task activate human striatum. Neuron 38:339 –346. McNally GP, Westbrook RF (2006) Predicting danger: the nature, conse- quences, and neural mechanisms of predictive fear learning. Learn Mem13:245–253. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Menon M, Jensen J, Vitcu I, Graff-Guerrero A, Crawley A, Smith MA, Kapur S (2007) Temporal difference modeling of the blood-oxygen level de- pendent response during aversive conditioning in humans: effects of do- paminergic modulation. Biol Psychiatry 62:765–772. Milad MR, Wright CI, Orr SP, Pitman RK, Quirk GJ, Rauch SL (2007) Re- call of fear extinction in humans activates the ventromedial prefrontal cortex and hippocampus in concert. Biol Psychiatry 62:446 – 454. Montague PR, Dayan P, Sejnowski TJ (1996) A framework for mesence- phalic dopamine systems based on predictive Hebbian learning. J Neuro- sci 16:1936 –1947. Morgan MA, LeDoux, JE (1993) Differential contribution of dorsal and ventral medial prefrontal cortex to the acquisition and extinction of condi- tioned fear in rats. Behav Neurosci 109:681– 688. Morris JS, Dolan RJ (2004) Dissociable amygdala and orbito frontal responses during reversal fear conditioning. Neuroimage 22:372–380. Morris JS, Ohman A, Dolan RJ (1998) Conscious and unconscious emo- tional learning in the human amygdala. Nature 393:467– 470. Myers KM, Davis M (2007) Mechanisms of fear extinction. Mol Psychiatry 12:120 –150. O’Doherty J, Kringelbach ML, Rolls ET, Hornak J, Andrews C (2001) Abstract reward and punishment representations in the human orbitofrontal cortex. Nat Neurosci 4:95–102. O’Doherty J, Critchley H, Deichmann R, Dolan RJ (2003a) Dissociating valence of outcome from behavioral control in human orbital and ventral prefrontal cortices. J Neurosci 23:7931–7939. O’DohertyJP,DayanP,FristonK,CritchleyH,DolanRJ (2003b) Temporal difference models and reward-related learning in the human brain. Neuron 38:329 –337. O’DohertyJP,BuchananTW,SeymourB,DolanRJ (2006) Predictive neural coding of reward preference involves dissociable responses in human ventral midbrain and ventral striatum. Neuron 49:157–166. Orr SP, Metzger LJ, Lasko NB, Macklin ML, Peri T, Pitman RK (2000) De novo conditioning in trauma-exposed individuals with and without post-traumatic stress disorder. J Abnorm Psychol 109:290 –298. Pare D, Quirk GJ, Ledoux JE (2004) New vistas on amygdala networks in conditioned fear. J Neurophysiol 92:1–9. Peri T, Ben-Shakhar G, Orr SP, Shalev AY (2000) Psychophysiological assessment of aversive conditioning in posttraumatic stress disorder. Biol. Psychiatry 47:512–519. Pezze MA,FeldonJ (2004) Mesolimbic dopaminergic pathways in fear conditioning. Prog Neurobiol 74:301– 320. Phelps EA, LeDoux JE (2005) Contributions of the amygdala to emotion processing: from animal models to human behavior. Neuron 48:175–187. PhelpsEA,DelgadoMR,NearingKI,LeDouxJE (2004) Extinction learning in humans: role of the amygdala and vmPFC. Neuron 43:897–905. Ploghaus A, Tracey I, Clare S, Gati JS, Rawlins JN, Matthews PM (2000) Learning about pain: the neural substrate of the prediction error for aver- sive events. Proc Natl Acad Sci U S A 97:9281–9286. QuirkGJ,MuellerD (2008) Neural mechanisms of extinction learning and retrieval. Neuropsychopharmacology 33:56–72. QuirkGJ, ArmonyJL, LeDouxJE (1997) Fear conditioning enhances different temporal components of tone- evoked spike trains in auditory cortex and lateral amygdala. Neuron 19:613– 624. Rauch SL, Shin LM, Phelps EA (2006) Neurocircuitry models of posttraumatic stress disorder and extinction: human neuroimaging research–past, present, and future. Biol Psychiatry 60:376 –382. Rescorla RA,Wagner AR (1972) A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement. In: Classical conditioning II: current research and theory (Black AH, Prokasy WF, eds), pp 64 –99. New York: Appleton-Century-Crofts. Rolls ET (2004) The functions of the orbitofrontal cortex. Brain Cogn 55:11–29. Schoenbaum G, Setlow B (2003) Lesions of nucleus accumbens disrupt learning about aversive outcomes. J Neurosci 23:9833–9841. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A Schoenbaum G, Chiba AA, Gallagher M (1998) Orbitofrontal cortex and basolateral amygdala encode expected outcomes during learning. Nat Neurosci 1:155–159. Schoenbaum G, Chiba AA, Gallagher M (1999) Neural encoding in orbito-frontal cortex and basolateral amygdala during olfactory discrimination learning. J Neurosci 19:1876 –1884. Schoenbaum G, Chiba AA, Gallagher M (2000) Changes in functional connectivity in orbitofrontal cortex and basolateral amygdala during learning and reversal training. J Neurosci 20:5179 –5189. Schoenberg T, Daw ND, Joel D, O’Doherty JP (2007) Reinforcement learning signals in the human striatum distinguish learners from non-learners during reward-based decision making. J Neurosci 21: 12860 –12867. Schultz W, Dayan P, Montague PR (1997) A neural substrate of prediction and reward. Science 275:1593– 1599. Seymour B, O’Doherty JP, Dayan P, Koltzenburg M, Jones AK, Dolan RJ, Friston KJ, Frackowiak RS (2004) Temporal difference models describe higher-order learning in humans. Nature 429:664 – 667. Seymour B, O’Doherty JP, Koltzenburg M, Wiech K, Frackowiak R, Friston K, DolanR (2005) Opponent appetitive-aversive neural processe sunderlie predictive learning of pain relief. Nat Neurosci 8:1234 –1240. Shalev AY, Peri T, Brandes D, Freedman S, Orr SP, Pitman RK (2000) Au- ditory startle response in trauma survivors with posttraumatic stress disorder: a prospective study. Am J Psychiatry 157:255–261. Sotres-Bayon F, Bush DE, LeDoux JE (2007) Acquisition of fear extinction requires activation of NR2B- containing NMDA receptors in the lateral amygdala. Neuropsychopharmacology 32:1929 –1940. Suri RE, Schultz W (2001) Temporal difference model reproduces anticipatory neural activity. Neural Comput 13:841– 862. Sutton RS, Barto AG (1990) Time-derivative models of Pavlovian reinforcement. In: Learning and computational neuroscience: foundations of adaptive networks (Gabriel MJ, Moore J, eds), pp 497–537. Boston: MIT. Talairach J, Tournoux P (1998) Co-planar stereotaxic atlas of the human brain: an approach to medical cerebral imaging. New York: Thieme. Yacubian J, Glascher J, Schroeder K, Sommer T, Braus DF, Buchel C (2006) Dissociable systems for gain- and loss-related value predictions and errors of prediction in the human brain. J Neurosci 26:9530 –9537. # É H O R A D E C U R A R O M U N D O P A R A P S I C Ó L O G O S N E U R O C I Ê N C I A