Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Compreender comportamento operante e contingências básicas de reforço.1 Determinar se o reforço enfraquece a motivação intrínseca. Informar-se sobre o princípio de Premak e a hipótese de privação de respostas. Aprender a realizar experimentos em condicionamento operante. Compreender condicionamento operante de respostas neurais. Aprofundar-se em reforçamento da variabilidade, solução de problemas e criatividade. Investigar extinção operante e resistência à extinção. Aprender sobre extinção e efeito do reforço parcial. Um leão faminto retorna à uma fonte de água, onde, com sucesso, tem emboscado antílopes e outras presas. Uma pessoa que joga numa máquina caça-níqueis e ganha um grande prêmio tem mais chances de jogar novamente do que uma pessoa que não ganhou. Alunos que fazem perguntas e a recebem a resposta: “Este é um ponto interessante que vale a pena ser discutido” são mais propensos a fazer mais perguntas. Quando um professor ignora as perguntas ou dá respostas vagas, os alunos eventualmente param de fazer perguntas. Nestes casos (e em tantos outros), as consequências que se seguem o comportamento determinam se este se repetirá no futuro. Lembrando que se diz que o comportamento operante é emitido (Capítulo 2). Quando o comportamento operante é seguido por consequências reforçadoras, este é selecionado, no sentido que aumenta de frequência. O comportamento que não é seguido por consequências reforçadoras diminui em frequência. Este processo, chamado 1 Pierce, W. D.; & Chenney, C. D. (2008). Reinforcement and extinction of operant behavior. In Behavior analysis and learning. 4ª Ed. New Jersey: Psychology Press. Capítulo traduzido por Raul Lopez Dourado Azevedo (Univasf) e revisado por Artur Luiz Nogueira (PUC-SP) e Christian Vichi (Univasf) para fins didáticos da disciplina de Análise do Comportamento I do Curso de Psicologia da Univasf. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 condicionamento operante, é a principal meio pelo qual o comportamento dos organismos é modificado com base na da ontogênese, ou experiência de vida (i.e., aprendizagem). É importante, no entanto, reconhecer que o condicionamento operante, como um processo, evoluiu ao longo da história das espécies e tem suas bases na dotação genética. Isto é, condicionamento operante (e respondente), como um processo geral de mudança de comportamento, baseia-se na filogênese, ou história da espécie. Em outras palavras, aqueles organismos cujo comportamento mudou com base em suas consequências tiveram maior probabilidade de sobreviver e reproduzir que os demais animais. ______________________________________________________________ COMPORTAMENTO OPERANTE ______________________________________________________________ Comportamento operante é comumente descrito como intencional, livre voluntário, ou deliberado. Exemplos de comportamento operante incluem diálogos com outras pessoas, dirigir um carro, fazer anotações, ler um livro ou pintar quadros. Numa perspectiva científica, comportamento operante é obedece a leis e pode ser analisado nos termos de sua relação com eventos ambientais. Formalmente, respostas que produzem uma alteração no ambiente e aumentam em frequência devido a tal alteração são chamadas operantes. O termo operante vem do verbo operar, referindo-se aos comportamentos que operam no ambiente para produzir consequências que, por sua vez, fortalecem o comportamento. As consequências do comportamento operante são muitas e diversificadas e ocorrem em todas as dimensões sensoriais. Quando você acende a luz, disca um número no telefone, dirige um carro ou abre uma porta, tais operantes resultam em claridade visual, possibilidade de conversa, chegar a um destino e entrar numa sala. Um reforçador positivo é definido como qualquer consequência que aumente a probabilidade de ocorrência do operante que a produziu. Por exemplo, suponha que o seu carro não dê partida, no entanto, ele pega quando você sacode a chave. Com base na história de reforçamento, o Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 operante – balançar a chave – tem maior probabilidade de se repetir na próxima vez em que o carro não der a partida. Operantes são definidos pelas consequências que produzem. Abrir uma porta para chegar ao outro lado é um operante, não o movimento físico de manipulação da porta. Operantes são uma classe de respostas que podem variar em sua topografia. Topografia refere-se à forma física, ou características da resposta. Considere o número de maneiras diferentes pelas quais você poderia abrir uma porta – você pode girar a maçaneta, empurrá-la com o pé ou (caso esteja segurando vários livros) pedir para alguém abrir por você. Todas estas respostas variam em forma, ou topografia, e resultam em chegar ao outro lado da porta. Devido a estas respostas resultarem numa mesma consequência, elas são membros de uma mesma classe operante. Assim, o termo operante refere-se a uma classe de respostas relacionadas que podem variar em topografia, porém, produzir uma consequência ambiental comum. (Catania, 1973). Estímulo Discriminativo O comportamento operante é emitido, no sentido em que frequentemente ocorre sem um estímulo observável que o preceda. Isto em contraste com respostas reflexas, que são eliciadas por um estímulo antecedente. Reflexos estão ligados à fisiologia de um organismo e, em condições apropriadas, sempre ocorrem quando o estímulo eliciador for apresentado. Por exemplo, Pavlov mostrou que um cão salivava automaticamente se punham comida em sua boca. Cães não aprendem a relação entre comida e salivação; este reflexo é característico da espécie. Um estímulo pode preceder o comportamento operante, entretanto, tais eventos não forçam a ocorrência das respostas que os seguem. Um estímulo que precede um operante, e estabelece a ocasião para o comportamento, é chamado de estímulo discriminativo, ou SD (pronuncia-se esse-dê). O estímulo discriminativo altera a probabilidade de um operante ser emitido de acordo com a história de reforçamento diferencial. Reforço Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 diferencial implica em reforçar um operante em uma situação (SD), porém, não em outra (SΔ). A probabilidade de emissão de um operante na presença de um Sd pode ser bastante alta, porém, tais estímulos não têm uma relação biunívoca com as respostas que os seguem. Por exemplo, o toque do telefone aumenta as chances de você emitir o operante “atender o telefone”, mas não o força a fazê-lo. Similarmente, uma cutucada por baixo da mesa pode servir de ocasião para mudar de assunto, ou simplesmente calar-se. Os eventos que ocasionam comportamentos operantes podem ser públicos ou privados. Assim, um evento privado como uma dor de cabeça pode servir de ocasião para tomar uma aspirina. Estímulos discriminativos se definem por estabelecer ocasião para um comportamento específico. A probabilidade de erguer sua mão em sala de aula é muito maior quando o professor está presente do que quando ele ou ela está ausente. Dessa forma, a presença de um professor é um SD para fazer perguntas em sala de aula. O professor funciona como SD somente quando sua presença alterao comportamento do aluno. O estudante que está tendo dificuldades com um problema de matemática pode fazer perguntas quando o professor entra na sala de aula. Entretanto, um estudante que facilmente domina a matéria tem menor probabilidade de fazê- lo. De acordo com as contingências, o professor exerce função de SD (para fazer perguntas) para o primeiro estudante, mas não para o segundo. Esta discussão deve deixar claro que um estímulo é definido como um SD apenas quando altera a probabilidade de um comportamento operante. Você normalmente pára quando se depara com uma placa de trânsito onde está escrito PARE; a placa é um estímulo discriminativo. Se, no entanto, você está conduzindo um amigo gravemente ferido ao hospital, a placa pode não funcionar como um SD. Assim sendo, estímulos discriminativos não são definidos por medidas físicas (eg. cor, tamanho, tom); em vez disso, eles são definidos como estímulos que precedem e alteram a probabilidade de respostas operantes. As consequências que se seguem ao comportamento operante Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 estabelecem o controle exercido pelo estímulo discriminativo. Quando um SD é seguido por um operante que produz reforço positivo, o operante tem mais chances de ocorrer na próxima vez em que o estímulo estiver presente. Por exemplo, um estudante pode fazer perguntas a um assistente de ensino (n.t. monitor ou tutor) do professor, em especial, porque no passado aquele assistente proveu respostas claras e concisas. Neste exemplo, o assistente é um SD e fazer perguntas é o operante que aumenta em sua presença. Quando um operante não produz reforço, o estímulo que precede a resposta é chamado de S-delta (SΔ ou esse-delta). Na presença de um SΔ, a probabilidade de emissão de um operante diminui. Por exemplo, se um segundo assistente de ensino responde a uma pergunta de uma forma confusa e atrapalhada, o estudante estará menos propenso a fazer perguntas a este assistente. Neste caso, o segundo assistente se torna um SΔ e a probabilidade de fazer perguntas decai em sua presença. Contingências de Reforço Uma contingência de reforço define a relação entre os eventos que servem de ocasião para comportamentos, a classe operante, e as consequências que se seguem a estes comportamentos. Num quarto escuro (SD), quando você aciona o interruptor (R), a luz normalmente se acende (SR). Este comportamento não garante que o quarto se iluminará, a lâmpada pode estar queimada ou o interruptor pode estar quebrado, é mais provável que a luz se acenda, mas não é certo. Em termos comportamentais, a probabilidade de reforçamento é alta, mas não absoluta. Essa probabilidade pode variar entre 0 e 100%. A alta probabilidade de reforçamento ao acionar o interruptor na posição “liga” estabelecerá e manterá a alta probabilidade de ocorrência do comportamento. Estímulos discriminativos que precedem comportamentos tem um papel importante na regulação de respostas operantes (Skinner, 1969). Placas onde se lê ABRA, REDUZA A VELOCIDADE ou RESTAURANTE, sinal verde no semáforo e um sorriso vindo do outro lado da sala são exemplos de Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 estímulos discriminativos simples que podem servir de ocasião para operantes específicos. Estes estímulos regulam o comportamento por conta da história de reforçamento em sua presença. Um sorriso vindo do outro lado da sala pode servir de ocasião para se aproximar e conversar com a pessoa que sorriu. Isso acontece porque, no passado, pessoas que sorriram reforçaram a interação social. Em cada um desses eventos – a ocasião, o operante e as consequências do comportamento – constituem a contingência de reforçamento. Considere o exemplo da contingência de três termos na Figura 4.1. O telefone tocando é um estímulo discriminativo que serve de ocasião para a classe operante de atender ao telefone. Esse comportamento ocorre porque, no passado, falar com a outra pessoa reforçou o operante. A probabilidade do responder é bastante alta na presença do toque do aparelho, porém, não inevitável. Talvez, você estará prestes a sair para um compromisso importante ou tomando banho. Estímulos discriminativos regulam o comportamento, mas não o fazem sozinhos. As consequências que se seguem ao comportamento determinam a probabilidade do responder na presença dos estímulos discriminativos. Por exemplo, a maioria das pessoas apresentam uma alta probabilidade de atender ao telefone quando este toca. Entretanto, se o aparelho estiver com defeito e ele tocar, mas você não puder ouvir a outra pessoa quando atendê- lo, a probabilidade de atender ao telefone diminui em função da ausência de reforço. Em outras palavras, você pára de atender ao telefone que não funciona. FIG. 4.1 É ilustrada a contingência de três termos. Um estímulo discriminativo (S D ) apresenta a ocasião para o comportamento operante (R) que é seguido por uma consequência reforçadora. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Quatro Contingências Básicas Existem quatro contingências básicas de reforço. Eventos que se seguem ao comportamento podem tanto ser apresentados quanto removidos (operação ambiental). Estes eventos podem aumentar ou diminuir comportamentos (efeito no comportamento). As células da matriz na Figura 4.2 definem as contingências básicas de reforço. Reforço Positivo O reforço positivo é uma das quatro contingências básicas do comportamento operante. O reforço positivo é representado na Figura 4.2 (célula 1), onde um estímulo se segue ao comportamento e, como resultado, a taxa de tal comportamento aumenta. Por exemplo, uma criança é elogiada por dividir um brinquedo (comportamento operante), então a criança começa a dividir os brinquedos com maior regularidade (aumenta a força da resposta). Reforçadores positivos geralmente abrangem consequências como comida, elogios e dinheiro. Estes eventos, entretanto, não podem ser chamados de reforçadores positivos até que se tenha demontrado serem capazes de aumentar o comportamento. Reforço Negativo Quando um operante resulta na remoção de um evento e tal procedimento aumenta a taxa de resposta, essa contingência é chamada de FIG. 4.2 Esta figura as quatro contingência de reforço. O estímulo que segue a resposta (consequência) pode ser apresentado (ligado) ou removido (desligado). O efeito deste procedimento é aumentar ou reduzir a taxa da resposta. As células da matriz nesta figura definem a contingência de reforço. Uma contingência de reforço depende se o estímulo que segue o comportamento é apresentado ou removido e se o comportamento aumenta ou diminui de frequência. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 reforço negativo. Esta contingência é apresentada na célula 3 da matriz na Figura 4.2. O reforçamento negativo normalmente é confundido com punição. Contudo, a matriz deixa claro que reforçamento negativo envolve procedimentos e efeitos completamente diferentes da punição positiva ou negativa. O reforço negativo desempenha um papel marjoritário na regulação cotidiana do comportamento humano. Por exemplo, você põe os óculos escuros porque, no passado, este comportamento removeu o excesso de luminosidade. Você abre o guarda-chuvaquando está chovendo porque fazê- lo tem evitado que você fique molhado. Você deixa a sala quando alguém é rude ou crítico porque este comportamento eliminou outras conversas similares. Imagine que você more num lugar com um sensível detector de fumaça e toda vez que você está cozinhando, o detector dispara. Você pode remover o som desativando o interruptor ou os fusíveis que controlam o alarme. De fato, você provavelmente aprenderá a fazer isso toda vez antes de cozinhar. Como último exemplo, uma mãe pode pegar e balançar seu bebê chorando porque, no passado, confortar o bebê o fez parar de chorar. Em cada um destes exemplos, remover um evento aversivo fortalece um operante. Punição Positiva A célula 2 da matriz na Figura 4.2 retrata uma situação onde um operante produz um evento e a taxa do comportamento operante diminui. Tal contingência recebe o nome de punição positiva. Por exemplo, bater numa criança por correr numa rua movimentada é uma punição positiva, caso a criança agora pare (ou dê meia volta) antes de chegar à rua. No dia a dia, as pessoas frequentemente falam em punição (e reforço) sem fazer referência ao comportamento. Por exemplo, uma mãe repreende seu filho por brincar com fósforos. A criança continua brincando com fósforos e os pais talvez comentem “Punição não funciona com Nathan”. Em análise do Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 comportamento, punição positiva é funcionalmente definida (i.e., pelo seu efeito). Quando o comportamento não é alterado por eventos aparentemente aversivos, a punição não ocorreu. Em outras palavras, os pais estão arranjando uma contingência ineficaz. Os pais podem identificar um evento aversivo que seguramente diminua o comportamento; todavia, esta estratégia pode causar efeitos negativos. Por exemplo, como você verá no Capítulo 9, punição pode produzir sérias reações emocionais e comportamentos agressivos. Por conta disso, a punição deve ser utilizada apenas como último recurso para a modificação de problemas comportamentais severos. Punição Negativa Punição também pode ser arranjada removendo um estímulo contingente ao comportamento (célula 4 na Figura 4.2). Essa contingência é chamada de punição negativa. Neste caso, a remoção de um evento, ou estímulo, diminui o comportamento operante. Duas crianças estão assistindo a seu programa de TV favorito e começam a brigar entre si. Os pais dizem “já chega de briga” e desligam a TV. Você conta uma piada sexista e as pessoas param de falar com você. Na escola, um estudante que está passando bilhetes é convidado a se retirar da sala de aula por um curto intervalo de tempo. Nestes exemplos, assume-se que assistir TV, conversar com outros e participar de atividades escolares sejam eventos reforçadores. Quando a remoção dos eventos contingentes a brigar, contar piadas sexistas e passar bilhetes diminui tais comportamentos, a punição negativa ocorreu. FOCO EM: RECOMPENSAS E MOTIVAÇÃO INTRÍNSECA Ao longo dos últimos 30 anos, muitos educadores e psicólogos sociais têm sido críticos da prática do uso de recompensas nos negócios, educação e programas de modificação de comportamento. O preocupação é que estas recompensas (recompensa e reforço são termos frequentemente utilizados Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 similarmente nesta literatura) são experenciadas como controladoras, e assim levando a uma redução de uma auto determinação individual, motivação intrínseca e desempenho criativo (e.g. ver Deci, Koestner, & Ryan, 1999). Assim, quando uma criança que adora desenhar é recompensada por desenhar, com um elogio ou uma recompensa palpável como pontos ou dinheiro, diz-se que sua motivação para o desenho diminui. Nesta perspectiva, a criança passará a desenhar menos e gostar menos de desenhar uma vez que a recompensa seja descontinuada. Em outras palavras, a controvérsia é de que a recompensa diminui a motivação intrínseca. Esta visão tem sido enormemente influente e levou a um declínio no uso de sistemas de recompensas e incentivos em diversos contextos aplicados. Num artigo publicado em 1996 no American Psychologist, Robert Eisenberg e Judy Cameron (Figura 4.3) forneceram uma análise de literatura abrangente e objetiva, preocupados com os efeitos da recompensa/reforço na motivação intrínseca das pessoas. Contrariando as crenças de muitos psicólogos, suas descobertas não indicaram nenhuma propriedade negativa inerente à recompensa. Ao contrário, suas pesquisas demonstraram que recompensas têm efeitos muito mais favoráveis no interesse em atividades do que geralmente se supõe. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Análise de Recompensas e Motivação Intrínseca Aqueles que se opoem à utilização de recompensas apoiam sua posição citando estudos experimentais sobre recompensa e motivação intrínseca, alegando que recompensas têm profundos efeitos negativos (Deci et al., 1999). Um exame superficial destes experimentos revela uma mistura de resultados, isto é, em alguns estudos, a recompensa reduz o desempenho ou interesse; outros estudos encontram efeitos positivos na recompensa; ainda outros, demonstram ausência de efeitos. Para que estes resultados façam sentido, Judy Cameron, Robert Eisenberg e o autor deste livro, David Pierce (Cameron & Pierce, 1994, 2002; Cameron, Banko & Pierce, 2001; Eisenberg & Cameron, 1996; Pierce & Cameron, 2002), conduziram análises quantitativas desta literatura para determinar se recompensas realmente afetam negativamente o desempenho e o interesse das pessoas. Utilizando um procedimento estatístico conhecido como meta-análise, Cameron et al. (2001) analisou os resultados de 145 experimentos sobre recompensas e motivação intrínseca. Os resultados indicaram que recompensas poderiam ser efetivamente utilizadas para aumentar ou manter um interesse individual intrínseco em FIG. 4.3 (A) Dr. Judy Cameron. (B) Dr. Robert Eisenberg. Publicado com permissão Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 atividades. Descobriu-se que recompensas verbais (elogios, feedback positivo), especificamente, aumentavam o desempenho e o interesse das pessoas em tarefas. Em termos de recompensas tangíveis, os resultados mostraram que essas consequências aumentaram o desempenho e o interesse em atividades que inicialmente eram chatas e desinteressantes. Para atividades que as pessoas consideraram inicialmente interessantes, os resultados da meta-análise apontam para a importância de contingências recompensadoras como o principal determinante da motivação intrínseca. Cameron et al. (2001) descobriram que recompensas tangíveis produziam uma ligeira redução da motivação intrínseca quando tais recompensas foram oferecidas apenas por realizar uma atividade, independentemente do nível ou qualidade do desempenho. Quando uma recompensa palpável foi oferecida por atingir a um nível de desempenho ou superar o desempenho de outros, o interesse intrínseco das pessoas era mantido ou elevado (ver McGinnis, Firman, & Carlyon, 1999, para um delinemaneto operante de reforçamento com fichas e interesse intrínseco em matemática). De uma forma geral, as recompensas ligadas ao nível ou qualidade do desempenho aumentam a motivação intrínseca ou mantém o interesse intrínseco tal como que era antes da recompensaser introduzida. Identificando o Estímulo Reforçador Como você já viu, existe quatro contingências básicas de reforço. Em cada caso, um estímulo consequente é apresentado ou removido contingente ao comportamento operante. Mas, como sabermos se um dado evento ou estímulo funcionará como reforç? Para identificar um reforçador positivo, invente um teste. O teste serve para descobrir se uma consequência em particular aumenta a frequência do comportamento. Se a resposta for sim, define-se a consequência como um reforçador positivo. Tais testes são comuns na ciência. Por exemplo, um teste azul de tornassol na química pode nos dizer se uma solução é ácida ou básica. Cem dólares é definido como um reforçador positivo porque aumenta Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 a frequência de apostar 25 centavos e puxar a alavanca de uma máquina caça-níquel. Note que o teste de um reforçador não é o mesmo que explicar um comportamento; explicamos um comportamento apontando as contingências de reforçamento (SD: R → SR) e os princípios básicos, não meramente identificando um estímulo reforçador. Por exemplo, podemos explicar o comportamento de uma pessoa apostando num cassino apontando o esquema de reforçamento monetário (incluindo grandes pagamentos intermitentes) que tem fortalecido e mantido este comportamento. O Princípio de Premack Outra maneira de se identificar um reforçador positivo baseia-se no princípio de Premack. Este princípio estabelece que um comportamento em alta frequência funcionará como reforço para um comportamento em baixa frequência. Por exemplo, para uma pessoa que gasta pouco tempo praticando piano, mas um bom tempo jogando basquetebol, o princípio de Premack diz que jogar basquetebol (comportamento em alta frequência) reforçará praticar piano. De modo geral, David Premack (1959) propôs que o reforço envolvia uma contingência entre dois conjuntos de comportamentos, comportamento operante e comportamento reforçador (comportamentooperante → comportamento SR), ao invés de entre um operante (comportamento) e um estímulo (R → SR). Isto é, Premack sugere que é possível descrever eventos reforçadores como ações de um organismo em vez de estímulos discretos. Assim, reforço envolve comer em vez de apresentação da comida, beber em vez do fornecimento de água e ler em vez dos efeitos de uma estimulação textual. Em seu experimento em 1962, Premack privou ratos de água por 23h e então mediu seus comportamentos num arranjo em que poderiam correr numa roda de exercícios ou beber água. Claramente, os animais passavam mais tempo bebendo do que correndo. Em seguida, Premack arranjou uma contingência entre correr e beber; os ratos recebiam alguns poucos segundos de acesso à água por um tubo quando corriam na roda de Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 exercícios. A frequência de correr na roda aumentou quando isto produziu a oportunidade de beber água – mostrando que beber reforçava o correr. Em outras palavras, os ratos corriam na roda para ter acesso à água. A essa altura do experimento, Premack (1962) deu aos ratos livre acesso à água. Agora, quando os ratos estavam liberados para escolher entre beber e correr, eles bebiam pouco e corriam muito. Premack fundamentou que correr poderia reforçar o comportamento de beber porque correr ocorria numa frequência maior do que beber. A roda de exercícios estava trancada e a trava era removida se o rato lambesse a água do tubo por alguns segundos. Com base nesta contingência, Premack mostrou que o comportamento de beber água aumentou em frequência quando isto produziu a oportunidade de correr. Isto é, os animais beberam água pela oportunidade de correr na roda de exercícios. Em suma, este experimento mostrou que o comportamento de beber reforça o comportamento de correr quando os ratos estão motivados a beber. Por outro lado, o comportamento de correr reforça o comportamento de beber quando correr é a atividade preferida. Assim, quando o comportamento é medido numa situação que permite a escolha entre atividades diferentes, aquelas respostas que ocorrem numa frequência mais alta podem ser utilizadas para reforçar aquelas que ocorrem numa frequência mais baixa. O princípio de Premack tem implicações óbvias na área aplicada e fornece outra forma de identificar reforços nas situações cotidianas. O comportamento é medido em uma situação onde todos os operantes relevantes podem ocorrer sem restrição; qualquer comportamento que apresente uma frequência relativamente alta reforçará um operante de frequência mais baixa. Para ilustrar isso,, uma criança é observada numa situação onde fazer o dever de casa, assistir TV, brincar com bonecos e leitura recreativa podem todos ocorrer livremente. Uma vez que as medidas da linha de base foram tiradas, o princípio de Premack assegura que qualquer comportamento de frequência mais elevada (ou de maior duração) pode servir como reforço para qualquer outro comportamento de menor Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 frequência. Se assistir a TV tem uma duração maior que fazer o dever de casa, assistir TV pode ser feito contingente à finalização do dever de casa. Esta contingência, geralmente, aumentará o número de deveres de casa feitos. Reforço e Privação de Respostas O princípio de Premack estabelece que um comportamento de frequência maior pode reforçar um operante de menor frequência. Em um cenário de livre escolha, diversos comportamentos ocorrerão em diferentes frequências – produzindo uma hierarquia de respostas. Qualquer resposta na hierarquia pode ser utilizada para reforçar qualquer comportamento abaixo dela; também, uma resposta pode ser reforçada por qualquer comportamento acima dela. Uma observação importante é que, privar um animal de se engajar num determinado comportamento altera as frequências de respostas e a hierarquia. Ao privar um rato de beber água, garantimos que o comportamento de beber ocorra numa frequência maior que o comportamento de correr na roda, e beber reforçará o comportamento de correr (ou um comportamento como pressionar uma barra); por outro lado, a restrição do correr aumenta a frequência relativa a beber e, correr, agora, reforçará o beber. Assim, a privação leva a uma reordenação da hierarquia de respostas e determina quais comportamentos terão a função de reforço num dado momento. Bill Timberlake (Figura 4.4), professor de Ciências Psicológicas e do Cérebro na Indiana University tem mantido um interesse no controle comportamental utilizando uma perspectiva ecológica evolucionária FIG. 4.4 Dr. William Timberlake. Publicado com permissão. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 (Timberlake, 1993). Seu trabalho com James Allison (Timberlake & Allison, 1974) mostra que organismos tentam manter um equilíbrio, ou homeostase, em termos de suas respostas, isto é, ratos, humanos e outros animais trabalharão para obter acesso a atividades que estão restritas (privação); eles fazem isso para reestabelecer um equilíbrio ou os níveis de escolha livre do comportamento. Análise do equilíbrio faz uma distinção entre respostas instrumentais e contingentes. A resposta instrumental é o comportamento que produz a oportunidade de se engajar em alguma atividade; a resposta contingenteé a atividade obtida por emitir uma resposta instrumental. Quando uma contingência é arranjada entre respostas instrumentais e contingentes, o equilíbrio está perturbado – o animal está privado da resposta contingente. Uma implicação é que o animal realizará uma resposta instrumental para ter de volta a escolha livre ou os níveis de linha de base da resposta contingente. Esta análise pode ser ilustrada com um episódio cotidiano de interação entre pais e filhos. Após receber um boletim com notas baixas da escola, é dito a Johnny: “de agora em diante, você só pode assistir TV quando fizer o dever de casa”. Neste exemplo, fazer o dever de casa é a resposta instrumental e assistir TV é a resposta contingente. Assistir TV aumentará a realização de tarefas de casa (reforço) apenas se a contingência definida pelos pais de Johnny impuser uma privação da resposta contingente. Geralmente, a privação de respostas ocorre quando o acesso ao comportamento contingente é restringido e cai para um nível de ocorrência mais baixo que o da linha de base (ou escolha livre). Deste modo, Johnny normalmente assiste cerca de 2h de TV cada noite antes da hora de ir para a cama (nível da linha de base ou equilíbrio). A contingência para fazer o dever de casa antes de assistir TV impõe uma restrição à atividade contingente e empurra-a para abaixo do nível da linha de base, presumindo que a hora de ir para a cama não mude. Johnny agora fará o dever de casa para obter acesso à TV ao nível da linha de base (2h). Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Timberlake e Allison (1974) mostraram que o motivo para um efeito reforçador não são as frequências relativas de um comportamento, como estabelecido no princípio de Premack; ao contrário, se deve à privação de respostas e ao desequilíbrio imposto pela contingência (e.g., fazer o dever de casa antes de assistir TV). Na verdade, é possível obter um efeito reforçador com um comportamento de baixa frequência se a pessoa está privada da atividade pelo arranjo de uma contingência comportamental, isto é, análise de equilíbrio e privação de resposta tem uma gama de aplicação mais vasta que o princípio de Premack. ______________________________________________________________ COMPORTAMENTO OPERANTE ______________________________________________________________ Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Condicionamento operante se refere ao aumento ou diminuição em um comportamento operante como função de uma contingência de reforçamento. Numa simples demonstração de condicionamento operante, um experimentador pode alterar as consequências que se seguem ao comportamento operante. Os efeitos das consequências ambientais no comportamento foram primeiramente descritos em 1911 pelo psicólogo americano E. L. Thorndike, o qual relatou os resultados de uma série de experimentos com animais que eventualmente formaram a base do condicionamento operante. Gatos, cães e galinhas foram postos em situações onde cada qual poderia obter comida desempenhando uma sequencia complexa de comportamentos. Por exemplo, gatos com fome foram confinados num aparato que Thorndike chamou “caixa problema” (puzzle box), mostrada na Figura 4.5. A comida era posta no lado de fora da caixa e se o gato conseguisse puxar um ferrolho, pisar numa alavanca ou emitir algum outro comportamento, a porta se abriria e o gato poderia comer a comida. Após algum tempo na caixa, o gato, acidentalmente, puxaria o ferrolho ou pisaria na alavanca e a porta se abriria. Thorndike mediu o tempo decorrido entre o trancamento da porta da armadilha até o gato conseguir abri-la. Esta medida, chamada latência, tende a diminuir com a exposição repetida à caixa. Em outras palavras, o gato leva cada vez menos tempo FIG. 4.5 Caixa problema de Thorndike para gatos. A comida era colocada ao lado de fora e, se o gato aprendesse a puxar um ferrolho ou pisasse numa alavanca, o animal poderia sair da caixa e comer a comida. Quando os gatos foram repetidamente expostos as tentativas na caixa, eles se tornaram mais rápidos e rápidos em sair. De Rachlin, 1976, Baseado em Thorndike, 1911, Reimpresso com permissão. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 para escapar do mecanismo, na medida em que é exposto a mais tentativas. De acordo com Thorndike, o experimento da caixa problema demonstrou a aprendizagem por tentativa e erro, isto é, os gatos tentavam, repetidamente, sair da caixa e cometiam menos e menos erros. Thorndike fez uma observação semelhante com cães e galinhas e, com base nestas observações, formulou a lei do efeito. Uma interpretação moderna desta lei é o princípio do reforçamento: Operantes podem ser seguidos pela apresentação de consequências contingentes que aumentam a taxa (frequência de resposta dividida pelo tempo) deste comportamento. Skinner (1988) comentou a análise de Thorndike sobre aprendizagem por tentativa e erro: Thorndike achou que tinha resolvido seu problema ao dizer que o bem sucedido gato usou aprendizagem por tentativa e erro. É uma expressão infeliz. “Tentar” [de tentativa] supoe que uma resposta já tenha sido afetada por consequências relevantes. O gato está “tentando escapar” caso se engaje num comportamento que, ou foi selecionado na evolução da espécie porque foi levada a escapar de situações similares, ou foi reforçado por fuga de uma estimulação aversiva durante sua história de vida do gato. O termo “erro” não descreve comportamentos; este passa uma ideia de juízo sobre eles. As curvas para o aprendizado por tentativa e erro plotadas por Thorndike e tantos outros não representam nenhuma propriedade útil do comportamento – certamente nem um simples processo chamado solução de problemas. As mudanças que contribuem para tal curva incluem adaptação e extinção de respostas emocionais, o condicionamento de reforçadores e a extinção de respostas não-relacionadas. Qualquer contribuição produzida por um aumento na probabilidade da resposta reforçada é irremediavelmente obscurecida. (p.219) Em outras palavras, Skinner sugere que simplesmente medir o tempo (ou latência) levado para completar tarefas leva à perda de alterações que ocorrem em diversas classes de operantes. Respostas que resultaram em fuga e comida foram selecionadas enquanto outros comportamentos reduziram em frequência. Eventualmente, aqueles operantes que produziram consequências reforçadoras vieram a predominar no comportamento do Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 gato, permitindo ao mesmo sair da caixa em cada vez menos tempo. Deste modo, a latência é uma medida indireta das mudanças do comportamento operante do animail. Atualmente, a taxa de respostas, ou taxa operante (o número de respostas em um intervalo específico), é considerada a melhor medida do comportamento operante. A taxa operante fornece uma medida direta da seleção do comportamento por suas consequências (i.e., seleção por consequências). FOCO EM: NEUROCIÊNCIA COMPORTAMENTAL E CONDICIONAMENTO OPERANTE DE NEURÔNIOS Quando o comportamento de um organismo age sobre o ambiente em que vive, ele modifica oambiente de de formas que, muitas vezes, afeta o próprio organismo [ênfase adicionada]. Algumas dessas modificações ... são, geralmente, referidas tecnicamente como reforçadores: dese modo, quando se seguem ao comportamento aumentam a probabilidade de que o organismo irá se comportar da mesma forma novamente. (Ferster & Skinner, 1957, p.1) Como o ambiente “afeta o próprio organismo” durante o processo de condicionamento operante? Uma possibilidade é que reforço e condicionamento operante ocorrem no nível dos elementos ou unidades cerebrais. Skinner (1953, pp. 93-95) se referia a unidades cerebrais quando afirmou que “... o elemento, ao invés da resposta, [é] a unidade do comportamento. É uma espécie de átomo comportamental que pode nunca se revelar por si só em qualquer ocasião, mas é o ingrediente essencial ou componente de todas as instâncias observadas [do comportamento].” Naquele tempo Skinner declarou que não tinha como conhecer o elemento básico ou “átomo comportamental” do condicionamento operante. Atualmente, é crescente a evidência de que as unidades básicas do reforço não são as complexas estruturas cerebrais de respostas como um todo, mas elementos tão pequenos quanto os próprios neurônios. É possível investigar neurônios e reforço através de um método Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 chamado reforço in vitro, ou IVR (Stein, Xue, & Belluzzi, 1994). A ideia é que explosões ou sisparos de cálcio (Ca2+ tipo L)de um neurônio são reforçadas pela dopamina (um neurotransmissor) ligada a receptores especializados. Além disso, o processo de condicionamento neuronal pode ser investigado “in vitro”, utilizando preparações de fatias cerebrais e injeções de drogas que estimulam os receptores de dopamina (agonistas da dopamina). Nestes experimentos IVR, um pequeno tubo injetor (micropipeta) é apontado para as células da fatia do cérebro (células hipocampais da camada celular piramidal de CA1). Durante o condicionamento operante, injeções de micro-pressão de uma droga dopamínica (agonista) são aplicadas à célula por 50 ms, seguido por uma explosão de atividade (potencial de ação amplificado). Quando o computador identifica uma atividade de disparo pré-definida para o neurônio-alvo, o bombeamento da injeção de pressão libera uma gotícula da droga até a célula. A indução por drogas aumenta a explosão de atividade, indicando o condicionamento operante se a contingência entre a atividade neuronal e a apresentação da droga é crítica. Para ter certeza de que a droga não está apenas estimulando explosão de atividade, a mesma droga é dada independentemente do dispo de modo não-contingente. Os resultados mostram que as respostas de disparo de neurônios individuais aumentam de modo relacionado à dose por injeções, contingentes à resposta, do agonista da dopamina. Também, apresentações não- contingentes de injeções da mesma droga não aumentaram as respostas de disparos dos neurônios. Os resultados indicam que o reforço ocorre a nível das unidades neurais individuais (átomos do comportamento para Skinner) e sugere que os subtipos de neurônios dopaminérgicos (tipos D1, D2 ou D3) estão envolvidos no condicionamento celular e operante comportamental. Experimentos IVR adicionais indicam que as respostas de disparo dos neurônios piramidais CA1 também aumentam com injeções de drogas canabinóides, enquanto os disparos dos neurônios CA3 aumentam com Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 drogas que estimulam os receptores opióides (Stein & Belluzzi, 1988; Xue,Belluzzi, & Stein, 1993). Quando estas injeções de drogas são administradas independentemente da atividade celular, as respostas de disparo não aumentam e frequentemente são suprimidas. Além disso, injeções de glutamato, contingentes e não-contingentes, nos neurônios CA1, em uma gama de doses, falharam em aumentar ou diminuir as respostas de disparo. Portanto, drogas agonistas que visam receptores específicos, implicados na recompensa e dependência (e.g., dopamina, canabinóides e opióides) agem como reforço para disparo neuronal, enquanto o glutamato, um transmissor excitatório não associado ao reforço comportamental, não aumenta a atividade celular, ou sequer a reduz. O condicionamento operante é o principal mecanismo adaptativo para os animais que afeta o comportamento com base em suas experiências de vida (ontogênese). Isto é, condicionamento operante permite a flexibilidade comportamental, sobrevivência e reprodução. Evidências se acumulam de que a flexibilidade comportamental tem base na plasticidade neural – alterações nas unidades cerebrais que afetam a regulação do comportamento por contingências ambientais. Experimentos de reforço in vitro mostram que, substâncias endógenas cerebrais ligadas a tipos particulares de receptores, aumentam a probabilidade de atividade neuronal. Este processo molecular neural, presumivelmente, subjaz as mudanças em larga escala no comportamento operante que ocorrem na maneira como humanos e outros animais interagem como o mundo em que vivem, momento a momento por toda a vida. PROCEDIMENTOS EM CONDICIONAMENTO OPERANTE Taxa operante e probabilidade de respostas Taxa de resposta se refere ao número de respostas operantes que ocorrem num determinado periodo de tempo. Por exemplo, se você fizer 5 questionamentos durante uma aula de 2h, sua taxa é de 2.5 Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 questionamentos por hora. Um animal que pressiona uma barra 1000 vezes numa sessão de 1h, gera uma taxa de 1000 pressões à barra por hora (ou 16,7 respostas por minuto). Skinner (1938) propôs que a taxa de respostas é o dado básico (ou medida) para a análise operante. Taxa operante é a medida da probabilidade do comportamento (a probabilidade de resposta). Em outras palavras, um operante que ocorre em alta taxa em uma situação tem uma alta probabilidade de ser emitido numa situação semelhante no futuro. Esta probabilidade aumentada de uma resposta é observada como uma alteração na taxa operante e, claro, a probabilidade de resposta pode cair e, neste caso, é visto como um declínio na taxa. Método do operante livre No método de operante livre, um animal pode responder repetidas vezes ao longo de um extenso período de tempo (ver Perone, 1991). O organismo é livre para emitir quantas respostas quiser, ou mesmo nenhuma resposta. Isto é, respostas podem ser emitidas sem a interferência do experimentador. Por exemplo, um rato de laboratório pode pressionar uma barra por pelotas de comida. Pressionar a barra está sob controle do animal, que pode pressionar a barra rapidamente, vagarosamente, ou parar de pressionar. O importante é que este método permite ao pesquisador observar alterações na taxa de resposta. Isto é importante porque a taxa de resposta é utilizada como medida para a probabilidade de resposta. A taxa de resposta deve ser livre de variações se for utilizada como um indicador da probabilidade futura do comportamento operante. A análise da taxa operante e probabilidade de resposta não é feita com facilidade quando se é dado ao organismo uma série de tentativas (como nos experimentos de Thorndike). Isso acontece porque o experimentador controla amplamente a taxa do comportamento do animal.Por exemplo, um rato que percorre um labirinto em formato de T por uma recompensa em comida é pego no final do labirinto e devolvido ao ponto de partida. Por conta de o experimentador definir o número de tentativas e oportunidades de resposta, Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 as alterações na taxa de resposta não podem ser diretamente observadas ou medidas. Comparando o procedimento de tentativas no labirinto em T com o método de operante livre, está claro que o método de operante livre é mais adequado para estudar a probabilidade de resposta numa dada situação. O método de operante livre é claramente demonstrado pelos procedimentos utilizados no condicionamento operante. A caixa operante Para estudar o condicionamento operante em laboratório, um dispositivo chamado caixa operante é utilizado (ver Ator, 1991). Certamente, o condicionamento operante também é estudado fora dos laboratórios, porém, não obstante, as investigações do comportamento de animais em caixas operantes têm resultado na descoberta de vários princípios do comportamento. A Figura 4.6 mostra uma configuração estudante de uma caixa operante para estudantes, projetadapara acomodar um rato de laboratório (note que a configuração de uma pesquisa envolve muito mais controle experimental, tal como um recinto atenuador de sons e um “ruído branco” para mascarar os sons externos). A caixa é uma pequena caixa que contém uma barra com uma luz logo acima e um depósito de comida ou um copo conectado a um alimentador externo. O alimentador libera uma pequena pelota de comida (tipicamente 45 mg) quando eletronicamente ativado. Neste caso, a pelota de comida serve como reforço por pressionar a barra. A caixa operante estrutura a situação, de tal modo que que o comportamento desejado ocorrerá e o comportamento incompatível será reduzido. Desta forma, pressionar a barra é altamente provável enquanto comportamentos como afastar-se são minimizados. Uma sala de aula escolar também tenta estruturar o comportamento dos estudantes, no que diz respeito à aprendizagem. A sala de aula, ao contrário da caixa operante, frequentemente contém várias distrações (e.g., olhar pela janela) que interferem no comportamento de realizar tarefas e se concentrar na matéria sendo apresentada. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Privação Por conta da apresentação de alimento ser utilizada como reforço, o animal deve estar motivado a obter o alimento. Uma medida objetiva e quantificável da motivação para comida é a percentagem do peso com livre acesso ao alimento. (Nota: Outra forma de quantificar a privação é o ciclo de tempo que especifica o tempo percorrido desde que o ratoconsumiu pela última vez o reforçador.) Antes de um experimento típico, o animal é trazido de uma colônia comercial (ou de pesquisa) para o laboratório, posto numa gaiola, dado livre acesso à comida e pesado diariamente. A média de peso é calculada e esse valor é utilizado como linha de base. Em seguida, a alimentação diária é reduzida até que o animal atinja 85% do seu peso durante o livre acesso ao alimento. O procedimento de restringir o acesso à comida (o potencial estímulo reforçador) é chamado de operação de privação (ver Operações estabelecedoras, Capítulo 2). Neste ponto, o experimentador supõe, mas não tem certeza, que o alimento é um estímulo reforçador. Isso porque a apresentação do alimento deve aumentar a FIG. 4.6 Um arranjo para estudantes de uma caixa operante para rato. A câmara é uma pequena caixa com uma barra que o animal pode pressionar. Existe uma luz acima da barra que pode ser ligada ou desligada. Uma compartimento de comida ou um bebedouro é conectado a um alimentador eletronicamente ativado. O alimentador libera uma pelota de comida de 45 mg no copo. Nesta situação, a pelota de comida serve como reforçador para o pressionar a barra. Reimpresso com permissão da Gerbrands Cprporation, Arlington, MA. . Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 frequência de um operante antes de ser definida como um reforçador. O critério de perda de peso ou privação é menos severo do que pode parecer a princípio. Animais em laboratório tem alimento disponível 24h por dia enquanto animais in natura devem forragear por sua comida. O resultado disso é que animais de laboratório tendem a ser mais pesados que suas contrapartes selvagens. Alan Poling e colaboradores (Poling, Nickel, & Alling, 1990) demonstraram belamente este ponto, demostrando que pombos selvagens ganhavam uma média de 17% de seu peso quando capturados e alojados sob condições de laboratório. Observe que ganho de peso, para estes pássaros, é grosseiramente o mesmo que a perda de peso tipicamente imposta aos animais em laboratório. Treino ao alimentador Após estabelecida a privação de comida, começa o treino ao alimentaor. Por exemplo, um rato é posto numa caixa operante e um computador periodicamente liga o alimentador. Quando o alimentador é ligado, faz um clique e uma pelota de comida de 45 mg cai no alimentador. Por conta do clique e da aparição de comida estarem associados no tempo, você poderá, após o treino, observar um rato típico permanecer próximo ao alimentador; também, o rato pode mover-se rapidamente em direção ao alimentador quando o mesmo for operado ou soar o clique. Por conta do clique do alimentador seguramente preceder a apresentação de comida, o mesmo se torna um reforçador positivo condicionado (ver Capítulo 11 para uma discussão mais ampla sobre reforço condicionado). Um reforçador condicionado é um evento, ou um estímulo, que adquire função reforçadora ao longo da vida de um organismo (ontogênese). Neste caso, seguir o clique do alimentador pela apresentação de comida estabelece o som do alimentador como um reforçador condicionado para o rato. A classe operante Manter-se próximo e mover-se em direção à ao recipiente de comida Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 são operantes que foram selecionados por suas consequências reforçadoras. Em outras palavras, estas respostas têm sido seguidas confiavelmente pela apresentação de comida e, como resultado, aumentaram em frequência. Entretanto, pairar ao redor de um recipiente de comida mover-se em direção a ele são operantes difíceis de se medir objetivamente. Em contraste, uma pressão à barra pode ser facilmente definida como um fechamento de circuito que produz uma conexão elétrica. Qualquer comportamento emitido pelo rato que resulte no fechamento do circuito define a classe operante. Uma pressão à barra, com a pata esquerda ou direita, produz uma conexão elétrica idêntica. Outra vantagem da pressão à barra como um operanteé que ela pode ser emitida em taxas de resposta altas ou baixas. Isto é uma vantagem, porque o foco primário de um estudo de operantes está nas condições que afetam a taxa (probabilidade) do comportamento operante. Nível operante e reforço contínuo Após o treino ao alimentador, o rato privado de comida é novamente posto na caixa operante. O pesquisador pode desejar, primeiro, medir a taxa de pressão à barra antes que estas respostas produzam pelotas de comida. Os ratos emitem várias respostas manipulatórias e exploratórias e, como resultado, podem pressionar a barra numa baixa frequência,mesmo quando o comportamento não é reforçado com comida. Esta taxa de respostas da linha de base recebe o nome de nível operante ou a taxa de respostas antes de qualquer condicionamento conhecido. Em seguida, o ambiente é arranjado de modo que cada pressão à barra resulte no clique do alimentador (reforço condicionado) e a apresentação da pelota de comida (reforço primário). Quando cada resposta produz alimento, o esquema de reforço é denominado reforço contínuo (CRF). As pelotas de comida são contingentes à pressão à barra. A contingência entre o comportamento operante e o reforço alimentar aumenta a frequência do pressionar a barra acima do nível operante. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Modelagem: O método de aproximações sucessivas No exemplo anterior, nós nos aproveitamos do repertório comportamental do rato. O repertório do animal se refere ao comportamento que este é capaz de emitir naturalmente, com base na história e ambiental e da espécie. Suponha que você deseja treinar algumas respostas que o animal não emite. Por exemplo, você pode querer que o rato ative o circuito fazendo um pequeno movimento para cima com o seu nariz. O período de observação da linha de base mostra que o animal não emite tal resposta (em outras palavras, o nível operante é zero). Neste caso, o pesquisador pode utilizar a modelagem, ou método de aproximações sucessivas para estabelecer a respostas (ver Gleeson, 1991). Este método envolve reforçar comportamentos cada vez mais próximos do desempenho final (i.e., focinhar a barra). A princípio, o rato é reforçado por pôr-se em pé nas proximidades da barra. É importante notar que a consequência mais imediata é o som do alimentador e este reforçador condicionado pode ser utilizado para modelar a resposta desejada. Uma vez que o animal certamente esteja de frente para a barra, o movimento de sua cabeça em direção à barra é reforçado com o clique do alimentador e a apresentação de comida. Em seguida, aproximações cada vez mais próximas do comportamento de levantar a barra com o nariz deve ser reforçadas. Cada passo do procedimento envolve o reforçamento de comportamentosmais próximos e o não-reforçamento (extinção) de respostas mais distantes. Eventualmente, o rato emite uma resposta que ativa o circuito elétrico. Muitas formas novas de comportamento podem ser estabelecidas pelo método de aproximações sucessivas, ou modelagem (Pryor, 1999). Registrando o Comportamento Operante Um instrumento de laboratório comumente utilizado que registra a frequência do comportamento operante ao longo do tempo é chamado de registrador cumulativo. A Figura 4.7 ilustra este dispositivo; cada vez que a Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 pressão à barra ocorre, a pena levanta um ponto. Quando ocorre o reforço, esta mesma pena deflete-se para baixo. Uma vez que a pena chega ao topo da folha, é resetada para baixo e começa a subir novamente. Uma vez que o papel é puxado através do rolo a uma velocidade constante,o registrador cumulativo retrata uma medida da frequência do comportamento operante em tempo real. Quanto mais rápido a barra é pressionada, mais íngreme é a inclinação ou elevação do registro cumulativo. Um registro cumulativo do bicar uma chave por um pombo é mostrado na Figura 4.8. Nesta ilustração, o pombo respondeu 50 vezes para produzir uma apresentação de comida. Repare que períodos de responder são seguidos por reforço (indicado pela deflexão da caneta). Após o reforço, a taxa de resposta é zero, como indicado pelo platô, ou porção plana, do registro cumulativo. Num laboratório operante moderno, o registro cumulaivo é utilizado para fornecer um relatório imediato do comportamento do animal ao experimentador. Pesquisadores têm descoberto vários princípios básicos do comportamento ao examinar registros cumulativos(e.g., Ferster & Skinner, 1957). Hoje, microcomputadores permitem que os pesquisadores coletem, FIG. 4.7 Um instrumento de laboratório usado para registrar respostas operantes. Chamado registrador cumulativo. O registrador dava uma medida em tempo real da taxa do comportamento operante. Quanto mais rápida a pressão à barra, mais íngreme a inclinação ou a elevação do registro cumulativo. Isso ocorre porque o papel é puxado através do rolo em uma velocidade constante a pena sobe uma distancia definida para cada resposta. Reimpresso com permissão da Gerbrands Cprporation, Arlington, MA. . Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 registrem e relatem as medidas do comportamento (e.g., taxa de respostas) que, posteriormente, serão submetidas a complexas análises numéricas (ver Gollub, 1991). Neste livro, nós apresentamos exemplos de registros cumulativos e análises numéricas que têm sido importantes para a análise experimental do comportamento. Um Experimento Modelo Na discussão anterior sobre comportamento operante, alguns princípios básicos foram ilustrados utilizando-se o rato de laboratório. É importante se dar conta de que os mesmos princípios podem se extender à variedade de espécies (os próximos capítulos se focarão mais no comportamento humano). Na demonstração de condicionamento operante que se segue, pombos são utilizados como sujeitos experimentais. Pombos são postos numa caixa operante e precisam bicar um pequeno disco de plástico, ou chave, que é iluminada por uma luz branca. Uma bicada na chave ativa um microinterruptor e produz uma conexão elétrica que controla um alimentador por onde a comida é apresentada. A apresentação de comida funciona como um reforçador para bicar. O alimentador cheio de grãos balança para frente e fica disponível por poucos segundos. O pássaro pode comer os grãos prostrando sua cabeça através de uma abertura. A Figura 4.9 mostra uma caixa operante projetada para pássaros. Note que a caixa é bastante semelhante àquela utilizada para estudar o comportamento operante de ratos. FIG. 4.8 Um registro cumulativo do bicar uma chave por um pombo. Nessa ilustração, uma ave responde 50 vezes para produzir uma liberação de comida. Repare que 50 bicadas são seguidas por reforçamento e que isso é indicado por uma flexão para baixo da pena. Seguindo o reforçamento, a taxa de resposta é zero, como indicado pelos platôs ou porções planas do registro. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 Antes do experimento, o pássaro é retirado de sua colônia e posto sozinho numa gaiola. Cada pombo recebe acesso livre a água e comida. O pássaro é pesado todos os dias durante uma semana e o peso da linha de base é calculado. Em seguida, a quantidade de ração diária é reduzida até que o pássaro atinja aproximadamente 80% de seu peso durante o período de livre acesso à comida, ou peso ad-lib (NT. Ad libitim). Após o procedimento de privação, o pombo é posto na caixa operante para o treino ao alimentador. Quando o pássaro é posto na caixa pela primeira vez, pode apresentar uma variedade de respostas emocionais, incluindo bater as asas e defecar. Isto acontece porque a caixa apresenta uma quantidade de características novas que, inicialmente, exercem a função de estímulos aversivos. Por exemplo, a ativação do alimentador faz um barulho alto que pode assustar o pássaro. Eventualmente, estas respostas emocionais são extintaspela repetida exposição ao dispositivo. Com a dissipação das respostas FIG. 4.9 Uma caixa operante para pássaros. A câmara contém um pequeno disco plástico iluminado por uma luz. Uma bicada no disco ativa um microinterruptor e faz uma conexão elétrica. Quando o reforçamento é programado para ocorrer, o alimentador balança para frente e permanece disponível por alguns segundos. O pássaro pode comer grãos do alimentador esticando a cabeça através da abertura na parede da câmara. Em principio, a caixa é semelhante a usada para estudar comportamento operante em ratos. Adaptado de Ferster e Skinner, 1957, Applenton-Century-Crofts, New York. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 emocionais, o pássaro explora o ambiente e começa a comer a comida do alimentador. Uma vez que o som do alimentador é pareado com a comida, o som se torna um reforçador positivo condicionado. Neste ponto, diz-se que a ave está treinada ao alimentador. O propósito desta demonstração é treinar o pombo a bicar a chave por reforço alimentar. Para mostrar que o comportamento ocorre por conta da contingência entre o bicar e a comida, o nível operante, ou linha de base, do comportamento bicar a chave deve ser mensurado. Isso pode ser feito pondo a ave numa caixa operante e registrando as bicadas na chave antes que a contingência bicar-comida seja estabelecida. Em outras palavras, bicar a tecla não produz alimento durante esta fase do experimento. O nível operante serve como linha de base, ou período-controle para avaliar a alteração no comportamento. O nível operante de bicar a chave da ave é tipicamente muito baixo, tornando-se conveniente treinar tais respostas utilizando o método de aproximações sucessivas. Modelar pombos para bicar uma tecla é semelhante a treinar ratos a pressionar uma barra; em ambos os casos, a modelagem envolve reforçar respostas cada vez mais próximas do desempenho final (i.e., bicar a tecla com força suficiente para operar o microinterruptor). Conforme cada aproximação ocorre, esta é reforçada com a apresentação do alimentador com comida. As aproximações anteriores não são mais reforçadas e reduzem em frequência. Este processo de reforçar respostas cada vez mais próximas e retirar o reforço das aproximações prévias, eventualmente resulta no pombo bicando a chave com força suficiente para operar o microinterruptor. A bicada na chave que opera o microinterruptor para produzir comida é a primeira resposta definível. O fecho do interruptor e a conexão elétrica determinam a classe operante de bicar por comida. Neste ponto, o microcomputador está programado de modo que cada bicada na tecla resulte na apresentação de comida por alguns segundos. Por conta de cada resposta produzir reforço, o esquema é Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 chamado de reforço contínuo, ou CRF. A Figura 4.10 mostra a aquisição do bicar a chave em reforço contínuo (a ave, presumivelmente, foi modelada a bicar a chave por alimento). Note que a frequência da resposta é baixa quando a ave é inicialmente posta na caixa. Este período é chamado de aquecimento e provavelmente ocorre por conta da abrupta mudança de sua gaiola para a caixa operante. Após um breve período de aquecimento, a taxa de resposta se torna alta e estável. Finalmente, o registro mostra que a taxa de respostas diminui e o platô indica que a ave parou de bicar a tecla. Este efeito posterior se chama saciação e ocorre porque a ave já comeu o suficiente. Falando mais tecnicamente, a taxa de respostas diminui porque a repetida apresentação do reforçador enfraquece sua efetividade. Uma operação de saciação diminui a efetividade do reforço. Esse efeito é oposto à privação, em que a retirada do reforçador aumenta a sua efetividade. Para ter certeza de que o aumento na frequência de respostas é FIG. 4.10 Típica aquisição de bicar uma chave em CRF ou reforçamento contínuo. Devido ao fato de que cada resposta é reforçada, a descida da pena é omitida. A taxa de respostas é baixa quando o animal é inicialmente colocado na caixa. Após esse breve período, a taxa de resposta é alta e estável. Finalmente, a taxa de respostas declina e então os níveis cessam de aumentar. Esse efeito posterior é chamado de saciação. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 causado pela contingência de reforço, é necessário retirar a contingência. Em outras palavras, se o alimento não é mais apresentado, o pombo deveria desistir de bicar a chave. Se a contingência bicar-alimento é responsável pelo comportamento de bicar a chave, então, a retirada da contingência resultará no declínio do comportamento de bicar a tecla ao nível operante. A Figura 4.11 apresenta os registros cumulativos em períodos em que bicar produz ou não produz alimento. A contingência inicial bicar-alimento produz uma taxa de respostas estável. Quando bicar não produz mais comida, a taxa de respostas diminui e, eventualmente, a ave pára de bicar a chave. Dessa forma, o comportamento de bicar a tecla é claramente dependente da contingência de reforço. FOCO EM: REFORÇO E SOLUÇÃO DE PROBLEMAS Barry Schwartz (1980, 1982a; Figura 4.12) realizou uma série de experimentos com pombos para mostrar que reforço produz estereotipia de respostas. Nestes experimentos, o reforço produziu um conjunto de padrões de respostas que ocorriam repetidamente. Uma vez em que obteve estes resultados com pombos, Schwartz (1982b) utilizou procedimentos FIG. 4.11 Desempenho em CRF e extinção. Respostas são mantidas quando são reforçadas. Porém, quando o responder não é mais reforçado, a taxa de resposta declina e eventualmente para. FIG. 4.12 Dr. Barry Schwartz. Publicado com permissão. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 semelhantes com estudantes universitários para demonstrar os presumidos efeitos negativos do reforço para a solução de problemas de humanos. Aos estudantes universitários eram dados pontos em um contador quando os mesmos completassem uma sequência complexa de respostas. As respostas eram apertar os botões, direito ou esquerdo, que moviam uma luz em uma matriz como um tabuleiro de xadrez com 25 quadrados iluminados. A Figura 4.13 mostra a matriz, com a luz no quadrado superior-esquerdo. A tarefa do sujeito era pressionar um botão para mover a luz do canto superior-esquerdo para o quadrado do canto inferior direito. Uma pressão no botão direito movia a luz um quadrado para a direita e uma pressão no botão do lado esquerdo movia a luz um quadrado para baixo. Schwartz exigia exatamente quatro pressões no botão da esquerda (L) e quatro pressões no botão da direita (R) em qualquer ordem (e.g., LRLRLRLR, LLLLRRRR, etc.). Havia 70 ordens diferentes de pressão nos botões da esquerda e direita que moveria a luz para o canto inferior direito. Quando a luz chegava ao canto inferior-direito, registrava-se um ponto no contador e, posteriormente, seriam trocados por dinheiro. Se o sujeito apertasse um botão uma quinta vez (e.g., RRRRR), todas as luzes da matriz se apagavam e a tentativa se encerrava sem reforço. Numa série de experimentos, Schwartz descobriu que os estudantes desenvolviam um padrão estereotipado de responder. A questão é que, assim que os estudantes faziam a sequência correta, eles as repetiam eraramente tentavam um padrão diferente. Em outro experimento, (Schwartz, 1982b), os estudantes foram explicitamente reforçados por variar seu padrão de respostas. Quando isso era feito, os estudantes desenvolviam uma FIG. 4.13 A matriz de tarefa usada por Schwartz (1982b). Uma pressão à barra da direita movia a luz um quadrado para a direita; uma pressão à barra da esquerda, movia a luz para baixo um quadrado. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 estereotipia de ordem superior. A partir destes experimentos, Schwartz concluiu que o reforço interferiu na solução de problemas porque produziu padrões de respostas estereotipados. Allen Neuringer (Figura 4.14) é o analista do comportamento que investiga variabilidade, aleatoriedade e comportamento. Ele sugeriu que as contingências do experimento de Schwartz produziram estereotipias nas respostas e que isto não foi um efeito inevitável do reforço. A exigência de emitir exatamente quatro respostas em cada botão foi arbitrária e pode ter resultado na estereotipia das respostas. Em diversos experimentos, Page e Neuringer (1985) mostraram que pombos realizando a tarefa do tabuleiro de luz podem gerar um padrão de respostas altamente variável quando as contingências de reforço exigem este comportamento. Outros experimentos demonstraram que estereotipia e variabilidade comportamental são respostas adquiridas. Pombos aprenderam a responder com um padrão variável na presença de uma chave de uma certa cor e a responder com um padrão estereotipado de respostas quando outra cor era apresentada. Um estudo subsequente de Neuringer (1986) extendeu as descobertas a respeito da variabilidade de resposta a humanos. Em dois experimentos, Neuringer demonstrou que estudantes universitários poderiam aprender a gerar sequências aleatórias de dois números no teclado do computador. Neuringer concluiu que “comportamentos tipo randomicos são aprendidos e controlados pelo feedback ambiental, assim como são as outras atividades altamente especializadas” (p.72). As evidências indicam que a variabilidade é um operante que aumenta com o reforçamento da variação comportamental. Até o momento, o reforçamento da variabilidade tem sido mostrado em uma boa quantidade de FIG. 4.14 Dr. Allen Neuringer. Publicado com permissão. Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 espécies, incluindo golfinhos, ratos e crianças e adultos humanos (Goetz & Baer, 1973; Pryor, Haag, & O'Reilly, 1969; Stokes, Mechner, & Balsam, 1999; van Hess, van Haaren, & van de Poll, 1989). Além disso, diferentes procedimentos experimentais têm sido utilizados para produzir variabilidade com uma grande quantidade de formas de respostas diferente (Blough, 1966; Goetz & Baer 1973; Machado, 1989; Morgan & Neuringer, 1990; Odum, Ward, Barnes, & Burke, 2006; Pryor et al., 1969). Em síntese, Barry Schwartz argumenta que reforço produz inflexibilidade e rigidez comportamental. Em contraste, a pesquisa de Allen Neuringer sugere que a estereotipia de respostas não é um efeito inevitável do reforço. Se as contingências de reforço dão suporte ao comportamento estereotipado, então este ocorrerá. Por outro lado, contingências podem gerar novas sequências de comportamentos se estes padrões resultarem em reforço (ver também Neuringer, 2002, 2004; Machado, 1989, 1992, 1997). Geralmente, uma análise minuciosa das contingências é necessária nas situações de solução de problemas, porque “você colhe aquilo que você reforça” (variabilidade ou estereotipia). ______________________________________________________________ EXTINÇÃO ______________________________________________________________ O procedimento de suspender o reforço a uma resposta previamente reforçada é chamado de extinção. Skinner (1938) conduziu o primeiro estudo extensivo de extinção e seus princípios relacionados. Para produzir a extinção, você deve desconectar o alimentador após a ave ter sido reforçada a bicar a chave. É importante notar que o procedimento de extinção é uma contingência de reforço. A contingência se define pela probabilidade zero de reforço para a resposta operante. Extinção também é um processo comportamental e, neste caso, se refere ao declínio na frequência de respostas causado pela retirada do reforço. Por exemplo, você pode levantar sua mão para fazer uma pergunta e perceber que um certo professor o Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 ignora. Fazer perguntas pode declinar porque o professor não mais reforça este comportamento. Efeitos Comportamentais da Extinção A extinção produz diversos efeitos comportamentais,além do declínio na taxa de respostas. Na sessão seguinte, nós consideramos uma variedade de efeitos gerados pela interrupção do reforço. Muitas destas respostas do organismo para a interrupção do reforço fazem sentido a partir de uma perspectiva evolucionária. Presumivelmente, quando coisas não mais funcionavam (extinção), a seleção natural favoreceu a organismos que repetiam comportamentos que “funcionaram” no passado, produzindo uma maior variedade de respostas na situação (variabilidade comportamental), emitiram mais respostas contundentes para as circunstâncias e atacaram outros membros da espécie relacionados ao cessar do reforço. Jorro de respostas da extinção Quando a extinção começa, o comportamento operante tende a aumentar em frequência. Isto é, organismos repetem comportamentos que foram reforçados. O pombo irá, inicialmente, aumentar a taxa da resposta de bicar a chave e você pode erguer sua mão mais frequentemente do que fizera no passado. Você pode explicar sua maior tendência a levantar a mão dizendo a um amigo “O professor não me vê; Tenho algo importante a dizer”. Se a ave pudesse falar, ela também poderia “justificar” o porquê de estar bicando numa maior taxa. O ponto é que o aumento inicial na taxa de respostas, ou jorro de respostas da extinção, ocorre inicialmente quando o reforço é retirado. Variabilidade operante Além do jorro de respostas da extinção, o comportamento operante se torna ainda mais variável como produto da extinção (variabilidade operante). A variação comportamental aumenta as chances do organismo em Análise do Comportamento e Aprendizagem Pierce & Cheney Reforço e Extinção do Comportamento Operante 1 4 reestabelecer ou entrar em contato com outra fonte de reforço. Você pode acenar com a mão numa tentativa de chamar a atenção do professor; a ave pode atingir a chave em locais diferentes e com diferentes variedades de força. Um experimento clássico de Antonitis (1951) demonstrou este efeito. Ratos foram ensinados a pôr o focinho através de uma fresta de 50cm de comprimento por reforço alimentar. Quando isto acontecia, uma fotocélula era ativada e uma fotografia do animal era tirada. A posição do rato e o ângulo do corpo eram registrados no momento do reforço. Após o rato, seguramente, ter posto o focinho através da fresta, foi posto em extinção. Seguindo a isto, o reforço era reestabelecido, então extinto e, numa fase final, o operante foi novamente reforçado. Antonitis relatou que o reforço produziu um padrão estereotipado de resposta. O rato colocava o focinho através da fresta repetidamente, aproximadamente, na mesma posição e a posição de seu corpo se mantinha num ângulo particular. Quando ocorria a extinção, o “focinhar” e
Compartilhar