Prévia do material em texto
Marco Casella HISTÓRIA E EVOLUÇÃO DA INTELIGÊNCIA ARTIFICIAL %SUBTITLE% UUID: b5b4f4d8-e964-11e6-b45a-0f7870795abd This ebook was created with StreetLib Write http://write.streetlib.com http://write.streetlib.com/ Índice Introdução Rumo ao computador inteligente O «pensamento mecânico» A simulação do cérebro ao computador Estratégias satisfatórias As heurísticas antes e depois de Dartmouth A questão dos neurónios As abordagens semânticas Generalidade e conhecimento Os percursos da lógica Problemas de senso comum Contra a lógica A Visão Artificial Velhos e novos projectos As arquitecturas: ciência cognitiva e neoconexionismo A inteligência artificial e os enigmas da mente As orientações da pesquisa desde o final dos anos 80 A nova IA Os paradigmas por uma ciência Introdução O estudo da Inteligência Artificial tem uma história recente; a sua data oficial de nascimento é considerada por unanimidade o 1956. Contudo, não há nenhum acordo sobre a definição do seu programa de pesquisa como disciplina científica. Alguns filósofos e pesquisadores do sector são céticos quanto à mesma possibilidade de considerar a Inteligência Artificial (doravante IA) uma ciência. Numa interpretação «fraca» (usando um vocábulo tornado canônico por John Searle) ela parece bem uma prática experimental, entre a informática e a engenharia. O seu objectivo seria a construção de artefatos com prestações que podem ajudar (e em alguns casos substituir) o homem na solução de tarefas teóricas ou práticas de diferente complexidade. Nesta perspectiva, a IA é vista como o ponto de chegada de um processo evolutivo que permitiu extender a automação desde algumas actividades do trabalho manual à algumas actividades do trabalho intelectual tais como a elaboração de cálculos complexos, o controlo e a planificação e a consulta especializada em algumas prestações professionais. Dado que se trata de trabalho intelectual, poderemos sem dúvida falar de «inteligência», mas, uma vez que este trabalho é completamente «automático», torna-se difícil ou discutível precisar a natureza desta inteligência. No fundo, aqui está a origem do paradoxo sobre o qual às vezes se insistiu: logo que uma prestação do trabalho intelectual é reproduzida por um artefato, ela não parece mais uma função verdadeiramente inteligente. Segundo um outro ponto de vista, a IA pode ter a ambição de ser uma ciência, esta vez dos princípios gerais da inteligência e do conhecimento (ou seja comum aos seres humanos e às máquinas) mas precisa da contribuição decisiva da lógica: um pouco como se diz da física, que precisou da matemática para desenvolver-se como ciência. Portanto, o problema da IA consiste, em primeiro lugar, em encontrar a lógica, ou as lógicas, pertinentes aos seus objectivos. É diferente a perspectiva segundo a qual a IA é definida em relação às pesquisas sobre a inteligência natural. Aqui as coisas se complicam porque a inteligência natural, por sua vez, não é um ámbito bem definido, a a psicologia, a disciplina tradicional por o seu estudo, viveu muitas vezes contraditoriamente o seu estatuto de ciência. Mais recentemente, além disso, dimensionada a ideia que a mente pode representar um objecto de pesquisa independente do cérebro, algumas tendências da IA interessadas na mente são levadas à lidar com os resultados e os métodos de uma outra ciência, a neurologia (ou neurociência, como agora se diz). É interessante notar como já Alan Turing, figura mítica na historia da IA, apesar de ter morto dois anos antes do nascimento oficial da nova disciplina, se comparou com os principais problemas que deram origem às interpretações do programa de pesquisa da IA. Já a célebre máquina abstrata que tem o nome de Turing e a sua tese sobre a natureza da capacidade de cálculo de 1935 se baseavam numa premissa completamente original em contraste com outras formulações equivalentes: dar uma descrição rigorosa de procedimento automático, ou mais precisamente mecânico, invocando o comportamento de um ser humano que o aplica. Depois a que poderíamos chamar a realização física da sua máquina abstrata com o advento dos primeiros computadores digitais, Turing discutiu as objeções à possibilidade de uma «máquina inteligente» que se baseavam na incompatibilidade da noção de «automatismo» com a de «inteligência». No século 19 talvez pudesse ter sido um bispo que podia formular-lhe objeções deste tipo. Como recordou Hodges (1983), um dos principais opositores de Turing foi Geoffrey Jefferson, que alegava que a lógica era inútil para o estudo da mente humana e que era impossível reproduzir as suas características num artefato não biológico, ou seja abstraindo do cérebro e, de modo mais genérico, do corpo. Se pode dizer que é um inventário parcial mas eficaz dos problemas principais que a IA vai enfrentar ao longo da sua história. Mesmo que a cibernética tinha desempenhado o seu papel em dimensionar a contraposição entre as noções de automatismo e de inteligência, foi a construção dos primeiros computadores digitais que sugeriu um modo para discuti-la novamente. Nesta análise da evolução da IA se seguirá a que parece a estrada principal que levou às origens da IA, a estrada marcada pelas tapas da construção do computador que permitiram pouco a pouco pensar nisso como a uma máquina inteligente, combinando dois vocábulos tradicionalmente longe entre eles. Rumo ao computador inteligente «Se Babbage tivesse vivido setenta e cinco anos depois, eu seria desempregado»: parece que dissesse assim o físico Howard Aiken (1900-1973) na frente da sua máquina, o computador Mark I, ou o Automatic Sequence Controlled Calculator, completado em Harvard em Fevereiro de 1944. Se tratava de uma máquina constituida por relés eletromagnéticos capaz de efetuar cálculos numéricos sobre números codificados em representação decimal. Como a célebre «máquina analítica», nunca realizada mas concebida em pormenor em 1837 por o matemático inglês Charles Babbage (1791-1871), o computador de Aiken se baseava na ideia de máquina à programa: logo que as instruções para proceder a um cálculo eram codificadas sob a forma binária sobre uma fita de papel perfurada, podiam ser efetuadas sequencialmente de forma automática, ou seja sem a intervenção do operador humano. Aiken correu, de certa forma, o risco de ser desempregado: alguns anos antes que completasse a construção do Mark I, em 1941, o engenheiro Konrad Zuse (1910- 1995) tinha construido na Alemanha um computador automático que, além disso, usava uma representação completamente binária. Mas a máquina de Zuse, conhecida por Z3, foi destruida durante os bombardeios dos aliados sobre a Alemanha. O computador digital automático nascia portanto na Europa, e no meio da Segunda Guerra Mundial. Foi Norbert Wiener (1894-1964) a recordar como ele se substituísse gradualmente ao computador analógico nas aplicações bélicas. A elaboração rápida e precisa de grandes quantidades de dados numéricos era indispensável, por exemplo, para tornar eficaz a artilharia pesada perante a velocidade aumentada dos veículos aéreos. No MIT (Massachusetts Institute of Technology), Wiener, em colaboração com o engenheiro Julian Bigelow, desempenhou um papel primordial na afinação de sistemas automáticos antiaéreos em cujos a informação sobre o objectivo móvel captada pelo radar e elaborada pelo computador retroagia modificando a linha de pontaria do canhão. Em 1943, Wiener publicou com Bigelow e com o fisiólogo Arthuro Rosenblueth (1900-1970) um artículo sintético donde se afirmava de recuperar a linguagem psicológica (vocábulos como «fim», «escolha», «objectivo» e afins) para descriver sistemas munidos de retroação (feedback) negativa como o acima descrito, ou seja capaz de responder de forma seletiva às solicitações do ambiente, modificando o seu comportamento tal como os organismos viventes. Esse artículo é agora considerado como o ato de nascimento da cibernética, como Wiener chamou alguns anos depois a disciplina que deveria ter-se ocupar dos mecanismosfondamental: o ambiente da tarefa escolhida não era o dos problemas chamados «bem definidos» e dos «problemas brinquedo» sobre os quais foi exercida a programação heurística até esse momento, ou seja a lógica ou os varios jogos e quebra-cabeças. Ao contrário, o programa abordava uma tarefa de particular complexidade: a indução e a formação de hipóteses num problema de natureza científica, ou seja a identificação da estrutura molecular de compôstos organicos não conhecidos. O fluxograma do programa se desenvolvia num ciclo que reproduzia a observação dos dados, a formação de hipóteses, a predição e o controle segundo o procedimento canônico do método científico «baconiano», como o definiu Michie na discussão que seguiu a exposição de Feigenbaum à Information Processing Conference. Na sua versão originária, o programa, escrito em LISP e chamado DENDRAL (DENDRitic ALgorithm) era composto por um «gerador de hipóteses» e um «Previsor». Como clarificarão mais tarde os seus autores, estas duas partes de DENDRAL reflectavam a filosofia «generalista» do GPS, no sentido de que incorporavam o método mais geral e, como então se disse, mais «débil» possível da pesquisa heurística como a concebiam Newell e Simon, o do «gera-e-controla». O Gerador definia o espaço do problema de DENDRAL como umo espaço das hipóteses, de modo totalmente análogo – observava Feigenbaum – a um gerador das jogadas permitidas de um programa de xadrez. A geração das hipóteses sobre a estrutura molecular podia ser exaustiva, baseando- se num algoritmo já identificado por Lederberg. Por sua vez, o Previsor, que controlava as hipóteses e selecionava as plausíveis, era definido um «experto», mas um experto muito geral: a sua competência era a teoria da espectrometria de massa. A novidade do Programa era que o Previsor não examinava todas as hipóteses produzidas pelo Gerador segundo o algoritmo de Lederberg, mas só um seu subconjunto selecionado por um «Processor de inferências preliminares». Era esse o verdadeiro «especialista», após definido como um planificador que opera com base de conhecimentos e regras heurísticas relativas ao espectro de massa e aos componimentos atómicos da molécula que se pretende identificar. DENDRAL é considerado como o precursor dos «sistemas expertas», come serão chamados os sistemas de IA que utilizam extensivamente conhecimentos especializados para resolver problemas complexos. Ele podria ser visto como o antagonista do GPS que, na forma originaria de resolução de problemas geral e integrado, já se demonstrava impráticavel. Contudo, há que não esquecer que DENDRAL nas intenções dos seus autores, representava inicialmente um estudo sobre a relação crítica existente entre generalidade e potência das heurísticas. A sua conclusão foi que as heurísticas gerais, os «métodos fracos», se demonstram eficientes só quando são associados à alguma heurística especializada por um determinado domínio de conhecimentos. Nesta forma, os métodos fracos continuaram a representar os elementos estruturais de diversos sistemas de pesquisa heurística em IA. Uma parte da seguinte experimentação sobre DENDRAL, por exemplo, se centrou no estudo dos vínculos a impor ao planificador. Michie, intervindo na mesma Information Processing Conference, considerou DENDRAL como um exemplo de «engenharia epistemólogica». Feigenbaum relatou após que preferiu a expressão «engenharia do conhecimento», que já entrou no jargão para qualificar um dos pontos críticos da pesquisa sobre os sistemas expertos: como transferir num programa de IA o patrimônio de conhecimento heurístico que caracteriza um experto humano. Feigenbaum também relatou a desconfiança que DENDRAL encontrou inicialmente entre os «generalistas», os que, também sem aderir à configuração originária do GPS, pensavam que a tarefa da IA era a pesquisa dos princípios gerais da inteligência que podiam ser transferidos nas máquinas. Há que dizer, contudo, que antes do desenvolvimento de computadores com grandes memórias desde os anos 70, a gestão de bases vastas de conhecimentos como as pedidas pelos sistemas expertos não era um objectivo possível. Só depois esse périodo os sistemas expertos conseguiram difundir-se nos sectores mais diferentes, da medicina à geologia, à engenharia, à educação assistida e transformar-se muitas vezes em produtos comerciais. Mais tarde, Feigenbaum criou uma empresa para a conceção e a venda de softwares para sistemas expertos. Os percursos da lógica No famoso livro Perceptrons , publicado em 1969 por Minsky com Seymour Papert, que chegou no MIT após várias experiências europeas, eles, como é habitual repetir, mataram as redes neurais, demonstrando a incapacidade dos Perceptrons de Rosenblatt de discriminar estímulos visuales também muito simples. No momento da publicação desse livro, contudo, não entrou em crise só a proposta dos sistemas de auto-organização e das redes neurais cujas prestações, como Minsky tinha previsto em Teddington, não iam além da reprodução de simples actividades de classificação e associação. Com efeito, também entrou em crise um par de estilos de pesquisa da IA, um par de «paradigmas», como diziam os seus protagonistas, e outros estavam prestes a avançar, num clima de contraposições, escolhas de campo e pensamentos que caraterizou a IA de todo a «década seguinte», para retomar a expressão de Feigenbaum. Entre as posições generalistas que os autores de DENDRAL rejeitavam não havia só o GPS, mas também um programa de tipo geral de que McCarthy tinha traçado o protótipo na época do simpósio de Teddington. O Advice Taker, o nome do programa, devia ter sido capaz de elaborar planos e tirar consequências com base de um corpo de conhecimentos suficientemente vasto também utilizando de «conselhos» do programador. O Advice Taker partilhava com o GPS a aspiração à generalidade, mas McCarthy insistia no modo uniforme como representar o conhecimento que o sistema tinha do ambiente, inevitavelmente baseado em crenças e expetativas ou, como ele dizia, no «bom senso». Este conhecimento devia ser representado sob a forma de proposições da lógica proposicional assumidos como axiomas ou premissas e as consequências deviam ser tiradas pelas regras desta lógica. Uma primeira tentativa de implementar ao menos algumas características do Advice Taker remonta a 1964 e se deve a Fisher Black: Minsky o incluía em Semantic Information Processing, advertindo que se tratava do «artigo menos “ semântico” da coleção». A aspiração à generalidade e a um mecanismo de dedução uniforme que caracterizava o Advice Taker foi retomado explicitamente só após a formulação de um novo procedimento de dedução automática que inicialmente se revelou particularmente promissor. Se tratava do princípio de resolução de J. Alan Robinson, que um estudante de McCarthy, Cordell Green, incorporou num programa question answering, QA3, que era capaz de responder a perguntas sobre alguns domínios diferentes. Atrás do resultado de Robinson haviam os estudos de vários pesquisadores interessados num tipo de demonstração automática de teoremas que não tinha como objectivo a simulação dos processos humanos mas fazia referência à resultados anteriores de lógicos como Skolem, Herbrand e Gentzen. Hao Wang, em particular, já tinha invertido os cálculos de Newell, Shaw e Simon sobre a eficiência das heurísticas do LT, implementando num IBM 704, entre 1958 e 1959, três procedimentos algorítmicos que em poucos minutos demonstravam boa parte dos teoremas do cálculo proposicional e predicativo dos Principia mathematica. As pesquisas seguintes de Martin Davis e Hilary Putnam e de Dag Prawitz culminaram no trabalho de 1965 de Robinson, em que se descrevia um cálculo lógico sem axiomas mas com uma única regra de inferência chamada «resolução». Na sua forma mais simples, a regra diz que duas fórmulas bem formadas só constituídas por disjunções de fórmulas atómicas ou suas negações, AvB e BvC (as «cláusulas progenitoras») é possível inferir o «resolvente» AvC (a cláusula consistente na uniãodos constituintes não complementares das cláusulas progenitoras). O cálculo de Robinson cumpria um requisito importante, a integralidade, mas a construção de um demonstrador automático de teoremas só com a resolução era tornada impossível pela explosão combinátoria dos resolventes desnecessários ou redundantes gerados pela regra. Durante alguns anos a maioria da pesquisa sobre a dedução automática se centrou nos chamados «refinamentos» da resolução que foram estudados sobretudo na dupla forma das restrições e das ordenações a impor à geração de cláusulas particulares. O interesse pelos refinamentos é testemunhado pelos artigos muito numerosos sobre o tema publicados em Machine Intelligence, a coleção editada pelo grupo de Michie, que começou a aparecer periodicamente desde 1967 e em «Artificial Intelligence», a primeira revista dedicada à IA, publicada desde o mesmo ano. Estas revistas também testemunham a mudança de rumo que ocorreu na primeira metade dos anos 70, quando a insatisfação pelos resultados alcançados pela pesquisa nos refinamentos da resolução reavivou o interesse por uma demonstração de teoremas menos sensível ao requisito da integralidade e mais atenta aos procedimentos heurísticos inspirados em métodos humanos de solução de problemas, menos sintáticos e uniformes e mais relacionados a conhecimentos relativos a domínios específicos. W.W. Bledsoe foi talvez aquele que, trabalhando inicialmente nos refinamentos, «passou da outra parte», como ele disse, com mais convição: o seu programa para demonstrações de conjuntos IMPLY fazia parcialmente referência à abordagem heurística de Newell, Simon e Gelernter. Contudo, esta redescoberta das heurísticas simulativas não decretou o abandono imediato da resolução: ao contrário, mais ou menos no mesmo período em que era condenada, ela abriu o caminho a um novo estilo de programação introduzido por Robert Kowalski e conhecido como «programação lógica». Ela usa um refinamento da resolução que è completo e eficiente para uma particular e importante classe de fórmulas, as cláusulas de Horn (do nome do lógico que as tinha estudadas). Este refinamento foi após incorporado no PROLOG (PROgramming LOGic), a linguagem de programação desenvolvida na primeira metade dos anos 70 em algunas universidades europeias, antes de mais em Edimburgo e, com Alain Colmerauer, em Marselha. Problemas de senso comum A dificuldade em extender as prestações de QA3 em presença de problemas complexos e de bases de dados extendidas desencorajou Green a continuar a prosseguir o objectivo de um sistema capaz de responder a perguntar que fosse «geral, formal e dedutivo» (assim ele se expressava pensando ao Advice Taker). Como observou McCarthy (1988), foi esta dificuldade relativa ás técnicas de controle do raciocínio que levou à elaboração de programas muito complexos como STRIPS (STandford Research In stitute Problem Solver) e os seus sucessores. Em STRIPS, concebido em 1969 no SRI (Stanford Research Institute) por Richard Fikes e Nils Nillson, o conhecimento era representado, uma vez mais, pela lógica da primeira ordem e a dedução era sempre confiada à resolução, mas o planeamento era realizado através de uma versão desenvolvida da heurística meios-fim do GPS. Em 1971, sempre no SRI, os autores de STRIPS, com a colaboração de Raphael, utilizaram o seu programa como sistema de controle de um robot que se movia num ambiente real chamado Shakey. Na década anterior, em Stanford, no MIT, em Edimburgo, se experimentaram diferentes linhas de pesquisa na manipulação automática de simples blocos colocados numa mesa por sistemas equipado com um braço móvel e uma câmara que fornecia imagens a um computador, os chamados sistemas «olho-na-mão». Também não faltaram tentativas de construir robots móveis. Shakey era um robot que planeava ações com base de um programa para computador movendo-se num ambiente muito delimitado em que conseguia evitar obstáculos e mover grandes cubos. As suas prestações não foram julgadas tais que o tradicional financiador das pesquisas de IA nos Estados Unidos, a DARPA (Defense Advanced Research Projects Agency), interessada nesse momento nas aplicações militares da robótica continuasse a financiar o projecto. Um problema que desencorajou Green e que o grupo do SRI conseguiu tornar endurecível com STRIPS no âmbito das limitadas prestações de Shakey, é agora conhecido como problema do quadro, formulado por McCarthy e Patrick Hayes à Universidade de Edimburgo (1969). O problema do frame se coloca particularmente na fase de execução de um plano, quando deve considerar-se sequências alternativas de ações, e enquanto certas ações contribuem a mudar o contexto de partida outras o deixam inalterado. Visto que o objectivo é de dar uma representação formal do conhecimento do mundo e que o mundo muda durante a execução de um plano, é necessário descrever sempre, com oportunos axiomas, os chamados «axiomas do frame», também os aspectos de uma situação que não são modificados pela ação. Procedendo na execução do plano, a coisa se traduz inevitavelmente numa proliferação de axiomas que, se pode ser controlada no caso dos habituais problemas brinquedo, é sempre incontrolável no caso de problemas relativos à complexidade do mundo real: um robot que se move no mundo físico aborda um problema deste tipo e Shakey podia abordá-lo só porque se movia num ambiente bem delimitado. No artigo sobre o problema do frame, contudo, McCarthy e Hayes operavam una distinção clara entre os problemas colocados pelo controle das inferências, que eram definidos «heurísticos», e os relativos à representação do conhecimento por uma linguagem formal, «epistemológicos». Com STRIPS, então, se tentou abordar os problemas heurísticos, mas McCarthy sempre se interessou nos epistemológicos cuja solução, ou a menos correcta configuração, parece ser para ele preliminar à solução dos outros. Neste sentido, para McCarthy o Advice Taker nunca foi realizado e nunca será se antes não serão esclarecidos os aspectos da lógica necessários para capturar o carácter não monótono do raciocinio baseado no bom senso. Neste caso, a informação da qual se parte é incompleta o a situação muda, assim aprender nova informação pode provocar a eliminação de conclusões anteriormente inferidas, algo que não pode verificar-se na lógica tradicional ou monótona. O exemplo canônico contempla a inferência seguinte: se x é um pássaro (premissa) então x pode volar (conclusão); mas se me apercebo de que x é uma avestruz (outra premissa) tenho que rever a conclusão atingida. É na abordagem epistemológica ao raciocinio não monótono que se coloca a proposta da «circunscrição» de McCarthy. Ela se apresenta como uma «regra para as conjecturas» que, em presença de informações incompletas, como no caso exemplificado, justifica que se tiram «conclusões precipitadas». A ideia é de circunscrever como «anormais» as potenciais exceções à uma situação típica, como a descrita pela proposição «se x é um pássaro então x pode volar». Neste caso, a propriedade «não volar» é anormal em relação à «ser um pássaro», então é circunscrita, ou seja assumendo que tem a extensão mais pequena possível quanto às informações de que se dispõe. A proposição do exemplo se reformula portanto como a regra seguinte: se x é um pássaro e x não é um pássaro anormal, então x pode volar. O contexto epistemológico fornece foi o pano de fundo de toda uma série de pesquisas definidas após «logicistas» sobre o uso da lógica como strumento para representar o conhecimento baseado no senso comum. Não foi clarificado como as soluções propostas podiam fornecer sugestões para a sua implementação efectiva, por outras palavras para a solução dos problemas heurísticos. Se assistiu assim à proliferação bastante fim em si mesma de pesquisas sobre várias formas de circunscrição e regras não monótonas, que finalmente provocou também algumas deserções: é o caso de Drew McDermott, que abandonou as pesquisas sobre a lógica não monótona através – para usar a sua fórmula –de uma «crítica da razão pura» logicista. Houveram resultados controversos também no estudo de outras formas de lógica: modal, temporal e difúsa. Com esta última, introduzida por Lofti Zadeh (que mais tarde encontrou imprevistas aplicações industriais) se pensou de poder capturar o carácter «difúso» do raciocinio do bom senso: um problema, como se lembra, colocado à mesma origem da simulação dos processos mentais com o computador em termos de lógica «difúsa». Contra a lógica Antitética à logicista foi a posição sempre apoiada por Minsky. Remonta à 1975 a publicação de um seu artigo, O Papel de representação de conhecimento , tornado tão popular a ser conhecido como o «papel de frame». Nele Minsky voltava a contrapor o «novo paradigma» da representação do conhecimento ao precedente «paradigma da pesquisa heurística», propondo uma estrutura de dados que chamou frame . O núcleo da ideia não era certamente original. Noções deste tipo, o recordava Minsky, já eram populares entre os psicólogos (o «esquema» de Bartlett, por exemplo). Além disso, em certos aspectos o frame se colocava entre os desenvolvimentos da noção de rede semântica de Quillan, os mais influentes dos quais era nesse momento a teoria da «dependência conceitual» elaborada por Roger Schank, na Yale University, com uma abordagem antichomskiana e antilogicista. No início dos anos 70 a teoría de Schank estabelecia os limites insuperáveis dos programas de compreensão da linguagem natural da precedente década. Para Shank o modelo negativo era ELIZA, «uma coleção de truques», ele dizia, para fazer macaquear a um programa a compreensão do significado das palavras. O seu objectivo era de descrever, através de processos computacionais que fossem psicologicamente plausíveis, a compreensão da linguagem come fenómeno cognitivo. Shanck propunha identificar um pequeno conjunto de noções elementares, as «primitivas semânticas», pelas quais poder construir a representação do significado de qualquer verbo inglês. A frase era portanto analizada através da explicitação da sua representação em termos de primitivas semânticas. Com efeito, era esto o axioma central da teoria, duas frases que tem o mesmo significado, mesmo que contêm palavras diferentes ou são construidas de forma diferente, partilham uma única representação em termos de primitivas semânticas . Assim, as frases «o homem recebeu o livro» e «eu dei o livro ao homem» podem ser representadas com uma rede particular em termos de uma única primitiva semântica que define a transferência de possessão ( trans na terminologia de Schank, fig. 5). Fig. 5. A primitiva semântica trans de Roger Schank. A teoria de Schank tinha implicações importante para a tradução automática, como demonstravam os primeiros programas de Schank como MARGIE e SAM. As primitivas semânticas, consideradas comuns a todas as linguagens naturais, constituíam uma espécie de «interlingua». Portanto, a habilidade de traduzir frases não era considerada diferente da de entendê-las ou parafrasea-las: ela se basea sempre na explicitação de uma representação, neste caso comum à frases de dois idiomas diferentes. Desvanecido o sonho originário da «tradução completamente automática de alta qualidade», é a partir destas experiências que retomaram vários projectos de tradução automática. Foi quando Schank passou da construção de um programa que entendesse (ou traduzisse) frases à de um programa que entendesse (ou traduzisse) textos que enfrentou inevitavelmente os problemas habituais do bom senso: em primeiro lugar, o dos conhecimentos necessários para tirar inferências sensatas da união de frases diferentes de modo a tornar explícitas crenças e expectativas solicitadas implicitamente pela leitura do texto. Para abordar estos problemas, Schank, com o psicólogo de Yale Robert Anderson, elaborou em SAM (Script Applier Mechanism) o mecanismo dos scripts. Para dar uma ideia, podemos voltar ao papel de frame de Minsky. O frame tornou-se o protótipo das várias noções afins, scripts incluídos, elaboradas nesses anos ou nos anos seguintes com o objectivo contrário ao logicista, ou seja de abordar o problema do bom senso com sistemas de representação do conhecimento psicologicamente plausíveis. Há que não esquecer que os sistemas as regras de produção foram utilizados por Newell e Seimn com o mesmo objectivo. O interesse pelo frame é, no entanto, documentado desde a sua aparição nos comentários de Fikes, Hewitt, Schank e outros em Schank e Nash-Webber. Para retomar um exemplo de Minsky, em abrir uma porta numa casa que não nós é familiar, geralmente esperamos encontrar um quarto com características mais ou menos reconhecíveis e previsíveis que fazem referência à un conjunto de conhecimentos organizados sob a forma de protótipos. As estruturas-dados em que reflectir este modo dúctil e muito integrado de usar o conhecimento que é típico dos seres humanos podem ser descritos para Minsky como sistemas de frame. Portanto, o frame quarto é um contentor de dados que inclui características gerais, enumeradas em «casas» específicas ou slots, como ter um certo número de paredes e janelas, um tecto e assim por diante. Poderá haver vários tipos de quartos: sala de jantar, quarto de dormir, etc., cada um dos quais constitui, por sua vez, um frame com características mais específicas, sempre enumeradas em «casas» específicas. E a sala de jantar de Giovanni poderá ser muito diferente da de Maria em vários detalhes, mais fará sempre parte de um mesmo tipo do frame quarto, do qual herda as propriedades, segundo o mecanismo já presente nas redes semânticas de Quillian. A descrição de Minsky é em geral intuitiva e por vezes obscura. Contudo, ele descrevia métodos que activam ou desactivam frames a níveles diferente de detalhe dando lugar à possibilidade de modificar crenças e expectativas frustradas o exigirem. Para Minsky, por exemplo, o modo de abordar as exceções típico do raciocinio do bom senso ou não monótono é bem representado num frame com o método dos defaults que estabelecem generalizações que constituem crenças alegadas até prova (ou em defeito de informação) em contrário: um default de quarto pode ser o número «igual a 4» das paredes, mas um quarto com uma pared desabada é algum tipo do frame quarto. Num apêndice ao papel de frame, Minsky lançava um duro ataque às teses logicistas que, para ele, desviadas pelos falsos problemas da coerência e da integralidade, não eram capaces de enfrentar o caractér holístico do conhecimento humano, para usar esta vez o termo utilizado por Daniel Bobrow e Terry Winograd sobre a linguagem para a representação do conhecimento KRL (Knowledge Representation Language), certamente o mais afectado pela ideia dos frames. Sobre a razoabilidade da contraposição de Minsky entre representações psicologicamente plausíveis e representações logicistas as avaliações não foram concordes. Uma resposta pelos logicistas foi inicialmente de Hayes que tentou, com discutido sucesso, traduzir em termos de lógica da primeira ordem o formalismo das redes semânticas e dos frames para demonstrar a sua substancial equivalência. Contudo, se para alguns os frames não passam de conjuntos de proposições declaratórias, para outros, mais plausívelmente, eles, como os scripts e outras noções análogas, sugeriram um modo para superar a contraposição teorizada por McCarthy entre problemas epistemológicos e heurísticos e também para redimensionar a disputa entre «declarativistas» e «proceduralistas», que dividiu o mundo da IA dos anos 70. Em suma, enquanto para a tese declarativista, apoiada sobretudo pelos logicistas, o conhecimento é em primeiro lugar «saber que», e portanto consiste a dispor de um conjunto de factos e regras para inferir outros, para a tese proceduralista o conhecimento é principalmente «saber como», e portanto consiste a dispor de procedimentos pelo uso do mesmo conhecimento. É possível dotar os frames de procedimentos deste último tipo chamados «ligações procedurais»: no frame quarto, por exemplo, se poderia ligarà casa «número das paredes: igual à 4» um procedimento para reconhecer, quando as circunstâncias o exigem, a parede de um quarto de forma circular. O programa que pode ser considerado um exemplo das teses proceduralistas é SHRDLU, realizado por Winograd no MIT em 1971 no ámbito de um projecto para a compreensão da linguagem natural. SHRDLU é um robot simulado capaz de efectuar com grande coerência ações num ambiente também simulado em que blocos de formas e colores diferentes são dispostos numa mesa: um «micromundo», como eram chamados estos conjuntos de sólidos geométricos sobre os quais foi exercida muita IA desses anos. SHRDLU executava correctamente ordens diferentes, dadas em entrada em inglês, e de mover certos blocos sobre a mesa, e explicava a pedido em inglês porque se comportava num modo e não noutro. Também era capaz de remover ambiguidade a ordens não claras, fazendo referência ao modo em que eram dispostos os blocos num determinado momento e pedindo, se necessário, uma confirmação da sua interpretação do contexto. Para isso, SHRDLU integrava a análise sintática e semântica das proposições com um pequeno corpo de conhecimentos sobre os objectos e as propriedades do micromundo. Com uma abordagem diferente da de Schank, tornava possível tratar os mesmos aspectos do significado inacessíveis aos programas dos anos 60 que – como vimos – se baseavam na utilização de comparação de esquemas e de palavras-chave. Com efeito, SHRDLU tinha um modelo interno do micromundo e o seu conhecimento era representado em forma não declarativa mas procedural. A cada palavra do seu vocabulário correspondia não uma definição explícita mas um breve programa cuja execução controlava se a utilização da palavra no contexto era correcto ou não: em isso consistia o significado da mesma palavra. A representação do conhecimento em forma procedural típica de SHRDLU era tornada possível pelo MICROPLANNER, a linguagem de alto nível utilizada. Se tratava de uma ação do PLANNER, inventato por Carl Hewitt no MIT em 1971, em que a parte relativa ao controle (ou heurística no senso de McCarthy) era, por assim dizer, integrada à relativa à representação (ou epistemológica). A Visão Artificial Uma crítica à escola dos micromundos, à hegemonia da representação do conhecimento, ao proceduralismo e à solução cognitiva de problemas, em suma ao intero e divergente frente da pesquisa sobre a IA dos anos 70, foi de David Marr (1945-1980). Ele criticou trabalhando num sector considerado durante muito tempo secondário em IA: o da Visão Artificial. Ainda hoje as ideias de Marr, não obstante se veem diferentes limites, parecem marcar uma linha de divisão na breve história da Visão Artificial e deixaram marcas importantes em tendências mais recentes da pesquisa cognitiva. Invitado por Minsky e Papert, Marr chegou no MIT desde Inglaterra em 1973, neurofisiologista convencido de que a visão era um argumento demasiado complexo para ser abordado só por os métodos da sua disciplina. No MIT havia uma longa tradição de pesquisa sobre a visão relacionada aos interesses pela robótica que recordámos, estimulados, em particular, por Minsky. Depois de uma falsa partida, em que a Visão Artificial foi considerada um problema secondário e de fácil solução em relação à pesquisa sobre os princípios gerais da inteligência, parecia que se era seguido un caminho promissor. No início dos anos 60, Larry Roberts passou do estudo do reconhecimento e da simples classificação de figuras bidimensionais, em geral sob a forma de letras, típico do reconhecimento de padrões tradicional ao estudo da descrição de cenas a três dimensões, as que deve saber decifrar um robot. Isso implicava os difíceis problemas da identificação dos contornos de figuras sobrepostas, da distorção de perspectiva, da variação de intensidade luminosa e do tecelagem. Ele usou sólidos geométricos de diferentes formas representados nos seus programas pelas coordenadas dos seus vértices. O trabalho pioneiro de Roberts continuou no MIT com as explorações dos ensaiados mundos de blocos por Adolfo Guzman, David Waltz e Patrick Winston. Marr rejeitou a estratégia dos micromundos porque não podia ser extendida aos casos de cenas mais complexas como as da vida real. Além disso, julgou que a maioria destas pesquisas partilhava a filosofia da IA desses anos: para permitir a um sistema artificial de decifrar uma cena pensou-se em equipá-lo de representações e heurísticas, em suma de conhecimento especializado «de cima» que deveria ter utilizado para reconhecer os componentes da mesma cena. Ao contrário, a ideia de Marr, coerente com alguns resultados da pesquisa neurofisiológica, era que são as características físicas dos objectos e não os conhecimentos do sistema sobre os objectos que guiam «de baixo» a sua identificação nas duas primeiras fases da perceção visual que constituem a «visão primária». Na primeira fase o sistema tira de um objecto informações sobre as propriedades da imagem bidimensional, por exemplo relativas à variação de intensidade luminosa, obtendo um «esboço primário». Na segunda fase, com base deste esboço, o sistema elabora informações relativas esta vez à profundidade e à orientação do objecto, obtendo um «emboço a duas dimensões e meio». Só a elaboração deste último num «modelo a três dimensões» do objecto, a terceira fase ou da «visão alta», exige a intervenção dos conhecimentos gerais na posse do sistema que o guiam em identificar que tipo de objecto é presente na cena. Tommaso Poggio definiu «óptica inversa» o estudo deste processo de reconstrução de imagens tridimensionais a partir de imagens bidimensionais. No livro publicado póstumo, Visão Computacional, Marr afirmava que a teoria computacional da visão é interessada em primeiro lugar na identificação das restrições físicas e das funções (o que se quere computar), enquanto a escolha do tipo de representações e dos particulares algoritmos para manipulá-las (dos programas) interessam um outro nível de análise (como se efectua a computação). Para Marr, esta distinção correspondia à de Chomsky entre o nível de competência e o da prestação. O terceiro nível previsto por Marr é a implementação do algoritmo num hardware particular. Fig. 6. Interações entre as representações, os processos e a pesquisa neurofisiólogica segundo David Marr. A fig. 6, que resume as relações entre os vários níveles, permite, entre outros, de colher a relação de interação existente para Marr entre pesquisa neurológica e pesquisa sobre a IA. Os resultados da psicofisiologia e da neurologia podem afetar a escolha de particulares representações e algoritmos: uma interação que supera o mero distanciamento comumente teorizado pela IA. Com base desta proposta teórica geral, que ultrapassava os problemas colocados pela visão em sentido estrito, Marr criticou os principais protagonistas da IA dos anos 70: Winograd e os proceduralistas porque confundiam dois níveles, computacional e algoritmico (mesmo que eles o faziam deliberadamente, como vimos); Schank e Minsky porque trabalhavam exclusivamente nos mecanismos da representação, portanto ao nível algoritmico, esquecendo o computacional; Newell e Simon porque quando imaginavam de simular o comportamento humano na realidade o «mimavam» por procedimentos ad hoc, como dizia Marr, escolhendo também o nível errado. Muitas das críticas feitas por ele acabavam por abordar os pontos quentes da pesquisa da IA desses anos, em primeiro lugar a dificultade de representar o conhecimento com estruturas como os frames ou os scripts logo que se saía dos habituais micromundos: uma dificultade que, ultrapassando a disputa entre logicistas e antilogicistas, levantava o problema do conhecimento baseado no bom senso, verdadeira besta negra da IA, e que acabou para desencorajar Winograd em prosseguir as suas pesquisas. Velhos e novos projectos As críticas de Marr à simulação dos processos cognitivos tinham por objecto o livro de 1972, Resolução de problemas humanos , em que Newell e Simon tinham recolhido osresultados da sua longa pesquisa sobre o tema. Por um lado, os processos de solução de problemas de subjectos humanos, deduzidos dos protocolos verbais, eram estudados sob a forma de «microterias» simulativas (programas ou esquemas de programas que reproduziam estes processos com os maiores detalhes possíveis), por outro se definiam as linhas gerais de uma teoria geral da elaboração da informação, identificando uma noção de «sistema de elaboração da informação» (ou IPS) como «género» do qual homem e computador são duas «espécies» distintas. Enfim, se desenvolvia uma particular versão da ideia de «regra de produção» que na forma geral «SE condição, ENTÃO ação», especifica a condição na presença da qual ocorram uma ou mais ações. Incorporadas nos chamados «sistemas de produções», regras deste tipo foram amplamente experimentadas para representar o conhecimento nos sistemas expertos, a partir ao menos de MYCIN, um sistema experto no diagnóstico das doenças do sangue. Em 1975, Newell e Simon, na intervenção por ocasião do Prémio Turing, formularam uma hipótese que pode ser considerada como o aperfeiçoamento da do IPS: a «hipótese do sistema físico de símbolos», segundo a qual a condição necessária e suficiente para atribuir inteligência a um sistema, natural ou artificial, é a sua capacidade de transformar expressões simbólicas noutras por regras. Contudo, os interesses de Newell e Simon divergiam já há muito tempo. Newell continuou o trabalho sobre os sistemas de produção convencendo-se de que podiam sugerir uma arquitectura geral da inteligência. Achou que encontrou a confirmação em 1984, quando com John Laird e Paul Rosenbloom começou a implementação de SOAR, pensado como uma arquitectura única para cada tipo de tarefa: as tarefas eram formuladas sempre como pesquisa no espaço do problema. SOAR procede portanto selecionando e aplicando os oportunos operadores que transformam o estado inicial numa sucessão de estados que levam ao final, o objectivo o a solução do problema. Quando no curso deste processo se encontra um impasse devido, por exemplo, à dificultade de decidir qual operador aplicar, SOAR gera um subobjectivo cuja solução o libera deste impasse. Ele é adicionado sob a forma de nova regra à lista das regras e constitui um novo «pedaço» (chunk) de conhecimento que no futuro poderá ser utilizado donde se reproduz este impasse. O chunking é portanto um mecanismo de aprendizagem que gera novas regras, mesmo o único mecanismo de aprendizagem previsto pela arquitectura. O trabalho sobre SOAR, que como se vê retomava e em certos aspectos radicalizava muitos temas aos quais remontava a IA, absorveu Newell até a sua morte. Ainda é continuado pelo seu grupo, levantando muitas reservas no mundo da IA sobretudo no que respeita à utilidade de adoptar uma arquitectura unificada para a inteira actividade cognitiva. Para Simon, as questões relativas à arquitectura cognitiva não tiveram um interesse preeminente. Com diferentes colaboradores, ele continuou até a sua morte a experimentação sobre a simulação do comportamento humano, em particular usando os protocolos verbais. No mesmo tempo, aprofundou a análise dos processos da creatividade científica, por ele já definida como uma forma, mesmo que complexa, de actividade de solução de problemas. Com outros pesquisadores, como Gary Bradhaw e Patrik Langley, colaborou à construção de vários programas que redescobriam conceitos e leis de diferentes disciplinas científicas. Se trata principalmente de programas que utilizam heurísticas gerais ou fracas e bases de conhecimento reduzidas. BACON representa o caso extremo, muito próximo do GPS: redescobre as leis de Kepler através de métodos gerais que identificam regularidades presentes nos dados disponíveis sem fazer referência nem ao seu significado nem à nenhuma hipótese sobre a sua estrutura. Se consideramos DENDRAL um programa para a descoberta, devemos colocá-lo ao outro extremo. Um programa que, de certa forma, se coloca numa posição intermédia, embora oscilante, entre BACON e DENDRAL é AM (Automated Mathematician), desenvolvido na área da descoberta matemática de Douglas Lenat em meados dos anos 70 em Stanford. Com efeito, a inspiração originária de Lenat parecia nos antípodas dos sistemas expertos. Lenat se propunha de «cortar o cordão umbilical» que relaciona o programa ao experto humano (o problema da engenharia do conhecimento) para ver se, ou em que medida, o programa era capaz de aprender incrementando gradualmente os conhecimentos a partir de uma base de conhecimento geral. Esta base de conhecimento era bastante rica e, sem ser comparável à de um típico sistema experto, estava muito longe da austeridade de BACON. O objectivo era de aproximar-se, sublinhava Lenat, «do ideal do intercâmbio entre generalidade e potência»: quase uma referência, esta vez, à filosofia originária dos autores de DENDRAL. Heurísticas deste tipo tornaram o programa capaz de «redescobrir» numerosos conceitos matemáticos, chegando a formular a conjectura de Goldbach, que introduzia depois de ter «redescoberto» os números primos. Lenat notou que uma das razões fundamentais que impedia AM de fazer outros progressos consistia na sua incapacidade de introduzir, ou «aprender», novas heurísticas. Mudado-se para a Carnegie-Mellon, ele se dedicou a um novo programa, EURISKO, que tivesse regras que o permitissem de introduzir não só novos conceitos, no estilo de AM, mas também novas regras heurísticas, ou «metaheurísticas». A ideia de um metanível onde representar as regras que o programa pode utilizar para decidir quais regras do nível objecto aplicar ou em que ordem, pode ser vista como a evolução da ideia de controle através das heurísticas da primeira IA. Esta oportunidade foi experimentada em sistemas como TEIRESIAS e SOAR. Noutros casos, como no sistema FOL de Richard Weyhrauch, o conhecimento metateórico é transferido ao nível da teoria objecto por «princípios de reflexão» para tornar mais eficiente a geração das demonstrações. Falar de reflexão e autoreferência leva inevitavelmente a pensar à consciência, à parte algumas speculações sobre possíveis arquitecturas reflexivas, a IA ainda não produziu resultados apreciáveis. Nem a abordagem de EURISKO tive o sucesso esperado. Lenat discutiu sem escrúpulos os limites de AM e EURISKO. Finalmente concordou com as conclusões críticas a que chegou Feigenbaum quanto aos sistemas expertos: eles faltam do conhecimento geral que caracteriza o bom senso, assim que as suas prestações, baseadas em conhecimentos especializadas, degradam rapidamente. Com base desta constatação, em 1984 Lenat iniciou o programa CYC (enCYClopedia), um projecto a longo prazo tão ambicioso que deixa muitos céticos quanto à sua completa exequilibidade. CYC deveria ser equipado com uma base de conhecimento deduzida de um certo número de entradas de uma enciclopédia e dos conhecimentos gerais do bom senso pressupostos na compreensão destas entradas. O objectivo (quase a realização do sonho de McCarthy) é dar ao programa todo o conhecimento do bom senso necessária para a compreensão de qualquer outra entrada da enciclopédia. Inicialmente, em CYC se interessou a MCTC (Microelectronics and Computer Technology Corporation), um consórcio nacional que deveria ter preparado a resposta americána ao projecto japonês dos computadores «superinteligentes» da quinta geração programados com o PROLOG (iniciado em 1982 com 855 milhões de dólares atribuidos em dez anos, este projecto foi drasticamente redimensionado). Mais tarde, representando a esperança numa geração de sistemas expertos de concepção completamente nova, CYC suscitou o interesse de diferentes empresas comerciais que atribuiram num primeiro momento um financiamento de 25 milhões de dólares. Em SOAR a aprendizagem desempenha um papel central. AM e EURISKO são programas que aprendem através da escoberta. São apenas alguns exemplos de como no início dos anos 80 a aprendizagem é um tema preponderante na pesquisa sobre a IA, depois de um longo periódo em quenão foi objecto de explorações sistemáticas. A nova tendência é testemunhada pela coleção Machine Learning (1983) de R.S. Michalski, J.G. Carbonell e T.M. Mitchell, tornada mais tarde uma publicação que documenta periodicamente a extensa variedade das propostas actuais sobre a aprendizagem automática. As arquitecturas: ciência cognitiva e neoconexionismo A hipótese do sistema físico de símbolos não caracteriza certamente de modo homogéneo a empresa da IA. Considerada sempre, dentro e fora do mundo da IA, um excesso radical ou um acto de fé ou uma utopia, no entanto ela resumiu as aspirações originária da IA como ciência da mente e afectou, talvez em formas diferentemente enfraquecidas, a evolução de uma nova disciplina: a ciência cognitiva. Esta teve a sua consacração à Conferência de San Diego, organizada em 1979 pela Cognitive Science Society, que publicava a rivista oficial da Sociedade há já dois anos e tinha generosos financiamentos pela Sloan Foundation. À Conferência participaram psicólogos, linguistas e filósofos, além de Minsky, Newell, Shank, Simon e Winograd: na ciência cognitiva, com efeito, eram íncluidas muitas das ambições da Information Processing Psychology e da IA como ciência da mente, ao ponto de Simon, intervindo à Confêrencia, chegava a antedatar a 1956 o nascimento da ciência cognitiva. A nova disciplina devia obter um espaço autónomo nas suas relações com a IA. Dois livros, publicados quase ao mesmo tempo por Zenon Pylyshyn e Philip Johnson-Laird, tentam a empresa. Há algumas coisas partilhadas pelos dois autores com a maioria dos pesquisadores do campo. Ambos apoiam a ideia geral da cognição como computação de estruturas e símbolos e recusam a metodologia do teste de Turing porque com ela é considerada só a prestação sem levar em conta os processos cognitivos. Além disso, ambos se levantam o problema, de pontos de vista diferentes, de quais restrições impor à arquitectura cognitiva ou aos processos cognitivos: por exemplo, os limites de memória, os erros na solução de problemas, os tempos de prestação. Mesmo que a simulação do comportamento é considerada «mímica» no senso de Marr, nestas teses se detecta a herença da Information Processing Psychology dos velhos tempos. Quanto ao resto, a abordagem de Pylyshyn é muito diferente da de Johnson-Laird. Pylyshyn estabelecia uma distinção entre os processos «cognitivamente penetráveis» e os «cognitivamente não penetráveis» relativas à arquitectura cognitiva. Mesmo que com um pouco de incerteza, Pylyshyn parecia mover-se na direção de Marr e de Chomsky, já levada às extremas consequências na conceição da mente apoiada nesses anos por Jerry Fodor. Ele propôs uma arquitectura funcional da mente donde se distinguem os sistemas da percepção e da linguagem, descritos como módulos não afectados por crenças e conhecimentos, por os sistemas «centrais», responsáveis dos processos cognitivos superiores, por exemplo da solução de problemas. A ciência cognitiva, como ciência computacional da mente, pode ocupar-se só dos primeiros, enquanto os centrais, sendo cognitivamente penetráveis, ou seja afectados por crenças e conhecimentos, as tornam inaccessivéis: se explicam assim os fracassos da IA, que teve a ilusão de conseguir representar os processos centrais com estruturas de dados como os frames ou os scripts. Ao contrário de Pylyshyn, Johnson-Laird elaborava a noção de uma nova estrutura de dados em que representar de forma analógica os conhecimentos e as expectativas, também subjectivas, dos seres humanos: a dos «modelos mentais», que ele começou a experimentar no raciocinio silogistico. Além disso, extendia os seus interesses à argumentos aos quais Pylyshin e muita ciência cognitiva da época eram alheios: o papel da componente emocional na cognição o da consciência, argumentos voltados em primeiro plano na pesquisa. Mas já Pylyshyn contestava no seu livro a validade de propostas de «novas arquitecturas da cognição», alternativas às inspiradas da hipótese da elaboração simbólica, propostas pelo chamado «novo conexionismo». Pylyshyn se referia à coleção publicada em 1981 por James Anderson e Geoffrey Hinton, Modelos paralelos de memória asociativa, que anunciava a recuperação em grande escala das redes neurais. Anderson e com ele Teuvo Kohonen, Stephen Grossberg e outros pesquisadores já recordados, não interromperam a pesquisa sobre as redes neurais. Além disso, mais de uma proposta formulada pela IA, por exemplo o mecanismo de «activação distribuida» da memória semântica de Quillan, tinha inspirado modelos com um certo paralelismo. Mas ao menos dois eventos deviam iniciar uma verdadeira vingança de Rosenblatt. Em 1982, em Neural Networks and Physical Systems with Emergent Collective Computational Abilities, John Hopfield monstrava como as redes neurais podiam funcionar como memórias asociativas. Em 1986, David Rumelhart e os seus colaboradores publicavam uma série de pesquisas ( Parallel Distributed Processing, Explorations in the Microstucture of Cognitions) inspiradas numa abordagem de «elaboração distribuida em paralelo» (PDP) da informação que monstravam como um algoritmo de aprendizagem por correção do erro, já conhecido como retro-propagação, permitia de superar as principais limitações das redes neurais demonstradas por Minsky e Papert no livro de 1968. Elas se demonstravam tais só para as redes a uma camada interna, como o Perceptron simples recordado, e não para as redes não lineares a mais camadas. Em meados dos anos 80 remonta também a realização de grandes computadores a arquitectura paralela a fim de superar os limites da elaboração serial da informação típica dos computadores com arquitectura de von Neumann: a connection machine de David Hillis é o exemplo mais conhecido. Computadores deste tipo, como os do projecto APE guiado pelo físico Nicola Cabibbo, conheceram diferentes aplicações no mundo da pesquisa. A inteligência artificial e os enigmas da mente As novas redes neurais de Hopfield, tornadas objecto de estudo dos físicos, se rencontraram na familha dos sistemas dinámicos complexos, a começar pelos vidros de spin, actualmente um dos argumentos principais da física. Além disso, elas conheceram diferentes aplicações em problemas de optimização na teoria da complexidade computacional. No clima de uma atenção renovada para as neurociências, o livro do grupo PDP levantou reações de euforia sobretudo no mundo dos psicólogos cognitivos e dos filósofos, provocando entre os primeiros diferentes conversões ao conexionismo e entre os segundos uma recuperação do materialismo reducionista, tradicional adversário filosófico do funcionalismo. Os filósofos defensores do materialismo reducionista, como Herbert Feigl, J.C. Smart e D.M. Armstrong, propuseram entre os anos 50 e 60 a teoria da identidade mente-cérebro segundo a qual um estado mental deve ser identificado com o estado cerebral correspondente. Críticas a esta teoria foram formuladas sobretudo depois da publicação, em 1960, do influente artigo de Putnam Mentes e máquinas. O facto que os estados internos de uma máquina de Turing podiam ser implementados em hardware diferentes sugeriu a Putnam que também os estados mentais podiam ser realizados em sistemas físicos diferentes, não apenás orgânicos, como o cérebro, mas também inorgânicos, como um certo hardware de um computador. Portanto, não fazia sentido identificar estados mentais com estados cerebrais e as proposições psicológicas podiam ser entendidos fazendo referência não à sua realização ou instanciação física, que podia ser sempre diferente, mas à sua organização funcional comum, ou seja às suas interações recíprocas. Resumindo, era esta a hipótese do funcionalismo inspirado na máquina de Turing. Ela era coerente com a ideia afirmada com os desenvolvimentos da ciência dos computadores e da primeira IA, segundo a qual os processos da inteligência podem ser estudados ao nível do programa (da manipulação de símbolos) abstraindo da natureza específica da estrutura observável ao nível físico. Contudo,o funcionalismo que tornou-se a filosofia popular entre os pesquisadores de IA e após de ciência cognitiva teve uma evolução e às vezes é conhecido como funcionalismo computacional. Uma contribuição importante nesta direção foi de Newell (1980-1982). Retomando a hipótese do sistema físico de símbolos, ele introduziu um tercero nível de descrição de um sistema artificial, o nível do conhecimento, que colocou sobre os dois tradicionais níveis teorizados pela IA, físico (ou do hardware) e do programa (ou dos símbolos). O reconhecimento do nível do conhecimento na hierarquia dos níveis de descrição de um sistema representava a explicitação de uma prática comum entre os pesquisadores de IA: descrever um sistema artificial como um agente racional que elabora conhecimentos para planear ações para atingir certos objectivos. A identificação deste nível não tem nada a ver com as distorsões provocadas pelo abuso desta prática denunciadas por McDermott (1976). Como vimos, foi a cibernética a introduzir a linguagem psicológica na descrição do comportamento de certos artefactos. Daniel Dennett (1942) retomou esta idéia já desenvolvida pela filosofia da mente de matriz cibernética, em particular por MacKay, para dar uma solução ao problema da intencionalidade. Com a proposta do «comportamento intencional», ele considerou que podia superar a tese do filósofo Franz Brentano sobre a incompatibilidade entre explicação mecanicista, que se refere ao mundo físico, e explicação intencional, que se refere exclusivamente à esfera do mental. Para Dennett, o comportamento intencional, por outras palavras a escolha de um observador externo de descrever um sistema como intencional através da linguagem psicológico o «da mente» é legítimo, mesmo indispensável, para controlar e prever o comportamento de sistemas não apenas naturais ou orgânicos, como os seres humanos ou os animais, mas também físicos ou artificiais, como um computador ou um robot. Quando se joga xadrez com um computador, por exemplo, é evidente asumir o comportamento intencional para prever as suas jogadas. Com efeito, se diz que ele tem um certo «plano» ou que tem o «objectivo» ou a «intenção» de derrotar o adversário e assim por diante. A proposta de Dennett tornou-se muito popular entre os pesquisadores de IA e de ciência cognitiva. O mesmo Newell pensou que o nível do conhecimento correspondia ao nível do comportamento intencional de Dennett: no fundo, ambas as noções deviam muito à descrição do comportamento racional dada por Simon muitos anos antes. Newell, contudo, sempre fazendo referência ao sistema físico de símbolos, elaborou uma sua proposta sobre o significado e a intencionalidade que se presentava como um acomodamento da concepção do significado predominante em IA. Do ponto de vista dele, a manipulação sintática (através de regras) das expressões simbólicas por um sistema artificial podia ser considerada semântica porque é representacional, a saber que as expressões referem-se a eventos do mundo porque, com base de regras, são transformadas no mesmo modo em que transformam os eventos do mundo. Asumindo esta hipótese com base da que Newell definia a «concepção computacional da mente», a mesma mente era considerada, retomando uma expressão de Dennett, um «dispositivo sintático» que imita ou reproduz o funcionamento de um «dispositivo semântico». No livro recordado, Pylyshyn presentava o nível do conhecimento de Newell assim como um nível semântico da atribuição de significado às estruturas de símbolos que representam o nível sintático, intermédio, também aqui, entre o semântico e o da realização física. Se poderia discutir se as três noções de Dennett, Newell e Pylyshyn são efectivamente equivalentes a nível explicativo. Contudo, foi Pylyshyn, seguindo Fodor, a retomar o funcionalismo computacional com a intenção de explicar alguns enigmas do problema mente-cérebro discutidos pelo behaviorismo e pelo materialismo reducionista. Com efeito, Pylyshyn (1984) tentava a difícil empresa de conciliar as ideias de Fodor com as de Newell. Em relação ao comportamento intencional de Dennett, que é uma pura e simples questão de escolha do observador do sistema (natural ou artificial), a atribuição de intencionalidade ao nível semântico de Pylyshyn é justificada pela capacidade própria do mesmo sistema de elaborar estruturas de símbolos, uma capacidade considerada típica das mentes e dos programas. Iso parece excluir que simples artefactos como os da tradição cibernética exigem necessariamente uma descrição intencional. Por exemplo, como pode um «objectivo» ou uma «intenção» pertencente para Brentano à esfera do mental ser a causa de um evento físico, como uma ação (ou uma sucessão de ações) destinada a conseguir-las? Quando pensamos na mente como ao «dispositivo sintático» recordado, o computador sugere como isto é possível: neste caso, é a forma física das representações como estruturas de símbolos fisicamente realizadas ou instanciadas e não o significado ou o conteúdo intencional das mesmas representações que desempenham o papel causal do comportamento. O conteúdo de uma representação poderia também não existir (por exemplo, o objectivo da busca do Santo Graal), contudo a forma ou estrutura da representação poderia desempenhar o papel causal exigido. No caso da mente, as estruturas de símbolos devem ser assumidas instanciadas no cérebro. A acusação de dualismo (de separar o mental do físico) feita muitas vezes a este tipo de funcionalismo é injustificada, visto que, como se vê, ele quer tentar uma solução materialista, mas não reducionista, do papel causal dos estados mentais. Pelo contrário, sem ser dualista, o funcionalismo computacional da maioria da IA não considera crucial a natureza biológica da estrutura física na qual se realizam os estados mentais. É esta tese, com a do papel causal dos símbolos para a intencionalidade, que foi objecto de críticas diferentes. John Searle afirmou que o papel causal das representações simbólicas é um simples artifício visto que a intencionalidade manifestada por um programa é «derivada» do cérebro do seu criador (do programador), o único capaz de ter intencionalidade «originária». Esta tese foi uma das mais discutidas tanto em IA como en ciência cognitiva. O filósofo John Lucas, no entanto, tinha levantado já nos anos 60 objeções ao mecanismo inspirado na máquina de Turing, que podem ser reconduzidas às teses da incapacidade das máquinas de manipular a semântica e de manifestar «vera» (ou «originária») intencionalidade. A tese de Lucas (inspirada nos teoremas sobre a incompletude de Gödel) foi retomada pelo físico Penrose. Uma outra crítica à filosofia da IA e da ciência cognitiva, já definidas «clássicas» ou «simbólicas», foi da recuperação do materialismo reducionista. Como foi referido, ela verificou-se em consonância com o renovado interesse pelas neurociências solicitado pelo conexionismo. Neurophilosophy, o livro de Patricia Smith Churchland se propunha de refutar a versão do funcionalismo computacional considerada mais radical de Pylyshyn. Para Churchland, a tripartição dos níveis de explicação (semântica ou do conhecimento, simbólico ou físico) é uma explicação inaceitável baseada numa «distinção monolítica» entre estrutura e função: em realidade, o seu número não pode ser abstractamente delimitado antecipadamente, dada a multiplicidade dos níveis identificados pela busca efectiva das neurociências. Além disso, a compreensão da estrutura biológica (do cérebro) pode sugerir, e sugere, teorias da organização funcional. Por fim, é só um dogma que as representações devem ter uma forma simbólica para poder desempenhar o alegado papel causal na intencionalidade. A «neurociência computacional» de Churchland e Sejnowski ( The Computational Brain, 1992) faz sua esta posição crítica. Pylyshyn, por outro lado, na Conferência da Cognitive Science Society de 1984 se viu confrontado com Hinton e Rumelhart durante um simpósio dedicado a Conexionismo e regras que consagrou a divisão entre os defensores daabordagem conexionista e da «simbólica» da ciência cognitiva e da IA. Mais tarde Pylyshyn escreveu com Fodor um longo ensaio em que se argumentava que as redes neurais não são capaces de reproduzir as caracteristicas fundamentais dos processos inferenciais e devem ser vistas semplismente como uma possível arquitectura abstracta na qual poder implementar os sistemas simbólicos à arquitectura clássica ou de von Neumann. Esta tese, na qual quase não houve pesquisador que não encontrou a maneira de pronunciar-se, permaneceu um ponto de referência das críticas principais ao conexionismo. Uma exposição parcial da disputa é dada por Bechtel e Abrahamsen ( Connectionism and the Mind , 1991), que introduzem também os argumentos principais da filosofia da mente de inspiração conexionista. As orientações da pesquisa desde o final dos anos 80 Ao final dos anos oitenta, o mundo da pesquisa sobre a mente e as máquinas se presenta extremamente dividido. Em 1987, no workshop sobre os fundamentos da IA que se realiza no MIT se confrontam as tendências mais influentes da IA com uma série de relações muito controversas. A rivista «Artificial Intelligence» as publicava em 1991, e David Kirsh, em Foundation of Artificial Intelligence (1991), resumiva eficazmente em cinco pontos as teses principais sobre as quais se confrontaram e se dividaram os participantes no workshop. Eles eram: a centralidade das regras e da representação do conhecimento; a desencarnação, ou seja o estudo da cognição abstraindo da percepção e do controle motório; o carácter linguístico (em primeiro lugar lógico-matemático) da descrição da actividade cognitiva o estudo da actividade cognitiva abstraindo da aprendizagem, do desenvolvimento cognitivo e das mudanças evolutivas; a unicidade da arquitectura para a inteira cognição. Para Kirsh, entre os diferentes participantes no workshop, os logicistas, interessados nas teorias formais do bom senso e das crenças, acceptam as primeiras quatro suposições que, pelo contrário, são rejeitadas pelos conexionistas; ambos, no entanto, permanecem neutrais sobre a quinta suposição. A unicidade da arquitectura é chamada à atenção pelo grupo de SOAR com a centralidade da aprendizagem no estudo da cognição. Estes dois pontos não constituem as premissas do projecto CYC. Outros programas de pesquisa podem encontrar-se em qualquer das cinco suposições: por exemplo, a chamada «IA distribuida», reproposta no workshop por Hewitt e Les Gasser de pontos de vista diferentes, ou a robótica de Rodney Brooks. A IA distribuida, nada oficialmente na Conferência americana a ela dedicada em 1980, teve atrás a evolução dos sistemas blackboard (quadro negro), uma base de dados partilhada por diferentes módulos cooperantes para conhecimentos especializados. HERSAY II, projectado nos anos 70 à Carnegie-Mellon como sistemas para o reconhecimento da fala, ainda é considerado um dos exemplos mais bem sucedidos deste tipo de arquitecturas, também esperimentadas em alguns sistemas expertos. A IA distribuida insistiu no aspecto cooperativo da gestão do conhecimento, mas também na dimensã social do conhecimento e da ação, pontos tanto importantes como neglicenciado pela pesquisa anterior. No workshop, Gasser discutia a efectiva novidade da proposta de Hewitt que dava uma formulação da IA distribuida que fazia referência aos seus «sistemas abertos», assim chamados porque, para fazer frente às informações parciais disponíveis, devem cooperar colectivamente também aplicando diferentes critérios e estratégias de solução de problemas. Por sua parte, Brooks, com a lema «conhecimento sem representação», resumiva no workshop a filosofia implícita nos novos robots que ele construiu no MIT. O objectivo polémico da lema de Brooks era a abordagem chamada «para cima» à robótica, que favorece as capacidades deliberativas (raciocinio, planeamento) e a representação do conhecimento, colocando em segundo plano a integração destas capacidades com as diferentes modalidades motor-sensoriais. A abordagem para cima sugeriu a muitos pesquisadores de IA que o problema da interação de um robot com o ambiente real podia ser resolvido quando se fosse encontrada a maneira de lhe fornecer um adecuado modelo do mundo. Por outras palavras, se tratava de estudar em primeiro lugar como representar num programas os conhecimentos que teriam permitido ao robot, controlado por esse programa, fazer inferências e planear as suas ações num ambiente real. Vimos come esta abordagem fazia frente às dificultades testemunhadas pelas modestas prestações de robots como Shakey cujas construção nunca conheceu verdadeiros progressos. A «arquitectura da subsunção» proposta por Brooks para os seus robots se candidatava explicitamente como alternativa a este tipo de robótica. Esta arquitectura permitiu construir robots móveis que manifestam comportamentos «autónomos»: eles tem uma boa dote de robustez, sendo capaces de reagir eficazmente à situações não previstas ou não previsíveis e são capaces de fazé-lo em tempo real, ou seja sem que é necessária uma complexa actividade de planificação das respostas. Na arquitectura da subsunção o agente é visto como composto por níveis ou módulos de controles funcionalmente distintos mas interconectados que agem sem a supervisão de um sistema de controle e de planificação da ação baseado num modelo do mundo. Neste caso, um nível ou módulo de controle de baixo nível, relativo a um comportamento reactivo (portanto funcionante através de contínuas retroações ou feedbacks com o ambiente) é interligado com um módulo de um nível mais alto que controla um comportamento mais complexo de modo que um modulo pode activar ou inhibir um outro módulo. Por exemplo, Allen, o precursor desta geração de «criaturas», como Brooks chamava os seus simples robots, é capaz de continuar a evitar pessoas e obstáculos diferentes (uma tarefa de baixo nível essencialmente reactivo) enquanto vaga no ambiente para alcançar um objectivo atribuido (portanto uma tarefa de um nível mais alto). Brooks chamou esta abordagem «decomposição do comportamento», para o distinguir da «decomposição funcional» proposta pela robótica de Shakey, consistente em separar os papeles da percepção, da planificação e da ação. Não é portanto um «modelo do mundo» a guiar a ação do robot: esto, usando as palavras de Brooks, «usa o mundo como próprio modelo», confrontando continuamente cada objectivo com a situação do mundo real. Entre as abordagens ao estudo da inteligência apresentadas no workshop, a de Brooks era a mais radical: ela rejeitava todas as cinco suposições listadas por Kirsh que levantava a Brooks um problema que se coloca quase espontaneamente: quanta (que tipo de) inteligência se pode reproduzir sem representações simbólicas, sem capacidade de planificação e deliberativas? Se ao final dos anos 80 a IA é não menos divida do que habitual sobre quase todos os problemas fondamentais, os defensores do alegado «paradigma conexionista» tem que fazer frente nesses mesmos anos à ressaca habitual que acompanhou pontualmente as chamadas mudanças de paradigma na história da construção de máquinas inteligentes. Como nos tempos do Perceptron, os modelos conexionistas continuam a dar o seu melhor na reprodução de actividades elementares, como reconhecimiento de padrões, classificação, aprendizagem para associação, e pouco ou nada de importante realizam na reprodução de actividades cognitivas «altas», como o raciocinio baseado em inferências. Em 1989, na New Mexico State University se realizou um workshop sobre os modelos conexionistas de alto nível, a primeira séria tentativa de fazer frente aos limites do conexionismo rediscutindo os seus fondamentos com uma comparação finalmente não polémica com o «paradigma simbólico», como já é chamada a abordagem da IA tradicional. Um possível vademecum dos méritos e dos limites das duas abordagens foi editado por Michael Dyer, e se pode dizer que ainda mantem uma sua validez. As propostas da sua integração recíproca, em certos casos sob a formade sistemas conexionisticos-simbólicos chamados «híbridos», foram nessa ocasião as mais diferentes e tendiam a acentuar o papel desempenhado em positivo por ambas abordagens. Estas propostas tiveram a ambição de sugerir novos modelos cognitivos e também de abordar o problema do symbol grounding, como o psicólogo Steven Harnad definiu a questão de como «ancorar» os símbolos aos aspectos da percepção do mundo. Portanto, elas devem ser distintas de outras propostas de sistemas também classificáveis como híbridos mas com objectivos de tipo mais aplicativo: nestes casos se asocia uma rede neural a um sistema experto para reduzir a escassa robustez das prestações deste último na presença de dados incompletos. Se estas abordagens híbridos tentavam fazer frente ao problema dos limites do conexionismo com capacidades cognitivas superiores, nesses mesmos anos uma nova disciplina suscitou entre os críticos da IA tradicional – «clássica» ou « «simbólica » ou quiserem – a esperança de conseguir investigar em outros aspectos ignorados também pelo conexionismo, esta vez entre os não cognitivos: o desenvolvimento e a evolução biológica, por exemplo, considerados no quadro da interação dinámica entre sistema e ambiente. Se trata da Vida Artificial. O nome foi proposto por Cristopher Langtom, que em 1987 propõe em Los Angeles o workshop interdisciplinar sobre a sintese e a simulação dos sistemas viventes que além de lançar a Vida Artificial relançava uma palavra chave dos tempos da cibernética um pouco manchada ao longo dos anos: interdisciplinar. Na sua premissa no workshop (Vida Artificial, 1989) Langton considerava o «comportamento emergente» a ideia chave da Vida Artificial: ela tem como objectivo de reconstruir artificialmente as propriedades da organização dos sistemas viventes a partir da reprodução das interações locais na base do seu comportamento. A Vida Artificial tornou-se um ponto de encontro de pesquisadores com interesses também muito heterogéneos, da simulação da evolução biológica aos automas celulares e, em geral, ao Animat como Stewart Wilson chamou tanto a simulação em ambientes virtuais como a realização em ambientes reais de criaturas artificiais das quais os «veículos» de Valentino Braitenberg e, atrás no tempo, as tartarugas cibernéticas de Grey Walter são consideradas os precursores. Como a abordagem da nova robótica, também a da Vida Artificial foi definida «de baixo» porque ambas, mesmo que de pontos de vista diferentes, colocaram no centro da atenção o estudo dos mecanismos mais elementares ou primares da interação entre o sistema (organismo ou Animat) e ambiente. Em realidade, em ambos os casos sistema e ambiente são considerados como as componentes de um único conjunto: uma concepção que encontrou a chegada mais coerente e geral na teoria dos sistemas dinámicos apoiada em particular por Tim van Gelder. Uma das teses que caracterizam esta abordagem é que o mecanismo essencialmente denotacional das representações, típico dos modelos computacionais clássicos, não é capaz de colher a complexidade das relações recíprocas entre sistema e ambiente: neste caso o papel decisivo é desempenhado pela matemática que descreve a evolução dos sistemas complexos. Prototipo elementar dos sistemas dinámico é uma máquina cibernética já recordada que pode ser efectivamente considerada o precursor destes sistemas, o homeostato de Ashby. Deveria ser uma máquina deste tipo a detronizar a máquina de Turing do papel de modelo geral da cognição. Convergentes com as abordagens recordadas se demonstraram os desenvolvimentos no ámbito da Visão Artificial depois de Marr, os da Visão Animada. Esta última se inspirou na concepção «ecológica» da percepção visual apoiada pelo psicólogo James J. Gibson, que insistiu na assimilação directa, ou seja não mediada por representações, proveniente da informação do mundo pelo organismo. Como vimos, foi próprio Marr a contestar a abordagem para cima da IA à percepção visual, no momento em que ele chamava a atenção os mecanismos da visão primária. Contudo, Marr não punha em causa a hipótese computacional-representacional, rejeitando nesta base as teses anti-representacionais de Gibson. A abordagem de Marr, baseada na ideia que a reconstrução tridimensional da cena (a partir de imagens bidimensionais elaboradas pela visão primária) fosse a chegada final do processo visual, pareceu insuficiente. Dana Ballard concluia que Marr se limitava ao estudo de sistemas de visão estáticos e passivos sem considerar os aspectos activos da percepção visual. Para Ballard, há que ter em conta destes aspectos subjacentes à estreita relação que o agente mantem com o mundo e se há que falar de um tipo de representações então se trata de representações «personais», ou seja colocadas em contextos e relativas ao interesse do observador. São os objectivos deste último a orientar o processo visual. Uma outra linha de pesquisa de longa tradição muitas vezes reconduzida às abordagens de baixo é representada pelos algoritmos genéticos. Deixámos John Holland nos tempos da sua colaboração com Rochester nos anos 50 quando eles simulavam no computador a teoria da aprendizagem de Hebb. Mudado-se mais tarde para a Universidade do Michigan, Holland teve a ideia dos algoritmos genéticos na primeira medade dos anos 60, afectado, entre outros, pelo livro do biólogo evolucionista Fisher, Teoria genética da seleção natural. A sintese das suas ideias foi colocada no livro publicado em 1975 Adaptação em Sistemas Naturais e Artificiais. A partir desse momento, durante quase uma década os algoritmos genéticos foram objecto de muitas pesquisas à margem da comunidade da IA, sobretudo teses de doutoramento de estudantes de Holland e relações a conferências informais, às vezes mesmo publicado. O renovado interesse por eles se deve à diffusão do paralelismo e do estudo dos sistemas dinámicos complexos mas também a desenvolvimentos interessantes que marcou a sua evolução mais recente, por exemplo no estudo do desenvolvimento prebiótico. Os algoritmos genéticos representam um modelo fortemente idealizado dos processos da seleção natural. Eles partem gerando por acaso uma população de cadeias correspondente aos genótipos de evolução natural, cada uma das quais representa uma possível solução a um determinado problema. Esta população é feita evoluir aplicando operadores baseados em critérios de recombinação que simulam os processos genéticos da evolução natural. Assim, cadeias «progenitoras» geram outras que representam novas soluções para o problema, possivelmente melhores. Mais tarde, os algoritmos genéticos foram inseridos nos «sistemas a classificadores», verdadeiros sistemas de aprendizagem automática nos quais Holland retomou algumas intuições contidas no velho programa para a dama de Samuel. O fluxograma de um sistema a classificadores é representado na figura 7. Fig. 7 Organização de um sistema clasificador Se asocia a cada regra do sistema, codificada como uma regra de produção, uma certa «força», que corresponde à sua jà experimentada utilidade para a solução de um problema. A cada ciclo os «relevadores» adicionam do ambiente cadeias na «lista das messagens» codificadas como cadeias de um alfabeto binário que são comparadas com as condições da «lista das regras». As regras cujas condições são satisfeitas activam a parte ação e são postas em concorrência por um algoritmo que pode mudar a força em função da utilidade complexiva para a adaptação do sistema ao ambiente. Aqui intervém o algoritmo genético que seleccionam as regras de força mais elevada para tomar-las como progenitoras e gera uma «prole» de novas regras. São assim eliminadas as regras mais fracas e são criadas novas e sempre potencialmente melhores. A nova IA Ao final do século 20, a IA está em vias de atingir os cinquenta anos de história. Ao lado da IA clássica ou simbólica já há uma outra chamada «nova» que inclui os desenvolvimentos das tendências da IA que vimos emergir da crescente diversificação da pesquisa entre os anos 80 e 90:das redes neurais aos sistemas dinámicos, da Vida Artificial aos algoritmos genéticos, da robótica de Brooks à Visão Animada. O livro de Pfeifer e Scheier Entendiendo Inteligência (1999) resume muito bem a filosofia desta nova IA. Se o conexionismo, com a sua crítica ao funcionalismo computacional, parecia ter chamado a atenção de pesquisadores de IA e ciência cognitiva sobre o «cérebro», agora é a vez do «corpo»: a nova IA toma portanto uma clara posição, em particular sobre o segundo ponto proposto por Kirsh no workshop de 1987, a desencarnação, apresentando-se sem reservas como encarnada ou «colocada» (as duas palavras são frequentemente utilizadas no mesmo contexto). Por um lado, a leção de neurólogos como Antonio Damasio, que insistem no papel principal das componentes emocionais na actividade cognitiva parece levar a água ao moinho da encarnação, por outro lado um filósofo como Dreyfus, que sempre insistiu no carácter colocado da cognição e na centralidade do corpo, torna-se o defensor da IA nova contra a velha, clássica ou simbólica, já chamada GOFAI (um acrónimo de John Haugeland: A boa e velha intêligencia artificial). Esta é identificada com o funcionalismo computacional e considerada envolvida no dualismo mente-corpo de memória cartesiana (na versão software-hardware). Talvez a robótica, depois do impulso dado por Brooks, constitui a sua área mais interessante e promissora. Mas importa recordar que a robótica de Brooks viu-se confrontada logo a problemas difíceis. Um deles diz respeito ao sistema de controle em robots baseados na arquitectura da subsunção. Como sabemos, a ideia da subsunção é de atribuir a cada comportamento um modulo de controle. Mas a concepção de uma arquitectura deste tipo baixa o crescimento exponencial da dificultade de integrar eficazmente os modulos à medida que estes são adicionados para obter prestações mais complexas do robot. Os sucessos dos primeiros robots podem ser explicados com a relativa simplicidade das suas prestações. De dificultades deste tipo começou a robótica evolutiva que utilizou os algoritmos genéticos como procedimento automático para desenvolver de modo evolutivo o sistema de controle de um robot, simulado ou real, durante a sua interação com o ambiente esterno (neste caso os modulos de controle estão para os genotipos). Concepção evolutiva baseada em métodos inspirados em algoritmos genéticos e fabricação automática de robots estão na base de uma abordagem entre Vida Artificial e nova robótica, inspirado em Jordan Pollack. Se trata esta vez de fazer conceber a um programa para computador, com base de elementos iniciais elementares (como alavancas e juntas, mas também redes neurais), diferentes gerações de simples robots móveis, fazendo-las «evoluir» num ambiente virtual de forma a eliminar progressivamente os projectos menos eficientes e melhorando os mais adaptados ao ambiente (en termos de maior capacidades locomotoras). Por fim, estes são realizados automaticamente. A autonomia, objectivo da nova robótica, é portanto extendida do nível do comportamento aos da concepção e da fabricação. Nesta óptica, se trata de construir minimizando a intervenção do homem, um objectivo com potenciais aplicações de grande escala. Voltando a Brooks, importa acrescentar que o mesmo panorama das pesquisas realizadas fora da robótica inspirada nele evoluiu muito desde os tempos da abordagem para cima dos anos 70. Desde há muito tempo ninguém (também graças à leção de Brooks) já tem em mente construir robots baseados na clara distinção entre componente perceptiva e deliberativo e no predomínio da planificação centralizada. Algumas pesquisas de robótica independentes de Brooks já experimentaram sistemas de representação do conhecimento «híbridos». Nese caso, representações analógicas (do tipo dos modeles mentais de Johnson-Laird) suprivam a rigidez das representações simbólicas no processos de concepção de robots em ambientes simulados ou reais (sistemas «híbridos» de representação do conhecimento foram descritos por Nebel em Reasoning and Revision in Hybrid Representation Systems, 1990). Um livro de Bonasso e Dean ( A Retrospective of the AAAI Robot Competitions, 1997), que partia do exame de arquitecturas robóticas de Shakey, dava eficazmente a sensação da extrema variedade dos métodos experimentados pela pesquisa robótica, tanto pelos aspectos relativos ao controle como pelos relacionados com a natureza das componentes reactivas, das deliberativas e da sua possível integração recíproca e, por fim, quanto o papel desempenhado pelo tipo de representação do conhecimento utilizado. As mesmas competições entre equipas de robots jogadores nas RoboCup logo começaram a constituir um extraordinario laboratório de experimentação e inovação, também dando um novo impulso ao estudo da interação cooperativa entre agentes e os sistemas multi-agente. Foi assim que no simpósio da Associação Americana para a Intêligencia Artificial de 1998 é proposto um Manifesto da robótica cognitiva baseado na ideia de robots «híbridos» onde esta vez o termo designa arquitecturas capaces de manifestar robustez e ação em tempo real e de usar sistemas de planificação e representação do conhecimento. Com efeito, uma olhada à evolução da pesquisa depois dos anos 80 monstra como a nova robótica deveu fazer frente à lema radical de Brooks («intêligencia sem representação») e a já recordada dificultade levantada por Kirsh: desenvolver as capacidades dos robots de um nível meramente reactivo a um nível em que houvessem actividades mais complexas de interação com o ambiente, como algumas formas de planificação, raciocinio e aprendizagem. Mais tarde Brooks voltou para esta dificultade, propondo uma nova lema («intêligencia sem razão» em Intelligence without Reason, 1995) contra o alegado racionalismo («cartesiano») da IA, mas com um esclarecimento não insignificante quanto às representações que, se comparada com as suas iniciais afirmações, parece quase uma mudança de pensamento. Ele afirma que a sua originária crítica às representações era dirigida às representações como a concebiam a IA e a robótica clássicas e não às representações como «modelos parciais do mundo», ou seja «relativas à tarefa particular para a qual [elas] são usadas», como ele se expressa fazendo alusão às prestações dos novos robots. Em perspectiva, as implicações destas conclusões parecem importantes em duas frentes. Em primeiro lugar, para a nova robótica com vocação etológica interessada na construção de modelos de animais mais ou menos simples que incluem diferentes restrições comportamentais, neurológicas e em general biológicas («neuroetológia computacional» é o nome escolhido pelos alguns dos seus iniciadores para distinguir-se da mencionada «neurociência computacional» de Churchland e Sejnowski, 1992). Em segundo lugar, para a robótica humanoide para a qual se concentrou a atenção de vários pesquisadores, da Europa ao Japão aos Estados Unidos. Aqui, sempre Brooks e o Humanoid Research Group (em particular com o projecto «Máquinas socialisables») iniciaram a experimentação de robots antropomórficos. Em relação aos robots móveis precedentes, os robots humanoides são concebidos para ser capaces de interagir e eventualmente cooperar com os seres humanos, também em actividades de vida quotidiana. À robótica se abre neste caso um inédito campo de aplicações. Um dos casos mais relevantes e controversos é a assistência de robots humanoides (ou com capacidades humanoides) a deficientes e idosos: um problema advertido em vários países por razões sociais evidentes. Os robots humanoids levantaram a questão de como dotá-los de uma morfologia semelhante à dos seres humanos de modo a facilitar a comunicação recíproca. Se trata, por exemplo, de dar-lhes uma capacidade de mímica facial e a capacidade de manifestar emoções, como surpresa, medo o aprovação, aspectos notoriamente relevantes na interação social. Construido integrando conhecimentos provenientes de teorias diferentes, da psicologia social ao desenvolvimentoda autoregulação e do controlo presentes tanto nos organismos viventes como nas novas máquinas com retroação. Sempre em 1943, Warren McCulloch (1898-1969), neurólogo e psiquiatra, escrevia com o jovem lógico Walter Pitts (1923-1969) um ensaio destinado a afetar como poucos tanto a ciência dos computadores como a concepção de algumas das mais célebres máquinas da época cibernética (McCulloch e Pitts, Um Cálculo Lógico das Ideias Imanentes na Atividade Nervosa, 1943). Como vai recordar após McCulloch, nesse momento ele e Pitts não conheciam os resultados que Claude Shannon (1916- 2001), futuro fundador da teoria da informação, tinha publicado em 1938, solicitados pelos problemas com os quais se tinha deparado trabalhando no MIT ao analizador diferencial de Vannevar Bush (1890-1974), a mas célebre máquina analógica da época. Contudo, tanto McCulloch e Pitts como Shannon usavam o mesmo instrumento, a álgebra de Boole, para a pesquisa de dois âmbitos muito diferentes: McCulloch e Pitts as redes constituidas de neurónios «formais» análogos, muito simplificados dos neurónios do cérebro e que funcionam segundo a lei do todo ou nada (um neurónio se acciona ou não se a intensidade dos impulsos que recebe excede ou menos um determinado limiar) e Shannon os componentes dos circuitos elétricos, funcionantes segundo uma lei análoga (um relé se acciona ou não se a corrente alcança ou menos uma determinada intensidade). A intuição de Shannon foi decisivo na concepção dos circuitos dos computadores digitais. Se não sabiam nada do trabalho de Shannon, McCulloch e Pitt conheciam perfeitamente o de Shannon e concluíram que a sua rede de neurónios formais era equivalente à uma máquina de Turing com fita finita. Enquanto a derrota da Alemanha interrompeu o trabalho de Zuse, em Inglaterra e nos Estados Unidos a realização dos grandes computadores digitais não parou, continuando a mobilizar recursos e talentos extraordinários que levaram num curto espaço de tempo à uma verdadeira viragem. Já desde o final de 1943 em Inglaterra funcionavam os Colossus, computadores automáticos utilizados na descodificação dos códigos militares alemães. Se tratava de máquinas especializadas em resolver só este tipo de tarefas, mas eram muito evoluídas, nomeadamente sendo completamente eletrônicas, ou seja com as válvulas em vez dos relés eletromecânicos: um progresso tecnológico que, levando aos computadores da chamada primeira geração, teria tomado pela primeira vez verdadeiramente rápida a elaboração dos dados. Abrangidas pelo mais estreito segredo militar (como muitos outros projectos da cibernética e da ciência dos computadores dos anos da Segunda Guerra Mundial), só desde 1975 se começou a conhecer as características destas máquinas no projectos das quais tinha partecipado um grupo de pesquisadores liderado pelo matemático Max Newman, que incluía I.J. Good e Donald Michie. À descodificação do código da lendária máquina alemã ENIGMA contribuiu o mesmo Turing que mais tarde, na segunda metade dos anos 40, participou em dois projectos de grandes computadores: ACE (Automatic Computing Engine) em Teddington e MADM (Manchester Automatic Digital Machine) em Manchester. Nos Estados Unidos se chegou a completar a construção de um computador eletrónico em 1946. Os seus conceptores, dois pesquisadores da Universidade de Pennsylvania, J. Presper Eckert (1919) e John Mauchly (1907-1980), o chamaram Electronic Numerical Integrator and Calculator ou ENIAC. Era certamente o mais grande computador de sempre e é geralmente considerado como o primeiro grande computador de tipo geral: para a época a melhor realização de uma máquina universal no sentido de Turing. Foi precisamente no grupo do ENIAC que maturou a viragem que acabamos de mencionar. O consultor do projecto do ENIAC foi o matemático húngaro John von Neumann (1903-1957). Poucos textos ficaram famoso na história da ciência dos computadores como o First Draft escrito por von Neumann em 1945 donde, adotando a simbologia de McCulloch e Pitts, se descrevia a arquitetura de um computador de nova concepção que haveria ficada essencialmente inalterada nos próximos anos: a de um computador em cuja memoria interna não são depositados apenas os dados, como nos computadores realizados até então, mas também as instruções para manipulá-los, ou seja o programa, que podia assim ser modificado não menos dos dados. A paternidade da ideia levantou uma controvérsia entre von Neumann por um lado e Eckert e Mauchly por outro. A construir o primeiro computador com programa armazenado foi o grupo liderado pelo matemático Maurice Wilkes (1913) em Cambridge que em 1949 completou o EDSAC (Electronic Delay Storage Automatic Calculator). Nos Estados Unidos um computador desse tipo foi realizado no ano seguinte pelo nome de EDVAC (Electronic Discrete Variable Automatic Computer). O «pensamento mecânico» Uma característica fundamental de um computador de tipo geral, já percepida por Babbage, é de manipular não apenas símbolos numéricos mas também genéricos com os quais é possível representar as entidades mais diferentes: palavras de uma língua natural, expressões matemáticas, posições de um jogo, objectos a reconhecer e clasificar, etc. Uma outra característica fundamental do computador, também percepida por Babbage e que faltava nos computadores de Zuse e Aiken, é a instrução de salto condicionado com que é possível dar ao programa do computador uma capacidade discriminatória. Nesse caso, a máquina não se limita a seguir uma sequência firma de instruções mas pode mudar a ordem de execução de modo a que se uma condição é preenchida ela efetua as operações especificadas por uma parte do programa (um subprograma), caso contrário efetua outras especificadas por uma parte diferente do programa (um outro subprograma). Esta capacidade, já possuída por os mais avançados dos Colossus e por o ENIAC, era totalmente valorizada por a presença do programa armazenado. O EDSAC acabava de ser completado que as suas duas características, a elaboração de dados não numéricos e a presença da instrução de salto condicionado num programa armazenado foram chamadas à atenção para falar de «pensamento mecânico» dos computadores. Num trabalho publicado em 1952, Programming a digital computer to learn, Anthony Oettinger descrevia no Mathematical Laboratory dirigido por Wilkes em Cambridge dois programas para o EDSAC capaces de modificar as suas prestações com base na experiência, ou seja de «aprender». Um desses manifestava uma forma de aprendizagem que hoje chamaríamos mnemónico. A tarefa a executar era de aprender donde comprar determinadas mercadorias num mundo simulado de retalhistas. O programa procurava ao acaso nos retalhistas até encontrar as mercadorias desejadas notando em memoria em que retalhista as tinha encontradas. Soliticado a buscar novamente as mesmas mercadorias, o programa alcançava diretamente o relativo retalhista sem repetir a busca. Ele tinha também uma certa «curiosidade», como dizia Oettinger: nas suas buscas aleatórias, o programa tomava nota de outras mercadorias diferentes da buscada fornecidas pelos retalhistas que encontrava de forma a usar esta informação para encurtar a busca dessas mercadorias em buscas seguintes. É evidente como todo se baseasse na iteração de ciclos controlados por saltos condicionados: o programa continuava na sua busca se as mercadorias não eram as desejadas tomando nota do resultado, señao parava. Sobretudo três trabalhos que remontavam aos anos anteriores estimularam a pesquisa de Oettinger. O primeiro era um artículo de Shannon, Programming a computer to plain chess (1950), donde o autor insistia na importância das aplicações não numericas dos computadores digitais, como a programação do jogo de xadrez, o objecto da sua pesquisa. Os dois outros eram escritos por Turing e Wilkes e incidiam sobre o «pensamento mecânico» ou seja sobre a alegada « inteligência » dos computadores. O artículo de Turing, Maquinaria Computadora e Inteligência (1950), se tornará um dos textosdas neurociências, o robot Kismet é capaz de aprender a manifestar tanto simples mas adequadas expressões faciais como elementares convenções sociais que o levam, por exemplo, a seguir os gestos e a mímica facial do interlocutor humano, manifestando uma expressão de perplexidade se este último toma medidas com velocidade excessiva. Coerentes com os objectivos desta robótica foram os desenvolvimentos seguintes à Visão Animada. A importância da ação em tempo real na prestação dos robots tem um correspondente na elaboração de arquitecturas da percepção visual sensíveis ao mesmo problema. É confermada a ideia da Visão Animada sobre a necessidade de redimensionar a ideia da visão como detalhada reconstrução tridimensional do mundo a favor de um mecanismo que permita interações rápidas e adaptivas com o ambiente. Com esse fim, também são úteis arquitecturas distribuidas, como é o caso, por exemplo, do robot Kismet, capaz de elaborar em tempo real trinta fotogramas por segundo. À filosofia da nova IA também chegou um outro projecto de pesquisa simulativa que, iniciado nos anos 80, foi desde já crítico em relação à IA simbólica mas também ao conexionismo: a «modelagem neural sintética» de Gerald Edelman. Já ele construiu com vários colaboradores autómatos à redes neurais simulados capaces de integrar algumas modalidades sensoriais. O aspecto «complicado» dos autómatos de Edelman em relação às redes neurais mais comuns é devido ao seu interesse para a plausibilidade biológica da simulação. Por exemplo, o autómato simulado Darwin III, que tem um «olho» móvel e um «braço» com quatro articulações, compreende bem 50.000 «neurónios» de cinquenta tipos diferentes ligados através de cerca de 620.000 ligações sinápticas. Uma versão de Darwin III tornou-se o «cérebro» de um robot móvel, NOMAD, ligado com ele via rádio. Os autómatos de Edelman incorporam os príncipios do «darwinismo neural», a sua teoria segundo a qual a epigenesis e a aprendizagem são o resultado de um processo evolutivo de seleção de grupos diferentes de neurónios durante o desenvolvimento do organismo e a sua interação com o ambiente. Ele considera as máquinas um controle desta teoria e também a base de um projecto mais ambicioso: chegar por etapas através da construção de artefatos de complexidade e realismo crescentes a revelar os enigmas de algumas formas de consciência. O darwinismo neural, embora seja sugerido a Edelman pela sua original experiência de imunologista, se insere na história das tentativas selecionistas de explicação da aprendizagem. Tanto a tese do modelo como controle de hipotéses teóricas como a de tornar o modelo cada vez mais adequado para efeitos da reprodução de fenómenos orgânicos complexos são escolhas metodológicas que Edelman partilha com estratégias simulativas também muito diferentes da sua. Os paradigmas por uma ciência Holland concluiu que os sistemas a classificadores, vistos como modelos cognitivos, se colocam numa «região intermédia», entre os sistemas simbólicos e conexionistas. Como estes últimos, eles insistem na microestrutura e na emergência de computações complexas a partir de processos simples; contudo, as suas unidades fundamentais são as regras de produção, portanto neles o conhecimento não se reduz a uma questão de força das conexões. Algumas tendências da Visão Artificial seguiram uma via que «partilha uma parte das duas abordagens», simbólica e conexionista. O chamado conexionismo de alto nível tentou, por sua vez, seguir uma via deste tipo. E são muitas as tentativas de explorar um «caminho intermédio da simulação cognitiva» simbólica-conexionista. Também no campo da nova IA não faltam posições nesta mesma direção. Verchure pôde concluir que no futuro a abordagem de Edelman e de SOAR «poderiam ser utilizados para introduzir restrições recíprocas». Thornton apoiou uma abordagem «híbrida» em que as exigências impostas pela Vida Artificial e as representacionais da IA clássica se integram mutuamente com sucesso. Goodale e Humphrey sublinharam a vocação «dupla» da nova Visão Artificial em que a abordagem de Marr é complementar à de Gibson na respectiva ênfase em aspectos diferentes da percepção visual. Não falta de ser discutida a alegada incompatibilidade entre explicação clássica e dinamicista da cognição. É possível que a futura pesquisa em IA, também quanto aos modelos cognitivos, ainda terá muito a dizer sobre as experiências que consistem em integrar ou contaminar diferentes abordagens no estudo das máquinas inteligentes. Naturalmente isto não fecha as portas a outros tipos de experiências: das puramente lógicas-linguísticas às redes neurais nos campos mais diversos, por exemplo na neurociência cognitiva aos sistemas multi-agente. Algumas destas experiências deram lugar nos últimos anos a um novo e vasto campo de aplicações que vai dos sistemas de hipertexto à Web semântica e, em geral, à exploração do mundo da Web. Seria, portanto, desejável evitar de fazer da IA velha e nova paradigmos contrários com vocação imperialista, com o único resultado de repetir velhos erros. Parece ir nesta direção a escassa liquidação da IA clássica como GOFAI como premissa de avaliações ultraoptimisticas da nova IA (neste caso não se pode não concordar com Sloman: quem polemiza com a IA clássica em termos de GOFAI normalmente não conhece a história e o estado efectivo da pesquisa) que induzem a carregar aos ombros da Vida Artificial ou da robótica a inteira carga da reprodução do desenvolvimento até a inteligência «alta». A sensação de já visto é irresistível: uma vez mais, usando as palavras com as quais Brian C. Smith resumiva sarcasticamente a história da IA, aqui «a convenção que com um simples mecanismo se podem realizar coisas extraordinarias, dado suficientemente um recurso de qualquer tipo, como tempo, informação, experiência, capacidade de cálculo». A questão dos paradigmas é, contudo, interessante e merita uma alusão. A insistir na oposição do seu paradigma «subsimbólico» com o «simbólico» da IA foram sobretudo os conexionistas dos anos 80, com uma terminologia tornada canônica por Paul Smolensky. Num primeiro momento pareceu assistir aos efectos de uma espécie de trauma: Rosenblatt tinha razão, o livro de Minsky e Papert tinha injustamente cancelado as redes neurais do mundo da pesquisa. Talvez o seu papel foi muito subestimado. É verdade que depois da publicação do livro de Minsky e Papert em 1969 houve um drástico redimensionamento quando se interromperam os financiamentos da pesquisa sobre as redes neurais, em particular nos Estados Unidos. Papert contou a história das «duas irmãs», a IA e as redes neurais, que conviveram pacificamente até a DARPA escolheu a IA (mais tarde, contudo, também o outra irmã caiu nas graças da DARPA). Talvez também a morte súbita de Rosenblatt, certamente um propagandista das suas ideias não menos inescrupoloso dos seus antagonistas, afectou os resultados do evento. Contudo, como recordámos, os estudos sobre as redes neurais foram avançados por diferentes pesquisadores, mesmo que num clima de isolamento. Próprio come aconteceu mais tarde na mais exígua comunidade dos algoritmos genéticos, cujos resultados, considerados os seguintes desenvolvimentos em sectores diferentes, parecem actualmente mais influentes dos atingidos pelo conexionismo dos anos 80. Como escreviam ao final desses anos Anderson e Rosenfeld: «As nossas redes, depois de trinta anos de progressos, ainda funcionam como “cérebros lesionados” (incapaces de comportamento simbólico, segundo a expressão de Rosenblatt). Resta, porém, saber a quais estritas alterações proceder à teoria das redes neurais para que elas consigam atingir as funções cognitivas superiores». O conexionismo de alto nível nada mais foi do que uma tentativa de fazer frente próprio este problema que vai para além do renascimento das redes com a propagação de erros ou das escolhas da DARPA e que ainda permanece um problema não resolvido em geral. Por sua parte, James McClelland declarou recentemente de não acreditar queo evento decisivo para a interrupção da pesquisa sobre as redes neurais foi o livro de Minsky e Papert. Tendo em cuenta que a pesquisa sobre as redes se faz simulando- las no computador, simplesmente «não se estava pronto para a pesquisa sobre as redes neurais. [...] A potência de cálculo dos [computadores dos] primeiros anos 60 era totalmente insuficiente.» Por óbvio que seja, há que recordar que estes limites das prestações dos computadores são os mesmos que condicionaram o desenvolvimento e não poucas escolhas da IA simbólica. A título de exemplo, pensem à escolha a favor do «paradigma» do conhecimento em relação ao precedente «paradigma» da pesquisa heurística sobre os problemas brinquedo, uma escolha que só se coloca quando se começou a dispôr de computadores com grandes memórias e uma grande potência de cálculo. Simon contou que a orientar a pesquisa do seu grupo para tarefas em que não era exigido muito conhecimento (problemas brinquedo) foi inicialmente também a falta destes computadores: se saiba que o conhecimento era importante para a inteligência, mas ainda não era possível abordá-las nas máquinas. O facto é que as capacidades dos primeiros computadores encorajam a experimentação de heurísticas fracas sobre os problemas brinquedo, nesse momento considerados a verdadeira Drosophila da IA. É aqui que foi possível tentar abordar a explosão combinátoria e é aqui que houveram os primeiros verdadeiros sucessos. Mesmo que eles podem aparecer retrospectivamente pouco significativos, então permitiam inegavelmente encorajar certas escolhas (e também ilusões) que certas outras: para a «manipulação heurística de símbolos» em vez da «imitação do cérebro» ou para a «representação do conhecimento». Nenhuma linha de pesquisa é eliminada por um livro se já não é fraca por sua conta. Um caso muito diferente do das redes neurais mas que pode sugerir algumas reflexões é a tradução automática. A pesquisa era num beco sem saída e os financiamentos foram interrumpidos em meados dos anos 60, mas, como se viu, foi possível retomá-la alguns anos mais tarde quando se identificou um caminho mais promissor para abordá-la que levou a relacionar a tradução automática aos novos estudos sobre a linguagem natural. Também aqui, foi o desenvolvimento da potência dos computadores que contribuiu de modo decisivo a tornar esse caminho viável, também tornando possíveis os actuais e de novo bem financiadas, aplicações da tradução automática em sectores diversos, certamente redimensionadas em relação aos ambiciosos projectos iniciais. Antes da oposição simbólico-subsimbólico, ou da mais recente simbólico-colocado, houveram outras oposições entre paradigmas, esta vez durante a história da IA simbólica. Eram opostos o paradigma da pesquisa heurística e do conhecimento, logicista e antilogicista, declarativista e proceduralista, individual e distribuido ou cooperativo. Mas é evidente que nenhum deles pode ser reconhecido como um paradigma em senso técnico, ou seja según a interpretação de Thomas Kuhn. Pelo contrário, cada um deles resume a palavra chave de linhas de pesquisa diferentes e também rivais, numa história como a da IA em que se seguiram e após se abandonaram os caminhos mais diferentes para retomar alguns após um período determinado, em que nunca houve uma verdadeira no mesmo objecto de estudo: a mente humana ou a artificial? («esta [que se estuda em IA] é inteligência artificial, dizia McCarthy a este respeito); em que podia ser «insultante», como concluia Hayes, mesmo tentar definir a IA, «desde que qualquer definição tende a excluir alguém, e ninguém gosta ouvir dizer que não está trabalhando na disciplina em que pensa trabalhar» (recordar a definição da Information Processing Psychology de Newell e Simon como «a disciplina que usa métodos alheios à psicologia cognitiva para tratar questões alheias à IA»). Cover Page Cover HISTÓRIA E EVOLUÇÃO DA INTELIGÊNCIA ARTIFICIAL Índice Introdução Rumo ao computador inteligente O «pensamento mecânico» A simulação do cérebro ao computador Estratégias satisfatórias As heurísticas antes e depois de Dartmouth A questão dos neurónios As abordagens semânticas Generalidade e conhecimento Os percursos da lógica Problemas de senso comum Contra a lógica A Visão Artificial Velhos e novos projectos As arquitecturas: ciência cognitiva e neoconexionismo A inteligência artificial e os enigmas da mente As orientações da pesquisa desde o final dos anos 80 A nova IA Os paradigmas por uma ciênciamais conhecidos e citados na literatura relativa às novas máquinas, tanto por algumas intuições antecipadoras de desenvolvimentos futuros como pela proposta do que chamou o «jogo da imitação». Ao jogo participam um homem, uma mulher e um interrogador que, fazendo as perguntas mais diversas e recebendo as respostas através de dois terminais distintos, deve descobrir quem é o homem e quem a mulher. Turing imagina que em dar as respostas o homem tenta enganar o interrogador enquanto a mulher tenta ajudá-lo. Portanto, ele propõe a substituição de uma máquina ao homem, com efeito um computador digital de tipo geral, e como estava ao jogo, ou seja até que ponto consiga enganar o interrogador. Este último, se pergunta Turing, está errado em identificar os seus interlocutores «com a mesma frequência» de quando ao jogo participava um homem e não uma máquina? Retomando o jogo da imitação no artículo Podem as máquinas pensar (1951), Wilkes alegava que, para pensar seriamente de «simular o comportamento humano» com um computador, deveria ter sido concebido um «programa de aprendizagem generalizada», ou seja capaz de aprender em qualquer domínio escolhido pelo programador: um objectivo muito distante, dadas as prestações dos programas realizados. Oettinger considerou que os seus programas representavam respostas parciais às perguntas colocadas por Turing e Wilkes. Sem manifestar a capacidade «generalizada» de aprendizagem indicada por Wilkes, eles conseguiam porém melhorar as suas prestações em tarefas particulares. Além disso, eles teriam podido superar pelo menos «uma forma restrita», come ele se expressava, do jogo da imitação. Assim, Oettinger parece ter sido o primeiro a interpretar o jogo da imitação come um teste suficiente (um «critério», dizia) par avaliar as prestações de particulares programas informáticos em domínios limitados. Será esta interpretação «restrita» do jogo da imitação, conhecida como teste de Turing, que será mais famosa mais tarde. Oettinger observava ainda que o computador era usado neste caso para simular determinadas funções do cérebro, não a sua estrutura física e o critério de Turing podia servir para verificar só uma corrêspondencia funcional entre o computador e o cérebro. Neste caso, tornando explícitas algumas intuições de Turing, as suas observações explicavam um ponto que vai inspirar a orientação de futuras abordagens computacionais aos processos mentais. Também as suas propostas metodológicas apontavam nesse sentido. Segundo Oettinger, a utilização simbólica do computador identificava os que haveriam sido efetivamente entre os utilizadores principais das novas máquinas: «os interessados às potencialidades dos atuais computadores digitais como modelos da estrutura e das funções das sistemas nervosos orgânicos, como psicólogos e neurólogistas.» Por outro lado, ele interpretava o salto condicionado numa acepção que o haveria tornado particularmente sugestivo para estes utilizadores. Também Shannon, no artículo recordado por Oettinger, falava disso como de um procedimento que permitia à máquina de decidir ou escolher entre alternativas diferentes com base de resultados obtenidos anteriormente. Mas Oettinger sublinhava este aspecto como crucial para os seus programas porque lhes permitia de «organizar de forma sensata a nova informação e de seleccionar modos alternativos de comportamento com base desta organização.» Como foi dito, os programas de Oettinger se baseavam essencialmente no salto condicionado. No fundo, era apenas a capacidade de um computador como o EDSAC de simular o comportamento de um dispositivo analógico munido de retroação. Mas precisamente a cibernética tinha exaltado as capacidades discriminatórias destes dispositivos, e como vimos, foram Rosenblueth, Wiener e Bigelow a introduzir a linguagem psicológica da «escolha» e do «fim» na descrição destes artefatos. Uma intervenção posterior de Wilkes (1953) convitou à uma utilização pelo menos cuidadosa de vocábulos psicológicos sugeridos pelo salto condicionado como «decisão» ou «discriminação», para não falar de «pensamento». Enquanto probava a efetiva utilização destes vocábulos por muitos programadores (recordámos o caso de Shannon) e reconhecia a importância do salto condicionado para a afinação de programas que aprendem como os de Oettinger, Wilkes observava como este procedimento não extraordinário e era comumente utilizado por qualquer programador de grandes computadores. No entanto, procedimentos deste tipo, características das novas máquinas, foram à origem da debatida plausibilidade de lhes atribuir alguma forma de intencionalidade. A simulação do cérebro ao computador O artículo de Wilkes aparecia republicado em um dos mais célebres periódicos científicos da época, os «Proceedings of the IRE» (Institute of Radio Engineers), num número especial de 1953, The Computer Issue, que representa talvez o melhor testemunho do nível atingido nesse momento pela concepção e tecnológia dos computadores. O artículo era seguido por uma intervenção de Shannon, Computers and Automata (1953), uma exposição dos programos que manifestavam prestações comparáveis às humanas, e por uma longa série de contribuções que presentavam o computador em todos os seus aspectos, dos da programação aos do hardware, enquanto se vislumbravam as avantagens da iminente difusão dos transistores que haveria caracterizado a segunda geração de computadores. Na realização e na difusão dos computadores, principalmente concebidos no mundo das universidades, não faltou, para além do apoio dos militares, a contribuição da indústria. Nos Estados Unidos, o IBM contribuiu a financiar o projecto de Aiken, e no início dos anos cinquenta, quase simultaneamente à Ferranti na Inglaterra, entrou no mercado com o computador IBM 701, cuidadosamente descrito no Computer Issue. Era o primeiro de uma série de computadores eletrônicos gerais com programa armazenado utilizáveis por fins de pesquisa teórica mas também de aplicação industrial, que deviam levar a empresa americana a desempenhar rapidamente um papel hegemônico no sector. Arthur Samuel (1901-1990), pesquisador no IBM, cujo artículo introdútorio abria o Computer Issue, começou a fazer funcionar um dos seus primeiros programas para o jogo da dama neste computador. A última Macy Conference de cibernética teve lugar em New York em abril de 1953, décima de uma série de encontros que a partir de maio de 1946 viram aumentar o interesse de filósofos e cientistas de formação muito diferente pela proposta de Wiener. McCulloch terminava a conferência com um Resumo dos pontos de acordo chegados nas reuniões precedentes (1953). Entre estes ele recordava as suas redes formais e os resultados de Turing, mas mesmo uma menção não era dedicada à emergente utilização do computador como máquina geral e ao seu possível papel no programa cibernético. E isso não obstante ele costumava descriver o cérebro, na verdade geralmente, como «um computador digital munido de retroação.» Se se compararem os relatórios desta Conferência com as intervenções contenidas no Computer Issue, tem-se a impressão de estar a lidar com dois mundos muito distantes entre eles. Uma diferente conferência, na qual partecipava o mesmo McCulloch, parecia esta vez enfrentar o papel que o computador podia desempenhar nas ciências da mente e do cérebro. Juntamente com Oettinger, o neurólogo Otto Schmitt e Nathaniel Rochester, diretor de pesquisa do IBM. McCulloch era um dos quatros relatores do simpósio Projecto de máquinas que simulam o comportamento do cérebro humano (1956), organizado em 1955 por a IRE National Convention. Convitados a discutir os relatórios eram, entre outros, John Mauchly, Walter Pitts e Marvin Minsky, nesse momento em Harvard. A leitura do relatório deste simpósio é esclarecedora: tem-se a impressão de ter diante o inventário dos argumentos principais, das abordagens metodológicas, das ambições e das dificultades que passarão em primeiro plano na década seguinte e, em alguns casos, também mais recentemente. No contextoou no centro dos temas debatidos no simpósio estavam os primeiros programas automáticos já accionados ou experimentais que, de uma forma ou de outra, imitavam prestações humanas ou competiam com elas. Algumos já foram ilustrados por Shannon no Computer Issue e Oettinger citava outros na sua intervenção. Haviam, em primeiro lugar, os programas que estavam mais ou menos bem à jogos de diversa complexidade: o para a dama, sugerido por Turing à Cristopher Strachey, que o publicou em 1952; o de D.W. Davies para a trilha que funcionava num computador DEUCE e o para o nim. O computador NIMROD, construido pela Ferranti, jogou nim com os visitadores da exposição científica do Festival of Britain de 1951, onde estava exposto juntamente com as célebres «tartarugas» eletrônicas do cibernético Walter Grey Walter (1910- 1977). Turing era um dos visitadores desta exposição das maravilhas das novas máquinas, jogou com o computador e conseguiu ganhar dele. Haviam também os programas já recordados por Oettinger, e o mais recente de Rochester que, juntamente com John Holland e outros pesquisadores, se propôs de simular num IBM 701 a teoria desenvolvida no livro de 1949, A organização do comportamento, pelo psicólogo Donald Hebb (1904-1985), segundo o qual a aprendizagem consistia no reforço das ligações entre neurónios ou grupos de neurónios, repetidamente ativados. Posições diferentes se confrontaram no simpósio. A discussão com Pitts levava Oettinger a esclarecer a sua afirmação sobre o duplo interesse despertado pelo computador digital: nas pesquisas neurológicas, onde pode ser utilizado para controlar teorias do funcionamento do cérebro e na simulação das «funções mentais superiores» que pode ser obtenida sem simular o que se sabe ou se supõe ao nível da estrutura biológica, ou seja do cérebro. A pesquisa na simulação das funções sugere, por sua vez, a forma como melhorar as prestações de máquinas como os computadores, tão distantes do cérebro em termos de semelhança estrutural. Como exemplo do primeiro tipo de pesquisas, Oettinger citava o programa simulativo de Rochester que ele tinha presentado no simpósio insistindo, por sua vez, na proposta metodológica de «usar os computadores automáticos modernos para controlar determinados aspectos de algumas teorias do funcionamento do cérebro.» A figura 1 reproduz o ciclo metodológico ilustrado por Rochester, que vai da implementação no computador do modelo de uma teoria do cérebro, à extração das implicações do modelo, ao seus controlo e à utilização dos dados para confirmar, refutar ou modificar a teoria. Fig. 1 O ciclo metodológico proposto por Nathaniel Rochester em 1955, em que o computador é usado para controlar a teoria da aprendizagem de Hebb. O ciclo foi experimentado na teoria de Hebb, que teve que sofrer alterações sugeridas pelo modelo implementado no computador. A questão levantada por Schmitt foi muito debatida no simpósio: se os computadores deviam imitar a ductilidade do raciocínio manifestada pelo cérebro humano, era necessario que recorressem não à rigida lógica do sim e do não o bivalente, mas à uma lógica difusa ou fuzzy, como ele dizia. Numa curta polémica com McCulloch, ao final, se declarava cético no estados dos modelos com «memoria distribuida» e se recusava a considerar, como era proposto, que um bom exemplo destes modelos era uma máquina munida das simples capacidades de auto-organização do «homeostato» do cibernético William Ross Ashby (1903-1972). O homeostato, uma das máquinas mais conhecidas da época cibernética, era descrita por Ashby como um sistema «ultra-stável» capaz não apenas de auto-corregir o seu comportamento (como os sistemas munidos de retroação negativa o «stáveis») mas também de auto-organizar-se, ou seja de mudar a organização interna para reagir adequadamente a um distúrbio proveniente do ambiente. Estratégias satisfatórias O simpósio de 1955 teve lugar enquanto Samuel completava a implementação de um novo programa para a dama num computador IBM 704 destinado a permanecer uma pedra angular nas pesquisas na aprendizagem automática. Ele desenvolveu algumas intuições precedentes de Shannon na programação do xadrez mas escolheu a dama para a maior simplicidade das regras que tornava o jogo efetivamente endurecível para o computador. O estudo do comportamento decisional nos jogos desempenhou um papel primordial na pesquisa que é à origem da IA. É portanto interessante reconstruir com alguns detalhes as suas premissas e os seus desenvolvimentos principais. Shannon começou a pensar à um programa automática para o xadrez em meados dos anos quarenta. Turing tinha dito a sua opinhão também sobre este assunto: ele tinha simulado «à mão» com Good um programa para o xadrez que recorda o de Shannon nas suas caracteristicas fundamentais. Este último, descrito no artículo de 1950 já recordado, se baseava na ideia de avaliar a jogada melhor através de uma análise anticipativa das jogadas alternativas do jogo com base de um procedimento conhecido como «minimax». Se trata de um procedimento que remonta às primeiras formulações da teoria matemática dos jogos na qual também von Neumann trabalhou a partir dos anos vinte. O jogador de xadrez se tornou uma metáfora comum na análise dos processos de decisão, com uma formulação clássica no livro que von Neumann publicou em 1944 com o economista Oskar Morgenstern, A Teoria dos Jogos e o Comportamento Econômico. Na sua terminologia, o xadrez, como os outros jogos recordados, como a nim, a dama ou a trilha, é «determinado claramente». Um modo para representá-los é o árvore do jogo. Ele é gerado a partir de uma posição ou um nó inicial considerando antes todas as jogadas aceitáveis do primeiro jogador (os nós alcançáveis do inicial aplicando as regras do jogo) e após todas as respostas do adversário, etc. Um jogador perfeitamente racional, com efeito onisciente, seria capaz de «ver» o inteiro árvore do jogo, e portanto de escolher a melhor sucessão de jogadas para a avaliação das consequências finais de cada jogada alternativa: lhe seria necessario atribuir valores distintos às posições finais, corrispondentes à vitória, ao empate e à derrota; portanto subir o árvore para trás, ou seja estabelecendo a cada nó qual ramo o leva a uma posição de avantagem máxima para ele e mínimo para o adversário até regressar às alternativas da sa primeira jogar e tomar a decisão. Na prática, esta estratégia exaustiva ou por «força bruta» encontra em geral uma dificultade insuperável na explosão combinátoria das jogadas possíveis, mesmo mais que astronômica no caso do xadrez, que Shannon calculava a 10 ¹²⁰. Portanto, ele propôs uma primeira modificação desta estratégia consistente em gerar o árvore do jogo só até uma certa profundidade, em atribuir determinados valores aos nós alcançados e em avaliar para tràs os caminhos para uma função de valiação baseada no procedimento do minimax (figura 2). Fig. 2 A função de valiação aplicada a um árvore parcial do jogo de xadrez. O árvore se percorre para trás (na figura, da direita para a esquerda). Os contra- ataques do negro (as linhas tracejadas) que dariam ao branco a vitória ou a vantagem maior tem as pontuações mais altas, sob a forma de numeros positivos mais grandes, enquanto os contra-ataques do negro que levariam o branco à derrota ou à posições de desvantagem maior tem as pontuações mais baixas, sob a forma de numeros negativos mais grandes. Assumindo que o negro escolhe uma das três jogadas com numeros negativos mais grandes para minimizar a avantagem do branco, estes últimos são atribuidos às três possíveis jogadas alternativas do branco (as linhas contínuas). Neste ponto, a jogada melhor para o branco, obtem a pontuação mais alta, neste caso -0,1. ... Consciente de que um tal procedimento era em geral radicalmente ineficiente, Shannon se colocou o problema de como amelhorá-lo para «desenvolver uma estratégia suficientemente boa para seleccionar a jogada sucessiva» e supôs de incorporar no programa (mais precisamente na função deavaliação) medidas e critérios de seletividade em referência directa aos estudos do psicólogo holandês Adrian de Groot em instrutores de xadrez que apresentevam as suas análises «em voz alta» durante o jogo. O estudo mais aprofundido da possibilidade de implementar a função de avaliação deve-se a Samuel. O objectivo era de utilizar a dama para experimentar as capacidades de aprendizagem das máquinas. Antes de avaliar uma posição, o programa de Samuel controlava em memoria se já a havia avaliada de modo a não perder tempo a fazê-lo novamente. Esta forma de aprendizagem mnemónica, que já vimos experimentada em simples tarefas por Oettinger, foi potenciada por Samuel de modo a que o armazenamento de uma posição avaliada aumentasse as capacidades anticipativas do programa: quando (como monstra a figura 3) um nó terminal de um árvore a explorar para diante coincidia com o nó inicial de um árvore já explorado cuja avaliação tinha sido portanto armazenada, a busca chegava à uma maior profundidade, a do árvore já explorado. Fig. 3 A aprendizagem mnemónica no programa para a dama de Arthur Samuel. Normalmente, a avaliação seria realizada até o nível 3. Mas neste caso à posição é atribuida uma pontuação no decurso de uma valiação precedente que foi gravado em memória. Isto permite melhorar a valiação.. A referência de Shannon a De Groot sugeria a possibilidade de um modo sensivelmente diferente do tentado por Samuel e consistente em abordar o problema da explosão combinátoria estudando mais de perto os processos humanos da escolha. Ora, exatamente istos tinham sido objecto de interesse de Herbert Simon (1916- 2001), erudito do comportamento decisional e das organizações complejas no ámbito da pesquisa operacional, uma outra disciplina que, como a cibernética e a ciência dos computadores, tinha tido um forte impulso durante a Segunda Guerra Mundial. Já nos anos anteriores Simon tinha abandonado a abordagem normativa da teoria dos jogos, que consistia no estudo da escolha ou da estratégia que o agente, chamado «homem económico», deveria aplicar para maximizar as possibilidades de conseguir uma solução ótima. Pelo contrário, ele tinha introzuido a dimensão psicológica no estudo da escolha através da análise do comportamento decisional que o agente normalmente aplica, condicionado tanto pelo os seus limites internos, por ejemplo de memoria ou de capacidade de usar dados e conoscimentos de que dispõe como pela complexidade do ambiente em que opera. Em desenvolver este ponto de vista não normativo, em 1947 Simon publicava O Comportamento Administrativo, o livro em que concluia uma linha de pesquisa recompensada muitos anos mais tarde, em 1978, com um Nobel para a economia. Para Simon, o jogador de xadrez permanecia a metáfora do comportamento do agente racional, mas esta vez era descrito não em termos de abstrata racionalidade onisciente do homem económico mas de racionalidade limitada da resolução real de problemas, ou «homem administrativo», como o definia Simon. Os seus limites internos e a complexidade do ambiente externo, bem representada pelo jogo do xadrez, não le permitem de adotar estratégias ótimas mas só estratégias parciais que resultam mais ou menos «satisfatórias», segundo o termo de Simon. Estas ideias de Simon foram à origem, em 1952, da sua hipótese de um programa para o xadrez que não se baseasse essencialmente nos perfeccionamentos da função de avaliação de Shannon, mas sim na implementação dessas estratégias satisfactórias que ele tinha considerado como o cerne dos processos humanos de solução de problemas. Nesse período, Simon já esteve em contato com Allen Newell (1927-1992), um físico da RAND Corporation que se ocupava de organizações complejas. Newell tinha frequentado os cursos do matemático George Polya que, em A arte de resolver problemas de 1945, tinha definido os processos da solução dos problemas como «heurísticos», ou seja baseados na utilização de indícios e de expedientes útiles à busca da solução: uma ideia que recordava muito de perto a da estratégia satisfatória de Simon. Newell contou que ficou impressionado com um programa que lhe clarificou as enormes potencialidades do computador como máquina não numerica: Oliver Selfridge, já assistente de Wiener no MIT, implementou em 1954 um programa que era capaz de reconhecer configurações como letras do alfabeto ou simples figuras geométricas, entre os primeiros ejemplos da que teria sido chamado reconhecimiento de padrões. Então, decidiu de experimentar as capacidades de elaboração simbólica do computador com o jogo do xadrez. No Janeiro de 1956, no entanto, Simon comunicava numa carta à De Groot que ele e Newell, abandonado o projecto do programa para o xadrez, estavam prestes a concluir o de um demonstrador automático de teoremas da lógica proposicional. Enquanto isso, Clifford Shaw, um hábil programador, se juntou a eles. Como o xadrez ou outros jogos recordados, também a demonstração de teoremas podia ser representada como um árvore. Contudo, se trata de um árvore (um «labirinto», como inicialmente se dizia) diferente do do jogo, onde são representadas as jogadas antagonistas de dois jogadores. Newell, Shaw e Simon deram uma demonstração que está na origem da que teria tornada conhecida em IA como a representação do espaço de estados. Neste caso a busca da solução é vista como uma busca de um caminho do árvore que, aplicando oportunos operadores, leva à solução do problema de um nó (um estado) inicial ao final. Como no árvore do jogo, também aqui se coloca o problema da explosão combinátoria. Em teoria, se fosse possível explorar exaustivamente todos os caminhos a partir do estado inicial, mais cedo ou mais tarde se chegaria a solução do problema (desde que exista). Bastaria fixar a ordem pela qual examinar os nós, estabelecendo assim um procedimento para encontrar todos os sucessores de um determinado nó: Newell, Shaw e Simon chamaram este procedimento (ou uma sua variante) «algoritmo do British Museum». O agente ou o a resolução real de problemas nunca põe em prática um algoritmo deste tipo, seguindo procedimentos que utilizam informações parciais ou indícios. A ideia dos três autores era que um programa informático teria devido incorporar estos procedimentos, qualificáveis como heurísticas, para ser capaz de abordar o problema da explosão combinátoria. O programa baseado nesta intuição era o do qual Simon escrevia a De Groot: o Logic Theorist (LT), que imprimou cerca de quarenta teoremas do cálculo das sentencias dos Principia mathematica de Bertrand Russell e Alfred Whitehead. Uma ideia aproximada desta intuição, que foi uma das mais importantes da chamada programação heurística, pode ser dada invocando uma «versão modificando do LT», como Newell, Shaw e Simon definiram inicialmente, em 1958, um programa seguinte de demonstração de teoremas após chamado General Problem Solver (GPS). Com base nos operadores, um conjunto de regras da lógica proposicional, esta versão do LT transformava uma fórmula lógica dada como inicial na fórmula que representava o teorema a demonstrar. O fazia identificando diferenças entre as duas fórmulas e selecionnando o operador adequado para eliminá-las. O ciclo transforma- elimina a diferença-aplica o operador, organizado como uma hierarquia de subprogramas podia ser repetido várias vezes, evitando a geração exaustiva das fórmulas e gerando, em caso de sucesso, só as progressivamente mais semelhantes à fórmula buscada. Esta heurística, após chamada «meios-fim», se revelou após muito geral, ou seja aplicável também a «ambientes da tarefa», para utilizar a expressão dos três autores, diferentes do da lógica: daqui a atribuição de generalidade ao seu programa. As heurísticas antes e depois de Dartmouth O computador JOHNNIAC (JOHN Neumann Integrator and Automatic Computer) imprimou a primeira demonstração do LT no Agosto de 1956. No entanto, o LT já tinha desempenhado um papel primordial no famoso seminário de verão organizado no Junho do mesmo ano por Minsky, Rochester, Shannone pelo matemático John McCarthy. O encontro, como indicado na proposta apresentada à fondação Rockfeller que decidiu financiá-lo, tinha o objectivo de examinar «a tese que cada aspecto da aprendizagem o cada outra característica da inteligência pode em princípio ser especificada com uma tal precisão que será possível construir uma máquina que a simule». O seminário teve lugar em Hannover, no New Hampshire, no mesmo Dartmouth College em que, em 1940, Wiener e Mauchly tinham assistido ao funcionamento de uma máquina de George Stibitz, na altura conceptor de máquinas a relés muito avançadas. Tinham passado dezesseis anos: o período mais cheio de acontecimentos cruciais na historia dos computadores e da ciência da elaboração da informação. O seminário de Dartmouth foi a fábrica dos programos mais importantes da Inteligência Artificial, como foi chamada a disciplina cujos pressupostos foram identificadas após os primeiros desenvolvimentos de ciência dos computadores. Em Dartmouth houveram em momentos diferentes os principais pesquisadores já ativos na concepção de programas informáticos com prestações «inteligentes». Além dos nomes dos promotores do encontro, já recordámos Newell, Selfridge, Simon e Samuel. Depois de Dartmouth, teriam nascido os centros históricos da pesquisa em IA: na Carnegie-Mellon University com Newell e Simon, no MIT com Minsky e na Stanford University com McCarthy. Na Inglaterra, a herança foi recolhida por Michie em Edimburgo, antes que a pesquisa em IA arrancasse noutros paises europeus. Em Dartmouth os autores do LT tiveram ocasião de discutir com McCarthy um aspecto da programação do LT não de somenos importância: não era escrito em linguagem máquina (ou seja em sucessões finitas de dígitos binários correspondentes à ausência ou presença de um impulso) mas numa linguagem de nível superior. Newell, Shaw e Simon perceberam a dificultade de escrever programas para tarefas complexas diretamente em linguagem máquina. A necessidade de dispor de um programa que traduzisse em linguagem máquina as instruções formuladas pelo operador por uma linguagem mais próxima à natural era reconhecida há algum tempo. No início dos anos 50 progressos importantes nesta direção foram realizados por Heinz Rutishauser e Corrado Böhm em Zurique. Em 1954, um grupo de pesquisadores do IBM dirigido por John Backus completava finalmente o FORTRAN (FORmula TRANslator), a primera linguagem de programação de nível superior. A de Newell, Shaw e Simon, o IPL (Information Processing Language), teve características por medida para gerir a complexidade dos programas heurísticos. A inspiração básica do IPL, a da programação à listas, foi retomada em 1958 por McCarthy no LISP (LISt Processor), destinado a permanecer por tempo a linguagem de eleição da IA. O LT é muitas vezes apresentado como o projecto que estava ao estado mais avançado de realização entre os discutidos em Dartmouth e como o primeiro programa de IA que fazesse explicitamente uso de heurísticas. Antes do LT, no entanto, existiam programas que incorporavam procedimentos que pudessem ser definidos heurísticas: em primeiro lugar, as que permitiam ao programa de Samuel de melhorar as suas prestações em abordar a explosão combinátoria das jogadas. Embora não fossem concebidos para esta finalidade, dada a extrêma simplicidade do ambiente da tarefa, podiam também ser definidos heurísticos os procedimentos seletivos presentes nos programas de Oettinger que, sem usar ese termo, mencionava explicitamente A arte de resolver problemas de Polya. Sem entrar na disputa sobre as primazias, há que dizer que o termo «heurística» conteneva uma duplicidade que podia ser explicidada tendo em comta objectivos diferentes. E era propiamente a diversidade dos objectivos a distinguir os dois programas mais avançados dos dias de Dartmouth, o LT e o programa de Samuel. Newell, Shaw e Simon estiveram interessados sobretudo em implementar no computador programas que reproduzissem os processos humanos de solução de problemas. Pelo contrário, precisamente os limites que o LT revelava nesse respeito induziram os três autores a empreender o projecto do GPS com que eles consideravam ter alcançado o seu objectivo principal: conseguir comparar não tanto a prestação final de um programa com a de um ser humano, mas também e sobretudo os processos computacionais que constituíam o programa (a sua «pista») com os processos utilizados pelos solucionadores de problemas humanos que enfrentavam uma determinada tarefa, assim como era possível obtê-los de um protocolo registado enquanto diziam «em voz alta» as suas jogadas. Foi na base de protocolo deste tipo, por exemplo, que foi estudada e programada a heurística meios-fim do GPS. Além disso, avaliando que o teste de Turing dizesse apenas respeito às prestações e não aos processos, eles não o aceitaram como teste definitivo da inteligência das maquinas. Para eles o verdadeiro teste era constituido pelo sucesso de uma comparação detalhada pista-protocolo. Além disso, dado que o GPS se revelou capaz de resolver diferentes tipos de problemas (de xadrez, integração numérica e diferentes quebra-cabeças) permitia esperar de conseguir reproduzir num programa uma outra característica da inteligência humana, a sua versatilidade en ambientes de tarefa diferentes com o objectivo final de chegar à simulação de uma solução geral ou integrada de problemas. Tudo isto era totalmente alheio ao objectivo de Samuel, que era de construir um jogador automático eficiente, independentemente da plausibilidade psicológica em sentido estrito dos processos seletivos implementados no programa e que permaneceu assim nos aperfeiçoamentos que ele introduziu no seu programa até o ponto de conseguir derrotar ao jogo o seu mesmo autor e também jogadores de nível elevado. Por outro lado, é nessa via que começou a programação do xadrez ao computador. Apesar das tentativas seguintes de Newell e Simon, quando retomaram com Shaw o projecto de abordar a explosão combinátoria com estratégias seletivas inspiradas nas de jogadores humanos, os verdadeiros progressos na programação do xadrez foram realizados para a implementação de algoritmos que explorassem de modo eficiente e em profundidade o árvore do jogo. Esta abordagem tornou-se possível com a crescente velocidade de processamento de dados típico dos computadores com circuitos integrados em grande escala das últimas gerações. Mas há que não esquecer que os sucessos de um supercomputador como Deep Blue, que em 1997 derrotou o campeão do mundo Garry Kasparov, são devidos à velocidade na análise das jogadas e sobretudo à capacidade de gerir conhecimentos relativos ao jogo. Contudo, é um facto que a programação do xadrez perdeu interesse nos, como Newell e Simon, que tinham considerado os computadores como um laboratório para estudar os processos humanos da solução de problemas. A ideia que heurísticas eficientes fossem indispensáveis para tornar «endurecíveis» em que estava presente a explosão combinátoria esteve na base da chamada teoria da complexidade computacional desenvolvida em fins dos anos 60 sobretudo pelos trabalhos de S.A. Cook e R.M. Karp. Eles forneceram um quadro teórico para a análise de diferentes problemas e decisão e de otimização colocados anteriormente, como recordámos, pela teoria dos jogos. É no ámbito da complexidade computacional que foi levantada a questão dos «obstáculos teóricos à IA», como em Theoretical Impediments to Artificial Intelligence (1974), de M.O. Rabin, que, contudo, foi sempre no contexto da pesquisa em IA. A questão dos neurónios Às origens da IA, duas possíveis acepções do termo heurística contribuíam portanto a identificar duas tendências de pesquisa bem distintas cujas diferentes aspirações afetaram a seguinte evolução da disciplina: a dirigida à simulação mais detalhada possível dos processos cognitivos humanos e a dirigida à prestação mais eficiente possível dos programas, através de procedimentos também «não humanos». Em 1961, discutindo uma exposição do GPS dada porSimon durante um seminário no MIT, Minsky estabeleceu uma distinção clara na pesquisa em IA nestes termos, atribuindo ao grupo da Carnegie-Mellon, representado por Newell e Simon, o objectivo da simulação do comportamento. Simon, por sua vez, retomando uma distinção já identificada no mundo da pesquisa sobre as máquinas inteligentes por Pitts antes de Dartmouth, insistia que «a imitação da hierarquia de causas finais que chamamos mente», que caracterizava cada empresa da IA, foi contrária à «imitação do cérebro», típica da tradição anterior da cibernética. A este respeito, depois do simpósio da IRE Convention de 1955 donde Minsky tinha levantado dúvidas sobre a eficácia dos modelos a memória distribuida, em 1958 se realizou em Teddington o simpósio sobre a mecanização dos processos do pensamento no qual participaram neurologistas e psicólogos come R.L. Gregory, expertos de programação como Backus, cibernéticos como Ashby, McCulloch, Donald MacKay, Gordon Pask, protagonistas de Dartmouth como McCarthy, Selfridge e o mesmo Minsky. Depois de ter apresentado a emergente programação heurística como o estudo dos «processos sintáticos que implicam a manipulação de expressões simbólicas», na sua intervenção Minsky expressava um ceticismo ideal quanto aos «modelos à redes neurais» e, em geral, aos sistemas de auto-organização. Esta vez Minsky não se referia à simple auto-organização de Ashby mas às mais recentes e avançadas máquinas à redes neurais com memoria distribuida apresentadas no mesmo simpósio. Uma deles era o Perceptron, inventado à Cornell University por Frank Rosenblatt, uma máquina que «aprendia» a distinguir e classificar estímulos visivos. Na sua versão mais simple apresentada em Teddington, o Perceptron era constituído por uma camada única de neurónios do tipo de McCulloch e Pitts ligados na entrada com uma unidade sensorial correspondente à uma retina e na saída com duas unidades de resposta. Os neur ó nios, ou unidades de associação, tinham um «valor» (um «peso», come será dito depois) variable, o que permitia à máquina de amelhorar a sua prestação depois de um procedimento de «formação». Nas versões mais conhecidas do Perceptron, o procedimento consistia em modificar a partir do exterior o valor das conexões se a resposta da máquina não era correta. Em Two theorems of statistical separability in the Perceptron (1959) Rosenblatt era extraordinariamente otimista quanto as potencialidades da sua máquina que em Teddington descreveu como «um análogo do cérebro biológico […] capaz de ideias originais.» Também alegou que querer reproduzir as capacidades do cérebro através dos computadores digitais «programados para seguir regras» era uma estéril pretensão. Portanto, eles eram capaces de jogar mais ou menos bem xadrez, mais não de amelhorar espontaneamente as suas prestações interagindo com o ambiente. Era esta a conclusão que Minsky atacou: embora manifestando alguma forma elementar de adaptação e aprendizagem, também os modelos às redes neurais mais avançados como o Perceptron não eram capaces de igualar a programação heurística quando se tratava de reproduzir comportamentos cognitivos complexos. Em Some Methods of Heuristic Programming and Artificial Intelligence (1959), Minsky se declarava cético também em relação ao Pandemonium, a nova máquina descrita por Selfridge em Teddington na qual a informação era elaborada em paralelo por uma hierarquia de unidades chamadas «demônios». Para Minsky, o entusiasmo suscitado por estos modelos, devido principalmente à sua maior semelhança estrutural com o cérebro «natural» e a um certo paralelismo do seu funcionamento não era justificado, dada a dúbia capacidade de manipular estruturas simbólicas e conceitos de ordem superior. Parecia difícil pensar seriamente que mudanças significativas ao «nível do comportamento manifesto», pudessem surgir de mudanças, como se expressava, ao «nível microscópico» em sistemas como as redes neurais, as que começavam à ser experimentados com sucesso com os sistemas munidos de organização hierárquica complexa como os programas heurísticos automáticos. Além disso, mesmo que se tivesse conseguido fornecer à uma rede neural os mecanismos para a formação de conceitos simples, sempre deveria ter utilizado sistemas heurísticos «formais ou linguísticos». Minsky concluia que mais valeva abandonar o estudo das redes neurais e dedicar-se «à que alguns de nós chamam inteligência artificial.» No simpósio de Teddington se estabeleceu na comunidade dos pesquisadores de máquinas inteligentes a divergencia de métodos e objectivos que se formou antes do nascimento oficial da IA em Dartmouth. Ainda assim, as duas tendências – a dos «imitatores do cérebro» e a dos «manipulatores de expressões simbólicas» – estiveram confrontados em seguintes encontros comuns: por exemplo, nas duas conferências interdisciplinares sobre os sistema de auto-organização de 1959 e 1961, com a partecipação de todos os principais protagonistas de Dartmouth e de Teddington. Em particular nos anos 60, a pesquisa sobre as redes neurais continuou a acompanhar a da IA um pouco em toda parte por diferentes pesquisadores como (Albert Uttley, Wilfrid Taylor, Bernard Widrow) que tinham sido relatores em Teddington), Eduardo Caianiello, Augusto Gamba e Karl Steinbuch. Em muitas pesquisas sobre o Perceptron ou inspiradas nele foram experimentadas regras diferentes de aprendizagem, simulações e também realizações eletrônicas. Tanto as pesquisas de Rosenbluett como as de Newell, Shaw e Simon não podiam não suscitar interesse no mundo dos psicólogos. Em 1958, a revista de psicología americana mais conhecida, a «Psychological Review», publicou tanto a descrição do Perceptron como a do LT. O artículo de Rosenblatt era certamente o mais difícil, embora nessa ocasião ele explicasse as suas ligações com a que definia a «posição conexionista» de Hebb e de anteriores psicólogos asociacionistas. Embora a rivista continuasse a publicar outras pesquisas sobre os Perceptrones, foi o grupo de Carnegie-Mellon que conseguiu obter o mais grande eco entre os psicólogos, inserindo-se com tempestividade no debate, que nesse momento os dividia, sobre os problemas do método experimental, da construção da teoria psicológica, da relação entre estudo da mente e pesquisa neurológica. No seu artículo, Newell, Shaw e Simon traçavam um quadro eficaz da psicología da época, descrevendo-o como apertada pelo torniquete da «polarização» entre behaviorismo e gestaltismo, que, efetivamente, era advertida como paralisante por muitos psicólogos. Eles indicavam a estes últimos um itinerário tanto inédito como atraente que consistia em reconhecer a complexidade do objecto estudado, a mente, como perguntavam os gestaltistas, mas em reivindicar, ao mesmo tempo, a necessidade do seu estudo científico, como invocavam os behavioristas, através de um novo método de controlo operativo das teorias psicológicas. O ponto de partida era o computador como máquina geral simbólica, com os seus processos de leitura- escritura-comparação de símbolos, associação de símbolos e salto condizionado. Eles estão na base de processos mais complexos, como as heurísticas de um programa como o GPS, escrito numa oportuna linguagem de programação. Fig. 4 O funcionalismo da primeira IA: os processos da informação podem ser realizados por estruturas materiais diferentes, o sistema nervoso humano e o hardware do computador. Como monstra a fig. 4, a hipótese era que os processos elementares são análogos aos utilizados pelos seres humanos e estão na base dos processos humanos mais complexos de elaboração, por sua vez heurísticos, decorrentes dos protocolos verbais. O sucesso da comparação entre pistas e protocolos justificava a hipótese, e portanto a mesma empresa da psicología como ciencia: a simulação dos processos cognitivos em computador. A construção destes programas, que podiam ser considerados verdadeiros modelos de actividades cognitivas, oferecia ao psicólogo o novo método de controlo operativo da teoria, na versãodo ciclo epistemológico «construção da teoria-controlo-modifica» já indicada por Rochester. Um exemplo da aplicação deste método era o abandono do LT para uma sua «versão modificada», o GPS. Esta proposta dava aos psicólogos a sensação de ter encontrado um lugar ao sol, segundo a expressão de Edwin Tolman: a psicología era finalmente autónoma da neurológia, e por uma boa razão. Uma vez que os processos elementares podem ser realizados em substratos físicos diferentes, o cérebro e o hardware do computador, o poder causal da estrutura física sobre a mente é independente da específica realização ou «instanciação» desta estrutura no cérebro biológico. Segundo a hipótese funcionalista já implicitamente formulada muitos anos antes, no tempo das primeiras discussões sobre o «pensamento mecânico», não é prevista uma comparação ao nível das diferentes estruturas. Após os anos sombrios do behaviorismo, a mente era devolvida aos psicólogos pelos construtores de máquinas. O homem, visto como elaborador de informação simbólica, tornava-se o protagonista da nova psicología da elaboração da informação. As abordagens semânticas Um dos programas de IA concebidos nos dias de Dartmouth teve por objectivo abordar a questão da explosão combinátoria com um estilo consideravelmente diferente do da representação do espaço dos estados. Se tratava da Máquina Geométrica, um programa que funcionou em 1959 num IBM 704, escrito numa versão modificada do FORTRAN por Herbert Gelernter (1929) e outros programadores do grupo de Rochester. A máquina demonstrava um discreto número de teoremas de geometria plana euclidiana recorrendo à um estratagema já indicado por Minsky em Dartmouth, donde Gelernter participou. Nos programas da primeira IA que jogavam ou demonstravam teoremas, a significação dos símbolos era considerado irrelevante. No GPS, por exemplo, todo se reduzia a um casamento de padrões puro e simples: se comparavam estruturas ou configurações físicas diferentes de símbolos (com efeito, fórmulas bem formadas da lógica proposicional) consistentes em letras e sinais como «√», «→» e assim por diante (os conectivos lógicos) e se aplicavam operadores para eliminar determinadas diferenças entre estas estruturas, «como se [elas] fossem pedaços de madeira ou metal», como dirão após H.A. Simon e L. Siklossy em Representation and Meaning (1972). O programador dava a significação aos símbolos manipulados pelo programa. A novidade da Máquina Geométrica era que, apesar da aplicação da heurística meios-fim na forma da decomposição do problema em subproblemas mais simples para demonstrar um teorema, em guiar a pesquisa não usava, como o LT ou o GPS, só métodos chamados «sintáticos» de casamento de padrões entre proposições. A máquina dispunha de uma figura geométrica (codificada como uma lista de coordenadas) correspondente à proposição do teorema; quando gerava um subproblema o comparava com a figura e o descartava logo se era incompatível com ela: «se querem [aqui] está a nossa intelegença artificial!», concluía Gelernter (1959). Experiências seguintes convenceram os autores da Máquina Geométrica que ela podia até mesmo competir com um ser humano numa forma «restreita», como eles diziam, do teste de Turing, limitada à demonstração de teoremas da geometria. A razão deste entusiasmo è muito simple. Pensava-se que a Máquina Geométrica usasse uma interpretação semântica das proposições para controlar a pesquisa: no fundo, não faz assim também um demonstrador humano? Com efeito, o acercamento sintático da primeira IA era coerente com os desenvolvimentos prevalecentes num sector com que ela manteve originalmente relações privilegiadas, o da linguística gerativa de Noam Chomsky. Com o tempo, estas relações foram cada vez mais conflituosas. Contudo, Simon (1991) ainda se lembrava como na mesma convenção do IRE no MIT do 1956, poucos meses depois Dartmouth, enquanto ele e Newell apresentavam a implementação do LT, Chomsky expunhas as linhas gerais da teoria linguística que um ano após publicou em Syntactic Structures. Com este livro, Chomsky estabeleceu uma verdadeira primazia da sintaxe no estudo da linguagem, uma primazia que teve sempre de aguantar. Os primeros acercamentos à manipulação automática da linguagem natural em termos de analizadores sintáticos das frases devem muito as suas ideias. Por outro lado, as estruturas formais das gramáticas gerativas não deixaram de chamar a atenção dos que trabalhavam ao desenvolvimento das linguagens de programação e dos seus compiladores. Além disso, havia um sector da pesquisa anterior ao nascimento oficial da IA em que os aspetos computacionais da sintaxe desempenhavam um papel príncipal e os problemas semânticos deliberadamente reservados: o da tradução automática. Se tratava de um sector de pesquisa nascido quase no início dos computadores digitais que teve impulso pouco depois da Segunda Guerra Mundial sobretudo por Warren Weaver. Ao computador, como já foi experimentado na desecriptação dos códigos no período da guerra, neste caso era atribuida uma tarefa que não ia muito além da substituição com um dicionário bilíngue, de uma palavra com uma equivalente, seguindo as regras da gramática e reduzindo a semântica, quando não se podia deixar, ao estudo de algumas regularidades estatisticas. Um dos primeros à pôr em prâtica este tipo de acercamento foi Oettinger. Mudado- se para Harvard, desde meados dos ano 50, lançou um projecto para a realização de uma máquina para a tradução do russo ao inglés. Na década seguinte, se estabeleceram centros de pesquisa um pouco por todo o lado, em Europa ocidental, União Soviética e Japão. Apesar de mobilização de recursos e a entidade dos financiamentos, depois de algum sucesso inicial a tradução automática parecia ter-se falhada. Em 1966, na sequência do chamado relatório ALPAC, nos Estados Unidos os financiamentos foram interrompidos. Oettinger, profundamente desapontado, parou de ocupar-se de tradução automática, exceto para voltar a reiterar a intrínseca impossibilidade da empresa, assinando enfim um prefácio a um dos textos que depois passaram a ponto de referência para cada crítico da IA, O que os computadores não podem fazer, do filósofo Hubert Dreyfus (nacido em 1929). Ironia do destino: Oettinger tinha sido um dos objectivos favoritos das invetivas contra o «pensamento mecânico» contenidas numa publicação anterior do 1961, esta vez de um engenheiro, Mortimer Taube, Os Computadores, o Mito das Máquinas Pensantes. A dificuldade que resume melhor a razão do fracasso da que era definida a «tradução completamente automática de alta qualidade» foi discutida por um outro pioneiro do sector, Yehoshua Bar-Hillel. Se pode definir nestes termos. Dada a frase « il cane si è inceppato», o falante de língua italiana sabe que com «cane» não se faz referência ao amigo do homem, dizemos CANE1, mas ao percussor, CANE2. Como poderia uma máquina traduzir corretamente a frase em inglês onde CANE1 é cachorro e CANE2 é percussor, sem saber o de que se fala? Casos deste tipo podem moltiplicar-se à vontade, que confirma que uma boa tradução interlíngua, mas em geral uma boa compreensão das línguas não pode prescindir dos significados sugeridos pelo contexto o pelo conhecimento implícito no léxico dos falantes. Agora, é possível ou é de excluir, como concluia Bar-Hillel, que se consegue representar estas características num programa para computador? A ideia de recorrer a um modelo que tivesse em conta das conexões associativas entre as palavras de um dicionário para tornar mais fléxivel o uso do léxico madureceu precisamente no contexto da tradução automática: entre os anos 50 e 60 a experimentaram, entre outros, Silvio Ceccato, com as suas «esferas nocionais» e Margaret Masterman. A partir da tese de doutoramento de 1966 com Simon à Carnegie-Mellon, M. Ross Quillian elaborou uma proposta que revelou-se uma das mais fecundas de desenvolvimentos até os nossos dias: a de «rede semântica». O objectivo de Quillian era, de modo mais geral, a construção de ummodelo da memória sem ântica psicologicamente plausível que, implementado num computador, reproduzisse algumos aspetos da capacidade dos seres humanos de compreender um texto e de tirar inferências de um conjunto de conhecimentos. É neste ponto que os objectivos da IA começaram a afastar-se dos de Chomsky. Para Quillian, o seu modelo demonstrava que o conjunto dos problemas relacionados à compreensão de um texto teve que ser analizado, traduzido ou interpretado para responder à perguntas e, em geral, não se esgotava na construção de um analizador sintático: o problema crucial era de «extrair [do texto] uma representação cognitiva» sobre a significação das palavras. Daqui o papel central atribuido à memória semântica. Esta era concebida por Quillian como uma exterminada rede fragmentada em «planos», porções de nós da rede que representam a significação de uma palavra do léxico, ou seja de entradas do dicionário. Para representar a significação da palavra plant, que tem três significados diferentes em inglês, Quillian usava três nós diferentes chamados «patriarcas»: PLANT ( planta), PLANT1 ( planta/instalação) e PLANT2 ( plantar). Eles eram ligados entre si por «ligações associativas», para poder ser explorados em sucessão para decidir após a qual significação de plan se faz referência num determinado contexto. De certa forma, se tratava de um mecanismo de desambiguação com que se podia abordar a dificuldade indicada por Bar-Hillel. Com efeito, a cada um dos três nós patriarcas correspondia um plano distinto, estruturado como uma hierarquia de nós subordinados ao patriarca e relacionados, por sua vez, por relações associativas a outros nós patriarcas pertencentes à outros planos. O trabalho de Quillian foi publicado numa coleção editada por Minsky em 1968, Semantic Information Processing, com uma série de pesquisas realizadas no MIT na primeira mitade dos anos 60, todas centradas na representação do conhecimento. Algumos programas da coleção permaneceram muito conhecidos, como ANALOGY de Thomas Evans, que reconhecia analogias entre simples figuras geométricas, STUDENT de Daniel Bobrov, que resolvia alguns problemas de álgebra elementar, SIR (Semantic Information Retrieval) de Bertram Raphael. Escrito em LISP, SIR era capaz de responder à algunas perguntas que implicavam o conhecimento de simples relações lógicas, como a pertença e a inclusão dos conjuntos e algunas das suas propriedades, como a transitividade da inclusão. Isto le permitia de tirar um número reduzido de inferências relativas à um domínio muito restrito, não explicitamente codificadas na sua base de dados. O conhecimento era representado internamente no programa sob a forma de «esquemas» fixados como «** é parte de **», onde as variáveis ** são nomes. Com estes esquemas o programa comparava as frases em inglês dadas em entradas e, aplicando regras de substituição e quantificação das variáveis que haviam neles, monstrava de «entender» frases como «um dedo é parte de uma mão». Para Raphael, entender a significação de uma frase consistia no processo automático que se resumia a reconhecer os objectos da frase e a colocá-los na relação especificada. A possibilidade de resolver algunas ambiguidades muy simples por este procedimento induzia Raphael e Minsky a concluir que abordagens semânticas deste tipo tinham maiores potencialidades dos sintáticos apoiados pela linguística e também dos baseados na simple pesquisa heurística no espaço dos estados. Os «excelentes resultados», observava Minsky em Semantic Information Processing (1968), obtenidos pelo uso do modelo sem ântico da Máquina Geométrica eram um exemplo disso. Também Simon, en Teoria de Resolução de Problemas (1972) partilhava desta opinião. O «simple paradigma do árvore da pesquisa», como ele já definia a pesquisa heurística da solução no espaço dos estados, tinha dado o seu melhor e os futuros programas deveriam ter tido a capacidade de usar de modo cada vez mais extendido e rafinado a informação útil para a solução de um problema. Por outro lado, ele observava que nos programas que tinham que compreender a linguagem natural a distinção de Chomsky entre competência (o conhecimento abstrato da linguagem) e prestação (a realização deste conhecimento em específicas capacidades linguísticas) tendia a dissolver-se. Uma série de pesquisas realizadas na Carnegie-Mellon entre 1965 e 1969 documentava este acercamento, nesse momento substancialmente convergente com o do MIT. Um programa de Stephen Coles, por exemplo, usava a informação semântica contenida numa rafiguração correspondente à uma frase ambígua para decidir qual das possíveis análises sintáticas da frase era a correta em relação ao contexto dado. Sistemas «híbridos» deste tipo, para usar o termo de Simon, tiravam partido da lição da Máquina Geométrica: ela não tinha uma única representação do espaço da pesquisa, a do espaço dos estados, mas também uma segunda, sob a forma de um «espaço sem ântico», o das figuras geométricas, e a sua eficiência era devida à utilização das duas representações. O problema do controlo da pesquisa, concluia Simon, já era relacionado ao da representação do conhecimento. Generalidade e conhecimento As prestações do programa ELIZA, implementado por Joseph Weizenbaum nos mesmos anos no MIT se baseavam num procedimento semelhante à comparação de esquemas de SIR: palavras dadas em entrada eram associadas com palavras-chave codificadas na base de dados. O programa conseguia assim conversar com um ser humano simulando o comportamento de um psicoterapeuta. ELIZA permaneceu o mais conhecido programa de compreensão da linguagem desses anos porque superou em alguns casos a usual «forma restrita» do teste de Turing: alguns pacientes que interagiram com o programa o confundiram com um terapeuta humano. Num livro que se tornou muito popular ( O Poder do Computador e a Razão Humana , 1976) Weizenbaum retirou deste resultado conclusões pessimistas e mesmo preocupadas sobre a utilidade da empresa da IA. Nesta discutível forma do teste de Turing se inspira o prêmio Loebner periodicamente atribuido a um computador capaz de superá-lo. Para além das avaliações mais gerais de Weizenbaum, em retrospectiva estes programas «semânticos» dos anos 60 parecem realmente pouco semânticos. As prestações eram limitadas a domínios muito reduzidos e o conhecimento era dado implicitamente nos esquemas ou nas palavras-chave fornecidas pelo programador. A mesma análise sintática em simples procedimentos ad hoc. As entusiásticas avaliações dadas por Minsky dos programas contenidos na coleção de 1968 parecem hoje exageradas, não menos da sua otimista previsão sobre os desenvolvimentos futuros, que não foram, e não podiam ir, na direção do simples aperfeiçoamento deste tipo de experiências. Contudo, embora na sua grosseria, estes programas levantaram por primeros uma necessidade que constituirá umo dos baricentros da pesquisa seguinte em IA: construir sistemas capaces de gerir conhecimentos do mundo por as suas adequadas representações. A realçar a importância para este objectivo foi um estudante de Simon, Edward Feigenbaum, numa intervenção à Information Processing Conference de 1968 em que ele propunha-se indicar as perspectivas da IA da «próxima década». Da Carnegie-Mellon, onde sob a supervisão de Simon desenvolveu um programa para computador, conhecido como EPAM, que simulava os processos humanos da memorização de sílabas sem sentido, Feigenbaum chegou em Stanford, e os seus interesses mudaram. Em Stanford encontrou Joshua Lederberg, Nobel da genêtica, e desde 1965 eles lançaram um projecto destinado a dar à IA uma nova dimensão aplicativa, com consequências de tipo comercial nesse momento imprevisíveis. Como esclarecia Feigenbaum em apresentar à Information Processing Conference os primeros resultados das pesquisas realizadas com Lederberg, o seu projecto se colocava na que ele considerava «a tendência principal da empresa da IA: a solução de problemas no paradigma da pesquisa heurística». Contudo com uma diferença