Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Marco Casella
HISTÓRIA E EVOLUÇÃO DA INTELIGÊNCIA ARTIFICIAL
%SUBTITLE%
UUID: b5b4f4d8-e964-11e6-b45a-0f7870795abd
This ebook was created with StreetLib Write
http://write.streetlib.com
http://write.streetlib.com/
Índice
Introdução
Rumo ao computador inteligente
O «pensamento mecânico»
A simulação do cérebro ao computador
Estratégias satisfatórias
As heurísticas antes e depois de Dartmouth
A questão dos neurónios
As abordagens semânticas
Generalidade e conhecimento
Os percursos da lógica
Problemas de senso comum
Contra a lógica
A Visão Artificial
Velhos e novos projectos
As arquitecturas: ciência cognitiva e neoconexionismo
A inteligência artificial e os enigmas da mente
As orientações da pesquisa desde o final dos anos 80
A nova IA
Os paradigmas por uma ciência
Introdução
O estudo da Inteligência Artificial tem uma história recente; a sua data oficial de
nascimento é considerada por unanimidade o 1956. Contudo, não há nenhum acordo
sobre a definição do seu programa de pesquisa como disciplina científica. Alguns
filósofos e pesquisadores do sector são céticos quanto à mesma possibilidade de
considerar a Inteligência Artificial (doravante IA) uma ciência. Numa interpretação
«fraca» (usando um vocábulo tornado canônico por John Searle) ela parece bem
uma prática experimental, entre a informática e a engenharia. O seu objectivo seria a
construção de artefatos com prestações que podem ajudar (e em alguns casos
substituir) o homem na solução de tarefas teóricas ou práticas de diferente
complexidade.
Nesta perspectiva, a IA é vista como o ponto de chegada de um processo evolutivo
que permitiu extender a automação desde algumas actividades do trabalho manual à
algumas actividades do trabalho intelectual tais como a elaboração de cálculos
complexos, o controlo e a planificação e a consulta especializada em algumas
prestações professionais. Dado que se trata de trabalho intelectual, poderemos sem
dúvida falar de «inteligência», mas, uma vez que este trabalho é completamente
«automático», torna-se difícil ou discutível precisar a natureza desta inteligência. No
fundo, aqui está a origem do paradoxo sobre o qual às vezes se insistiu: logo que
uma prestação do trabalho intelectual é reproduzida por um artefato, ela não parece
mais uma função verdadeiramente inteligente.
Segundo um outro ponto de vista, a IA pode ter a ambição de ser uma ciência, esta
vez dos princípios gerais da inteligência e do conhecimento (ou seja comum aos
seres humanos e às máquinas) mas precisa da contribuição decisiva da lógica: um
pouco como se diz da física, que precisou da matemática para desenvolver-se como
ciência. Portanto, o problema da IA consiste, em primeiro lugar, em encontrar a
lógica, ou as lógicas, pertinentes aos seus objectivos.
É diferente a perspectiva segundo a qual a IA é definida em relação às pesquisas
sobre a inteligência natural. Aqui as coisas se complicam porque a inteligência
natural, por sua vez, não é um ámbito bem definido, a a psicologia, a disciplina
tradicional por o seu estudo, viveu muitas vezes contraditoriamente o seu estatuto de
ciência. Mais recentemente, além disso, dimensionada a ideia que a mente pode
representar um objecto de pesquisa independente do cérebro, algumas tendências da
IA interessadas na mente são levadas à lidar com os resultados e os métodos de uma
outra ciência, a neurologia (ou neurociência, como agora se diz).
É interessante notar como já Alan Turing, figura mítica na historia da IA, apesar de
ter morto dois anos antes do nascimento oficial da nova disciplina, se comparou
com os principais problemas que deram origem às interpretações do programa de
pesquisa da IA. Já a célebre máquina abstrata que tem o nome de Turing e a sua tese
sobre a natureza da capacidade de cálculo de 1935 se baseavam numa premissa
completamente original em contraste com outras formulações equivalentes: dar uma
descrição rigorosa de procedimento automático, ou mais precisamente mecânico,
invocando o comportamento de um ser humano que o aplica.
Depois a que poderíamos chamar a realização física da sua máquina abstrata com o
advento dos primeiros computadores digitais, Turing discutiu as objeções à
possibilidade de uma «máquina inteligente» que se baseavam na incompatibilidade
da noção de «automatismo» com a de «inteligência». No século 19 talvez pudesse
ter sido um bispo que podia formular-lhe objeções deste tipo. Como recordou
Hodges (1983), um dos principais opositores de Turing foi Geoffrey Jefferson, que
alegava que a lógica era inútil para o estudo da mente humana e que era impossível
reproduzir as suas características num artefato não biológico, ou seja abstraindo do
cérebro e, de modo mais genérico, do corpo. Se pode dizer que é um inventário
parcial mas eficaz dos problemas principais que a IA vai enfrentar ao longo da sua
história.
Mesmo que a cibernética tinha desempenhado o seu papel em dimensionar a
contraposição entre as noções de automatismo e de inteligência, foi a construção dos
primeiros computadores digitais que sugeriu um modo para discuti-la novamente.
Nesta análise da evolução da IA se seguirá a que parece a estrada principal que
levou às origens da IA, a estrada marcada pelas tapas da construção do computador
que permitiram pouco a pouco pensar nisso como a uma máquina inteligente,
combinando dois vocábulos tradicionalmente longe entre eles.
Rumo ao computador inteligente
«Se Babbage tivesse vivido setenta e cinco anos depois, eu seria desempregado»:
parece que dissesse assim o físico Howard Aiken (1900-1973) na frente da sua
máquina, o computador Mark I, ou o Automatic Sequence Controlled Calculator,
completado em Harvard em Fevereiro de 1944. Se tratava de uma máquina
constituida por relés eletromagnéticos capaz de efetuar cálculos numéricos sobre
números codificados em representação decimal. Como a célebre «máquina
analítica», nunca realizada mas concebida em pormenor em 1837 por o matemático
inglês Charles Babbage (1791-1871), o computador de Aiken se baseava na ideia de
máquina à programa: logo que as instruções para proceder a um cálculo eram
codificadas sob a forma binária sobre uma fita de papel perfurada, podiam ser
efetuadas sequencialmente de forma automática, ou seja sem a intervenção do
operador humano.
Aiken correu, de certa forma, o risco de ser desempregado: alguns anos antes que
completasse a construção do Mark I, em 1941, o engenheiro Konrad Zuse (1910-
1995) tinha construido na Alemanha um computador automático que, além disso,
usava uma representação completamente binária. Mas a máquina de Zuse,
conhecida por Z3, foi destruida durante os bombardeios dos aliados sobre a
Alemanha.
O computador digital automático nascia portanto na Europa, e no meio da Segunda
Guerra Mundial. Foi Norbert Wiener (1894-1964) a recordar como ele se
substituísse gradualmente ao computador analógico nas aplicações bélicas. A
elaboração rápida e precisa de grandes quantidades de dados numéricos era
indispensável, por exemplo, para tornar eficaz a artilharia pesada perante a
velocidade aumentada dos veículos aéreos. No MIT (Massachusetts Institute of
Technology), Wiener, em colaboração com o engenheiro Julian Bigelow,
desempenhou um papel primordial na afinação de sistemas automáticos antiaéreos
em cujos a informação sobre o objectivo móvel captada pelo radar e elaborada pelo
computador retroagia modificando a linha de pontaria do canhão.
Em 1943, Wiener publicou com Bigelow e com o fisiólogo Arthuro Rosenblueth
(1900-1970) um artículo sintético donde se afirmava de recuperar a linguagem
psicológica (vocábulos como «fim», «escolha», «objectivo» e afins) para descriver
sistemas munidos de retroação (feedback) negativa como o acima descrito, ou seja
capaz de responder de forma seletiva às solicitações do ambiente, modificando o seu
comportamento tal como os organismos viventes. Esse artículo é agora considerado
como o ato de nascimento da cibernética, como Wiener chamou alguns anos depois
a disciplina que deveria ter-se ocupar dos mecanismosfondamental: o ambiente da tarefa escolhida não era o dos problemas chamados
«bem definidos» e dos «problemas brinquedo» sobre os quais foi exercida a
programação heurística até esse momento, ou seja a lógica ou os varios jogos e
quebra-cabeças. Ao contrário, o programa abordava uma tarefa de particular
complexidade: a indução e a formação de hipóteses num problema de natureza
científica, ou seja a identificação da estrutura molecular de compôstos organicos não
conhecidos.
O fluxograma do programa se desenvolvia num ciclo que reproduzia a observação
dos dados, a formação de hipóteses, a predição e o controle segundo o procedimento
canônico do método científico «baconiano», como o definiu Michie na discussão
que seguiu a exposição de Feigenbaum à Information Processing Conference.
Na sua versão originária, o programa, escrito em LISP e chamado DENDRAL
(DENDRitic ALgorithm) era composto por um «gerador de hipóteses» e um
«Previsor». Como clarificarão mais tarde os seus autores, estas duas partes de
DENDRAL reflectavam a filosofia «generalista» do GPS, no sentido de que
incorporavam o método mais geral e, como então se disse, mais «débil» possível da
pesquisa heurística como a concebiam Newell e Simon, o do «gera-e-controla».
O Gerador definia o espaço do problema de DENDRAL como umo espaço das
hipóteses, de modo totalmente análogo – observava Feigenbaum – a um gerador das
jogadas permitidas de um programa de xadrez.
A geração das hipóteses sobre a estrutura molecular podia ser exaustiva, baseando-
se num algoritmo já identificado por Lederberg. Por sua vez, o Previsor, que
controlava as hipóteses e selecionava as plausíveis, era definido um «experto», mas
um experto muito geral: a sua competência era a teoria da espectrometria de massa.
A novidade do Programa era que o Previsor não examinava todas as hipóteses
produzidas pelo Gerador segundo o algoritmo de Lederberg, mas só um seu
subconjunto selecionado por um «Processor de inferências preliminares». Era esse o
verdadeiro «especialista», após definido como um planificador que opera com base
de conhecimentos e regras heurísticas relativas ao espectro de massa e aos
componimentos atómicos da molécula que se pretende identificar.
DENDRAL é considerado como o precursor dos «sistemas expertas», come serão
chamados os sistemas de IA que utilizam extensivamente conhecimentos
especializados para resolver problemas complexos. Ele podria ser visto como o
antagonista do GPS que, na forma originaria de resolução de problemas geral e
integrado, já se demonstrava impráticavel. Contudo, há que não esquecer que
DENDRAL nas intenções dos seus autores, representava inicialmente um estudo
sobre a relação crítica existente entre generalidade e potência das heurísticas.
A sua conclusão foi que as heurísticas gerais, os «métodos fracos», se demonstram
eficientes só quando são associados à alguma heurística especializada por um
determinado domínio de conhecimentos. Nesta forma, os métodos fracos
continuaram a representar os elementos estruturais de diversos sistemas de pesquisa
heurística em IA. Uma parte da seguinte experimentação sobre DENDRAL, por
exemplo, se centrou no estudo dos vínculos a impor ao planificador.
Michie, intervindo na mesma Information Processing Conference, considerou
DENDRAL como um exemplo de «engenharia epistemólogica». Feigenbaum
relatou após que preferiu a expressão «engenharia do conhecimento», que já entrou
no jargão para qualificar um dos pontos críticos da pesquisa sobre os sistemas
expertos: como transferir num programa de IA o patrimônio de conhecimento
heurístico que caracteriza um experto humano. Feigenbaum também relatou a
desconfiança que DENDRAL encontrou inicialmente entre os «generalistas», os
que, também sem aderir à configuração originária do GPS, pensavam que a tarefa da
IA era a pesquisa dos princípios gerais da inteligência que podiam ser transferidos
nas máquinas.
Há que dizer, contudo, que antes do desenvolvimento de computadores com grandes
memórias desde os anos 70, a gestão de bases vastas de conhecimentos como as
pedidas pelos sistemas expertos não era um objectivo possível. Só depois esse
périodo os sistemas expertos conseguiram difundir-se nos sectores mais diferentes,
da medicina à geologia, à engenharia, à educação assistida e transformar-se muitas
vezes em produtos comerciais. Mais tarde, Feigenbaum criou uma empresa para a
conceção e a venda de softwares para sistemas expertos.
Os percursos da lógica
No famoso livro Perceptrons , publicado em 1969 por Minsky com Seymour Papert,
que chegou no MIT após várias experiências europeas, eles, como é habitual repetir,
mataram as redes neurais, demonstrando a incapacidade dos Perceptrons de
Rosenblatt de discriminar estímulos visuales também muito simples.
No momento da publicação desse livro, contudo, não entrou em crise só a proposta
dos sistemas de auto-organização e das redes neurais cujas prestações, como Minsky
tinha previsto em Teddington, não iam além da reprodução de simples actividades
de classificação e associação. Com efeito, também entrou em crise um par de estilos
de pesquisa da IA, um par de «paradigmas», como diziam os seus protagonistas, e
outros estavam prestes a avançar, num clima de contraposições, escolhas de campo e
pensamentos que caraterizou a IA de todo a «década seguinte», para retomar a
expressão de Feigenbaum.
Entre as posições generalistas que os autores de DENDRAL rejeitavam não havia só
o GPS, mas também um programa de tipo geral de que McCarthy tinha traçado o
protótipo na época do simpósio de Teddington. O Advice Taker, o nome do
programa, devia ter sido capaz de elaborar planos e tirar consequências com base de
um corpo de conhecimentos suficientemente vasto também utilizando de
«conselhos» do programador.
O Advice Taker partilhava com o GPS a aspiração à generalidade, mas McCarthy
insistia no modo uniforme como representar o conhecimento que o sistema tinha do
ambiente, inevitavelmente baseado em crenças e expetativas ou, como ele dizia, no
«bom senso». Este conhecimento devia ser representado sob a forma de proposições
da lógica proposicional assumidos como axiomas ou premissas e as consequências
deviam ser tiradas pelas regras desta lógica.
Uma primeira tentativa de implementar ao menos algumas características do Advice
Taker remonta a 1964 e se deve a Fisher Black: Minsky o incluía em Semantic
Information Processing, advertindo que se tratava do «artigo menos “ semântico” da
coleção». A aspiração à generalidade e a um mecanismo de dedução uniforme que
caracterizava o Advice Taker foi retomado explicitamente só após a formulação de
um novo procedimento de dedução automática que inicialmente se revelou
particularmente promissor. Se tratava do princípio de resolução de J. Alan
Robinson, que um estudante de McCarthy, Cordell Green, incorporou num
programa question answering, QA3, que era capaz de responder a perguntas sobre
alguns domínios diferentes.
Atrás do resultado de Robinson haviam os estudos de vários pesquisadores
interessados num tipo de demonstração automática de teoremas que não tinha como
objectivo a simulação dos processos humanos mas fazia referência à resultados
anteriores de lógicos como Skolem, Herbrand e Gentzen. Hao Wang, em particular,
já tinha invertido os cálculos de Newell, Shaw e Simon sobre a eficiência das
heurísticas do LT, implementando num IBM 704, entre 1958 e 1959, três
procedimentos algorítmicos que em poucos minutos demonstravam boa parte dos
teoremas do cálculo proposicional e predicativo dos Principia mathematica.
As pesquisas seguintes de Martin Davis e Hilary Putnam e de Dag Prawitz
culminaram no trabalho de 1965 de Robinson, em que se descrevia um cálculo
lógico sem axiomas mas com uma única regra de inferência chamada «resolução».
Na sua forma mais simples, a regra diz que duas fórmulas bem formadas só
constituídas por disjunções de fórmulas atómicas ou suas negações, AvB e BvC (as
«cláusulas progenitoras») é possível inferir o «resolvente» AvC (a cláusula
consistente na uniãodos constituintes não complementares das cláusulas
progenitoras). O cálculo de Robinson cumpria um requisito importante, a
integralidade, mas a construção de um demonstrador automático de teoremas só
com a resolução era tornada impossível pela explosão combinátoria dos resolventes
desnecessários ou redundantes gerados pela regra.
Durante alguns anos a maioria da pesquisa sobre a dedução automática se centrou
nos chamados «refinamentos» da resolução que foram estudados sobretudo na dupla
forma das restrições e das ordenações a impor à geração de cláusulas particulares. O
interesse pelos refinamentos é testemunhado pelos artigos muito numerosos sobre o
tema publicados em Machine Intelligence, a coleção editada pelo grupo de Michie,
que começou a aparecer periodicamente desde 1967 e em «Artificial Intelligence», a
primeira revista dedicada à IA, publicada desde o mesmo ano.
Estas revistas também testemunham a mudança de rumo que ocorreu na primeira
metade dos anos 70, quando a insatisfação pelos resultados alcançados pela pesquisa
nos refinamentos da resolução reavivou o interesse por uma demonstração de
teoremas menos sensível ao requisito da integralidade e mais atenta aos
procedimentos heurísticos inspirados em métodos humanos de solução de
problemas, menos sintáticos e uniformes e mais relacionados a conhecimentos
relativos a domínios específicos. W.W. Bledsoe foi talvez aquele que, trabalhando
inicialmente nos refinamentos, «passou da outra parte», como ele disse, com mais
convição: o seu programa para demonstrações de conjuntos IMPLY fazia
parcialmente referência à abordagem heurística de Newell, Simon e Gelernter.
Contudo, esta redescoberta das heurísticas simulativas não decretou o abandono
imediato da resolução: ao contrário, mais ou menos no mesmo período em que era
condenada, ela abriu o caminho a um novo estilo de programação introduzido por
Robert Kowalski e conhecido como «programação lógica». Ela usa um refinamento
da resolução que è completo e eficiente para uma particular e importante classe de
fórmulas, as cláusulas de Horn (do nome do lógico que as tinha estudadas). Este
refinamento foi após incorporado no PROLOG (PROgramming LOGic), a
linguagem de programação desenvolvida na primeira metade dos anos 70 em
algunas universidades europeias, antes de mais em Edimburgo e, com Alain
Colmerauer, em Marselha.
Problemas de senso comum
A dificuldade em extender as prestações de QA3 em presença de problemas
complexos e de bases de dados extendidas desencorajou Green a continuar a
prosseguir o objectivo de um sistema capaz de responder a perguntar que fosse
«geral, formal e dedutivo» (assim ele se expressava pensando ao Advice Taker).
Como observou McCarthy (1988), foi esta dificuldade relativa ás técnicas de
controle do raciocínio que levou à elaboração de programas muito complexos como
STRIPS (STandford Research In stitute Problem Solver) e os seus sucessores.
Em STRIPS, concebido em 1969 no SRI (Stanford Research Institute) por Richard
Fikes e Nils Nillson, o conhecimento era representado, uma vez mais, pela lógica da
primeira ordem e a dedução era sempre confiada à resolução, mas o planeamento
era realizado através de uma versão desenvolvida da heurística meios-fim do GPS.
Em 1971, sempre no SRI, os autores de STRIPS, com a colaboração de Raphael,
utilizaram o seu programa como sistema de controle de um robot que se movia num
ambiente real chamado Shakey.
Na década anterior, em Stanford, no MIT, em Edimburgo, se experimentaram
diferentes linhas de pesquisa na manipulação automática de simples blocos
colocados numa mesa por sistemas equipado com um braço móvel e uma câmara
que fornecia imagens a um computador, os chamados sistemas «olho-na-mão».
Também não faltaram tentativas de construir robots móveis. Shakey era um robot
que planeava ações com base de um programa para computador movendo-se num
ambiente muito delimitado em que conseguia evitar obstáculos e mover grandes
cubos. As suas prestações não foram julgadas tais que o tradicional financiador das
pesquisas de IA nos Estados Unidos, a DARPA (Defense Advanced Research
Projects Agency), interessada nesse momento nas aplicações militares da robótica
continuasse a financiar o projecto.
Um problema que desencorajou Green e que o grupo do SRI conseguiu tornar
endurecível com STRIPS no âmbito das limitadas prestações de Shakey, é agora
conhecido como problema do quadro, formulado por McCarthy e Patrick Hayes à
Universidade de Edimburgo (1969). O problema do frame se coloca particularmente
na fase de execução de um plano, quando deve considerar-se sequências alternativas
de ações, e enquanto certas ações contribuem a mudar o contexto de partida outras o
deixam inalterado. Visto que o objectivo é de dar uma representação formal do
conhecimento do mundo e que o mundo muda durante a execução de um plano, é
necessário descrever sempre, com oportunos axiomas, os chamados «axiomas do
frame», também os aspectos de uma situação que não são modificados pela ação.
Procedendo na execução do plano, a coisa se traduz inevitavelmente numa
proliferação de axiomas que, se pode ser controlada no caso dos habituais
problemas brinquedo, é sempre incontrolável no caso de problemas relativos à
complexidade do mundo real: um robot que se move no mundo físico aborda um
problema deste tipo e Shakey podia abordá-lo só porque se movia num ambiente
bem delimitado.
No artigo sobre o problema do frame, contudo, McCarthy e Hayes operavam una
distinção clara entre os problemas colocados pelo controle das inferências, que eram
definidos «heurísticos», e os relativos à representação do conhecimento por uma
linguagem formal, «epistemológicos». Com STRIPS, então, se tentou abordar os
problemas heurísticos, mas McCarthy sempre se interessou nos epistemológicos
cuja solução, ou a menos correcta configuração, parece ser para ele preliminar à
solução dos outros.
Neste sentido, para McCarthy o Advice Taker nunca foi realizado e nunca será se
antes não serão esclarecidos os aspectos da lógica necessários para capturar o
carácter não monótono do raciocinio baseado no bom senso. Neste caso, a
informação da qual se parte é incompleta o a situação muda, assim aprender nova
informação pode provocar a eliminação de conclusões anteriormente inferidas, algo
que não pode verificar-se na lógica tradicional ou monótona.
O exemplo canônico contempla a inferência seguinte: se x é um pássaro (premissa)
então x pode volar (conclusão); mas se me apercebo de que x é uma avestruz (outra
premissa) tenho que rever a conclusão atingida. É na abordagem epistemológica ao
raciocinio não monótono que se coloca a proposta da «circunscrição» de McCarthy.
Ela se apresenta como uma «regra para as conjecturas» que, em presença de
informações incompletas, como no caso exemplificado, justifica que se tiram
«conclusões precipitadas». A ideia é de circunscrever como «anormais» as
potenciais exceções à uma situação típica, como a descrita pela proposição «se x é
um pássaro então x pode volar».
Neste caso, a propriedade «não volar» é anormal em relação à «ser um pássaro»,
então é circunscrita, ou seja assumendo que tem a extensão mais pequena possível
quanto às informações de que se dispõe. A proposição do exemplo se reformula
portanto como a regra seguinte: se x é um pássaro e x não é um pássaro anormal,
então x pode volar.
O contexto epistemológico fornece foi o pano de fundo de toda uma série de
pesquisas definidas após «logicistas» sobre o uso da lógica como strumento para
representar o conhecimento baseado no senso comum. Não foi clarificado como as
soluções propostas podiam fornecer sugestões para a sua implementação efectiva,
por outras palavras para a solução dos problemas heurísticos. Se assistiu assim à
proliferação bastante fim em si mesma de pesquisas sobre várias formas de
circunscrição e regras não monótonas, que finalmente provocou também algumas
deserções: é o caso de Drew McDermott, que abandonou as pesquisas sobre a lógica
não monótona através – para usar a sua fórmula –de uma «crítica da razão pura»
logicista.
Houveram resultados controversos também no estudo de outras formas de lógica:
modal, temporal e difúsa. Com esta última, introduzida por Lofti Zadeh (que mais
tarde encontrou imprevistas aplicações industriais) se pensou de poder capturar o
carácter «difúso» do raciocinio do bom senso: um problema, como se lembra,
colocado à mesma origem da simulação dos processos mentais com o computador
em termos de lógica «difúsa».
Contra a lógica
Antitética à logicista foi a posição sempre apoiada por Minsky. Remonta à 1975 a
publicação de um seu artigo, O Papel de representação de conhecimento , tornado tão
popular a ser conhecido como o «papel de frame». Nele Minsky voltava a contrapor
o «novo paradigma» da representação do conhecimento ao precedente «paradigma da
pesquisa heurística», propondo uma estrutura de dados que chamou frame .
O núcleo da ideia não era certamente original. Noções deste tipo, o recordava
Minsky, já eram populares entre os psicólogos (o «esquema» de Bartlett, por
exemplo). Além disso, em certos aspectos o frame se colocava entre os
desenvolvimentos da noção de rede semântica de Quillan, os mais influentes dos
quais era nesse momento a teoria da «dependência conceitual» elaborada por Roger
Schank, na Yale University, com uma abordagem antichomskiana e antilogicista.
No início dos anos 70 a teoría de Schank estabelecia os limites insuperáveis dos
programas de compreensão da linguagem natural da precedente década. Para Shank o
modelo negativo era ELIZA, «uma coleção de truques», ele dizia, para fazer
macaquear a um programa a compreensão do significado das palavras. O seu
objectivo era de descrever, através de processos computacionais que fossem
psicologicamente plausíveis, a compreensão da linguagem come fenómeno
cognitivo.
Shanck propunha identificar um pequeno conjunto de noções elementares, as
«primitivas semânticas», pelas quais poder construir a representação do significado
de qualquer verbo inglês. A frase era portanto analizada através da explicitação da
sua representação em termos de primitivas semânticas. Com efeito, era esto o axioma
central da teoria, duas frases que tem o mesmo significado, mesmo que contêm
palavras diferentes ou são construidas de forma diferente, partilham uma única
representação em termos de primitivas semânticas . Assim, as frases «o homem
recebeu o livro» e «eu dei o livro ao homem» podem ser representadas com uma rede
particular em termos de uma única primitiva semântica que define a transferência de
possessão ( trans na terminologia de Schank, fig. 5).
Fig. 5. A primitiva semântica trans de Roger Schank.
A teoria de Schank tinha implicações importante para a tradução automática, como
demonstravam os primeiros programas de Schank como MARGIE e SAM. As
primitivas semânticas, consideradas comuns a todas as linguagens naturais,
constituíam uma espécie de «interlingua». Portanto, a habilidade de traduzir frases
não era considerada diferente da de entendê-las ou parafrasea-las: ela se basea
sempre na explicitação de uma representação, neste caso comum à frases de dois
idiomas diferentes. Desvanecido o sonho originário da «tradução completamente
automática de alta qualidade», é a partir destas experiências que retomaram vários
projectos de tradução automática.
Foi quando Schank passou da construção de um programa que entendesse (ou
traduzisse) frases à de um programa que entendesse (ou traduzisse) textos que
enfrentou inevitavelmente os problemas habituais do bom senso: em primeiro lugar,
o dos conhecimentos necessários para tirar inferências sensatas da união de frases
diferentes de modo a tornar explícitas crenças e expectativas solicitadas
implicitamente pela leitura do texto.
Para abordar estos problemas, Schank, com o psicólogo de Yale Robert Anderson,
elaborou em SAM (Script Applier Mechanism) o mecanismo dos scripts. Para dar
uma ideia, podemos voltar ao papel de frame de Minsky. O frame tornou-se o
protótipo das várias noções afins, scripts incluídos, elaboradas nesses anos ou nos
anos seguintes com o objectivo contrário ao logicista, ou seja de abordar o problema
do bom senso com sistemas de representação do conhecimento psicologicamente
plausíveis. Há que não esquecer que os sistemas as regras de produção foram
utilizados por Newell e Seimn com o mesmo objectivo. O interesse pelo frame é, no
entanto, documentado desde a sua aparição nos comentários de Fikes, Hewitt,
Schank e outros em Schank e Nash-Webber.
Para retomar um exemplo de Minsky, em abrir uma porta numa casa que não nós é
familiar, geralmente esperamos encontrar um quarto com características mais ou
menos reconhecíveis e previsíveis que fazem referência à un conjunto de
conhecimentos organizados sob a forma de protótipos. As estruturas-dados em que
reflectir este modo dúctil e muito integrado de usar o conhecimento que é típico dos
seres humanos podem ser descritos para Minsky como sistemas de frame.
Portanto, o frame quarto é um contentor de dados que inclui características gerais,
enumeradas em «casas» específicas ou slots, como ter um certo número de paredes e
janelas, um tecto e assim por diante. Poderá haver vários tipos de quartos: sala de
jantar, quarto de dormir, etc., cada um dos quais constitui, por sua vez, um frame com
características mais específicas, sempre enumeradas em «casas» específicas. E a sala
de jantar de Giovanni poderá ser muito diferente da de Maria em vários detalhes,
mais fará sempre parte de um mesmo tipo do frame quarto, do qual herda as
propriedades, segundo o mecanismo já presente nas redes semânticas de Quillian.
A descrição de Minsky é em geral intuitiva e por vezes obscura. Contudo, ele
descrevia métodos que activam ou desactivam frames a níveles diferente de detalhe
dando lugar à possibilidade de modificar crenças e expectativas frustradas o
exigirem. Para Minsky, por exemplo, o modo de abordar as exceções típico do
raciocinio do bom senso ou não monótono é bem representado num frame com o
método dos defaults que estabelecem generalizações que constituem crenças alegadas
até prova (ou em defeito de informação) em contrário: um default de quarto pode ser
o número «igual a 4» das paredes, mas um quarto com uma pared desabada é algum
tipo do frame quarto.
Num apêndice ao papel de frame, Minsky lançava um duro ataque às teses logicistas
que, para ele, desviadas pelos falsos problemas da coerência e da integralidade, não
eram capaces de enfrentar o caractér holístico do conhecimento humano, para usar
esta vez o termo utilizado por Daniel Bobrow e Terry Winograd sobre a linguagem
para a representação do conhecimento KRL (Knowledge Representation Language),
certamente o mais afectado pela ideia dos frames.
Sobre a razoabilidade da contraposição de Minsky entre representações
psicologicamente plausíveis e representações logicistas as avaliações não foram
concordes. Uma resposta pelos logicistas foi inicialmente de Hayes que tentou, com
discutido sucesso, traduzir em termos de lógica da primeira ordem o formalismo das
redes semânticas e dos frames para demonstrar a sua substancial equivalência.
Contudo, se para alguns os frames não passam de conjuntos de proposições
declaratórias, para outros, mais plausívelmente, eles, como os scripts e outras noções
análogas, sugeriram um modo para superar a contraposição teorizada por McCarthy
entre problemas epistemológicos e heurísticos e também para redimensionar a
disputa entre «declarativistas» e «proceduralistas», que dividiu o mundo da IA dos
anos 70.
Em suma, enquanto para a tese declarativista, apoiada sobretudo pelos logicistas, o
conhecimento é em primeiro lugar «saber que», e portanto consiste a dispor de um
conjunto de factos e regras para inferir outros, para a tese proceduralista o
conhecimento é principalmente «saber como», e portanto consiste a dispor de
procedimentos pelo uso do mesmo conhecimento. É possível dotar os frames de
procedimentos deste último tipo chamados «ligações procedurais»: no frame quarto,
por exemplo, se poderia ligarà casa «número das paredes: igual à 4» um
procedimento para reconhecer, quando as circunstâncias o exigem, a parede de um
quarto de forma circular.
O programa que pode ser considerado um exemplo das teses proceduralistas é
SHRDLU, realizado por Winograd no MIT em 1971 no ámbito de um projecto para a
compreensão da linguagem natural. SHRDLU é um robot simulado capaz de efectuar
com grande coerência ações num ambiente também simulado em que blocos de
formas e colores diferentes são dispostos numa mesa: um «micromundo», como eram
chamados estos conjuntos de sólidos geométricos sobre os quais foi exercida muita
IA desses anos.
SHRDLU executava correctamente ordens diferentes, dadas em entrada em inglês, e
de mover certos blocos sobre a mesa, e explicava a pedido em inglês porque se
comportava num modo e não noutro. Também era capaz de remover ambiguidade a
ordens não claras, fazendo referência ao modo em que eram dispostos os blocos num
determinado momento e pedindo, se necessário, uma confirmação da sua
interpretação do contexto. Para isso, SHRDLU integrava a análise sintática e
semântica das proposições com um pequeno corpo de conhecimentos sobre os
objectos e as propriedades do micromundo.
Com uma abordagem diferente da de Schank, tornava possível tratar os mesmos
aspectos do significado inacessíveis aos programas dos anos 60 que – como vimos –
se baseavam na utilização de comparação de esquemas e de palavras-chave. Com
efeito, SHRDLU tinha um modelo interno do micromundo e o seu conhecimento era
representado em forma não declarativa mas procedural. A cada palavra do seu
vocabulário correspondia não uma definição explícita mas um breve programa cuja
execução controlava se a utilização da palavra no contexto era correcto ou não: em
isso consistia o significado da mesma palavra.
A representação do conhecimento em forma procedural típica de SHRDLU era
tornada possível pelo MICROPLANNER, a linguagem de alto nível utilizada. Se
tratava de uma ação do PLANNER, inventato por Carl Hewitt no MIT em 1971, em
que a parte relativa ao controle (ou heurística no senso de McCarthy) era, por assim
dizer, integrada à relativa à representação (ou epistemológica).
A Visão Artificial
Uma crítica à escola dos micromundos, à hegemonia da representação do
conhecimento, ao proceduralismo e à solução cognitiva de problemas, em suma ao
intero e divergente frente da pesquisa sobre a IA dos anos 70, foi de David Marr
(1945-1980). Ele criticou trabalhando num sector considerado durante muito tempo
secondário em IA: o da Visão Artificial. Ainda hoje as ideias de Marr, não obstante
se veem diferentes limites, parecem marcar uma linha de divisão na breve história da
Visão Artificial e deixaram marcas importantes em tendências mais recentes da
pesquisa cognitiva.
Invitado por Minsky e Papert, Marr chegou no MIT desde Inglaterra em 1973,
neurofisiologista convencido de que a visão era um argumento demasiado complexo
para ser abordado só por os métodos da sua disciplina. No MIT havia uma longa
tradição de pesquisa sobre a visão relacionada aos interesses pela robótica que
recordámos, estimulados, em particular, por Minsky.
Depois de uma falsa partida, em que a Visão Artificial foi considerada um problema
secondário e de fácil solução em relação à pesquisa sobre os princípios gerais da
inteligência, parecia que se era seguido un caminho promissor. No início dos anos 60,
Larry Roberts passou do estudo do reconhecimento e da simples classificação de
figuras bidimensionais, em geral sob a forma de letras, típico do reconhecimento de
padrões tradicional ao estudo da descrição de cenas a três dimensões, as que deve
saber decifrar um robot. Isso implicava os difíceis problemas da identificação dos
contornos de figuras sobrepostas, da distorção de perspectiva, da variação de
intensidade luminosa e do tecelagem. Ele usou sólidos geométricos de diferentes
formas representados nos seus programas pelas coordenadas dos seus vértices. O
trabalho pioneiro de Roberts continuou no MIT com as explorações dos ensaiados
mundos de blocos por Adolfo Guzman, David Waltz e Patrick Winston.
Marr rejeitou a estratégia dos micromundos porque não podia ser extendida aos casos
de cenas mais complexas como as da vida real. Além disso, julgou que a maioria
destas pesquisas partilhava a filosofia da IA desses anos: para permitir a um sistema
artificial de decifrar uma cena pensou-se em equipá-lo de representações e
heurísticas, em suma de conhecimento especializado «de cima» que deveria ter
utilizado para reconhecer os componentes da mesma cena.
Ao contrário, a ideia de Marr, coerente com alguns resultados da pesquisa
neurofisiológica, era que são as características físicas dos objectos e não os
conhecimentos do sistema sobre os objectos que guiam «de baixo» a sua
identificação nas duas primeiras fases da perceção visual que constituem a «visão
primária». Na primeira fase o sistema tira de um objecto informações sobre as
propriedades da imagem bidimensional, por exemplo relativas à variação de
intensidade luminosa, obtendo um «esboço primário». Na segunda fase, com base
deste esboço, o sistema elabora informações relativas esta vez à profundidade e à
orientação do objecto, obtendo um «emboço a duas dimensões e meio». Só a
elaboração deste último num «modelo a três dimensões» do objecto, a terceira fase
ou da «visão alta», exige a intervenção dos conhecimentos gerais na posse do sistema
que o guiam em identificar que tipo de objecto é presente na cena. Tommaso Poggio
definiu «óptica inversa» o estudo deste processo de reconstrução de imagens
tridimensionais a partir de imagens bidimensionais.
No livro publicado póstumo, Visão Computacional, Marr afirmava que a teoria
computacional da visão é interessada em primeiro lugar na identificação das
restrições físicas e das funções (o que se quere computar), enquanto a escolha do tipo
de representações e dos particulares algoritmos para manipulá-las (dos programas)
interessam um outro nível de análise (como se efectua a computação).
Para Marr, esta distinção correspondia à de Chomsky entre o nível de competência e
o da prestação. O terceiro nível previsto por Marr é a implementação do algoritmo
num hardware particular.
Fig. 6. Interações entre as representações, os processos e a pesquisa neurofisiólogica
segundo David Marr.
A fig. 6, que resume as relações entre os vários níveles, permite, entre outros, de
colher a relação de interação existente para Marr entre pesquisa neurológica e
pesquisa sobre a IA. Os resultados da psicofisiologia e da neurologia podem afetar a
escolha de particulares representações e algoritmos: uma interação que supera o mero
distanciamento comumente teorizado pela IA.
Com base desta proposta teórica geral, que ultrapassava os problemas colocados pela
visão em sentido estrito, Marr criticou os principais protagonistas da IA dos anos 70:
Winograd e os proceduralistas porque confundiam dois níveles, computacional e
algoritmico (mesmo que eles o faziam deliberadamente, como vimos); Schank e
Minsky porque trabalhavam exclusivamente nos mecanismos da representação,
portanto ao nível algoritmico, esquecendo o computacional; Newell e Simon porque
quando imaginavam de simular o comportamento humano na realidade o
«mimavam» por procedimentos ad hoc, como dizia Marr, escolhendo também o nível
errado. Muitas das críticas feitas por ele acabavam por abordar os pontos quentes da
pesquisa da IA desses anos, em primeiro lugar a dificultade de representar o
conhecimento com estruturas como os frames ou os scripts logo que se saía dos
habituais micromundos: uma dificultade que, ultrapassando a disputa entre logicistas
e antilogicistas, levantava o problema do conhecimento baseado no bom senso,
verdadeira besta negra da IA, e que acabou para desencorajar Winograd em
prosseguir as suas pesquisas.
Velhos e novos projectos
As críticas de Marr à simulação dos processos cognitivos tinham por objecto o livro
de 1972, Resolução de problemas humanos , em que Newell e Simon tinham
recolhido osresultados da sua longa pesquisa sobre o tema. Por um lado, os
processos de solução de problemas de subjectos humanos, deduzidos dos protocolos
verbais, eram estudados sob a forma de «microterias» simulativas (programas ou
esquemas de programas que reproduziam estes processos com os maiores detalhes
possíveis), por outro se definiam as linhas gerais de uma teoria geral da elaboração
da informação, identificando uma noção de «sistema de elaboração da informação»
(ou IPS) como «género» do qual homem e computador são duas «espécies»
distintas. Enfim, se desenvolvia uma particular versão da ideia de «regra de
produção» que na forma geral «SE condição, ENTÃO ação», especifica a condição
na presença da qual ocorram uma ou mais ações. Incorporadas nos chamados
«sistemas de produções», regras deste tipo foram amplamente experimentadas para
representar o conhecimento nos sistemas expertos, a partir ao menos de MYCIN,
um sistema experto no diagnóstico das doenças do sangue.
Em 1975, Newell e Simon, na intervenção por ocasião do Prémio Turing,
formularam uma hipótese que pode ser considerada como o aperfeiçoamento da do
IPS: a «hipótese do sistema físico de símbolos», segundo a qual a condição
necessária e suficiente para atribuir inteligência a um sistema, natural ou artificial, é
a sua capacidade de transformar expressões simbólicas noutras por regras. Contudo,
os interesses de Newell e Simon divergiam já há muito tempo.
Newell continuou o trabalho sobre os sistemas de produção convencendo-se de que
podiam sugerir uma arquitectura geral da inteligência. Achou que encontrou a
confirmação em 1984, quando com John Laird e Paul Rosenbloom começou a
implementação de SOAR, pensado como uma arquitectura única para cada tipo de
tarefa: as tarefas eram formuladas sempre como pesquisa no espaço do problema.
SOAR procede portanto selecionando e aplicando os oportunos operadores que
transformam o estado inicial numa sucessão de estados que levam ao final, o
objectivo o a solução do problema. Quando no curso deste processo se encontra um
impasse devido, por exemplo, à dificultade de decidir qual operador aplicar, SOAR
gera um subobjectivo cuja solução o libera deste impasse. Ele é adicionado sob a
forma de nova regra à lista das regras e constitui um novo «pedaço» (chunk) de
conhecimento que no futuro poderá ser utilizado donde se reproduz este impasse. O
chunking é portanto um mecanismo de aprendizagem que gera novas regras, mesmo
o único mecanismo de aprendizagem previsto pela arquitectura.
O trabalho sobre SOAR, que como se vê retomava e em certos aspectos radicalizava
muitos temas aos quais remontava a IA, absorveu Newell até a sua morte. Ainda é
continuado pelo seu grupo, levantando muitas reservas no mundo da IA sobretudo
no que respeita à utilidade de adoptar uma arquitectura unificada para a inteira
actividade cognitiva.
Para Simon, as questões relativas à arquitectura cognitiva não tiveram um interesse
preeminente. Com diferentes colaboradores, ele continuou até a sua morte a
experimentação sobre a simulação do comportamento humano, em particular usando
os protocolos verbais. No mesmo tempo, aprofundou a análise dos processos da
creatividade científica, por ele já definida como uma forma, mesmo que complexa,
de actividade de solução de problemas. Com outros pesquisadores, como Gary
Bradhaw e Patrik Langley, colaborou à construção de vários programas que
redescobriam conceitos e leis de diferentes disciplinas científicas.
Se trata principalmente de programas que utilizam heurísticas gerais ou fracas e
bases de conhecimento reduzidas. BACON representa o caso extremo, muito
próximo do GPS: redescobre as leis de Kepler através de métodos gerais que
identificam regularidades presentes nos dados disponíveis sem fazer referência nem
ao seu significado nem à nenhuma hipótese sobre a sua estrutura. Se consideramos
DENDRAL um programa para a descoberta, devemos colocá-lo ao outro extremo.
Um programa que, de certa forma, se coloca numa posição intermédia, embora
oscilante, entre BACON e DENDRAL é AM (Automated Mathematician),
desenvolvido na área da descoberta matemática de Douglas Lenat em meados dos
anos 70 em Stanford. Com efeito, a inspiração originária de Lenat parecia nos
antípodas dos sistemas expertos. Lenat se propunha de «cortar o cordão umbilical»
que relaciona o programa ao experto humano (o problema da engenharia do
conhecimento) para ver se, ou em que medida, o programa era capaz de aprender
incrementando gradualmente os conhecimentos a partir de uma base de
conhecimento geral.
Esta base de conhecimento era bastante rica e, sem ser comparável à de um típico
sistema experto, estava muito longe da austeridade de BACON. O objectivo era de
aproximar-se, sublinhava Lenat, «do ideal do intercâmbio entre generalidade e
potência»: quase uma referência, esta vez, à filosofia originária dos autores de
DENDRAL. Heurísticas deste tipo tornaram o programa capaz de «redescobrir»
numerosos conceitos matemáticos, chegando a formular a conjectura de Goldbach,
que introduzia depois de ter «redescoberto» os números primos.
Lenat notou que uma das razões fundamentais que impedia AM de fazer outros
progressos consistia na sua incapacidade de introduzir, ou «aprender», novas
heurísticas. Mudado-se para a Carnegie-Mellon, ele se dedicou a um novo
programa, EURISKO, que tivesse regras que o permitissem de introduzir não só
novos conceitos, no estilo de AM, mas também novas regras heurísticas, ou
«metaheurísticas». A ideia de um metanível onde representar as regras que o
programa pode utilizar para decidir quais regras do nível objecto aplicar ou em que
ordem, pode ser vista como a evolução da ideia de controle através das heurísticas
da primeira IA. Esta oportunidade foi experimentada em sistemas como
TEIRESIAS e SOAR. Noutros casos, como no sistema FOL de Richard Weyhrauch,
o conhecimento metateórico é transferido ao nível da teoria objecto por «princípios
de reflexão» para tornar mais eficiente a geração das demonstrações. Falar de
reflexão e autoreferência leva inevitavelmente a pensar à consciência, à parte
algumas speculações sobre possíveis arquitecturas reflexivas, a IA ainda não
produziu resultados apreciáveis.
Nem a abordagem de EURISKO tive o sucesso esperado. Lenat discutiu sem
escrúpulos os limites de AM e EURISKO. Finalmente concordou com as conclusões
críticas a que chegou Feigenbaum quanto aos sistemas expertos: eles faltam do
conhecimento geral que caracteriza o bom senso, assim que as suas prestações,
baseadas em conhecimentos especializadas, degradam rapidamente.
Com base desta constatação, em 1984 Lenat iniciou o programa CYC
(enCYClopedia), um projecto a longo prazo tão ambicioso que deixa muitos céticos
quanto à sua completa exequilibidade. CYC deveria ser equipado com uma base de
conhecimento deduzida de um certo número de entradas de uma enciclopédia e dos
conhecimentos gerais do bom senso pressupostos na compreensão destas entradas.
O objectivo (quase a realização do sonho de McCarthy) é dar ao programa todo o
conhecimento do bom senso necessária para a compreensão de qualquer outra
entrada da enciclopédia. Inicialmente, em CYC se interessou a MCTC
(Microelectronics and Computer Technology Corporation), um consórcio nacional
que deveria ter preparado a resposta americána ao projecto japonês dos
computadores «superinteligentes» da quinta geração programados com o PROLOG
(iniciado em 1982 com 855 milhões de dólares atribuidos em dez anos, este projecto
foi drasticamente redimensionado). Mais tarde, representando a esperança numa
geração de sistemas expertos de concepção completamente nova, CYC suscitou o
interesse de diferentes empresas comerciais que atribuiram num primeiro momento
um financiamento de 25 milhões de dólares.
Em SOAR a aprendizagem desempenha um papel central. AM e EURISKO são
programas que aprendem através da escoberta. São apenas alguns exemplos de
como no início dos anos 80 a aprendizagem é um tema preponderante na pesquisa
sobre a IA, depois de um longo periódo em quenão foi objecto de explorações
sistemáticas. A nova tendência é testemunhada pela coleção Machine Learning
(1983) de R.S. Michalski, J.G. Carbonell e T.M. Mitchell, tornada mais tarde uma
publicação que documenta periodicamente a extensa variedade das propostas actuais
sobre a aprendizagem automática.
As arquitecturas: ciência cognitiva e
neoconexionismo
A hipótese do sistema físico de símbolos não caracteriza certamente de modo
homogéneo a empresa da IA. Considerada sempre, dentro e fora do mundo da IA,
um excesso radical ou um acto de fé ou uma utopia, no entanto ela resumiu as
aspirações originária da IA como ciência da mente e afectou, talvez em formas
diferentemente enfraquecidas, a evolução de uma nova disciplina: a ciência
cognitiva.
Esta teve a sua consacração à Conferência de San Diego, organizada em 1979 pela
Cognitive Science Society, que publicava a rivista oficial da Sociedade há já dois
anos e tinha generosos financiamentos pela Sloan Foundation. À Conferência
participaram psicólogos, linguistas e filósofos, além de Minsky, Newell, Shank,
Simon e Winograd: na ciência cognitiva, com efeito, eram íncluidas muitas das
ambições da Information Processing Psychology e da IA como ciência da mente, ao
ponto de Simon, intervindo à Confêrencia, chegava a antedatar a 1956 o nascimento
da ciência cognitiva.
A nova disciplina devia obter um espaço autónomo nas suas relações com a IA.
Dois livros, publicados quase ao mesmo tempo por Zenon Pylyshyn e Philip
Johnson-Laird, tentam a empresa. Há algumas coisas partilhadas pelos dois autores
com a maioria dos pesquisadores do campo. Ambos apoiam a ideia geral da
cognição como computação de estruturas e símbolos e recusam a metodologia do
teste de Turing porque com ela é considerada só a prestação sem levar em conta os
processos cognitivos.
Além disso, ambos se levantam o problema, de pontos de vista diferentes, de quais
restrições impor à arquitectura cognitiva ou aos processos cognitivos: por exemplo,
os limites de memória, os erros na solução de problemas, os tempos de prestação.
Mesmo que a simulação do comportamento é considerada «mímica» no senso de
Marr, nestas teses se detecta a herença da Information Processing Psychology dos
velhos tempos. Quanto ao resto, a abordagem de Pylyshyn é muito diferente da de
Johnson-Laird. Pylyshyn estabelecia uma distinção entre os processos
«cognitivamente penetráveis» e os «cognitivamente não penetráveis» relativas à
arquitectura cognitiva.
Mesmo que com um pouco de incerteza, Pylyshyn parecia mover-se na direção de
Marr e de Chomsky, já levada às extremas consequências na conceição da mente
apoiada nesses anos por Jerry Fodor. Ele propôs uma arquitectura funcional da
mente donde se distinguem os sistemas da percepção e da linguagem, descritos
como módulos não afectados por crenças e conhecimentos, por os sistemas
«centrais», responsáveis dos processos cognitivos superiores, por exemplo da
solução de problemas. A ciência cognitiva, como ciência computacional da mente,
pode ocupar-se só dos primeiros, enquanto os centrais, sendo cognitivamente
penetráveis, ou seja afectados por crenças e conhecimentos, as tornam inaccessivéis:
se explicam assim os fracassos da IA, que teve a ilusão de conseguir representar os
processos centrais com estruturas de dados como os frames ou os scripts.
Ao contrário de Pylyshyn, Johnson-Laird elaborava a noção de uma nova estrutura
de dados em que representar de forma analógica os conhecimentos e as
expectativas, também subjectivas, dos seres humanos: a dos «modelos mentais»,
que ele começou a experimentar no raciocinio silogistico. Além disso, extendia os
seus interesses à argumentos aos quais Pylyshin e muita ciência cognitiva da época
eram alheios: o papel da componente emocional na cognição o da consciência,
argumentos voltados em primeiro plano na pesquisa.
Mas já Pylyshyn contestava no seu livro a validade de propostas de «novas
arquitecturas da cognição», alternativas às inspiradas da hipótese da elaboração
simbólica, propostas pelo chamado «novo conexionismo». Pylyshyn se referia à
coleção publicada em 1981 por James Anderson e Geoffrey Hinton, Modelos
paralelos de memória asociativa, que anunciava a recuperação em grande escala das
redes neurais. Anderson e com ele Teuvo Kohonen, Stephen Grossberg e outros
pesquisadores já recordados, não interromperam a pesquisa sobre as redes neurais.
Além disso, mais de uma proposta formulada pela IA, por exemplo o mecanismo de
«activação distribuida» da memória semântica de Quillan, tinha inspirado modelos
com um certo paralelismo. Mas ao menos dois eventos deviam iniciar uma
verdadeira vingança de Rosenblatt. Em 1982, em Neural Networks and Physical
Systems with Emergent Collective Computational Abilities, John Hopfield
monstrava como as redes neurais podiam funcionar como memórias asociativas. Em
1986, David Rumelhart e os seus colaboradores publicavam uma série de pesquisas
( Parallel Distributed Processing, Explorations in the Microstucture of Cognitions)
inspiradas numa abordagem de «elaboração distribuida em paralelo» (PDP) da
informação que monstravam como um algoritmo de aprendizagem por correção do
erro, já conhecido como retro-propagação, permitia de superar as principais
limitações das redes neurais demonstradas por Minsky e Papert no livro de 1968.
Elas se demonstravam tais só para as redes a uma camada interna, como o
Perceptron simples recordado, e não para as redes não lineares a mais camadas.
Em meados dos anos 80 remonta também a realização de grandes computadores a
arquitectura paralela a fim de superar os limites da elaboração serial da informação
típica dos computadores com arquitectura de von Neumann: a connection machine
de David Hillis é o exemplo mais conhecido. Computadores deste tipo, como os do
projecto APE guiado pelo físico Nicola Cabibbo, conheceram diferentes aplicações
no mundo da pesquisa.
A inteligência artificial e os enigmas da mente
As novas redes neurais de Hopfield, tornadas objecto de estudo dos físicos, se
rencontraram na familha dos sistemas dinámicos complexos, a começar pelos vidros
de spin, actualmente um dos argumentos principais da física. Além disso, elas
conheceram diferentes aplicações em problemas de optimização na teoria da
complexidade computacional. No clima de uma atenção renovada para as
neurociências, o livro do grupo PDP levantou reações de euforia sobretudo no
mundo dos psicólogos cognitivos e dos filósofos, provocando entre os primeiros
diferentes conversões ao conexionismo e entre os segundos uma recuperação do
materialismo reducionista, tradicional adversário filosófico do funcionalismo.
Os filósofos defensores do materialismo reducionista, como Herbert Feigl, J.C.
Smart e D.M. Armstrong, propuseram entre os anos 50 e 60 a teoria da identidade
mente-cérebro segundo a qual um estado mental deve ser identificado com o estado
cerebral correspondente. Críticas a esta teoria foram formuladas sobretudo depois da
publicação, em 1960, do influente artigo de Putnam Mentes e máquinas. O facto que
os estados internos de uma máquina de Turing podiam ser implementados em
hardware diferentes sugeriu a Putnam que também os estados mentais podiam ser
realizados em sistemas físicos diferentes, não apenás orgânicos, como o cérebro,
mas também inorgânicos, como um certo hardware de um computador.
Portanto, não fazia sentido identificar estados mentais com estados cerebrais e as
proposições psicológicas podiam ser entendidos fazendo referência não à sua
realização ou instanciação física, que podia ser sempre diferente, mas à sua
organização funcional comum, ou seja às suas interações recíprocas. Resumindo, era
esta a hipótese do funcionalismo inspirado na máquina de Turing. Ela era coerente
com a ideia afirmada com os desenvolvimentos da ciência dos computadores e da
primeira IA, segundo a qual os processos da inteligência podem ser estudados ao
nível do programa (da manipulação de símbolos) abstraindo da natureza específica
da estrutura observável ao nível físico. Contudo,o funcionalismo que tornou-se a
filosofia popular entre os pesquisadores de IA e após de ciência cognitiva teve uma
evolução e às vezes é conhecido como funcionalismo computacional.
Uma contribuição importante nesta direção foi de Newell (1980-1982). Retomando
a hipótese do sistema físico de símbolos, ele introduziu um tercero nível de
descrição de um sistema artificial, o nível do conhecimento, que colocou sobre os
dois tradicionais níveis teorizados pela IA, físico (ou do hardware) e do programa
(ou dos símbolos).
O reconhecimento do nível do conhecimento na hierarquia dos níveis de descrição
de um sistema representava a explicitação de uma prática comum entre os
pesquisadores de IA: descrever um sistema artificial como um agente racional que
elabora conhecimentos para planear ações para atingir certos objectivos. A
identificação deste nível não tem nada a ver com as distorsões provocadas pelo
abuso desta prática denunciadas por McDermott (1976).
Como vimos, foi a cibernética a introduzir a linguagem psicológica na descrição do
comportamento de certos artefactos. Daniel Dennett (1942) retomou esta idéia já
desenvolvida pela filosofia da mente de matriz cibernética, em particular por
MacKay, para dar uma solução ao problema da intencionalidade. Com a proposta do
«comportamento intencional», ele considerou que podia superar a tese do filósofo
Franz Brentano sobre a incompatibilidade entre explicação mecanicista, que se
refere ao mundo físico, e explicação intencional, que se refere exclusivamente à
esfera do mental.
Para Dennett, o comportamento intencional, por outras palavras a escolha de um
observador externo de descrever um sistema como intencional através da linguagem
psicológico o «da mente» é legítimo, mesmo indispensável, para controlar e prever
o comportamento de sistemas não apenas naturais ou orgânicos, como os seres
humanos ou os animais, mas também físicos ou artificiais, como um computador ou
um robot. Quando se joga xadrez com um computador, por exemplo, é evidente
asumir o comportamento intencional para prever as suas jogadas. Com efeito, se diz
que ele tem um certo «plano» ou que tem o «objectivo» ou a «intenção» de derrotar
o adversário e assim por diante.
A proposta de Dennett tornou-se muito popular entre os pesquisadores de IA e de
ciência cognitiva. O mesmo Newell pensou que o nível do conhecimento
correspondia ao nível do comportamento intencional de Dennett: no fundo, ambas
as noções deviam muito à descrição do comportamento racional dada por Simon
muitos anos antes.
Newell, contudo, sempre fazendo referência ao sistema físico de símbolos, elaborou
uma sua proposta sobre o significado e a intencionalidade que se presentava como
um acomodamento da concepção do significado predominante em IA. Do ponto de
vista dele, a manipulação sintática (através de regras) das expressões simbólicas por
um sistema artificial podia ser considerada semântica porque é representacional, a
saber que as expressões referem-se a eventos do mundo porque, com base de regras,
são transformadas no mesmo modo em que transformam os eventos do mundo.
Asumindo esta hipótese com base da que Newell definia a «concepção
computacional da mente», a mesma mente era considerada, retomando uma
expressão de Dennett, um «dispositivo sintático» que imita ou reproduz o
funcionamento de um «dispositivo semântico».
No livro recordado, Pylyshyn presentava o nível do conhecimento de Newell assim
como um nível semântico da atribuição de significado às estruturas de símbolos que
representam o nível sintático, intermédio, também aqui, entre o semântico e o da
realização física. Se poderia discutir se as três noções de Dennett, Newell e
Pylyshyn são efectivamente equivalentes a nível explicativo. Contudo, foi Pylyshyn,
seguindo Fodor, a retomar o funcionalismo computacional com a intenção de
explicar alguns enigmas do problema mente-cérebro discutidos pelo behaviorismo e
pelo materialismo reducionista. Com efeito, Pylyshyn (1984) tentava a difícil
empresa de conciliar as ideias de Fodor com as de Newell.
Em relação ao comportamento intencional de Dennett, que é uma pura e simples
questão de escolha do observador do sistema (natural ou artificial), a atribuição de
intencionalidade ao nível semântico de Pylyshyn é justificada pela capacidade
própria do mesmo sistema de elaborar estruturas de símbolos, uma capacidade
considerada típica das mentes e dos programas. Iso parece excluir que simples
artefactos como os da tradição cibernética exigem necessariamente uma descrição
intencional.
Por exemplo, como pode um «objectivo» ou uma «intenção» pertencente para
Brentano à esfera do mental ser a causa de um evento físico, como uma ação (ou
uma sucessão de ações) destinada a conseguir-las? Quando pensamos na mente
como ao «dispositivo sintático» recordado, o computador sugere como isto é
possível: neste caso, é a forma física das representações como estruturas de
símbolos fisicamente realizadas ou instanciadas e não o significado ou o conteúdo
intencional das mesmas representações que desempenham o papel causal do
comportamento. O conteúdo de uma representação poderia também não existir (por
exemplo, o objectivo da busca do Santo Graal), contudo a forma ou estrutura da
representação poderia desempenhar o papel causal exigido. No caso da mente, as
estruturas de símbolos devem ser assumidas instanciadas no cérebro. A acusação de
dualismo (de separar o mental do físico) feita muitas vezes a este tipo de
funcionalismo é injustificada, visto que, como se vê, ele quer tentar uma solução
materialista, mas não reducionista, do papel causal dos estados mentais.
Pelo contrário, sem ser dualista, o funcionalismo computacional da maioria da IA
não considera crucial a natureza biológica da estrutura física na qual se realizam os
estados mentais. É esta tese, com a do papel causal dos símbolos para a
intencionalidade, que foi objecto de críticas diferentes. John Searle afirmou que o
papel causal das representações simbólicas é um simples artifício visto que a
intencionalidade manifestada por um programa é «derivada» do cérebro do seu
criador (do programador), o único capaz de ter intencionalidade «originária». Esta
tese foi uma das mais discutidas tanto em IA como en ciência cognitiva.
O filósofo John Lucas, no entanto, tinha levantado já nos anos 60 objeções ao
mecanismo inspirado na máquina de Turing, que podem ser reconduzidas às teses da
incapacidade das máquinas de manipular a semântica e de manifestar «vera» (ou
«originária») intencionalidade. A tese de Lucas (inspirada nos teoremas sobre a
incompletude de Gödel) foi retomada pelo físico Penrose.
Uma outra crítica à filosofia da IA e da ciência cognitiva, já definidas «clássicas» ou
«simbólicas», foi da recuperação do materialismo reducionista. Como foi referido,
ela verificou-se em consonância com o renovado interesse pelas neurociências
solicitado pelo conexionismo. Neurophilosophy, o livro de Patricia Smith
Churchland se propunha de refutar a versão do funcionalismo computacional
considerada mais radical de Pylyshyn. Para Churchland, a tripartição dos níveis de
explicação (semântica ou do conhecimento, simbólico ou físico) é uma explicação
inaceitável baseada numa «distinção monolítica» entre estrutura e função: em
realidade, o seu número não pode ser abstractamente delimitado antecipadamente,
dada a multiplicidade dos níveis identificados pela busca efectiva das neurociências.
Além disso, a compreensão da estrutura biológica (do cérebro) pode sugerir, e
sugere, teorias da organização funcional. Por fim, é só um dogma que as
representações devem ter uma forma simbólica para poder desempenhar o alegado
papel causal na intencionalidade. A «neurociência computacional» de Churchland e
Sejnowski ( The Computational Brain, 1992) faz sua esta posição crítica.
Pylyshyn, por outro lado, na Conferência da Cognitive Science Society de 1984 se
viu confrontado com Hinton e Rumelhart durante um simpósio dedicado a
Conexionismo e regras que consagrou a divisão entre os defensores daabordagem
conexionista e da «simbólica» da ciência cognitiva e da IA. Mais tarde Pylyshyn
escreveu com Fodor um longo ensaio em que se argumentava que as redes neurais
não são capaces de reproduzir as caracteristicas fundamentais dos processos
inferenciais e devem ser vistas semplismente como uma possível arquitectura
abstracta na qual poder implementar os sistemas simbólicos à arquitectura clássica
ou de von Neumann. Esta tese, na qual quase não houve pesquisador que não
encontrou a maneira de pronunciar-se, permaneceu um ponto de referência das
críticas principais ao conexionismo. Uma exposição parcial da disputa é dada por
Bechtel e Abrahamsen ( Connectionism and the Mind , 1991), que introduzem
também os argumentos principais da filosofia da mente de inspiração conexionista.
As orientações da pesquisa desde o final dos
anos 80
Ao final dos anos oitenta, o mundo da pesquisa sobre a mente e as máquinas se
presenta extremamente dividido.
Em 1987, no workshop sobre os fundamentos da IA que se realiza no MIT se
confrontam as tendências mais influentes da IA com uma série de relações muito
controversas. A rivista «Artificial Intelligence» as publicava em 1991, e David Kirsh,
em Foundation of Artificial Intelligence (1991), resumiva eficazmente em cinco
pontos as teses principais sobre as quais se confrontaram e se dividaram os
participantes no workshop. Eles eram:
a centralidade das regras e da representação do conhecimento;
a desencarnação, ou seja o estudo da cognição abstraindo da percepção e do controle
motório;
o carácter linguístico (em primeiro lugar lógico-matemático) da descrição da
actividade cognitiva
o estudo da actividade cognitiva abstraindo da aprendizagem, do desenvolvimento
cognitivo e das mudanças evolutivas;
a unicidade da arquitectura para a inteira cognição.
Para Kirsh, entre os diferentes participantes no workshop, os logicistas, interessados
nas teorias formais do bom senso e das crenças, acceptam as primeiras quatro
suposições que, pelo contrário, são rejeitadas pelos conexionistas; ambos, no entanto,
permanecem neutrais sobre a quinta suposição. A unicidade da arquitectura é
chamada à atenção pelo grupo de SOAR com a centralidade da aprendizagem no
estudo da cognição. Estes dois pontos não constituem as premissas do projecto CYC.
Outros programas de pesquisa podem encontrar-se em qualquer das cinco suposições:
por exemplo, a chamada «IA distribuida», reproposta no workshop por Hewitt e Les
Gasser de pontos de vista diferentes, ou a robótica de Rodney Brooks.
A IA distribuida, nada oficialmente na Conferência americana a ela dedicada em
1980, teve atrás a evolução dos sistemas blackboard (quadro negro), uma base de
dados partilhada por diferentes módulos cooperantes para conhecimentos
especializados. HERSAY II, projectado nos anos 70 à Carnegie-Mellon como
sistemas para o reconhecimento da fala, ainda é considerado um dos exemplos mais
bem sucedidos deste tipo de arquitecturas, também esperimentadas em alguns
sistemas expertos. A IA distribuida insistiu no aspecto cooperativo da gestão do
conhecimento, mas também na dimensã social do conhecimento e da ação, pontos
tanto importantes como neglicenciado pela pesquisa anterior. No workshop, Gasser
discutia a efectiva novidade da proposta de Hewitt que dava uma formulação da IA
distribuida que fazia referência aos seus «sistemas abertos», assim chamados porque,
para fazer frente às informações parciais disponíveis, devem cooperar colectivamente
também aplicando diferentes critérios e estratégias de solução de problemas.
Por sua parte, Brooks, com a lema «conhecimento sem representação», resumiva no
workshop a filosofia implícita nos novos robots que ele construiu no MIT. O
objectivo polémico da lema de Brooks era a abordagem chamada «para cima» à
robótica, que favorece as capacidades deliberativas (raciocinio, planeamento) e a
representação do conhecimento, colocando em segundo plano a integração destas
capacidades com as diferentes modalidades motor-sensoriais.
A abordagem para cima sugeriu a muitos pesquisadores de IA que o problema da
interação de um robot com o ambiente real podia ser resolvido quando se fosse
encontrada a maneira de lhe fornecer um adecuado modelo do mundo. Por outras
palavras, se tratava de estudar em primeiro lugar como representar num programas os
conhecimentos que teriam permitido ao robot, controlado por esse programa, fazer
inferências e planear as suas ações num ambiente real. Vimos come esta abordagem
fazia frente às dificultades testemunhadas pelas modestas prestações de robots como
Shakey cujas construção nunca conheceu verdadeiros progressos.
A «arquitectura da subsunção» proposta por Brooks para os seus robots se
candidatava explicitamente como alternativa a este tipo de robótica. Esta arquitectura
permitiu construir robots móveis que manifestam comportamentos «autónomos»:
eles tem uma boa dote de robustez, sendo capaces de reagir eficazmente à situações
não previstas ou não previsíveis e são capaces de fazé-lo em tempo real, ou seja sem
que é necessária uma complexa actividade de planificação das respostas.
Na arquitectura da subsunção o agente é visto como composto por níveis ou módulos
de controles funcionalmente distintos mas interconectados que agem sem a
supervisão de um sistema de controle e de planificação da ação baseado num modelo
do mundo. Neste caso, um nível ou módulo de controle de baixo nível, relativo a um
comportamento reactivo (portanto funcionante através de contínuas retroações ou
feedbacks com o ambiente) é interligado com um módulo de um nível mais alto que
controla um comportamento mais complexo de modo que um modulo pode activar
ou inhibir um outro módulo.
Por exemplo, Allen, o precursor desta geração de «criaturas», como Brooks chamava
os seus simples robots, é capaz de continuar a evitar pessoas e obstáculos diferentes
(uma tarefa de baixo nível essencialmente reactivo) enquanto vaga no ambiente para
alcançar um objectivo atribuido (portanto uma tarefa de um nível mais alto). Brooks
chamou esta abordagem «decomposição do comportamento», para o distinguir da
«decomposição funcional» proposta pela robótica de Shakey, consistente em separar
os papeles da percepção, da planificação e da ação. Não é portanto um «modelo do
mundo» a guiar a ação do robot: esto, usando as palavras de Brooks, «usa o mundo
como próprio modelo», confrontando continuamente cada objectivo com a situação
do mundo real.
Entre as abordagens ao estudo da inteligência apresentadas no workshop, a de Brooks
era a mais radical: ela rejeitava todas as cinco suposições listadas por Kirsh que
levantava a Brooks um problema que se coloca quase espontaneamente: quanta (que
tipo de) inteligência se pode reproduzir sem representações simbólicas, sem
capacidade de planificação e deliberativas?
Se ao final dos anos 80 a IA é não menos divida do que habitual sobre quase todos os
problemas fondamentais, os defensores do alegado «paradigma conexionista» tem
que fazer frente nesses mesmos anos à ressaca habitual que acompanhou
pontualmente as chamadas mudanças de paradigma na história da construção de
máquinas inteligentes. Como nos tempos do Perceptron, os modelos conexionistas
continuam a dar o seu melhor na reprodução de actividades elementares, como
reconhecimiento de padrões, classificação, aprendizagem para associação, e pouco ou
nada de importante realizam na reprodução de actividades cognitivas «altas», como o
raciocinio baseado em inferências.
Em 1989, na New Mexico State University se realizou um workshop sobre os
modelos conexionistas de alto nível, a primeira séria tentativa de fazer frente aos
limites do conexionismo rediscutindo os seus fondamentos com uma comparação
finalmente não polémica com o «paradigma simbólico», como já é chamada a
abordagem da IA tradicional. Um possível vademecum dos méritos e dos limites das
duas abordagens foi editado por Michael Dyer, e se pode dizer que ainda mantem
uma sua validez.
As propostas da sua integração recíproca, em certos casos sob a formade sistemas
conexionisticos-simbólicos chamados «híbridos», foram nessa ocasião as mais
diferentes e tendiam a acentuar o papel desempenhado em positivo por ambas
abordagens. Estas propostas tiveram a ambição de sugerir novos modelos cognitivos
e também de abordar o problema do symbol grounding, como o psicólogo Steven
Harnad definiu a questão de como «ancorar» os símbolos aos aspectos da percepção
do mundo. Portanto, elas devem ser distintas de outras propostas de sistemas também
classificáveis como híbridos mas com objectivos de tipo mais aplicativo: nestes casos
se asocia uma rede neural a um sistema experto para reduzir a escassa robustez das
prestações deste último na presença de dados incompletos.
Se estas abordagens híbridos tentavam fazer frente ao problema dos limites do
conexionismo com capacidades cognitivas superiores, nesses mesmos anos uma nova
disciplina suscitou entre os críticos da IA tradicional – «clássica» ou « «simbólica »
ou quiserem – a esperança de conseguir investigar em outros aspectos ignorados
também pelo conexionismo, esta vez entre os não cognitivos: o desenvolvimento e a
evolução biológica, por exemplo, considerados no quadro da interação dinámica
entre sistema e ambiente.
Se trata da Vida Artificial. O nome foi proposto por Cristopher Langtom, que em
1987 propõe em Los Angeles o workshop interdisciplinar sobre a sintese e a
simulação dos sistemas viventes que além de lançar a Vida Artificial relançava uma
palavra chave dos tempos da cibernética um pouco manchada ao longo dos anos:
interdisciplinar.
Na sua premissa no workshop (Vida Artificial, 1989) Langton considerava o
«comportamento emergente» a ideia chave da Vida Artificial: ela tem como objectivo
de reconstruir artificialmente as propriedades da organização dos sistemas viventes a
partir da reprodução das interações locais na base do seu comportamento.
A Vida Artificial tornou-se um ponto de encontro de pesquisadores com interesses
também muito heterogéneos, da simulação da evolução biológica aos automas
celulares e, em geral, ao Animat como Stewart Wilson chamou tanto a simulação em
ambientes virtuais como a realização em ambientes reais de criaturas artificiais das
quais os «veículos» de Valentino Braitenberg e, atrás no tempo, as tartarugas
cibernéticas de Grey Walter são consideradas os precursores.
Como a abordagem da nova robótica, também a da Vida Artificial foi definida «de
baixo» porque ambas, mesmo que de pontos de vista diferentes, colocaram no centro
da atenção o estudo dos mecanismos mais elementares ou primares da interação entre
o sistema (organismo ou Animat) e ambiente. Em realidade, em ambos os casos
sistema e ambiente são considerados como as componentes de um único conjunto:
uma concepção que encontrou a chegada mais coerente e geral na teoria dos sistemas
dinámicos apoiada em particular por Tim van Gelder. Uma das teses que
caracterizam esta abordagem é que o mecanismo essencialmente denotacional das
representações, típico dos modelos computacionais clássicos, não é capaz de colher a
complexidade das relações recíprocas entre sistema e ambiente: neste caso o papel
decisivo é desempenhado pela matemática que descreve a evolução dos sistemas
complexos. Prototipo elementar dos sistemas dinámico é uma máquina cibernética já
recordada que pode ser efectivamente considerada o precursor destes sistemas, o
homeostato de Ashby. Deveria ser uma máquina deste tipo a detronizar a máquina de
Turing do papel de modelo geral da cognição.
Convergentes com as abordagens recordadas se demonstraram os desenvolvimentos
no ámbito da Visão Artificial depois de Marr, os da Visão Animada. Esta última se
inspirou na concepção «ecológica» da percepção visual apoiada pelo psicólogo
James J. Gibson, que insistiu na assimilação directa, ou seja não mediada por
representações, proveniente da informação do mundo pelo organismo. Como vimos,
foi próprio Marr a contestar a abordagem para cima da IA à percepção visual, no
momento em que ele chamava a atenção os mecanismos da visão primária. Contudo,
Marr não punha em causa a hipótese computacional-representacional, rejeitando
nesta base as teses anti-representacionais de Gibson. A abordagem de Marr, baseada
na ideia que a reconstrução tridimensional da cena (a partir de imagens
bidimensionais elaboradas pela visão primária) fosse a chegada final do processo
visual, pareceu insuficiente.
Dana Ballard concluia que Marr se limitava ao estudo de sistemas de visão estáticos
e passivos sem considerar os aspectos activos da percepção visual. Para Ballard, há
que ter em conta destes aspectos subjacentes à estreita relação que o agente mantem
com o mundo e se há que falar de um tipo de representações então se trata de
representações «personais», ou seja colocadas em contextos e relativas ao interesse
do observador. São os objectivos deste último a orientar o processo visual.
Uma outra linha de pesquisa de longa tradição muitas vezes reconduzida às
abordagens de baixo é representada pelos algoritmos genéticos. Deixámos John
Holland nos tempos da sua colaboração com Rochester nos anos 50 quando eles
simulavam no computador a teoria da aprendizagem de Hebb. Mudado-se mais tarde
para a Universidade do Michigan, Holland teve a ideia dos algoritmos genéticos na
primeira medade dos anos 60, afectado, entre outros, pelo livro do biólogo
evolucionista Fisher, Teoria genética da seleção natural.
A sintese das suas ideias foi colocada no livro publicado em 1975 Adaptação em
Sistemas Naturais e Artificiais. A partir desse momento, durante quase uma década
os algoritmos genéticos foram objecto de muitas pesquisas à margem da comunidade
da IA, sobretudo teses de doutoramento de estudantes de Holland e relações a
conferências informais, às vezes mesmo publicado. O renovado interesse por eles se
deve à diffusão do paralelismo e do estudo dos sistemas dinámicos complexos mas
também a desenvolvimentos interessantes que marcou a sua evolução mais recente,
por exemplo no estudo do desenvolvimento prebiótico.
Os algoritmos genéticos representam um modelo fortemente idealizado dos processos
da seleção natural. Eles partem gerando por acaso uma população de cadeias
correspondente aos genótipos de evolução natural, cada uma das quais representa
uma possível solução a um determinado problema. Esta população é feita evoluir
aplicando operadores baseados em critérios de recombinação que simulam os
processos genéticos da evolução natural. Assim, cadeias «progenitoras» geram outras
que representam novas soluções para o problema, possivelmente melhores.
Mais tarde, os algoritmos genéticos foram inseridos nos «sistemas a classificadores»,
verdadeiros sistemas de aprendizagem automática nos quais Holland retomou
algumas intuições contidas no velho programa para a dama de Samuel. O fluxograma
de um sistema a classificadores é representado na figura 7.
Fig. 7 Organização de um sistema clasificador
Se asocia a cada regra do sistema, codificada como uma regra de produção, uma certa
«força», que corresponde à sua jà experimentada utilidade para a solução de um
problema. A cada ciclo os «relevadores» adicionam do ambiente cadeias na «lista das
messagens» codificadas como cadeias de um alfabeto binário que são comparadas
com as condições da «lista das regras». As regras cujas condições são satisfeitas
activam a parte ação e são postas em concorrência por um algoritmo que pode mudar
a força em função da utilidade complexiva para a adaptação do sistema ao ambiente.
Aqui intervém o algoritmo genético que seleccionam as regras de força mais elevada
para tomar-las como progenitoras e gera uma «prole» de novas regras. São assim
eliminadas as regras mais fracas e são criadas novas e sempre potencialmente
melhores.
A nova IA
Ao final do século 20, a IA está em vias de atingir os cinquenta anos de história. Ao
lado da IA clássica ou simbólica já há uma outra chamada «nova» que inclui os
desenvolvimentos das tendências da IA que vimos emergir da crescente
diversificação da pesquisa entre os anos 80 e 90:das redes neurais aos sistemas
dinámicos, da Vida Artificial aos algoritmos genéticos, da robótica de Brooks à
Visão Animada. O livro de Pfeifer e Scheier Entendiendo Inteligência (1999)
resume muito bem a filosofia desta nova IA.
Se o conexionismo, com a sua crítica ao funcionalismo computacional, parecia ter
chamado a atenção de pesquisadores de IA e ciência cognitiva sobre o «cérebro»,
agora é a vez do «corpo»: a nova IA toma portanto uma clara posição, em particular
sobre o segundo ponto proposto por Kirsh no workshop de 1987, a desencarnação,
apresentando-se sem reservas como encarnada ou «colocada» (as duas palavras são
frequentemente utilizadas no mesmo contexto).
Por um lado, a leção de neurólogos como Antonio Damasio, que insistem no papel
principal das componentes emocionais na actividade cognitiva parece levar a água
ao moinho da encarnação, por outro lado um filósofo como Dreyfus, que sempre
insistiu no carácter colocado da cognição e na centralidade do corpo, torna-se o
defensor da IA nova contra a velha, clássica ou simbólica, já chamada GOFAI (um
acrónimo de John Haugeland: A boa e velha intêligencia artificial). Esta é
identificada com o funcionalismo computacional e considerada envolvida no
dualismo mente-corpo de memória cartesiana (na versão software-hardware).
Talvez a robótica, depois do impulso dado por Brooks, constitui a sua área mais
interessante e promissora. Mas importa recordar que a robótica de Brooks viu-se
confrontada logo a problemas difíceis. Um deles diz respeito ao sistema de controle
em robots baseados na arquitectura da subsunção. Como sabemos, a ideia da
subsunção é de atribuir a cada comportamento um modulo de controle. Mas a
concepção de uma arquitectura deste tipo baixa o crescimento exponencial da
dificultade de integrar eficazmente os modulos à medida que estes são adicionados
para obter prestações mais complexas do robot.
Os sucessos dos primeiros robots podem ser explicados com a relativa simplicidade
das suas prestações. De dificultades deste tipo começou a robótica evolutiva que
utilizou os algoritmos genéticos como procedimento automático para desenvolver
de modo evolutivo o sistema de controle de um robot, simulado ou real, durante a
sua interação com o ambiente esterno (neste caso os modulos de controle estão para
os genotipos).
Concepção evolutiva baseada em métodos inspirados em algoritmos genéticos e
fabricação automática de robots estão na base de uma abordagem entre Vida
Artificial e nova robótica, inspirado em Jordan Pollack. Se trata esta vez de fazer
conceber a um programa para computador, com base de elementos iniciais
elementares (como alavancas e juntas, mas também redes neurais), diferentes
gerações de simples robots móveis, fazendo-las «evoluir» num ambiente virtual de
forma a eliminar progressivamente os projectos menos eficientes e melhorando os
mais adaptados ao ambiente (en termos de maior capacidades locomotoras). Por
fim, estes são realizados automaticamente.
A autonomia, objectivo da nova robótica, é portanto extendida do nível do
comportamento aos da concepção e da fabricação. Nesta óptica, se trata de construir
minimizando a intervenção do homem, um objectivo com potenciais aplicações de
grande escala.
Voltando a Brooks, importa acrescentar que o mesmo panorama das pesquisas
realizadas fora da robótica inspirada nele evoluiu muito desde os tempos da
abordagem para cima dos anos 70. Desde há muito tempo ninguém (também graças
à leção de Brooks) já tem em mente construir robots baseados na clara distinção
entre componente perceptiva e deliberativo e no predomínio da planificação
centralizada.
Algumas pesquisas de robótica independentes de Brooks já experimentaram
sistemas de representação do conhecimento «híbridos». Nese caso, representações
analógicas (do tipo dos modeles mentais de Johnson-Laird) suprivam a rigidez das
representações simbólicas no processos de concepção de robots em ambientes
simulados ou reais (sistemas «híbridos» de representação do conhecimento foram
descritos por Nebel em Reasoning and Revision in Hybrid Representation Systems,
1990).
Um livro de Bonasso e Dean ( A Retrospective of the AAAI Robot Competitions,
1997), que partia do exame de arquitecturas robóticas de Shakey, dava eficazmente
a sensação da extrema variedade dos métodos experimentados pela pesquisa
robótica, tanto pelos aspectos relativos ao controle como pelos relacionados com a
natureza das componentes reactivas, das deliberativas e da sua possível integração
recíproca e, por fim, quanto o papel desempenhado pelo tipo de representação do
conhecimento utilizado. As mesmas competições entre equipas de robots jogadores
nas RoboCup logo começaram a constituir um extraordinario laboratório de
experimentação e inovação, também dando um novo impulso ao estudo da interação
cooperativa entre agentes e os sistemas multi-agente. Foi assim que no simpósio da
Associação Americana para a Intêligencia Artificial de 1998 é proposto um
Manifesto da robótica cognitiva baseado na ideia de robots «híbridos» onde esta vez
o termo designa arquitecturas capaces de manifestar robustez e ação em tempo real
e de usar sistemas de planificação e representação do conhecimento.
Com efeito, uma olhada à evolução da pesquisa depois dos anos 80 monstra como a
nova robótica deveu fazer frente à lema radical de Brooks («intêligencia sem
representação») e a já recordada dificultade levantada por Kirsh: desenvolver as
capacidades dos robots de um nível meramente reactivo a um nível em que
houvessem actividades mais complexas de interação com o ambiente, como
algumas formas de planificação, raciocinio e aprendizagem.
Mais tarde Brooks voltou para esta dificultade, propondo uma nova lema
(«intêligencia sem razão» em Intelligence without Reason, 1995) contra o alegado
racionalismo («cartesiano») da IA, mas com um esclarecimento não insignificante
quanto às representações que, se comparada com as suas iniciais afirmações, parece
quase uma mudança de pensamento. Ele afirma que a sua originária crítica às
representações era dirigida às representações como a concebiam a IA e a robótica
clássicas e não às representações como «modelos parciais do mundo», ou seja
«relativas à tarefa particular para a qual [elas] são usadas», como ele se expressa
fazendo alusão às prestações dos novos robots.
Em perspectiva, as implicações destas conclusões parecem importantes em duas
frentes. Em primeiro lugar, para a nova robótica com vocação etológica interessada
na construção de modelos de animais mais ou menos simples que incluem diferentes
restrições comportamentais, neurológicas e em general biológicas («neuroetológia
computacional» é o nome escolhido pelos alguns dos seus iniciadores para
distinguir-se da mencionada «neurociência computacional» de Churchland e
Sejnowski, 1992). Em segundo lugar, para a robótica humanoide para a qual se
concentrou a atenção de vários pesquisadores, da Europa ao Japão aos Estados
Unidos. Aqui, sempre Brooks e o Humanoid Research Group (em particular com o
projecto «Máquinas socialisables») iniciaram a experimentação de robots
antropomórficos.
Em relação aos robots móveis precedentes, os robots humanoides são concebidos
para ser capaces de interagir e eventualmente cooperar com os seres humanos,
também em actividades de vida quotidiana. À robótica se abre neste caso um inédito
campo de aplicações. Um dos casos mais relevantes e controversos é a assistência
de robots humanoides (ou com capacidades humanoides) a deficientes e idosos: um
problema advertido em vários países por razões sociais evidentes.
Os robots humanoids levantaram a questão de como dotá-los de uma morfologia
semelhante à dos seres humanos de modo a facilitar a comunicação recíproca. Se
trata, por exemplo, de dar-lhes uma capacidade de mímica facial e a capacidade de
manifestar emoções, como surpresa, medo o aprovação, aspectos notoriamente
relevantes na interação social. Construido integrando conhecimentos provenientes
de teorias diferentes, da psicologia social ao desenvolvimentoda autoregulação e do
controlo presentes tanto nos organismos viventes como nas novas máquinas com
retroação.
Sempre em 1943, Warren McCulloch (1898-1969), neurólogo e psiquiatra, escrevia
com o jovem lógico Walter Pitts (1923-1969) um ensaio destinado a afetar como
poucos tanto a ciência dos computadores como a concepção de algumas das mais
célebres máquinas da época cibernética (McCulloch e Pitts, Um Cálculo Lógico das
Ideias Imanentes na Atividade Nervosa, 1943). Como vai recordar após McCulloch,
nesse momento ele e Pitts não conheciam os resultados que Claude Shannon (1916-
2001), futuro fundador da teoria da informação, tinha publicado em 1938,
solicitados pelos problemas com os quais se tinha deparado trabalhando no MIT ao
analizador diferencial de Vannevar Bush (1890-1974), a mas célebre máquina
analógica da época.
Contudo, tanto McCulloch e Pitts como Shannon usavam o mesmo instrumento, a
álgebra de Boole, para a pesquisa de dois âmbitos muito diferentes: McCulloch e
Pitts as redes constituidas de neurónios «formais» análogos, muito simplificados dos
neurónios do cérebro e que funcionam segundo a lei do todo ou nada (um neurónio
se acciona ou não se a intensidade dos impulsos que recebe excede ou menos um
determinado limiar) e Shannon os componentes dos circuitos elétricos, funcionantes
segundo uma lei análoga (um relé se acciona ou não se a corrente alcança ou menos
uma determinada intensidade).
A intuição de Shannon foi decisivo na concepção dos circuitos dos computadores
digitais. Se não sabiam nada do trabalho de Shannon, McCulloch e Pitt conheciam
perfeitamente o de Shannon e concluíram que a sua rede de neurónios formais era
equivalente à uma máquina de Turing com fita finita.
Enquanto a derrota da Alemanha interrompeu o trabalho de Zuse, em Inglaterra e
nos Estados Unidos a realização dos grandes computadores digitais não parou,
continuando a mobilizar recursos e talentos extraordinários que levaram num curto
espaço de tempo à uma verdadeira viragem.
Já desde o final de 1943 em Inglaterra funcionavam os Colossus, computadores
automáticos utilizados na descodificação dos códigos militares alemães. Se tratava
de máquinas especializadas em resolver só este tipo de tarefas, mas eram muito
evoluídas, nomeadamente sendo completamente eletrônicas, ou seja com as válvulas
em vez dos relés eletromecânicos: um progresso tecnológico que, levando aos
computadores da chamada primeira geração, teria tomado pela primeira vez
verdadeiramente rápida a elaboração dos dados.
Abrangidas pelo mais estreito segredo militar (como muitos outros projectos da
cibernética e da ciência dos computadores dos anos da Segunda Guerra Mundial), só
desde 1975 se começou a conhecer as características destas máquinas no projectos
das quais tinha partecipado um grupo de pesquisadores liderado pelo matemático
Max Newman, que incluía I.J. Good e Donald Michie. À descodificação do código
da lendária máquina alemã ENIGMA contribuiu o mesmo Turing que mais tarde, na
segunda metade dos anos 40, participou em dois projectos de grandes
computadores: ACE (Automatic Computing Engine) em Teddington e MADM
(Manchester Automatic Digital Machine) em Manchester.
Nos Estados Unidos se chegou a completar a construção de um computador
eletrónico em 1946. Os seus conceptores, dois pesquisadores da Universidade de
Pennsylvania, J. Presper Eckert (1919) e John Mauchly (1907-1980), o chamaram
Electronic Numerical Integrator and Calculator ou ENIAC. Era certamente o mais
grande computador de sempre e é geralmente considerado como o primeiro grande
computador de tipo geral: para a época a melhor realização de uma máquina
universal no sentido de Turing.
Foi precisamente no grupo do ENIAC que maturou a viragem que acabamos de
mencionar. O consultor do projecto do ENIAC foi o matemático húngaro John von
Neumann (1903-1957). Poucos textos ficaram famoso na história da ciência dos
computadores como o First Draft escrito por von Neumann em 1945 donde,
adotando a simbologia de McCulloch e Pitts, se descrevia a arquitetura de um
computador de nova concepção que haveria ficada essencialmente inalterada nos
próximos anos: a de um computador em cuja memoria interna não são depositados
apenas os dados, como nos computadores realizados até então, mas também as
instruções para manipulá-los, ou seja o programa, que podia assim ser modificado
não menos dos dados.
A paternidade da ideia levantou uma controvérsia entre von Neumann por um lado e
Eckert e Mauchly por outro. A construir o primeiro computador com programa
armazenado foi o grupo liderado pelo matemático Maurice Wilkes (1913) em
Cambridge que em 1949 completou o EDSAC (Electronic Delay Storage Automatic
Calculator). Nos Estados Unidos um computador desse tipo foi realizado no ano
seguinte pelo nome de EDVAC (Electronic Discrete Variable Automatic Computer).
O «pensamento mecânico»
Uma característica fundamental de um computador de tipo geral, já percepida por
Babbage, é de manipular não apenas símbolos numéricos mas também genéricos
com os quais é possível representar as entidades mais diferentes: palavras de uma
língua natural, expressões matemáticas, posições de um jogo, objectos a reconhecer
e clasificar, etc.
Uma outra característica fundamental do computador, também percepida por
Babbage e que faltava nos computadores de Zuse e Aiken, é a instrução de salto
condicionado com que é possível dar ao programa do computador uma capacidade
discriminatória. Nesse caso, a máquina não se limita a seguir uma sequência firma
de instruções mas pode mudar a ordem de execução de modo a que se uma condição
é preenchida ela efetua as operações especificadas por uma parte do programa (um
subprograma), caso contrário efetua outras especificadas por uma parte diferente do
programa (um outro subprograma). Esta capacidade, já possuída por os mais
avançados dos Colossus e por o ENIAC, era totalmente valorizada por a presença do
programa armazenado.
O EDSAC acabava de ser completado que as suas duas características, a elaboração
de dados não numéricos e a presença da instrução de salto condicionado num
programa armazenado foram chamadas à atenção para falar de «pensamento
mecânico» dos computadores. Num trabalho publicado em 1952, Programming a
digital computer to learn, Anthony Oettinger descrevia no Mathematical Laboratory
dirigido por Wilkes em Cambridge dois programas para o EDSAC capaces de
modificar as suas prestações com base na experiência, ou seja de «aprender».
Um desses manifestava uma forma de aprendizagem que hoje chamaríamos
mnemónico. A tarefa a executar era de aprender donde comprar determinadas
mercadorias num mundo simulado de retalhistas. O programa procurava ao acaso
nos retalhistas até encontrar as mercadorias desejadas notando em memoria em que
retalhista as tinha encontradas. Soliticado a buscar novamente as mesmas
mercadorias, o programa alcançava diretamente o relativo retalhista sem repetir a
busca. Ele tinha também uma certa «curiosidade», como dizia Oettinger: nas suas
buscas aleatórias, o programa tomava nota de outras mercadorias diferentes da
buscada fornecidas pelos retalhistas que encontrava de forma a usar esta informação
para encurtar a busca dessas mercadorias em buscas seguintes. É evidente como
todo se baseasse na iteração de ciclos controlados por saltos condicionados: o
programa continuava na sua busca se as mercadorias não eram as desejadas
tomando nota do resultado, señao parava.
Sobretudo três trabalhos que remontavam aos anos anteriores estimularam a
pesquisa de Oettinger. O primeiro era um artículo de Shannon, Programming a
computer to plain chess (1950), donde o autor insistia na importância das aplicações
não numericas dos computadores digitais, como a programação do jogo de xadrez, o
objecto da sua pesquisa. Os dois outros eram escritos por Turing e Wilkes e
incidiam sobre o «pensamento mecânico» ou seja sobre a alegada « inteligência »
dos computadores.
O artículo de Turing, Maquinaria Computadora e Inteligência (1950), se tornará um
dos textosdas neurociências, o
robot Kismet é capaz de aprender a manifestar tanto simples mas adequadas
expressões faciais como elementares convenções sociais que o levam, por exemplo,
a seguir os gestos e a mímica facial do interlocutor humano, manifestando uma
expressão de perplexidade se este último toma medidas com velocidade excessiva.
Coerentes com os objectivos desta robótica foram os desenvolvimentos seguintes à
Visão Animada. A importância da ação em tempo real na prestação dos robots tem
um correspondente na elaboração de arquitecturas da percepção visual sensíveis ao
mesmo problema. É confermada a ideia da Visão Animada sobre a necessidade de
redimensionar a ideia da visão como detalhada reconstrução tridimensional do
mundo a favor de um mecanismo que permita interações rápidas e adaptivas com o
ambiente. Com esse fim, também são úteis arquitecturas distribuidas, como é o caso,
por exemplo, do robot Kismet, capaz de elaborar em tempo real trinta fotogramas
por segundo.
À filosofia da nova IA também chegou um outro projecto de pesquisa simulativa
que, iniciado nos anos 80, foi desde já crítico em relação à IA simbólica mas
também ao conexionismo: a «modelagem neural sintética» de Gerald Edelman. Já
ele construiu com vários colaboradores autómatos à redes neurais simulados capaces
de integrar algumas modalidades sensoriais. O aspecto «complicado» dos autómatos
de Edelman em relação às redes neurais mais comuns é devido ao seu interesse para
a plausibilidade biológica da simulação. Por exemplo, o autómato simulado Darwin
III, que tem um «olho» móvel e um «braço» com quatro articulações, compreende
bem 50.000 «neurónios» de cinquenta tipos diferentes ligados através de cerca de
620.000 ligações sinápticas. Uma versão de Darwin III tornou-se o «cérebro» de um
robot móvel, NOMAD, ligado com ele via rádio.
Os autómatos de Edelman incorporam os príncipios do «darwinismo neural», a sua
teoria segundo a qual a epigenesis e a aprendizagem são o resultado de um processo
evolutivo de seleção de grupos diferentes de neurónios durante o desenvolvimento
do organismo e a sua interação com o ambiente. Ele considera as máquinas um
controle desta teoria e também a base de um projecto mais ambicioso: chegar por
etapas através da construção de artefatos de complexidade e realismo crescentes a
revelar os enigmas de algumas formas de consciência.
O darwinismo neural, embora seja sugerido a Edelman pela sua original experiência
de imunologista, se insere na história das tentativas selecionistas de explicação da
aprendizagem. Tanto a tese do modelo como controle de hipotéses teóricas como a
de tornar o modelo cada vez mais adequado para efeitos da reprodução de
fenómenos orgânicos complexos são escolhas metodológicas que Edelman partilha
com estratégias simulativas também muito diferentes da sua.
Os paradigmas por uma ciência
Holland concluiu que os sistemas a classificadores, vistos como modelos cognitivos,
se colocam numa «região intermédia», entre os sistemas simbólicos e conexionistas.
Como estes últimos, eles insistem na microestrutura e na emergência de
computações complexas a partir de processos simples; contudo, as suas unidades
fundamentais são as regras de produção, portanto neles o conhecimento não se
reduz a uma questão de força das conexões. Algumas tendências da Visão Artificial
seguiram uma via que «partilha uma parte das duas abordagens», simbólica e
conexionista. O chamado conexionismo de alto nível tentou, por sua vez, seguir
uma via deste tipo. E são muitas as tentativas de explorar um «caminho intermédio
da simulação cognitiva» simbólica-conexionista.
Também no campo da nova IA não faltam posições nesta mesma direção. Verchure
pôde concluir que no futuro a abordagem de Edelman e de SOAR «poderiam ser
utilizados para introduzir restrições recíprocas». Thornton apoiou uma abordagem
«híbrida» em que as exigências impostas pela Vida Artificial e as representacionais
da IA clássica se integram mutuamente com sucesso. Goodale e Humphrey
sublinharam a vocação «dupla» da nova Visão Artificial em que a abordagem de
Marr é complementar à de Gibson na respectiva ênfase em aspectos diferentes da
percepção visual. Não falta de ser discutida a alegada incompatibilidade entre
explicação clássica e dinamicista da cognição.
É possível que a futura pesquisa em IA, também quanto aos modelos cognitivos,
ainda terá muito a dizer sobre as experiências que consistem em integrar ou
contaminar diferentes abordagens no estudo das máquinas inteligentes.
Naturalmente isto não fecha as portas a outros tipos de experiências: das puramente
lógicas-linguísticas às redes neurais nos campos mais diversos, por exemplo na
neurociência cognitiva aos sistemas multi-agente. Algumas destas experiências
deram lugar nos últimos anos a um novo e vasto campo de aplicações que vai dos
sistemas de hipertexto à Web semântica e, em geral, à exploração do mundo da
Web.
Seria, portanto, desejável evitar de fazer da IA velha e nova paradigmos contrários
com vocação imperialista, com o único resultado de repetir velhos erros. Parece ir
nesta direção a escassa liquidação da IA clássica como GOFAI como premissa de
avaliações ultraoptimisticas da nova IA (neste caso não se pode não concordar com
Sloman: quem polemiza com a IA clássica em termos de GOFAI normalmente não
conhece a história e o estado efectivo da pesquisa) que induzem a carregar aos
ombros da Vida Artificial ou da robótica a inteira carga da reprodução do
desenvolvimento até a inteligência «alta». A sensação de já visto é irresistível: uma
vez mais, usando as palavras com as quais Brian C. Smith resumiva sarcasticamente
a história da IA, aqui «a convenção que com um simples mecanismo se podem
realizar coisas extraordinarias, dado suficientemente um recurso de qualquer tipo,
como tempo, informação, experiência, capacidade de cálculo».
A questão dos paradigmas é, contudo, interessante e merita uma alusão. A insistir na
oposição do seu paradigma «subsimbólico» com o «simbólico» da IA foram
sobretudo os conexionistas dos anos 80, com uma terminologia tornada canônica
por Paul Smolensky. Num primeiro momento pareceu assistir aos efectos de uma
espécie de trauma: Rosenblatt tinha razão, o livro de Minsky e Papert tinha
injustamente cancelado as redes neurais do mundo da pesquisa. Talvez o seu papel
foi muito subestimado.
É verdade que depois da publicação do livro de Minsky e Papert em 1969 houve um
drástico redimensionamento quando se interromperam os financiamentos da
pesquisa sobre as redes neurais, em particular nos Estados Unidos. Papert contou a
história das «duas irmãs», a IA e as redes neurais, que conviveram pacificamente até
a DARPA escolheu a IA (mais tarde, contudo, também o outra irmã caiu nas graças
da DARPA). Talvez também a morte súbita de Rosenblatt, certamente um
propagandista das suas ideias não menos inescrupoloso dos seus antagonistas,
afectou os resultados do evento.
Contudo, como recordámos, os estudos sobre as redes neurais foram avançados por
diferentes pesquisadores, mesmo que num clima de isolamento. Próprio come
aconteceu mais tarde na mais exígua comunidade dos algoritmos genéticos, cujos
resultados, considerados os seguintes desenvolvimentos em sectores diferentes,
parecem actualmente mais influentes dos atingidos pelo conexionismo dos anos 80.
Como escreviam ao final desses anos Anderson e Rosenfeld:
«As nossas redes, depois de trinta anos de progressos, ainda funcionam como
“cérebros lesionados” (incapaces de comportamento simbólico, segundo a expressão
de Rosenblatt). Resta, porém, saber a quais estritas alterações proceder à teoria das
redes neurais para que elas consigam atingir as funções cognitivas superiores».
O conexionismo de alto nível nada mais foi do que uma tentativa de fazer frente
próprio este problema que vai para além do renascimento das redes com a
propagação de erros ou das escolhas da DARPA e que ainda permanece um
problema não resolvido em geral.
Por sua parte, James McClelland declarou recentemente de não acreditar queo
evento decisivo para a interrupção da pesquisa sobre as redes neurais foi o livro de
Minsky e Papert. Tendo em cuenta que a pesquisa sobre as redes se faz simulando-
las no computador, simplesmente «não se estava pronto para a pesquisa sobre as
redes neurais. [...] A potência de cálculo dos [computadores dos] primeiros anos 60
era totalmente insuficiente.»
Por óbvio que seja, há que recordar que estes limites das prestações dos
computadores são os mesmos que condicionaram o desenvolvimento e não poucas
escolhas da IA simbólica. A título de exemplo, pensem à escolha a favor do
«paradigma» do conhecimento em relação ao precedente «paradigma» da pesquisa
heurística sobre os problemas brinquedo, uma escolha que só se coloca quando se
começou a dispôr de computadores com grandes memórias e uma grande potência
de cálculo. Simon contou que a orientar a pesquisa do seu grupo para tarefas em que
não era exigido muito conhecimento (problemas brinquedo) foi inicialmente
também a falta destes computadores: se saiba que o conhecimento era importante
para a inteligência, mas ainda não era possível abordá-las nas máquinas. O facto é
que as capacidades dos primeiros computadores encorajam a experimentação de
heurísticas fracas sobre os problemas brinquedo, nesse momento considerados a
verdadeira Drosophila da IA. É aqui que foi possível tentar abordar a explosão
combinátoria e é aqui que houveram os primeiros verdadeiros sucessos.
Mesmo que eles podem aparecer retrospectivamente pouco significativos, então
permitiam inegavelmente encorajar certas escolhas (e também ilusões) que certas
outras: para a «manipulação heurística de símbolos» em vez da «imitação do
cérebro» ou para a «representação do conhecimento». Nenhuma linha de pesquisa é
eliminada por um livro se já não é fraca por sua conta.
Um caso muito diferente do das redes neurais mas que pode sugerir algumas
reflexões é a tradução automática. A pesquisa era num beco sem saída e os
financiamentos foram interrumpidos em meados dos anos 60, mas, como se viu, foi
possível retomá-la alguns anos mais tarde quando se identificou um caminho mais
promissor para abordá-la que levou a relacionar a tradução automática aos novos
estudos sobre a linguagem natural. Também aqui, foi o desenvolvimento da potência
dos computadores que contribuiu de modo decisivo a tornar esse caminho viável,
também tornando possíveis os actuais e de novo bem financiadas, aplicações da
tradução automática em sectores diversos, certamente redimensionadas em relação
aos ambiciosos projectos iniciais.
Antes da oposição simbólico-subsimbólico, ou da mais recente simbólico-colocado,
houveram outras oposições entre paradigmas, esta vez durante a história da IA
simbólica. Eram opostos o paradigma da pesquisa heurística e do conhecimento,
logicista e antilogicista, declarativista e proceduralista, individual e distribuido ou
cooperativo. Mas é evidente que nenhum deles pode ser reconhecido como um
paradigma em senso técnico, ou seja según a interpretação de Thomas Kuhn.
Pelo contrário, cada um deles resume a palavra chave de linhas de pesquisa
diferentes e também rivais, numa história como a da IA em que se seguiram e após
se abandonaram os caminhos mais diferentes para retomar alguns após um período
determinado, em que nunca houve uma verdadeira no mesmo objecto de estudo: a
mente humana ou a artificial? («esta [que se estuda em IA] é inteligência artificial,
dizia McCarthy a este respeito); em que podia ser «insultante», como concluia
Hayes, mesmo tentar definir a IA, «desde que qualquer definição tende a excluir
alguém, e ninguém gosta ouvir dizer que não está trabalhando na disciplina em que
pensa trabalhar» (recordar a definição da Information Processing Psychology de
Newell e Simon como «a disciplina que usa métodos alheios à psicologia cognitiva
para tratar questões alheias à IA»).
	Cover Page
	Cover
	HISTÓRIA E EVOLUÇÃO DA INTELIGÊNCIA ARTIFICIAL
	Índice
	Introdução
	Rumo ao computador inteligente
	O «pensamento mecânico»
	A simulação do cérebro ao computador
	Estratégias satisfatórias
	As heurísticas antes e depois de Dartmouth
	A questão dos neurónios
	As abordagens semânticas
	Generalidade e conhecimento
	Os percursos da lógica
	Problemas de senso comum
	Contra a lógica
	A Visão Artificial
	Velhos e novos projectos
	As arquitecturas: ciência cognitiva e neoconexionismo
	A inteligência artificial e os enigmas da mente
	As orientações da pesquisa desde o final dos anos 80
	A nova IA
	Os paradigmas por uma ciênciamais conhecidos e citados na literatura relativa às novas máquinas, tanto
por algumas intuições antecipadoras de desenvolvimentos futuros como pela
proposta do que chamou o «jogo da imitação». Ao jogo participam um homem, uma
mulher e um interrogador que, fazendo as perguntas mais diversas e recebendo as
respostas através de dois terminais distintos, deve descobrir quem é o homem e
quem a mulher. Turing imagina que em dar as respostas o homem tenta enganar o
interrogador enquanto a mulher tenta ajudá-lo. Portanto, ele propõe a substituição de
uma máquina ao homem, com efeito um computador digital de tipo geral, e como
estava ao jogo, ou seja até que ponto consiga enganar o interrogador. Este último, se
pergunta Turing, está errado em identificar os seus interlocutores «com a mesma
frequência» de quando ao jogo participava um homem e não uma máquina?
Retomando o jogo da imitação no artículo Podem as máquinas pensar (1951),
Wilkes alegava que, para pensar seriamente de «simular o comportamento humano»
com um computador, deveria ter sido concebido um «programa de aprendizagem
generalizada», ou seja capaz de aprender em qualquer domínio escolhido pelo
programador: um objectivo muito distante, dadas as prestações dos programas
realizados.
Oettinger considerou que os seus programas representavam respostas parciais às
perguntas colocadas por Turing e Wilkes. Sem manifestar a capacidade
«generalizada» de aprendizagem indicada por Wilkes, eles conseguiam porém
melhorar as suas prestações em tarefas particulares. Além disso, eles teriam podido
superar pelo menos «uma forma restrita», come ele se expressava, do jogo da
imitação. Assim, Oettinger parece ter sido o primeiro a interpretar o jogo da
imitação come um teste suficiente (um «critério», dizia) par avaliar as prestações de
particulares programas informáticos em domínios limitados. Será esta interpretação
«restrita» do jogo da imitação, conhecida como teste de Turing, que será mais
famosa mais tarde.
Oettinger observava ainda que o computador era usado neste caso para simular
determinadas funções do cérebro, não a sua estrutura física e o critério de Turing
podia servir para verificar só uma corrêspondencia funcional entre o computador e o
cérebro. Neste caso, tornando explícitas algumas intuições de Turing, as suas
observações explicavam um ponto que vai inspirar a orientação de futuras
abordagens computacionais aos processos mentais. Também as suas propostas
metodológicas apontavam nesse sentido.
Segundo Oettinger, a utilização simbólica do computador identificava os que
haveriam sido efetivamente entre os utilizadores principais das novas máquinas: «os
interessados às potencialidades dos atuais computadores digitais como modelos da
estrutura e das funções das sistemas nervosos orgânicos, como psicólogos e
neurólogistas.» Por outro lado, ele interpretava o salto condicionado numa acepção
que o haveria tornado particularmente sugestivo para estes utilizadores. Também
Shannon, no artículo recordado por Oettinger, falava disso como de um
procedimento que permitia à máquina de decidir ou escolher entre alternativas
diferentes com base de resultados obtenidos anteriormente. Mas Oettinger
sublinhava este aspecto como crucial para os seus programas porque lhes permitia
de «organizar de forma sensata a nova informação e de seleccionar modos
alternativos de comportamento com base desta organização.»
Como foi dito, os programas de Oettinger se baseavam essencialmente no salto
condicionado. No fundo, era apenas a capacidade de um computador como o
EDSAC de simular o comportamento de um dispositivo analógico munido de
retroação. Mas precisamente a cibernética tinha exaltado as capacidades
discriminatórias destes dispositivos, e como vimos, foram Rosenblueth, Wiener e
Bigelow a introduzir a linguagem psicológica da «escolha» e do «fim» na descrição
destes artefatos.
Uma intervenção posterior de Wilkes (1953) convitou à uma utilização pelo menos
cuidadosa de vocábulos psicológicos sugeridos pelo salto condicionado como
«decisão» ou «discriminação», para não falar de «pensamento». Enquanto probava a
efetiva utilização destes vocábulos por muitos programadores (recordámos o caso de
Shannon) e reconhecia a importância do salto condicionado para a afinação de
programas que aprendem como os de Oettinger, Wilkes observava como este
procedimento não extraordinário e era comumente utilizado por qualquer
programador de grandes computadores. No entanto, procedimentos deste tipo,
características das novas máquinas, foram à origem da debatida plausibilidade de
lhes atribuir alguma forma de intencionalidade.
A simulação do cérebro ao computador
O artículo de Wilkes aparecia republicado em um dos mais célebres periódicos
científicos da época, os «Proceedings of the IRE» (Institute of Radio Engineers),
num número especial de 1953, The Computer Issue, que representa talvez o melhor
testemunho do nível atingido nesse momento pela concepção e tecnológia dos
computadores.
O artículo era seguido por uma intervenção de Shannon, Computers and Automata
(1953), uma exposição dos programos que manifestavam prestações comparáveis às
humanas, e por uma longa série de contribuções que presentavam o computador em
todos os seus aspectos, dos da programação aos do hardware, enquanto se
vislumbravam as avantagens da iminente difusão dos transistores que haveria
caracterizado a segunda geração de computadores.
Na realização e na difusão dos computadores, principalmente concebidos no mundo
das universidades, não faltou, para além do apoio dos militares, a contribuição da
indústria. Nos Estados Unidos, o IBM contribuiu a financiar o projecto de Aiken, e
no início dos anos cinquenta, quase simultaneamente à Ferranti na Inglaterra, entrou
no mercado com o computador IBM 701, cuidadosamente descrito no Computer
Issue. Era o primeiro de uma série de computadores eletrônicos gerais com programa
armazenado utilizáveis por fins de pesquisa teórica mas também de aplicação
industrial, que deviam levar a empresa americana a desempenhar rapidamente um
papel hegemônico no sector. Arthur Samuel (1901-1990), pesquisador no IBM, cujo
artículo introdútorio abria o Computer Issue, começou a fazer funcionar um dos seus
primeiros programas para o jogo da dama neste computador.
A última Macy Conference de cibernética teve lugar em New York em abril de 1953,
décima de uma série de encontros que a partir de maio de 1946 viram aumentar o
interesse de filósofos e cientistas de formação muito diferente pela proposta de
Wiener. McCulloch terminava a conferência com um Resumo dos pontos de acordo
chegados nas reuniões precedentes (1953). Entre estes ele recordava as suas redes
formais e os resultados de Turing, mas mesmo uma menção não era dedicada à
emergente utilização do computador como máquina geral e ao seu possível papel no
programa cibernético. E isso não obstante ele costumava descriver o cérebro, na
verdade geralmente, como «um computador digital munido de retroação.» Se se
compararem os relatórios desta Conferência com as intervenções contenidas no
Computer Issue, tem-se a impressão de estar a lidar com dois mundos muito distantes
entre eles.
Uma diferente conferência, na qual partecipava o mesmo McCulloch, parecia esta
vez enfrentar o papel que o computador podia desempenhar nas ciências da mente e
do cérebro. Juntamente com Oettinger, o neurólogo Otto Schmitt e Nathaniel
Rochester, diretor de pesquisa do IBM. McCulloch era um dos quatros relatores do
simpósio Projecto de máquinas que simulam o comportamento do cérebro humano
(1956), organizado em 1955 por a IRE National Convention. Convitados a discutir os
relatórios eram, entre outros, John Mauchly, Walter Pitts e Marvin Minsky, nesse
momento em Harvard. A leitura do relatório deste simpósio é esclarecedora: tem-se a
impressão de ter diante o inventário dos argumentos principais, das abordagens
metodológicas, das ambições e das dificultades que passarão em primeiro plano na
década seguinte e, em alguns casos, também mais recentemente.
No contextoou no centro dos temas debatidos no simpósio estavam os primeiros
programas automáticos já accionados ou experimentais que, de uma forma ou de
outra, imitavam prestações humanas ou competiam com elas. Algumos já foram
ilustrados por Shannon no Computer Issue e Oettinger citava outros na sua
intervenção. Haviam, em primeiro lugar, os programas que estavam mais ou menos
bem à jogos de diversa complexidade: o para a dama, sugerido por Turing à
Cristopher Strachey, que o publicou em 1952; o de D.W. Davies para a trilha que
funcionava num computador DEUCE e o para o nim.
O computador NIMROD, construido pela Ferranti, jogou nim com os visitadores da
exposição científica do Festival of Britain de 1951, onde estava exposto juntamente
com as célebres «tartarugas» eletrônicas do cibernético Walter Grey Walter (1910-
1977). Turing era um dos visitadores desta exposição das maravilhas das novas
máquinas, jogou com o computador e conseguiu ganhar dele. Haviam também os
programas já recordados por Oettinger, e o mais recente de Rochester que,
juntamente com John Holland e outros pesquisadores, se propôs de simular num IBM
701 a teoria desenvolvida no livro de 1949, A organização do comportamento, pelo
psicólogo Donald Hebb (1904-1985), segundo o qual a aprendizagem consistia no
reforço das ligações entre neurónios ou grupos de neurónios, repetidamente ativados.
Posições diferentes se confrontaram no simpósio. A discussão com Pitts levava
Oettinger a esclarecer a sua afirmação sobre o duplo interesse despertado pelo
computador digital: nas pesquisas neurológicas, onde pode ser utilizado para
controlar teorias do funcionamento do cérebro e na simulação das «funções mentais
superiores» que pode ser obtenida sem simular o que se sabe ou se supõe ao nível da
estrutura biológica, ou seja do cérebro. A pesquisa na simulação das funções sugere,
por sua vez, a forma como melhorar as prestações de máquinas como os
computadores, tão distantes do cérebro em termos de semelhança estrutural. Como
exemplo do primeiro tipo de pesquisas, Oettinger citava o programa simulativo de
Rochester que ele tinha presentado no simpósio insistindo, por sua vez, na proposta
metodológica de «usar os computadores automáticos modernos para controlar
determinados aspectos de algumas teorias do funcionamento do cérebro.»
A figura 1 reproduz o ciclo metodológico ilustrado por Rochester, que vai da
implementação no computador do modelo de uma teoria do cérebro, à extração das
implicações do modelo, ao seus controlo e à utilização dos dados para confirmar,
refutar ou modificar a teoria.
Fig. 1 O ciclo metodológico proposto por Nathaniel Rochester em 1955, em que o
computador é usado para controlar a teoria da aprendizagem de Hebb.
O ciclo foi experimentado na teoria de Hebb, que teve que sofrer alterações sugeridas
pelo modelo implementado no computador.
A questão levantada por Schmitt foi muito debatida no simpósio: se os computadores
deviam imitar a ductilidade do raciocínio manifestada pelo cérebro humano, era
necessario que recorressem não à rigida lógica do sim e do não o bivalente, mas à
uma lógica difusa ou fuzzy, como ele dizia. Numa curta polémica com McCulloch,
ao final, se declarava cético no estados dos modelos com «memoria distribuida» e se
recusava a considerar, como era proposto, que um bom exemplo destes modelos era
uma máquina munida das simples capacidades de auto-organização do «homeostato»
do cibernético William Ross Ashby (1903-1972).
O homeostato, uma das máquinas mais conhecidas da época cibernética, era descrita
por Ashby como um sistema «ultra-stável» capaz não apenas de auto-corregir o seu
comportamento (como os sistemas munidos de retroação negativa o «stáveis») mas
também de auto-organizar-se, ou seja de mudar a organização interna para reagir
adequadamente a um distúrbio proveniente do ambiente.
Estratégias satisfatórias
O simpósio de 1955 teve lugar enquanto Samuel completava a implementação de um
novo programa para a dama num computador IBM 704 destinado a permanecer uma
pedra angular nas pesquisas na aprendizagem automática. Ele desenvolveu algumas
intuições precedentes de Shannon na programação do xadrez mas escolheu a dama
para a maior simplicidade das regras que tornava o jogo efetivamente endurecível
para o computador. O estudo do comportamento decisional nos jogos desempenhou
um papel primordial na pesquisa que é à origem da IA. É portanto interessante
reconstruir com alguns detalhes as suas premissas e os seus desenvolvimentos
principais.
Shannon começou a pensar à um programa automática para o xadrez em meados dos
anos quarenta. Turing tinha dito a sua opinhão também sobre este assunto: ele tinha
simulado «à mão» com Good um programa para o xadrez que recorda o de Shannon
nas suas caracteristicas fundamentais. Este último, descrito no artículo de 1950 já
recordado, se baseava na ideia de avaliar a jogada melhor através de uma análise
anticipativa das jogadas alternativas do jogo com base de um procedimento
conhecido como «minimax». Se trata de um procedimento que remonta às primeiras
formulações da teoria matemática dos jogos na qual também von Neumann trabalhou
a partir dos anos vinte. O jogador de xadrez se tornou uma metáfora comum na
análise dos processos de decisão, com uma formulação clássica no livro que von
Neumann publicou em 1944 com o economista Oskar Morgenstern, A Teoria dos
Jogos e o Comportamento Econômico.
Na sua terminologia, o xadrez, como os outros jogos recordados, como a nim, a dama
ou a trilha, é «determinado claramente». Um modo para representá-los é o árvore do
jogo. Ele é gerado a partir de uma posição ou um nó inicial considerando antes todas
as jogadas aceitáveis do primeiro jogador (os nós alcançáveis do inicial aplicando as
regras do jogo) e após todas as respostas do adversário, etc.
Um jogador perfeitamente racional, com efeito onisciente, seria capaz de «ver» o
inteiro árvore do jogo, e portanto de escolher a melhor sucessão de jogadas para a
avaliação das consequências finais de cada jogada alternativa: lhe seria necessario
atribuir valores distintos às posições finais, corrispondentes à vitória, ao empate e à
derrota; portanto subir o árvore para trás, ou seja estabelecendo a cada nó qual ramo
o leva a uma posição de avantagem máxima para ele e mínimo para o adversário até
regressar às alternativas da sa primeira jogar e tomar a decisão.
Na prática, esta estratégia exaustiva ou por «força bruta» encontra em geral uma
dificultade insuperável na explosão combinátoria das jogadas possíveis, mesmo mais
que astronômica no caso do xadrez, que Shannon calculava a 10 ¹²⁰. Portanto, ele
propôs uma primeira modificação desta estratégia consistente em gerar o árvore do
jogo só até uma certa profundidade, em atribuir determinados valores aos nós
alcançados e em avaliar para tràs os caminhos para uma função de valiação baseada
no procedimento do minimax (figura 2).
Fig. 2 A função de valiação aplicada a um árvore parcial do jogo de xadrez. O
árvore se percorre para trás (na figura, da direita para a esquerda). Os contra-
ataques do negro (as linhas tracejadas) que dariam ao branco a vitória ou a
vantagem maior tem as pontuações mais altas, sob a forma de numeros positivos
mais grandes, enquanto os contra-ataques do negro que levariam o branco à derrota
ou à posições de desvantagem maior tem as pontuações mais baixas, sob a forma de
numeros negativos mais grandes. Assumindo que o negro escolhe uma das três
jogadas com numeros negativos mais grandes para minimizar a avantagem do
branco, estes últimos são atribuidos às três possíveis jogadas alternativas do branco
(as linhas contínuas). Neste ponto, a jogada melhor para o branco, obtem a
pontuação mais alta, neste caso -0,1. ...
Consciente de que um tal procedimento era em geral radicalmente ineficiente,
Shannon se colocou o problema de como amelhorá-lo para «desenvolver uma
estratégia suficientemente boa para seleccionar a jogada sucessiva» e supôs de
incorporar no programa (mais precisamente na função deavaliação) medidas e
critérios de seletividade em referência directa aos estudos do psicólogo holandês
Adrian de Groot em instrutores de xadrez que apresentevam as suas análises «em voz
alta» durante o jogo.
O estudo mais aprofundido da possibilidade de implementar a função de avaliação
deve-se a Samuel. O objectivo era de utilizar a dama para experimentar as
capacidades de aprendizagem das máquinas. Antes de avaliar uma posição, o
programa de Samuel controlava em memoria se já a havia avaliada de modo a não
perder tempo a fazê-lo novamente. Esta forma de aprendizagem mnemónica, que já
vimos experimentada em simples tarefas por Oettinger, foi potenciada por Samuel de
modo a que o armazenamento de uma posição avaliada aumentasse as capacidades
anticipativas do programa: quando (como monstra a figura 3) um nó terminal de um
árvore a explorar para diante coincidia com o nó inicial de um árvore já explorado
cuja avaliação tinha sido portanto armazenada, a busca chegava à uma maior
profundidade, a do árvore já explorado.
Fig. 3 A aprendizagem mnemónica no programa para a dama de Arthur Samuel.
Normalmente, a avaliação seria realizada até o nível 3. Mas neste caso à posição é
atribuida uma pontuação no decurso de uma valiação precedente que foi gravado em
memória. Isto permite melhorar a valiação..
A referência de Shannon a De Groot sugeria a possibilidade de um modo
sensivelmente diferente do tentado por Samuel e consistente em abordar o problema
da explosão combinátoria estudando mais de perto os processos humanos da escolha.
Ora, exatamente istos tinham sido objecto de interesse de Herbert Simon (1916-
2001), erudito do comportamento decisional e das organizações complejas no ámbito
da pesquisa operacional, uma outra disciplina que, como a cibernética e a ciência dos
computadores, tinha tido um forte impulso durante a Segunda Guerra Mundial.
Já nos anos anteriores Simon tinha abandonado a abordagem normativa da teoria dos
jogos, que consistia no estudo da escolha ou da estratégia que o agente, chamado
«homem económico», deveria aplicar para maximizar as possibilidades de conseguir
uma solução ótima. Pelo contrário, ele tinha introzuido a dimensão psicológica no
estudo da escolha através da análise do comportamento decisional que o agente
normalmente aplica, condicionado tanto pelo os seus limites internos, por ejemplo de
memoria ou de capacidade de usar dados e conoscimentos de que dispõe como pela
complexidade do ambiente em que opera.
Em desenvolver este ponto de vista não normativo, em 1947 Simon publicava O
Comportamento Administrativo, o livro em que concluia uma linha de pesquisa
recompensada muitos anos mais tarde, em 1978, com um Nobel para a economia.
Para Simon, o jogador de xadrez permanecia a metáfora do comportamento do agente
racional, mas esta vez era descrito não em termos de abstrata racionalidade onisciente
do homem económico mas de racionalidade limitada da resolução real de problemas,
ou «homem administrativo», como o definia Simon. Os seus limites internos e a
complexidade do ambiente externo, bem representada pelo jogo do xadrez, não le
permitem de adotar estratégias ótimas mas só estratégias parciais que resultam mais
ou menos «satisfatórias», segundo o termo de Simon.
Estas ideias de Simon foram à origem, em 1952, da sua hipótese de um programa
para o xadrez que não se baseasse essencialmente nos perfeccionamentos da função
de avaliação de Shannon, mas sim na implementação dessas estratégias satisfactórias
que ele tinha considerado como o cerne dos processos humanos de solução de
problemas.
Nesse período, Simon já esteve em contato com Allen Newell (1927-1992), um físico
da RAND Corporation que se ocupava de organizações complejas. Newell tinha
frequentado os cursos do matemático George Polya que, em A arte de resolver
problemas de 1945, tinha definido os processos da solução dos problemas como
«heurísticos», ou seja baseados na utilização de indícios e de expedientes útiles à
busca da solução: uma ideia que recordava muito de perto a da estratégia satisfatória
de Simon.
Newell contou que ficou impressionado com um programa que lhe clarificou as
enormes potencialidades do computador como máquina não numerica: Oliver
Selfridge, já assistente de Wiener no MIT, implementou em 1954 um programa que
era capaz de reconhecer configurações como letras do alfabeto ou simples figuras
geométricas, entre os primeiros ejemplos da que teria sido chamado reconhecimiento
de padrões. Então, decidiu de experimentar as capacidades de elaboração simbólica
do computador com o jogo do xadrez.
No Janeiro de 1956, no entanto, Simon comunicava numa carta à De Groot que ele e
Newell, abandonado o projecto do programa para o xadrez, estavam prestes a
concluir o de um demonstrador automático de teoremas da lógica proposicional.
Enquanto isso, Clifford Shaw, um hábil programador, se juntou a eles.
Como o xadrez ou outros jogos recordados, também a demonstração de teoremas
podia ser representada como um árvore. Contudo, se trata de um árvore (um
«labirinto», como inicialmente se dizia) diferente do do jogo, onde são representadas
as jogadas antagonistas de dois jogadores. Newell, Shaw e Simon deram uma
demonstração que está na origem da que teria tornada conhecida em IA como a
representação do espaço de estados.
Neste caso a busca da solução é vista como uma busca de um caminho do árvore que,
aplicando oportunos operadores, leva à solução do problema de um nó (um estado)
inicial ao final. Como no árvore do jogo, também aqui se coloca o problema da
explosão combinátoria. Em teoria, se fosse possível explorar exaustivamente todos os
caminhos a partir do estado inicial, mais cedo ou mais tarde se chegaria a solução do
problema (desde que exista). Bastaria fixar a ordem pela qual examinar os nós,
estabelecendo assim um procedimento para encontrar todos os sucessores de um
determinado nó: Newell, Shaw e Simon chamaram este procedimento (ou uma sua
variante) «algoritmo do British Museum».
O agente ou o a resolução real de problemas nunca põe em prática um algoritmo
deste tipo, seguindo procedimentos que utilizam informações parciais ou indícios. A
ideia dos três autores era que um programa informático teria devido incorporar estos
procedimentos, qualificáveis como heurísticas, para ser capaz de abordar o problema
da explosão combinátoria.
O programa baseado nesta intuição era o do qual Simon escrevia a De Groot: o Logic
Theorist (LT), que imprimou cerca de quarenta teoremas do cálculo das sentencias
dos Principia mathematica de Bertrand Russell e Alfred Whitehead. Uma ideia
aproximada desta intuição, que foi uma das mais importantes da chamada
programação heurística, pode ser dada invocando uma «versão modificando do LT»,
como Newell, Shaw e Simon definiram inicialmente, em 1958, um programa
seguinte de demonstração de teoremas após chamado General Problem Solver (GPS).
Com base nos operadores, um conjunto de regras da lógica proposicional, esta versão
do LT transformava uma fórmula lógica dada como inicial na fórmula que
representava o teorema a demonstrar. O fazia identificando diferenças entre as duas
fórmulas e selecionnando o operador adequado para eliminá-las. O ciclo transforma-
elimina a diferença-aplica o operador, organizado como uma hierarquia de
subprogramas podia ser repetido várias vezes, evitando a geração exaustiva das
fórmulas e gerando, em caso de sucesso, só as progressivamente mais semelhantes à
fórmula buscada.
Esta heurística, após chamada «meios-fim», se revelou após muito geral, ou seja
aplicável também a «ambientes da tarefa», para utilizar a expressão dos três autores,
diferentes do da lógica: daqui a atribuição de generalidade ao seu programa.
As heurísticas antes e depois de Dartmouth
O computador JOHNNIAC (JOHN Neumann Integrator and Automatic Computer)
imprimou a primeira demonstração do LT no Agosto de 1956. No entanto, o LT já
tinha desempenhado um papel primordial no famoso seminário de verão organizado
no Junho do mesmo ano por Minsky, Rochester, Shannone pelo matemático John
McCarthy. O encontro, como indicado na proposta apresentada à fondação
Rockfeller que decidiu financiá-lo, tinha o objectivo de examinar «a tese que cada
aspecto da aprendizagem o cada outra característica da inteligência pode em
princípio ser especificada com uma tal precisão que será possível construir uma
máquina que a simule».
O seminário teve lugar em Hannover, no New Hampshire, no mesmo Dartmouth
College em que, em 1940, Wiener e Mauchly tinham assistido ao funcionamento de
uma máquina de George Stibitz, na altura conceptor de máquinas a relés muito
avançadas. Tinham passado dezesseis anos: o período mais cheio de acontecimentos
cruciais na historia dos computadores e da ciência da elaboração da informação.
O seminário de Dartmouth foi a fábrica dos programos mais importantes da
Inteligência Artificial, como foi chamada a disciplina cujos pressupostos foram
identificadas após os primeiros desenvolvimentos de ciência dos computadores. Em
Dartmouth houveram em momentos diferentes os principais pesquisadores já ativos
na concepção de programas informáticos com prestações «inteligentes». Além dos
nomes dos promotores do encontro, já recordámos Newell, Selfridge, Simon e
Samuel. Depois de Dartmouth, teriam nascido os centros históricos da pesquisa em
IA: na Carnegie-Mellon University com Newell e Simon, no MIT com Minsky e na
Stanford University com McCarthy. Na Inglaterra, a herança foi recolhida por
Michie em Edimburgo, antes que a pesquisa em IA arrancasse noutros paises
europeus.
Em Dartmouth os autores do LT tiveram ocasião de discutir com McCarthy um
aspecto da programação do LT não de somenos importância: não era escrito em
linguagem máquina (ou seja em sucessões finitas de dígitos binários
correspondentes à ausência ou presença de um impulso) mas numa linguagem de
nível superior. Newell, Shaw e Simon perceberam a dificultade de escrever
programas para tarefas complexas diretamente em linguagem máquina. A
necessidade de dispor de um programa que traduzisse em linguagem máquina as
instruções formuladas pelo operador por uma linguagem mais próxima à natural era
reconhecida há algum tempo.
No início dos anos 50 progressos importantes nesta direção foram realizados por
Heinz Rutishauser e Corrado Böhm em Zurique. Em 1954, um grupo de
pesquisadores do IBM dirigido por John Backus completava finalmente o
FORTRAN (FORmula TRANslator), a primera linguagem de programação de nível
superior. A de Newell, Shaw e Simon, o IPL (Information Processing Language),
teve características por medida para gerir a complexidade dos programas
heurísticos. A inspiração básica do IPL, a da programação à listas, foi retomada em
1958 por McCarthy no LISP (LISt Processor), destinado a permanecer por tempo a
linguagem de eleição da IA.
O LT é muitas vezes apresentado como o projecto que estava ao estado mais
avançado de realização entre os discutidos em Dartmouth e como o primeiro
programa de IA que fazesse explicitamente uso de heurísticas. Antes do LT, no
entanto, existiam programas que incorporavam procedimentos que pudessem ser
definidos heurísticas: em primeiro lugar, as que permitiam ao programa de Samuel
de melhorar as suas prestações em abordar a explosão combinátoria das jogadas.
Embora não fossem concebidos para esta finalidade, dada a extrêma simplicidade do
ambiente da tarefa, podiam também ser definidos heurísticos os procedimentos
seletivos presentes nos programas de Oettinger que, sem usar ese termo,
mencionava explicitamente A arte de resolver problemas de Polya.
Sem entrar na disputa sobre as primazias, há que dizer que o termo «heurística»
conteneva uma duplicidade que podia ser explicidada tendo em comta objectivos
diferentes. E era propiamente a diversidade dos objectivos a distinguir os dois
programas mais avançados dos dias de Dartmouth, o LT e o programa de Samuel.
Newell, Shaw e Simon estiveram interessados sobretudo em implementar no
computador programas que reproduzissem os processos humanos de solução de
problemas.
Pelo contrário, precisamente os limites que o LT revelava nesse respeito induziram
os três autores a empreender o projecto do GPS com que eles consideravam ter
alcançado o seu objectivo principal: conseguir comparar não tanto a prestação final
de um programa com a de um ser humano, mas também e sobretudo os processos
computacionais que constituíam o programa (a sua «pista») com os processos
utilizados pelos solucionadores de problemas humanos que enfrentavam uma
determinada tarefa, assim como era possível obtê-los de um protocolo registado
enquanto diziam «em voz alta» as suas jogadas.
Foi na base de protocolo deste tipo, por exemplo, que foi estudada e programada a
heurística meios-fim do GPS. Além disso, avaliando que o teste de Turing dizesse
apenas respeito às prestações e não aos processos, eles não o aceitaram como teste
definitivo da inteligência das maquinas. Para eles o verdadeiro teste era constituido
pelo sucesso de uma comparação detalhada pista-protocolo.
Além disso, dado que o GPS se revelou capaz de resolver diferentes tipos de
problemas (de xadrez, integração numérica e diferentes quebra-cabeças) permitia
esperar de conseguir reproduzir num programa uma outra característica da
inteligência humana, a sua versatilidade en ambientes de tarefa diferentes com o
objectivo final de chegar à simulação de uma solução geral ou integrada de
problemas. Tudo isto era totalmente alheio ao objectivo de Samuel, que era de
construir um jogador automático eficiente, independentemente da plausibilidade
psicológica em sentido estrito dos processos seletivos implementados no programa e
que permaneceu assim nos aperfeiçoamentos que ele introduziu no seu programa até
o ponto de conseguir derrotar ao jogo o seu mesmo autor e também jogadores de
nível elevado.
Por outro lado, é nessa via que começou a programação do xadrez ao computador.
Apesar das tentativas seguintes de Newell e Simon, quando retomaram com Shaw o
projecto de abordar a explosão combinátoria com estratégias seletivas inspiradas nas
de jogadores humanos, os verdadeiros progressos na programação do xadrez foram
realizados para a implementação de algoritmos que explorassem de modo eficiente e
em profundidade o árvore do jogo. Esta abordagem tornou-se possível com a
crescente velocidade de processamento de dados típico dos computadores com
circuitos integrados em grande escala das últimas gerações.
Mas há que não esquecer que os sucessos de um supercomputador como Deep Blue,
que em 1997 derrotou o campeão do mundo Garry Kasparov, são devidos à
velocidade na análise das jogadas e sobretudo à capacidade de gerir conhecimentos
relativos ao jogo. Contudo, é um facto que a programação do xadrez perdeu
interesse nos, como Newell e Simon, que tinham considerado os computadores
como um laboratório para estudar os processos humanos da solução de problemas.
A ideia que heurísticas eficientes fossem indispensáveis para tornar «endurecíveis»
em que estava presente a explosão combinátoria esteve na base da chamada teoria
da complexidade computacional desenvolvida em fins dos anos 60 sobretudo pelos
trabalhos de S.A. Cook e R.M. Karp. Eles forneceram um quadro teórico para a
análise de diferentes problemas e decisão e de otimização colocados anteriormente,
como recordámos, pela teoria dos jogos. É no ámbito da complexidade
computacional que foi levantada a questão dos «obstáculos teóricos à IA», como em
Theoretical Impediments to Artificial Intelligence (1974), de M.O. Rabin, que,
contudo, foi sempre no contexto da pesquisa em IA.
A questão dos neurónios
Às origens da IA, duas possíveis acepções do termo heurística contribuíam portanto a
identificar duas tendências de pesquisa bem distintas cujas diferentes aspirações
afetaram a seguinte evolução da disciplina: a dirigida à simulação mais detalhada
possível dos processos cognitivos humanos e a dirigida à prestação mais eficiente
possível dos programas, através de procedimentos também «não humanos».
Em 1961, discutindo uma exposição do GPS dada porSimon durante um seminário
no MIT, Minsky estabeleceu uma distinção clara na pesquisa em IA nestes termos,
atribuindo ao grupo da Carnegie-Mellon, representado por Newell e Simon, o
objectivo da simulação do comportamento.
Simon, por sua vez, retomando uma distinção já identificada no mundo da pesquisa
sobre as máquinas inteligentes por Pitts antes de Dartmouth, insistia que «a imitação
da hierarquia de causas finais que chamamos mente», que caracterizava cada empresa
da IA, foi contrária à «imitação do cérebro», típica da tradição anterior da
cibernética.
A este respeito, depois do simpósio da IRE Convention de 1955 donde Minsky tinha
levantado dúvidas sobre a eficácia dos modelos a memória distribuida, em 1958 se
realizou em Teddington o simpósio sobre a mecanização dos processos do
pensamento no qual participaram neurologistas e psicólogos come R.L. Gregory,
expertos de programação como Backus, cibernéticos como Ashby, McCulloch,
Donald MacKay, Gordon Pask, protagonistas de Dartmouth como McCarthy,
Selfridge e o mesmo Minsky.
Depois de ter apresentado a emergente programação heurística como o estudo dos
«processos sintáticos que implicam a manipulação de expressões simbólicas», na sua
intervenção Minsky expressava um ceticismo ideal quanto aos «modelos à redes
neurais» e, em geral, aos sistemas de auto-organização. Esta vez Minsky não se
referia à simple auto-organização de Ashby mas às mais recentes e avançadas
máquinas à redes neurais com memoria distribuida apresentadas no mesmo simpósio.
Uma deles era o Perceptron, inventado à Cornell University por Frank Rosenblatt,
uma máquina que «aprendia» a distinguir e classificar estímulos visivos. Na sua
versão mais simple apresentada em Teddington, o Perceptron era constituído por uma
camada única de neurónios do tipo de McCulloch e Pitts ligados na entrada com uma
unidade sensorial correspondente à uma retina e na saída com duas unidades de
resposta. Os neur ó nios, ou unidades de associação, tinham um «valor» (um «peso»,
come será dito depois) variable, o que permitia à máquina de amelhorar a sua
prestação depois de um procedimento de «formação».
Nas versões mais conhecidas do Perceptron, o procedimento consistia em modificar a
partir do exterior o valor das conexões se a resposta da máquina não era correta. Em
Two theorems of statistical separability in the Perceptron (1959) Rosenblatt era
extraordinariamente otimista quanto as potencialidades da sua máquina que em
Teddington descreveu como «um análogo do cérebro biológico […] capaz de ideias
originais.» Também alegou que querer reproduzir as capacidades do cérebro através
dos computadores digitais «programados para seguir regras» era uma estéril
pretensão. Portanto, eles eram capaces de jogar mais ou menos bem xadrez, mais não
de amelhorar espontaneamente as suas prestações interagindo com o ambiente.
Era esta a conclusão que Minsky atacou: embora manifestando alguma forma
elementar de adaptação e aprendizagem, também os modelos às redes neurais mais
avançados como o Perceptron não eram capaces de igualar a programação heurística
quando se tratava de reproduzir comportamentos cognitivos complexos.
Em Some Methods of Heuristic Programming and Artificial Intelligence (1959),
Minsky se declarava cético também em relação ao Pandemonium, a nova máquina
descrita por Selfridge em Teddington na qual a informação era elaborada em paralelo
por uma hierarquia de unidades chamadas «demônios». Para Minsky, o entusiasmo
suscitado por estos modelos, devido principalmente à sua maior semelhança
estrutural com o cérebro «natural» e a um certo paralelismo do seu funcionamento
não era justificado, dada a dúbia capacidade de manipular estruturas simbólicas e
conceitos de ordem superior.
Parecia difícil pensar seriamente que mudanças significativas ao «nível do
comportamento manifesto», pudessem surgir de mudanças, como se expressava, ao
«nível microscópico» em sistemas como as redes neurais, as que começavam à ser
experimentados com sucesso com os sistemas munidos de organização hierárquica
complexa como os programas heurísticos automáticos. Além disso, mesmo que se
tivesse conseguido fornecer à uma rede neural os mecanismos para a formação de
conceitos simples, sempre deveria ter utilizado sistemas heurísticos «formais ou
linguísticos». Minsky concluia que mais valeva abandonar o estudo das redes neurais
e dedicar-se «à que alguns de nós chamam inteligência artificial.»
No simpósio de Teddington se estabeleceu na comunidade dos pesquisadores de
máquinas inteligentes a divergencia de métodos e objectivos que se formou antes do
nascimento oficial da IA em Dartmouth. Ainda assim, as duas tendências – a dos
«imitatores do cérebro» e a dos «manipulatores de expressões simbólicas» –
estiveram confrontados em seguintes encontros comuns: por exemplo, nas duas
conferências interdisciplinares sobre os sistema de auto-organização de 1959 e 1961,
com a partecipação de todos os principais protagonistas de Dartmouth e de
Teddington. Em particular nos anos 60, a pesquisa sobre as redes neurais continuou a
acompanhar a da IA um pouco em toda parte por diferentes pesquisadores como
(Albert Uttley, Wilfrid Taylor, Bernard Widrow) que tinham sido relatores em
Teddington), Eduardo Caianiello, Augusto Gamba e Karl Steinbuch. Em muitas
pesquisas sobre o Perceptron ou inspiradas nele foram experimentadas regras
diferentes de aprendizagem, simulações e também realizações eletrônicas.
Tanto as pesquisas de Rosenbluett como as de Newell, Shaw e Simon não podiam
não suscitar interesse no mundo dos psicólogos. Em 1958, a revista de psicología
americana mais conhecida, a «Psychological Review», publicou tanto a descrição do
Perceptron como a do LT. O artículo de Rosenblatt era certamente o mais difícil,
embora nessa ocasião ele explicasse as suas ligações com a que definia a «posição
conexionista» de Hebb e de anteriores psicólogos asociacionistas. Embora a rivista
continuasse a publicar outras pesquisas sobre os Perceptrones, foi o grupo de
Carnegie-Mellon que conseguiu obter o mais grande eco entre os psicólogos,
inserindo-se com tempestividade no debate, que nesse momento os dividia, sobre os
problemas do método experimental, da construção da teoria psicológica, da relação
entre estudo da mente e pesquisa neurológica.
No seu artículo, Newell, Shaw e Simon traçavam um quadro eficaz da psicología da
época, descrevendo-o como apertada pelo torniquete da «polarização» entre
behaviorismo e gestaltismo, que, efetivamente, era advertida como paralisante por
muitos psicólogos. Eles indicavam a estes últimos um itinerário tanto inédito como
atraente que consistia em reconhecer a complexidade do objecto estudado, a mente,
como perguntavam os gestaltistas, mas em reivindicar, ao mesmo tempo, a
necessidade do seu estudo científico, como invocavam os behavioristas, através de
um novo método de controlo operativo das teorias psicológicas. O ponto de partida
era o computador como máquina geral simbólica, com os seus processos de leitura-
escritura-comparação de símbolos, associação de símbolos e salto condizionado. Eles
estão na base de processos mais complexos, como as heurísticas de um programa
como o GPS, escrito numa oportuna linguagem de programação.
Fig. 4 O funcionalismo da primeira IA: os processos da informação podem ser
realizados por estruturas materiais diferentes, o sistema nervoso humano e o
hardware do computador.
Como monstra a fig. 4, a hipótese era que os processos elementares são análogos aos
utilizados pelos seres humanos e estão na base dos processos humanos mais
complexos de elaboração, por sua vez heurísticos, decorrentes dos protocolos
verbais.
O sucesso da comparação entre pistas e protocolos justificava a hipótese, e portanto a
mesma empresa da psicología como ciencia: a simulação dos processos cognitivos
em computador.
A construção destes programas, que podiam ser considerados verdadeiros modelos de
actividades cognitivas, oferecia ao psicólogo o novo método de controlo operativo da
teoria, na versãodo ciclo epistemológico «construção da teoria-controlo-modifica» já
indicada por Rochester. Um exemplo da aplicação deste método era o abandono do
LT para uma sua «versão modificada», o GPS.
Esta proposta dava aos psicólogos a sensação de ter encontrado um lugar ao sol,
segundo a expressão de Edwin Tolman: a psicología era finalmente autónoma da
neurológia, e por uma boa razão. Uma vez que os processos elementares podem ser
realizados em substratos físicos diferentes, o cérebro e o hardware do computador, o
poder causal da estrutura física sobre a mente é independente da específica realização
ou «instanciação» desta estrutura no cérebro biológico.
Segundo a hipótese funcionalista já implicitamente formulada muitos anos antes, no
tempo das primeiras discussões sobre o «pensamento mecânico», não é prevista uma
comparação ao nível das diferentes estruturas. Após os anos sombrios do
behaviorismo, a mente era devolvida aos psicólogos pelos construtores de máquinas.
O homem, visto como elaborador de informação simbólica, tornava-se o protagonista
da nova psicología da elaboração da informação.
As abordagens semânticas
Um dos programas de IA concebidos nos dias de Dartmouth teve por objectivo
abordar a questão da explosão combinátoria com um estilo consideravelmente
diferente do da representação do espaço dos estados. Se tratava da Máquina
Geométrica, um programa que funcionou em 1959 num IBM 704, escrito numa
versão modificada do FORTRAN por Herbert Gelernter (1929) e outros
programadores do grupo de Rochester. A máquina demonstrava um discreto número
de teoremas de geometria plana euclidiana recorrendo à um estratagema já indicado
por Minsky em Dartmouth, donde Gelernter participou.
Nos programas da primeira IA que jogavam ou demonstravam teoremas, a
significação dos símbolos era considerado irrelevante. No GPS, por exemplo, todo
se reduzia a um casamento de padrões puro e simples: se comparavam estruturas ou
configurações físicas diferentes de símbolos (com efeito, fórmulas bem formadas da
lógica proposicional) consistentes em letras e sinais como «√», «→» e assim por
diante (os conectivos lógicos) e se aplicavam operadores para eliminar determinadas
diferenças entre estas estruturas, «como se [elas] fossem pedaços de madeira ou
metal», como dirão após H.A. Simon e L. Siklossy em Representation and Meaning
(1972). O programador dava a significação aos símbolos manipulados pelo
programa.
A novidade da Máquina Geométrica era que, apesar da aplicação da heurística
meios-fim na forma da decomposição do problema em subproblemas mais simples
para demonstrar um teorema, em guiar a pesquisa não usava, como o LT ou o GPS,
só métodos chamados «sintáticos» de casamento de padrões entre proposições. A
máquina dispunha de uma figura geométrica (codificada como uma lista de
coordenadas) correspondente à proposição do teorema; quando gerava um
subproblema o comparava com a figura e o descartava logo se era incompatível com
ela: «se querem [aqui] está a nossa intelegença artificial!», concluía Gelernter
(1959).
Experiências seguintes convenceram os autores da Máquina Geométrica que ela
podia até mesmo competir com um ser humano numa forma «restreita», como eles
diziam, do teste de Turing, limitada à demonstração de teoremas da geometria. A
razão deste entusiasmo è muito simple. Pensava-se que a Máquina Geométrica
usasse uma interpretação semântica das proposições para controlar a pesquisa: no
fundo, não faz assim também um demonstrador humano?
Com efeito, o acercamento sintático da primeira IA era coerente com os
desenvolvimentos prevalecentes num sector com que ela manteve originalmente
relações privilegiadas, o da linguística gerativa de Noam Chomsky. Com o tempo,
estas relações foram cada vez mais conflituosas. Contudo, Simon (1991) ainda se
lembrava como na mesma convenção do IRE no MIT do 1956, poucos meses depois
Dartmouth, enquanto ele e Newell apresentavam a implementação do LT, Chomsky
expunhas as linhas gerais da teoria linguística que um ano após publicou em
Syntactic Structures. Com este livro, Chomsky estabeleceu uma verdadeira primazia
da sintaxe no estudo da linguagem, uma primazia que teve sempre de aguantar.
Os primeros acercamentos à manipulação automática da linguagem natural em
termos de analizadores sintáticos das frases devem muito as suas ideias. Por outro
lado, as estruturas formais das gramáticas gerativas não deixaram de chamar a
atenção dos que trabalhavam ao desenvolvimento das linguagens de programação e
dos seus compiladores.
Além disso, havia um sector da pesquisa anterior ao nascimento oficial da IA em
que os aspetos computacionais da sintaxe desempenhavam um papel príncipal e os
problemas semânticos deliberadamente reservados: o da tradução automática. Se
tratava de um sector de pesquisa nascido quase no início dos computadores digitais
que teve impulso pouco depois da Segunda Guerra Mundial sobretudo por Warren
Weaver. Ao computador, como já foi experimentado na desecriptação dos códigos
no período da guerra, neste caso era atribuida uma tarefa que não ia muito além da
substituição com um dicionário bilíngue, de uma palavra com uma equivalente,
seguindo as regras da gramática e reduzindo a semântica, quando não se podia
deixar, ao estudo de algumas regularidades estatisticas.
Um dos primeros à pôr em prâtica este tipo de acercamento foi Oettinger. Mudado-
se para Harvard, desde meados dos ano 50, lançou um projecto para a realização de
uma máquina para a tradução do russo ao inglés. Na década seguinte, se
estabeleceram centros de pesquisa um pouco por todo o lado, em Europa ocidental,
União Soviética e Japão. Apesar de mobilização de recursos e a entidade dos
financiamentos, depois de algum sucesso inicial a tradução automática parecia ter-se
falhada.
Em 1966, na sequência do chamado relatório ALPAC, nos Estados Unidos os
financiamentos foram interrompidos. Oettinger, profundamente desapontado, parou
de ocupar-se de tradução automática, exceto para voltar a reiterar a intrínseca
impossibilidade da empresa, assinando enfim um prefácio a um dos textos que
depois passaram a ponto de referência para cada crítico da IA, O que os
computadores não podem fazer, do filósofo Hubert Dreyfus (nacido em 1929).
Ironia do destino: Oettinger tinha sido um dos objectivos favoritos das invetivas
contra o «pensamento mecânico» contenidas numa publicação anterior do 1961, esta
vez de um engenheiro, Mortimer Taube, Os Computadores, o Mito das Máquinas
Pensantes.
A dificuldade que resume melhor a razão do fracasso da que era definida a
«tradução completamente automática de alta qualidade» foi discutida por um outro
pioneiro do sector, Yehoshua Bar-Hillel. Se pode definir nestes termos. Dada a frase
« il cane si è inceppato», o falante de língua italiana sabe que com «cane» não se faz
referência ao amigo do homem, dizemos CANE1, mas ao percussor, CANE2. Como
poderia uma máquina traduzir corretamente a frase em inglês onde CANE1 é
cachorro e CANE2 é percussor, sem saber o de que se fala? Casos deste tipo podem
moltiplicar-se à vontade, que confirma que uma boa tradução interlíngua, mas em
geral uma boa compreensão das línguas não pode prescindir dos significados
sugeridos pelo contexto o pelo conhecimento implícito no léxico dos falantes.
Agora, é possível ou é de excluir, como concluia Bar-Hillel, que se consegue
representar estas características num programa para computador?
A ideia de recorrer a um modelo que tivesse em conta das conexões associativas
entre as palavras de um dicionário para tornar mais fléxivel o uso do léxico
madureceu precisamente no contexto da tradução automática: entre os anos 50 e 60
a experimentaram, entre outros, Silvio Ceccato, com as suas «esferas nocionais» e
Margaret Masterman.
A partir da tese de doutoramento de 1966 com Simon à Carnegie-Mellon, M. Ross
Quillian elaborou uma proposta que revelou-se uma das mais fecundas de
desenvolvimentos até os nossos dias: a de «rede semântica». O objectivo de Quillian
era, de modo mais geral, a construção de ummodelo da memória sem ântica
psicologicamente plausível que, implementado num computador, reproduzisse
algumos aspetos da capacidade dos seres humanos de compreender um texto e de
tirar inferências de um conjunto de conhecimentos.
É neste ponto que os objectivos da IA começaram a afastar-se dos de Chomsky. Para
Quillian, o seu modelo demonstrava que o conjunto dos problemas relacionados à
compreensão de um texto teve que ser analizado, traduzido ou interpretado para
responder à perguntas e, em geral, não se esgotava na construção de um analizador
sintático: o problema crucial era de «extrair [do texto] uma representação cognitiva»
sobre a significação das palavras. Daqui o papel central atribuido à memória
semântica. Esta era concebida por Quillian como uma exterminada rede
fragmentada em «planos», porções de nós da rede que representam a significação de
uma palavra do léxico, ou seja de entradas do dicionário.
Para representar a significação da palavra plant, que tem três significados diferentes
em inglês, Quillian usava três nós diferentes chamados «patriarcas»: PLANT (
planta), PLANT1 ( planta/instalação) e PLANT2 ( plantar). Eles eram ligados entre
si por «ligações associativas», para poder ser explorados em sucessão para decidir
após a qual significação de plan se faz referência num determinado contexto. De
certa forma, se tratava de um mecanismo de desambiguação com que se podia
abordar a dificuldade indicada por Bar-Hillel. Com efeito, a cada um dos três nós
patriarcas correspondia um plano distinto, estruturado como uma hierarquia de nós
subordinados ao patriarca e relacionados, por sua vez, por relações associativas a
outros nós patriarcas pertencentes à outros planos.
O trabalho de Quillian foi publicado numa coleção editada por Minsky em 1968,
Semantic Information Processing, com uma série de pesquisas realizadas no MIT na
primeira mitade dos anos 60, todas centradas na representação do conhecimento.
Algumos programas da coleção permaneceram muito conhecidos, como
ANALOGY de Thomas Evans, que reconhecia analogias entre simples figuras
geométricas, STUDENT de Daniel Bobrov, que resolvia alguns problemas de
álgebra elementar, SIR (Semantic Information Retrieval) de Bertram Raphael.
Escrito em LISP, SIR era capaz de responder à algunas perguntas que implicavam o
conhecimento de simples relações lógicas, como a pertença e a inclusão dos
conjuntos e algunas das suas propriedades, como a transitividade da inclusão. Isto le
permitia de tirar um número reduzido de inferências relativas à um domínio muito
restrito, não explicitamente codificadas na sua base de dados. O conhecimento era
representado internamente no programa sob a forma de «esquemas» fixados como
«** é parte de **», onde as variáveis ** são nomes. Com estes esquemas o
programa comparava as frases em inglês dadas em entradas e, aplicando regras de
substituição e quantificação das variáveis que haviam neles, monstrava de
«entender» frases como «um dedo é parte de uma mão».
Para Raphael, entender a significação de uma frase consistia no processo automático
que se resumia a reconhecer os objectos da frase e a colocá-los na relação
especificada. A possibilidade de resolver algunas ambiguidades muy simples por
este procedimento induzia Raphael e Minsky a concluir que abordagens semânticas
deste tipo tinham maiores potencialidades dos sintáticos apoiados pela linguística e
também dos baseados na simple pesquisa heurística no espaço dos estados. Os
«excelentes resultados», observava Minsky em Semantic Information Processing
(1968), obtenidos pelo uso do modelo sem ântico da Máquina Geométrica eram um
exemplo disso.
Também Simon, en Teoria de Resolução de Problemas (1972) partilhava desta
opinião. O «simple paradigma do árvore da pesquisa», como ele já definia a
pesquisa heurística da solução no espaço dos estados, tinha dado o seu melhor e os
futuros programas deveriam ter tido a capacidade de usar de modo cada vez mais
extendido e rafinado a informação útil para a solução de um problema. Por outro
lado, ele observava que nos programas que tinham que compreender a linguagem
natural a distinção de Chomsky entre competência (o conhecimento abstrato da
linguagem) e prestação (a realização deste conhecimento em específicas
capacidades linguísticas) tendia a dissolver-se.
Uma série de pesquisas realizadas na Carnegie-Mellon entre 1965 e 1969
documentava este acercamento, nesse momento substancialmente convergente com
o do MIT. Um programa de Stephen Coles, por exemplo, usava a informação
semântica contenida numa rafiguração correspondente à uma frase ambígua para
decidir qual das possíveis análises sintáticas da frase era a correta em relação ao
contexto dado. Sistemas «híbridos» deste tipo, para usar o termo de Simon, tiravam
partido da lição da Máquina Geométrica: ela não tinha uma única representação do
espaço da pesquisa, a do espaço dos estados, mas também uma segunda, sob a
forma de um «espaço sem ântico», o das figuras geométricas, e a sua eficiência era
devida à utilização das duas representações. O problema do controlo da pesquisa,
concluia Simon, já era relacionado ao da representação do conhecimento.
Generalidade e conhecimento
As prestações do programa ELIZA, implementado por Joseph Weizenbaum nos
mesmos anos no MIT se baseavam num procedimento semelhante à comparação de
esquemas de SIR: palavras dadas em entrada eram associadas com palavras-chave
codificadas na base de dados. O programa conseguia assim conversar com um ser
humano simulando o comportamento de um psicoterapeuta. ELIZA permaneceu o
mais conhecido programa de compreensão da linguagem desses anos porque
superou em alguns casos a usual «forma restrita» do teste de Turing: alguns
pacientes que interagiram com o programa o confundiram com um terapeuta
humano. Num livro que se tornou muito popular ( O Poder do Computador e a
Razão Humana , 1976) Weizenbaum retirou deste resultado conclusões pessimistas
e mesmo preocupadas sobre a utilidade da empresa da IA. Nesta discutível forma do
teste de Turing se inspira o prêmio Loebner periodicamente atribuido a um
computador capaz de superá-lo.
Para além das avaliações mais gerais de Weizenbaum, em retrospectiva estes
programas «semânticos» dos anos 60 parecem realmente pouco semânticos. As
prestações eram limitadas a domínios muito reduzidos e o conhecimento era dado
implicitamente nos esquemas ou nas palavras-chave fornecidas pelo programador. A
mesma análise sintática em simples procedimentos ad hoc. As entusiásticas
avaliações dadas por Minsky dos programas contenidos na coleção de 1968 parecem
hoje exageradas, não menos da sua otimista previsão sobre os desenvolvimentos
futuros, que não foram, e não podiam ir, na direção do simples aperfeiçoamento
deste tipo de experiências. Contudo, embora na sua grosseria, estes programas
levantaram por primeros uma necessidade que constituirá umo dos baricentros da
pesquisa seguinte em IA: construir sistemas capaces de gerir conhecimentos do
mundo por as suas adequadas representações.
A realçar a importância para este objectivo foi um estudante de Simon, Edward
Feigenbaum, numa intervenção à Information Processing Conference de 1968 em
que ele propunha-se indicar as perspectivas da IA da «próxima década». Da
Carnegie-Mellon, onde sob a supervisão de Simon desenvolveu um programa para
computador, conhecido como EPAM, que simulava os processos humanos da
memorização de sílabas sem sentido, Feigenbaum chegou em Stanford, e os seus
interesses mudaram. Em Stanford encontrou Joshua Lederberg, Nobel da genêtica, e
desde 1965 eles lançaram um projecto destinado a dar à IA uma nova dimensão
aplicativa, com consequências de tipo comercial nesse momento imprevisíveis.
Como esclarecia Feigenbaum em apresentar à Information Processing Conference
os primeros resultados das pesquisas realizadas com Lederberg, o seu projecto se
colocava na que ele considerava «a tendência principal da empresa da IA: a solução
de problemas no paradigma da pesquisa heurística». Contudo com uma diferença

Mais conteúdos dessa disciplina