Prévia do material em texto
6 1 Conceitos Fundamentais de Inteligência Artificial Disponível em: https://bostondynamics.com/. CURIOSIDADE UNIDADE 1 CONCEITOS FUNDAMENTAIS DE INTELIGÊNCIA ARTIFICIAL INTRODUÇÃO A Inteligência Artificial (IA) é uma área da ciência da computação, e das ciências cognitivas, que tem ganhado destaque nas últimas décadas devido ao seu potencial transformador em diversos setores da sociedade. A IA busca desenvolver sistemas que possam realizar tare- fas que, quando feitas por seres humanos, exigem inteligência. Neste texto, exploraremos os conceitos básicos da Inteligência Artificial e como ela está moldando nosso mundo. 1. DEFINIÇÕES DE INTELIGÊNCIA ARTIFICIAL Os estudos e a implementação de IAs têm como objetivo desenvolver sistemas compu- tacionais que possam simular o processamento humano inteligente. Assim, esse campo da ciência busca produzir máquinas que possam pensar de maneira inteligente como os seres humanos e, em última instância, se tornarem agentes automatizados que possam perceber o ambiente, raciocinar e agir nele de forma adaptativa e inteligente. A definição de Inteligência Artificial pode variar dependendo do contexto, mas em sua essência, a IA envolve a criação de programas de computador e sistemas que podem realizar tarefas que normalmente exigiriam interferência humana em termos de proces- sos decisórios e racionais. Entre essas tarefas pode-se citar a capacidade de raciocínio e resolução de problemas, aprendizagem e reconhecimento de padrões, bem como processamento de linguagem natural e a tomada de decisões. Uma possível aplicação da IA seria a criação de robôs. Idealizados em filmes de ficção científica como o HAL 9000 de 2001 - Uma Odisseia no Espaço, o simpático WALL-E (Pixar, Disney), R2-D2 e C-3PO em Star Wars, entre outros, representam o zeitgeist referente aos princípios da IA e o que se desejava desenvolver a partir das empreitadas científicas e de engenharia nesse campo. Veja a ficção se tornando realidade nos robôs da Boston Dynamics, uma empresa de robótica que desenvolve protótipos para aplicações militares e industriais. https://bostondynamics.com/ 7 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning Na psicologia, a inteligência humana é definida como capacidade de aprender a partir da experiência, derivar informações e adaptar-se ao ambiente. Os testes de inteligência buscam estimar a capacidade de uma pessoa para aprender, raciocinar, compreender conceitos abstratos e adquirir conhecimento. Uma teoria mais moderna chamada Cat- tell-Horn-Carroll (CHC), base teórica para vários testes de inteligência contemporânea, definida como um conjunto de capacidades apresentadas na Tabela 01. Tabela 01. Principais capacidades cognitivas na teoria Cattell-Horn-Carroll (CHC) Raciocínio fluido (Gf) Capacidade de uso da atenção (atenção concentrada) para executar procedimentos deliberados e controlados para resolver novos pro- blemas “imediatos” que não podem ser resolvidos usando hábitos, esquemas e scripts previamente aprendidos. Conhecimento-Compreensão ou inteligência cristalizada (Gc) A capacidade de compreender e comunicar conhecimentos cultural- mente valorizados. Gc inclui a profundidade e amplitude de conhe- cimentos e habilidades como linguagem, palavras e conhecimentos gerais desenvolvidos através da experiência, aprendizagem e acul- turação. Memória de Trabalho (Gwm) A capacidade de manter e manipular informações no “bloco de notas mental transitório” com atenção ativa. Processamento Visual (Gv) A capacidade de fazer uso de imagens mentais simuladas para re- solver problemas. Perceber, discriminar e manipular imagens com o “olho da mente”. A eficiência de aprendizagem (Gl) Capacidade de aprender, armazenar e consolidar novas informações ao longo de períodos de tempo medidos em minutos, horas, dias e anos. A fluência de recuperação (Gr) Capacidade de fluência com que os indivíduos podem produzir e re- cuperar seletiva e estrategicamente informações ou ideias verbais e não-verbais armazenadas na memória de longo prazo. Processamento Auditivo (Ga) A capacidade de discriminar, lembrar, raciocinar e trabalhar criativa- mente (com) estímulos auditivos, que podem consistir em tons, sons ambientais e unidades de fala. Velocidade de processamento (Gs) A capacidade de controlar a atenção para executar de forma auto- mática, rápida e fluente tarefas cognitivas repetitivas relativamente simples. Fonte: Criado pelos próprios autores. Assim se um algoritmo de Inteligência Artificial pretende emular as capacidades cogni- tivas humanas deve possuir: (a) adaptabilidade e capacidade de raciocínio em informa- ções novas (Gf + Gwm); (b) assimilação de conhecimento cultural (Gc); (c) interpreta- ção e reconhecimento e transformação de informações visuais e auditivas (Gv + Ga); (d) capacidade de atualizar seus conhecimentos com informações novas (Gl); (e) recu- peração eficiente e recombinação de informações armazenadas de forma criativa; e (f) ter respostas ágeis (Gp). Além dessas capacidades, o algoritmo precisará integrar todas elas em um sistema complexo de organização harmônica do processamento visando a adaptação e agência no meio. Mas a IA já possui um sistema com essas capacidades? Qual a tecnologia por trás da IA? 8 1 Conceitos Fundamentais de Inteligência Artificial Esse curso pretende endereçar essas questões focalizando nos avanços recentes nos modelos chamados de Large Language Models. Neste módulo exploraremos os concei- tos básicos da Inteligência Artificial, alguns marcos históricos centrais e como ela está moldando nosso mundo hoje. 1.1. EVOLUÇÃO DA IA E SEUS MARCOS HISTÓRICOS INICIAIS A história da IA remonta aos anos 1950, quando da revolução cognitiva, pesquisadores começaram a explorar a ideia de criar máquinas que pudessem imitar a inteligência humana, ao mesmo tempo que estabeleceram o paralelo entre o cérebro humano com uma “máquina de computar”. A origem do campo é atribuída a um workshop realizado no Dartmouth College em Hanover, no estado de New Hampshire, organizado pelo matemático John McCarthy e outros pioneiros da IA. O workshop reuniu especialistas por dois meses para investigar a possibilidade de máquinas serem capazes de simular todos os aspectos da aprendizagem e qualquer outra característica da inteligência (veja uma lista dos principais pioneiros na Tabela 02). O grupo acreditava que os aspectos da aprendizagem ou qualquer outra característica da inteligência podem, em princípio, ser descritos de forma precisa que uma máquina pode ser feita para simulá-los. Tabela 02. Principais participantes do Dartmouth Workshop em 1956. John McCarthy Um dos principais organizadores. Mais tarde, ele desenvolveu a linguagem de programação LISP, que se tornou fundamental para a pesquisa em IA. Marvin Minsky Tornou-se uma das principais figuras em inteligência artificial e co-fundou o MIT’s Project MAC, que mais tarde se tornou o Laboratório de Ciência da Computação e Inteligência Artificial do MIT. Nathaniel Rochester Vinha da IBM, teve um papel crucial no desenvolvimento de um dos primei- ros computadores da empresa e também mostrou interesse na simulação de redes neuronais. Claude Shannon Frequentemente chamado de “pai da teoria da informação”, seu trabalho em matemática e engenharia foi fundamental para o desenvolvimento da era di- gital moderna. Allen Newell e Herbert A. Simon Juntos, eles apresentaram o Logic Theorist, que muitos consideram o primeiro programa de inteligência artificial, no workshop. Oliver Selfridge Frequentemente referido como o “pai da machine perception,” Selfridge foi um pioneiro no campo da aprendizagem de máquinas e da percepção visual com- putacional. Seu trabalho “Pandemonium” foi uma das primeiras arquiteturas de reconhecimento de padrões. Ray Solomonoff É amplamente reconhecido por ser um dos fundadores da teoria algorítmica da probabilidade. Sua abordagem para a previsão setornou fundamental para a moderna teoria da aprendizagem de máquinas. Julian Feldman Na época, ele estava trabalhando com Newell e Simon e, posteriormente, tornou-se um dos fundadores do departamento de Ciência da Computação na University of California, Irvine. Fonte: Criado pelos próprios autores. 9 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning Esse evento foi importante pois: (a) resultou na nomeação da disciplina, ou seja, foi nesse workshop que o termo “Inteligência Artificial” foi usado pela primeira vez, cunhado por John McCarthy; (b) envolveu colaboração interdisciplinar, onde o evento reuniu pes- quisadores de diversas áreas, promovendo a ideia de que a inteligência artificial seria um campo interdisciplinar; (c) formalizou o início do campo, isto é, a reunião represen- tou a primeira tentativa organizada de tratar a construção de máquinas pensantes como uma disciplina acadêmica. Por estas razões, o Dartmouth Workshop é frequentemente citado como o nascimento da Inteligência Artificial como um campo de estudo formal. Esse evento resultou em uma visão otimista a partir da crença de que a inteligência das máquinas seria alcança- da rapidamente. Embora essa previsão tenha sido excessivamente otimista, estabele- ceu as bases para o desenvolvimento futuro e a direção da pesquisa em IA. Outro marco importante na década de 50 foi o trabalho de Alan Turing, que ao se per- guntar se as máquinas poderiam ser inteligentes propôs o “Teste de Turing”. Esse teste simples busca avaliar a capacidade de uma máquina para exibir comportamento inteli- gente indistinguível de um ser humano. Turing propõe que um juiz humano interaja com um interlocutor não visto, que pode ser tanto um humano quanto uma máquina. Essa interação geralmente ocorreria através de um meio baseado em texto para evitar vieses visuais ou auditivos. O objetivo seria determinar se a máquina, se passando por um ser humano (em pelo menos 30 % das vezes), conseguiria enganar o juiz depois de uma conversa de cinco minutos. Se uma máquina passar no Teste de Turing, considera-se que ela demonstrou uma forma de inteligência artificial, pelo menos em termos de sua capacidade de imitar uma conversa semelhante à humana. Apesar do teste de Turing, hoje em dia, não ser ainda considerado a melhor ferramenta para avaliar a “inteligência” de computadores, ele foi um marco central para se definir padrões fundamentais de desempenho das máquinas. IA simbólica (modelos sequenciais lógico-simbólicos). Nas décadas de 50 a 70, a visão predominante era lógica-simbólica, inspirada, princi- palmente, nos matemáticos. Um programa IA ao resolver problemas deveria represen- tar os elementos em símbolos e aplicar regras lógicas nesses símbolos, processando- -os até chegar à solução desejada. Veja por exemplo o Wolfram Alpha que criou o programa Mathematica como um exemplo de aplicação dessa lógica simbólica na solução de problemas matemáticos. CURIOSIDADE Disponível em: https://www.wolfram.com/. Nessa época a IA simbólica foi a principal abordagem para a pesquisa em IA, e vários programas icônicos foram desenvolvidos durante esse período. Aqui estão alguns dos mais notáveis: https://www.wolfram.com/ 10 1 Conceitos Fundamentais de Inteligência Artificial ` Logic Theorist (Teórico Lógico): Desenvolvido por Allen Newell e Herbert A. Simon em 1955, é considerado o primeiro programa de IA. Foi projetado para imitar o problema de resolução de habilidades humanas e provou teoremas do livro “Principia Mathematica” de Russell e Whitehead. ` General Problem Solver (Resolvedor de Problemas Geral): Criado também por Newell e Simon, em 1957, este programa foi projetado para simular o racio- cínio humano e resolver problemas gerais, modelando-os como uma árvore de decisões. ` ELIZA: Desenvolvida por Joseph Weizenbaum em 1966 no MIT, ELIZA foi um dos primeiros programas de processamento de linguagem natural. Sua mais fa- mosa realização foi um programa que imitava uma sessão de terapia rogeriana. ` SHRDLU: Desenvolvido por Terry Winograd na década de 1970, SHRDLU foi um sistema que interpretava comandos em linguagem natural em um mundo de blocos simulados. Demonstrou habilidades de compreensão de linguagem e raciocínio em seu domínio. ` MYCIN: Desenvolvido na década de 1970, MYCIN foi um dos primeiros sistemas especialistas, focado em diagnosticar doenças bacterianas e recomendar antibi- óticos. Apesar de seu sucesso em seu domínio, não era usado na prática médica, em parte devido a preocupações éticas. ` Dendral: Criado na década de 1960, Dendral foi outro sistema especialista, foca- do na química orgânica. Analisou a estrutura molecular de compostos com base em dados de espectrometria de massa. O otimismo dos pioneiros os fez acreditar que rapidamente seria possível desenvolver programas IA para simular capacidades complexas humanas. Estes programas marca- ram o início da IA e foram evidências de que o raciocínio simbólico poderia ser usado para simular várias formas de inteligência humana. Apesar de um relativo sucesso, logo se percebeu as limitações dessa abordagem. As principais limitações incluem: ` Insucesso em tarefas perceptuais sub-simbólicas relativamente simples como reconhecimento de padrões em imagens, sons e motoras. Tais tarefas são difí- ceis de serem representadas em um formato simbólico; ` A complexibilidade do processo de aquisição de conhecimentos e escalabilida- de. Coletar e formalizar conhecimento em regras pode ser uma tarefa demorada e desafiadora. Esse processo, conhecido como engenharia do conhecimento, muitas vezes exige a intervenção de especialistas humanos. À medida que os sistemas baseados em regras crescem, torna-se extremamente difícil gerenciar e expandir essas regras. Isso limita a escalabilidade de tais sistemas em domínios complexos; 11 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning ` Incapacidade para aprender: sistemas simbólicos tradicionais não aprendem com a experiência. Eles precisam ser explicitamente programados para cada tarefa ou tipo de raciocínio que podem realizar; ` Rigidez e falta de generalização: os sistemas simbólicos geralmente carecem de flexibilidade. Se uma situação não se encaixa nas regras predefinidas, o sistema pode falhar em fornecer uma resposta adequada. Sistemas simbólicos podem enfrentar dificuldades em generalizar a partir do conhecimento existente para novas situações que não foram previamente codificadas; e ` Limitação na capacidade de representação simbólica discreta que muitas vezes carecem da rica semântica associada ao conhecimento humano. Elas podem não capturar todas as nuances e complexidades do mundo real. Depois de um otimismo inicial com alguns sistemas especialistas que executam bem as tarefas, os pesquisadores em IA não entregavam o que tinham prometido, isso é, sis- temas cada vez mais complexos e variados simulando atividades humanas complexas, como por exemplo percepção e linguagem. Disso surgiu então o “inverno da IA” durante os anos 70 a 90. Nesse momento é importante distinguir duas possibilidades de performance em siste- mas IA. A IA Fraca (ou Estreita), também conhecida como IA especializada, é projetada para executar tarefas específicas e não possui a capacidade de generalizar para outras tarefas. Exemplos incluem chatbots, sistemas de recomendação e reconhecimento de voz. Já a IA Forte (ou Geral, também chamada de Inteligência Artificial Geral, IAG) é uma forma mais avançada de inteligência artificial que possui a capacidade de entender e realizar uma ampla gama de tarefas semelhantes à inteligência humana. Mais à frente falaremos sobre os modelos fundacionais e como eles têm apontado direções possíveis às IAs gerais. No entanto, ainda estamos longe de um consenso que sequer é possível criar esse tipo de IA. Os sistemas especialistas simbólicos se categorizam em IA fraca em termosde perfor- mance. Podem ter um desempenho muito bom em uma área específica, mas podem carecer de generalização e capacidade de se adaptar a situações ambíguas. Apesar dessas limitações, a IA simbólica tem suas forças e ainda é usada em combinação com outras técnicas em muitos sistemas modernos de IA. Por exemplo, a integração de abordagens simbólicas com aprendizado profundo, como se verá adiante, está rece- bendo interesse renovado como uma maneira de combinar o melhor dos dois mundos. IA sub-simbólica (modelos conexionistas paralelos). Ao mesmo tempo que a IA simbólica se desenvolvia, outro modelo chamado de sub- -simbólico, lidando especialmente com problemas perceptuais, também se desenvolvia. Em 1958, Rosenblatt se inspirou na neurociência, na arquitetura neural e no modo como ocorre o processamento no cérebro e propôs um modelo chamado perceptron. O perceptron é um dos conceitos fundamentais em aprendizado de máquina e uma das primeiras formas de redes neurais que veremos com mais detalhes nas próximas unidades desse curso. Nessa unidade falaremos dos elementos básicos para entender um modelo neural. 12 1 Conceitos Fundamentais de Inteligência Artificial Imagine que você está tentando ensinar uma máquina a ler em voz alta, associando letras (ou combinações de letras) a seus sons correspondentes, ou fonemas. O percep- tron pode atuar como um “decisor” para determinar qual letra ou combinação de letras conduz a um fonema específico e, consequentemente, associar ao som corresponden- te. O perceptron tem uma camada de entrada (inputs) que são as características das letras ou combinações de letras. Cada entrada é associada a um peso. O perceptron multiplica cada entrada pelo seu respectivo peso e depois soma tudo criando um resul- tado final entendido como uma unidade da rede (ou neurônio simplificado) representan- do um fonema específico. Após a soma, o resultado passa por uma função de decisão (função de ativação). Se a soma total for maior que um certo limite, a saída pode ser “o fonema /a/” (por exemplo, ao reconhecer a letra “A”). Se estiver abaixo do limite, essa unidade fica desativada. Imagine uma estrutura com várias unidades ou neurônios po- dendo ser usados para representar vários sons ou fonemas. Mas como o perceptron sabe qual peso associar a qual unidade para ativar o som corre- to? O perceptron precisa passar por uma nova fase envolvendo a aprendizagem a par- tir de exemplos, ensaios e erros para criar esses pesos (conexões entre letras e sons corretos). O treinamento do perceptron implica iniciar os pesos com valores aleatórios, apresentar um exemplo de palavras a serem lidas, fazer com que ele preveja os sons, que muito provavelmente serão errados, e usar o erro para ajustar os pesos de forma a melhorar as previsões futuras nos próximos exemplos. Usando este procedimento, o perceptron tenta “aprender” a associar corretamente le- tras e combinações de letras a seus fonemas correspondentes. No entanto, o percep- tron simples pode ter dificuldade em lidar com associações mais complexas (por exem- plo, combinações de letras que produzem sons diferentes dependendo do contexto). Para tais complexidades, abordagens mais avançadas seriam necessárias. Se por um lado as abordagens simbólicas, como a IA baseada em regras, envolvem a manipulação direta de símbolos e regras predefinidas; por outro lado, as abordagens sub-simbólicas, como redes neurais e perceptrons, não dependem de símbolos ou re- gras explicitamente definidas, mas sim de padrões emergentes a partir de dados. No contexto do perceptron e redes neurais em geral, o conceito “sub-simbólico” refe- re-se à maneira pela qual o modelo aprende e opera, que é através da modificação contínua de pesos e ajustes baseados em dados, em vez de manipulação de símbolos e regras predefinidas. No exemplo acima, se considerássemos a abordagem simbóli- ca, haveria uma regra clara e direta que diz o seguinte: se você ver a letra “A”, então pronuncie o fonema /a/. No perceptron “sub-simbólico”, não existe essa regra explícita. Em vez disso, o modelo ajusta seus pesos com base nos dados de treinamento até que possa fazer a associação corretamente. A “regra” é implicitamente representada pelos pesos ajustados nas conexões do modelo. O termo “sub-simbólico” indica que, em vez de usar representações simbólicas explícitas, o sistema opera em um nível “abaixo” dos símbolos, ajustando-se e aprendendo a partir de interações e ajustes contínuos. Há uma diferença importante também na estrutura da memória. Em um sistema simbóli- co haveria uma representação discreta da regra - ou o símbolo - armazenada em algum lugar no cérebro. Já no sistema sub-simbólico haveria uma representação distribuída, 13 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning isto é, uma representação é uma conexão entre as unidades - ou neurônios - as quais representam atributos específicos. A beleza do perceptron está na sua simplicidade e na sua capacidade de aprender a partir de seus erros. No entanto, o perceptron simples tem limitações. Por exemplo, ele só pode resolver problemas que são linearmente separáveis (isso significa que os da- dos podem ser separados por uma única linha reta, plano ou hiperplano). Para proble- mas mais complexos, são necessárias estruturas mais avançadas, como redes neurais multicamadas. Outro marco importante na evolução dos modelos conexionistas é a abordagem de Paral- lel Distributed Processing (PDP) que consistiu em uma revolução na área de inteligência artificial e psicologia cognitiva na década de 1980. James McClelland, David Rumelhart e Geoffrey Hinton (ver quadro abaixo) foram figuras centrais nesta abordagem. Eles usa- ram redes PDP para modelar várias funções cognitivas, demonstrando que esses mo- delos podem simular diversos processos humanos, desde reconhecimento de padrões até tomada de decisões. Eles publicaram dois volumes Parallel Distributed Processing: Explorations in the Microstructure of Cognition, editados por Rumelhart, McClelland e se tornaram referência clássica para esta abordagem e contêm uma série de simulações e explicações teóricas sobre a natureza da cognição usando este paradigma. Geoffrey Hinton é um cientista da computação e psicólogo britânico, considerado o “pai do deep learning”. É um dos pesquisadores mais influentes na área de inteligência artificial. Ele recebeu vários prêmios por seu trabalho, incluindo o Prêmio Turing em 2018. Suas principais contribuições para a IA incluem o desenvolvimento de redes neurais convolucionais, que são usadas em uma ampla gama de aplicações, como reconhecimento de imagem e tradução automática. Ele se doutorou em psicologia cognitiva na Universidade de Edinburgh, fez Pós- -doutorado no Universidade de Toronto onde foi professor até 2012. Foi então para a Google AI. Em 2023 saiu da google com afirmações controversas sobre os riscos da IA. É atualmente pesquisador independente para se concentrar em seus próprios projetos de pesquisa e para alertar sobre os riscos da inteligência artificial. Veja esse vídeo engraçado no qual Snoop Dog fala desse evento: SAIBA MAIS Disponível em: https://twitter.com/pkedrosky/status/1653955254181068801 A ideia central é que o processamento de informações ocorre de forma paralela e distribuída em redes de unidades simples, semelhantes a neurônios. Em vez de representar conheci- mento e processar informações com símbolos discretos e regras predefinidas (como na IA tradicional simbólica), a abordagem PDP defende que o conhecimento é representado pela ativação distribuída de muitas unidades (análogas aos neurônios) e pelas conexões entre elas. Esses neurônios representam atributos abstratos dos conceitos que representam. A abordagem PDP foi uma ruptura com a visão simbólica dominante da época e lançou as bases para o ressurgimento das redes neurais na moderna aprendizagem profunda https://twitter.com/pkedrosky/status/165395525418106880114 1 Conceitos Fundamentais de Inteligência Artificial (deep learning). Os princípios fundamentais da PDP influenciaram fortemente o desen- volvimento subsequente de modelos neurais e métodos de aprendizado de máquina. Rumelhart, McClelland e o Grupo de Pesquisa PDP foram fortemente influenciados pelo Perceptron Multicamada (MLP, do inglês Multi-Layer Perceptron) combinado com algoritmo de retropropagação (backpropagation) para treinamento. O perceptron original, era um modelo neural simples de uma única camada e, por isso, incapaz de aprender padrões mais complexos e não linearmente separáveis. Um avan- ço significativo veio com a introdução do perceptron multicamada (MLP) que consiste em uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. O grupo PDP usou essas redes neurais multicamadas para modelar diversos processos cognitivos. Em seus volumes influentes sobre o Parallel Distributed Processing, eles apresentaram uma série de simulações que demonstravam como essas redes pode- riam aprender representações e realizar tarefas que se assemelhavam ao processa- mento cognitivo humano. Outro aspecto nuclear desse foi o desenvolvimento do algoritmo de retropropagação, em inglês backpropagation algorithm, usado para ajustar os pesos da rede, minimizan- do o erro entre a saída prevista e a saída real. Esse algoritmo é considerado um marco da evolução das redes neurais, pois habilitou as redes a aprenderem com exemplos. IMPORTANTE O algoritmo de retropropagação (ou “backpropagation” em inglês) é um método usado para treinar redes neurais. É composto pelos seguintes passos: 1. Inferência (Feedforward) A entrada é fornecida à rede, e ela é propagada camada por camada até a camada de saída para produzir uma previsão da saída. 2. Cálculo do Erro O erro da previsão é calculado, comparando a saída da rede (previsão) com a saída real (valor verdadeiro). Geralmente, o erro quadrático médio é usado, mas existem outras funções de cálculo do erro chamadas funções de custo (em inglês: loss functions). 3. Retropropagação do Erro Esse é o núcleo do algoritmo. O erro é propagado de volta através da rede, começando pela camada de saída e movendo-se para as camadas de entrada. Durante essa propagação, são calculadas as derivadas parciais do erro em relação a cada peso da rede (essencialmente, determina-se quanto cada peso contribuiu para o erro). O método do gradiente descendente (ou uma de suas variantes) é usado para ajustar os pesos na direção que reduz o erro. 4. Atualização dos Pesos Depois que o erro foi retropropagado e as contribuições de todos os pesos ao erro foram determinadas, os pesos são atualizados. Isso é feito subtraindo uma fração do gradiente do peso. Essa fração é determinada pela taxa de aprendizado (em inglês: learning rate). 15 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning 5. Iteração O processo é repetido – alimentando mais entradas, calculando erros, retropropagando es- ses erros e atualizando os pesos – até que o erro da rede alcance um valor aceitável ou comece a estagnar, ou até que se cumpra um número máximo de iterações. O objetivo principal do algoritmo de retropropagação é minimizar o erro da rede ajustando os pesos com base nas contribuições de cada peso ao erro total. Com o tempo, isso permite que a rede neural “aprenda” e melhore suas previsões ou classificações. Em resumo, o perceptron multicamada com retropropagação foi o modelo neural que mais influenciou o trabalho de Rumelhart, McClelland e o Grupo de Pesquisa PDP. As redes neurais profundas usadas atualmente derivam-se desses dois conceitos básicos explorados pela abordagem PDP, por isso esse grupo é considerado pioneiro do desen- volvimento IA atual. 2. DEEP LEARNING E APRENDIZAGEM DE MÁQUINA O campo da Inteligência Artificial (IA) evoluiu consideravelmente nas últimas décadas, e duas áreas-chave que têm recebido grande atenção são o Aprendizado Profundo (Deep Learning) e a Aprendizagem de Máquina (Machine Learning). Ambos desempenham um papel vital na criação de sistemas inteligentes e na análise de dados complexos. A seguir, exploraremos essas duas áreas, seus princípios fundamentais e suas aplica- ções. Como indicado na seção anterior essas áreas se derivaram da IA sub-simbólica. 2.1. TIPOS DE MODELOS DE APRENDIZAGEM DE MÁQUINA O principal objetivo da Aprendizagem de Máquina, sendo o principal campo da IA atual- mente, é o desenvolvimento de modelos e algoritmos que, sem programação explícita, permitem que um computador possa aprender e tomar decisões. Assim, os sistemas computacionais, a partir da exposição a quantidades maiores de dado, podem, a prin- cípio, aprimorar seu desempenho. Outro nome comumente atribuído a essa área é de Aprendizado Estatístico. Esse nome, apesar de cada vez mais raramente utilizado, vem do fato de que os modelos de Aprendizagem de Máquina, em sua maioria, são basea- dos em modelos e técnicas estatísticas para a criação de seus algoritmos. Isso ocorre porque o processo de aprendizagem sempre envolve incerteza e a estatística, por defi- nição, é a ciência da incerteza. Em termos do tipo de dado necessário e os objetivos que podem ser alcançados com esses dados, é possível listar alguns tipos de aprendizado de máquina, sendo a classi- ficação mais tradicional baseada em três divisões: 16 1 Conceitos Fundamentais de Inteligência Artificial ` Aprendizado Supervisionado: Nesse tipo de aprendizado, um modelo é treina- do em um conjunto de dados que inclui dados rotulados ou classificados, também conhecidos como dados de entrada e de saída. O objetivo é fazer com que o mo- delo aprenda a mapear as entradas para as saídas correspondentes. Exemplos incluem classificação de e-mails como spam ou não-spam, avaliação do risco de investimento em fundos específicos e reconhecimento de padrões em imagens. ` Aprendizado Não-Supervisionado: Aqui, o modelo é treinado em um conjunto de dados sem rótulos. O objetivo é encontrar estruturas ou padrões intrínsecos nos dados, os quais podem ajudar a máquina a classificar informações sem a presença de dados rotulados específicos. Tarefas tradicionais incluem a identi- ficação de casos raros ou desviantes (como fraudes em transações bancárias), clustering ou agrupamento de tipos comportamentais (como a identificação de padrões de compras online) e imputação de informações faltantes (como a esti- mação de padrões de consumo de conteúdo em redes sociais em perfis parcial- mente privados). A análise fatorial, tão influente nas teorias psicológicas pode ser classificada com um método não-supervisionado. ` Aprendizado por Reforço: Esse tipo de aprendizado envolve agentes que to- mam ações em um ambiente e recebem recompensas ou penalidades com base em suas ações, sendo baseados em modelos da psicologia comportamental. O objetivo é aprender uma política (ou seja, um conjunto de ações possíveis dadas as restrições de uma tarefa) que maximize a recompensa cumulativa ao longo do tempo. Esse tipo de aprendizagem de máquina é frequentemente usado em jogos, robótica e sistemas de recomendação. Em termos dos modelos estatísticos usados para criar algoritmos de aprendizagem de máquina, entre os mais tradicionais, pode-se listar: ` Regressão linear e logística: Usado para prever valores contínuos e categóri- cos, respectivamente, com base em variáveis independentes (também chama- das de entradas ou de features). Esse modelo assume que a relação entre as entradas e uma única saída é linear (ou seja, descrito por uma função linear). ` Árvores de Decisão: Modelos hierárquicos que dividem os dados em subcon- juntos com base em características. Esse modelo não faz pressupostos sobre a forma matemática da relação entre as entradas e a saída, podendo ser conside- rado um tipo de método de regressão não-paramétrica. ` Máquinas de Vetores de Suporte (SVM): Usadas para classificação e regres- são, são eficazes em problemas com altadimensionalidade. Mais especifica- mente, consiste em uma descrição específica de espaços multidimensionais (ou seja, em cenários onde há diversas entradas e até mesmo diversas saídas). 17 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning ` Redes Neurais Artificiais (ANN): Modelos inspirados no cérebro que são ca- pazes de aprender a partir de dados complexos como apresentados na seção anterior. No geral, consistem em diversas camadas de modelos paramétricos de regressão combinados com um componente não linear, permitindo modelagem de padrões não-lineares. O aprendizado de máquina (machine learning) é uma subárea crucial da IA a qual envolve a criação de algoritmos e modelos que permitem que os sistemas aprendam com dados de exemplo e melhorem suas habilidades preditivas com o tempo. Existem diversos mo- delos, técnicas e algoritmos de aprendizagem de máquina e listar todos seria impossível. Nas décadas de 80, 90 e início dos anos 2000, algoritmos tradicionais de machine lear- ning (como Suport Vector Machines, Boosting, Random Forrest) eram implementados com maior sucesso em diversas tarefas como, por exemplo, classificação de e-mails como spam, diagnóstico médico e veículos autônomos. Os algoritmos de aprendizado de máquina têm sido utilizados principalmente para que as IAs estreitas possam se especializar na tarefa para qual foram desenvolvidas a fazer. Já o Deep Learning (DL) é considerado como uma subárea da Aprendizagem de Máquina que se concentra em redes neurais profundas. As redes neurais profundas (ANNs) usam um número hiper parametrizado de camadas de processamento não-linear. Em outras palavras, essas redes são compostas por muitas camadas de neurônios artificiais, tornan- do-as capazes de aprender representações complexas de dados. Os principais avanços em aplicações mais recentes de IA se devem ao Deep Learning, com desenvolvimentos que vão desde à visão computacional até o processamento de linguagem natural. Alguns dos modelos mais tradicionais de Deep Learning são: ` Redes Neurais Feedforward (FNN): São redes com camadas de neurônios que se conectam apenas em uma direção, das entradas para as saídas. São evo- luções modernas dos Perceptrons Multicamadas discutidos na sessão anterior. ` Redes Neurais Convolucionais (CNN): Projetadas especificamente para pro- cessamento de imagens, as CNNs utilizam filtros convolucionais para extrair ca- racterísticas relevantes de imagens. Elas são usadas principalmente em tarefas não-supervisionadas. ` Redes Neurais Recorrentes (RNN): Usadas para sequências de dados, as RNNs têm conexões que formam loops, permitindo que elas mantenham uma “memória” das informações anteriores em dados sequenciais. Elas são usadas principalmente em tarefas supervisionadas nas quais existem dependências temporais ou espa- ciais entre os dados. Um modelo desse tipo chamado “Long-Short Term Memory” (LSTM) dominou o processamento de textos antes da era dos Transformers que no presente momento vem substituindo essas arquiteturas (ver adiante). 18 1 Conceitos Fundamentais de Inteligência Artificial ` Redes Neurais Generativas Adversárias (GAN): Compostas por um gerador e um discriminador, são usadas para criar dados similares aos dados de entra- da em alguns casos de falsificações que não sejam identificadas como tal. Nas GAN’s, o gerador parte de vetores aleatórios e tenta produzir uma saída que seja semelhante a uma imagem original na entrada da rede. O discriminador tenta distinguir entre a imagem real e a imagem criada pelo gerador. No treinamento adversarial, o gerador tenta produzir dados que enganam o discriminador e, o discriminador tenta melhorar sua capacidade de distinguir dados reais de dados falsos. É um “jogo” em que o gerador tenta melhorar sua capacidade de enga- nar o discriminador, enquanto o discriminador tenta se tornar melhor em pegar as falsificações. As GANs têm várias aplicações, incluindo geração de imagens artísticas, criação de modelos 3D, super-resolução, transferência de estilo artís- tico, entre outras. Elas são usadas tanto em tarefas supervisionadas quanto em tarefas não-supervisionadas, muitas vezes se assemelhando a modelos cogniti- vos e psicométricos desenvolvidos na área de psicologia. Isso porque as GANs muitas vezes também se baseiam na existência de processos latentes (ou seja, não-observados) que “geram” os padrões observados nos dados. Os Transformers são derivações de uma arquitetura de rede neural introduzida em 2017 por Vaswani et al., no artigo Attention is All You Need. Desde então, esta arquitetura tor- nou-se a base para vários modelos de processamento de linguagem natural (NLP) de alto desempenho, como BERT, GPT, T5 e muitos outros. Também foi nomeada de modelo fundacional, já que tem uma ampla gama de aplicação e vem substituindo as redes RNN e CNN’s por terem atingido desempenho superior do que essas arquiteturas. A inovação principal do transformer é a forma como ele lida com sequências de dados (como texto), usando mecanismos de atenção, em vez de depender de processamento sequencial de recorrências das RNN’s. Esse mecanismo permite que o modelo se concentre em dife- rentes partes de uma sequência simultaneamente. Em vez de olhar para uma palavra ou token de cada vez, o transformer pode atribuir “pesos de atenção” a todos os tokens na sequência, permitindo que ele capture relacionamentos contextuais de longo alcance. Essa arquitetura intercala mecanismos de atenção com FFN tradicionais. Modelos baseados nessa arquitetura como Bidirectional Encoder Representations from Transformers (BERT) e Generative Pre-trained Transformer (GPT, que está na base do ChatGPT) demonstraram desempenho de ponta em uma ampla gama de tarefas de NLP, desde compreensão e geração de texto até tradução automática e análise de sentimentos. O design flexível e eficaz da arquitetura Transformer permitiu que ela se tornasse uma das arquiteturas dominantes em NLP moderno e em outras tarefas que envolvem sequências de dados. Em termos de aplicações específicas, o DL tem revolucionado várias áreas relaciona- das a problemas de engenharia. Entre essas, pode-se listar: (a) Visão Computacional: Em aplicações de reconhecimento de imagem e vídeo, como identificação de objetos, detecção de rostos e carros autônomos, as CNNs são essenciais; (b) Processamento 19 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning de Linguagem Natural (PLN): Para tarefas de PLN, como tradução automática, chatbots e análise de sentimentos, as redes neurais recorrentes e modelos de transformers são fundamentais; (c) Saúde: O DL está sendo aplicado na análise de imagens médicas, diagnóstico de doenças e até mesmo na descoberta de novos tratamentos; (d) Jogos e Entretenimento: O DL tem sido usado para criar personagens de jogos mais inteligentes e realistas e para melhorar a experiência do jogador. Embora o Deep Learning tenha alcançado avanços notáveis, ainda enfrenta desafios significativos. Em primeiro lugar, apesar dos desempenhos incríveis em problemas de engenharia, para a resolução de problemas científicos, no entanto, onde a direção cau- sal entre os dados nem sempre é conhecida a priori, o Deep Learning muitas vezes tem desempenho similar a modelos mais simples. Há ainda a necessidade de grandes volumes de dados, o que é uma limitação importante. Um problema central é o da interpretabilidade que se refere à falta de conhecimento do que realmente o modelo aprendeu e porque tem o desempenho positivo que atingiu. Sem esse conhecimento há uma limitação na confiança que será depositada nesses modelos. Por último, há a questão do viés algorítmico e as questões éticas implicadas definidas como o “preconceito” ou “discriminação” inerente a modelos de IA. Isso por- que, os modelos foram treinados com dados livres, produzidos de forma espontânea e postados publicamente na internet que podem contertoda sorte de preconceitos im- buídos, fazendo com que o modelo aprenda a reproduzi-los. Além disso, o uso dessas informações é intrinsecamente permeado por questões éticas e, eventualmente, legais como tem sido denunciado pela categoria profissional de escritores por exemplo. Independente das possíveis limitações, o futuro da Aprendizagem de Máquina e do Aprendizado Profundo é emocionante. Avanços em hardware, como unidades de pro- cessamento de tensor (TPUs) e unidades de processamento gráfico (GPUs), estão impulsionando o treinamento de modelos maiores e mais complexos, mesmo em com- putadores pessoais. Além disso, abordagens mais éticas e responsáveis estão sendo desenvolvidas para lidar com os desafios éticos da IA. O Deep Learning e a Aprendizagem de Máquina estão na vanguarda da revolução da Inteligência Artificial. Essas disciplinas têm o potencial de transformar indústrias, me- lhorar a tomada de decisões e tornar nossas vidas mais convenientes. No entanto, é importante reconhecer os desafios e garantir que essas tecnologias sejam usadas de maneira ética e responsável. Com o contínuo avanço da pesquisa e desenvolvimento, podemos esperar ver ainda mais aplicações inovadoras surgindo dessas áreas. Em termos de revolução da área, as principais inovações dos últimos anos surgiram na área que antes era conhecida como linguística computacional e hoje se conhece como processamento de linguagem natural. O processamento de linguagem natural (PLN) é uma área da IA que se concentra na interação entre computadores e a linguagem hu- mana. Isso inclui tradução automática, chatbots e sistemas de análise de sentimentos. O PLN está em constante evolução e desempenha um papel fundamental em melhorar a comunicação entre humanos e máquinas. Em particular, em dezembro de 2022, o lançamento do chatbot ChatGPT revitalizou as discussões sobre IAs gerais e as possi- bilidades geradas com algoritmos baseados em aprendizado de máquina e, mais espe- cificamente, em redes neurais artificiais. 20 1 Conceitos Fundamentais de Inteligência Artificial Tendo em vista as diversas consequências do ChatGPT (e seus concorrentes), é funda- mental enfatizar que à medida que a IA se torna mais onipresente em nossa sociedade, surgem preocupações éticas. Questões relacionadas à privacidade, discriminação (ou viés) algorítmica e o impacto na força de trabalho humana precisam ser abordadas com seriedade. A ética desempenha um papel fundamental na forma como a IA é de- senvolvida e utilizada. O uso e desenvolvimento dessas ferramentas deve ser discutido não apenas em termos de possibilidades de performance, mas também em termos de bem-estar social e impactos positivos para o mundo. A Inteligência Artificial é uma área empolgante e em constante evolução que está moldando nosso mundo de maneiras profundas. Compreender seus conceitos básicos é fundamental para navegar nesse cenário em rápida mudança. À medida que a IA continua a se desen- volver, é importante que a sociedade trabalhe em conjunto para garantir que ela seja usada de forma ética e benéfica para todos. A IA promete transformar nossa sociedade, e seu potencial só aumenta à medida que continuamos a explorar suas capacidades e limitações. 2.2. MODELOS MODERNOS PARA TEXTOS E IMAGENS Nos últimos anos, os avanços na área de Deep Learning revolucionaram o processa- mento de texto e imagem, impulsionando aplicações em diversas indústrias. Modelos de Linguagem com Aprendizado Profundo, também chamados de Modelos Largos de Linguagem (LLMs) ou modelos fundacionais, baseados na arquitetura dos transfor- mers, desempenharam um papel fundamental nessa transformação, permitindo tarefas complexas de processamento de linguagem natural (PLN) e visão computacional. Nes- te texto, exploraremos esses modelos e seu impacto em aplicações de texto e imagem. Os Modelos de Linguagem com Aprendizado Profundo, também conhecidos como LLMs, são uma classe de modelos de Deep Learning que revolucionaram o processa- mento de texto. Esses modelos se baseiam nos transformers e são capazes de repre- sentar e gerar textos com base em vastos conjuntos de dados de treinamento. Alguns dos LLMs mais proeminentes incluem: ` GPT (Generative Pre-trained Transformer): O GPT é uma série de modelos de linguagem desenvolvidos pela OpenAI, começando com o GPT-1 e evoluindo para o GPT-4. Esses modelos são treinados em grandes quantidades de texto da internet e são conhecidos por sua capacidade de gerar texto coeso e contex- tualmente relevante. Eles são usados em aplicações como chatbots, geração de texto automático e assistência à escrita. ` BERT (Bidirectional Encoder Representations from Transformers): O BERT, desenvolvido pela Google, é projetado para entender o contexto bidirecional em texto. Isso o torna particularmente eficaz em tarefas de PLN, como classificação de texto e preenchimento de lacunas, bem como de tradução de textos entre duas diferentes línguas. O BERT e suas variantes são amplamente usados em pesquisa acadêmica e em aplicações comerciais como, por exemplo, no meca- nismo de busca do google. 21 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning SAIBA MAIS SAIBA MAIS O artigo abaixo esclarece em detalhes como são aplicados os modelos BERT à pesquisa. Understanding searches better than ever before. Disponível em: https://blog.google/products/search/search-language-understanding-bert/. Disponível em: https://www.youtube.com/watch?v=CP2B-OWvtF8. Disponível em: https://www.maritaca.ai/. BARD é o modelo de linguagem e imagens concorrente ao GPT 4.0 desenvolvido pelo Google AI. Llama 2 é um modelo de linguagem aberto e desenvolvido pela Meta AI. Esse modelo tem sido usado como base para outros como o modelo desenvolvido no Brasil chamado Maritalk AI. Vamos explorar um pouco mais sobre esse universo por meio dos links abaixo. Site oficial do Maritalk AI. Desvendando a Arquitetura Transformer: Fundamentos, Aplicações e Perspectivas Futuras. Todos esses modelos usam a arquitetura dos transformers para processar textos. Em- bora tenham sido originalmente desenvolvidos para processamento de linguagem natu- ral, os modelos transformer também têm se mostrado eficazes em tarefas de visão com- putacional. Esses modelos, que incluem o Vision Transformer (ViT), podem aprender a entender relações complexas entre elementos de imagem. Assim há outros modelos de geração de imagens a partir de descrições textuais em imagens como o DALL-e, desenvolvido pela OpenAI, e o Midjourney, desenvolvido pela empresa com mesmo nome. Há também o Whisper, desenvolvido pela OpenAI para reconhecimento de fala de linguagem natural. Os sistemas de IA mencionados são exemplos de como a IA está sendo usada para desenvolver novas tecnologias e aplicações. Eles têm o potencial de revolucionar a forma como interagimos com computadores e a forma como consumimos informações. Mais detalhes sobre a forma como esses modelos funcionam e podem ser aplicados em casos reais serão apresentados nas Unidade 3 e 4 desta disciplina. https://blog.google/products/search/search-language-understanding-bert/ https://www.youtube.com/watch?v=CP2B-OWvtF8 https://www.maritaca.ai/ 22 1 Conceitos Fundamentais de Inteligência Artificial 2.3. AGENTES INTELIGENTES E SUAS APLICAÇÕES EM CIÊNCIA E ENGENHARIA Agentes inteligentes são sistemas computacionais projetados para interagir com seu ambiente de forma autônoma e tomar decisões com base em informações e objetivos específicos. Eles têm uma ampla gama de aplicações em ciência e engenharia, impul- sionando avanços em diversas áreas. Neste texto, exploraremos os agentes inteligen- tes, suas arquiteturas cognitivas, modelos fundacionais e como eles são aplicados em contextos científicos e de engenharia. Os agentes inteligentes podem ser classificados de acordo com seu grau de autonomia e racionalidade: Autonomia: Refere-se à capacidade do agente de tomar decisões independentes com baseem sua percepção do ambiente. Racionalidade: Envolve a capacidade do agente de tomar decisões que maximizam sua utilidade, considerando as informações disponíveis. Agentes inteligentes podem ser também caracterizados em termos de suas arquiteturas cognitivas (ou arquiteturas robóticas, termo mais comumente utilizado nas engenharias). As arquiteturas cognitivas são estruturas conceituais que definem a organização e o fun- cionamento de agentes inteligentes. Alguns exemplos de arquiteturas cognitivas incluem: Arquitetura de Subsunção: Desenvolvida por Rodney Brooks, essa arquitetura enfatiza a decomposição do comportamento em camadas simples e reativas. Cada camada lida com um aspecto específico da interação do agente com o ambiente, permitindo um controle adap- tativo e robusto. Arquitetura de BDI (Belief-Desire-Intention): Essa arquitetura modela o agente como ten- do crenças (belief) sobre o ambiente, desejos (desire) que representam seus objetivos e intenções (intention) que são planos de ação para alcançar esses objetivos. É amplamente utilizada em sistemas multiagentes e robótica. Modelos Fundacionais, Lógica de Predicados e Redes Semânticas: Modelos fundacio- nais, como a lógica de predicados e redes semânticas, são frequentemente usados para re- presentar o conhecimento e a racionalidade dos agentes inteligentes. A lógica de predicados permite a representação de relações complexas entre objetos, enquanto as redes semânti- cas representam o conhecimento em um formato de grafo. Em ciência e engenharia, agentes inteligentes são frequentemente usados em emula- ção e simulação. A diferença fundamental entre esses dois conceitos reside em seus objetivos: 23 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning Emulação: Envolve a criação de um agente inteligente que replica o comportamento de um sistema ou processo real. No entanto, o estado interno do mecanismo de emulação não precisa refletir com precisão o estado interno do alvo que está emulando. Por exemplo, o ChatGPT, um agente conversacional, consegue conversar de forma similar a um ser humano sem neces- sariamente seus estados internos serem similares aos estados internos dos seres humanos. Simulação: Evolve a criação de um sistema que reflete, da forma mais precisa possível, o estado interno do alvo que está simulando. Uma simulação criada de forma adequada de- veria ser capaz de emular adequadamente o comportamento do sistema ou processo real alvo. Por exemplo, simuladores de voo de qualidade exigem que o usuário realize todos os procedimentos que seriam necessários para fazer uma aeronave voar adequadamente. Entre processos de emulação e simulação, e entre os diferentes níveis de autonomia e racionalidade, os agentes inteligentes podem ter aplicações variadas em ciência e engenharia: Robótica: Agentes inteligentes são amplamente usados em robótica para navegação autô- noma, automação industrial e até mesmo cirurgia robótica. Esses agentes podem perceber seu ambiente, tomar decisões em tempo real e realizar tarefas complexas com precisão. Sistemas Multiagentes: Em sistemas multiagentes, múltiplos agentes inteligentes intera- gem para alcançar objetivos comuns. Isso é aplicado em logística, tráfego urbano, economia e sistemas de recomendação. Otimização e Controle de Processos: Agentes inteligentes são usados para otimizar pro- cessos complexos, como o controle de tráfego aéreo, gerenciamento de cadeias de supri- mentos e design de experimentos. Ciências Cognitivas: A pesquisa em ciências cognitivas se beneficia de agentes inteligentes para modelar e entender o comportamento humano. Eles são usados em experimentos vir- tuais para testar teorias cognitivas e comportamentais, avaliando como o comportamento de “humanos simulados” se assemelha ao comportamento de humanos reais. É importante salientar neste momento que agentes inteligentes, e IAs de forma geral, têm sido influenciados pelas ciências cognitivas. As ciências cognitivas são todas aquelas que estudam o funcionamento do cérebro e a cognição humana a partir da intersecção entre psicologia, neurociências e ciência da computação. A compreensão de como os seres humanos percebem, raciocinam e tomam decisões tem levado ao desenvolvimento de modelos mais precisos e eficazes de agentes inteligentes, tanto pela identificação dos er- ros sistemáticos nos processos de decisão em seres humanos quanto pela identificação da influência necessária de fatores subjetivos nos processos decisórios. Embora os agentes inteligentes cada vez mais apresentam um impacto significativo em ciência e engenharia, ainda existem desafios a serem superados. A interpretabilidade dos agentes, o desenvolvimento de estratégias de aprendizado mais eficazes e a ética na autonomia dos agentes são áreas de pesquisa em crescimento. No futuro, esperamos 24 1 Conceitos Fundamentais de Inteligência Artificial ver agentes inteligentes cada vez mais sofisticados e integrados em sistemas do mundo real. Eles desempenharão um papel fundamental na automação, otimização e resolução de problemas complexos em várias disciplinas científicas e de engenharia. Os agentes inteligentes são ferramentas poderosas para abordar problemas complexos em ciência e engenharia. Com base em arquiteturas cognitivas, modelos fundacionais e influências das ciências cognitivas, eles continuam a avançar em direção a aplicações cada vez mais impactantes. À medida que a pesquisa e o desenvolvimento em agentes inteligentes progridem, podemos esperar ver avanços significativos nas áreas em que atuam, impulsionando a inovação e a compreensão em ciência e engenharia. CONCLUSÃO A Inteligência Artificial (IA) revolucionou o mundo da tecnologia e da ciência, trazendo consigo a necessidade da compreensão de um conjunto de conceitos básicos funda- mentais da interface entre cognição e máquina para que se possa, também, compreen- der o seu impacto. A partir da nossa introdução à Inteligência Artificial e seus conceitos básicos, podemos perceber que IA se refere à capacidade das máquinas de realizar tarefas que normalmente exigiriam inteligência humana (e cada um dos seus aspectos básicos). Isso inclui processamento de linguagem natural, visão computacional, apren- dizado de máquina e raciocínio lógico. No domínio da IA, o aprendizado de máquina desempenha um papel crucial. É um campo que se concentra no desenvolvimento de algoritmos e modelos que permitem que as má- quinas aprendam com os dados. A capacidade de criar essas máquinas tem dito diversos impactos significativos em muitas áreas do saber, desde a automação de processos até a análise de dados em pesquisas científicas. Algoritmos de aprendizado de máquina são a base de muitos sistemas de IA, tornando possível a automação de tarefas complexas. Dentro do aprendizado de máquina, o Deep Learning merece destaque. Este é um sub- campo que se concentra em redes neurais profundas, que são modelos matemáticos inspirados na estrutura do cérebro humano. Os algoritmos de Deep Learning revolucio- naram a IA ao permitir avanços surpreendentes na capacidade dos computadores em reconhecimento de fala, visão computacional, tradução automática e muito mais. Em particular, os modelos desenvolvidos especificamente para processar textos e imagens têm apresentado uma imensidão de possibilidades. Assim, os métodos que possibilitam o treinamento e uso das redes neurais profundas em conjuntos de dados diversificados têm nos permitido alcançar resultados impressionantes em relação ao desenvolvimento das inteligências das máquinas. Entre os resultados mais impressionantes está na aplicação das IA para o desenvolvi- mento de agentes inteligentes, que são sistemas que podem atuar de forma autônoma para atingir objetivos específicos. Esses agentes podem ser incorporados em softwa- res, robôs, veículos autônomos e sistemas de automação industrial. Na ciência e na engenharia, agentes inteligentes têm sido utilizados paraotimizar processos, realizar pesquisas e até explorar ambientes hostis, como o espaço ou o oceano profundo. Num contexto mais cotidiano, agentes inteligentes baseados em modelos de processamento de linguagem natural, como o ChatGPT, têm aberto as portas para a possibilidade de 25 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning comparar a performance de computadores em tarefas que antes se acreditava que apenas humanos poderiam executar. Por fim, é possível afirmar que o desenvolvimento das Inteligências Artificiais sub-sim- bólicas tem impacto e transformado a sociedade em níveis que não se imaginava ainda possível. A aprendizagem de máquinas e a Deep Learning estão promovendo avanços significativos que viabilizam aplicações revolucionárias no processamento de lingua- gem natural e na visão computacional. Aos poucos essas aplicações têm permitido que agentes inteligentes possam resolver problemas nas ciências e nas engenharias, me- lhorando processos e possibilitando a exploração de novas possibilidades de descober- ta. Esses avanços representam apenas o início do impacto da IA na nossa sociedade e prometem moldar o futuro de formas ainda mais impressionantes. 26 1 Conceitos Fundamentais de Inteligência Artificial REFERÊNCIAS BIBLIOGRÁFICAS BICKHARD, M. H., & Terveen, L. (1996). Foundational issues in artificial intelligence and cognitive science: Impasse and solution. Elsevier. BOISSIER, O., Bordini, R. H., Hubner, J., & Ricci, A. (2020). Multi-agent oriented programming: programming multi-agent systems using JaCaMo. MIT Press. BOMMASANI, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, K., Davis, J. Q., Demszky, D., … Liang, P. (2022). On the Opportunities and Risks of Foundation Models (arX- iv:2108.07258). arXiv. https://doi.org/10.48550/arXiv.2108.07258 CAI, H., Su, Y., & Huang, J. (2022). Cooperative control of multi-agent systems: Distributed-observer and distributed-internal-model approaches. Springer Nature. DAAS, M., & Wit, A. J. (2018). Towards a robotic architecture. ORO Editions. DOMINGOS, P. (2017). O algoritmo mestre: como a busca pelo algoritmo de machine learning definitivo re- criará nosso mundo. Novatec Editora. ELIASMITH, C. (2013). How to build a brain: A neural architecture for biological cognition. OUP USA. ESCOVEDO, T., & Koshiyama, A. (2020). Introdução a Data Science: Algoritmos de Machine Learning e mé- todos de análise. Casa do Código. EYSENCK, M. W., & Eysenck, C. (2023). Inteligência Artificial X Humanos: O que a Ciência Cognitiva nos Ensina ao Colocar Frente a Frente a Mente Humana e a IA. Artmed. FERREIRA, M. I. A., & Fletcher, S. R. (2022). The 21st Century Industrial Robot: When Tools Become Collab- orators. Springer. HARRISON, M. (2019). Machine Learning–Guia de referência rápida: trabalhando com dados estruturados em Python. Novatec Editora. Instituto Ayrton Senna, Primi, R., Nakano, T. C., McGrew, K. S., & Schneider, J. W. (Eds.). (2023). Educação no século XXI: Inteligência, pensamento críttico e criatividade. Hogrefe. IZBICKI, R., & dos Santos, T. M. (2020). Aprendizado de máquina: uma abordagem estatística. Rafael Izbicki. JAMES, G., Witten, D., Hastie, T., Tibshirani, R., & Taylor, J. (2023). An Introduction to Statistical Learning: with Applications in Python. Springer International Publishing. KAUFMAN, D. (2019). A inteligência artificial irá suplantar a inteligência humana? Estação das Letras e Cores EDI. LIN, J., Nogueira, R., & Yates, A. (2022). Pretrained transformers for text ranking: BERT and beyond. Springer Nature. https://doi.org/10.48550/arXiv.2108.07258 27 1 U ni ve rs id ad e S ão F ra nc is co Inteligência artificial e machine learning MCKINNEY, W. (2018). Python para análise de dados: Tratamento de dados com Pandas, NumPy e IPython. Novatec Editora. Mitchell, M. (2019). Artificial Intelligence: A Guide for Thinking Humans by New (2019). Picador. MUELLER, J. P., & Massaron, L. (2019). Aprendizado de máquina para leigos. Alta Books Editora. PÁDUA NÓBREGA, L. (2023). Robôs e Inteligência Artificial Nas Telas: Tecnociência, Imaginário e Política na Ficção. Editora Appris. ROSENBLATT, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519 ROTHMAN, D. (2021). Transformers for Natural Language Processing: Build innovative deep neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd. RUMELHART, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0 RUMELHART, D. E., McClelland, J. L., & Group, P. R. (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition: Foundations. https://doi.org/10.7551/mitpress/5236.001.0001 RUSSELL, S., & Norvig, P. (2006). Inteligência Artificial. LTC. SCHNEIDER, W. J., & McGrew, K. S. (2018). The Cattell–Horn–Carroll Theory of Cognitive Abilities. In Con- temporary Intellectual Assessment (4th ed., pp. 73–163). Guilford Press. SICILIANO, B., & Khatib, O. (Eds.). (2016). Springer handbook of robotics. Springer. Silveira, G., & Bullock, B. (2017). Machine Learning: introdução a classificação. Editora Casa do Código. TAULLI, T. (2020). Introdução à Inteligência Artificial: Uma abordagem não técnica. Novatec Editora. TEIXEIRA, João de Fernandes. O que é inteligência artificial. E-galáxia; 3ª edição (4 junho 2019). TUNSTALL, L., Von Werra, L., & Wolf, T. (2022). Natural language processing with transformers. O’Reilly Media, Inc. VASWANI, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need (arXiv:1706.03762). arXiv. https://doi.org/10.48550/arXiv.1706.03762 https://www.zotero.org/google-docs/?anwrBY https://www.zotero.org/google-docs/?anwrBY https://doi.org/10.1037/h0042519 https://doi.org/10.1038/323533a0 https://doi.org/10.7551/mitpress/5236.001.0001 https://doi.org/10.48550/arXiv.1706.03762 _Hlk158225517