Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Prévia do material em texto

6
1
Conceitos Fundamentais de Inteligência Artificial
Disponível em: https://bostondynamics.com/.
CURIOSIDADE
UNIDADE 1
CONCEITOS FUNDAMENTAIS DE 
INTELIGÊNCIA ARTIFICIAL
INTRODUÇÃO
A Inteligência Artificial (IA) é uma área da ciência da computação, e das ciências cognitivas, 
que tem ganhado destaque nas últimas décadas devido ao seu potencial transformador em 
diversos setores da sociedade. A IA busca desenvolver sistemas que possam realizar tare-
fas que, quando feitas por seres humanos, exigem inteligência. Neste texto, exploraremos 
os conceitos básicos da Inteligência Artificial e como ela está moldando nosso mundo.
1. DEFINIÇÕES DE INTELIGÊNCIA ARTIFICIAL
Os estudos e a implementação de IAs têm como objetivo desenvolver sistemas compu-
tacionais que possam simular o processamento humano inteligente. Assim, esse campo 
da ciência busca produzir máquinas que possam pensar de maneira inteligente como os 
seres humanos e, em última instância, se tornarem agentes automatizados que possam 
perceber o ambiente, raciocinar e agir nele de forma adaptativa e inteligente. 
A definição de Inteligência Artificial pode variar dependendo do contexto, mas em sua 
essência, a IA envolve a criação de programas de computador e sistemas que podem 
realizar tarefas que normalmente exigiriam interferência humana em termos de proces-
sos decisórios e racionais. Entre essas tarefas pode-se citar a capacidade de raciocínio 
e resolução de problemas, aprendizagem e reconhecimento de padrões, bem como 
processamento de linguagem natural e a tomada de decisões. 
Uma possível aplicação da IA seria a criação de robôs. Idealizados em filmes de ficção 
científica como o HAL 9000 de 2001 - Uma Odisseia no Espaço, o simpático WALL-E 
(Pixar, Disney), R2-D2 e C-3PO em Star Wars, entre outros, representam o zeitgeist 
referente aos princípios da IA e o que se desejava desenvolver a partir das empreitadas 
científicas e de engenharia nesse campo.
Veja a ficção se tornando realidade nos robôs da Boston Dynamics, uma empresa de robótica 
que desenvolve protótipos para aplicações militares e industriais. 
https://bostondynamics.com/
7
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
Na psicologia, a inteligência humana é definida como capacidade de aprender a partir 
da experiência, derivar informações e adaptar-se ao ambiente. Os testes de inteligência 
buscam estimar a capacidade de uma pessoa para aprender, raciocinar, compreender 
conceitos abstratos e adquirir conhecimento. Uma teoria mais moderna chamada Cat-
tell-Horn-Carroll (CHC), base teórica para vários testes de inteligência contemporânea, 
definida como um conjunto de capacidades apresentadas na Tabela 01.
Tabela 01. Principais capacidades cognitivas na teoria Cattell-Horn-Carroll (CHC)
Raciocínio fluido (Gf)
Capacidade de uso da atenção (atenção concentrada) para executar 
procedimentos deliberados e controlados para resolver novos pro-
blemas “imediatos” que não podem ser resolvidos usando hábitos, 
esquemas e scripts previamente aprendidos.
Conhecimento-Compreensão 
ou inteligência cristalizada (Gc)
A capacidade de compreender e comunicar conhecimentos cultural-
mente valorizados. Gc inclui a profundidade e amplitude de conhe-
cimentos e habilidades como linguagem, palavras e conhecimentos 
gerais desenvolvidos através da experiência, aprendizagem e acul-
turação.
Memória de Trabalho (Gwm) A capacidade de manter e manipular informações no “bloco de notas 
mental transitório” com atenção ativa.
Processamento Visual (Gv) 
A capacidade de fazer uso de imagens mentais simuladas para re-
solver problemas. Perceber, discriminar e manipular imagens com o 
“olho da mente”.
A eficiência de aprendizagem 
(Gl) 
Capacidade de aprender, armazenar e consolidar novas informações 
ao longo de períodos de tempo medidos em minutos, horas, dias e 
anos.
A fluência de recuperação (Gr) 
Capacidade de fluência com que os indivíduos podem produzir e re-
cuperar seletiva e estrategicamente informações ou ideias verbais e 
não-verbais armazenadas na memória de longo prazo.
Processamento Auditivo (Ga)
A capacidade de discriminar, lembrar, raciocinar e trabalhar criativa-
mente (com) estímulos auditivos, que podem consistir em tons, sons 
ambientais e unidades de fala.
Velocidade de processamento 
(Gs)
A capacidade de controlar a atenção para executar de forma auto-
mática, rápida e fluente tarefas cognitivas repetitivas relativamente 
simples. 
Fonte: Criado pelos próprios autores.
Assim se um algoritmo de Inteligência Artificial pretende emular as capacidades cogni-
tivas humanas deve possuir: (a) adaptabilidade e capacidade de raciocínio em informa-
ções novas (Gf + Gwm); (b) assimilação de conhecimento cultural (Gc); (c) interpreta-
ção e reconhecimento e transformação de informações visuais e auditivas (Gv + Ga); 
(d) capacidade de atualizar seus conhecimentos com informações novas (Gl); (e) recu-
peração eficiente e recombinação de informações armazenadas de forma criativa; e (f) 
ter respostas ágeis (Gp). Além dessas capacidades, o algoritmo precisará integrar todas 
elas em um sistema complexo de organização harmônica do processamento visando a 
adaptação e agência no meio. Mas a IA já possui um sistema com essas capacidades? 
Qual a tecnologia por trás da IA? 
8
1
Conceitos Fundamentais de Inteligência Artificial
Esse curso pretende endereçar essas questões focalizando nos avanços recentes nos 
modelos chamados de Large Language Models. Neste módulo exploraremos os concei-
tos básicos da Inteligência Artificial, alguns marcos históricos centrais e como ela está 
moldando nosso mundo hoje.
1.1. EVOLUÇÃO DA IA E SEUS MARCOS HISTÓRICOS INICIAIS
A história da IA remonta aos anos 1950, quando da revolução cognitiva, pesquisadores 
começaram a explorar a ideia de criar máquinas que pudessem imitar a inteligência 
humana, ao mesmo tempo que estabeleceram o paralelo entre o cérebro humano com 
uma “máquina de computar”. 
A origem do campo é atribuída a um workshop realizado no Dartmouth College em Hanover, no 
estado de New Hampshire, organizado pelo matemático John McCarthy e outros pioneiros da 
IA. O workshop reuniu especialistas por dois meses para investigar a possibilidade de máquinas 
serem capazes de simular todos os aspectos da aprendizagem e qualquer outra característica 
da inteligência (veja uma lista dos principais pioneiros na Tabela 02). O grupo acreditava que os 
aspectos da aprendizagem ou qualquer outra característica da inteligência podem, em princípio, 
ser descritos de forma precisa que uma máquina pode ser feita para simulá-los.
Tabela 02. Principais participantes do Dartmouth Workshop em 1956.
John McCarthy Um dos principais organizadores. Mais tarde, ele desenvolveu a linguagem de 
programação LISP, que se tornou fundamental para a pesquisa em IA.
Marvin Minsky
Tornou-se uma das principais figuras em inteligência artificial e co-fundou o 
MIT’s Project MAC, que mais tarde se tornou o Laboratório de Ciência da 
Computação e Inteligência Artificial do MIT.
Nathaniel Rochester 
Vinha da IBM, teve um papel crucial no desenvolvimento de um dos primei-
ros computadores da empresa e também mostrou interesse na simulação de 
redes neuronais.
Claude Shannon
Frequentemente chamado de “pai da teoria da informação”, seu trabalho em 
matemática e engenharia foi fundamental para o desenvolvimento da era di-
gital moderna.
Allen Newell e Herbert A. 
Simon
Juntos, eles apresentaram o Logic Theorist, que muitos consideram o primeiro 
programa de inteligência artificial, no workshop.
Oliver Selfridge
Frequentemente referido como o “pai da machine perception,” Selfridge foi um 
pioneiro no campo da aprendizagem de máquinas e da percepção visual com-
putacional. Seu trabalho “Pandemonium” foi uma das primeiras arquiteturas 
de reconhecimento de padrões.
Ray Solomonoff
É amplamente reconhecido por ser um dos fundadores da teoria algorítmica 
da probabilidade. Sua abordagem para a previsão setornou fundamental para 
a moderna teoria da aprendizagem de máquinas.
Julian Feldman
Na época, ele estava trabalhando com Newell e Simon e, posteriormente, 
tornou-se um dos fundadores do departamento de Ciência da Computação na 
University of California, Irvine.
Fonte: Criado pelos próprios autores.
9
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
Esse evento foi importante pois: (a) resultou na nomeação da disciplina, ou seja, foi 
nesse workshop que o termo “Inteligência Artificial” foi usado pela primeira vez, cunhado 
por John McCarthy; (b) envolveu colaboração interdisciplinar, onde o evento reuniu pes-
quisadores de diversas áreas, promovendo a ideia de que a inteligência artificial seria 
um campo interdisciplinar; (c) formalizou o início do campo, isto é, a reunião represen-
tou a primeira tentativa organizada de tratar a construção de máquinas pensantes como 
uma disciplina acadêmica.
Por estas razões, o Dartmouth Workshop é frequentemente citado como o nascimento 
da Inteligência Artificial como um campo de estudo formal. Esse evento resultou em 
uma visão otimista a partir da crença de que a inteligência das máquinas seria alcança-
da rapidamente. Embora essa previsão tenha sido excessivamente otimista, estabele-
ceu as bases para o desenvolvimento futuro e a direção da pesquisa em IA.
Outro marco importante na década de 50 foi o trabalho de Alan Turing, que ao se per-
guntar se as máquinas poderiam ser inteligentes propôs o “Teste de Turing”. Esse teste 
simples busca avaliar a capacidade de uma máquina para exibir comportamento inteli-
gente indistinguível de um ser humano. Turing propõe que um juiz humano interaja com 
um interlocutor não visto, que pode ser tanto um humano quanto uma máquina. Essa 
interação geralmente ocorreria através de um meio baseado em texto para evitar vieses 
visuais ou auditivos. O objetivo seria determinar se a máquina, se passando por um ser 
humano (em pelo menos 30 % das vezes), conseguiria enganar o juiz depois de uma 
conversa de cinco minutos. Se uma máquina passar no Teste de Turing, considera-se 
que ela demonstrou uma forma de inteligência artificial, pelo menos em termos de sua 
capacidade de imitar uma conversa semelhante à humana. Apesar do teste de Turing, 
hoje em dia, não ser ainda considerado a melhor ferramenta para avaliar a “inteligência” 
de computadores, ele foi um marco central para se definir padrões fundamentais de 
desempenho das máquinas.
IA simbólica (modelos sequenciais lógico-simbólicos). 
Nas décadas de 50 a 70, a visão predominante era lógica-simbólica, inspirada, princi-
palmente, nos matemáticos. Um programa IA ao resolver problemas deveria represen-
tar os elementos em símbolos e aplicar regras lógicas nesses símbolos, processando-
-os até chegar à solução desejada. 
Veja por exemplo o Wolfram Alpha que criou o programa Mathematica como um exemplo de 
aplicação dessa lógica simbólica na solução de problemas matemáticos. 
CURIOSIDADE
Disponível em: https://www.wolfram.com/.
Nessa época a IA simbólica foi a principal abordagem para a pesquisa em IA, e vários 
programas icônicos foram desenvolvidos durante esse período. Aqui estão alguns dos 
mais notáveis:
https://www.wolfram.com/
10
1
Conceitos Fundamentais de Inteligência Artificial
 ` Logic Theorist (Teórico Lógico): Desenvolvido por Allen Newell e Herbert A. 
Simon em 1955, é considerado o primeiro programa de IA. Foi projetado para 
imitar o problema de resolução de habilidades humanas e provou teoremas do 
livro “Principia Mathematica” de Russell e Whitehead.
 ` General Problem Solver (Resolvedor de Problemas Geral): Criado também 
por Newell e Simon, em 1957, este programa foi projetado para simular o racio-
cínio humano e resolver problemas gerais, modelando-os como uma árvore de 
decisões.
 ` ELIZA: Desenvolvida por Joseph Weizenbaum em 1966 no MIT, ELIZA foi um 
dos primeiros programas de processamento de linguagem natural. Sua mais fa-
mosa realização foi um programa que imitava uma sessão de terapia rogeriana.
 ` SHRDLU: Desenvolvido por Terry Winograd na década de 1970, SHRDLU foi 
um sistema que interpretava comandos em linguagem natural em um mundo 
de blocos simulados. Demonstrou habilidades de compreensão de linguagem e 
raciocínio em seu domínio.
 ` MYCIN: Desenvolvido na década de 1970, MYCIN foi um dos primeiros sistemas 
especialistas, focado em diagnosticar doenças bacterianas e recomendar antibi-
óticos. Apesar de seu sucesso em seu domínio, não era usado na prática médica, 
em parte devido a preocupações éticas.
 ` Dendral: Criado na década de 1960, Dendral foi outro sistema especialista, foca-
do na química orgânica. Analisou a estrutura molecular de compostos com base 
em dados de espectrometria de massa.
O otimismo dos pioneiros os fez acreditar que rapidamente seria possível desenvolver 
programas IA para simular capacidades complexas humanas. Estes programas marca-
ram o início da IA e foram evidências de que o raciocínio simbólico poderia ser usado 
para simular várias formas de inteligência humana. Apesar de um relativo sucesso, logo 
se percebeu as limitações dessa abordagem. As principais limitações incluem: 
 ` Insucesso em tarefas perceptuais sub-simbólicas relativamente simples como 
reconhecimento de padrões em imagens, sons e motoras. Tais tarefas são difí-
ceis de serem representadas em um formato simbólico; 
 ` A complexibilidade do processo de aquisição de conhecimentos e escalabilida-
de. Coletar e formalizar conhecimento em regras pode ser uma tarefa demorada 
e desafiadora. Esse processo, conhecido como engenharia do conhecimento, 
muitas vezes exige a intervenção de especialistas humanos. À medida que os 
sistemas baseados em regras crescem, torna-se extremamente difícil gerenciar e 
expandir essas regras. Isso limita a escalabilidade de tais sistemas em domínios 
complexos; 
11
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
 ` Incapacidade para aprender: sistemas simbólicos tradicionais não aprendem 
com a experiência. Eles precisam ser explicitamente programados para cada 
tarefa ou tipo de raciocínio que podem realizar; 
 ` Rigidez e falta de generalização: os sistemas simbólicos geralmente carecem de 
flexibilidade. Se uma situação não se encaixa nas regras predefinidas, o sistema 
pode falhar em fornecer uma resposta adequada. Sistemas simbólicos podem 
enfrentar dificuldades em generalizar a partir do conhecimento existente para 
novas situações que não foram previamente codificadas; e 
 ` Limitação na capacidade de representação simbólica discreta que muitas vezes 
carecem da rica semântica associada ao conhecimento humano. Elas podem 
não capturar todas as nuances e complexidades do mundo real.
Depois de um otimismo inicial com alguns sistemas especialistas que executam bem as 
tarefas, os pesquisadores em IA não entregavam o que tinham prometido, isso é, sis-
temas cada vez mais complexos e variados simulando atividades humanas complexas, 
como por exemplo percepção e linguagem. Disso surgiu então o “inverno da IA” durante 
os anos 70 a 90. 
Nesse momento é importante distinguir duas possibilidades de performance em siste-
mas IA. A IA Fraca (ou Estreita), também conhecida como IA especializada, é projetada 
para executar tarefas específicas e não possui a capacidade de generalizar para outras 
tarefas. Exemplos incluem chatbots, sistemas de recomendação e reconhecimento de 
voz. Já a IA Forte (ou Geral, também chamada de Inteligência Artificial Geral, IAG) é 
uma forma mais avançada de inteligência artificial que possui a capacidade de entender 
e realizar uma ampla gama de tarefas semelhantes à inteligência humana. Mais à frente 
falaremos sobre os modelos fundacionais e como eles têm apontado direções possíveis 
às IAs gerais. No entanto, ainda estamos longe de um consenso que sequer é possível 
criar esse tipo de IA.
Os sistemas especialistas simbólicos se categorizam em IA fraca em termosde perfor-
mance. Podem ter um desempenho muito bom em uma área específica, mas podem 
carecer de generalização e capacidade de se adaptar a situações ambíguas. Apesar 
dessas limitações, a IA simbólica tem suas forças e ainda é usada em combinação com 
outras técnicas em muitos sistemas modernos de IA. Por exemplo, a integração de 
abordagens simbólicas com aprendizado profundo, como se verá adiante, está rece-
bendo interesse renovado como uma maneira de combinar o melhor dos dois mundos.
IA sub-simbólica (modelos conexionistas paralelos). 
Ao mesmo tempo que a IA simbólica se desenvolvia, outro modelo chamado de sub-
-simbólico, lidando especialmente com problemas perceptuais, também se desenvolvia. 
Em 1958, Rosenblatt se inspirou na neurociência, na arquitetura neural e no modo 
como ocorre o processamento no cérebro e propôs um modelo chamado perceptron. 
O perceptron é um dos conceitos fundamentais em aprendizado de máquina e uma 
das primeiras formas de redes neurais que veremos com mais detalhes nas próximas 
unidades desse curso. Nessa unidade falaremos dos elementos básicos para entender 
um modelo neural.
12
1
Conceitos Fundamentais de Inteligência Artificial
Imagine que você está tentando ensinar uma máquina a ler em voz alta, associando 
letras (ou combinações de letras) a seus sons correspondentes, ou fonemas. O percep-
tron pode atuar como um “decisor” para determinar qual letra ou combinação de letras 
conduz a um fonema específico e, consequentemente, associar ao som corresponden-
te. O perceptron tem uma camada de entrada (inputs) que são as características das 
letras ou combinações de letras. Cada entrada é associada a um peso. O perceptron 
multiplica cada entrada pelo seu respectivo peso e depois soma tudo criando um resul-
tado final entendido como uma unidade da rede (ou neurônio simplificado) representan-
do um fonema específico. Após a soma, o resultado passa por uma função de decisão 
(função de ativação). Se a soma total for maior que um certo limite, a saída pode ser “o 
fonema /a/” (por exemplo, ao reconhecer a letra “A”). Se estiver abaixo do limite, essa 
unidade fica desativada. Imagine uma estrutura com várias unidades ou neurônios po-
dendo ser usados para representar vários sons ou fonemas.
Mas como o perceptron sabe qual peso associar a qual unidade para ativar o som corre-
to? O perceptron precisa passar por uma nova fase envolvendo a aprendizagem a par-
tir de exemplos, ensaios e erros para criar esses pesos (conexões entre letras e sons 
corretos). O treinamento do perceptron implica iniciar os pesos com valores aleatórios, 
apresentar um exemplo de palavras a serem lidas, fazer com que ele preveja os sons, 
que muito provavelmente serão errados, e usar o erro para ajustar os pesos de forma a 
melhorar as previsões futuras nos próximos exemplos.
Usando este procedimento, o perceptron tenta “aprender” a associar corretamente le-
tras e combinações de letras a seus fonemas correspondentes. No entanto, o percep-
tron simples pode ter dificuldade em lidar com associações mais complexas (por exem-
plo, combinações de letras que produzem sons diferentes dependendo do contexto). 
Para tais complexidades, abordagens mais avançadas seriam necessárias.
Se por um lado as abordagens simbólicas, como a IA baseada em regras, envolvem a 
manipulação direta de símbolos e regras predefinidas; por outro lado, as abordagens 
sub-simbólicas, como redes neurais e perceptrons, não dependem de símbolos ou re-
gras explicitamente definidas, mas sim de padrões emergentes a partir de dados.
No contexto do perceptron e redes neurais em geral, o conceito “sub-simbólico” refe-
re-se à maneira pela qual o modelo aprende e opera, que é através da modificação 
contínua de pesos e ajustes baseados em dados, em vez de manipulação de símbolos 
e regras predefinidas. No exemplo acima, se considerássemos a abordagem simbóli-
ca, haveria uma regra clara e direta que diz o seguinte: se você ver a letra “A”, então 
pronuncie o fonema /a/. No perceptron “sub-simbólico”, não existe essa regra explícita. 
Em vez disso, o modelo ajusta seus pesos com base nos dados de treinamento até que 
possa fazer a associação corretamente. A “regra” é implicitamente representada pelos 
pesos ajustados nas conexões do modelo. O termo “sub-simbólico” indica que, em vez 
de usar representações simbólicas explícitas, o sistema opera em um nível “abaixo” dos 
símbolos, ajustando-se e aprendendo a partir de interações e ajustes contínuos.
Há uma diferença importante também na estrutura da memória. Em um sistema simbóli-
co haveria uma representação discreta da regra - ou o símbolo - armazenada em algum 
lugar no cérebro. Já no sistema sub-simbólico haveria uma representação distribuída, 
13
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
isto é, uma representação é uma conexão entre as unidades - ou neurônios - as quais 
representam atributos específicos. 
A beleza do perceptron está na sua simplicidade e na sua capacidade de aprender a 
partir de seus erros. No entanto, o perceptron simples tem limitações. Por exemplo, ele 
só pode resolver problemas que são linearmente separáveis (isso significa que os da-
dos podem ser separados por uma única linha reta, plano ou hiperplano). Para proble-
mas mais complexos, são necessárias estruturas mais avançadas, como redes neurais 
multicamadas.
Outro marco importante na evolução dos modelos conexionistas é a abordagem de Paral-
lel Distributed Processing (PDP) que consistiu em uma revolução na área de inteligência 
artificial e psicologia cognitiva na década de 1980. James McClelland, David Rumelhart 
e Geoffrey Hinton (ver quadro abaixo) foram figuras centrais nesta abordagem. Eles usa-
ram redes PDP para modelar várias funções cognitivas, demonstrando que esses mo-
delos podem simular diversos processos humanos, desde reconhecimento de padrões 
até tomada de decisões. Eles publicaram dois volumes Parallel Distributed Processing: 
Explorations in the Microstructure of Cognition, editados por Rumelhart, McClelland e se 
tornaram referência clássica para esta abordagem e contêm uma série de simulações e 
explicações teóricas sobre a natureza da cognição usando este paradigma.
Geoffrey Hinton é um cientista da computação e psicólogo britânico, considerado o “pai do 
deep learning”. É um dos pesquisadores mais influentes na área de inteligência artificial. Ele 
recebeu vários prêmios por seu trabalho, incluindo o Prêmio Turing em 2018. Suas principais 
contribuições para a IA incluem o desenvolvimento de redes neurais convolucionais, que são 
usadas em uma ampla gama de aplicações, como reconhecimento de imagem e tradução 
automática. Ele se doutorou em psicologia cognitiva na Universidade de Edinburgh, fez Pós-
-doutorado no Universidade de Toronto onde foi professor até 2012. Foi então para a Google 
AI. Em 2023 saiu da google com afirmações controversas sobre os riscos da IA. É atualmente 
pesquisador independente para se concentrar em seus próprios projetos de pesquisa e para 
alertar sobre os riscos da inteligência artificial. 
Veja esse vídeo engraçado no qual Snoop Dog fala desse evento: 
SAIBA MAIS
Disponível em: https://twitter.com/pkedrosky/status/1653955254181068801 
A ideia central é que o processamento de informações ocorre de forma paralela e distribuída 
em redes de unidades simples, semelhantes a neurônios. Em vez de representar conheci-
mento e processar informações com símbolos discretos e regras predefinidas (como na IA 
tradicional simbólica), a abordagem PDP defende que o conhecimento é representado pela 
ativação distribuída de muitas unidades (análogas aos neurônios) e pelas conexões entre 
elas. Esses neurônios representam atributos abstratos dos conceitos que representam.
A abordagem PDP foi uma ruptura com a visão simbólica dominante da época e lançou 
as bases para o ressurgimento das redes neurais na moderna aprendizagem profunda 
https://twitter.com/pkedrosky/status/165395525418106880114
1
Conceitos Fundamentais de Inteligência Artificial
(deep learning). Os princípios fundamentais da PDP influenciaram fortemente o desen-
volvimento subsequente de modelos neurais e métodos de aprendizado de máquina. 
Rumelhart, McClelland e o Grupo de Pesquisa PDP foram fortemente influenciados 
pelo Perceptron Multicamada (MLP, do inglês Multi-Layer Perceptron) combinado com 
algoritmo de retropropagação (backpropagation) para treinamento. 
O perceptron original, era um modelo neural simples de uma única camada e, por isso, 
incapaz de aprender padrões mais complexos e não linearmente separáveis. Um avan-
ço significativo veio com a introdução do perceptron multicamada (MLP) que consiste 
em uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída. O 
grupo PDP usou essas redes neurais multicamadas para modelar diversos processos 
cognitivos. Em seus volumes influentes sobre o Parallel Distributed Processing, eles 
apresentaram uma série de simulações que demonstravam como essas redes pode-
riam aprender representações e realizar tarefas que se assemelhavam ao processa-
mento cognitivo humano.
Outro aspecto nuclear desse foi o desenvolvimento do algoritmo de retropropagação, 
em inglês backpropagation algorithm, usado para ajustar os pesos da rede, minimizan-
do o erro entre a saída prevista e a saída real. Esse algoritmo é considerado um marco 
da evolução das redes neurais, pois habilitou as redes a aprenderem com exemplos.
IMPORTANTE
O algoritmo de retropropagação (ou “backpropagation” em inglês) é um método usado 
para treinar redes neurais. É composto pelos seguintes passos: 
1. Inferência (Feedforward)
A entrada é fornecida à rede, e ela é propagada camada por camada até a camada de saída 
para produzir uma previsão da saída.
2. Cálculo do Erro
O erro da previsão é calculado, comparando a saída da rede (previsão) com a saída real 
(valor verdadeiro). Geralmente, o erro quadrático médio é usado, mas existem outras funções 
de cálculo do erro chamadas funções de custo (em inglês: loss functions).
3. Retropropagação do Erro
Esse é o núcleo do algoritmo. O erro é propagado de volta através da rede, começando pela 
camada de saída e movendo-se para as camadas de entrada. Durante essa propagação, são 
calculadas as derivadas parciais do erro em relação a cada peso da rede (essencialmente, 
determina-se quanto cada peso contribuiu para o erro). O método do gradiente descendente 
(ou uma de suas variantes) é usado para ajustar os pesos na direção que reduz o erro.
4. Atualização dos Pesos
Depois que o erro foi retropropagado e as contribuições de todos os pesos ao erro foram 
determinadas, os pesos são atualizados. Isso é feito subtraindo uma fração do gradiente do 
peso. Essa fração é determinada pela taxa de aprendizado (em inglês: learning rate).
15
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
5. Iteração
O processo é repetido – alimentando mais entradas, calculando erros, retropropagando es-
ses erros e atualizando os pesos – até que o erro da rede alcance um valor aceitável ou 
comece a estagnar, ou até que se cumpra um número máximo de iterações.
O objetivo principal do algoritmo de retropropagação é minimizar o erro da rede ajustando os 
pesos com base nas contribuições de cada peso ao erro total. Com o tempo, isso permite que 
a rede neural “aprenda” e melhore suas previsões ou classificações.
Em resumo, o perceptron multicamada com retropropagação foi o modelo neural que 
mais influenciou o trabalho de Rumelhart, McClelland e o Grupo de Pesquisa PDP. As 
redes neurais profundas usadas atualmente derivam-se desses dois conceitos básicos 
explorados pela abordagem PDP, por isso esse grupo é considerado pioneiro do desen-
volvimento IA atual.
2. DEEP LEARNING E APRENDIZAGEM DE MÁQUINA
O campo da Inteligência Artificial (IA) evoluiu consideravelmente nas últimas décadas, e 
duas áreas-chave que têm recebido grande atenção são o Aprendizado Profundo (Deep 
Learning) e a Aprendizagem de Máquina (Machine Learning). Ambos desempenham 
um papel vital na criação de sistemas inteligentes e na análise de dados complexos. 
A seguir, exploraremos essas duas áreas, seus princípios fundamentais e suas aplica-
ções. Como indicado na seção anterior essas áreas se derivaram da IA sub-simbólica.
2.1. TIPOS DE MODELOS DE APRENDIZAGEM DE MÁQUINA
O principal objetivo da Aprendizagem de Máquina, sendo o principal campo da IA atual-
mente, é o desenvolvimento de modelos e algoritmos que, sem programação explícita, 
permitem que um computador possa aprender e tomar decisões. Assim, os sistemas 
computacionais, a partir da exposição a quantidades maiores de dado, podem, a prin-
cípio, aprimorar seu desempenho. Outro nome comumente atribuído a essa área é de 
Aprendizado Estatístico. Esse nome, apesar de cada vez mais raramente utilizado, vem 
do fato de que os modelos de Aprendizagem de Máquina, em sua maioria, são basea-
dos em modelos e técnicas estatísticas para a criação de seus algoritmos. Isso ocorre 
porque o processo de aprendizagem sempre envolve incerteza e a estatística, por defi-
nição, é a ciência da incerteza.
Em termos do tipo de dado necessário e os objetivos que podem ser alcançados com 
esses dados, é possível listar alguns tipos de aprendizado de máquina, sendo a classi-
ficação mais tradicional baseada em três divisões:
16
1
Conceitos Fundamentais de Inteligência Artificial
 ` Aprendizado Supervisionado: Nesse tipo de aprendizado, um modelo é treina-
do em um conjunto de dados que inclui dados rotulados ou classificados, também 
conhecidos como dados de entrada e de saída. O objetivo é fazer com que o mo-
delo aprenda a mapear as entradas para as saídas correspondentes. Exemplos 
incluem classificação de e-mails como spam ou não-spam, avaliação do risco de 
investimento em fundos específicos e reconhecimento de padrões em imagens.
 ` Aprendizado Não-Supervisionado: Aqui, o modelo é treinado em um conjunto 
de dados sem rótulos. O objetivo é encontrar estruturas ou padrões intrínsecos 
nos dados, os quais podem ajudar a máquina a classificar informações sem a 
presença de dados rotulados específicos. Tarefas tradicionais incluem a identi-
ficação de casos raros ou desviantes (como fraudes em transações bancárias), 
clustering ou agrupamento de tipos comportamentais (como a identificação de 
padrões de compras online) e imputação de informações faltantes (como a esti-
mação de padrões de consumo de conteúdo em redes sociais em perfis parcial-
mente privados). A análise fatorial, tão influente nas teorias psicológicas pode ser 
classificada com um método não-supervisionado.
 ` Aprendizado por Reforço: Esse tipo de aprendizado envolve agentes que to-
mam ações em um ambiente e recebem recompensas ou penalidades com base 
em suas ações, sendo baseados em modelos da psicologia comportamental. O 
objetivo é aprender uma política (ou seja, um conjunto de ações possíveis dadas 
as restrições de uma tarefa) que maximize a recompensa cumulativa ao longo 
do tempo. Esse tipo de aprendizagem de máquina é frequentemente usado em 
jogos, robótica e sistemas de recomendação.
Em termos dos modelos estatísticos usados para criar algoritmos de aprendizagem 
de máquina, entre os mais tradicionais, pode-se listar:
 ` Regressão linear e logística: Usado para prever valores contínuos e categóri-
cos, respectivamente, com base em variáveis independentes (também chama-
das de entradas ou de features). Esse modelo assume que a relação entre as 
entradas e uma única saída é linear (ou seja, descrito por uma função linear).
 ` Árvores de Decisão: Modelos hierárquicos que dividem os dados em subcon-
juntos com base em características. Esse modelo não faz pressupostos sobre a 
forma matemática da relação entre as entradas e a saída, podendo ser conside-
rado um tipo de método de regressão não-paramétrica.
 ` Máquinas de Vetores de Suporte (SVM): Usadas para classificação e regres-
são, são eficazes em problemas com altadimensionalidade. Mais especifica-
mente, consiste em uma descrição específica de espaços multidimensionais (ou 
seja, em cenários onde há diversas entradas e até mesmo diversas saídas).
17
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
 ` Redes Neurais Artificiais (ANN): Modelos inspirados no cérebro que são ca-
pazes de aprender a partir de dados complexos como apresentados na seção 
anterior. No geral, consistem em diversas camadas de modelos paramétricos de 
regressão combinados com um componente não linear, permitindo modelagem 
de padrões não-lineares.
O aprendizado de máquina (machine learning) é uma subárea crucial da IA a qual envolve 
a criação de algoritmos e modelos que permitem que os sistemas aprendam com dados 
de exemplo e melhorem suas habilidades preditivas com o tempo. Existem diversos mo-
delos, técnicas e algoritmos de aprendizagem de máquina e listar todos seria impossível. 
Nas décadas de 80, 90 e início dos anos 2000, algoritmos tradicionais de machine lear-
ning (como Suport Vector Machines, Boosting, Random Forrest) eram implementados 
com maior sucesso em diversas tarefas como, por exemplo, classificação de e-mails 
como spam, diagnóstico médico e veículos autônomos. Os algoritmos de aprendizado 
de máquina têm sido utilizados principalmente para que as IAs estreitas possam se 
especializar na tarefa para qual foram desenvolvidas a fazer. 
Já o Deep Learning (DL) é considerado como uma subárea da Aprendizagem de Máquina 
que se concentra em redes neurais profundas. As redes neurais profundas (ANNs) usam 
um número hiper parametrizado de camadas de processamento não-linear. Em outras 
palavras, essas redes são compostas por muitas camadas de neurônios artificiais, tornan-
do-as capazes de aprender representações complexas de dados. Os principais avanços 
em aplicações mais recentes de IA se devem ao Deep Learning, com desenvolvimentos 
que vão desde à visão computacional até o processamento de linguagem natural. 
Alguns dos modelos mais tradicionais de Deep Learning são:
 ` Redes Neurais Feedforward (FNN): São redes com camadas de neurônios que 
se conectam apenas em uma direção, das entradas para as saídas. São evo-
luções modernas dos Perceptrons Multicamadas discutidos na sessão anterior.
 ` Redes Neurais Convolucionais (CNN): Projetadas especificamente para pro-
cessamento de imagens, as CNNs utilizam filtros convolucionais para extrair ca-
racterísticas relevantes de imagens. Elas são usadas principalmente em tarefas 
não-supervisionadas.
 ` Redes Neurais Recorrentes (RNN): Usadas para sequências de dados, as RNNs 
têm conexões que formam loops, permitindo que elas mantenham uma “memória” 
das informações anteriores em dados sequenciais. Elas são usadas principalmente 
em tarefas supervisionadas nas quais existem dependências temporais ou espa-
ciais entre os dados. Um modelo desse tipo chamado “Long-Short Term Memory” 
(LSTM) dominou o processamento de textos antes da era dos Transformers que no 
presente momento vem substituindo essas arquiteturas (ver adiante).
18
1
Conceitos Fundamentais de Inteligência Artificial
 ` Redes Neurais Generativas Adversárias (GAN): Compostas por um gerador 
e um discriminador, são usadas para criar dados similares aos dados de entra-
da em alguns casos de falsificações que não sejam identificadas como tal. Nas 
GAN’s, o gerador parte de vetores aleatórios e tenta produzir uma saída que seja 
semelhante a uma imagem original na entrada da rede. O discriminador tenta 
distinguir entre a imagem real e a imagem criada pelo gerador. No treinamento 
adversarial, o gerador tenta produzir dados que enganam o discriminador e, o 
discriminador tenta melhorar sua capacidade de distinguir dados reais de dados 
falsos. É um “jogo” em que o gerador tenta melhorar sua capacidade de enga-
nar o discriminador, enquanto o discriminador tenta se tornar melhor em pegar 
as falsificações. As GANs têm várias aplicações, incluindo geração de imagens 
artísticas, criação de modelos 3D, super-resolução, transferência de estilo artís-
tico, entre outras. Elas são usadas tanto em tarefas supervisionadas quanto em 
tarefas não-supervisionadas, muitas vezes se assemelhando a modelos cogniti-
vos e psicométricos desenvolvidos na área de psicologia. Isso porque as GANs 
muitas vezes também se baseiam na existência de processos latentes (ou seja, 
não-observados) que “geram” os padrões observados nos dados. 
Os Transformers são derivações de uma arquitetura de rede neural introduzida em 2017 
por Vaswani et al., no artigo Attention is All You Need. Desde então, esta arquitetura tor-
nou-se a base para vários modelos de processamento de linguagem natural (NLP) de alto 
desempenho, como BERT, GPT, T5 e muitos outros. Também foi nomeada de modelo 
fundacional, já que tem uma ampla gama de aplicação e vem substituindo as redes RNN 
e CNN’s por terem atingido desempenho superior do que essas arquiteturas. A inovação 
principal do transformer é a forma como ele lida com sequências de dados (como texto), 
usando mecanismos de atenção, em vez de depender de processamento sequencial de 
recorrências das RNN’s. Esse mecanismo permite que o modelo se concentre em dife-
rentes partes de uma sequência simultaneamente. Em vez de olhar para uma palavra ou 
token de cada vez, o transformer pode atribuir “pesos de atenção” a todos os tokens na 
sequência, permitindo que ele capture relacionamentos contextuais de longo alcance. 
Essa arquitetura intercala mecanismos de atenção com FFN tradicionais. 
Modelos baseados nessa arquitetura como Bidirectional Encoder Representations from 
Transformers (BERT) e Generative Pre-trained Transformer (GPT, que está na base 
do ChatGPT) demonstraram desempenho de ponta em uma ampla gama de tarefas 
de NLP, desde compreensão e geração de texto até tradução automática e análise de 
sentimentos. O design flexível e eficaz da arquitetura Transformer permitiu que ela se 
tornasse uma das arquiteturas dominantes em NLP moderno e em outras tarefas que 
envolvem sequências de dados.
Em termos de aplicações específicas, o DL tem revolucionado várias áreas relaciona-
das a problemas de engenharia. Entre essas, pode-se listar: (a) Visão Computacional: 
Em aplicações de reconhecimento de imagem e vídeo, como identificação de objetos, 
detecção de rostos e carros autônomos, as CNNs são essenciais; (b) Processamento 
19
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
de Linguagem Natural (PLN): Para tarefas de PLN, como tradução automática, chatbots 
e análise de sentimentos, as redes neurais recorrentes e modelos de transformers são 
fundamentais; (c) Saúde: O DL está sendo aplicado na análise de imagens médicas, 
diagnóstico de doenças e até mesmo na descoberta de novos tratamentos; (d) Jogos e 
Entretenimento: O DL tem sido usado para criar personagens de jogos mais inteligentes 
e realistas e para melhorar a experiência do jogador.
Embora o Deep Learning tenha alcançado avanços notáveis, ainda enfrenta desafios 
significativos. Em primeiro lugar, apesar dos desempenhos incríveis em problemas de 
engenharia, para a resolução de problemas científicos, no entanto, onde a direção cau-
sal entre os dados nem sempre é conhecida a priori, o Deep Learning muitas vezes 
tem desempenho similar a modelos mais simples. Há ainda a necessidade de grandes 
volumes de dados, o que é uma limitação importante. 
Um problema central é o da interpretabilidade que se refere à falta de conhecimento do 
que realmente o modelo aprendeu e porque tem o desempenho positivo que atingiu. 
Sem esse conhecimento há uma limitação na confiança que será depositada nesses 
modelos. Por último, há a questão do viés algorítmico e as questões éticas implicadas 
definidas como o “preconceito” ou “discriminação” inerente a modelos de IA. Isso por-
que, os modelos foram treinados com dados livres, produzidos de forma espontânea 
e postados publicamente na internet que podem contertoda sorte de preconceitos im-
buídos, fazendo com que o modelo aprenda a reproduzi-los. Além disso, o uso dessas 
informações é intrinsecamente permeado por questões éticas e, eventualmente, legais 
como tem sido denunciado pela categoria profissional de escritores por exemplo.
Independente das possíveis limitações, o futuro da Aprendizagem de Máquina e do 
Aprendizado Profundo é emocionante. Avanços em hardware, como unidades de pro-
cessamento de tensor (TPUs) e unidades de processamento gráfico (GPUs), estão 
impulsionando o treinamento de modelos maiores e mais complexos, mesmo em com-
putadores pessoais. Além disso, abordagens mais éticas e responsáveis estão sendo 
desenvolvidas para lidar com os desafios éticos da IA.
O Deep Learning e a Aprendizagem de Máquina estão na vanguarda da revolução da 
Inteligência Artificial. Essas disciplinas têm o potencial de transformar indústrias, me-
lhorar a tomada de decisões e tornar nossas vidas mais convenientes. No entanto, é 
importante reconhecer os desafios e garantir que essas tecnologias sejam usadas de 
maneira ética e responsável. Com o contínuo avanço da pesquisa e desenvolvimento, 
podemos esperar ver ainda mais aplicações inovadoras surgindo dessas áreas.
Em termos de revolução da área, as principais inovações dos últimos anos surgiram na 
área que antes era conhecida como linguística computacional e hoje se conhece como 
processamento de linguagem natural. O processamento de linguagem natural (PLN) é 
uma área da IA que se concentra na interação entre computadores e a linguagem hu-
mana. Isso inclui tradução automática, chatbots e sistemas de análise de sentimentos. 
O PLN está em constante evolução e desempenha um papel fundamental em melhorar 
a comunicação entre humanos e máquinas. Em particular, em dezembro de 2022, o 
lançamento do chatbot ChatGPT revitalizou as discussões sobre IAs gerais e as possi-
bilidades geradas com algoritmos baseados em aprendizado de máquina e, mais espe-
cificamente, em redes neurais artificiais.
20
1
Conceitos Fundamentais de Inteligência Artificial
Tendo em vista as diversas consequências do ChatGPT (e seus concorrentes), é funda-
mental enfatizar que à medida que a IA se torna mais onipresente em nossa sociedade, 
surgem preocupações éticas. Questões relacionadas à privacidade, discriminação (ou 
viés) algorítmica e o impacto na força de trabalho humana precisam ser abordadas 
com seriedade. A ética desempenha um papel fundamental na forma como a IA é de-
senvolvida e utilizada. O uso e desenvolvimento dessas ferramentas deve ser discutido 
não apenas em termos de possibilidades de performance, mas também em termos de 
bem-estar social e impactos positivos para o mundo.
A Inteligência Artificial é uma área empolgante e em constante evolução que está moldando 
nosso mundo de maneiras profundas. Compreender seus conceitos básicos é fundamental 
para navegar nesse cenário em rápida mudança. À medida que a IA continua a se desen-
volver, é importante que a sociedade trabalhe em conjunto para garantir que ela seja usada 
de forma ética e benéfica para todos. A IA promete transformar nossa sociedade, e seu 
potencial só aumenta à medida que continuamos a explorar suas capacidades e limitações.
2.2. MODELOS MODERNOS PARA TEXTOS E IMAGENS
Nos últimos anos, os avanços na área de Deep Learning revolucionaram o processa-
mento de texto e imagem, impulsionando aplicações em diversas indústrias. Modelos 
de Linguagem com Aprendizado Profundo, também chamados de Modelos Largos de 
Linguagem (LLMs) ou modelos fundacionais, baseados na arquitetura dos transfor-
mers, desempenharam um papel fundamental nessa transformação, permitindo tarefas 
complexas de processamento de linguagem natural (PLN) e visão computacional. Nes-
te texto, exploraremos esses modelos e seu impacto em aplicações de texto e imagem.
Os Modelos de Linguagem com Aprendizado Profundo, também conhecidos como 
LLMs, são uma classe de modelos de Deep Learning que revolucionaram o processa-
mento de texto. Esses modelos se baseiam nos transformers e são capazes de repre-
sentar e gerar textos com base em vastos conjuntos de dados de treinamento. Alguns 
dos LLMs mais proeminentes incluem:
 ` GPT (Generative Pre-trained Transformer): O GPT é uma série de modelos 
de linguagem desenvolvidos pela OpenAI, começando com o GPT-1 e evoluindo 
para o GPT-4. Esses modelos são treinados em grandes quantidades de texto 
da internet e são conhecidos por sua capacidade de gerar texto coeso e contex-
tualmente relevante. Eles são usados em aplicações como chatbots, geração de 
texto automático e assistência à escrita.
 ` BERT (Bidirectional Encoder Representations from Transformers): O BERT, 
desenvolvido pela Google, é projetado para entender o contexto bidirecional em 
texto. Isso o torna particularmente eficaz em tarefas de PLN, como classificação 
de texto e preenchimento de lacunas, bem como de tradução de textos entre 
duas diferentes línguas. O BERT e suas variantes são amplamente usados em 
pesquisa acadêmica e em aplicações comerciais como, por exemplo, no meca-
nismo de busca do google.
21
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
SAIBA MAIS
SAIBA MAIS
O artigo abaixo esclarece em detalhes como são aplicados os modelos BERT à pesquisa. 
Understanding searches better than ever before.
Disponível em: https://blog.google/products/search/search-language-understanding-bert/.
Disponível em: https://www.youtube.com/watch?v=CP2B-OWvtF8.
Disponível em: https://www.maritaca.ai/.
BARD é o modelo de linguagem e imagens concorrente ao GPT 4.0 desenvolvido pelo 
Google AI.
Llama 2 é um modelo de linguagem aberto e desenvolvido pela Meta AI. Esse modelo 
tem sido usado como base para outros como o modelo desenvolvido no Brasil chamado 
Maritalk AI. 
Vamos explorar um pouco mais sobre esse universo por meio dos links abaixo.
Site oficial do Maritalk AI. 
Desvendando a Arquitetura Transformer: Fundamentos, Aplicações e Perspectivas Futuras. 
Todos esses modelos usam a arquitetura dos transformers para processar textos. Em-
bora tenham sido originalmente desenvolvidos para processamento de linguagem natu-
ral, os modelos transformer também têm se mostrado eficazes em tarefas de visão com-
putacional. Esses modelos, que incluem o Vision Transformer (ViT), podem aprender a 
entender relações complexas entre elementos de imagem. Assim há outros modelos 
de geração de imagens a partir de descrições textuais em imagens como o DALL-e, 
desenvolvido pela OpenAI, e o Midjourney, desenvolvido pela empresa com mesmo 
nome. Há também o Whisper, desenvolvido pela OpenAI para reconhecimento de fala 
de linguagem natural.
Os sistemas de IA mencionados são exemplos de como a IA está sendo usada para 
desenvolver novas tecnologias e aplicações. Eles têm o potencial de revolucionar a 
forma como interagimos com computadores e a forma como consumimos informações. 
Mais detalhes sobre a forma como esses modelos funcionam e podem ser aplicados em 
casos reais serão apresentados nas Unidade 3 e 4 desta disciplina.
https://blog.google/products/search/search-language-understanding-bert/
https://www.youtube.com/watch?v=CP2B-OWvtF8
https://www.maritaca.ai/
22
1
Conceitos Fundamentais de Inteligência Artificial
2.3. AGENTES INTELIGENTES E SUAS APLICAÇÕES EM CIÊNCIA E 
ENGENHARIA
Agentes inteligentes são sistemas computacionais projetados para interagir com seu 
ambiente de forma autônoma e tomar decisões com base em informações e objetivos 
específicos. Eles têm uma ampla gama de aplicações em ciência e engenharia, impul-
sionando avanços em diversas áreas. Neste texto, exploraremos os agentes inteligen-
tes, suas arquiteturas cognitivas, modelos fundacionais e como eles são aplicados em 
contextos científicos e de engenharia.
Os agentes inteligentes podem ser classificados de acordo com seu grau de autonomia 
e racionalidade:
Autonomia: Refere-se à capacidade do agente de tomar decisões independentes com baseem sua percepção do ambiente.
Racionalidade: Envolve a capacidade do agente de tomar decisões que maximizam sua 
utilidade, considerando as informações disponíveis.
Agentes inteligentes podem ser também caracterizados em termos de suas arquiteturas 
cognitivas (ou arquiteturas robóticas, termo mais comumente utilizado nas engenharias). 
As arquiteturas cognitivas são estruturas conceituais que definem a organização e o fun-
cionamento de agentes inteligentes. Alguns exemplos de arquiteturas cognitivas incluem:
Arquitetura de Subsunção: Desenvolvida por Rodney Brooks, essa arquitetura enfatiza a 
decomposição do comportamento em camadas simples e reativas. Cada camada lida com 
um aspecto específico da interação do agente com o ambiente, permitindo um controle adap-
tativo e robusto.
Arquitetura de BDI (Belief-Desire-Intention): Essa arquitetura modela o agente como ten-
do crenças (belief) sobre o ambiente, desejos (desire) que representam seus objetivos e 
intenções (intention) que são planos de ação para alcançar esses objetivos. É amplamente 
utilizada em sistemas multiagentes e robótica.
Modelos Fundacionais, Lógica de Predicados e Redes Semânticas: Modelos fundacio-
nais, como a lógica de predicados e redes semânticas, são frequentemente usados para re-
presentar o conhecimento e a racionalidade dos agentes inteligentes. A lógica de predicados 
permite a representação de relações complexas entre objetos, enquanto as redes semânti-
cas representam o conhecimento em um formato de grafo.
Em ciência e engenharia, agentes inteligentes são frequentemente usados em emula-
ção e simulação. A diferença fundamental entre esses dois conceitos reside em seus 
objetivos:
23
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
Emulação: Envolve a criação de um agente inteligente que replica o comportamento de um 
sistema ou processo real. No entanto, o estado interno do mecanismo de emulação não precisa 
refletir com precisão o estado interno do alvo que está emulando. Por exemplo, o ChatGPT, 
um agente conversacional, consegue conversar de forma similar a um ser humano sem neces-
sariamente seus estados internos serem similares aos estados internos dos seres humanos.
Simulação: Evolve a criação de um sistema que reflete, da forma mais precisa possível, o 
estado interno do alvo que está simulando. Uma simulação criada de forma adequada de-
veria ser capaz de emular adequadamente o comportamento do sistema ou processo real 
alvo. Por exemplo, simuladores de voo de qualidade exigem que o usuário realize todos os 
procedimentos que seriam necessários para fazer uma aeronave voar adequadamente.
Entre processos de emulação e simulação, e entre os diferentes níveis de autonomia 
e racionalidade, os agentes inteligentes podem ter aplicações variadas em ciência e 
engenharia:
Robótica: Agentes inteligentes são amplamente usados em robótica para navegação autô-
noma, automação industrial e até mesmo cirurgia robótica. Esses agentes podem perceber 
seu ambiente, tomar decisões em tempo real e realizar tarefas complexas com precisão.
Sistemas Multiagentes: Em sistemas multiagentes, múltiplos agentes inteligentes intera-
gem para alcançar objetivos comuns. Isso é aplicado em logística, tráfego urbano, economia 
e sistemas de recomendação.
Otimização e Controle de Processos: Agentes inteligentes são usados para otimizar pro-
cessos complexos, como o controle de tráfego aéreo, gerenciamento de cadeias de supri-
mentos e design de experimentos.
Ciências Cognitivas: A pesquisa em ciências cognitivas se beneficia de agentes inteligentes 
para modelar e entender o comportamento humano. Eles são usados em experimentos vir-
tuais para testar teorias cognitivas e comportamentais, avaliando como o comportamento de 
“humanos simulados” se assemelha ao comportamento de humanos reais.
É importante salientar neste momento que agentes inteligentes, e IAs de forma geral, têm 
sido influenciados pelas ciências cognitivas. As ciências cognitivas são todas aquelas que 
estudam o funcionamento do cérebro e a cognição humana a partir da intersecção entre 
psicologia, neurociências e ciência da computação. A compreensão de como os seres 
humanos percebem, raciocinam e tomam decisões tem levado ao desenvolvimento de 
modelos mais precisos e eficazes de agentes inteligentes, tanto pela identificação dos er-
ros sistemáticos nos processos de decisão em seres humanos quanto pela identificação 
da influência necessária de fatores subjetivos nos processos decisórios.
Embora os agentes inteligentes cada vez mais apresentam um impacto significativo em 
ciência e engenharia, ainda existem desafios a serem superados. A interpretabilidade 
dos agentes, o desenvolvimento de estratégias de aprendizado mais eficazes e a ética 
na autonomia dos agentes são áreas de pesquisa em crescimento. No futuro, esperamos 
24
1
Conceitos Fundamentais de Inteligência Artificial
ver agentes inteligentes cada vez mais sofisticados e integrados em sistemas do mundo 
real. Eles desempenharão um papel fundamental na automação, otimização e resolução 
de problemas complexos em várias disciplinas científicas e de engenharia.
Os agentes inteligentes são ferramentas poderosas para abordar problemas complexos 
em ciência e engenharia. Com base em arquiteturas cognitivas, modelos fundacionais 
e influências das ciências cognitivas, eles continuam a avançar em direção a aplicações 
cada vez mais impactantes. À medida que a pesquisa e o desenvolvimento em agentes 
inteligentes progridem, podemos esperar ver avanços significativos nas áreas em que 
atuam, impulsionando a inovação e a compreensão em ciência e engenharia.
CONCLUSÃO
A Inteligência Artificial (IA) revolucionou o mundo da tecnologia e da ciência, trazendo 
consigo a necessidade da compreensão de um conjunto de conceitos básicos funda-
mentais da interface entre cognição e máquina para que se possa, também, compreen-
der o seu impacto. A partir da nossa introdução à Inteligência Artificial e seus conceitos 
básicos, podemos perceber que IA se refere à capacidade das máquinas de realizar 
tarefas que normalmente exigiriam inteligência humana (e cada um dos seus aspectos 
básicos). Isso inclui processamento de linguagem natural, visão computacional, apren-
dizado de máquina e raciocínio lógico.
No domínio da IA, o aprendizado de máquina desempenha um papel crucial. É um campo 
que se concentra no desenvolvimento de algoritmos e modelos que permitem que as má-
quinas aprendam com os dados. A capacidade de criar essas máquinas tem dito diversos 
impactos significativos em muitas áreas do saber, desde a automação de processos até 
a análise de dados em pesquisas científicas. Algoritmos de aprendizado de máquina são 
a base de muitos sistemas de IA, tornando possível a automação de tarefas complexas.
Dentro do aprendizado de máquina, o Deep Learning merece destaque. Este é um sub-
campo que se concentra em redes neurais profundas, que são modelos matemáticos 
inspirados na estrutura do cérebro humano. Os algoritmos de Deep Learning revolucio-
naram a IA ao permitir avanços surpreendentes na capacidade dos computadores em 
reconhecimento de fala, visão computacional, tradução automática e muito mais. Em 
particular, os modelos desenvolvidos especificamente para processar textos e imagens 
têm apresentado uma imensidão de possibilidades. Assim, os métodos que possibilitam 
o treinamento e uso das redes neurais profundas em conjuntos de dados diversificados 
têm nos permitido alcançar resultados impressionantes em relação ao desenvolvimento 
das inteligências das máquinas.
Entre os resultados mais impressionantes está na aplicação das IA para o desenvolvi-
mento de agentes inteligentes, que são sistemas que podem atuar de forma autônoma 
para atingir objetivos específicos. Esses agentes podem ser incorporados em softwa-
res, robôs, veículos autônomos e sistemas de automação industrial. Na ciência e na 
engenharia, agentes inteligentes têm sido utilizados paraotimizar processos, realizar 
pesquisas e até explorar ambientes hostis, como o espaço ou o oceano profundo. Num 
contexto mais cotidiano, agentes inteligentes baseados em modelos de processamento 
de linguagem natural, como o ChatGPT, têm aberto as portas para a possibilidade de 
25
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
comparar a performance de computadores em tarefas que antes se acreditava que 
apenas humanos poderiam executar.
Por fim, é possível afirmar que o desenvolvimento das Inteligências Artificiais sub-sim-
bólicas tem impacto e transformado a sociedade em níveis que não se imaginava ainda 
possível. A aprendizagem de máquinas e a Deep Learning estão promovendo avanços 
significativos que viabilizam aplicações revolucionárias no processamento de lingua-
gem natural e na visão computacional. Aos poucos essas aplicações têm permitido que 
agentes inteligentes possam resolver problemas nas ciências e nas engenharias, me-
lhorando processos e possibilitando a exploração de novas possibilidades de descober-
ta. Esses avanços representam apenas o início do impacto da IA na nossa sociedade e 
prometem moldar o futuro de formas ainda mais impressionantes.
26
1
Conceitos Fundamentais de Inteligência Artificial
REFERÊNCIAS BIBLIOGRÁFICAS
BICKHARD, M. H., & Terveen, L. (1996). Foundational issues in artificial intelligence and cognitive science: 
Impasse and solution. Elsevier.
BOISSIER, O., Bordini, R. H., Hubner, J., & Ricci, A. (2020). Multi-agent oriented programming: programming 
multi-agent systems using JaCaMo. MIT Press.
BOMMASANI, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., 
Bosselut, A., Brunskill, E., Brynjolfsson, E., Buch, S., Card, D., Castellon, R., Chatterji, N., Chen, A., Creel, K., 
Davis, J. Q., Demszky, D., … Liang, P. (2022). On the Opportunities and Risks of Foundation Models (arX-
iv:2108.07258). arXiv. https://doi.org/10.48550/arXiv.2108.07258
CAI, H., Su, Y., & Huang, J. (2022). Cooperative control of multi-agent systems: Distributed-observer and 
distributed-internal-model approaches. Springer Nature.
DAAS, M., & Wit, A. J. (2018). Towards a robotic architecture. ORO Editions.
DOMINGOS, P. (2017). O algoritmo mestre: como a busca pelo algoritmo de machine learning definitivo re-
criará nosso mundo. Novatec Editora.
ELIASMITH, C. (2013). How to build a brain: A neural architecture for biological cognition. OUP USA.
ESCOVEDO, T., & Koshiyama, A. (2020). Introdução a Data Science: Algoritmos de Machine Learning e mé-
todos de análise. Casa do Código.
EYSENCK, M. W., & Eysenck, C. (2023). Inteligência Artificial X Humanos: O que a Ciência Cognitiva nos 
Ensina ao Colocar Frente a Frente a Mente Humana e a IA. Artmed.
FERREIRA, M. I. A., & Fletcher, S. R. (2022). The 21st Century Industrial Robot: When Tools Become Collab-
orators. Springer.
HARRISON, M. (2019). Machine Learning–Guia de referência rápida: trabalhando com dados estruturados 
em Python. Novatec Editora.
Instituto Ayrton Senna, Primi, R., Nakano, T. C., McGrew, K. S., & Schneider, J. W. (Eds.). (2023). Educação 
no século XXI: Inteligência, pensamento críttico e criatividade. Hogrefe.
IZBICKI, R., & dos Santos, T. M. (2020). Aprendizado de máquina: uma abordagem estatística. Rafael Izbicki.
JAMES, G., Witten, D., Hastie, T., Tibshirani, R., & Taylor, J. (2023). An Introduction to Statistical Learning: with 
Applications in Python. Springer International Publishing.
KAUFMAN, D. (2019). A inteligência artificial irá suplantar a inteligência humana? Estação das Letras e Cores EDI.
LIN, J., Nogueira, R., & Yates, A. (2022). Pretrained transformers for text ranking: BERT and beyond. Springer 
Nature.
https://doi.org/10.48550/arXiv.2108.07258
27
1
U
ni
ve
rs
id
ad
e 
S
ão
 F
ra
nc
is
co
Inteligência artificial e machine learning
MCKINNEY, W. (2018). Python para análise de dados: Tratamento de dados com Pandas, NumPy e IPython. 
Novatec Editora.
Mitchell, M. (2019). Artificial Intelligence: A Guide for Thinking Humans by New (2019). Picador.
MUELLER, J. P., & Massaron, L. (2019). Aprendizado de máquina para leigos. Alta Books Editora.
PÁDUA NÓBREGA, L. (2023). Robôs e Inteligência Artificial Nas Telas: Tecnociência, Imaginário e Política 
na Ficção. Editora Appris.
ROSENBLATT, F. (1958). The perceptron: A probabilistic model for information storage and organization in the 
brain. Psychological Review, 65(6), 386–408. https://doi.org/10.1037/h0042519
ROTHMAN, D. (2021). Transformers for Natural Language Processing: Build innovative deep neural network 
architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa, and more. Packt Publishing Ltd.
RUMELHART, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating 
errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0
RUMELHART, D. E., McClelland, J. L., & Group, P. R. (1986). Parallel Distributed Processing: Explorations in 
the Microstructure of Cognition: Foundations. https://doi.org/10.7551/mitpress/5236.001.0001
RUSSELL, S., & Norvig, P. (2006). Inteligência Artificial. LTC.
SCHNEIDER, W. J., & McGrew, K. S. (2018). The Cattell–Horn–Carroll Theory of Cognitive Abilities. In Con-
temporary Intellectual Assessment (4th ed., pp. 73–163). Guilford Press.
SICILIANO, B., & Khatib, O. (Eds.). (2016). Springer handbook of robotics. Springer.
Silveira, G., & Bullock, B. (2017). Machine Learning: introdução a classificação. Editora Casa do Código.
TAULLI, T. (2020). Introdução à Inteligência Artificial: Uma abordagem não técnica. Novatec Editora.
TEIXEIRA, João de Fernandes. O que é inteligência artificial. E-galáxia; 3ª edição (4 junho 2019).
TUNSTALL, L., Von Werra, L., & Wolf, T. (2022). Natural language processing with transformers. O’Reilly 
Media, Inc.
VASWANI, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. 
(2017). Attention Is All You Need (arXiv:1706.03762). arXiv. https://doi.org/10.48550/arXiv.1706.03762 
https://www.zotero.org/google-docs/?anwrBY
https://www.zotero.org/google-docs/?anwrBY
https://doi.org/10.1037/h0042519
https://doi.org/10.1038/323533a0
https://doi.org/10.7551/mitpress/5236.001.0001
https://doi.org/10.48550/arXiv.1706.03762
	_Hlk158225517

Mais conteúdos dessa disciplina