Logo Passei Direto
Buscar
Material

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Material de Estudo: Inteligência Artificial - Material 39
Tema: Aprendizado por Reforço e Ambientes Markovianos
1. Qual paradigma de aprendizado de máquina envolve um agente aprendendo a tomar
decisões em um ambiente, maximizando uma recompensa acumulada?
a) Aprendizado supervisionado. b) Aprendizado não supervisionado. c) Aprendizado por
reforço. d) Aprendizado semissupervisionado. e) Aprendizado por transferência.
Resposta: c) Aprendizado por reforço.
Justificativa: O aprendizado por reforço é usado em situações em que um agente interage com
um ambiente para aprender um comportamento ideal.
2. Qual modelo matemático descreve um ambiente onde o estado atual contém toda a
informação necessária para tomar uma decisão, sem depender de estados passados?
a) Processo Gaussiano. b) Rede Neural Recorrente. c) Processo de Decisão de Markov (MDP).
d) Modelo de Regressão Linear. e) Modelo de Agrupamento K-means.
Resposta: c) Processo de Decisão de Markov (MDP).
Justificativa: MDPs são usados para modelar ambientes em que o futuro é independente do
passado, dado o presente.
3. Qual componente de um agente de aprendizado por reforço representa uma função
que mapeia estados para ações, determinando o comportamento do agente?
a) Função de recompensa. b) Função de valor. c) Política. d) Modelo de ambiente. e) Função de
transição de estado.
Resposta: c) Política.
Justificativa: A política define como o agente age em diferentes estados.
4. Qual técnica de aprendizado por reforço estima a função de valor ótimo, que
representa a recompensa acumulada máxima esperada a partir de um determinado
estado?
a) Aprendizado por Q-learning. b) Aprendizado por deep learning. c) Aprendizado por redes
neurais. d) Aprendizado por reforço profundo. e) Aprendizado por regressão linear.
Resposta: a) Aprendizado por Q-learning.
Justificativa: O Q-learning aprende uma função Q que estima a recompensa acumulada
máxima esperada para cada par estado-ação.
5. Qual método de aprendizado por reforço envolve um agente aprendendo diretamente
a política ótima, sem estimar a função de valor?
a) Aprendizado por Q-learning. b) Aprendizado por gradiente de política. c) Aprendizado por
diferenças temporais. d) Aprendizado por monte Carlo. e) Aprendizado por aproximação de
funções.
Resposta: b) Aprendizado por gradiente de política.
Justificativa: O aprendizado por gradiente de política busca otimizar a política diretamente.
6. Qual componente de um MDP define a probabilidade de transição de um estado para
outro, dado uma ação tomada pelo agente?
a) Função de recompensa. b) Função de valor. c) Política. d) Modelo de ambiente. e) Função de
transição de estado.
Resposta: e) Função de transição de estado.
Justificativa: A função de transição de estado descreve a dinâmica do ambiente.
7. Qual trade-off fundamental em aprendizado por reforço envolve a escolha entre
explorar novas ações para descobrir melhores políticas ou explorar ações conhecidas
para maximizar a recompensa imediata?
a) Trade-off viés-variância. b) Trade-off exploração-explotação. c) Trade-off precisão-
revocação. d) Trade-off computacional-estatístico. e) Trade-off memória-velocidade.
Resposta: b) Trade-off exploração-explotação.
Justificativa: Equilibrar a exploração e a explotação é crucial para o aprendizado eficiente em
ambientes desconhecidos.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Mais conteúdos dessa disciplina