Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Material de Estudo: Inteligência Artificial - Material 39 Tema: Aprendizado por Reforço e Ambientes Markovianos 1. Qual paradigma de aprendizado de máquina envolve um agente aprendendo a tomar decisões em um ambiente, maximizando uma recompensa acumulada? a) Aprendizado supervisionado. b) Aprendizado não supervisionado. c) Aprendizado por reforço. d) Aprendizado semissupervisionado. e) Aprendizado por transferência. Resposta: c) Aprendizado por reforço. Justificativa: O aprendizado por reforço é usado em situações em que um agente interage com um ambiente para aprender um comportamento ideal. 2. Qual modelo matemático descreve um ambiente onde o estado atual contém toda a informação necessária para tomar uma decisão, sem depender de estados passados? a) Processo Gaussiano. b) Rede Neural Recorrente. c) Processo de Decisão de Markov (MDP). d) Modelo de Regressão Linear. e) Modelo de Agrupamento K-means. Resposta: c) Processo de Decisão de Markov (MDP). Justificativa: MDPs são usados para modelar ambientes em que o futuro é independente do passado, dado o presente. 3. Qual componente de um agente de aprendizado por reforço representa uma função que mapeia estados para ações, determinando o comportamento do agente? a) Função de recompensa. b) Função de valor. c) Política. d) Modelo de ambiente. e) Função de transição de estado. Resposta: c) Política. Justificativa: A política define como o agente age em diferentes estados. 4. Qual técnica de aprendizado por reforço estima a função de valor ótimo, que representa a recompensa acumulada máxima esperada a partir de um determinado estado? a) Aprendizado por Q-learning. b) Aprendizado por deep learning. c) Aprendizado por redes neurais. d) Aprendizado por reforço profundo. e) Aprendizado por regressão linear. Resposta: a) Aprendizado por Q-learning. Justificativa: O Q-learning aprende uma função Q que estima a recompensa acumulada máxima esperada para cada par estado-ação. 5. Qual método de aprendizado por reforço envolve um agente aprendendo diretamente a política ótima, sem estimar a função de valor? a) Aprendizado por Q-learning. b) Aprendizado por gradiente de política. c) Aprendizado por diferenças temporais. d) Aprendizado por monte Carlo. e) Aprendizado por aproximação de funções. Resposta: b) Aprendizado por gradiente de política. Justificativa: O aprendizado por gradiente de política busca otimizar a política diretamente. 6. Qual componente de um MDP define a probabilidade de transição de um estado para outro, dado uma ação tomada pelo agente? a) Função de recompensa. b) Função de valor. c) Política. d) Modelo de ambiente. e) Função de transição de estado. Resposta: e) Função de transição de estado. Justificativa: A função de transição de estado descreve a dinâmica do ambiente. 7. Qual trade-off fundamental em aprendizado por reforço envolve a escolha entre explorar novas ações para descobrir melhores políticas ou explorar ações conhecidas para maximizar a recompensa imediata? a) Trade-off viés-variância. b) Trade-off exploração-explotação. c) Trade-off precisão- revocação. d) Trade-off computacional-estatístico. e) Trade-off memória-velocidade. Resposta: b) Trade-off exploração-explotação. Justificativa: Equilibrar a exploração e a explotação é crucial para o aprendizado eficiente em ambientes desconhecidos.