Ed
há 11 meses
Vamos analisar as alternativas uma a uma para identificar a que descreve corretamente como o Aprendizado por Reforço opera: A) O agente utiliza um conjunto fixo de regras programadas para reagir a situações específicas no ambiente, sem aprendizado a partir de experiências. - Incorreto, pois o aprendizado por reforço envolve aprendizado a partir de experiências. B) O agente aprende exclusivamente a partir de dados rotulados fornecidos previamente, sem interação direta com o ambiente. - Incorreto, já que o aprendizado por reforço depende da interação com o ambiente. C) O agente interage com o ambiente, toma ações, recebe recompensas ou punições, e ajusta seu comportamento para maximizar a recompensa acumulada ao longo do tempo. - Correto, essa é a definição básica do aprendizado por reforço. D) O agente analisa dados históricos para prever ações futuras, sem necessidade de interação em tempo real com o ambiente. - Incorreto, pois o aprendizado por reforço requer interação em tempo real. E) O agente aplica algoritmos de busca exaustiva para encontrar a melhor ação possível em cada estado, sem considerar recompensas ou punições. - Incorreto, pois o aprendizado por reforço considera recompensas e punições. Portanto, a alternativa correta é: C. O agente interage com o ambiente, toma ações, recebe recompensas ou punições, e ajusta seu comportamento para maximizar a recompensa acumulada ao longo do tempo.
Já tem uma conta?
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Mais perguntas desse material