A alternativa correta é a III, IV e V, apenas. Explicação: I. O agente não recebe feedback imediato em forma de recompensa em aprendizagem por reforço. - Essa afirmação está incorreta. Na aprendizagem por reforço, o agente recebe feedback imediato em forma de recompensa ou punição após cada ação tomada. II. O processo de aprendizagem por reforço não envolve exploração de diferentes ações e aprendizado com a experiência. - Essa afirmação está incorreta. O processo de aprendizagem por reforço envolve a exploração de diferentes ações e o aprendizado com a experiência, a fim de maximizar a recompensa cumulativa ao longo do tempo. III. A aprendizagem por reforço é um campo da inteligência artificial que se baseia no princípio do aprendizado por meio da interação com um ambiente. - Essa afirmação está correta. A aprendizagem por reforço é um campo da inteligência artificial que se baseia no princípio do aprendizado por meio da interação com um ambiente. IV. O ambiente em aprendizagem por reforço pode ser representado apenas por jogos e simuladores virtuais. - Essa afirmação está incorreta. O ambiente em aprendizagem por reforço pode ser representado por jogos e simuladores virtuais, mas também pode ser representado por ambientes físicos, como robôs. V. O objetivo do agente em aprendizagem por reforço é aprender uma política que mapeia estados para ações a fim de maximizar a recompensa cumulativa ao longo do tempo. - Essa afirmação está correta. O objetivo do agente em aprendizagem por reforço é aprender uma política que mapeia estados para ações a fim de maximizar a recompensa cumulativa ao longo do tempo. Portanto, a alternativa correta é a III, IV e V, apenas.
Para escrever sua resposta aqui, entre ou crie uma conta
Compartilhar