Logo Passei Direto
Buscar

Inglês

Exatas
Ler em voz alta Em um ambiente simulado, como o Frozen Lake do OpenAI Gym, o objetivo do agente é encontrar o caminho até o objetivo sem cair em buracos, recebendo recompensas com base nas suas ações. O aprendizado por reforço envolve a interação do agente com o ambiente, aprendendo a partir das recompensas obtidas após cada ação. Considerando este cenário, qual das afirmações abaixo descreve corretamente um conceito fundamental do aprendizado por reforço aplicado ao Frozen Lake? A No aprendizado por reforço, o agente escolhe suas ações com base em um modelo pré-determinado do ambiente, garantindo que ele sempre atinja o objetivo sem falhar. B O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas. C No ambiente Frozen Lake, o agente nunca precisa explorar novas ações, já que as recompensas são conhecidas desde o início e podem ser previstas com precisão. D O aprendizado por reforço só pode ser aplicado em ambientes onde o agente conhece antecipadamente todas as possíveis recompensas e penalidades.
User badge image
Alexandre Gouveia

mês passado

Respostas

User badge image

Ed Verified user icon

mês passado

Vamos analisar as alternativas uma a uma para encontrar a correta: A) No aprendizado por reforço, o agente escolhe suas ações com base em um modelo pré-determinado do ambiente, garantindo que ele sempre atinja o objetivo sem falhar. - Esta afirmação é falsa, pois no aprendizado por reforço, o agente não tem um modelo pré-determinado e aprende a partir da interação com o ambiente. B) O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas. - Esta afirmação é verdadeira. O aprendizado por reforço se baseia na exploração e na aprendizagem a partir das recompensas e punições recebidas. C) No ambiente Frozen Lake, o agente nunca precisa explorar novas ações, já que as recompensas são conhecidas desde o início e podem ser previstas com precisão. - Esta afirmação é falsa, pois o agente precisa explorar novas ações para aprender sobre o ambiente, já que as recompensas não são conhecidas de antemão. D) O aprendizado por reforço só pode ser aplicado em ambientes onde o agente conhece antecipadamente todas as possíveis recompensas e penalidades. - Esta afirmação é falsa, pois o aprendizado por reforço é, na verdade, sobre aprender a partir da interação e não requer conhecimento prévio das recompensas. Portanto, a alternativa correta é: B) O agente em aprendizado por reforço aprende por tentativa e erro, sendo recompensado quando toma uma ação correta, o que influencia suas futuras escolhas.

Essa resposta te ajudou?

0
Dislike0
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar essa resposta. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Mais conteúdos dessa disciplina