Buscar

Em relação ao aprendizado por reforço, selecione a opção correta. Todo o processo de aprendizagem é desenvolvido a partir de ideias baseadas em m...

Em relação ao aprendizado por reforço, selecione a opção correta.


Todo o processo de aprendizagem é desenvolvido a partir de ideias baseadas em métodos exatos.
O agente só é informado sobre a sua recompensa ao final de um número fixo de iterações para evitar desvios sobre sua política de tomada de decisão.
A escolha das ações é fixa ao longo da execução do algoritmo.
O agente é informado por exemplos positivos e negativos.
Ele dá suporte para maximizar recompensas cumulativas.

Essa pergunta também está no material:

Simulado_Machine Learning ESTACIO
5 pág.

Machine Learning Centro Universitário Faculdade Maurício de NassauCentro Universitário Faculdade Maurício de Nassau

Respostas

User badge image

Ed Verified user icon

A opção correta em relação ao aprendizado por reforço é: "O agente só é informado sobre a sua recompensa ao final de um número fixo de iterações para evitar desvios sobre sua política de tomada de decisão."

0
Dislike0

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Responda

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image

Continue navegando