Logo Passei Direto
Buscar

Inteligência Artificial

Biológicas / Saúde
Questão 6/10 Reinforcement Learning Ler em voz alta "Algoritmos de TD permitem uma aproximação mais genérica do problema de aprendizagem em ambientes mutáveis. Em TD a função de valor V(s) é calculada diretamente a partir do erro de previsões anteriores, livre de modelo, como em Monte Carlo, de forma completamente incremental mas sem a restrição do processo a primeira ordem da cadeia de Marcov. Aula 4 - tema 3 Considerando O exposto acima e nossos estudos sobre diferença temporal, podemos afirmar: A TD busca a previsão da ação baseada na análise da cadeia de Markov de primeira ordem segundo a qual O futuro depende apenas do presente O que impede, em TD levarmos em conta predições temporais já feitas. Pesquisar por imagem B Mesmo em processos marcovianos de primeira ordem O uso de TD é convergente e ao menos igualmente eficiente que outros métodos de aprendizagem C O método de de diferença temporal passa pela análise dos erros das predições anteriores, ao qual denominaremos derivada parcial do erro em relação ao peso por diferença temporal, ou DPETD. D O erro por diferença temporal é O fator que ajustará O valor do estado em função das multivariáveis do espaço estocástico, mas não das ocorrências anteriores que poderiam contribuir para 0 próximo estado, por este motivo foi abandonado e substituído pelas CNNs. E Todas estão corretas
User badge image
AMANDA MADEIRO

há 5 dias

Respostas

User badge image

Ed Verified user icon

há 5 dias

Vamos analisar as alternativas com base no que sabemos sobre algoritmos de TD (Temporal Difference): A) "A TD busca a previsão da ação baseada na análise da cadeia de Markov de primeira ordem segundo a qual o futuro depende apenas do presente, o que impede, em TD, levarmos em conta predições temporais já feitas." — Incorreto. TD trabalha justamente com predições temporais anteriores para atualizar valores, não é impedido de usá-las. B) "Mesmo em processos marcovianos de primeira ordem, o uso de TD é convergente e ao menos igualmente eficiente que outros métodos de aprendizagem." — Correto. TD é conhecido por sua convergência e eficiência em processos de Markov de primeira ordem. C) "O método de diferença temporal passa pela análise dos erros das predições anteriores, ao qual denominaremos derivada parcial do erro em relação ao peso por diferença temporal, ou DPETD." — Parcialmente correto, mas o termo DPETD não é um conceito padrão ou amplamente usado. D) "O erro por diferença temporal é o fator que ajustará o valor do estado em função das multivariáveis do espaço estocástico, mas não das ocorrências anteriores que poderiam contribuir para o próximo estado, por este motivo foi abandonado e substituído pelas CNNs." — Incorreto. TD não foi abandonado e CNNs são técnicas diferentes, não substitutas diretas. E) "Todas estão corretas." — Incorreto, pois algumas alternativas estão erradas. Portanto, a alternativa correta é: B) Mesmo em processos marcovianos de primeira ordem, o uso de TD é convergente e ao menos igualmente eficiente que outros métodos de aprendizagem.

Essa resposta te ajudou?

0
Dislike0
details

Libere essa resposta sem enrolação!

Craque NetoCraque Neto

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Mais conteúdos dessa disciplina