Buscar

“Algoritmos de TD permitem uma aproximação mais genérica do problema de aprendizagem em ambientes mutáveis. Em TD a função de valor V(s) é calculad...

“Algoritmos de TD permitem uma aproximação mais genérica do problema de aprendizagem em ambientes mutáveis. Em TD a função de valor V(s) é calculada diretamente a partir do erro de previsões anteriores, livre de modelo, como em Monte Carlo, de forma completamente incremental mas sem a restrição do processo a primeira ordem da cadeia de Marcov. Aula 4 - tema 3 Considerando o exposto acima e nossos estudos sobre diferença temporal, podemos afirmar: A TD busca a previsão da ação baseada na análise da cadeia de Markov de primeira ordem segundo a qual o futuro depende apenas do presente o que impede, em TD levarmos em conta predições temporais já feitas. B Mesmo em processos marcovianos de primeira ordem o uso de TD é convergente e ao menos igualmente eficiente que outros métodos de aprendizagem C O método de de diferença temporal passa pela análise dos erros das predições anteriores, ao qual denominaremos derivada parcial do erro em relação ao peso por diferença temporal, ou DPETD. D O erro por diferença temporal é o fator que ajustará o valor do estado em função das multivariáveis do espaço estocástico, mas não das ocorrências anteriores que poderiam contribuir para o próximo estado, por este motivo foi abandonado e substituído pelas CNNs. E Todas estão corretas

💡 1 Resposta

User badge image

Ed Verified user icon

Analisando as alternativas: A) TD busca a previsão da ação baseada na análise da cadeia de Markov de primeira ordem segundo a qual o futuro depende apenas do presente o que impede, em TD levarmos em conta predições temporais já feitas. - Esta afirmação está incorreta, pois em TD as previsões levam em conta predições temporais já feitas. B) Mesmo em processos marcovianos de primeira ordem o uso de TD é convergente e ao menos igualmente eficiente que outros métodos de aprendizagem - Esta afirmação está incorreta, pois o uso de TD pode não ser tão eficiente em processos marcovianos de primeira ordem. C) O método de de diferença temporal passa pela análise dos erros das predições anteriores, ao qual denominaremos derivada parcial do erro em relação ao peso por diferença temporal, ou DPETD. - Esta afirmação está incorreta, pois a descrição do DPETD não está correta. D) O erro por diferença temporal é o fator que ajustará o valor do estado em função das multivariáveis do espaço estocástico, mas não das ocorrências anteriores que poderiam contribuir para o próximo estado, por este motivo foi abandonado e substituído pelas CNNs. - Esta afirmação está incorreta, pois o erro por diferença temporal leva em conta as ocorrências anteriores. E) Todas estão corretas - Esta afirmação está incorreta, pois as alternativas A, B, C e D possuem informações incorretas. Portanto, nenhuma das alternativas está correta.

0
Dislike0

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

✏️ Responder

SetasNegritoItálicoSublinhadoTachadoCitaçãoCódigoLista numeradaLista com marcadoresSubscritoSobrescritoDiminuir recuoAumentar recuoCor da fonteCor de fundoAlinhamentoLimparInserir linkImagemFórmula

Para escrever sua resposta aqui, entre ou crie uma conta

User badge image

Outros materiais

Outros materiais