Buscar

AVALIAÇÃO REINFORCEMENT LEARNING

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

03/11/2023, 11:23 Course Status – Faculdade Educavales
https://ava.educavales.universaeducacional.com.br/course-status/ 1/2
AVALIAÇÃO – REINFORCEMENT LEARNING
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  10
Tempo mínimo ao objetivo é a classe que fazem com que o agente realize ações que produzam o caminho ou
trajetória mais _______ para um estado objetivo.
Resposta Marcada :
Curta.
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  0
Assinale a alternativa correta:
Resposta Marcada :
De�ne-se uma função valor-estado como o mapeamento do estado, ou par estado-ação em um valor que é obtido
a partir dos reforços futuros.
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  10
Acerca de método de Monte Carlo, assinale a alternativa correta:
Resposta Marcada :
O método de Monte Carlo não precisa da modelagem do ambiente e se apresenta de forma complexa em termos
conceituais, baseia-se no cálculo da média de retornos obtidos em sequências.
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  10
Reforço só no estado �nal é a classe de funções, as recompensas são todas zero, exceto no estado __________, em
que o agente recebe uma recompensa real (ex: +1) ou uma penalidade (ex: −1).
Resposta Marcada :
Final.
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  10
Assinale a alternativa que apresente aspectos do método Q-learning.
Resposta Marcada :
Todas as alternativas.
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  10
Acerca de método de Monte Carlo, assinale a alternativa correta:
Resposta Marcada :
Uma vantagem do método de Monte Carlo é que, diferente do método de Programação Dinâmica, não necessita
de informação completa do ambiente, apenas necessita das amostras da experiência como seqüências de dados,
ações e reforços a partir de uma interação real ou simulada com o ambiente.
PONTUAÇÃO TOTAL: 10NOTAS OBTIDAS 2
Sobre Programação Dinâmica assinale a alternativa correta.
 
Resposta Marcada :
03/11/2023, 11:23 Course Status – Faculdade Educavales
https://ava.educavales.universaeducacional.com.br/course-status/ 2/2
70 / 100
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  10
Quando a probabilidade de transição de um estado s para um estado s0 depende apenas do estado s e da ação a
adotada em s, isso signi�ca que o estado corrente fornece informação _____________ para o sistema de
aprendizado decidir que ação deve ser tomada. Quando o sistema possui essa característica, diz-se que ele
satisfaz a Propriedade de ________.
Resposta Marcada :
Su�ciente e Markov.
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  10
A Propriedade de ________ é de fundamental importância na AR, uma vez que tanto as decisões como os valores
são funções apenas do estado atual, abrindo a possibilidade de métodos de soluções incrementais, onde pode-se
obter soluções a partir do estado atual e para cada um dos estados futuros, como é feito no método de
Programação Dinâmica.
Resposta Marcada :
Markov.
PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA  0
A vantagem mais notável do método DT é a relacionada com o método de Programação Dinâmica, onde esta não
necessita da modelagem _____ do ambiente, de seus reforços e das distribuições de probabilidade das transições
dos seus estados.
Resposta Marcada :
NDA.
Total

Continue navegando