Baixe o app para aproveitar ainda mais
Prévia do material em texto
03/11/2023, 11:23 Course Status – Faculdade Educavales https://ava.educavales.universaeducacional.com.br/course-status/ 1/2 AVALIAÇÃO – REINFORCEMENT LEARNING PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 10 Tempo mínimo ao objetivo é a classe que fazem com que o agente realize ações que produzam o caminho ou trajetória mais _______ para um estado objetivo. Resposta Marcada : Curta. PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 0 Assinale a alternativa correta: Resposta Marcada : De�ne-se uma função valor-estado como o mapeamento do estado, ou par estado-ação em um valor que é obtido a partir dos reforços futuros. PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 10 Acerca de método de Monte Carlo, assinale a alternativa correta: Resposta Marcada : O método de Monte Carlo não precisa da modelagem do ambiente e se apresenta de forma complexa em termos conceituais, baseia-se no cálculo da média de retornos obtidos em sequências. PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 10 Reforço só no estado �nal é a classe de funções, as recompensas são todas zero, exceto no estado __________, em que o agente recebe uma recompensa real (ex: +1) ou uma penalidade (ex: −1). Resposta Marcada : Final. PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 10 Assinale a alternativa que apresente aspectos do método Q-learning. Resposta Marcada : Todas as alternativas. PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 10 Acerca de método de Monte Carlo, assinale a alternativa correta: Resposta Marcada : Uma vantagem do método de Monte Carlo é que, diferente do método de Programação Dinâmica, não necessita de informação completa do ambiente, apenas necessita das amostras da experiência como seqüências de dados, ações e reforços a partir de uma interação real ou simulada com o ambiente. PONTUAÇÃO TOTAL: 10NOTAS OBTIDAS 2 Sobre Programação Dinâmica assinale a alternativa correta. Resposta Marcada : 03/11/2023, 11:23 Course Status – Faculdade Educavales https://ava.educavales.universaeducacional.com.br/course-status/ 2/2 70 / 100 PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 10 Quando a probabilidade de transição de um estado s para um estado s0 depende apenas do estado s e da ação a adotada em s, isso signi�ca que o estado corrente fornece informação _____________ para o sistema de aprendizado decidir que ação deve ser tomada. Quando o sistema possui essa característica, diz-se que ele satisfaz a Propriedade de ________. Resposta Marcada : Su�ciente e Markov. PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 10 A Propriedade de ________ é de fundamental importância na AR, uma vez que tanto as decisões como os valores são funções apenas do estado atual, abrindo a possibilidade de métodos de soluções incrementais, onde pode-se obter soluções a partir do estado atual e para cada um dos estados futuros, como é feito no método de Programação Dinâmica. Resposta Marcada : Markov. PONTUAÇÃO TOTAL: 10PONTUAÇÃO OBTIDA 0 A vantagem mais notável do método DT é a relacionada com o método de Programação Dinâmica, onde esta não necessita da modelagem _____ do ambiente, de seus reforços e das distribuições de probabilidade das transições dos seus estados. Resposta Marcada : NDA. Total
Compartilhar