Prévia do material em texto
Eduno Curso: INTELIGÊNCIA ARTIFICIAL Disciplina: REINFORCEMENT LEARNING AVALIAÇÃO Para sua análise, estão sendo exibidas somente as questões respondidas . A Propriedade de ________ é de fundamental importância na AR, uma vez que tanto as decisões como os valores são funções apenas do estado atual, abrindo a possibilidade de métodos de soluções incrementais, onde pode-se obter soluções a partir do estado atual e para cada um dos estados futuros, como é feito no método de Programação Dinâmica. Markov. Tempo mínimo ao objetivo é a classe que fazem com que o agente realize ações que produzam o caminho ou trajetória mais _______ para um estado objetivo. Curta. Sobre Programação Dinâmica assinale a alternativa correta. Segundo Bellman e, a Programação Dinâmica tem a vantagem de ser matematicamente bem fundamentada, mas exige uma modelagem bem precisa do ambiente como um Processo de Decisão Markoviano. Quando a probabilidade de transição de um estado s para um estado s0 depende apenas do estado s e da ação a adotada em s, isso significa que o estado corrente fornece informação _____________ para o sistema de aprendizado decidir que ação deve ser tomada. Quando o sistema possui essa característica, diz-se que ele satisfaz a Propriedade de ________. Suficiente e Markov. Reforço só no estado final é a classe de funções, as recompensas são todas zero, exceto no estado __________, em que o agente recebe uma recompensa real (ex: +1) ou uma penalidade (ex: −1). Final. Acerca de método de Monte Carlo, assinale a alternativa correta: O método de Monte Carlo não precisa da modelagem do ambiente e se apresenta de forma complexa em termos conceituais, baseia-se no cálculo da média de retornos obtidos em sequências. Acerca de método de Monte Carlo, assinale a alternativa correta: Uma vantagem do método de Monte Carlo é que, diferente do método de Programação Dinâmica, não necessita de informação completa do ambiente, apenas necessita das amostras da experiência como seqüências de dados, ações e reforços a partir de uma interação real ou simulada com o ambiente. Assinale a alternativa que apresente aspectos do método Q-learning. Todas as alternativas. A vantagem mais notável do método DT é a relacionada com o método de Programação Dinâmica, onde esta não necessita da modelagem _____ do ambiente, de seus reforços e das distribuições de probabilidade das transições dos seus estados. PDM. Assinale a alternativa correta: Define-se uma função valor-estado como o mapeamento do estado, ou par estado-ação em um valor que é obtido a partir do reforço atual e dos reforços futuros.