Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Eduno Curso: INTELIGÊNCIA ARTIFICIAL Disciplina: REINFORCEMENT LEARNING AVALIAÇÃO Para sua análise, estão sendo exibidas somente as questões respondidas .    A Propriedade de ________ é de fundamental
importância na AR, uma vez que tanto as decisões como os valores são funções
apenas do estado atual, abrindo a possibilidade de métodos de soluções
incrementais, onde pode-se obter soluções a partir do estado atual e para cada
um dos estados futuros, como é feito no método de Programação Dinâmica. Markov. Tempo mínimo ao objetivo é a classe que fazem com que o agente realize ações que produzam o caminho ou trajetória mais _______ para um estado objetivo.   Curta. Sobre Programação Dinâmica assinale a alternativa correta. Segundo Bellman e, a Programação Dinâmica tem a vantagem de ser matematicamente bem fundamentada, mas exige uma modelagem bem precisa do ambiente como um Processo de Decisão Markoviano. Quando a probabilidade de transição de um estado s para um estado s0 depende apenas do estado s e da ação a adotada em s, isso significa que o estado corrente fornece informação _____________ para o sistema de aprendizado decidir que ação deve ser tomada. Quando o sistema possui essa característica, diz-se que ele satisfaz a Propriedade de ________. Suficiente e Markov. Reforço só no estado final é a classe de funções, as recompensas são todas zero, exceto no estado __________, em que o agente recebe uma recompensa real (ex: +1) ou uma penalidade (ex: −1).   Final. Acerca de método de Monte Carlo, assinale a alternativa correta: O método de Monte Carlo não precisa da modelagem
do ambiente e se apresenta de forma complexa em termos conceituais, baseia-se
no cálculo da média de retornos obtidos em sequências. Acerca de método de Monte Carlo, assinale a alternativa correta: Uma vantagem do método de Monte Carlo é que,
diferente do método de Programação Dinâmica, não necessita de informação
completa do ambiente, apenas necessita das amostras da experiência como
seqüências de dados, ações e reforços a partir de uma interação real ou
simulada com o ambiente. Assinale a alternativa que apresente aspectos do método Q-learning. Todas as alternativas. A vantagem mais notável do método DT é a relacionada com o método de Programação Dinâmica, onde esta não necessita da modelagem _____ do ambiente, de seus reforços e das distribuições de probabilidade das transições dos seus estados. PDM. Assinale a alternativa correta: Define-se
uma função valor-estado como o mapeamento do estado, ou par estado-ação em um
valor que é obtido a partir do reforço atual e dos reforços futuros.

Mais conteúdos dessa disciplina