Prévia do material em texto
<p>Atividade Objetiva 04</p><p>Entrega Sem prazo</p><p>Pontos 15</p><p>Perguntas 5</p><p>Limite de tempo Nenhum</p><p>Tentativas permitidas Sem limite</p><p>Histórico de tentativas</p><p>Tentativa Tempo Pontuação</p><p>MANTIDO Tentativa 3 Menos de 1 minuto 15 de 15</p><p>MAIS RECENTE Tentativa 3 Menos de 1 minuto 15 de 15</p><p>Tentativa 2 1 minuto 12 de 15</p><p>Tentativa 1 2 minutos 6 de 15</p><p> As respostas corretas estão ocultas.</p><p>Pontuação desta tentativa: 15 de 15</p><p>Enviado 19 out em 16:35</p><p>Esta tentativa levou Menos de 1 minuto.</p><p></p><p>Pergunta 1</p><p>3 / 3 pts</p><p>Verdadeiro</p><p>Fazer o teste novamente</p><p>Na arquitetura desenvolvida para o treinamento do agende que aprenderá a jogar o Breakout, o Driver de Coleta explora apenas um único</p><p>ambiente.</p><p>https://pucminas.instructure.com/courses/146807/quizzes/434588/history?version=3</p><p>https://pucminas.instructure.com/courses/146807/quizzes/434588/history?version=3</p><p>https://pucminas.instructure.com/courses/146807/quizzes/434588/history?version=2</p><p>https://pucminas.instructure.com/courses/146807/quizzes/434588/history?version=1</p><p>https://pucminas.instructure.com/courses/146807/quizzes/434588/take?user_id=271431</p><p>Falso</p><p></p><p>Pergunta 2</p><p>3 / 3 pts</p><p>TF-Agents</p><p>Deep Q-Learning</p><p>Tensorflow</p><p>Sklearn</p><p></p><p>Pergunta 3</p><p>3 / 3 pts</p><p>Verdadeiro</p><p>Falso</p><p></p><p>Pergunta 4</p><p>3 / 3 pts</p><p>Verdadeiro</p><p>Falso</p><p></p><p>Pergunta 5</p><p>3 / 3 pts</p><p>Biblioteca disponível que fornece funções para criar agentes que possam aprender a jogar jogos de Atari com o Breakout</p><p>Uma trajetória é uma representação concisa de uma transição de uma etapa de tempo para a próxima. As trajetórias coletadas pelo Driver são</p><p>passadas ao observador</p><p>Na arquitetura desenvolvida para o treinamento do agende que aprenderá a jogar o Breakout, o Driver de Coleta é um objeto que explora um</p><p>ambiente usando uma determinada política, coleta experiências do jogo e as transmite para observadores.</p><p>A QNetwork usada para o treinamento do agente é composta de duas partes: uma rede de codificação que processa as observações, seguida por</p><p>uma camada de saída densa que gera um Q-Value por ação.</p><p>Verdadeiro</p><p>Falso</p><p>Pontuação do teste: 15 de 15</p>