Prévia do material em texto
PSICOLOGIA NOTURNO Alunas: Dyairam Bruna, Kamilliany Alves e Luciana Stumm Data: 10/06/2024 Horário Inicial: 19:50 Horário Final: 20:20 Duração Total: 32 minutos Relatório do Exercício – 4: Reforçamento Contínuo 1. Introdução: O reforçamento do tipo contínuo implica que todo comportamento emitido (desde que seja o comportamento esperado) é reforçado. Portanto, a cada emissão do comportamento o reforço é liberado. Ou, dito de outra forma, o reforço sempre segue o comportamento. Chamamos de reforçador a qualquer evento que aumente a força do comportamento ao qual segue. O reforçamento deve seguir imediatamente o comportamento desejado a fim de ter o efeito máximo. 2. Discução Os resultados indicam que o algoritmo CRF é eficaz para o aprendizado por reforço contínuo em um ambiente de labirinto. O individou em questão demonstra a viabilidade de aplicar técnicas avançadas de aprendizado por reforço para resolver problemas complexos em espaços de ação contínuos. No entanto, observamos que o treinamento pode ser intensivo em recursos e tempo, e o ajuste dos hiperparâmetros é crucial para o sucesso do modelo. 3. Treinamento e Avaliação O treinamento foi realizado em etapas, com avaliações periódicas para monitorar o desempenho do individuo. A cada etapa, coletamos dados sobre as seguintes métricas: - Recompensa Média por Episódio: Indicador do progresso do agente no ambiente. - Número de Passos por Episódio: Média de passos necessários para completar o labirinto. - Taxa de Sucesso: Percentual de episódios em que o agente encontrou todas as recompensas. 4. Resultados Após várias iterações de treinamento, o individuo apresentou os seguintes resultados: - Recompensa Média: Aumentou consistentemente ao longo do tempo, indicando que o agente estava aprendendo a maximizar a recompensa. - Número de Passos: Houve uma diminuição significativa no número médio de passos por episódio, demonstrando que o agente estava se tornando mais eficiente. - Taxa de Sucesso: Alcançou uma taxa de sucesso de 85% após os episódios de treinamento. 5. Conclusão A implementação do Reforço Contínuo foi bem-sucedida, demonstrando que é possível treinar um o individou para navegar eficientemente em um ambiente contínuo e dinâmico. Futuros trabalhos podem explorar a otimização dos hiperparâmetros, a introdução de obstáculos dinâmicos e a extensão do ambiente para cenários mais complexos. Abaixo podera analisar os dados em questões. 1. Tabela: Minuto Andar Erguer Lamber Parar Alimentador Pressão Barra 1 6 9 4 4 6 12 2 7 6 5 3 8 15 3 6 4 3 6 8 12 4 6 4 4 6 9 11 5 4 5 3 4 7 10 6 4 6 6 2 4 9 7 4 6 2 9 5 9 8 5 6 2 4 6 9 9 4 5 2 4 8 8 10 2 4 5 4 8 10 11 5 4 7 6 9 10 12 2 4 6 5 6 12 13 2 3 3 2 5 8 14 5 2 2 5 5 8 15 4 3 2 8 3 7 16 4 4 3 9 4 7 17 4 6 3 3 7 5 18 5 6 4 1 8 5 19 3 5 4 1 5 6 20 3 2 6 2 9 3 21 7 1 6 5 9 4 22 2 2 5 5 5 2 23 2 3 5 6 7 7 24 5 2 2 4 4 9 25 2 2 2 7 4 12 26 6 3 5 9 4 13 27 6 3 7 2 2 8 28 8 5 2 1 2 9 29 2 5 3 5 6 9 30 3 6 1 2 2 12 Total 128 126 114 134 175 261 TR 4,26 4,2 3,8 4,46 5,83 8,7