Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

left-side-bubbles-backgroundright-side-bubbles-background

Experimente o Premium!star struck emoji

Acesse conteúdos dessa e de diversas outras disciplinas.

Libere conteúdos
sem pagar

Ajude estudantes e ganhe conteúdos liberados!

Prévia do material em texto

PSICOLOGIA NOTURNO
Alunas: Dyairam Bruna, Kamilliany Alves e Luciana Stumm 
Data: 10/06/2024
Horário Inicial: 19:50
Horário Final: 20:20
Duração Total: 32 minutos
Relatório do Exercício – 4: Reforçamento Contínuo 
1. Introdução:
O reforçamento do tipo contínuo implica que todo comportamento emitido (desde que seja o comportamento esperado) é reforçado. Portanto, a cada emissão do comportamento o reforço é liberado. Ou, dito de outra forma, o reforço sempre segue o comportamento.
Chamamos de reforçador a qualquer evento que aumente a força do comportamento ao qual segue. O reforçamento deve seguir imediatamente o comportamento desejado a fim de ter o efeito máximo. 
2. Discução
Os resultados indicam que o algoritmo CRF é eficaz para o aprendizado por reforço contínuo em um ambiente de labirinto. O individou em questão demonstra a viabilidade de aplicar técnicas avançadas de aprendizado por reforço para resolver problemas complexos em espaços de ação contínuos. No entanto, observamos que o treinamento pode ser intensivo em recursos e tempo, e o ajuste dos hiperparâmetros é crucial para o sucesso do modelo.
3. Treinamento e Avaliação
O treinamento foi realizado em etapas, com avaliações periódicas para monitorar o desempenho do individuo. A cada etapa, coletamos dados sobre as seguintes métricas:
- Recompensa Média por Episódio: Indicador do progresso do agente no ambiente.
- Número de Passos por Episódio: Média de passos necessários para completar o labirinto.
- Taxa de Sucesso: Percentual de episódios em que o agente encontrou todas as recompensas.
4. Resultados
Após várias iterações de treinamento, o individuo apresentou os seguintes resultados:
- Recompensa Média: Aumentou consistentemente ao longo do tempo, indicando que o agente estava aprendendo a maximizar a recompensa.
- Número de Passos: Houve uma diminuição significativa no número médio de passos por episódio, demonstrando que o agente estava se tornando mais eficiente.
- Taxa de Sucesso: Alcançou uma taxa de sucesso de 85% após os episódios de treinamento.
5. Conclusão
A implementação do Reforço Contínuo foi bem-sucedida, demonstrando que é possível treinar um o individou para navegar eficientemente em um ambiente contínuo e dinâmico. Futuros trabalhos podem explorar a otimização dos hiperparâmetros, a introdução de obstáculos dinâmicos e a extensão do ambiente para cenários mais complexos. Abaixo podera analisar os dados em questões.
1. Tabela:
	Minuto
	Andar
	Erguer
	Lamber
	Parar
	Alimentador
	Pressão Barra
	1
	6
	9
	4
	4
	6
	12
	2
	7
	6
	5
	3
	8
	15
	3
	6
	4
	3
	6
	8
	12
	4
	6
	4
	4
	6
	9
	11
	5
	4
	5
	3
	4
	7
	10
	6
	4
	6
	6
	2
	4
	9
	7
	4
	6
	2
	9
	5
	9
	8
	5
	6
	2
	4
	6
	9
	9
	4
	5
	2
	4
	8
	8
	10
	2
	4
	5
	4
	8
	10
	11
	5
	4
	7
	6
	9
	10
	12
	2
	4
	6
	5
	6
	12
	13
	2
	3
	3
	2
	5
	8
	14
	5
	2
	2
	5
	5
	8
	15
	4
	3
	2
	8
	3
	7
	16
	4
	4
	3
	9
	4
	7
	17
	4
	6
	3
	3
	7
	5
	18
	5
	6
	4
	1
	8
	5
	19
	3
	5
	4
	1
	5
	6
	20
	3
	2
	6
	2
	9
	3
	21
	7
	1
	6
	5
	9
	4
	22
	2
	2
	5
	5
	5
	2
	23
	2
	3
	5
	6
	7
	7
	24
	5
	2
	2
	4
	4
	9
	25
	2
	2
	2
	7
	4
	12
	26
	6
	3
	5
	9
	4
	13
	27
	6
	3
	7
	2
	2
	8
	28
	8
	5
	2
	1
	2
	9
	29
	2
	5
	3
	5
	6
	9
	30
	3
	6
	1
	2
	2
	12
	Total
	128
	126
	114
	134
	175
	261
	TR
	4,26
	4,2
	3,8
	4,46
	5,83
	8,7

Mais conteúdos dessa disciplina