Buscar

Abordagem Neurodinâmica de Aprendizagem por Reforço

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Abordagem Neurodinâmica de 
Aprendizagem por Reforço 
 
01 - De acordo com as descrições abaixo, indique para quais sistemas o uso do aprendizado por reforço 
é indicado 
I. Sistemas em que o meio é conhecido, porém, não temos soluções analíticas para o problema 
II. Sistemas de alta complexidade, em que o número de estados é muito grande 
III. Sistemas em que apenas uma simulação do ambiente é conhecida 
IV. Sistemas em que a única forma de coletarmos dados referentes ao ambiente é interagindo com o 
mesmo 
1. I e II 
2. II e III 
3. I, II, III e IV 
4. II, III, IV 
5. IV 
 
02 - De acordo com as definições de aprendizado por reforço, considere as seguintes assertivas e assi-
nale a alternativa correta. 
I- A aprendizagem por reforço consiste no enfrentamento de um problema complexo 
II- As máquinas são programadas para realizar ações indesejadas. 
III- Aprendizagem por reforço consiste no enfrentamento de um problema complexo com base em um 
sistema de metas. 
IV- Ao atingir uma meta específica, a inteligência artificial não é programada para receber recompensas. 
1. I e III 
2. I e IV 
3. II e IV 
4. I, II e III 
5. I, II e IV 
 
03 - Considerando as alternativas abaixo, selecione o caso em que a aplicação do aprendizado por re-
forço não é recomendada 
1. Simulação de jogos como Xadrez ou Gamão 
2. Treinamento de IA para carros autônomos 
3. Machine learning e processamento de dados 
4. Robótica e automação industrial 
5. Reconhecimento facial 
 
04 - Sobre Q-Learning, considere as seguintes assertivas e assinale o que for correto 
I. Um problema markoviano pode ser definido como um processo estocástico em que as decisões futu-
ras não são influenciadas pelas escolhas do passado 
II. O custo de uma determinada ação é determinado por um fator 
III. A progressão do algoritmo é embasada na política atual 
1. I 
2. I e II 
3. II e III 
4. I e III 
5. III 
 
05 - Um processos de aprendizagem por reforço que independe da avaliação política recebe o nome de 
1. processo apolítico 
2. processo anárquico 
3. processo off-policy 
4. processo de política ótima 
5. processo de política indeterminada 
 
06 - Uma abordagem clássica para a solução de problemas de aprendizado por reforço é a implementa-
ção de um algoritmo guloso (greedy algorithm). Sobre algoritmos gulosos, assinale as assertivas corre-
tas 
I. O algoritmo guloso define a sua ação com base na máxima recompensa, o que justifica seu nome 
II. Pode ser considerada uma política 
III. Ao encontrar um máximo local, o algoritmo guloso continua o processo de iteração em busca de um 
máximo global 
1. I e II 
2. I, II e III 
3. I e IV 
4. II e IV 
5. IV

Outros materiais