Baixe o app para aproveitar ainda mais
Prévia do material em texto
Abordagem Neurodinâmica de Aprendizagem por Reforço 01 - De acordo com as descrições abaixo, indique para quais sistemas o uso do aprendizado por reforço é indicado I. Sistemas em que o meio é conhecido, porém, não temos soluções analíticas para o problema II. Sistemas de alta complexidade, em que o número de estados é muito grande III. Sistemas em que apenas uma simulação do ambiente é conhecida IV. Sistemas em que a única forma de coletarmos dados referentes ao ambiente é interagindo com o mesmo 1. I e II 2. II e III 3. I, II, III e IV 4. II, III, IV 5. IV 02 - De acordo com as definições de aprendizado por reforço, considere as seguintes assertivas e assi- nale a alternativa correta. I- A aprendizagem por reforço consiste no enfrentamento de um problema complexo II- As máquinas são programadas para realizar ações indesejadas. III- Aprendizagem por reforço consiste no enfrentamento de um problema complexo com base em um sistema de metas. IV- Ao atingir uma meta específica, a inteligência artificial não é programada para receber recompensas. 1. I e III 2. I e IV 3. II e IV 4. I, II e III 5. I, II e IV 03 - Considerando as alternativas abaixo, selecione o caso em que a aplicação do aprendizado por re- forço não é recomendada 1. Simulação de jogos como Xadrez ou Gamão 2. Treinamento de IA para carros autônomos 3. Machine learning e processamento de dados 4. Robótica e automação industrial 5. Reconhecimento facial 04 - Sobre Q-Learning, considere as seguintes assertivas e assinale o que for correto I. Um problema markoviano pode ser definido como um processo estocástico em que as decisões futu- ras não são influenciadas pelas escolhas do passado II. O custo de uma determinada ação é determinado por um fator III. A progressão do algoritmo é embasada na política atual 1. I 2. I e II 3. II e III 4. I e III 5. III 05 - Um processos de aprendizagem por reforço que independe da avaliação política recebe o nome de 1. processo apolítico 2. processo anárquico 3. processo off-policy 4. processo de política ótima 5. processo de política indeterminada 06 - Uma abordagem clássica para a solução de problemas de aprendizado por reforço é a implementa- ção de um algoritmo guloso (greedy algorithm). Sobre algoritmos gulosos, assinale as assertivas corre- tas I. O algoritmo guloso define a sua ação com base na máxima recompensa, o que justifica seu nome II. Pode ser considerada uma política III. Ao encontrar um máximo local, o algoritmo guloso continua o processo de iteração em busca de um máximo global 1. I e II 2. I, II e III 3. I e IV 4. II e IV 5. IV
Compartilhar