Baixe o app para aproveitar ainda mais
Prévia do material em texto
PROVA ON-LINE Entrega Sem prazo Pontos 60 Perguntas 10 Disponível depois 19 de abr de 2021 em 10:00 Limite de tempo 60 Minutos Tentativas permitidas Sem limite Instruções Histórico de tentativas Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 28 minutos 60 de 60 Pontuação desta tentativa: 60 de 60 Enviado 1 out em 23:34 Esta tentativa levou 28 minutos. ATENÇÃO: Verifique em "Notas" se você não atingiu o aproveitamento necessário nesta disciplina. Caso você já tenha realizado uma prova anterior e opte por uma nova tentativa, será identificado como uma prova extra e resultará em pagamento de taxa extra. INSTRUÇÕES DA AVALIAÇÃO ON-LINE A prova tem a duração de 60 minutos. Ao clicar em PROVA ON-LINE, no menu “Testes” você iniciará a prova. A partir daí não será possível desistir de realizá-la. A prova é composta de 10 questões objetivas, cada uma no valor de 6 pontos. Ao final do teste não se esqueça de enviá-lo, clicando no botão “ENVIAR TESTE”. Só utilize esse botão quando tiver finalizado a avaliação. Se necessário, durante a prova, entre em contato pelo link “Atendimento”. ATENÇÃO: Todas as provas iniciadas e que não houverem sido submetidas serão automaticamente encerradas pelo sistema transcorridos os 60 minutos de duração. Boa Prova! Fazer o teste novamente 6 / 6 ptsPergunta 1 https://pucminas.instructure.com/courses/46753/quizzes/177988/history?version=1 https://pucminas.instructure.com/courses/46753/quizzes/177988/take?user_id=88673 Recentemente, encontram-se muitas referências na literatura e na mídia em geral ao uso de aprendizagem profunda (ou “deep learning”). Marque a alternativa que representa uma afirmação incorreta: A aprendizagem profunda pode ser entendida como um tipo de aprendizagem de representação em que características mais abstratas são inferidas a partir de características mais simples. Na aprendizagem profunda, conceitos complexos (de níveis mais altos ou abstratos) são definidos em termos de sua relação com conceitos mais simples (em níveis mais baixos). A aprendizagem profunda não apresenta nenhuma relação com o aprendizado de máquina, podendo ser vista como uma abordagem alternativa para tarefas em que o aprendizado de máquina não consegue obter bons resultados. Correto!Correto! Na verdade, a aprendizagem profunda é um tipo de aprendizado de máquina em que características mais abstratas e semanticamente mais relevantes são produzidas a partir de características mais simples; sendo então utilizadas para produção de resultados. Uma das razões determinantes para o recente sucesso da aprendizagem profunda se encontra na maior disponibilidade de grandes conjuntos de dados para as mais diversas tarefas. 6 / 6 ptsPergunta 2 O aprendizado de máquina estatístico busca construir modelos que sejam eficientes e que forneçam predições o mais próximo das predições corretas quanto possível. Marque a afirmação correta relacionada ao aprendizado de máquina estatístico: Denomina-se de modelo a verdadeira distribuição condicional relacionando alvos com observações. Para se realizar uma predição do alvo y a partir de uma observação x, deve-se conhecer pelo menos a distribuição condicional P(X=x |Y=y). Apesar de ser uma abordagem estatística, apenas os valores associados aos alvos são considerados amostras de uma variável randômica; sendo as observações tratadas de forma distinta. A função de predição simplifica a tarefa de modelagem, uma vez que se assume a existência de um único alvo para cada observação. Correto!Correto! Uma função de predição associa cada observação a um único alvo e, dessa forma, tende a simplificar o processo de modelagem. 6 / 6 ptsPergunta 3 Ao se construir e treinar um modelo, muitas vezes é necessário determinar uma série de hiperparâmetros, tais como: qual distância será usada, o número de vizinhos a serem analisados, a quantidade de camadas em uma rede neural artificial, o número de neurônios por camada, entre outros. Marque a afirmação correta relacionada ao ajuste de hiperparâmetros: Em uma validação cruzada de 3 dobras, divide-se o conjunto de treinamento em 3 subconjuntos e, de forma cíclica, se utiliza de cada um deles como conjunto de treinamento enquanto os outros dois são usados para validação dos hiperparâmetros. A validação cruzada permite realizar uma avaliação mais isenta dos hiperparâmetros, uma vez que o uso de várias subdivisões tende a reduzir o viés (positivo ou negativo) que poderia existir se apenas uma única divisão do conjunto de treinamento fosse utilizada. Correto!Correto! A validação cruzada procura realizar uma série de avaliações, de modo a determinar a performance associada a um dado hiperparâmetro independentemente da maneira como os dados foram divididos em subconjuntos ou mesmo do conteúdo desses subconjuntos que são usados para treino e validação. É muito usual que se divida o conjunto de teste, de forma a se ter um subconjunto de dados para se avaliar quais valores de hiperparâmetros funcionam melhor. Experimentar quais valores de hiperparâmetros funcionam melhor utilizando o conjunto de teste pode ser uma boa estratégia. 6 / 6 ptsPergunta 4 Redes neurais artificiais são modelos inspirados pelo sistema nervoso e são capazes de realizar o aprendizado de máquina a partir dos dados, tendo sido usadas para resolver uma grande variedade de tarefas, tais como visão computacional e reconhecimento de voz, que são difíceis de abordar por meio de métodos tradicionais da IA. Marque a alternativa que representa uma afirmação incorreta: A função de ativação é essencial para introduzir um componente de não linearidade nas redes neurais artificiais e com isso aumentar a capacidade de representação e aproximação destas. Uma rede neural feed-forward têm neurônios agrupados em camadas, sendo que os neurônios de uma mesma camada não são conectados entre si e o sinal percorre a rede em uma única direção, da entrada para a saída. Uma rede neural com mais neurônios possui uma maior capacidade. Em um neurônio artificial, as entradas são primeiramente submetidas a uma função de ativação para só depois serem combinadas em uma única saída por meio de uma soma ponderada. Correto!Correto! Na verdade, ocorre exatamente o oposto, as entradas são primeiramente combinadas por meio de um somatório ponderado para só depois se aplicar uma função de ativação ao resultado do somatório e se produzir a saída do neurônio artificial. 6 / 6 ptsPergunta 5 A otimização da função de perda de uma rede neural busca obter um modelo que seja capaz de realizar boas predições. Para tanto, procura-se alcançar um ponto de mínimo da função de perda utilizando a direção contrária do gradiente. Marque a alternativa que não representa uma atividade relacionada ao método do gradiente: Calcular o gradiente da taxa de aprendizado. Correto!Correto! No método do gradiente, deve-se calcular o gradiente da função de perda em relação aos pesos e utilizá-lo juntamente com o tamanho do passo (ou taxa de aprendizado) para se ajustar os pesos de forma a se obter preferencialmente um novo conjunto de pesos mais próximo do ótimo. Não faz nenhum sentido e nem é necessário se calcular o gradiente da taxa de aprendizado (ou tamanho do passo). Ajustar o conjunto de pesos ou parâmetros de modo a obter um novo conjunto, de preferência, mais próximo do ótimo. Avaliar a função de perda em relação ao conjunto de pesos ou parâmetros atuais. Usar o gradiente da função de perda e o tamanho do passo para modificar os pesos ou parâmetros a cada passo do método. 6 / 6 ptsPergunta 6 A ideia principal da técnica de “dropout” é descartar aleatoriamente unidades da rede neural (junto com suas conexões) durante a etapa de treinamento. Marque a afirmação incorreta relacionada à técnica de “dropout”: Para a realização de “dropout”, basta se multiplicar as ativações por variáveis aleatórias de Bernoulli com uma dada probabilidade. O uso da técnica de “dropout” força a rede aconstruir uma representação distribuída e redundante. O uso da técnica de “dropout” pode ser visto como equivalente a treinar uma grande coleção (ou “ensemble”) de modelos que compartilham parâmetros. Durante a predição, todas as unidades são mantidas ativas não sendo necessário se realizar nenhum outro ajuste das ativações. Correto!Correto! Durante a predição, apesar de todas as unidades serem mantidas ativas, deve-se tomar o cuidado de ajustar os valores das ativações de forma que a saída de cada neurônio corresponda a expectativa de valor da saída durante o treinamento. 6 / 6 ptsPergunta 7 Existem diversos esquemas para a atualização de pesos que podem ser adotados em uma rede neural profunda como alternativas à estratégia básica utilizada pelo método SGD. Marque a alternativa que representa uma afirmação incorreta: O NAG (“Nesterov Accelerated Gradient”) apresenta uma taxa de convergência mais rápida que o “momentum” tradicional pelo menos em teoria e para problemas de otimização convexa. O método ADAM (“Adaptive Moment Estimation”) pode ser visto como uma combinação dos métodos RMSProp e ADAGRAD. Correto!Correto! Na verdade, o método ADAM pode ser visto como uma combinação entre do uso de “momentum” com o método RMSProp. Os métodos RMSProp e ADAGRAD normalizam os gradientes, funcionando muito bem em conjuntos de dados com grande variação na magnitude dos mesmos como, por exemplo, em dados textuais. O uso de “momentum” permite que as atualizações “se acumulem” nas direções rasas (de pouca variação) e que elas se reduzam nas direções íngremes (de muita variação), fazendo com que se evite uma trajetória em “zig-zag”. 6 / 6 ptsPergunta 8 Tanto o SGD como as suas variações que utilizam outras regras para atualização de pesos possuem a taxa de aprendizado como um hiperparâmetro. Considerando o gráfico abaixo, marque a afirmação que relaciona de forma correta o valor da taxa de aprendizado a cada curva de perda: 1=Baixa; 2=Muito Alta; 3=Alta; 4=Boa 1=Muito Alta; 2=Boa; 3=Baixa; 4=Alta 1=Muito Alta; 2=Boa; 3=Alta; 4=Baixa 1=Muito Alta; 2=Baixa; 3=Alta; 4=Boa Correto!Correto! A curva de perda para uma taxa muito alta sempre será “explosiva”; enquanto que para uma taxa baixa, ela será suave e, para um valor alto, ela apresenta uma queda “abrupta” seguida de um “platô” Por fim, um bom valor de taxa de aprendizado, faz com que a curva de perda se mantenha reduzindo de forma “assintótica”. 6 / 6 ptsPergunta 9 Mais recentemente, as redes GoogLeNet e ResNet introduziram importantes concepções no projeto e implementação de redes neurais profundas. Marque a alternativa que representa uma afirmação incorreta: De forma a minimizar seu alto custo computacional, o módulo “Inception” faz uso de convoluções 1 x 1 para redução da dimensionalidade, apesar do aumento do número de parâmetros. A rede ResNet utiliza conexões “laterais” (desvios) nos blocos básicos de resíduos para garantir um bom fluxo de gradientes e, consequentemente, viabilizar o treinamento de redes com centenas de camadas. A rede GoogLeNet introduziu o uso de vários filtros diferentes em sequência por meio do módulo “Inception”. Correto!Correto! O módulo “Inception” realiza vários filtros diferentes em paralelo conseguindo assim extrair diferentes características a partir da mesma entrada. A rede GoogLeNet se utiliza de agrupamento pela média (“average pooling”) no final da rede ao invés de camadas completamente conectadas para se reduzir o número de parâmetros. 6 / 6 ptsPergunta 10 Redes recorrentes introduzem em seus projetos a presença de ciclos e a noção de tempo. Marque a alternativa que representa uma afirmação incorreta: Em uma rede recorrente, as camadas podem ser empilhadas de forma a se produzir versões profundas, em que cada camada é responsável por adicionar um nível maior de abstração e se utiliza se diferentes parâmetros durante os diferentes intervalos de tempo (em um mesmo nível). Correto!Correto! Uma camada de rede recorrente sempre irá utilizar os mesmos parâmetros para todos os intervalos de tempo (isto é, os parâmetros de um mesmo nível são independentes do tempo). As unidades LSTM (“Long Short Term Memory”) e variações conseguem por meio do uso de uma memória (ou estado) de célula garantir um bom fluxo de gradientes ao longo do tempo e, consequentemente, viabilizar o treinamento de intervalos de tempo mais longos. Rede recorrente pode ser “estendida” em várias etapas de tempo, produzindo um grafo acíclico direcionado que viabiliza o uso da propagação retrógrada (“backpropagation”), porém seu tamanho dependerá do comprimento da sequência de entrada. Em uma rede recorrente, o gradiente ao longo da dimensão temporal pode tanto crescer como reduzir exponencialmente, inviabilizando o treinamento caso se considere um intervalo de tempo (isto é, tamanho de sequência de entrada) razoável. Pontuação do teste: 60 de 60
Compartilhar