Baixe o app para aproveitar ainda mais
Prévia do material em texto
9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 1/12 PROVA ON-LINE Entrega Sem prazo Pontos 60 Perguntas 10 Limite de tempo 60 Minutos Tentativas permitidas Sem limite Instruções Histórico de tentativas Tentativa Tempo Pontuação ATENÇÃO: Verifique em "Notas" se você não atingiu o aproveitamento necessário nesta disciplina. Caso você já tenha realizado uma prova anterior e opte por uma nova tentativa, será identificado como uma prova extra e resultará em pagamento de taxa extra. INSTRUÇÕES DA AVALIAÇÃO ON-LINE A prova tem a duração de 60 minutos. Ao clicar em PROVA ON-LINE, no menu “Testes” você iniciará a prova. A partir daí não será possível desistir de realizá-la. A prova é composta de 10 questões objetivas, cada uma no valor de 6 pontos. Ao final do teste não se esqueça de enviá-lo, clicando no botão “ENVIAR TESTE”. Só utilize esse botão quando tiver finalizado a avaliação. Se necessário, durante a prova, entre em contato pelo link “Atendimento”. ATENÇÃO: Todas as provas iniciadas e que não houverem sido submetidas serão automaticamente encerradas pelo sistema transcorridos os 60 minutos de duração. Boa Prova! Fazer o teste novamente https://pucminas.instructure.com/courses/64623/quizzes/287782/take?user_id=165143 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 2/12 Tentativa Tempo Pontuação MAIS RECENTE Tentativa 1 13 minutos 60 de 60 Pontuação desta tentativa: 60 de 60 Enviado 5 set em 19:20 Esta tentativa levou 13 minutos. 6 / 6 ptsPergunta 1 Uma função de perda mede a diferença entre uma predição do valor alvo e o valor disponível no conjunto de treinamento. Marque a alternativa que representa uma afirmação incorreta: Existem inúmeras funções de perda e, portanto, deve-se selecionar a mais adequada para se avaliar a proximidade entre predição e alvo esperado. O uso de uma função de perda garante a minimização do risco. Correto!Correto! Não há nenhuma garantia de que uma função de perda leve a minimização do risco, mesmo porque o risco representa na verdade a perda esperada, ou ainda, a esperança matemática do valor de perda futura. O único caminho para minimização do risco é a redução do erro de generalização que não está associado diretamente ao uso ou não de uma dada função de perda. https://pucminas.instructure.com/courses/64623/quizzes/287782/history?version=1 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 3/12 O uso de uma função de perda é uma alternativa interessante para se avaliar a proximidade entre predição e alvo esperado. A função de perda permite que se busque por um modelo que minimize o risco empírico. 6 / 6 ptsPergunta 2 Recentemente, encontram-se muitas referências na literatura e na mídia em geral ao uso de aprendizagem profunda (ou “deep learning”). Marque a alternativa que representa uma afirmação incorreta: A aprendizagem profunda não apresenta nenhuma relação com o aprendizado de máquina, podendo ser vista como uma abordagem alternativa para tarefas em que o aprendizado de máquina não consegue obter bons resultados. Correto!Correto! Na verdade, a aprendizagem profunda é um tipo de aprendizado de máquina em que características mais abstratas e semanticamente mais relevantes são produzidas a partir de características mais simples; sendo então utilizadas para produção de resultados. 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 4/12 Na aprendizagem profunda, conceitos complexos (de níveis mais altos ou abstratos) são definidos em termos de sua relação com conceitos mais simples (em níveis mais baixos). A aprendizagem profunda pode ser entendida como um tipo de aprendizagem de representação em que características mais abstratas são inferidas a partir de características mais simples. Uma das razões determinantes para o recente sucesso da aprendizagem profunda se encontra na maior disponibilidade de grandes conjuntos de dados para as mais diversas tarefas. 6 / 6 ptsPergunta 3 Ao se construir e treinar um modelo, muitas vezes é necessário determinar uma série de hiperparâmetros, tais como: qual distância será usada, o número de vizinhos a serem analisados, a quantidade de camadas em uma rede neural artificial, o número de neurônios por camada, entre outros. Marque a afirmação correta relacionada ao ajuste de hiperparâmetros: Experimentar quais valores de hiperparâmetros funcionam melhor utilizando o conjunto de teste pode ser uma boa estratégia. 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 5/12 É muito usual que se divida o conjunto de teste, de forma a se ter um subconjunto de dados para se avaliar quais valores de hiperparâmetros funcionam melhor. Em uma validação cruzada de 3 dobras, divide-se o conjunto de treinamento em 3 subconjuntos e, de forma cíclica, se utiliza de cada um deles como conjunto de treinamento enquanto os outros dois são usados para validação dos hiperparâmetros. A validação cruzada permite realizar uma avaliação mais isenta dos hiperparâmetros, uma vez que o uso de várias subdivisões tende a reduzir o viés (positivo ou negativo) que poderia existir se apenas uma única divisão do conjunto de treinamento fosse utilizada. Correto!Correto! A validação cruzada procura realizar uma série de avaliações, de modo a determinar a performance associada a um dado hiperparâmetro independentemente da maneira como os dados foram divididos em subconjuntos ou mesmo do conteúdo desses subconjuntos que são usados para treino e validação. 6 / 6 ptsPergunta 4 O método de propagação retrógrada (ou backpropagation) permite se obter os gradientes em um grafo de computação de forma eficaz. Marque a alternativa que representa uma afirmação incorreta: 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 6/12 O método de propagação retrógrada (ou backpropagation) se baseia na utilização da regra da cadeia. Um elemento de adição no grafo de computação faz com que o gradiente da perda em relação a saída desse elemento seja distribuído para todas as entradas desse elemento uma vez que todas as derivadas “locais” são unitárias. Caso um elemento do grafo de computação apresente várias saídas (ou ramificações), durante o passo retrógado deve utilizar apenas o maior dos valores de gradiente da perda em relação às saídas. Correto!Correto! Na verdade, caso ocorra uma ramificação (isto é, um elemento do grafo possua várias saídas), deve-se realizar a soma de todos os gradientes da perda relacionadas a cada uma das saídas antes de se aplicar a regra da cadeia para obtenção dos gradientes em relação às entradas. A derivada da perda em relação a uma entrada de um elemento qualquer do grafo de computação pode ser obtida a partir da derivada da saída desse elemento em relação a essa entrada e o gradiente da perda em relação a saída do mesmo elemento. 6 / 6 ptsPergunta 5 O método mais utilizado no treinamento de redes neurais e, em especial, de redes profundas é o SGD (gradiente descendente estocástico). 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 7/12 Marque a afirmação correta relacionada ao método SGD: No SGD, calcula-se o gradiente sobre uma amostra do conjunto de dados chamada de minibatch. Correto!Correto! O SGD usa o gradiente de um minibatch (isto é, uma amostra aleatória do conjunto de dados) no lugar do gradiente sobre o conjunto de dados completo. O SGD é conhecido como um método estocástico pois utiliza o conjunto completo de dados a cadaiteração. O comportamento estocástico se deve a amostragem da taxa de aprendizado realizada durante as iterações do método. O SGD surge como uma alternativa ao método do gradiente “básico” capaz de lidar de forma mais adequada com a ineficiência relacionada à presença de inúmeros pontos de sela na função de perda. 6 / 6 ptsPergunta 6 A ideia principal da técnica de “dropout” é descartar aleatoriamente unidades da rede neural (junto com suas conexões) durante a etapa de treinamento. Marque a afirmação incorreta relacionada à técnica de “dropout”: 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 8/12 O uso da técnica de “dropout” pode ser visto como equivalente a treinar uma grande coleção (ou “ensemble”) de modelos que compartilham parâmetros. O uso da técnica de “dropout” força a rede a construir uma representação distribuída e redundante. Durante a predição, todas as unidades são mantidas ativas não sendo necessário se realizar nenhum outro ajuste das ativações. Correto!Correto! Durante a predição, apesar de todas as unidades serem mantidas ativas, deve-se tomar o cuidado de ajustar os valores das ativações de forma que a saída de cada neurônio corresponda a expectativa de valor da saída durante o treinamento. Para a realização de “dropout”, basta se multiplicar as ativações por variáveis aleatórias de Bernoulli com uma dada probabilidade. 6 / 6 ptsPergunta 7 Redes neurais profundas realizam aprendizagem de representação em camadas, sendo que as representações aprendidas pelas camadas iniciais e intermediárias geralmente são independentes de tarefas. 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 9/12 Marque a alternativa que representa uma afirmação incorreta: Os blocos de construção podem ser padronizados entre diferentes ferramentas, bibliotecas e domínios de aplicação, permitindo a transferência e reaproveitamento de abordagens e estratégias. Apesar das representações de camadas internas iniciais serem independentes de tarefas, existe uma grande dificuldade de se reutilizar modelos em diferentes aplicações. Correto!Correto! Na verdade, ocorre exatamente o oposto, isto é, o fato das representações de camadas internas iniciais serem independentes de tarefas, facilita a reutilização de modelos em diferentes aplicações mesmo sem a disponibilidade de grandes conjuntos de dados para treinamento. As representações das camadas internas são geralmente aprendidas a partir do treinamento de tarefas feito apenas a partir das entradas e saídas ou ponta a ponta (“end-to-end training”). A profundidade e a complexidade parecem ser limitadas apenas pela quantidade de dados necessários para se treinar sem “overfitting”. 6 / 6 ptsPergunta 8 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 10/12 A normalização em lote (“batch normalization”) faz com que cada dimensão das ativações (isto é, dos resultados de uma camada) se comportem segundo uma distribuição gaussiana com média nula e desvio padrão unitário. Marque a alternativa que representa uma afirmação incorreta: Reduz a forte dependência da inicialização. Permite taxas de aprendizagem mais altas. Não melhora o fluxo gradiente através da rede. Correto!Correto! Na verdade, um dos principais efeitos da adoção da normalização em lote é a melhoria do fluxo de gradientes viabilizando tanto o treinamento de redes com um número maior de camadas quanto um aumento da taxa de aprendizado utilizada nesse processo. Durante a predição (ou teste), os valores de média e variância não são calculados com base no lote atual, sendo utilizado um único par fixo de média e variância obtido durante o treinamento. 6 / 6 ptsPergunta 9 Uma rede neural convolucional geralmente apresenta uma sequência de camadas convolucionais e de agrupamento intercaladas com funções de ativação. 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 11/12 Marque a alternativa que representa uma afirmação incorreta: O filtro de uma camada convolucional representa um mecanismo para se compartilhar os mesmos parâmetros em diferentes locais, supondo que a entrada seja estacionária. O filtro de uma camada convolucional não precisa se estender por toda a profundidade do volume de entrada. Correto!Correto! Na verdade, é obrigatório que o filtro se estenda por toda a profundidade do volume de entrada. A camada de convolução “desliza” um filtro sobre todas as localizações espaciais da entrada de forma a produzir um mapa de ativação. Uma camada convolucional pode aprender múltiplos filtros com um número reduzido de parâmetros devido a suposição de estacionariedade da entrada. 6 / 6 ptsPergunta 10 As redes AlexNet e VGG representam dois importantes marcos na evolução das redes neurais profundas aplicadas à tarefa de classificação de imagens. 9/5/2022 PROVA ON-LINE: 14 - Redes Neurais e Aprendizagem Profunda (2021) https://pucminas.instructure.com/courses/64623/quizzes/287782 12/12 Marque a alternativa que representa uma afirmação incorreta: A rede VGG foi a primeira a se utilizar da função de ativação ReLU (“Rectified Linear Unit”). Correto!Correto! Na verdade, a rede AlexNet foi a primeira a utilizar a função de ativação ReLU. A rede AlexNet alcançou uma redução da taxa de erro de aproximadamente 10%. Foi necessário se utilizar de forma intensiva de “data augmentation” para treinamento da rede AlexNet. A rede VGG introduziu a ideia de se utilizar filtros menores em redes mais profundas, uma vez que eles conseguem o mesmo efeito e cobertura de filtros maiores utilizando um número menor de parâmetros. Pontuação do teste: 60 de 60
Compartilhar