Prévia do material em texto
Pontuação desta tentativa: 10 de 10 Enviado 14 set em 18:43 Esta tentativa levou Menos de 1 minuto. 2 / 2 ptsPergunta 1 Uma rede neural convolucional geralmente apresenta uma sequência de camadas convolucionais e de agrupamento intercaladas com funções de ativação. Marque a alternativa que representa uma afirmação incorreta: A camada de convolução “desliza” um filtro sobre todas as localizações espaciais da entrada de forma a produzir um mapa de ativação O filtro de uma camada convolucional não precisa se estender por toda a profundidade do volume de entrada O filtro de uma camada convolucional representa um mecanismo para se compartilhar os mesmos parâmetros em diferentes locais, supondo que a entrada seja estacionária Uma camada convolucional pode aprender múltiplos filtros com um número reduzido de parâmetros devido a suposição de estacionariedade da entrada Na verdade, é obrigatório que o filtro se estenda por toda a profundidade do volume de entrada 2 / 2 ptsPergunta 2 O tamanho do passo (“stride”) e o uso de preenchimento (“padding”) afetam os resultados de uma camada convolucional. Marque a alternativa que representa uma afirmação incorreta: Para uma entrada de tamanho N x N e um filtro de tamanho F x F, a dimensão da saída será (N – F) / S + 1, em que S representa o tamanho do passo (“stride”) Nas camadas convolucionais com passo unitário e filtros de tamanho F x F, é comum se utilizar de preenchimento por meio de uma borda de zeros com tamanho (F – 1) / 2 Preenchimento não ajuda a minimizar o efeito da redução rápida de dimensionalidade espacial Uma camada convolucional com 6 filtros de tamanho 1×1 aprende como realizar uma combinação dos mapas de ativação (ou características) da entrada para produzir 6 novos mapas (ou características) na saída Para um filtro de tamanho F, o preenchimento realizado de forma a acrescentar uma borda de zeros com tamanho (F – 1) / 2 é capaz de eliminar o efeito de redução da dimensão espacial quando o passo for 1 2 / 2 ptsPergunta 3 As redes AlexNet e VGG representam dois importantes marcos na evolução das redes neurais profundas aplicadas à tarefa de classificação de imagens. Marque a alternativa que representa uma afirmação incorreta: A rede AlexNet alcançou uma redução taxa de erro de aproximadamente 10% Foi necessário se utilizar de forma intensiva de “data augmentation” para treinamento da rede AlexNet A rede VGG introduziu a ideia de se utilizar filtros menores em redes mais profundas, uma vez que eles conseguem o mesmo efeito e cobertura de filtros maiores utilizando um número menor de parâmetros A rede VGG foi a primeira a se utilizar da função de ativação ReLU (“Rectified Linear Unit”) Na verdade, a rede AlexNet foi a primeira a utilizar a função de ativação ReLU 2 / 2 ptsPergunta 4 Mais recentemente, as redes GoogLeNet e ResNet introduziram importantes concepções no projeto e implementação de redes neurais profundas. Marque a alternativa que representa uma afirmação incorreta: A rede GoogLeNet introduziu o uso de vários filtros diferentes em sequência por meio do módulo “Inception” De forma a minimizar seu alto custo computacional, o módulo “Inception” faz uso de convoluções 1 x 1 para redução da dimensionalidade, apesar do aumento do número de parâmetros A rede GoogLeNet se utiliza de agrupamento pela média (“average pooling”) no final da rede ao invés de camadas completamente conectadas para se reduzir o número de parâmetros A rede ResNet utiliza conexões “laterais” (desvios) nos blocos básicos de resíduos para garantir um bom fluxo de gradientes e, consequentemente, viabilizar o treinamento de redes com centenas de camadas Na verdade, o módulo “Inception” realiza vários filtros diferentes em paralelo conseguindo assim extrair diferentes características a partir da mesma entrada 2 / 2 ptsPergunta 5 Redes recorrentes introduzem em seus projetos a presença de ciclos e a noção de tempo. Marque a alternativa que representa uma afirmação incorreta: Rede recorrente pode ser “estendida” em várias etapas de tempo, produzindo um grafo acíclico direcionado que viabiliza o uso da propagação retrógrada (“back propagation”), porém seu tamanho dependerá do comprimento da sequência de entrada Em uma rede recorrente, as camadas podem ser empilhadas de forma a se produzir versões profundas, em que cada camada é responsável por adicionar um nível maior de abstração e se utiliza se diferentes parâmetros durante os diferentes intervalos de tempo (em um mesmo nível) Em uma rede recorrente, o gradiente ao longo da dimensão temporal pode tanto crescer como reduzir exponencialmente, inviabilizando o treinamento caso se considere um intervalo de tempo (isto é, tamanho de sequência de entrada) razoável As unidades LSTM (“Long Short Term Memory”) e variações conseguem por meio do uso de uma memória (ou estado) de célula garantir um bom fluxo de gradientes ao longo do tempo e, consequentemente, viabilizar o treinamento de intervalos de tempo mais longos Na verdade, uma camada de rede recorrente sempre irá utilizar os mesmos parâmetros para todos os intervalos de tempo (isto é, os parâmetros de um mesmo nível são independentes do tempo) Pontuação do teste: 10 de 10