14- Atividade Objetiva 03 - Redes Neurais e Aprendizagem Profunda (2021)

•

PUC-MINAS

0

Andreia

14/09/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

5.903 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Pontuação desta tentativa: 10 de 10
Enviado 14 set em 18:32
Esta tentativa levou 2 minutos.
2 / 2 ptsPergunta 1
Redes neurais profundas realizam aprendizagem de representação em
camadas, sendo que as representações aprendidas pelas camadas
iniciais e intermediárias geralmente são independentes de tarefas.
Marque a alternativa que representa uma afirmação incorreta:
 
As representações das camadas internas são geralmente aprendidas a
partir do treinamento de tarefas feito apenas a partir das entradas e
saídas ou ponta a ponta (“end-to-end training”)
 
A profundidade e a complexidade parecem ser limitadas apenas pela
quantidade de dados necessários para se treinar sem “overfitting”
 
Apesar das representações de camadas internas iniciais serem
independentes de tarefas, existe uma grande dificuldade de se reutilizar
modelos em diferentes aplicações
 
 
Os blocos de construção podem ser padronizados entre diferentes
ferramentas, bibliotecas e domínios de aplicação, permitindo a
transferência e reaproveitamento de abordagens e estratégias
 
Na verdade, ocorre exatamente o oposto, isto é, o fato das
representações de camadas internas iniciais serem
independentes de tarefas, facilita a reutilização de modelos em
diferentes aplicações mesmo sem a disponibilidade de grandes
conjuntos de dados para treinamento
2 / 2 ptsPergunta 2
Existem diversos esquemas para a atualização de pesos que podem
ser adotados em uma rede neural profunda como alternativas à
estratégia básica utilizada pelo método SGD.
Marque a alternativa que representa uma afirmação incorreta:
 
O uso de “momentum” permite que as atualizações “se acumulem” nas
direções rasas (de pouca variação) e que elas se reduzam nas
direções íngremes (de muita variação), fazendo com que se evite uma
trajetória em “zig-zag”
 
O NAG (“Nesterov Accelerated Gradient”) apresenta uma taxa de
convergência mais rápida que o “momentum” tradicional pelo menos
em teoria e para problemas de otimização convexa
 
Os métodos RMSProp e ADAGRAD normalizam os gradientes,
funcionando muito bem em conjuntos de dados com grande variação
na magnitude dos mesmos como, por exemplo, em dados textuais
 
 
O método ADAM (“Adaptive Moment Estimation”) pode ser visto como
uma combinação dos métodos RMSProp e ADAGRAD
Na verdade, o método ADAM pode ser visto como uma
combinação entre do uso de “momentum” com o método
RMSProp
2 / 2 ptsPergunta 3
Tanto o SGD como as suas variações utilizando outras regras para
atualização de pesos possuem a taxa de aprendizado como um
hiperparâmetro.
Considerando o gráfico abaixo marque a afirmação que relacionada de
forma correta o valor da taxa de aprendizado a cada curva de perda:
 1=Baixa; 2=Muito Alta; 3=Alta; 4=Boa 
 1=Muito Alta; 2=Baixa; 3=Alta; 4=Boa 
 1=Muito Alta; 2=Boa; 3=Baixa; 4=Alta 
 1=Muito Alta; 2=Boa; 3=Alta; 4=Baixa 
A curva de perda para uma taxa muito alta sempre será
“explosiva”; enquanto que para uma taxa baixa, ela será suave
e, para um valor alto, ela apresenta uma queda “abrupta”
seguida de um “platô” Por fim, um bom valor de taxa de
aprendizado, faz com que a curva de perda se mantenha
reduzindo de forma “assintótica”
2 / 2 ptsPergunta 4
A normalização em lote (“batch normalization”) faz com que cada
dimensão das ativações (isto é, dos resultados de uma camada) se
comportem segundo uma distribuição gaussiana com média nula e
desvio padrão unitário.
Marque a alternativa que representa uma afirmação incorreta:
 Não melhora o fluxo gradiente através da rede 
 Permite taxas de aprendizagem mais altas 
 Reduz a forte dependência da inicialização 
 
Durante a predição (ou teste), os valores de média e variância não são
calculados com base no lote atual, sendo utilizado um único par fixo de
média e variância obtido durante o treinamento
 
Na verdade, um dos principais efeitos da adoção da
normalização em lote é a melhoria do fluxo de gradientes
viabilizando tanto o treinamento de redes com um número maior
de camadas quanto um aumento da taxa de aprendizado
utilizada nesse processo
2 / 2 ptsPergunta 5
A ideia principal da técnica de “dropout” é descartar aleatoriamente
unidades da rede neural (junto com suas conexões) durante a etapa de
treinamento.
Marque a afirmação incorreta relacionada à técnica de “dropout”:
 
Para a realização de “dropout”, basta se multiplicar as ativações por
variáveis aleatórias de Bernoulli com uma dada probabilidade
 
Durante a predição, todas as unidades são mantidas ativas não sendo
necessário se realizar nenhum outro ajuste das ativações
 
 
O uso da técnica de “dropout” força a rede a construir uma
representação distribuída e redundante
 
O uso da técnica de “dropout” pode ser visto como equivalente a treinar
uma grande coleção (ou “ensemble”) de modelos que compartilham
parâmetros
Durante a predição, apesar de todas as unidades serem
mantidas ativas, deve-se tomar o cuidado de ajustar os valores
das ativações de forma que a saída de cada neurônio
corresponda a expectativa de valor da saída durante o
treinamento
Pontuação do teste: 10 de 10