Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Atividade Objetiva 03
Entrega Sem prazo Pontos 10 Perguntas 5
Disponível depois 7 de abr de 2020 em 0:00 Limite de tempo Nenhum
Tentativas permitidas Sem limite
Instruções
Histórico de tentativas
Tentativa Tempo Pontuação
MAIS RECENTE Tentativa 1 7 minutos 10 de 10
 As respostas corretas estão ocultas.
Pontuação desta tentativa: 10 de 10
Enviado 29 set em 19:45
Esta tentativa levou 7 minutos.
Você deve ler com calma o enunciado de cada uma das questões e responder em seguida de
acordo com a instrução dada pela questão.
Fazer o teste novamente
2 / 2 ptsPergunta 1
Redes neurais profundas realizam aprendizagem de representação em
camadas, sendo que as representações aprendidas pelas camadas
iniciais e intermediárias geralmente são independentes de tarefas.
Marque a alternativa que representa uma afirmação incorreta:
 
As representações das camadas internas são geralmente aprendidas a
partir do treinamento de tarefas feito apenas a partir das entradas e
saídas ou ponta a ponta (“end-to-end training”)
https://pucminas.instructure.com/courses/46753/quizzes/92385/history?version=1
https://pucminas.instructure.com/courses/46753/quizzes/92385/take?user_id=88673
 
A profundidade e a complexidade parecem ser limitadas apenas pela
quantidade de dados necessários para se treinar sem “overfitting”
 
Apesar das representações de camadas internas iniciais serem
independentes de tarefas, existe uma grande dificuldade de se
reutilizar modelos em diferentes aplicações
 
Os blocos de construção podem ser padronizados entre diferentes
ferramentas, bibliotecas e domínios de aplicação, permitindo a
transferência e reaproveitamento de abordagens e estratégias
Na verdade, ocorre exatamente o oposto, isto é, o fato das
representações de camadas internas iniciais serem
independentes de tarefas, facilita a reutilização de modelos em
diferentes aplicações mesmo sem a disponibilidade de grandes
conjuntos de dados para treinamento
2 / 2 ptsPergunta 2
Existem diversos esquemas para a atualização de pesos que podem
ser adotados em uma rede neural profunda como alternativas à
estratégia básica utilizada pelo método SGD.
Marque a alternativa que representa uma afirmação incorreta:
 
O uso de “momentum” permite que as atualizações “se acumulem” nas
direções rasas (de pouca variação) e que elas se reduzam nas
direções íngremes (de muita variação), fazendo com que se evite uma
trajetória em “zig-zag”
 
O NAG (“Nesterov Accelerated Gradient”) apresenta uma taxa de
convergência mais rápida que o “momentum” tradicional pelo menos
em teoria e para problemas de otimização convexa
 
Os métodos RMSProp e ADAGRAD normalizam os gradientes,
funcionando muito bem em conjuntos de dados com grande variação
na magnitude dos mesmos como, por exemplo, em dados textuais
 
O método ADAM (“Adaptive Moment Estimation”) pode ser visto como
uma combinação dos métodos RMSProp e ADAGRAD
Na verdade, o método ADAM pode ser visto como uma
combinação entre do uso de “momentum” com o método
RMSProp
2 / 2 ptsPergunta 3
Tanto o SGD como as suas variações utilizando outras regras para
atualização de pesos possuem a taxa de aprendizado como um
hiperparâmetro.
Considerando o gráfico abaixo marque a afirmação que relacionada de
forma correta o valor da taxa de aprendizado a cada curva de perda:
 1=Baixa; 2=Muito Alta; 3=Alta; 4=Boa 
 1=Muito Alta; 2=Baixa; 3=Alta; 4=Boa 
 1=Muito Alta; 2=Boa; 3=Baixa; 4=Alta 
 1=Muito Alta; 2=Boa; 3=Alta; 4=Baixa 
A curva de perda para uma taxa muito alta sempre será
“explosiva”; enquanto que para uma taxa baixa, ela será suave
e, para um valor alto, ela apresenta uma queda “abrupta”
seguida de um “platô” Por fim, um bom valor de taxa de
aprendizado, faz com que a curva de perda se mantenha
reduzindo de forma “assintótica”
2 / 2 ptsPergunta 4
A normalização em lote (“batch normalization”) faz com que cada
dimensão das ativações (isto é, dos resultados de uma camada) se
comportem segundo uma distribuição gaussiana com média nula e
desvio padrão unitário.
Marque a alternativa que representa uma afirmação incorreta:
 Não melhora o fluxo gradiente através da rede 
 Permite taxas de aprendizagem mais altas 
 Reduz a forte dependência da inicialização 
 
Durante a predição (ou teste), os valores de média e variância não são
calculados com base no lote atual, sendo utilizado um único par fixo de
média e variância obtido durante o treinamento
Na verdade, um dos principais efeitos da adoção da
normalização em lote é a melhoria do fluxo de gradientes
viabilizando tanto o treinamento de redes com um número
maior de camadas quanto um aumento da taxa de aprendizado
utilizada nesse processo
2 / 2 ptsPergunta 5
A ideia principal da técnica de “dropout” é descartar aleatoriamente
unidades da rede neural (junto com suas conexões) durante a etapa
de treinamento.
Marque a afirmação incorreta relacionada à técnica de “dropout”:
 
Para a realização de “dropout”, basta se multiplicar as ativações por
variáveis aleatórias de Bernoulli com uma dada probabilidade
 
Durante a predição, todas as unidades são mantidas ativas não sendo
necessário se realizar nenhum outro ajuste das ativações
 
O uso da técnica de “dropout” força a rede a construir uma
representação distribuída e redundante
 
O uso da técnica de “dropout” pode ser visto como equivalente a treinar
uma grande coleção (ou “ensemble”) de modelos que compartilham
parâmetros
Durante a predição, apesar de todas as unidades serem
mantidas ativas, deve-se tomar o cuidado de ajustar os valores
das ativações de forma que a saída de cada neurônio
corresponda a expectativa de valor da saída durante o
treinamento
Pontuação do teste: 10 de 10

Mais conteúdos dessa disciplina