rn semana 4

•

UNIVESP

0

Andre Erbert

11/03/2024

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Redes Neurais I

282 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

P E RG U NT A 1
1. O que é a capacidade de generalização de uma rede neural?

É a capacidade de interpolar os exemplos do conjunto de
treinamento.

É a capacidade observada no modelo após um sobreajuste dos
parâmetros obtidos a partir do treinamento excessivo.

Indica que o modelo desenvolvido pode ser utilizado em cenários
totalmente distintos dos quais a rede foi treinada.

Consiste na capacidade de responder de forma adequada a
exemplos não vistos durante o processo de treinamento.

Consiste na capacidade de responder de forma adequada a
exemplos utilizados durante o treinamento do modelo.
1,43 pontos
P E RG U NT A 2
1. Qual das alternativas abaixo representa a principal diferença entre os algoritmos SGD
(Gradiente descendente estocástico) e o Adam?

O SGD é mais ef iciente que o Adam e não necessita de ajustes da taxa de
aprendizagem durante o processo de treinamento.

O Adam, embora seja um algoritmo de segunda ordem, é mais ef iciente do
ponto de vista computacional que o SGD.

O SGD consiste num método de primeira ordem, já o Adam representa um
método de segunda ordem.

Ao contrário do SGD, o algoritmo Adam utiliza médias móveis para obter
uma estimativa do momentum e do gradiente.

Os dois algoritmos são quantitativamente equivalentes, porém o SGD é
um método em lote enquanto o Adam é um método on-line.
1,43 pontos
P E RG U NT A 3
1. Qual é o propósito da parada antecipada no treinamento de uma rede neural?

A parada antecipada tem como objetivo interromper o processo de treinamento
antes da sobreajuste dos pesos (overfitting).

A parada antecipada tem como objetivo substituir a validação cruzada durante o
treinamento da rede neural.

A parada antecipada tem como objetivo eliminar a necessidade de se utilizar um
conjunto de validação durante o treinamento do modelo.

A parada antecipada tem como objetivo facilitar o ajuste dos hiperparâmetros da
rede neural e, como consequência, gerar modelos mais adequados ao problema.

A parada antecipada tem como objetivo evitar o decaimento contínuo da taxa de
aprendizagem.
1,43 pontos
P E RG U NT A 4
1. Considerando o processo de desenvolvimento de uma rede MLP, assinale a alternativa
correta:

A def inição dos hiperparâmetros é um processo empírico e depende diretamente
dos dados disponíveis e do conhecimento prévio do especialista no problema.

O erro obtido a partir do conjunto de testes é utilizado para conf igurar o número
de camadas e seus respectivos números de neurônios.

Uma rede MLP com duas camadas ocultas é considerada um aproximador
universal, logo, não há ganhos ao incluir mais camadas ocultas no modelo.

O número de camadas ocultas depende diretamente do número de classes
existentes no conjunto de dados.

O número de neurônios em cada camada oculta depende diretamente do número
de classes existentes no conjunto de dados.
1,43 pontos
P E RG U NT A 5
1. Quais das topologias representadas nos itens I, II, III e IV são capazes de resolver o
problema de classif icação def inido abaixo?

O problema consiste em separar as duas classes observadas na imagem (vermelho –
[x] e azul [o]). Considere que o primeiro número indica a quantidade de entradas do
modelo, e o último a quantidade de neurônios na camada de saída, os números
intermediários, quando presentes, indicam a quantidade de neurônios em cada camada
oculta. Por exemplo, [2;3;2] representa uma rede com duas entradas, três neurônios
ocultos e dois neurônios de saída.

I. [2;1]
II. [2;3;1]
III. [3;2;1]
IV. [3;5;1]
V. [2;5;1]

Apenas as topologias II e V estão corretas.

Todas as topologias estão corretas.

Apenas as topologias I, II e V estão corretas.

Apenas a topologia V está correta.

Apenas as topologias III e IV estão corretas.
1,43 pontos
P E RG U NT A 6
1. A regularização tem como uma de suas f inalidades reduzir as chances de sobreajuste
dos modelos. A regularização L2 é representada pela adição de um termo de
penalidade na função de custo do modelo. A formulação pode ser representada pela
seguinte equação:

No qual E representa a função de custo original, e w os pesos da rede. De forma
qualitativa, qual é o propósito do termo de regularização nessa equação?

Ao subtrair o somatório quadrático dos pesos ponderado pelo constante
lambda, permite-se que valores de pesos mais elevados sejam rapidamente
obtidos, facilitando a convergência do treinamento.

O somatório quadrático dos pesos da rede tem por f inalidade evitar que os
pesos assumam valores negativos ao longo do treinamento do modelo.

Ao incluir o termo L2 com valores de lambda positivos, permite-se a
homogeneização dos pesos da rede e, como consequência, redução da
probabilidade de sobreajuste do modelo.

Para valores de lambda maiores que zero, a regularização L2 força os
pesos da rede a se manterem pequenos, pois, ao assumirem valores altos,
a função de custo tem seu valor ampliado.

A regularização L2 acelera o ajuste dos pesos, uma vez que a soma
quadrática dos valores amplif ica o valor da função de custo e,
consequentemente, acarreta passos de atualização maiores.
1,43 pontos
P E RG U NT A 7
1. Considerando os dois gráf icos de decaimento do erro (função de custo versus épocas)
abaixo, o que podemos concluir sobre o primeiro e sobre o segundo?

O gráf ico a) representa um cenário de underfitting (subajuste dos
pesos), pois o modelo não consegue aprender mantendo um erro
alto. O gráf ico b) representa um cenário de overfitting (sobreajuste
dos pesos), pois o modelo consegue aprender o conjunto de
treinamento, porém não consegue generalizar (alto erro de
validação).q7

O gráf ico a) indica um cenário no qual o modelo conseguiu aprender
bem o problema, uma vez que as curvas de treino e validação
atingem um mesmo patamar. O gráf ico b) representa um cenário no
qual o modelo não consegue generalizar (overfitting – sobreajuste),
pois o erro de validação se amplif ica com a evolução do treinamento.

O gráf ico a) representa um cenário de overfitting (sobreajuste dos
pesos), pois o modelo não consegue aprender mantendo um erro
alto. O gráf ico b) representa um cenário de underfitting (subajuste
dos pesos), pois o modelo consegue aprender o conjunto de
treinamento, porém não consegue generalizar (alto erro de
validação).

Ambos os gráf icos indicam que o modelo foi capaz de aprender bem
o problema, porém, no cenário a) o modelo apresenta baixa
capacidade de generalização, e no cenário b) o modelo apresenta
alta capacidade de generalização.

O gráf ico a) representa um cenário de underfitting (subajuste dos
pesos), pois o modelo não consegue aprender mantendo um erro
alto. O gráf ico b) representa um cenário adequado, no qual o erro de
validação atinge um patamar adequado em comparação ao erro de
treino.

PERGUNTA EXTRA
1. Algumas heurísticas podem auxiliar a convergência da aprendizagem em redes MLP
por meio do algoritmo de retropropagação. Quais das heurísticas abaixo podem ser
utilizadas para acelerar a convergência do algoritmo?
I. Uma taxa de aprendizagem individual deve ser associada a cada peso da rede.
II. Alterar o número de neurônios das camadas ocultas ao longo do processo de
treinamento.
III. Ajustar a taxa de aprendizagem ao longo do processo de treinamento.
IV. Ampliar a taxa de aprendizagem quando o sinal da derivada se mantém
constante ao longo de iterações consecutivas.
V. Reduzir a taxa de aprendizagem quando o sinal da derivada é alterado ao
longo de iterações consecutivas.

Todas as heurísticas estão corretas.

Apenas as heurísticas I, IV e V estão corretas.

Apenas as heurísticas I e III estão corretas.

Apenas as heurísticasI, III, IV e V estão corretas.

Apenas a heurística II está correta.