Buscar

rn semana 4

Prévia do material em texto

P E RG U NT A 1 
1. O que é a capacidade de generalização de uma rede neural? 
 
 
É a capacidade de interpolar os exemplos do conjunto de 
treinamento. 
 
 
É a capacidade observada no modelo após um sobreajuste dos 
parâmetros obtidos a partir do treinamento excessivo. 
 
 
Indica que o modelo desenvolvido pode ser utilizado em cenários 
totalmente distintos dos quais a rede foi treinada. 
 
 
Consiste na capacidade de responder de forma adequada a 
exemplos não vistos durante o processo de treinamento. 
 
 
Consiste na capacidade de responder de forma adequada a 
exemplos utilizados durante o treinamento do modelo. 
1,43 pontos 
P E RG U NT A 2 
1. Qual das alternativas abaixo representa a principal diferença entre os algoritmos SGD 
(Gradiente descendente estocástico) e o Adam? 
 
 
O SGD é mais ef iciente que o Adam e não necessita de ajustes da taxa de 
aprendizagem durante o processo de treinamento. 
 
 
O Adam, embora seja um algoritmo de segunda ordem, é mais ef iciente do 
ponto de vista computacional que o SGD. 
 
 
O SGD consiste num método de primeira ordem, já o Adam representa um 
método de segunda ordem. 
 
 
Ao contrário do SGD, o algoritmo Adam utiliza médias móveis para obter 
uma estimativa do momentum e do gradiente. 
 
 
Os dois algoritmos são quantitativamente equivalentes, porém o SGD é 
um método em lote enquanto o Adam é um método on-line. 
1,43 pontos 
P E RG U NT A 3 
1. Qual é o propósito da parada antecipada no treinamento de uma rede neural? 
 
 
A parada antecipada tem como objetivo interromper o processo de treinamento 
antes da sobreajuste dos pesos (overfitting). 
 
 
A parada antecipada tem como objetivo substituir a validação cruzada durante o 
treinamento da rede neural. 
 
 
A parada antecipada tem como objetivo eliminar a necessidade de se utilizar um 
conjunto de validação durante o treinamento do modelo. 
 
 
A parada antecipada tem como objetivo facilitar o ajuste dos hiperparâmetros da 
rede neural e, como consequência, gerar modelos mais adequados ao problema. 
 
 
A parada antecipada tem como objetivo evitar o decaimento contínuo da taxa de 
aprendizagem. 
1,43 pontos 
P E RG U NT A 4 
1. Considerando o processo de desenvolvimento de uma rede MLP, assinale a alternativa 
correta: 
 
 
A def inição dos hiperparâmetros é um processo empírico e depende diretamente 
dos dados disponíveis e do conhecimento prévio do especialista no problema. 
 
 
O erro obtido a partir do conjunto de testes é utilizado para conf igurar o número 
de camadas e seus respectivos números de neurônios. 
 
 
Uma rede MLP com duas camadas ocultas é considerada um aproximador 
universal, logo, não há ganhos ao incluir mais camadas ocultas no modelo. 
 
 
O número de camadas ocultas depende diretamente do número de classes 
existentes no conjunto de dados. 
 
 
O número de neurônios em cada camada oculta depende diretamente do número 
de classes existentes no conjunto de dados. 
1,43 pontos 
P E RG U NT A 5 
1. Quais das topologias representadas nos itens I, II, III e IV são capazes de resolver o 
problema de classif icação def inido abaixo? 
 
O problema consiste em separar as duas classes observadas na imagem (vermelho – 
[x] e azul [o]). Considere que o primeiro número indica a quantidade de entradas do 
modelo, e o último a quantidade de neurônios na camada de saída, os números 
intermediários, quando presentes, indicam a quantidade de neurônios em cada camada 
oculta. Por exemplo, [2;3;2] representa uma rede com duas entradas, três neurônios 
ocultos e dois neurônios de saída. 
 
I. [2;1] 
II. [2;3;1] 
III. [3;2;1] 
IV. [3;5;1] 
V. [2;5;1] 
 
 
Apenas as topologias II e V estão corretas. 
 
 
Todas as topologias estão corretas. 
 
 
Apenas as topologias I, II e V estão corretas. 
 
 
Apenas a topologia V está correta. 
 
 
Apenas as topologias III e IV estão corretas. 
1,43 pontos 
P E RG U NT A 6 
1. A regularização tem como uma de suas f inalidades reduzir as chances de sobreajuste 
dos modelos. A regularização L2 é representada pela adição de um termo de 
penalidade na função de custo do modelo. A formulação pode ser representada pela 
seguinte equação: 
 
No qual E representa a função de custo original, e w os pesos da rede. De forma 
qualitativa, qual é o propósito do termo de regularização nessa equação? 
 
 
Ao subtrair o somatório quadrático dos pesos ponderado pelo constante 
lambda, permite-se que valores de pesos mais elevados sejam rapidamente 
obtidos, facilitando a convergência do treinamento. 
 
 
O somatório quadrático dos pesos da rede tem por f inalidade evitar que os 
pesos assumam valores negativos ao longo do treinamento do modelo. 
 
 
Ao incluir o termo L2 com valores de lambda positivos, permite-se a 
homogeneização dos pesos da rede e, como consequência, redução da 
probabilidade de sobreajuste do modelo. 
 
 
Para valores de lambda maiores que zero, a regularização L2 força os 
pesos da rede a se manterem pequenos, pois, ao assumirem valores altos, 
a função de custo tem seu valor ampliado. 
 
 
A regularização L2 acelera o ajuste dos pesos, uma vez que a soma 
quadrática dos valores amplif ica o valor da função de custo e, 
consequentemente, acarreta passos de atualização maiores. 
1,43 pontos 
P E RG U NT A 7 
1. Considerando os dois gráf icos de decaimento do erro (função de custo versus épocas) 
abaixo, o que podemos concluir sobre o primeiro e sobre o segundo? 
 
 
 
 
O gráf ico a) representa um cenário de underfitting (subajuste dos 
pesos), pois o modelo não consegue aprender mantendo um erro 
alto. O gráf ico b) representa um cenário de overfitting (sobreajuste 
dos pesos), pois o modelo consegue aprender o conjunto de 
treinamento, porém não consegue generalizar (alto erro de 
validação).q7 
 
 
O gráf ico a) indica um cenário no qual o modelo conseguiu aprender 
bem o problema, uma vez que as curvas de treino e validação 
atingem um mesmo patamar. O gráf ico b) representa um cenário no 
qual o modelo não consegue generalizar (overfitting – sobreajuste), 
pois o erro de validação se amplif ica com a evolução do treinamento. 
 
 
O gráf ico a) representa um cenário de overfitting (sobreajuste dos 
pesos), pois o modelo não consegue aprender mantendo um erro 
alto. O gráf ico b) representa um cenário de underfitting (subajuste 
dos pesos), pois o modelo consegue aprender o conjunto de 
treinamento, porém não consegue generalizar (alto erro de 
validação). 
 
 
Ambos os gráf icos indicam que o modelo foi capaz de aprender bem 
o problema, porém, no cenário a) o modelo apresenta baixa 
capacidade de generalização, e no cenário b) o modelo apresenta 
alta capacidade de generalização. 
 
 
O gráf ico a) representa um cenário de underfitting (subajuste dos 
pesos), pois o modelo não consegue aprender mantendo um erro 
alto. O gráf ico b) representa um cenário adequado, no qual o erro de 
validação atinge um patamar adequado em comparação ao erro de 
treino. 
 
PERGUNTA EXTRA 
1. Algumas heurísticas podem auxiliar a convergência da aprendizagem em redes MLP 
por meio do algoritmo de retropropagação. Quais das heurísticas abaixo podem ser 
utilizadas para acelerar a convergência do algoritmo? 
I. Uma taxa de aprendizagem individual deve ser associada a cada peso da rede. 
II. Alterar o número de neurônios das camadas ocultas ao longo do processo de 
treinamento. 
III. Ajustar a taxa de aprendizagem ao longo do processo de treinamento. 
IV. Ampliar a taxa de aprendizagem quando o sinal da derivada se mantém 
constante ao longo de iterações consecutivas. 
V. Reduzir a taxa de aprendizagem quando o sinal da derivada é alterado ao 
longo de iterações consecutivas. 
 
 
Todas as heurísticas estão corretas. 
 
 
Apenas as heurísticas I, IV e V estão corretas. 
 
 
Apenas as heurísticas I e III estão corretas. 
 
 
Apenas as heurísticasI, III, IV e V estão corretas. 
 
 
Apenas a heurística II está correta.

Continue navegando