Baixe o app para aproveitar ainda mais
Prévia do material em texto
P E RG U NT A 1 1. O que é a capacidade de generalização de uma rede neural? É a capacidade de interpolar os exemplos do conjunto de treinamento. É a capacidade observada no modelo após um sobreajuste dos parâmetros obtidos a partir do treinamento excessivo. Indica que o modelo desenvolvido pode ser utilizado em cenários totalmente distintos dos quais a rede foi treinada. Consiste na capacidade de responder de forma adequada a exemplos não vistos durante o processo de treinamento. Consiste na capacidade de responder de forma adequada a exemplos utilizados durante o treinamento do modelo. 1,43 pontos P E RG U NT A 2 1. Qual das alternativas abaixo representa a principal diferença entre os algoritmos SGD (Gradiente descendente estocástico) e o Adam? O SGD é mais ef iciente que o Adam e não necessita de ajustes da taxa de aprendizagem durante o processo de treinamento. O Adam, embora seja um algoritmo de segunda ordem, é mais ef iciente do ponto de vista computacional que o SGD. O SGD consiste num método de primeira ordem, já o Adam representa um método de segunda ordem. Ao contrário do SGD, o algoritmo Adam utiliza médias móveis para obter uma estimativa do momentum e do gradiente. Os dois algoritmos são quantitativamente equivalentes, porém o SGD é um método em lote enquanto o Adam é um método on-line. 1,43 pontos P E RG U NT A 3 1. Qual é o propósito da parada antecipada no treinamento de uma rede neural? A parada antecipada tem como objetivo interromper o processo de treinamento antes da sobreajuste dos pesos (overfitting). A parada antecipada tem como objetivo substituir a validação cruzada durante o treinamento da rede neural. A parada antecipada tem como objetivo eliminar a necessidade de se utilizar um conjunto de validação durante o treinamento do modelo. A parada antecipada tem como objetivo facilitar o ajuste dos hiperparâmetros da rede neural e, como consequência, gerar modelos mais adequados ao problema. A parada antecipada tem como objetivo evitar o decaimento contínuo da taxa de aprendizagem. 1,43 pontos P E RG U NT A 4 1. Considerando o processo de desenvolvimento de uma rede MLP, assinale a alternativa correta: A def inição dos hiperparâmetros é um processo empírico e depende diretamente dos dados disponíveis e do conhecimento prévio do especialista no problema. O erro obtido a partir do conjunto de testes é utilizado para conf igurar o número de camadas e seus respectivos números de neurônios. Uma rede MLP com duas camadas ocultas é considerada um aproximador universal, logo, não há ganhos ao incluir mais camadas ocultas no modelo. O número de camadas ocultas depende diretamente do número de classes existentes no conjunto de dados. O número de neurônios em cada camada oculta depende diretamente do número de classes existentes no conjunto de dados. 1,43 pontos P E RG U NT A 5 1. Quais das topologias representadas nos itens I, II, III e IV são capazes de resolver o problema de classif icação def inido abaixo? O problema consiste em separar as duas classes observadas na imagem (vermelho – [x] e azul [o]). Considere que o primeiro número indica a quantidade de entradas do modelo, e o último a quantidade de neurônios na camada de saída, os números intermediários, quando presentes, indicam a quantidade de neurônios em cada camada oculta. Por exemplo, [2;3;2] representa uma rede com duas entradas, três neurônios ocultos e dois neurônios de saída. I. [2;1] II. [2;3;1] III. [3;2;1] IV. [3;5;1] V. [2;5;1] Apenas as topologias II e V estão corretas. Todas as topologias estão corretas. Apenas as topologias I, II e V estão corretas. Apenas a topologia V está correta. Apenas as topologias III e IV estão corretas. 1,43 pontos P E RG U NT A 6 1. A regularização tem como uma de suas f inalidades reduzir as chances de sobreajuste dos modelos. A regularização L2 é representada pela adição de um termo de penalidade na função de custo do modelo. A formulação pode ser representada pela seguinte equação: No qual E representa a função de custo original, e w os pesos da rede. De forma qualitativa, qual é o propósito do termo de regularização nessa equação? Ao subtrair o somatório quadrático dos pesos ponderado pelo constante lambda, permite-se que valores de pesos mais elevados sejam rapidamente obtidos, facilitando a convergência do treinamento. O somatório quadrático dos pesos da rede tem por f inalidade evitar que os pesos assumam valores negativos ao longo do treinamento do modelo. Ao incluir o termo L2 com valores de lambda positivos, permite-se a homogeneização dos pesos da rede e, como consequência, redução da probabilidade de sobreajuste do modelo. Para valores de lambda maiores que zero, a regularização L2 força os pesos da rede a se manterem pequenos, pois, ao assumirem valores altos, a função de custo tem seu valor ampliado. A regularização L2 acelera o ajuste dos pesos, uma vez que a soma quadrática dos valores amplif ica o valor da função de custo e, consequentemente, acarreta passos de atualização maiores. 1,43 pontos P E RG U NT A 7 1. Considerando os dois gráf icos de decaimento do erro (função de custo versus épocas) abaixo, o que podemos concluir sobre o primeiro e sobre o segundo? O gráf ico a) representa um cenário de underfitting (subajuste dos pesos), pois o modelo não consegue aprender mantendo um erro alto. O gráf ico b) representa um cenário de overfitting (sobreajuste dos pesos), pois o modelo consegue aprender o conjunto de treinamento, porém não consegue generalizar (alto erro de validação).q7 O gráf ico a) indica um cenário no qual o modelo conseguiu aprender bem o problema, uma vez que as curvas de treino e validação atingem um mesmo patamar. O gráf ico b) representa um cenário no qual o modelo não consegue generalizar (overfitting – sobreajuste), pois o erro de validação se amplif ica com a evolução do treinamento. O gráf ico a) representa um cenário de overfitting (sobreajuste dos pesos), pois o modelo não consegue aprender mantendo um erro alto. O gráf ico b) representa um cenário de underfitting (subajuste dos pesos), pois o modelo consegue aprender o conjunto de treinamento, porém não consegue generalizar (alto erro de validação). Ambos os gráf icos indicam que o modelo foi capaz de aprender bem o problema, porém, no cenário a) o modelo apresenta baixa capacidade de generalização, e no cenário b) o modelo apresenta alta capacidade de generalização. O gráf ico a) representa um cenário de underfitting (subajuste dos pesos), pois o modelo não consegue aprender mantendo um erro alto. O gráf ico b) representa um cenário adequado, no qual o erro de validação atinge um patamar adequado em comparação ao erro de treino. PERGUNTA EXTRA 1. Algumas heurísticas podem auxiliar a convergência da aprendizagem em redes MLP por meio do algoritmo de retropropagação. Quais das heurísticas abaixo podem ser utilizadas para acelerar a convergência do algoritmo? I. Uma taxa de aprendizagem individual deve ser associada a cada peso da rede. II. Alterar o número de neurônios das camadas ocultas ao longo do processo de treinamento. III. Ajustar a taxa de aprendizagem ao longo do processo de treinamento. IV. Ampliar a taxa de aprendizagem quando o sinal da derivada se mantém constante ao longo de iterações consecutivas. V. Reduzir a taxa de aprendizagem quando o sinal da derivada é alterado ao longo de iterações consecutivas. Todas as heurísticas estão corretas. Apenas as heurísticas I, IV e V estão corretas. Apenas as heurísticas I e III estão corretas. Apenas as heurísticasI, III, IV e V estão corretas. Apenas a heurística II está correta.
Compartilhar