Logo Passei Direto
Buscar
Material
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

1. As redes multicamadas são uma generalização das redes de camada única, em que ao menos uma camada oculta está presente. Muitas vezes essa rede é chamada MLP (Multi Layer Perceptron). Sobre elas é correto afirmar que:
A. multicamada; de entrada; pesos; funções de ativação. Redes multicamada possuem camadas ocultas que permitem a resolução de problemas não lineares devido à presença de vários níveis de função de ativação não linear da entrada à saída em uma rede.
B. de camada única; ocultos; pesos; conexões. Redes multicamada possuem camadas ocultas que permitem a resolução de problemas não lineares devido à presença de vários níveis de função de ativação não linear da entrada à saída em uma rede.
C. multicamada; de saída; não linearidades; conexões. Redes multicamada possuem camadas ocultas que permitem a resolução de problemas não lineares devido à presença de vários níveis de função de ativação não linear da entrada à saída em uma rede.
D. multicamada; ocultos; não linearidades; funções de ativação. Redes multicamada possuem camadas ocultas que permitem a resolução de problemas não lineares devido à presença de vários níveis de função de ativação não linear da entrada à saída em uma rede.
E. de camada única; de entrada; não linearidades; várias camadas. Redes multicamada possuem camadas ocultas que permitem a resolução de problemas não lineares devido à presença de vários níveis de função de ativação não linear da entrada à saída em uma rede.
2. As funções de ativação modificam a intensidade de um sinal fornecido na saída de um neurônio mesmo que as entradas sejam as mesmas. Sobre Perceptrons e as funções de ativação que utilizam, é correto afirmar que:
A. quanto mais camadas ocultas maior cuidado se deve ter na escolha da função de ativação. Algumas funções de ativação saturam após determinado nível, podendo afetar o treinamento especialmente quando em redes de muitas camadas. As funções de ativação interferem diretamente no desempenho, mas podem ser das mais diversas possíveis. Ao utilizar funções suaves de transição e não rígidas, outros problemas que não apenas os de natureza discreta podem ser resolvidos. Uma rede multicamadas possui mais neurônios que apenas os pertencentes à entrada e/ou saída. Para qualquer um dos casos, a camada de entrada pretende receber os sinais externos e distribuir para as camadas seguintes a partir de um conjunto de pesos, vieses e conexões. Não há qualquer ponderação anterior a isso.
B.  para transformar uma rede neural de camada única em uma rede multicamadas, basta adicionar mais neurônios na saída. Algumas funções de ativação saturam após determinado nível, podendo afetar o treinamento especialmente quando em redes de muitas camadas. As funções de ativação interferem diretamente no desempenho, mas podem ser das mais diversas possíveis. Ao utilizar funções suaves de transição e não rígidas, outros problemas que não apenas os de natureza discreta podem ser resolvidos. Uma rede multicamadas possui mais neurônios que apenas os pertencentes à entrada e/ou saída. Para qualquer um dos casos, a camada de entrada pretende receber os sinais externos e distribuir para as camadas seguintes a partir de um conjunto de pesos, vieses e conexões. Não há qualquer ponderação anterior a isso.
C. as redes multicamada estão limitadas a um grupo específico de funções de ativação. Algumas funções de ativação saturam após determinado nível, podendo afetar o treinamento especialmente quando em redes de muitas camadas. As funções de ativação interferem diretamente no desempenho, mas podem ser das mais diversas possíveis. Ao utilizar funções suaves de transição e não rígidas, outros problemas que não apenas os de natureza discreta podem ser resolvidos. Uma rede multicamadas possui mais neurônios que apenas os pertencentes à entrada e/ou saída. Para qualquer um dos casos, a camada de entrada pretende receber os sinais externos e distribuir para as camadas seguintes a partir de um conjunto de pesos, vieses e conexões. Não há qualquer ponderação anterior a isso.
D. somente aprende e trata problemas de natureza discreta.
Algumas funções de ativação saturam após determinado nível, podendo afetar o treinamento especialmente quando em redes de muitas camadas. As funções de ativação interferem diretamente no desempenho, mas podem ser das mais diversas possíveis. Ao utilizar funções suaves de transição e não rígidas, outros problemas que não apenas os de natureza discreta podem ser resolvidos. Uma rede multicamadas possui mais neurônios que apenas os pertencentes à entrada e/ou saída. Para qualquer um dos casos, a camada de entrada pretende receber os sinais externos e distribuir para as camadas seguintes a partir de um conjunto de pesos, vieses e conexões. Não há qualquer ponderação anterior a isso.
E. a camada de entrada tem finalidades diferentes nas redes de camada única se comparada às redes multicamadas. Algumas funções de ativação saturam após determinado nível, podendo afetar o treinamento especialmente quando em redes de muitas camadas. As funções de ativação interferem diretamente no desempenho, mas podem ser das mais diversas possíveis. Ao utilizar funções suaves de transição e não rígidas, outros problemas que não apenas os de natureza discreta podem ser resolvidos. Uma rede multicamadas possui mais neurônios que apenas os pertencentes à entrada e/ou saída. Para qualquer um dos casos, a camada de entrada pretende receber os sinais externos e distribuir para as camadas seguintes a partir de um conjunto de pesos, vieses e conexões. Não há qualquer ponderação anterior a isso.
3.  Utilizando o erro quadrático médio, determine o custo para a rede da imagem abaixo, cuja saída esperada é 1.
​​​​​​​​​​​​​​
A. 0,0196.
Calcula-se a saída a partir das entradas especificadas: x3 = x1 . w1,3 + x2 . w2,3 = 2 . 0,2 + 1 . 0,1 = 0,5 x4 = x2 . w2,4 + x1 . w1,4 = 1 . 0,5 + 2 . 0,3 = 1,1 x5 = x3 . w3,5 + x4 . w4,5 = 0,5 . 0,4 + 1,1 . 0,6 = 0,86
O erro é calculado pela equação: Em que M é o número de saídas da rede e N é o número de amostras de treinamento. A rede apresentada pelo exercício possui apenas uma saída e uma amostra de treinamento, logo M e N são iguais a 1. Portanto, o cálculo do erro será:
MSE=(y-y_d )^2 MSE=(1- 0,86)^2 MSE= 0,0196
B. 0,24.
Calcula-se a saída a partir das entradas especificadas: x3 = x1 . w1,3 + x2 . w2,3 = 2 . 0,2 + 1 . 0,1 = 0,5 x4 = x2 . w2,4 + x1 . w1,4 = 1 . 0,5 + 2 . 0,3 = 1,1 x5 = x3 . w3,5 + x4 . w4,5 = 0,5 . 0,4 + 1,1 . 0,6 = 0,86
O erro é calculado pela equação: Em que M é o número de saídas da rede e N é o número de amostras de treinamento. A rede apresentada pelo exercício possui apenas uma saída e uma amostra de treinamento, logo M e N são iguais a 1. Portanto, o cálculo do erro será:
MSE=(y-y_d )^2 MSE=(1- 0,86)^2 MSE= 0,0196
C. 0,14.
Calcula-se a saída a partir das entradas especificadas: x3 = x1 . w1,3 + x2 . w2,3 = 2 . 0,2 + 1 . 0,1 = 0,5 x4 = x2 . w2,4 + x1 . w1,4 = 1 . 0,5 + 2 . 0,3 = 1,1 x5 = x3 . w3,5 + x4 . w4,5 = 0,5 . 0,4 + 1,1 . 0,6 = 0,86
O erro é calculado pela equação: Em que M é o número de saídas da rede e N é o número de amostras de treinamento. A rede apresentada pelo exercício possui apenas uma saída e uma amostra de treinamento, logo M e N são iguais a 1. Portanto, o cálculo do erro será:
MSE=(y-y_d )^2 MSE=(1- 0,86)^2 MSE= 0,0196
D.  0,0576. Calcula-se a saída a partir das entradas especificadas: x3 = x1 . w1,3 + x2 . w2,3 = 2 . 0,2 + 1 . 0,1 = 0,5 x4 = x2 . w2,4 + x1 . w1,4 = 1 . 0,5 + 2 . 0,3 = 1,1 x5 = x3 . w3,5 + x4 . w4,5 = 0,5 . 0,4 + 1,1 . 0,6 = 0,86
O erro é calculado pela equação: Em que M é o número de saídas da rede e N é o número de amostras de treinamento. A rede apresentada pelo exercício possui apenas uma saída e uma amostra de treinamento, logo M e N são iguais a 1. Portanto, o cálculo do erro será:
MSE=(y-y_d )^2 MSE=(1- 0,86)^2 MSE= 0,0196
E. 0,0480. Calcula-se a saída a partir das entradas especificadas:
x3 = x1 . w1,3 + x2 . w2,3 = 2 . 0,2 + 1 . 0,1 = 0,5 x4 = x2 . w2,4 + x1 . w1,4 = 1 . 0,5 + 2. 0,3 = 1,1 x5 = x3 . w3,5 + x4 . w4,5 = 0,5 . 0,4 + 1,1 . 0,6 = 0,86
O erro é calculado pela equação:
Em que M é o número de saídas da rede e N é o número de amostras de treinamento. A rede apresentada pelo exercício possui apenas uma saída e uma amostra de treinamento, logo M e N são iguais a 1. Portanto, o cálculo do erro será:
MSE=(y-y_d )^2 MSE=(1- 0,86)^2 MSE= 0,0196
	4. Um neurônio de uma camada oculta se conecta a dois neurônios de saída. Qual será o erro desse neurônio considerando que os erros obtidos nos dois neurônios de saída são de 0,4 e 0,5, para pesos de conexão de 0,1 e 0,2 respectivamente?
A. 0,14. O erro deve ser ponderado considerando o peso de cada conexão. Deve-se multiplicar o erro do neurônio de saída pelo peso que o conecta ao neurônio de camada oculta e dividir pela soma total dos pesos desse neurônio oculto. O procedimento é feito para ambos os neurônios de saída sendo o resultado somado.
0,4 . 0,1 / (0,1 + 0,2) + 0,5 . 0,2 / (0,1 + 0,2) = 0,47.
B. 0,47. O erro deve ser ponderado considerando o peso de cada conexão. Deve-se multiplicar o erro do neurônio de saída pelo peso que o conecta ao neurônio de camada oculta e dividir pela soma total dos pesos desse neurônio oculto. O procedimento é feito para ambos os neurônios de saída sendo o resultado somado. 0,4 . 0,1 / (0,1 + 0,2) + 0,5 . 0,2 / (0,1 + 0,2) = 0,47. 
C. 0,066. O erro deve ser ponderado considerando o peso de cada conexão. Deve-se multiplicar o erro do neurônio de saída pelo peso que o conecta ao neurônio de camada oculta e dividir pela soma total dos pesos desse neurônio oculto. O procedimento é feito para ambos os neurônios de saída sendo o resultado somado. 0,4 . 0,1 / (0,1 + 0,2) + 0,5 . 0,2 / (0,1 + 0,2) = 0,47.
D. 0,0116. O erro deve ser ponderado considerando o peso de cada conexão. Deve-se multiplicar o erro do neurônio de saída pelo peso que o conecta ao neurônio de camada oculta e dividir pela soma total dos pesos desse neurônio oculto. O procedimento é feito para ambos os neurônios de saída sendo o resultado somado. 0,4 . 0,1 / (0,1 + 0,2) + 0,5 . 0,2 / (0,1 + 0,2) = 0,47.
E. 0,22. O erro deve ser ponderado considerando o peso de cada conexão. Deve-se multiplicar o erro do neurônio de saída pelo peso que o conecta ao neurônio de camada oculta e dividir pela soma total dos pesos desse neurônio oculto. O procedimento é feito para ambos os neurônios de saída sendo o resultado somado. 0,4 . 0,1 / (0,1 + 0,2) + 0,5 . 0,2 / (0,1 + 0,2) = 0,47.
5. A escolha da função de ativação pode impactar drasticamente o processo de treinamento. Assinale a alternativa que melhor descreve uma função de ativação e suas respectivas características.
A. A função logística possui saída rígida, sendo adequada para classificação de classes binárias. Não há qualquer limitação de nenhuma das redes no tipo de função de ativação possível, exceto quanto ao treinamento com uso do método gradiente que necessitará de uma função que tenha derivada definida, o que não é o caso da função degrau. A função ReLU é nula quando a entrada é negativa e corresponde à identidade quando maior ou igual a zero. A função sigmoide é muito similar à tangente hiperbólica, mas na maioria dos casos impactará negativamente o treinamento o fato de saturar a derivada muito cedo.
B. A função degrau, por ser a mais simples, é a mais rápida para utilizar durante o treinamento de uma rede multicamada com o uso de gradiente descente. Não há qualquer limitação de nenhuma das redes no tipo de função de ativação possível, exceto quanto ao treinamento com uso do método gradiente que necessitará de uma função que tenha derivada definida, o que não é o caso da função degrau. A função ReLU é nula quando a entrada é negativa e corresponde à identidade quando maior ou igual a zero. A função sigmoide é muito similar à tangente hiperbólica, mas na maioria dos casos impactará negativamente o treinamento o fato de saturar a derivada muito cedo.
C. A função ReLU tem metade do sinal igual à função identidade. Não há qualquer limitação de nenhuma das redes no tipo de função de ativação possível, exceto quanto ao treinamento com uso do método gradiente que necessitará de uma função que tenha derivada definida, o que não é o caso da função degrau. A função ReLU é nula quando a entrada é negativa e corresponde à identidade quando maior ou igual a zero. A função sigmoide é muito similar à tangente hiperbólica, mas na maioria dos casos impactará negativamente o treinamento o fato de saturar a derivada muito cedo.
D. A função sigmoide é superior à função de tangente hiperbólica já que não possui termos negativos. Não há qualquer limitação de nenhuma das redes no tipo de função de ativação possível, exceto quanto ao treinamento com uso do método gradiente que necessitará de uma função que tenha derivada definida, o que não é o caso da função degrau. A função ReLU é nula quando a entrada é negativa e corresponde à identidade quando maior ou igual a zero. A função sigmoide é muito similar à tangente hiperbólica, mas na maioria dos casos impactará negativamente o treinamento o fato de saturar a derivada muito cedo.
E.  A função de tangente hiperbólica só pode ser utilizada por redes de camada simples. Não há qualquer limitação de nenhuma das redes no tipo de função de ativação possível, exceto quanto ao treinamento com uso do método gradiente que necessitará de uma função que tenha derivada definida, o que não é o caso da função degrau. A função ReLU é nula quando a entrada é negativa e corresponde à identidade quando maior ou igual a zero. A função sigmoide é muito similar à tangente hiperbólica, mas na maioria dos casos impactará negativamente o treinamento o fato de saturar a derivada muito cedo.