Logo Passei Direto
Buscar

12- Prova - Machine Learning (2021)

User badge image
Andreia

em

Ferramentas de estudo

Questões resolvidas

Sobre o processo de aprendizado supervisionado, é correto afirmar que:
Um modelo é generalizável se sua performance na base de testes for superior à performance da base de treinamento.
Se a performance do modelo na base de treinamento for inferior à performance do modelo na base de testes, então este modelo sofreu underfitting.
A validação cruzada com 3 partes (3-fold) precisa de uma base de dados com muitos exemplos para ser efetiva.
Grid-search é uma técnica de ajustamento de modelo baseado na utilização de uma combinação sistemática de valores de hiperparâmetros.

São hiperparâmetros para a configuração de uma rede neural, EXCETO:
Taxa de ajuste do erro.
Número de neurônios na camada oculta.
Número de camadas ocultas da rede.
Taxa de aprendizado.

Para se evitar o overfitting em um algoritmo de árvore de decisão, podemos:
Alterar a medida de seleção de atributos do Ganho da Informação para Taxa de Ganho.
Permitir que atributos contínuos possam ser utilizados mais de uma vez.
Aumentar o número mínimo de amostras por nó folha.
Usar uma abordagem gulosa para seleção do melhor atributo.

Relacione os tipos de dados com os exemplos de atributos correspondentes:
Dado quantitativo de razão: peso
Dado quantitativo intervalar: temperatura do ar
Dado qualitativo ordinal: ordem de nascimento
Dado qualitativo nominal: cor do olho

Uma anomalia (ou outlier) no algoritmo DB-outlier pode ser entendida como: Um ponto cujas características se distanciam um determinado número de desvios-padrões da média da base de conhecimento. Um ponto de cuja vizinhança possui menos elementos que uma porcentagem predeterminada da base de conhecimento. Um conjunto de atributos cujos valores estão definidos em ordens de grandeza superiores à média da base de conhecimento. Um atributo cuja medição possui valores extremos fora da faixa padrão de distribuição dos dados da base de conhecimento.

Um atributo CONCEITO pode receber os valores: A, B, C, D e E, que representam o conceito que um aluno obteve ao cursar uma disciplina. Esse atributo é do tipo:
Qualitativo categórico.
Qualitativo ordinal.
Quantitativo discreto.
Quantitativo multivalorado.

Segundo Joe Blitzstein e Hanspeler Plister, “Introduction to Data Science”, Harvard Data Science Course, as etapas do processo de ciência de dados são:
Identificar as necessidades, selecionar, limpar e enriquecer dados, identificar padrões e descrever resultados.
Entender o negócio, preparar dados, modelar o problema, avaliar o modelo e fazer a distribuição do modelo.
Coletar dados, explorar dados, modelar dados, comunicar e visualizar resultados.
Amostrar dados, explorar dados, modificar dados, modelar dados e avaliar o modelo.

Uma agência de empregos deseja utilizar aprendizado de máquina para prever a duração do tempo de desemprego de um desempregado à procura de emprego, com o objetivo de atuar proativamente na interrupção do padrão de desemprego.
O algoritmo que ele pode utilizar na resolução desse problema é:
Regras de associação.
Regressão linear.
Random Forest.
Árvores de decisão.

O objetivo das técnicas de boosting é:
Combinar modelos mais fracos para obter alta acurácia.
Combinar diferentes algoritmos para tratar atributos com formatos diferentes.
Construir modelos para diversas partições de dados para evitar o overfitting.
Combinar modelos independentes entre si para representar as diversas dimensões dos dados.

É uma abordagem do aprendizado não supervisionado:
Indução de regras.
Agrupamento de dados por densidade.
Mistura de dados rotulados e não rotulados.
Receber feedback do ambiente.

Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Sobre o processo de aprendizado supervisionado, é correto afirmar que:
Um modelo é generalizável se sua performance na base de testes for superior à performance da base de treinamento.
Se a performance do modelo na base de treinamento for inferior à performance do modelo na base de testes, então este modelo sofreu underfitting.
A validação cruzada com 3 partes (3-fold) precisa de uma base de dados com muitos exemplos para ser efetiva.
Grid-search é uma técnica de ajustamento de modelo baseado na utilização de uma combinação sistemática de valores de hiperparâmetros.

São hiperparâmetros para a configuração de uma rede neural, EXCETO:
Taxa de ajuste do erro.
Número de neurônios na camada oculta.
Número de camadas ocultas da rede.
Taxa de aprendizado.

Para se evitar o overfitting em um algoritmo de árvore de decisão, podemos:
Alterar a medida de seleção de atributos do Ganho da Informação para Taxa de Ganho.
Permitir que atributos contínuos possam ser utilizados mais de uma vez.
Aumentar o número mínimo de amostras por nó folha.
Usar uma abordagem gulosa para seleção do melhor atributo.

Relacione os tipos de dados com os exemplos de atributos correspondentes:
Dado quantitativo de razão: peso
Dado quantitativo intervalar: temperatura do ar
Dado qualitativo ordinal: ordem de nascimento
Dado qualitativo nominal: cor do olho

Uma anomalia (ou outlier) no algoritmo DB-outlier pode ser entendida como: Um ponto cujas características se distanciam um determinado número de desvios-padrões da média da base de conhecimento. Um ponto de cuja vizinhança possui menos elementos que uma porcentagem predeterminada da base de conhecimento. Um conjunto de atributos cujos valores estão definidos em ordens de grandeza superiores à média da base de conhecimento. Um atributo cuja medição possui valores extremos fora da faixa padrão de distribuição dos dados da base de conhecimento.

Um atributo CONCEITO pode receber os valores: A, B, C, D e E, que representam o conceito que um aluno obteve ao cursar uma disciplina. Esse atributo é do tipo:
Qualitativo categórico.
Qualitativo ordinal.
Quantitativo discreto.
Quantitativo multivalorado.

Segundo Joe Blitzstein e Hanspeler Plister, “Introduction to Data Science”, Harvard Data Science Course, as etapas do processo de ciência de dados são:
Identificar as necessidades, selecionar, limpar e enriquecer dados, identificar padrões e descrever resultados.
Entender o negócio, preparar dados, modelar o problema, avaliar o modelo e fazer a distribuição do modelo.
Coletar dados, explorar dados, modelar dados, comunicar e visualizar resultados.
Amostrar dados, explorar dados, modificar dados, modelar dados e avaliar o modelo.

Uma agência de empregos deseja utilizar aprendizado de máquina para prever a duração do tempo de desemprego de um desempregado à procura de emprego, com o objetivo de atuar proativamente na interrupção do padrão de desemprego.
O algoritmo que ele pode utilizar na resolução desse problema é:
Regras de associação.
Regressão linear.
Random Forest.
Árvores de decisão.

O objetivo das técnicas de boosting é:
Combinar modelos mais fracos para obter alta acurácia.
Combinar diferentes algoritmos para tratar atributos com formatos diferentes.
Construir modelos para diversas partições de dados para evitar o overfitting.
Combinar modelos independentes entre si para representar as diversas dimensões dos dados.

É uma abordagem do aprendizado não supervisionado:
Indução de regras.
Agrupamento de dados por densidade.
Mistura de dados rotulados e não rotulados.
Receber feedback do ambiente.

Prévia do material em texto

Pontuação desta tentativa: 60 de 60
Enviado 5 set em 19:43
Esta tentativa levou 18 minutos.
6 / 6 ptsPergunta 1
Sobre o processo de aprendizado supervisionado, é correto afirmar
que:
 
Um modelo é generalizável se sua performance na base de testes for
superior à performance da base de treinamento.
 
 
Se a performance do modelo na base de treinamento for inferior à
performance do modelo na base de testes, então este modelo sofreu
underfitting.
 
 
A validação cruzada com 3 partes (3-fold) precisa de uma base de
dados com muitos exemplos para ser efetiva.
 
 
Grid-search é uma técnica de ajustamento de modelo baseado na
utilização de uma cominação sistemática de valores de
hiperparâmetros.
 
Correto!Correto!
A técnica de grid-search monta uma matriz que combina
diferentes valores de hiperparâmetros e busca a combinação que
produz o melhor desempenho.
6 / 6 ptsPergunta 2
São hiperparâmetros para a configuração de uma rede neural,
EXCETO:
 Número de neurônios na camada oculta. 
 Número de camadas ocultas da rede. 
 Taxa de aprendizado. 
 Taxa de ajuste do erro. Correto!Correto!
Os erros não são ajustados. O que são ajustados são os pesos
da rede. E estes pesos são ajustados em função do erro e da
taxa de aprendizado. O erro é dado pela saída da rede e pela
saída real, e não é um hiperparâmetro.
6 / 6 ptsPergunta 3
Para se evitar o overfitting em um algoritmo de árvore de decisão,
podemos:
 Aumentar o número mínimo de amostras por nó folha. Correto!Correto!
 
Alterar a medida de seleção de atributos do Ganho da Informação para
Taxa de Ganho.
 
 
Permitir que atributos contínuos possam ser utilizados mais de uma
vez.
 
 Usar uma abordagem gulosa para seleção do melhor atributo. 
Ao aumentar o número mínimo de elementos em cada nó folha,
será produzida uma ação de poda da árvore, caso um atributo
gere nós com poucos registros. A medida de seleção de
atributos pode alterar a estrutura da árvore, mas não se evita
overfitting. Toda árvore de decisão adota uma abordagem
gulosa para a escolha do melhor atributo. Para se produzir
classificadores mais fracos, poderia se utilizar uma abordagem
de amostragem de atributos, o que poderia produzir árvores
com menor overfitting. Atributos contínuos já são utilizados mais
de uma vez no algoritmo C4.5 ou J48. Entretanto, quando mais
subdivisões são feitas em um mesmo atributo, maior a chance
de overfitting.
6 / 6 ptsPergunta 4
Relacione os tipos de dados com os exemplos de atributos
correspondentes:
Dado quantitativo de
razão
 
peso
Correto!Correto!
Dado quantitativo
intervalar
 
temperatura do ar
Correto!Correto!
Dado qualitativo ordinal 
ordem de nascimento
Correto!Correto!
Dado qualitativo nominal 
cor do olho
Correto!Correto!
O peso é um dado numérico que possui um zero absoluto, e por
isso é considerado quantitativo de razão.
A ordem de nascimento, não é um dado quantitativo em si, uma
vez que ele não possui uma escala definida, mas expressa
ordem, o que o torna um dado ordinal.
A cor do olho não pode ser ordenada, e por isso é um dado
nominal.
Finalmente a temperatura é um dado contínuo que não possui
necessariamente um zero absoluto, uma vez que não foi
descrita a escala utilizada. Neste caso, ele ´te um atributo
intervalar.
6 / 6 ptsPergunta 5
Uma anomalia (ou outlier) no algoritmo DB-outlier pode ser entendida
como:
 
Um conjunto de atributos cujos valores estão definidos em ordens de
grandeza superiores à média da base de conhecimento.
 
 
Um ponto de cuja vizinhança possui menos elementos que uma
porcentagem predeterminada da base de conhecimento.
 
Correto!Correto!
 
Um ponto cujas características se distanciam um determinado número
de desvios-padrões da média da base de conhecimento.
 
 
Um atributo cuja medição possui valores extremos fora da faixa padrão
de distribuição dos dados da base de conhecimento.
 
As anomalias não são atributos ou conjuntos de atributos, mas
são exemplos da base de dados. Esses exemplos são
representados como pontos no espaço de atributos, e uma
anomalia é definida no algoritmo DB-outlier em função da
densidade de sua vizinhança.
6 / 6 ptsPergunta 6
Um atributo CONCEITO pode receber os valores: A, B, C, D e E, que
representam o conceito que um aluno obteve ao cursar uma disciplina.
Esse atributo é do tipo:
 Quantitativo multivalorado. 
 Qualitativo categórico. 
 Qualitativo ordinal. Correto!Correto!
 Quantitativo discreto. 
O conceito é um atributo polinominal, mas ele possui relação de
ordem entre seus valores, uma vez que o conceito A > B > C >
D > E, e por isso é considerado um dado ordinal.
6 / 6 ptsPergunta 7
Segundo Joe Blitzstein e Hanspeler Plister, “Introduction to Data
Science”, Harvard Data Science Course, as etapas do processo de
ciência de dados são:
 
Identificar as necessidades, selecionar, limpar e enriquecer dados,
identificar padrões e descrever resultados.
 
 
Entender o negócio, preparar dados, modelar o problema, avaliar o
modelo e fazer a distribuição do modelo.
 
 
Coletar dados, explorar dados, modelar dados, comunicar e visualizar
resultados.
 
Correto!Correto!
 
Amostrar dados, explorar dados, modificar dados, modelar dados e
avaliar o modelo.
 
A ciência de dados em sua visão clássica tem como princípio
base a indução de modelos com a finalidade de comunicar e
visualizar os resultados, sem o objetivo específico de distribuir
os modelos para uso comercial. Por isso suas etapas são:
"Coletar dados, explorar dados, modelar dados, comunicar e
visualizar resultados".
As etapas do CRIP-DM, usado no processo de mineração de
dados são: "Entender o negócio, preparar dados, modelar o
problema, avaliar o modelo e fazer a distribuição do modelo."
Finalmente, o processo de KDD consiste em: "Identificar as
necessidades, selecionar, limpar e enriquecer dados, identificar
padrões e descrever resultados".
6 / 6 ptsPergunta 8
Uma agência de empregos deseja utilizar aprendizado de máquina
para prever a duração do tempo de desemprego de um desempregado
à procura de emprego, com o objetivo de atuar proativamente na
interrupção do padrão de desemprego.
O algoritmo que ele pode utilizar na resolução desse problema é:
 Regras de associação. 
 Árvores de decisão. 
 Regressão linear. Correto!Correto!
 Random Forest. 
A tarefa de previsão da "duração do tempo de desemprego de
um desempregado a procura de emprego" tem por objetivo
estimar o valor de um atributo alvo contínuo. Essa é uma tarefa
de aprendizado supervisionado que tem como um possível
algoritmo a regressão linear.
Todas as demais opções da pergunta ilustram algoritmos
baseados em regras, que não são adequados para valores
contínuos. As regras de associação não são nem mesmo um
algoritmo de aprendizado supervisionado.
6 / 6 ptsPergunta 9
O objetivo das técnicas de boosting é:
 
Combinar modelos independentes entre si para representar as diversas
dimensões dos dados.
 
 
Combinar diferentes algoritmos para tratar atributos com formatos
diferentes.
 
 Combinar modelos mais fracos para obter alta acurácia. Correto!Correto!
 
Construir modelos para diversas partições de dados para evitar o
overfitting.
 
O objetivo do boosting é o de aumentar a acurácia do modelo.
Ele precisa utilizar classificadores fracos para que os modelos
gerados sejam independentes entre si.
6 / 6 ptsPergunta 10
É uma abordagem do aprendizado não supervisionado:
 Indução de regras. 
 Agrupamento de dados por densidade. Correto!Correto!
 Receber feedback do ambiente. 
 Mistura de dados rotulados e não rotulados. 
Agrupamento é uma tarefa típica de aprendizado não
supervisionado. A indução de regras pode ser não
supervisionada, como no caso de regras de associação, ou
supervisionada, como no caso de árvore de decisão. A mistura
de dados não rotulados com dados rotulados é chamado de
aprendizado semi supervisionado. Receber feedback do
ambiente é uma tarefa típica de aprendizado por reforço.
Pontuação do teste: 60 de 60

Mais conteúdos dessa disciplina