12- Prova - Machine Learning (2021)

PUC-MINAS

Andreia

em 14/09/2022

Questões resolvidas

Sobre o processo de aprendizado supervisionado, é correto afirmar que:
Um modelo é generalizável se sua performance na base de testes for superior à performance da base de treinamento.
Se a performance do modelo na base de treinamento for inferior à performance do modelo na base de testes, então este modelo sofreu underfitting.
A validação cruzada com 3 partes (3-fold) precisa de uma base de dados com muitos exemplos para ser efetiva.
Grid-search é uma técnica de ajustamento de modelo baseado na utilização de uma combinação sistemática de valores de hiperparâmetros.

São hiperparâmetros para a configuração de uma rede neural, EXCETO:
Taxa de ajuste do erro.
Número de neurônios na camada oculta.
Número de camadas ocultas da rede.
Taxa de aprendizado.

Para se evitar o overfitting em um algoritmo de árvore de decisão, podemos:
Alterar a medida de seleção de atributos do Ganho da Informação para Taxa de Ganho.
Permitir que atributos contínuos possam ser utilizados mais de uma vez.
Aumentar o número mínimo de amostras por nó folha.
Usar uma abordagem gulosa para seleção do melhor atributo.

Relacione os tipos de dados com os exemplos de atributos correspondentes:
Dado quantitativo de razão: peso
Dado quantitativo intervalar: temperatura do ar
Dado qualitativo ordinal: ordem de nascimento
Dado qualitativo nominal: cor do olho

Uma anomalia (ou outlier) no algoritmo DB-outlier pode ser entendida como: Um ponto cujas características se distanciam um determinado número de desvios-padrões da média da base de conhecimento. Um ponto de cuja vizinhança possui menos elementos que uma porcentagem predeterminada da base de conhecimento. Um conjunto de atributos cujos valores estão definidos em ordens de grandeza superiores à média da base de conhecimento. Um atributo cuja medição possui valores extremos fora da faixa padrão de distribuição dos dados da base de conhecimento.

Um atributo CONCEITO pode receber os valores: A, B, C, D e E, que representam o conceito que um aluno obteve ao cursar uma disciplina. Esse atributo é do tipo:
Qualitativo categórico.
Qualitativo ordinal.
Quantitativo discreto.
Quantitativo multivalorado.

Segundo Joe Blitzstein e Hanspeler Plister, “Introduction to Data Science”, Harvard Data Science Course, as etapas do processo de ciência de dados são:
Identificar as necessidades, selecionar, limpar e enriquecer dados, identificar padrões e descrever resultados.
Entender o negócio, preparar dados, modelar o problema, avaliar o modelo e fazer a distribuição do modelo.
Coletar dados, explorar dados, modelar dados, comunicar e visualizar resultados.
Amostrar dados, explorar dados, modificar dados, modelar dados e avaliar o modelo.

Uma agência de empregos deseja utilizar aprendizado de máquina para prever a duração do tempo de desemprego de um desempregado à procura de emprego, com o objetivo de atuar proativamente na interrupção do padrão de desemprego.
O algoritmo que ele pode utilizar na resolução desse problema é:
Regras de associação.
Regressão linear.
Random Forest.
Árvores de decisão.

O objetivo das técnicas de boosting é:
Combinar modelos mais fracos para obter alta acurácia.
Combinar diferentes algoritmos para tratar atributos com formatos diferentes.
Construir modelos para diversas partições de dados para evitar o overfitting.
Combinar modelos independentes entre si para representar as diversas dimensões dos dados.

É uma abordagem do aprendizado não supervisionado:
Indução de regras.
Agrupamento de dados por densidade.
Mistura de dados rotulados e não rotulados.
Receber feedback do ambiente.

Conteúdos escolhidos para você

42 pág.

Análise de Dados

10 pág.

Avaliação N2 - UAM

UAM

8 pág.

Avaliação da Disciplina

IFSC

78 pág.

Livro-Texto 2 - Ciência de Dados

UNIP

191 pág.

Aula 05 - Aprendizado Supervisionado

UNIP

Perguntas dessa disciplina

Uma empresa de marketing digital decidiu analisar os dados de interação dos usuários em suas campanhas publicitárias. Para isso, a equipe de análise d

UNIVESP

Uma universidade identificou um aumento preocupante na taxa de evasão estudantil e decidiu implementar um sistema preditivo para detectar alunos com m

UNIVESP

Uma equipe de cientistas de dados está deservolvendo um modelo preditivo utilizando 0 algoritmo K Nearest Neighbors (KNN) para classificar se um clien

UNIVESP

O paradigma moderno do Processamento de Linguagem Natural baseia-se na ideia de aproveitar o conhecimento geral de modelos massivos para resolver p...

AMPLI

A clusterização é uma técnica de aprendizado não supervisionado utilizada para identificar grupos em conjuntos de dados sem que haja rótulos previa...

Anhanguera

Material

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Questões resolvidas

Sobre o processo de aprendizado supervisionado, é correto afirmar que:
Um modelo é generalizável se sua performance na base de testes for superior à performance da base de treinamento.
Se a performance do modelo na base de treinamento for inferior à performance do modelo na base de testes, então este modelo sofreu underfitting.
A validação cruzada com 3 partes (3-fold) precisa de uma base de dados com muitos exemplos para ser efetiva.
Grid-search é uma técnica de ajustamento de modelo baseado na utilização de uma combinação sistemática de valores de hiperparâmetros.

São hiperparâmetros para a configuração de uma rede neural, EXCETO:
Taxa de ajuste do erro.
Número de neurônios na camada oculta.
Número de camadas ocultas da rede.
Taxa de aprendizado.

Para se evitar o overfitting em um algoritmo de árvore de decisão, podemos:
Alterar a medida de seleção de atributos do Ganho da Informação para Taxa de Ganho.
Permitir que atributos contínuos possam ser utilizados mais de uma vez.
Aumentar o número mínimo de amostras por nó folha.
Usar uma abordagem gulosa para seleção do melhor atributo.

Relacione os tipos de dados com os exemplos de atributos correspondentes:
Dado quantitativo de razão: peso
Dado quantitativo intervalar: temperatura do ar
Dado qualitativo ordinal: ordem de nascimento
Dado qualitativo nominal: cor do olho

Uma anomalia (ou outlier) no algoritmo DB-outlier pode ser entendida como: Um ponto cujas características se distanciam um determinado número de desvios-padrões da média da base de conhecimento. Um ponto de cuja vizinhança possui menos elementos que uma porcentagem predeterminada da base de conhecimento. Um conjunto de atributos cujos valores estão definidos em ordens de grandeza superiores à média da base de conhecimento. Um atributo cuja medição possui valores extremos fora da faixa padrão de distribuição dos dados da base de conhecimento.

Um atributo CONCEITO pode receber os valores: A, B, C, D e E, que representam o conceito que um aluno obteve ao cursar uma disciplina. Esse atributo é do tipo:
Qualitativo categórico.
Qualitativo ordinal.
Quantitativo discreto.
Quantitativo multivalorado.

Segundo Joe Blitzstein e Hanspeler Plister, “Introduction to Data Science”, Harvard Data Science Course, as etapas do processo de ciência de dados são:
Identificar as necessidades, selecionar, limpar e enriquecer dados, identificar padrões e descrever resultados.
Entender o negócio, preparar dados, modelar o problema, avaliar o modelo e fazer a distribuição do modelo.
Coletar dados, explorar dados, modelar dados, comunicar e visualizar resultados.
Amostrar dados, explorar dados, modificar dados, modelar dados e avaliar o modelo.

Uma agência de empregos deseja utilizar aprendizado de máquina para prever a duração do tempo de desemprego de um desempregado à procura de emprego, com o objetivo de atuar proativamente na interrupção do padrão de desemprego.
O algoritmo que ele pode utilizar na resolução desse problema é:
Regras de associação.
Regressão linear.
Random Forest.
Árvores de decisão.

O objetivo das técnicas de boosting é:
Combinar modelos mais fracos para obter alta acurácia.
Combinar diferentes algoritmos para tratar atributos com formatos diferentes.
Construir modelos para diversas partições de dados para evitar o overfitting.
Combinar modelos independentes entre si para representar as diversas dimensões dos dados.

É uma abordagem do aprendizado não supervisionado:
Indução de regras.
Agrupamento de dados por densidade.
Mistura de dados rotulados e não rotulados.
Receber feedback do ambiente.