Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Material de Estudo - Análise de Dados: Modelagem Estatística e Machine Learning (Material 
9) 
1. Em um projeto de previsão de vendas, um modelo de regressão linear múltipla 
apresenta um alto erro de previsão em dados não vistos. Qual das seguintes técnicas 
de regularização seria mais eficaz para reduzir o overfitting e melhorar a generalização 
do modelo? 
a) Aumentar o número de variáveis preditoras no modelo. b) Reduzir o tamanho da amostra de 
treinamento. c) Aplicar regressão Ridge ou Lasso. d) Usar uma função de perda com maior 
penalidade para erros. e) Transformar as variáveis preditoras usando funções polinomiais de 
alta ordem. 
Resposta: c) Aplicar regressão Ridge ou Lasso. 
Justificativa: As técnicas de regressão Ridge e Lasso adicionam penalidades aos coeficientes do 
modelo, reduzindo o overfitting e melhorando a generalização. 
2. Em um problema de classificação binária, um modelo de machine learning apresenta 
alta sensibilidade, mas baixa especificidade. Qual das seguintes métricas de avaliação 
seria mais adequada para otimizar o modelo e equilibrar a performance em ambas as 
classes? 
a) Acurácia. b) Precisão. c) F1-score. d) Recall. e) Área sob a curva ROC (AUC). 
Resposta: c) F1-score. 
Justificativa: O F1-score é a média harmônica de precisão e recall, equilibrando a performance 
em ambas as classes. 
3. Em uma análise de agrupamento de clientes, o algoritmo k-means apresenta 
resultados instáveis, com grandes variações na alocação de clientes entre clusters em 
execuções diferentes. Qual das seguintes técnicas de pré-processamento de dados 
seria mais eficaz para mitigar esse problema? 
a) Normalização dos dados usando z-score ou min-max scaling. b) Redução de 
dimensionalidade usando PCA (Análise de Componentes Principais). c) Codificação one-hot 
para variáveis categóricas. d) Imputação de valores faltantes usando a média ou mediana. e) 
Padronização de dados usando a função logarítmica. 
Resposta: a) Normalização dos dados usando z-score ou min-max scaling. 
Justificativa: A normalização dos dados garante que todas as variáveis tenham a mesma escala, 
reduzindo a sensibilidade do algoritmo k-means a outliers e melhorando a estabilidade dos 
resultados. 
4. Em um projeto de modelagem de séries temporais, um modelo ARIMA (Autoregressive 
Integrated Moving Average) apresenta resíduos autocorrelacionados. Qual das 
seguintes abordagens seria mais adequada para lidar com esse problema? 
a) Aumentar a ordem dos componentes autoregressivos (AR) e de médias móveis (MA) do 
modelo. b) Aplicar uma transformação logarítmica na série temporal. c) Usar um modelo 
SARIMA (Seasonal ARIMA) para capturar a sazonalidade. d) Ajustar os parâmetros do modelo 
usando validação cruzada. e) Adicionar variáveis exógenas ao modelo. 
Resposta: a) Aumentar a ordem dos componentes autoregressivos (AR) e de médias móveis 
(MA) do modelo. 
Justificativa: Resíduos autocorrelacionados indicam que o modelo não capturou toda a 
estrutura da série temporal. Aumentar a ordem dos componentes pode ajudar a modelar 
melhor a dependência temporal. 
5. Em um projeto de análise de texto, um modelo de classificação de sentimentos 
baseado em aprendizado profundo apresenta baixa precisão em classes minoritárias. 
Qual das seguintes técnicas de balanceamento de classes seria mais eficaz para 
melhorar a performance do modelo? 
a) Subamostragem aleatória da classe majoritária. b) Sobreamostragem aleatória da classe 
minoritária. c) Gerar amostras sintéticas da classe minoritária usando SMOTE (Synthetic 
Minority Over-sampling Technique). d) Aplicar ponderação de classes durante o treinamento 
do modelo. e) Todas as alternativas anteriores. 
Resposta: e) Todas as alternativas anteriores. 
Justificativa: Todas as técnicas listadas podem ajudar a equilibrar as classes e melhorar a 
performance do modelo em classes minoritárias. 
6. Em um projeto de detecção de anomalias em dados de sensores industriais, qual dos 
seguintes algoritmos de machine learning seria mais adequado para identificar padrões 
incomuns nos dados? 
a) Regressão logística. b) Árvores de decisão. c) Isolation Forest. d) KNN (k-Nearest Neighbors). 
e) Máquinas de vetores de suporte (SVM). 
Resposta: c) Isolation Forest. 
Justificativa: Isolation Forest é um algoritmo eficiente para detecção de anomalias, isolando 
pontos de dados anômalos em um número menor de partições aleatórias.

Mais conteúdos dessa disciplina