Prévia do material em texto
Material de Estudo - Análise de Dados: Modelagem Estatística e Machine Learning (Material 9) 1. Em um projeto de previsão de vendas, um modelo de regressão linear múltipla apresenta um alto erro de previsão em dados não vistos. Qual das seguintes técnicas de regularização seria mais eficaz para reduzir o overfitting e melhorar a generalização do modelo? a) Aumentar o número de variáveis preditoras no modelo. b) Reduzir o tamanho da amostra de treinamento. c) Aplicar regressão Ridge ou Lasso. d) Usar uma função de perda com maior penalidade para erros. e) Transformar as variáveis preditoras usando funções polinomiais de alta ordem. Resposta: c) Aplicar regressão Ridge ou Lasso. Justificativa: As técnicas de regressão Ridge e Lasso adicionam penalidades aos coeficientes do modelo, reduzindo o overfitting e melhorando a generalização. 2. Em um problema de classificação binária, um modelo de machine learning apresenta alta sensibilidade, mas baixa especificidade. Qual das seguintes métricas de avaliação seria mais adequada para otimizar o modelo e equilibrar a performance em ambas as classes? a) Acurácia. b) Precisão. c) F1-score. d) Recall. e) Área sob a curva ROC (AUC). Resposta: c) F1-score. Justificativa: O F1-score é a média harmônica de precisão e recall, equilibrando a performance em ambas as classes. 3. Em uma análise de agrupamento de clientes, o algoritmo k-means apresenta resultados instáveis, com grandes variações na alocação de clientes entre clusters em execuções diferentes. Qual das seguintes técnicas de pré-processamento de dados seria mais eficaz para mitigar esse problema? a) Normalização dos dados usando z-score ou min-max scaling. b) Redução de dimensionalidade usando PCA (Análise de Componentes Principais). c) Codificação one-hot para variáveis categóricas. d) Imputação de valores faltantes usando a média ou mediana. e) Padronização de dados usando a função logarítmica. Resposta: a) Normalização dos dados usando z-score ou min-max scaling. Justificativa: A normalização dos dados garante que todas as variáveis tenham a mesma escala, reduzindo a sensibilidade do algoritmo k-means a outliers e melhorando a estabilidade dos resultados. 4. Em um projeto de modelagem de séries temporais, um modelo ARIMA (Autoregressive Integrated Moving Average) apresenta resíduos autocorrelacionados. Qual das seguintes abordagens seria mais adequada para lidar com esse problema? a) Aumentar a ordem dos componentes autoregressivos (AR) e de médias móveis (MA) do modelo. b) Aplicar uma transformação logarítmica na série temporal. c) Usar um modelo SARIMA (Seasonal ARIMA) para capturar a sazonalidade. d) Ajustar os parâmetros do modelo usando validação cruzada. e) Adicionar variáveis exógenas ao modelo. Resposta: a) Aumentar a ordem dos componentes autoregressivos (AR) e de médias móveis (MA) do modelo. Justificativa: Resíduos autocorrelacionados indicam que o modelo não capturou toda a estrutura da série temporal. Aumentar a ordem dos componentes pode ajudar a modelar melhor a dependência temporal. 5. Em um projeto de análise de texto, um modelo de classificação de sentimentos baseado em aprendizado profundo apresenta baixa precisão em classes minoritárias. Qual das seguintes técnicas de balanceamento de classes seria mais eficaz para melhorar a performance do modelo? a) Subamostragem aleatória da classe majoritária. b) Sobreamostragem aleatória da classe minoritária. c) Gerar amostras sintéticas da classe minoritária usando SMOTE (Synthetic Minority Over-sampling Technique). d) Aplicar ponderação de classes durante o treinamento do modelo. e) Todas as alternativas anteriores. Resposta: e) Todas as alternativas anteriores. Justificativa: Todas as técnicas listadas podem ajudar a equilibrar as classes e melhorar a performance do modelo em classes minoritárias. 6. Em um projeto de detecção de anomalias em dados de sensores industriais, qual dos seguintes algoritmos de machine learning seria mais adequado para identificar padrões incomuns nos dados? a) Regressão logística. b) Árvores de decisão. c) Isolation Forest. d) KNN (k-Nearest Neighbors). e) Máquinas de vetores de suporte (SVM). Resposta: c) Isolation Forest. Justificativa: Isolation Forest é um algoritmo eficiente para detecção de anomalias, isolando pontos de dados anômalos em um número menor de partições aleatórias.