Prévia do material em texto
Prova- 78: Métodos Avançados em Análise de Dados e Modelagem Preditiva Introdução Esta prova explora métodos avançados em análise de dados, com foco em técnicas estatísticas, modelagem preditiva e otimização de modelos. Ela é ideal para quem já possui conhecimentos básicos e busca aprofundamento em técnicas utilizadas em grandes volumes de dados. Questões 1. Qual das seguintes afirmações sobre a distribuição t de Student é verdadeira? a) É usada para comparar médias de variáveis contínuas em populações grandes. b) Sua forma é sempre simétrica, mas com caudas mais largas em comparação com a normal. c) É aplicável apenas a dados categóricos. d) Sua principal característica é que as variáveis são independentes entre si. e) Sua distribuição se assemelha a uma normal quando o número de amostras é muito pequeno. 2. O que é a regressão logística? a) Uma técnica de previsão que se aplica apenas a dados temporais. b) Um modelo de aprendizado supervisionado utilizado para prever valores contínuos. c) Um modelo usado para prever a probabilidade de um evento ocorrer, com base em variáveis independentes. d) Um algoritmo de agrupamento de dados baseado em semelhanças. e) Um modelo utilizado exclusivamente para dados de séries temporais. 3. O que é validação cruzada (cross-validation) e qual sua principal utilidade? a) Um processo de divisão dos dados em múltiplas amostras para calcular a média do erro. b) Um processo de validação de hipóteses estatísticas. c) A avaliação de modelos de aprendizado de máquina, utilizando os mesmos dados para treino e teste. d) A técnica de dividir o conjunto de dados em partes para treinar e validar múltiplos modelos. e) Um método de otimização que ajusta os parâmetros do modelo para melhorar sua precisão. 4. O que é o coeficiente de correlação de Pearson? a) Uma medida que descreve a relação entre duas variáveis, considerando sua direção e força. b) Um teste estatístico para verificar a normalidade dos dados. c) Um índice de avaliação de modelos de regressão. d) A medida de dispersão de uma variável. e) Uma técnica para modelagem de séries temporais. 5. O que caracteriza um modelo de redes neurais artificiais? a) Modelos que tentam simular a forma como o cérebro humano processa informações, ajustando seus parâmetros automaticamente com base nos dados de treinamento. b) Modelos que são apenas usados para dados sequenciais. c) Modelos baseados em árvores de decisão que dividem os dados em várias camadas. d) Modelos usados apenas para regressão linear simples. e) Modelos que não requerem ajustes de parâmetros após o treinamento. 6. O que significa p-valor em testes de hipóteses? a) A probabilidade de que a hipótese nula seja verdadeira. b) A probabilidade de que o erro tipo I (falso positivo) seja cometido. c) A probabilidade de que os dados observados sejam compatíveis com a hipótese nula. d) A probabilidade de que a hipótese alternativa seja falsa. e) A probabilidade de que o modelo de previsão seja exato. 7. O que caracteriza um modelo de árvores de decisão? a) Um modelo que utiliza múltiplos algoritmos para fazer previsões simultaneamente. b) Um modelo que toma decisões com base em uma série de perguntas binárias, dividindo os dados em grupos. c) Um modelo de aprendizado não supervisionado utilizado para detectar padrões. d) Um modelo que busca otimizar as previsões ajustando os parâmetros. e) Um modelo utilizado exclusivamente para regressão linear. 8. Qual é o objetivo da normalização dos dados? a) Aumentar a dispersão dos dados para melhorar o desempenho do modelo. b) Ajustar os dados para uma distribuição normal. c) Reduzir a variabilidade dos dados ao garantir que todas as variáveis tenham a mesma escala. d) Aumentar a variância dos dados para facilitar a modelagem. e) Melhorar a precisão dos modelos de séries temporais. 9. O que é o algoritmo de K-médias (K-means)? a) Um algoritmo de otimização usado para ajustar os parâmetros de um modelo. b) Um algoritmo de aprendizado supervisionado usado para criar previsões de variáveis contínuas. c) Um algoritmo de agrupamento usado para dividir um conjunto de dados em K clusters. d) Um modelo de classificação usado para prever categorias específicas. e) Um modelo de regressão utilizado para prever valores com base em dados históricos. 10. O que é o erro quadrático médio (RMSE)? a) A média aritmética dos erros cometidos pelo modelo. b) A raiz quadrada da soma dos erros absolutos. c) A média dos quadrados dos erros cometidos durante a previsão. d) A soma dos quadrados dos resíduos de um modelo. e) A medida de dispersão dos dados em relação à média. Gabarito e Justificativas 1. b) A distribuição t de Student é usada em amostras pequenas e tem caudas mais largas que a distribuição normal. 2. c) A regressão logística é usada para prever a probabilidade de um evento ocorrer, como um modelo de classificação binária. 3. d) A validação cruzada divide os dados em partes para treinar e validar modelos, evitando overfitting. 4. a) O coeficiente de correlação de Pearson mede a força e a direção da relação entre duas variáveis contínuas. 5. a) As redes neurais tentam simular o processamento do cérebro humano e ajustam automaticamente seus parâmetros com base nos dados. 6. c) O p-valor indica a probabilidade de que os dados observados sejam compatíveis com a hipótese nula. 7. b) As árvores de decisão fazem previsões com base em uma série de perguntas binárias, dividindo os dados. 8. c) A normalização ajusta os dados para garantir que todas as variáveis tenham a mesma escala, melhorando a performance do modelo. 9. c) O algoritmo de K-médias é usado para agrupar dados em K clusters com base em características semelhantes. 10. c) O RMSE é a média dos quadrados dos erros cometidos por um modelo de previsão.