Prévia do material em texto
Prova- 83: Análise Exploratória de Dados e Métodos Estatísticos Introdução Esta prova foca em métodos de análise exploratória de dados (EDA) e técnicas estatísticas associadas à interpretação e análise de dados. Aborda conceitos de correlação, testes de normalidade, e estatísticas descritivas. Questões 1. O que é análise exploratória de dados (EDA)? a) A análise de como os dados se comportam ao longo do tempo. b) A análise inicial de um conjunto de dados, para identificar padrões, anomalias e hipóteses. c) A transformação de dados para garantir que estejam normalizados. d) A análise detalhada de um único ponto de dados. e) O processo de ajuste de um modelo preditivo. 2. O que caracteriza um outlier em um conjunto de dados? a) Um valor que se ajusta bem ao restante dos dados. b) Um valor que está muito distante da maioria dos dados, podendo indicar erro ou uma observação rara. c) Um valor que ocorre com mais frequência. d) Um valor central que define a média dos dados. e) Um valor que não tem impacto sobre a distribuição dos dados. 3. O que é a correlação entre duas variáveis? a) A medida de quanto uma variável depende da outra. b) A soma dos valores de duas variáveis. c) A relação linear entre duas variáveis. d) A diferença entre os valores máximos de duas variáveis. e) A relação entre a média e a variabilidade dos dados. 4. O que significa um p-valor menor que 0,05 em um teste estatístico? a) A hipótese nula é confirmada. b) A probabilidade de rejeitar a hipótese nula é maior. c) A probabilidade de obter um resultado tão extremo quanto o observado, dado que a hipótese nula é verdadeira, é menor que 5%. d) O intervalo de confiança do modelo é maior que 95%. e) O modelo preditivo é significativo. 5. O que caracteriza um histograma? a) Um gráfico de barras utilizado para visualizar dados categóricos. b) Um gráfico que mostra a distribuição de dados contínuos. c) Um gráfico que compara variáveis em diferentes intervalos de tempo. d) Um gráfico de dispersão que mostra a relação entre duas variáveis. e) Um gráfico que representa a distribuição de frequências acumuladas. 6. O que é o teste de normalidade? a) Um teste para verificar a adequação de um modelo de previsão. b) Um teste para verificar se os dados seguem uma distribuição normal. c) Um teste para verificar a independência entre variáveis. d) Um teste para determinar a média dos dados. e) Um teste para comparar a variabilidade entre dois conjuntos de dados. 7. O que é um intervalo interquartil (IQR)? a) A diferença entre o maior e o menor valor dos dados. b) A diferença entre o valor da média e o valor mais frequente. c) A diferença entre o primeiro e o terceiro quartil, representando a dispersão central dos dados. d) A soma dos valores em quartis. e) A média dos valores do primeiro e terceiro quartil. 8. Qual é o objetivo principal de uma distribuição de probabilidade? a) Organizar os dados de forma a facilitar sua visualização. b) Determinar a frequência com que uma variável se repete. c) Calcular a chance de um evento ocorrer. d) Prever os valores futuros de uma variável. e) Comparar as médias de diferentes conjuntos de dados. 9. O que é um gráfico de dispersão? a) Um gráfico utilizado para visualizar dados contínuos. b) Um gráfico de barras que compara diferentes categorias. c) Um gráfico que mostra a relação entre duas variáveis contínuas. d) Um gráfico que visualiza a variação de uma variável ao longo do tempo. e) Um gráfico utilizado para verificação de outliers. 10. O que é a tabela de contingência? a) Uma tabela que apresenta a distribuição dos valores de uma variável contínua. b) Uma tabela usada para comparar dados de diferentes períodos de tempo. c) Uma tabela que mostra a frequência de ocorrências entre duas ou mais variáveis categóricas. d) Uma tabela usada para calcular a variância dos dados. e) Uma tabela que organiza dados de acordo com sua centralidade. Gabarito e Justificativas 1. b) EDA é uma análise inicial de dados para identificar padrões e possíveis problemas. 2. b) Outliers são valores que se distanciam significativamente da maioria dos dados. 3. c) A correlação mede a relação linear entre duas variáveis. 4. c) Um p-valor abaixo de 0,05 indica que há menos de 5% de chance de que os dados observados sejam devido ao acaso. 5. b) O histograma visualiza a distribuição de dados contínuos, mostrando suas frequências. 6. b) O teste de normalidade verifica se os dados seguem uma distribuição normal. 7. c) O IQR é a diferença entre o primeiro e o terceiro quartil, representando a dispersão dos dados. 8. c) Uma distribuição de probabilidade calcula a chance de ocorrência de um evento. 9. c) O gráfico de dispersão mostra a relação entre duas variáveis contínuas. 10. c) A tabela de contingência mostra a frequência de ocorrências de variáveis categóricas.