Baixe o app para aproveitar ainda mais
Prévia do material em texto
João abriu recentemente um centro de esportes e fitness em Londrina. Apenas na primeira semana, ele conseguiu 148 clientes regulares, 87 dos quais são homens e 61 são mulheres. Para obter feedback sobre os serviços que sua loja está oferecendo, ele decidiu realizar uma pesquisa com clientes. Considerando o gênero, João perguntou a seus clientes sobre o nível de satisfação deles com seus serviços. O resultado é exibido nesta tabela de validação cruzada. A partir dessas informações, você pode ver três hipóteses: I) Há existência de dados categóricos nesse estudo. II) Existem mais clientes insatisfeitos que satisfeitos nessa primeira semana, então João deve melhorar a qualidade dos seus serviços. III) Proporcionalmente, o número de homens satisfeitos é maior que de mulheres, então é necessário melhorar o serviço para atrair o público feminino. Quais delas estão certas? C. Somente I. A resposta I está correta, pois os dados categóricos nesse cenário são os gêneros e os níveis de satisfação dos clientes. A resposta II está incorreta, pois existem mais clientes satisfeitos do que insatisfeitos. Com os dados fornecidos, os negócios de João estão indo bem na primeira semana. A resposta III está incorreta, pois o nível de proporção de mulheres que estão satisfeitas é de aproximadamente 59% e de homens é de aproximadamente 57%. Então, o nível de satisfação das mulheres é maior que a dos homens, proporcionalmente. 2. Pandas é uma biblioteca em Python voltada para manipulação e estruturação de dados. Dado os seguintes vetores: x = 0 1 3 5 8. y = 2 4 6 5 9. Calcule a correlação de Pearson de x e y, a partir de um código gerado em Python. C. 0.9208850477231821. A resposta correta é 0.9208850477231821. A seguir, é descrito o código em Pandas de como gerar a correlação: import pandas as pd x= pd.Series([0, 1, 3, 5, 8]) y = pd.Series([2, 4, 6, 5, 9]) x.corr(y) Em Numpy, o código é descrito desta forma: import numpy as np x = np.array([0,1,3,5,8]) y = pd.Series([2,4,6,5,9]) r = np.corrcoef(x,y) r[0,1] As outras alternativas apresentam resultados errados para o cálculo da correlação de Pearson. 3. Problemas com multicolinearidade são muito presentes em grandes conjuntos de dados. Para este exercício, carregue a base de dados load_boston (from sklearn.datasets import load_boston). Qual é o fator de inflação de variância da variável CRIM? Ela merece ser removida da base de dados para análises preditivas? C. 2,1. Não merece ser removida. O VIF é 2.1. Esse valor não merece ser removido, pois seu valor é menor que 5, um valor que representa alta correlação que não é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído. Na alternativa "0.9. Sim, merece ser removida", o valor de VIF está errado e não merece ser removido, pois é menor que 5. Ou seja, apresenta baixa correlação, que é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído. Na alternativa "1.8. Não merece ser removida", o valor de VIF está errado e não merece ser removido, pois é menor que 5. Ou seja, apresenta baixa correlação, que é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído. Na alternativa "27,1. Sim, merece ser removida", o valor de VIF está errado e merece ser removido, pois é maior que 5. Ou seja, apresenta alta correlação que não é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído. Na alternativa "0.9. Não merece ser removida", o valor de VIF está errado e não merece ser removido, pois é menor que 5. Ou seja, apresenta baixa correlação que é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído. 4. Dada as seguintes correlações r = 0.30, -0.64, 0.16, -0.35, 0.05, qual delas é a correlação mais forte? B. -0.64. A correlação correta é -0.64. Para a correlação, lembre-se que é preciso pensar na força e na direção do efeito, então analise a distância a partir do valor absoluto. 5. O cálculo de coeficiente de correlação linear é uma métrica muito importante para a análise de similaridade entre variáveis independentes e dependentes. Calcule o coeficiente de correlação linear para os dados da amostra resumidos pelas seguintes informações: n=5 ∑x=25 ∑x2=165 ∑y=24 ∑y2= 134 ∑xy =144 1≤x≤9 E. 0.875. A resposta correta é 0.875. Dada a fórmula do coeficiente de correlação linear de Pearson, Com as informações descritas no enunciado, são aplicados estes dados na fórmula. Por fim, o resultado é 0.875. As demais alternativas estão com resultados errados. Existe uma necessidade de refazer os cálculos cuja fração corresponde à correlação de Pearson. image1.jpeg
Compartilhar