Buscar

Correlações usando Pandas, Numpy e Seaborn

Prévia do material em texto

João abriu recentemente um centro de esportes e fitness em Londrina. Apenas na primeira semana, ele conseguiu 148 clientes regulares, 87 dos quais são homens e 61 são mulheres. Para obter feedback sobre os serviços que sua loja está oferecendo, ele decidiu realizar uma pesquisa com clientes.
Considerando o gênero, João perguntou a seus clientes sobre o nível de satisfação deles com seus serviços. O resultado é exibido nesta tabela de validação cruzada.
A partir dessas informações, você pode ver três hipóteses:
I) Há existência de dados categóricos nesse estudo.
II) Existem mais clientes insatisfeitos que satisfeitos nessa primeira semana, então João deve melhorar a qualidade dos seus serviços.
​​​​​​​
III) Proporcionalmente, o número de homens satisfeitos é maior que de mulheres, então é necessário melhorar o serviço para atrair o público feminino.
Quais delas estão certas?
C. 
Somente I.
A resposta I está correta, pois os dados categóricos nesse cenário são os gêneros e os níveis de satisfação dos clientes.
A resposta II está incorreta,  pois existem mais clientes satisfeitos do que insatisfeitos. Com os dados fornecidos, os negócios de João estão indo bem na primeira semana.
A resposta III está incorreta, pois o nível de proporção de mulheres que estão satisfeitas é de aproximadamente 59% e de homens é de aproximadamente 57%. Então, o nível de satisfação das mulheres é maior que a dos homens, proporcionalmente.
2. 
Pandas é uma biblioteca em Python voltada para manipulação e estruturação de dados.
Dado os seguintes vetores:
x = 0 1 3 5 8.
y = 2 4 6 5 9.
Calcule a correlação de Pearson de x e y, a partir de um código gerado em Python.
C. 
0.9208850477231821.
A resposta correta é 0.9208850477231821.
 A seguir, é descrito o código em Pandas de como gerar a correlação:
import pandas as pd
x= pd.Series([0, 1, 3, 5, 8])
y = pd.Series([2, 4, 6, 5, 9])
x.corr(y)
Em Numpy, o código é descrito desta forma:
import numpy as np
x = np.array([0,1,3,5,8])
y = pd.Series([2,4,6,5,9])
r = np.corrcoef(x,y)
r[0,1]
As outras alternativas apresentam resultados errados para o cálculo da correlação de Pearson.
3. 
Problemas com multicolinearidade são muito presentes em grandes conjuntos de dados. Para este exercício, carregue a base de dados load_boston (from sklearn.datasets import load_boston).
Qual é o fator de inflação de variância da variável CRIM? Ela merece ser removida da base de dados para análises preditivas?
C. 
2,1. Não merece ser removida.
O VIF é 2.1. Esse valor não merece ser removido, pois seu valor é menor que 5, um valor que representa alta correlação que não é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído.
Na alternativa "0.9.  Sim, merece ser removida", o valor de VIF está errado e não merece ser removido, pois é menor que 5. Ou seja, apresenta baixa correlação, que é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído.
Na alternativa "1.8. Não merece ser removida", o valor de VIF está errado e não merece ser removido, pois é menor que 5. Ou seja, apresenta baixa correlação, que é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído.
Na alternativa "27,1. Sim, merece ser removida", o valor de VIF está errado e merece ser removido, pois é maior que 5. Ou seja, apresenta alta correlação que não é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído.
Na alternativa "0.9. Não merece ser removida", o valor de VIF está errado e não merece ser removido, pois é menor que 5. Ou seja, apresenta baixa correlação que é interessante em análises preditivas devido à questão de generalização para o respectivo modelo construído.
4. 
Dada as seguintes correlações r = 0.30, -0.64, 0.16, -0.35, 0.05, qual delas é a correlação mais forte?
B. 
-0.64.
A correlação correta é -0.64. Para a correlação, lembre-se que é preciso pensar na força e na direção do efeito, então analise a distância a partir do valor absoluto.
5. 
O cálculo de coeficiente de correlação linear é uma métrica muito importante para a análise de similaridade entre variáveis independentes e dependentes.
Calcule o coeficiente de correlação linear para os dados da amostra resumidos pelas seguintes informações:​​​​​​​
n=5
∑x=25 ∑x2=165 ∑y=24 ∑y2= 134 ∑xy =144
1≤x≤9
E. 
0.875.
A resposta correta é 0.875. Dada a fórmula do coeficiente de correlação linear de Pearson, 
Com as informações descritas no enunciado, são aplicados estes dados na fórmula.
​​​​​​​​​​​​​​Por fim, o resultado é 0.875. As demais alternativas estão com resultados errados. Existe uma necessidade de refazer os cálculos cuja fração corresponde à correlação de Pearson.
image1.jpeg

Continue navegando