Buscar

Analise Estatisca de DataSet

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Analise de DataSet 
DataSet: Seoul Bike Sharing Demand 
Link: https://archive.ics.uci.edu/ml/datasets/Seoul+Bike+Sharing+Demand 
Nesse DataSet ele trata sobre a demanda de compartilhamento de bicicletas de Seoul. 
No qual eles querem solucionar o problema de fornecer um suprimento estável de 
bicicletas para alugar, para que diminua o tempo de espera. Coletando dados sobre: 
✓ quantidade de bicicletas alugadas, 
✓ dia de Funcionamento, 
✓ a estação do ano, 
✓ se é feriado, 
✓ a data, 
✓ a hora, 
✓ se está chovendo/precipitação, 
✓ se está nevando 
✓ a temperatura, 
✓ a umidade, 
✓ a quantidade de radiação do sol naquele dia, 
✓ a visibilidade, 
✓ a velocidade do vento, e 
✓ a temperatura do ponto de orvalho. 
Algumas informações: 
• A População utilizada neste DataSet foi o público de Seoul. 
• Foram 8760 elementos (tuplas de dados) coletadas, contendo todos dados das 
14 variáveis descrita acima. 
• A média de Bicicletas alugadas foram de aproximadamente 704.6, com desvio 
padrão (std) de aproximadamente 645, o mínimo de aluguel foi 0 (zero), o 
máximo de aluguel foi 3556, etc. 
• A média da Hora do dia foi 11.5 com desvio padrão de aproximadamente 6.9, 
tendo Hora mínima como 0h e máxima 23h, etc. 
• A média de Temperatura foi aproximadamente 12.9ºC, com desvio padrão de 
aproximadamente 11.9ºC, o mínimo 17,8ºC, com máximo de 39,4ºC, etc. 
• A média da Umidade do Ar foi aproximadamente 58%, com desvio padrão de 
aproximadamente 20.4%, mínima de 0& e máxima de 98%, etc. 
• A média da Velocidade do Vento foi de aproximadamente 1.7 m/s, com desvio 
padrão de aproximadamente 1 m/s, mínimo 0 m/s, e máxima 7.4m/s, etc. 
• A média de visibilidade (faixa de medição de 10m) foi de aproximadamente 
1436.8, com desvio padrão de aproximadamente 608, com a mínima em 27 e 
máxima em 2000, etc. 
• A média da Temperatura do ponto de orvalho foi de aproximadamente 4ºC, 
com desvio padrão de aproximadamente 13ºC, mínima de -30.6ºC, e máxima 
de 27.2ºC. etc. 
https://archive.ics.uci.edu/ml/datasets/Seoul+Bike+Sharing+Demand
• A média de Radiação solar foi de aproximadamente 0.57 MJ/m2, com desvio 
padrão de aproximadamente 0.87 MJ/m2, mínima de 0 MJ/m2 e máxima de 
3.52 MJ/m2, etc. 
• A média de chuva/Precipitação foi de aproximadamente 0,15 mm, com desvio 
padrão de aproximadamente 1.13mm, com mínima de 0mm e máxima de 
35mm, etc. 
• A média de queda de neve foi de aproximadamente 0.08cm, com desvio padrão 
de aproximadamente 0.44, mínima de 0cm, e máxima de 8.8 cm. 
Iremos tentar descobrir o período adequado para aumentar/remanejar a frota de 
bicicletas, pegando da contagem de aluguel de bicicletas da média para cima, e tentando 
encontrar o melhor período na comparação com todas outras variáveis. 
Então usando a Analise estatística Descritiva, com os comandos de Correlação: 
corr = df.corr() 
f, ax = plt.subplots(figsize=(11, 9)) 
cmap = sns.diverging_palette(220, 10, as_cmap=True) 
sns.heatmap(corr, cmap=cmap, vmax=1, vmin=-1, center=0, 
 square=True, linewidths=.5, cbar_kws={"shrink": .5}) 
 
Obtemos: 
 
Deu para notar, referente a Contagem de bicicletas alugadas, que há: 
➢ um aumento grande quando a temperatura ambiente aumenta (tendo os maiores 
picos de alugueis) 
➢ uma interferência media positiva quando há aumento nas horas do dia e na 
temperatura do ponto de orvalho 
➢ uma interferência leve positiva para a quantidade de Raios de Sol, a 
visibilidade a partir de 10 metros e a velocidade do vento. 
➢ uma diminuição quando está nevando, chovendo ou úmido (proporcional a 
quantidade de tais). 
Então, usando mais alguns comandos abaixo descritos, tiramos mais outras analises. 
df.loc[df['Rented Bike Count']>704,['Hour',"Rented Bike Count"]].groupby(['Hour']).count().
sort_values(by='Rented Bike Count', ascending = False).head(10) 
 
 
 
Com estes dados produzidos, identificamos que, para os 
alugueis de bicicletas acima da média (que seria o período 
alvo), a maior quantidade alugada foi das 15h até as 22h, com 
aumento proporcional até as 18 (quando há o pico máximo de 
aluguel) e diminuindo após; como pode ser observado na 
imagem ao lado. 
Independentemente de qualquer outra variável, esta 
informação é correta! Como o exemplo abaixo, que monstra as 
trupas com todas variáveis, ordenadas pelas com mais aluguéis: 
df.loc[df['Rented Bike Count']>704].sort_values(by='Rented Bike Count', ascending = False).
head(20) 
 
Obtemos: 
 
 
 
Também encontramos que a Estação do Ano que mais há aluguéis é no Verão, através 
do comando abaixo (a imagem com resultado está logo após): 
df.loc[df['Rented Bike Count']>704,['Seasons',"Rented Bike Count"]].groupby(['Seasons']).co
unt().sort_values(by='Rented Bike Count', ascending = False) 
 
 
Então, até aqui (juntando as informações que já 
temos), já podemos concluir que no Verão, entre as 
15h e 22h, há uma grande demanda de bicicletas. 
 
 
Por fim, para pegar as variáveis de maior importância e interferência direta na 
quantidade de bicicletas alugadas, vamos analisar a Temperatura Ambiente que tem as 
trupas acima da média de alugueis, e ver o quantil 75% dela (para vermos próximo a que 
temperatura esta 75% das trupas de maiores aluguéis): 
df.loc[df['Rented Bike Count']>704,['Temperature(°C)']].quantile(
.75) 
 
Obtemos: 
 
Por aqui já conseguimos uma boa previsão de períodos onde terá mais demanda de 
bicicletas, que será no Verão, entre as 15h e 22h, com temperatura próxima aos 26.4ºC.

Outros materiais