Baixe o app para aproveitar ainda mais
Prévia do material em texto
Analise de DataSet DataSet: Seoul Bike Sharing Demand Link: https://archive.ics.uci.edu/ml/datasets/Seoul+Bike+Sharing+Demand Nesse DataSet ele trata sobre a demanda de compartilhamento de bicicletas de Seoul. No qual eles querem solucionar o problema de fornecer um suprimento estável de bicicletas para alugar, para que diminua o tempo de espera. Coletando dados sobre: ✓ quantidade de bicicletas alugadas, ✓ dia de Funcionamento, ✓ a estação do ano, ✓ se é feriado, ✓ a data, ✓ a hora, ✓ se está chovendo/precipitação, ✓ se está nevando ✓ a temperatura, ✓ a umidade, ✓ a quantidade de radiação do sol naquele dia, ✓ a visibilidade, ✓ a velocidade do vento, e ✓ a temperatura do ponto de orvalho. Algumas informações: • A População utilizada neste DataSet foi o público de Seoul. • Foram 8760 elementos (tuplas de dados) coletadas, contendo todos dados das 14 variáveis descrita acima. • A média de Bicicletas alugadas foram de aproximadamente 704.6, com desvio padrão (std) de aproximadamente 645, o mínimo de aluguel foi 0 (zero), o máximo de aluguel foi 3556, etc. • A média da Hora do dia foi 11.5 com desvio padrão de aproximadamente 6.9, tendo Hora mínima como 0h e máxima 23h, etc. • A média de Temperatura foi aproximadamente 12.9ºC, com desvio padrão de aproximadamente 11.9ºC, o mínimo 17,8ºC, com máximo de 39,4ºC, etc. • A média da Umidade do Ar foi aproximadamente 58%, com desvio padrão de aproximadamente 20.4%, mínima de 0& e máxima de 98%, etc. • A média da Velocidade do Vento foi de aproximadamente 1.7 m/s, com desvio padrão de aproximadamente 1 m/s, mínimo 0 m/s, e máxima 7.4m/s, etc. • A média de visibilidade (faixa de medição de 10m) foi de aproximadamente 1436.8, com desvio padrão de aproximadamente 608, com a mínima em 27 e máxima em 2000, etc. • A média da Temperatura do ponto de orvalho foi de aproximadamente 4ºC, com desvio padrão de aproximadamente 13ºC, mínima de -30.6ºC, e máxima de 27.2ºC. etc. https://archive.ics.uci.edu/ml/datasets/Seoul+Bike+Sharing+Demand • A média de Radiação solar foi de aproximadamente 0.57 MJ/m2, com desvio padrão de aproximadamente 0.87 MJ/m2, mínima de 0 MJ/m2 e máxima de 3.52 MJ/m2, etc. • A média de chuva/Precipitação foi de aproximadamente 0,15 mm, com desvio padrão de aproximadamente 1.13mm, com mínima de 0mm e máxima de 35mm, etc. • A média de queda de neve foi de aproximadamente 0.08cm, com desvio padrão de aproximadamente 0.44, mínima de 0cm, e máxima de 8.8 cm. Iremos tentar descobrir o período adequado para aumentar/remanejar a frota de bicicletas, pegando da contagem de aluguel de bicicletas da média para cima, e tentando encontrar o melhor período na comparação com todas outras variáveis. Então usando a Analise estatística Descritiva, com os comandos de Correlação: corr = df.corr() f, ax = plt.subplots(figsize=(11, 9)) cmap = sns.diverging_palette(220, 10, as_cmap=True) sns.heatmap(corr, cmap=cmap, vmax=1, vmin=-1, center=0, square=True, linewidths=.5, cbar_kws={"shrink": .5}) Obtemos: Deu para notar, referente a Contagem de bicicletas alugadas, que há: ➢ um aumento grande quando a temperatura ambiente aumenta (tendo os maiores picos de alugueis) ➢ uma interferência media positiva quando há aumento nas horas do dia e na temperatura do ponto de orvalho ➢ uma interferência leve positiva para a quantidade de Raios de Sol, a visibilidade a partir de 10 metros e a velocidade do vento. ➢ uma diminuição quando está nevando, chovendo ou úmido (proporcional a quantidade de tais). Então, usando mais alguns comandos abaixo descritos, tiramos mais outras analises. df.loc[df['Rented Bike Count']>704,['Hour',"Rented Bike Count"]].groupby(['Hour']).count(). sort_values(by='Rented Bike Count', ascending = False).head(10) Com estes dados produzidos, identificamos que, para os alugueis de bicicletas acima da média (que seria o período alvo), a maior quantidade alugada foi das 15h até as 22h, com aumento proporcional até as 18 (quando há o pico máximo de aluguel) e diminuindo após; como pode ser observado na imagem ao lado. Independentemente de qualquer outra variável, esta informação é correta! Como o exemplo abaixo, que monstra as trupas com todas variáveis, ordenadas pelas com mais aluguéis: df.loc[df['Rented Bike Count']>704].sort_values(by='Rented Bike Count', ascending = False). head(20) Obtemos: Também encontramos que a Estação do Ano que mais há aluguéis é no Verão, através do comando abaixo (a imagem com resultado está logo após): df.loc[df['Rented Bike Count']>704,['Seasons',"Rented Bike Count"]].groupby(['Seasons']).co unt().sort_values(by='Rented Bike Count', ascending = False) Então, até aqui (juntando as informações que já temos), já podemos concluir que no Verão, entre as 15h e 22h, há uma grande demanda de bicicletas. Por fim, para pegar as variáveis de maior importância e interferência direta na quantidade de bicicletas alugadas, vamos analisar a Temperatura Ambiente que tem as trupas acima da média de alugueis, e ver o quantil 75% dela (para vermos próximo a que temperatura esta 75% das trupas de maiores aluguéis): df.loc[df['Rented Bike Count']>704,['Temperature(°C)']].quantile( .75) Obtemos: Por aqui já conseguimos uma boa previsão de períodos onde terá mais demanda de bicicletas, que será no Verão, entre as 15h e 22h, com temperatura próxima aos 26.4ºC.
Compartilhar