Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL DEPARTAMENTO DE ENGENHARIA DE PRODUÇÃO E TRANSPORTE ENG09004-ESTATÍSTICA PARA ENGENHARIA TRABALHO DE CONCLUSÃO DA CADEIRA Fernanda Barth Junior Portela Mônica Victorino Porto Alegre, Julho 2015 Introdução Este trabalho tem como objetivo principal uma análise estatística crítica utilizando conceitos aprendidos ao longo da cadeira Estatística para Engenharia-ENG09004. Para isso, o grupo teve de testar as velocidades de download e upload de uma rede de Internet durante 30 dias, dividindo cada dia em dois turnos (um pela manhã e o outro à noite). O banco de dados foi analisado e então comparado para verificar as conformidades entre as taxas coletadas. Foram coletados 840 dados, com o intuito de comparar os resultados com as velocidades do servidor contratado, uma conexão wi-fi 10Mbps. Cabe ressaltar que, nas análises mais importantes, será, muitas vezes, apenas a velocidade de download considerada, já que é uma análise semelhante para a de upload. Nota: os índices 1 e 2, apresentados após cada dia analisado indicam, respectivamente, manhã e noite. Referencial Teórico 2.1 Dados e velocidade de Download: a velocidade de download (baixar) é a taxa com a qual algum dado é transferido de um servidor remoto (internet) para um computador local, ou seja, está relacionado com a obtenção de dados da Internet. No entanto, o uso comum (não-técnico) do termo download se limita a referenciar o conteúdo que é obtido da internet para visualização posterior (offline), como um documento ou aplicativo. 2.2 Dados e velocidade de Upload: a velocidade de upload (carregamento) é taxa com a qual, inversamente ao download, algum computador local envia dados a algum servidor remoto. É, portanto, a saída de arquivos de um computador para a internet. 2.3 Boxplot: O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica dos dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite superior. Os limites são calculados da forma abaixo: Limite inferior: . Limite superior: . Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers) e são denotados por asterisco (*) 2.4 ANOVA Para compararmos a variância entre vários grupos utilizamos a ferramenta estatística de análise de dados ANOVA. Podemos, portanto, fazer uso dessa ferramenta para comparar as médias de velocidade entre os dias da semana observados. 2.5 Teste de Hipóteses Para decidir se certa hipótese é sustentada pelos dados de uma amostra fornecida é feito um teste de hipóteses. A hipótese pode investigar um parâmetro ou então uma forma de distribuição (paramétrica e não paramétrica, respectivamente). 2.6 Análise de Regressão É uma ferramenta da estatística que estima a relação que uma variável independente (x) tem com uma variável dependente (y). Para uma melhor análise de regressão é necessário ter o conhecimento do que é correlação (relacionamento linear ente duas variáveis aleatórias) e casualidade (a influência da causa sobre o efeito). Desenvolvimento 3.1 Médias e valores máximo-mínimo Foi utilizado o comando “média”, no Microsoft Excel, para calcular a média da velocidade de download e upload em cada turno. Após, com o “ordem.eq” e o comando “classificar segundo a ordem crescente” foram obtidos os dados em ordem crescente, e então analisado qual turno continha as velocidades médias maiores. Além disso, com auxílio dos comandos “Máximo” e “Mínimo” conseguimos os valores absolutos de máximo e mínimo de Upload e Download. Tabela 1 – Médias e valores máximo-mínimo Download Upload DOM2 7,811 SEG1 0,484 QUI2 8,147667 TER2 0,485 QUA2 8,164333 QUA2 0,485 SAB1 8,239667 SEG2 0,512333 TER2 8,288333 SEX1 0,539333 SEG2 9,402667 SEX2 0,548 SEX1 9,439667 QUI2 0,556333 SEX2 9,465667 DOM2 0,572667 SAB1 9,473333 SAB2 0,579333 DOM1 9,530333 QUI1 0,580667 SEG1 9,571667 SAB1 0,603 QUI1 9,615333 TER1 0,618667 QUA1 9,764667 QUA1 0,623667 TER1 9,766667 DOM1 0,631667 Tabela 2 - Ordem crescente de médias segundo os turnos 3.2 Distribuição de Frequências Primeiramente, foram utilizados os dados médios de download e upload coletados, ou seja, a média diária de velocidade (tabela 2). A partir desses valores, foram calculados os valores “n” e “k”; respectivamente, os limites superiores e inferiores, e a amplitude. Depois, realizamos uma tabela de frequências contendo as frequências absolutas e relativas com suas respectivas acumulações e seus limites inferiores e superiores de cada classe. Maior Valor Menor Valor K(aproximado) LS LI Amplitude 9,766666667 7,811 4 9,8 7,8 0,5 Tabela 3 – referencia para tabela de frequência de Download Frequência de Download Intervalo Absoluta Abs. Acumulada Relativa Rel. Acumulada 7,80 8,30 5 5 35,7% 35,71% 8,30 8,80 0 5 0,0% 35,71% 8,80 9,30 0 5 0,0% 35,71% 9,30 9,80 9 14 64,3% 100,00% Tabela 4 – Tabela de Frequência de Download Maior Valor Menor Valor K(aproximado) LS LI Amplitude 0,631666667 0,484 4 0,64 0,48 0,04 Tabela 5 – referencia para tabela de frequência de Upload Frequência de Upload Intervalo Absoluta Abs. Acumulada Relativa Rel. Acumulada 0,48 0,52 4 4 28,6% 28,57% 0,52 0,56 3 7 21,4% 50,00% 0,56 0,60 3 10 21,4% 71,43% 0,60 0,64 4 14 28,6% 100,00% Tabela 6 – Tabela de Frequência de Upload Para representarmos essas distribuições graficamente, usamos o histograma e o polígono de frequência. O histograma consiste em um conjunto de retângulos que têm centro no ponto médio e largura igual à amplitude do intervalo de classes, além de a área ser proporcional às frequências das classes. Já o polígono de frequência é um gráfico obtido ligando-se os pontos médios dos topos dos retângulos de um histograma. Figura 1 – Histograma de Frequência Absoluta de Upload Figura 2 – Polígono de Frequência Relativa de Upload Figura 3 – Histograma da Frequência Absoluta de Download Figura 4 – Polígono da Frequência Relativa de Download Com os dados relativos à frequência absoluta foi realizado um histograma. Já com os dados de frequências relativas foi feito um polígono de frequência. A partir dessa análise, foi constatada a maior parte dos Downloads na faixa de 9,3 -9,8Mbps; enquanto a velocidade de Upload mostrou-se praticamente constante, com concentração semelhante nas faixas de 0,48-0,52Mbps e 0,60-0,64Mbps (4 observações) e de 0,52-0,56Mbps e 0,56-0,60 (3 observações). De acordo com os gráficos e histogramas de frequência, podemos concluir que o upload é mais estacionário, mantém-se numa faixa menor; e o download varia muito, mesmo que seus valores sejam muito diferentes. 3.3 Boxplot: O Boxplot, realizado no programa Minitab, indica como valor de média das médias o valor 9,04864; e, para a mediana, o valor 9,45267. Há valores esparsos, porém, neste boxplot, não há nenhum outlier, ou seja, nenhuma observação apresenta um grande afastamento das restantes. Isso indica que as médias dos turnos têm um comportamento parecido entre si. Figura 5 – Boxplot das médias de download Entretanto, fazendo um Boxplot integrado que reúne todos os dados com suas respectivas médias, desvios e inclusive outliers, observamos que apenas 4 turnosnão apresentam nenhum outlier, ou seja, podem ser considerados dados sem anormalidades a uma vista grossa. Observa-se, também, uma certa semelhança entre as manhãs e noites, cuja observação indica que os dados coletados pela manhã são mais semelhantes entre si, demonstrada –exceto em TER1- pelo pequeno tamanho da caixa do Boxplot. Já os dados da noite, mesmo sendo diferentes entre si, também apresentam tamanhos semelhantes e menos outliers. Figura 6 – Boxplot integrado dos dados de download 3.4 Gráficos de Valores Individuais Esse gráfico apenas complementa a informação já dada pelos boxplots: ele representa os valores por turno de cada dado e demonstra, assim, as simetrias e assimetrias entre cada turno e entre os dados de um mesmo turno. Pode-se notar que o turno de maior amplitude entre os dados coletados é a segunda à noite e que os turnos da manhã tendem a ter menor discrepância entre os dados. É importante ressaltar que, a maior parte dos dados, se considerados apenas os de seu dia e turno, são esparsos; entretanto, caso analisadas as médias dos turnos-dias, a amplitude já não é tão grande e, como já visto, temos um Boxplot sem outliers. Figura 7 – Gráfico de valores individuais de download 3.5 Intervalo de Confiança Figura 8 – Gráfico de Intervalos Conforme o ANOVA apresenta, o intervalo de confiança de 0,95, ou seja, a probabilidade de a velocidade de download do provedor em questão estar nesse intervalo é 95% para cada um dos dados é: Fator N Média DesvPad IC de 95% SEG1 30 9,5717 0,0774 (9,3651; 9,7782) SEG2 30 9,403 0,694 ( 9,196; 9,609) TER1 30 9,767 0,712 ( 9,560; 9,973) TER2 30 8,288 0,564 ( 8,082; 8,495) QUA1 30 9,7647 0,2262 (9,5581; 9,9712) QUA2 30 8,164 0,629 ( 7,958; 8,371) QUI1 30 9,6153 0,3932 (9,4088; 9,8219) QUI2 30 8,148 0,557 ( 7,941; 8,354) SEX1 30 9,440 1,124 ( 9,233; 9,646) SEX2 30 9,4657 0,3481 (9,2591; 9,6722) SAB1 30 9,4733 0,3076 (9,2668; 9,6799) SAB2 30 8,240 0,596 ( 8,033; 8,446) DOM1 30 9,5303 0,2212 (9,3238; 9,7369) DOM2 30 7,811 0,726 ( 7,604; 8,018) Tabela 7 – ANOVA Intervalo de confiança - downloads A hipótese levantada pelo ANOVA é de que as médias são iguais e para isso, é feito todo o teste. H 0 = médias são iguais H 1 = uma média é diferente α = 0,05 (confiabilidade 95%) Assumindo a igualdade de variância para as análises, adquirimos um valor Fcalculado=47,71; e, segundo a tabela dos valores de F, para confiabilidade 95%, ele deveria ser no máximo 2,53 -> (F 0,05;13;16)=(F: α; k-1; n-k). Sendo n = 30 (dados coletados); k= 14 (número de turnos); α= nível de significância. Isso demonstra a grande variação, ou seja, distinção entre os dados analisados. Análise de Variância Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P Fator 13 205,4 15,7973 47,71 0,000 Erro 406 134,4 0,3311 Total 419 339,8 Tabela 8 – Análise de Variância – downloads 3.6 Distribuição Normal Foi feita uma análise para verificar se os dados são considerados normais ou não, ou seja, se seguem uma distribuição normal. A análise constatou que, se feita com todos os dados em conjunto, a confiabilidade é mínima. Para o gráfico, usamos o turno quarta à noite (QUA2). Figura 9 – Gráfico de teste de normalidade A probabilidade de nossos dados seguirem uma distribuição normal é mínima (Valor-P<0,005). No entanto, a fim de realizar um gráfico de normalidade, testamos a normalidade para as médias de download e upload dos turnos estudados. Com um Valor-P deficiente, de novo, a probabilidade de as médias de upload seguirem uma distribuição normal é mínima. Figura 10 – Gráfico de probabilidade das médias de upload Figura 11 – Gráfico de probabilidade de médias de download O Valor-P ainda é muito pequeno, até deficiente, comparado a uma distribuição normal padrão (Valor-P > 0,95). Tentamos, então, a partir dos dados médios de download de todos os turnos, realizar uma distribuição normalizada no Excel. Esse gráfico compara a distribuição dos dados coletados com a distribuição normal e nota-se que a linha dos dados coletados apresenta deformidades devido à não-normalidade dos dados e evidencia a hipótese apresentada. Uso do comando “dist.normp” para a tentativa. Figura 12 – Comparação entre distribuições 3.7 Média, Desvio Padrão e IC: Utilizando o banco de dados de download, expandimos as ferramentas utilizadas No Minitab. Foi possível pelos comandos Stat>Basic Statistics>One-Sample t, definir a média, desvio padrão e o intervalo de confiança dos dados de Download de cada dia durante seu respectivo turno. O 1-Sample t é utilizado quando a variância da população é desconhecida. MANHÃ Média Desvio-padrão IC de 95% Segunda 9,57 0,077 (9,5428; 9,6006) Terça 9,76 0,712 (9,501; 10,033) Quarta 9,76 0,226 (9,6802; 9,8491) Quinta 9,61 0,393 (9,4685; 9,7622) Sexta 9,44 1,124 (9,020; 9,859) Sábado 9,47 0,307 (9,3585; 9,5882) Domingo 9,53 0,221 (9,4477; 9,6129) Tabela 9 – 1-Sample t de downloads pela manhã NOITE Média Desvio-padrão IC de 95% Segunda 9,4 0,694 (9,143; 9,662) Terça 8,28 0,564 (8,078; 8,499) Quarta 8,16 0,629 (7,929; 8,399) Quinta 8,14 0,557 (7,940; 8,356) Sexta 9,46 0,348 (9,3357; 9,5956) Sábado 8,24 0,596 (8,017; 8,462) Domingo 7,81 0,726 (7,540; 8,082) Tabela 10 – 1-Sample t de downloads à noite Analisando as duas tabelas é possível observar que Sexta (manhã) foi o momento com maior variância na velocidade de Download durante a semana analisada. Por outro lado, Segunda (manhã) teve a menor variedade na velocidade durante os 30 testes. 3.8 Regressão (Download x Upload): A análise de regressão testou a correlação entre os dados médios de Download e Upload do serviço de 10 Mbps contratados. Para isso, foi usado o comando Stat > Regression > Fitted Line Plot do software Minitab. Por consequência, foi de fácil percepção que não há grande correlação entre os dados testados. A conclusão leva em conta não só a grande dispersão dos dados, como também o baixíssimo R^2 (quanto mais perto de 1, maior a correlação). Figura 13 – Regressão download x upload 3.9 Teste de Hipótese A hipótese testada foi para verificar se o desvio padrão dos valores de upload no turno da tarde podia ser considerado igual ao desvio padrão de upload dos dados da noite. Assim sendo, denotamos: : St=Sn : St≠Sn Usando o comando do Minitab Assistant>Hypothesis Tests>2-Sample Standard Deviation ficou definido que é rejeitado porque o p encontrado é >0,05 e os desvios padrões dos dois turnos não são muito diferentes. O gráfico abaixo mostra esse resultado. Figura 14 – Teste de hipótese para o desvio-padrão entre manhã e noite de upload 4. Conclusão É visível a diferença entre as velocidades testadas nos dois turnos do banco de dados. A velocidade contratada e recebida é considerada aceitável visto que está entre as médias dos turnos coletados. A disciplina Estatística para Engenharia proporcionou aos alunos ferramentas para fazer análises estatísticas críticas de uma grande variedade de bancos de dados. A proposta do trabalho de conclusão era de fazer uma comparação da velocidade de internet coletada e a velocidade contratada, além disso analisar a diferença dos valores detectados nos diferentes dias da semana. Levando isso em conta, foi concluído que nenhum dos dois servidores entregaram o valor prometido. Além disso, pode-se notar uma grande variedade de valores obtidos em diferentes dias, ou até mesmo em diferentes turnos do mesmo dia. Em suma, para todos testes feitos foram usados os softwares Excel e Minitab, programas que se bem manipulados podem extrair muitas informações de um simples banco de dados. 5.Bibliografia EstatísticaIndustrial – José Luís Duarte Ribeiro e Carla Ten Caten Plan1 Média turnos Números Absolutos Manhã Noite Manhã Noite Upload Máx Min Máx Min Download 9.594524 8.502762 11.12 9.68 10.34 8.78 Upload 0.583 0.534095 0.78 0.55 0.76 0.6
Compartilhar