Buscar

Trabalho Final - prof. Ana Larranaga

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
DEPARTAMENTO DE ENGENHARIA DE PRODUÇÃO E TRANSPORTE 
ENG09004-ESTATÍSTICA PARA ENGENHARIA
TRABALHO DE CONCLUSÃO DA CADEIRA
Fernanda Barth
Junior Portela
Mônica Victorino
 
Porto Alegre, Julho 2015
Introdução
Este trabalho tem como objetivo principal uma análise estatística crítica utilizando conceitos aprendidos ao longo da cadeira Estatística para Engenharia-ENG09004. Para isso, o grupo teve de testar as velocidades de download e upload de uma rede de Internet durante 30 dias, dividindo cada dia em dois turnos (um pela manhã e o outro à noite). 
O banco de dados foi analisado e então comparado para verificar as conformidades entre as taxas coletadas. Foram coletados 840 dados, com o intuito de comparar os resultados com as velocidades do servidor contratado, uma conexão wi-fi 10Mbps. Cabe ressaltar que, nas análises mais importantes, será, muitas vezes, apenas a velocidade de download considerada, já que é uma análise semelhante para a de upload.
Nota: os índices 1 e 2, apresentados após cada dia analisado indicam, respectivamente, manhã e noite.
Referencial Teórico
2.1 Dados e velocidade de Download: a velocidade de download (baixar) é a taxa com a qual algum dado é transferido de um servidor remoto (internet) para um computador local, ou seja, está relacionado com a obtenção de dados da Internet. No entanto, o uso comum (não-técnico) do termo download se limita a referenciar o conteúdo que é obtido da internet para visualização posterior (offline), como um documento ou aplicativo.
2.2 Dados e velocidade de Upload: a velocidade de upload (carregamento) é taxa com a qual, inversamente ao download, algum computador local envia dados a algum servidor remoto. É, portanto, a saída de arquivos de um computador para a internet.
2.3 Boxplot:
O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica dos dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite superior. Os limites são calculados da forma abaixo:
Limite inferior: .
Limite superior: .
Para este caso, os pontos fora destes limites são considerados valores discrepantes (outliers) e são denotados por asterisco (*)
2.4 ANOVA
Para compararmos a variância entre vários grupos utilizamos a ferramenta estatística de análise de dados ANOVA. Podemos, portanto, fazer uso dessa ferramenta para comparar as médias de velocidade entre os dias da semana observados. 
2.5 Teste de Hipóteses
Para decidir se certa hipótese é sustentada pelos dados de uma amostra fornecida é feito um teste de hipóteses. A hipótese pode investigar um parâmetro ou então uma forma de distribuição (paramétrica e não paramétrica, respectivamente).
2.6 Análise de Regressão
É uma ferramenta da estatística que estima a relação que uma variável independente (x) tem com uma variável dependente (y). Para uma melhor análise de regressão é necessário ter o conhecimento do que é correlação (relacionamento linear ente duas variáveis aleatórias) e casualidade (a influência da causa sobre o efeito).
Desenvolvimento
 3.1 Médias e valores máximo-mínimo
Foi utilizado o comando “média”, no Microsoft Excel, para calcular a média da velocidade de download e upload em cada turno. Após, com o “ordem.eq” e o comando “classificar segundo a ordem crescente” foram obtidos os dados em ordem crescente, e então analisado qual turno continha as velocidades médias maiores. Além disso, com auxílio dos comandos “Máximo” e “Mínimo” conseguimos os valores absolutos de máximo e mínimo de Upload e Download.
Tabela 1 – Médias e valores máximo-mínimo
	 Download
	 
	 Upload
	DOM2
	7,811
	
	SEG1
	0,484
	QUI2
	8,147667
	
	TER2
	0,485
	QUA2
	8,164333
	
	QUA2
	0,485
	SAB1
	8,239667
	
	SEG2
	0,512333
	TER2
	8,288333
	
	SEX1
	0,539333
	SEG2
	9,402667
	
	SEX2
	0,548
	SEX1
	9,439667
	
	QUI2
	0,556333
	SEX2
	9,465667
	
	DOM2
	0,572667
	SAB1
	9,473333
	
	SAB2
	0,579333
	DOM1
	9,530333
	
	QUI1
	0,580667
	SEG1
	9,571667
	
	SAB1
	0,603
	QUI1
	9,615333
	
	TER1
	0,618667
	QUA1
	9,764667
	
	QUA1
	0,623667
	TER1
	9,766667
	
	DOM1
	0,631667
Tabela 2 - Ordem crescente de médias segundo os turnos
3.2 Distribuição de Frequências
Primeiramente, foram utilizados os dados médios de download e upload coletados, ou seja, a média diária de velocidade (tabela 2). A partir desses valores, foram calculados os valores “n” e “k”; respectivamente, os limites superiores e inferiores, e a amplitude. Depois, realizamos uma tabela de frequências contendo as frequências absolutas e relativas com suas respectivas acumulações e seus limites inferiores e superiores de cada classe. 
	Maior Valor
	Menor Valor
	K(aproximado)
	LS
	LI
	Amplitude
	9,766666667
	7,811
	4
	9,8
	7,8
	0,5
Tabela 3 – referencia para tabela de frequência de Download
Frequência de Download
	 Intervalo
	Absoluta
	Abs. Acumulada
	Relativa
	Rel. Acumulada
	7,80
	8,30
	5
	5
	35,7%
	35,71%
	8,30
	8,80
	0
	5
	0,0%
	35,71%
	8,80
	9,30
	0
	5
	0,0%
	35,71%
	9,30
	9,80
	9
	14
	64,3%
	100,00%
Tabela 4 – Tabela de Frequência de Download
	Maior Valor
	Menor Valor
	K(aproximado)
	LS
	LI
	Amplitude
	0,631666667
	0,484
	4
	0,64
	0,48
	0,04
Tabela 5 – referencia para tabela de frequência de Upload
Frequência de Upload
	 Intervalo
	Absoluta
	Abs. Acumulada
	Relativa
	Rel. Acumulada
	0,48
	0,52
	4
	4
	28,6%
	28,57%
	0,52
	0,56
	3
	7
	21,4%
	50,00%
	0,56
	0,60
	3
	10
	21,4%
	71,43%
	0,60
	0,64
	4
	14
	28,6%
	100,00%
Tabela 6 – Tabela de Frequência de Upload
Para representarmos essas distribuições graficamente, usamos o histograma e o polígono de frequência. O histograma consiste em um conjunto de retângulos que têm centro no ponto médio e largura igual à amplitude do intervalo de classes, além de a área ser proporcional às frequências das classes. Já o polígono de frequência é um gráfico obtido ligando-se os pontos médios dos topos dos retângulos de um histograma.
Figura 1 – Histograma de Frequência Absoluta de Upload
Figura 2 – Polígono de Frequência Relativa de Upload
Figura 3 – Histograma da Frequência Absoluta de Download
Figura 4 – Polígono da Frequência Relativa de Download
Com os dados relativos à frequência absoluta foi realizado um histograma. Já com os dados de frequências relativas foi feito um polígono de frequência. A partir dessa análise, foi constatada a maior parte dos Downloads na faixa de 9,3 -9,8Mbps; enquanto a velocidade de Upload mostrou-se praticamente constante, com concentração semelhante nas faixas de 0,48-0,52Mbps e 0,60-0,64Mbps (4 observações) e de 0,52-0,56Mbps e 0,56-0,60 (3 observações).
De acordo com os gráficos e histogramas de frequência, podemos concluir que o upload é mais estacionário, mantém-se numa faixa menor; e o download varia muito, mesmo que seus valores sejam muito diferentes. 
3.3 Boxplot:
O Boxplot, realizado no programa Minitab, indica como valor de média das médias o valor 9,04864; e, para a mediana, o valor 9,45267. Há valores esparsos, porém, neste boxplot, não há nenhum outlier, ou seja, nenhuma observação apresenta um grande afastamento das restantes. Isso indica que as médias dos turnos têm um comportamento parecido entre si.
Figura 5 – Boxplot das médias de download
Entretanto, fazendo um Boxplot integrado que reúne todos os dados com suas respectivas médias, desvios e inclusive outliers, observamos que apenas 4 turnosnão apresentam nenhum outlier, ou seja, podem ser considerados dados sem anormalidades a uma vista grossa. Observa-se, também, uma certa semelhança entre as manhãs e noites, cuja observação indica que os dados coletados pela manhã são mais semelhantes entre si, demonstrada –exceto em TER1- pelo pequeno tamanho da caixa do Boxplot. Já os dados da noite, mesmo sendo diferentes entre si, também apresentam tamanhos semelhantes e menos outliers. 
Figura 6 – Boxplot integrado dos dados de download
	
3.4 Gráficos de Valores Individuais
Esse gráfico apenas complementa a informação já dada pelos boxplots: ele representa os valores por turno de cada dado e demonstra, assim, as simetrias e assimetrias entre cada turno e entre os dados de um mesmo turno. Pode-se notar que o turno de maior amplitude entre os dados coletados é a segunda à noite e que os turnos da manhã tendem a ter menor discrepância entre os dados. É importante ressaltar que, a maior parte dos dados, se considerados apenas os de seu dia e turno, são esparsos; entretanto, caso analisadas as médias dos turnos-dias, a amplitude já não é tão grande e, como já visto, temos um Boxplot sem outliers.
Figura 7 – Gráfico de valores individuais de download
3.5 Intervalo de Confiança
	
Figura 8 – Gráfico de Intervalos
Conforme o ANOVA apresenta, o intervalo de confiança de 0,95, ou seja, a probabilidade de a velocidade de download do provedor em questão estar nesse intervalo é 95% para cada um dos dados é:
Fator N Média DesvPad IC de 95%
SEG1 30 9,5717 0,0774 (9,3651; 9,7782)
SEG2 30 9,403 0,694 ( 9,196; 9,609)
TER1 30 9,767 0,712 ( 9,560; 9,973)
TER2 30 8,288 0,564 ( 8,082; 8,495)
QUA1 30 9,7647 0,2262 (9,5581; 9,9712)
QUA2 30 8,164 0,629 ( 7,958; 8,371)
QUI1 30 9,6153 0,3932 (9,4088; 9,8219)
QUI2 30 8,148 0,557 ( 7,941; 8,354)
SEX1 30 9,440 1,124 ( 9,233; 9,646)
SEX2 30 9,4657 0,3481 (9,2591; 9,6722)
SAB1 30 9,4733 0,3076 (9,2668; 9,6799)
SAB2 30 8,240 0,596 ( 8,033; 8,446)
DOM1 30 9,5303 0,2212 (9,3238; 9,7369)
DOM2 30 7,811 0,726 ( 7,604; 8,018)
 Tabela 7 – ANOVA Intervalo de confiança - downloads
A hipótese levantada pelo ANOVA é de que as médias são iguais e para isso, é feito todo o teste. 
H 0 = médias são iguais
H 1 = uma média é diferente
α = 0,05 (confiabilidade 95%)
Assumindo a igualdade de variância para as análises, adquirimos um valor Fcalculado=47,71; e, segundo a tabela dos valores de F, para confiabilidade 95%, ele deveria ser no máximo 2,53 -> (F 0,05;13;16)=(F: α; k-1; n-k). Sendo n = 30 (dados coletados); k= 14 (número de turnos); α= nível de significância. Isso demonstra a grande variação, ou seja, distinção entre os dados analisados.
Análise de Variância
Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P
Fator 13 205,4 15,7973 47,71 0,000
Erro 406 134,4 0,3311
Total 419 339,8
 Tabela 8 – Análise de Variância – downloads
3.6 Distribuição Normal
Foi feita uma análise para verificar se os dados são considerados normais ou não, ou seja, se seguem uma distribuição normal. A análise constatou que, se feita com todos os dados em conjunto, a confiabilidade é mínima. Para o gráfico, usamos o turno quarta à noite (QUA2).
Figura 9 – Gráfico de teste de normalidade 
A probabilidade de nossos dados seguirem uma distribuição normal é mínima (Valor-P<0,005). No entanto, a fim de realizar um gráfico de normalidade, testamos a normalidade para as médias de download e upload dos turnos estudados.
Com um Valor-P deficiente, de novo, a probabilidade de as médias de upload seguirem uma distribuição normal é mínima.
Figura 10 – Gráfico de probabilidade das médias de upload
Figura 11 – Gráfico de probabilidade de médias de download
O Valor-P ainda é muito pequeno, até deficiente, comparado a uma distribuição normal padrão (Valor-P > 0,95). Tentamos, então, a partir dos dados médios de download de todos os turnos, realizar uma distribuição normalizada no Excel. Esse gráfico compara a distribuição dos dados coletados com a distribuição normal e nota-se que a linha dos dados coletados apresenta deformidades devido à não-normalidade dos dados e evidencia a hipótese apresentada. Uso do comando “dist.normp” para a tentativa. 
Figura 12 – Comparação entre distribuições 
3.7 Média, Desvio Padrão e IC:
Utilizando o banco de dados de download, expandimos as ferramentas utilizadas No Minitab. Foi possível pelos comandos Stat>Basic Statistics>One-Sample t, definir a média, desvio padrão e o intervalo de confiança dos dados de Download de cada dia durante seu respectivo turno. O 1-Sample t é utilizado quando a variância da população é desconhecida. 
	MANHÃ
	Média
	Desvio-padrão
	IC de 95%
	Segunda
	9,57
	0,077
	(9,5428; 9,6006)
	Terça
	9,76
	0,712
	(9,501; 10,033)
	Quarta
	9,76
	0,226
	(9,6802; 9,8491)
	Quinta
	9,61
	0,393
	(9,4685; 9,7622)
	Sexta
	9,44
	1,124
	(9,020; 9,859)
	Sábado
	9,47
	0,307
	(9,3585; 9,5882)
	Domingo
	9,53
	0,221
	(9,4477; 9,6129)
Tabela 9 – 1-Sample t de downloads pela manhã
	NOITE
	Média
	Desvio-padrão
	IC de 95%
	Segunda
	9,4
	0,694
	(9,143; 9,662)
	Terça
	8,28
	0,564
	(8,078; 8,499)
	Quarta
	8,16
	0,629
	(7,929; 8,399)
	Quinta
	8,14
	0,557
	(7,940; 8,356)
	Sexta
	9,46
	0,348
	(9,3357; 9,5956)
	Sábado
	8,24
	0,596
	(8,017; 8,462)
	Domingo
	7,81
	0,726
	(7,540; 8,082)
Tabela 10 – 1-Sample t de downloads à noite
Analisando as duas tabelas é possível observar que Sexta (manhã) foi o momento com maior variância na velocidade de Download durante a semana analisada. Por outro lado, Segunda (manhã) teve a menor variedade na velocidade durante os 30 testes.
3.8 Regressão (Download x Upload):
A análise de regressão testou a correlação entre os dados médios de Download e Upload do serviço de 10 Mbps contratados. Para isso, foi usado o comando Stat > Regression > Fitted Line Plot do software Minitab. Por consequência, foi de fácil percepção que não há grande correlação entre os dados testados. A conclusão leva em conta não só a grande dispersão dos dados, como também o baixíssimo R^2 (quanto mais perto de 1, maior a correlação).
Figura 13 – Regressão download x upload
3.9 Teste de Hipótese
A hipótese testada foi para verificar se o desvio padrão dos valores de upload no turno da tarde podia ser considerado igual ao desvio padrão de upload dos dados da noite. Assim sendo, denotamos:
: St=Sn 
: St≠Sn
Usando o comando do Minitab Assistant>Hypothesis Tests>2-Sample Standard Deviation ficou definido que é rejeitado porque o p encontrado é >0,05 e os desvios padrões dos dois turnos não são muito diferentes. O gráfico abaixo mostra esse resultado.
Figura 14 – Teste de hipótese para o desvio-padrão entre manhã e noite de upload
4. Conclusão 
É visível a diferença entre as velocidades testadas nos dois turnos do banco de dados. A velocidade contratada e recebida é considerada aceitável visto que está entre as médias dos turnos coletados.
A disciplina Estatística para Engenharia proporcionou aos alunos ferramentas para fazer análises estatísticas críticas de uma grande variedade de bancos de dados. A proposta do trabalho de conclusão era de fazer uma comparação da velocidade de internet coletada e a velocidade contratada, além disso analisar a diferença dos valores detectados nos diferentes dias da semana. Levando isso em conta, foi concluído que nenhum dos dois servidores entregaram o valor prometido. Além disso, pode-se notar uma grande variedade de valores obtidos em diferentes dias, ou até mesmo em diferentes turnos do mesmo dia. Em suma, para todos testes feitos foram usados os softwares Excel e Minitab, programas que se bem manipulados podem extrair muitas informações de um simples banco de dados. 
5.Bibliografia
EstatísticaIndustrial – José Luís Duarte Ribeiro e Carla Ten Caten
Plan1
	 Média turnos	 Números Absolutos
	 Manhã	Noite	 Manhã	 Noite
	Upload	Máx	Min	Máx	Min
	Download	9.594524	8.502762	11.12	9.68	10.34	8.78
	Upload	0.583	0.534095	0.78	0.55	0.76	0.6

Outros materiais