Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PONTA GROSSA CURSO DE ENGENHARIA ELÉTRICA Ezequiel Novak – RA: 2164132 Guilherme Ferreira do Santos – RA:2002159 Henrique Klesse Pasianotto – RA: 2164175 ANÁLISE ESTATÍSTICA DO ARQUIVO “dados6.dat” PONTA GROSSA 2019 TURMA EE21 1 Sumário 1 INTRODUÇÃO .................................................................................................................. 2 2 TABELAS, GRÁFICOS E DISCUSSÃO .......................................................................... 2 2.1 Dados analisados .......................................................................................................... 2 2.2 Percentis ....................................................................................................................... 3 2.3 Valores extremos ......................................................................................................... 3 2.4 Medidas resumo ........................................................................................................... 4 2.4.1 Medidas de posição .................................................................................................. 5 2.4.1.1 Média ........................................................................................................................ 5 2.4.1.2 Mediana .................................................................................................................... 5 2.4.2 Medidas de dispersão ............................................................................................... 6 2.4.2.1 Variância .................................................................................................................. 6 2.4.2.2 Desvio padrão ........................................................................................................... 6 2.4.2.3 Amplitude ................................................................................................................. 7 2.4.2.4 Intervalo interquartil ................................................................................................. 7 2.5 Gráfico boxplot ............................................................................................................ 8 2.6 Testes de normalidade ................................................................................................. 9 2.6.1 Teste de Shapiro ..................................................................................................... 12 2.7 Histograma e curva normal ........................................................................................ 13 3 TESTES DE HIPÓTESES ................................................................................................ 14 3.1 Intervalo de Confiança ............................................................................................... 14 3.2 Estimativa da Média Populacional ............................................................................ 16 3.3 Teste F ........................................................................................................................ 17 4 CONCLUSÃO .................................................................................................................. 18 REFERÊNCIAS ....................................................................................................................... 19 2 1 INTRODUÇÃO É indubitável a enorme quantidade de informações e dados que compõem o mundo hodierno, seja através de relatórios de operação de máquinas, por exemplo, seja pela internet. Sob essa perspectiva, o estudo de probabilidade e, sobretudo, estatística, é primordial ao desenvolvimento humano. Dessa maneira, Montgomery e Runger (2018, p. 1) explicitam a importância dessa área de conhecimento por meio de um exemplo: Estatística é a ciência que nos ajuda a tomar decisões e tirar conclusões na presença de variabilidade. Por exemplo, engenheiros civis trabalhando no campo de transportes estão preocupados com a capacidade de sistemas regionais de rodovias. Um problema típico envolveria dados sobre o número de viagens de trailers, o número de pessoas por moradia e o número de veículos por moradia. O objetivo seria produzir um modelo de geração de viagens relacionando viagens com o número de pessoas por moradia e o número de veículos por moradia. Uma técnica estatística chamada de análise de regressão pode ser usada para construir esse modelo. O modelo de geração de viagens é uma ferramenta importante para planejar sistemas de transporte. Logo, o objetivo do presente trabalho é a análise estatística descritiva do arquivo intitulado “dados6.dat” presente no Moodle. Complementando, os softwares utilizados à obtenção dos resultados que serão apresentados ao decorrer do trabalho foram o IBM SPSS e o Software R, na plataforma Windows 10 versão 64 bits. 2 TABELAS, GRÁFICOS E DISCUSSÃO 2.1 Dados analisados O objeto de estudo, mencionado anteriormente na introdução, é constituído de duas amostras pertencentes a diferentes populações e dispostas em duas colunas, cada uma com exatamente mil elementos. A tabela a seguir apresenta o relatório do processamento de dados: Tabela 1: Sumário de Processamento de Casos Casos Válidos Inválidos Total N Porcentagem N Porcentagem N Porcentagem Amostra 1 1000 100,0% 0 0,0% 1000 100,0% Amostra 2 1000 100,0% 0 0,0% 1000 100,0% FONTE: Autoria própria. 3 De acordo com a tabela anterior, percebe-se que todos os elementos pertencentes ao arquivo são válidos, isto é, são valores numéricos sem nenhum símbolo ou letra (µ, a, *, %), exceto, em alguns casos, o sinal de negativo. Ademais, outra informação importante é que cada um dos elementos possui seis casas decimais. 2.2 Percentis Percentis são os valores que separam uma amostra ordenada de forma que deixem determinada porcentagem dos dados à esquerda. Assim, o percentil 5, por exemplo, é aquele que deixa 5% dos elementos à esquerda e, por conseguinte, 95% à direita. Analisando a tabela a seguir, constata-se que ambas as amostras possuem valores relativamente próximos para os mesmos percentis, com exceção dos que ocupam a posição 75. Tabela 2: Percentis Percentis 5 10 25 50 Amostra 1 -4,37286805 -3,76801920 -2,41225775 -1,10028550 Amostra 2 -4,49531145 -3,83236960 -2,80541875 -1,33114700 Percentis 75 90 95 Amostra 1 0,27259850 1,45211810 2,24509895 Amostra 2 0,11198725 1,39532090 2,03214910 FONTE: Autoria própria. Complementando, é preciso salientar que os percentis e 25, 50 e 75 recebem a nomenclatura de quartis, uma vez que separam as amostras em quatro partes iguais. 2.3 Valores extremos Os valores extremos estão presentes na tabela abaixo: 4 Tabela 3: Valores extremos Amostra 1 Valores 1° 6,021953 2° 4,729491 Maiores 3° 4,604009 4° 4,499368 5° 4,398201 1° -8,725360 2° -7,459288 Menores 3° -7,332817 4° -6,799078 5° -6,699047 Amostra 2 Valores 1° 5,486933 2° 4,835388 Maiores 3° 4,465852 4° 4,432154 5° 4,350485 1° -7,385121 2° -7,192021 Menores 3° -7,186997 4° -6,806709 5° -6,456954 FONTE: Autoria própria. Segundo a tabela anterior, é evidente que a primeira amostra possui o maior e o menor valor entre as duas amostras, isto é, 6,021953 e -8,725360, respectivamente. 2.4 Medidas resumo A tabela a seguir mostra os valores numéricos do estudo das medidas de posição e de dispersão. Tabela 4: Estatísticas Descritivas Medida Amostra 1 Amostra 2 Média -1,09383957 -1,27707074 Mediana -1,10028550 -1,33114700 Variância 4,157 4,159 Desvio padrão 2,038959069 2,039410361 Mínimo -8,725360 -7,385121 Máximo 6,021953 5,486933 Amplitude 14,747313 12,872054 Intervalo interquartil 2,684856 2,917406 FONTE: Autoria própria.5 2.4.1 Medidas de posição 2.4.1.1 Média A média é uma medida estatística de tendência central, a qual é calculada através da razão entre o somatório dos dados X𝑖 de uma amostra e o número de elementos n. Ademais, representa um ponto de equilíbrio para onde os dados tendem a estar concentrados. Assim, tende a ser um valor central da amostra, mas não é necessariamente igual à mediana. No nosso caso, como trata-se da análise de da média amostral X̅, utiliza-se: �̅� = 1 𝑛 .∑𝑋𝑖 𝑛 𝑖=1 (1) Analogamente, a média populacional é representada pela letra grega μ ao invés da notação X̅. Ao se analisar e comparar as duas amostras, corrobora-se que a amostra 1 possui uma média X̅1 = −1,09383957 e a segunda X̅2 = −1,27707074. Comparando ambas amostras, observa-se que X̅1 > X̅2, ou seja, os dados da amostra 1 inclinam-se a ser maiores que os dados da amostra 2. 2.4.1.2 Mediana A mediana é um valor central que separa um conjunto de dados exatamente ao meio, deixando 50% dos dados à esquerda e 50% à direita, sendo, portanto, um valor geometricamente central de um conjunto. Assim, em conjuntos com um número par de elementos, tais como as amostras do presente trabalho, com 1000 dados cada, a mediana é dada pela média entre os dois valores centrais do conjunto. Por outro lado, caso o número de elementos seja ímpar, é dada simplesmente pelo elemento que os dividem em duas partes iguais. Complementando, vale ressaltar que, para se obter a mediana, os dados do conjunto devem estar ordenados, seja em ordem crescente, seja decrescente. Logo, a mediana da primeira e da segunda amostras foram, respectivamente, -1,1002855 e -1,331147. Também é possível perceber que a média e a mediana de ambas as amostras são valores bem próximos, porém diferentes. 6 2.4.2 Medidas de dispersão 2.4.2.1 Variância A variância é uma medida de variabilidade ou dispersão, podendo ser calculada em relação a uma população ou a uma amostra. A variância populacional 𝜎2 é definida como a média do quadrado dos desvios dos dados em relação à média μ da população, na qual N é o número de dados da população: 𝜎2 = 1 𝑁 .∑(𝑋𝑖 − μ) 2 𝑁 𝑖=1 (2) Por outro lado, para variância amostral S2, substitui-se μ por X̅ e N por (n-1), o qual representa o número total de elementos da amostra menos um: 𝑆2 = 1 𝑛 − 1 .∑(𝑋𝑖 − �̅�) 2 𝑛 𝑖=1 (3) Ambas as variâncias expressam como os dados variam em relação à média. Suas unidades estão elevadas ao quadrado da dimensão original dos dados. Por exemplo, se os dados estiverem em cm, a dimensão da variância será em cm². Tal fenômeno é decorrente do cálculo de tal medida, no qual, a fim de evitar que a somatória dos desvios em relação à média se anule, são elevados ao quadrado. Dessa forma, a dimensão também se torna o quadrado da original. Comparando as duas amostras, vemos que a amostra 1 possui variância 4,157 e a amostra 2 de 4,159, sendo a diferença entre ambas muito pequena: apenas 0,002. Nota-se também que a segunda é a mais variável entre as duas. 2.4.2.2 Desvio padrão O desvio padrão também é uma medida de variabilidade ou dispersão, subdivido em desvio padrão populacional 𝜎 e desvio padrão amostral S. A fim de obter uma medida de dispersão na mesma dimensão dos dados, tira-se a raiz quadrada da variância, tanto para a amostral quanto para a populacional: 𝜎 = √𝜎2 = √ 1 𝑁 .∑(𝑋𝑖 − μ)2 𝑁 𝑖=1 (4) 7 𝑆 = √𝑆2 = √ 1 𝑛 − 1 .∑(𝑋𝑖 − �̅�)2 𝑛 𝑖=1 (5) Por ser uma medida na mesma dimensão dos dados do conjunto analisado, diferentemente da variância, há uma maior facilidade para se analisar os resultados. Sob essa perspectiva, para o arquivo averiguado, obteve-se um desvio padrão amostral de 2,038959069 para a primeira amostra e de 2,039410361 para a segunda. Por fim, ao se comparar tais valores, embora muito próximos, nota-se que a amostra 1 possui distribuição mais homogênea que a outra, uma vez que o valor de S é menor. 2.4.2.3 Amplitude A amplitude é uma medida de dispersão dada pela diferença entre o elemento de maior (máximo) e o de menor (mínimo) valor em um conjunto de dados. O valor da amplitude é sempre positivo ou nulo, já que representa a distância entre os valores extremos do conjunto, sendo, portanto, um fragmento da reta real no qual estão dispostos todos os valores. A amplitude da amostra 1 é igual a 14,747313, sendo maior que a amplitude da amostra 2, que é de 12,872054. Ou seja, os valores extremos da primeira estão mais distantes da média do que os da segunda. 2.4.2.4 Intervalo interquartil O intervalo interquartil é a região da reta real que abrange exatamente 50% dos dados que estão localizados mais ao centro da distribuição do conjunto, a qual é calculada pela diferença entre o terceiro quartil (Q3) e o primeiro (Q1). Ademais, os quartis são os valores que separam um conjunto em 4 partes iguais, nos quais Q1 tem 25% dos dados à esquerda e 75% à direita; Q2 é igual à mediana, estando exatamente no meio conjunto, e Q3 segrega 75% dos dados à esquerda e 25% à direita. É importante salientar que, para se obter os valores de Q1, Q2 e Q3, os dados devem ser ordenados em ordem crescente, como no nosso caso. A intervalo interquartil das duas amostras são, respectivamente: 2,684856 e 2,917406. Dessa forma, é evidente que a amostra 2 possui um intervalo interquartil maior e, por conseguinte, possui seus valores dentro do intervalo mais dispersos, contribuindo para um 8 desvio padrão maior. Paralelamente, a amostra 1 possui seus dados dentro do intervalo interquartil mais concentrado, contribuindo para um desvio padrão menor. 2.5 Gráfico boxplot Gráficos do tipo boxplot (ou diagrama de caixa, em português) são a representação gráfica de um conjunto de dados, a qual permite avaliar rapidamente a dispersão deles, destacando também os valores discrepantes presentes, também conhecidos como outliers. FONTE: Autoria própria. Pode-se, portanto, ilustrar algumas das medidas presentes na sessão 2.4 com o gráfico acima. Logo, é evidente que ambas as amostras possuem similaridades, uma vez que tanto a mediana, isto é, o traço horizontal no interior da caixa, os limites, tanto superiores quanto inferiores e o tamanho da caixa estão bem próximos. No entanto, percebe-se também que há uma quantidade maior de outliers (ou valores discrepantes) na amostra 1, ao passo que a segunda quase não possui outliers. 9 2.6 Testes de normalidade Caso queira se saber se determinada amostra segue uma distribuição normal, ou gaussiana, é necessário se realizar diversos testes. Primeiramente, podemos analisar os gráficos abaixo, no qual o desvio dos dados em relação aos valores esperados para a distribuição Normal é dado no eixo y, ao passo que o valor de cada elemento é dado no eixo x. FONTE: Autoria própria. FONTE: Autoria própria. Os gráficos acima chamam-se worm-plot, ou gráfico minhoca, e são parcelas do gráfico Q-Q. Em adição, são uma ferramenta utilizada para visualizar e obter conclusões de quão bem 10 um modelo estatístico se ajusta aos dados. Nesse caso, o modelo a ser testado era o da distribuição normal. Assim, pode-se encontrar locais em que o ajuste pode ser melhorado e comparar o ajuste de diferentes modelos Através da disposição dos elementos em ambos os gráficos, os da amostra 1 aparentam seguir uma distribuição gaussiana, embora não se possa tirar muitas conclusões a respeito da distribuição da segunda amostra. Se os dados forem normais, a curva worm-plot deve aparentar um verme achatado, com pontos próximos à linha e poucas oscilações, como na primeira amostra. Entretanto, na segunda nota-se uma oscilação grande no verme e pontos muito dispersos, reforçando a hipótese de que os dados não seguem como referência tal tipo de distribuição. Analogamente, os gráficos quantil-quantil(Q-Q) a seguir são uma ferramenta de probabilidade para comparar conjuntos de dados específicos que se aproximam de uma distribuição normal. Se os pontos seguirem um determinado padrão, formar-se-á uma linha aproximadamente reta. Também é possível observar a distribuição de conjuntos de dados em vários pontos e compará-los com a linha de referência: FONTE: Autoria própria. 11 FONTE: Autoria própria. Considerando-se os gráficos Q-Q acima, nota-se que os pontos se encontram relativamente próximos da linha teórica dos valores esperados de uma distribuição normal. No entanto, não se pode afirmar o mesmo sobre os elementos mais distantes da média, já que não estão exatamente sobre ela. Os métodos acima representam uma análise qualitativa a respeito da distribuição, ao passo que os testes abaixo oferecem valores para uma análise quantitativa, que por sua vez podem ser usados para afirmar ou negar que os elementos das amostras seguem distribuições aproximadamente normais. Tabela 5: Testes de Normalidade Kolmogorov-Smirnov Shapiro-Wilk Estatística Número de dados p1 Estatística Número de dados p2 Amostra 1 0,022 1000 0,200 0,998 1000 0,266 Amostra 2 0,027 1000 0,095 0,997 1000 0,116 FONTE: Autoria própria. Dos dois testes aplicados, ambos com 5% de nível de significância, o segundo é o mais indicado e apresenta melhores resultados em relação ao primeiro, uma vez que o teste de Shapiro-Wilk deve ser usado em amostras com mais de 100 elementos, como é o caso do 12 arquivo em estudo, e o de Kolmogorov-Smirnov quando são compostas por menos de 100 e mais de 30. Assim, de acordo com os resultados obtidos, temos que p1 e p2 são relativamente próximos e ambos maiores que 0,05, ou seja, p1,p2 > 0,05. Por conseguinte, a não se rejeita a hipótese nula H0 de que as populações seguem uma distribuição normal. Ademais, a tese é corroborada ao se analisar os gráficos anteriores. Complementando, a explicação do Teste de Shapiro está presente no subtópico a seguir. 2.6.1 Teste de Shapiro O teste de Shapiro-Wilk é um teste de normalidade de dados utilizado para determinar se um conjunto de dados de uma variável pode ser representado por uma distribuição normal. Dessa forma, é amplamente utilizado nas mais diversas áreas. Na engenharia de produção e na administração, por exemplo, é muito comum termos aplicações em curvas normais de probabilidade, como no controle de qualidade, fazendo-se necessário o uso de testes como o de Shapiro. Para podermos aplicá-lo, exige-se suposições específicas sobre as populações das quais as amostras foram extraídas e que duas hipóteses sejam satisfeitas: a variável dependente tenha distribuição normal e as variâncias populacionais sejam homogêneas, no caso da comparação de duas ou mais populações. A fórmula abaixo baseia-se na estática de W para tomar decisões sobre a distribuição. 𝑊 = 𝑏2 ∑ (𝑥𝑖 − �̅�)2 𝑛 𝑖=1 (7) Na qual xi são os valores da variável x, n é o número de elementos e b é dado por: 𝑏 = { ∑𝑎𝑛−𝑖 𝑛/2 𝑖=1 . (𝑥𝑛−𝑖+1 − 𝑥𝑖) 𝑠𝑒 𝑛 é 𝑝𝑎𝑟 ∑ 𝑎𝑛−𝑖+1 (𝑛+1)/2 𝑖=1 . (𝑥𝑛−𝑖+1 − 𝑥𝑖) 𝑠𝑒 𝑛 é í𝑚𝑝𝑎𝑟 (8) E ai são constantes geradas a partir da média, variância e covariância de ordem n de uma distribuição normal. Caso os valores de W sejam pequenos, há evidências que a distribuição da variável não é normal. Para aplicar-se o teste, primeiro deve-se fixar duas hipóteses: uma nula H0, afirmando que a amostra vem de uma distribuição normal e uma alternativa H1, na qual a amostra não vem 13 de uma distribuição normal. Em seguida, informa-se o nível de significância 𝛼 do teste e calcula-se o valor de p. Por último é preciso analisar as hipóteses H0 e H1 e, caso o valor de p for menor que 𝛼, rejeita-se H0, caso contrário, não se rejeita H0. 2.7 Histograma e curva normal Uma vez que os testes de aderência foram feitos, é possível montar os histogramas e traçar curvas normais, os quais estão dispostos abaixo: FONTE: Autoria própria. 14 FONTE: Autoria própria. Logo, conclui-se que a primeira amostra se adequa melhor à distribuição normal que a segunda, já que as barras do histograma se aproximam melhor do traço teórico da curva normal, como previsto anteriormente na sessão 2.6, utilizando-se métodos qualitativos e quantitativos. 3 TESTES DE HIPÓTESES 3.1 Intervalo de Confiança Em estatística, um Intervalo de Confiança (IC) é um intervalo numérico em que um determinado parâmetro (média, variância ou proporções populacionais) tem maior probabilidade de estar contido, considerando-se determinado nível de confiança. Para se obter um IC para um parâmetro populacional, deve-se primeiro ter uma amostra coletada para então obtermos os estimadores e, a partir deles, relacionar as informações da amostra com os parâmetros da população. Então, constrói-se um intervalo, com determinada margem de erro, para o qual deve estar contido o parâmetro de interesse, no caso 𝜇. No caso em estudo, há duas amostras grandes, com mil elementos cada e distribuição aproximadamente normal, de acordo com os testes realizados anteriormente. Nesse caso queremos estimar um IC para a média populacional, isto é, um intervalo numérico onde a verdadeira média da população pode estar contida. Logo, foi utilizado um nível de confiança de 95%, ou seja, a probabilidade da verdadeira média populacional 𝜇 estar contida nesse intervalo é de 95%. Nesse caso, tem-se que o valor crítico de z é 𝑧𝛼/2 = 1,96 e que o erro é: 15 𝐸 = 𝑧𝛼/2 . 𝑆 √𝑛 (8) Paralelamente, o erro padrão 𝜎�̅� pode ser dado por: 𝜎�̅� = 𝑆 √𝑛 (9) Substituindo a equação (9) na equação (8), obtém-se: 𝐸 = 𝑧𝛼/2 .𝜎�̅� (10) Dessa forma, usa-se os valores da média amostral �̅� e do erro E para se construir um intervalo de confiança para verdadeira média 𝜇: �̅� − 𝐸 ≤ 𝜇 ≤ �̅� + 𝐸 (11) Na qual os membros �̅� − 𝐸 e �̅� + 𝐸 representam, respectivamente, o Limite Inferior e o Limite Superior do IC. Assim, usou-se tais conceitos e fórmulas para calcular-se as informações contidas nas tabelas 6 e 7. Tabela 6: IC para a Amostra 1 Amostra 1 Estatísticas Média -1,09383957 Intervalo de confiança de 95% para média Limite inferior -1,22036653 Limite superior -0,96731261 Erro Padrão 0,064477547 FONTE: Autoria própria. Tabela 7: IC para a Amostra 2 Amostra 2 Estatísticas Média -1,27707074 Intervalo de confiança de 95% para média Limite inferior -1,40362570 Limite superior -1,15051577 Erro Padrão 0,064491818 FONTE: Autoria própria. 16 É importante salientar que a distribuição empregada na construção das tabelas 6 e 7 foi a distribuição z, e não a t de Student, haja vista que o tamanho das amostras era grande, isto é, maior que 30 elementos. 3.2 Estimativa da Média Populacional Embora não se saiba quais sejam os verdadeiros valores das médias 𝜇1 e 𝜇2 das duas populações que deram origem às amostras, pode-se selecionar um número próximo às médias amostrais e fazer testes de hipóteses e, com esses valores, estimar 𝜇1 e 𝜇2. Para tal, a inferência estatística é imprescindível. Sob essa perspectiva, ousou-se o Teste t para averiguar a situação, na qual H0, isto é, a hipótese nula, é que o valor testado é igual à média populacional de cada amostra. Analogamente, H1, ou seja, a hipótese alternativa, é de que o valor seja diferente de 𝜇. Supondo que 𝜇1 = 𝜇2 = −1,15 e utilizando um nível de confiança de 95%, obtém-se: Tabela 8: Estimativa para 𝝁𝟏 = 𝝁𝟐 = −𝟏, 𝟏𝟓 Valor de Teste = -1.15 t Graus de liberdade Valor de p Diferença das médias Intervalo de Confiança de 95% para a Diferença Inferior Superior Amostra 1 0,871 999 0,384 0,056160430 -0,07036653 0,18268739 Amostra 2 -1,970 999 0,049 -0,127070735 -0,25362570 -0,00051577 FONTE: Autoria própria.Com base nas informações da tabela 8, temos que os valores de t são, respectivamente, 0,871 e -1,970. Ademais, não se rejeita H0: 𝜇1 = −1,15, uma vez que o Valor de p para a primeira amostra é 0,384, ou seja, maior que 0,05. No entanto, para a segunda amostra, rejeita-se H0: 𝜇2 = −1,15, pois o Valor de p é menor que 0,05. A afirmação anterior é corroborada ao se analisar o intervalo de confiança da amostra 2, visto que o zero não pertence ao intervalo entre o Limite Superior e o Limite Inferior. Da mesma forma, repete-se o Teste t, dessa vez com um valor de teste de -1,2 e o mesmo nível de confiança do teste anterior: 17 Tabela 9: Estimativa para 𝝁𝟏 = 𝝁𝟐 = −𝟏, 𝟐 Valor de Teste = -1.2 t Graus de liberdade Valor de p Diferença das médias Intervalo de Confiança de 95% para a Diferença Inferior Superior Amostra 1 1,646 999 0,100 0,106160430 -0,02036653 0,23268739 Amostra 2 -1,195 999 0,232 -0,077070735 -0,20362570 0,04948423 FONTE: Autoria própria. De acordo com a tabela acima, não se rejeitam as hipóteses H0: 𝜇1 = −1,2 e H0: 𝜇2 = −1,2, já que ambos os valores de p são maiores que 0,05. Além disso, os resultados do primeiro teste apresentam grande diferenças em comparação com o segundo, tais como nos valores de t e do IC. 3.3 Teste F O Teste F é um teste estatístico utilizado para se comparar as variâncias de duas populações através das variâncias amostrais. Dessa forma, temos que H0: 𝜎12/ 𝜎22 = 1 e H1: 𝜎12/ 𝜎22 ≠ 1. Considerando-se um nível de confiança de 95%, temos: Tabela 10: Teste F TESTE F F Graus de liberdade Valor de p Razão das variâncias Intervalo de Confiança de 95% para a Razão Inferior Superior 0.99956 999 0.9944 0,9995575 0.8829079 1.1316189 FONTE: Autoria própria. De acordo com as estatísticas anteriores, observa-se que não se rejeita a hipótese nula H0, visto que o valor de p é maior que 0,05, ou seja, está na área de não rejeição do teste. Logo, há evidências indicando que as variâncias das duas populações são estatisticamente iguais. 18 4 CONCLUSÃO Através dos dados analisados ao decorrer do trabalho, é possível tirar diversas conclusões a respeito das características das amostras e, com a ajuda da inferência estatística, das populações das quais foram coletadas. Logo, foi possível saber que os elementos de ambas as amostras seguem distribuições normais e até mesmo estabelecer Intervalos de Confiança para as verdadeiras médias populacionais. Dessa forma, ficou claro como a Estatística é importante, haja vista a possibilidade de aplicá-la aos mais diversos campos do cotidiano. Infere-se também que o uso de gráficos e tabelas são imprescindíveis para um melhor das amostras, permitindo analisar-se diversas mediadas, tais como a mediana e os outliers no boxplot. 19 REFERÊNCIAS DAVILA, Victor Hugo Lachos. Estatística Descritiva. [S. l.], [entre 2010 e 2019]. Disponível em: https://www.ime.unicamp.br/~hlachos/estdescr1.pdf. Acesso em: 18 out. 2019. GONÇALVES, Fernando A. Estatística descritiva. São Paulo: Atlas, 1978. GUEDES, Terezinha Aparecida et al. Estatística descritiva. Projeto de ensino aprender fazendo estatística, p. 1-49, 2005. LEOTTI, Vanessa Bielefeldt; BIRCK, Alan Rodrigues; RIBOLDI, João. Comparação dos Testes de Aderência à Normalidade Kolmogorov-smirnov, Anderson-Darling, Cramer–Von Mises e Shapiro-Wilk por Simulação. Simpósio de Estatística Aplicada à Experimentação Agronômica, v. 11, p. 192, 2005. MONTGOMERY, C. D.; RUNGER, C. G. Estatística Aplicada e Probabilidade para Engenheiros. 6. ed. Rio de Janeiro: LTC, 2018. PAULINO, Carlos Daniel et al. Glossário Inglês-Português de Estatística. 2. ed. Sociedade Portuguesa de Estatística e Associação Brasileira de Estatística.: [s. n.], 2010. Disponível em: http://www.heliton.ufpa.br/arquivos/glossario_SPEABE.pdf. Acesso em: 18 out. 2019. SANTOS, Carla. Estatística descritiva. Manual de auto-aprendizagem, v. 2, 2007. SILVESTRE, António Luís. Análise de dados e estatística descritiva. Escolar editora, 2007.
Compartilhar