ANÁLISE ESTATÍSTICA DO ARQUIVO dados6.dat

•

UTFPR

Henrique Klesse Pasianotto

23/07/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Probabilidade e Estatística

30.007 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ 
CAMPUS PONTA GROSSA 
CURSO DE ENGENHARIA ELÉTRICA 
 
 
 
 
 
 
Ezequiel Novak – RA: 2164132 
Guilherme Ferreira do Santos – RA:2002159 
Henrique Klesse Pasianotto – RA: 2164175 
 
 
 
 
 
 
 
ANÁLISE ESTATÍSTICA 
DO ARQUIVO “dados6.dat” 
 
 
 
 
 
 
 
 
 
PONTA GROSSA 
2019 
TURMA EE21 
1 
 
 Sumário 
1 INTRODUÇÃO .................................................................................................................. 2 
2 TABELAS, GRÁFICOS E DISCUSSÃO .......................................................................... 2 
2.1 Dados analisados .......................................................................................................... 2 
2.2 Percentis ....................................................................................................................... 3 
2.3 Valores extremos ......................................................................................................... 3 
2.4 Medidas resumo ........................................................................................................... 4 
2.4.1 Medidas de posição .................................................................................................. 5 
2.4.1.1 Média ........................................................................................................................ 5 
2.4.1.2 Mediana .................................................................................................................... 5 
2.4.2 Medidas de dispersão ............................................................................................... 6 
2.4.2.1 Variância .................................................................................................................. 6 
2.4.2.2 Desvio padrão ........................................................................................................... 6 
2.4.2.3 Amplitude ................................................................................................................. 7 
2.4.2.4 Intervalo interquartil ................................................................................................. 7 
2.5 Gráfico boxplot ............................................................................................................ 8 
2.6 Testes de normalidade ................................................................................................. 9 
2.6.1 Teste de Shapiro ..................................................................................................... 12 
2.7 Histograma e curva normal ........................................................................................ 13 
3 TESTES DE HIPÓTESES ................................................................................................ 14 
3.1 Intervalo de Confiança ............................................................................................... 14 
3.2 Estimativa da Média Populacional ............................................................................ 16 
3.3 Teste F ........................................................................................................................ 17 
4 CONCLUSÃO .................................................................................................................. 18 
REFERÊNCIAS ....................................................................................................................... 19 
 
 
2 
 
1 INTRODUÇÃO 
É indubitável a enorme quantidade de informações e dados que compõem o mundo 
hodierno, seja através de relatórios de operação de máquinas, por exemplo, seja pela internet. 
Sob essa perspectiva, o estudo de probabilidade e, sobretudo, estatística, é primordial ao 
desenvolvimento humano. Dessa maneira, Montgomery e Runger (2018, p. 1) explicitam a 
importância dessa área de conhecimento por meio de um exemplo: 
Estatística é a ciência que nos ajuda a tomar decisões e tirar conclusões na 
presença de variabilidade. Por exemplo, engenheiros civis trabalhando no 
campo de transportes estão preocupados com a capacidade de sistemas 
regionais de rodovias. Um problema típico envolveria dados sobre o número 
de viagens de trailers, o número de pessoas por moradia e o número de 
veículos por moradia. O objetivo seria produzir um modelo de geração de 
viagens relacionando viagens com o número de pessoas por moradia e o 
número de veículos por moradia. Uma técnica estatística chamada de análise 
de regressão pode ser usada para construir esse modelo. O modelo de geração 
de viagens é uma ferramenta importante para planejar sistemas de transporte. 
Logo, o objetivo do presente trabalho é a análise estatística descritiva do arquivo 
intitulado “dados6.dat” presente no Moodle. Complementando, os softwares utilizados à 
obtenção dos resultados que serão apresentados ao decorrer do trabalho foram o IBM SPSS e o 
Software R, na plataforma Windows 10 versão 64 bits. 
 
2 TABELAS, GRÁFICOS E DISCUSSÃO 
2.1 Dados analisados 
O objeto de estudo, mencionado anteriormente na introdução, é constituído de duas 
amostras pertencentes a diferentes populações e dispostas em duas colunas, cada uma com 
exatamente mil elementos. A tabela a seguir apresenta o relatório do processamento de dados: 
Tabela 1: Sumário de Processamento de Casos 
 Casos 
Válidos Inválidos Total 
N Porcentagem N Porcentagem N Porcentagem 
Amostra 1 1000 100,0% 0 0,0% 1000 100,0% 
Amostra 2 1000 100,0% 0 0,0% 1000 100,0% 
FONTE: Autoria própria. 
3 
 
De acordo com a tabela anterior, percebe-se que todos os elementos pertencentes ao 
arquivo são válidos, isto é, são valores numéricos sem nenhum símbolo ou letra (µ, a, *, %), 
exceto, em alguns casos, o sinal de negativo. Ademais, outra informação importante é que cada 
um dos elementos possui seis casas decimais. 
 
2.2 Percentis 
Percentis são os valores que separam uma amostra ordenada de forma que deixem 
determinada porcentagem dos dados à esquerda. Assim, o percentil 5, por exemplo, é aquele 
que deixa 5% dos elementos à esquerda e, por conseguinte, 95% à direita. Analisando a tabela 
a seguir, constata-se que ambas as amostras possuem valores relativamente próximos para os 
mesmos percentis, com exceção dos que ocupam a posição 75. 
Tabela 2: Percentis 
 Percentis 
5 10 25 50 
Amostra 1 -4,37286805 -3,76801920 -2,41225775 -1,10028550 
Amostra 2 -4,49531145 -3,83236960 -2,80541875 -1,33114700 
 
 Percentis 
75 90 95 
Amostra 1 0,27259850 1,45211810 2,24509895 
Amostra 2 0,11198725 1,39532090 2,03214910 
FONTE: Autoria própria. 
Complementando, é preciso salientar que os percentis e 25, 50 e 75 recebem a 
nomenclatura de quartis, uma vez que separam as amostras em quatro partes iguais. 
 
2.3 Valores extremos 
Os valores extremos estão presentes na tabela abaixo: 
 
 
4 
 
Tabela 3: Valores extremos 
Amostra 1 Valores 
 1° 6,021953 
 2° 4,729491 
Maiores 3° 4,604009 
 4° 4,499368 
 5° 4,398201 
 1° -8,725360 
 2° -7,459288 
Menores 3° -7,332817 
 4° -6,799078 
 5° -6,699047 
 
 
Amostra 2 Valores 
 1° 5,486933 
 2° 4,835388 
Maiores 3° 4,465852 
 4° 4,432154 
 5° 4,350485 
 1° -7,385121 
 2° -7,192021 
Menores 3° -7,186997 
 4° -6,806709 
 5° -6,456954 
FONTE: Autoria própria. 
Segundo a tabela anterior, é evidente que a primeira amostra possui o maior e o menor 
valor entre as duas amostras, isto é, 6,021953 e -8,725360, respectivamente. 
2.4 Medidas resumo 
A tabela a seguir mostra os valores numéricos do estudo das medidas de posição e de 
dispersão. 
Tabela 4: Estatísticas Descritivas 
Medida Amostra 1 Amostra 2 
 
Média -1,09383957 -1,27707074 
Mediana -1,10028550 -1,33114700 
Variância 4,157 4,159 
Desvio padrão 2,038959069 2,039410361 
Mínimo -8,725360 -7,385121 
Máximo 6,021953 5,486933 
Amplitude 14,747313 12,872054 
 Intervalo interquartil 2,684856 2,917406 
FONTE: Autoria própria.5 
 
2.4.1 Medidas de posição 
2.4.1.1 Média 
A média é uma medida estatística de tendência central, a qual é calculada através da 
razão entre o somatório dos dados X𝑖 de uma amostra e o número de elementos n. Ademais, 
representa um ponto de equilíbrio para onde os dados tendem a estar concentrados. Assim, 
tende a ser um valor central da amostra, mas não é necessariamente igual à mediana. No nosso 
caso, como trata-se da análise de da média amostral X̅, utiliza-se: 
 
�̅� = 
1
𝑛
 .∑𝑋𝑖
𝑛
𝑖=1
 
 
(1) 
Analogamente, a média populacional é representada pela letra grega μ ao invés da 
notação X̅. 
Ao se analisar e comparar as duas amostras, corrobora-se que a amostra 1 possui uma 
média X̅1 = −1,09383957 e a segunda X̅2 = −1,27707074. Comparando ambas amostras, 
observa-se que X̅1 > X̅2, ou seja, os dados da amostra 1 inclinam-se a ser maiores que os dados 
da amostra 2. 
2.4.1.2 Mediana 
A mediana é um valor central que separa um conjunto de dados exatamente ao meio, 
deixando 50% dos dados à esquerda e 50% à direita, sendo, portanto, um valor geometricamente 
central de um conjunto. Assim, em conjuntos com um número par de elementos, tais como as 
amostras do presente trabalho, com 1000 dados cada, a mediana é dada pela média entre os dois 
valores centrais do conjunto. Por outro lado, caso o número de elementos seja ímpar, é dada 
simplesmente pelo elemento que os dividem em duas partes iguais. Complementando, vale 
ressaltar que, para se obter a mediana, os dados do conjunto devem estar ordenados, seja em 
ordem crescente, seja decrescente. 
Logo, a mediana da primeira e da segunda amostras foram, respectivamente, -1,1002855 
e -1,331147. Também é possível perceber que a média e a mediana de ambas as amostras são 
valores bem próximos, porém diferentes. 
6 
 
2.4.2 Medidas de dispersão 
2.4.2.1 Variância 
A variância é uma medida de variabilidade ou dispersão, podendo ser calculada em 
relação a uma população ou a uma amostra. 
A variância populacional 𝜎2 é definida como a média do quadrado dos desvios dos dados 
em relação à média μ da população, na qual N é o número de dados da população: 
 
𝜎2 = 
1
𝑁
 .∑(𝑋𝑖 − μ)
2
𝑁
𝑖=1
 
 
(2) 
Por outro lado, para variância amostral S2, substitui-se μ por X̅ e N por (n-1), o qual 
representa o número total de elementos da amostra menos um: 
 
𝑆2 = 
1
𝑛 − 1
 .∑(𝑋𝑖 − �̅�)
2
𝑛
𝑖=1
 
 
(3) 
Ambas as variâncias expressam como os dados variam em relação à média. Suas 
unidades estão elevadas ao quadrado da dimensão original dos dados. Por exemplo, se os dados 
estiverem em cm, a dimensão da variância será em cm². Tal fenômeno é decorrente do cálculo 
de tal medida, no qual, a fim de evitar que a somatória dos desvios em relação à média se anule, 
são elevados ao quadrado. Dessa forma, a dimensão também se torna o quadrado da original. 
Comparando as duas amostras, vemos que a amostra 1 possui variância 4,157 e a 
amostra 2 de 4,159, sendo a diferença entre ambas muito pequena: apenas 0,002. Nota-se 
também que a segunda é a mais variável entre as duas. 
2.4.2.2 Desvio padrão 
O desvio padrão também é uma medida de variabilidade ou dispersão, subdivido em 
desvio padrão populacional 𝜎 e desvio padrão amostral S. A fim de obter uma medida de 
dispersão na mesma dimensão dos dados, tira-se a raiz quadrada da variância, tanto para a 
amostral quanto para a populacional: 
 
𝜎 = √𝜎2 = √
1
𝑁
 .∑(𝑋𝑖 − μ)2
𝑁
𝑖=1
 
 
(4) 
7 
 
 
𝑆 = √𝑆2 = √ 
1
𝑛 − 1
 .∑(𝑋𝑖 − �̅�)2
𝑛
𝑖=1
 
 
 
(5) 
Por ser uma medida na mesma dimensão dos dados do conjunto analisado, 
diferentemente da variância, há uma maior facilidade para se analisar os resultados. Sob essa 
perspectiva, para o arquivo averiguado, obteve-se um desvio padrão amostral de 2,038959069 
para a primeira amostra e de 2,039410361 para a segunda. Por fim, ao se comparar tais valores, 
embora muito próximos, nota-se que a amostra 1 possui distribuição mais homogênea que a 
outra, uma vez que o valor de S é menor. 
2.4.2.3 Amplitude 
A amplitude é uma medida de dispersão dada pela diferença entre o elemento de maior 
(máximo) e o de menor (mínimo) valor em um conjunto de dados. O valor da amplitude é 
sempre positivo ou nulo, já que representa a distância entre os valores extremos do conjunto, 
sendo, portanto, um fragmento da reta real no qual estão dispostos todos os valores. 
A amplitude da amostra 1 é igual a 14,747313, sendo maior que a amplitude da amostra 
2, que é de 12,872054. Ou seja, os valores extremos da primeira estão mais distantes da média 
do que os da segunda. 
2.4.2.4 Intervalo interquartil 
O intervalo interquartil é a região da reta real que abrange exatamente 50% dos dados 
que estão localizados mais ao centro da distribuição do conjunto, a qual é calculada pela 
diferença entre o terceiro quartil (Q3) e o primeiro (Q1). Ademais, os quartis são os valores que 
separam um conjunto em 4 partes iguais, nos quais Q1 tem 25% dos dados à esquerda e 75% à 
direita; Q2 é igual à mediana, estando exatamente no meio conjunto, e Q3 segrega 75% dos 
dados à esquerda e 25% à direita. É importante salientar que, para se obter os valores de Q1, 
Q2 e Q3, os dados devem ser ordenados em ordem crescente, como no nosso caso. 
A intervalo interquartil das duas amostras são, respectivamente: 2,684856 e 2,917406. 
Dessa forma, é evidente que a amostra 2 possui um intervalo interquartil maior e, por 
conseguinte, possui seus valores dentro do intervalo mais dispersos, contribuindo para um 
8 
 
desvio padrão maior. Paralelamente, a amostra 1 possui seus dados dentro do intervalo 
interquartil mais concentrado, contribuindo para um desvio padrão menor. 
2.5 Gráfico boxplot 
Gráficos do tipo boxplot (ou diagrama de caixa, em português) são a representação 
gráfica de um conjunto de dados, a qual permite avaliar rapidamente a dispersão deles, 
destacando também os valores discrepantes presentes, também conhecidos como outliers. 
 
FONTE: Autoria própria. 
Pode-se, portanto, ilustrar algumas das medidas presentes na sessão 2.4 com o gráfico 
acima. Logo, é evidente que ambas as amostras possuem similaridades, uma vez que tanto a 
mediana, isto é, o traço horizontal no interior da caixa, os limites, tanto superiores quanto 
inferiores e o tamanho da caixa estão bem próximos. No entanto, percebe-se também que há 
uma quantidade maior de outliers (ou valores discrepantes) na amostra 1, ao passo que a 
segunda quase não possui outliers. 
9 
 
2.6 Testes de normalidade 
Caso queira se saber se determinada amostra segue uma distribuição normal, ou 
gaussiana, é necessário se realizar diversos testes. Primeiramente, podemos analisar os gráficos 
abaixo, no qual o desvio dos dados em relação aos valores esperados para a distribuição Normal 
é dado no eixo y, ao passo que o valor de cada elemento é dado no eixo x. 
 
FONTE: Autoria própria. 
 
FONTE: Autoria própria. 
Os gráficos acima chamam-se worm-plot, ou gráfico minhoca, e são parcelas do gráfico 
Q-Q. Em adição, são uma ferramenta utilizada para visualizar e obter conclusões de quão bem 
10 
 
um modelo estatístico se ajusta aos dados. Nesse caso, o modelo a ser testado era o da 
distribuição normal. Assim, pode-se encontrar locais em que o ajuste pode ser melhorado e 
comparar o ajuste de diferentes modelos 
Através da disposição dos elementos em ambos os gráficos, os da amostra 1 aparentam 
seguir uma distribuição gaussiana, embora não se possa tirar muitas conclusões a respeito da 
distribuição da segunda amostra. Se os dados forem normais, a curva worm-plot deve aparentar 
um verme achatado, com pontos próximos à linha e poucas oscilações, como na primeira 
amostra. Entretanto, na segunda nota-se uma oscilação grande no verme e pontos muito 
dispersos, reforçando a hipótese de que os dados não seguem como referência tal tipo de 
distribuição. 
Analogamente, os gráficos quantil-quantil(Q-Q) a seguir são uma ferramenta de 
probabilidade para comparar conjuntos de dados específicos que se aproximam de uma 
distribuição normal. Se os pontos seguirem um determinado padrão, formar-se-á uma linha 
aproximadamente reta. Também é possível observar a distribuição de conjuntos de dados em 
vários pontos e compará-los com a linha de referência: 
 
FONTE: Autoria própria. 
11 
 
 
FONTE: Autoria própria. 
Considerando-se os gráficos Q-Q acima, nota-se que os pontos se encontram 
relativamente próximos da linha teórica dos valores esperados de uma distribuição normal. No 
entanto, não se pode afirmar o mesmo sobre os elementos mais distantes da média, já que não 
estão exatamente sobre ela. 
Os métodos acima representam uma análise qualitativa a respeito da distribuição, ao 
passo que os testes abaixo oferecem valores para uma análise quantitativa, que por sua vez 
podem ser usados para afirmar ou negar que os elementos das amostras seguem distribuições 
aproximadamente normais. 
Tabela 5: Testes de Normalidade 
 Kolmogorov-Smirnov Shapiro-Wilk 
Estatística Número de 
dados 
p1 Estatística Número de 
dados 
p2 
Amostra 1 0,022 1000 0,200 0,998 1000 0,266 
Amostra 2 0,027 1000 0,095 0,997 1000 0,116 
FONTE: Autoria própria. 
Dos dois testes aplicados, ambos com 5% de nível de significância, o segundo é o mais 
indicado e apresenta melhores resultados em relação ao primeiro, uma vez que o teste de 
Shapiro-Wilk deve ser usado em amostras com mais de 100 elementos, como é o caso do 
12 
 
arquivo em estudo, e o de Kolmogorov-Smirnov quando são compostas por menos de 100 e 
mais de 30. Assim, de acordo com os resultados obtidos, temos que p1 e p2 são relativamente 
próximos e ambos maiores que 0,05, ou seja, p1,p2 > 0,05. Por conseguinte, a não se rejeita a 
hipótese nula H0 de que as populações seguem uma distribuição normal. Ademais, a tese é 
corroborada ao se analisar os gráficos anteriores. Complementando, a explicação do Teste de 
Shapiro está presente no subtópico a seguir. 
2.6.1 Teste de Shapiro 
O teste de Shapiro-Wilk é um teste de normalidade de dados utilizado para determinar 
se um conjunto de dados de uma variável pode ser representado por uma distribuição normal. 
Dessa forma, é amplamente utilizado nas mais diversas áreas. Na engenharia de produção e na 
administração, por exemplo, é muito comum termos aplicações em curvas normais de 
probabilidade, como no controle de qualidade, fazendo-se necessário o uso de testes como o de 
Shapiro. 
Para podermos aplicá-lo, exige-se suposições específicas sobre as populações das quais 
as amostras foram extraídas e que duas hipóteses sejam satisfeitas: a variável dependente tenha 
distribuição normal e as variâncias populacionais sejam homogêneas, no caso da comparação 
de duas ou mais populações. A fórmula abaixo baseia-se na estática de W para tomar decisões 
sobre a distribuição. 
 
𝑊 =
𝑏2
∑ (𝑥𝑖 − �̅�)2
𝑛
𝑖=1
 
 
 
(7) 
Na qual xi são os valores da variável x, n é o número de elementos e b é dado por: 
 
𝑏 =
{
 
 
 
 
 
∑𝑎𝑛−𝑖
𝑛/2
𝑖=1
. (𝑥𝑛−𝑖+1 − 𝑥𝑖) 𝑠𝑒 𝑛 é 𝑝𝑎𝑟
 ∑ 𝑎𝑛−𝑖+1
(𝑛+1)/2
𝑖=1
. (𝑥𝑛−𝑖+1 − 𝑥𝑖) 𝑠𝑒 𝑛 é í𝑚𝑝𝑎𝑟
 
 
 
 
 
(8) 
E ai são constantes geradas a partir da média, variância e covariância de ordem n de uma 
distribuição normal. Caso os valores de W sejam pequenos, há evidências que a distribuição da 
variável não é normal. 
Para aplicar-se o teste, primeiro deve-se fixar duas hipóteses: uma nula H0, afirmando 
que a amostra vem de uma distribuição normal e uma alternativa H1, na qual a amostra não vem 
13 
 
de uma distribuição normal. Em seguida, informa-se o nível de significância 𝛼 do teste e 
calcula-se o valor de p. Por último é preciso analisar as hipóteses H0 e H1 e, caso o valor de p 
for menor que 𝛼, rejeita-se H0, caso contrário, não se rejeita H0. 
 
2.7 Histograma e curva normal 
Uma vez que os testes de aderência foram feitos, é possível montar os histogramas e 
traçar curvas normais, os quais estão dispostos abaixo: 
 
FONTE: Autoria própria. 
14 
 
 
FONTE: Autoria própria. 
Logo, conclui-se que a primeira amostra se adequa melhor à distribuição normal que a 
segunda, já que as barras do histograma se aproximam melhor do traço teórico da curva normal, 
como previsto anteriormente na sessão 2.6, utilizando-se métodos qualitativos e quantitativos. 
3 TESTES DE HIPÓTESES 
3.1 Intervalo de Confiança 
Em estatística, um Intervalo de Confiança (IC) é um intervalo numérico em que um 
determinado parâmetro (média, variância ou proporções populacionais) tem maior 
probabilidade de estar contido, considerando-se determinado nível de confiança. Para se obter 
um IC para um parâmetro populacional, deve-se primeiro ter uma amostra coletada para então 
obtermos os estimadores e, a partir deles, relacionar as informações da amostra com os 
parâmetros da população. Então, constrói-se um intervalo, com determinada margem de erro, 
para o qual deve estar contido o parâmetro de interesse, no caso 𝜇. 
No caso em estudo, há duas amostras grandes, com mil elementos cada e distribuição 
aproximadamente normal, de acordo com os testes realizados anteriormente. Nesse caso 
queremos estimar um IC para a média populacional, isto é, um intervalo numérico onde a 
verdadeira média da população pode estar contida. Logo, foi utilizado um nível de confiança 
de 95%, ou seja, a probabilidade da verdadeira média populacional 𝜇 estar contida nesse 
intervalo é de 95%. Nesse caso, tem-se que o valor crítico de z é 𝑧𝛼/2 = 1,96 e que o erro é: 
15 
 
 
𝐸 = 𝑧𝛼/2 .
𝑆
√𝑛
 
(8) 
Paralelamente, o erro padrão 𝜎�̅� pode ser dado por: 
 
𝜎�̅� = 
𝑆
√𝑛
 
 
(9) 
Substituindo a equação (9) na equação (8), obtém-se: 
 𝐸 = 𝑧𝛼/2 .𝜎�̅� 
 
(10) 
Dessa forma, usa-se os valores da média amostral �̅� e do erro E para se construir um 
intervalo de confiança para verdadeira média 𝜇: 
 �̅� − 𝐸 ≤ 𝜇 ≤ �̅� + 𝐸 (11) 
Na qual os membros �̅� − 𝐸 e �̅� + 𝐸 representam, respectivamente, o Limite Inferior e 
o Limite Superior do IC. Assim, usou-se tais conceitos e fórmulas para calcular-se as 
informações contidas nas tabelas 6 e 7. 
Tabela 6: IC para a Amostra 1 
Amostra 1 Estatísticas 
 
Média -1,09383957 
Intervalo de confiança de 95% 
para média 
Limite inferior -1,22036653 
Limite superior -0,96731261 
 Erro Padrão 0,064477547 
FONTE: Autoria própria. 
Tabela 7: IC para a Amostra 2 
Amostra 2 Estatísticas 
 
Média -1,27707074 
Intervalo de confiança de 95% 
para média 
Limite inferior -1,40362570 
Limite superior -1,15051577 
 Erro Padrão 0,064491818 
FONTE: Autoria própria. 
16 
 
É importante salientar que a distribuição empregada na construção das tabelas 6 e 7 foi 
a distribuição z, e não a t de Student, haja vista que o tamanho das amostras era grande, isto é, 
maior que 30 elementos. 
 
3.2 Estimativa da Média Populacional 
Embora não se saiba quais sejam os verdadeiros valores das médias 𝜇1 e 𝜇2 das duas 
populações que deram origem às amostras, pode-se selecionar um número próximo às médias 
amostrais e fazer testes de hipóteses e, com esses valores, estimar 𝜇1 e 𝜇2. Para tal, a inferência 
estatística é imprescindível. Sob essa perspectiva, ousou-se o Teste t para averiguar a situação, 
na qual H0, isto é, a hipótese nula, é que o valor testado é igual à média populacional de cada 
amostra. Analogamente, H1, ou seja, a hipótese alternativa, é de que o valor seja diferente de 𝜇. 
Supondo que 𝜇1 = 𝜇2 = −1,15 e utilizando um nível de confiança de 95%, obtém-se: 
Tabela 8: Estimativa para 𝝁𝟏 = 𝝁𝟐 = −𝟏, 𝟏𝟓 
 Valor de Teste = -1.15 
t Graus de 
liberdade 
Valor de p Diferença das 
médias 
Intervalo de Confiança de 
95% para a Diferença 
Inferior Superior 
Amostra 1 0,871 999 0,384 0,056160430 -0,07036653 0,18268739 
Amostra 2 -1,970 999 0,049 -0,127070735 -0,25362570 -0,00051577 
FONTE: Autoria própria.Com base nas informações da tabela 8, temos que os valores de t são, respectivamente, 
0,871 e -1,970. Ademais, não se rejeita H0: 𝜇1 = −1,15, uma vez que o Valor de p para a primeira 
amostra é 0,384, ou seja, maior que 0,05. No entanto, para a segunda amostra, rejeita-se H0: 
𝜇2 = −1,15, pois o Valor de p é menor que 0,05. A afirmação anterior é corroborada ao se 
analisar o intervalo de confiança da amostra 2, visto que o zero não pertence ao intervalo entre 
o Limite Superior e o Limite Inferior. 
Da mesma forma, repete-se o Teste t, dessa vez com um valor de teste de -1,2 e o mesmo 
nível de confiança do teste anterior: 
 
17 
 
Tabela 9: Estimativa para 𝝁𝟏 = 𝝁𝟐 = −𝟏, 𝟐 
 Valor de Teste = -1.2 
t Graus de 
liberdade 
Valor de p Diferença das 
médias 
Intervalo de Confiança de 
95% para a Diferença 
Inferior Superior 
Amostra 1 1,646 999 0,100 0,106160430 -0,02036653 0,23268739 
Amostra 2 -1,195 999 0,232 -0,077070735 -0,20362570 0,04948423 
FONTE: Autoria própria. 
De acordo com a tabela acima, não se rejeitam as hipóteses H0: 𝜇1 = −1,2 e H0: 𝜇2 =
−1,2, já que ambos os valores de p são maiores que 0,05. Além disso, os resultados do primeiro 
teste apresentam grande diferenças em comparação com o segundo, tais como nos valores de t 
e do IC. 
 
3.3 Teste F 
O Teste F é um teste estatístico utilizado para se comparar as variâncias de duas populações 
através das variâncias amostrais. Dessa forma, temos que H0: 𝜎12/ 𝜎22 = 1 e H1: 𝜎12/ 𝜎22 ≠ 1. 
Considerando-se um nível de confiança de 95%, temos: 
Tabela 10: Teste F 
TESTE F 
F Graus de 
liberdade 
Valor de p Razão das 
variâncias 
Intervalo de Confiança de 
95% para a Razão 
Inferior Superior 
0.99956 999 0.9944 0,9995575 0.8829079 1.1316189 
FONTE: Autoria própria. 
De acordo com as estatísticas anteriores, observa-se que não se rejeita a hipótese nula 
H0, visto que o valor de p é maior que 0,05, ou seja, está na área de não rejeição do teste. Logo, 
há evidências indicando que as variâncias das duas populações são estatisticamente iguais. 
 
 
 
 
18 
 
4 CONCLUSÃO 
Através dos dados analisados ao decorrer do trabalho, é possível tirar diversas 
conclusões a respeito das características das amostras e, com a ajuda da inferência estatística, 
das populações das quais foram coletadas. Logo, foi possível saber que os elementos de ambas 
as amostras seguem distribuições normais e até mesmo estabelecer Intervalos de Confiança para 
as verdadeiras médias populacionais. Dessa forma, ficou claro como a Estatística é importante, 
haja vista a possibilidade de aplicá-la aos mais diversos campos do cotidiano. Infere-se também 
que o uso de gráficos e tabelas são imprescindíveis para um melhor das amostras, permitindo 
analisar-se diversas mediadas, tais como a mediana e os outliers no boxplot. 
 
 
19 
 
REFERÊNCIAS 
DAVILA, Victor Hugo Lachos. Estatística Descritiva. [S. l.], [entre 2010 e 2019]. 
Disponível em: https://www.ime.unicamp.br/~hlachos/estdescr1.pdf. Acesso em: 18 out. 
2019. 
GONÇALVES, Fernando A. Estatística descritiva. São Paulo: Atlas, 1978. 
GUEDES, Terezinha Aparecida et al. Estatística descritiva. Projeto de ensino aprender 
fazendo estatística, p. 1-49, 2005. 
LEOTTI, Vanessa Bielefeldt; BIRCK, Alan Rodrigues; RIBOLDI, João. Comparação dos 
Testes de Aderência à Normalidade Kolmogorov-smirnov, Anderson-Darling, Cramer–Von 
Mises e Shapiro-Wilk por Simulação. Simpósio de Estatística Aplicada à Experimentação 
Agronômica, v. 11, p. 192, 2005. 
MONTGOMERY, C. D.; RUNGER, C. G. Estatística Aplicada e Probabilidade para 
Engenheiros. 6. ed. Rio de Janeiro: LTC, 2018. 
PAULINO, Carlos Daniel et al. Glossário Inglês-Português de Estatística. 2. ed. Sociedade 
Portuguesa de Estatística e Associação Brasileira de Estatística.: [s. n.], 2010. Disponível em: 
http://www.heliton.ufpa.br/arquivos/glossario_SPEABE.pdf. Acesso em: 18 out. 2019. 
SANTOS, Carla. Estatística descritiva. Manual de auto-aprendizagem, v. 2, 2007. 
SILVESTRE, António Luís. Análise de dados e estatística descritiva. Escolar editora, 2007.