Tema 5 Modelagem de dados de entrada para simulação

Programação I

•
ESTÁCIO

Priscila Vidal
25/05/2024
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 122 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 122 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 122 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Prévia do material em texto
Modelagem de
dados de entrada
para simulação
Prof. Mauro Rezende Filho
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 1/122
Descrição A coleta de dados, o tratamento dos dados e os testes de aderência: qui-quadrado, KS.
Propósito Apresentar a modelagem de dados de entrada como um componente crítico de um aplicativo de
simulação bem-sucedido. Uma perspectiva da área de análise estatística é dada com ênfase nas
distribuições de probabilidade disponíveis como modelos, métodos de estimativa, seleção e
discriminação de modelos e qualidade de ajuste.
Objetivos
Módulo 1
Coleta de dados e análise
dos dados coletados
Reconhecer a importância da coleta e
da análise dos dados.
Módulo 2
Tratamento dos dados
Reconhecer a importância do
tratamento dos dados.
Módulo 3
Os testes de aderência:
qui-quadrado, KS
Descrever os testes de aderência: qui-
quadrado, KS.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 2/122
Introdução
Olá! Antes de começarmos, assista ao vídeo e entenda o processo de modelagem
de dados de entrada para simulação.

25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 3/122
1 - Coleta de dados e análise dos dados coletados
Ao �nal deste módulo, você será capaz de reconhecer a importância da coleta e da análise dos dados.
Vamos começar!
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 4/122
A importância da análise dos dados
coletados
Entenda a seguir a importância da análise dos dados coletados.
Coletando dados de entrada
Em um projeto de simulação, o uso final dos dados de entrada é conduzir a simulação.
Esse processo envolve:
Coleta Análise Uso dos dados de entrada

25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 5/122
Os dados de entrada podem ser obtidos
de registros históricos ou coletados em
tempo real como uma tarefa no projeto
de simulação.
A análise dos dados envolve a
identificação da distribuição teórica que
representa os dados de entrada no
modelo de simulação.
O uso dos dados de entrada no modelo
envolve a especificação das distribuições
teóricas no código do programa de
simulação.
Sendo assim:
Existem muitas fontes que podemos usar para adquirir dados de entrada, tais como:
registros históricos;
especificações do fabricante;
reclamações de fornecedores;
estimativas de operadores;
estimativas de gerenciamento;
captura automática de dados;
observação direta.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 6/122
A fase de coleta de dados é a parte mais difícil do processo de simulação. Se o
operador tiver conhecimento sobre o sistema, pode ser possível obter algumas
estimativas de desempenho a ser usadas como dados de entrada. A forma de coleta
de dados mais exigente física e mentalmente é a observação direta. Os dados de
entrada podem ser coletados manualmente ou com o auxílio de dispositivos
eletrônicos.
Há duas questões importantes para os dados de entrada da simulação referentes aos
intervalos de tempo:
Unidade de tempo
Geralmente, é menos trabalhoso coletar
os dados corretamente, em primeiro
lugar, usando uma abordagem relativa de
tempo entre chegadas.
Tipos de unidades
O praticante de simulação deve saber
que queremos dados imparciais, para
não interromper o processo. Se os dados
forem tendenciosos, talvez leve a um
modelo que pode gerar resultados
imprecisos.
Ao coletar os dados de entrada, devemos perceber que existem diferentes
classificações. Um método de classificação é se eles são determinísticos ou
probabilísticos.
Dados determinísticos Dados probabilísticos
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 7/122
Significa que o evento
envolvendo os dados ocorre
da mesma maneira ou de
maneira previsível a cada vez.
Nesse caso, esse tipo de dado
precisa ser coletado apenas
uma vez, pois nunca varia de
valor.
Significa que o evento
envolvendo os dados não
ocorre com regularidade.
Nesse caso, o processo com
esse tipo de dado deverá
seguir alguma distribuição
probabilística.
Outra classificação dos dados de entrada é se os dados são discretos ou contínuos.
Dados discretos
Os dados do tipo discreto
podem assumir apenas
determinados valores.
Geralmente, isso significa um
número inteiro.
Dados contínuos
As distribuições contínuas
podem assumir qualquer valor
no intervalo observado, logo
números fracionários são uma
possibilidade definitiva.


25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 8/122
Distribuições de dados de entrada
Apresentaremos agora algumas das distribuições de dados de entrada mais comuns.
Existem outros tipos diferentes de distribuições probabilísticas que podemos
encontrar.
Às vezes, podemos encontrar essas distribuições de dados de
entrada mais comuns apenas como resultado de um programa
computadorizado de ajuste de dados. Esses tipos de programas
são voltados para retornar o melhor ajuste matemático entre
muitas distribuições teóricas possíveis.
Nesses tipos de casos, um resultado específico não significa necessariamente que
haja uma razão racional para que os dados se ajustem melhor a uma distribuição
específica.
Às vezes, uma distribuição teórica que faz sentido será um ajuste quase tão bom.
Nesses casos, teremos que decidir se faz mais sentido usar o melhor ajuste
matemático ou um ajuste muito próximo que faça sentido.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 9/122
Distribuição Bernoulli
É usada para modelar uma ocorrência aleatória com um dos dois resultados possíveis,
que são frequentemente referidos como um sucesso ou fracasso.
Observe o gráfico:
A média e a variância da distribuição de Bernoulli são:
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 10/122
Onde:
 = a fração de sucessos.
 = a fração de falhas.
Distribuição uniforme
Isso significa que, dentro do intervalo de valores possíveis, cada valor individual tem a
mesma probabilidade de ser observado. Distribuições uniformes podem ser usadas
como um primeiro corte para modelar os dados de entrada de um processo se houver
pouco conhecimento do processo. A distribuição uniforme pode ser discreta ou
contínua.
Observe o gráfico:
 Média  = p
var = p(1 − p)
p
(1 − p)
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 11/122
A média e a variância de uma distribuição uniforme são:
Onde:
 é o valor mínimo.
 é o valor máximo.
 Média  =
a+ b
2
var =
(b− a)2
12
a
b
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 12/122
Distribuição exponencial
É comumente utilizada em conjunto com processos entre chegadas em modelos de
simulação porque a chegada de entidades em muitos sistemas foi comprovada ou
considerada um processo aleatório ou de Poisson. Isso significa que um número
aleatório de entidades chegará dentro de uma unidade de tempo específica. O número
de chegadas que podem ser esperadas durante a unidade de tempo é distribuído
aleatoriamente em torno do valor médio.Observe o gráfico:
As equações estatísticas para a média e variância da distribuição exponencial são:
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 13/122
A probabilidade é representada por:
Onde:
 é a média da amostra de dados.
 é o valor dos dados.
Distribuição triangular
Pode ser usada em situações em que o profissional não tem conhecimento completo
do sistema, mas suspeita que os dados não estão distribuídos uniformemente. Em
particular, se o profissional suspeitar que os dados são normalmente distribuídos, a
distribuição triangular pode ser uma boa primeira aproximação.
 Média  = B
var = B2
f(x) =
1
B
e−x ou x = B ln(1 − F(x))
B
x
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 14/122
A distribuição triangular possui apenas três parâmetros: o valor mínimo possível, o
valor mais comum e o valor máximo possível. Como o valor mais comum não precisa
estar igualmente entre o mínimo e o máximo, a distribuição triangular não tem de ser
necessariamente simétrica.
Observe o gráfico:
A média e a variância da distribuição triangular são:
Onde:
 Média  =
a+m+ b
3
 Variância  =
a2 +m2 + b2 −ma− ab−mb
18
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 15/122
 = Valor mínimo.
 = Valor mais comum.
 = Valor máximo.
Distribuição normal
A duração do tempo para muitos processos de serviço segue a distribuição normal. A
razão para isso é que muitos processos, na verdade, consistem em vários
subprocessos. Independentemente da distribuição de probabilidade de cada
subprocesso individual, quando os tempos do subprocesso são somados, as durações
de tempo resultantes frequentemente se tornam em geral distribuídas. A distribuição
normal tem dois parâmetros: a média e o desvio-padrão.
A distribuição normal também é simétrica. Isso significa que há um número igual de
observações menor e maior que a média dos dados. O padrão ou a distribuição das
observações de cada lado também é semelhante.
Observe o gráfico:
a
m
b
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 16/122
A fórmula matemática um tanto formidável para a probabilidade de distribuição
normal é:
Onde:
µ é a média.
σ é o desvio-padrão.
f(x) =
1
σ√2π
e−i(x−μ)
2/2σ2
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 17/122
Distribuição de Poisson
É usada para modelar um número aleatório de eventos que ocorrerão em um intervalo
de tempo.
Observe o gráfico:
A distribuição de Poisson tem apenas um parâmetro, .λ
p(x) =
e−λλx
x!
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 18/122
Onde:
 é média e variância.
 é o valor da variável aleatória.
Distribuição Weibull
É frequentemente usada para representar distribuições que não podem ter valores
menores que zero. A distribuição Weibull possui dois parâmetros, um de forma e um
de escala . A função de probabilidade longa para o Weibull é:
Onde:
 é um parâmetro de forma.
 é um parâmetro de escala.
λ
x
α
β
f(x) = αβ−αxα−1e
−( x
β )
α
,  para x > 0, caso contrário 0
α
β
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 19/122
Observe o gráfico:
A média e a variância são representadas matematicamente por:
Onde:
 é um parâmetro de forma.
 média  =
β
α
Γ( 1
α
)
 var  =
β2
α
{2Γ( 2
α
)− 1
α
[Γ( 1
α
)]
2
}
α
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 20/122
 é um parâmetro de escala.
 é dado por .
Distribuição gama
É outra distribuição que pode ser menos comum ao usuário. A distribuição gama é
usada para modelar valores de dados positivos que são assimétricos à direita e
maiores que 0. Costuma ser utilizada em estudos de sobrevivência de confiabilidade.
A equação de densidade de probabilidade para a distribuição gama é:
Onde , e são definidos como na distribuição Weibull.
Observe o gráfico:
β
Γ Γ = ∫ ∞
0 xα−1e−xdx
f(x) =
1
βαΓ(x)
xα−1e−x/β, para x > 0,  caso contrário 0
α β Γ
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 21/122
A distribuição gama pode degenerar para a mesma representação matemática que a
distribuição exponencial. A distribuição gama não pode ficar abaixo de 0.
Análise de dados de entrada
O processo de determinação do tipo de distribuição para um conjunto de dados
geralmente envolve o que é conhecido como a essência do teste de ajuste. Esses
testes são baseados em algum tipo de comparação entre a distribuição dos dados
observados e uma distribuição teórica correspondente.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 22/122
Se a diferença entre a distribuição dos dados observados e a
distribuição teórica correspondente for pequena, então pode-se
afirmar com algum nível de certeza que os dados de entrada
podem ter vindo de um conjunto de dados com os mesmos
parâmetros da distribuição teórica.
Existem quatro métodos diferentes para conduzir essa comparação, como veremos a
seguir.
Abordagem grá�ca
É a abordagem mais fundamental para tentar ajustar os dados de entrada. Consiste
em uma comparação visual qualitativa entre a distribuição real dos dados e uma
distribuição teórica da qual os dados observados podem ter vindo. Os passos para
usar a abordagem gráfica incluem:
 Criar um histograma de dados observados.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 23/122
Existem duas abordagens para determinar como lidar com o problema da célula:
Abordagem de intervalo
igual
Método onde definimos a largura de cada
intervalo de células de dados para ser o
mesmo valor.
Abordagem de
probabilidade igual
Método estatisticamente mais robusto
que determina o número de células.
 Criar um histograma para a distribuição teórica.
 Comparar visualmente os dois histogramas para similaridade.
 Tomar uma decisão qualitativa quanto à similaridade dos dois conjuntos de
dados.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 24/122
Teste do qui-quadrado
É comumente aceito como a técnica preferida de bondade de ajuste. Assim como o
teste de comparação gráfica, o teste do qui-quadrado é baseado na comparação do
número real de observações versus o número esperado de observações. Isso significa
que o teste do qui-quadrado também usa a abordagem de igual probabilidade para
determinar o número de células e os limites das células. Os passos na execução do
teste qui-quadrado são os seguintes:
 Estabelecer hipóteses nulas e alternativas.
 Determinar um nível de signi�cância do teste.
 Calcular o valor crítico da distribuição qui-quadrado.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 25/122
Teste de Kolmogorov-Smirnov (KS)
Deve ser utilizado somente quando o número de pontos de dados for extremamente
limitado e o teste do qui-quadrado não puder ser aplicado adequadamente.
Geralmente, aceita-se que o teste KS tem menos capacidade de ajustar mais
adequadamente os dados do que outras técnicas, como o testedo qui-quadrado. Uma
limitação final é que algumas referências não recomendam o uso do KS com
distribuições discretas.
 Calcular a estatística do teste qui-quadrado a partir dos dados.
 Comparar a estatística de teste com o valor crítico.
 Aceitar ou rejeitar a hipótese nula.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 26/122
Comentário
Na verdade, existem muitas versões do teste KS, com vários graus de complexidade. Para uma discussão
completa desse teste, os praticantes são direcionados para o texto de simulação Law e Kelton. A versão
apresentada no manual é a mais simples de implementar. Os estatísticos do núcleo duro às vezes criticam
essa versão como estatisticamente fraca. No entanto, para o praticante, a diferença provavelmente será
insignificante.
O conceito por trás do teste KS é uma comparação entre a distribuição teórica
cumulativa e a distribuição cumulativa observada. Se a diferença máxima entre as
duas exceder um valor crítico de KS, então a distribuição observada não pode ter vindo
da distribuição teórica. Os passos para o KS são:
 Estabelecer hipóteses nulas e alternativas.
 Determinar um nível de signi�cância do teste.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 27/122
Erro quadrático
 Determinar o valor crítico de KS da tabela D.
 Determinar a maior diferença absoluta entre as duas distribuições
cumulativas.
 Comparar a diferença com o valor crítico de KS.
 Aceitar ou rejeitar a hipótese nula.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 28/122
Utiliza um total somado do quadrado do erro entre as distribuições observada e
teórica. O erro é definido como a diferença entre as duas distribuições para cada
célula de dados individual. Veja quais são as duas questões muito comuns entre a
aquisição de dados:
Quantos dados precisam
ser coletados
É necessário observar os dados corretos,
os diferentes valores que podem ocorrer
e a necessidade de ter dados suficientes
para realizar um teste de adequação.
Ajustar os dados a uma
distribuição teórica
As possíveis causas para essa
dificuldade incluem: não foram coletados
dados suficientes, os dados são uma
combinação de várias distribuições
diferentes.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 29/122
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
A seguinte distribuição de frequência:
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 30/122
X 5 15
f 2 4
Mauro Rezende Filho.
Será classificada como distribuição
A de frequência relativa.
B contínua.
C de frequência percentual.
D discreta.
E de frequência absoluta.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 31/122
Parabéns! A alternativa D está correta.
Observe que os dados são determinísticos; portanto, a distribuição de frequência
será discreta.
Questão 2
A análise de dados é uma coleção de métodos quantitativos e qualitativos para
extrair informações úteis dos dados. Isso envolve uma série de etapas, incluindo
extração e categorização de dados para gerar vários padrões, interações, conexões
e outros insights úteis. Essas informações são então classificadas, salvas e
analisadas para dar sentido a elas e obter insights úteis. A análise de dados usa,
para obter dos dados,
A números estatísticos.
B aspectos numéricos.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 32/122
Parabéns! A alternativa C está correta.
Para obter insights dos dados, a análise usa abordagens estatísticas. As
organizações podem usar a análise de dados para descobrir tendências e
desenvolver insights analisando todos os seus dados (em tempo real, históricos, não
estruturados, estruturados e qualitativos).
C métodos estatísticos.
D dados aleatórios.
E nenhum dos citados acima.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 33/122
2 - Tratamento dos dados
Ao �nal deste módulo, você será capaz de reconhecer a importância do tratamento dos dados.
Vamos começar!
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 34/122
Tratamento de dados amostrais
Entenda a seguir o tratamento de dados amostrais.
Tratamento e avaliação de dados
Em testes estatísticos para determinar se duas quantidades são iguais, dois tipos de
erros são possíveis.

Erro do tipo I

Erro do tipo II

25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 35/122
Ocorre quando rejeitamos a hipótese de
que duas quantidades são iguais quando
estatisticamente idênticas.
Ocorre quando aceitamos que eles são
iguais quando não são estatisticamente
idênticos.
As aplicações mais comuns do tratamento de dados estatísticos são as enumeradas
a seguir.
 Definir um intervalo numérico, o intervalo de confiança, em torno da média de um
conjunto de resultados replicados dentro do qual se pode esperar que a média da
população esteja com certa probabilidade. Esse intervalo está relacionado ao desvio-
padrão da média.
 Determinar o número de medições replicadas necessárias para garantir que uma média
experimental caia dentro de determinado intervalo com determinado nível de
probabilidade.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 36/122
 Estimar a probabilidade de (a) uma média experimental e um valor verdadeiro ou (b)
duas médias experimentais serem diferentes. Esse teste é particularmente importante
para descobrir erros sistemáticos em um método e determinar se duas amostras vêm
da mesma fonte.
 Indicar em determinado nível de probabilidade se a precisão de dois conjuntos de
medições difere.
 Comparar as médias de mais de duas amostras para determinar se as diferenças nas
médias são reais ou resultado de erro aleatório. Esse processo é conhecido como
análise de variância.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 37/122
Na maioria das análises químicas quantitativas, o verdadeiro valor da média, µ, não
pode ser determinado porque seria necessário um grande número de medições
(aproximando-se do infinito).
Nesse caso, o que se determina é o intervalo de confiança, ou seja, são determinados
valores mínimos e máximos, e todos os valores dentro desse intervalo passam a ser
aceitos.
Exemplo
Podemos dizer que é 99% provável que a verdadeira média populacional para um conjunto de medições de
potássio esteja no intervalo de 7,25 ± 0,15% K. Assim, a probabilidade de que a média esteja no intervalo de
7,10 a 7,40% K é 99%.
O tamanho do intervalo de confiança, que é calculado a partir do desvio-padrão da
amostra, depende de quão bem o desvio-padrão da amostra, , estima o desvio-padrão
da população, .
 Decidir se rejeita ou retém um resultado que parece ser um valor discrepante em um
conjunto de medições replicadas.
s
σ
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 38/122
Em cada uma de uma série de cinco curvasde erro normal, a frequência
relativa é representada em função da quantidade z. As áreas sombreadas em
cada gráfico estão entre os valores de -z e +z indicados à esquerda e à direita
das curvas.
Os números dentro das áreas sombreadas são a porcentagem da área total
sob a curva que está incluída nesses valores de z.
O nível de confiança (CL), também conhecido como intervalo de confiança (IC), é a
probabilidade de que a verdadeira média esteja dentro de determinado intervalo e é
frequentemente expresso como uma porcentagem. Na imagem a seguir, (c), o nível de
confiança é de 90% e o intervalo de confiança é de -1,64σ a +1,64σ.
 (a)
50% da área sob qualquer curva
gaussiana está localizada entre -0,67σ e
+0,67σ.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 39/122
 (b)
80% da área total está entre -1,28σ e
+1,28σ.
 (c)
90% da área total situa-se entre -1,64σ e
+1,64σ.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 40/122
A probabilidade de um resultado estar fora do intervalo de confiança é frequentemente
chamada de nível de significância. Se fizermos uma única medida a partir de uma
 (d)
95% da área total situa-se entre -1,96σ e
+1,96σ.
 (e)
99% da área total situa-se entre -2,58σ e
+2,58σ.
x
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 41/122
distribuição de conhecida, podemos dizer que a verdadeira média deve estar no
intervalo com uma probabilidade dependente de .
No entanto, raramente estimamos a verdadeira média a partir de uma única medida.
Em vez disso, usamos a média experimental de medições como uma estimativa
melhor de .
Observe as tabelas:
Intervalo de confiança para vários valores de z
Intervalo de confiança (%) z
50 0,67
68 1
σ
x± zσ z
 CI para μ = x± zσ
x̄ N
μ
 CI para μ = x±
zσ
√N
–
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 42/122
Intervalo de confiança para vários valores de z
80 1,28
90 1,64
95 1,96
95,4 2
99 2,58
99,7 3
99,9 3,29
Mauro Rezende Filho.
Tamanho do Intervalo de confiança como função do número médio de
medições
Número médio de medições Tamanho relativo do intervalo de confiança
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 43/122
Tamanho do Intervalo de confiança como função do número médio de
medições
1 1
2 0,71
3 0,58
4 0,5
5 0,45
6 0,41
10 0,32
Mauro Rezende Filho.
Exemplo 1
Determine os intervalos de confiança de 80% e 95% para (a) a primeira entrada (1.108
 de glicose) e (b) o valor médio (1.100,3 para o mês 1. Suponha que, emmg/L mg/L)
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 44/122
cada parte, seja uma boa estimativa de .
Solução
(a) Da tabela, temos que e para os níveis de confiança de 80% e
95%. Substituindo na equação, temos:
A partir desses cálculos, concluímos que é 80% provável que , a média populacional
(e, na ausência de erro determinado, o valor verdadeiro), esteja no intervalo de
 a de glicose. Além disso, a probabilidade é de 95% de que 1,1
esteja no intervalo entre e .
(b) Para as sete medições:
s = 19 σ
z = −1, 28 1, 96
80%Cl = 1.108 ± 1, 28 × 19 = 1.108 ± 24, 3mg/L
95%C1 = 1.108 ± 1, 96 × 19 = 1.108 ± 37, 2mg/L
μ
1.083, 7 1.132, 3mg/L
1.070, 8 1.145, 2mg/L
80%CIμ = 1, 100, 3 ±
1, 28 × 19
√7
= 1, 100, 3 ± 9, 2mg/L
95%CIμ = 1, 100, 3 ±
1, 96 × 19
√7
= 1, 100, 3 ± 14, 1g/L
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 45/122
Portanto, a partir da média experimental , concluímos que há
80% de chance de estar localizado no intervalo entre e de
glicose e 95% de chance de estar entre e de glicose.
Exemplo 2
Quantas medições replicadas no exemplo anterior serão necessárias para diminuir o
intervalo de confiança de 95% para de glicose?
Solução
Queremos que o termo seja igual de glicose.
Valores de t para vários níveis de probabilidade
Graus de liberdade 80% 90% 95%
1 3,08 6,31 12,7
(x̄ = 1.100, 3mg/L)
1.091, 1 1.109, 5mg/L
1.086, 2 1.114, 4mg/L
1.100, 3 ± 10mg/L
± zσ
√N
a± 10, 0mg/L
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 46/122
Valores de t para vários níveis de probabilidade
2 1,89 2,92 4,3
3 1,64 2,35 3,18
4 1,53 2,13 2,78
5 1,48 2,02 2,57
6 1,44 1,94 2,4
7 1,42 1,9 2,3
8 1,4 1,86 2,3
9 1,38 1,83 2,2
10 1,37 1,81 2,23
15 1,34 1,75 2,13
20 1,32 1,73 2,09
40 1,3 1,68 2,02
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 47/122
Valores de t para vários níveis de probabilidade
60 1,3 1,67 2
∞ 1,28 1,64 1,9
Mauro Rezende Filho.
Sendo assim:
Concluímos, portanto, que são necessárias 14 medições para fornecer uma chance
ligeiramente superior a 95% de que a média da população esteja dentro de 
de glicose da média experimental.
Para encontrar o intervalo de confiança quando é desconhecido, temos as seguintes
situações.
zσ
√N
=
1, 96 × 19
√N
= 10
√N =
1, 96 × 19
10
= 3, 724
N = 3, 7242 = 13, 9
±10mg/L
σ
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 48/122
Em caso de limitações no tempo ou na quantidade de amostra disponível,
um único conjunto de medições replicadas deve fornecer não apenas uma
média, mas também uma estimativa de precisão.
“ ” é calculado a partir de um pequeno conjunto de dados que podem ser
bastante incertos.
Os intervalos de confiança são necessariamente mais amplos quando
devemos usar um pequeno valor amostral de como nossa estimativa de .
Para levar em conta a variabilidade de s, usamos o importante parâmetro
estatístico , definido exatamente da mesma maneira que , exceto que é
substituído por .
Para uma única medição com resultado , podemos definir como
.
Para a média de medições .
Assim como depende do nível de confiança desejado, bem como do número de
graus de liberdade no cálculo de s. Portanto, se aproxima de à medida que o
número de graus de liberdade se torna grande.
O intervalo de confiança para a média de medições replicadas pode ser calculado a
partir de como:
s
s σ
t z s
σ
x t
t = x−μ
s
N t = x̄−μ
s/√N
z, t
t z
N
t
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 49/122
Exemplo 3
Um químico clínico obteve os seguintes dados para o teor de álcool de uma amostra
de sangue: e . Calcule o intervalo de confiança de
95% para a média supondo que (a) os três resultados obtidos são a única indicação da
precisão do método e que (b), pela experiência anterior em centenas de amostras,
sabemos que o desvio-padrão do método e é uma boa
estimativa de .
Solução
(a) 
 CI para μ = x̄±
ts
√N
%C2H5OH : 0, 084, 0, 089 0, 079
s = 0, 005%C2H5OH
σ
∑xi = 0, 084 + 0, 089 + 0, 079 = 0, 252
∑x2i = 0, 007056 + 0, 007921 + 0, 006241 = 0, 021218
s =√ 0,021218−0,2502/3
3−1 = 0, 0050%C2H5OH
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 50/122
Temos, então, que . Da tabela sobre valores de para vários níveis
de probabilidade, temos que para dois graus de liberdade e 95% de intervalo
de confiança. Portanto:
(b) Como é uma boaestimativa de ,podemos utilizando o valor de z
para calcular:
Observe que um conhecimento seguro de σ diminui o intervalo de confiança em uma
quantidade significativa, mesmo que s e σ sejam idênticos.
Testando hipóteses
x̄ = 0,252
4 = 0, 084 t
t = 4, 30
95%CI = x̄±
ts
√N
= 0, 084 ±
4, 30 × 0, 0050
√3
95%CI = 0, 084 ± 0, 012%C2H50H
x = 0, 0050% σ
95%CI = x̄±
zσ
√N
= 0, 094 ±
1, 96 × 0, 0050
√3
95%CI = 0, 084 ± 0, 006%C2H50H
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 51/122
Os testes de hipóteses são usados para determinar se os resultados desses
experimentos suportam o modelo. Então:
Se não suportado
Se não suportarem o modelo,
a hipótese será rejeitada.
Se houver concordância
O modelo hipotético servirá
como base para outros
experimentos.
Os resultados experimentais raramente concordam exatamente com aqueles
previstos a partir de um modelo teórico. Testes estatísticos ajudam a determinar se
uma diferença numérica é resultado de uma diferença real (um erro sistemático) ou
uma consequência de erros aleatórios inevitáveis em todas as medições. Assim:
Hipótese nula
Assume que as grandezas
numéricas que estão sendo
comparadas são as mesmas.
Distribuição de probabilidade
É usada para calcular a
probabilidade de as diferenças
observadas serem resultado
de um erro aleatório.


25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 52/122
Normalmente, se a diferença observada for maior ou igual à diferença que ocorreria 5
vezes em 100 por acaso (um nível de significância de 0,05), a hipótese nula é
considerada questionável, e a diferença é considerada significativa. Outros níveis de
significância, como 0,01 (1%) ou 0,001 (0,1%), também podem ser adotados,
dependendo da certeza desejada no julgamento.
Quando expresso como uma fração, o nível de significância geralmente é dado pelo
símbolo . O nível de confiança, , em porcentagem, está relacionado a por
. Alguns exemplos de testes de hipóteses que os cientistas
costumam usar incluem estas comparações:
a média de um conjunto de dados experimentais com o que se acredita ser o
valor verdadeiro;
a média para um valor previsto ou de corte (limiar); e
as médias ou os desvios-padrão de dois ou mais conjuntos de dados.
Comparando uma média experimental com
um valor conhecido
α CL α
CL = (1 − α) × 100%
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 53/122
Em muitos casos, a média de um conjunto de dados precisa ser comparada com um
valor conhecido. Um teste de hipótese estatística é usado para tirar conclusões sobre
a média populacional e sua proximidade com o valor conhecido, que chamamos de
.
Existem dois resultados contraditórios em qualquer teste de hipótese:
1. A hipótese nula , afirma que .
2. A hipótese alternativa pode ser declarada como:
rejeitar a hipótese nula em favor de se ; ou
 se ou .
Se um grande número de resultados estiver disponível de modo que s seja uma boa
estimativa de , o teste z é apropriado. O procedimento utilizado está resumido a
seguir:
1. Declare a hipótese nula: 
2. Forme a estatística de teste 
3. Declare a hipótese alternativa e determine a região de rejeição:
μ
μ0
H0 μ = μ0
Ha
Ha μ ≠ μ0
μ < μ0 μ > μ0
σ
H0 : μ = μ0
z = x̄−μ0
σ/√N
Ha
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 54/122
Para , rejeite se ou se 
(teste bicaudal).
Para , rejeite se (teste unicaudal).
Para , rejeite se (teste unicaudal).
Observe que, para , podemos rejeitar tanto um valor positivo de quanto
um valor negativo de que exceda o valor crítico. Isso é chamado de teste bicaudal,
pois a rejeição pode ocorrer para resultados em qualquer uma das caudas da
distribuição.
Para o nível de confiança de 95%, a probabilidade de z exceder é 0,025 em cada
cauda ou 0,05 no total. Portanto, há apenas uma probabilidade de 5% de que o erro
aleatório levará a um valor de ou . O nível de significância geral
é .
Se, em vez disso, nossa hipótese alternativa for , diz-se que o teste é um
teste unilateral. Nesse caso, podemos rejeitar apenas quando .
Ha : μ ≠ μ0 H0 z ≥ zcrit  z ≤ −zcrit 
Ha : μ > μ0 H0 z ≥ zcrit 
Ha : μ < μ0 H0 z ≤ −zcrit 
Ha : μ ≠ μ0 z
z
Zcrit 
z ≥ zcrit  z ≤ −zcrit. 
α = 0, 05
Ha : μ > μ0
z ≥ zcrit. 
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 55/122
 (a) Teste bicaudal para 
Observe que o valor crítico de z é 1,96.
 soma das áreas em
ambas as caudas.
Ha : μ ≠ μ0
Pvalor  = 0, 050 =
 Teste unilateral para 
O valor crítico de z é 1,64 , de modo que
95% da área está à esquerda de e 5%
da área está à direita.
 área da cauda
superior.
Ha : μ > μ0
zcrit 
Pvalor  = 0, 050 =
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 56/122
Exemplo
Uma turma de alunos determinou que a energia de ativação de uma reação
química é (valor médio) com desvio-padrão de . Os dados
estão de acordo com o valor da literatura de em (a) nível de confiança
de e (b) nível de confiança de ? Estime a probabilidade de obter uma média igual
ao valor obtido pelos estudantes.
Solução
Temos valores suficientes para que s seja uma boa estimativa de . Temos que é o
valor da literatura de de modo que a hipótese nula é 
. A hipótese alternativa é que mol-I. Esse é, portanto, um teste bicaudal.
 Teste unilateral para 
O valor crítico de z é 1,64, de modo que 5%
da área está à esquerda de .
 área da cauda inferior.
Ha : μ < μ0
−zcrit. 
Pvalor  = 0, 050 =
30
116kJmol−1 22kJmol−1
129kJmol−1
95 99
σ μ0
129kJmol−1 μ = 129kJmol−1
μ ≠ 129kJ
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 57/122
Da tabela para o nível de confiança de e para o nível
de confiança de . A estatística "t" é calculada como:
Como , rejeitamos a hipótese nula ao nível de confiança de 95%. Observe
que, como , também rejeitamos no nível de confiança de 99%. Para
estimar a probabilidade de obter um valor médio de , devemos
encontrar a probabilidade de obter um valor de z de 3,27. Da tabela, a probabilidade de
obter um valor z tão grande por causa do erro aleatório é de apenas 0,2%. Todos esses
resultados nos levam a concluir que a média do aluno é realmente diferente do valor
da literatura, não apenas o resultado do erro aleatório.
Teste t de amostra pequena
Para um pequeno número de resultados, usamos um procedimento semelhante ao
teste z, exceto que a estatística de teste é a estatística t. O procedimento utilizado
está resumido a seguir:
1. Declare a hipótese nula: 
1, zcrit  = 1, 96 95 zcrit  = 2, 58
99
z =
x̄− μ0
σ/√N
=
116 − 129
22√30
= −3, 27
z ≤ −1, 96
z ≤ −2, 58 H0
μ = 116kJmol−1
H0 : μ = μ0
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 58/122
2. Forme a estatística de teste: 
3. Declare a hipótese alternativa e determine a região de rejeição:
Para , rejeite se ou se 
(teste bicaudal).
Para , rejeite se (teste unicaudal).
Para , rejeite se (teste unicaudal).
Se o método analítico não tivesse erro sistemático, ou viés (Bias), os erros aleatórios
dariam a distribuição de frequência mostrada pela curva . O método tem algum
erro sistemático de modo que , que estima , difere do valor aceito .
O viés é dado por: viés (Bias) 
t = x̄−μ0
s
√N
Ha
Ha : μ ≠ μ0 H0 t ≥ tcrit  t ≤ −tcrit 
Ha : μ > μ0 H0 t ≥ tcrit 
Ha : μ < μ0 H0 t ≤ −tcritA B
xB μB μ0
= μB − μ0
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 59/122
Ilustração de erro sistemático em um método analítico.
Onde:
A curva A é a distribuição de frequência para o valor aceito por um método
sem Bias.
A curva B ilustra a distribuição de frequência dos resultados por um método
que pode ter um Bias significativo devido a um erro sistemático.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 60/122
Exemplo
Um novo procedimento para a determinação rápida de enxofre em querosenes foi
testado em uma amostra conhecida pelo seu método de preparação por conter
 ). Os resultados para foram 0,112, 0,118, 0,115 e 0,119.
Os dados indicam que há um viés no método no nível de confiança de 95%?
Solução
A hipótese nula é , e a hipótese alternativa é
.
A estatística “t” pode agora ser calculada
0, 123%S (μ0 = 0, 123%S
H0 : μ = 0, 123%S
Ha : μ = 0, 123%S
∑xi = 0, 112 + 0, 118 + 0, 115 + 0, 119 = 0, 464
x̄ =
0, 464
4
= 0, 116%S
∑x2i = 0, 012544 + 0, 013924 + 0, 013225 + 0, 014164 = 0, 053854
s =√
0, 053854 − 0, 4642/4
4 − 1
= 0, 53854
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 61/122
Na tabela sobre valores de para vários níveis de probabilidade, encontramos que o
valor crítico de para 3 graus de liberdade e nível de confiança de 95% é 3,18. Como
, concluímos que há uma diferença significativa no nível de confiança de
95% e, portanto, viés (Bias) no método. Observe que, se fôssemos fazer esse teste no
nível de confiança de 99%, (na tabela).
Como é maior que , aceitaríamos a hipótese nula no nível de
confiança de 99% e concluiríamos que aqui não há diferença entre os valores
experimentais e os valores aceitos. Observe, nesse caso, que o resultado do intervalo
de confiança foi usado.
Nós já vimos que a escolha do nível de confiança depende de nossa vontade de
aceitar um erro no resultado. O nível de significância (0,05 ou 0,01) é a probabilidade
de cometer um erro ao rejeitar a hipótese nula.
Apresentamos, em anexo, a tabela da distribuição de Student mais completa.
Mão na massa
t =
x̄− μ0
s
√N
=
0, 116 − 0, 123
0,032
√4
= −4, 375
t
t
t ≤ −3, 18
tcrit  = −5, 84
t = −4, 375 −5, 84
t

25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 62/122
https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_distribuicao_t_de_student.pdf
Questão 1
Uma siderúrgica está iniciando uma nova produção de chapa metálica. Segundo as
especificações do cliente, a espessura deverá ser de . Quantas
medições deverão ser realizadas para garantir um intervalo de confiança de 95%,
sabendo que é uma boa estimativa de ?
50 ± 1, 5mm
s = 1, 2 σ
A 2
B 3
C 4
D 5
E 8
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 63/122
Parabéns! A alternativa B está correta.
Da tabela, temos que para os níveis de confiança de .
Desejamos então que o termo seja igual a . Então:
Concluímos, portanto, que são necessárias três medições para fornecer uma chance
ligeiramente superior a de que a média da população esteja dentro de
.
Questão 2
Um novo procedimento automatizado para determinação de glicose no soro
(Método A) deve ser comparado ao método estabelecido (Método B). Ambos são
realizados no soro dos mesmos seis pacientes para eliminar a variabilidade de
paciente para paciente. Qual resultado a seguir confirma uma diferença nos dois
métodos no nível de confiança de 95%?
z = 1, 96 95%
± zσ
√N
±1, 5mm
zσ
√N
=
1, 96 × 1, 1
√N
= 1, 5
√N =
1, 96 × 1, 2
1, 5
= 1, 57
N = 1, 572 = 2, 46
95%
±1, 5mm
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 64/122
Parabéns! A alternativa A está correta.
Assista ao vídeo para conferir a resolução da questão.
A 4,628
B 5,704
C 3,894
D 6,059
E 4,798
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 65/122
Questão 3
Os níveis de glicose são monitorados rotineiramente em pacientes que sofrem de
diabetes. As concentrações de glicose em um paciente com níveis de glicose
levemente elevados foram determinadas em diferentes meses por um método
analítico espectrofotométrico. O paciente foi colocado em uma dieta com baixo teor
de açúcar para reduzir os níveis de glicose. Os seguintes resultados foram obtidos
durante um estudo para determinar a eficácia da dieta:
Calcule uma estimativa combinada do desvio-padrão para o método.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 66/122
Parabéns! A alternativa E está correta.
Vamos calcular a soma dos quadrados que é necessária para o cálculo do desvio-
padrão. A seguir, o cálculo analítico do primeiro mês e em seguida a tabela mostram
os demais.
A 17
B 18
C 16
D 22
E 19
 Média  mês 1 =
1108+1122+1075+1099+1115+1083+1100
7 = 1.100, 29
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 67/122
Soma dos quadrados
O desvio-padrão combinado é então:
Observe que esse valor combinado é uma estimativa melhor do que qualquer um
dos valores individuais de na última coluna. Observe também que um grau de
liberdade é perdido para cada um dos quatro conjuntos. Como restam 20 graus de
liberdade, no entanto, o valor calculado de pode ser considerado uma boa
estimativa de .
= (1108 − 1100, 29)2 + (1122 − 1100, 29)2 +…+ (1100 − 1100, 29)2 = 1687,
scombinado  =√ 6907,89
24−4 = 18, 58 ≅19mg/L
σ
s
σ
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 68/122
Questão 4
Foi perguntado a cinquenta mulheres qual é o número ideal de filhos para uma
família ter. As cinquenta mulheres que responderam apresentaram mediana de 2,
média de 3,22 e desvio-padrão de 1,99. Testando a hipótese nula vs a
alternativa no nível de significância , qual seria o valor da
estatística " "?
H0 : μ = 3
H1 : μ > 3 α = 0, 05
t
A 0,8941
B 0,5604
C 0,7484
D 0,7817
E 0,9578
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 69/122
Parabéns! A alternativa D está correta.
Etapa 1: suposições
A variável é quantitativa; o tamanho da amostra é grande o suficiente, então a
distribuição amostral da média amostral é aproximadamente normal.
Passo 2: Hipóteses
 vs a alternativa 
Etapa 3: Estatística de teste
Questão 5
Uma companhia petrolífera implantou um novo procedimento para a determinação
rápida da presença correta de um aditivo que foi testado em uma amostra
conhecida do processo de preparação por conter 0,185% (left(mu_0=0,185 % ight)).
Os resultados para % do aditivo nas amostras selecionadas estão apresentados na
tabela a seguir. Os dados indicam que há um viés no método no nível de confiança
de 95%. Qual o valor da estatística “z” encontrado?
H0 : μ = 3 H1 : μ > 3
t = √n× x̄−μ0
σ
= √50 × 3,22−3
1,99 = 0, 7817
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 70/122
Parabéns! A alternativa A está correta.
Com base nos dados apresentados, temos que a hipótese nula é ,
e a hipótese alternativa é . Temos então:
A 0,6325
B 0,5812
C 0,4754
D 0,8474
E 0,7368
H0 : μ = 0, 183%
Ha: μ > 0, 183%
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 71/122
A estatística "z" pode agora ser calculada:
Questão 6
Uma indústria metalúrgica produz blanks de metal e, segundo o vendedor, os
diâmetros dos blanks são de , com desvio-padrão de . 0 comprador
selecionou 30 blanks aleatoriamente para confirmar os diâmetros e obteve uma
média de . 0 comprador deseja confirmar os diâmetros para um .
s =√ 0,000030
3 = 0, 003162
z = x̄−μ0
σ/√N
= 0,186−0,185
0,003162/√4
= 0, 6325
10cm 0, 13cm
9, 9cm a = 0, 05
A |- 4,34| > |1,96|. Logo, rejeitamos a H0
B |- 4,34| > |1,96|. Logo, aceitamos a H0
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 72/122
Parabéns! A alternativa A está correta.
Assista ao vídeo para conferir a resolução da questão.
C |- 5,22| > |1,96|. Logo, rejeitamos a H0
D |- 5,22| > |1,96|. Logo, aceitamos a H0
E |- 4,34| > |2,96|. Logo, rejeitamos a H0
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 73/122
Teoria na prática
Um pesquisador compara média de duas marcas para inferir a durabilidade do
produto. Determinou significância de 0,05. A tabela a seguir apresenta a estatística
básica das amostras.
Amostra x Amostra y
Tamanho da
amostra
100 100
Média da amostra 1160 1140
Desvio-padrão da
amostra
60 80
Mauro Rezende Filho.
Qual a sua decisão como pesquisador?
_black
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 74/122
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
Encontre o valor do teste t para os dois conjuntos de valores a seguir: 7, 2, 9, 8 e 1, 2,
3, 4.
Mostrar solução
A 3,0547
B 2,6578
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 75/122
Parabéns! A alternativa C está correta.
Primeira série:
Segunda série:
C 2,3764
D 2,6589
E 2,4806
x̄ =
7 + 2 + 9 + 2
4
= 6, 5
∑x2i = 0, 25 + 20, 25 + 6, 25 + 2, 25 = 29
s =√
29 − 6, 52/4
4 − 1
= 3, 11
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 76/122
Calculando para as duas séries:
Questão 2
Jeffrey, aos 8 anos, estabeleceu um tempo médio de 16,43 segundos para nadar o
estilo livre de 25 jardas, com desvio-padrão de 0,8 segundos. Seu pai, Frank, pensou
que Jeffrey poderia nadar o estilo livre de 25 jardas mais rápido usando óculos de
proteção. Frank comprou para Jeffrey um novo par de óculos caros e cronometrou
Jeffrey para 15 nados de 25 jardas nado livre. Para os 15 nados, o tempo médio de
Jeffrey foi de 16 segundos. Frank pensou que os óculos ajudaram Jeffrey a nadar
mais rápido que os 16,43 segundos. Faça um teste de hipótese usando um 
predefinido = 0,05.
x̄ =
1 + 2 + 3 + 4
4
= 2, 5
∑x2i = 2, 25 + 0, 25 + 0, 25 + 2, 25 = 5
s =√
5 − 2, 52/4
4 − 1
= 1, 29
t
t = x̄1−x̄2
√ s21
n +
s22
n
= 6,5−2,5
√ 9,67
n + 1,67
n
≅2, 3764
α
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 77/122
Parabéns! A alternativa A está correta.
Como o problema é sobre uma média, este é um teste de uma única média
populacional.
Nesse caso, há uma contestação ou reclamação implícita, isto é, que os óculos
reduzirão o tempo de natação. O efeito disso é definir a hipótese como um teste
unilateral. A alegação estará sempre na hipótese alternativa porque o ônus da prova
A -2,08
B -2,67
C -2,89
D -1,96
E -2,45
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 78/122
sempre recai sobre a alternativa. Lembre-se que o status quo deve ser derrotado
com um alto grau de confiança – neste caso, 95% de confiança. As hipóteses nula e
alternativa são assim:
Para Jeffrey nadar mais rápido, seu tempo será inferior a 16,43 segundos. 0 " diz
que isso é de cauda esquerda.
Como um nível de significância de 95%, vale a pena pensar no significado dessa
escolha. O erro do tipo I é concluir que Jeffrey nada o estilo livre de 25 jardas, em
média, em menos de 16,43 segundos, quando, na verdade, ele nada o estilo livre de
25 jardas, em média, em 16,43 segundos. (Rejeite a hipótese nula quando a hipótese
nula for verdadeira.) Para esse caso, a única preocupação com um erro Tipo I parece
ser que o pai de Jeffery pode deixar de apostar na vitória de seu filho porque ele não
tem confiança apropriada no efeito de os óculos.
Para encontrar o valor crítico, precisamos selecionar a estatística de teste
apropriada. Concluímos que é um teste t com base no tamanho da amostra e que
estamos interessados em uma média populacional. Para esse problema, os graus de
liberdade são , ou 14. Observando 14 graus de liberdade na coluna 0,05 da
tabela t, encontramos 1,761. Esse é o valor crítico que podemos colocar em nosso
gráfico.
H0μ ≥ 16, 43 Ha : μ < 16, 43
<′′
μ0 = 16, 43 vem de H0, não dos dados. x̄ = 16, s = 0, 8 e n = 15
n− 1
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 79/122
Descobrimos que a estatística de teste calculada é 2,08, o que significa que a média
da amostra está a 2,08 desvios-padrão da média hipotética de 16,43.
A probabilidade de que um tempo médio de 16 minutos possa vir de uma
distribuição com média populacional de 16,43 minutos é muito improvável para
aceitarmos a hipótese nula. Não podemos aceitar o nulo.
Uma conclusão formal seria a seguinte: com um nível de significância de 95% não
podemos aceitar a hipótese nula de que o tempo de natação com óculos vem de
uma distribuição com tempo médio populacional de 16,43 minutos. Menos
formalmente, Com 95% de significância, acreditamos que os óculos melhoram a
velocidade de natação.
t = x̄−μ0
s
√N
= 16−16,43
0,8
√15
= −2, 08
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 80/122
3 - Os testes de aderência: qui-quadrado, KS
Ao �nal deste módulo, você será capaz de descrever os testes de aderência: qui-quadrado, KS.
Vamos começar!
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 81/122
Descrevendo os testes de aderência qui-
quadrado e KS
Assista ao vídeo a seguir e entenda como descrever os testes de aderência qui-
quadrado e KS.
Teste qui-quadrado
O teste do qui-quadrado é comumente aceito como a técnica preferida de ajuste.
Assim como o teste de comparação gráfica, o teste do qui-quadrado é baseado na

25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 82/122
comparação do número real de observações versus o número esperado de
observações.
Isso significa que o teste do qui-quadrado também usa a abordagem de probabilidade
igual para determinar o número de células e os limites das células. Os passos na
execução do teste qui-quadrado são os seguintes:
 Estabelecer hipóteses nulas e alternativas.
 Determinar um nível de signi�cância do teste.
 Calcular o valor crítico da distribuição qui-quadrado.
 Calcular a estatística do teste qui-quadrado a partir dos dados.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 83/122
A seguir, veremos o que acontece em cada uma dessas etapas.Estabelecer hipóteses nulas e alternativas
Declarações de hipóteses
As declarações de hipóteses nulas e alternativas são assim conceituadas:
Hipótese nula
Geralmente, será uma afirmação de que
os dados de entrada podem ter vindo de
Hipótese alternativa
É uma afirmação de que os dados de
entrada não podem ter vindo de uma
 Comparar a estatística de teste com o valor crítico.
 Aceitar ou rejeitar as hipóteses nulas.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 84/122
uma distribuição teórica específica. distribuição teórica específica.
Na prática, as declarações de hipóteses nulas e alternativas podem ser conceituadas:
: Distribuição (parâmetro 1, parâmetro 2, ...)
: Não distribuição (parâmetro 1, parâmetro 2, ...)
Distribuição seria o nome da distribuição teórica real, e os parâmetros
corresponderiam aos parâmetros específicos associados a essa distribuição teórica
específica. Se estivéssemos testando dados de serviço com distribuição normal,
precisaríamos de dados de parâmetros para a média e o desvio-padrão. Por exemplo,
se pensarmos que a distribuição teórica é normal com uma média de 5 e um desvio-
padrão de 2, a declaração de hipóteses apareceria como:
: Normal (5, 2)
: Não é normal (5, 2)
Determinar um nível de signi�cância do
teste
H0
Ha
H0
Ha
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 85/122
É necessário estabelecer um nível de confiança para o teste. Por exemplo, se você
deseja ter 95% de confiança nos resultados do teste, o nível de significância é 0,05. O
nível de significância é muitas vezes referido como o nível . Outros níveis comuns
são 0,01 e 0,10.
Determinar o valor crítico para distribuição
de qui-quadrado
Esse processo consiste em determinar o valor crítico para a distribuição qui-quadrado.
O valor crítico é o limite entre metades não significativas e significativas da
distribuição qui-quadrado. Em outras palavras, com um nível de significância de 0,05, o
valor crítico seria o valor em que 95% da distribuição está à esquerda do valor crítico,
enquanto 5% da distribuição está à direita do valor crítico.
Calcular a estatística do teste qui-quadrado
a partir dos dados
A estatística de teste é calculada somando as diferenças quadradas entre o número
observado de pontos de dados e o número esperado de pontos de dados dividido pelo
α α
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 86/122
número esperado de pontos de dados para cada célula de dados individual. Esse
processo é mais facilmente explicado com a seguinte fórmula:
Onde:
 = estatística de teste a ser calculada e comparada com o valor crítico.
 = número de observações de pontos de dados na iésima célula de dados.
 = número de pontos de dados esperados na iésima célula de dados.
 = número de células de dados.
Para cada célula na fórmula anterior, o praticante pegará o número de valores
observados no intervalo de células e subtrairá o número de valores esperados. Esse
termo é então elevado ao quadrado. O valor positivo resultante é dividido pelo mesmo
número de valores esperados usados anteriormente. Esses cálculos são feitos para
cada célula no teste e somados. O valor resultante segue a distribuição qui-quadrado.
χ2 =
n
∑
i=1
(Oi − Ei)
2
Ei
χ2 =
Oi
Ei
n
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 87/122
Comparar a estatística de teste com o valor
crítico
Nessa etapa, comparamos a estatística de teste que acabou de ser calculada com o
valor crítico determinado anteriormente. A estatística de teste será menor ou maior
que o valor crítico.
Aceitar ou rejeitar as hipóteses nulas
Entenda a seguir os procedimentos dessa etapa em dois cenários:
Se o valor da estatística
de teste for menor que o
valor crítico
Se o valor da estatística
de teste for maior que o
valor crítico
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 88/122
Então a hipótese nula de que os dados
poderiam ter vindo dessa distribuição
teórica não pode ser rejeitada no nível de
significância previamente determinado.
Então a hipótese nula é rejeitada. Isso
significaria que há evidências de que os
dados não vieram dessa distribuição
teórica.
Número mínimo de pontos de dados para o
teste qui-quadrado
Uma possível fraqueza do teste qui-quadrado é que ele pode ser executado apenas se
existir uma quantidade suficiente de dados para aplicar o teste.
É necessário ter pelo menos 20 pontos de dados para que o teste
funcione matematicamente. Se apenas 20 pontos de dados
estiverem disponíveis, um total de 4 células de dados será
utilizado. Isso significa que um mínimo mais realista seria pelo
menos 30 pontos de dados.
Com pelo menos 30 pontos, o praticante pode ter confiança razoável nos resultados
do teste qui-quadrado. No caso de existir uma quantidade insuficiente de dados para
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 89/122
realizar o teste do qui-quadrado, o profissional pode considerar a utilização do teste de
Kolmogorov-Smirnov (KS).
Exemplo
Considere o exemplo a seguir para demonstrar o uso do teste de ajuste qui-quadrado.
Os dados da tabela foram obtidos a partir dos tempos entre chegadas em minutos
dos clientes em uma central de atendimento. Gostaríamos de verificar se a
distribuição entre chegadas é exponencialmente distribuída.
0,87 2,57 3,23 3,94
2,48 1,43 1,63 15,8
3,43 0,25 1,04 5,53
2,68 0,8 3,86 2,23
2,73 0,17 0,01 0,5
Mauro Rezende FIlho.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 90/122
Para começar, precisaremos calcular estatísticas resumidas para os dados. Embora
possamos calcular a média e o desvio-padrão dos dados, a distribuição exponencial
tem apenas um único parâmetro, a média.
Média = 2,31
Desvio-padrão = 2,88
Contagem = 30
Temos 30 pontos de dados e vamos usar a abordagem equiprovável recomendada.
Isso significa que precisaremos usar um total de 30/5 ou 6 células em nosso teste.
Com as estatísticas resumidas, é possível configurar as hipóteses nula e alternativa.
Passo 1
Configuramos as hipóteses nula e alternativa:
 Expo (2.31)
 Não Expo (2.31)
H0 :
Ha :
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 91/122
Passo 2
O nível de significância é escolhido como 0,05.
Passo 3
O valor crítico do qui-quadrado é 6 – 1 – 1 = 4. Existem 6 células, um parâmetro para a
média e um grau de liberdade adicional para o teste. Observando uma tabela qui-
quadrado ou usando a fórmula da função “=INV.QU (0.05,4)” do Excel, o valor crítico é
9,49.
Passo 4
Calculamos os limites percentuais inferior e superior para cada célula, os valores 
superior e inferior para cada célula e as observações observadas e esperadas para
cada célula.
x
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 92/122
Célula
Porcentagem Val
Inferior Superior Infe
1 0 0,167 0
2 0,167 0,333 0,42
3 0,333 0,5 0,93
4 0,5 0,667 1,59
5 0,667 0,833 2,53
6 0,833 1 4,13
Mauro Rezende Filho.
Os valores nas colunas inferior e superior são calculados usando esta fórmula:x x
x = −0, 97 × ln[1 − F(x)]
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 93/122
Onde éa porcentagem acumulada das colunas de porcentagem inferior e
superior.
A estatística de teste é a soma da última coluna:
Passo 5
A estatística de teste é menor que o valor crítico em alfa 0,05, 4,0 < 9,4.
Passo 6
Não é possível rejeitar a hipótese nula de dados sendo distribuídos exponencialmente
com média de 2,31.
Kolmogorov–Smirnov (KS)
F(x)
0, 2 + 0, 0 + 0, 2 + 0, 0 + 1, 8 + 1, 8 = 4, 0
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 94/122
O teste KS deve ser utilizado somente quando o número de pontos de dados for
extremamente limitado e o teste do qui-quadrado não puder ser aplicado
adequadamente.
Saiba que o teste KS tem menos capacidade de ajustar
adequadamente os dados do que outras técnicas, como o teste do
qui-quadrado. Uma limitação final do teste KS é que algumas
referências não recomendam o uso do KS com distribuições
discretas.
Na verdade, existem muitas versões desse teste com vários graus de complexidade.
Para uma discussão completa do teste KS, os praticantes são direcionados para o
texto de simulação Law e Kelton. A versão do teste KS apresentada nesse manual é a
mais simples de implementar.
Comentário
Estatísticos mais ortodoxos, às vezes, criticam essa versão como estatisticamente fraca. No entanto, para o
praticante, a diferença provavelmente será insignificante.
O conceito por trás do teste KS é uma comparação entre a distribuição teórica
cumulativa e a distribuição cumulativa observada. Se a diferença máxima entre a
distribuição teórica cumulativa e a observada exceder um valor crítico de KS, então a
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 95/122
distribuição observada não pode ter vindo da distribuição teórica. Os passos para o KS
são:
 Estabelecer hipóteses nulas e alternativas.
 Determinar um nível de signi�cância do teste.
 Determinar o valor crítico de KS da tabela D.
 Determinar a maior diferença absoluta entre as duas distribuições
cumulativas.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 96/122
A seguir, veremos o que acontece em cada uma dessas etapas.
Estabelecer hipóteses nulas e alternativas
Assim como o teste qui-quadrado, o teste KS inicia-se com o estabelecimento das
hipóteses nula e alternativa. Para o teste KS, também podemos condensar as
hipóteses nula e alternativa para:
: Distribuição (parâmetro 1 , parâmetro 2, ... )
: Não distribuição (parâmetro 1, parâmetro 2, …)
 Comparar a diferença com o valor crítico de KS.
 Aceitar ou rejeitar a hipótese nula.
H0
Ha
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 97/122
Determinar um nível de signi�cância do
teste
Da mesma forma que o teste qui-quadrado, também é necessário estabelecer um nível
de confiança para o teste KS. Por exemplo, se você deseja ter 95% de confiança nos
resultados do teste, o nível de significância é 0,05. O nível de significância é muitas
vezes referido como o nível α. Outros níveis α comuns são 0,01 e 0,10.
Determinar o valor KS crítico da tabela D
O valor crítico para o teste KS é obtido a partir de uma tabela D. A tabela D tem dois
parâmetros: o tamanho da amostra e o nível de significância. Apresentamos, em
anexo, a tabela Valores Críticos da Distribuição da Estatística (Kolmogorov-
Smirnov).
Determinar a maior diferença absoluta entre
Dn
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 98/122
https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_k_s.pdf
https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_k_s.pdf
as duas distribuições cumulativas
Nessa etapa, as probabilidades cumulativas das distribuições teóricas e observadas
são determinadas. Um gráfico simples pode ser usado para auxiliar nesse processo,
conforme a seguir:
1. A probabilidade cumulativa é plotada no eixo vertical, e os intervalos de
valores de dados são plotados no eixo horizontal.
2. Para a distribuição de dados observados, a probabilidade cumulativa é o
número de observações menores ou iguais ao valor dos dados dividido pelo
número total de observações.
3. Para a distribuição teórica, a probabilidade acumulada pode ser calculada
matematicamente.
4. Uma vez que o gráfico esteja completo, o objetivo é determinar a diferença
absoluta máxima na probabilidade cumulativa entre as distribuições teóricas
e observadas. Isso é feito simplesmente subtraindo os valores de
distribuição cumulativos.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 99/122
Comparar a diferença com o valor crítico de
KS
A diferença absoluta máxima na probabilidade cumulativa entre as distribuições
teóricas e observadas é então comparada.
Aceitar ou rejeitar as hipóteses nulas
Entenda a seguir os procedimentos dessa etapa em dois cenários:
Se a diferença absoluta
máxima for menor que o
valor crítico
Então as hipóteses nulas não podem ser
rejeitadas.
A amostra pode ter vindo da distribuição
teórica com os parâmetros
Se a diferença absoluta
máxima for maior que o
valor crítico
Então a hipótese nula é rejeitada.
A amostra não veio da distribuição
teórica com os parâmetros
especificados.
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 100/122
especificados.
De�nição
Seja uma amostra aleatória. A função de distribuição empírica 
é uma função de , que é igual à fração de Xis, que são menores ou iguais a x para
cada , , ou seja:
A função de distribuição empírica é útil como um estimador de , a função
de distribuição desconhecida do Xis. Podemos comparar a função de distribuição
empírica com a função de distribuição hipotética para ver se há boa
concordância. Uma das medidas mais simples é a maior distância entre as duas
funções e , medida na direção vertical. Essa é a estatística sugerida por
Kolmogorov (1933).
Os dados consistem em uma amostra aleatória de tamanho 
associada a alguma função de distribuição desconhecida, denotada por . A
amostra é aleatória. Seja a função de distribuição empírica baseada na amostra
aleatória . Seja uma função de distribuição hipotética
X1,X2,… ,Xn S(x)
x
x −∞ < x < ∞
S(x) =
1
n
n
∑
1=1
I{xi≤x}
S(x) F(x)
S(x) F ∗(x)
S(x) F ∗(x)
X1,X2,… ,Xn n
F(x)
S(x)
X1,X2,… ,Xn F ∗(x)
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 101/122
completamente especificada. Seja a estatística de teste T a maior (indicada por "sup"
para superior) distância vertical entre e . Em símbolos, dizemos:
Para teste:
 para todo de a 
 para pelo menos um valor de 
Se T exceder o quantil "1- " dado pela tabela, então rejeitamos no nível de
significância . O -valor aproximado pode ser encontrado por interpolação na tabela
de valores críticos da distribuição da estatística (Kolmogorov-Smirnov).
Exemplo 1
Uma amostra aleatória de tamanho 10 é obtida: 
. A hipótese nula é que a função de distribuição é uniforme de acordo com o gráfico. A
expressão matemática para a função de distribuição hipotética é:
S(x) F ∗(x)
T = sup
x
|F ∗(x) − S(x)|
H0 : F(x) = F ∗(x) x −∞ ∞
H1 : F(x) ≠ F ∗(x) x
α H0
α p
Dn
X1 = 0, 621,X)2 = 0, 503,X3 =
0, 203,X4 = 0, 477,X5 = 0, 710,X6 = 0, 581,X7 = 0, 329,X8 = 0, 480,X9 = 0, 554,X10 = 0, 382
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 102/122
Onde:é a função de distribuição desconhecida comum ao Xis.
 é dada pela equação anterior.
O teste de Kolmogorov para o ajuste é usado. A região crítica de tamanho 
corresponde a valores de T superiores ao quantil 0,95, 0, 409, obtido da tabela para
. 0 valor de T é obtido representando graficamente a função de distribuição
empírica no topo da função de distribuição hipotética , conforme
mostrado na figura a seguir. A maior distância vertical que separa os dois gráficos é
0,290, que ocorre em porque e 
. Em outras palavras:
F(x)
F ∗ (x)
α = 0, 05
n = 10
S(x) F ∗(x)
x = 0, 710 S(0, 710) = 1, 000 F ∗(0, 710) = 0, 710
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 103/122
Como é menor que 0,409, aceita-se a hipótese nula. O -valor é visto, da
tabela, como maior que 0,20.
Veja a tabela a seguir:
Quantis de teste de Kolmogorov
n p = 0,80 p = 0,90 p = 
1 0,9 0,95 0,97
T = sup
x
|F ∗(x) − S(x)|
T = sup
x
|F ∗(0, 710) − S(0, 710)| = 0, 290
T = 0, 290 p
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 104/122
Quantis de teste de Kolmogorov
2 0,684 0,776 0,84
3 0,565 0,636 0,7
4 0,493 0,565 0,62
5 0,447 0,509 0,5
6 0,41 0,468 0,5
7 0,981 0,436 0,48
8 0,358 0,41 0,4
9 0,339 0,387 0,43
10 0,323 0,369 0,4
Mauro Rezende Filho.
Apresentamos, em anexo, a tabela Valores Críticos da Distribuição da Estatística 
(Kolmogorov-Smirnov).
Dn
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 105/122
https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_k_s.pdf
Exemplo 2
Determine se os dados representados na tabela de frequência a seguir são
normalmente distribuídos onde representa a quantidade de chuva. Usando o teste
KS, determine se os dados dos gráficos de testes de normalidade e simetria são
normalmente distribuídos.
X 100 200 300
Freq 8 25 88
Mauro Rezende Filho.
Isso significa que 8 elementos têm um valor x menor que 100 (ou seja, entre 0 e 100),
25 elementos têm um valor x entre 101 e 200 etc. Precisamos encontrar a média e o
desvio-padrão desses dados. Como essa é uma tabela de frequência, não podemos
simplesmente usar as funções AVERAGE(MÉDIA) e STDEV (DESVPAD.A) do Excel. Em
vez disso, primeiro usamos os pontos médios de cada intervalo e, em seguida, uma
abordagem semelhante à descrita nas tabelas de frequência, conforme mostrado na
imagem a seguir:
x
S
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 106/122
Assim, a média é 481,4 e o desvio-padrão é 155,2. Podemos agora construir a tabela
que nos permite realizar o teste KS, conforme mostrado na imagem a seguir:
Entenda a seguir:
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 107/122
Colunas A e B: contêm os dados da tabela de frequência original.
Coluna C: contém os valores de frequência cumulativa correspondentes.
Coluna D: simplesmente divide esses valores pelo tamanho da amostra
 para produzir a função de distribuição cumulativa .
Coluna E: usa a média e o desvio-padrão calculados anteriormente para
padronizar os valores de da coluna A. A fórmula na célula E4 é
=STANDARDIZE (A4,N$5,N$10), onde a célula N5 contém a média e a célula
N10 contém o desvio-padrão (da imagem anterior).
Coluna F: usa esses valores padronizados para calcular os valores da função
de distribuição cumulativa assumindo que os dados originais são
normalmente distribuídos. Por exemplo, a célula F4 contém a fórmula
=NORM.S.DIST(E4,TRUE).
Coluna G: contém os valores absolutos das diferenças entre os valores nas
colunas D e F. Por exemplo, a célula G4 contém a fórmula =ABS(F4—D4). Se
os dados originais forem normalmente distribuídos, essas diferenças serão
zero.
Agora é igual ao maior valor na coluna G, ou seja, MAX(G4:G13) = 0,0117 (célula
G8). Se os dados forem normalmente distribuídos, o valor crítico será maior que
. Da tabela Kolmogorov-Smirnov, vemos que:
(n = 1.000) Sn(x)
x
Dn
Dn,α
Dn
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 108/122
Como , concluímos que os dados são um bom
ajuste para a distribuição normal.
Exemplo 3
Foram coletadas 20 amostras de um experimento. O analista deseja saber se os
dados de amostra são normalmente distribuídos, ou seja, o valor crítico de
Kolmogorov-Smirnov.
5,57 8,32 8,35 8,74
9,38 9,91 9,96 10,3
10,77 10,97 11,15 11,
11,64 1,88 12,24 13,
Mauro Rezende Filho.
Dn,α = 1, 36/SQRT (1000) = 0, 043007
Dn = 0, 0117 < 0, 043007 = Dn,α
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 109/122
Calcularemos os valores reais versus os valores esperados da distribuição normal:
Aqui estão as fórmulas que usamos em várias células:
B2: =ROW() – 1
C2: =B2/COUNT($A$2:$A$21)
D2: =(B2-1)/COUNT($A$2:$A$21)
E2: =IF(C2 < 1, NORM.S.INV(C2),””)
F2: =NORM.DIST(A2, $J$1, $J$2, TRUE)
G2: =ABS(F2–D2)
J1: =AVERAGE(A2:A21)
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 110/122
J2: =STDEV.S(A2:A21)
J2: =STDEV.S(A2:A21)
Um teste de Kolmogorov-Smirnov usa as seguintes hipóteses nulas e alternativas:
: os dados são normalmente distribuídos.
: os dados não são normalmente distribuídos.
Para determinar se devemos rejeitar ou deixar de rejeitar a hipótese nula, devemos nos
referir ao valor máximo na saída, que acaba sendo 0,10983.
Isso representa a diferença absoluta máxima entre os valores reais de nossa amostra
e os valores esperados de uma distribuição normal.
Para determinar se esse valor máximo é estatisticamente significativo, devemos
consultar uma tabela de Kolmogorov-Smirnov de valores críticos e encontrar o número
igual a e .
O valor crítico acaba sendo 0,294.
Como nosso valor máximo não é maior que esse valor crítico, deixamos de rejeitar a
hipótese nula. Isso significa que podemos assumir que nossos dados de amostra são
distribuídos normalmente.
H0
HA
n = 20 α = 0, 05
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 111/122
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 112/122
Falta pouco para atingir seus objetivos.
Vamos praticar alguns conceitos?
Questão 1
O teste de Kolmogorov-Smirnov pode ser usado para testar
A se as pontuações são medidas no nível do intervalo.
B se as pontuações são normalmente distribuídas.
C se as variâncias de grupo são iguais.
D
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 113/122
Parabéns! A alternativa B está correta.
Se as pontuações são normalmente distribuídas. Isso ocorre porque o teste de
Kolmogorov-Smirnov compara os escores da amostra com um conjunto de escores
normalmente distribuídos com a mesma média e desvio-padrão.
Questão 2
Um hospital montou uma estatística de tratamento experimental em um grupo de
pacientes separados por faixa etária, apresentado na tabela a seguir. Decidiu-se
fazer um teste qui-quadrado para analisar a amostra. Você foi chamado para
conduzir esse teste. Qual foi o valor do -valor encontrado?
Grupo de pacientes
A B
se os desvios padrão de grupo são iguais.
E se as médias do grupo diferem.
p
25/05/2024, 08:27 Modelagem de dados de entrada para simulação
https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio#