Prévia do material em texto
Modelagem de dados de entrada para simulação Prof. Mauro Rezende Filho 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 1/122 Descrição A coleta de dados, o tratamento dos dados e os testes de aderência: qui-quadrado, KS. Propósito Apresentar a modelagem de dados de entrada como um componente crítico de um aplicativo de simulação bem-sucedido. Uma perspectiva da área de análise estatística é dada com ênfase nas distribuições de probabilidade disponíveis como modelos, métodos de estimativa, seleção e discriminação de modelos e qualidade de ajuste. Objetivos Módulo 1 Coleta de dados e análise dos dados coletados Reconhecer a importância da coleta e da análise dos dados. Módulo 2 Tratamento dos dados Reconhecer a importância do tratamento dos dados. Módulo 3 Os testes de aderência: qui-quadrado, KS Descrever os testes de aderência: qui- quadrado, KS. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 2/122 Introdução Olá! Antes de começarmos, assista ao vídeo e entenda o processo de modelagem de dados de entrada para simulação. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 3/122 1 - Coleta de dados e análise dos dados coletados Ao �nal deste módulo, você será capaz de reconhecer a importância da coleta e da análise dos dados. Vamos começar! 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 4/122 A importância da análise dos dados coletados Entenda a seguir a importância da análise dos dados coletados. Coletando dados de entrada Em um projeto de simulação, o uso final dos dados de entrada é conduzir a simulação. Esse processo envolve: Coleta Análise Uso dos dados de entrada 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 5/122 Os dados de entrada podem ser obtidos de registros históricos ou coletados em tempo real como uma tarefa no projeto de simulação. A análise dos dados envolve a identificação da distribuição teórica que representa os dados de entrada no modelo de simulação. O uso dos dados de entrada no modelo envolve a especificação das distribuições teóricas no código do programa de simulação. Sendo assim: Existem muitas fontes que podemos usar para adquirir dados de entrada, tais como: registros históricos; especificações do fabricante; reclamações de fornecedores; estimativas de operadores; estimativas de gerenciamento; captura automática de dados; observação direta. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 6/122 A fase de coleta de dados é a parte mais difícil do processo de simulação. Se o operador tiver conhecimento sobre o sistema, pode ser possível obter algumas estimativas de desempenho a ser usadas como dados de entrada. A forma de coleta de dados mais exigente física e mentalmente é a observação direta. Os dados de entrada podem ser coletados manualmente ou com o auxílio de dispositivos eletrônicos. Há duas questões importantes para os dados de entrada da simulação referentes aos intervalos de tempo: Unidade de tempo Geralmente, é menos trabalhoso coletar os dados corretamente, em primeiro lugar, usando uma abordagem relativa de tempo entre chegadas. Tipos de unidades O praticante de simulação deve saber que queremos dados imparciais, para não interromper o processo. Se os dados forem tendenciosos, talvez leve a um modelo que pode gerar resultados imprecisos. Ao coletar os dados de entrada, devemos perceber que existem diferentes classificações. Um método de classificação é se eles são determinísticos ou probabilísticos. Dados determinísticos Dados probabilísticos 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 7/122 Significa que o evento envolvendo os dados ocorre da mesma maneira ou de maneira previsível a cada vez. Nesse caso, esse tipo de dado precisa ser coletado apenas uma vez, pois nunca varia de valor. Significa que o evento envolvendo os dados não ocorre com regularidade. Nesse caso, o processo com esse tipo de dado deverá seguir alguma distribuição probabilística. Outra classificação dos dados de entrada é se os dados são discretos ou contínuos. Dados discretos Os dados do tipo discreto podem assumir apenas determinados valores. Geralmente, isso significa um número inteiro. Dados contínuos As distribuições contínuas podem assumir qualquer valor no intervalo observado, logo números fracionários são uma possibilidade definitiva. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 8/122 Distribuições de dados de entrada Apresentaremos agora algumas das distribuições de dados de entrada mais comuns. Existem outros tipos diferentes de distribuições probabilísticas que podemos encontrar. Às vezes, podemos encontrar essas distribuições de dados de entrada mais comuns apenas como resultado de um programa computadorizado de ajuste de dados. Esses tipos de programas são voltados para retornar o melhor ajuste matemático entre muitas distribuições teóricas possíveis. Nesses tipos de casos, um resultado específico não significa necessariamente que haja uma razão racional para que os dados se ajustem melhor a uma distribuição específica. Às vezes, uma distribuição teórica que faz sentido será um ajuste quase tão bom. Nesses casos, teremos que decidir se faz mais sentido usar o melhor ajuste matemático ou um ajuste muito próximo que faça sentido. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 9/122 Distribuição Bernoulli É usada para modelar uma ocorrência aleatória com um dos dois resultados possíveis, que são frequentemente referidos como um sucesso ou fracasso. Observe o gráfico: A média e a variância da distribuição de Bernoulli são: 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 10/122 Onde: = a fração de sucessos. = a fração de falhas. Distribuição uniforme Isso significa que, dentro do intervalo de valores possíveis, cada valor individual tem a mesma probabilidade de ser observado. Distribuições uniformes podem ser usadas como um primeiro corte para modelar os dados de entrada de um processo se houver pouco conhecimento do processo. A distribuição uniforme pode ser discreta ou contínua. Observe o gráfico: Média = p var = p(1 − p) p (1 − p) 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 11/122 A média e a variância de uma distribuição uniforme são: Onde: é o valor mínimo. é o valor máximo. Média = a+ b 2 var = (b− a)2 12 a b 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 12/122 Distribuição exponencial É comumente utilizada em conjunto com processos entre chegadas em modelos de simulação porque a chegada de entidades em muitos sistemas foi comprovada ou considerada um processo aleatório ou de Poisson. Isso significa que um número aleatório de entidades chegará dentro de uma unidade de tempo específica. O número de chegadas que podem ser esperadas durante a unidade de tempo é distribuído aleatoriamente em torno do valor médio.Observe o gráfico: As equações estatísticas para a média e variância da distribuição exponencial são: 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 13/122 A probabilidade é representada por: Onde: é a média da amostra de dados. é o valor dos dados. Distribuição triangular Pode ser usada em situações em que o profissional não tem conhecimento completo do sistema, mas suspeita que os dados não estão distribuídos uniformemente. Em particular, se o profissional suspeitar que os dados são normalmente distribuídos, a distribuição triangular pode ser uma boa primeira aproximação. Média = B var = B2 f(x) = 1 B e−x ou x = B ln(1 − F(x)) B x 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 14/122 A distribuição triangular possui apenas três parâmetros: o valor mínimo possível, o valor mais comum e o valor máximo possível. Como o valor mais comum não precisa estar igualmente entre o mínimo e o máximo, a distribuição triangular não tem de ser necessariamente simétrica. Observe o gráfico: A média e a variância da distribuição triangular são: Onde: Média = a+m+ b 3 Variância = a2 +m2 + b2 −ma− ab−mb 18 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 15/122 = Valor mínimo. = Valor mais comum. = Valor máximo. Distribuição normal A duração do tempo para muitos processos de serviço segue a distribuição normal. A razão para isso é que muitos processos, na verdade, consistem em vários subprocessos. Independentemente da distribuição de probabilidade de cada subprocesso individual, quando os tempos do subprocesso são somados, as durações de tempo resultantes frequentemente se tornam em geral distribuídas. A distribuição normal tem dois parâmetros: a média e o desvio-padrão. A distribuição normal também é simétrica. Isso significa que há um número igual de observações menor e maior que a média dos dados. O padrão ou a distribuição das observações de cada lado também é semelhante. Observe o gráfico: a m b 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 16/122 A fórmula matemática um tanto formidável para a probabilidade de distribuição normal é: Onde: µ é a média. σ é o desvio-padrão. f(x) = 1 σ√2π e−i(x−μ) 2/2σ2 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 17/122 Distribuição de Poisson É usada para modelar um número aleatório de eventos que ocorrerão em um intervalo de tempo. Observe o gráfico: A distribuição de Poisson tem apenas um parâmetro, .λ p(x) = e−λλx x! 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 18/122 Onde: é média e variância. é o valor da variável aleatória. Distribuição Weibull É frequentemente usada para representar distribuições que não podem ter valores menores que zero. A distribuição Weibull possui dois parâmetros, um de forma e um de escala . A função de probabilidade longa para o Weibull é: Onde: é um parâmetro de forma. é um parâmetro de escala. λ x α β f(x) = αβ−αxα−1e −( x β ) α , para x > 0, caso contrário 0 α β 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 19/122 Observe o gráfico: A média e a variância são representadas matematicamente por: Onde: é um parâmetro de forma. média = β α Γ( 1 α ) var = β2 α {2Γ( 2 α )− 1 α [Γ( 1 α )] 2 } α 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 20/122 é um parâmetro de escala. é dado por . Distribuição gama É outra distribuição que pode ser menos comum ao usuário. A distribuição gama é usada para modelar valores de dados positivos que são assimétricos à direita e maiores que 0. Costuma ser utilizada em estudos de sobrevivência de confiabilidade. A equação de densidade de probabilidade para a distribuição gama é: Onde , e são definidos como na distribuição Weibull. Observe o gráfico: β Γ Γ = ∫ ∞ 0 xα−1e−xdx f(x) = 1 βαΓ(x) xα−1e−x/β, para x > 0, caso contrário 0 α β Γ 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 21/122 A distribuição gama pode degenerar para a mesma representação matemática que a distribuição exponencial. A distribuição gama não pode ficar abaixo de 0. Análise de dados de entrada O processo de determinação do tipo de distribuição para um conjunto de dados geralmente envolve o que é conhecido como a essência do teste de ajuste. Esses testes são baseados em algum tipo de comparação entre a distribuição dos dados observados e uma distribuição teórica correspondente. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 22/122 Se a diferença entre a distribuição dos dados observados e a distribuição teórica correspondente for pequena, então pode-se afirmar com algum nível de certeza que os dados de entrada podem ter vindo de um conjunto de dados com os mesmos parâmetros da distribuição teórica. Existem quatro métodos diferentes para conduzir essa comparação, como veremos a seguir. Abordagem grá�ca É a abordagem mais fundamental para tentar ajustar os dados de entrada. Consiste em uma comparação visual qualitativa entre a distribuição real dos dados e uma distribuição teórica da qual os dados observados podem ter vindo. Os passos para usar a abordagem gráfica incluem: Criar um histograma de dados observados. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 23/122 Existem duas abordagens para determinar como lidar com o problema da célula: Abordagem de intervalo igual Método onde definimos a largura de cada intervalo de células de dados para ser o mesmo valor. Abordagem de probabilidade igual Método estatisticamente mais robusto que determina o número de células. Criar um histograma para a distribuição teórica. Comparar visualmente os dois histogramas para similaridade. Tomar uma decisão qualitativa quanto à similaridade dos dois conjuntos de dados. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 24/122 Teste do qui-quadrado É comumente aceito como a técnica preferida de bondade de ajuste. Assim como o teste de comparação gráfica, o teste do qui-quadrado é baseado na comparação do número real de observações versus o número esperado de observações. Isso significa que o teste do qui-quadrado também usa a abordagem de igual probabilidade para determinar o número de células e os limites das células. Os passos na execução do teste qui-quadrado são os seguintes: Estabelecer hipóteses nulas e alternativas. Determinar um nível de signi�cância do teste. Calcular o valor crítico da distribuição qui-quadrado. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 25/122 Teste de Kolmogorov-Smirnov (KS) Deve ser utilizado somente quando o número de pontos de dados for extremamente limitado e o teste do qui-quadrado não puder ser aplicado adequadamente. Geralmente, aceita-se que o teste KS tem menos capacidade de ajustar mais adequadamente os dados do que outras técnicas, como o testedo qui-quadrado. Uma limitação final é que algumas referências não recomendam o uso do KS com distribuições discretas. Calcular a estatística do teste qui-quadrado a partir dos dados. Comparar a estatística de teste com o valor crítico. Aceitar ou rejeitar a hipótese nula. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 26/122 Comentário Na verdade, existem muitas versões do teste KS, com vários graus de complexidade. Para uma discussão completa desse teste, os praticantes são direcionados para o texto de simulação Law e Kelton. A versão apresentada no manual é a mais simples de implementar. Os estatísticos do núcleo duro às vezes criticam essa versão como estatisticamente fraca. No entanto, para o praticante, a diferença provavelmente será insignificante. O conceito por trás do teste KS é uma comparação entre a distribuição teórica cumulativa e a distribuição cumulativa observada. Se a diferença máxima entre as duas exceder um valor crítico de KS, então a distribuição observada não pode ter vindo da distribuição teórica. Os passos para o KS são: Estabelecer hipóteses nulas e alternativas. Determinar um nível de signi�cância do teste. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 27/122 Erro quadrático Determinar o valor crítico de KS da tabela D. Determinar a maior diferença absoluta entre as duas distribuições cumulativas. Comparar a diferença com o valor crítico de KS. Aceitar ou rejeitar a hipótese nula. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 28/122 Utiliza um total somado do quadrado do erro entre as distribuições observada e teórica. O erro é definido como a diferença entre as duas distribuições para cada célula de dados individual. Veja quais são as duas questões muito comuns entre a aquisição de dados: Quantos dados precisam ser coletados É necessário observar os dados corretos, os diferentes valores que podem ocorrer e a necessidade de ter dados suficientes para realizar um teste de adequação. Ajustar os dados a uma distribuição teórica As possíveis causas para essa dificuldade incluem: não foram coletados dados suficientes, os dados são uma combinação de várias distribuições diferentes. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 29/122 Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos? Questão 1 A seguinte distribuição de frequência: 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 30/122 X 5 15 f 2 4 Mauro Rezende Filho. Será classificada como distribuição A de frequência relativa. B contínua. C de frequência percentual. D discreta. E de frequência absoluta. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 31/122 Parabéns! A alternativa D está correta. Observe que os dados são determinísticos; portanto, a distribuição de frequência será discreta. Questão 2 A análise de dados é uma coleção de métodos quantitativos e qualitativos para extrair informações úteis dos dados. Isso envolve uma série de etapas, incluindo extração e categorização de dados para gerar vários padrões, interações, conexões e outros insights úteis. Essas informações são então classificadas, salvas e analisadas para dar sentido a elas e obter insights úteis. A análise de dados usa, para obter dos dados, A números estatísticos. B aspectos numéricos. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 32/122 Parabéns! A alternativa C está correta. Para obter insights dos dados, a análise usa abordagens estatísticas. As organizações podem usar a análise de dados para descobrir tendências e desenvolver insights analisando todos os seus dados (em tempo real, históricos, não estruturados, estruturados e qualitativos). C métodos estatísticos. D dados aleatórios. E nenhum dos citados acima. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 33/122 2 - Tratamento dos dados Ao �nal deste módulo, você será capaz de reconhecer a importância do tratamento dos dados. Vamos começar! 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 34/122 Tratamento de dados amostrais Entenda a seguir o tratamento de dados amostrais. Tratamento e avaliação de dados Em testes estatísticos para determinar se duas quantidades são iguais, dois tipos de erros são possíveis. Erro do tipo I Erro do tipo II 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 35/122 Ocorre quando rejeitamos a hipótese de que duas quantidades são iguais quando estatisticamente idênticas. Ocorre quando aceitamos que eles são iguais quando não são estatisticamente idênticos. As aplicações mais comuns do tratamento de dados estatísticos são as enumeradas a seguir. Definir um intervalo numérico, o intervalo de confiança, em torno da média de um conjunto de resultados replicados dentro do qual se pode esperar que a média da população esteja com certa probabilidade. Esse intervalo está relacionado ao desvio- padrão da média. Determinar o número de medições replicadas necessárias para garantir que uma média experimental caia dentro de determinado intervalo com determinado nível de probabilidade. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 36/122 Estimar a probabilidade de (a) uma média experimental e um valor verdadeiro ou (b) duas médias experimentais serem diferentes. Esse teste é particularmente importante para descobrir erros sistemáticos em um método e determinar se duas amostras vêm da mesma fonte. Indicar em determinado nível de probabilidade se a precisão de dois conjuntos de medições difere. Comparar as médias de mais de duas amostras para determinar se as diferenças nas médias são reais ou resultado de erro aleatório. Esse processo é conhecido como análise de variância. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 37/122 Na maioria das análises químicas quantitativas, o verdadeiro valor da média, µ, não pode ser determinado porque seria necessário um grande número de medições (aproximando-se do infinito). Nesse caso, o que se determina é o intervalo de confiança, ou seja, são determinados valores mínimos e máximos, e todos os valores dentro desse intervalo passam a ser aceitos. Exemplo Podemos dizer que é 99% provável que a verdadeira média populacional para um conjunto de medições de potássio esteja no intervalo de 7,25 ± 0,15% K. Assim, a probabilidade de que a média esteja no intervalo de 7,10 a 7,40% K é 99%. O tamanho do intervalo de confiança, que é calculado a partir do desvio-padrão da amostra, depende de quão bem o desvio-padrão da amostra, , estima o desvio-padrão da população, . Decidir se rejeita ou retém um resultado que parece ser um valor discrepante em um conjunto de medições replicadas. s σ 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 38/122 Em cada uma de uma série de cinco curvasde erro normal, a frequência relativa é representada em função da quantidade z. As áreas sombreadas em cada gráfico estão entre os valores de -z e +z indicados à esquerda e à direita das curvas. Os números dentro das áreas sombreadas são a porcentagem da área total sob a curva que está incluída nesses valores de z. O nível de confiança (CL), também conhecido como intervalo de confiança (IC), é a probabilidade de que a verdadeira média esteja dentro de determinado intervalo e é frequentemente expresso como uma porcentagem. Na imagem a seguir, (c), o nível de confiança é de 90% e o intervalo de confiança é de -1,64σ a +1,64σ. (a) 50% da área sob qualquer curva gaussiana está localizada entre -0,67σ e +0,67σ. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 39/122 (b) 80% da área total está entre -1,28σ e +1,28σ. (c) 90% da área total situa-se entre -1,64σ e +1,64σ. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 40/122 A probabilidade de um resultado estar fora do intervalo de confiança é frequentemente chamada de nível de significância. Se fizermos uma única medida a partir de uma (d) 95% da área total situa-se entre -1,96σ e +1,96σ. (e) 99% da área total situa-se entre -2,58σ e +2,58σ. x 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 41/122 distribuição de conhecida, podemos dizer que a verdadeira média deve estar no intervalo com uma probabilidade dependente de . No entanto, raramente estimamos a verdadeira média a partir de uma única medida. Em vez disso, usamos a média experimental de medições como uma estimativa melhor de . Observe as tabelas: Intervalo de confiança para vários valores de z Intervalo de confiança (%) z 50 0,67 68 1 σ x± zσ z CI para μ = x± zσ x̄ N μ CI para μ = x± zσ √N – 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 42/122 Intervalo de confiança para vários valores de z 80 1,28 90 1,64 95 1,96 95,4 2 99 2,58 99,7 3 99,9 3,29 Mauro Rezende Filho. Tamanho do Intervalo de confiança como função do número médio de medições Número médio de medições Tamanho relativo do intervalo de confiança 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 43/122 Tamanho do Intervalo de confiança como função do número médio de medições 1 1 2 0,71 3 0,58 4 0,5 5 0,45 6 0,41 10 0,32 Mauro Rezende Filho. Exemplo 1 Determine os intervalos de confiança de 80% e 95% para (a) a primeira entrada (1.108 de glicose) e (b) o valor médio (1.100,3 para o mês 1. Suponha que, emmg/L mg/L) 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 44/122 cada parte, seja uma boa estimativa de . Solução (a) Da tabela, temos que e para os níveis de confiança de 80% e 95%. Substituindo na equação, temos: A partir desses cálculos, concluímos que é 80% provável que , a média populacional (e, na ausência de erro determinado, o valor verdadeiro), esteja no intervalo de a de glicose. Além disso, a probabilidade é de 95% de que 1,1 esteja no intervalo entre e . (b) Para as sete medições: s = 19 σ z = −1, 28 1, 96 80%Cl = 1.108 ± 1, 28 × 19 = 1.108 ± 24, 3mg/L 95%C1 = 1.108 ± 1, 96 × 19 = 1.108 ± 37, 2mg/L μ 1.083, 7 1.132, 3mg/L 1.070, 8 1.145, 2mg/L 80%CIμ = 1, 100, 3 ± 1, 28 × 19 √7 = 1, 100, 3 ± 9, 2mg/L 95%CIμ = 1, 100, 3 ± 1, 96 × 19 √7 = 1, 100, 3 ± 14, 1g/L 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 45/122 Portanto, a partir da média experimental , concluímos que há 80% de chance de estar localizado no intervalo entre e de glicose e 95% de chance de estar entre e de glicose. Exemplo 2 Quantas medições replicadas no exemplo anterior serão necessárias para diminuir o intervalo de confiança de 95% para de glicose? Solução Queremos que o termo seja igual de glicose. Valores de t para vários níveis de probabilidade Graus de liberdade 80% 90% 95% 1 3,08 6,31 12,7 (x̄ = 1.100, 3mg/L) 1.091, 1 1.109, 5mg/L 1.086, 2 1.114, 4mg/L 1.100, 3 ± 10mg/L ± zσ √N a± 10, 0mg/L 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 46/122 Valores de t para vários níveis de probabilidade 2 1,89 2,92 4,3 3 1,64 2,35 3,18 4 1,53 2,13 2,78 5 1,48 2,02 2,57 6 1,44 1,94 2,4 7 1,42 1,9 2,3 8 1,4 1,86 2,3 9 1,38 1,83 2,2 10 1,37 1,81 2,23 15 1,34 1,75 2,13 20 1,32 1,73 2,09 40 1,3 1,68 2,02 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 47/122 Valores de t para vários níveis de probabilidade 60 1,3 1,67 2 ∞ 1,28 1,64 1,9 Mauro Rezende Filho. Sendo assim: Concluímos, portanto, que são necessárias 14 medições para fornecer uma chance ligeiramente superior a 95% de que a média da população esteja dentro de de glicose da média experimental. Para encontrar o intervalo de confiança quando é desconhecido, temos as seguintes situações. zσ √N = 1, 96 × 19 √N = 10 √N = 1, 96 × 19 10 = 3, 724 N = 3, 7242 = 13, 9 ±10mg/L σ 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 48/122 Em caso de limitações no tempo ou na quantidade de amostra disponível, um único conjunto de medições replicadas deve fornecer não apenas uma média, mas também uma estimativa de precisão. “ ” é calculado a partir de um pequeno conjunto de dados que podem ser bastante incertos. Os intervalos de confiança são necessariamente mais amplos quando devemos usar um pequeno valor amostral de como nossa estimativa de . Para levar em conta a variabilidade de s, usamos o importante parâmetro estatístico , definido exatamente da mesma maneira que , exceto que é substituído por . Para uma única medição com resultado , podemos definir como . Para a média de medições . Assim como depende do nível de confiança desejado, bem como do número de graus de liberdade no cálculo de s. Portanto, se aproxima de à medida que o número de graus de liberdade se torna grande. O intervalo de confiança para a média de medições replicadas pode ser calculado a partir de como: s s σ t z s σ x t t = x−μ s N t = x̄−μ s/√N z, t t z N t 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 49/122 Exemplo 3 Um químico clínico obteve os seguintes dados para o teor de álcool de uma amostra de sangue: e . Calcule o intervalo de confiança de 95% para a média supondo que (a) os três resultados obtidos são a única indicação da precisão do método e que (b), pela experiência anterior em centenas de amostras, sabemos que o desvio-padrão do método e é uma boa estimativa de . Solução (a) CI para μ = x̄± ts √N %C2H5OH : 0, 084, 0, 089 0, 079 s = 0, 005%C2H5OH σ ∑xi = 0, 084 + 0, 089 + 0, 079 = 0, 252 ∑x2i = 0, 007056 + 0, 007921 + 0, 006241 = 0, 021218 s =√ 0,021218−0,2502/3 3−1 = 0, 0050%C2H5OH 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 50/122 Temos, então, que . Da tabela sobre valores de para vários níveis de probabilidade, temos que para dois graus de liberdade e 95% de intervalo de confiança. Portanto: (b) Como é uma boaestimativa de ,podemos utilizando o valor de z para calcular: Observe que um conhecimento seguro de σ diminui o intervalo de confiança em uma quantidade significativa, mesmo que s e σ sejam idênticos. Testando hipóteses x̄ = 0,252 4 = 0, 084 t t = 4, 30 95%CI = x̄± ts √N = 0, 084 ± 4, 30 × 0, 0050 √3 95%CI = 0, 084 ± 0, 012%C2H50H x = 0, 0050% σ 95%CI = x̄± zσ √N = 0, 094 ± 1, 96 × 0, 0050 √3 95%CI = 0, 084 ± 0, 006%C2H50H 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 51/122 Os testes de hipóteses são usados para determinar se os resultados desses experimentos suportam o modelo. Então: Se não suportado Se não suportarem o modelo, a hipótese será rejeitada. Se houver concordância O modelo hipotético servirá como base para outros experimentos. Os resultados experimentais raramente concordam exatamente com aqueles previstos a partir de um modelo teórico. Testes estatísticos ajudam a determinar se uma diferença numérica é resultado de uma diferença real (um erro sistemático) ou uma consequência de erros aleatórios inevitáveis em todas as medições. Assim: Hipótese nula Assume que as grandezas numéricas que estão sendo comparadas são as mesmas. Distribuição de probabilidade É usada para calcular a probabilidade de as diferenças observadas serem resultado de um erro aleatório. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 52/122 Normalmente, se a diferença observada for maior ou igual à diferença que ocorreria 5 vezes em 100 por acaso (um nível de significância de 0,05), a hipótese nula é considerada questionável, e a diferença é considerada significativa. Outros níveis de significância, como 0,01 (1%) ou 0,001 (0,1%), também podem ser adotados, dependendo da certeza desejada no julgamento. Quando expresso como uma fração, o nível de significância geralmente é dado pelo símbolo . O nível de confiança, , em porcentagem, está relacionado a por . Alguns exemplos de testes de hipóteses que os cientistas costumam usar incluem estas comparações: a média de um conjunto de dados experimentais com o que se acredita ser o valor verdadeiro; a média para um valor previsto ou de corte (limiar); e as médias ou os desvios-padrão de dois ou mais conjuntos de dados. Comparando uma média experimental com um valor conhecido α CL α CL = (1 − α) × 100% 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 53/122 Em muitos casos, a média de um conjunto de dados precisa ser comparada com um valor conhecido. Um teste de hipótese estatística é usado para tirar conclusões sobre a média populacional e sua proximidade com o valor conhecido, que chamamos de . Existem dois resultados contraditórios em qualquer teste de hipótese: 1. A hipótese nula , afirma que . 2. A hipótese alternativa pode ser declarada como: rejeitar a hipótese nula em favor de se ; ou se ou . Se um grande número de resultados estiver disponível de modo que s seja uma boa estimativa de , o teste z é apropriado. O procedimento utilizado está resumido a seguir: 1. Declare a hipótese nula: 2. Forme a estatística de teste 3. Declare a hipótese alternativa e determine a região de rejeição: μ μ0 H0 μ = μ0 Ha Ha μ ≠ μ0 μ < μ0 μ > μ0 σ H0 : μ = μ0 z = x̄−μ0 σ/√N Ha 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 54/122 Para , rejeite se ou se (teste bicaudal). Para , rejeite se (teste unicaudal). Para , rejeite se (teste unicaudal). Observe que, para , podemos rejeitar tanto um valor positivo de quanto um valor negativo de que exceda o valor crítico. Isso é chamado de teste bicaudal, pois a rejeição pode ocorrer para resultados em qualquer uma das caudas da distribuição. Para o nível de confiança de 95%, a probabilidade de z exceder é 0,025 em cada cauda ou 0,05 no total. Portanto, há apenas uma probabilidade de 5% de que o erro aleatório levará a um valor de ou . O nível de significância geral é . Se, em vez disso, nossa hipótese alternativa for , diz-se que o teste é um teste unilateral. Nesse caso, podemos rejeitar apenas quando . Ha : μ ≠ μ0 H0 z ≥ zcrit z ≤ −zcrit Ha : μ > μ0 H0 z ≥ zcrit Ha : μ < μ0 H0 z ≤ −zcrit Ha : μ ≠ μ0 z z Zcrit z ≥ zcrit z ≤ −zcrit. α = 0, 05 Ha : μ > μ0 z ≥ zcrit. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 55/122 (a) Teste bicaudal para Observe que o valor crítico de z é 1,96. soma das áreas em ambas as caudas. Ha : μ ≠ μ0 Pvalor = 0, 050 = Teste unilateral para O valor crítico de z é 1,64 , de modo que 95% da área está à esquerda de e 5% da área está à direita. área da cauda superior. Ha : μ > μ0 zcrit Pvalor = 0, 050 = 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 56/122 Exemplo Uma turma de alunos determinou que a energia de ativação de uma reação química é (valor médio) com desvio-padrão de . Os dados estão de acordo com o valor da literatura de em (a) nível de confiança de e (b) nível de confiança de ? Estime a probabilidade de obter uma média igual ao valor obtido pelos estudantes. Solução Temos valores suficientes para que s seja uma boa estimativa de . Temos que é o valor da literatura de de modo que a hipótese nula é . A hipótese alternativa é que mol-I. Esse é, portanto, um teste bicaudal. Teste unilateral para O valor crítico de z é 1,64, de modo que 5% da área está à esquerda de . área da cauda inferior. Ha : μ < μ0 −zcrit. Pvalor = 0, 050 = 30 116kJmol−1 22kJmol−1 129kJmol−1 95 99 σ μ0 129kJmol−1 μ = 129kJmol−1 μ ≠ 129kJ 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 57/122 Da tabela para o nível de confiança de e para o nível de confiança de . A estatística "t" é calculada como: Como , rejeitamos a hipótese nula ao nível de confiança de 95%. Observe que, como , também rejeitamos no nível de confiança de 99%. Para estimar a probabilidade de obter um valor médio de , devemos encontrar a probabilidade de obter um valor de z de 3,27. Da tabela, a probabilidade de obter um valor z tão grande por causa do erro aleatório é de apenas 0,2%. Todos esses resultados nos levam a concluir que a média do aluno é realmente diferente do valor da literatura, não apenas o resultado do erro aleatório. Teste t de amostra pequena Para um pequeno número de resultados, usamos um procedimento semelhante ao teste z, exceto que a estatística de teste é a estatística t. O procedimento utilizado está resumido a seguir: 1. Declare a hipótese nula: 1, zcrit = 1, 96 95 zcrit = 2, 58 99 z = x̄− μ0 σ/√N = 116 − 129 22√30 = −3, 27 z ≤ −1, 96 z ≤ −2, 58 H0 μ = 116kJmol−1 H0 : μ = μ0 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 58/122 2. Forme a estatística de teste: 3. Declare a hipótese alternativa e determine a região de rejeição: Para , rejeite se ou se (teste bicaudal). Para , rejeite se (teste unicaudal). Para , rejeite se (teste unicaudal). Se o método analítico não tivesse erro sistemático, ou viés (Bias), os erros aleatórios dariam a distribuição de frequência mostrada pela curva . O método tem algum erro sistemático de modo que , que estima , difere do valor aceito . O viés é dado por: viés (Bias) t = x̄−μ0 s √N Ha Ha : μ ≠ μ0 H0 t ≥ tcrit t ≤ −tcrit Ha : μ > μ0 H0 t ≥ tcrit Ha : μ < μ0 H0 t ≤ −tcritA B xB μB μ0 = μB − μ0 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 59/122 Ilustração de erro sistemático em um método analítico. Onde: A curva A é a distribuição de frequência para o valor aceito por um método sem Bias. A curva B ilustra a distribuição de frequência dos resultados por um método que pode ter um Bias significativo devido a um erro sistemático. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 60/122 Exemplo Um novo procedimento para a determinação rápida de enxofre em querosenes foi testado em uma amostra conhecida pelo seu método de preparação por conter ). Os resultados para foram 0,112, 0,118, 0,115 e 0,119. Os dados indicam que há um viés no método no nível de confiança de 95%? Solução A hipótese nula é , e a hipótese alternativa é . A estatística “t” pode agora ser calculada 0, 123%S (μ0 = 0, 123%S H0 : μ = 0, 123%S Ha : μ = 0, 123%S ∑xi = 0, 112 + 0, 118 + 0, 115 + 0, 119 = 0, 464 x̄ = 0, 464 4 = 0, 116%S ∑x2i = 0, 012544 + 0, 013924 + 0, 013225 + 0, 014164 = 0, 053854 s =√ 0, 053854 − 0, 4642/4 4 − 1 = 0, 53854 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 61/122 Na tabela sobre valores de para vários níveis de probabilidade, encontramos que o valor crítico de para 3 graus de liberdade e nível de confiança de 95% é 3,18. Como , concluímos que há uma diferença significativa no nível de confiança de 95% e, portanto, viés (Bias) no método. Observe que, se fôssemos fazer esse teste no nível de confiança de 99%, (na tabela). Como é maior que , aceitaríamos a hipótese nula no nível de confiança de 99% e concluiríamos que aqui não há diferença entre os valores experimentais e os valores aceitos. Observe, nesse caso, que o resultado do intervalo de confiança foi usado. Nós já vimos que a escolha do nível de confiança depende de nossa vontade de aceitar um erro no resultado. O nível de significância (0,05 ou 0,01) é a probabilidade de cometer um erro ao rejeitar a hipótese nula. Apresentamos, em anexo, a tabela da distribuição de Student mais completa. Mão na massa t = x̄− μ0 s √N = 0, 116 − 0, 123 0,032 √4 = −4, 375 t t t ≤ −3, 18 tcrit = −5, 84 t = −4, 375 −5, 84 t 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 62/122 https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_distribuicao_t_de_student.pdf Questão 1 Uma siderúrgica está iniciando uma nova produção de chapa metálica. Segundo as especificações do cliente, a espessura deverá ser de . Quantas medições deverão ser realizadas para garantir um intervalo de confiança de 95%, sabendo que é uma boa estimativa de ? 50 ± 1, 5mm s = 1, 2 σ A 2 B 3 C 4 D 5 E 8 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 63/122 Parabéns! A alternativa B está correta. Da tabela, temos que para os níveis de confiança de . Desejamos então que o termo seja igual a . Então: Concluímos, portanto, que são necessárias três medições para fornecer uma chance ligeiramente superior a de que a média da população esteja dentro de . Questão 2 Um novo procedimento automatizado para determinação de glicose no soro (Método A) deve ser comparado ao método estabelecido (Método B). Ambos são realizados no soro dos mesmos seis pacientes para eliminar a variabilidade de paciente para paciente. Qual resultado a seguir confirma uma diferença nos dois métodos no nível de confiança de 95%? z = 1, 96 95% ± zσ √N ±1, 5mm zσ √N = 1, 96 × 1, 1 √N = 1, 5 √N = 1, 96 × 1, 2 1, 5 = 1, 57 N = 1, 572 = 2, 46 95% ±1, 5mm 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 64/122 Parabéns! A alternativa A está correta. Assista ao vídeo para conferir a resolução da questão. A 4,628 B 5,704 C 3,894 D 6,059 E 4,798 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 65/122 Questão 3 Os níveis de glicose são monitorados rotineiramente em pacientes que sofrem de diabetes. As concentrações de glicose em um paciente com níveis de glicose levemente elevados foram determinadas em diferentes meses por um método analítico espectrofotométrico. O paciente foi colocado em uma dieta com baixo teor de açúcar para reduzir os níveis de glicose. Os seguintes resultados foram obtidos durante um estudo para determinar a eficácia da dieta: Calcule uma estimativa combinada do desvio-padrão para o método. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 66/122 Parabéns! A alternativa E está correta. Vamos calcular a soma dos quadrados que é necessária para o cálculo do desvio- padrão. A seguir, o cálculo analítico do primeiro mês e em seguida a tabela mostram os demais. A 17 B 18 C 16 D 22 E 19 Média mês 1 = 1108+1122+1075+1099+1115+1083+1100 7 = 1.100, 29 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 67/122 Soma dos quadrados O desvio-padrão combinado é então: Observe que esse valor combinado é uma estimativa melhor do que qualquer um dos valores individuais de na última coluna. Observe também que um grau de liberdade é perdido para cada um dos quatro conjuntos. Como restam 20 graus de liberdade, no entanto, o valor calculado de pode ser considerado uma boa estimativa de . = (1108 − 1100, 29)2 + (1122 − 1100, 29)2 +…+ (1100 − 1100, 29)2 = 1687, scombinado =√ 6907,89 24−4 = 18, 58 ≅19mg/L σ s σ 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 68/122 Questão 4 Foi perguntado a cinquenta mulheres qual é o número ideal de filhos para uma família ter. As cinquenta mulheres que responderam apresentaram mediana de 2, média de 3,22 e desvio-padrão de 1,99. Testando a hipótese nula vs a alternativa no nível de significância , qual seria o valor da estatística " "? H0 : μ = 3 H1 : μ > 3 α = 0, 05 t A 0,8941 B 0,5604 C 0,7484 D 0,7817 E 0,9578 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 69/122 Parabéns! A alternativa D está correta. Etapa 1: suposições A variável é quantitativa; o tamanho da amostra é grande o suficiente, então a distribuição amostral da média amostral é aproximadamente normal. Passo 2: Hipóteses vs a alternativa Etapa 3: Estatística de teste Questão 5 Uma companhia petrolífera implantou um novo procedimento para a determinação rápida da presença correta de um aditivo que foi testado em uma amostra conhecida do processo de preparação por conter 0,185% (left(mu_0=0,185 % ight)). Os resultados para % do aditivo nas amostras selecionadas estão apresentados na tabela a seguir. Os dados indicam que há um viés no método no nível de confiança de 95%. Qual o valor da estatística “z” encontrado? H0 : μ = 3 H1 : μ > 3 t = √n× x̄−μ0 σ = √50 × 3,22−3 1,99 = 0, 7817 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 70/122 Parabéns! A alternativa A está correta. Com base nos dados apresentados, temos que a hipótese nula é , e a hipótese alternativa é . Temos então: A 0,6325 B 0,5812 C 0,4754 D 0,8474 E 0,7368 H0 : μ = 0, 183% Ha: μ > 0, 183% 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 71/122 A estatística "z" pode agora ser calculada: Questão 6 Uma indústria metalúrgica produz blanks de metal e, segundo o vendedor, os diâmetros dos blanks são de , com desvio-padrão de . 0 comprador selecionou 30 blanks aleatoriamente para confirmar os diâmetros e obteve uma média de . 0 comprador deseja confirmar os diâmetros para um . s =√ 0,000030 3 = 0, 003162 z = x̄−μ0 σ/√N = 0,186−0,185 0,003162/√4 = 0, 6325 10cm 0, 13cm 9, 9cm a = 0, 05 A |- 4,34| > |1,96|. Logo, rejeitamos a H0 B |- 4,34| > |1,96|. Logo, aceitamos a H0 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 72/122 Parabéns! A alternativa A está correta. Assista ao vídeo para conferir a resolução da questão. C |- 5,22| > |1,96|. Logo, rejeitamos a H0 D |- 5,22| > |1,96|. Logo, aceitamos a H0 E |- 4,34| > |2,96|. Logo, rejeitamos a H0 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 73/122 Teoria na prática Um pesquisador compara média de duas marcas para inferir a durabilidade do produto. Determinou significância de 0,05. A tabela a seguir apresenta a estatística básica das amostras. Amostra x Amostra y Tamanho da amostra 100 100 Média da amostra 1160 1140 Desvio-padrão da amostra 60 80 Mauro Rezende Filho. Qual a sua decisão como pesquisador? _black 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 74/122 Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos? Questão 1 Encontre o valor do teste t para os dois conjuntos de valores a seguir: 7, 2, 9, 8 e 1, 2, 3, 4. Mostrar solução A 3,0547 B 2,6578 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 75/122 Parabéns! A alternativa C está correta. Primeira série: Segunda série: C 2,3764 D 2,6589 E 2,4806 x̄ = 7 + 2 + 9 + 2 4 = 6, 5 ∑x2i = 0, 25 + 20, 25 + 6, 25 + 2, 25 = 29 s =√ 29 − 6, 52/4 4 − 1 = 3, 11 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 76/122 Calculando para as duas séries: Questão 2 Jeffrey, aos 8 anos, estabeleceu um tempo médio de 16,43 segundos para nadar o estilo livre de 25 jardas, com desvio-padrão de 0,8 segundos. Seu pai, Frank, pensou que Jeffrey poderia nadar o estilo livre de 25 jardas mais rápido usando óculos de proteção. Frank comprou para Jeffrey um novo par de óculos caros e cronometrou Jeffrey para 15 nados de 25 jardas nado livre. Para os 15 nados, o tempo médio de Jeffrey foi de 16 segundos. Frank pensou que os óculos ajudaram Jeffrey a nadar mais rápido que os 16,43 segundos. Faça um teste de hipótese usando um predefinido = 0,05. x̄ = 1 + 2 + 3 + 4 4 = 2, 5 ∑x2i = 2, 25 + 0, 25 + 0, 25 + 2, 25 = 5 s =√ 5 − 2, 52/4 4 − 1 = 1, 29 t t = x̄1−x̄2 √ s21 n + s22 n = 6,5−2,5 √ 9,67 n + 1,67 n ≅2, 3764 α 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 77/122 Parabéns! A alternativa A está correta. Como o problema é sobre uma média, este é um teste de uma única média populacional. Nesse caso, há uma contestação ou reclamação implícita, isto é, que os óculos reduzirão o tempo de natação. O efeito disso é definir a hipótese como um teste unilateral. A alegação estará sempre na hipótese alternativa porque o ônus da prova A -2,08 B -2,67 C -2,89 D -1,96 E -2,45 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 78/122 sempre recai sobre a alternativa. Lembre-se que o status quo deve ser derrotado com um alto grau de confiança – neste caso, 95% de confiança. As hipóteses nula e alternativa são assim: Para Jeffrey nadar mais rápido, seu tempo será inferior a 16,43 segundos. 0 " diz que isso é de cauda esquerda. Como um nível de significância de 95%, vale a pena pensar no significado dessa escolha. O erro do tipo I é concluir que Jeffrey nada o estilo livre de 25 jardas, em média, em menos de 16,43 segundos, quando, na verdade, ele nada o estilo livre de 25 jardas, em média, em 16,43 segundos. (Rejeite a hipótese nula quando a hipótese nula for verdadeira.) Para esse caso, a única preocupação com um erro Tipo I parece ser que o pai de Jeffery pode deixar de apostar na vitória de seu filho porque ele não tem confiança apropriada no efeito de os óculos. Para encontrar o valor crítico, precisamos selecionar a estatística de teste apropriada. Concluímos que é um teste t com base no tamanho da amostra e que estamos interessados em uma média populacional. Para esse problema, os graus de liberdade são , ou 14. Observando 14 graus de liberdade na coluna 0,05 da tabela t, encontramos 1,761. Esse é o valor crítico que podemos colocar em nosso gráfico. H0μ ≥ 16, 43 Ha : μ < 16, 43 <′′ μ0 = 16, 43 vem de H0, não dos dados. x̄ = 16, s = 0, 8 e n = 15 n− 1 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 79/122 Descobrimos que a estatística de teste calculada é 2,08, o que significa que a média da amostra está a 2,08 desvios-padrão da média hipotética de 16,43. A probabilidade de que um tempo médio de 16 minutos possa vir de uma distribuição com média populacional de 16,43 minutos é muito improvável para aceitarmos a hipótese nula. Não podemos aceitar o nulo. Uma conclusão formal seria a seguinte: com um nível de significância de 95% não podemos aceitar a hipótese nula de que o tempo de natação com óculos vem de uma distribuição com tempo médio populacional de 16,43 minutos. Menos formalmente, Com 95% de significância, acreditamos que os óculos melhoram a velocidade de natação. t = x̄−μ0 s √N = 16−16,43 0,8 √15 = −2, 08 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 80/122 3 - Os testes de aderência: qui-quadrado, KS Ao �nal deste módulo, você será capaz de descrever os testes de aderência: qui-quadrado, KS. Vamos começar! 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 81/122 Descrevendo os testes de aderência qui- quadrado e KS Assista ao vídeo a seguir e entenda como descrever os testes de aderência qui- quadrado e KS. Teste qui-quadrado O teste do qui-quadrado é comumente aceito como a técnica preferida de ajuste. Assim como o teste de comparação gráfica, o teste do qui-quadrado é baseado na 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 82/122 comparação do número real de observações versus o número esperado de observações. Isso significa que o teste do qui-quadrado também usa a abordagem de probabilidade igual para determinar o número de células e os limites das células. Os passos na execução do teste qui-quadrado são os seguintes: Estabelecer hipóteses nulas e alternativas. Determinar um nível de signi�cância do teste. Calcular o valor crítico da distribuição qui-quadrado. Calcular a estatística do teste qui-quadrado a partir dos dados. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 83/122 A seguir, veremos o que acontece em cada uma dessas etapas.Estabelecer hipóteses nulas e alternativas Declarações de hipóteses As declarações de hipóteses nulas e alternativas são assim conceituadas: Hipótese nula Geralmente, será uma afirmação de que os dados de entrada podem ter vindo de Hipótese alternativa É uma afirmação de que os dados de entrada não podem ter vindo de uma Comparar a estatística de teste com o valor crítico. Aceitar ou rejeitar as hipóteses nulas. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 84/122 uma distribuição teórica específica. distribuição teórica específica. Na prática, as declarações de hipóteses nulas e alternativas podem ser conceituadas: : Distribuição (parâmetro 1, parâmetro 2, ...) : Não distribuição (parâmetro 1, parâmetro 2, ...) Distribuição seria o nome da distribuição teórica real, e os parâmetros corresponderiam aos parâmetros específicos associados a essa distribuição teórica específica. Se estivéssemos testando dados de serviço com distribuição normal, precisaríamos de dados de parâmetros para a média e o desvio-padrão. Por exemplo, se pensarmos que a distribuição teórica é normal com uma média de 5 e um desvio- padrão de 2, a declaração de hipóteses apareceria como: : Normal (5, 2) : Não é normal (5, 2) Determinar um nível de signi�cância do teste H0 Ha H0 Ha 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 85/122 É necessário estabelecer um nível de confiança para o teste. Por exemplo, se você deseja ter 95% de confiança nos resultados do teste, o nível de significância é 0,05. O nível de significância é muitas vezes referido como o nível . Outros níveis comuns são 0,01 e 0,10. Determinar o valor crítico para distribuição de qui-quadrado Esse processo consiste em determinar o valor crítico para a distribuição qui-quadrado. O valor crítico é o limite entre metades não significativas e significativas da distribuição qui-quadrado. Em outras palavras, com um nível de significância de 0,05, o valor crítico seria o valor em que 95% da distribuição está à esquerda do valor crítico, enquanto 5% da distribuição está à direita do valor crítico. Calcular a estatística do teste qui-quadrado a partir dos dados A estatística de teste é calculada somando as diferenças quadradas entre o número observado de pontos de dados e o número esperado de pontos de dados dividido pelo α α 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 86/122 número esperado de pontos de dados para cada célula de dados individual. Esse processo é mais facilmente explicado com a seguinte fórmula: Onde: = estatística de teste a ser calculada e comparada com o valor crítico. = número de observações de pontos de dados na iésima célula de dados. = número de pontos de dados esperados na iésima célula de dados. = número de células de dados. Para cada célula na fórmula anterior, o praticante pegará o número de valores observados no intervalo de células e subtrairá o número de valores esperados. Esse termo é então elevado ao quadrado. O valor positivo resultante é dividido pelo mesmo número de valores esperados usados anteriormente. Esses cálculos são feitos para cada célula no teste e somados. O valor resultante segue a distribuição qui-quadrado. χ2 = n ∑ i=1 (Oi − Ei) 2 Ei χ2 = Oi Ei n 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 87/122 Comparar a estatística de teste com o valor crítico Nessa etapa, comparamos a estatística de teste que acabou de ser calculada com o valor crítico determinado anteriormente. A estatística de teste será menor ou maior que o valor crítico. Aceitar ou rejeitar as hipóteses nulas Entenda a seguir os procedimentos dessa etapa em dois cenários: Se o valor da estatística de teste for menor que o valor crítico Se o valor da estatística de teste for maior que o valor crítico 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 88/122 Então a hipótese nula de que os dados poderiam ter vindo dessa distribuição teórica não pode ser rejeitada no nível de significância previamente determinado. Então a hipótese nula é rejeitada. Isso significaria que há evidências de que os dados não vieram dessa distribuição teórica. Número mínimo de pontos de dados para o teste qui-quadrado Uma possível fraqueza do teste qui-quadrado é que ele pode ser executado apenas se existir uma quantidade suficiente de dados para aplicar o teste. É necessário ter pelo menos 20 pontos de dados para que o teste funcione matematicamente. Se apenas 20 pontos de dados estiverem disponíveis, um total de 4 células de dados será utilizado. Isso significa que um mínimo mais realista seria pelo menos 30 pontos de dados. Com pelo menos 30 pontos, o praticante pode ter confiança razoável nos resultados do teste qui-quadrado. No caso de existir uma quantidade insuficiente de dados para 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 89/122 realizar o teste do qui-quadrado, o profissional pode considerar a utilização do teste de Kolmogorov-Smirnov (KS). Exemplo Considere o exemplo a seguir para demonstrar o uso do teste de ajuste qui-quadrado. Os dados da tabela foram obtidos a partir dos tempos entre chegadas em minutos dos clientes em uma central de atendimento. Gostaríamos de verificar se a distribuição entre chegadas é exponencialmente distribuída. 0,87 2,57 3,23 3,94 2,48 1,43 1,63 15,8 3,43 0,25 1,04 5,53 2,68 0,8 3,86 2,23 2,73 0,17 0,01 0,5 Mauro Rezende FIlho. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 90/122 Para começar, precisaremos calcular estatísticas resumidas para os dados. Embora possamos calcular a média e o desvio-padrão dos dados, a distribuição exponencial tem apenas um único parâmetro, a média. Média = 2,31 Desvio-padrão = 2,88 Contagem = 30 Temos 30 pontos de dados e vamos usar a abordagem equiprovável recomendada. Isso significa que precisaremos usar um total de 30/5 ou 6 células em nosso teste. Com as estatísticas resumidas, é possível configurar as hipóteses nula e alternativa. Passo 1 Configuramos as hipóteses nula e alternativa: Expo (2.31) Não Expo (2.31) H0 : Ha : 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 91/122 Passo 2 O nível de significância é escolhido como 0,05. Passo 3 O valor crítico do qui-quadrado é 6 – 1 – 1 = 4. Existem 6 células, um parâmetro para a média e um grau de liberdade adicional para o teste. Observando uma tabela qui- quadrado ou usando a fórmula da função “=INV.QU (0.05,4)” do Excel, o valor crítico é 9,49. Passo 4 Calculamos os limites percentuais inferior e superior para cada célula, os valores superior e inferior para cada célula e as observações observadas e esperadas para cada célula. x 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 92/122 Célula Porcentagem Val Inferior Superior Infe 1 0 0,167 0 2 0,167 0,333 0,42 3 0,333 0,5 0,93 4 0,5 0,667 1,59 5 0,667 0,833 2,53 6 0,833 1 4,13 Mauro Rezende Filho. Os valores nas colunas inferior e superior são calculados usando esta fórmula:x x x = −0, 97 × ln[1 − F(x)] 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 93/122 Onde éa porcentagem acumulada das colunas de porcentagem inferior e superior. A estatística de teste é a soma da última coluna: Passo 5 A estatística de teste é menor que o valor crítico em alfa 0,05, 4,0 < 9,4. Passo 6 Não é possível rejeitar a hipótese nula de dados sendo distribuídos exponencialmente com média de 2,31. Kolmogorov–Smirnov (KS) F(x) 0, 2 + 0, 0 + 0, 2 + 0, 0 + 1, 8 + 1, 8 = 4, 0 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 94/122 O teste KS deve ser utilizado somente quando o número de pontos de dados for extremamente limitado e o teste do qui-quadrado não puder ser aplicado adequadamente. Saiba que o teste KS tem menos capacidade de ajustar adequadamente os dados do que outras técnicas, como o teste do qui-quadrado. Uma limitação final do teste KS é que algumas referências não recomendam o uso do KS com distribuições discretas. Na verdade, existem muitas versões desse teste com vários graus de complexidade. Para uma discussão completa do teste KS, os praticantes são direcionados para o texto de simulação Law e Kelton. A versão do teste KS apresentada nesse manual é a mais simples de implementar. Comentário Estatísticos mais ortodoxos, às vezes, criticam essa versão como estatisticamente fraca. No entanto, para o praticante, a diferença provavelmente será insignificante. O conceito por trás do teste KS é uma comparação entre a distribuição teórica cumulativa e a distribuição cumulativa observada. Se a diferença máxima entre a distribuição teórica cumulativa e a observada exceder um valor crítico de KS, então a 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 95/122 distribuição observada não pode ter vindo da distribuição teórica. Os passos para o KS são: Estabelecer hipóteses nulas e alternativas. Determinar um nível de signi�cância do teste. Determinar o valor crítico de KS da tabela D. Determinar a maior diferença absoluta entre as duas distribuições cumulativas. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 96/122 A seguir, veremos o que acontece em cada uma dessas etapas. Estabelecer hipóteses nulas e alternativas Assim como o teste qui-quadrado, o teste KS inicia-se com o estabelecimento das hipóteses nula e alternativa. Para o teste KS, também podemos condensar as hipóteses nula e alternativa para: : Distribuição (parâmetro 1 , parâmetro 2, ... ) : Não distribuição (parâmetro 1, parâmetro 2, …) Comparar a diferença com o valor crítico de KS. Aceitar ou rejeitar a hipótese nula. H0 Ha 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 97/122 Determinar um nível de signi�cância do teste Da mesma forma que o teste qui-quadrado, também é necessário estabelecer um nível de confiança para o teste KS. Por exemplo, se você deseja ter 95% de confiança nos resultados do teste, o nível de significância é 0,05. O nível de significância é muitas vezes referido como o nível α. Outros níveis α comuns são 0,01 e 0,10. Determinar o valor KS crítico da tabela D O valor crítico para o teste KS é obtido a partir de uma tabela D. A tabela D tem dois parâmetros: o tamanho da amostra e o nível de significância. Apresentamos, em anexo, a tabela Valores Críticos da Distribuição da Estatística (Kolmogorov- Smirnov). Determinar a maior diferença absoluta entre Dn 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 98/122 https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_k_s.pdf https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_k_s.pdf as duas distribuições cumulativas Nessa etapa, as probabilidades cumulativas das distribuições teóricas e observadas são determinadas. Um gráfico simples pode ser usado para auxiliar nesse processo, conforme a seguir: 1. A probabilidade cumulativa é plotada no eixo vertical, e os intervalos de valores de dados são plotados no eixo horizontal. 2. Para a distribuição de dados observados, a probabilidade cumulativa é o número de observações menores ou iguais ao valor dos dados dividido pelo número total de observações. 3. Para a distribuição teórica, a probabilidade acumulada pode ser calculada matematicamente. 4. Uma vez que o gráfico esteja completo, o objetivo é determinar a diferença absoluta máxima na probabilidade cumulativa entre as distribuições teóricas e observadas. Isso é feito simplesmente subtraindo os valores de distribuição cumulativos. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 99/122 Comparar a diferença com o valor crítico de KS A diferença absoluta máxima na probabilidade cumulativa entre as distribuições teóricas e observadas é então comparada. Aceitar ou rejeitar as hipóteses nulas Entenda a seguir os procedimentos dessa etapa em dois cenários: Se a diferença absoluta máxima for menor que o valor crítico Então as hipóteses nulas não podem ser rejeitadas. A amostra pode ter vindo da distribuição teórica com os parâmetros Se a diferença absoluta máxima for maior que o valor crítico Então a hipótese nula é rejeitada. A amostra não veio da distribuição teórica com os parâmetros especificados. 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 100/122 especificados. De�nição Seja uma amostra aleatória. A função de distribuição empírica é uma função de , que é igual à fração de Xis, que são menores ou iguais a x para cada , , ou seja: A função de distribuição empírica é útil como um estimador de , a função de distribuição desconhecida do Xis. Podemos comparar a função de distribuição empírica com a função de distribuição hipotética para ver se há boa concordância. Uma das medidas mais simples é a maior distância entre as duas funções e , medida na direção vertical. Essa é a estatística sugerida por Kolmogorov (1933). Os dados consistem em uma amostra aleatória de tamanho associada a alguma função de distribuição desconhecida, denotada por . A amostra é aleatória. Seja a função de distribuição empírica baseada na amostra aleatória . Seja uma função de distribuição hipotética X1,X2,… ,Xn S(x) x x −∞ < x < ∞ S(x) = 1 n n ∑ 1=1 I{xi≤x} S(x) F(x) S(x) F ∗(x) S(x) F ∗(x) X1,X2,… ,Xn n F(x) S(x) X1,X2,… ,Xn F ∗(x) 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 101/122 completamente especificada. Seja a estatística de teste T a maior (indicada por "sup" para superior) distância vertical entre e . Em símbolos, dizemos: Para teste: para todo de a para pelo menos um valor de Se T exceder o quantil "1- " dado pela tabela, então rejeitamos no nível de significância . O -valor aproximado pode ser encontrado por interpolação na tabela de valores críticos da distribuição da estatística (Kolmogorov-Smirnov). Exemplo 1 Uma amostra aleatória de tamanho 10 é obtida: . A hipótese nula é que a função de distribuição é uniforme de acordo com o gráfico. A expressão matemática para a função de distribuição hipotética é: S(x) F ∗(x) T = sup x |F ∗(x) − S(x)| H0 : F(x) = F ∗(x) x −∞ ∞ H1 : F(x) ≠ F ∗(x) x α H0 α p Dn X1 = 0, 621,X)2 = 0, 503,X3 = 0, 203,X4 = 0, 477,X5 = 0, 710,X6 = 0, 581,X7 = 0, 329,X8 = 0, 480,X9 = 0, 554,X10 = 0, 382 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 102/122 Onde:é a função de distribuição desconhecida comum ao Xis. é dada pela equação anterior. O teste de Kolmogorov para o ajuste é usado. A região crítica de tamanho corresponde a valores de T superiores ao quantil 0,95, 0, 409, obtido da tabela para . 0 valor de T é obtido representando graficamente a função de distribuição empírica no topo da função de distribuição hipotética , conforme mostrado na figura a seguir. A maior distância vertical que separa os dois gráficos é 0,290, que ocorre em porque e . Em outras palavras: F(x) F ∗ (x) α = 0, 05 n = 10 S(x) F ∗(x) x = 0, 710 S(0, 710) = 1, 000 F ∗(0, 710) = 0, 710 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 103/122 Como é menor que 0,409, aceita-se a hipótese nula. O -valor é visto, da tabela, como maior que 0,20. Veja a tabela a seguir: Quantis de teste de Kolmogorov n p = 0,80 p = 0,90 p = 1 0,9 0,95 0,97 T = sup x |F ∗(x) − S(x)| T = sup x |F ∗(0, 710) − S(0, 710)| = 0, 290 T = 0, 290 p 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 104/122 Quantis de teste de Kolmogorov 2 0,684 0,776 0,84 3 0,565 0,636 0,7 4 0,493 0,565 0,62 5 0,447 0,509 0,5 6 0,41 0,468 0,5 7 0,981 0,436 0,48 8 0,358 0,41 0,4 9 0,339 0,387 0,43 10 0,323 0,369 0,4 Mauro Rezende Filho. Apresentamos, em anexo, a tabela Valores Críticos da Distribuição da Estatística (Kolmogorov-Smirnov). Dn 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 105/122 https://stecine.azureedge.net/repositorio/00212en/04498/docs/tabela_k_s.pdf Exemplo 2 Determine se os dados representados na tabela de frequência a seguir são normalmente distribuídos onde representa a quantidade de chuva. Usando o teste KS, determine se os dados dos gráficos de testes de normalidade e simetria são normalmente distribuídos. X 100 200 300 Freq 8 25 88 Mauro Rezende Filho. Isso significa que 8 elementos têm um valor x menor que 100 (ou seja, entre 0 e 100), 25 elementos têm um valor x entre 101 e 200 etc. Precisamos encontrar a média e o desvio-padrão desses dados. Como essa é uma tabela de frequência, não podemos simplesmente usar as funções AVERAGE(MÉDIA) e STDEV (DESVPAD.A) do Excel. Em vez disso, primeiro usamos os pontos médios de cada intervalo e, em seguida, uma abordagem semelhante à descrita nas tabelas de frequência, conforme mostrado na imagem a seguir: x S 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 106/122 Assim, a média é 481,4 e o desvio-padrão é 155,2. Podemos agora construir a tabela que nos permite realizar o teste KS, conforme mostrado na imagem a seguir: Entenda a seguir: 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 107/122 Colunas A e B: contêm os dados da tabela de frequência original. Coluna C: contém os valores de frequência cumulativa correspondentes. Coluna D: simplesmente divide esses valores pelo tamanho da amostra para produzir a função de distribuição cumulativa . Coluna E: usa a média e o desvio-padrão calculados anteriormente para padronizar os valores de da coluna A. A fórmula na célula E4 é =STANDARDIZE (A4,N$5,N$10), onde a célula N5 contém a média e a célula N10 contém o desvio-padrão (da imagem anterior). Coluna F: usa esses valores padronizados para calcular os valores da função de distribuição cumulativa assumindo que os dados originais são normalmente distribuídos. Por exemplo, a célula F4 contém a fórmula =NORM.S.DIST(E4,TRUE). Coluna G: contém os valores absolutos das diferenças entre os valores nas colunas D e F. Por exemplo, a célula G4 contém a fórmula =ABS(F4—D4). Se os dados originais forem normalmente distribuídos, essas diferenças serão zero. Agora é igual ao maior valor na coluna G, ou seja, MAX(G4:G13) = 0,0117 (célula G8). Se os dados forem normalmente distribuídos, o valor crítico será maior que . Da tabela Kolmogorov-Smirnov, vemos que: (n = 1.000) Sn(x) x Dn Dn,α Dn 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 108/122 Como , concluímos que os dados são um bom ajuste para a distribuição normal. Exemplo 3 Foram coletadas 20 amostras de um experimento. O analista deseja saber se os dados de amostra são normalmente distribuídos, ou seja, o valor crítico de Kolmogorov-Smirnov. 5,57 8,32 8,35 8,74 9,38 9,91 9,96 10,3 10,77 10,97 11,15 11, 11,64 1,88 12,24 13, Mauro Rezende Filho. Dn,α = 1, 36/SQRT (1000) = 0, 043007 Dn = 0, 0117 < 0, 043007 = Dn,α 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 109/122 Calcularemos os valores reais versus os valores esperados da distribuição normal: Aqui estão as fórmulas que usamos em várias células: B2: =ROW() – 1 C2: =B2/COUNT($A$2:$A$21) D2: =(B2-1)/COUNT($A$2:$A$21) E2: =IF(C2 < 1, NORM.S.INV(C2),””) F2: =NORM.DIST(A2, $J$1, $J$2, TRUE) G2: =ABS(F2–D2) J1: =AVERAGE(A2:A21) 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 110/122 J2: =STDEV.S(A2:A21) J2: =STDEV.S(A2:A21) Um teste de Kolmogorov-Smirnov usa as seguintes hipóteses nulas e alternativas: : os dados são normalmente distribuídos. : os dados não são normalmente distribuídos. Para determinar se devemos rejeitar ou deixar de rejeitar a hipótese nula, devemos nos referir ao valor máximo na saída, que acaba sendo 0,10983. Isso representa a diferença absoluta máxima entre os valores reais de nossa amostra e os valores esperados de uma distribuição normal. Para determinar se esse valor máximo é estatisticamente significativo, devemos consultar uma tabela de Kolmogorov-Smirnov de valores críticos e encontrar o número igual a e . O valor crítico acaba sendo 0,294. Como nosso valor máximo não é maior que esse valor crítico, deixamos de rejeitar a hipótese nula. Isso significa que podemos assumir que nossos dados de amostra são distribuídos normalmente. H0 HA n = 20 α = 0, 05 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 111/122 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 112/122 Falta pouco para atingir seus objetivos. Vamos praticar alguns conceitos? Questão 1 O teste de Kolmogorov-Smirnov pode ser usado para testar A se as pontuações são medidas no nível do intervalo. B se as pontuações são normalmente distribuídas. C se as variâncias de grupo são iguais. D 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio# 113/122 Parabéns! A alternativa B está correta. Se as pontuações são normalmente distribuídas. Isso ocorre porque o teste de Kolmogorov-Smirnov compara os escores da amostra com um conjunto de escores normalmente distribuídos com a mesma média e desvio-padrão. Questão 2 Um hospital montou uma estatística de tratamento experimental em um grupo de pacientes separados por faixa etária, apresentado na tabela a seguir. Decidiu-se fazer um teste qui-quadrado para analisar a amostra. Você foi chamado para conduzir esse teste. Qual foi o valor do -valor encontrado? Grupo de pacientes A B se os desvios padrão de grupo são iguais. E se as médias do grupo diferem. p 25/05/2024, 08:27 Modelagem de dados de entrada para simulação https://stecine.azureedge.net/repositorio/00212en/04498/index.html?brand=estacio#