Baixe o app para aproveitar ainda mais
Prévia do material em texto
3ºAula Estatística para simulação Objetivos de aprendizagem Ao término desta aula, vocês serão capazes de: • aprender algumas ferramentas estatísticas que usamos na simulação de processos; • saber qual a finalidade, as vantagens e desvantagens de trabalhar com a simulação da produção. Prezados(as) alunos(as), após ter estudado, na Aula 2, a simulação dos sistemas, os modelos e as vantagens e desvantagens de utilizar a simulação da produção e todos os processos que envolvem a simulação, vamos dar início a nossa aula 03. Nela, aprenderemos sobre algumas abordagens fundamentais da estatística. Vamos aprender sobre Amostragem, Teste de Aderência, Qui-Quadrado e Kolmogorov (k-S). Esses conceitos vão deixá-los mais esclarecidos sobre as ferramentas que se utiliza no mundo da simulação da produção e irão auxiliá-los em futuros projetos. Até agora, já podemos ter uma noção do amplo campo de como começar a desenvolver uma simulação de um projeto real ou um projeto fictício, desde sua teoria inicial, até suas vertentes finais, para que vocês saibam como simular e quais padrões seguir. A simulação da produção é realizada dividindo diversos aspectos e, para entendermos como proceder, precisamos conhecer algumas ferramentas da estatística, e tudo nos leva a um conhecimento maior neste amplo campo de atuação. A simulação da produção não somente simula processos, ela também serve para tomada de decisão, gestão de processos e ainda possui utilização em diversos campos, manufatura, saúde, e a base que precisamos ter é a estatística. Na Aula 3, descreveremos algumas abordagens de alguns autores e aprenderemos como se desenvolve a simulação. Também serão citados muitos exemplos para que fique mais fácil a compreensão. Boa Aula! Bons estudos! 18Simulação da Produção Seções de estudo 1- Amostragem 2- Teste de Aderência 1- Amostragem Vamos começar com uma introdução sobre estatística básica. Nós a utilizaremos como ferramenta de auxílio na simulação da produção. Vamos lá? O que vocês entendem por modelar computacionalmente? Bom, tudo que nos remete a computacional, nos vem na mente a ideia de linguagem de programação aplicadas a um computador, certo? Então, é como se criássemos uma espécie de analogia digital, que tem por fi nalidade a capacidade de se comportar de maneira semelhante ao original, com o objetivo de interagir com o usuário permitindo a realização de experimentos através da inferência estatística (BOLFARINE,2005). Dado um determinado modelo que utilizaremos dentro da simulação, vamos criar uma memória, uma história artifi cial do sistema real, criando possibilidades de um comportamento estocástico, trazendo grandes semelhanças da grande maioria dos sistemas já existentes (VIEIRA,2004). Esses modelos, voltados à simulação, possui um objetivo de alcançar a meta através da utilização das distribuições de probabilidades como uma forma de representar a multiplicidade de ocorrências de eventos aleatórios (BOLFARINE,2005). Quando utilizamos distribuições de probabilidade, representamos o comportamento de variáveis aleatórias presentes nos sistemas a serem modelados e precisamos conseguir alguns pontos que se destacam por serem importantes como: os possíveis valores que a variável poderá assumir. Existem dois tipos de variáveis: as que possuem dados determinísticos e as que possuem dados randômicos, que conhecemos também como dados estocásticos. Mas o que seriam esses dados determinísticos e estocásticos ou randômicos? Bom, os dados determinísticos são valores fi xos e os estocásticos são valores que são obtidos para dirigir a simulação por meio de uma modelagem com base em distribuições de probabilidades (VIEIRA,2004). Podemos obter os dados determinísticos através de número de unidades de um recurso, tempo de transferência de uma entidade, tempo de chegada e tempos de processamentos e também como dados que não apresentam variações dentro de uma variável (BUSSAB,2002). Já os dados estocásticos são transferências, chegadas, processamentos, tempos, temperatura, eventos dentre outros. Essa é a principal diferença dos dois. Nos dados estocásticos, precisamos fazer duas perguntas que vão ser reger o estudo como: Que distribuição e que parâmetros devemos adotar? Os nossos resultados irão determinar em resultados também randômicos. Para facilitar o entendimento, vamos esclarecer o que signifi ca a palavra randômico? De acordo com Magalhães (2008), a palavra randômica(o), signifi ca que depende de situações incertas e não de um evento específi co ou aleatório, pode ou não acontecer ou existir, acontecer por acaso, onde haja causalidade. Está mais claro agora, não é? Então, vamos dar prosseguimento ao nosso entendimento. Feita a introdução, vamos continuar com o processo de amostragem e coleta de dados. Mas como é feito, como é realizado esse procedimento? De acordo com Silva (1997), temos que seguir alguns passos: • procedimento inicial para identifi car a distribuição de probabilidade adequada; • este costuma ser, também, o marco inicial dos problemas que se enfrente na modelagem de sistemas; Feito esses passos e dependendo das nossas variáveis, mais algumas perguntas vão auxiliar na nossa tomada de decisão, como: Os dados estão disponíveis? De que maneira estão disponíveis? Como coletá-los? Como analisá-los? Os dados são usados diretamente na simulação, o que signifi ca que os dados são lidos de arquivos e usados diretamente no modelo que vamos utilizar, seja ele em chegadas, serviços, tipos de entidades, tempos, temperaturas etc. Lembra que já aprendemos sobre isso? Os dados também, possuem valores reais, não haverão elementos diferentes dos já observados, poderá haver falta de dados para muitas ou longas simulações, de acordo com os resultados que vamos obter, e precisamos fi car atentos também para não perder o desempenho computacional, o rendimento do nosso processo de simulação, não perder nossas informações já coletadas, por perda de arquivo ou algum infortúnio que vier a ocorrer (BOLFARINE,2005). Os dados gerados vão ser de acordo com a distribuição adotada. Os possíveis valores que a variável poderá assumir estarão dentro da amplitude coberta pela distribuição. Outros valores além dos observados poderão ser empregados também mas é de acordo com o parâmetro de bom ou ruim (VIEIRA,2004). A probabilidade de ocorrência será qualquer valor no intervalo que seja determinada pelo perfi l de distribuição e isso consiste no processo de aderência que pode ocorrer um problema de validação podendo ser perfeito ou adequado. Mas, quais são os parâmetros para coleta de dados? Normalmente, o processo de coleta é difícil, trabalhoso e às vezes caro, pois o sistema pode não existir, os dados disponíveis podem não ser os desejados, pode haver mudanças no modelo em função do que se dispõe, podem ser incompletos ou pode também existir muitos dados. Por isso, devemos ter alguns parâmetros para seguir e não se perder na coleta, certo? A coleta de dados também pode haver sensibilidade dos resultados de acordo com as incertezas nos dados. De acordo com a qualidade dos dados, devemos modelar o nível de detalhes, capturar a variável nos dados, a fi m de validá-la, levantar os custos todo do projeto, dentre outros (BOLFARINE,2005). 19 As fontes de dados na maioria dos casos podem vir de arquivos históricos que mostrem o comportamento dos resultados do sistema, de observações do sistema em estudo, de sistemas simulares, de dados determinados com base em estimativa de operadores, podem vir dados com base em afi rmações de vendedores de máquina, de equipamentos, podem vir também de estimativas de projetistas de sistema ou mesmo de considerações teóricas sobre o sistema que vamos simular (SILVA,1997). Dado toda essa introdução fi nalmente vamos entrar em amostragem. Mas de fato, o que seria amostragem? Amostragem é quando fazemos uma pesquisa, ou utilizamos algummecanismo para obter informações, um dos objetivos principais é coletar dados de uma pequena parte de um grande grupo e aprender então alguma coisa sobre esse grupo maior, como ilustrado na fi gura 01, abaixo (SILVA,1997). Figura 01: População e Amostragem. Mas já que citamos população, o que seria população? População é um conjunto de indivíduos, objetos ou produtos que contêm a característica que temos interesse. Vamos citar um exemplo? Vamos pensar em características as alturas dos estudantes da unigran e como população todos os estudantes da UNIGRAN. A população vai depender dos interesses da pesquisa. E agora vamos entender exemplifi cando a amostra, como já dito a defi nição de amostra se dá por um subconjunto da população, em geral com dimensão bem menor, que também possui a característica de interesse. Vamos ao exemplo? Característica seria a altura dos estudantes da UNIGRAN e uma amostra seria 100 estudantes selecionados ao acaso, sem parâmetros iguais. Vamos aprender agora sobre parâmetro e estatística? A medida numérica que descreve alguma característica da população pode ser representada por quais quer letras, mas as mais comuns são as gregas como: θ, µ, σ, dentre outras. O símbolo mais conhecido é o µ e ele é empregado na média populacional. Mas como chegamos as principais denominações de amostra? É simples, vamos fazer outra analogia para facilitar o entendimento. Vamos aplicar mais um exemplo que nos mostre a população e a característica. Vamos supor que todos os alunos da sala, a turma de vocês, sejam a população, e a característica vai ser a idade. Então temos a seguinte visualização: 22 21 24 23 20 22 21 25 24 24 23 19 25 24 23 20 21 23 20 23 22 23 23 25 25 20 23 24 20 De acordo as idades acima, quais seriam a nossa média populacional? Média populacional: µ = 22,5 (Parâmetro) Amostra de cinco alunos aleatoriamente: 25. 24. 23. 23. 25 Média amostral : = 24 (Estatística) Certo, mas você deve estar se perguntando para que fazer amostragem? No universo de simulação que entramos é importante, pois nos direciona em parâmetros populacionais desconhecidos, impossibilidade de realização de um censo, é mais barato, mais rápido, mais ágil. Porém, precisamos estar atentos, pois não existe nenhuma técnica estatística capaz de salvar uma amostra que tenha sido coletada errada. No geral, uma amostra deve ser um subconjunto representativo da população e também deve ser aleatória de alguma forma, como a anterior no exemplo das idades. Existem vários tipos de amostragem, dentre elas, os levantamentos amostrais, planejamento de experimentos e levantamentos observacionais. Dentro dos levantamentos amostrais, a amostra é obtida a partir de uma população bem defi nida, bem meio de processos bem defi nidos pelo pesquisador. Subdividimos em dois grupos, os probabilísticos e os não probabilísticos. No probabilístico, cada elemento da população possui a mesma probabilidade de ser selecionado para compor uma determinada amostra, são chamados de mecanismos aleatórios de seleção (SILVA,1997). Nos não probabilísticos a seleção da amostra depende do julgamento do pesquisador. Acontece uma escolha deliberada dos elementos para compor a amostra esses são chamados não aleatórios de seleção (SILVA,1997). Nos planejamentos de experimento, observamos o efeito entre o objeto de estudo, como assim? Seria como a interferência do pesquisador sobre a população, bem como fatores externos, com o intuito de medir o efeito desejado. Vamos de exemplo? O planejamento de experimentos entra como um estudo do efeito de um novo medicamento, fabricado a partir de vários testes agronômicos. Já o levantamento observacional é simples, nada mais é que a observação e a medição de características, mas não tem por intenção modifi car o objeto de estudo. Os dados são coletados aleatoriamente sem que o pesquisador tenha controla sobre as informações coletadas (BOLFARINE,2005). Um exemplo de levantamento observacional seria 20Simulação da Produção verifi car o valor das vendas de uma empresa em um determinado período, nesse caso não há como ter um controle e selecionar as vendas. A amostragem vai além dos tipos empregados nela. Temos também alguns métodos que vamos conhecer, mas não vai ser nosso foco por enquanto. Mas precisamos saber que para a escolha do método certo, devemos levar em consideração o tipo de pesquisa. A acessibilidade e disponibilidade dos elementos da população, disponibilidade de tempo e os recursos fi nanceiros e humanos (VIEIRA,2004). Dentro da amostragem, temos o erro amostral que precisamos levar em consideração, e o que seriam esses erros amostrais? Os erros amostrais são as diferenças entre o resultado da amostra e o verdadeiro valor da população, pois as amostras são aleatórias, e os erros não amostrais? Os erros não amostrais ocorrem quando os dados amostrais são coletados de forma incoerente, de forma errônea, às vezes, por uma tendência, instrumento de medida defeituoso, anotações erradas, algum erro na hora da coleta de dados. Levando em consideração que quanto mais exatos forem nossas coletas e nossos valores, menos cometeremos erros amostrais. Para evitar os erros amostrais, podemos focar na homogeneidade dos dados (SILVA,1997). Umas das ferramentas que utilizamos para analisar nossos dados coletados é o histograma, pois através de gráfi cos, é muito útil para identifi cação ou delineamento da distribuição teórica de probabilidades. Também permite dar início ao processo de inferência sobre uma distribuição teórica de probabilidades (BOLFARINE,2005). 2- Teste de Aderência O objetivo do teste de aderência é a verifi cação da qualidade na escolha da distribuição que vamos utilizar. No caso, iremos escolher a melhor, pois vai defi nir a nossa representação. É também uma técnica estatística não paramétrica. Estatística não paramétrica signifi ca que a função de uma amostra não tem dependência de parâmetros, ou seja, não depende da população aplicável em qualquer distribuição parametrizada. Como de costume, como a maioria das análises de dados, os testes de aderência também são realizados com auxílio computacional. Nessa seção, vamos entender o real signifi cado da aplicação do teste e os resultados obtidos. Existem duas maneiras para melhor analisar os testes de aderência, que são métodos gráfi cos ou estatísticos. Analisando grafi camente, a qualidade é medida de forma visual e de acordo com a proximidade ou “aderência” entre o desenho da distribuição teórica e aquele referente aos dados coletados. Quanto menor a diferença entre eles, melhor a aderência, entre os dados e a determinada distribuição (SILVA,1997). Os dois principais métodos teóricos dos testes de aderência são: Qui-quadrado e o Kolmogorov (K-S). Esses métodos servem para medir e avaliar os desvios entre a distribuição amostral e a teórica. Mas como podemos aplicar cada um deles e quando? Utilizaremos um dos dois tomando a decisão de quando aplicar um ou outro teste, dependendo do nosso tamanho da amostra disponível e a natureza da distribuição. O teste K-S é valido apenas para distribuições contínuas e aplicável a pequenas amostras, já o qui- quadrado pode ser aplicado em contínuas e discretas e não é recomendado a pequenas amostras, as amostras validadas possuem pelo menos 100 valores (VIEIRA,2004). Podemos adotar alguns procedimentos como arranjo das n observações em um conjunto de k classes de intervalos, por exemplo, cálculos do teste estatístico pela seguinte fórmula: Onde: k = número de classes ou intervalos f0 = frequência observada nas classes fe = frequência esperada nas classes ∑_k= somatório de todas as classes Levando em consideração que x2 = 0, então, as duas distribuições estão em conjunto perfeitamente, ou seja, não existem diferenças entre a distribuição de teórica e observada. Quanto maior o valor de x2 , maior a discrepância entre asduas distribuições. Devemos mostrar neste caso que x2, segue, aproximadamente, a distribuição qui-quadrado υ=k-1-p com graus de liberdade, onde é o número de parâmetros da distribuição dado uma determinada hipótese. Temos duas opções de hipóteses para ser testadas: a primeira é H0 o e a segunda é H1, o H0, o signifi ca que a variável aleatória X, segue a distribuição sob a hipóteses com o parâmetro estimado H1 e a , a variável aleatória X, não segue essa mesma distribuição. Dados os determinados valores, o valor em questão é calculado com e os valores críticos de x2 χ2_(α,k-1-p) . Os valores críticos são fornecidos pela tabela específi ca de distribuição qui-quadrado. Vamos a um exemplo para facilitar nosso entendimento. Diante de uma situação no trânsito, vamos pensar em como podemos monitorar o tráfego? Uma alternativa seria por chamadas telefônicas certo? Onde teríamos a opção de monitorar as chamadas a cada intervalo de cinco minutos, pensando nesse intervalo vamos registrar as chamadas ocorridas. Como não sabemos os reais dados, mas estamos monitorando no momento, os valores esperados seriam de 0,1,2,3,4...,13 para o número de chamadas por intervalo. Vamos supor de 400 chamadas são registradas, analisando esse número vamos separar as frequências relativas, mas primeiro vamos lembrar o conceito de frequências relativas? Para entendermos as frequências relativas, vamos relembrar o conceito de frequência absoluta. Bom, vamos começar entendendo nosso conteúdo desta disciplina vai 21 estar entrelaçado com a estatística, mas não se preocupem que sempre que aparecer um termo novo, vamos lembrar juntos para não causar dúvidas. Voltando, a frequência absoluta registra exatamente a quantidade de vezes que determinada situação veio a ocorrer, e, para que os dados se tornem significativos, os transformamos em relativo, aí vamos ter nossa frequência relativa. Vamos de mais exemplos antes de voltamos para os números de chamadas por intervalo (nosso primeiro exemplo). Vamos pensar no quadro a seguir: suponhamos que vamos realizar a pesquisa para saber quantos filhos tem cada funcionário da UNIGRAN e vamos registrar na tabela abaixo. NÚMERO DE FILHOS DOS FUNCIONÁRIOS FREQUÊNCIA ABSOLUTA FREQUÊNCIA RELATIVA 0 30 30/160=0,1875=18,755% 1 36 36/160=0,225=22,5% 2 60 60/160=0,375=37,5% 3 24 24/160=0,15=15% 4 10 10/160=0,0625=6,25% TOTAL 160 100% QUADRO 01: FREQUÊNCIA ABSOLUTA E RELATIVA. Agora que lembramos que frequência absoluta são todas as repetições ocorridas e a frequência relativa é o número de ocorrências dividido pelo total das vezes, temos o resultado em porcentagem. Vamos prosseguir no nosso exemplo anterior. Então, dado as frequências relativas do nosso exemplo, aos valores observados temos as seguintes ocorrências, 3, 15, 47, 76, 68, 74, 46, 39, 15, 9, 5, 2, 0 e 1, respectivamente. As hipóteses nesse caso precisam ser verificadas por uma ferramenta, que nesse caso vamos usar a Distribuição de Poisson. Mas para não causar duvidas, vamos entender o que é essa distribuição e como funciona. Sabemos que a Distribuição de Poisson é uma distribuição estatística. Vamos aprender ela agora? Inicialmente para conhecer essa distribuição precisamos observar e reconhecer três aspectos importantes que são: em um determinado experimento vamos analisar quantas vezes que um evento ocorreu em um determinado intervalo de tempo, ou área, ou volume, dentre outros. Outro fator é analisar a probabilidade de o evento ocorrer, analisando o evento temos que será obtido o mesmo valor para cada intervalo de tempo, levando em consideração o número de ocorrências de um intervalo que pode ser independente. Em resumo, o experimento calcula quantas vezes que um evento ocorre em um determinado intervalo de tempo; a probabilidade de o evento ocorrer é a mesma para cada intervalo e o número de ocorrências de um intervalo é independente do outro. Mas quando utilizar essa Distribuição de Poisson? Vamos usar dado um tipo que pode ser contínuo ou discreto. Cabe a nós definir qual das inúmeras distribuições é a que melhor representa nosso processo a ser estudado. As distribuições podem ser divididas em dois grupos: Discretas e Contínuas. As discretas também são conhecidas como atributos e as contínuas são conhecidas como variável. Nas distribuições discretas é comumente mais usada para modelar situações em que a os valores só podem ser inteiros, como por exemplo cara ou cora, 0, 1, 2, determinados a falha ou sucesso com o número de ocorrências de um determinado evento de interesse por exemplo. A distribuição discreta pode ser dividida em duas: Binominal e a Poisson (VIEIRA,2004). A distribuição de Poisson pode ser aplicada e é comumente usada nos usuários de computador ligado a internet, clientes chegando ao caixa de supermercado, acidentes com automóveis em uma determinada estrada, erros de digitação por um certo período de tempo, número de carros que chegam no posto de gasolina, número de falhas em componentes por unidade de tempo, número de requisições para um servidor em um intervalo de tempo, dentre outros, importante ressaltar que são números inteiros. Agora, vamos aprender como calcular, para calcular basta seguir a função de probabilidade a seguir: Vamos aplicar essa distribuição para melhor compreender. Em um banco vamos pensar em uma coleta de dados com um número médio de clientes que adquirem um seguro de vida, o valor é de 6 por hora, qual seria a probabilidade de em uma determinada hora do dia serem vendidos exatamente 8 seguros? Dentro desse exemplo, vamos reparar em três características que são compatíveis com a de Poisson, sendo assim iremos aplicar os dados na equação apresentada a seguir. Vamos utilizar o seguinte exemplo: considere um processo que tem uma taxa de 0,2 defeitos por unidade. Qual a probabilidade de uma unidade qualquer apresentar: a) dois defeitos? b) um defeito? c)zero defeitos? De acordo com o que aprendemos a resolução certa é: a) b) c) Voltando ao exemplo anterior que citamos anteriormente, dos intervalos de ligações a cada 5 minutos, tendo essa hipótese temos que nossa distribuição de Poisson é de 4,6 que é resultado da nossa média amostral. No quadro 02 a seguir, vamos analisar os números de chamadas, as frequências observadas, a coluna com as probabilidades de Poisson e as frequências esperadas. As chamadas vão de 0 a 13, as frequências observadas são 22Simulação da Produção números aleatórios coletados ao acaso, as probabilidades são encontradas pela fórmula e as frequências esperadas são dadas de acordo com a probabilidade. Número de chamadas Frequências Observadas Probabilidades de Poisson Frequências Esperadas 0 3 0,010 4,0 1 15 0,046 18,4 2 47 0,107 42.8 3 76 0,163 65,2 4 68 0,187 74,8 5 74 0,173 69,2 6 46 0,132 52,8 7 39 0,087 34,8 8 15 0,050 20,0 9 9 0,025 10.0 10 5 0,012 4,8 11 2 0,005 2,0 12 0 0,002 0,8 13 1 0,001 0,4 TOTAL 400 400,0 Quadro 02: Distribuições das frequências relativas e observadas. Na coluna de probabilidades de Poisson, é só substituirmos os valores na fórmula que acharemos os valores demonstrados na tabela, podemos até plotar um gráfi co para analisarmos o comportamento das frequências, se plotarmos um gráfi co com as duas colunas vamos analisar que os valores fazem uma curva acentuada para cima e depois descem e vai chegando a zero, importante relembrar que só trabalhamos com números inteiros e reais, e valores positivos. Dentro do teste de hipóteses temos o e o , e temos que nosso λ tem o valor de 4,6 nos dois casos, o que se difere é a possui distribuição de Poisson e a , não possui distribuição de Poisson. Lembrando que as hipóteses o e , têm signifi cados diferentes, é a amostra selecionada de uma população que segue uma determinada distribuição e o é a amostra não selecionada de uma população que segue uma determinada distribuição. Temos uma tabela de apoio com os valoresde tamanho da amostra prontos também, mas vamos conhecer na próxima aula! Chegamos ao fi nal de mais uma aula. Tudo certo até aqui? Vamos recordar! Retomando a aula 1- Amostragem Nesta seção, aprendemos como funciona modelando computacionalmente, amostragem, população. Vimos variados exemplos para fi xação das teorias. Entendemos também como funciona a coleta de dados, como coletar esses dados, o que pode dar errado nas nossas amostras. Aprendemos que precisamos direcionar nosso estudo com uma distribuição estática, dentre outros conceitos. 2- Teste de Aderência Nesta seção, conhecemos os testes de aderência mais utilizados na simulação da produção, o Qui-Quadrado e o Kolmogorov também conhecido como k-S. Aprendemos que a diferença dos testes se dá pelo tamanho das amostras. Também vimos outros conceitos que envolvem classes, intervalos, média, e na aula que vem vamos aprender Monte Carlo, utilizando algumas técnicas estatísticas. Até a próxima aula! Disponível em: https://siteantigo.portaleducacao. com.br/conteudo/artigos/administracao/historia-da- estatistica/30519. Vale a pena acessar https://www.youtube.com/watch?v=JikQTDE4Bno (Estimadores do teste de aderência). Vale a pena assistir https://www.academia.edu/35975801/Morettin_e_ Bussab_Estat%C3%A1stica_B%C3%A1sica_6_ed. Vale a pena ler Vale a pena Minhas anotações
Compartilhar