Baixe o app para aproveitar ainda mais
Prévia do material em texto
CENTRO UNIVERSITÁRIO FAVENI PROBABILIDADE GUARULHOS – SP 1 SUMÁRIO 1 INTRODUÇÃO ........................................................................................................ 3 2 TEORIA DAS PROBABILIDADES .......................................................................... 4 2.1 Gerolamo Cardano ............................................................................................. 4 2.2 Blaise Pascal ...................................................................................................... 5 2.3 Jakob Bernoulli ................................................................................................... 5 2.4 Pierre-Simon Laplace ......................................................................................... 6 3 EXPERIMENTOS ALEATÓRIOS ............................................................................ 7 3.1 Contagem ........................................................................................................... 7 3.2 Espaço amostral ................................................................................................. 8 3.3 Evento ................................................................................................................. 9 4 EVENTOS ............................................................................................................. 10 4.1 Eventos mutuamente excludentes e eventos complementares ........................ 10 4.2 Eventos independentes e eventos dependentes .............................................. 10 5 PROBABILIDADE CLÁSSICA E FREQUENTISTA ............................................... 11 5.1 Definição clássica ............................................................................................. 12 5.2 Definição frequentista ....................................................................................... 14 6 AXIOMAS E PROPRIEDADES DE PROBABILIDADE ......................................... 15 6.1 Axiomas de Kolmogorov ................................................................................... 16 6.2 Propriedades da probabilidade ......................................................................... 16 7 PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA ...................................... 19 8 TEOREMA DE BAYES ......................................................................................... 22 9 VARIÁVEL ALEATÓRIA ....................................................................................... 28 9.1 Variável aleatória discreta ................................................................................. 28 9.1.1 Função de distribuição acumulada de probabilidade ...................................... 30 9.1.2 Variável aleatória discreta média ou esperança .............................................. 30 2 9.1.3 Variância e desvio padrão ............................................................................... 30 9.2 Variável aleatória contínua ............................................................................... 30 9.2.1 Função de distribuição acumulada de probabilidade ...................................... 31 9.2.2 Variável aleatória contínua média ou esperança ............................................. 31 9.2.3 Variância e desvio padrão ............................................................................... 31 10 DISTRIBUIÇÕES DISCRETAS ............................................................................. 31 10.1 Uniforme ........................................................................................................... 32 10.2 Bernoulli ........................................................................................................... 34 10.3 Binomial ............................................................................................................ 36 10.4 Poisson ............................................................................................................. 38 10.5 Geométrica ....................................................................................................... 40 10.6 Hipergeométrica ............................................................................................... 41 11 DISTRIBUIÇÕES CONTÍNUAS ............................................................................ 42 11.1 Uniforme ........................................................................................................... 43 11.2 Exponencial ...................................................................................................... 44 11.3 Laplace............................................................................................................. 46 11.4 Logística ........................................................................................................... 47 12 DISTRIBUIÇÃO NORMAL .................................................................................... 48 13 TEOREMAS LIMITES ........................................................................................... 53 13.1 Lei Fraca dos Grandes Números ...................................................................... 54 13.2 Lei Forte dos Grandes Números ....................................................................... 54 13.3 Teorema Central do Limite ............................................................................... 56 13.3.1 Processo de soma parcial ............................................................................. 56 REFERÊNCIAS ......................................................................................................... 60 3 1 INTRODUÇÃO Prezado aluno! O Grupo Educacional FAVENI, esclarece que o material virtual é semelhante ao da sala de aula presencial. Em uma sala de aula, é raro – quase improvável - um aluno se levantar, interromper a exposição, dirigir-se ao professor e fazer uma pergunta, para que seja esclarecida uma dúvida sobre o tema tratado. O comum é que esse aluno faça a pergunta em voz alta para todos ouvirem e todos ouvirão a resposta. No espaço virtual, é a mesma coisa. Não hesite em perguntar, as perguntas poderão ser direcionadas ao protocolo de atendimento que serão respondidas em tempo hábil. Os cursos à distância exigem do aluno tempo e organização. No caso da nossa disciplina é preciso ter um horário destinado à leitura do texto base e à execução das avaliações propostas. A vantagem é que poderá reservar o dia da semana e a hora que lhe convier para isso. A organização é o quesito indispensável, porque há uma sequência a ser seguida e prazos definidos para as atividades. Bons estudos! 4 2 TEORIA DAS PROBABILIDADES A probabilidade foi introduzida na vida das pessoas de forma empírica, de acordo com suas necessidades. Na idade antiga, como já foi dito, o tema começou a ser discutido pelos estudiosos - não só os matemáticos, mas também filósofos, advogados, juristas – em função dos jogos de azar, que eram bastante praticados naquela época (SILVA e COUTINHO, 2005). A ideia de acaso, segundo alguns estudiosos, existia antes mesmo do nascimento de Cristo. Na filosofia grega, Aristóteles (384 - 322 a.c.) já falava na sorte, boa ou má, como consequência de uma escolha racional num processo de curso aleatório (ROTUNNO, 2007). 2.1 Gerolamo Cardano Gerolamo Cardano (1501-1576) era um matemático, médico, físico, filósofo e astrólogo de origem italiana. Seu livro “Ars Magna” é considerado um dos pilares da história da álgebra e o trabalho que espalhou a fórmula geral para resolver equações de terceiro grau. Ele também é creditado com a invenção do componente mecânico do Cardan, essencial para a indústria automotiva, tendo publicadomais de 200 artigos de diferentes áreas e duas enciclopédias de ciências naturais. Quando se fala em organização de dados e aplicação simples da teoria da probabilidade, o nome de Gerolamo Cardano não pode deixar de ser citado, pois foi o primeiro homem na história a sistematizar dados e a entender a lógica de alguns processos que até então eram tidos como aleatórios para grande parte da humanidade. Cardano, numa época em que a matemática era pouco desenvolvida e a álgebra e a geometria ainda estavam dando os primeiros passos, fez estudos sobre a teoria dos jogos e acabou escrevendo um tratado de 32 capítulos, o então intitulado “Livro dos jogos de azar”, no qual ele inicia um estudo simplificado, mas de grande valia, da teoria da probabilidade. Em seu tratado, fez um estudo sobre a teoria da aleatoriedade, voltado para os jogos que fazia apostas: dados, gamão, cartas, astrágalos e até um pouco de xadrez. 5 E para facilitar seus estudos, dividiu esses jogos em dois grupos: os que precisavam de estratégias e os que eram regidos pelo puro acaso. 2.2 Blaise Pascal Para alguns estudiosos da história da matemática, a teoria da probabilidade só começou a existir, de fato, após os estudos de Pascal e Pierre de Fermat. Em 1654, Pascal fazia um estudo completo sobre cônicas quando o seu amigo, o Chevalier de Meré, apresentou-lhe uma questão que era conhecida como problema dos pontos. Esta questão enunciava o seguinte: suponha que duas pessoas estão participando de um jogo, com lançamento de dados, em que ambos têm a mesma chance de vencer, e o vencedor é quem atingir uma determinada quantidade de pontos. Porém, o jogo é interrompido quando um dos jogadores está na liderança. Qual é a maneira mais justa de dividir o dinheiro apostado? (BOYER, 1996; MLODINOW, 2009). Pascal ficou intrigado com as questões e começou a se corresponder com Fermat para que os dois chegassem a uma solução. Para alguns matemáticos foi essa correspondência entre os dois que realmente deu início à teoria da probabilidade (PERERO, 1994; BOYER,1996). Nas correspondências ficou evidente que tanto Fermat quanto Pascal resolveram corretamente as questões, porém de maneiras diferentes. Fermat aperfeiçoou a regra geral de Cardano, baseando o cálculo de probabilidades no cálculo combinatório e Pascal ligou o estudo das probabilidades ao triângulo aritmético, que hoje é conhecido como o triangulo de Pascal. O triangulo aritmético já existia há mais de 600 anos, mas recebeu esse nome porque Pascal descobriu novas propriedades para ele (BOYER, 1996; LIGHTNER, 1991 apud SILVA e COUTINHO, 2005). Fermat e Pascal foram os primeiros matemáticos a resolver problemas não numéricos de probabilidade, porém nenhum dos dois chegou a desenvolver teoremas sobre o assunto (SILVA e COUTINHO, 2005). 2.3 Jakob Bernoulli Dentre as principais contribuições de Jacob Bernoulli na área da matemática, destacam-se a primeira integração de uma equação diferencial, na qual o termo 6 integral apareceu com o seu real sentido de integração; os tratados sobre Álgebra e Geometria; o trabalho sobre séries infinitas, que posteriormente ficou conhecido como a “desigualdade de Bernoulli”; as pesquisas sobre série exponencial, as quais levaram a considerá-lo o pai do cálculo exponencial; a publicação de trabalhos sobre logaritmos e integração; a investigação sobre as curvas de cáusticos, especialmente, as associadas com as curvas de parábola, a espiral logarítmica e a epicicloide; a lemniscata de Bernoulli; a aplicação do cálculo na construção de pontes suspensas; a resolução da equação y’= p(x).y + q(x).yn, que hoje conhecemos como a “equação de Bernoulli”; entre outros. Bernoulli trabalhou extensivamente com cálculo diferencial e integral e equações diferenciais, mas tinha verdadeiro fascínio pelas séries e divertia-se tentando a solução de problemas populares a época, como por exemplo achar a curva da catenária. Seu trabalho mais original foi a “Ars Conjectandi”, publicado postumamente em 1713, por seu sobrinho Nicolau I, é a mais antiga obra sobre teoria das probabilidades. O trabalho informou sobre os resultados conhecidos da teoria da probabilidade e da enumeração, incluindo a aplicação da teoria da probabilidade em jogos de azar e sua introdução ao teorema conhecido como a lei dos grandes números. Os termos “julgamento Bernoulli” e “números de Bernoulli” são os frutos deste trabalho (SILVA e COUTINHO, 2005). 2.4 Pierre-Simon Laplace Laplace deu grandes contribuições a nível da evolução do cálculo das probabilidades. Deve-se a ele a definição clássica de probabilidade, expressa na conhecida Lei de Laplace: "a probabilidade de um acontecimento é o quociente entre o número de casos favoráveis ao acontecimento e o número de casos possíveis, supondo que todos os casos são igualmente possíveis". Relativamente a este tema, uma das suas obras mais célebres é o livro "Theórie Analytique des Probabilités" (Teoria Analítica das Probabilidades), que foi publicada em 1812 (LIGHTNER, 1991 apud SILVA e COUTINHO, 2005). Após a publicação, os estudos sobre a teoria da probabilidade ganharam proporção, e brilhantes matemáticos como Poisson, Gauss e Poincaré deram 7 continuidade aos estudos probabilísticos que, inicialmente, foram desenvolvidos por Cardano. 3 EXPERIMENTOS ALEATÓRIOS A teoria das probabilidades é um ramo da matemática que cria, elabora e pesquisa modelos para estudar experimentos ou fenômenos aleatórios. Há certos fenômenos (ou experimentos) que, embora sejam repetidos muitas vezes e sob condições idênticas, não apresentam os mesmos resultados. Por exemplo, no lançamento de uma moeda perfeita, o resultado é imprevisível, não se pode determiná-lo antes de ser realizado e não podemos prever, mas podemos saber quais são os possíveis resultados. Aos fenômenos (ou experimentos) desse tipo damos o nome de fenômenos aleatórios (ou casuais) (SILVEIRA, 2018). Pelo fato de não sabermos o resultado exato de um fenômeno aleatório é que buscamos os resultados prováveis, as chances e as probabilidades de um determinado resultado ocorrer (SILVEIRA, 2018). 3.1 Contagem A definição de contagem é o ato de determinar um número de elementos de um conjunto (finito), e existem evidências arqueológicas que possibilitam concluir que o processo de contar tenha sido utilizado há mais de 50 mil anos por culturas primitivas para acompanhar os dados econômicos e sociais, como: Quantidade de membros do grupo, das presas; Propriedades e dívidas. Princípio de contagem levou ao desenvolvimento da notação matemática, dos sistemas numéricos e da escrita atual. Ela ainda pode ocorrer de várias formas, por exemplo, verbalmente, falando cada número em voz alta (ou mentalmente) para acompanhar o progresso, utilizado com frequência para contar objetos presentes em vez de uma variedade de coisas no decorrer do tempo (horas, dias, semanas, etc.). Também pode ser por meio de marcações, com base de contagem unitária, registrando uma marca para cada objeto e contando seu total, o que é útil quando se deseja contar objetos ao longo de períodos, como o número de ocorrências de algo 8 durante um dia. A contagem usual é realizada em base decimal, já os computadores usam base binária (zeros e uns) (SILVA, 2019). A realização da contagem permite determinar a quantidade de elementos de determinado conjunto, por exemplo, o censo demográfico, que, por meio dela, sabe o número de elementos dos seguintes conjuntos: Quantidade de pessoas que vivem em determinado estado ou cidade; Quantidade de pessoas do sexo masculino e do feminino que vivem em determinado lugar. No exemplo anterior, o estado ou a cidade podem ser o conjunto da contagem, assim como o sexo. Exemplo: Qual é o número possível de placas de automóveis. Solução:O alfabeto possui 26 letras, sendo usadas 3 para placas, assim: 𝑚1 = 26³ São disponibilizados 10 algarismos, sendo utilizados 4: 𝑚2 = 10 4 Resultando em: 263 × 104 = 175.760.000 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 3.2 Espaço amostral Em um experimento (ou fenômeno) aleatório, o conjunto formado por todos os resultados possíveis é chamado espaço amostral, que vamos indicar por U ou Ω (SILVEIRA, 2018). Veja os seguintes exemplos. 9 Lançar uma moeda e observar a face voltada para cima: U = {cara, coroa}. Lançar um dado e observar a face voltada para cima: U = {1, 2, 3, 4, 5, 6}. 3.3 Evento Chama-se evento todo subconjunto de um espaço amostral, ou seja, os resultados que poderão ocorrer em um determinado fenômeno. Resultados esses que queremos que aconteçam ou não (SILVEIRA, 2018). No lançamento de um dado, por exemplo, em relação à face voltada para cima, podemos ter os seguintes eventos: O número é par: {2, 4, 6}. O número é menor que 5: U = {1, 2, 3, 4}. O número é 8: {}. Exemplo: Uma urna contém 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso e se observa o número indicado. Descrever de forma explícita os seguintes conjuntos e dar o número de elementos de cada um: a) o espaço amostral U. b) o evento A: o número da bola é ímpar. c) o evento B: o número da bola é múltiplo de 3. Solução: a) O conjunto de todos os resultados possíveis é representado pelo seguinte espaço amostral: U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. O número de elementos desse conjunto é n(U) = 10. b) Se o número da bola é ímpar, temos o evento: A = {1, 3, 5, 7, 9}. O número de elementos desse conjunto é n(A) = 5. Se o número da bola é múltiplo de 3, temos o evento: B = {3, 6, 9}. O número de elementos desse conjunto é n(B) = 3. 10 4 EVENTOS 4.1 Eventos mutuamente excludentes e eventos complementares Eventos que não podem ocorrer conjuntamente são conhecidos com eventos mutuamente excludentes (também chamados de eventos mutuamente exclusivos). Caso dois ou mais eventos sejam mutuamente excludentes, no máximo um deles irá ocorrer a cada vez que repetirmos o experimento. Por conseguinte, a ocorrência de um evento exclui a ocorrência do outro, ou de outros eventos (SILVEIRA, 2018). Considerando, por exemplo, dois lançamentos de uma moeda, esse experimento tem quatro resultados possíveis: cara/cara, cara/coroa, coroa/cara, coroa/coroa. Esses resultados são mutuamente excludentes, uma vez que um, e somente um, deles irá ocorrer ao lançarmos a moeda duas vezes (SILVEIRA, 2018). Chama-se evento complementar de um evento A e é representado por Ā o conjunto formado por todos os elementos do espaço amostral U que não pertencem ao evento A (SILVEIRA, 2018). No lançamento de um dado, temos o seu espaço amostral: U = {1, 2, 3, 4, 5, 6}. Considere os eventos a seguir. O evento A: o número obtido é menor que 3. O evento Ā: o número obtido é maior ou igual a 3. Observe que os eventos A = {1, 2} e Ā = {3, 4, 5, 6}. Estes são complementares, pois, A ∩ Ā = { } e A Ā = U, a interseção (o que há de comum entre os conjuntos) entre os dois conjuntos resulta em um resultado vazio, visto que os dois conjuntos não possuem resultados em comum, e a união (unir todos os elementos dos conjuntos envolvidos) entre os dois conjuntos resulta no conjunto espaço amostral U. 4.2 Eventos independentes e eventos dependentes Dois eventos são independentes quando a ocorrência ou a não ocorrência de um evento não tem efeito algum na probabilidade de ocorrência do outro evento (SILVEIRA, 2018). 11 Dois eventos são dependentes quando a ocorrência ou a não ocorrência de um evento afeta a probabilidade de ocorrência do outro evento (SILVEIRA, 2018). Os eventos independentes e dependentes são chamados de com e sem reposição, respectivamente. Com reposição: significa o retorno do evento sorteado ao seu conjunto de origem. É isso que mantém a probabilidade de sorteio constante, portanto, não se altera a probabilidade de sorteio do evento seguinte. Sem reposição: significa o não retorno do evento sorteado ou do seu conjunto de origem, alterando a probabilidade de sorteio do evento seguinte. Exemplo de evento independente: Dois lançamentos sucessivos de uma moeda não viciada são considerados como eventos independentes, uma vez que o resultado do primeiro lançamento não tem efeito algum nas probabilidades de ocorrer uma cara ou uma coroa no segundo lançamento (SILVEIRA, 2018). Exemplo de evento dependente: A retirada de duas bolas, sem reposição, de uma urna contendo 20 bolas numeradas de 1 a 20 são dependentes, pois as probabilidades do resultado da retirada da segunda bola estão diretamente ligadas a retirada da primeira bola. Especificamente, se na primeira bola retirada saiu a de número 10, e se não houver reposição, com certeza não existirá a probabilidade de que, na segunda retirada, a bola 10 apareça, pois esta não se encontra mais na urna, ou seja, a primeira retirada afetou completamente as probabilidades de retirada da segunda bola (SILVEIRA, 2018). 5 PROBABILIDADE CLÁSSICA E FREQUENTISTA Aqui será vista uma definição clássica de probabilidade (estudadas por Fermat e Pascal, metade do século XVII), em seguida será apresentada a definição em termos da frequência relativa dos eventos associados a um experimento (acontecimento) aleatório (DEGROOT, 2012). 12 5.1 Definição clássica Considere um espaço amostral Ω finito em que todos os seus eventos elementares são igualmente prováveis. Nessas condições, a probabilidade de um evento A⊂ Ω é calculada como a razão entre o número de casos favoráveis ao evento A (eventos elementares de A) e o número de casos possíveis (número de eventos elementares de Ω) (DEGROOT, 2012). Ou seja: 𝑃(𝐴) = nº de casos favoráveis a A 𝑛º 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠 = #A #Ω Exemplo: Encontre a probabilidade de se obter um número par em um lançamento de um dado. Solução: Esse experimento tem um total de seis resultados: 1, 2, 3, 4, 5 e 6. Todos estes são igualmente possíveis. Considere A um evento em que um número par seja observado no dado. O evento A inclui três resultados possíveis: 2, 4 e 6, ou seja, 𝐴 = {2,4,6} Caso qualquer um desses três números seja obtido, considera-se que o evento A tenha ocorrido. Assim sendo, 𝑃(𝐴) = 3 6 Simplificando, ou seja, dividindo o numerador e o denominador pelo mesmo valor, neste caso, dividindo os dois valores por 3, obtemos: 𝑃(𝐴) = 1 2 13 Se dividirmos o valor fracionário, ou seja, 1 ÷ 2 = 0,50 E se multiplicarmos por 100 esse valor numérico, iremos obter o valor fracionário: 0,50 𝑥 100 = 50% Resumindo: qualquer uma das 3 respostas são iguais (válidas) e podem ser apresentadas. 1 2 = 0,50 = 50% Interpretando o resultado obtido: 1 2 – - A cada 2 vezes que o dado for jogado, temos a probabilidade de 1 dessas jogadas ser o valor par. 0,50 – A probabilidade de acontecer um evento é exatamente a metade, ou seja, cada vez que se joga 2 vezes o dado, a probabilidade é que a metade das vezes (0,5) aconteça de sair o valor par. 50%– A probabilidade de acontecer o evento favorável, no caso números pares, é de exatamente 50% a cada 2 vezes que for jogado o dado. Fique atento: Os valores do espaço amostral: no exemplo acima, foi jogado apenas um dado. Como ficaria o valor do espaço amostral se jogássemos, ao mesmo tempo, 2, 3 ou mais dados? Ao jogarmos 1 dado, chegamos à conclusão de que teremos 6 possíveis respostas, todas as mesmas possibilidades. Mas, ao jogarmos 2 dados ao mesmo tempo, esse valor não será o mesmo. Vamos pensar um pouco e verificar as possíveis respostas: (1,1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2,3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 14 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6,2), (6, 3), (6, 4), (6, 5) e (6, 6). Isso totaliza 36 possíveis respostas, mas podemos chegar a esse valor de uma maneira muito mais rápida, utilizando a seguinte operação: 6𝑛 𝑛: é a quantidade de dados que estão sendo utilizados. Dois dados: 62 = 6 × 6 = 36. Três dados: 63 = 6 × 6 × 6 = 216. E assim por diante. 5.2 Definição frequentista Considere que um experimento aleatório seja realizado n vezes e seja nA o número de vezes que o evento A ocorre. A frequência relativa de A, nesse caso, é dada por (DEGROOT, 2012): 𝑓𝑛(𝐴) = 𝑛𝐴 𝑛 = frequência do evento A 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑎𝑙𝑖𝑧𝑎çõ𝑒𝑠 , 0 ≤ 𝑓𝑛(𝐴) ≤ 1 Dessa forma, pode ser mostrado que a probabilidade do evento A ocorrer é dada por: 𝑃(𝐴) = lim n→∞ 𝑓𝑛(𝐴) Ou seja, se n for grande, 𝑓𝑛 se aproxima da probabilidade do evento A ocorrer. 15 Exemplo: Considere o problema em decidir se uma moeda é honesta. Para resolver esse problema, considere que a moeda seja lançada 100 vezes, caso a moeda seja honesta, qual o número aproximado de caras que esperamos obter? Simulação de lançamentos de uma moeda honesta. A frequência relativa obedece às seguintes propriedades. 1. 𝑓𝑛(𝐴): P(Ω) → ℝ 2. 𝑓𝑛(𝐴) ∈ [0,1] 3. 𝑓𝑛(Ω) = 1 4. Se A,B ∈ P(Ω) são disjuntos, 𝑓𝑛(𝐴UB) = 𝑓𝑛(𝐴) + 𝑓𝑛(B) 5. Se A,B ∈ P(Ω) são quaisquer, 𝑓𝑛(𝐴UB) = 𝑓𝑛(𝐴) + 𝑓𝑛(B) − 𝑓𝑛(𝐴 ∩ B) Como 𝑓𝑛(𝐴) se aproxima da P(A) à medida que n cresce, é intuitivo que as propriedades apresentadas anteriormente também satisfaçam essas propriedades. Tabela 1: Frequência relativa da variável “Face da moeda”. Face n = 10 n = 50 n = 100 n = 1000 Cara 0,6 0,44 0,49 0,494 Coroa 0,4 0,56 0,51 0,506 6 AXIOMAS E PROPRIEDADES DE PROBABILIDADE A noção clássica da teoria da probabilidade, que começa com a noção de casos igualmente prováveis, dominou por 200 anos. Seus elementos foram postos em prática no início do século XVIII e permaneceram assim até o início do século XX. Ainda hoje a probabilidade clássica é utilizada no cálculo de probabilidades (DEGROOT, 2012). 16 No início do século XX, muitos matemáticos estavam insatisfeitos com o que viram como uma falta de clareza e rigor no cálculo de probabilidades. A chamada mais célebre de esclarecimento veio de David Hilbert. O sexto dos vinte e três problemas então em aberto que Hilbert apresentou ao Congresso Internacional de Matemáticos, em Paris, em 1900, foi para tratar axiomaticamente a teoria das probabilidades. A teoria matemática da probabilidade, como a conhecemos hoje, é de origem relativamente recente. Foi Andrei Nikolaevich Kolmogorov que axiomatiza a probabilidade em sua obra fundamental “Foundatins of the Theory of Probability” em 1933. De acordo com este desenvolvimento, eventos aleatórios são representados por conjuntos e probabilidade é apenas uma medida padronizada definida nesses conjuntos (DEGROOT, 2012). 6.1 Axiomas de Kolmogorov Para todo A ∈ Α que associe um número real P(A), chamado de Probabilidade de A, de modo que os axiomas a seguir sejam satisfeitos (DEGROOT, 2012): 𝑃(𝐴) ≤ 0, ∀ A ∈ A; a probabilidade de qualquer acontecimento é maior ou igual a zero 𝑃(Ω) = 1; o espaço amostral contém todas os possíveis resultados do experimento, assim é um evento certo 𝐴𝑖 ∩ 𝐴𝑗 = ∅ com i≠j então: 𝑃(∪𝑖 𝐴𝑖) = ∑ 𝑛(∞) 𝑖=1 𝑃(𝐴𝑖); se dois eventos Ai e Aj são mutuamente exclusivos então a probabilidade de Ai ou Aj é igual a probabilidade de i somada à probabilidade de Aj. O mesmo vale para qualquer número de eventos mutuamente exclusivos. 6.2 Propriedades da probabilidade Como 𝐴 ∪ 𝐴𝑐 = Ω, o axioma 2, implica em 𝑃(𝐴 ∪ 𝐴𝑐) = 1. Já o axioma 3 implica em 𝑃(𝐴) = 𝑃(𝐴𝑐) = 1, ou seja, 𝑃(𝐴𝑐) = 1 − 𝑃(𝐴) 17 Exemplo: No lançamento de um dado comum de seis faces, a probabilidade de o resultado ser igual ao número 3 (evento A) é igual a 1 6 . Qual a probabilidade de o resultado não ser o número 3 (evento complementar de A)? Solução: O evento complementar de A é formado por todos os resultados possíveis, que não o evento A. Sendo assim, AC = {1, 2, 4,5,6), e a probabilidade de ocorrência de AC é igual a: 𝑃(𝐴𝑐) = 1 − 1 6 𝑃(𝐴𝑐) = 5 6 Da teoria de conjuntos temos que A ∪ B = (A ∩ 𝐵𝑐) ∪ (A ∩ B) ∪ (𝐴𝑐 ∩ B). Onde A ∩ 𝐵𝑐, A ∩ B e 𝐴𝑐 ∩ B são mutuamente exclusivos, pelo axioma 3 temos que: P(A ∪ B) = P(A ∩ 𝐵𝑐) + P(A ∩ B) + P(𝐴𝑐 ∩ B) Mas, A = (A ∩ 𝐵𝑐) ∪ (A ∩ B) e B = (𝐴𝑐 ∩ B) ∪ A ∩ B Assim: P(A) = P(A ∩ 𝐵𝑐) + P(A ∩ B) e P(B) = P(𝐴𝑐 ∩ B) + P(A ∩ B) Substituindo estas expressões na equação acima: P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Exemplo: Sejam A, B e C três eventos quaisquer definidos em um espaço amostral S. Então, P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) refere-se à probabilidade da ocorrência de: a) um ou dois dos eventos; b) exatamente um dos eventos; c) pelo menos um dos eventos; 18 d) no máximo dois eventos; e) pelo menos dois eventos. Solução: P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) + P(A ∩ B ∩ C) P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) = P(A ∪ B ∪ C) − P(A ∩ B ∩ C) Portanto, a expressão do enunciado é igual a P(A ∪ B ∪ C) − P(A ∩ B ∩ C). Desenhando o diagrama, podemos visualizar melhor essa probabilidade: A área hachurada representa a expressão P(A ∪ B ∪ C) − P(A ∩ B ∩ C). Ou seja, refere-se à probabilidade de ocorrer A ou B ou C ou (A ∩ B) ou (A ∩ C) ou (B ∩ C). Ou seja, um ou dois eventos, tendo como alternativa correta A. Se ∅ é o evento impossível: P(∅) = 0 Exemplo: Se P(Ω) = P(∅ ∪ Ω) = P(∅) + P(Ω) = 1 Isso implica, P(∅) = 1 − P(Ω) = 1 − 1 = 0 Se A implica B, ou seja A ⊂ B, então: P(A) ≤ 𝑃(𝐵) 19 7 PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA A probabilidade condicional refere-se à probabilidade de um evento ocorrer com base em um anterior e, evidentemente, ambos precisam ser conjuntos não vazios pertencentes a um espaço amostral finito (BRITO, 2018). Por exemplo, se no lançamento simultâneo de dois dados obtêm-se números em suas faces superiores, qual a probabilidade de que a soma desses números seja 8, desde que seus resultados sejam ímpares? Veja que ela está condicionada aos resultados ímpares nos dois dados, logo, lançamentos que têm um ou dois números pares na face superior podem ser descartados, havendo uma redução no espaço amostral. O novo espaço amostral é composto dos seguintes pares: {1,1}; {1,3}; {1,5}; {3,1}; {3,3}; {3,5}; {5,1}; {5,3} e {5,5} Desses, apenas {3,5} e {5,3} possuem soma 8. Logo, a probabilidade de se obter 8 no lançamento de dois dados é de 2/9, considerando que os resultados obtidos são ambos ímpares. Para entender melhor a probabilidade condicional, considere um espaço amostral S finito não vazio e um evento A de S, se quiser outro evento B desse espaço S, a nova probabilidade é indicada por P(B|a), denominada como a probabilidade condicional de B em relação ao A. Assim, ela formará um novo espaço amostral, pois agora este será A e os elementos do evento B pertencerão a B ∩ A, como você pode ver a seguir. Fonte: Brito (2018, documento on-line). 20 Há diversos casos para ilustrar a probabilidade condicional, por exemplo, as chances de um bebê nascer menina é um evento A, mas a probabilidade de essa criança ter doença celíaca (intolerância ao glúten) se trata de um evento B. Essa situação pode ser considerada uma probabilidade condicional, porque a doença celíaca atinge maismulheres do que homens. Se as chances fossem iguais para pessoas dos dois gêneros, esses eventos não estariam condicionados e seriam uma probabilidade marginal ou incondicional, pois a possibilidade de que um deles ocorra não influencia na do outro (BRITO, 2018). Assim, se os eventos forem independentes, a probabilidade não será condicional, pois você representa a probabilidade condicional com a seguinte expressão: P(A|B), que se lê “a probabilidade condicional de A em relação a B” (BRITO, 2018). Já a fórmula para calculá-la é: P(A|B) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) Exemplo: Maria ganhou de João nove pulseiras, quatro delas de prata e cinco de ouro. Maria ganhou de Pedro onze pulseiras, oito delas de prata e três de ouro. Ela guarda todas essas pulseiras – e apenas essas – em sua pequena caixa de joias. Uma noite, arrumando-se apressadamente para ir ao cinema com João, Maria retira, ao acaso, uma pulseira de sua pequena caixa de joias. Ela vê, então, que retirou uma pulseira de prata. Levando em conta tais informações, a probabilidade de que a pulseira de prata que Maria retirou seja uma das pulseiras que ganhou de João é igual a? Solução: Verificamos que a condição é ser uma pulseira de prata, por isso, precisamos saber o total de pulseiras de prata que Maria ganhou: 12. Ela quer saber a probabilidade de que essa pulseira que ela está pegando no escuro tenha sido dada de presente pelo João. Então, precisamos verificar quantas pulseiras de prata João deu de presente: 4. Utilizando a fórmula: 21 P(A|B) = 4 12 P(A|B) = 1 3 P(A|B) = 0,3333 × 100 P(A|B) = 33,33% Quando dois eventos são independentes, a probabilidade de ocorrerem ao mesmo tempo é dada por: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵) Já se você colocar isso na fórmula da probabilidade condicional, encontrará: P(A|B) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) P(A|B) = 𝑃(𝐴) × 𝑃(𝐵) 𝑃(𝐵) P(A|B) = 𝑃(𝐴) Portanto, a probabilidade de A ocorrer não se altera. Fique atento: Salienta-se que a independência de eventos não deve ser confundida com eventos disjuntos ou eventos mutuamente exclusivos. Dois eventos, cada um com probabilidade não nula, mutuamente exclusivos, serão dependentes desde que a ocorrência de um interfira na ocorrência do outro. Da mesma forma, se A e B são independentes e P(A) > 0, P(B) > 0, então A e B não podem ser mutuamente exclusivos (BRITO, 2018). Exemplo: Uma urna contém 8 bolas, das quais três são vermelhas e as restantes são brancas. Qual a probabilidade de serem retiradas duas bolas, sucessivamente, sem reposição, sendo a 1ª vermelha e a 2ª branca? 22 Solução: Calculando a probabilidade de ocorrer o primeiro evento, em que dentro da urna há 8 bolas (espaço amostral) e queremos sortear uma bola vermelha, tendo, dentro da urna, um total de 3 dessa cor (evento): P(A) = 3 8 Calculando a probabilidade de ocorrer o segundo evento, e sabendo que não houve reposição, dentro da urna há 7 bolas (espaço amostral), e queremos sortear, desta vez, uma bola branca, sabendo que, dentro dessa urna, há um total de 5 bolas dessa cor (evento): P(B) = 5 7 Calculando a probabilidade de que os eventos ocorram como fora solicitado, utilizaremos a fórmula da probabilidade dos eventos independentes: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵) 𝑃(𝐴 ∩ 𝐵) = 3 8 × 5 7 𝑃(𝐴 ∩ 𝐵) = 15 56 = 0,2678 𝑃(𝐴 ∩ 𝐵) = 0,2678 × 100 𝑃(𝐴 ∩ 𝐵) = 26,78% 8 TEOREMA DE BAYES O teorema de Bayes é uma fórmula matemática usada para o cálculo da probabilidade de um evento dado que outro já ocorreu, o que se chama probabilidade condicional. Para esse teorema, precisa-se ter alguma informação anterior ou saber que determinado evento já ocorreu e qual sua probabilidade. Baseada nessa inferência bayesiana, surge a expressão grau de crença, ou a confiança em algum evento anterior (SILVA, 2019). 23 Uma das muitas aplicações do teorema de Bayes é a inferência bayesiana, uma abordagem particular da inferência estatística. Assim, quando for aplicado, as probabilidades envolvidas nele podem ter diferentes interpretações de probabilidade (SILVA, 2019). Com a interpretação bayesiana, o teorema expressa como a probabilidade de um evento (ou seu grau de crença) deve ser alterada após considerar as evidências sobre sua ocorrência. Apesar do pioneirismo, essa abordagem caiu em esquecimento nas ciências e foi preterida pela frequentista, que ainda é hegemônica, mas devido ao grande aumento na capacidade de processamento dos computadores, a bayesiana renasceu com muita força (SILVA, 2019). Para calcular pelo teorema de Bayes a probabilidade de um evento A dado que um B ocorreu, P(A|B), tem-se a seguinte fórmula: 𝑃(𝐴|𝐵) = 𝑃(𝐵|𝐴) × 𝑃(𝐴) 𝑃(𝐵) Considerando os eventos A e B permutáveis, o termo é igual a e, dessa forma, pode ser escrita como: 𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵|𝐴) × 𝑃(𝐴) Por fim, tem-se a seguinte relação: 𝑃(𝐴|𝐵) = 𝑃(𝐵|𝐴) 𝑃(𝐵) × 𝑃(𝐴) Nesse caso, a probabilidade 𝑃(𝐴) é denominada probabilidade a priori, isto é, a informação sobre o evento A antes que se soubesse algo sobre o evento B. Mais adiante, quando se tenha conhecimento sobre B, a probabilidade relacionada ao evento A deve ser atualizada pela probabilidade do evento B. A probabilidade 𝑃(𝐴|𝐵) é agora denominada probabilidade a posteriori. Sendo a razão 𝑃 (𝐵|𝐴) 𝑃(𝐵) o fator de atualização das informações sobre o evento A. 24 Para compreender com mais detalhes o Teorema de Bayes é necessário entender a regra da probabilidade total (RPT), que expressa a probabilidade total de um resultado por meio de vários eventos disjuntos (SILVA, 2019). Inicialmente, considere o problema em encontrar o valor para a probabilidade do evento A. Considere agora que seja possível particionar o espaço Ω em partes Bi sem intersecções entre si. Note que a união das partes Bi formam Ω. A probabilidade A pode ser determinada pela intersecção entre o evento A e cada partição Bi. 25 Nos espaços amostrais Ω formados pela união de partes Bi disjuntas (mutuamente exclusivas) a probabilidade de qualquer evento de Ω é: 𝑃(𝐴) = 𝑃(𝐴 ∩ 𝐵1) + 𝑃(𝐴 ∩ 𝐵2)+. . . +𝑃(𝐴 ∩ 𝐵𝑁) 𝑃(𝐴) = 𝑃(𝐴|𝐵1) × 𝑃(𝐵1) + 𝑃(𝐴|𝐵2) × 𝑃(𝐵2)+. . . +𝑃(𝐴|𝐵𝑁) × 𝑃(𝐵𝑁) Dessa forma, a probabilidade do evento A pode ser representado por: 𝑃(𝐴) = ∑ 𝑃(𝐴|𝐵𝑖) × 𝑃(𝐵𝑖) 𝑛 𝑖=1 Exemplo: Um amigo muito próximo lhe pediu R$1.000,00 emprestado (Vemprestado) para solução financeira de uma emergência. Você é um investidor nato e não suporta a ideia de perder o patrimônio conquistado. Embora você decida ajudar seu amigo, você 26 está preocupado com o risco do não pagamento do empréstimo e, por isso, cobrará juros (Tjuros) sobre o montante inicial emprestado: 𝑉𝑑𝑒𝑣𝑜𝑙𝑣𝑖𝑑𝑜 = 𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠) Você percebeu que o valor devolvido (Vdevolvido) do seu “investimento” ao final do período de empréstimo está sujeito às “variações do mercado”, que, nesse caso, estão relacionadas a um evento incerto do não pagamento da dívida. Com isso, você define o valor esperado (Vesperado) como o valor recebido ao final do período considerando tal incerteza. Seja A o evento indicativo do pagamento do seu amigo, então o valor esperado (Vesperado) ao final do período de empréstimo é a média ponderada entre as possibilidades de valores devolvidos, Vdevolvido e 0, e suas respectivas probabilidades, 𝑃(𝐴) e 1 − 𝑃(𝐴): 𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = 𝑉𝑑𝑒𝑣𝑜𝑙𝑣𝑖𝑑𝑜 × 𝑃(𝐴) + 0 × [1 + 𝑃(𝐴)] 𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = [𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠)] × 𝑃(𝐴) + 0 × [1 + 𝑃(𝐴)] 𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = [𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠)] × 𝑃(𝐴) Da relação anterior, é possível obter a taxa de juros adotada:𝑇𝑗𝑢𝑟𝑜𝑠 = 𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × 𝑃(𝐴) − 1 Você decide que o valor dos juros será determinado de maneira que o valor esperado seja igual ao investimento inicial, isto é, 𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = 𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 . Dessa forma, a taxa de juros utilizada será: 𝑇𝑗𝑢𝑟𝑜𝑠 = 1000 1000 × 𝑃(𝐴) − 1 = 1 𝑃(𝐴) − 1 Você utilizará uma proxy o evento A baseado no cadastro nacional de bons ou maus pagador. Infelizmente, você não tem acesso à esse cadastro. No entanto, você 27 sabe que, assim como você, seu amigo possui conta no banco ABC, que regularmente publica informações agregadas sobre as operações com os clientes. Tal banco realizou um levantamento informando que 1 em cada 10 clientes possuem registo ativo no cadastro nacional de maus pagadores. Dessa forma, a probabilidade do pagamento do seu amigo se concretizar é de 𝑃(𝐴) = 9 10 = 90%. Dito isso, utilizando a taxa de juros que você deve adotar é: 𝑇𝑗𝑢𝑟𝑜𝑠 = 1 0,9 − 1 𝑇𝑗𝑢𝑟𝑜𝑠 = 11.111% Dessa forma, a priori, seu amigo deveria lhe pagar R$ 1.111,11 ao final do período para garantir que, em média e desconsiderando inflação, seu investimento inicial seja recuperado. Nos informativos do banco também consta que 2 em cada 4 maus pagadores atrasam o pagamento do boleto, enquanto dentre os bons pagadores, apenas 1 a cada 20 atrasam suas obrigações. Durante a conversa, seu amigo te informou que possui boletos atrasados nesse banco. Baseado nessa nova informação, qual a probabilidade do seu amigo ser mau pagador dado que atrasou o pagamento? Qual a nova taxa de juros que você deve adotar para proteger seu “investimento”? O Teorema de Bayes responde diretamente essa pergunta. Antes disso, vamos modelar os eventos e identificar suas probabilidades. Considere o evento A o cliente ser um bom pagador e o evento B o atraso do pagamento de um boleto da obrigação financeira nesse banco. Ser bom pagador: evento A. Sendo 𝑃(𝐴) = 9 10 Ser mal pagador: evento Ac. Sendo 𝑃(𝐴𝑐) = 1 − 𝑃(𝐴) = 1 10 Atraso no pagamento: evento B. Sendo 𝑃(𝐵) = 𝑛ã𝑜 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑑𝑜 Atraso no pagamento dos bons pagadores: evento B|A. Sendo 𝑃(𝐵|𝐴) = 1 20 Atraso no pagamento dos mal pagadores: eventos B|Ac. Sendo 𝑃(𝐵|𝐴𝑐) = 2 4 28 Probabilidade do seuamigo ser bom pagador caso tenha atrasado o pagamento. 𝑃(𝐴|𝐵) = ? Utilizando o Teorema de Bayes e a RPT em 𝑃(𝐵), tem-se que: 𝑃(𝐴|𝐵) = 𝑃(𝐵|𝐴) 𝑃(𝐵) × 𝑃(𝐴) 𝑃(𝐴|𝐵) = ⌊ 𝑃(𝐵|𝐴) 𝑃(𝐵|𝐴) × 𝑃(𝐴) + 𝑃(𝐵|𝐴𝑐) × 𝑃(𝐴𝑐) ⌋ × 𝑃(𝐴) 𝑃(𝐴|𝐵) = ⌊ 1 20 1 20 × 9 10 + 2 4 × 1 10 ⌋ × 9 10 𝑃(𝐴|𝐵) = ⌊ 38 20 ⌋ × 9 10 𝑃(𝐴|𝐵) = 47,36% Dessa forma, após saber que ele não pagou o boleto do banco, a probabilidade de ser bom pagador a posteriori reduz em quase a metade da priori. Dessa forma, a nova taxa de juros é 1 0,4736 − 1 = 111.111% fazendo com que o valor cobrado seja de R$ 2.111,11. 9 VARIÁVEL ALEATÓRIA Uma variável aleatória X é uma função com valores numéricos, cujo valor é determinado por fatores de chance, ou seja, podem estar sujeitos à influência conjunta dos fatores associados ao experimento que interagem conjuntamente. Tal variável pode ser discreta ou contínua (SILVA, 2015). 9.1 Variável aleatória discreta Uma variável aleatória X é dita discreta quando puder assumir apenas valores inteiros ao longo de uma escala. Se, para cada um dos valores da variável aleatória discreta, teremos a sua probabilidade definida por (SILVA, 2015): 29 𝑓(𝑥) = 𝑃(𝑋 = 𝑥) Onde: 𝑓(𝑥): função matemática de x; 𝑃(𝑋 = 𝑥) : probabilidade da variável aleatória X em determinado ponto da escala x. Como estamos lidando com um valor discreto do espaço amostral da variável em estudo, para, teremos apenas valores inteiros (SILVA, 2015). A função de probabilidade da variável aleatória discreta também é chamada função massa de probabilidade (FMP) e satisfaz os seguintes pressupostos: 0 ≤ 𝑓(𝑥) ≤ 1 ∑ 𝑓(𝑥𝑖) = 1 Por exemplo, uma moeda equilibrada é lançada duas vezes. A variável X é o número de caras nesses lançamentos. O espaço amostral é descrito por C (coroa) e K (cara). Ω = (CC, CK, KC, KK) X = 0 ⇾ f(0) = P(CC) = 1 4 X = 1 ⇾ f(1) = P(CK × KC) = 2 4 X = 2 ⇾ f(2) = P(KK) = 1 4 x 0 1 2 f(x) 1 4 2 4 1 4 30 9.1.1 Função de distribuição acumulada de probabilidade A função distribuição ou função distribuição acumulada de probabilidade de uma variável aleatória discreta X é definida, para qualquer número real 𝑥, pela seguinte expressão (SILVA, 2015): 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) 9.1.2 Variável aleatória discreta média ou esperança Dada uma variável aleatória discreta, assumindo os valores x1,x2,..., xn, chamamos valor médio ou esperança de X ao valor (SILVA, 2015): 𝑥 = 𝐸(𝑋) = ∑ 𝑥𝑖𝑝(𝑥𝑖) 𝑛 𝑖=1 9.1.3 Variância e desvio padrão Chamamos de variância de uma variável aleatória discreta ao valor (SILVA, 2015): 𝜎𝑥 2 = 𝑉(𝑋) = ∑(𝑥𝑖− 𝑥)² × 𝑝(𝑥𝑖) 𝑛 𝑖=1 𝜎𝑋 = √𝑉(𝑋) é 𝑜 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋 9.2 Variável aleatória contínua É o tipo de variável que assume todos os valores em um intervalo de números. A distribuição de probabilidade de X é descrita por uma curva de densidade. A distribuição de uma variável aleatória contínua associa as probabilidades às áreas sob uma curva de densidade f(x) (SILVA, 2015). Neste caso, os valores de X pertencem ao conjunto dos reais. Condições: a) 𝑓(𝑥) ≥ 0 31 b) ∫ 𝑓(𝑡)𝑑𝑡 = 1 +∞ −∞ 9.2.1 Função de distribuição acumulada de probabilidade Dada uma variável aleatória. X com função densidade de probabilidade f(x), podemos definir a sua função de distribuição acumulada (FDA), F(x) como: 𝐹(𝑥) = ∫ 𝑓(𝑡)𝑑𝑡 𝑥 −∞ 9.2.2 Variável aleatória contínua média ou esperança Dada uma variável aleatória. contínua, assumindo os valores num intervalo de números reais, chamamos valor médio ou esperança de X ao valor: 𝜇𝑥 = 𝐸(𝑋) = ∫ 𝑡𝑓(𝑡)𝑑𝑡 +∞ −∞ 9.2.3 Variância e desvio padrão Chamamos de variância de uma variável aleatória. contínua ao valor: 𝜎𝑥 2 = 𝑉(𝑋) = ∫ (𝑡 − 𝜇𝑥)² × 𝑓(𝑡)𝑑𝑡 +∞ −∞ 𝜎𝑋 = √𝑉(𝑋) é 𝑜 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋 10 DISTRIBUIÇÕES DISCRETAS Muitas vezes, ficar pensando em espaço amostral e todas as possibilidades de funções pode ser complicado e desnecessário. Por esse motivo, algumas distribuições foram criadas por sua frequência de uso e seu uso ser útil em variáveis com comportamentos similares e predefinidos. Essas distribuições têm funções matemáticas predefinidas (SILVA, 2015). 32 10.1 Uniforme Uma variável aleatória X tem distribuição de uniforme discreta com parâmetro n se Im(X) é um conjunto finito com n elementos e a probabilidade de X assumir qualquer um do n elementos é a mesma, independente do elemento (SILVA, 2015). Suponha que seu professor de estatística decida dar aos alunos um livro próprio como um presente. Como ele não queria favorecer nenhum aluno em particular, decidiu selecionar aleatoriamente o vencedor entre os 45 alunos da turma. Para tanto, numerou os nomes dos alunos de 1 a 45, escreveu esses números em pedaços iguais de papel, dobrou-os ao meio para torná-los invisíveis e, em seguida, sorteou um deles. Qual é a probabilidade de você ganhar este livro? Qual é a probabilidade de o aluno com a pontuação mais baixa no primeiro teste vencer? Qual é a pontuação mais alta? As coisas importantes a serem observadas neste exemplo são as seguintes: O professor tomou todas as precauções necessárias, especialmente não favorecendo nenhum aluno. Isso significa que todos os alunos têm chances iguais de ganhar este livro. Portanto, temos um exemplo de uma distribuição discreta uniforme. Note que,em uma distribuição discreta uniforme, todos os valores são igualmente prováveis. Veja que o parâmetro n é o número de valores que a variável aleatória pode assumir e por isso n pode ser qualquer valor no conjunto ℕ. Chamamos de espaço paramétrico o conjunto de valores que o parâmetro de uma distribuição pode assumir. Nesse caso, o espaço paramétrico para o parâmetro n é o conjunto dos números naturais, isto é, ℕ (SILVA, 2015). Vamos denotar a distribuição uniforme discreta com parâmetro n por Unif(n). Nesse caso, se quisermos indicar que uma variável aleatória X segue a distribuição Uniforme Discreta com parâmetro n podemos simplesmente escrever: X ∼ Unif(n) (lê- se: a variável aleatória X tem distribuição uniforme discreta com parâmetro n) (SILVA, 2015). Seja X ∼ Unif(n) e suponha Im(X) = {x1,x2,...,xn}. Logo a sua função de probabilidade é definida por: 𝑝𝑋(𝑥𝑖) = 𝑃(𝑋 = 𝑥𝑖) = 1 𝑛 ∀𝑖= 1,2, … , 𝑛 33 Na figura a seguir estão os gráficos da função de probabilidade e função de distribuição de uma variável aleatória discreta. Veja que como a probabilidade associada a cada elemento 𝑥𝑖 de Im(X) é o mesmo ∀𝑖, os degraus no gráfico da função de distribuição tem mesmo tamanho. Média: 𝐸(𝑋) = 1 𝑛 × 𝑥1 + 1 𝑛 × 𝑥2 + ⋯ + 1 𝑛 × 𝑥𝑛 = �̅� Variância: 𝑉𝑎𝑟(𝑋) = 𝐸[𝑋 − 𝐸(𝑋)]2 = 1 𝑛 × (𝑥1 − �̅�)² + 1 𝑛 × (𝑥2 − �̅�)² + ⋯ + 1 𝑛 × (𝑥𝑛 − �̅�)² = 𝜎𝑥 2 Exemplo: Considere o lançamento de uma moeda. Vamos definir a seguinte variável aleatória X associada a esse experimento: 𝑋 = { 0, se ocorre cara 1, se ocorre coroa Verifique se X é variável aleatória uniforme discreta e calcule sua média e variância. Solução: Para que essa variável aleatória tenha distribuição uniforme, é necessário supor que a moeda seja honesta e, nesse caso, 34 𝑃𝑥(0) = 𝑃𝑥(1) = 1 2 𝐸(𝑋) = 0 + 1 2 = 1 2 𝑉𝑎𝑟(𝑋) = 1 2 × (0 − 1 2 ) 2 + 1 2 × (1 − 1 2 ) 2 = 1 2 × 1 4 + 1 2 × 1 4 = 1 4 10.2 Bernoulli Um ensaio de Bernoulli, ou experimento de Bernoulli, é um experimento aleatório com apenas dois resultados possíveis; por convenção, um deles é chamado “sucesso” e o outro, “fracasso” (SILVA, 2015). Considere o lançamento de uma moeda. A característica de tal experimento aleatório é que ele possui apenas dois resultados possíveis. Uma situação análoga surge quando da extração da carta de um baralho, em que o interesse está apenas na cor (preta ou vermelha) da carta sorteada. Suponha que seja realizado um ensaio de Bernoulli e, baseado nesse experimento, seja definida a variável aleatória X: 𝑋 = { 1, se ocorre sucesso 0, se ocorre fracasso Uma variável aleatória X tem distribuição de Bernoulli com parâmetro p se ela é uma variável indicadora de algum evento, denominado “sucesso”, com probabilidade p de ocorrência (SILVA, 2015). Vamos denotar a distribuição de Bernoulli com parâmetro p por Bern(p). Nesse caso, se quisermos indicar que uma variável aleatória X segue a distribuição de Bernoulli com parâmetro p podemos simplesmente escrever: X ∼ Bern(p) (lê-se: a variável aleatória X tem distribuição de Bernoulli com parâmetro p) (SILVA, 2015). A função de probabilidade de X ∼ Bern(p) pode também ser escrita da seguinte forma: 𝑝𝑥(𝑥) = 𝑃(𝑋 = 𝑥) = 𝑝 𝑥(1 − 𝑝)1−𝑥 𝑥 = 0,1 Verifique que 𝑃(𝑋 = 1) = 𝑝 e 𝑃(𝑋 = 0) = 1 − 𝑝 . Já a sua função de distruibuição acumulada é dada por: 35 𝐹𝑋(𝑥) { 0 𝑠𝑒 𝑥 < 0 1 − 𝑝 𝑠𝑒 0 ≤ 𝑥 < 1 1 𝑠𝑒 𝑥 ≥ 1 Na figura, temos os gráficos da função de probabilidade e da função de distribuição acumulada de uma variável de Bernoulli. Como Im(X) é um conjunto com apenas dois elementos, Im(X) = {0, 1}, a função de distribuição de X só tem dois pontos de descontinuidade, em 0 e em 1. Média: 𝐸(𝑋) = 𝑝 Variância: 𝑉𝑎𝑟(𝑋) = 𝑝 × (1 − 𝑝) Exemplo: Considere o lançamento de uma moeda. Vamos definir a seguinte variável aleatória X associada a esse experimento: 𝑋 = { 0, se ocorre cara 1, se ocorre coroa Seja p a probabilidade de cara, 0 < p < 1. Já vimos que se 𝑝 = 1 2 então X é uniforme discreta. Encontre a distribuição de X qualquer que seja o valor de p. Solução: 36 Como Im(X) = {0, 1}, X tem distribuição de Bernoulli com parâmetro p, qualquer que seja p. Nesse caso o “sucesso” é definido como a saída cara, e ocorre com probabilidade p, e o “fracasso” a saída coroa. Note que se 𝑝 = 1 2 X pode ser considerada uma v.a. de Bernoulli ou uniforme discreta, para os outros valores de p X só pode ser considerada v.a. de Bernoulli. Nesse caso, a Bernoulli com parâmetro 𝑝 = 1 2 é equivalente à distribuição uniforme. 10.3 Binomial A distribuição binomial é utilizada quando temos um número de repetições de um experimento, uma probabilidade de sucesso associada ao acontecimento positivo do que estamos estudando e uma probabilidade de fracasso sobre esse mesmo evento. São situações em que pode haver sucesso ou não, e nenhuma outra hipótese é permitida como o número de caras em 50 lançamentos de uma moeda (SILVA, 2015). Então, temos um experimento com espaço amostral associado, além de repetições desse experimento. Temos, também, p probabilidade de um evento desse espaço amostral ocorrer em cada uma das repetições do experimento (SILVA, 2015). Na distribuição binomial, o evento ocorre ou não — temos somente essas duas opções. Então, se temos uma probabilidade p desse evento ocorrer, temos uma probabilidade 𝑞 = 1 − 𝑝 desse evento não ocorrer (SILVA, 2015). Costuma-se denominar como p sendo a probabilidade de sucesso e q como sendo a probabilidade de fracasso. Vale ressaltar que, dependendo do evento que estejamos estudando, o sucesso não necessariamente seja uma afirmativa positiva. Quando utilizamos o termo sucesso, estamos dizendo que é a probabilidade de sucesso de ocorrer o evento em particular que estamos investigando, independentemente de ele ter um resultado considerado positivo ou não (SILVA, 2015). A forma da distribuição binomial é demonstrada no gráfico da figura, a seguir, considerando 60 repetições de um experimento e uma probabilidade de sucesso de 15%. Anotamos uma distribuição binomial por B(n,p), no caso do gráfico B(20;0,15). 37 A fórmula da função matemática para cálculo de uma distribuição binomial é dada por: 𝑓(𝑥) = 𝑃(𝑋 = 𝑥) = ( 𝑥 𝑛) × −𝑝𝑥 × 𝑞𝑛−𝑥 Onde: 𝑥: é o valor do espaço amostral que se quer calcular a probabilidade; 𝑛: é o número de repetições; 𝑝: é a probabilidade de sucesso; 𝑞 = 1 − 𝑝: é a probabilidade de fracasso. Fique atento: Observe que, na fórmula, temos o termo ( 𝑥 𝑛). Isso é resolvido por análise combinatória e significa 𝑛 combinação 𝑥, ou seja: ( 𝑥 𝑛) = 𝑛! 𝑥! ×( 𝑛− 𝑥)! em que o ponto de exclamação significa fatorial. Em algumas calculadoras científicas, a tecla para a resolução desse termo da função é nCr. Por exemplo, atualmente, sabemos que as redes sociais são utilizadas para comercialização de produtos. Sabe-se, por uma pesquisa realizada, que cerca de 15% dos itens postados são efetivamente vendidos. Primeiramente, queremos saber a probabilidade de, pelo menos, 2 itens serem vendidos em um dia que 10 itens foram 38 postados para venda. Os valores que pode assumir são x = (2,3,4,5,6,7,8,9,10). Para não precisarmos calcular todas essas probabilidades, podemos fazer uso da propriedade do complementar e tirar do espaço amostral os valores que não fazem parte dessa sentença e têm probabilidade 1. 𝑃(𝑋 ≥ 2) = 1 − 𝑃(𝑋 < 2) = 1 − (𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) = 1 − (( 0 10) × 0,150 × 0,8510−0 + ( 0 10) × 0,151 × 0,8510−1) = 0,4557 = 45,57% A segunda questão é a probabilidade de vender umproduto. Para isso, calculamos apenas x = 1. 𝑃(𝑋 = 1) = ( 0 10) × 0,151 × 0,8510−1 = 0,3474 = 34,74% Por fim, calcularemos a probabilidade de que sejam vendidos menos de 3 produtos. Aqui, o x pode assumir os seguintes valores: x = 0,1,2. 𝑃(𝑋 < 3) = (( 0 10) × 0,150 × 0,8510−0 + ( 0 10) × 0,151 × 0,8510−1 + ( 0 10) × 0,152 × 0,8510−2) = 0,8202 = 82,02% 10.4 Poisson Assim como a distribuição binomial, a de Poisson também conta sucessos. Porém, ao invés de eles serem observados em um número de repetições, são feitos em um intervalo contínuo de tempo ou espaço. O sucesso da distribuição Poisson é observado em um intervalo contínuo, e o da binomial é em um número de repetições (SILVA, 2015). Segundo Doane e Seward (2014), a distribuição de Poisson foi assim denominada em homenagem ao matemático francês Simèon-Denis Poisson (1781- 1840) e descreve o número de ocorrências de um evento dentro de uma unidade de tempo (por exemplo, minuto ou hora), escolhida aleatoriamente, ou de espaço (por exemplo, metro quadrados ou quilômetros lineares). Para se usar a distribuição, os eventos devem ocorrer aleatória e independentemente no espaço ou em tempo contínuo. 39 Por exemplo, se nossa variável X fosse número de chamadas não atendidas em uma central telefônica, caso observássemos essa variável em um dia que ocorreram 300 ligações, teríamos a proporção de chamadas não atendidas (nossa probabilidade de sucesso) em 300 repetições do experimento, o que caracterizaria uma distribuição binomial. Porém, se observássemos a quantidade de chamadas não atendidas em um turno de 8 horas de trabalho, teríamos a taxa de ocorrência por 8 horas de trabalho, o que caracterizaria uma distribuição de Poisson. A distribuição de Poisson é representada por P(λ), sendo λ a taxa de ocorrência do evento em estudo da variável x. Para percebermos o comportamento da função da distribuição de Poisson, observaremos o gráfico resultante de uma Poisson com λ = 5 × 𝑃(5), na figura. A função matemática para o cálculo dessa distribuição é dada por: f(x) = P(X = x) = 𝑒−λ × λ𝑥 𝑥! Onde: 𝑥: é o valor do espaço amostral em que se quer calcular a probabilidade; λ: é a taxa de ocorrência. Fique atento: 40 Observe que, na fórmula, temos o termo 𝑒, que representa a constante Euler. É um valor constante, assim como o conhecido 𝜋. Para calcular a expressão 𝑒−λ nas calculadoras científicas, utilizamos a tecla 𝑒𝑥. Relembrando: o ponto de exclamação representa o fatorial. Exemplo: Imagine essa central telefônica e que a taxa de chamadas não atendidas em um turno de 8 horas é de 10 chamadas. Queremos investigar a probabilidade de não termos chamadas não atendidas em uma hora. Observem que a taxa é dada por 8 horas, mas queremos calcular a probabilidade por hora. e então, a primeira coisa a se fazer é descobrir a taxa por hora de chamadas não atendidas. Isso se resolve com uma regra de três. 10 chamadas 8 horas λ 1 hora Então temos λ = 1,25. Agora, calcularemos a probabilidade de não termos chamada não atendida. e então, queremos calcular a probabilidade de x = 0. f(0) = P(X = 0) = 𝑒−1,25 × 1,250 0! = 0,2685 = 26,85% 10.5 Geométrica A distribuição geométrica discreta se aplica a uma sequência de experimentos independentes de Bernoulli com um evento de interesse que tem probabilidade p (SILVA, 2015). Se a variável aleatória X for o número total de ensaios necessários para produzir um evento com a probabilidade p, a função de massa de probabilidade (FMP) de X é dada por: f(x) = {p(1 − p)𝑥−1 𝑞𝑢𝑎𝑛𝑑𝑜 x ∈ {1,2,3 … } 41 E X apresenta as seguintes propriedades: Média: 1 𝑝 Variância: 1−𝑝 𝑝 Se a variável aleatória Y for o número de não eventos que ocorrem antes de o primeiro evento com a probabilidade p ser observado, a função de massa de probabilidade (FMP) de Y é dada por: f(y) = {p(1 − p)𝑦 𝑞𝑢𝑎𝑛𝑑𝑜 𝑦 ∈ {0,1,2, … } E Y apresenta as seguintes propriedades: Média: 1−𝑃 𝑝 Variância: 1−𝑝 𝑝² Onde: 𝑋: número total de ensaios necessários para produzir um evento, 𝑌 + 1 𝑌: número de não eventos que ocorrem antes do primeiro evento 𝑃: probabilidade de ocorrência de um evento em cada ensaio 10.6 Hipergeométrica A distribuição hipergeométrica é usada para amostras extraídas de populações relativamente pequenas, sem substituição (SILVA, 2015). Por exemplo, você tem uma remessa de N televisores, onde N1 são bons (sucessos) e N2 são defeituosos (falha). Se você amostrar n televisores de N aleatoriamente, sem substituição, pode encontrar a probabilidade de que exatamente x dos n televisores estão bons. A função de massa de probabilidade (FMP) é: 𝑓(𝑥) = (𝑁1𝑥 )× ( 𝑁2 𝑛−𝑥) 𝑁 𝑛 , 𝑚á𝑥 (0, 𝑛 − 𝑁 + 𝑁1) ≤ 𝑥 ≤ 𝑚í𝑛 (𝑛, 𝑁1) 42 Média: 𝑛 × 𝑁1 𝑁 Variância: 𝑛 × ( 𝑁−𝑛 𝑁−1 ) × ( 𝑁1 𝑁 ) × ( 𝑁2 𝑁 ) Onde: 𝑁: N1 + N2 = tamanho da população N1: número de eventos na população N2: número de não eventos na população 𝑛: tamanho amostral 𝑥: número de eventos na amostra 11 DISTRIBUIÇÕES CONTÍNUAS Nas distribuições contínuas de probabilidade, estamos lidando com variáveis aleatórias contínuas, ou seja, que resultam de uma medição. Nesses casos, não temos valores únicos em uma escala, mas, sim, em intervalos, pois, na variável aleatória contínua, podemos ter qualquer valor na reta dos reais (SILVA, 2019). Dessa forma, a função densidade de probabilidade (FDP), que terá uma função matemática associada, necessitará uma integral para a resolução do cálculo de probabilidade. Nesse caso, estamos calculando intervalos abaixo de uma curva, como mostrado na figura (SILVA, 2019). Fonte: Freund (2006, p. 215). Conforme podemos observar na figura, para obtermos a probabilidade, no caso da distribuição contínua, não podemos obtê-la em um ponto único, mas apenas em intervalos, como em um intervalo entre os pontos e quaisquer abaixo de uma curva. 43 Concluímos, então, que, na distribuição contínua de probabilidade, não existe probabilidade no ponto. Matematicamente, a resolução dessas probabilidades se dá com a integração da função da distribuição em estudo. Isso nem sempre é simples, pois nem todas as integrações de funções de probabilidade são de fácil resolução. Para isso, funções comumente utilizadas contêm tabelas para auxiliar no cálculo de probabilidade. Esse é o caso da distribuição normal, a mais importante distribuição de probabilidade em estatística. É do pressuposto de normalidade dos dados que muitas inferências são possíveis (SILVA, 2019). Mas, independentemente de estarmos estudando distribuições discretas ou distribuições contínuas de probabilidade, alguns axiomas continuam valendo, como: 0 ≤ f(x) ≤ 1 e a área total abaixo da curva sempre somarão 1 na distribuição acumulada (SILVA, 2019). 11.1 Uniforme A distribuição uniforme é a mais simples distribuição contínua, entretanto uma das mais importantes e utilizadas dentro da teoria de probabilidade. A distribuição uniforme tem uma importante característica a qual a probabilidade de acontecer um fenômeno de mesmo comprimento é a mesma (SILVA, 2019). Uma variável aleatória X tem distribuição uniforme no intervalo [a,b] se sua função densidade de probabilidade for dada por: 𝑓(𝑥) = { 1 𝑏 − 𝑎 , se a ≤ x ≤ b 0, caso contrário O gráfico abaixo ilustra a função densidade da distribuição uniforme com parâmetros a=0 e b=1. 44 Exemplo: A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi modelada por uma distribuição uniforme no intervalo [0,7]. Qual é a probabilidade de que uma pane venhaa ocorrer nos primeiros 800 metros? E qual a probabilidade de que ocorra nos 3 km centrais da rede? Solução: A função densidade da distribuição uniforme é dada por 𝑓(𝑥) = 1 7 se 0 ≤ x ≤ 7 e zero, caso contrário. Assim, a probabilidade de ocorrer pane nos primeiros 800 metros é: ℙ(𝑋 ≤ 0,8) = ∫ 𝑓(𝑥)𝑑𝑥 = 0,8 − 0 7 0,8 0 = 0,1142 E a probabilidade de ocorrer pane nos 3 km centrais da rede é: ℙ(2 ≤ 𝑋 ≤ 5) = ∫ 𝑓(𝑥)𝑑𝑥 = ℙ(𝑋 ≤ 5) − ℙ(𝑋 ≤ 2) 5 7 5 2 − 2 7 ≈ 0,4285 11.2 Exponencial Para o caso da distribuição de probabilidade exponencial, segundo Doane e Seward (2014), no modelo exponencial, o foco está no tempo de espera até o evento 45 subsequente: uma variável contínua. A função densidade de probabilidade exponencial aproxima-se de zero à medida que o valor de x aumenta. Isso é útil para calcular tempo de vida de alguns componentes. 𝑓(𝑥) = {𝜆𝑒 −𝜆𝑥, se x ≥ 0 0, se x < 0 Onde: 𝜆: é a taxa média pelo tempo ou espaço; 𝑥: é o valor da variável aleatória que se quer obter a probabilidade. Representamos a distribuição exponencial por x~Exp(λ), ou seja, a variável x aproxima-se de uma distribuição exponencial de parâmetro λ, conforme gráfico da figura. Fonte: Portal Action (2017, documento on-line). A função de distribuição acumulada F(x) é dada por: 𝐹(𝑥) = ∫ 𝑓(𝑠)𝑑𝑠 = {1 − 𝑒 −𝜆𝑥, se x ≥ 0 0 se x < 0 𝑥 0 46 Exemplo: Suponha que o tempo de vida de uma determinada espécie de inseto tenha uma distribuição exponencial de parâmetro λ = 1 12 dia. Suponha também que estes insetos atinjam a maturidade sexual após 3 dias de seu nascimento. Qual a função densidade de probabilidade, em dias, dos insetos que conseguem se reproduzir? E qual a probabilidade de que um inseto reprodutor viva mais de 24 dias? Solução: Seja X a distribuição do tempo de vida dos insetos, e Y a distribuição do tempo de vida dos insetos que chegam à reprodução. Observem que Y=X+3, assim: 𝐹𝑦(𝑦) = ℙ(𝑌 ≤ 𝑦) = ℙ(𝑋 + 3 ≤ 𝑦) = ℙ(𝑋 ≤ 𝑦 − 3) = 𝐹𝑥(𝑦 − 3) Portanto, a função densidade de probabilidade de Y é dada por: 𝑓𝑦(𝑥) = { 1 12 𝑒− (𝑦−3) 12 , se y ∈ (3, ∞) 0, caso contrário Agora falta encontramos qual a probabilidade de que o inseto reprodutor dure mais de 24 dias. Usando a densidade acima temos que: ℙ(𝑌 > 24) = 1 − ℙ(𝑌 ≤ 24) = 1 − 𝐹𝑦(24) = 1 − ∫ 𝑓𝑦(𝑦)𝑑𝑦 = 1 − ∫ 1 12 𝑒− (𝑦−3) 12 ≈ 0,1738 24 3 24 −∞ 11.3 Laplace A distribuição de probabilidade de Laplace, também chamada de exponencial dupla, pois, algumas vezes, é como se tivéssemos uma exponencial positiva junto a uma exponencial negativa. Pode ser utilizada para dados de modelagem em biologia e finanças (SILVA, 2019). Tem por função a distribuição de probabilidade: 47 𝑓(𝑥) = 1 2σ 𝑒 ( |𝑥−μ| σ ) , −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞ Onde: 𝜎: é o desvio-padrão; μ: é a média; x: é o valor da variável aleatória que se quer obter a probabilidade. Representamos a distribuição Laplace por x~Laplace(μ, 𝜎), ou seja, a variável x aproxima-se de uma distribuição Laplace de parâmetros μ e 𝜎. A forma da distribuição de Laplace é semelhante à normal, porém com um pico bem mais fino e acentuado, como na figura. Fonte: Suporte ao Minitab (2017, documento on-line). 11.4 Logística Outra distribuição de probabilidade contínua de grande utilização é a distribuição logística, utilizada mais largamente para dados demográficos e de vendas, quando se investiga o crescimento (SILVA, 2019). A função é definida por: 𝑓(𝑥) = 𝑒− (𝑥−μ) σ σ (1 + 𝑒− (𝑥−μ) σ ) ² , −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞ 48 Onde: 𝜎: é o desvio-padrão; μ: é a média; x: é o valor da variável aleatória que se quer obter a probabilidade. Representamos a distribuição logística por x~Logist(μ, 𝜎), ou seja, a variável x aproxima-se de uma distribuição logística de parâmetros μ e 𝜎. A forma da distribuição logística é semelhante à normal, porém com caudas mais longas, como na figura. Fonte: Suporte ao Minitab (2017, documento on-line). 12 DISTRIBUIÇÃO NORMAL Esta é a distribuição de probabilidade contínua mais importante e utilizada dentro da estatística. Muito da inferência estatística parte do pressuposto da normalidade dos dados, além, é claro, de grande parte das variáveis encontradas seguir esse modelo de distribuição (SILVA, 2019). Essa distribuição tem como parâmetros a média que é uma medida de posição e o desvio-padrão que é a medida de variabilidade. Então, o formato dessa distribuição depende da variabilidade — quanto mais achatada for a distribuição, maior será a variabilidade dos dados e, ao contrário, quanto mais estreita for a distribuição, menor será a variabilidade. Já a média situa no eixo em que os dados se concentram (SILVA, 2019). 49 É com base na teoria da distribuição de probabilidade normal que podemos estruturar testes de hipótese, estabelecer intervalos de confiança e calcular tamanhos de amostra (SILVA, 2019). A função matemática que descreve a distribuição de probabilidade normal é dada por: 𝑓(𝑥) = 1 √2𝜋σ 𝑒 − (𝑥−μ)² 2σ² , −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞ Representamos a distribuição normal por x~N(μ, 𝜎), ou seja, a variável x aproxima-se de uma distribuição normal de parâmetros μ (média) e 𝜎 (desvio-padrão). O formato da distribuição normal é parecido com um sino. Por esse motivo, alguns a chamam de distribuição em forma de sino, ou distribuição de Gauss (SILVA, 2019). Veja, a seguir, as propriedades da distribuição normal. A distribuição normal é simétrica em torno da média (μ). A média, a moda e a mediana são iguais e localizam-se no pico mais alto da distribuição. Quanto maior for o desvio-padrão, mais achatado será o gráfico da distribuição normal. A área total abaixo da curva soma 1 (1 corresponde a 100%). Os parâmetros são a média (μ) e o desvio-padrão (𝜎). Não existe probabilidade menor do que zero, nem maior do que 1. Fonte: Doane e Seward (2014, p. 254). 50 Como pode perceber, a resolução de uma integral para a FDP da normal é bastante elaborada. Por esse motivo, fazemos uso de uma tabela para nos auxiliar no cálculo de probabilidade (SILVA, 2019). Como a média e o desvio-padrão variam de variável para variável e só temos uma tabela, estabeleceu-se, para fins de cálculo da tabela, que a média seria igual a zero, e o desvio-padrão igual a 1. Claramente, na vida real, as médias das variáveis não são iguais a 1, e o desvio-padrão também não é igual a 0 (SILVA, 2019). Precisamos, então, antes de usarmos a tabela, padronizar a nossa variável com a seguinte fórmula: 𝑍 = 𝑥 − μ σ Padronizamos a variável x com sua média e seu desvio-padrão específicos e transformamos na variável z com média 1 e desvio-padrão 0, para podemos fazer uso da tabela da normal padrão (SILVA, 2019). Existe apenas uma tabela, porém existem apresentações distintas dela. Em uma delas, é apresentada a área total abaixo da curva, sendo acumulada de – ∞ até + ∞. A outra forma de apresentação é apenas com metade da curva normal de 0 até + ∞ (SILVA, 2019). 51 Vamos utilizar um exemplo para aprendermos como encontrar as probabilidades nessa tabela. Suponha uma financeira que empresta, em média, R$ 2.000,00 para seus clientes com um desvio-padrão de R$ 900,00. Calcularemos a probabilidade de a financeira emprestar menos de R$ 2.200,00 a um cliente. 𝑃(𝑋 < 2200) = 𝑃 = (𝑧 < 2200 − 2000 900 ) = 𝑃(𝑧 < 0,22) Observem que, até aqui, apenas fizemos a padronização da variável com média de 2000 e desvio-padrão de 900 em uma variável z com média 1 e desvio- padrão 0. Depois da padronização, precisamos observar a tabela para encontrarmos a probabilidade. Procuramos, na tabela,o cruzamento da linha com o 0,2 até a coluna do 0,02, que é a nossa segunda casa decimal. Nesse cruzamento, encontramos o valor de 0,08706. Estamos trabalhando em uma tabela que tem apenas metade da distribuição. Nesse caso, precisamos adicionar a outra metade que não está na tabela a esse valor de probabilidade encontrado. A área de cálculo é mostrada na figura. 52 Fonte: Freund (2006, p. 492). 𝑃(𝑋 < 2200) = 0,08706 + 0,5 + 0,58706 = 58,71% Agora queremos calcular a probabilidade de a financeira emprestar mais de R$ 2100,00. 𝑃(𝑋 > 2100) = 𝑃 = (𝑧 < 2100 − 2000 900 ) = 𝑃(𝑧 < 0,11) Olhamos na linha do 0,1 até a coluna do 0,01 da tabela e encontramos o valor de 0,04380. A esse valor, novamente somamos a outra metade da curva, devido à apresentação da tabela. 𝑃(𝑋 > 2100) = 0,04380 + 0,5 + 0,54380 = 54,38% Se quisermos calcular a probabilidade de a financeira emprestar entre R$ 2.100,00 e R$ 2.200,00, este seria o cálculo: 𝑃(2100 < 𝑋 < 2200) 𝑃 = (𝑧 < 2200 − 2000 900 ) = 0,22 𝑃 = (𝑧 < 2100 − 2000 900 ) = 0,11 Olhamos, na tabela, os valores referentes a essas duas padronizações e encontramos, respectivamente, 0,08706 e 0,04380. 53 𝑃(2000 < 𝑋 < 2200) = 0,08706 − 0,04380 = 0,04326 = 4,33% Vale ressaltar que, com a tabela normal com a área total abaixo da curva, a utilização é diferente para encontrarmos a probabilidade (SILVA, 2019). Ainda como exemplo de distribuições contínuas de probabilidade, temos a distribuição t-student. Ela tem uma curva muito semelhante à normal, também tem parâmetros de média e desvio-padrão, porém é influenciada pelo tamanho da amostra. Quando n tende a infinito, a distribuição normal e a distribuição t são equivalentes (SILVA, 2019). A distribuição t-student é utilizada nos casos em que temos amostras de tamanho inferior a 30 ou não conhecemos o desvio-padrão populacional, quando a população tem distribuição aproximadamente normal (SILVA, 2019). Fonte: Suporte ao Minitab (2017, documento on-line). 13 TEOREMAS LIMITES Os teoremas limites clássicos de probabilidade se referem a sequências de variáveis aleatórias independentes e identicamente distribuídas (IID) (SILVA, 2019). Se X1,X2,... é uma sequência de variáveis aleatórias com uma média comum, 𝐸(𝑋) = 𝜇 < ∞, e seja a variável aleatória Sn=X1+...+Xn. 54 13.1 Lei Fraca dos Grandes Números É um resultado em teoria da probabilidade também conhecido como Teorema de Bernoulli. De acordo com a lei, a média dos resultados obtidos por um grande número de tentativas é próximo a média da população (SILVA, 2019). Seja Xi...Xn uma sequência de variáveis aleatórias identicamente distribuídas e independentes, cada uma possuindo média μ e variância σ2. E a variável aleatória �̅� definida como: �̅� = ( 𝑋1 + ⋯ + 𝑋𝑛 n ) = 𝑆𝑛 n Então o valor esperado da variável aleatória �̅� é: 𝐸(�̅�) = 𝐸 ( 𝑋1 + ⋯ + 𝑋𝑛 n ) 𝐸(�̅�) = 1 n [𝐸(𝑋1) + ⋯ + 𝐸(𝑋𝑛)] 𝐸(�̅�) = 𝑛𝜇 n = 𝜇 E a variância é: 𝑉(�̅�) = 𝑉 ( 𝑋1 + ⋯ + 𝑋𝑛 n ) 𝑉(�̅�) = 1 n² [𝑉(𝑋1) + ⋯ + 𝑉(𝑋𝑛)] 𝑉(�̅�) = 1 n² [𝜎2 + ⋯ + 𝜎2] 𝑉(�̅�) = 𝜎2 n 13.2 Lei Forte dos Grandes Números A lei forte dos grandes números assegura que com probabilidade 1 a sequência de médias 𝑆1 1 ; 𝑆2 2 ; 𝑆3 3 ,... tende a média μ e se comporte dessa forma (SILVA, 2019). 55 ℙ ( lim 𝑛→∞ 𝑆𝑛 𝑛 = 𝜇) = 1 Em resumo a lei dos grandes números demonstra que: 𝑆𝑛 𝑛 − 𝜇 → 0, 𝑛 → ∞ A seguir é apresentado dois exemplos dessa convergência, a partir da simulação de valores de uma população binomial e uma normal. 56 13.3 Teorema Central do Limite É um dos teoremas mais importante dentro da estatística e probabilidade. É um teorema limite que foi considerado como “Central” pelo matemático húngaro George Pólya (SILVA, 2019). Brevemente, o teorema estabelece que a distribuição da soma (ou média) de um grande número de variáveis aleatórias independentes e identicamente distribuídas (IID) será aproximadamente normal, independentemente da distribuição subjacente (dessas variáveis). Esse é um dos motivos porque a distribuição normal é utilizada em tantos testes estatísticos (SILVA, 2019). 13.3.1 Processo de soma parcial Suponha que X1,X2,... é uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com uma distribuição de densidade fX(x), média μ e variância σ2 em comum. Assumimos que 0 < σ2 < ∞, para que as variáveis aleatórias sejam realmente aleatórias e não constantes (SILVA, 2019). Seja, 𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛, 𝑛 ∈ ℕ Por convenção temos que: S0=0, uma vez que a soma é sobre um conjunto vazio. O processo aleatório (estocástico) S0,S1,S2,... é chamado de processo de soma parcial associado com X. Em termos estatísticos (para diferenciar da teoria de probabilidade), a sequência X1,X2,... corresponde ao processo de amostragem de uma dada população (ou distribuição). De forma particular, (X1,X2,...,Xn) é uma amostra aleatória de tamanho n dessa distribuição, e a correspondente média amostral é: �̅� = 𝑆𝑛 𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 𝑛 = 1 𝑛 ∑ 𝑋𝑖 𝑛 𝑖=1 57 E pela Lei dos Grandes Números Sn → 𝜇 quando n → ∞ com probabilidade 1. Note que, se 𝑛 ∈ ℕ, então pela propriedade da linearidade do valor esperado, para variáveis aleatórias independentes: 𝐸[𝑆𝑛] = 𝑛𝜇 𝑉[𝑆𝑛] = 𝑛𝜎² Como pode-se notar acima não podemos esperar que Sn tenha uma distribuição limitante quando n → ∞, pois a V(Sn) → ∞ bem como o E[Sn] → ∞.Porém antes mesmo de estabelecer esses limites podemos verificar a forma da distribuição à medida que n aumenta, e visualizar a pressuposição e deduções dos teoremas e leis apresentadas até aqui (SILVA, 2019). Através de uma simulação Monte Carlo verificaremos a forma de uma distribuição da variável aleatória Sn, que é a soma de variáveis aleatórias independentes e identicamente distribuídas (SILVA, 2019). 𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 𝑆2 = 𝑋1 + 𝑋2 𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 𝑆3 = 𝑋1 + 𝑋2 + 𝑋3 58 𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 𝑆6 = 𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 + 𝑋5 + 𝑋6 Nota-se que a forma da distribuição Sn converge em uma distribuição normal com 𝐸[𝑆𝑛] = 𝑛𝜇 e 𝑉[𝑆𝑛] = 𝑛𝜎² Porém note que a distribuição irá se degenerar quando n → ∞, pois: quando 𝐸[𝑆𝑛] → ∞ e 𝑉[𝑆𝑛] → ∞. De forma similar para 𝑆𝑛 𝑛 = �̅�,𝐸(�̅�) → 𝜇 e 𝑉(�̅�) = 𝜎² 𝑛 → 0. Assim sabemos que 𝑆𝑛 𝑛 → 𝜇 quando 𝑛 → ∞ com probabilidade 1, e a distribuição limite da soma de variáveis aleatórias Sn ou da média amostral 𝑆𝑛 𝑛 = �̅� irá se degenerar. Então para se obter uma distribuição limitante de Sn ou 𝑆𝑛 𝑛 = �̅� que não se degenere, precisaremos considerar, não as variáveis aleatórias por si, mas as variáveis normalizadas, 59 𝑍𝑛 = 𝑆𝑛 − 𝑛𝜇 √𝑛𝜎 = �̅� − 𝜇 𝜎 √𝑛 Note que o teorema não restringe a sua dedução à algum tipo específico de distribuição de X. Dessa forma o teorema é válido para qualquer tipo de distribuição (SILVA, 2019). 60 REFERÊNCIAS BIBLIOGRAFIA BÁSICA: BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 6ª ed. São Paulo: Saraiva, 2010. MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 7ª ed. São Paulo: EDUSP, 2010. MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para engenheiros. 2ª ed. Rio de Janeiro: LTC, 2008. BIBLIOGRAFIA COMPLEMENTAR ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à administração e economia. 2. ed. São Paulo: Cengage Learning, 2011. BARBETTA, P. A. Estatística aplicada às ciências sociais. Florianópolis:
Compartilhar