Baixe o app para aproveitar ainda mais
Prévia do material em texto
Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim A Distribuição Binomial – um sumário Um experimento aleatório com apenas dois resultados possíveis é dito binário. O seu espaço amostral é, então, composto por apenas dois elementos, de denominaremos, genericamente, de Sucesso e Fracasso, e representamos por S e F. Assim, Ω={S, F}. Seja p=P{S} a probabilidade do resultado denominado Sucesso. Então, P{F}=1-p, que vamos representar por q. Logo, p+q=1. Vamos representar esse experimento aleatório por Bp. Seja agora o experimento aleatório composto por duas repetições sucessivas e independentes de Bp. Vamos representá-lo por B��. O espaço amostral para esse experimento composto é Ω={SS, SF, FS, FF}. A classe completa de eventos desse espaço amostral (isto é, a classe de todos os subconjuntos de Ω) tem 24=16 elementos. Vamos representar essa classe por A. Os elementos unitários desta classe são {SS}, {SF}, {FS} e {FF}. A função natural de probabilidades, neste caso, é completamente definida por P{SS} p2 , P{SF}=pq , P{FS}=pq e P{FF}=q2. Dizemos completamente definida porque, uma vez definidos os valores de P para os eventos unitários, os valores para os eventos não unitários ficam completamente determinados pelo axioma da aditividade, como, por exemplo: P{ SF FS } = P{SF}∪P{FS } = P{SF} + P{FS } = 2pq Na tabela abaixo temos os 16 eventos relacionados a B��, com suas respectivas probabilidades. O ultimo evento da tabela, com 4 elementos, é o próprio Ω, e sua probabilidade é igual a 1, como você pode verificar. Por outro lado, a probabilidade do evento vazio, φ, sendo o complemento do universo, é igual a zero. Os resultados podem ser estendidos para B��. Neste caso o espaço amostral contém 8 elementos. A álgebra completa contem, portanto, 28 elementos. A função natural de probabilidade nesse caso é definida inicialmente para os eventos unitários, como, por exemplo, P{SFS}=p2q, e a partir daí para os demais eventos, aplicando-se os axiomas básicos. Assim, por exemplo, P{SSF SFS FSS}=3p2q. A P(A) φ 0 {SS} p2 {SF} pq {FS} pq {FF} q2 {SS SF} p2+pq {SS FS} p2+pq {SS FF} p2+q2 {SF FF} pq+q2 {SS SF FS} p2+2pq {SS SF FF} p2+pq+q2 {SS FS FF} p2+pq+q2 {SF FS FF} 2pq+q2 {SS SF FS FF} p2+2pq+q2 Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim Contando o Número de Sucessos em ��� O espaço amostral de B�� tem 2n elementos. Seja a função X:Ω→R, definida por X(ω) = número de S’s em ω, para qualquer ω∈Ω. A tabela ao lado ilustra o caso n=3. Temos então, os seguintes eventos em A definidos a partir da variável aleatória X: {X=0} = {FFF} , {X=1} = {SFF FSF FFS} , {X=2} = {SFF FSF FFS} e {X=3}={SSS} Podemos então determinar probabilidades associadas à variável X: P{X=0} = P{FFF} = q3 P{X=1} = P{SFF FSF FFS} = 3pq2 P{X=2} = P{SFF FSF FFS} = 3p2q Podemos agora generalizar essas ideias para um número n qualquer. Os valores possíveis de X são, nesse caso geral, 0, 1, 2, 3, … , n. Para o cálculo de P{X=x}, basta determinarmos de quantas maneiras se pode ter x sucessos em n repetições de Bp, e este número é, claro, C� = n!x! �n − x�! Na expressão acima, de análise combinatória, matéria do terceiro ano colegial, n! é o fatorial de n, dado por n!=1×2×3×4×…×n Como qualquer resultado ω∈Ω, com x sucessos e, consequentemente (n-x) fracassos, tem probabilidade pxqn-x, concluímos que: P�X = x� = C� ∙ p ∙ q�� = �! !��� �! ∙ p ∙ q�� , para qualquer x=0, 1, 2, …, n. Exemplos: 1. O arremesso de uma moeda é um caso particular de experimento binário; neste caso, p=0,5. Vamos considerar o experimento composto por 100 arremessos de uma moeda, e seja X o número total de caras. Temos, então a. ��� = 50� = � !!"! ∙ 0,5"! ∙ 0,5 !!�"! = � !!"! ∙ 0,5 !! = 100.891.344.545.564.000.000.000.000.000 × 0,5 !! = 0,0795892 ω X(ω) SSS 3 SSF 2 SFS 2 FSS 2 SFF 1 FSF 1 FFS 1 SSS 0 Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0 1 2 3 4 5 6 7 8 9 10 Nota: o valor de .�/ acima foi determinado usando a função COMBIN do Excel. b. ��� ≥ 70� = ∑ � !!2 ∙ 0,5 !! !!234! = 3,93 × 10�" 2. Seja D5 o experimento correspondente ao arremesso de um dado equilibrado de 5 lados. Assim, D"� é o experimento composto por n repetições sucessivas de D5. Embora não intrinsecamente binário, este experimento pode ser binarizado se considerarmos apenas um dos seus possíveis resultados, o 5, por exemplo, como S, sendo os demais igualmente considerados como F. Assim, D"� pode ser tratado como B��, com p=0,20. Seja X o número de vezes em que se obteve o resultado 5, em 10 arremessos do dado de cinco lados. Então ��� = 3� = � !� ∙ 0,2� ∙ 0,8 !�� = 0,2013 A figura ao lado ilustra a distribuição de probabilidades de X nesse caso A Distribuição Binomial no Excel Frequentemente os cálculos de probabilidades em binomiais podem se tornar operacionalmente difíceis mesmo com uma calculadora científica, devido às dificuldades numéricas para o cálculo exato de C� para n e x grandes (tente calcular, por exemplo, C !!�! ). No Excel, esses cálculos são simples, como mostra a figura abaixo. A fórmula em fx representa P{X=3}, para n=20 e p=0,2, especificados à esquerda. O valor de q, num campo sombreado (quiz indicar um campo onde o operador não deve mexer, por conter uma função automática: q=1-p) é também usado na fórmula. Note os travamentos usando $ em $C$2, $C$3 e $C$5. O gráfico à direita, de P{X=x} versus x, é construído com recursos básicos do Excel, com algum acabamento. Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim Para valores de n até 1000, o Excel permite o cálculo de C� , para qualquer x, mesmo o inteiro mais próximo de n/2. Por exemplo: C !!!"!! = 2,702.882.409.454.370.000×10�66. Veja a planilha publicada no sítio deste curso para cálculos mais completos relacionados à b(n, p). Nela utilizamos a fórmula recursiva que dá P{X=x} em função de P{X=x-1} para X~b(n, p): P�X = x� = P�X = x − 1� × 7pq8 × 7n − x 9 1x 8 Usando este recurso, calculei P{X=x} para X~b(2000, 0,50), representado no gráfico abaixo, para valores de x indo de 920 a 1080. É interessante notar que este intervalo acumula uma probabilidade total de 0,999684. Conclusão: em uma b(2000, 0,5), a probabilidade de um resultado fora desse intervalo é de apenas 316 milionésimos. A figura abaixo, com uma representação contínua de P{X=x} para X~b(2000, 0,50), dá uma ideia melhor de como esta distribuição em torno de seu valor médio esperado. 0,000 0,005 0,010 0,015 0,020 9 2 0 9 2 5 9 3 0 9 3 5 9 4 0 9 4 5 9 5 0 9 5 5 9 6 0 9 6 5 9 7 0 9 7 5 9 8 0 9 8 5 9 9 0 9 9 5 1 0 00 1 0 05 1 0 10 1 0 15 1 0 20 1 0 25 1 0 30 1 0 35 1 0 40 1 0 45 1 0 50 1 0 55 1 0 60 1 0 65 1 0 70 1 0 75 1 0 80 Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim A propósito, a probabilidade de exatamente 1000 caras em 2000 arremessos de uma moeda é 0,0178390. Distribuição binomial: O problema inverso Se X é a variável aleatória que conta o número total de sucessos em n repetições independentes de um mesmo experimento binário Bp, dizemos que X tem distribuição binomial, com parâmetros n e p, e representamos este fato, sinteticamente, por X~b(n, p). Neste caso, sabemos que X é uma variável aleatória que pode, em princípio, assumir qualquer valorinteiro, de 0 até n, e que a probabilidade de X assumir um determinado valor x neste intervalo é dada por P�X = x� = C� ∙ p ∙ q�� = n!x! �n − x�! ∙ p ∙ q�� Assim, com n e p conhecidos, podemos calcular, às vezes com algum esforço maior de cálculo numérico, a probabilidade de qualquer evento do tipo {X=x}. É um problema básico de probabilidade. Por exemplo: 1. Se uma moeda normal é arremessada 100 vezes, a probabilidade de exatamente 40 caras é (neste caso, X~b(100, 0,5) ) P�X = 40� = C !!:! ∙ 0,5:! ∙ 0,5 !!�:! = 100!40! �100 − 40�! ∙ 0,5 !! = 0,010844 2. A probabilidade de exatamente dois resultados 6 em dez arremessos de um dado é (neste caso, X~b(10, 1/6) ) P�X = 40� = C !� ∙ 7168� ∙ 7568 !�� = 10!2! �10 − 2�! ∙ 7168� ∙ 7568; = 0,290710 3. Se, na véspera do segundo turno de uma eleição presidencial, o candidato A conta com precisamente 60% das intenções de voto dos cerca de 140 milhões de eleitores, e uma amostra aleatória de 400 destes eleitores é sorteada e esses eleitores sorteados 0,000 0,002 0,004 0,006 0,008 0,010 0,012 0,014 0,016 0,018 0,020 800 850 900 950 1000 1050 1100 1150 1200 Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim perguntados sobre suas intenções de voto, qual a probabilidade do candidato B aparecer na frente de A? (neste caso X, o número de respostas favoráveis a A, tem distribuição b(400, 0,60) ). P�X < 200� = = C:!! 0,60 ∙ 0,40:!!� 66 3! = 21,2379 × 10�> Precisamente 21,2 milionésimos. Portanto, nessa pesquisa, o candidato A, com certeza, aparecerá na frente. No cálculo acima usei apoio computacional, claro. Mas não era necessário, conforme veremos mais adiante neste curso. Nos exemplos acima tratamos de calcular probabilidades de resultados específicos de variáveis aleatórias com distribuição binomial, com n e p conhecidos. São problemas básicos de Probabilidade. Numa situação diferente, temos um resultado x, e queremos fazer inferência sobre p. Considere o caso da eleição no exemplo 3 acima. Suponha agora uma situação mais interessante, na qual p, a fração do eleitorado que irá votar em A, seja desconhecida. E suponha ainda que a pesquisa com 400 eleitores amostrados aleatoriamente entre todo o eleitorado, tenha resultado em 240 respostas favoráveis a A, e as restantes 160, contrárias. A pergunta aqui é, então: A resposta a esta pergunta envolve um dos raciocínios mais belos, mais sutilmente engenhosos, jamais engendrados pelo intelecto humano. Uma sacada à altura da lei da especiação através da seleção natural, ou da lei gravitacional de Newton. A coisa é assim: Tendo obtido X=240 em n=400, buscamos no intervalo [0, 1] que valores de p são compatíveis com aquele resultado. O valor p=0 é, obviamente, incompatível com o resultado obtido, uma vez que, com p=0, o resultado X=240 é impossível. Como este resultado aconteceu, então devemos descartar o zero como uma alternativa possível para p. Por raciocínio idêntico descartamos também p=1. O quê dizer, contudo, de p=0,01, por exemplo? Ora, como sob esta hipótese ( de que p=0,01 ), a probabilidade do resultado {X=240} é tão absurdamente pequena a ponto de torná-lo impossível, essa hipótese pode também ser descartada com toda a segurança. De fato, como, sob esta hipótese, X~b(400, 0,01), então: P�X = 240� = C:!!�:! ∙ 0,01�:! ∙ 0,99 >! = 6,6868 × 10��>> Dado que o candidato A recebeu exatamente 240 respostas favoráveis entre os 400 eleitores amostrados aleatoriamente, o quê podemos afirmar sobre p, a sua parcela favorável no eleitorado de 145 milhões de eleitores ? Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim Conclusão: com p=0,01, P{X=240}=6,6868×10-366, não teria acontecido. Mas aconteceu; descartamos, pois 0,01 como uma hipótese plausível para p, nesse caso. Continuado com este raciocínio, podemos calcular P{X=240}, como uma função de p: P�X = 240� = C:!!�:! ∙ p�:! ∙ �1 − p� >!, cuja representação gráfica é dada na figura abaixo: Fica evidente que valores plausíveis para p são aqueles muito próximos de �:!:!! = 0,60. Em particular, valores menores que 0,50 podem ser descartados. A figura ao lado foca na região mais plausível de p. A função representada no gráfico acima e, que dá P{X=x}, é denominada função de verossimilhança de p. Ela aponta, nesse caso, a região plausível para p, dado que numa amostra de 400 eleitores, 240 declararam intenção de votar em A. Ela é representada pela letra L, de likelihood, verossimilhança em inglês. Assim, se X~b(n, p), a função de verossimilhança de p, dado X=x, é: ?�@\� = B� = �C2@2�1 − @��C�2�, para x fixo, e p no intervalo [0, 1] A função de verossimilhança no caso da binomial, dada acima, assume seu máximo valor para p=x/n. A prova é simples: basta derivar em relação a p, o logaritmo de L. A derivada é nula em p=x/n e a derivada segunda nesse ponto é negativa, logo x/n é um ponto de máximo de ln(L), portanto também de L. Daí surge uma variante muito mais tratável de L, a função da razão de verossimilhança, igual a L dividido por seu máximo valor. Vejamos D�@\� = B� = ?�@\� = B�EFBGH?�@\� = B�I = �C2@2�1 − @� �C�2� �C2 JBKL2 71 − JBKL8�C�2� = J K@B L2 MK�1 − @�K − B NC�2 No exemplo acima, com X~b(400, p) e x=240, a função da razão de verossimilhança de p, dado X=240, é D�@\� = 240� = 7 @0,68�:! M�1 − @�0,4 N >! 0,00 0,01 0,02 0,03 0,04 0,05 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,50 0,55 0,60 0,65 0,70 Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim Ela está representada na figura abaixo. Conforme esperado, seu máximo valor é 1, e ocorre para p=0,6. Ela diz o mesmo que a função de verossimilhança, mas seu manejo é mais simples, alem de apresentar outras vantagens, como veremos adiante. Inspecionando visualmente a figura acima, vemos que se uma amostra de 400 eleitores (o tamanho do eleitorado, um milhão ou cem milhões de eleitores, é irrelevante, desde que a amostra tenha sido selecionada por sorteio aleatório, fazendo do sorteio de cada eleitor um experimento binário Bp) resultou em 240 respostas favoráveis e 160 desfavoráveis, então o valor verdadeiro de p tem que ser algo, certamente, maior que 0,5 e menor que 0,7. Podemos portanto assegurar que, se nada dramático acontecer até o dia da eleição, alterando muito a posição do eleitorado, A vencerá a eleição. Como veremos mais adiante neste curso, podemos fazer afirmações ainda mais precisas; por exemplo, que p se situa entre 0,552 e 0,646, uma afirmação que fazemos com 95% de confiança (!). Aguardem novas e excitantes ideias para muito breve. Não perca. Exercício: Seja X~b(n, p). Construa um gráfico sobrepondo as funções da razão de verossimilhança para p, nos casos n=10 e x=2; n=100 e x=20; e n=1000 e x=200. Interprete o quê cada uma diz sobre p? Esperança e Variância O comportamento de uma variável aleatória é completamente descrito por função de distribuição de probabilidades, ou f.d.p.. A pontuação em um arremesso de um dado pode ser 1, 2, 3, 4, 5 ou 6, com chances iguais. A f.d.p. pode então ser representada por: ��� = B� = O16 @FPF B ∈ �1 2 3 4 5 6 �0 @FPF B ∉ �1 2 3 4 5 6 � No caso de X-b(n, p), o número de sucessos em B��, já sabemos: ��� = B� = S �C2 @2�1 − @�C�2 @FPF B ∈ �0 1 2 3 … K�0 @FPF B ∉ �0 1 2 3 … K� 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof.Sebastião de Amorim Na figura abaixo está representada a f.d.p. de X~b(100, 0,10). Note que, embora X se espalhe – matematicamente falando – de 0 a 100, a figura representa apenas o intervalo de 0 a 30, visto que acima desta faixa, as probabilidades são pequenas demais para deixarem qualquer marca no gráfico. A propósito, P{X=30}=1,84×10-8 e P{X>30}=6,06×10-9. Vamos agora definir os conceitos de Esperança e de Variância de uma variável aleatória. O primeiro diz respeito ao valor médio esperado da variável e o segundo mede o grau de espalhamento da distribuição de probabilidade correspondente, em torno da esperança. Continuamos usando o contexto específico da distribuição binomial para introduzir aqueles dois conceitos que, todavia, são aplicáveis a qualquer variável aleatória. Seja ΩX o suporte da distribuição de X, ou seja, o conjunto de todos os valores que esta variável aleatória pode assumir. Assim, E�X� = = x ∙ P�X = x� ∈VW Note que E(X) é nada mais que a média dos valores possíveis de X, ponderados pelas respectivas probabilidades. No caso da distribuição binomial, temos X��� = = x ∙ P�X = x� ∈VW = = x ∙ C� ∈VW ∙ p . �1 − p��� = K@ A prova de que, para X~b(n, p), E(X)=np, é simples e está dada nas notas completas. A variância de X é simplesmente a esperança de [ X – E(X) ]2: Y��� = XH� − X���I� = = Hx − E�X�I� ∙ P�X = x� ∈VW = = x ∙ C� ∈VW ∙ p . �1 − p��� = K@ Para o caso particular de uma b(n, p), temos 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 3 0 Departamento de Estatística - IMECC – UNICAMP ME 414 – Fundamentos de Probabilidade e Estatística para a Pesquisa Experimental Prof. Sebastião de Amorim Y��� = XH� − X���I� = = �x − np�� ∙ C� ∈VW ∙ p . �1 − p��� = K@�1 − @� = K@Z E a prova de que, para X~b(n, p), V(X)=npq, é simples e também está dada nas notas completas. Estes conceitos básicos (de Esperança e Variância) são centrais à Teoria da Probabilidade, desempenham um papel teórico e prático importantíssimo, e devem ser assimilados em profundidade. Os resultados específicos para X~b(n, p), a saber, E(X)=p e V(X)=npq, serão intensamente utilizados neste curso. Ganhe intimidade com eles.
Compartilhar