Baixe o app para aproveitar ainda mais
Prévia do material em texto
V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Aspectos de teoria da decisão e probabilidade subjetiva para o Ensino Básico LAURA RIFO1 25 e 26 de abril de 2017 1www.ime.unicamp.br/~laurarifo www.ime.unicamp.br/~laurarifo V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2 V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Dedicado ao professor Sergio Wechsler que tem me guiado pelo estreito caminho da coerência na incerteza. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 4 V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Sumário 1 Incerteza 5 1.1 Relembrando o cálculo de probabilidades . . . . . . . . . . . . . 5 1.2 Variáveis e esperança . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Quanto vale um previsor? . . . . . . . . . . . . . . . . . . . . . . 11 2 Modelando sua incerteza 17 2.1 Quantos peixes há no lago? . . . . . . . . . . . . . . . . . . . . . 17 2.2 Mensuração da incerteza . . . . . . . . . . . . . . . . . . . . . . 21 2.3 Dê seu palpite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4 Regra de escore . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.5 Regra de escore como medida . . . . . . . . . . . . . . . . . . . 25 2.6 Coerência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5 V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 6 SUMÁRIO V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Prefácio Estas notas estão dirigidas especialmente para o atual e para o futuro profes- sor de Matemática do Ensino Básico, mas podem ser úteis para um público geral interessado no assunto. A abordagem adotada trata da probabilidade como modelo da informação dis- ponível para quantificar incerteza, e, portanto, relativa ao sujeito que tem essa in- formação, daí o nome de interpretação subjetiva, e do seu uso no auxílio de tomadas de decisão ótimas. Ao usar o termo “ótima”, queremos indicar um procedimento que maximiza alguma função objetivo, no caso, estamos interessados em reduzir os custos esperados das decisões envolvidas, sejam elas previsões ou ações a serem seguidas. Meu interesse pelo assunto começou ao perceber que na maioria dos livros uti- lizados no ensino há uma aparente desconexão entre o cálculo de probabilidades clássico (modelo uniforme, binomial, etc), estatística descritiva (histogramas, mé- dias, etc) e inferência estatística (estimação, previsão, etc), e entre estes tópicos e a vida real do aluno. No entanto, assim como a teoria de conjuntos é a base para a matemática, a teoria da decisão é a base para o pensamento inferencial, compreendendo neste, a construção de uma medida de incerteza e de métodos de inferência coerentes. A condição de coerência é a base para a análise de tomadas de decisão: não pretendemos afirmar se uma comparação é correta ou errada, mas sim se um con- junto de comparações é coerente ou não. Do mesmo modo, não diremos se uma decisão é correta, mas sim se ela é coerente. A Teoria da Decisão trata da relação entre eventos e decisões, e esta relação é definida de maneira precisa e não arbitrária. Esta abordagem é ao mesmo tempo muito liberal e muito restritiva: liberal no sentido em que permite uma ampla gama de preferências, e restritiva no sentido em que estas preferências devem obedecer certas regras (de coerência). O texto está fortemente baseado nos livros de Blackwell [2] e de Lindley [5], ambos esgotados há alguns anos, mas disponíveis em sebos pela internet. Para o leitor interessado em aprofundar seus conhecimentos na área, recomendo as refe- rências [3, 6], e para um bom resumo do ponto de vista mais aplicado, [1]. 1 V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2 SUMÁRIO V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Agradecimentos Aproveito a ocasião para agradecer aos professores Carlos Alberto de Bragança Pereira e Sergio Wechsler, do Instituto de Matemática e Estatística da USP, pelas referências e bch que eles me recomendaram para começar a entender probabili- dade além da medida. 3 V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 4 SUMÁRIO V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Capítulo 1 Incerteza “ ... por que não me deixo levar pelo que for acontecendo? Terei que correr o sagrado risco do acaso. E substituirei o destino pela probabilidade.”– Clarice Lispector, A paixão segundo G.H. 1.1 Relembrando o cálculo de probabilidades Começaremos o curso com algumas definições e propriedades básicas do con- ceito de probabilidade. Exemplo 1. Um número é selecionado sem preferência dentre 00, 01, 02, . . . , 98, 99. Ao usarmos a expressão “sem preferência”, queremos indicar que todos os cem números têm a mesma chance de serem selecionados. Isto nos permite construir o modelo probabilístico mais básico para os resultados de um experimento: o modelo equiprovável. Seja S um conjunto finito que contém os todos os resultados possíveis de um experimento, e seja E um evento qualquer, E ⊂ S. Com o modelo equiprová- vel, a probabilidade de E é proporcional à quantidade de elementos de E. Mais precisamente, indicando por P (E) a probabilidade de E ocorrer, temos que P (E) = números de elementos de E números de elementos de S . (1.1) No exemplo, alguns eventos e suas probabilidades são: (a) o primeiro dígito é 0 = {00, 01, 02, 03, 04, 05, 06, 07, 08, 09}: 0.1 (b) os dois dígitos são iguais = {00, 11, 22, 33, 44, 55, 66, 77, 88, 99}: 0.1 (c) os dois dígitos são diferentes: 0.9 (d) o primeiro dígito é maior que o segundo: 0.45 (e) o primeiro dígito não é menor que o segundo: 0.55 5 V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 6 CAPÍTULO 1. INCERTEZA (f) o segundo dígito é 1: 0.1 (g) a soma dos dígitos é igual a 9: 0.1 (h) nenhuma dos dígitos é maior que 3: 0.16 (i) ambos os dígitos são maiores que 3: 0.36 (j) apenas um dos dígitos é maior que 3: 0.48 (k) o primeiro dígito é maior que 3 e o segundo, não: 0.24 Observemos neste exemplo algumas condições gerais que uma probabilidade satisfaz. P1. A probabilidade de um evento é um número entre 0 e 1. Se P (E) = 0, dizemos que o evento E é impossível, não pode ocorrer. No exemplo, “o primeiro e o segundo dígitos são pares e sua soma é ímpar” é um evento impossível. Se P (E) = 1, dizemos que E é um evento certo, tem que ocorrer. No exemplo, “a soma dos dígitos é não negativa” é um evento certo. P2. Sejam E e F eventos mutuamente exclusivos, ou seja, se um deles ocorre então o outro não pode ocorrer. Então a probabilidade de que pelo menos um deles ocorra é igual à soma de suas probabilidades, P (E ou F ) = P (E) + P (F ) . No exemplo, consideremos os eventos E =“a soma dos dígitos é igual a 4”= {04, 13, 22, 31, 40} e F =“ambos os dígitos são maiores que 6”= {77, 78, 79, 87, 88, 89, 97, 98, 99}. Então P (E ou F ) = 5/100 + 9/100 = 0.14. Como caso particular da propriedade (P2), temos que, dado um evento E, P (E) + P (não E) = P (E ou não E) = 1. Comentário Veja que o primeiro exemplo se refere à chamada distribuição uni- forme em um conjunto finito, levando à típica definição de probabilidade de um evento como a razão (1.1). Mesmo esta não sendo uma condição razoável na maio- ria dos exemplos práticos, a importância desta definição é que ela permite construir modelos não equiprováveis, como veremos nos exemplos a seguir. Exemplo 2. Considere duas urnas, cada uma contendo cinco bolas: a urna A tem bolas numeradas de 1 a 5, e a urna B, numeradas de 6 a 10. Suponha que uma das urnas será selecionada sem preferência, e depois será selecionada uma bola dessa urna, também sem preferência. Você ganha um prêmio se a bola selecionada tiver um número divisível por 3. Com as condições dadas no experimento, todas as bolas numeradas de 1 a 10 têm a mesma chance de serem selecionadas. Sendo assim, sua probabilidade de ganhar o prêmio é P (prêmio) = 310 = 0.3 . V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 1.1. RELEMBRANDO O CÁLCULO DE PROBABILIDADES 7 Observe, no entanto, que se você souber que a urna selecionada é a urna A, sua pro- babilidade de ganhar o prêmio é 1/5 = 0.2. Analogamente, se a urna selecionada for a urna B, sua probabilidade de ganhar o prêmio é 2/5 = 0.4. Em símbolos, indicamos esta informação adicional a respeito da urna com a seguinte notação: P (prêmio | urna A) = 0.2 e P (prêmio | urna B) = 0.4 . Em geral, dados dois eventos E e F , denotamos por P (E | F ) a probabilidade de E condicional em F , o seja, a probabilidade do evento E, sabendo ou supondo que o evento F ocorre. Podemos calcular esta probabilidade usando a relação P (E | F ) = P (E e F ) P (F ) . (1.2) No exemplo, obtivemos a probabilidade de ganhar o prêmio diretamente usando a informação sobre a urna selecionada. Denotemos por E o evento “você ganha o prêmio” e por F , o evento “a urna B é selecionada”, de modo que o evento (E e F ) contém as bolas numeradas 6 e 9. Usando a igualdade anterior, P (E | F ) = P (bolas 6 e 9) P (urna B) = 2/10 1/2 = 4 10 . Note que, da Equação (1.2), obtemos P (E e F ) = P (F )P (E | F ) , conhecida como regra do produto. Como também temosP (E e F ) = P (E)P (F | E), se usarmos a probabilidade condicional emE, a decisão sobre qual condicional escolher depende de qual informação temos em um problema dado. A igualdade anterior nos permite calcular a probabilidade da ocorrência de dois ou mais eventos, usando as probabilidades condicionais. A generalização desta regra para três eventos E,F,G é naturalmente o produto P (E e F e G) = P (E)P (F | E)P (G | E e F ) , e analogamente para qualquer coleção E1, E2, . . . , En de eventos. Exemplo 3. Na sala A, há três pessoas, e na sala B, duas pessoas. Uma das salas é selecionada e depois uma pessoa da sala é selecionada para receber um prêmio. Qual é a probabilidade de você receber o prêmio se você estiver na sala A? E se você estiver na sala B? Se você estiver na sala A, o evento “você recebe o prêmio” ocorre se e somente se ocorrerem os dois eventos: A=“a sala A é escolhida” e E =“você é a pessoa selecionada”. Assim, pela regra do produto, P (A e E) = P (sala A)P (você é a pessoa selecionada | sala A) = 12 × 1 3 = 1 6 . A sala B é deixada para o leitor. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 8 CAPÍTULO 1. INCERTEZA Exemplo 4. Uma associação tem duas modalidades de sócios: R e D. Todo mês, um dos sócios é escolhido, sem preferência, para trazer um novo sócio. Suponha que um R sempre traz um R, e que um D sempre traz um D. Se, originalmente, a associação tem um R e um D, qual é a probabilidade de que depois de três meses ela tenha três sócios R? Para resolver este problema, faremos um esquema de árvore de probabilidade, conforme a Figura 1.1. A árvore é construída da esquerda para a direita, de modo que cada divisão nos nodos corresponde aos possíveis resultados do mês seguinte, começando no mês zero. O par ordenado próximo a cada nodo indica a atualização do total de sócios D e R, respectivamente: no mês zero, temos o par (1, 1) indicando um sócio de cada modalidade. As frações em cada galho mostram a probabilidade condicional do nodo se- guinte, supondo que os resultados anteriores são os que aparecem à esquerda do mesmo galho. Finalmente, na coluna da direita, aparece a probabilidade de cada galho (ou seja, de cada sequência possível na escolha dos sócios), obtida pela regra do produto. Usandoesta notação, queremos calcular a probabilidade de que a configuração ao fim de três meses seja o par (2, 3), correspondente a dois sócios D e três R. Como esta configuração ocorre para as sequências DRR, RDR e RRD, dos galhos 4, 6 e 7, a probabilidade requerida é igual a 1/12 + 1/12 + 1/12 = 1/4, pela propriedade P2. E, se você souber que o primeiro novo sócio éD, qual é a probabilidade de que depois de três meses ela tenha três sócios R? Neste caso, temos a informação de que ocorre apenas um dos quatro galhos saindo do nodo (2, 1), do primeiro mês. Estes galhos têm probabilidades condi- cionais nesta informação iguais a 1/2, 1/6, 1/6, 1/6, respectivamente, lendo de cima para baixo na árvore de probabilidades. Assim, a probabilidade condicional requerida é igual a 1/6. 1.2 Variáveis e esperança Considere um experimento e seja S o conjunto de todos os resultados possíveis. Qualquer regra que faz corresponder um número a cada resultado de um ex- perimento é chamada variável. O número associado a cada resultado é chamado o valor da variável. Uma lista com os valores possíveis de uma variável e suas respectivas probabilidades é chamada distribuição da variável. Exemplo 1’. No Exemplo 1, seja X a variável “total de dígitos maiores que 3”. Como cada resultado é um número de dois dígitos, os possíveis valores deX são 0, 1, 2. A distribuição de X , de acordo com os itens (h,i,j), é a que aparece na Tabela 1.1(a). V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 1.2. VARIÁVEIS E ESPERANÇA 9 D R R R R D D R D D R R D D R D (1, 1) 1/2 (1, 2) 2/3 (1, 3) 3/4 1/4 1/3 (2, 2) 1/2 1/2 1/2 (2, 1) 1/3 (2, 2) 1/2 1/2 2/3 (3, 1) 3/4 1/4 (1, 4) (2, 3) (3, 2) (2, 3) (2, 3) (3, 2) (4, 1) (3, 2) probabilidade 1 2 × 2 3 × 3 4 = 3 12 1 2 × 2 3 × 1 4 = 1 12 1 12 1 12 1 12 1 12 1 12 3 12 Figura 1.1: Árvore de probabilidades referente ao Exemplo 4. O par ordenado em cada nodo indica o total de sócios (D,R) no mês correspondente. Em cada galho, indicamos as probabilidades condicionais do nodo seguinte, e, na última coluna, mostramos a probabilidade de cada sequência nos três meses. Exemplo 4’. No Exemplo 4, seja T o total de sócios R no terceiro mês. Se não for sorteado nenhum R, então T é igual a 1, correspondente ao caso (4, 1) na árvore da Figura 1.1, com probabilidade igual a 3/12 = 1/4; no outro extremo, se os três sorteios forem R, então T é igual a 4, correspondente ao caso (1, 4), com probabilidade 1/4. Os outros dois casos correspondem às configurações finais (3, 2) e (2, 3), cada um com probabilidade também 1/4. Esta distribuição é a que V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 10 CAPÍTULO 1. INCERTEZA Tabela 1.1: (a) Distribuição de X no Exemplo 1’; (b) Distribuição de T no Exem- plo 4’. X v p 0 0.16 1 0.48 2 0.36 T v p 1 1/4 2 1/4 3 1/4 4 1/4 (a) (b) aparece na Tabela 1.1(b). Para quaisquer duas variáveis, X e Y , denotamos por X + Y a variável que associa a cada resultado do experimento, a soma dos valores de X e Y associados a esse experimento. Podemos definir outras operações analogamente: X−Y ,XY , X2, 3X + 2Y − 7, (X − 2)2, log Y , etc. Exemplo 5. Suponha que será escolhida, sem preferência, uma das palavras da frase A ANA FOI DANÇAR. Seja V o total de vogais da palavra escolhida e C, o total de consoantes. Determinaremos as distribuições de C, V , C + V , V 2 e (C−1)2, usando a Tabela 1.2, que mostra os valores de cada uma destas variáveis. Tabela 1.2: Valores das variáveis do Exemplo 5. resultado probabilidade C V C + V V 2 (C − 1)2 A 1/4 0 1 1 1 1 ANA 1/4 1 2 3 4 0 FOI 1/4 1 2 3 4 0 DANÇAR 1/4 4 2 6 4 9 Daqui, a distribuição de V , por exemplo, é v p 1 1/4 2 3/4 . As demais são obtidas analogamente. Para uma variável qualquer, X , a sua média ou valor esperado é o número, denotado por E(X), obtido de uma das seguintes maneiras: 1. somando os valores que X associa a cada resultado e ponderados pelas pro- babilidades de cada resultado, P (e), E(X) = ∑ e X(e)P (e) V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 1.3. QUANTO VALE UM PREVISOR? 11 ou 2. somando os valores de X , v, ponderados pela probabilidade de cada valor, E(X) = ∑ v vP (X = v) . Assim, no Exemplo 5, a média de V , calculada pela primeira maneira usando a Tabela 1.2, é E(V ) = 1× 14 + 2× 1 4 + 2× 1 4 + 2× 1 4 = 7× 1 4 = 1.75 , e, pela segunda maneira, usando diretamente a tabela da distribuição de V , é E(V ) = 1× 14 + 2× 3 4 = 1.75 . Este exemplo deixa claro que as duas maneiras são equivalentes, pois dado um valor v de X ,∑ e:X(e)=v X(e)P (e) = ∑ e:X(e)=v vP (e) = v ∑ e:X(e)=v P (e) = v P (X = v) . Daqui, somando em v, obtemos a igualdade entre as duas maneiras. Da definição acima, obtemos imediatamente as seguintes propriedades da es- perança de uma variável. Para X e Y , variáveis, e c, um número real constante, temos que: E1. E(X + Y ) = E(X) + E(Y ); E2. E(cX) = cE(X); E3. E(c) = c. Pergunta Por que sempre calculamos a média de uma variável? 1.3 Quanto vale um previsor? Exemplo 5’. Suponha que você deve prever o total de consoantes antes da palavra ser selecionada. Qual é o seu melhor palpite? A distribuição do total de consoantes, C, é v p 0 1/4 1 2/4 4 1/4 . Como 1 é o valor mais provável, este poderia ser um bom palpite para a previ- são. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 12 CAPÍTULO 1. INCERTEZA Tabela 1.3: Distribuição do custo da previsão no Exemplo 5’, para diversos palpi- tes. resultado probabilidade C (C − 1)2 (C − 0)2 (C − 4)2 (C − a)2 A 1/4 0 1 0 16 (0− a)2 ANA 1/4 1 0 1 9 (1− a)2 FOI 1/4 1 0 1 9 (1− a)2 DANÇAR 1/4 4 9 16 0 (4− a)2 média 1.5 2.5 4.5 8.5 Suponhamos que há um custo se o palpite estiver errado e que este custo é igual ao quadrado do erro. Neste caso, se o seu palpite for 1, podemos obter a distribuição deste custo na Tabela 1.3. Analogamente, para os palpites 0, 4, ou a qualquer. Se a previsão para uma variável X for a, um valor real qualquer, o custo de- finido pelo quadrado do erro é chamado perda quadrática da previsão e sua mé- dia, o erro quadrático médio de a como previsor de X , que será denotado por EQM(a;X), EQM(a;X) = E [ (X − a)2 ] . Uma pergunta importante é: qual é a previsão com menor EQM? Voltando ao Exemplo 5, na Tabela 1.3, vemos que o EQM de 1 como previsor de C é igual a 2.5, o de 0, é 4.5, e o de 4, é 8.5. Agora, seja a um valor real qualquer. O EQM de a como previsor de C é EQM(a;C) = [ a2 + (1− a)2 + (1− a)2 + (4− a)2 ] 1 4 = ( a− 32 )2 + 94 , cujo ponto de mínimo é a = 3/2. Ou seja, a decisão com menor EQM é a = 1.5, e seu EQM é igual a 9/4 = 2.25 (menor, é claro, que a da previsão a = 1).Em geral, dada uma variável X , a previsão a de X tem EQM dado por EQM(a;X) = E [ (X − a)2 ] = E [ X2 − 2aX + a2 ] = E(X2)− 2aE(X) + a2 = [a− E(X)]2 + E(X2)− [E(X)]2 , cujo valor mínimo é alcançado quando a = E(X). Neste caso, o EQM de E(X) como previsor de X é igual a EQM(E(X);X) = E(X2)− [E(X)]2 , também conhecido como a variância de X , e denotado por σ2(X). Observação: a raiz quadrada da variância é conhecida como o desvio-padrão de X , √ σ2(X) =: σ(X). V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 1.3. QUANTO VALE UM PREVISOR? 13 Exemplo 6. Na sala A, há três mulheres cujas alturas são 158cm, 165cm e 165cm. Na sala B, há dois homens, de alturas 179cm e 189cm. Uma das duas salas é selecionada, sem preferência, e, desta, uma pessoa é selecionada. Suponha que você deve prever a altura da pessoa selecionada, de modo que sua perda por uma previsão errada é igual ao quadrado do erro cometido. Qual é a sua melhor previsão, qual é a distribuição de seu erro quadrático e qual é o seu EQM? Tabela 1.4: Distribuição do erro quadrático da previsão no Exemplo 6. Y probabilidade (Y − 172)2 Y 2 158 1/6 (158− 172)2 24964 165 1/6 (165− 172)2 27225 165 1/6 (165− 172)2 27225 179 1/4 (179− 172)2 32041 189 1/4 (189− 172)2 35721 média 172 592.33 30176.33 Denotemos por Y a altura da pessoa selecionada. Do anterior, sabemos que, se supusermos que o custo é dado pelo erro quadrático, a melhor previsão é a média da variável: E(Y ) = (150 + 165 + 165)× 12 1 3 + (179 + 189)× 1 2 1 2 = 80 + 92 = 172 , cujo erro quadrático médio é σ2(Y ) = E [ (Y − 172)2 ] = E(Y 2)− 1722 = 592.33 . Suponha que, antes de você fazer sua previsão, você pode receber a informação sobre qual sala foi selecionada. Qual é a sua melhor previsão se foi a sala A e qual é o seu EQM? Neste caso, a melhor previsão é a altura média na sala A, E(Y | sala A) = (158 + 165 + 165)× 13 = 162.67 , cujo EQM é σ2(Y | sala A) = E(Y 2 | sala A)− 162.672 = 10.88 . Do mesmo modo, se você souber que a sala selecionada foi a sala B, a melhor previsão, considerando erro quadrático, é E(Y | sala B) = (179 + 189)× 12 = 184 , cujo EQM é σ2(Y | sala B) = E(Y 2 | sala B)− 1842 = 25 . V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 14 CAPÍTULO 1. INCERTEZA Suponha que esse EQM represente um custo em reais pelo seu erro de previsão. Assim, se você não tiver nenhuma informação sobre a sala selecionada, sua melhor previsão tem um custo médio de quase 600 reais. Mas, se você tiver informação sobre a sala selecionada, o custo médio de sua melhor previsão para cada caso pode ser 11 reais, se for a sala A, ou 25 reais, se for a sala B. Se alguém oferecer vender a informação sobre a sala selecionada, quanto você está disposto a pagar? Você pagaria 2 reais? 100 reais? 1000 reais? Tabela 1.5: Distribuição do erro quadrático de U como previsor de Y , no Exemplo 6. X Y probabilidade U (Y − U)2 1 158 1/6 162.67 (158− 162.67)2 1 165 1/6 162.67 (165− 162.67)2 1 165 1/6 162.67 (165− 162.67)2 2 179 1/4 184 (179− 184)2 2 189 1/4 184 (189− 184)2 média 17.9 Veja que, considerando a informação sobre a sala, definimos um novo previsor, não constante, que é função da sala. Mais precisamente, definamos por X a variá- vel que indica a sala escolhida: X = 1, se for a sala A, e X = 2, se for a sala B. O novo previsor é uma variável U que depende de X da seguinte maneira: U = { E(Y | X = 1) = 162.67, se X = 1 E(Y | X = 2) = 184, se X = 2 , com EQM dado por EQM(U ;Y ) = σ2(Y | X = 1)× P (X = 1) + σ2(Y | X = 2)× P (X = 2) = 10.88× 12 + 25× 1 2 = 17.9 . A melhora na previsão de Y , ao usar o previsor (não constante) U , pode ser quantificada pelo chamado valor de U como previsor de Y , W (U ;Y ), definido por W (U ;Y ) = σ 2(Y )− EQM(U ;Y ) σ2(Y ) , que, no exemplo, vale W (U ;Y ) ≈ 600− 20600 ≈ 0.97 = 97% . Em outras palavras, ter a informação sobre a sala para prever Y traz uma economia de aproximadamente 97% no custo da previsão. Isto representa o valor máximo que você deveria pagar para ter a informação exata sobre a sala que será escolhida. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 1.3. QUANTO VALE UM PREVISOR? 15 Comentário. Observe que, com esta definição, a variável de maior valor para prever Y é a própria variável Y , que tem EQM igual a 0, e valor igual a 1. Ou seja, se você for prever Y , você pagaria até 100% do valor de sua perda esperada para ter a informação do valor de Y antes de fazer a previsão. Se U for a previsão constante igual a E(Y ), seu valor é igual a 0; e se U for qualquer constante diferente de E(Y ), seu valor é negativo. Ou seja, neste caso, a média de Y é sua melhor previsão. Exemplo 5”. Esta última observação fica mais clara no Exemplo 5, onde o valor da previsão constante U = 1 é W (U ;Y ) = 2.25− 2.52.25 = −0.11 < 0 . Mas poderíamos pensar em um previsor não constante e verificar se seu valor é Tabela 1.6: Distribuição do erro quadrático de Z = E(C | V ) como previsor de C, no Exemplo 5. V C probabilidade Z (C − Z)2 1 0 1/4 0 (0− 0)2 2 1 1/4 2 (1− 2)2 2 1 1/4 2 (1− 2)2 2 4 1/4 2 (4− 2)2 média 1.5 positivo. Por exemplo, considere a variável V , o total de vogais da palavra selecio- nada, e o previsor Z para C igual à variável E(C | V ). De acordo com a Tabela 1.6, temos que EQM(Z;C) = 1.5 e, portanto, o valor de Z como previsor de C é W (Z;C) = 2.25− 1.52.25 = 1/3 , que indica uma economia de em torno de 33.3%. Comentário. Em geral, dadas duas variáveis, X e Y , o previsor U = E[Y | X] é a melhor função de X para prever Y . Uma pergunta natural que surge é: se estivermos interessados em algum tipo específico de função de X , qual delas é a melhor como previsor para Y ? Por exemplo, qual é a função linear em X , aX + b, com menor EQM como previsor de Y ? Ou, em geral, qual é a função linear em X1, X2, . . . , Xn, a1X1 +a2X2 + · · ·+anXn +b, com menor EQM como previsor de Y ? A resposta a estas perguntas foge do escopo deste curso, mas o leitor interes- sado pode estudar o assunto em [2, 4], por exemplo. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 16 CAPÍTULO 1. INCERTEZA V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Capítulo 2 Modelando sua incerteza “ - Me diga uma última coisa - disse Harry - Isto é real? Ou esteve acontecendo apenas em minha mente? (...) - Claro que está acontecendo em sua mente,Harry. Mas por que isto significaria que não é real? ” – JK Rowling, As relíquias da morte. 2.1 Quantos peixes há no lago? Suponha que o total, T , de peixes em um lago é desconhecido, e, por sim- plicidade, suponha que este total é pequeno, podendo ser um dos valores 1, 2 ou 3. Você participará de um jogo em que deve decidir se o total de peixes é ou não igual a 3, recebendo um prêmio se tomar a decisão correta. Queremos responder às perguntas: Qual é o melhor procedimento de decisão e qual é a sua chance de ganhar o prêmio com este procedimento? Suponha, adicionalmente, que você tem alguma informação prévia sobre o lago, que lhe permite atribuir uma distribuição para T . Por exemplo, com esta informação, você poderia concluir que é mais provável que o lago tenha três pei- xes, do que um ou dois, atribuindo probabilidades 0.2, 0.2 e 0.6, para T igual a 1, 2 e 3, respectivamente. Esta distribuição formada somente pela sua experiên- cia ou informação disponível é chamada sua distribuição a priori sobre T , e será denotada por π. De acordo com as suas probabilidades, sua melhor decisão é afirmar que há três peixes no lago, T = 3, pois este evento é mais provável de ocorrer do que o evento T 6= 3, com probabilidade de você ganhar o prêmio igual a 0.6. Agora suponha que as regras do jogo permitem que você realize um experi- mento auxiliar para tomar sua decisão: pegar um dos peixes do lago, marcá-lo e 17 V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 18 CAPÍTULO 2. MODELANDO SUA INCERTEZA devolvê-lo ao lago. Depois de um tempo, pegar novamente um peixe do lago e verificar se este peixe está ou não marcado. SejaX a variável que representa o resultado do experimento, sendo queX = 0 indica que o segundo peixe não está marcado, e X = 1 indica que o segundo peixe está marcado. Veja que o valor de T é desconhecido no problema e o valor de X será conhe- cido depois de realizado o experimento. Em outras palavras, nossa incerteza sobre X acaba com a realização do experimento, enquanto que a de T provavelmente continuará existindo. Nosso objetivo com o experimento é reduzir o grau de incerteza sobre T , ou sobre a veracidade do evento T = 3. Na linguagem estatística usual, T é chamado o parâmetro sobre o qual quere- mos fazer alguma afirmação probabilística (no caso, queremos a probabilidade de que T seja igual a 3) e X é chamada a observação ou conjunto de dados. A relação entre estas duas variáveis é que cada valor possível i de T permite construir um modelo probabilístico para o experimento, dado pela distribuição condicional P (X | T = i). Para o exemplo, a distribuição condicional de X dado T , para cada valor de T , é a mostrada na Tabela 2.1. Em cada linha, temos P (X = 0 | T = i) e P (X = 1 | T = i) , para i = 1, 2, 3. Na primeira coluna, a tabela mostra sua distribuição a priori para T . Tabela 2.1: Na coluna da esquerda, a distribuição a priori, π, do total T de peixes no lago. Na terceira e quarta colunas, distribuição da variável X , para cada um dos possíveis valores i de T , P (X = j | T = i), para j = 0, 1. π T (X | T ) X = 0 X = 1 soma 0.2 1 0 1 1 0.2 2 1/2 1/2 1 0.6 3 2/3 1/3 1 soma 1 Temos, assim, duas distribuições: a distribuição a priori de T , P (T = i) para i = 1, 2, 3, e as distribuições condicionais paraX dado T , P (X = j | T = i), para j = 0, 1. Com estas distribuições, pela regra do produto, obtemos a distribuição conjunta de T e X , ou seja, obtemos a probabilidade de todos os eventos da forma (T = i,X = j), para i = 1, 2, 3 e j = 0, 1, conforme mostrado na Tabela 2.2, P (T = i,X = j) = P (T = i)P (X = j | T = i) . V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2.1. QUANTOS PEIXES HÁ NO LAGO? 19 A última linha mostra a distribuição marginal de X . Esta distribuição marginal de X entrega a probabilidade, não condicional em T , de cada um dos resultados de X antes de realizar o experimento. Do mesmo modo, a última coluna apresenta a distribuição marginal de T , não condicional emX , que é exatamente a distribuição a priori de T (a distribuição de T antes de pensar em realizar o experimento). Tabela 2.2: Na terceira e quarta colunas, distribuição conjunta das variáveis T e X , para cada um dos possíveis valores i de T , e j de X , P (T = i,X = j). π T (T,X) X = 0 X = 1 soma 0.2 1 0 0.2 0.2 0.2 2 0.1 0.1 0.2 0.6 3 0.4 0.2 0.6 soma 0.5 0.5 1 Suponha que você realiza o experimento e obtém X = 1, o segundo peixe está marcado. Isto entrega uma informação nova sobre o total de peixes no lago, que se reflete na distribuição de T , agora condicional na informação sobre X . Esta distribuição condicional é chamada distribuição a posteriori de T , pois é obtida posteriormente à realização do experimento. Tabela 2.3: Na última coluna, a distribuição a posteriori da variável T , para cada um dos possíveis valores i de T e j de X , P (T = i | X = j). π T (T | X) X = 0 X = 1 0.2 1 0 0.4 0.2 2 0.2 0.2 0.6 3 0.8 0.4 soma 1 1 1 A Tabela 2.3 entrega esta distribuição, obtida por P (T = i | X = j) = P (T = i e X = j) P (X = j) , para cada i = 1, 2, 3, e cada um dos possíveis resultados j do experimento. Assim, obtemos que: na terceira coluna, se X = 0, as probabilidades para T = 1, 2, 3 são, respectivamente, 0, 0.2, 0.8; e, na quarta coluna, se X = 1, elas são, respectiva- mente, 0.4, 0.2, 0.4. Este resultado quer dizer, por exemplo, que, se o segundo peixe estiver mar- cado, a probabilidade de que haja um único peixe no lago dobra (passa de 0.2 para V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 20 CAPÍTULO 2. MODELANDO SUA INCERTEZA 0.4), mas, se o segundo peixe não estiver marcado, esta probabilidade passa a ser igual a zero. Voltemos ao problema de decidir afirmar que T = 3 ou não. Para isso, anali- saremos a melhor decisão para cada valor possível do experimento. Se X = 0, a probabilidade a posteriori de T = 3, P (T = 3 | X = 0), é igual a 0.8, e, portanto, a melhor decisão é afirmar que T = 3, com probabilidade igual a 0.8 de ganhar o prêmio. Se X = 1, a probabilidade a posteriori de T = 3, P (T = 3 | X = 1), é igual a 0.4 < 0.5, e, portanto, a melhor decisão é afirmar que T 6= 3, com probabilidade igual a 0.2 + 0.4 = 0.6 de ganhar o prêmio. Como cada resultado é igualmente provável, P (X = 0) = P (X = 1) = 0.5, então a probabilidade de tomar a decisão correta e ganhar o prêmio é P (prêmio) = P (prêmio e X = 0) + P (prêmio e X = 0) = P (X = 0)P (prêmio | X = 0) + P (X = 1)P (prêmio | X = 1) = P (X = 0)P (T = 3 | X = 0) + P (X = 1)P (T 6= 3 | X = 1) = 12 0.8 + 1 2 0.6 = 0.7 . Ou seja, usando a informação do experimento, a probabilidade prevista de ganhar o prêmio é 0.7, maior que a obtida somente com a informação a priori, cuja proba- bilidade era 0.6. Outra forma de obter esta probabilidade, de você tomar a decisão correta, é através das probabilidades conjuntas da Tabela 2.2. Os pares (T,X) indicados pelo seu critério de decisão são (0, 3), (1, 1) e (1, 2), cuja probabilidade total é 0.4 + 0.2 + 0.1 = 0.7. Em resumo, seu critériode decisão e suas probabilidades de ganhar o prêmio são: Se o peixe estiver marcado, decida T 6= 3 - probabilidade de ganhar: 0.6. Se o peixe não estiver marcado, decida T = 3 - probabilidade de ganhar: 0.8. Probabilidade de ganhar o prêmio com esta estratégia: 0.7. Pergunta Na Tabela 2.2, qual é a distribuição marginal de X se a distribuição a priori de T fosse (0.5, 0.2, 0.3) no lugar de (0.2, 0.2, 0.6)? Interprete o resultado. Pergunta Usando o que vimos na primeira aula, qual é sua melhor estimativa para T e seu EQM, antes de realizar o experimento? E para cada resultado do experimento? Qual é o EQM total, ao usar o experimento para prever T ? Qual é o valor do experimento? Comentário. Neste exemplo, para resolver um problema de decisão, utilizamos o que chamamos de distribuição a priori da variável de interesse (ou parâmetro). Esta distribuição quantifica o grau de incerteza do decisor a respeito da variável considerada, de acordo com a sua informação. Na próxima seção, veremos como esta quantificação pode ser feita. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2.2. MENSURAÇÃO DA INCERTEZA 21 2.2 Mensuração da incerteza Em português, temos diversas palavras para qualificar a incerteza de um evento: verossímil, provável, crível, plausível, possível, tem pouca chance, tem muita chance, etc. Nosso objetivo é descrever a incerteza de um evento da forma mais simples que conhecemos para ordenar coisas: com números. Faremos isto de modo que quanto maior o número atribuído, mais provável é que o evento ocorra. Do mesmo modo que para a realização de mensurações físicas, a obtenção pode ser complicada na prática, mas a ideia é simples: qualquer mensuração é feita com relação a um padrão. O comprimento é descrito em termos do comprimento de onda da luz amarela de sódio; o tempo, em termos da oscilação de um cristal. Observe que os padrões mencionados não são usados na prática: você não mede o comprimento de uma mesa usando uma luz de sódio, mas sim com uma fita métrica ou similar. Ao medir a incerteza também não usaremos o padrão para fins práticos, mas ele servirá para definir e estabelecer as regras que a incerteza deve obedecer. Para construir um padrão, consideraremos uma urna contendo 100 bolas tão similares quanto possível, exceto que algumas são brancas e outras pretas. Uma bola será extraída da urna de tal maneira que você considere que cada uma das 100 bolas tem a mesma chance de ser extraída. Considere o evento incerto B de que a bola extraída é branca. A incerteza sobre B depende, portanto, de quantas bolas brancas há na urna. Se tivermos b bolas brancas (e portanto 100 − b bolas pretas), a probabilidade do evento B é definida como b/100 ou b%. Este é o padrão que será usado para todos os eventos incertos, para diferentes valores de b, variando de 0 até 100. Por exemplo, consideremos o evento E de que choverá amanhã, e suponha que você receberá um pequeno prêmio se o evento ocorrer, sem nenhum tipo de perda caso não chova. Agora suponha que você receberá o mesmo prêmio se uma bola branca for sorteada de uma urna nas condições que descrevemos acima. Ou seja, temos dois jogos: um relacionado ao evento E, chuva, e o outro a B, bola branca, ambos com o mesmo tipo de premiação. Se você puder optar por apenas um dos jogos, qual você prefere? Claramente, isto depende da quantidade de bolas brancas na urna. Se não hou- ver nenhuma bola branca, é melhor apostar na chuva; no outro extremo, se só houver bolas brancas, a urna é melhor. Em geral, quanto mais bolas brancas hou- ver na urna, melhor ela é, neste contexto. Daqui, podemos concluir que deve existir um número, digamos b, tal que você é indiferente entre os dois jogos: se houver b+ 1 bolas, a urna é melhor, e se houver b− 1, a ocorrência de E é melhor. Como os dois jogos são agora equivalentes em todos os aspectos, dizemos que a probabilidade do evento E é também b%. O valor de b é simplesmente o número que deixa você indiferente entre os dois jogos. Comentário O termo “aposta” não é usado aqui como usualmente, em termos de apostas em corridas ou jogos de azar, etc, mas sim como reflexo de sua opinião V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 22 CAPÍTULO 2. MODELANDO SUA INCERTEZA ou informação na ocorrência de um evento. Todos nós lidamos com eventos incer- tos, como “chove amanhã”, e devemos agir em face dessa incerteza - devo levar guarda-chuva? Neste sentido, todos nós fazemos apostas todos os dias, e este é o significado atribuído. O prêmio, neste caso, não precisa ser ganho; ele apenas é considerado. O conceito essencial é a ação em face da incerteza: como você age ao escolher entre os eventos B e E? (O total de bolas igual a 100 foi dado por simplicidade, mas qualquer total N poderia ter sido usado.) No exemplo da chuva, em algum momento (depois de amanhã) saberemos se o evento E ocorreu ou não; no entanto, para outros eventos, é possível que não tenhamos essa informação disponível. Observe também que esta definição de probabilidade, através de um padrão, não usa repetição de um experimento: a bola é extraída uma única vez (depois disso, tanto a urna quanto as bolas poderiam ser destruídas). Ela é o resultado de um exercício mental, e não de uma realização física do ato de extrair uma bolinha da urna. Em particular, a probabilidade derivada com referência a um padrão depende de você, da pessoa que está fazendo o julgamento, (a) sobre as bolas serem igualmente prováveis de serem extraídas, e (b) sobre o mérito relativo entre os dois jogos. Dizemos que a probabilidade é pessoal (subjetiva): depende da pessoa que está julgando os experimentos. Ela reflete a relação entre a pessoa e o mundo em que ela está e no qual ela pensa. Duas pessoas diferentes podem perfeitamente ter probabilidades diferentes para o mesmo evento. Esta diferença pode ser justificada considerando a diferença entre as informa- ções que cada pessoa tem a respeito do evento; ou seja, se duas pessoas tiverem a mesma informação, elas deveriam concordar sobre a probabilidade. Neste sentido, há tentativas de definir probabilidades impessoais para um evento E, isto é, pro- babilidades que deveriam ser consensuais com base na mesma informação (teoria objetivista). Um ponto importante nesta discussão é saber como a probabilidade muda com a informação. Para uma pessoa com uma informação H (de história) sobre um evento E, poderíamos denotar corretamente a probabilidade dessa pessoa para o eventoE por p(E | H). Para facilitar a notação, quando não houver necessidade, denotaremos esta probabilidade simplesmente por p. 2.3 Dê seu palpite Consideremos um evento E, uma informação H e uma probabilidade para E conhecendo H , p(E | H) ou simplesmente p. Por exemplo, se E é o evento de obter cara no lançamento de uma moeda, você poderia pensar que p = 0.5; para o evento de que a França tem um território maior V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2.3. DÊ SEU PALPITE 23 que a Espanha, você poderia atribuir p = 0.3. Em termospráticos, o que significa que esta probabilidade esteja correta? Esta pergunta faz sentido quando falamos do comprimento de uma janela. Como podemos respondê-la para um evento? Uma resposta aceitável, pelo menos para alguns eventos, pode ser construída da seguinte forma: como um evento é verdadeiro ou falso, podemos dizer que uma mensuração de sua incerteza é boa se ela atribui probabilidade grande para um evento que resulta ser verdadeiro, e atribui probabilidade pequena para um evento que resulta ser falso. Isto funciona sempre que pudermos verificar a veracidade do evento. Consideremos os seguintes exemplos, para testar o seu julgamento sobre a ve- racidade de cada afirmação. Cada evento tem uma alternativa tal que uma das duas afirmações está correta com certeza. 1. O compositor Michael Haydn foi o pai (irmão) de Joseph Haydn, o compo- sitor mais famoso. 2. Claret é o nome inglês para o vinho de Bordeaux (Burgundy). 3. Charlotte (Emily) Bronte escreveu Jane Eyre. 4. O hino nacional mais antigo é o da Grã-Bretanha (França). 5. A viola moderna tem 5 (4) cordas. 6. A ilha de Nova Bretanha fica a leste (oeste) da ilha de Papua-Nova Guiné. 7. Roma, na Itália, está mais ao sul (norte) que Washington DC, nos Estados Unidos. 8. O perigeu é o ponto mais afastado (próximo) da terra na órbita de um satélite artificial. 9. Nos anos 70, a produção mundial de trigo foi em torno de 5 (9) bilhões de tonéis. 10. A Goodyear (Firestone) foi quem criou o processo de vulcanização que tor- nou possível o uso comercial da borracha. O exercício consiste em atribuir uma probabilidade para os eventos sem pa- rênteses. Se você souber que uma afirmação é correta, então você deveria atribuir probabilidade 1; se você souber que uma afirmação é errada, a probabilidade atri- buída deveria ser 0. Para as demais, sua probabilidade deveria ser um número entre 0 e 1. Dê o seu melhor palpite. Depois de comparar sua probabilidade p com a resposta correta, você deveria se sentir bem se atribuiu valores altos para eventos corretos, e valores pequenos para eventos falsos. No extremo, você achará que cometeu um erro feio se atribuiu V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 24 CAPÍTULO 2. MODELANDO SUA INCERTEZA probabilidade 1 para um evento falso: você pensou que ele era verdadeiro, mas na verdade ele era falso. Da mesma forma, se atribuiu p = 0 para um evento verdadeiro. Menos extremo, atribuir p = 0.8 para um evento verdadeiro fará você se sentir melhor que atribuir p = 0.6. Quão melhor? 2.4 Quão bom é seu palpite? Uma forma de responder a esta pergunta é usando uma regra de escore (scoring rule). Esta é uma regra que atribui uma nota a cada valor p dependendo de se o evento é verdadeiro ou falso. Esta nota mede a qualidade da mensuração p. Veremos um caso particular, a regra de escore quadrática, definida por (1−p)2 se o evento for verdadeiro, e por p2, se for falso. Este escore pode ser visto como uma penalização, quanto menor o escore me- lhor foi seu julgamento. Observe que, na verdade, o escore quadrático é o erro quadrático da sua previsão para a veracidade do evento. Em outras palavras, trata- mos a atribuição de uma probabilidade a um evento como uma tomada de decisão com uma certa função de perda (no caso deste exemplo, perda quadrática). É usual multiplicar o escore por 100 e ignorar os decimais. Assim, considere um evento que posteriormente resulta ser verdadeiro. A atribuição do valor p = 1 significa que você estava correto em pensar que ele era verdadeiro, sem incorrer em penalização nenhuma. A atribuição do valor p = 0.9 significa que você tinha quase certeza de que o evento era verdadeiro, tem um escore pequeno (1− 0.9)2 = 0.01 ou, multiplicando por 100, igual a 1. Um valor menor, p = 0.7, tem escore 9. A opinião de que o evento tinha a mesma probabilidade de ser verdadeiro ou falso, p = 0.5, tem um escore maior, igual a 25. Pensar que o evento era falso, p = 0, tem o escore mais alto, igual a 100. A Tabela 2.4 entrega os escores quadráticos para diversos valores de p, em ambos os casos, do evento ser certo ou de ser falso. probabilidade 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0atribuída evento verdadeiro 100 81 64 49 36 25 16 9 4 1 0 evento falso 0 1 4 9 16 25 36 49 64 81 100 Tabela 2.4: Regra de escore quadrática, para diversas probabilidades atribuídas, se o evento for verdadeiro (linha 2), ou se o evento for falso (linha 3). Usando os valores da tabela, calcule seu escore para cada afirmação e some os valores. Como você se saiu? Veja que uma boa pontuação depende de dois aspectos: sua habilidade em expressar sua incerteza numericamente, e de quanta informação você tem. Uma pessoa com mais conhecimento e boa memória tem maior chance de se sair melhor que alguém com pouco conhecimento do assunto. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2.5. REGRA DE ESCORE COMO MEDIDA 25 Para ter uma ideia do que é um escore razoável, vejamos alguns casos extremos. Se todas as respostas forem conhecidas e todas estiverem corretas, o escore total obtido é 0; se todas estiverem erradas, há uma penalidade de 1000. Estes são os limites. Agora, suponha que todas as opções são indiferentes para você, ou que você acha que o exercício é ridículo; você poderia então fazer duas coisas: (a) atribuir p = 0.5 para cada afirmação, ou (b) chutar, colocando p = 1 para as que você chuta como verdadeiras, e p = 0 para as outras. O primeiro procedimento dá escore 25 para cada afirmação, com escore total igual a 250. O segundo dá escore 0 ou 100 para cada evento e, se metade estiver correta (suposição razoável ao chutar), o escore total é 500. Imediatamente podemos perceber que atribuir p = 0.5 é uma estratégia muito melhor, com metade do escore obtido, do que chutar. Assim, ao fazer o exercício, você não deveria ter um escore maior que 250, dado que você tem alguma informação sobre os eventos. Analisando os escores individuais, podemos perceber o que a regra quadrática está fazendo. Se um evento for verdadeiro, um valor de p acima de 0.5 dará um escore modesto; são os valores pequenos de p que darão a maior contribuição. Assim, p = 0.7 resulta em um escore igual a 9, mas p = 0.3 tem escore 49. A razão para não selecionar valores extremos de p, próximos de 0 ou de 1, é que eles resultam em penalidades também extremas se a verdade não estiver na direção do que você pensava. Alguém que tenha muita confiança em sua própria opinião, mas que estiver errado, terá um enorme 100 se atribuir p = 1, mas somente 81, uma redução de 19, se atribuir p = 0.9. Inversamente, se ele estiver correto, a redução no escore que ele obtém quando p vai de 0.9 para 1, é de apenas 1. Em outras palavras, vale a pena ser algo cauteloso. Por outro lado, ser cauteloso demais também não é interessante. Considere alguém que pensa que o evento é verdadeiro mas não tem certeza absoluta, atri- buindo p = 0.6. Se ele estiver correto, seu escore será 16, mas poderia ter sido reduzido quase pela metade, para 9, se ele tivesse atribuído p = 0.7. Uma pessoa informada, com pouca confiança, dará valores próximos de p = 0.5 na direção correta. Seu escore poderia ser reduzido se ela se afastasse ainda mais de 1/2. Uma pessoa confiante irá para os extremos de p, o que será bom se sua confiança for justificada, mas será um fracasso se não. 2.5 A regra de escorecomo auxílio na atribuição de uma probabilidade Levando em conta a análise anterior, tente agora as próximas perguntas. Possi- velmente seu escore melhorará nesta segunda tentativa, a menos que estas questões sejam mais difíceis para você, por exemplo. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 26 CAPÍTULO 2. MODELANDO SUA INCERTEZA 1. Johann Strauss o jovem (o velho) escreveu a valsa Danúbio Azul. 2. Hock é o nome inglês para alguns vinhos da Alsácia (Alemanha). 3. O diprotodonte foi extinto há 45 (25) mil anos. 4. A batata foi introduzida na Europa proveniente da China (América). 5. O oboé moderno tem uma palheta simples (dupla). 6. Guiana é o nome atual da Guiana Britânica (Holandesa). 7. Santiago do Chile está a oeste (leste) de Nova York, USA. 8. A temperatura média da superfície de Vênus é em torno de 450oC (250oC). 9. Em torno de 22% (15%) da população mundial é muçulmana. 10. O primeiro processo econômico para fazer aço foi criado por Bessemer (Kelly). Como exemplo de aplicação, a regra quadrática foi usada nos Estados Uni- dos no treinamento de previsores do clima. O evento considerado era “choverá amanhã” em um certo lugar, e ao previsor era pedida a sua probabilidade. Este procedimento se repetia por um mês ou mais, registrando o escore quadrático total. Quanto melhor o meteorologista, menor seu escore. Este treinamento se reflete nas previsões entregues na televisão, que frequentemente são da forma “a proba- bilidade de chuva para amanhã é de 85%”, significando p = 0.85. O treinamento poderia ser ainda melhor, levando em conta que as pessoas nem sempre enten- dem o que significa probabilidade; conta-se que um dos previsores disse que isto significava que choveria em 85% da área coberta pela emissora de TV. No Brasil, assim como em vários outros países, a ideia de probabilidade lamen- tavelmente não é usada, e a previsão do tempo é tipicamente entregue em termos vagos do tipo “há possibilidades de pancadas de chuva isoladas”, ou “amanhã cho- verá em toda a região”. O costume de fazer afirmações como “vai chover” quando na verdade a si- tuação é de incerteza apenas alimenta a ignorância das pessoas com respeito ao conceito de probabilidade. O hábito de substituir a incerteza por asserções definiti- vas reflete o profundo desconforto com a incerteza e o desejo de sentir que estamos no controle, sabendo o que irá acontecer. Este hábito é ensinado desde a escola, onde somos obrigados a escolher a alternativa correta, no lugar de, por exemplo, colocar nossa probabilidade para cada alternativa. Pergunta Considere o evento “obter face 5 ou 6” no lançamento de um dado e- quilibrado. Para as estratégias abaixo, determine o escore quadrático médio obtido em 27 lançamentos do dado, quando você faz as seguintes atribuições de probabi- lidade. (a) para cada lançamento, a sua probabilidade atribuída é p = 0.3; V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2.6. COERÊNCIA 27 (b) em 1/3 dos lançamentos, sua probabilidade é p = 1 e, no restante 2/3 dos lança- mentos, é p = 0; (c) para cada lançamento, como você não sabe o que irá ocorrer, a sua probabili- dade é p = 0.5. Defina outra estratégia, diferente das anteriores, e determine seu escore quadrático médio.1 2.6 Coerência No primeiro capítulo destas notas, apresentamos as condições (P1) e (P2) que uma probabilidade satisfaz. Na definição axiomática de uma medida de probabili- dade, estas condições são conhecidas como Axiomas de Kolmogorov, a partir dos quais se constrói todo o restante da teoria. No contexto da Teoria da Decisão, no entanto, um dos conceitos primitivos é o de coerência, com o qual as afirmações (P1) e (P2) são demonstradas como sendo condições necessárias que uma medida de incerteza deve satisfazer. De fato, na própria construção do padrão, ao comparar um evento qualquer E com um evento B relacionado com bolas em uma urna, estamos impondo implici- tamente uma condição de coerência no processo de comparação. Por exemplo, sejam E1, E2, E3, eventos, tais que E1 é mais provável que E2 e E2 mais provável que E3, então E1 deve ser mais provável que E3. (Faça a prova deste fato usando o padrão.) Esta última comparação é dita ser coerente com as outras duas. Se esta condição de coerência falhasse, poderíamos ter a seguinte situação: uma pessoa acha queE1 é mais provável queE2 e queE2 é mais provável que E3, mas que E3 é mais provável que E1. Suponha que ela recebe um prêmio se E3 ocorrer, e que não recebe nada em caso contrário. Então, pela segunda comparação, ela poderia preferir deixar a aposta em função de E2: ela pagaria uma certa quantidade de dinheiro para ter E3 trocado por E2. O mesmo argumento para a primeira comparação levaria a concluir que ela pagaria uma certa quantidade de dinheiro para ter E2 trocado por E1. Finalmente, pela terceira comparação, ela pagaria novamente para ter E1 trocado por E3. Ela está de volta à aposta inicial e com menos dinheiro do que no começo. Este ciclo poderia se repetir novamente, de modo que a pessoa incoerente vire uma máquina perpétua de fazer dinheiro. Consideremos agora um eventoE e a sua probabilidade paraE, de acordo com sua informação, p(E). Mostraremos que a propriedade (P1) é uma consequência de nossa construção, seja através de um padrão, seja pela regra de escore. Lei da convexidade Dado um evento E, 0 ≤ p(E) ≤ 1. Esta lei é imediata da construção através de um padrão, já que a proporção de bolas na urna é necessariamente um valor entre 0 e 1. No entanto, não é tão óbvia 1 Resposta para as 10 afirmações da página 23: F, V, V, V, F, V, F, F, F, V; e da página 25: V, F, V, F, F, V, F, V, V, F. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 28 CAPÍTULO 2. MODELANDO SUA INCERTEZA assim quando usamos a construção via regra de escore, e sua demonstração expõe outro aspecto de coerência. Mostraremos que é um absurdo escolher qualquer número fora do intervalo [0,1]. Suponha que, por exemplo, é atribuído p = 2. Se E for verdadeiro, o escore é (2 − 1)2 = 1, ou 100, e se E for falso, o escore é (2 − 0)2 = 4, ou 400. Se for atribuído p = 1, os respectivos escores são 0 e 100. Em ambos os casos, E verdadeiro ou E falso, o escore é reduzido, e portanto a atribuição p = 1 é melhor que p = 2. O mesmo argumento serve para qualquer atribuição do valor de p maior do que 1. Por simetria, a atribuição p = 0 é melhor do que qualquer valor menor que zero. O mesmo não ocorre para p entre 0 e 1, onde, mudar o valor de p, aumenta a penalidade em um caso e a diminui, no outro. Portanto, só faz sentido considerar 0 ≤ p ≤ 1. Analisemos o princípio apontado. Olhemos para a escolha de p como uma decisão. Seja d2 a decisão de usar p = 2, e d1, a de usar p = 1. Então o resultado de d2 quando E for verdadeiro é pior que o de d1; o mesmo acontece quando E for falso; ou seja, d2 é pior que d1 independentemente de E, e portanto d2 é pior que d1 quando E é incerto. Isto é chamado o Princípio da Coisa Certa (Sure-thing Principle): se d2 é pior que d1 quando E for verdadeiroe quando E for falso, então d2 é pior que d1 quando E é incerto. Este é um segundo exemplo de coerência entre julgamentos. Analogamente à condição (P1), mostramos que a condição (P2) e a regra do produto são consequência da condição de coerência. Lei da soma Consideremos dois eventos, E1 e E2, mutuamente exclusivos, e o evento (E1 ou E2), que ocorre se e somente se pelo menos um dos dois ocorre. Suponha que você atribui as probabilidades p(E1 | H) e p(E2 | H), a partir da mesma informação. A lei da soma diz que, neste caso, p(E1 ∪ E2 | H) = p(E1 | H) + p(E2 | H) . A prova desta afirmação usando um padrão é imediata: considere uma urna com bolas de cores, preta, azul ou branca. Seja E1 o evento “extrair uma bola preta” e E2 o evento “extrair uma bola branca”. Então a probabilidade de que pelo menos um dos dois evento ocorra é proporcional ao total de bolas pretas ou brancas. A prova usando regra de escore é um pouco mais trabalhosa, mas segue também o Princípio da Coisa Certa: suponha que a soma das probabilidades é menor que a probabilidade de (E1 ou E2) e chegue a uma contradição. O mesmo vale ao supor que a soma das probabilidades é maior. Para perceber que esta é uma condição de coerência, suponha que você atribui probabilidades p(E) = 0.2 e p(EC) = 0.7, para um dado evento E. De acordo com a primeira afirmação (p(E) = 0.2), você deveria considerar justo fazer a aposta: receber um valor a > 0 para pagar 4a se E ocorrer (e ficar com a se E não ocorrer). V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 2.6. COERÊNCIA 29 Similarmente, para p(EC) = 0.7, você aceitaria receber um valor b para pagar 3b/7, se EC ocorrer (e ficar com b se E ocorrer). Suponha que ambas as apostas são feitas por você, com a = 2 e b = 7. Então, se E ocorrer, você perde 8 da primeira, e ganha 7 da segunda, perdendo 1. Se E não ocorrer, você ganha 2 da primeira, e perde 3 da segunda, novamente perdendo 1. Esta situação incoerente, de combinar apostas que levam a perder dinheiro com certeza, é chamada Dutch book. Ela somente pode ser evitada estabelecendo pro- babilidades coerentes. As demais leis conhecidas de probabilidade: lei da probabilidade total, regra do produto, regra de Bayes, etc, são deixadas como exercício para o leitor. V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - 30 CAPÍTULO 2. MODELANDO SUA INCERTEZA V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a -R io de Ja ne ir o -R J -I M PA /U FR J -V II IB ie na ld a So ci ed ad e B ra si le ir a de M at em át ic a R io de Ja ne ir o- R J -I M PA /U FR J - Referências Bibliográficas [1] BEKMAN, O.R., COSTA NETO, P.L.O. Teoria estatística da decisão. Ed. Edgard Blücher, 2009. [2] BLACKWELL, D. Estatística básica. Editora da USP e McGraw-Hill do Bra- sil, 2a edição, 1975. [3] DE GROOT, M. Optimal statistical decisions. Wiley, 2004. [4] FREEDMAN, D., PISANI, R., PURVES, R. Statistics. Norton, 1997. [5] LINDLEY, D.V. Making decisions. Wiley, 1985. [6] PRATT, J.; RAIFFA, H.; SCHLAIFER, R. Statistical decision theory. MIT Press, 1995. 31 Incerteza Relembrando o cálculo de probabilidades Variáveis e esperança Quanto vale um previsor? Modelando sua incerteza Quantos peixes há no lago? Mensuração da incerteza Dê seu palpite Regra de escore Regra de escore como medida Coerência
Compartilhar