Buscar

minicurso-Laura-VIIIBienal

Prévia do material em texto

V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Aspectos de teoria da decisão e
probabilidade subjetiva para o
Ensino Básico
LAURA RIFO1
25 e 26 de abril de 2017
1www.ime.unicamp.br/~laurarifo
www.ime.unicamp.br/~laurarifo
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Dedicado ao professor Sergio Wechsler
que tem me guiado pelo estreito caminho
da coerência na incerteza.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
4
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Sumário
1 Incerteza 5
1.1 Relembrando o cálculo de probabilidades . . . . . . . . . . . . . 5
1.2 Variáveis e esperança . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Quanto vale um previsor? . . . . . . . . . . . . . . . . . . . . . . 11
2 Modelando sua incerteza 17
2.1 Quantos peixes há no lago? . . . . . . . . . . . . . . . . . . . . . 17
2.2 Mensuração da incerteza . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Dê seu palpite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Regra de escore . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Regra de escore como medida . . . . . . . . . . . . . . . . . . . 25
2.6 Coerência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
6 SUMÁRIO
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Prefácio
Estas notas estão dirigidas especialmente para o atual e para o futuro profes-
sor de Matemática do Ensino Básico, mas podem ser úteis para um público geral
interessado no assunto.
A abordagem adotada trata da probabilidade como modelo da informação dis-
ponível para quantificar incerteza, e, portanto, relativa ao sujeito que tem essa in-
formação, daí o nome de interpretação subjetiva, e do seu uso no auxílio de tomadas
de decisão ótimas. Ao usar o termo “ótima”, queremos indicar um procedimento
que maximiza alguma função objetivo, no caso, estamos interessados em reduzir
os custos esperados das decisões envolvidas, sejam elas previsões ou ações a serem
seguidas.
Meu interesse pelo assunto começou ao perceber que na maioria dos livros uti-
lizados no ensino há uma aparente desconexão entre o cálculo de probabilidades
clássico (modelo uniforme, binomial, etc), estatística descritiva (histogramas, mé-
dias, etc) e inferência estatística (estimação, previsão, etc), e entre estes tópicos e
a vida real do aluno.
No entanto, assim como a teoria de conjuntos é a base para a matemática, a
teoria da decisão é a base para o pensamento inferencial, compreendendo neste, a
construção de uma medida de incerteza e de métodos de inferência coerentes.
A condição de coerência é a base para a análise de tomadas de decisão: não
pretendemos afirmar se uma comparação é correta ou errada, mas sim se um con-
junto de comparações é coerente ou não. Do mesmo modo, não diremos se uma
decisão é correta, mas sim se ela é coerente.
A Teoria da Decisão trata da relação entre eventos e decisões, e esta relação é
definida de maneira precisa e não arbitrária. Esta abordagem é ao mesmo tempo
muito liberal e muito restritiva: liberal no sentido em que permite uma ampla gama
de preferências, e restritiva no sentido em que estas preferências devem obedecer
certas regras (de coerência).
O texto está fortemente baseado nos livros de Blackwell [2] e de Lindley [5],
ambos esgotados há alguns anos, mas disponíveis em sebos pela internet. Para o
leitor interessado em aprofundar seus conhecimentos na área, recomendo as refe-
rências [3, 6], e para um bom resumo do ponto de vista mais aplicado, [1].
1
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2 SUMÁRIO
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Agradecimentos
Aproveito a ocasião para agradecer aos professores Carlos Alberto de Bragança
Pereira e Sergio Wechsler, do Instituto de Matemática e Estatística da USP, pelas
referências e bch que eles me recomendaram para começar a entender probabili-
dade além da medida.
3
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
4 SUMÁRIO
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Capítulo 1
Incerteza
“ ... por que não me deixo levar pelo que for acontecendo?
Terei que correr o sagrado risco do acaso. E substituirei o destino pela
probabilidade.”– Clarice Lispector, A paixão segundo G.H.
1.1 Relembrando o cálculo de probabilidades
Começaremos o curso com algumas definições e propriedades básicas do con-
ceito de probabilidade.
Exemplo 1. Um número é selecionado sem preferência dentre 00, 01, 02, . . . ,
98, 99.
Ao usarmos a expressão “sem preferência”, queremos indicar que todos os cem
números têm a mesma chance de serem selecionados. Isto nos permite construir o
modelo probabilístico mais básico para os resultados de um experimento: o modelo
equiprovável.
Seja S um conjunto finito que contém os todos os resultados possíveis de um
experimento, e seja E um evento qualquer, E ⊂ S. Com o modelo equiprová-
vel, a probabilidade de E é proporcional à quantidade de elementos de E. Mais
precisamente, indicando por P (E) a probabilidade de E ocorrer, temos que
P (E) = números de elementos de E
números de elementos de S
. (1.1)
No exemplo, alguns eventos e suas probabilidades são:
(a) o primeiro dígito é 0 = {00, 01, 02, 03, 04, 05, 06, 07, 08, 09}: 0.1
(b) os dois dígitos são iguais = {00, 11, 22, 33, 44, 55, 66, 77, 88, 99}: 0.1
(c) os dois dígitos são diferentes: 0.9
(d) o primeiro dígito é maior que o segundo: 0.45
(e) o primeiro dígito não é menor que o segundo: 0.55
5
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
6 CAPÍTULO 1. INCERTEZA
(f) o segundo dígito é 1: 0.1
(g) a soma dos dígitos é igual a 9: 0.1
(h) nenhuma dos dígitos é maior que 3: 0.16
(i) ambos os dígitos são maiores que 3: 0.36
(j) apenas um dos dígitos é maior que 3: 0.48
(k) o primeiro dígito é maior que 3 e o segundo, não: 0.24
Observemos neste exemplo algumas condições gerais que uma probabilidade
satisfaz.
P1. A probabilidade de um evento é um número entre 0 e 1.
Se P (E) = 0, dizemos que o evento E é impossível, não pode ocorrer. No
exemplo, “o primeiro e o segundo dígitos são pares e sua soma é ímpar” é
um evento impossível.
Se P (E) = 1, dizemos que E é um evento certo, tem que ocorrer. No
exemplo, “a soma dos dígitos é não negativa” é um evento certo.
P2. Sejam E e F eventos mutuamente exclusivos, ou seja, se um deles ocorre
então o outro não pode ocorrer. Então a probabilidade de que pelo menos
um deles ocorra é igual à soma de suas probabilidades,
P (E ou F ) = P (E) + P (F ) .
No exemplo, consideremos os eventos E =“a soma dos dígitos é igual a
4”= {04, 13, 22, 31, 40} e F =“ambos os dígitos são maiores que 6”=
{77, 78, 79, 87, 88, 89, 97, 98, 99}. Então P (E ou F ) = 5/100 + 9/100 =
0.14.
Como caso particular da propriedade (P2), temos que, dado um evento E,
P (E) + P (não E) = P (E ou não E) = 1.
Comentário Veja que o primeiro exemplo se refere à chamada distribuição uni-
forme em um conjunto finito, levando à típica definição de probabilidade de um
evento como a razão (1.1). Mesmo esta não sendo uma condição razoável na maio-
ria dos exemplos práticos, a importância desta definição é que ela permite construir
modelos não equiprováveis, como veremos nos exemplos a seguir.
Exemplo 2. Considere duas urnas, cada uma contendo cinco bolas: a urna A tem
bolas numeradas de 1 a 5, e a urna B, numeradas de 6 a 10. Suponha que uma das
urnas será selecionada sem preferência, e depois será selecionada uma bola dessa
urna, também sem preferência. Você ganha um prêmio se a bola selecionada tiver
um número divisível por 3.
Com as condições dadas no experimento, todas as bolas numeradas de 1 a 10
têm a mesma chance de serem selecionadas. Sendo assim, sua probabilidade de
ganhar o prêmio é
P (prêmio) = 310 = 0.3 .
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
1.1. RELEMBRANDO O CÁLCULO DE PROBABILIDADES 7
Observe, no entanto, que se você souber que a urna selecionada é a urna A, sua pro-
babilidade de ganhar o prêmio é 1/5 = 0.2. Analogamente, se a urna selecionada
for a urna B, sua probabilidade de ganhar o prêmio é 2/5 = 0.4.
Em símbolos, indicamos esta informação adicional a respeito da urna com a
seguinte notação:
P (prêmio | urna A) = 0.2 e P (prêmio | urna B) = 0.4 .
Em geral, dados dois eventos E e F , denotamos por P (E | F ) a probabilidade
de E condicional em F , o seja, a probabilidade do evento E, sabendo ou supondo
que o evento F ocorre. Podemos calcular esta probabilidade usando a relação
P (E | F ) = P (E e F )
P (F ) . (1.2)
No exemplo, obtivemos a probabilidade de ganhar o prêmio diretamente usando
a informação sobre a urna selecionada. Denotemos por E o evento “você ganha o
prêmio” e por F , o evento “a urna B é selecionada”, de modo que o evento (E e F )
contém as bolas numeradas 6 e 9. Usando a igualdade anterior,
P (E | F ) = P (bolas 6 e 9)
P (urna B) =
2/10
1/2 =
4
10 .
Note que, da Equação (1.2), obtemos
P (E e F ) = P (F )P (E | F ) ,
conhecida como regra do produto. Como também temosP (E e F ) = P (E)P (F |
E), se usarmos a probabilidade condicional emE, a decisão sobre qual condicional
escolher depende de qual informação temos em um problema dado.
A igualdade anterior nos permite calcular a probabilidade da ocorrência de dois
ou mais eventos, usando as probabilidades condicionais. A generalização desta
regra para três eventos E,F,G é naturalmente o produto
P (E e F e G) = P (E)P (F | E)P (G | E e F ) ,
e analogamente para qualquer coleção E1, E2, . . . , En de eventos.
Exemplo 3. Na sala A, há três pessoas, e na sala B, duas pessoas. Uma das salas
é selecionada e depois uma pessoa da sala é selecionada para receber um prêmio.
Qual é a probabilidade de você receber o prêmio se você estiver na sala A? E se
você estiver na sala B?
Se você estiver na sala A, o evento “você recebe o prêmio” ocorre se e somente
se ocorrerem os dois eventos: A=“a sala A é escolhida” e E =“você é a pessoa
selecionada”. Assim, pela regra do produto,
P (A e E) = P (sala A)P (você é a pessoa selecionada | sala A)
= 12 ×
1
3 =
1
6 .
A sala B é deixada para o leitor.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
8 CAPÍTULO 1. INCERTEZA
Exemplo 4. Uma associação tem duas modalidades de sócios: R e D. Todo mês,
um dos sócios é escolhido, sem preferência, para trazer um novo sócio. Suponha
que um R sempre traz um R, e que um D sempre traz um D. Se, originalmente, a
associação tem um R e um D, qual é a probabilidade de que depois de três meses
ela tenha três sócios R?
Para resolver este problema, faremos um esquema de árvore de probabilidade,
conforme a Figura 1.1.
A árvore é construída da esquerda para a direita, de modo que cada divisão nos
nodos corresponde aos possíveis resultados do mês seguinte, começando no mês
zero. O par ordenado próximo a cada nodo indica a atualização do total de sócios
D e R, respectivamente: no mês zero, temos o par (1, 1) indicando um sócio de
cada modalidade.
As frações em cada galho mostram a probabilidade condicional do nodo se-
guinte, supondo que os resultados anteriores são os que aparecem à esquerda do
mesmo galho. Finalmente, na coluna da direita, aparece a probabilidade de cada
galho (ou seja, de cada sequência possível na escolha dos sócios), obtida pela regra
do produto.
Usandoesta notação, queremos calcular a probabilidade de que a configuração
ao fim de três meses seja o par (2, 3), correspondente a dois sócios D e três R.
Como esta configuração ocorre para as sequências DRR, RDR e RRD, dos galhos
4, 6 e 7, a probabilidade requerida é igual a 1/12 + 1/12 + 1/12 = 1/4, pela
propriedade P2.
E, se você souber que o primeiro novo sócio éD, qual é a probabilidade de que
depois de três meses ela tenha três sócios R?
Neste caso, temos a informação de que ocorre apenas um dos quatro galhos
saindo do nodo (2, 1), do primeiro mês. Estes galhos têm probabilidades condi-
cionais nesta informação iguais a 1/2, 1/6, 1/6, 1/6, respectivamente, lendo de
cima para baixo na árvore de probabilidades. Assim, a probabilidade condicional
requerida é igual a 1/6.
1.2 Variáveis e esperança
Considere um experimento e seja S o conjunto de todos os resultados possíveis.
Qualquer regra que faz corresponder um número a cada resultado de um ex-
perimento é chamada variável. O número associado a cada resultado é chamado
o valor da variável. Uma lista com os valores possíveis de uma variável e suas
respectivas probabilidades é chamada distribuição da variável.
Exemplo 1’. No Exemplo 1, seja X a variável “total de dígitos maiores que 3”.
Como cada resultado é um número de dois dígitos, os possíveis valores deX são 0,
1, 2. A distribuição de X , de acordo com os itens (h,i,j), é a que aparece na Tabela
1.1(a).
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
1.2. VARIÁVEIS E ESPERANÇA 9
D
R
R
R
R
D
D
R
D
D
R
R
D
D
R
D
(1, 1)
1/2
(1, 2) 2/3
(1, 3)
3/4
1/4
1/3
(2, 2)
1/2
1/2
1/2
(2, 1) 1/3
(2, 2)
1/2
1/2
2/3
(3, 1)
3/4
1/4
(1, 4)
(2, 3)
(3, 2)
(2, 3)
(2, 3)
(3, 2)
(4, 1)
(3, 2)
probabilidade
1
2 ×
2
3 ×
3
4 =
3
12
1
2 ×
2
3 ×
1
4 =
1
12
1
12
1
12
1
12
1
12
1
12
3
12
Figura 1.1: Árvore de probabilidades referente ao Exemplo 4. O par ordenado em
cada nodo indica o total de sócios (D,R) no mês correspondente. Em cada galho,
indicamos as probabilidades condicionais do nodo seguinte, e, na última coluna,
mostramos a probabilidade de cada sequência nos três meses.
Exemplo 4’. No Exemplo 4, seja T o total de sócios R no terceiro mês. Se
não for sorteado nenhum R, então T é igual a 1, correspondente ao caso (4, 1) na
árvore da Figura 1.1, com probabilidade igual a 3/12 = 1/4; no outro extremo,
se os três sorteios forem R, então T é igual a 4, correspondente ao caso (1, 4),
com probabilidade 1/4. Os outros dois casos correspondem às configurações finais
(3, 2) e (2, 3), cada um com probabilidade também 1/4. Esta distribuição é a que
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
10 CAPÍTULO 1. INCERTEZA
Tabela 1.1: (a) Distribuição de X no Exemplo 1’; (b) Distribuição de T no Exem-
plo 4’.
X
v p
0 0.16
1 0.48
2 0.36
T
v p
1 1/4
2 1/4
3 1/4
4 1/4
(a) (b)
aparece na Tabela 1.1(b).
Para quaisquer duas variáveis, X e Y , denotamos por X + Y a variável que
associa a cada resultado do experimento, a soma dos valores de X e Y associados
a esse experimento. Podemos definir outras operações analogamente: X−Y ,XY ,
X2, 3X + 2Y − 7, (X − 2)2, log Y , etc.
Exemplo 5. Suponha que será escolhida, sem preferência, uma das palavras da
frase A ANA FOI DANÇAR. Seja V o total de vogais da palavra escolhida e C,
o total de consoantes. Determinaremos as distribuições de C, V , C + V , V 2 e
(C−1)2, usando a Tabela 1.2, que mostra os valores de cada uma destas variáveis.
Tabela 1.2: Valores das variáveis do Exemplo 5.
resultado probabilidade C V C + V V 2 (C − 1)2
A 1/4 0 1 1 1 1
ANA 1/4 1 2 3 4 0
FOI 1/4 1 2 3 4 0
DANÇAR 1/4 4 2 6 4 9
Daqui, a distribuição de V , por exemplo, é
v p
1 1/4
2 3/4
. As demais são obtidas
analogamente.
Para uma variável qualquer, X , a sua média ou valor esperado é o número,
denotado por E(X), obtido de uma das seguintes maneiras:
1. somando os valores que X associa a cada resultado e ponderados pelas pro-
babilidades de cada resultado, P (e),
E(X) =
∑
e
X(e)P (e)
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
1.3. QUANTO VALE UM PREVISOR? 11
ou
2. somando os valores de X , v, ponderados pela probabilidade de cada valor,
E(X) =
∑
v
vP (X = v) .
Assim, no Exemplo 5, a média de V , calculada pela primeira maneira usando
a Tabela 1.2, é
E(V ) = 1× 14 + 2×
1
4 + 2×
1
4 + 2×
1
4 = 7×
1
4 = 1.75 ,
e, pela segunda maneira, usando diretamente a tabela da distribuição de V , é
E(V ) = 1× 14 + 2×
3
4 = 1.75 .
Este exemplo deixa claro que as duas maneiras são equivalentes, pois dado um
valor v de X ,∑
e:X(e)=v
X(e)P (e) =
∑
e:X(e)=v
vP (e) = v
∑
e:X(e)=v
P (e) = v P (X = v) .
Daqui, somando em v, obtemos a igualdade entre as duas maneiras.
Da definição acima, obtemos imediatamente as seguintes propriedades da es-
perança de uma variável. Para X e Y , variáveis, e c, um número real constante,
temos que:
E1. E(X + Y ) = E(X) + E(Y );
E2. E(cX) = cE(X);
E3. E(c) = c.
Pergunta Por que sempre calculamos a média de uma variável?
1.3 Quanto vale um previsor?
Exemplo 5’. Suponha que você deve prever o total de consoantes antes da palavra
ser selecionada. Qual é o seu melhor palpite?
A distribuição do total de consoantes, C, é
v p
0 1/4
1 2/4
4 1/4
.
Como 1 é o valor mais provável, este poderia ser um bom palpite para a previ-
são.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
12 CAPÍTULO 1. INCERTEZA
Tabela 1.3: Distribuição do custo da previsão no Exemplo 5’, para diversos palpi-
tes.
resultado probabilidade C (C − 1)2 (C − 0)2 (C − 4)2 (C − a)2
A 1/4 0 1 0 16 (0− a)2
ANA 1/4 1 0 1 9 (1− a)2
FOI 1/4 1 0 1 9 (1− a)2
DANÇAR 1/4 4 9 16 0 (4− a)2
média 1.5 2.5 4.5 8.5
Suponhamos que há um custo se o palpite estiver errado e que este custo é
igual ao quadrado do erro. Neste caso, se o seu palpite for 1, podemos obter a
distribuição deste custo na Tabela 1.3. Analogamente, para os palpites 0, 4, ou a
qualquer.
Se a previsão para uma variável X for a, um valor real qualquer, o custo de-
finido pelo quadrado do erro é chamado perda quadrática da previsão e sua mé-
dia, o erro quadrático médio de a como previsor de X , que será denotado por
EQM(a;X),
EQM(a;X) = E
[
(X − a)2
]
.
Uma pergunta importante é: qual é a previsão com menor EQM?
Voltando ao Exemplo 5, na Tabela 1.3, vemos que o EQM de 1 como previsor
de C é igual a 2.5, o de 0, é 4.5, e o de 4, é 8.5. Agora, seja a um valor real
qualquer. O EQM de a como previsor de C é
EQM(a;C) =
[
a2 + (1− a)2 + (1− a)2 + (4− a)2
] 1
4
=
(
a− 32
)2
+ 94 ,
cujo ponto de mínimo é a = 3/2. Ou seja, a decisão com menor EQM é a = 1.5,
e seu EQM é igual a 9/4 = 2.25 (menor, é claro, que a da previsão a = 1).Em geral, dada uma variável X , a previsão a de X tem EQM dado por
EQM(a;X) = E
[
(X − a)2
]
= E
[
X2 − 2aX + a2
]
= E(X2)− 2aE(X) + a2
= [a− E(X)]2 + E(X2)− [E(X)]2 ,
cujo valor mínimo é alcançado quando a = E(X). Neste caso, o EQM de E(X)
como previsor de X é igual a
EQM(E(X);X) = E(X2)− [E(X)]2 ,
também conhecido como a variância de X , e denotado por σ2(X).
Observação: a raiz quadrada da variância é conhecida como o desvio-padrão
de X ,
√
σ2(X) =: σ(X).
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
1.3. QUANTO VALE UM PREVISOR? 13
Exemplo 6. Na sala A, há três mulheres cujas alturas são 158cm, 165cm e
165cm. Na sala B, há dois homens, de alturas 179cm e 189cm. Uma das duas
salas é selecionada, sem preferência, e, desta, uma pessoa é selecionada. Suponha
que você deve prever a altura da pessoa selecionada, de modo que sua perda por
uma previsão errada é igual ao quadrado do erro cometido. Qual é a sua melhor
previsão, qual é a distribuição de seu erro quadrático e qual é o seu EQM?
Tabela 1.4: Distribuição do erro quadrático da previsão no Exemplo 6.
Y probabilidade (Y − 172)2 Y 2
158 1/6 (158− 172)2 24964
165 1/6 (165− 172)2 27225
165 1/6 (165− 172)2 27225
179 1/4 (179− 172)2 32041
189 1/4 (189− 172)2 35721
média 172 592.33 30176.33
Denotemos por Y a altura da pessoa selecionada. Do anterior, sabemos que, se
supusermos que o custo é dado pelo erro quadrático, a melhor previsão é a média
da variável:
E(Y ) = (150 + 165 + 165)× 12
1
3 + (179 + 189)×
1
2
1
2 = 80 + 92 = 172 ,
cujo erro quadrático médio é
σ2(Y ) = E
[
(Y − 172)2
]
= E(Y 2)− 1722 = 592.33 .
Suponha que, antes de você fazer sua previsão, você pode receber a informação
sobre qual sala foi selecionada. Qual é a sua melhor previsão se foi a sala A e qual
é o seu EQM?
Neste caso, a melhor previsão é a altura média na sala A,
E(Y | sala A) = (158 + 165 + 165)× 13 = 162.67 ,
cujo EQM é
σ2(Y | sala A) = E(Y 2 | sala A)− 162.672 = 10.88 .
Do mesmo modo, se você souber que a sala selecionada foi a sala B, a melhor
previsão, considerando erro quadrático, é
E(Y | sala B) = (179 + 189)× 12 = 184 ,
cujo EQM é
σ2(Y | sala B) = E(Y 2 | sala B)− 1842 = 25 .
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
14 CAPÍTULO 1. INCERTEZA
Suponha que esse EQM represente um custo em reais pelo seu erro de previsão.
Assim, se você não tiver nenhuma informação sobre a sala selecionada, sua melhor
previsão tem um custo médio de quase 600 reais. Mas, se você tiver informação
sobre a sala selecionada, o custo médio de sua melhor previsão para cada caso pode
ser 11 reais, se for a sala A, ou 25 reais, se for a sala B.
Se alguém oferecer vender a informação sobre a sala selecionada, quanto você
está disposto a pagar? Você pagaria 2 reais? 100 reais? 1000 reais?
Tabela 1.5: Distribuição do erro quadrático de U como previsor de Y , no Exemplo
6.
X Y probabilidade U (Y − U)2
1 158 1/6 162.67 (158− 162.67)2
1 165 1/6 162.67 (165− 162.67)2
1 165 1/6 162.67 (165− 162.67)2
2 179 1/4 184 (179− 184)2
2 189 1/4 184 (189− 184)2
média 17.9
Veja que, considerando a informação sobre a sala, definimos um novo previsor,
não constante, que é função da sala. Mais precisamente, definamos por X a variá-
vel que indica a sala escolhida: X = 1, se for a sala A, e X = 2, se for a sala B. O
novo previsor é uma variável U que depende de X da seguinte maneira:
U =
{
E(Y | X = 1) = 162.67, se X = 1
E(Y | X = 2) = 184, se X = 2 ,
com EQM dado por
EQM(U ;Y ) = σ2(Y | X = 1)× P (X = 1) + σ2(Y | X = 2)× P (X = 2)
= 10.88× 12 + 25×
1
2 = 17.9 .
A melhora na previsão de Y , ao usar o previsor (não constante) U , pode ser
quantificada pelo chamado valor de U como previsor de Y , W (U ;Y ), definido
por
W (U ;Y ) = σ
2(Y )− EQM(U ;Y )
σ2(Y ) ,
que, no exemplo, vale
W (U ;Y ) ≈ 600− 20600 ≈ 0.97 = 97% .
Em outras palavras, ter a informação sobre a sala para prever Y traz uma economia
de aproximadamente 97% no custo da previsão. Isto representa o valor máximo
que você deveria pagar para ter a informação exata sobre a sala que será escolhida.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
1.3. QUANTO VALE UM PREVISOR? 15
Comentário. Observe que, com esta definição, a variável de maior valor para
prever Y é a própria variável Y , que tem EQM igual a 0, e valor igual a 1. Ou seja,
se você for prever Y , você pagaria até 100% do valor de sua perda esperada para ter
a informação do valor de Y antes de fazer a previsão. Se U for a previsão constante
igual a E(Y ), seu valor é igual a 0; e se U for qualquer constante diferente de
E(Y ), seu valor é negativo. Ou seja, neste caso, a média de Y é sua melhor
previsão.
Exemplo 5”. Esta última observação fica mais clara no Exemplo 5, onde o valor
da previsão constante U = 1 é
W (U ;Y ) = 2.25− 2.52.25 = −0.11 < 0 .
Mas poderíamos pensar em um previsor não constante e verificar se seu valor é
Tabela 1.6: Distribuição do erro quadrático de Z = E(C | V ) como previsor de
C, no Exemplo 5.
V C probabilidade Z (C − Z)2
1 0 1/4 0 (0− 0)2
2 1 1/4 2 (1− 2)2
2 1 1/4 2 (1− 2)2
2 4 1/4 2 (4− 2)2
média 1.5
positivo. Por exemplo, considere a variável V , o total de vogais da palavra selecio-
nada, e o previsor Z para C igual à variável E(C | V ).
De acordo com a Tabela 1.6, temos que EQM(Z;C) = 1.5 e, portanto, o
valor de Z como previsor de C é
W (Z;C) = 2.25− 1.52.25 = 1/3 ,
que indica uma economia de em torno de 33.3%.
Comentário. Em geral, dadas duas variáveis, X e Y , o previsor U = E[Y | X]
é a melhor função de X para prever Y . Uma pergunta natural que surge é: se
estivermos interessados em algum tipo específico de função de X , qual delas é a
melhor como previsor para Y ? Por exemplo, qual é a função linear em X , aX + b,
com menor EQM como previsor de Y ? Ou, em geral, qual é a função linear em
X1, X2, . . . , Xn, a1X1 +a2X2 + · · ·+anXn +b, com menor EQM como previsor
de Y ?
A resposta a estas perguntas foge do escopo deste curso, mas o leitor interes-
sado pode estudar o assunto em [2, 4], por exemplo.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
16 CAPÍTULO 1. INCERTEZA
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Capítulo 2
Modelando sua incerteza
“ - Me diga uma última coisa - disse Harry - Isto é real? Ou esteve
acontecendo apenas em minha mente?
(...)
- Claro que está acontecendo em sua mente,Harry. Mas por que isto
significaria que não é real? ”
– JK Rowling, As relíquias da morte.
2.1 Quantos peixes há no lago?
Suponha que o total, T , de peixes em um lago é desconhecido, e, por sim-
plicidade, suponha que este total é pequeno, podendo ser um dos valores 1, 2 ou
3.
Você participará de um jogo em que deve decidir se o total de peixes é ou não
igual a 3, recebendo um prêmio se tomar a decisão correta.
Queremos responder às perguntas: Qual é o melhor procedimento de decisão e
qual é a sua chance de ganhar o prêmio com este procedimento?
Suponha, adicionalmente, que você tem alguma informação prévia sobre o
lago, que lhe permite atribuir uma distribuição para T . Por exemplo, com esta
informação, você poderia concluir que é mais provável que o lago tenha três pei-
xes, do que um ou dois, atribuindo probabilidades 0.2, 0.2 e 0.6, para T igual a
1, 2 e 3, respectivamente. Esta distribuição formada somente pela sua experiên-
cia ou informação disponível é chamada sua distribuição a priori sobre T , e será
denotada por π.
De acordo com as suas probabilidades, sua melhor decisão é afirmar que há
três peixes no lago, T = 3, pois este evento é mais provável de ocorrer do que o
evento T 6= 3, com probabilidade de você ganhar o prêmio igual a 0.6.
Agora suponha que as regras do jogo permitem que você realize um experi-
mento auxiliar para tomar sua decisão: pegar um dos peixes do lago, marcá-lo e
17
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
18 CAPÍTULO 2. MODELANDO SUA INCERTEZA
devolvê-lo ao lago. Depois de um tempo, pegar novamente um peixe do lago e
verificar se este peixe está ou não marcado.
SejaX a variável que representa o resultado do experimento, sendo queX = 0
indica que o segundo peixe não está marcado, e X = 1 indica que o segundo peixe
está marcado.
Veja que o valor de T é desconhecido no problema e o valor de X será conhe-
cido depois de realizado o experimento. Em outras palavras, nossa incerteza sobre
X acaba com a realização do experimento, enquanto que a de T provavelmente
continuará existindo.
Nosso objetivo com o experimento é reduzir o grau de incerteza sobre T , ou
sobre a veracidade do evento T = 3.
Na linguagem estatística usual, T é chamado o parâmetro sobre o qual quere-
mos fazer alguma afirmação probabilística (no caso, queremos a probabilidade de
que T seja igual a 3) e X é chamada a observação ou conjunto de dados.
A relação entre estas duas variáveis é que cada valor possível i de T permite
construir um modelo probabilístico para o experimento, dado pela distribuição
condicional P (X | T = i). Para o exemplo, a distribuição condicional de X dado
T , para cada valor de T , é a mostrada na Tabela 2.1. Em cada linha, temos
P (X = 0 | T = i) e P (X = 1 | T = i) ,
para i = 1, 2, 3. Na primeira coluna, a tabela mostra sua distribuição a priori para
T .
Tabela 2.1: Na coluna da esquerda, a distribuição a priori, π, do total T de peixes
no lago. Na terceira e quarta colunas, distribuição da variável X , para cada um dos
possíveis valores i de T , P (X = j | T = i), para j = 0, 1.
π T
(X | T )
X = 0 X = 1 soma
0.2 1 0 1 1
0.2 2 1/2 1/2 1
0.6 3 2/3 1/3 1
soma 1
Temos, assim, duas distribuições: a distribuição a priori de T , P (T = i) para
i = 1, 2, 3, e as distribuições condicionais paraX dado T , P (X = j | T = i), para
j = 0, 1. Com estas distribuições, pela regra do produto, obtemos a distribuição
conjunta de T e X , ou seja, obtemos a probabilidade de todos os eventos da forma
(T = i,X = j), para i = 1, 2, 3 e j = 0, 1, conforme mostrado na Tabela 2.2,
P (T = i,X = j) = P (T = i)P (X = j | T = i) .
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2.1. QUANTOS PEIXES HÁ NO LAGO? 19
A última linha mostra a distribuição marginal de X . Esta distribuição marginal de
X entrega a probabilidade, não condicional em T , de cada um dos resultados de
X antes de realizar o experimento. Do mesmo modo, a última coluna apresenta a
distribuição marginal de T , não condicional emX , que é exatamente a distribuição
a priori de T (a distribuição de T antes de pensar em realizar o experimento).
Tabela 2.2: Na terceira e quarta colunas, distribuição conjunta das variáveis T e
X , para cada um dos possíveis valores i de T , e j de X , P (T = i,X = j).
π T
(T,X)
X = 0 X = 1 soma
0.2 1 0 0.2 0.2
0.2 2 0.1 0.1 0.2
0.6 3 0.4 0.2 0.6
soma 0.5 0.5 1
Suponha que você realiza o experimento e obtém X = 1, o segundo peixe está
marcado. Isto entrega uma informação nova sobre o total de peixes no lago, que
se reflete na distribuição de T , agora condicional na informação sobre X . Esta
distribuição condicional é chamada distribuição a posteriori de T , pois é obtida
posteriormente à realização do experimento.
Tabela 2.3: Na última coluna, a distribuição a posteriori da variável T , para cada
um dos possíveis valores i de T e j de X , P (T = i | X = j).
π T
(T | X)
X = 0 X = 1
0.2 1 0 0.4
0.2 2 0.2 0.2
0.6 3 0.8 0.4
soma 1 1 1
A Tabela 2.3 entrega esta distribuição, obtida por
P (T = i | X = j) = P (T = i e X = j)
P (X = j) ,
para cada i = 1, 2, 3, e cada um dos possíveis resultados j do experimento. Assim,
obtemos que: na terceira coluna, se X = 0, as probabilidades para T = 1, 2, 3 são,
respectivamente, 0, 0.2, 0.8; e, na quarta coluna, se X = 1, elas são, respectiva-
mente, 0.4, 0.2, 0.4.
Este resultado quer dizer, por exemplo, que, se o segundo peixe estiver mar-
cado, a probabilidade de que haja um único peixe no lago dobra (passa de 0.2 para
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
20 CAPÍTULO 2. MODELANDO SUA INCERTEZA
0.4), mas, se o segundo peixe não estiver marcado, esta probabilidade passa a ser
igual a zero.
Voltemos ao problema de decidir afirmar que T = 3 ou não. Para isso, anali-
saremos a melhor decisão para cada valor possível do experimento.
Se X = 0, a probabilidade a posteriori de T = 3, P (T = 3 | X = 0), é igual
a 0.8, e, portanto, a melhor decisão é afirmar que T = 3, com probabilidade igual
a 0.8 de ganhar o prêmio.
Se X = 1, a probabilidade a posteriori de T = 3, P (T = 3 | X = 1), é igual
a 0.4 < 0.5, e, portanto, a melhor decisão é afirmar que T 6= 3, com probabilidade
igual a 0.2 + 0.4 = 0.6 de ganhar o prêmio.
Como cada resultado é igualmente provável, P (X = 0) = P (X = 1) = 0.5,
então a probabilidade de tomar a decisão correta e ganhar o prêmio é
P (prêmio) = P (prêmio e X = 0) + P (prêmio e X = 0)
= P (X = 0)P (prêmio | X = 0) + P (X = 1)P (prêmio | X = 1)
= P (X = 0)P (T = 3 | X = 0) + P (X = 1)P (T 6= 3 | X = 1)
= 12 0.8 +
1
2 0.6 = 0.7 .
Ou seja, usando a informação do experimento, a probabilidade prevista de ganhar
o prêmio é 0.7, maior que a obtida somente com a informação a priori, cuja proba-
bilidade era 0.6.
Outra forma de obter esta probabilidade, de você tomar a decisão correta, é
através das probabilidades conjuntas da Tabela 2.2. Os pares (T,X) indicados
pelo seu critério de decisão são (0, 3), (1, 1) e (1, 2), cuja probabilidade total é
0.4 + 0.2 + 0.1 = 0.7.
Em resumo, seu critériode decisão e suas probabilidades de ganhar o prêmio
são:
Se o peixe estiver marcado, decida T 6= 3 - probabilidade de ganhar: 0.6.
Se o peixe não estiver marcado, decida T = 3 - probabilidade de ganhar: 0.8.
Probabilidade de ganhar o prêmio com esta estratégia: 0.7.
Pergunta Na Tabela 2.2, qual é a distribuição marginal de X se a distribuição a
priori de T fosse (0.5, 0.2, 0.3) no lugar de (0.2, 0.2, 0.6)? Interprete o resultado.
Pergunta Usando o que vimos na primeira aula, qual é sua melhor estimativa
para T e seu EQM, antes de realizar o experimento? E para cada resultado do
experimento? Qual é o EQM total, ao usar o experimento para prever T ? Qual é o
valor do experimento?
Comentário. Neste exemplo, para resolver um problema de decisão, utilizamos
o que chamamos de distribuição a priori da variável de interesse (ou parâmetro).
Esta distribuição quantifica o grau de incerteza do decisor a respeito da variável
considerada, de acordo com a sua informação. Na próxima seção, veremos como
esta quantificação pode ser feita.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2.2. MENSURAÇÃO DA INCERTEZA 21
2.2 Mensuração da incerteza
Em português, temos diversas palavras para qualificar a incerteza de um evento:
verossímil, provável, crível, plausível, possível, tem pouca chance, tem muita
chance, etc. Nosso objetivo é descrever a incerteza de um evento da forma mais
simples que conhecemos para ordenar coisas: com números. Faremos isto de modo
que quanto maior o número atribuído, mais provável é que o evento ocorra.
Do mesmo modo que para a realização de mensurações físicas, a obtenção pode
ser complicada na prática, mas a ideia é simples: qualquer mensuração é feita
com relação a um padrão. O comprimento é descrito em termos do comprimento
de onda da luz amarela de sódio; o tempo, em termos da oscilação de um cristal.
Observe que os padrões mencionados não são usados na prática: você não
mede o comprimento de uma mesa usando uma luz de sódio, mas sim com uma
fita métrica ou similar. Ao medir a incerteza também não usaremos o padrão para
fins práticos, mas ele servirá para definir e estabelecer as regras que a incerteza
deve obedecer.
Para construir um padrão, consideraremos uma urna contendo 100 bolas tão
similares quanto possível, exceto que algumas são brancas e outras pretas. Uma
bola será extraída da urna de tal maneira que você considere que cada uma das 100
bolas tem a mesma chance de ser extraída. Considere o evento incerto B de que
a bola extraída é branca. A incerteza sobre B depende, portanto, de quantas bolas
brancas há na urna.
Se tivermos b bolas brancas (e portanto 100 − b bolas pretas), a probabilidade
do evento B é definida como b/100 ou b%. Este é o padrão que será usado para
todos os eventos incertos, para diferentes valores de b, variando de 0 até 100.
Por exemplo, consideremos o evento E de que choverá amanhã, e suponha que
você receberá um pequeno prêmio se o evento ocorrer, sem nenhum tipo de perda
caso não chova. Agora suponha que você receberá o mesmo prêmio se uma bola
branca for sorteada de uma urna nas condições que descrevemos acima.
Ou seja, temos dois jogos: um relacionado ao evento E, chuva, e o outro a B,
bola branca, ambos com o mesmo tipo de premiação.
Se você puder optar por apenas um dos jogos, qual você prefere?
Claramente, isto depende da quantidade de bolas brancas na urna. Se não hou-
ver nenhuma bola branca, é melhor apostar na chuva; no outro extremo, se só
houver bolas brancas, a urna é melhor. Em geral, quanto mais bolas brancas hou-
ver na urna, melhor ela é, neste contexto. Daqui, podemos concluir que deve existir
um número, digamos b, tal que você é indiferente entre os dois jogos: se houver
b+ 1 bolas, a urna é melhor, e se houver b− 1, a ocorrência de E é melhor.
Como os dois jogos são agora equivalentes em todos os aspectos, dizemos que
a probabilidade do evento E é também b%. O valor de b é simplesmente o número
que deixa você indiferente entre os dois jogos.
Comentário O termo “aposta” não é usado aqui como usualmente, em termos
de apostas em corridas ou jogos de azar, etc, mas sim como reflexo de sua opinião
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
22 CAPÍTULO 2. MODELANDO SUA INCERTEZA
ou informação na ocorrência de um evento. Todos nós lidamos com eventos incer-
tos, como “chove amanhã”, e devemos agir em face dessa incerteza - devo levar
guarda-chuva? Neste sentido, todos nós fazemos apostas todos os dias, e este é o
significado atribuído.
O prêmio, neste caso, não precisa ser ganho; ele apenas é considerado. O
conceito essencial é a ação em face da incerteza: como você age ao escolher entre
os eventos B e E? (O total de bolas igual a 100 foi dado por simplicidade, mas
qualquer total N poderia ter sido usado.)
No exemplo da chuva, em algum momento (depois de amanhã) saberemos se
o evento E ocorreu ou não; no entanto, para outros eventos, é possível que não
tenhamos essa informação disponível.
Observe também que esta definição de probabilidade, através de um padrão,
não usa repetição de um experimento: a bola é extraída uma única vez (depois
disso, tanto a urna quanto as bolas poderiam ser destruídas). Ela é o resultado de
um exercício mental, e não de uma realização física do ato de extrair uma bolinha
da urna.
Em particular, a probabilidade derivada com referência a um padrão depende
de você, da pessoa que está fazendo o julgamento,
(a) sobre as bolas serem igualmente prováveis de serem extraídas, e
(b) sobre o mérito relativo entre os dois jogos.
Dizemos que a probabilidade é pessoal (subjetiva): depende da pessoa que está
julgando os experimentos. Ela reflete a relação entre a pessoa e o mundo em que
ela está e no qual ela pensa. Duas pessoas diferentes podem perfeitamente ter
probabilidades diferentes para o mesmo evento.
Esta diferença pode ser justificada considerando a diferença entre as informa-
ções que cada pessoa tem a respeito do evento; ou seja, se duas pessoas tiverem a
mesma informação, elas deveriam concordar sobre a probabilidade. Neste sentido,
há tentativas de definir probabilidades impessoais para um evento E, isto é, pro-
babilidades que deveriam ser consensuais com base na mesma informação (teoria
objetivista).
Um ponto importante nesta discussão é saber como a probabilidade muda com
a informação.
Para uma pessoa com uma informação H (de história) sobre um evento E,
poderíamos denotar corretamente a probabilidade dessa pessoa para o eventoE por
p(E | H). Para facilitar a notação, quando não houver necessidade, denotaremos
esta probabilidade simplesmente por p.
2.3 Dê seu palpite
Consideremos um evento E, uma informação H e uma probabilidade para E
conhecendo H , p(E | H) ou simplesmente p.
Por exemplo, se E é o evento de obter cara no lançamento de uma moeda, você
poderia pensar que p = 0.5; para o evento de que a França tem um território maior
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2.3. DÊ SEU PALPITE 23
que a Espanha, você poderia atribuir p = 0.3.
Em termospráticos, o que significa que esta probabilidade esteja correta?
Esta pergunta faz sentido quando falamos do comprimento de uma janela.
Como podemos respondê-la para um evento?
Uma resposta aceitável, pelo menos para alguns eventos, pode ser construída
da seguinte forma: como um evento é verdadeiro ou falso, podemos dizer que uma
mensuração de sua incerteza é boa se ela atribui probabilidade grande para um
evento que resulta ser verdadeiro, e atribui probabilidade pequena para um evento
que resulta ser falso. Isto funciona sempre que pudermos verificar a veracidade do
evento.
Consideremos os seguintes exemplos, para testar o seu julgamento sobre a ve-
racidade de cada afirmação. Cada evento tem uma alternativa tal que uma das duas
afirmações está correta com certeza.
1. O compositor Michael Haydn foi o pai (irmão) de Joseph Haydn, o compo-
sitor mais famoso.
2. Claret é o nome inglês para o vinho de Bordeaux (Burgundy).
3. Charlotte (Emily) Bronte escreveu Jane Eyre.
4. O hino nacional mais antigo é o da Grã-Bretanha (França).
5. A viola moderna tem 5 (4) cordas.
6. A ilha de Nova Bretanha fica a leste (oeste) da ilha de Papua-Nova Guiné.
7. Roma, na Itália, está mais ao sul (norte) que Washington DC, nos Estados
Unidos.
8. O perigeu é o ponto mais afastado (próximo) da terra na órbita de um satélite
artificial.
9. Nos anos 70, a produção mundial de trigo foi em torno de 5 (9) bilhões de
tonéis.
10. A Goodyear (Firestone) foi quem criou o processo de vulcanização que tor-
nou possível o uso comercial da borracha.
O exercício consiste em atribuir uma probabilidade para os eventos sem pa-
rênteses. Se você souber que uma afirmação é correta, então você deveria atribuir
probabilidade 1; se você souber que uma afirmação é errada, a probabilidade atri-
buída deveria ser 0. Para as demais, sua probabilidade deveria ser um número entre
0 e 1. Dê o seu melhor palpite.
Depois de comparar sua probabilidade p com a resposta correta, você deveria
se sentir bem se atribuiu valores altos para eventos corretos, e valores pequenos
para eventos falsos. No extremo, você achará que cometeu um erro feio se atribuiu
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
24 CAPÍTULO 2. MODELANDO SUA INCERTEZA
probabilidade 1 para um evento falso: você pensou que ele era verdadeiro, mas
na verdade ele era falso. Da mesma forma, se atribuiu p = 0 para um evento
verdadeiro.
Menos extremo, atribuir p = 0.8 para um evento verdadeiro fará você se sentir
melhor que atribuir p = 0.6. Quão melhor?
2.4 Quão bom é seu palpite?
Uma forma de responder a esta pergunta é usando uma regra de escore (scoring
rule). Esta é uma regra que atribui uma nota a cada valor p dependendo de se o
evento é verdadeiro ou falso. Esta nota mede a qualidade da mensuração p.
Veremos um caso particular, a regra de escore quadrática, definida por (1−p)2
se o evento for verdadeiro, e por p2, se for falso.
Este escore pode ser visto como uma penalização, quanto menor o escore me-
lhor foi seu julgamento. Observe que, na verdade, o escore quadrático é o erro
quadrático da sua previsão para a veracidade do evento. Em outras palavras, trata-
mos a atribuição de uma probabilidade a um evento como uma tomada de decisão
com uma certa função de perda (no caso deste exemplo, perda quadrática).
É usual multiplicar o escore por 100 e ignorar os decimais. Assim, considere
um evento que posteriormente resulta ser verdadeiro. A atribuição do valor p = 1
significa que você estava correto em pensar que ele era verdadeiro, sem incorrer em
penalização nenhuma. A atribuição do valor p = 0.9 significa que você tinha quase
certeza de que o evento era verdadeiro, tem um escore pequeno (1− 0.9)2 = 0.01
ou, multiplicando por 100, igual a 1. Um valor menor, p = 0.7, tem escore 9. A
opinião de que o evento tinha a mesma probabilidade de ser verdadeiro ou falso,
p = 0.5, tem um escore maior, igual a 25. Pensar que o evento era falso, p = 0,
tem o escore mais alto, igual a 100.
A Tabela 2.4 entrega os escores quadráticos para diversos valores de p, em
ambos os casos, do evento ser certo ou de ser falso.
probabilidade 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0atribuída
evento verdadeiro 100 81 64 49 36 25 16 9 4 1 0
evento falso 0 1 4 9 16 25 36 49 64 81 100
Tabela 2.4: Regra de escore quadrática, para diversas probabilidades atribuídas, se
o evento for verdadeiro (linha 2), ou se o evento for falso (linha 3).
Usando os valores da tabela, calcule seu escore para cada afirmação e some os
valores. Como você se saiu?
Veja que uma boa pontuação depende de dois aspectos: sua habilidade em
expressar sua incerteza numericamente, e de quanta informação você tem. Uma
pessoa com mais conhecimento e boa memória tem maior chance de se sair melhor
que alguém com pouco conhecimento do assunto.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2.5. REGRA DE ESCORE COMO MEDIDA 25
Para ter uma ideia do que é um escore razoável, vejamos alguns casos extremos.
Se todas as respostas forem conhecidas e todas estiverem corretas, o escore
total obtido é 0; se todas estiverem erradas, há uma penalidade de 1000. Estes são
os limites. Agora, suponha que todas as opções são indiferentes para você, ou que
você acha que o exercício é ridículo; você poderia então fazer duas coisas:
(a) atribuir p = 0.5 para cada afirmação, ou
(b) chutar, colocando p = 1 para as que você chuta como verdadeiras, e p = 0 para
as outras.
O primeiro procedimento dá escore 25 para cada afirmação, com escore total
igual a 250. O segundo dá escore 0 ou 100 para cada evento e, se metade estiver
correta (suposição razoável ao chutar), o escore total é 500.
Imediatamente podemos perceber que atribuir p = 0.5 é uma estratégia muito
melhor, com metade do escore obtido, do que chutar.
Assim, ao fazer o exercício, você não deveria ter um escore maior que 250,
dado que você tem alguma informação sobre os eventos.
Analisando os escores individuais, podemos perceber o que a regra quadrática
está fazendo.
Se um evento for verdadeiro, um valor de p acima de 0.5 dará um escore
modesto; são os valores pequenos de p que darão a maior contribuição. Assim,
p = 0.7 resulta em um escore igual a 9, mas p = 0.3 tem escore 49.
A razão para não selecionar valores extremos de p, próximos de 0 ou de 1, é que
eles resultam em penalidades também extremas se a verdade não estiver na direção
do que você pensava. Alguém que tenha muita confiança em sua própria opinião,
mas que estiver errado, terá um enorme 100 se atribuir p = 1, mas somente 81,
uma redução de 19, se atribuir p = 0.9. Inversamente, se ele estiver correto, a
redução no escore que ele obtém quando p vai de 0.9 para 1, é de apenas 1. Em
outras palavras, vale a pena ser algo cauteloso.
Por outro lado, ser cauteloso demais também não é interessante. Considere
alguém que pensa que o evento é verdadeiro mas não tem certeza absoluta, atri-
buindo p = 0.6. Se ele estiver correto, seu escore será 16, mas poderia ter sido
reduzido quase pela metade, para 9, se ele tivesse atribuído p = 0.7.
Uma pessoa informada, com pouca confiança, dará valores próximos de p =
0.5 na direção correta. Seu escore poderia ser reduzido se ela se afastasse ainda
mais de 1/2. Uma pessoa confiante irá para os extremos de p, o que será bom se
sua confiança for justificada, mas será um fracasso se não.
2.5 A regra de escorecomo auxílio na atribuição de uma
probabilidade
Levando em conta a análise anterior, tente agora as próximas perguntas. Possi-
velmente seu escore melhorará nesta segunda tentativa, a menos que estas questões
sejam mais difíceis para você, por exemplo.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
26 CAPÍTULO 2. MODELANDO SUA INCERTEZA
1. Johann Strauss o jovem (o velho) escreveu a valsa Danúbio Azul.
2. Hock é o nome inglês para alguns vinhos da Alsácia (Alemanha).
3. O diprotodonte foi extinto há 45 (25) mil anos.
4. A batata foi introduzida na Europa proveniente da China (América).
5. O oboé moderno tem uma palheta simples (dupla).
6. Guiana é o nome atual da Guiana Britânica (Holandesa).
7. Santiago do Chile está a oeste (leste) de Nova York, USA.
8. A temperatura média da superfície de Vênus é em torno de 450oC (250oC).
9. Em torno de 22% (15%) da população mundial é muçulmana.
10. O primeiro processo econômico para fazer aço foi criado por Bessemer (Kelly).
Como exemplo de aplicação, a regra quadrática foi usada nos Estados Uni-
dos no treinamento de previsores do clima. O evento considerado era “choverá
amanhã” em um certo lugar, e ao previsor era pedida a sua probabilidade. Este
procedimento se repetia por um mês ou mais, registrando o escore quadrático total.
Quanto melhor o meteorologista, menor seu escore. Este treinamento se reflete
nas previsões entregues na televisão, que frequentemente são da forma “a proba-
bilidade de chuva para amanhã é de 85%”, significando p = 0.85. O treinamento
poderia ser ainda melhor, levando em conta que as pessoas nem sempre enten-
dem o que significa probabilidade; conta-se que um dos previsores disse que isto
significava que choveria em 85% da área coberta pela emissora de TV.
No Brasil, assim como em vários outros países, a ideia de probabilidade lamen-
tavelmente não é usada, e a previsão do tempo é tipicamente entregue em termos
vagos do tipo “há possibilidades de pancadas de chuva isoladas”, ou “amanhã cho-
verá em toda a região”.
O costume de fazer afirmações como “vai chover” quando na verdade a si-
tuação é de incerteza apenas alimenta a ignorância das pessoas com respeito ao
conceito de probabilidade. O hábito de substituir a incerteza por asserções definiti-
vas reflete o profundo desconforto com a incerteza e o desejo de sentir que estamos
no controle, sabendo o que irá acontecer. Este hábito é ensinado desde a escola,
onde somos obrigados a escolher a alternativa correta, no lugar de, por exemplo,
colocar nossa probabilidade para cada alternativa.
Pergunta Considere o evento “obter face 5 ou 6” no lançamento de um dado e-
quilibrado. Para as estratégias abaixo, determine o escore quadrático médio obtido
em 27 lançamentos do dado, quando você faz as seguintes atribuições de probabi-
lidade.
(a) para cada lançamento, a sua probabilidade atribuída é p = 0.3;
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2.6. COERÊNCIA 27
(b) em 1/3 dos lançamentos, sua probabilidade é p = 1 e, no restante 2/3 dos lança-
mentos, é p = 0;
(c) para cada lançamento, como você não sabe o que irá ocorrer, a sua probabili-
dade é p = 0.5.
Defina outra estratégia, diferente das anteriores, e determine seu escore quadrático
médio.1
2.6 Coerência
No primeiro capítulo destas notas, apresentamos as condições (P1) e (P2) que
uma probabilidade satisfaz. Na definição axiomática de uma medida de probabili-
dade, estas condições são conhecidas como Axiomas de Kolmogorov, a partir dos
quais se constrói todo o restante da teoria.
No contexto da Teoria da Decisão, no entanto, um dos conceitos primitivos é o
de coerência, com o qual as afirmações (P1) e (P2) são demonstradas como sendo
condições necessárias que uma medida de incerteza deve satisfazer.
De fato, na própria construção do padrão, ao comparar um evento qualquer E
com um evento B relacionado com bolas em uma urna, estamos impondo implici-
tamente uma condição de coerência no processo de comparação.
Por exemplo, sejam E1, E2, E3, eventos, tais que E1 é mais provável que E2
e E2 mais provável que E3, então E1 deve ser mais provável que E3. (Faça a
prova deste fato usando o padrão.) Esta última comparação é dita ser coerente com
as outras duas. Se esta condição de coerência falhasse, poderíamos ter a seguinte
situação: uma pessoa acha queE1 é mais provável queE2 e queE2 é mais provável
que E3, mas que E3 é mais provável que E1. Suponha que ela recebe um prêmio
se E3 ocorrer, e que não recebe nada em caso contrário. Então, pela segunda
comparação, ela poderia preferir deixar a aposta em função de E2: ela pagaria uma
certa quantidade de dinheiro para ter E3 trocado por E2. O mesmo argumento para
a primeira comparação levaria a concluir que ela pagaria uma certa quantidade de
dinheiro para ter E2 trocado por E1. Finalmente, pela terceira comparação, ela
pagaria novamente para ter E1 trocado por E3. Ela está de volta à aposta inicial e
com menos dinheiro do que no começo. Este ciclo poderia se repetir novamente,
de modo que a pessoa incoerente vire uma máquina perpétua de fazer dinheiro.
Consideremos agora um eventoE e a sua probabilidade paraE, de acordo com
sua informação, p(E). Mostraremos que a propriedade (P1) é uma consequência
de nossa construção, seja através de um padrão, seja pela regra de escore.
Lei da convexidade Dado um evento E, 0 ≤ p(E) ≤ 1.
Esta lei é imediata da construção através de um padrão, já que a proporção de
bolas na urna é necessariamente um valor entre 0 e 1. No entanto, não é tão óbvia
1 Resposta para as 10 afirmações da página 23: F, V, V, V, F, V, F, F, F, V; e da página
25: V, F, V, F, F, V, F, V, V, F.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
28 CAPÍTULO 2. MODELANDO SUA INCERTEZA
assim quando usamos a construção via regra de escore, e sua demonstração expõe
outro aspecto de coerência.
Mostraremos que é um absurdo escolher qualquer número fora do intervalo
[0,1]. Suponha que, por exemplo, é atribuído p = 2. Se E for verdadeiro, o escore
é (2 − 1)2 = 1, ou 100, e se E for falso, o escore é (2 − 0)2 = 4, ou 400. Se
for atribuído p = 1, os respectivos escores são 0 e 100. Em ambos os casos, E
verdadeiro ou E falso, o escore é reduzido, e portanto a atribuição p = 1 é melhor
que p = 2. O mesmo argumento serve para qualquer atribuição do valor de p
maior do que 1. Por simetria, a atribuição p = 0 é melhor do que qualquer valor
menor que zero. O mesmo não ocorre para p entre 0 e 1, onde, mudar o valor de p,
aumenta a penalidade em um caso e a diminui, no outro. Portanto, só faz sentido
considerar 0 ≤ p ≤ 1.
Analisemos o princípio apontado. Olhemos para a escolha de p como uma
decisão. Seja d2 a decisão de usar p = 2, e d1, a de usar p = 1. Então o resultado
de d2 quando E for verdadeiro é pior que o de d1; o mesmo acontece quando E for
falso; ou seja, d2 é pior que d1 independentemente de E, e portanto d2 é pior que
d1 quando E é incerto. Isto é chamado o Princípio da Coisa Certa (Sure-thing
Principle): se d2 é pior que d1 quando E for verdadeiroe quando E for falso, então
d2 é pior que d1 quando E é incerto. Este é um segundo exemplo de coerência
entre julgamentos.
Analogamente à condição (P1), mostramos que a condição (P2) e a regra do
produto são consequência da condição de coerência.
Lei da soma Consideremos dois eventos, E1 e E2, mutuamente exclusivos, e o
evento (E1 ou E2), que ocorre se e somente se pelo menos um dos dois ocorre.
Suponha que você atribui as probabilidades p(E1 | H) e p(E2 | H), a partir da
mesma informação. A lei da soma diz que, neste caso,
p(E1 ∪ E2 | H) = p(E1 | H) + p(E2 | H) .
A prova desta afirmação usando um padrão é imediata: considere uma urna
com bolas de cores, preta, azul ou branca. Seja E1 o evento “extrair uma bola
preta” e E2 o evento “extrair uma bola branca”. Então a probabilidade de que
pelo menos um dos dois evento ocorra é proporcional ao total de bolas pretas ou
brancas.
A prova usando regra de escore é um pouco mais trabalhosa, mas segue também
o Princípio da Coisa Certa: suponha que a soma das probabilidades é menor que a
probabilidade de (E1 ou E2) e chegue a uma contradição. O mesmo vale ao supor
que a soma das probabilidades é maior.
Para perceber que esta é uma condição de coerência, suponha que você atribui
probabilidades p(E) = 0.2 e p(EC) = 0.7, para um dado evento E.
De acordo com a primeira afirmação (p(E) = 0.2), você deveria considerar
justo fazer a aposta: receber um valor a > 0 para pagar 4a se E ocorrer (e ficar
com a se E não ocorrer).
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
2.6. COERÊNCIA 29
Similarmente, para p(EC) = 0.7, você aceitaria receber um valor b para pagar
3b/7, se EC ocorrer (e ficar com b se E ocorrer).
Suponha que ambas as apostas são feitas por você, com a = 2 e b = 7. Então,
se E ocorrer, você perde 8 da primeira, e ganha 7 da segunda, perdendo 1. Se E
não ocorrer, você ganha 2 da primeira, e perde 3 da segunda, novamente perdendo
1.
Esta situação incoerente, de combinar apostas que levam a perder dinheiro com
certeza, é chamada Dutch book. Ela somente pode ser evitada estabelecendo pro-
babilidades coerentes.
As demais leis conhecidas de probabilidade: lei da probabilidade total, regra
do produto, regra de Bayes, etc, são deixadas como exercício para o leitor.
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
30 CAPÍTULO 2. MODELANDO SUA INCERTEZA
V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
-R
io
de
Ja
ne
ir
o
-R
J
-I
M
PA
/U
FR
J
-V
II
IB
ie
na
ld
a
So
ci
ed
ad
e
B
ra
si
le
ir
a
de
M
at
em
át
ic
a
R
io
de
Ja
ne
ir
o-
R
J
-I
M
PA
/U
FR
J
-
Referências Bibliográficas
[1] BEKMAN, O.R., COSTA NETO, P.L.O. Teoria estatística da decisão. Ed.
Edgard Blücher, 2009.
[2] BLACKWELL, D. Estatística básica. Editora da USP e McGraw-Hill do Bra-
sil, 2a edição, 1975.
[3] DE GROOT, M. Optimal statistical decisions. Wiley, 2004.
[4] FREEDMAN, D., PISANI, R., PURVES, R. Statistics. Norton, 1997.
[5] LINDLEY, D.V. Making decisions. Wiley, 1985.
[6] PRATT, J.; RAIFFA, H.; SCHLAIFER, R. Statistical decision theory. MIT
Press, 1995.
31
	Incerteza
	Relembrando o cálculo de probabilidades
	Variáveis e esperança
	Quanto vale um previsor?
	Modelando sua incerteza
	Quantos peixes há no lago?
	Mensuração da incerteza
	Dê seu palpite
	Regra de escore
	Regra de escore como medida
	Coerência

Continue navegando