Conceitos Básicos Teoria da Probabilidade

Probabilidade e Estatística

•
UNIP

João de Sanctis
07.02.2014
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 56 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 56 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 56 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Probabilidade e Estatística

29.429 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Conceitos Ba´sicos da Teoria da Probabilidade1
Onofre Simo˜es
Nu´cleo de Matema´tica Financeira (NMF) - CEMAPRE.
1Este texto e´ uma traduc¸a˜o, com algumas (poucas) adaptac¸o˜es, do primeiro cap´ıtulo do livro elementary
stochastic calculus with Finance in View, de Thomas Mikosch. As figuras tambe´m foram retiradas da
mesma obra.
1 Conceitos Ba´sicos da Teoria da Probabilidade
1.1 Varia´veis Aleato´rias
Def. 1: Experieˆncia Aleato´ria
Processo ou conjunto de circunstaˆncias, sujeito a` influeˆncia de factores casuais, capaz de
produzir resultados observa´veis - ainda que incertos.
Ex. 1:
• observar o resultado do lanc¸amento de uma moeda.
• registar o nu´mero de lanc¸amentos de um dado, ate´ se obter a pontuac¸a˜o 1.
• registar a variac¸a˜o percentual dia´ria do ı´ndice PSI20 (sujeito a`s tendeˆncias econo´micas,
aos interesses pol´ıticos e aos comportamentos individuais).
• registar o prec¸o (Euros) do almoc¸o de terc¸a-feira pro´xima (resultante do jogo da con-
correˆncia - disputado entre as empresas de restaurac¸a˜o, por um lado, e entre as em-
presas e os consumidores, por outro).
Def. 2: Espac¸o dos Resultados (de uma experieˆncia aleato´ria)
E´ o conjunto de todos os resultados potencialmente observa´veis quando a experieˆncia se
realiza, represente-se por Ω.
Ex. 1 (Cont.):
• Ω = {Sa´ıda de cara, Sa´ıda de coroa}
• Ω = {1, 2, 3, ...}
• Ω = R
• Ω = {p : p ≥ 0}.
O tratamento matema´tico das situac¸o˜es exige normalmente que a cada resultado da ex-
perieˆncia aleato´ria se fac¸a corresponder um nu´mero real. Muitas vezes essa correspondeˆncia
e´ automa´tica, nos outros casos e´ convencionada.
Def. 3: Varia´vel Aleato´ria (v.a.)
E´ toda a func¸a˜o real com domı´nio Ω, represente-se por X = X(ω).
1
Ex. 1 (Cont.):
• No lanc¸amento da moeda, pode definir-se que
X = X(ω) =
{
0, se ω = cara
1, se ω = coroa
• Nas restantes situac¸o˜es, a realizac¸a˜o da experieˆncia aleato´ria ja´ fornece resultados
nume´ricos e pode fazer-se a associac¸a˜o automa´tica a varia´veis aleato´rias.
Como descrever o comportamento de uma varia´vel aleato´ria X,
em termos probabil´ısticos?
Tome-se uma classe F de subconjuntos de Ω que seja uma σ-a´lgebra, isto e´, tal que:
• φ ∈ F e Ω ∈ F
• Se A ∈ F , enta˜o Ac ∈ F
• Se A1, A2, ... ∈ F , enta˜o
∞⋃
i
Ai ∈ F e
∞⋂
i
Ai ∈ F .
F deve ser constru´ıda de modo a conter todos os subconjuntos de Ω relevantes para a
experieˆncia aleato´ria, e aos quais se possa atribuir uma probabilidade, designados aconte-
cimentos. Quando Ω e´ um conjunto finito ou infinito numera´vel toma-se F =2Ω, a classe
fundamental. Quando Ω e´ um conjunto infinito na˜o numera´vel toma-se a classe dos Bore-
lianos.2 Na realidade, o que se pretende e´ que:
• Ω ∈ F
• φ ∈ F
• Se A1, A2, ... ∈ F , enta˜o ⋃Ai ∈ F
• Se A,B ∈ F , enta˜o A−B ∈ F
• Se A1, A2, ... ∈ F , enta˜o ⋂Ai ∈ F .
Ha´ va´rias abordagens poss´ıveis para a atribuic¸a˜o das probabilidades aos acontecimentos.
Uma delas e´ a abordagem frequencista, que estabelece uma correspondeˆncia entre a proba-
bilidade de realizac¸a˜o de um acontecimento e a frequeˆncia relativa estabilizada observada
para esse acontecimento, apo´s um grande nu´mero de repetic¸o˜es da experieˆncia aleato´ria
subjacente (lei dos grandes nu´meros).
2Um conjunto B ∈ R diz-se um conjunto de Borel, ou Boreliano, quando pode ser obtido a partir das
operac¸o˜es
⋂
,
⋃
e passagem ao complementar, efectuadas sobre os conjuntos da classe I dos intervalos de
nu´meros reais do tipo (a, b], a ≤ b. Os conjuntos abertos, os conjuntos fechados e os conjuntos numera´veis
sa˜o Borelianos.
2
Ex. 1 (Cont.):
Kerrich efectuou 10000 lanc¸amentos de uma moeda, tomando particular cuidado para que
fossem feitos ao acaso. Os resultados figuram na tabela abaixo.
Nu´mero de lanc¸amentos Nu´mero de caras Freq. relativa
1 0 0
5 2 0,4
10 4 0,4
100 44 0,44
1000 502 0,502
5000 2533 0,507
10000 5067 0,507
De acordo com a abordagem frequencista, ter-se-ia enta˜o
P (X = x) =
{
0.507, x = 0
0.493, x = 1
,
pois {
P (X = 0) = P ({ω : X(ω) = 0}) = P (sa´ıda de cara)
P (X = 1) = P ({ω : X(ω) = 1}) = P (sa´ıda de coroa)
Em resumo: a cada acontecimento A ∈ F a medida de probabilidade atribui um nu´mero
P (A) ∈ [0, 1], que corresponde a` fracc¸a˜o das realizac¸o˜es de A, num nu´mero suficientemente
grande de repetic¸o˜es da experieˆncia aleato´ria em causa.
Propriedades elementares das medidas de probabilidade:
• Se A,B ∈ F , enta˜o P (A⋃B) = P (A)+P (B)−P (A⋂B). Se A e B sa˜o acontecimentos
incompat´ıveis (mutuamente exclusivos), P (A
⋃
B) = P (A) + P (B), pois A
⋂
B = φ
• P (Ac) = 1− P (A)
• P (Ω)=1; Ω diz-se o acontecimento certo
• P (φ) = 0; φ diz-se o acontecimento imposs´ıvel.
Def. 4: Func¸a˜o de Distribuic¸a˜o de uma v.a.
Func¸a˜o de distribuic¸a˜o de uma v.a. X e´ uma func¸a˜o real, seja F (x), tal que
F (x) = FX(x) = P (X ≤ x) = P ({ω : X(ω) ≤ x}), x ∈ R.
Com a func¸a˜o de distribuic¸a˜o e´ poss´ıvel calcular as probabilidades de todos os acontecimen-
tos. Basta ter em atenc¸a˜o que
3
• P (X ∈ (a, b]) = P ({ω : a < X(ω) ≤ b}) = F (b)− F (a), a < b
• P (X = x) = P ({ω : X(ω) ≤ x})− P ({ω : X(ω) < x}) = F (x)− F (x− 0)
Sendo poss´ıvel calcular a probabilidade de {ω : X(ω) ∈ B}, B um Boreliano, pode definir-se
distribuic¸a˜o de uma v.a., noc¸a˜o equivalente a` de func¸a˜o de distribuic¸a˜o.
Def. 5: Distribuic¸a˜o de uma v.a.
Distribuic¸a˜o de uma v.a. X e´ uma func¸a˜o real, seja PX(B), tal que
PX(B) = P (X ∈ B) = P ({ω : X(ω) ∈ B}), B um Boreliano.
Def. 6: Varia´vel Aleato´ria Discreta
Diz-se que a v.a. X e´ uma v.a. discreta quando a sua func¸a˜o de distribuic¸a˜o e´ da forma
FX(x) =
∑
k:xk≤x
pk, x ∈ R, pk = P (X = xk); 0 ≤ pk ≤ 1,∀k;
∞∑
k=1
pk = 1.
Nestas condic¸o˜es, diz-se tambe´m que X tem func¸a˜o de distribuic¸a˜o e distribuic¸a˜o discretas.
Uma v.a. discreta assume um nu´mero finito ou uma infinidade numera´vel de valores x1, x2, ....
Sa˜o estes os pontos de descontinuidade de F (x): em x = xk a func¸a˜o tem um acre´scimo pk.
Def. 7: Varia´vel Aleato´ria Cont´ınua
Diz-se que a v.a. X e´ uma v.a. cont´ınua, com func¸a˜o de densidade fX(x) = f(x), quando a
sua func¸a˜o de distribuic¸a˜o se pode escrever
FX(x) =
∫ x
−∞
fX(y)dy, x ∈ R; fX(x) ≥ 0,∀x ∈ R;
∫ ∞
−∞
fX(y)dy = 1.
Nestas condic¸o˜es, diz-se tambe´m que X tem func¸a˜o de distribuic¸a˜o e distribuic¸a˜o cont´ınuas.
Uma v.a. cont´ınua assume uma infinidade na˜o numera´vel de valores e, na˜o apresentando
F (x) pontos de descontinuidade, tem-se
P (X = x) = F (x)− F (x− 0) = 0,∀x ∈ R.
Como e´ evidente, qualquer v.a. que tenha algum interesse de ordem pra´tica e´ na realidade
uma varia´vel discreta, devido a`s limitac¸o˜es te´cnicas na medic¸a˜o. Apesar disso, e´ muitas vezes
conveniente considera´-las como cont´ınuas, tanto do ponto de vista pra´tico, como do ponto
de vista teo´rico.
4
Ex. 2 (Duas importantes distribuic¸o˜es discretas):
• Distribuic¸a˜o Binomial
Uma v.a. X tem distribuic¸a˜o binomial de paraˆmetros n e p, n ∈ N, p ∈ (0, 1),
quando
P (X = k) =
(
n
k
)
pk(1− p)n−k, k = 0, 1, ..., n.
Escreve-se X ∼ Bin(n, p).
A func¸a˜o de distribuic¸a˜o e´ obtida acumulando os valores das probabilidades acima.
Por exemplo, com n = 5 e p = 0.3, tem-se
P (X = k) =

0.1681, k = 0
0.3602, k = 1
0.3087, k = 2
0.1323, k = 3
0.0284, k = 4
0.0023, k = 5
e
F (x) = P (X ≤ x) =

0, x < 0
0.1681, 0 ≤ x ≤ 1
0.5283, 1 ≤ x ≤ 2
0.8370, 2 ≤ x ≤ 3
0.9693, 3 ≤ x ≤ 4
0.9977, 4 ≤ x ≤ 4
1, x ≥ 5
A distribuic¸a˜o binomial aplica-se quando ha´ uma sucessa˜o de n provas independentes
de Bernoulli (experieˆncias aleato´rias que consistem em observar se se realiza um dado
acontecimento, mantendo-se constante a probabilidade p de isso suceder). Nessas
condic¸o˜es, a v.a.X representa o nu´mero de vezes que o acontecimento se realiza
(o nu´mero de sucessos) nas n provas.
• Distribuic¸a˜o de Poisson
Uma v.a. X tem distribuic¸a˜o de Poisson de paraˆmetro λ, λ > 0, quando
P (X = k) =
e−λλk
k!
, k = 0, 1, 2, ....
Escreve-se X ∼ Poi(λ).
5
Sendo discreta, tambe´m agora a func¸a˜o de distribuic¸a˜o e´ obtida acumulando os valores
das probabilidades acima.
Por exemplo, com λ = 2, tem-se
P (X = k) =

0.1353, k = 0
0.2707, k = 1
0.2707, k = 2
0.1804, k = 3
0.0902, k = 4
0.0361, k = 5
0.0120, k = 6
0.0034, k = 7
0.0009, k = 8
0.0003, k = 9
e
F (x) = P (X ≤ x) =

0, x < 0
0.1353, 0 ≤ x ≤ 1
0.4060, 1 ≤ x ≤ 2
0.6767, 2 ≤ x ≤ 3
0.8571, 3 ≤ x ≤ 4
0.9473, 4 ≤ x ≤ 5
0.9834, 5 ≤ x ≤ 6
0.9954, 6 ≤ x ≤ 7
0.9988, 7 ≤ x ≤ 8
0.9997, 8 ≤ x ≤ 9
1, x ≥ 9
A distribuic¸a˜o de Poisson aplica-se quando, verificadas certas hipo´teses, ha´ a neces-
sidade de considerar fluxos de eventos casuais ao longo do tempo ou do espac¸o. O
paraˆmetro λ exprime a intensidade me´dia com que as ocorreˆncias surgem, por unidade
de tempo ou de espac¸o. A v.a. X representa o nu´mero dessas ocorreˆncias na mesma
unidade de tempo ou de espac¸o.
Tanto a distribuic¸a˜o binomial como a distribuic¸a˜o de Poisson esta˜o associadas a proces-
sos de contagem.
Ex. 3 (Duas importantes distribuic¸o˜es cont´ınuas):
• Distribuic¸a˜o Normal (Gaussiana)
Uma v.a. X tem distribuic¸a˜o normal de paraˆmetros µ e σ2, µ ∈ R, σ2 > 0 - e escreve-se
X ∼ N(µ, σ2) - quando a sua func¸a˜o de densidade e´
fX(x) =
1√
2piσ
e−
(x−µ)2
2σ2 , x ∈ R.
6
Se µ = 0 e σ2 = 1, escreve-se X ∼ N(0, 1) e diz-se que X tem distribuic¸a˜o ”normal-
standard”. E´ fa´cil provar que, se X ∼ N(µ, σ2), enta˜o Z = X−µ
σ
∼ N(0, 1). Chama-se
a esta transformac¸a˜o a ”standardizac¸a˜o” da v.a. X. A func¸a˜o de densidade da v.a. Z e´
representada pela letra φ e a sua func¸a˜o de distribuic¸a˜o e´ Φ(z) =
∫ z
−∞
φ(y)dy, z ∈ R.
Encontram-se ambas largamente tabeladas.
Por exemplo, se X ∼ N(2, 1.52),
P (−1 < X < 3) = P (−1−2
1.5
< X−2
1.5
< 3−2
1.5
)
= P (−2 < Z < 2
3
) = Φ(2
3
)− Φ(−2) = 0.7258
Muitas v.a. obedecem exactamente a` lei de probabilidade normal, nomeadamente v.a.
que dizem respeito a feno´menos f´ısicos. Muitas outras teˆm distribuic¸o˜es que sa˜o aprox-
imadamente normais, em particular, v.a. que dizem respeito a feno´menos biome´tricos.
Uma vez que a distribuic¸a˜o normal tambe´m aparece como distribuic¸a˜o limite num
grande nu´mero de situac¸o˜es, via Teorema do Limite Central, a sua aplicabilidade e´
muito vasta.
• Distribuic¸a˜o Uniforme
Uma v.a. X tem distribuic¸a˜o uniforme no intervalo (a, b) quando a sua func¸a˜o de
densidade e´
fX(x) =
1
b− a, x ∈ (a, b).
Escreve-se X ∼ U(a, b).
A func¸a˜o de distribuic¸a˜o e´
F (x) = P (X ≤ x) =
∫ x
−∞
f(y)dy =

0, x < a
x−a
b−a , a ≤ x < b
1, x ≥ b
Um exemplo cla´ssico e´ o da pessoa que chega a` estac¸a˜o dos comboios sem ter a mais
leve ideia sobre os hora´rios. Sabe apenas que parte um de 20 em 20 minutos. Se X e´
a v.a. que representa o tempo, em minutos, que a pessoa espera ate´ partir, e´ razoa´vel
admitir que X ∼ U(0, 20), ou seja, que f(x) = 1
20
, x ∈ (0, 20). A probabilidade de ter
que esperar mais de 15 minutos, por exemplo, e´ enta˜o P (X > 15) = 1−F (15) = 0.25.
A distribuic¸a˜o uniforme e´ ainda muito u´til na simulac¸a˜o de observac¸o˜es das mais di-
versas distribuic¸o˜es.
7
Def. 8: Me´dia, Variaˆncia e Outros Momentos
Seja X uma v.a.
a) A me´dia de X (ou valor me´dio, ou valor esperado, de X) se existir, e´:
∗ µX = E[X] =
∞∑
k=1
xkpk, se X e´ v.a. discreta, tal que
pk = P (X = xk), k = 1, 2, ...
∗ µX = E[X] =
∫ ∞
−∞
xfX(x)dx, se X e´ v.a. cont´ınua com func¸a˜o de densidade
fX(x).
b) A variaˆncia de X, se existir, e´:
∗ σ2X = V ar(X) =
∞∑
k=1
(xk − µX)2pk, no caso discreto
∗ σ2X = V ar(X) =
∫ ∞
−∞
(xk − µX)2fX(x)dx, no caso cont´ınuo.
c) O momento de ordem l ∈ N de X, se existir, e´:
∗ E[X l] =
∞∑
k=1
(xk)
lpk, no caso discreto
∗ E[X l] =
∫ ∞
−∞
xlfX(x)dx, no caso cont´ınuo.
d) Genericamente, se existir, o valor esperado duma qualquer v.a. g(X) e´:
∗ E[g(X)] =
∞∑
k=1
g(xk)pk, no caso discreto
∗ E[g(X)] =
∫ ∞
−∞
g(xk)fX(x)dx, no caso cont´ınuo.
Os valores esperados acima existem quando as se´ries/os integrais envolvidos sa˜o absoluta-
mente convergentes.
A me´dia de X e´ o ”centro de gravidade” da distribuic¸a˜o de X. Em termos grosseiros, a
me´dia representa o ponto na˜o aleato´rio, µX , em torno do qual mais se concentram os valores
aleato´rios X(ω). Embora no caso discreto µX seja muitas vezes um valor na˜o assumido pela
v.a., fornece sempre indicac¸o˜es valiosas sobre a ordem de grandeza desta. E´ tambe´m um
meio fa´cil de prever valores futuros nas sucesso˜es cronolo´gicas.
A variaˆncia de X mede a dispersa˜o dos valores X(ω), em torno de µX . Tratando-se de
um momento de segunda ordem, vem expressa em [unidades de X]2. Para ultrapassar esta
limitac¸a˜o, costuma usar-se tambe´m como medida de dispersa˜o o chamado desvio padra˜o, a
raiz quadrada da variaˆncia.
Prova-se que se pode estabelecer a igualdade
V ar(X) = E[X2]− (µX)2.
8
Ex. 4:
Basta efectuar os ca´lculos para se deduzir que:
• Se X ∼ Bin(n, p), E[X] = np e V ar(X) = np(1− p)
• Se X ∼ Poi(λ), E[X] = λ e V ar(X) = λ
• Se X ∼ N(µ, σ2), E[X] = µ e V ar(X) = σ2
• Se X ∼ U(a, b), E[X] = a+b
2
e V ar(X) = (b−a)
2
12
.
1.2 Vectores Aleato´rios
Def. 9: Vector aleato´rio
Diz-se queX = (X1, X2, . . . , Xn) e´ um vector aleato´rio n-dimensional se as suas componentes,
X1, X2, . . . , Xn, sa˜o v.a.
Ex. 5:
• X = (X1, X2) e´ o vector aleato´rio que representa os resultado de dois lanc¸amentos de
uma moeda suposta equilibrada.
Sendo
X1 =
{
0, se sai cara no primeiro lanc¸amento
1, se sai coroa no primeiro lanc¸amento
e
X2 =
{
0, se sai cara no segundo lanc¸amento
1, se sai coroa no segundo lanc¸amento
,
vem
X(cara, cara) = (0, 0), X(cara, coroa) = (0, 1),
X(coroa, cara) = (1, 0) e X(coroa, coroa) = (1, 1).
Cada um dos resultados tem probabilidade 0.25, ou seja,
P ({ω : X(ω) = (k, l)}) = 0.25, k, l ∈ {0, 1}.
• X = (X1, X2, . . . , X5) e´ o v.a. que representa as cotac¸o˜es das acc¸o˜es da Brisa ao
meio-dia dos dias u´teis de uma qualquer semana.
• X = (X1, X2, X3, X4) e´ o vector aleato´rio que descreve o estado do tempo em Lisboa,
em determinado momento: X1 representa a temperatura, X2 a pressa˜o atmosfe´rica,
X3 a velocidade do vento e X4 indica se esta´ a chover.
9
Def. 10: Func¸a˜o de Distribuic¸a˜o conjunta de um vector aleato´rio
Func¸a˜o de distribuic¸a˜o conjunta de um vector aleato´rio X e´ uma func¸a˜o real, seja F (x), tal
que
F (x) = FX(x) = P (X1 ≤ x1, . . . , Xn ≤ xn)
= P ({ω : X1(ω) ≤ x1, . . . , Xn(ω) ≤ xn}),x ∈ Rn.
F (x) permite o ca´lculo imediato da probabilidade de X assumir valores no intervalo
(a, b] : {x : ai < xi ≤ bi, i = 1, ..., n} ⊂ Rn.
Def. 11: Distribuic¸a˜o de um vector aleato´rio
Distribuic¸a˜o de um vector aleato´rio X e´ uma func¸a˜o real, seja PX(B), tal que
PX(B) = P (X ∈ B) = P ({ω : X(ω) ∈ B}), B um Boreliano de Rn.
A distribuic¸a˜o conjunta de X = (X1, X2, . . . , Xn) conte´m toda a informac¸a˜o sobre as suas
componentes tomadas individualmente, bem como sobre todos os poss´ıveis pares de compo-
nentes, triplos, etc.
Tal como sucede no caso unidimensional, ha´ vectores aleato´rios discretos e vectores aleato´rios
cont´ınuos, mas so´ estes sa˜o interessantes para os objectivos do nosso estudo.
Def. 12: Vector Aleato´rio Cont´ınuo
Diz-se que o vector aleato´rio X e´ um vector aleato´rio cont´ınuo, com func¸a˜o de densidade
conjunta fX(x1, . . . , xn), quando a sua func¸a˜o de distribuic¸a˜ose pode escrever
FX(x1, x2, ...xn) =
∫ x1
−∞
. . .
∫ xn
−∞
fX(y1, . . . , yn)dy1 . . . , dyn, x ∈ Rn
fX(x) ≥ 0,∀x ∈ Rn;
∫ ∞
−∞
. . .
∫ ∞
−∞
fX(y1, . . . , yn)dy1 . . . , dyn = 1.
Conhecida a func¸a˜o de densidade conjunta, podem calcular-se as func¸o˜es de densidade mar-
ginais de cada uma das componentes tomadas individualmente, bem como as de todos os
poss´ıveis pares de componentes, triplos, etc.
Ex. 6:
Admita-se que n = 3. Algumas densidades marginais:
• fX1(x1) =
∫ ∞
−∞
∫ ∞
−∞
fX(x)dx2dx3
• fX2(x2) =
∫ ∞
−∞
∫ ∞
−∞
fX(x)dx1dx3
10
• fX1,X2(x1, x2) =
∫ ∞
−∞
fX(x)dx3
• fX1,X3(x1, x3) =
∫ ∞
−∞
fX(x)dx2
Ex. 7 Vector aleato´rio Normal (Gaussiano) n-dimensional):
A distribuic¸a˜o normal n-dimensional tem func¸a˜o de densidade conjunta
fX(x) =
1
(2pi)n/2(detΣ)1/2
e−
1
2
(x−µ)
∑−1
(x−µ)T , x ∈ Rn,
onde µ ∈ Rn, Σ e´ uma matriz sime´trica de ordem n definida positiva, detΣ e´ o seu determi-
nante e Σ−1 e´ a sua inversa.
Escreve-se X ∼ N(µ,Σ).
Def. 13: Me´dia, Variaˆncia e Covariaˆncia
Seja X um vector aleato´rio
a) A me´dia de X (ou valor me´dio, ou valor esperado, de X), se existir, e´ o vector
µX = E[X] = (E[X1], E[X2], ..., E[Xn]).
b) A matriz das variaˆncias e covariaˆncias de X, se existir, e´:
ΣX = (cov(Xi, Xj); i, j = 1, 2, ..., n),
onde
cov(Xi, Xj) = E[(Xi − µXi)(Xj − µXj)] = E[XiXj] − µXiµXj e´ a covariaˆncia de Xi e
Xj. Claro que cov(Xi, Xi) = σ
2
Xi
.
Ex. 7 (Cont.):
Efectuando os ca´lculos, conclui-se que o vector das me´dias da distribuic¸a˜o normal n-dimensional
e´ µ e a matriz das variaˆncias e covariaˆncias e´ Σ. Prova-se que v.a. que sa˜o obtidos a partir
de transformac¸o˜es lineares de X continuam a ter distribuic¸a˜o normal n-dimensional. Quer
dizer: Se X ∼ N(µ,Σ) e A e´ uma matriz do tipo m× n, enta˜o
AX ∼ N(AµT , AΣAT ).
Tal como a variaˆncia, tambe´m as covariaˆncias sa˜o medidas absolutas da variac¸a˜o conjunta das
varia´veis envolvidas. O coeficiente de correlac¸a˜o, que se prova assumir valores no intervalo
[−1, 1], e´ uma medida relativa com o mesmo objectivo.
Def. 14: Coeficiente de Correlac¸a˜o
O coeficiente de correlac¸a˜o entre as v.a. X1 e X2 e´
corr(X1, X2) =
cov(X1, X2)
σX1σX2
.
11
1.3 Dependeˆncia e Independeˆncia
Def. 15: Acontecimentos Independentes
Dois acontecimentos A1 e A2 dizem-se independentes quando
P (A1
⋂
A2) = P (A1)P (A2).
Intuitivamente, a existeˆncia de independeˆncia entre A1 e A2 significa que a realizac¸a˜o de um
deles na˜o influencia de nenhum modo a realizac¸a˜o do outro: o conhecimento de que um deles
se realizou na˜o permite concluir nada sobre a realizac¸a˜o do outro.
Def. 16: Varia´veis Aleato´rias Independentes
Duas v.a. X1 e X2 dizem-se independentes quando
P (X1 ∈ B1, X2 ∈ B2) = P (X1 ∈ B1)P (X2 ∈ B2),
B1 e B2 Borelianos.
Naturalmente, se a condic¸a˜o e´ satisfeita, os acontecimentos {X1 ∈ B1} e {X2 ∈ B2} sa˜o
independentes.
Alternativas:
• X1 e X2 dizem-se independentes quando
FX1,X2(x1, x2) = FX1(x1)FX2(x2), (x1, x2) ∈ R2
• X1 e X2 dizem-se independentes quando
fX1,X2(x1, x2) = fX1(x1)fX2(x2), (x1, x2) ∈ R2.
A definic¸a˜o de independeˆncia pode alargar-se a qualquer nu´mero finito de acontecimentos e
v.a..
Def. 15’: Acontecimentos Independentes
Os acontecimentos A1, A2, ..., An dizem-se independentes quando
P (Ai1
⋂
...
⋂
Aik) = P (Ai1)...P (Aik),
para qualquer escolha de ı´ndices 1 ≤ i1 < ... < ik ≤ n e de inteiros 1 ≤ k ≤ n.
Def. 16’: Varia´veis Aleato´rias Independentes
As v.a. X1, X2, ..., Xn dizem-se independentes quando
P (Xi1 ∈ Bi1 , ..., Xik ∈ Bik) = P (Xi1 ∈ Bi1)...P (Xik ∈ Bik),
12
para qualquer escolha de ı´ndices 1 ≤ i1 < ... < ik ≤ n, de inteiros 1 ≤ k ≤ n e sendo
B1, ...Bn Borelianos.
Tambe´m agora, se a condic¸a˜o e´ satisfeita, os acontecimentos {X1 ∈ B1}, ..., {Xn ∈ Bn} sa˜o
independentes.
Alternativas:
• X1, ..., Xn dizem-se independentes quando
FX1,...,Xn(x1, ..., xn) = FX1(x1)...FXn(xn), (x1, ...xn) ∈ Rn
• X1, ..., Xn dizem-se independentes quando
fX1,...,Xn(x1, ..., xn) = fX1(x1)...fXn(xn), (x1, ...xn) ∈ Rn.
Ex. 7 (Cont.):
Prova-se que as n componentes de X ∼ N(µ,Σ) sa˜o independentes se e so´ se a matriz Σ das
variaˆncias e covariaˆncias for diagonal, ou seja, se e so´ se cov(Xi, Xj) = corr(Xi, Xj) = 0.
Esta propriedade na˜o e´, em geral, verdadeira. Se Xi, Xj sa˜o independentes, pode concluir-se
que cov(Xi, Xj) = corr(Xi, Xj) = 0, mas a rec´ıproca na˜o e´, em geral, verdadeira.
Uma consequeˆncia importante da independeˆncia esta´ relacionada com o ca´lculo de valores
esperados.
Se as v.a. X1, ..., Xn sa˜o independentes, tem-se
E[g1(X1)...gn(Xn)] = E[g1(X1)]...E[gn(Xn)],
quaisquer que sejam as func¸o˜es reais g1, ..., gn - e desde que os valores esperados existam.
Muitas vezes, e´ necessa´rio trabalhar com vectores aleato´rios que teˆm um nu´mero infinito de
componentes. A definic¸a˜o de independeˆncia estende-se igualmente a esta situac¸a˜o.
Def. 16”: Varia´veis Aleato´rias Independentes
Sendo T um conjunto infinito de ı´ndices, as v.a. Xt, t ∈ T, dizem-se independentes quando
as v.a. Xt1 , ..., Xtn sa˜o independentes para qualquer escolha de ı´ndices t1, ...tn ∈ T, n ≥ 1.
Dizem-se independentes e identicamente distribu´ıdas (iid) quando sa˜o independentes e teˆm
todas a mesma distribuic¸a˜o.
13
1.4 Processos Estoca´sticos
Def. 17: Processo Estoca´stico
Um processo estoca´stico X e´ uma famı´lia de varia´veis aleato´rias definidas num espac¸o Ω,
seja
(Xt, t ∈ T ) = (Xt(ω), t ∈ T, ω ∈ Ω),
onde t e´ um paraˆmetro tomando valores sobre um conjunto T ⊂ R, designado conjunto dos
ı´ndices do processo.
Observac¸o˜es:
• Do ponto de vista matema´tico na˜o existe qualquer restric¸a˜o a` natureza de T . No
entanto, na maioria das aplicac¸o˜es, t representa o tempo, que e´ assim a interpretac¸a˜o
”por defeito”.
• Se T e´ um conjunto finito ou infinito numera´vel, X diz-se um processo estoca´stico em
tempo (ou de paraˆmetro) discreto; no caso contra´rio, diz-se um processo estoca´stico em
tempo (ou de paraˆmetro) cont´ınuo. Quanto T e´ finito o processo estoca´stico reduz-se a
um vector aleato´rio; quando T e´ infinito numera´vel, tem-se uma sucessa˜o de varia´veis
aleato´rias.
• Espac¸o de estados do processo X e´ o conjunto dos valores que as v.a. Xt podem
assumir. Quando o espac¸o de estados e´ numera´vel, o processo e´ designado um processo
com espac¸o de estados discreto. Em particular, se o espac¸o dos estados e´ 0, 1, 2, ..., o
processo diz-se um processo de contagem.
• Cada poss´ıvel concretizac¸a˜o do processo estoca´stico X e´ uma func¸a˜o em T . Assim,
podem definir-se func¸o˜es que a cada t ∈ T fazem corresponder um particular valor xt -
e´ o particular valor assumido por Xt. Tais func¸o˜es representam as poss´ıveis observac¸o˜es
do processo estoca´stico e chamam-se realizac¸o˜es ou trajecto´rias do processo. Por outras
palavras, uma trajecto´ria ou realizac¸a˜o de um processo estoca´stico X e´ uma afectac¸a˜o,
para cada t ∈ T , de um valor poss´ıvel para Xt. Um processo estoca´stico e´ assim um
”ser aleato´rio que se concretiza em func¸o˜es (mete-se a ma˜o ao saco e na˜o se tira uma
bola branca, tira-se uma func¸a˜o).”
• Como resulta da definic¸a˜o, um processo estoca´stico X e´ uma func¸a˜o de duas varia´veis:
- Para cada valor fixo t ∈ T (para cada momento do tempo) X e´ uma v.a.,
Xt = Xt(ω), ω ∈ Ω.
- Para cada trajecto´ria fixa, X e´ uma curva, func¸a˜o do tempo. Nessa particular
trajecto´ria, cada v.a. Xt assume um valor xt concreto.
Ex. 8 (Passeio aleato´rio)
Tome-se uma sucessa˜o de v.a. independentes, {Zt, t = 1, 2, ...} e defina-se o processo
Xt = Z1 + Z2 + ...+ Zt = Xt−1 + Zt.
14
Xt, que e´ um processo estoca´stico em tempo discreto, e´ conhecido como passeio aleato´rio e
aplica-se a certo tipo de se´ries financeiras. Os passeios aleato´riostambe´m sa˜o por vezes uti-
lizados para representar o nu´mero de indemnizac¸o˜es agregadas ao longo do tempo, suscitadas
por determinada carteira de apo´lices.
Ex. 9 (Processo de me´dias mo´veis)
Tome-se uma sucessa˜o de v.a. iid, {Zt, t = 1, 2, ...}. O processo Xt = Zt + θZt−1 designa-se
processo de me´dias mo´veis de primeira ordem, represente-se por MA(1), e e´ muito utilizado
no estudo de se´ries temporais. E´ tambe´m um processo em tempo discreto. Como se veˆ, o
estado do processo no momento t (o valor assumido pela v.a. Xt) e´ combinac¸a˜o apenas das
duas u´ltimas v.a. da sucessa˜o {Zt}.
Em geral, um processo de me´dias mo´veis de ordem q ≥ 1, MA(q), pode definir-se
Xt = Zt + θ1Zt−1 + ...+ θqZt−q, t ∈ Z,
θ1, θ2, ..., θq paraˆmetros reais dados.
Ex. 10 (Processo autoregressivo)
Nas condic¸o˜es vistas para os processos AM(q), um processo autoregressivo de ordem p ≥ 1,
AR(p), define-se
Xt = φ1Xt−1 + ...+ φpXt−p + Zt, t ∈ Z,
φ1, φ2, ..., φp paraˆmetros reais dados.
Tambe´m particularmente importantes sa˜o os processos autoregressivos de primeira ordem,
AR(1),
Xt = φXt−1 + Zt, t ∈ Z,
em que o estado do processo no momento t (o valor assumido pela v.a. Xt) depende apenas
do estado do processo no momento anterior (o valor assumido por Xt−1), adicionado de um
factor aleato´rio residual (Zt).
Ao contra´rio do que sucede nos processos de me´dias mo´veis, em que o efeito de cada v.a.
Zt so´ influencia os p estados futuros seguintes do processo, nos processos autoregressivos, a
inclusa˜o de Zt vai influenciar todos os estados futuros daquele.
Ex. 11 (Processo de Markov)
Processo de Markov e´ um processo em que a probabilidade de ser assumido um qualquer
estado num momento futuro (t) depende apenas do estado do processo no u´ltimo instante
observado (Xtk = xk), na˜o sendo assim afectada pelo conhecimento dos estados assumidos
pelo processo em momentos anteriores a tk. Simbolicamente,
P [a < Xt ≤ b|Xt1 = x1, ..., Xtk = xk] = P [a < Xt ≤ b|Xtk = xk],
t1 < t2 < · · · < tk < t ∈ T.
Um processo de Markov com espac¸o de estados discreto e´ designado cadeia de Markov.
Um processo de Markov com espac¸o dos estados cont´ınuo e paraˆmetro tambe´m cont´ınuo e´
designado processo de difusa˜o.
15
16
Como descrever o comportamento de um processo estoca´stico X,
em termos probabil´ısticos?
Em analogia com o que sucede com as varia´veis e vectores aleato´rios, e´ tambe´m necessa´rio
conhecer algumas caracter´ısticas dos processos estoca´sticos, como a distribuic¸a˜o ou os valores
esperados, bem como descrever a respectiva estrutura de dependeˆncia.
O aspecto chave a ter em atenc¸a˜o e´ que um processo estoca´stico na˜o e´ mais, afinal, do que
uma famı´lia de varia´veis aleato´rias indexadas por um paraˆmetro t, que varia no conjunto
de ı´ndices T . Assim, parece natural descrever a distribuic¸a˜o de um processo estoca´stico X
atrave´s da especificac¸a˜o da distribuic¸a˜o conjunta de n v.a. Xt1 , Xt2 , ..., Xtn , para todo o
n = 1, 2, ... e para todos os poss´ıveis valores t1, t2, ..., tn ∈ T.
Def. 18: Distribuic¸o˜es Dimensionalmente Finitas (fidis)
Distribuic¸o˜es dimensionalmente finitas (fidis) de um processo estoca´stico X sa˜o todas as
distribuic¸o˜es dos vectores de dimensa˜o finita (Xt1 , Xt2 , ..., Xtn), n = 1, 2, ...; t1, t2, ..., tn ∈ T.
Pode considerar-se que a famı´lia das suas fidis e´ a distribuic¸a˜o de um processo estoca´stico.
Ex. 12 (Processo Gaussiano)
Um processo estoca´stico diz-se Gaussiano quando todas as suas fidis sa˜o Gaussianas. Recor-
dando que o conhecimento dos paraˆmetros µ e Σ e´ suficiente para a caracterizac¸a˜o de uma
distribuic¸a˜o Gaussiana, basta enta˜o conhecer µ e Σ de cada vector referido na Def. 18 para
se caracterizar a distribuic¸a˜o de um processo estoca´stico Gaussiano.
So´ para ilustrar, se o processo estoca´stico X e´ tal que Xt ∼ N(0, 1), t ∈ T = [−5, 5], sendo
as v.a. mutuamente independentes, enta˜o as fidis correspondem a func¸o˜es de distribuic¸a˜o
da forma
F (Xt1 , Xt2 , ..., Xtn) = P (Xt1 ≤ x1, Xt2 ≤ x2, ..., Xtn ≤ xn)
= P (Xt1 ≤ x1)P (Xt2 ≤ x2)...P (Xtn ≤ xn)
= Φ(x1)Φ(x2)...Φ(xn)
(−5 ≤ t1 ≤ t2 ≤ · · · ≤ tn ≤ 5; (x1, x2, ..., xn) ∈ Rn).
Def. 19: Func¸a˜o Valor Esperado e Func¸a˜o Covariaˆncia
Seja X um processo estoca´stico.
Admitindo que os valores esperados indicados existem:
a) A func¸a˜o valor esperado de X e´
µX(t) = µXt = E[Xt], t ∈ T.
b) A func¸a˜o covariaˆncia de X e´:
cX(t, s) = cov(Xt, Xs) = E[(Xt − µX(t))(Xs − µX(s))], t, s ∈ T.
17
Quando s = t tem-se a func¸a˜o variaˆncia de X,
σ2X(t) = cX(t, t) = var(Xt), t ∈ T.
• A func¸a˜o valor esperado fornece a me´dia do processo ao longo do tempo (a ”trajecto´ria
esperada”). Como sucedia anteriormente, e´ em torno de µX(t) que se localizam, com
uma maior intensidade, as trajecto´rias.
• A func¸a˜o variaˆncia pode igualmente considerar-se como medindo a dispersa˜o das poss´ıveis
trajecto´rias do processo relativamente a µX(t).
• A func¸a˜o covariaˆncia continua a ser uma medida da dependeˆncia. Claro que, tal como
se viu no ponto anterior para os vectores aleato´rios, se o espac¸o dos estados e´ discreto,
a func¸a˜o valor esperado pode corresponder a uma trajecto´ria na˜o observa´vel.
Ex. 12 (Cont.)
Retomando o processo estoca´stico X, tal que Xt ∼ N(0, 1), t ∈ T = [−5, 5] e as v.a.
mutuamente independentes, e´ imediato que
µX(t) ≡ 0 e cX(t, s) =
{
1, se t = s
0, se t 6= s
Def. 20: Processo Estoca´stico Estritamente Estaciona´rio
Diz-se que o processo estoca´stico (Xt, t ∈ T ), T ⊂ R, e´ estritamente (ou fortemente) esta-
ciona´rio quando os vectores (Xt1 , Xt2 , ..., Xtn) e (Xt1+h, Xt2+h, ..., Xtn+h) sa˜o identicamente
distribu´ıdos para todas as poss´ıveis escolhas de ı´ndices t1, t2, ..., tn ∈ T, n = 1, 2, ..., e qual-
quer h : t1 + h, t2 + h, ..., tn + h ∈ T. Simbolicamente,
(Xt1 , Xt2 , ..., Xtn)
d
=
(Xt1+h, Xt2+h, ..., Xtn+h).
A definic¸a˜o de processo fortemente estaciona´rio implica que todos os vectores de dimensa˜o
finita, qualquer que esta seja, teˆm a mesma distribuic¸a˜o, desde que igualmente desfasados,
ou seja, essa distribuic¸a˜o e´ independente de t para os mesmos desfasamentos. Verifica-se
que se esta´ perante uma caracter´ıstica de aleatoridade na˜o altera´vel ao longo do tempo, ao
contra´rio do que sucede com os chamados processos evolutivos. A estrutura de dependeˆncia
descrita pelas fidis ou pela func¸a˜o covariaˆncia e´ invariante face a desfasamentos no tempo.
Ex. 13 (Processo Gaussiano estritamente estaciona´rio)
Considere-se um processo estoca´stico Gaussiano (Xt, t ∈ T ).
Uma vez que um processo Gaussiano e´ determinado pela func¸a˜o valor esperado e pela func¸a˜o
covariaˆncia, e´ imediato que se tem um processo Gaussiano estritamente estaciona´rio quando
µX(t+ h) = µX(t) e cX(t+ h, s+ h) = cX(t, s),∀s, t ∈ T e h : s+ h, t+ h ∈ T,
18
o que, por sua vez, ainda se reduz a
µX(t) ≡ µX(0) e cX(t, s) = c˜X(|t− s|), para alguma func¸a˜o c˜X .
Observa-se assim que a estacionaridade estrita nos processos Gaussianos significa que a
func¸a˜o valor esperado e´ nula e que a func¸a˜o covariaˆncia so´ depende da distaˆncia |t− s|. Na
figura 3 tem-se um processo Gaussiano estritamente estaciona´rio.
Def. 21: Processo Estoca´stico de Incrementos Estaciona´rios
Diz-se que o processo estoca´stico (Xt, t ∈ T ), T um intervalo de nu´meros reais, tem incre-
mentos estaciona´rios quando
Xt −Xs d= Xt+h −Xs+h,∀ s, t ∈ T e h : s+ h, t+ h ∈ T.
Def. 22: Processo Estoca´stico de Incrementos Independentes
Diz-se que o processo estoca´stico (Xt, t ∈ T ), T um intervalo de nu´meros reais, tem incre-
mentos independentes quando sa˜o independentes as v.a.
Xt2 −Xt1 , ..., Xtn −Xtn−1 ,∀ ti ∈ T : t1 < · · · < tn, n ≥ 1.
Na presenc¸a de um processo com incrementos independentes, o conhecimento das distribuic¸o˜es
das v.a. Xt e Xt −Xs,∀ s, t, permite deduzir a distribuic¸a˜o de qualquer vector aleato´riode
dimensa˜o finita, ficando deste modo completamente estabelecida a distribuic¸a˜o do processo
(todas as suas fidis). Todos os processos com incrementos independentes sa˜o processos de
Markov (ver Def. 11).
Ex. 14 (Processo de Poisson homoge´neo)
Um processo estoca´stico (Xt, t ∈ [0,∞)) diz-se um processo homoge´neo de Poisson, ou apenas
processo de Poisson, com intensidade (ou taxa) λ > 0, se satisfaz as condic¸o˜es seguintes:
• Inicia-se com X0 = 0
• Tem incrementos estaciona´rios e independentes
• Xt ∼ Poi(λt),∀ t > 0.
Pela estacionaridade dos incrementos,Xt−Xs, t > s, tem a mesma distribuic¸a˜o queXt−s=Xt−s−
X0, ou seja, Xt −Xs ∼ Poi(λ(t− s)), t > s.
O processo de Poisson, em conjunto com as suas modificac¸o˜es e ramificac¸o˜es, e´ de extrema
importaˆncia e tem uma grande variedade de aplicac¸o˜es nos mais diversos domı´nios. Sendo
um processo de contagem, dado o intervalo de tempo [0, t], pode usar-se para modelar, entre
muitos outros:
• o nu´mero de chamadas telefo´nicas processadas por um dado operador
• o nu´mero de clientes que chegam a determinada fila de espera
• o nu´mero de sinistros provocados por certa carteira de apo´lices.
Nos processos de Poisson a estacionaridade dos incrementos exclui a existeˆncia de variac¸o˜es
sazonais na intensidade das ocorreˆncias e a independeˆncia exclui a existeˆncia de reacc¸o˜es em
cadeia. Sa˜o cadeias de Markov em tempo cont´ınuo.
19
20
21
1.5 Movimento Browniano
Def. 23: Movimento Browniano (Processo de Wiener)
Um processo estoca´stico B = (Bt, t ∈ [0,∞)) diz-se um movimento Browniano, ou processo
de Wiener, quando:
• Se inicia com B0 = 0
• Tem incrementos estaciona´rios e independentes
• Bt ∼ N(0, t),∀ t > 0
• As trajecto´rias sa˜o func¸o˜es cont´ınuas de t.
1.5.1 Propriedades do Movimento Browniano
P1- As fidis do movimento Browniano sa˜o Gaussianas multi-dimensionais, donde se conclui
que o movimento Browniano e´ um processo Gaussiano.
Dem: Tendo em conta o facto de B ter incrementos independentes, basta conhecer a
distribuic¸a˜o do incremento Bt−Bs, s < t, para se determinar a distribuic¸a˜o do processo.
Ora, uma vez que Bt ∼ N(0, t),∀ t > 0, e´ imediato que Bt − Bs tem tambe´m dis-
tribuic¸a˜o normal, pelas propriedades desta distribuic¸a˜o.
P2- As v.a. Bt −Bs, s < t, e Bt−s teˆm valor esperado nulo e variaˆncia t− s.
Dem: Resulta da estacionaridade dos incrementos. Bt −Bs tem a mesma distribuic¸a˜o
de Bt−s − B0 = Bt−s, que tem distribuic¸a˜o normal de paraˆmetros 0 e t − s (cf. Def.
23).
Verifica-se que a variaˆncia e´ igual a` amplitude do intervalo [s, t]: quanto maior esta
amplitude, maiores sera˜o as flutuac¸o˜es do processo no intervalo.
P3- (a) µB(t) = E[Bt] = 0, t ≥ 0; (b) cB(t, s) = min(s, t), 0 ≤ s < t.
Dem: (a) resulta da Def. 23; Quanto a (b), basta recorrer a` independeˆncia dos incre-
mentos para ver que
cB(t, s) = E[(Bt − 0)(Bs − 0)] = E[BtBs] = E[[(Bt −Bs) +Bs]Bs]
= E[(Bt −Bs)Bs] + E[B2s ] = E[(Bt −Bs)(Bs −B0)] + (E[B2s ]− 02)
= E[Bt −Bs]E[Bs −B0] + V ar(Bs) = E[Bt −Bs]E[Bs] + V ar(Bs)
= 0 + s = s
Observac¸o˜es:
• Ainda que Bt −Bs d= Bt−s, em geral, Bt(ω)−Bs(ω) 6= Bt−s(ω).
22
• As definic¸o˜es do processo de Poisson e do processo de Wiener diferem apenas na dis-
tribuic¸a˜o dos incrementos. No processo de Poisson, as trajecto´rias sa˜o func¸o˜es em
escada e no movimento Browniano sa˜o func¸o˜es cont´ınuas. Assim como o processo de
Poisson e´ uma cadeia de Markov em tempo cont´ınuo, tambe´m o movimento Browniano
e´ um processo de difusa˜o.
• E´ fa´cil verificar que o movimento Browniano e´ 0.5-auto-semelhante, ou seja, que
(T 0.5Bt1 , ..., T
0.5Btn)
d
=
(BTt1 , ..., BTtn),∀ T > 0,
qualquer escolha de ti ≥ 0, i = 1, ..., n, n ≥ 1.
Com efeito, basta ver que os dois vectores aleato´rios em causa, ambos com distribuic¸a˜o
Gaussiana, teˆm a mesma me´dia e a mesma matriz de variaˆncias e covariaˆncias. Intui-
tivamente, a auto-semelhanc¸a (que e´ uma propriedade relativa a` distribuic¸a˜o, na˜o a`s
trajecto´rias) implica que o padra˜o de cada trajecto´ria apresenta configurac¸o˜es similares
em qualquer intervalo de tempo, pequeno, ou grande, adaptada a escala. Na˜o sa˜o, no
entanto, iguais.
A presenc¸a de auto-semelhanc¸a e´ particularmente u´til na simulac¸a˜o de trajecto´rias. Se
o que se pretende e´ simular uma trajecto´ria no intervalo [0, T ], e´ suficiente gera´-la em
[0, 1], e reescalonar o intervalo com o factor T e a trajecto´ria com o factor T 0.5.
• As trajecto´rias do movimento Browniano, ainda que cont´ınuas, sa˜o extremamente ir-
regulares, devido a` independeˆncia dos incrementos. De modo particular, incrementos
em intervalos adjacentes sa˜o independentes, seja qual for a amplitude daqueles. Em
consequeˆncia, as trajecto´rias deste tipo de processo estoca´stico na˜o sa˜o diferencia´veis
em nenhum ponto t: o gra´fico da func¸a˜o muda de uma forma completamente im-
previs´ıvel na vizinhanc¸a de qualquer ponto. Apesar da dificuldade em conceber uma
func¸a˜o assim, a verdade e´ que o movimento Browniano e´ considerado uma muito boa
aproximac¸a˜o para muitos feno´menos reais.
• O movimento Browniano apresenta variac¸a˜o na˜o limitada em qualquer intervalo finito
[0, T ], isto e´,
sup
τ
n∑
i=1
|Bti(ω)−Bti−1(ω)| =∞,
supremo calculado considerando todas as poss´ıveis partic¸o˜es τ : 0 = t0 < · · · < tn = T
de [0, T ].
• Ficando os processos Gaussianos completamente caracterizados pela func¸a˜o valor es-
perado e pela func¸a˜o covariaˆncia, pode redefinir-se movimento Browniano.
Def. 23’: Movimento Browniano (Processo de Wiener)
Movimento Browniano e´ um processo Gaussiano com
µB(t) ≡ 0 e cB(t, s) = min(s, t).
23
24
25
1.5.2 Processos Derivados do Movimento Browniano
Sa˜o processos com relevaˆncia pra´tica, definidos a` custa do movimento Browniano, B =
(Bt, t ∈ [0,∞)).
Def. 24: Ponte Browniana
Ponte Browniana e´ o processo
Xt = Bt − tB1, 0 ≤ t ≤ 1.
Claro que X0 = B0 − 0B1 = 0 e X1 = B1 − 1B1 = 0. As fidis sa˜o Gaussianas e X e´ um
processo Gaussiano, pelo que
µX(t) ≡ 0 e cX(t, s) = min(t, s)− ts; σ2X(t) = t(1− t), s, t ∈ [0, 1].
Def. 25: Movimento Browniano com deriva
Movimento Browniano com deriva (linear) e´ o processo estoca´stico
Xt = µt+ σBt, t ≥ 0, µ e σ > 0 constantes reais.
X e´ ainda um processo Gaussiano e
µX(t) = µt e cX(t, s) = σ
2min(t, s), s, t ≥ 0.
A func¸a˜o valor esperado µX(t) = µt, que corresponde a` deriva determin´ıstica do processo,
determina essencialmente a configurac¸a˜o das trajecto´rias.
Def. 26: Movimento Browniano Geome´trico
No seu trabalho, Bachelier concluiu que o prec¸o dos activos com maior risco era bem descrito
pelo movimento Browniano. Sendo um processo Gaussiano, o movimento Browniano pode
contudo assumir valores negativos, o que na˜o e´ aceita´vel para prec¸os. Black, Scholes e Merton
sugeriram enta˜o outro processo estoca´stico como modelo para os prec¸os especulativos, seja
Xt = e
µt+σBt, t ≥ 0,
que na˜o e´ mais do que a exponencial do movimento Browniano com deriva. Se bem que este
ja´ na˜o seja um processo Gaussiano (as suas fidis ja´ na˜o sa˜o Gaussianas), e´ relativamente
fa´cil calcular a func¸a˜o valor esperado e a func¸a˜o covariaˆncia.
Comecemos por calcular E[eλZ ], Z ∼ N(0, 1). Vem
E[eλZ ] =
1√
2pi
∫ ∞
−∞ e
λxe
−z2
2 dz = e
λ2
2
∫ ∞
−∞
1√
2pi
e
−(z−λ)2
2 dz = e
λ2
2 .
(Note-se que 1√
2pi
e
−(z−λ)2
2 e´ a expressa˜o da func¸a˜o de densidade de uma v.a. com distribuic¸a˜o
N(λ, 1).)
26
Recorrendo a` igualdade E[eλz] = eλ
2/2 e a` auto-semelhanc¸a do movimento Browniano, que
permite escrever t0.5B1 = Bt×1 = Bt, obte´m-se
µX(t) = e
µtE[eσBt] = eµtE[eσt
0.5B1] = eµte0.5σ
2t = e(µ+0.5σ
2)t,
pois B1 ∼ N(0, 1) e E[eσt0.5B1 ] = e(σt0.5)2/2 = e0.5σ2t.
Para s ≤ t, Bt −Bs e Bs sa˜o independentes e Bt −Bs d= Bt−s, vindo enta˜o
cX(t, s) = E[XtXs]−E[Xt]E[Xs]
= eµ(t+s)E
[
eσ(Bt+Bs)
]− e(µ+0.5σ2)(t+s)
= eµ(t+s)E
[
eσ[(Bt−Bs)+2Bs]
]− e(µ+0.5σ2)(t+s)
= eµ(t+s)E
[
eσ(Bt−Bs)
]
E
[
e2σBs
]− e(µ+0.5σ2)(t+s)
= e(µ+0.5σ
2)(t+s)(eσ
2s − 1).
A func¸a˜o variaˆncia do movimento Browniano geome´trico e´ σ2X(t) = e
(2µ+σ2)t(eσ
2t−1).
Def. 27: Ru´ıdo Branco e Ru´ıdo Colorido
Chama-se Ru´ıdo Branco ao processo em tempo discreto (sucessa˜o de v.a. i.i.d - ou apenas
na˜o correlacionadas) (Xt, t ∈ T ), tal que:
E[Xt] ≡ µ; V ar(Xt) ≡ σ2; cX(t, s) ≡ 0.
Chama-se Ru´ıdo Colorido ao processo estoca´stico que se define
Xt =
Bt+h −Bt
h
, t ≥ 0,
onde h > 0 e´ uma constante.
O ru´ıdo colorido e´ uma aproximac¸a˜o do ru´ıdo branco. E´ fa´cil deduzir que
µX(t) ≡ 0 e cX(t, s) = h−2[(s+ h)−min(s+ h, t)], s ≤ t.
Note-se ainda que cX(t, s) = 0, se t − s ≥ h, donde Xt e Xs sa˜o independentes, mas
se t − s < h, cX(t, s) = h−2[h − (t − s)]. Mais ainda, sendo X Gaussiano e sendo cX(t, s)
func¸a˜o apenas de t− s, tem-se um processo estritamente estaciona´rio (cf. Ex. 13). A func¸a˜o
variaˆncia σ2X(t) ≡ h−1 evidencia que as flutuac¸o˜es do ru´ıdo colorido se tornam maiores, a`
medida que h diminui.
27
28
1.6 Valores Esperados Condicionados
A noc¸a˜o de valor esperado condicionado e´ fundamental para a compreensa˜o das martingalas
e dos integrais estoca´sticos de Itoˆ, que sera˜o estudados mais adiante. E´ uma das noc¸o˜es
mais complexas da teoria da probabilidade, mas tambe´m uma das suas ferramentas mais
poderosas.
1.6.1 A Abordagem Cla´ssica de Valor Esperado Condicionado - Exemplos
Vai comec¸ar-se com um exemplo mais ou menos exaustivo da abordagem cla´ssica, normal-
mente introduzida recorrendo ao caso simples de um vector aleato´rio bidimensional com
dada distribuic¸a˜o conjunta. Separando o caso cont´ınuo do caso discreto, va˜o ilustrar-se
sucessivamente:
1. as distribuic¸o˜es marginais
2. os valores esperados na˜o condicionados
3. as variaˆncias na˜o condicionadas
4. as distribuic¸o˜es condicionadas
5. os valores esperados condicionados
6. as variaˆncias condicionadas
7. as curvas de regressa˜o (tipo I)
Caso Cont´ınuo
f (x, y) = 8xy 0 < x < 1; 0 < y < x
1. f1(x) =
∫+∞
−∞ f (x, y) dy =
∫ x
0 8xydy = 4x
3, 0 < x < 1
f2(y) =
∫+∞
−∞ f (x, y) dx =
∫ 1
y 8xydx = 4y(1− y2), 0 < y < 1
2. E [X] =
∫+∞
−∞
∫+∞
−∞ xf (x, y) dydx =
∫ 1
0
∫ x
0 x (8xy) dydx =
4
5
ou
E [X] =
∫+∞
−∞ xf1 (x) dx =
∫ 1
0 x
(
4x3
)
dx = 45
E [Y ] =
∫+∞
−∞
∫+∞
−∞ yf (x, y) dxdy =
∫ 1
0
∫ 1
y y (8xy) dxdy =
8
15
ou
E [Y ] =
∫+∞
−∞ yf2 (y) dy =
∫ 1
0 y
(
4y − 4y3) dy = 815
29
E
[
X2
]
=
∫+∞
−∞
∫+∞
−∞ x
2f (x, y) dydx =
∫ 1
0
∫ x
0 x
2 (8xy) dydx = 23
ou
E
[
X2
]
=
∫+∞
−∞ x
2f1 (x) dx =
∫ 1
0 x
2
(
4x3
)
dx = 23
E
[
Y 2
]
=
∫+∞
−∞
∫+∞
−∞ y
2f (x, y) dxdy =
∫ 1
0
∫ 1
y y
2 (8xy) dxdy = 13
ou
E
[
Y 2
]
=
∫+∞
−∞ y
2f2 (y) dy =
∫ 1
0 y
2
(
4y − 4y3) dy = 13
3. V ar (X) =
∫+∞
−∞
∫+∞
−∞ (x− E [X])2 f (x, y) dydx = E
[
X2
]− (E [X])2
= 23 −
(
4
5
)2
= 275
V ar (Y ) =
∫+∞
−∞
∫+∞
−∞ (y − E [Y ])2 f (x, y) dxdy = E
[
Y 2
]− (E [Y ])2
= 13 −
(
8
15
)2
= 11225
4. f(x|y) = f(x,y)f2(y) =
8xy
4y−4y3 =
2x
1−y2y < x < 1 (y fixo em (0, 1))
f(y|x) = f(x,y)f1(x) =
8xy
4x3 =
2y
x20 < y < x (x fixo em (0, 1))
5. E [X|y] = ∫+∞−∞ xf (x|y) dx = ∫ 1y x 2x1−y2dx = 23 y2+y+1y+1 (y fixo em (0, 1)
E [Y |x] = ∫+∞−∞ yf (y|x) dy = ∫ x0 y 2yx2dy = 23x (x fixo em (0, 1))
6. V ar (X|y) = E [X2|y]− (E [X|y])2 =?
E
[
X2|y] = ∫+∞−∞ x2f (x|y) dx = ∫ 1y x2 2x1−y2dx = 12y2+ 12 (y fixo em (0, 1))
V ar (X|y) = E [X2|y]− (E [X|y])2 = (12y2 + 12)−
(
2
3
y2+y+1
y+1
)2
= 118
y4+2y3−6y2+2y+1
(y+1)2
(y fixo em (0, 1))
30
V ar (Y |x) = E [Y 2|x]− (E [Y |x])2 =?
E
[
Y 2|x] = ∫+∞−∞ y2f (y|x) dy = ∫ x0 y2 2yx2dy = 12x2 (x fixo em (0, 1))
V ar (Y |x) = E [Y 2|x] − (E [Y |x])2 = 12x2 − (23x)2 = 118x2 (x fixo em
(0, 1))
Ha´ igualdades importantes, envolvendo valores esperados iterados, que
se verificam de seguida:
Verificac¸a˜o das igualdades E [E [X|Y ]] = E [X] e E [E [Y |X]] = E [Y ]:
E [E [X|Y ]] = E
[
2
3
Y 2+Y+1
Y+1
]
=
∫+∞
−∞
2
3
y2+y+1
y+1 f2(y)dy
=
∫ 1
0
8
3
y2+y+1
y+1
(
y − y3) dy = 45 = E[X]
E [E [Y |X]] = E [23X] = 23E [X] = 23 × 45 = 815 = E[Y ]
Verificac¸a˜o das igualdades V ar (X) = V ar (E [X|Y ]) +E [V ar (X|Y )] e
V ar (Y ) = V ar (E [Y |X]) + E [V ar (Y |X)]:
V ar (E [X|Y ]) = V ar
(
2
3
Y 2+Y+1
Y+1
)
= E
[(
2
3
Y 2+Y+1
Y+1 − 45
)2]
=
∫ 1
0
(
2
3
y2+y+1
y+1 − 45
)2
(4y −−4y3)dy = 556225 − 329 ln 2
E [V ar (X|Y )] = E
[
1
18
Y 4+2Y 3−6Y 2+2Y+1
(Y+1)2
]
=
∫+∞
−∞
1
18
y4+2y3−6y2+2y+1
(y+1)2
f2 (y) dy
=
∫ 1
0
1
18
y4+2y3−6y2+2y+1
(y+1)2
(
4y − 4y3) dy = −229 + 329 ln 2
V ar (E [X|Y ]) + E [V ar (X|Y )] = (556225 − 329 ln 2)+ (−229 + 329 ln 2)
= 275 = V ar (X)
V ar (E [Y |X]) = V ar (23X) = (23)2 V ar [X] = 49 × 275 = 8675
E [V ar (Y |X)] = E [ 118X2] = 118E [X2] = 118 × 23 = 127
V ar (E [Y |X]) + E [V ar (Y |X)] = 8675 + 127 = 11225 = V ar (Y ) .
31
7. Curva de Regressa˜o (Tipo I) de X sobre Y:
{(x, y) : x = E [X|y] , f2(y) > 0} =
{
(x, y) : x = 23
y2+y+1
y+1 , 0 < y < 1
}
Curva de Regressa˜o (Tipo I) de Y sobre X:
{(x, y) : y = E [Y |x] , f1(x) > 0} =
{
(x, y) : y = 23x, 0 < x < 1
}
Caso Discreto
f (x, y) = x+y32 , x = 1, 2; y = 1, 2, 3, 4
1. f1(x) =
4∑
y=1
f (x, y) =
4∑
y=1
x+y
32 =
1
8x+
5
16 , x = 1, 2
f2(y) =
2∑
x=1
f (x, y) =
2∑
x=1
x+y
32 =
3
32 +
1
16y, y = 1, 2, 3, 4
2. E [X] =
2∑
x=1
4∑
y=1
xf (x, y) =
2∑
x=1
4∑
y=1
x
(
x+y
32
)
= 2516
ou
E [X] =
2∑
x=1
xf1 (x) =
2∑
x=1
x
(
1
8x+
5
16
)
= 2516
E [Y ] =
2∑
x=1
4∑
y=1
yf (x, y) =
2∑
x=1
4∑
y=1
y
(
x+y
32
)
= 4516
ou
E [Y ] =
4∑
y=1
yf2 (y) =
4∑
y=1
y
(
3
32 +
1
16y
)
= 4516
E
[
X2
]
=
2∑
x=1
4∑
y=1
x2f (x, y) =
2∑
x=1
4∑
y=1
x2
(
x+y
32
)
= 4316
ou
E
[
X2
]
=
2∑
x=1
x2f1 (x) =
2∑
x=1
x2
(
1
8x+
5
16
)
= 4316
E
[
Y 2
]
=
2∑
x=1
4∑
y=1
y2f (x, y) =
2∑
x=1
4∑
y=1
y2
(
x+y
32
)
= 14516
ou
E
[
Y 2
]
=
4∑
y=1
y2f2 (y) =
4∑
y=1
y2
(
3
32 +
1
16y
)
= 14516
32
3. V ar (X) =
2∑
x=1
4∑
y=1
(x− E [X])2 f (x, y) = E [X2]− (E [X])2
= 4316 −
(
25
16
)2
= 63256
V ar (Y ) =
2∑
x=1
4∑
y=1
(y − E [Y ])2 f (x, y) = E [Y 2]− (E [Y ])2
= 14516 −
(
45
16
)2
= 295256
4. f(x|y) = f(x,y)f2(y) =
x+y
32
3
32+
1
16y
= x+y3+2y , x = 1, 2 (y fixo em {1, 2, 3, 4})
f(y|x) = f(x,y)f1(x) =
x+y
32
1
8x+
5
16
= x+y4x+10 , y = 1, 2, 3, 4 (x fixo em {1, 2})
5. E [X|y] = 2∑
x=1
xf (x|y) = 2∑
x=1
x
(
x+y
3+2y
)
= 3y+53+2y (y fixo em {1, 2, 3, 4})
E [Y |x] = 4∑
y=1
yf (y|x) = 4∑
y=1
y x+y4x+10 =
5x+15
2x+5 (x fixo em {1, 2})
6. V ar (X|y) = E [X2|y]− (E [X|y])2 =?
E
[
X2|y] = 2∑
x=1
x2f (x|y) = 2∑
x=1
x2
(
x+y
3+2y
)
= y+13+2y + 4
2+y
3+2y (y fixo em
{1, 2, 3, 4})
V ar (X|y) = E [X2|y]− (E [X|y])2 = ( y+13+2y + 4 2+y3+2y
)
−
(
3y+5
3+2y
)2
= 5y+93+2y − (3y+5)
2
(3+2y)2
(y fixo em {1, 2, 3, 4})
V ar (Y |x) = E [Y 2|x]− (E [Y |x])2 =?
E
[
Y 2|x] = 4∑
y=1
y2f (y|x) = 4∑
y=1
y2 x+y4x+10 =
15x+50
2x+5 (x fixo em{1, 2})
V ar (Y |x) = E [Y 2|x]− (E [Y |x])2 = (15x+502x+5 )− (5x+152x+5 )2 = 5x2+5x+5(2x+5)2
(x fixo em {1, 2})
33
Verificac¸a˜o das igualdades E [E [X|Y ]] = E [X] e E [E [Y |X]] = E [Y ]:
E [E [X|Y ]]= E [3Y+53+2Y ] = 4∑y=1
(
3y+5
3+2y
)
f2 (y) =
4∑
y=1
(
3y+5
3+2y
) (
3
32 +
1
16y
)
= 2516 = E [X]
E [E [Y |X]] = E [5X+152X+5 ] = 2∑x=1
(
5x+15
2x+5
)
f1 (x) =
2∑
x=1
(
5x+15
2x+5
) (
1
8x+
5
16
)
= 4516 = E [Y ] .
Verificac¸a˜o das igualdades V ar (X) = V ar (E [X|Y ]) +E [V ar (X|Y )] e
V ar (Y ) = V ar (E [Y |X]) + E [V ar (Y |X)]:
V ar (E [X|Y ]) = V ar (3Y+53+2Y ) = E
[(
3Y+5
3+2Y − 2516
)2]
=
4∑
y=1
(
3y+5
3+2y − 2516
)2 ( 3
32 +
1
16y
)
= 311887 040
E [V ar (X|Y )] = E
[
5y+9
3+2y − (3y+5)
2
(3+2y)2
]
=
4∑
y=1
(
5y+9
3+2y − (3y+5)
2
(3+2y)2
) (
3
32 +
1
16y
)
= 17036930
V ar (E [X|Y ]) + E [V ar (X|Y )] = 311887 040 + 17036930 = 63256 = V ar (X) .
V ar (E [Y |X]) = V ar (5X+152X+5 ) = E
[(
5X+15
2X+5 − 4516
)2]
=
2∑
x=1
(
5x+15
2x+5 − 4516
)2 (1
8x+
5
16
)
= 2516 128
E [V ar (Y |X)] = E
[
5x
2+5x+5
(2x+5)2
]
=
2∑
x=1
(
5x
2+5x+5
(2x+5)2
) (
1
8x+
5
16
)
= 145126
V ar (E [X|Y ]) + E [V ar (X|Y )] = 2516 128 + 145126 = 295256 = V ar (Y ) .
7. Curva de Regressa˜o (Tipo I) de X sobre Y:
{(x, y) : x = E [X|y] ef2(y) > 0} =
{
(x, y) : x = 3y+53+2y , y ∈ {1, 2, 3, 4}
}
=
{
(85 , 1), (
11
7 , 2), (
14
9 , 3), (
17
11 , 4)
}
34
Curva de Regressa˜o (Tipo I) de Y sobre X:
{(x, y) : y = E [Y |x] e f1(x) > 0} =
{
(x, y) : y = 5x+152x+5 , x ∈ {1, 2}
}
=
{
(1, 207 ),
(
2, 259
)}
No caso discreto, como e´ sabido, pode escrever-se f(x, y) na forma de tabela e efectuar todos
os ca´lculos a partir desta. As diferentes func¸o˜es vira˜o definidas com va´rios ramos e os valores
esperados condicionados tera˜o de ser obtidos um a um.
1.6.2 Valores Esperados Condicionados - Condic¸a˜o Discreta
Def. 28: Probabilidade Condicionada
Sejam A e B acontecimentos associados a` realizac¸a˜o de uma experieˆncia aleato´ria, tais que
P (B) > 0. A probabilidade da realizac¸a˜o de A, condicionada a` realizac¸a˜o de B, ou proba-
bilidade de A dado B, e´
P (A|B) = P (A
⋂
B)
P (B)
.
E´ evidente que (ver Def. 15)
P (A|B) = P (A)⇔ A e B acontecimentos independentes.
O facto de se saber que B se realizou opera uma reduc¸a˜o no espac¸o de resultados relevantes,
que se restringe assim ao acontecimento B, ou seja, passa a considerar-se o espac¸o Ω′ = B.
Claro que A
⋂
B ⊂ Ω′,∀A ⊂ Ω, mas como e´ necessa´rio normalizar as probabilidades, estas
teˆm que ser divididas por P (B).
Def. 29: Func¸a˜o de Distribuic¸a˜o Condicionada. Valor Esperado Condicionado
pela Realizac¸a˜o de um Acontecimento
Seja X uma v.a. e seja B um acontecimento, tal que P (B) > 0.
A func¸a˜o de distribuic¸a˜o condicionada da v.a. X, dado o acontecimento B, e´
FX(x|B) = P (X ≤ x,B)
P (B)
, x ∈ R.
O valor esperado condicionado da v.a. X, dado o acontecimento B, e´
E[X|B] = E[XIB]
P (B)
, IB =
{
1, se ω ∈ B
0, se ω /∈ B .
IB e´ a chamada func¸a˜o indicatriz do acontecimento B.
Como se sabe (Def. 8), se X e´ v.a. discreta assumindo os valores x1, x2, ..., enta˜o
E[X|B] =
∞∑
k=1
xk
P ({ω : X(ω) = xk}⋂B)
P (B)
=
∞∑
k=1
xkP (X = xk|B)
Se X e´ v.a. cont´ınua, com func¸a˜o de densidade fX(x),
35
E[X|B] = 1
P (B)
∫ ∞
−∞
xIB(x)fX(x)dx =
1
P (B)
∫
B
xfX(x)dx.
Ex. 15 (Valor esperado condicionado de uma v.a. com distribuic¸a˜o uniforme)
Seja X(ω) = ω uma v.a. que assume valores no espac¸o (0, 1], munido de uma medida de
probabilidade P , tal que
P ((a, b]) = b− a, (a, b] ⊂ (0, 1].
X tem distribuic¸a˜o uniforme em (0, 1], isto e´, a sua densidade e´ fX(x) = 1, x ∈ (0, 1], (ver
Ex. 3) e a sua func¸a˜o de distribuic¸a˜o e´
FX(x) = P ({ω : X(ω) = ω ≤ x}) =

P (φ) = 0, x ≤ 0
P ((0, x]) = x, x ∈ (0, 1)
P ((0, 1]) = 1, x ≥ 1
.
Considere-se agora que se realizou um dos acontecimentos Ai = (
i−1
n
, i
n
], i = 1, ..., n. E´
imediato que P (Ai) =
1
n
, donde
E[X|Ai] = 1
P (Ai)
∫
Ai
xfX(x)dx = n
∫ i
n
i−1
n
xdx =
2i− 1
2n
.
O valor esperado condicionado E[X|Ai] e´ o valor esperado ”actualizado” de X, quando se
sabe que Ai ocorre. Por exemplo, com n = 6, quando se sabe que A3 = (
1
3
, 1
2
] se realizou,
tem-se E[X|A3] = 512 , o ponto me´dio de A3. Recorde-se que E[X] = 0.5. Quer dizer, o ponto
me´dio de A3 e´ o valor esperado condicionado pela realizac¸a˜o deste acontecimento. O ponto
me´dio de (0, 1], e´ o valor esperado na˜o condicionado.
Def. 30: Valor Esperado Condicionado por uma Varia´vel Aleato´ria Discreta
Seja A1, A2, ... uma partic¸a˜o de Ω (Ai
⋂
Aj = φ, i 6= j e
∞⋃
i=1
= Ω). Seja Y uma v.a. discreta
sobre Ω que assume o valor yi quando se realiza o acontecimento Ai, quer dizer, Ai = {ω :
Y (ω) = yi}, i = 1, 2, ... . Seja ainda X uma v.a. sobre Ω, tal que E[|X|] < ∞. Admita-se,
por convenieˆncia e sem perda de generalidade, que P (Ai) > 0,∀i.
Nestas condic¸o˜es, o valor esperado da v.a. X, dada a v.a. Y , e´ uma v.a. discreta (func¸a˜o
de Y ), que se define
E[X|Y ](ω) = E[X|Ai] = E[X|Y = yi], ω ∈ Ai, i = 1, 2, ... .
Da definic¸a˜o anterior resulta que, se se sabe que um particular Ai se realizou, basta ter em
atenc¸a˜o os resultados ω ∈ Ai. Nessas condic¸o˜es, cai-se na Def. 29, pois tem-se a particular
concretizac¸a˜o E[X|Y = yi] da v.a. E[X|Y ](ω).
36
Ex. 15 (Cont.)
Calculando todos os valores esperados E[X|Y ](ω) = E[X|Ai] = E[X|Y = yi], ω ∈ Ai, i =
1, 2, ... , quer dizer, percorrendo todos os acontecimentos Ai da partic¸a˜o, obte´m-se o conjunto
de todos os poss´ıveis valores assumidos pela v.a. E[X|Y ] - com Y a assumir o valor constante
yi no conjunto Ai =
(
i− 1
n
,
i
n
]
. Neste sentido, pode considerar-se que a v.a. E[X|Y ] na˜o
e´ mais do que uma ”versa˜o grosseira” da v.a. original X, isto e´, E[X|Y ] na˜o passa de uma
aproximac¸a˜o de X, quando se sabe que o acontecimento Ai se realizou (o valor esperado de
X, sob essa condic¸a˜o). A v.a. X e´ assim, de certo modo, figurada pela func¸a˜o determinista
E[X|Y ].
Algumas propriedades do valor esperado (da v.a.) E[X|Y ]
P1 - O valor esperado condicionado e´ um operador linear: Sendo X1 e X2 v.a. e c1 e c2
constantes,
E[(c1X1 + c2X2)|Y ] = c1E[X1|Y ] + c2E[X2|Y ].
Dem: Imediata, usando a definic¸a˜o de valor esperado.
P2 - E[X] = E[E[X|Y ]].
Dem: E[E[X|Y ]] =
∞∑
i=1
E[X|Ai]P (Ai) =
∞∑
i=1
E[XIAi ] = E
(
X
∞∑
i=1
IAi
)
= E[X].
(Note-se que se usou a igualdade
∞∑
i=1
IAi = I
⋃∞
i=1
Ai
= IΩ = 1.)
P3 - Se X e Y sa˜o independentes, enta˜o E[X|Y ] = E[X].
Dem: A independeˆncia entre X e Y implica que, sendo A um dado conjunto,
P (X ∈ A, Y = yi) = P (X ∈ A)P (Y = yi) = P (X ∈ A)P (Ai).
Por outro lado,
{ω : IAi(ω) = 1} = Ai = {ω : Y (ω) = yi},
pelo que P (X ∈ A, Y = yi) = P (X ∈ A, IAi = 1) = P (X ∈ A)P (IAi = 1).
Claro que, de modo ana´logo, se pode estabelecer que
P (X ∈ A, Y 6= yi) = P (X ∈ A, IAi = 0) = P (X ∈ A)P (IAi = 0).
Tem-se assim que as v.a. X e IAi sa˜o independentes e, para ω ∈ Ai,
E[X|Y ](ω) = E[X|Ai] = E[XIAi ]
P (Ai)
=
E[X]E[IAi ]
P (Ai)
= E[X],
pois E[IAi ] = 0P (A
c
i) + 1P (Ai) = P (Ai).
37
Em resumo:
• O valor esperado condicionado E[X|Y ], de uma v.a. X condicionada ao comporta-
mento de uma v.a. discreta Y , e´ tambe´m uma v.a. discreta - pois e´ func¸a˜o da v.a.
Y .
• Para cada conjunto Ai = {ω : Y (ω) = yi}, E[X|Y ] coincide com o valor esperado
condicionado cla´ssico E[X|Y = yi].
• De certa forma, E[X|Y ] e´ uma versa˜o grosseira da v.a. X (em termos de valores
esperados, quando se sabe algo sobre o comportamento da v.a. Y ).
• Quanto menos forem os valores assumidos pela v.a. Y , mais grosseira e´ a v.a. E[X|Y ],
como aproximac¸a˜o da v.a. X. No caso extremo em que Y assume um u´nico valor
com probabilidade 1 (v.a. degenerada), tem-se E[X|Y ] =E[X], quer dizer, E[X|Y ]
e´ tambe´m uma v.a. degenerada e, portanto, limita-se a aproximar X pelo seu valor
esperado.
• O valor esperado condicionado E[X|Y ] na˜o e´ func¸a˜o da v.a. X, somente de Y . A v.a.
X determina apenas o tipo de func¸a˜o. Com efeito,
E[X|Y ] = g(Y ), g(y) =
∞∑
i=1
E[X|Y ] = yiI{yi}(y).
1.6.3 σ−A´lgebras
Na anterior definic¸a˜o de valor esperado de uma v.a. X, condicionado a uma v.a. discreta
Y (Def. 30), ficou evidente que os valores concretos assumidos por Y na˜o sa˜o realmente
importantes na definic¸a˜o de E[X|Y ]. O aspecto essencial e´ que Y assuma valores distintos
nos conjuntos Ai da partic¸a˜o de Ω. Estes, sim, evidenciam o mecanismo aleato´rio presente
na experieˆncia.
Na realidade, e de uma forma mais geral, E[X|Y ] pode ser encarada como uma v.a. cons-
tru´ıda com base numa classe de subconjuntos de Ω, seja σ(Y ). Simbolicamente, tem-se
E[X|Y ] = E[X|σ(Y )].
Naturalmente, a classe σ(Y ) deve fornecer toda a informac¸a˜o necessa´ria sobre o comporta-
mento da v.a. Y , como func¸a˜o de ω ∈ Ω. Em termos mais precisos, σ(Y ) deve ser uma
σ−a´lgebra.
Como se viu atra´s (pa´g. 2), tal significa que:
• φ ∈ σ(Y ) e Ω ∈ σ(Y )
• Se A ∈ σ(Y ), enta˜o Ac ∈ σ(Y )
• Se A1, A2, ... ∈ σ(Y ) , enta˜o
∞⋃
i
Ai ∈ σ(Y ) e
∞⋂
i
Ai ∈ σ(Y ).
38
Chegados a este ponto, pode colocar-se a seguinte questa˜o: ”Dada uma classe C de subcon-
juntos de Ω, que na˜o e´ σ−a´lgebra, existe uma σ−a´lgebra, que pode ser considerada a menor
σ−a´lgebra a conter a classe C”?
A resposta e´ SIM, e tem-se ate´ a seguinte definic¸a˜o:
Def. 31: σ−a´lgebra gerada por uma classe C
Dada a classe C de subconjuntos de Ω, a menor σ−a´lgebra a conter C, represente-se por
σ(C), diz-se a σ−a´lgebra gerada por C.
Naturalmente, para se obter σ(C), basta juntar a C os necessa´rios subconjuntos de Ω.
Ex. 16 (σ−a´lgebras elementares)
F1 = {φ,Ω}
F2 = {φ,Ω, A,Ac}, A 6= φ,A 6= Ω
F3 = P(Ω) = {A : A ⊂ Ω}.
E´ imediato que
F1 = σ({φ}), isto e´, C = {φ}
F2 = σ({A}), isto e´, C = {A}
F3 = σ({F3}), isto e´, C = {A : A ⊂ Ω}.
A na˜o ser em casos muito simples, como os dois primeiros exemplos, na˜o e´ poss´ıvel ter uma
ideia concreta dos conjuntos que formam uma σ−a´lgebra. Uma excepc¸a˜o e´ a σ−a´lgebra
σ(Y ), obtida a partir de uma v.a. discreta Y .
Retome-se a v.a. discreta Y sobre Ω, que assume o valor yi quando se realiza o acontecimento
Ai, quer dizer,
Ai = {ω : Y (ω) = yi}, i = 1, 2, ... ,
os conjuntos Ai formando uma partic¸a˜o de Ω.
Fazendo C = {A1, A2, ...}, e´ imediato que devem pertencer a σ(C), a σ−a´lgebra gerada por
C, todos os conjuntos da forma
A =
⋃
i∈I
Ai,
I um qualquer subconjunto do conjunto N , incluindo I = φ (A = φ) e I = N (A = Ω).
E´ fa´cil verificar que a classe dos conjuntos A constitui ela pro´pria uma σ−a´lgebra, seja σ(Y ).
Ora, uma vez que os conjuntos A pertencem necessariamente a σ(C), que e´ por definic¸a˜o a
menor σ−a´lgebra contendo C, enta˜o tem-se σ(Y ) = σ(C): a σ−a´lgebra obtida a partir de Y
coincide com a σ−a´lgebra gerada por C.
E´ igualmente fa´cil concluir que pertencem a σ(Y ) todos os conjuntos da forma
Aa,b = {Y ∈ (a, b]} = {ω : a < Y (ω) ≤ b}, −∞ < a < b <∞,
39
pois I = {i : a < yi ≤ b} e´ um subconjunto de N e
Aa,b =
⋃
i∈I
{ω : Y (ω) = yi}.
Recorde-se (ver as Defs. 5 e 11) que intervalos deste tipo sa˜o imprescind´ıveis para a ca-
racterizac¸a˜o da distribuic¸a˜o de Y , seja esta discreta ou cont´ınua, seja uni-dimensional ou
n−dimensional, com n > 1.
Infelizmente, quando Y e´ v.a. cont´ınua, a` σ−a´lgebra gerada pelos conjuntos Ai = {ω :
Y (ω) = yi}, y ∈ R, na˜o pertencem os conjuntos {ω : a < Y (ω) ≤ b}. Sendo, no entanto,
necessa´rio garantir que esta´ preenchido o requisito mı´nimo de que tais conjuntos pertencem
a` σ−a´lgebra obtida a partir de Y , introduz-se uma nova definic¸a˜o, que se aplica a todas as
situac¸o˜es.
Def. 32: σ−a´lgebra gerada por um vector aleato´rio Y
Seja Y = (Y1, Y2, ..., Yn) um vector aleato´rio n−dimensional (n ≥ 1). Chama-se σ−a´lgebra
gerada por Y, e representa-se por σ(Y), a` menor σ−a´lgebra que conte´m todos os conjuntos
da forma
{Y ∈ (a,b]} = {ω : ai < Yi(ω) ≤ bi, i = 1, 2, ..., n}, −∞ < aj < bj <∞, j = 1, 2, ..., n.
Esta definic¸a˜o esta´ estreitamente ligada a` chamada σ−a´lgebra de Borel, cujos elementos sa˜o
os Borelianos (ver nota da pa´g. 2). Se tomarmos genericamente Ω = R e C(1) = {(a, b] :
−∞ < a < b < ∞}, a` σ−a´lgebra B1 = σ(C(1)) pertencem todos os subconjuntos de R
”razoa´veis”. B1 e´ a σ−a´lgebra de Borel3. De modo ana´logo, a σ−a´lgebra dos Borelianos de
Rn e´ Bn = σ(C(n)),
C(n) = {(a,b] : −∞ < ai < bi <∞, i = 1, 2, ..., n}.
Ilustrando com o caso em que Y e´ uma v.a., Y : Ω → R, diz-se que um conjunto A ⊂ Ω e´
determinado pela v.a. Y se, conhecendo-se apenas o valor Y (ω), assumido pela v.a., e´ poss´ıvel
decidir se ω ∈ A. Por outras palavras, ∀y ∈ R, e´ poss´ıvel determinar se Y −1(y) ⊂ A ou se
Y −1(y)
⋂
A = φ. A classe de subconjuntos de Ω assim determinados por Y e´ a σ−a´lgebra
gerada por Y, σ(Y ). Corresponde a` informac¸a˜o veiculada pela varia´vel aleato´ria Y .
Mais ainda, quando Y e´ v.a. discreta, σ(Y ) e´ gerada pela classe de conjuntos {Y −1(Y (ω))|ω ∈
Ω}, como se viu. Em geral, para qualquer v.a. Y : Ω → R, σ(Y ) e´ dada por σ(Y ) =
{Y −1(B)|B ∈ σ−a´lgebra de Borel}.
Da mesma forma, se se considera um qualquer elemento de σ(Y) ficam a conhecer-se os
resultados ω ∈ Ω para os quais Y assume valores num rectaˆngulo (a,b] (ou noutro tipo
de Boreliano). Por outras palavras: a σ−a´lgebra gerada por Y conte´m toda a informac¸a˜o
3Se se pretende provar que um determinado subconjunto C de Rn e´ um Boreliano, basta mostrar que
C se pode obter a` custa das operac¸o˜es
⋂
,
⋃
e passagem ao complementar, efectuadas sobre os rectaˆngulos
(a,b].
40
essencial sobre a estrutura do vector aleato´rio Y, como func¸a˜o de ω ∈ Ω, pois conte´m todos
os conjuntos da forma {ω : Y ∈ C},∀C ⊂ Rn.
Se Y e´ um processo estoca´stico, a Def. 32 tem que ser reformulada.
Def. 33: σ−a´lgebra Gerada por um Processo Estoca´stico Y
Seja Y = (Yt, t ∈ T, ω ∈ Ω) um processo estoca´stico. Chama-se σ−a´lgebra gerada por Y , e
representa-se por σ(Y ), a` menor σ−a´lgebra que conte´m todos os conjuntos da forma
{ω : a trajecto´ria (Yt(ω), t ∈ T ) pertence a C},
C um qualquer conjunto ”adequado” de func¸o˜es com domı´nio T.
Ex. 17 (σ−a´lgebra gerada por um movimento Browniano)
Seja B = (Bs, s ≤ t) um movimento Browniano no intervalo [0, t].
A σ−a´lgebra Ft = σ(B) = σ(Bs, s ≤ t), que e´ a menor σ−a´lgebra contendo a informac¸a˜o
essencial sobre a estrutura do processo, e´ gerada pelos conjuntos
At1,...tn(C) = {ω : (Bt1(ω), ..., Btn(ω)) ∈ C},
para todo o Boreliano C de Rn e toda a escolha dos ı´ndices ti ∈ [0, t], n ≥ 1.
A Def. 33 e´ necessariamente vaga, devido ao reduzido instrumental teo´rico a que se faz apelo,
mas deixa entrever que σ(Y ) na˜o e´ um ser trivial - o que, de certa forma, e´ evidenciado
tambe´m pelo Ex. 17. Para se tentar conseguir uma ideia mais precisa sobre σ(Y ) costuma
ter-se presente a ideia base, repetidas vezes apresentada, de que
Para uma varia´vel aleato´ria (vector aleato´rio, ou processo estoca´stico) Y sobre Ω,
a σ−a´lgebra σ(Y ) gerada por Y conte´m a informac¸a˜o essencial sobre a estrutura
de Y como func¸a˜o de ω ∈ Ω. E´ assim formada pelos subconjuntos {ω : Y (ω) ∈ C},
para todo o conjunto ”adequado” C.
Na medida em que Y gera uma σ−a´lgebra, diz-se tambe´m que Y conte´m a
informac¸a˜o representada por σ(Y ), ou ainda que Y transporta a informac¸a˜o
σ(Y ). Note-se que os elementos de σ(Y ) sa˜o subconjuntos de Ω, o espac¸o de
resultados da experieˆncia aleato´ria (a ge´nese de tudo).
Uma u´ltima nota: Seja f uma func¸a˜o de Y e considerem-se os subconjuntos de Ω
{ω : f(Y (ω)) ∈ C},
definidos a` custa dos ja´ habituais conjuntos ”adequados” C.
Quando a func¸a˜o f e´ bem comportada,verifica-se que tambe´m estes novos conjuntos per-
tencem a σ(Y ), isto e´, verifica-se que
σ(f(Y )) ⊂ σ(Y ).
41
Tambe´m daqui resulta que uma func¸a˜o f , actuando sobre Y , na˜o fornece nenhuma in-
formac¸a˜o adicional sobre a estrutura de Y . Diz-se enta˜o que a informac¸a˜o associada a f(Y )
esta´ contida em σ(Y ).
Ex. 18 (Func¸a˜o de um movimento Browniano)
Seja o movimento Browniano B = (Bs, s ≤ t), t ≥ 0 e definam-se as σ−a´lgebras Ft =
σ(B) = σ(Bs, s ≤ t), t ≥ 0.
Considere-se a func¸a˜o f(B) = Bt, para um t fixo. Dado que ja´ e´ conhecida toda a estrutura
do processo B, tambe´m se conhece a estrutura da v.a. Bt, donde resulta que σ(Bt) ⊂ Ft. A
afirmac¸a˜o rec´ıproca e´ claramente falsa. Conhecendo apenas a distribuic¸a˜o de Bt, claro que
na˜o se consegue reconstituir todo o processo B = (Bs, s ≤ t), t ≥ 0.
1.6.4 Valor Esperado Condicionado Geral
Na Def. 30 introduz-se o valor esperado de uma v.a. X, condicionado por uma v.a. discreta
Y , E[X|Y ]. Tal definic¸a˜o na˜o faz uso directo dos valores yi assumidos pela v.a. Y, mas antes
dos subconjuntos Ai de Ω, Ai = {ω : Y (ω) = yi}. Foi visto tambe´m que, nessas condic¸o˜es,
a classe dos conjuntos Ai gera a σ−a´lgebra σ(Y ).
Vai agora introduzir-se o conceito de valor esperado condicionado geral, dada uma σ−a´lgebra
F sobre Ω, represente-se por E[X|F ]. Nas aplicac¸o˜es interessantes considera-se F = σ(Y ),
sendo Y varia´vel aleato´ria, vector aleato´rio ou processo estoca´stico, no entendimento de que
a informac¸a˜o essencial sobre a estrutura de Y esta´ contida em σ(Y ), por si gerada.
A este propo´sito, e´ ainda u´til reter o seguinte:
Sejam Y, Y1 e Y2 varia´veis aleato´rias, vectores aleato´rios ou processos estoca´sticos
sobre Ω e seja F uma σ−a´lgebra tambe´m sobre Ω.
• Diz-se que a informac¸a˜o de Y esta´ contida em F , ou que Y na˜o conte´m mais
informac¸a˜o do que aquela que esta´ contida em F , quando σ(Y ) ⊂ F .
• Diz-se que Y2 conte´m mais informac¸a˜o do que Y1, quando σ(Y1) ⊂ σ(Y2).
Def. 34: Valor Esperado Condicionado por uma σ−a´lgebra
Uma v.a. Z e´ designada o valor esperado de uma v.a. X, condicionado a uma σ−a´lgebra
F , e escreve-se Z = E[X|F ], se:
• σ(Z) ⊂ F , quer dizer, Z na˜o conte´m mais informac¸a˜o do que a que e´ dada por F .
• Z verifica a condic¸a˜o E[XIA] = E[ZIA],∀A ∈ F .
A definic¸a˜o de valor esperado condicionado, dada uma σ−a´lgebra F , como sendo uma v.a.
remonta a Kolmogorov. Quando E[|X|] < ∞, demonstram-se a existeˆncia e unicidade de
E[X|F ]. Com efeito, desde que E[|X|] <∞, ha´ sempre uma varia´vel aleato´ria Z a satisfazer
aquelas duas condic¸o˜es, isto e´, o valor esperado condicionado existe. Tambe´m se verifica que
42
na˜o pode haver mais do que uma varia´vel aleato´ria Z a satisfazer as duas condic¸o˜es, pois
se houver uma outra varia´vel aleato´ria Z ′ que as satisfac¸a, enta˜o quase certamente Z = Z ′,
quer dizer, P [ω ∈ Ω;Y (ω) = Y ′(ω)] = 1.
Observac¸o˜es:
1. A condic¸a˜o E[XIA] = E[ZIA],∀A ∈ F , mostra que as v.a. X e Z sa˜o aproximadas,
na˜o no sentido em que X(ω) = Z(ω),∀ω, mas no sentido em que os valores esperados
de X e de Z sa˜o iguais em determinados conjuntos A (os conjuntos que pertencem a
F). Como foi visto atra´s, Z = E[X|F ] e´ uma versa˜o grosseira da v.a. original X.
2. A experieˆncia aleato´ria e´ executada, ou seja, um elemento ω e´ seleccionado. O valor
de ω e´ parcialmente revelado, mas na˜o o suficiente para que se possa calcular X(ω).
No entanto, com base no que se sabe a respeito de ω, vai calcular-se uma estimativa de
X(ω). Porque esta estimativa depende do conhecimento parcial disponibilizado sobre
ω, e´ func¸a˜o de ω, isto e´, E[X|F ] depende de ω, mesmo que essa dependeˆncia na˜o
aparec¸a de forma expl´ıcita. Se a σ−a´lgebra F tem um grande nu´mero de elementos,
pode considerar-se que existe em F um conjunto A que e´ igual a` intersecc¸a˜o de todos os
conjuntos da σ−a´lgebra a que pertence o resultado ω. O modo como ω e´ parcialmente
revelado por F consiste precisamente em ser-nos dito que o resultado da experieˆncia
e´ ω ∈ A - mas na˜o nos ser dito de que elemento de A se trata. Nessas condic¸o˜es,
E[X|F ](ω) e´ o valor esperado de X sobre o conjunto A. De tal forma que, qualquer
que seja o resultado ω ∈ A, o valor esperado condicionado E[X|F ](ω) e´ sempre igual.
3. A Def. 34 possibilita que haja variantes na definic¸a˜o de E[X|F ]. Estas variantes Z ′
apenas diferem de Z em conjuntos de probabilidade nula, pelo que todas as relac¸o˜es
envolvendo E[X|F ] devem aceitar-se como ”quase certas”.
Ex. 19 (Valor esperado condicionado - condic¸a˜o discreta)
Na secc¸a˜o 1.4.1 (Def. 30) viu-se que
E[X|Y ](ω) = E[X|Ai] = E[X|Y = yi], ω ∈ Ai, i = 1, 2, ... .
Por outro lado, nos para´grafos que se seguiram ao Ex. 16, verificou-se que cada elemento A
de σ(Y ) e´ da forma
A =
⋃
i∈I
Ai =
⋃
i∈I
{ω : Y (ω) = yi}, I ⊂ N.
Mais ainda, viu-se que E[X|Y ](ω) = Z(ω), ω ∈ Ai, sendo Z apenas func¸a˜o de Y , na˜o de X.
Logo, sendo func¸a˜o de Y , na˜o conte´m mais informac¸a˜o do que Y .
Daqui se retira a primeira conclusa˜o:
σ(Z) ⊂ σ(Y ).
Para se verificar a segunda condic¸a˜o, basta ter em atenc¸a˜o que, sendo A =
⋃
i∈I
Ai, se pode
escrever
E[XIA] = E
[
X
∑
i∈I
IAi
]
=
∑
i∈I
E[XIAi ],
43
o que permite concluir ser
E[ZIA] =
∑
i∈I
E[X|Ai]P (Ai) =
∑
i∈I
E[XIAi ] = E[XIA].
Verifica-se que Z satisfaz a Def. 34 e e´ na realidade o valor esperado condicionado de X,
dada a σ−a´lgebra σ(Y ). A Def. 30 e´ o caso particular da Def. 34, quando a condic¸a˜o e´
discreta.
O exemplo anterior mostra que, quando Y e´ v.a. discreta, E[X|Y ] e E[X|σ(Y )] representam
a mesma v.a.. A definic¸a˜o seguinte generaliza essa ideia.
Def. 35: Valor Esperado de uma Varia´vel Aleato´ria X Condicionado por uma
Varia´vel Aleato´ria, um Vector Aleato´rio ou um Processo Estoca´stico Y
Seja Y uma v.a., um vector aleato´rio ou um processo estoca´stico sobre Ω e seja σ(Y ) a
σ−a´lgebra gerada por Y .
O valor esperado condicionado de uma v.a. X, dado Y , define-se
E[X|Y ] = E[X|σ(Y )].
Ex. 20 (Valor esperado condicionado e probabilidade condicionada cla´ssica)
A probabilidade condicionada e os valores esperados condicionados no sentido cla´ssico tambe´m
sa˜o casos particulares da definic¸a˜o geral de valor esperado.
Seja B um acontecimento, tal que P (B) > 0, e P (Bc) > 0. Ja´ se sabe que FB = σ(B) =
{φ,Ω, B,Bc} e que E[X|FB](ω) = E[X|B], ω ∈ B.
Esta e´ a noc¸a˜o cla´ssica de valor esperado.
De modo semelhante, se se especificar que X = IA, para algum acontecimento A, obte´m-se
E[IA|FB](ω) = E[IA|B] = P (A
⋂
B)
P (B)
, ω ∈ B,
que e´ a probabilidade condicionada de A dado B.
1.6.5 Regras para o Ca´lculo do Valor Esperado Condicionado
A definic¸a˜o 34 na˜o e´ construtiva, pelo que, em geral, na˜o se consegue calcular E[X|F ]. O caso
em que F = σ(Y ), Y , v.a. discreta, e´ uma excepc¸a˜o. No entanto, mesmo na˜o se conhecendo
a forma do valor esperado condicionado e´ necessa´rio considera´-lo e ter em atenc¸a˜o algumas
regras que se aplicam ao seu ca´lculo.
• Regra 1
O valor esperado condicionado e´ um operador linear: SeX1 eX2 sa˜o varia´veis aleato´rias
e c1 e c2 sa˜o constantes,
E[(c1X1 + c2X2)|F ] = c1E[X1|F ] + c2E[X2|F ].
Dem: Imediata, aplicando a Def. 34.
44
• Regra 2
Sendo X varia´vel aleato´ria, o valor esperado condicionado de X e´ um estimador na˜o
enviesado da varia´vel aleato´ria X, ou seja,
E[X] = E[E[X|F ]].
Dem: Imediata, fazendo A = Ω, na Def. 34.
• Regra 3
Se a varia´vel aleato´ria X e a σ−a´lgebra F sa˜o independentes, enta˜o E[X|F ] = E[X].
Em particular, se X e Y sa˜o independentes, enta˜o E[X|Y ] = E[X].
Dem: se X e F sa˜o independentes, enta˜o X e IA sa˜o independentes, ∀A ∈ F . Assim
sendo,
E[XIA] = E[X]E[IA] = E[X]P (A) = E[E[X]IA], A ∈ F .
Considerando a Def. 34, vem que a v.a. (degenerada) Z = E[X] e´ E[X|F ]. Se
F e´ independentede X, nada se ganha ao incluir-se a informac¸a˜o contida em F na
estimac¸a˜o de X, pois essa informac¸a˜o na˜o tem nada a dizer sobre o comportamento de
X.
• Regra 4
Se σ(X) ⊂ F , enta˜o E[X|F ] = X. Em particular, se X e´ func¸a˜o de Y, σ(X) ⊂ σ(Y ) e
E[X|Y ] = X.
Dem: A informac¸a˜o contida em F fornece todo o conhecimento sobre X, o que permite
escrever
E[X|F ](ω) = E[X(ω)|F ] = X(ω)E[1|F ] = X(ω)× 1 = X(ω).
Se a informac¸a˜o contida em F e´ suficiente para determinar X (e se σ(X) ⊂ F isso
acontece), enta˜o a melhor estimativa para X, baseada na informac¸a˜o dada por F , e´ ela
pro´pria. No fundo, e´ como se calcula´ssemos E[X|x] = x, percorrendo todos os poss´ıveis
valores x. Ou seja, e´ como se calcula´ssemos E[X|X], que so´ pode ser a pro´pria X.
Generalizando a Regra 4, obte´m-se a Regra 5.
• Regra 5
Se σ(X) ⊂ F , enta˜o, qualquer que seja a varia´vel aleato´ria G,
E[XG|F ] = XE[G|F ].
Em particular, se X e´ func¸a˜o de Y, σ(X) ⊂ σ(Y ) e E[XG|Y ] = XE[G|Y ].
45
• Regra 6
Se F e F ′ sa˜o duas σ−a´lgebras e F ⊂ F ′, enta˜o:
(a) E[X|F ] = E[E[X|F ′]|F ]
(b) E[X|F ] = E[E[X|F ]|F ′].
Dem: (a) A Def. 34 estabelece que, para A ∈ F e Z = E[X|F ], E[XIA] = E[ZIA]; por
outro lado, pela Regra 5, se A ∈ F ⊂ F ′, enta˜o E[E[X|F ′]|F ]IA = E[E[X|F ′]IA|F ] =
E[E[XIA|F ′]|F ]. Tomando valores esperados desta u´ltima igualdade e aplicando a
Regra 2, vem E[E[E[X|F ′]|F ]IA] = E[XIA]. Daqui resulta que Z ′ = E[E[X|F ′]|F ]
tambe´m satisfaz E[XIA] = E[ZIA], mas como E[X|F ] e´ unica, deve ter-se Z = Z ′.
Por outras palavras: se F ⊂ F ′, F ′ conte´m mais informac¸a˜o do que F . Se es-
timamos X com base na informac¸a˜o fornecida por F ′ (calculando E[X|F ′]), e de
seguida estimamos o estimador com base numa menor quantidade de informac¸a˜o (cal-
culando E[E[X|F ′]|F ]), so´ poderemos obter o mesmo resultado que ter´ıamos obtido se
houve´ssemos estimadoX directamente a partir de F (ou seja, se houve´ssemos calculado
directamente E[X|F ]).
(b) Pela Regra 4: Uma vez que F ⊂ F ′, E[X|F ] na˜o conte´m mais informac¸a˜o do que
F ′, isto e´, pode lidar-se com E[X|F ] como se fosse constante. Enta˜o,
E[E[X|F ]|F ′] = E[X|F ]E[1|F ′] = E[X|F ].
A Regra 7 e´ uma generalizac¸a˜o da Regra 3.
• Regra 7
Se a varia´vel aleato´ria X e´ independente de F e a informac¸a˜o dada pela varia´vel
aleato´ria (vector aleato´rio, ou processo estoca´stico) G esta´ contida em F , enta˜o, para
qualquer func¸a˜o h(x, y),
E[h(X,G)|F ] = E[EX [h(X,G)]|F ],
onde EX [h(X,G)] significa que G esta´ fixa e o valor esperado se calcula apenas relati-
vamente a X.
Ex. 21 (Ilustrac¸a˜o da Regra 7)
Sejam X e Y varia´veis aleato´rias independentes. As Regras 7 e 5 permitem estabelecer:
E[XY |Y ] = E[EX(XY )|Y ] = E[Y E[X]|Y ] = Y E[X]
E[X + Y |Y ] = E[EX [X + Y ]|Y ] = E[X] + Y.
Ex. 22 (Aplicac¸a˜o ao movimento Browniano)
Comecemos por recordar que um processo estoca´stico B = (Bt, t ∈ [0,∞)) se diz um movi-
mento Browniano, ou processo de Wiener, quando:
46
• Se inicia com B0 = 0
• Tem incrementos estaciona´rios e independentes
• Bt ∼ N(0, t),∀ t > 0
• As trajecto´rias sa˜o func¸o˜es cont´ınuas de t.
Associe-se a B uma corrente crescente de informac¸a˜o acerca da estrutura do processo, repre-
sentada pelas σ−a´lgebras Fs = σ(Bx, x ≤ s). O objectivo e´ calcular
E[Bt|Fs] = E[Bt|Bx, x ≤ s], s ≥ 0.
Claramente, se s ≥ t,Fs ⊃ Ft e da Regra 4 resulta E[Bt|Fs] = Bt.
Quando s < t, pela Regra 1,
E[Bt|Fs] = E[(Bt −Bs) +Bs|Fs] = E[(Bt −Bs)|Fs] + E[Bs|Fs].
Tendo em atenc¸a˜o que Bt − Bs e Fs sa˜o independentes, pois Fs na˜o tem nada a dizer
sobre o incremento Bt − Bs, vem E[(Bt − Bs)|Fs] = E[Bt − Bs], pela Regra 3. Claro que
E[Bt−Bs] = 0. Mais ainda, σ(Bs) ⊂ σ(Bx, x ≤ s) = Fs, donde E[Bs|Fs] = Bs e, finalmente,
E[Bt|Fs] = E[Bs|Fs] = Bs = Bmin(t,s).
Ex. 22 (Cont. - Aplicac¸a˜o ao quadrado do movimento Browniano)
Seja agora o processo estoca´stico Xt = B
2
t − t, t ≥ 0. Por processo ana´logo ao visto atra´s,
chega-se a` igualdade
E[Xt|Fs] = Xt, s ≥ t.
Para s < t vem B2t − t = [(Bt −Bs) +Bs]2 − t = (Bt −Bs)2 +B2s + 2Bs(Bt −Bs)− t.
Tomando valores esperados condicionados, fica
E[Xt|Fs] = E[(Bt −Bs)2|Fs] + E[B2s |Fs] + 2E[Bs(Bt −Bs)|Fs]− t.
Notando que Bt − Bs e (Bt − Bs)2 sa˜o independentes de Fs e que σ(B2s ) ⊂ σ(Bs) ⊂ Fs, e
aplicando as Regras 3, 4 e 5, chega-se a
E[Xt|Fs] = E[(Bt −Bs)2] +B2s + 2BsE[Bt −Bs]− t = (t− s) +B2s + 0− t = Xs.
Em suma: E[Xt|Fs] = Xmin(t,s). Atente-se que E[(Bt − Bs)2] = (t− s)E[(Bt−Bs√t−s )2] =
(t− s), pois Bt−Bs√
t−s ∼ N(0, 1), donde (Bt−Bs√t−s )2 ∼ χ2(1) e E[(Bt−Bs√t−s )2] = 1.
47
1.6.6 O Valor Esperado Condicionado como Projecc¸a˜o
Seja F a σ−a´lgebra habitual e seja L2F a famı´lia de varia´veis aleato´rias Z com domı´nio Ω
a satisfazer as condic¸o˜es
• E[Z2] <∞
• A informac¸a˜o dada por Z esta´ contida em F : σ(Z) ⊂ F
A varia´vel aleato´ria E[X|F ] pode interpretar-se como sendo uma versa˜o actualizada do valor
esperado de X, dada a informac¸a˜o F . Goza da seguinte importante propriedade:
Se X e´ uma varia´vel aleato´ria com E[X2] < ∞, o valor esperado condicionado E[X|F ] e´ a
varia´vel aleato´ria da famı´lia L2F que se encontra ”‘mais pro´xima da varia´vel aleato´ria X,
no sentido da me´dia quadra´tica”’, isto e´:
E[X − E[X|F ]]2 = min
Z ∈ L2F E[(X − Z)
2].
Quer dizer: E[X|F ] e´ a projecc¸a˜o ortogonal da varia´vel aleato´ria X sobre o espac¸o L2F das
varia´veis aleato´rias Z, que conteˆm alguma da informac¸a˜o dada por F .
Observac¸o˜es:
• No caso particular em que F = σ(Y ), E[X|Y ] e´ a func¸a˜o de Y que tem segundo
momento finito e esta´ mais pro´xima de X, em termos da me´dia quadra´tica.
• Algumas vezes, diz-se que E[X|F ] e´ a melhor previsa˜o de X, dada F . Pode ilustrar-se
o que isto significa com o Ex. 22.
No Ex. 22, concluiu-se que E[Bt|Bx, x ≤ s] = Bs e que E[B2t − t|Bx, x ≤ s] = B2s − s.
Assim sendo, podera´ entender-se que a melhor previsa˜o para os valores futuros Bt e
B2t − t, dada a informac¸a˜o sobre o movimento Browniano (o quadrado do movimento
Browniano) ate´ ao tempo presente, s, e´ fornecida pelos valores presentes dos processos,
Bs e B
2
s−s, respectivamente. Pode adiantar-se que esta e´ a propriedade que caracteriza
a classe das martingalas com segundo momento finito: a melhor previsa˜o dos valores
futuros do processo estoca´stico e´ o valor observado no presente.
1.7 Martingalas
1.7.1 Propriedades Definidoras
A noc¸a˜o de martingala e´ crucial para a compreensa˜o do integral estoca´stico de Itoˆ, pois os
integrais estoca´sticos indefinidos de Itoˆ sa˜o constru´ıdos de forma a constituir martingalas.
Def. 36: Filtrac¸a˜o
Seja {Ft, t ≥ 0} uma famı´lia de σ−a´lgebras sobre o mesmo espac¸o Ω, cada σ−a´lgebra Ft
uma subclasse duma σ−a´lgebra F , tambe´m sobre Ω.
A famı´lia {Ft, t ≥ 0}, diz-se uma filtrac¸a˜o se
Fs ⊂ Ft, 0 ≤ s ≤ t.
48
Se (Fn, n = 0, 1, 2, ....) e´ uma sucessa˜o de σ−a´lgebras sobre Ω e Fn ⊂ Fn+1,∀n, Fn diz-se
igualmente uma filtrac¸a˜o.
Nas aplicac¸o˜es para no´s relevantes, uma filtrac¸a˜o esta´ normalmente ligada a um processo
estoca´stico.
Def. 37: Processo Estoca´stico Adaptado a uma Filtrac¸a˜o
Diz-se que um processo estoca´stico Y = (Yt, t ≥ 0) se encontra adaptado a` filtrac¸a˜o {Ft, t ≥
0} quando
σ(Yt) ⊂ Ft, t ≥ 0.
Observac¸o˜es:
• Um processo estoca´stico Y esta´ sempre adaptado a` filtrac¸a˜o natural, que e´ a filtrac¸a˜o
por si gerada, Ft = σ(Ys, s ≤ t).
• A adaptibilidade de um processo estoca´stico Y a uma filtrac¸a˜o {Ft, t ≥ 0}, significa
que as varia´veis aleato´rias Yt na˜o trazem mais informac¸a˜o do que a dada por Ft. Ou
ainda que, para cada t, se a informac¸a˜o em Ft e´ conhecida, enta˜o tambe´m se conhece
o valor de Yt.
• Se Y = (Yn, n = 0, 1, ...) e´ um processo estoca´stico em tempo discreto, a adaptibilidade
e´ definida de forma ana´loga: para a filtrac¸a˜o (Fn, n = 0, 1, ...) exige-se que σ(Yn) ⊂ Fn.