Baixe o app para aproveitar ainda mais
Prévia do material em texto
Conceitos Ba´sicos da Teoria da Probabilidade1 Onofre Simo˜es Nu´cleo de Matema´tica Financeira (NMF) - CEMAPRE. 1Este texto e´ uma traduc¸a˜o, com algumas (poucas) adaptac¸o˜es, do primeiro cap´ıtulo do livro elementary stochastic calculus with Finance in View, de Thomas Mikosch. As figuras tambe´m foram retiradas da mesma obra. 1 Conceitos Ba´sicos da Teoria da Probabilidade 1.1 Varia´veis Aleato´rias Def. 1: Experieˆncia Aleato´ria Processo ou conjunto de circunstaˆncias, sujeito a` influeˆncia de factores casuais, capaz de produzir resultados observa´veis - ainda que incertos. Ex. 1: • observar o resultado do lanc¸amento de uma moeda. • registar o nu´mero de lanc¸amentos de um dado, ate´ se obter a pontuac¸a˜o 1. • registar a variac¸a˜o percentual dia´ria do ı´ndice PSI20 (sujeito a`s tendeˆncias econo´micas, aos interesses pol´ıticos e aos comportamentos individuais). • registar o prec¸o (Euros) do almoc¸o de terc¸a-feira pro´xima (resultante do jogo da con- correˆncia - disputado entre as empresas de restaurac¸a˜o, por um lado, e entre as em- presas e os consumidores, por outro). Def. 2: Espac¸o dos Resultados (de uma experieˆncia aleato´ria) E´ o conjunto de todos os resultados potencialmente observa´veis quando a experieˆncia se realiza, represente-se por Ω. Ex. 1 (Cont.): • Ω = {Sa´ıda de cara, Sa´ıda de coroa} • Ω = {1, 2, 3, ...} • Ω = R • Ω = {p : p ≥ 0}. O tratamento matema´tico das situac¸o˜es exige normalmente que a cada resultado da ex- perieˆncia aleato´ria se fac¸a corresponder um nu´mero real. Muitas vezes essa correspondeˆncia e´ automa´tica, nos outros casos e´ convencionada. Def. 3: Varia´vel Aleato´ria (v.a.) E´ toda a func¸a˜o real com domı´nio Ω, represente-se por X = X(ω). 1 Ex. 1 (Cont.): • No lanc¸amento da moeda, pode definir-se que X = X(ω) = { 0, se ω = cara 1, se ω = coroa • Nas restantes situac¸o˜es, a realizac¸a˜o da experieˆncia aleato´ria ja´ fornece resultados nume´ricos e pode fazer-se a associac¸a˜o automa´tica a varia´veis aleato´rias. Como descrever o comportamento de uma varia´vel aleato´ria X, em termos probabil´ısticos? Tome-se uma classe F de subconjuntos de Ω que seja uma σ-a´lgebra, isto e´, tal que: • φ ∈ F e Ω ∈ F • Se A ∈ F , enta˜o Ac ∈ F • Se A1, A2, ... ∈ F , enta˜o ∞⋃ i Ai ∈ F e ∞⋂ i Ai ∈ F . F deve ser constru´ıda de modo a conter todos os subconjuntos de Ω relevantes para a experieˆncia aleato´ria, e aos quais se possa atribuir uma probabilidade, designados aconte- cimentos. Quando Ω e´ um conjunto finito ou infinito numera´vel toma-se F =2Ω, a classe fundamental. Quando Ω e´ um conjunto infinito na˜o numera´vel toma-se a classe dos Bore- lianos.2 Na realidade, o que se pretende e´ que: • Ω ∈ F • φ ∈ F • Se A1, A2, ... ∈ F , enta˜o ⋃Ai ∈ F • Se A,B ∈ F , enta˜o A−B ∈ F • Se A1, A2, ... ∈ F , enta˜o ⋂Ai ∈ F . Ha´ va´rias abordagens poss´ıveis para a atribuic¸a˜o das probabilidades aos acontecimentos. Uma delas e´ a abordagem frequencista, que estabelece uma correspondeˆncia entre a proba- bilidade de realizac¸a˜o de um acontecimento e a frequeˆncia relativa estabilizada observada para esse acontecimento, apo´s um grande nu´mero de repetic¸o˜es da experieˆncia aleato´ria subjacente (lei dos grandes nu´meros). 2Um conjunto B ∈ R diz-se um conjunto de Borel, ou Boreliano, quando pode ser obtido a partir das operac¸o˜es ⋂ , ⋃ e passagem ao complementar, efectuadas sobre os conjuntos da classe I dos intervalos de nu´meros reais do tipo (a, b], a ≤ b. Os conjuntos abertos, os conjuntos fechados e os conjuntos numera´veis sa˜o Borelianos. 2 Ex. 1 (Cont.): Kerrich efectuou 10000 lanc¸amentos de uma moeda, tomando particular cuidado para que fossem feitos ao acaso. Os resultados figuram na tabela abaixo. Nu´mero de lanc¸amentos Nu´mero de caras Freq. relativa 1 0 0 5 2 0,4 10 4 0,4 100 44 0,44 1000 502 0,502 5000 2533 0,507 10000 5067 0,507 De acordo com a abordagem frequencista, ter-se-ia enta˜o P (X = x) = { 0.507, x = 0 0.493, x = 1 , pois { P (X = 0) = P ({ω : X(ω) = 0}) = P (sa´ıda de cara) P (X = 1) = P ({ω : X(ω) = 1}) = P (sa´ıda de coroa) Em resumo: a cada acontecimento A ∈ F a medida de probabilidade atribui um nu´mero P (A) ∈ [0, 1], que corresponde a` fracc¸a˜o das realizac¸o˜es de A, num nu´mero suficientemente grande de repetic¸o˜es da experieˆncia aleato´ria em causa. Propriedades elementares das medidas de probabilidade: • Se A,B ∈ F , enta˜o P (A⋃B) = P (A)+P (B)−P (A⋂B). Se A e B sa˜o acontecimentos incompat´ıveis (mutuamente exclusivos), P (A ⋃ B) = P (A) + P (B), pois A ⋂ B = φ • P (Ac) = 1− P (A) • P (Ω)=1; Ω diz-se o acontecimento certo • P (φ) = 0; φ diz-se o acontecimento imposs´ıvel. Def. 4: Func¸a˜o de Distribuic¸a˜o de uma v.a. Func¸a˜o de distribuic¸a˜o de uma v.a. X e´ uma func¸a˜o real, seja F (x), tal que F (x) = FX(x) = P (X ≤ x) = P ({ω : X(ω) ≤ x}), x ∈ R. Com a func¸a˜o de distribuic¸a˜o e´ poss´ıvel calcular as probabilidades de todos os acontecimen- tos. Basta ter em atenc¸a˜o que 3 • P (X ∈ (a, b]) = P ({ω : a < X(ω) ≤ b}) = F (b)− F (a), a < b • P (X = x) = P ({ω : X(ω) ≤ x})− P ({ω : X(ω) < x}) = F (x)− F (x− 0) Sendo poss´ıvel calcular a probabilidade de {ω : X(ω) ∈ B}, B um Boreliano, pode definir-se distribuic¸a˜o de uma v.a., noc¸a˜o equivalente a` de func¸a˜o de distribuic¸a˜o. Def. 5: Distribuic¸a˜o de uma v.a. Distribuic¸a˜o de uma v.a. X e´ uma func¸a˜o real, seja PX(B), tal que PX(B) = P (X ∈ B) = P ({ω : X(ω) ∈ B}), B um Boreliano. Def. 6: Varia´vel Aleato´ria Discreta Diz-se que a v.a. X e´ uma v.a. discreta quando a sua func¸a˜o de distribuic¸a˜o e´ da forma FX(x) = ∑ k:xk≤x pk, x ∈ R, pk = P (X = xk); 0 ≤ pk ≤ 1,∀k; ∞∑ k=1 pk = 1. Nestas condic¸o˜es, diz-se tambe´m que X tem func¸a˜o de distribuic¸a˜o e distribuic¸a˜o discretas. Uma v.a. discreta assume um nu´mero finito ou uma infinidade numera´vel de valores x1, x2, .... Sa˜o estes os pontos de descontinuidade de F (x): em x = xk a func¸a˜o tem um acre´scimo pk. Def. 7: Varia´vel Aleato´ria Cont´ınua Diz-se que a v.a. X e´ uma v.a. cont´ınua, com func¸a˜o de densidade fX(x) = f(x), quando a sua func¸a˜o de distribuic¸a˜o se pode escrever FX(x) = ∫ x −∞ fX(y)dy, x ∈ R; fX(x) ≥ 0,∀x ∈ R; ∫ ∞ −∞ fX(y)dy = 1. Nestas condic¸o˜es, diz-se tambe´m que X tem func¸a˜o de distribuic¸a˜o e distribuic¸a˜o cont´ınuas. Uma v.a. cont´ınua assume uma infinidade na˜o numera´vel de valores e, na˜o apresentando F (x) pontos de descontinuidade, tem-se P (X = x) = F (x)− F (x− 0) = 0,∀x ∈ R. Como e´ evidente, qualquer v.a. que tenha algum interesse de ordem pra´tica e´ na realidade uma varia´vel discreta, devido a`s limitac¸o˜es te´cnicas na medic¸a˜o. Apesar disso, e´ muitas vezes conveniente considera´-las como cont´ınuas, tanto do ponto de vista pra´tico, como do ponto de vista teo´rico. 4 Ex. 2 (Duas importantes distribuic¸o˜es discretas): • Distribuic¸a˜o Binomial Uma v.a. X tem distribuic¸a˜o binomial de paraˆmetros n e p, n ∈ N, p ∈ (0, 1), quando P (X = k) = ( n k ) pk(1− p)n−k, k = 0, 1, ..., n. Escreve-se X ∼ Bin(n, p). A func¸a˜o de distribuic¸a˜o e´ obtida acumulando os valores das probabilidades acima. Por exemplo, com n = 5 e p = 0.3, tem-se P (X = k) = 0.1681, k = 0 0.3602, k = 1 0.3087, k = 2 0.1323, k = 3 0.0284, k = 4 0.0023, k = 5 e F (x) = P (X ≤ x) = 0, x < 0 0.1681, 0 ≤ x ≤ 1 0.5283, 1 ≤ x ≤ 2 0.8370, 2 ≤ x ≤ 3 0.9693, 3 ≤ x ≤ 4 0.9977, 4 ≤ x ≤ 4 1, x ≥ 5 A distribuic¸a˜o binomial aplica-se quando ha´ uma sucessa˜o de n provas independentes de Bernoulli (experieˆncias aleato´rias que consistem em observar se se realiza um dado acontecimento, mantendo-se constante a probabilidade p de isso suceder). Nessas condic¸o˜es, a v.a.X representa o nu´mero de vezes que o acontecimento se realiza (o nu´mero de sucessos) nas n provas. • Distribuic¸a˜o de Poisson Uma v.a. X tem distribuic¸a˜o de Poisson de paraˆmetro λ, λ > 0, quando P (X = k) = e−λλk k! , k = 0, 1, 2, .... Escreve-se X ∼ Poi(λ). 5 Sendo discreta, tambe´m agora a func¸a˜o de distribuic¸a˜o e´ obtida acumulando os valores das probabilidades acima. Por exemplo, com λ = 2, tem-se P (X = k) = 0.1353, k = 0 0.2707, k = 1 0.2707, k = 2 0.1804, k = 3 0.0902, k = 4 0.0361, k = 5 0.0120, k = 6 0.0034, k = 7 0.0009, k = 8 0.0003, k = 9 e F (x) = P (X ≤ x) = 0, x < 0 0.1353, 0 ≤ x ≤ 1 0.4060, 1 ≤ x ≤ 2 0.6767, 2 ≤ x ≤ 3 0.8571, 3 ≤ x ≤ 4 0.9473, 4 ≤ x ≤ 5 0.9834, 5 ≤ x ≤ 6 0.9954, 6 ≤ x ≤ 7 0.9988, 7 ≤ x ≤ 8 0.9997, 8 ≤ x ≤ 9 1, x ≥ 9 A distribuic¸a˜o de Poisson aplica-se quando, verificadas certas hipo´teses, ha´ a neces- sidade de considerar fluxos de eventos casuais ao longo do tempo ou do espac¸o. O paraˆmetro λ exprime a intensidade me´dia com que as ocorreˆncias surgem, por unidade de tempo ou de espac¸o. A v.a. X representa o nu´mero dessas ocorreˆncias na mesma unidade de tempo ou de espac¸o. Tanto a distribuic¸a˜o binomial como a distribuic¸a˜o de Poisson esta˜o associadas a proces- sos de contagem. Ex. 3 (Duas importantes distribuic¸o˜es cont´ınuas): • Distribuic¸a˜o Normal (Gaussiana) Uma v.a. X tem distribuic¸a˜o normal de paraˆmetros µ e σ2, µ ∈ R, σ2 > 0 - e escreve-se X ∼ N(µ, σ2) - quando a sua func¸a˜o de densidade e´ fX(x) = 1√ 2piσ e− (x−µ)2 2σ2 , x ∈ R. 6 Se µ = 0 e σ2 = 1, escreve-se X ∼ N(0, 1) e diz-se que X tem distribuic¸a˜o ”normal- standard”. E´ fa´cil provar que, se X ∼ N(µ, σ2), enta˜o Z = X−µ σ ∼ N(0, 1). Chama-se a esta transformac¸a˜o a ”standardizac¸a˜o” da v.a. X. A func¸a˜o de densidade da v.a. Z e´ representada pela letra φ e a sua func¸a˜o de distribuic¸a˜o e´ Φ(z) = ∫ z −∞ φ(y)dy, z ∈ R. Encontram-se ambas largamente tabeladas. Por exemplo, se X ∼ N(2, 1.52), P (−1 < X < 3) = P (−1−2 1.5 < X−2 1.5 < 3−2 1.5 ) = P (−2 < Z < 2 3 ) = Φ(2 3 )− Φ(−2) = 0.7258 Muitas v.a. obedecem exactamente a` lei de probabilidade normal, nomeadamente v.a. que dizem respeito a feno´menos f´ısicos. Muitas outras teˆm distribuic¸o˜es que sa˜o aprox- imadamente normais, em particular, v.a. que dizem respeito a feno´menos biome´tricos. Uma vez que a distribuic¸a˜o normal tambe´m aparece como distribuic¸a˜o limite num grande nu´mero de situac¸o˜es, via Teorema do Limite Central, a sua aplicabilidade e´ muito vasta. • Distribuic¸a˜o Uniforme Uma v.a. X tem distribuic¸a˜o uniforme no intervalo (a, b) quando a sua func¸a˜o de densidade e´ fX(x) = 1 b− a, x ∈ (a, b). Escreve-se X ∼ U(a, b). A func¸a˜o de distribuic¸a˜o e´ F (x) = P (X ≤ x) = ∫ x −∞ f(y)dy = 0, x < a x−a b−a , a ≤ x < b 1, x ≥ b Um exemplo cla´ssico e´ o da pessoa que chega a` estac¸a˜o dos comboios sem ter a mais leve ideia sobre os hora´rios. Sabe apenas que parte um de 20 em 20 minutos. Se X e´ a v.a. que representa o tempo, em minutos, que a pessoa espera ate´ partir, e´ razoa´vel admitir que X ∼ U(0, 20), ou seja, que f(x) = 1 20 , x ∈ (0, 20). A probabilidade de ter que esperar mais de 15 minutos, por exemplo, e´ enta˜o P (X > 15) = 1−F (15) = 0.25. A distribuic¸a˜o uniforme e´ ainda muito u´til na simulac¸a˜o de observac¸o˜es das mais di- versas distribuic¸o˜es. 7 Def. 8: Me´dia, Variaˆncia e Outros Momentos Seja X uma v.a. a) A me´dia de X (ou valor me´dio, ou valor esperado, de X) se existir, e´: ∗ µX = E[X] = ∞∑ k=1 xkpk, se X e´ v.a. discreta, tal que pk = P (X = xk), k = 1, 2, ... ∗ µX = E[X] = ∫ ∞ −∞ xfX(x)dx, se X e´ v.a. cont´ınua com func¸a˜o de densidade fX(x). b) A variaˆncia de X, se existir, e´: ∗ σ2X = V ar(X) = ∞∑ k=1 (xk − µX)2pk, no caso discreto ∗ σ2X = V ar(X) = ∫ ∞ −∞ (xk − µX)2fX(x)dx, no caso cont´ınuo. c) O momento de ordem l ∈ N de X, se existir, e´: ∗ E[X l] = ∞∑ k=1 (xk) lpk, no caso discreto ∗ E[X l] = ∫ ∞ −∞ xlfX(x)dx, no caso cont´ınuo. d) Genericamente, se existir, o valor esperado duma qualquer v.a. g(X) e´: ∗ E[g(X)] = ∞∑ k=1 g(xk)pk, no caso discreto ∗ E[g(X)] = ∫ ∞ −∞ g(xk)fX(x)dx, no caso cont´ınuo. Os valores esperados acima existem quando as se´ries/os integrais envolvidos sa˜o absoluta- mente convergentes. A me´dia de X e´ o ”centro de gravidade” da distribuic¸a˜o de X. Em termos grosseiros, a me´dia representa o ponto na˜o aleato´rio, µX , em torno do qual mais se concentram os valores aleato´rios X(ω). Embora no caso discreto µX seja muitas vezes um valor na˜o assumido pela v.a., fornece sempre indicac¸o˜es valiosas sobre a ordem de grandeza desta. E´ tambe´m um meio fa´cil de prever valores futuros nas sucesso˜es cronolo´gicas. A variaˆncia de X mede a dispersa˜o dos valores X(ω), em torno de µX . Tratando-se de um momento de segunda ordem, vem expressa em [unidades de X]2. Para ultrapassar esta limitac¸a˜o, costuma usar-se tambe´m como medida de dispersa˜o o chamado desvio padra˜o, a raiz quadrada da variaˆncia. Prova-se que se pode estabelecer a igualdade V ar(X) = E[X2]− (µX)2. 8 Ex. 4: Basta efectuar os ca´lculos para se deduzir que: • Se X ∼ Bin(n, p), E[X] = np e V ar(X) = np(1− p) • Se X ∼ Poi(λ), E[X] = λ e V ar(X) = λ • Se X ∼ N(µ, σ2), E[X] = µ e V ar(X) = σ2 • Se X ∼ U(a, b), E[X] = a+b 2 e V ar(X) = (b−a) 2 12 . 1.2 Vectores Aleato´rios Def. 9: Vector aleato´rio Diz-se queX = (X1, X2, . . . , Xn) e´ um vector aleato´rio n-dimensional se as suas componentes, X1, X2, . . . , Xn, sa˜o v.a. Ex. 5: • X = (X1, X2) e´ o vector aleato´rio que representa os resultado de dois lanc¸amentos de uma moeda suposta equilibrada. Sendo X1 = { 0, se sai cara no primeiro lanc¸amento 1, se sai coroa no primeiro lanc¸amento e X2 = { 0, se sai cara no segundo lanc¸amento 1, se sai coroa no segundo lanc¸amento , vem X(cara, cara) = (0, 0), X(cara, coroa) = (0, 1), X(coroa, cara) = (1, 0) e X(coroa, coroa) = (1, 1). Cada um dos resultados tem probabilidade 0.25, ou seja, P ({ω : X(ω) = (k, l)}) = 0.25, k, l ∈ {0, 1}. • X = (X1, X2, . . . , X5) e´ o v.a. que representa as cotac¸o˜es das acc¸o˜es da Brisa ao meio-dia dos dias u´teis de uma qualquer semana. • X = (X1, X2, X3, X4) e´ o vector aleato´rio que descreve o estado do tempo em Lisboa, em determinado momento: X1 representa a temperatura, X2 a pressa˜o atmosfe´rica, X3 a velocidade do vento e X4 indica se esta´ a chover. 9 Def. 10: Func¸a˜o de Distribuic¸a˜o conjunta de um vector aleato´rio Func¸a˜o de distribuic¸a˜o conjunta de um vector aleato´rio X e´ uma func¸a˜o real, seja F (x), tal que F (x) = FX(x) = P (X1 ≤ x1, . . . , Xn ≤ xn) = P ({ω : X1(ω) ≤ x1, . . . , Xn(ω) ≤ xn}),x ∈ Rn. F (x) permite o ca´lculo imediato da probabilidade de X assumir valores no intervalo (a, b] : {x : ai < xi ≤ bi, i = 1, ..., n} ⊂ Rn. Def. 11: Distribuic¸a˜o de um vector aleato´rio Distribuic¸a˜o de um vector aleato´rio X e´ uma func¸a˜o real, seja PX(B), tal que PX(B) = P (X ∈ B) = P ({ω : X(ω) ∈ B}), B um Boreliano de Rn. A distribuic¸a˜o conjunta de X = (X1, X2, . . . , Xn) conte´m toda a informac¸a˜o sobre as suas componentes tomadas individualmente, bem como sobre todos os poss´ıveis pares de compo- nentes, triplos, etc. Tal como sucede no caso unidimensional, ha´ vectores aleato´rios discretos e vectores aleato´rios cont´ınuos, mas so´ estes sa˜o interessantes para os objectivos do nosso estudo. Def. 12: Vector Aleato´rio Cont´ınuo Diz-se que o vector aleato´rio X e´ um vector aleato´rio cont´ınuo, com func¸a˜o de densidade conjunta fX(x1, . . . , xn), quando a sua func¸a˜o de distribuic¸a˜ose pode escrever FX(x1, x2, ...xn) = ∫ x1 −∞ . . . ∫ xn −∞ fX(y1, . . . , yn)dy1 . . . , dyn, x ∈ Rn fX(x) ≥ 0,∀x ∈ Rn; ∫ ∞ −∞ . . . ∫ ∞ −∞ fX(y1, . . . , yn)dy1 . . . , dyn = 1. Conhecida a func¸a˜o de densidade conjunta, podem calcular-se as func¸o˜es de densidade mar- ginais de cada uma das componentes tomadas individualmente, bem como as de todos os poss´ıveis pares de componentes, triplos, etc. Ex. 6: Admita-se que n = 3. Algumas densidades marginais: • fX1(x1) = ∫ ∞ −∞ ∫ ∞ −∞ fX(x)dx2dx3 • fX2(x2) = ∫ ∞ −∞ ∫ ∞ −∞ fX(x)dx1dx3 10 • fX1,X2(x1, x2) = ∫ ∞ −∞ fX(x)dx3 • fX1,X3(x1, x3) = ∫ ∞ −∞ fX(x)dx2 Ex. 7 Vector aleato´rio Normal (Gaussiano) n-dimensional): A distribuic¸a˜o normal n-dimensional tem func¸a˜o de densidade conjunta fX(x) = 1 (2pi)n/2(detΣ)1/2 e− 1 2 (x−µ) ∑−1 (x−µ)T , x ∈ Rn, onde µ ∈ Rn, Σ e´ uma matriz sime´trica de ordem n definida positiva, detΣ e´ o seu determi- nante e Σ−1 e´ a sua inversa. Escreve-se X ∼ N(µ,Σ). Def. 13: Me´dia, Variaˆncia e Covariaˆncia Seja X um vector aleato´rio a) A me´dia de X (ou valor me´dio, ou valor esperado, de X), se existir, e´ o vector µX = E[X] = (E[X1], E[X2], ..., E[Xn]). b) A matriz das variaˆncias e covariaˆncias de X, se existir, e´: ΣX = (cov(Xi, Xj); i, j = 1, 2, ..., n), onde cov(Xi, Xj) = E[(Xi − µXi)(Xj − µXj)] = E[XiXj] − µXiµXj e´ a covariaˆncia de Xi e Xj. Claro que cov(Xi, Xi) = σ 2 Xi . Ex. 7 (Cont.): Efectuando os ca´lculos, conclui-se que o vector das me´dias da distribuic¸a˜o normal n-dimensional e´ µ e a matriz das variaˆncias e covariaˆncias e´ Σ. Prova-se que v.a. que sa˜o obtidos a partir de transformac¸o˜es lineares de X continuam a ter distribuic¸a˜o normal n-dimensional. Quer dizer: Se X ∼ N(µ,Σ) e A e´ uma matriz do tipo m× n, enta˜o AX ∼ N(AµT , AΣAT ). Tal como a variaˆncia, tambe´m as covariaˆncias sa˜o medidas absolutas da variac¸a˜o conjunta das varia´veis envolvidas. O coeficiente de correlac¸a˜o, que se prova assumir valores no intervalo [−1, 1], e´ uma medida relativa com o mesmo objectivo. Def. 14: Coeficiente de Correlac¸a˜o O coeficiente de correlac¸a˜o entre as v.a. X1 e X2 e´ corr(X1, X2) = cov(X1, X2) σX1σX2 . 11 1.3 Dependeˆncia e Independeˆncia Def. 15: Acontecimentos Independentes Dois acontecimentos A1 e A2 dizem-se independentes quando P (A1 ⋂ A2) = P (A1)P (A2). Intuitivamente, a existeˆncia de independeˆncia entre A1 e A2 significa que a realizac¸a˜o de um deles na˜o influencia de nenhum modo a realizac¸a˜o do outro: o conhecimento de que um deles se realizou na˜o permite concluir nada sobre a realizac¸a˜o do outro. Def. 16: Varia´veis Aleato´rias Independentes Duas v.a. X1 e X2 dizem-se independentes quando P (X1 ∈ B1, X2 ∈ B2) = P (X1 ∈ B1)P (X2 ∈ B2), B1 e B2 Borelianos. Naturalmente, se a condic¸a˜o e´ satisfeita, os acontecimentos {X1 ∈ B1} e {X2 ∈ B2} sa˜o independentes. Alternativas: • X1 e X2 dizem-se independentes quando FX1,X2(x1, x2) = FX1(x1)FX2(x2), (x1, x2) ∈ R2 • X1 e X2 dizem-se independentes quando fX1,X2(x1, x2) = fX1(x1)fX2(x2), (x1, x2) ∈ R2. A definic¸a˜o de independeˆncia pode alargar-se a qualquer nu´mero finito de acontecimentos e v.a.. Def. 15’: Acontecimentos Independentes Os acontecimentos A1, A2, ..., An dizem-se independentes quando P (Ai1 ⋂ ... ⋂ Aik) = P (Ai1)...P (Aik), para qualquer escolha de ı´ndices 1 ≤ i1 < ... < ik ≤ n e de inteiros 1 ≤ k ≤ n. Def. 16’: Varia´veis Aleato´rias Independentes As v.a. X1, X2, ..., Xn dizem-se independentes quando P (Xi1 ∈ Bi1 , ..., Xik ∈ Bik) = P (Xi1 ∈ Bi1)...P (Xik ∈ Bik), 12 para qualquer escolha de ı´ndices 1 ≤ i1 < ... < ik ≤ n, de inteiros 1 ≤ k ≤ n e sendo B1, ...Bn Borelianos. Tambe´m agora, se a condic¸a˜o e´ satisfeita, os acontecimentos {X1 ∈ B1}, ..., {Xn ∈ Bn} sa˜o independentes. Alternativas: • X1, ..., Xn dizem-se independentes quando FX1,...,Xn(x1, ..., xn) = FX1(x1)...FXn(xn), (x1, ...xn) ∈ Rn • X1, ..., Xn dizem-se independentes quando fX1,...,Xn(x1, ..., xn) = fX1(x1)...fXn(xn), (x1, ...xn) ∈ Rn. Ex. 7 (Cont.): Prova-se que as n componentes de X ∼ N(µ,Σ) sa˜o independentes se e so´ se a matriz Σ das variaˆncias e covariaˆncias for diagonal, ou seja, se e so´ se cov(Xi, Xj) = corr(Xi, Xj) = 0. Esta propriedade na˜o e´, em geral, verdadeira. Se Xi, Xj sa˜o independentes, pode concluir-se que cov(Xi, Xj) = corr(Xi, Xj) = 0, mas a rec´ıproca na˜o e´, em geral, verdadeira. Uma consequeˆncia importante da independeˆncia esta´ relacionada com o ca´lculo de valores esperados. Se as v.a. X1, ..., Xn sa˜o independentes, tem-se E[g1(X1)...gn(Xn)] = E[g1(X1)]...E[gn(Xn)], quaisquer que sejam as func¸o˜es reais g1, ..., gn - e desde que os valores esperados existam. Muitas vezes, e´ necessa´rio trabalhar com vectores aleato´rios que teˆm um nu´mero infinito de componentes. A definic¸a˜o de independeˆncia estende-se igualmente a esta situac¸a˜o. Def. 16”: Varia´veis Aleato´rias Independentes Sendo T um conjunto infinito de ı´ndices, as v.a. Xt, t ∈ T, dizem-se independentes quando as v.a. Xt1 , ..., Xtn sa˜o independentes para qualquer escolha de ı´ndices t1, ...tn ∈ T, n ≥ 1. Dizem-se independentes e identicamente distribu´ıdas (iid) quando sa˜o independentes e teˆm todas a mesma distribuic¸a˜o. 13 1.4 Processos Estoca´sticos Def. 17: Processo Estoca´stico Um processo estoca´stico X e´ uma famı´lia de varia´veis aleato´rias definidas num espac¸o Ω, seja (Xt, t ∈ T ) = (Xt(ω), t ∈ T, ω ∈ Ω), onde t e´ um paraˆmetro tomando valores sobre um conjunto T ⊂ R, designado conjunto dos ı´ndices do processo. Observac¸o˜es: • Do ponto de vista matema´tico na˜o existe qualquer restric¸a˜o a` natureza de T . No entanto, na maioria das aplicac¸o˜es, t representa o tempo, que e´ assim a interpretac¸a˜o ”por defeito”. • Se T e´ um conjunto finito ou infinito numera´vel, X diz-se um processo estoca´stico em tempo (ou de paraˆmetro) discreto; no caso contra´rio, diz-se um processo estoca´stico em tempo (ou de paraˆmetro) cont´ınuo. Quanto T e´ finito o processo estoca´stico reduz-se a um vector aleato´rio; quando T e´ infinito numera´vel, tem-se uma sucessa˜o de varia´veis aleato´rias. • Espac¸o de estados do processo X e´ o conjunto dos valores que as v.a. Xt podem assumir. Quando o espac¸o de estados e´ numera´vel, o processo e´ designado um processo com espac¸o de estados discreto. Em particular, se o espac¸o dos estados e´ 0, 1, 2, ..., o processo diz-se um processo de contagem. • Cada poss´ıvel concretizac¸a˜o do processo estoca´stico X e´ uma func¸a˜o em T . Assim, podem definir-se func¸o˜es que a cada t ∈ T fazem corresponder um particular valor xt - e´ o particular valor assumido por Xt. Tais func¸o˜es representam as poss´ıveis observac¸o˜es do processo estoca´stico e chamam-se realizac¸o˜es ou trajecto´rias do processo. Por outras palavras, uma trajecto´ria ou realizac¸a˜o de um processo estoca´stico X e´ uma afectac¸a˜o, para cada t ∈ T , de um valor poss´ıvel para Xt. Um processo estoca´stico e´ assim um ”ser aleato´rio que se concretiza em func¸o˜es (mete-se a ma˜o ao saco e na˜o se tira uma bola branca, tira-se uma func¸a˜o).” • Como resulta da definic¸a˜o, um processo estoca´stico X e´ uma func¸a˜o de duas varia´veis: - Para cada valor fixo t ∈ T (para cada momento do tempo) X e´ uma v.a., Xt = Xt(ω), ω ∈ Ω. - Para cada trajecto´ria fixa, X e´ uma curva, func¸a˜o do tempo. Nessa particular trajecto´ria, cada v.a. Xt assume um valor xt concreto. Ex. 8 (Passeio aleato´rio) Tome-se uma sucessa˜o de v.a. independentes, {Zt, t = 1, 2, ...} e defina-se o processo Xt = Z1 + Z2 + ...+ Zt = Xt−1 + Zt. 14 Xt, que e´ um processo estoca´stico em tempo discreto, e´ conhecido como passeio aleato´rio e aplica-se a certo tipo de se´ries financeiras. Os passeios aleato´riostambe´m sa˜o por vezes uti- lizados para representar o nu´mero de indemnizac¸o˜es agregadas ao longo do tempo, suscitadas por determinada carteira de apo´lices. Ex. 9 (Processo de me´dias mo´veis) Tome-se uma sucessa˜o de v.a. iid, {Zt, t = 1, 2, ...}. O processo Xt = Zt + θZt−1 designa-se processo de me´dias mo´veis de primeira ordem, represente-se por MA(1), e e´ muito utilizado no estudo de se´ries temporais. E´ tambe´m um processo em tempo discreto. Como se veˆ, o estado do processo no momento t (o valor assumido pela v.a. Xt) e´ combinac¸a˜o apenas das duas u´ltimas v.a. da sucessa˜o {Zt}. Em geral, um processo de me´dias mo´veis de ordem q ≥ 1, MA(q), pode definir-se Xt = Zt + θ1Zt−1 + ...+ θqZt−q, t ∈ Z, θ1, θ2, ..., θq paraˆmetros reais dados. Ex. 10 (Processo autoregressivo) Nas condic¸o˜es vistas para os processos AM(q), um processo autoregressivo de ordem p ≥ 1, AR(p), define-se Xt = φ1Xt−1 + ...+ φpXt−p + Zt, t ∈ Z, φ1, φ2, ..., φp paraˆmetros reais dados. Tambe´m particularmente importantes sa˜o os processos autoregressivos de primeira ordem, AR(1), Xt = φXt−1 + Zt, t ∈ Z, em que o estado do processo no momento t (o valor assumido pela v.a. Xt) depende apenas do estado do processo no momento anterior (o valor assumido por Xt−1), adicionado de um factor aleato´rio residual (Zt). Ao contra´rio do que sucede nos processos de me´dias mo´veis, em que o efeito de cada v.a. Zt so´ influencia os p estados futuros seguintes do processo, nos processos autoregressivos, a inclusa˜o de Zt vai influenciar todos os estados futuros daquele. Ex. 11 (Processo de Markov) Processo de Markov e´ um processo em que a probabilidade de ser assumido um qualquer estado num momento futuro (t) depende apenas do estado do processo no u´ltimo instante observado (Xtk = xk), na˜o sendo assim afectada pelo conhecimento dos estados assumidos pelo processo em momentos anteriores a tk. Simbolicamente, P [a < Xt ≤ b|Xt1 = x1, ..., Xtk = xk] = P [a < Xt ≤ b|Xtk = xk], t1 < t2 < · · · < tk < t ∈ T. Um processo de Markov com espac¸o de estados discreto e´ designado cadeia de Markov. Um processo de Markov com espac¸o dos estados cont´ınuo e paraˆmetro tambe´m cont´ınuo e´ designado processo de difusa˜o. 15 16 Como descrever o comportamento de um processo estoca´stico X, em termos probabil´ısticos? Em analogia com o que sucede com as varia´veis e vectores aleato´rios, e´ tambe´m necessa´rio conhecer algumas caracter´ısticas dos processos estoca´sticos, como a distribuic¸a˜o ou os valores esperados, bem como descrever a respectiva estrutura de dependeˆncia. O aspecto chave a ter em atenc¸a˜o e´ que um processo estoca´stico na˜o e´ mais, afinal, do que uma famı´lia de varia´veis aleato´rias indexadas por um paraˆmetro t, que varia no conjunto de ı´ndices T . Assim, parece natural descrever a distribuic¸a˜o de um processo estoca´stico X atrave´s da especificac¸a˜o da distribuic¸a˜o conjunta de n v.a. Xt1 , Xt2 , ..., Xtn , para todo o n = 1, 2, ... e para todos os poss´ıveis valores t1, t2, ..., tn ∈ T. Def. 18: Distribuic¸o˜es Dimensionalmente Finitas (fidis) Distribuic¸o˜es dimensionalmente finitas (fidis) de um processo estoca´stico X sa˜o todas as distribuic¸o˜es dos vectores de dimensa˜o finita (Xt1 , Xt2 , ..., Xtn), n = 1, 2, ...; t1, t2, ..., tn ∈ T. Pode considerar-se que a famı´lia das suas fidis e´ a distribuic¸a˜o de um processo estoca´stico. Ex. 12 (Processo Gaussiano) Um processo estoca´stico diz-se Gaussiano quando todas as suas fidis sa˜o Gaussianas. Recor- dando que o conhecimento dos paraˆmetros µ e Σ e´ suficiente para a caracterizac¸a˜o de uma distribuic¸a˜o Gaussiana, basta enta˜o conhecer µ e Σ de cada vector referido na Def. 18 para se caracterizar a distribuic¸a˜o de um processo estoca´stico Gaussiano. So´ para ilustrar, se o processo estoca´stico X e´ tal que Xt ∼ N(0, 1), t ∈ T = [−5, 5], sendo as v.a. mutuamente independentes, enta˜o as fidis correspondem a func¸o˜es de distribuic¸a˜o da forma F (Xt1 , Xt2 , ..., Xtn) = P (Xt1 ≤ x1, Xt2 ≤ x2, ..., Xtn ≤ xn) = P (Xt1 ≤ x1)P (Xt2 ≤ x2)...P (Xtn ≤ xn) = Φ(x1)Φ(x2)...Φ(xn) (−5 ≤ t1 ≤ t2 ≤ · · · ≤ tn ≤ 5; (x1, x2, ..., xn) ∈ Rn). Def. 19: Func¸a˜o Valor Esperado e Func¸a˜o Covariaˆncia Seja X um processo estoca´stico. Admitindo que os valores esperados indicados existem: a) A func¸a˜o valor esperado de X e´ µX(t) = µXt = E[Xt], t ∈ T. b) A func¸a˜o covariaˆncia de X e´: cX(t, s) = cov(Xt, Xs) = E[(Xt − µX(t))(Xs − µX(s))], t, s ∈ T. 17 Quando s = t tem-se a func¸a˜o variaˆncia de X, σ2X(t) = cX(t, t) = var(Xt), t ∈ T. • A func¸a˜o valor esperado fornece a me´dia do processo ao longo do tempo (a ”trajecto´ria esperada”). Como sucedia anteriormente, e´ em torno de µX(t) que se localizam, com uma maior intensidade, as trajecto´rias. • A func¸a˜o variaˆncia pode igualmente considerar-se como medindo a dispersa˜o das poss´ıveis trajecto´rias do processo relativamente a µX(t). • A func¸a˜o covariaˆncia continua a ser uma medida da dependeˆncia. Claro que, tal como se viu no ponto anterior para os vectores aleato´rios, se o espac¸o dos estados e´ discreto, a func¸a˜o valor esperado pode corresponder a uma trajecto´ria na˜o observa´vel. Ex. 12 (Cont.) Retomando o processo estoca´stico X, tal que Xt ∼ N(0, 1), t ∈ T = [−5, 5] e as v.a. mutuamente independentes, e´ imediato que µX(t) ≡ 0 e cX(t, s) = { 1, se t = s 0, se t 6= s Def. 20: Processo Estoca´stico Estritamente Estaciona´rio Diz-se que o processo estoca´stico (Xt, t ∈ T ), T ⊂ R, e´ estritamente (ou fortemente) esta- ciona´rio quando os vectores (Xt1 , Xt2 , ..., Xtn) e (Xt1+h, Xt2+h, ..., Xtn+h) sa˜o identicamente distribu´ıdos para todas as poss´ıveis escolhas de ı´ndices t1, t2, ..., tn ∈ T, n = 1, 2, ..., e qual- quer h : t1 + h, t2 + h, ..., tn + h ∈ T. Simbolicamente, (Xt1 , Xt2 , ..., Xtn) d = (Xt1+h, Xt2+h, ..., Xtn+h). A definic¸a˜o de processo fortemente estaciona´rio implica que todos os vectores de dimensa˜o finita, qualquer que esta seja, teˆm a mesma distribuic¸a˜o, desde que igualmente desfasados, ou seja, essa distribuic¸a˜o e´ independente de t para os mesmos desfasamentos. Verifica-se que se esta´ perante uma caracter´ıstica de aleatoridade na˜o altera´vel ao longo do tempo, ao contra´rio do que sucede com os chamados processos evolutivos. A estrutura de dependeˆncia descrita pelas fidis ou pela func¸a˜o covariaˆncia e´ invariante face a desfasamentos no tempo. Ex. 13 (Processo Gaussiano estritamente estaciona´rio) Considere-se um processo estoca´stico Gaussiano (Xt, t ∈ T ). Uma vez que um processo Gaussiano e´ determinado pela func¸a˜o valor esperado e pela func¸a˜o covariaˆncia, e´ imediato que se tem um processo Gaussiano estritamente estaciona´rio quando µX(t+ h) = µX(t) e cX(t+ h, s+ h) = cX(t, s),∀s, t ∈ T e h : s+ h, t+ h ∈ T, 18 o que, por sua vez, ainda se reduz a µX(t) ≡ µX(0) e cX(t, s) = c˜X(|t− s|), para alguma func¸a˜o c˜X . Observa-se assim que a estacionaridade estrita nos processos Gaussianos significa que a func¸a˜o valor esperado e´ nula e que a func¸a˜o covariaˆncia so´ depende da distaˆncia |t− s|. Na figura 3 tem-se um processo Gaussiano estritamente estaciona´rio. Def. 21: Processo Estoca´stico de Incrementos Estaciona´rios Diz-se que o processo estoca´stico (Xt, t ∈ T ), T um intervalo de nu´meros reais, tem incre- mentos estaciona´rios quando Xt −Xs d= Xt+h −Xs+h,∀ s, t ∈ T e h : s+ h, t+ h ∈ T. Def. 22: Processo Estoca´stico de Incrementos Independentes Diz-se que o processo estoca´stico (Xt, t ∈ T ), T um intervalo de nu´meros reais, tem incre- mentos independentes quando sa˜o independentes as v.a. Xt2 −Xt1 , ..., Xtn −Xtn−1 ,∀ ti ∈ T : t1 < · · · < tn, n ≥ 1. Na presenc¸a de um processo com incrementos independentes, o conhecimento das distribuic¸o˜es das v.a. Xt e Xt −Xs,∀ s, t, permite deduzir a distribuic¸a˜o de qualquer vector aleato´riode dimensa˜o finita, ficando deste modo completamente estabelecida a distribuic¸a˜o do processo (todas as suas fidis). Todos os processos com incrementos independentes sa˜o processos de Markov (ver Def. 11). Ex. 14 (Processo de Poisson homoge´neo) Um processo estoca´stico (Xt, t ∈ [0,∞)) diz-se um processo homoge´neo de Poisson, ou apenas processo de Poisson, com intensidade (ou taxa) λ > 0, se satisfaz as condic¸o˜es seguintes: • Inicia-se com X0 = 0 • Tem incrementos estaciona´rios e independentes • Xt ∼ Poi(λt),∀ t > 0. Pela estacionaridade dos incrementos,Xt−Xs, t > s, tem a mesma distribuic¸a˜o queXt−s=Xt−s− X0, ou seja, Xt −Xs ∼ Poi(λ(t− s)), t > s. O processo de Poisson, em conjunto com as suas modificac¸o˜es e ramificac¸o˜es, e´ de extrema importaˆncia e tem uma grande variedade de aplicac¸o˜es nos mais diversos domı´nios. Sendo um processo de contagem, dado o intervalo de tempo [0, t], pode usar-se para modelar, entre muitos outros: • o nu´mero de chamadas telefo´nicas processadas por um dado operador • o nu´mero de clientes que chegam a determinada fila de espera • o nu´mero de sinistros provocados por certa carteira de apo´lices. Nos processos de Poisson a estacionaridade dos incrementos exclui a existeˆncia de variac¸o˜es sazonais na intensidade das ocorreˆncias e a independeˆncia exclui a existeˆncia de reacc¸o˜es em cadeia. Sa˜o cadeias de Markov em tempo cont´ınuo. 19 20 21 1.5 Movimento Browniano Def. 23: Movimento Browniano (Processo de Wiener) Um processo estoca´stico B = (Bt, t ∈ [0,∞)) diz-se um movimento Browniano, ou processo de Wiener, quando: • Se inicia com B0 = 0 • Tem incrementos estaciona´rios e independentes • Bt ∼ N(0, t),∀ t > 0 • As trajecto´rias sa˜o func¸o˜es cont´ınuas de t. 1.5.1 Propriedades do Movimento Browniano P1- As fidis do movimento Browniano sa˜o Gaussianas multi-dimensionais, donde se conclui que o movimento Browniano e´ um processo Gaussiano. Dem: Tendo em conta o facto de B ter incrementos independentes, basta conhecer a distribuic¸a˜o do incremento Bt−Bs, s < t, para se determinar a distribuic¸a˜o do processo. Ora, uma vez que Bt ∼ N(0, t),∀ t > 0, e´ imediato que Bt − Bs tem tambe´m dis- tribuic¸a˜o normal, pelas propriedades desta distribuic¸a˜o. P2- As v.a. Bt −Bs, s < t, e Bt−s teˆm valor esperado nulo e variaˆncia t− s. Dem: Resulta da estacionaridade dos incrementos. Bt −Bs tem a mesma distribuic¸a˜o de Bt−s − B0 = Bt−s, que tem distribuic¸a˜o normal de paraˆmetros 0 e t − s (cf. Def. 23). Verifica-se que a variaˆncia e´ igual a` amplitude do intervalo [s, t]: quanto maior esta amplitude, maiores sera˜o as flutuac¸o˜es do processo no intervalo. P3- (a) µB(t) = E[Bt] = 0, t ≥ 0; (b) cB(t, s) = min(s, t), 0 ≤ s < t. Dem: (a) resulta da Def. 23; Quanto a (b), basta recorrer a` independeˆncia dos incre- mentos para ver que cB(t, s) = E[(Bt − 0)(Bs − 0)] = E[BtBs] = E[[(Bt −Bs) +Bs]Bs] = E[(Bt −Bs)Bs] + E[B2s ] = E[(Bt −Bs)(Bs −B0)] + (E[B2s ]− 02) = E[Bt −Bs]E[Bs −B0] + V ar(Bs) = E[Bt −Bs]E[Bs] + V ar(Bs) = 0 + s = s Observac¸o˜es: • Ainda que Bt −Bs d= Bt−s, em geral, Bt(ω)−Bs(ω) 6= Bt−s(ω). 22 • As definic¸o˜es do processo de Poisson e do processo de Wiener diferem apenas na dis- tribuic¸a˜o dos incrementos. No processo de Poisson, as trajecto´rias sa˜o func¸o˜es em escada e no movimento Browniano sa˜o func¸o˜es cont´ınuas. Assim como o processo de Poisson e´ uma cadeia de Markov em tempo cont´ınuo, tambe´m o movimento Browniano e´ um processo de difusa˜o. • E´ fa´cil verificar que o movimento Browniano e´ 0.5-auto-semelhante, ou seja, que (T 0.5Bt1 , ..., T 0.5Btn) d = (BTt1 , ..., BTtn),∀ T > 0, qualquer escolha de ti ≥ 0, i = 1, ..., n, n ≥ 1. Com efeito, basta ver que os dois vectores aleato´rios em causa, ambos com distribuic¸a˜o Gaussiana, teˆm a mesma me´dia e a mesma matriz de variaˆncias e covariaˆncias. Intui- tivamente, a auto-semelhanc¸a (que e´ uma propriedade relativa a` distribuic¸a˜o, na˜o a`s trajecto´rias) implica que o padra˜o de cada trajecto´ria apresenta configurac¸o˜es similares em qualquer intervalo de tempo, pequeno, ou grande, adaptada a escala. Na˜o sa˜o, no entanto, iguais. A presenc¸a de auto-semelhanc¸a e´ particularmente u´til na simulac¸a˜o de trajecto´rias. Se o que se pretende e´ simular uma trajecto´ria no intervalo [0, T ], e´ suficiente gera´-la em [0, 1], e reescalonar o intervalo com o factor T e a trajecto´ria com o factor T 0.5. • As trajecto´rias do movimento Browniano, ainda que cont´ınuas, sa˜o extremamente ir- regulares, devido a` independeˆncia dos incrementos. De modo particular, incrementos em intervalos adjacentes sa˜o independentes, seja qual for a amplitude daqueles. Em consequeˆncia, as trajecto´rias deste tipo de processo estoca´stico na˜o sa˜o diferencia´veis em nenhum ponto t: o gra´fico da func¸a˜o muda de uma forma completamente im- previs´ıvel na vizinhanc¸a de qualquer ponto. Apesar da dificuldade em conceber uma func¸a˜o assim, a verdade e´ que o movimento Browniano e´ considerado uma muito boa aproximac¸a˜o para muitos feno´menos reais. • O movimento Browniano apresenta variac¸a˜o na˜o limitada em qualquer intervalo finito [0, T ], isto e´, sup τ n∑ i=1 |Bti(ω)−Bti−1(ω)| =∞, supremo calculado considerando todas as poss´ıveis partic¸o˜es τ : 0 = t0 < · · · < tn = T de [0, T ]. • Ficando os processos Gaussianos completamente caracterizados pela func¸a˜o valor es- perado e pela func¸a˜o covariaˆncia, pode redefinir-se movimento Browniano. Def. 23’: Movimento Browniano (Processo de Wiener) Movimento Browniano e´ um processo Gaussiano com µB(t) ≡ 0 e cB(t, s) = min(s, t). 23 24 25 1.5.2 Processos Derivados do Movimento Browniano Sa˜o processos com relevaˆncia pra´tica, definidos a` custa do movimento Browniano, B = (Bt, t ∈ [0,∞)). Def. 24: Ponte Browniana Ponte Browniana e´ o processo Xt = Bt − tB1, 0 ≤ t ≤ 1. Claro que X0 = B0 − 0B1 = 0 e X1 = B1 − 1B1 = 0. As fidis sa˜o Gaussianas e X e´ um processo Gaussiano, pelo que µX(t) ≡ 0 e cX(t, s) = min(t, s)− ts; σ2X(t) = t(1− t), s, t ∈ [0, 1]. Def. 25: Movimento Browniano com deriva Movimento Browniano com deriva (linear) e´ o processo estoca´stico Xt = µt+ σBt, t ≥ 0, µ e σ > 0 constantes reais. X e´ ainda um processo Gaussiano e µX(t) = µt e cX(t, s) = σ 2min(t, s), s, t ≥ 0. A func¸a˜o valor esperado µX(t) = µt, que corresponde a` deriva determin´ıstica do processo, determina essencialmente a configurac¸a˜o das trajecto´rias. Def. 26: Movimento Browniano Geome´trico No seu trabalho, Bachelier concluiu que o prec¸o dos activos com maior risco era bem descrito pelo movimento Browniano. Sendo um processo Gaussiano, o movimento Browniano pode contudo assumir valores negativos, o que na˜o e´ aceita´vel para prec¸os. Black, Scholes e Merton sugeriram enta˜o outro processo estoca´stico como modelo para os prec¸os especulativos, seja Xt = e µt+σBt, t ≥ 0, que na˜o e´ mais do que a exponencial do movimento Browniano com deriva. Se bem que este ja´ na˜o seja um processo Gaussiano (as suas fidis ja´ na˜o sa˜o Gaussianas), e´ relativamente fa´cil calcular a func¸a˜o valor esperado e a func¸a˜o covariaˆncia. Comecemos por calcular E[eλZ ], Z ∼ N(0, 1). Vem E[eλZ ] = 1√ 2pi ∫ ∞ −∞ e λxe −z2 2 dz = e λ2 2 ∫ ∞ −∞ 1√ 2pi e −(z−λ)2 2 dz = e λ2 2 . (Note-se que 1√ 2pi e −(z−λ)2 2 e´ a expressa˜o da func¸a˜o de densidade de uma v.a. com distribuic¸a˜o N(λ, 1).) 26 Recorrendo a` igualdade E[eλz] = eλ 2/2 e a` auto-semelhanc¸a do movimento Browniano, que permite escrever t0.5B1 = Bt×1 = Bt, obte´m-se µX(t) = e µtE[eσBt] = eµtE[eσt 0.5B1] = eµte0.5σ 2t = e(µ+0.5σ 2)t, pois B1 ∼ N(0, 1) e E[eσt0.5B1 ] = e(σt0.5)2/2 = e0.5σ2t. Para s ≤ t, Bt −Bs e Bs sa˜o independentes e Bt −Bs d= Bt−s, vindo enta˜o cX(t, s) = E[XtXs]−E[Xt]E[Xs] = eµ(t+s)E [ eσ(Bt+Bs) ]− e(µ+0.5σ2)(t+s) = eµ(t+s)E [ eσ[(Bt−Bs)+2Bs] ]− e(µ+0.5σ2)(t+s) = eµ(t+s)E [ eσ(Bt−Bs) ] E [ e2σBs ]− e(µ+0.5σ2)(t+s) = e(µ+0.5σ 2)(t+s)(eσ 2s − 1). A func¸a˜o variaˆncia do movimento Browniano geome´trico e´ σ2X(t) = e (2µ+σ2)t(eσ 2t−1). Def. 27: Ru´ıdo Branco e Ru´ıdo Colorido Chama-se Ru´ıdo Branco ao processo em tempo discreto (sucessa˜o de v.a. i.i.d - ou apenas na˜o correlacionadas) (Xt, t ∈ T ), tal que: E[Xt] ≡ µ; V ar(Xt) ≡ σ2; cX(t, s) ≡ 0. Chama-se Ru´ıdo Colorido ao processo estoca´stico que se define Xt = Bt+h −Bt h , t ≥ 0, onde h > 0 e´ uma constante. O ru´ıdo colorido e´ uma aproximac¸a˜o do ru´ıdo branco. E´ fa´cil deduzir que µX(t) ≡ 0 e cX(t, s) = h−2[(s+ h)−min(s+ h, t)], s ≤ t. Note-se ainda que cX(t, s) = 0, se t − s ≥ h, donde Xt e Xs sa˜o independentes, mas se t − s < h, cX(t, s) = h−2[h − (t − s)]. Mais ainda, sendo X Gaussiano e sendo cX(t, s) func¸a˜o apenas de t− s, tem-se um processo estritamente estaciona´rio (cf. Ex. 13). A func¸a˜o variaˆncia σ2X(t) ≡ h−1 evidencia que as flutuac¸o˜es do ru´ıdo colorido se tornam maiores, a` medida que h diminui. 27 28 1.6 Valores Esperados Condicionados A noc¸a˜o de valor esperado condicionado e´ fundamental para a compreensa˜o das martingalas e dos integrais estoca´sticos de Itoˆ, que sera˜o estudados mais adiante. E´ uma das noc¸o˜es mais complexas da teoria da probabilidade, mas tambe´m uma das suas ferramentas mais poderosas. 1.6.1 A Abordagem Cla´ssica de Valor Esperado Condicionado - Exemplos Vai comec¸ar-se com um exemplo mais ou menos exaustivo da abordagem cla´ssica, normal- mente introduzida recorrendo ao caso simples de um vector aleato´rio bidimensional com dada distribuic¸a˜o conjunta. Separando o caso cont´ınuo do caso discreto, va˜o ilustrar-se sucessivamente: 1. as distribuic¸o˜es marginais 2. os valores esperados na˜o condicionados 3. as variaˆncias na˜o condicionadas 4. as distribuic¸o˜es condicionadas 5. os valores esperados condicionados 6. as variaˆncias condicionadas 7. as curvas de regressa˜o (tipo I) Caso Cont´ınuo f (x, y) = 8xy 0 < x < 1; 0 < y < x 1. f1(x) = ∫+∞ −∞ f (x, y) dy = ∫ x 0 8xydy = 4x 3, 0 < x < 1 f2(y) = ∫+∞ −∞ f (x, y) dx = ∫ 1 y 8xydx = 4y(1− y2), 0 < y < 1 2. E [X] = ∫+∞ −∞ ∫+∞ −∞ xf (x, y) dydx = ∫ 1 0 ∫ x 0 x (8xy) dydx = 4 5 ou E [X] = ∫+∞ −∞ xf1 (x) dx = ∫ 1 0 x ( 4x3 ) dx = 45 E [Y ] = ∫+∞ −∞ ∫+∞ −∞ yf (x, y) dxdy = ∫ 1 0 ∫ 1 y y (8xy) dxdy = 8 15 ou E [Y ] = ∫+∞ −∞ yf2 (y) dy = ∫ 1 0 y ( 4y − 4y3) dy = 815 29 E [ X2 ] = ∫+∞ −∞ ∫+∞ −∞ x 2f (x, y) dydx = ∫ 1 0 ∫ x 0 x 2 (8xy) dydx = 23 ou E [ X2 ] = ∫+∞ −∞ x 2f1 (x) dx = ∫ 1 0 x 2 ( 4x3 ) dx = 23 E [ Y 2 ] = ∫+∞ −∞ ∫+∞ −∞ y 2f (x, y) dxdy = ∫ 1 0 ∫ 1 y y 2 (8xy) dxdy = 13 ou E [ Y 2 ] = ∫+∞ −∞ y 2f2 (y) dy = ∫ 1 0 y 2 ( 4y − 4y3) dy = 13 3. V ar (X) = ∫+∞ −∞ ∫+∞ −∞ (x− E [X])2 f (x, y) dydx = E [ X2 ]− (E [X])2 = 23 − ( 4 5 )2 = 275 V ar (Y ) = ∫+∞ −∞ ∫+∞ −∞ (y − E [Y ])2 f (x, y) dxdy = E [ Y 2 ]− (E [Y ])2 = 13 − ( 8 15 )2 = 11225 4. f(x|y) = f(x,y)f2(y) = 8xy 4y−4y3 = 2x 1−y2y < x < 1 (y fixo em (0, 1)) f(y|x) = f(x,y)f1(x) = 8xy 4x3 = 2y x20 < y < x (x fixo em (0, 1)) 5. E [X|y] = ∫+∞−∞ xf (x|y) dx = ∫ 1y x 2x1−y2dx = 23 y2+y+1y+1 (y fixo em (0, 1) E [Y |x] = ∫+∞−∞ yf (y|x) dy = ∫ x0 y 2yx2dy = 23x (x fixo em (0, 1)) 6. V ar (X|y) = E [X2|y]− (E [X|y])2 =? E [ X2|y] = ∫+∞−∞ x2f (x|y) dx = ∫ 1y x2 2x1−y2dx = 12y2+ 12 (y fixo em (0, 1)) V ar (X|y) = E [X2|y]− (E [X|y])2 = (12y2 + 12)− ( 2 3 y2+y+1 y+1 )2 = 118 y4+2y3−6y2+2y+1 (y+1)2 (y fixo em (0, 1)) 30 V ar (Y |x) = E [Y 2|x]− (E [Y |x])2 =? E [ Y 2|x] = ∫+∞−∞ y2f (y|x) dy = ∫ x0 y2 2yx2dy = 12x2 (x fixo em (0, 1)) V ar (Y |x) = E [Y 2|x] − (E [Y |x])2 = 12x2 − (23x)2 = 118x2 (x fixo em (0, 1)) Ha´ igualdades importantes, envolvendo valores esperados iterados, que se verificam de seguida: Verificac¸a˜o das igualdades E [E [X|Y ]] = E [X] e E [E [Y |X]] = E [Y ]: E [E [X|Y ]] = E [ 2 3 Y 2+Y+1 Y+1 ] = ∫+∞ −∞ 2 3 y2+y+1 y+1 f2(y)dy = ∫ 1 0 8 3 y2+y+1 y+1 ( y − y3) dy = 45 = E[X] E [E [Y |X]] = E [23X] = 23E [X] = 23 × 45 = 815 = E[Y ] Verificac¸a˜o das igualdades V ar (X) = V ar (E [X|Y ]) +E [V ar (X|Y )] e V ar (Y ) = V ar (E [Y |X]) + E [V ar (Y |X)]: V ar (E [X|Y ]) = V ar ( 2 3 Y 2+Y+1 Y+1 ) = E [( 2 3 Y 2+Y+1 Y+1 − 45 )2] = ∫ 1 0 ( 2 3 y2+y+1 y+1 − 45 )2 (4y −−4y3)dy = 556225 − 329 ln 2 E [V ar (X|Y )] = E [ 1 18 Y 4+2Y 3−6Y 2+2Y+1 (Y+1)2 ] = ∫+∞ −∞ 1 18 y4+2y3−6y2+2y+1 (y+1)2 f2 (y) dy = ∫ 1 0 1 18 y4+2y3−6y2+2y+1 (y+1)2 ( 4y − 4y3) dy = −229 + 329 ln 2 V ar (E [X|Y ]) + E [V ar (X|Y )] = (556225 − 329 ln 2)+ (−229 + 329 ln 2) = 275 = V ar (X) V ar (E [Y |X]) = V ar (23X) = (23)2 V ar [X] = 49 × 275 = 8675 E [V ar (Y |X)] = E [ 118X2] = 118E [X2] = 118 × 23 = 127 V ar (E [Y |X]) + E [V ar (Y |X)] = 8675 + 127 = 11225 = V ar (Y ) . 31 7. Curva de Regressa˜o (Tipo I) de X sobre Y: {(x, y) : x = E [X|y] , f2(y) > 0} = { (x, y) : x = 23 y2+y+1 y+1 , 0 < y < 1 } Curva de Regressa˜o (Tipo I) de Y sobre X: {(x, y) : y = E [Y |x] , f1(x) > 0} = { (x, y) : y = 23x, 0 < x < 1 } Caso Discreto f (x, y) = x+y32 , x = 1, 2; y = 1, 2, 3, 4 1. f1(x) = 4∑ y=1 f (x, y) = 4∑ y=1 x+y 32 = 1 8x+ 5 16 , x = 1, 2 f2(y) = 2∑ x=1 f (x, y) = 2∑ x=1 x+y 32 = 3 32 + 1 16y, y = 1, 2, 3, 4 2. E [X] = 2∑ x=1 4∑ y=1 xf (x, y) = 2∑ x=1 4∑ y=1 x ( x+y 32 ) = 2516 ou E [X] = 2∑ x=1 xf1 (x) = 2∑ x=1 x ( 1 8x+ 5 16 ) = 2516 E [Y ] = 2∑ x=1 4∑ y=1 yf (x, y) = 2∑ x=1 4∑ y=1 y ( x+y 32 ) = 4516 ou E [Y ] = 4∑ y=1 yf2 (y) = 4∑ y=1 y ( 3 32 + 1 16y ) = 4516 E [ X2 ] = 2∑ x=1 4∑ y=1 x2f (x, y) = 2∑ x=1 4∑ y=1 x2 ( x+y 32 ) = 4316 ou E [ X2 ] = 2∑ x=1 x2f1 (x) = 2∑ x=1 x2 ( 1 8x+ 5 16 ) = 4316 E [ Y 2 ] = 2∑ x=1 4∑ y=1 y2f (x, y) = 2∑ x=1 4∑ y=1 y2 ( x+y 32 ) = 14516 ou E [ Y 2 ] = 4∑ y=1 y2f2 (y) = 4∑ y=1 y2 ( 3 32 + 1 16y ) = 14516 32 3. V ar (X) = 2∑ x=1 4∑ y=1 (x− E [X])2 f (x, y) = E [X2]− (E [X])2 = 4316 − ( 25 16 )2 = 63256 V ar (Y ) = 2∑ x=1 4∑ y=1 (y − E [Y ])2 f (x, y) = E [Y 2]− (E [Y ])2 = 14516 − ( 45 16 )2 = 295256 4. f(x|y) = f(x,y)f2(y) = x+y 32 3 32+ 1 16y = x+y3+2y , x = 1, 2 (y fixo em {1, 2, 3, 4}) f(y|x) = f(x,y)f1(x) = x+y 32 1 8x+ 5 16 = x+y4x+10 , y = 1, 2, 3, 4 (x fixo em {1, 2}) 5. E [X|y] = 2∑ x=1 xf (x|y) = 2∑ x=1 x ( x+y 3+2y ) = 3y+53+2y (y fixo em {1, 2, 3, 4}) E [Y |x] = 4∑ y=1 yf (y|x) = 4∑ y=1 y x+y4x+10 = 5x+15 2x+5 (x fixo em {1, 2}) 6. V ar (X|y) = E [X2|y]− (E [X|y])2 =? E [ X2|y] = 2∑ x=1 x2f (x|y) = 2∑ x=1 x2 ( x+y 3+2y ) = y+13+2y + 4 2+y 3+2y (y fixo em {1, 2, 3, 4}) V ar (X|y) = E [X2|y]− (E [X|y])2 = ( y+13+2y + 4 2+y3+2y ) − ( 3y+5 3+2y )2 = 5y+93+2y − (3y+5) 2 (3+2y)2 (y fixo em {1, 2, 3, 4}) V ar (Y |x) = E [Y 2|x]− (E [Y |x])2 =? E [ Y 2|x] = 4∑ y=1 y2f (y|x) = 4∑ y=1 y2 x+y4x+10 = 15x+50 2x+5 (x fixo em{1, 2}) V ar (Y |x) = E [Y 2|x]− (E [Y |x])2 = (15x+502x+5 )− (5x+152x+5 )2 = 5x2+5x+5(2x+5)2 (x fixo em {1, 2}) 33 Verificac¸a˜o das igualdades E [E [X|Y ]] = E [X] e E [E [Y |X]] = E [Y ]: E [E [X|Y ]]= E [3Y+53+2Y ] = 4∑y=1 ( 3y+5 3+2y ) f2 (y) = 4∑ y=1 ( 3y+5 3+2y ) ( 3 32 + 1 16y ) = 2516 = E [X] E [E [Y |X]] = E [5X+152X+5 ] = 2∑x=1 ( 5x+15 2x+5 ) f1 (x) = 2∑ x=1 ( 5x+15 2x+5 ) ( 1 8x+ 5 16 ) = 4516 = E [Y ] . Verificac¸a˜o das igualdades V ar (X) = V ar (E [X|Y ]) +E [V ar (X|Y )] e V ar (Y ) = V ar (E [Y |X]) + E [V ar (Y |X)]: V ar (E [X|Y ]) = V ar (3Y+53+2Y ) = E [( 3Y+5 3+2Y − 2516 )2] = 4∑ y=1 ( 3y+5 3+2y − 2516 )2 ( 3 32 + 1 16y ) = 311887 040 E [V ar (X|Y )] = E [ 5y+9 3+2y − (3y+5) 2 (3+2y)2 ] = 4∑ y=1 ( 5y+9 3+2y − (3y+5) 2 (3+2y)2 ) ( 3 32 + 1 16y ) = 17036930 V ar (E [X|Y ]) + E [V ar (X|Y )] = 311887 040 + 17036930 = 63256 = V ar (X) . V ar (E [Y |X]) = V ar (5X+152X+5 ) = E [( 5X+15 2X+5 − 4516 )2] = 2∑ x=1 ( 5x+15 2x+5 − 4516 )2 (1 8x+ 5 16 ) = 2516 128 E [V ar (Y |X)] = E [ 5x 2+5x+5 (2x+5)2 ] = 2∑ x=1 ( 5x 2+5x+5 (2x+5)2 ) ( 1 8x+ 5 16 ) = 145126 V ar (E [X|Y ]) + E [V ar (X|Y )] = 2516 128 + 145126 = 295256 = V ar (Y ) . 7. Curva de Regressa˜o (Tipo I) de X sobre Y: {(x, y) : x = E [X|y] ef2(y) > 0} = { (x, y) : x = 3y+53+2y , y ∈ {1, 2, 3, 4} } = { (85 , 1), ( 11 7 , 2), ( 14 9 , 3), ( 17 11 , 4) } 34 Curva de Regressa˜o (Tipo I) de Y sobre X: {(x, y) : y = E [Y |x] e f1(x) > 0} = { (x, y) : y = 5x+152x+5 , x ∈ {1, 2} } = { (1, 207 ), ( 2, 259 )} No caso discreto, como e´ sabido, pode escrever-se f(x, y) na forma de tabela e efectuar todos os ca´lculos a partir desta. As diferentes func¸o˜es vira˜o definidas com va´rios ramos e os valores esperados condicionados tera˜o de ser obtidos um a um. 1.6.2 Valores Esperados Condicionados - Condic¸a˜o Discreta Def. 28: Probabilidade Condicionada Sejam A e B acontecimentos associados a` realizac¸a˜o de uma experieˆncia aleato´ria, tais que P (B) > 0. A probabilidade da realizac¸a˜o de A, condicionada a` realizac¸a˜o de B, ou proba- bilidade de A dado B, e´ P (A|B) = P (A ⋂ B) P (B) . E´ evidente que (ver Def. 15) P (A|B) = P (A)⇔ A e B acontecimentos independentes. O facto de se saber que B se realizou opera uma reduc¸a˜o no espac¸o de resultados relevantes, que se restringe assim ao acontecimento B, ou seja, passa a considerar-se o espac¸o Ω′ = B. Claro que A ⋂ B ⊂ Ω′,∀A ⊂ Ω, mas como e´ necessa´rio normalizar as probabilidades, estas teˆm que ser divididas por P (B). Def. 29: Func¸a˜o de Distribuic¸a˜o Condicionada. Valor Esperado Condicionado pela Realizac¸a˜o de um Acontecimento Seja X uma v.a. e seja B um acontecimento, tal que P (B) > 0. A func¸a˜o de distribuic¸a˜o condicionada da v.a. X, dado o acontecimento B, e´ FX(x|B) = P (X ≤ x,B) P (B) , x ∈ R. O valor esperado condicionado da v.a. X, dado o acontecimento B, e´ E[X|B] = E[XIB] P (B) , IB = { 1, se ω ∈ B 0, se ω /∈ B . IB e´ a chamada func¸a˜o indicatriz do acontecimento B. Como se sabe (Def. 8), se X e´ v.a. discreta assumindo os valores x1, x2, ..., enta˜o E[X|B] = ∞∑ k=1 xk P ({ω : X(ω) = xk}⋂B) P (B) = ∞∑ k=1 xkP (X = xk|B) Se X e´ v.a. cont´ınua, com func¸a˜o de densidade fX(x), 35 E[X|B] = 1 P (B) ∫ ∞ −∞ xIB(x)fX(x)dx = 1 P (B) ∫ B xfX(x)dx. Ex. 15 (Valor esperado condicionado de uma v.a. com distribuic¸a˜o uniforme) Seja X(ω) = ω uma v.a. que assume valores no espac¸o (0, 1], munido de uma medida de probabilidade P , tal que P ((a, b]) = b− a, (a, b] ⊂ (0, 1]. X tem distribuic¸a˜o uniforme em (0, 1], isto e´, a sua densidade e´ fX(x) = 1, x ∈ (0, 1], (ver Ex. 3) e a sua func¸a˜o de distribuic¸a˜o e´ FX(x) = P ({ω : X(ω) = ω ≤ x}) = P (φ) = 0, x ≤ 0 P ((0, x]) = x, x ∈ (0, 1) P ((0, 1]) = 1, x ≥ 1 . Considere-se agora que se realizou um dos acontecimentos Ai = ( i−1 n , i n ], i = 1, ..., n. E´ imediato que P (Ai) = 1 n , donde E[X|Ai] = 1 P (Ai) ∫ Ai xfX(x)dx = n ∫ i n i−1 n xdx = 2i− 1 2n . O valor esperado condicionado E[X|Ai] e´ o valor esperado ”actualizado” de X, quando se sabe que Ai ocorre. Por exemplo, com n = 6, quando se sabe que A3 = ( 1 3 , 1 2 ] se realizou, tem-se E[X|A3] = 512 , o ponto me´dio de A3. Recorde-se que E[X] = 0.5. Quer dizer, o ponto me´dio de A3 e´ o valor esperado condicionado pela realizac¸a˜o deste acontecimento. O ponto me´dio de (0, 1], e´ o valor esperado na˜o condicionado. Def. 30: Valor Esperado Condicionado por uma Varia´vel Aleato´ria Discreta Seja A1, A2, ... uma partic¸a˜o de Ω (Ai ⋂ Aj = φ, i 6= j e ∞⋃ i=1 = Ω). Seja Y uma v.a. discreta sobre Ω que assume o valor yi quando se realiza o acontecimento Ai, quer dizer, Ai = {ω : Y (ω) = yi}, i = 1, 2, ... . Seja ainda X uma v.a. sobre Ω, tal que E[|X|] < ∞. Admita-se, por convenieˆncia e sem perda de generalidade, que P (Ai) > 0,∀i. Nestas condic¸o˜es, o valor esperado da v.a. X, dada a v.a. Y , e´ uma v.a. discreta (func¸a˜o de Y ), que se define E[X|Y ](ω) = E[X|Ai] = E[X|Y = yi], ω ∈ Ai, i = 1, 2, ... . Da definic¸a˜o anterior resulta que, se se sabe que um particular Ai se realizou, basta ter em atenc¸a˜o os resultados ω ∈ Ai. Nessas condic¸o˜es, cai-se na Def. 29, pois tem-se a particular concretizac¸a˜o E[X|Y = yi] da v.a. E[X|Y ](ω). 36 Ex. 15 (Cont.) Calculando todos os valores esperados E[X|Y ](ω) = E[X|Ai] = E[X|Y = yi], ω ∈ Ai, i = 1, 2, ... , quer dizer, percorrendo todos os acontecimentos Ai da partic¸a˜o, obte´m-se o conjunto de todos os poss´ıveis valores assumidos pela v.a. E[X|Y ] - com Y a assumir o valor constante yi no conjunto Ai = ( i− 1 n , i n ] . Neste sentido, pode considerar-se que a v.a. E[X|Y ] na˜o e´ mais do que uma ”versa˜o grosseira” da v.a. original X, isto e´, E[X|Y ] na˜o passa de uma aproximac¸a˜o de X, quando se sabe que o acontecimento Ai se realizou (o valor esperado de X, sob essa condic¸a˜o). A v.a. X e´ assim, de certo modo, figurada pela func¸a˜o determinista E[X|Y ]. Algumas propriedades do valor esperado (da v.a.) E[X|Y ] P1 - O valor esperado condicionado e´ um operador linear: Sendo X1 e X2 v.a. e c1 e c2 constantes, E[(c1X1 + c2X2)|Y ] = c1E[X1|Y ] + c2E[X2|Y ]. Dem: Imediata, usando a definic¸a˜o de valor esperado. P2 - E[X] = E[E[X|Y ]]. Dem: E[E[X|Y ]] = ∞∑ i=1 E[X|Ai]P (Ai) = ∞∑ i=1 E[XIAi ] = E ( X ∞∑ i=1 IAi ) = E[X]. (Note-se que se usou a igualdade ∞∑ i=1 IAi = I ⋃∞ i=1 Ai = IΩ = 1.) P3 - Se X e Y sa˜o independentes, enta˜o E[X|Y ] = E[X]. Dem: A independeˆncia entre X e Y implica que, sendo A um dado conjunto, P (X ∈ A, Y = yi) = P (X ∈ A)P (Y = yi) = P (X ∈ A)P (Ai). Por outro lado, {ω : IAi(ω) = 1} = Ai = {ω : Y (ω) = yi}, pelo que P (X ∈ A, Y = yi) = P (X ∈ A, IAi = 1) = P (X ∈ A)P (IAi = 1). Claro que, de modo ana´logo, se pode estabelecer que P (X ∈ A, Y 6= yi) = P (X ∈ A, IAi = 0) = P (X ∈ A)P (IAi = 0). Tem-se assim que as v.a. X e IAi sa˜o independentes e, para ω ∈ Ai, E[X|Y ](ω) = E[X|Ai] = E[XIAi ] P (Ai) = E[X]E[IAi ] P (Ai) = E[X], pois E[IAi ] = 0P (A c i) + 1P (Ai) = P (Ai). 37 Em resumo: • O valor esperado condicionado E[X|Y ], de uma v.a. X condicionada ao comporta- mento de uma v.a. discreta Y , e´ tambe´m uma v.a. discreta - pois e´ func¸a˜o da v.a. Y . • Para cada conjunto Ai = {ω : Y (ω) = yi}, E[X|Y ] coincide com o valor esperado condicionado cla´ssico E[X|Y = yi]. • De certa forma, E[X|Y ] e´ uma versa˜o grosseira da v.a. X (em termos de valores esperados, quando se sabe algo sobre o comportamento da v.a. Y ). • Quanto menos forem os valores assumidos pela v.a. Y , mais grosseira e´ a v.a. E[X|Y ], como aproximac¸a˜o da v.a. X. No caso extremo em que Y assume um u´nico valor com probabilidade 1 (v.a. degenerada), tem-se E[X|Y ] =E[X], quer dizer, E[X|Y ] e´ tambe´m uma v.a. degenerada e, portanto, limita-se a aproximar X pelo seu valor esperado. • O valor esperado condicionado E[X|Y ] na˜o e´ func¸a˜o da v.a. X, somente de Y . A v.a. X determina apenas o tipo de func¸a˜o. Com efeito, E[X|Y ] = g(Y ), g(y) = ∞∑ i=1 E[X|Y ] = yiI{yi}(y). 1.6.3 σ−A´lgebras Na anterior definic¸a˜o de valor esperado de uma v.a. X, condicionado a uma v.a. discreta Y (Def. 30), ficou evidente que os valores concretos assumidos por Y na˜o sa˜o realmente importantes na definic¸a˜o de E[X|Y ]. O aspecto essencial e´ que Y assuma valores distintos nos conjuntos Ai da partic¸a˜o de Ω. Estes, sim, evidenciam o mecanismo aleato´rio presente na experieˆncia. Na realidade, e de uma forma mais geral, E[X|Y ] pode ser encarada como uma v.a. cons- tru´ıda com base numa classe de subconjuntos de Ω, seja σ(Y ). Simbolicamente, tem-se E[X|Y ] = E[X|σ(Y )]. Naturalmente, a classe σ(Y ) deve fornecer toda a informac¸a˜o necessa´ria sobre o comporta- mento da v.a. Y , como func¸a˜o de ω ∈ Ω. Em termos mais precisos, σ(Y ) deve ser uma σ−a´lgebra. Como se viu atra´s (pa´g. 2), tal significa que: • φ ∈ σ(Y ) e Ω ∈ σ(Y ) • Se A ∈ σ(Y ), enta˜o Ac ∈ σ(Y ) • Se A1, A2, ... ∈ σ(Y ) , enta˜o ∞⋃ i Ai ∈ σ(Y ) e ∞⋂ i Ai ∈ σ(Y ). 38 Chegados a este ponto, pode colocar-se a seguinte questa˜o: ”Dada uma classe C de subcon- juntos de Ω, que na˜o e´ σ−a´lgebra, existe uma σ−a´lgebra, que pode ser considerada a menor σ−a´lgebra a conter a classe C”? A resposta e´ SIM, e tem-se ate´ a seguinte definic¸a˜o: Def. 31: σ−a´lgebra gerada por uma classe C Dada a classe C de subconjuntos de Ω, a menor σ−a´lgebra a conter C, represente-se por σ(C), diz-se a σ−a´lgebra gerada por C. Naturalmente, para se obter σ(C), basta juntar a C os necessa´rios subconjuntos de Ω. Ex. 16 (σ−a´lgebras elementares) F1 = {φ,Ω} F2 = {φ,Ω, A,Ac}, A 6= φ,A 6= Ω F3 = P(Ω) = {A : A ⊂ Ω}. E´ imediato que F1 = σ({φ}), isto e´, C = {φ} F2 = σ({A}), isto e´, C = {A} F3 = σ({F3}), isto e´, C = {A : A ⊂ Ω}. A na˜o ser em casos muito simples, como os dois primeiros exemplos, na˜o e´ poss´ıvel ter uma ideia concreta dos conjuntos que formam uma σ−a´lgebra. Uma excepc¸a˜o e´ a σ−a´lgebra σ(Y ), obtida a partir de uma v.a. discreta Y . Retome-se a v.a. discreta Y sobre Ω, que assume o valor yi quando se realiza o acontecimento Ai, quer dizer, Ai = {ω : Y (ω) = yi}, i = 1, 2, ... , os conjuntos Ai formando uma partic¸a˜o de Ω. Fazendo C = {A1, A2, ...}, e´ imediato que devem pertencer a σ(C), a σ−a´lgebra gerada por C, todos os conjuntos da forma A = ⋃ i∈I Ai, I um qualquer subconjunto do conjunto N , incluindo I = φ (A = φ) e I = N (A = Ω). E´ fa´cil verificar que a classe dos conjuntos A constitui ela pro´pria uma σ−a´lgebra, seja σ(Y ). Ora, uma vez que os conjuntos A pertencem necessariamente a σ(C), que e´ por definic¸a˜o a menor σ−a´lgebra contendo C, enta˜o tem-se σ(Y ) = σ(C): a σ−a´lgebra obtida a partir de Y coincide com a σ−a´lgebra gerada por C. E´ igualmente fa´cil concluir que pertencem a σ(Y ) todos os conjuntos da forma Aa,b = {Y ∈ (a, b]} = {ω : a < Y (ω) ≤ b}, −∞ < a < b <∞, 39 pois I = {i : a < yi ≤ b} e´ um subconjunto de N e Aa,b = ⋃ i∈I {ω : Y (ω) = yi}. Recorde-se (ver as Defs. 5 e 11) que intervalos deste tipo sa˜o imprescind´ıveis para a ca- racterizac¸a˜o da distribuic¸a˜o de Y , seja esta discreta ou cont´ınua, seja uni-dimensional ou n−dimensional, com n > 1. Infelizmente, quando Y e´ v.a. cont´ınua, a` σ−a´lgebra gerada pelos conjuntos Ai = {ω : Y (ω) = yi}, y ∈ R, na˜o pertencem os conjuntos {ω : a < Y (ω) ≤ b}. Sendo, no entanto, necessa´rio garantir que esta´ preenchido o requisito mı´nimo de que tais conjuntos pertencem a` σ−a´lgebra obtida a partir de Y , introduz-se uma nova definic¸a˜o, que se aplica a todas as situac¸o˜es. Def. 32: σ−a´lgebra gerada por um vector aleato´rio Y Seja Y = (Y1, Y2, ..., Yn) um vector aleato´rio n−dimensional (n ≥ 1). Chama-se σ−a´lgebra gerada por Y, e representa-se por σ(Y), a` menor σ−a´lgebra que conte´m todos os conjuntos da forma {Y ∈ (a,b]} = {ω : ai < Yi(ω) ≤ bi, i = 1, 2, ..., n}, −∞ < aj < bj <∞, j = 1, 2, ..., n. Esta definic¸a˜o esta´ estreitamente ligada a` chamada σ−a´lgebra de Borel, cujos elementos sa˜o os Borelianos (ver nota da pa´g. 2). Se tomarmos genericamente Ω = R e C(1) = {(a, b] : −∞ < a < b < ∞}, a` σ−a´lgebra B1 = σ(C(1)) pertencem todos os subconjuntos de R ”razoa´veis”. B1 e´ a σ−a´lgebra de Borel3. De modo ana´logo, a σ−a´lgebra dos Borelianos de Rn e´ Bn = σ(C(n)), C(n) = {(a,b] : −∞ < ai < bi <∞, i = 1, 2, ..., n}. Ilustrando com o caso em que Y e´ uma v.a., Y : Ω → R, diz-se que um conjunto A ⊂ Ω e´ determinado pela v.a. Y se, conhecendo-se apenas o valor Y (ω), assumido pela v.a., e´ poss´ıvel decidir se ω ∈ A. Por outras palavras, ∀y ∈ R, e´ poss´ıvel determinar se Y −1(y) ⊂ A ou se Y −1(y) ⋂ A = φ. A classe de subconjuntos de Ω assim determinados por Y e´ a σ−a´lgebra gerada por Y, σ(Y ). Corresponde a` informac¸a˜o veiculada pela varia´vel aleato´ria Y . Mais ainda, quando Y e´ v.a. discreta, σ(Y ) e´ gerada pela classe de conjuntos {Y −1(Y (ω))|ω ∈ Ω}, como se viu. Em geral, para qualquer v.a. Y : Ω → R, σ(Y ) e´ dada por σ(Y ) = {Y −1(B)|B ∈ σ−a´lgebra de Borel}. Da mesma forma, se se considera um qualquer elemento de σ(Y) ficam a conhecer-se os resultados ω ∈ Ω para os quais Y assume valores num rectaˆngulo (a,b] (ou noutro tipo de Boreliano). Por outras palavras: a σ−a´lgebra gerada por Y conte´m toda a informac¸a˜o 3Se se pretende provar que um determinado subconjunto C de Rn e´ um Boreliano, basta mostrar que C se pode obter a` custa das operac¸o˜es ⋂ , ⋃ e passagem ao complementar, efectuadas sobre os rectaˆngulos (a,b]. 40 essencial sobre a estrutura do vector aleato´rio Y, como func¸a˜o de ω ∈ Ω, pois conte´m todos os conjuntos da forma {ω : Y ∈ C},∀C ⊂ Rn. Se Y e´ um processo estoca´stico, a Def. 32 tem que ser reformulada. Def. 33: σ−a´lgebra Gerada por um Processo Estoca´stico Y Seja Y = (Yt, t ∈ T, ω ∈ Ω) um processo estoca´stico. Chama-se σ−a´lgebra gerada por Y , e representa-se por σ(Y ), a` menor σ−a´lgebra que conte´m todos os conjuntos da forma {ω : a trajecto´ria (Yt(ω), t ∈ T ) pertence a C}, C um qualquer conjunto ”adequado” de func¸o˜es com domı´nio T. Ex. 17 (σ−a´lgebra gerada por um movimento Browniano) Seja B = (Bs, s ≤ t) um movimento Browniano no intervalo [0, t]. A σ−a´lgebra Ft = σ(B) = σ(Bs, s ≤ t), que e´ a menor σ−a´lgebra contendo a informac¸a˜o essencial sobre a estrutura do processo, e´ gerada pelos conjuntos At1,...tn(C) = {ω : (Bt1(ω), ..., Btn(ω)) ∈ C}, para todo o Boreliano C de Rn e toda a escolha dos ı´ndices ti ∈ [0, t], n ≥ 1. A Def. 33 e´ necessariamente vaga, devido ao reduzido instrumental teo´rico a que se faz apelo, mas deixa entrever que σ(Y ) na˜o e´ um ser trivial - o que, de certa forma, e´ evidenciado tambe´m pelo Ex. 17. Para se tentar conseguir uma ideia mais precisa sobre σ(Y ) costuma ter-se presente a ideia base, repetidas vezes apresentada, de que Para uma varia´vel aleato´ria (vector aleato´rio, ou processo estoca´stico) Y sobre Ω, a σ−a´lgebra σ(Y ) gerada por Y conte´m a informac¸a˜o essencial sobre a estrutura de Y como func¸a˜o de ω ∈ Ω. E´ assim formada pelos subconjuntos {ω : Y (ω) ∈ C}, para todo o conjunto ”adequado” C. Na medida em que Y gera uma σ−a´lgebra, diz-se tambe´m que Y conte´m a informac¸a˜o representada por σ(Y ), ou ainda que Y transporta a informac¸a˜o σ(Y ). Note-se que os elementos de σ(Y ) sa˜o subconjuntos de Ω, o espac¸o de resultados da experieˆncia aleato´ria (a ge´nese de tudo). Uma u´ltima nota: Seja f uma func¸a˜o de Y e considerem-se os subconjuntos de Ω {ω : f(Y (ω)) ∈ C}, definidos a` custa dos ja´ habituais conjuntos ”adequados” C. Quando a func¸a˜o f e´ bem comportada,verifica-se que tambe´m estes novos conjuntos per- tencem a σ(Y ), isto e´, verifica-se que σ(f(Y )) ⊂ σ(Y ). 41 Tambe´m daqui resulta que uma func¸a˜o f , actuando sobre Y , na˜o fornece nenhuma in- formac¸a˜o adicional sobre a estrutura de Y . Diz-se enta˜o que a informac¸a˜o associada a f(Y ) esta´ contida em σ(Y ). Ex. 18 (Func¸a˜o de um movimento Browniano) Seja o movimento Browniano B = (Bs, s ≤ t), t ≥ 0 e definam-se as σ−a´lgebras Ft = σ(B) = σ(Bs, s ≤ t), t ≥ 0. Considere-se a func¸a˜o f(B) = Bt, para um t fixo. Dado que ja´ e´ conhecida toda a estrutura do processo B, tambe´m se conhece a estrutura da v.a. Bt, donde resulta que σ(Bt) ⊂ Ft. A afirmac¸a˜o rec´ıproca e´ claramente falsa. Conhecendo apenas a distribuic¸a˜o de Bt, claro que na˜o se consegue reconstituir todo o processo B = (Bs, s ≤ t), t ≥ 0. 1.6.4 Valor Esperado Condicionado Geral Na Def. 30 introduz-se o valor esperado de uma v.a. X, condicionado por uma v.a. discreta Y , E[X|Y ]. Tal definic¸a˜o na˜o faz uso directo dos valores yi assumidos pela v.a. Y, mas antes dos subconjuntos Ai de Ω, Ai = {ω : Y (ω) = yi}. Foi visto tambe´m que, nessas condic¸o˜es, a classe dos conjuntos Ai gera a σ−a´lgebra σ(Y ). Vai agora introduzir-se o conceito de valor esperado condicionado geral, dada uma σ−a´lgebra F sobre Ω, represente-se por E[X|F ]. Nas aplicac¸o˜es interessantes considera-se F = σ(Y ), sendo Y varia´vel aleato´ria, vector aleato´rio ou processo estoca´stico, no entendimento de que a informac¸a˜o essencial sobre a estrutura de Y esta´ contida em σ(Y ), por si gerada. A este propo´sito, e´ ainda u´til reter o seguinte: Sejam Y, Y1 e Y2 varia´veis aleato´rias, vectores aleato´rios ou processos estoca´sticos sobre Ω e seja F uma σ−a´lgebra tambe´m sobre Ω. • Diz-se que a informac¸a˜o de Y esta´ contida em F , ou que Y na˜o conte´m mais informac¸a˜o do que aquela que esta´ contida em F , quando σ(Y ) ⊂ F . • Diz-se que Y2 conte´m mais informac¸a˜o do que Y1, quando σ(Y1) ⊂ σ(Y2). Def. 34: Valor Esperado Condicionado por uma σ−a´lgebra Uma v.a. Z e´ designada o valor esperado de uma v.a. X, condicionado a uma σ−a´lgebra F , e escreve-se Z = E[X|F ], se: • σ(Z) ⊂ F , quer dizer, Z na˜o conte´m mais informac¸a˜o do que a que e´ dada por F . • Z verifica a condic¸a˜o E[XIA] = E[ZIA],∀A ∈ F . A definic¸a˜o de valor esperado condicionado, dada uma σ−a´lgebra F , como sendo uma v.a. remonta a Kolmogorov. Quando E[|X|] < ∞, demonstram-se a existeˆncia e unicidade de E[X|F ]. Com efeito, desde que E[|X|] <∞, ha´ sempre uma varia´vel aleato´ria Z a satisfazer aquelas duas condic¸o˜es, isto e´, o valor esperado condicionado existe. Tambe´m se verifica que 42 na˜o pode haver mais do que uma varia´vel aleato´ria Z a satisfazer as duas condic¸o˜es, pois se houver uma outra varia´vel aleato´ria Z ′ que as satisfac¸a, enta˜o quase certamente Z = Z ′, quer dizer, P [ω ∈ Ω;Y (ω) = Y ′(ω)] = 1. Observac¸o˜es: 1. A condic¸a˜o E[XIA] = E[ZIA],∀A ∈ F , mostra que as v.a. X e Z sa˜o aproximadas, na˜o no sentido em que X(ω) = Z(ω),∀ω, mas no sentido em que os valores esperados de X e de Z sa˜o iguais em determinados conjuntos A (os conjuntos que pertencem a F). Como foi visto atra´s, Z = E[X|F ] e´ uma versa˜o grosseira da v.a. original X. 2. A experieˆncia aleato´ria e´ executada, ou seja, um elemento ω e´ seleccionado. O valor de ω e´ parcialmente revelado, mas na˜o o suficiente para que se possa calcular X(ω). No entanto, com base no que se sabe a respeito de ω, vai calcular-se uma estimativa de X(ω). Porque esta estimativa depende do conhecimento parcial disponibilizado sobre ω, e´ func¸a˜o de ω, isto e´, E[X|F ] depende de ω, mesmo que essa dependeˆncia na˜o aparec¸a de forma expl´ıcita. Se a σ−a´lgebra F tem um grande nu´mero de elementos, pode considerar-se que existe em F um conjunto A que e´ igual a` intersecc¸a˜o de todos os conjuntos da σ−a´lgebra a que pertence o resultado ω. O modo como ω e´ parcialmente revelado por F consiste precisamente em ser-nos dito que o resultado da experieˆncia e´ ω ∈ A - mas na˜o nos ser dito de que elemento de A se trata. Nessas condic¸o˜es, E[X|F ](ω) e´ o valor esperado de X sobre o conjunto A. De tal forma que, qualquer que seja o resultado ω ∈ A, o valor esperado condicionado E[X|F ](ω) e´ sempre igual. 3. A Def. 34 possibilita que haja variantes na definic¸a˜o de E[X|F ]. Estas variantes Z ′ apenas diferem de Z em conjuntos de probabilidade nula, pelo que todas as relac¸o˜es envolvendo E[X|F ] devem aceitar-se como ”quase certas”. Ex. 19 (Valor esperado condicionado - condic¸a˜o discreta) Na secc¸a˜o 1.4.1 (Def. 30) viu-se que E[X|Y ](ω) = E[X|Ai] = E[X|Y = yi], ω ∈ Ai, i = 1, 2, ... . Por outro lado, nos para´grafos que se seguiram ao Ex. 16, verificou-se que cada elemento A de σ(Y ) e´ da forma A = ⋃ i∈I Ai = ⋃ i∈I {ω : Y (ω) = yi}, I ⊂ N. Mais ainda, viu-se que E[X|Y ](ω) = Z(ω), ω ∈ Ai, sendo Z apenas func¸a˜o de Y , na˜o de X. Logo, sendo func¸a˜o de Y , na˜o conte´m mais informac¸a˜o do que Y . Daqui se retira a primeira conclusa˜o: σ(Z) ⊂ σ(Y ). Para se verificar a segunda condic¸a˜o, basta ter em atenc¸a˜o que, sendo A = ⋃ i∈I Ai, se pode escrever E[XIA] = E [ X ∑ i∈I IAi ] = ∑ i∈I E[XIAi ], 43 o que permite concluir ser E[ZIA] = ∑ i∈I E[X|Ai]P (Ai) = ∑ i∈I E[XIAi ] = E[XIA]. Verifica-se que Z satisfaz a Def. 34 e e´ na realidade o valor esperado condicionado de X, dada a σ−a´lgebra σ(Y ). A Def. 30 e´ o caso particular da Def. 34, quando a condic¸a˜o e´ discreta. O exemplo anterior mostra que, quando Y e´ v.a. discreta, E[X|Y ] e E[X|σ(Y )] representam a mesma v.a.. A definic¸a˜o seguinte generaliza essa ideia. Def. 35: Valor Esperado de uma Varia´vel Aleato´ria X Condicionado por uma Varia´vel Aleato´ria, um Vector Aleato´rio ou um Processo Estoca´stico Y Seja Y uma v.a., um vector aleato´rio ou um processo estoca´stico sobre Ω e seja σ(Y ) a σ−a´lgebra gerada por Y . O valor esperado condicionado de uma v.a. X, dado Y , define-se E[X|Y ] = E[X|σ(Y )]. Ex. 20 (Valor esperado condicionado e probabilidade condicionada cla´ssica) A probabilidade condicionada e os valores esperados condicionados no sentido cla´ssico tambe´m sa˜o casos particulares da definic¸a˜o geral de valor esperado. Seja B um acontecimento, tal que P (B) > 0, e P (Bc) > 0. Ja´ se sabe que FB = σ(B) = {φ,Ω, B,Bc} e que E[X|FB](ω) = E[X|B], ω ∈ B. Esta e´ a noc¸a˜o cla´ssica de valor esperado. De modo semelhante, se se especificar que X = IA, para algum acontecimento A, obte´m-se E[IA|FB](ω) = E[IA|B] = P (A ⋂ B) P (B) , ω ∈ B, que e´ a probabilidade condicionada de A dado B. 1.6.5 Regras para o Ca´lculo do Valor Esperado Condicionado A definic¸a˜o 34 na˜o e´ construtiva, pelo que, em geral, na˜o se consegue calcular E[X|F ]. O caso em que F = σ(Y ), Y , v.a. discreta, e´ uma excepc¸a˜o. No entanto, mesmo na˜o se conhecendo a forma do valor esperado condicionado e´ necessa´rio considera´-lo e ter em atenc¸a˜o algumas regras que se aplicam ao seu ca´lculo. • Regra 1 O valor esperado condicionado e´ um operador linear: SeX1 eX2 sa˜o varia´veis aleato´rias e c1 e c2 sa˜o constantes, E[(c1X1 + c2X2)|F ] = c1E[X1|F ] + c2E[X2|F ]. Dem: Imediata, aplicando a Def. 34. 44 • Regra 2 Sendo X varia´vel aleato´ria, o valor esperado condicionado de X e´ um estimador na˜o enviesado da varia´vel aleato´ria X, ou seja, E[X] = E[E[X|F ]]. Dem: Imediata, fazendo A = Ω, na Def. 34. • Regra 3 Se a varia´vel aleato´ria X e a σ−a´lgebra F sa˜o independentes, enta˜o E[X|F ] = E[X]. Em particular, se X e Y sa˜o independentes, enta˜o E[X|Y ] = E[X]. Dem: se X e F sa˜o independentes, enta˜o X e IA sa˜o independentes, ∀A ∈ F . Assim sendo, E[XIA] = E[X]E[IA] = E[X]P (A) = E[E[X]IA], A ∈ F . Considerando a Def. 34, vem que a v.a. (degenerada) Z = E[X] e´ E[X|F ]. Se F e´ independentede X, nada se ganha ao incluir-se a informac¸a˜o contida em F na estimac¸a˜o de X, pois essa informac¸a˜o na˜o tem nada a dizer sobre o comportamento de X. • Regra 4 Se σ(X) ⊂ F , enta˜o E[X|F ] = X. Em particular, se X e´ func¸a˜o de Y, σ(X) ⊂ σ(Y ) e E[X|Y ] = X. Dem: A informac¸a˜o contida em F fornece todo o conhecimento sobre X, o que permite escrever E[X|F ](ω) = E[X(ω)|F ] = X(ω)E[1|F ] = X(ω)× 1 = X(ω). Se a informac¸a˜o contida em F e´ suficiente para determinar X (e se σ(X) ⊂ F isso acontece), enta˜o a melhor estimativa para X, baseada na informac¸a˜o dada por F , e´ ela pro´pria. No fundo, e´ como se calcula´ssemos E[X|x] = x, percorrendo todos os poss´ıveis valores x. Ou seja, e´ como se calcula´ssemos E[X|X], que so´ pode ser a pro´pria X. Generalizando a Regra 4, obte´m-se a Regra 5. • Regra 5 Se σ(X) ⊂ F , enta˜o, qualquer que seja a varia´vel aleato´ria G, E[XG|F ] = XE[G|F ]. Em particular, se X e´ func¸a˜o de Y, σ(X) ⊂ σ(Y ) e E[XG|Y ] = XE[G|Y ]. 45 • Regra 6 Se F e F ′ sa˜o duas σ−a´lgebras e F ⊂ F ′, enta˜o: (a) E[X|F ] = E[E[X|F ′]|F ] (b) E[X|F ] = E[E[X|F ]|F ′]. Dem: (a) A Def. 34 estabelece que, para A ∈ F e Z = E[X|F ], E[XIA] = E[ZIA]; por outro lado, pela Regra 5, se A ∈ F ⊂ F ′, enta˜o E[E[X|F ′]|F ]IA = E[E[X|F ′]IA|F ] = E[E[XIA|F ′]|F ]. Tomando valores esperados desta u´ltima igualdade e aplicando a Regra 2, vem E[E[E[X|F ′]|F ]IA] = E[XIA]. Daqui resulta que Z ′ = E[E[X|F ′]|F ] tambe´m satisfaz E[XIA] = E[ZIA], mas como E[X|F ] e´ unica, deve ter-se Z = Z ′. Por outras palavras: se F ⊂ F ′, F ′ conte´m mais informac¸a˜o do que F . Se es- timamos X com base na informac¸a˜o fornecida por F ′ (calculando E[X|F ′]), e de seguida estimamos o estimador com base numa menor quantidade de informac¸a˜o (cal- culando E[E[X|F ′]|F ]), so´ poderemos obter o mesmo resultado que ter´ıamos obtido se houve´ssemos estimadoX directamente a partir de F (ou seja, se houve´ssemos calculado directamente E[X|F ]). (b) Pela Regra 4: Uma vez que F ⊂ F ′, E[X|F ] na˜o conte´m mais informac¸a˜o do que F ′, isto e´, pode lidar-se com E[X|F ] como se fosse constante. Enta˜o, E[E[X|F ]|F ′] = E[X|F ]E[1|F ′] = E[X|F ]. A Regra 7 e´ uma generalizac¸a˜o da Regra 3. • Regra 7 Se a varia´vel aleato´ria X e´ independente de F e a informac¸a˜o dada pela varia´vel aleato´ria (vector aleato´rio, ou processo estoca´stico) G esta´ contida em F , enta˜o, para qualquer func¸a˜o h(x, y), E[h(X,G)|F ] = E[EX [h(X,G)]|F ], onde EX [h(X,G)] significa que G esta´ fixa e o valor esperado se calcula apenas relati- vamente a X. Ex. 21 (Ilustrac¸a˜o da Regra 7) Sejam X e Y varia´veis aleato´rias independentes. As Regras 7 e 5 permitem estabelecer: E[XY |Y ] = E[EX(XY )|Y ] = E[Y E[X]|Y ] = Y E[X] E[X + Y |Y ] = E[EX [X + Y ]|Y ] = E[X] + Y. Ex. 22 (Aplicac¸a˜o ao movimento Browniano) Comecemos por recordar que um processo estoca´stico B = (Bt, t ∈ [0,∞)) se diz um movi- mento Browniano, ou processo de Wiener, quando: 46 • Se inicia com B0 = 0 • Tem incrementos estaciona´rios e independentes • Bt ∼ N(0, t),∀ t > 0 • As trajecto´rias sa˜o func¸o˜es cont´ınuas de t. Associe-se a B uma corrente crescente de informac¸a˜o acerca da estrutura do processo, repre- sentada pelas σ−a´lgebras Fs = σ(Bx, x ≤ s). O objectivo e´ calcular E[Bt|Fs] = E[Bt|Bx, x ≤ s], s ≥ 0. Claramente, se s ≥ t,Fs ⊃ Ft e da Regra 4 resulta E[Bt|Fs] = Bt. Quando s < t, pela Regra 1, E[Bt|Fs] = E[(Bt −Bs) +Bs|Fs] = E[(Bt −Bs)|Fs] + E[Bs|Fs]. Tendo em atenc¸a˜o que Bt − Bs e Fs sa˜o independentes, pois Fs na˜o tem nada a dizer sobre o incremento Bt − Bs, vem E[(Bt − Bs)|Fs] = E[Bt − Bs], pela Regra 3. Claro que E[Bt−Bs] = 0. Mais ainda, σ(Bs) ⊂ σ(Bx, x ≤ s) = Fs, donde E[Bs|Fs] = Bs e, finalmente, E[Bt|Fs] = E[Bs|Fs] = Bs = Bmin(t,s). Ex. 22 (Cont. - Aplicac¸a˜o ao quadrado do movimento Browniano) Seja agora o processo estoca´stico Xt = B 2 t − t, t ≥ 0. Por processo ana´logo ao visto atra´s, chega-se a` igualdade E[Xt|Fs] = Xt, s ≥ t. Para s < t vem B2t − t = [(Bt −Bs) +Bs]2 − t = (Bt −Bs)2 +B2s + 2Bs(Bt −Bs)− t. Tomando valores esperados condicionados, fica E[Xt|Fs] = E[(Bt −Bs)2|Fs] + E[B2s |Fs] + 2E[Bs(Bt −Bs)|Fs]− t. Notando que Bt − Bs e (Bt − Bs)2 sa˜o independentes de Fs e que σ(B2s ) ⊂ σ(Bs) ⊂ Fs, e aplicando as Regras 3, 4 e 5, chega-se a E[Xt|Fs] = E[(Bt −Bs)2] +B2s + 2BsE[Bt −Bs]− t = (t− s) +B2s + 0− t = Xs. Em suma: E[Xt|Fs] = Xmin(t,s). Atente-se que E[(Bt − Bs)2] = (t− s)E[(Bt−Bs√t−s )2] = (t− s), pois Bt−Bs√ t−s ∼ N(0, 1), donde (Bt−Bs√t−s )2 ∼ χ2(1) e E[(Bt−Bs√t−s )2] = 1. 47 1.6.6 O Valor Esperado Condicionado como Projecc¸a˜o Seja F a σ−a´lgebra habitual e seja L2F a famı´lia de varia´veis aleato´rias Z com domı´nio Ω a satisfazer as condic¸o˜es • E[Z2] <∞ • A informac¸a˜o dada por Z esta´ contida em F : σ(Z) ⊂ F A varia´vel aleato´ria E[X|F ] pode interpretar-se como sendo uma versa˜o actualizada do valor esperado de X, dada a informac¸a˜o F . Goza da seguinte importante propriedade: Se X e´ uma varia´vel aleato´ria com E[X2] < ∞, o valor esperado condicionado E[X|F ] e´ a varia´vel aleato´ria da famı´lia L2F que se encontra ”‘mais pro´xima da varia´vel aleato´ria X, no sentido da me´dia quadra´tica”’, isto e´: E[X − E[X|F ]]2 = min Z ∈ L2F E[(X − Z) 2]. Quer dizer: E[X|F ] e´ a projecc¸a˜o ortogonal da varia´vel aleato´ria X sobre o espac¸o L2F das varia´veis aleato´rias Z, que conteˆm alguma da informac¸a˜o dada por F . Observac¸o˜es: • No caso particular em que F = σ(Y ), E[X|Y ] e´ a func¸a˜o de Y que tem segundo momento finito e esta´ mais pro´xima de X, em termos da me´dia quadra´tica. • Algumas vezes, diz-se que E[X|F ] e´ a melhor previsa˜o de X, dada F . Pode ilustrar-se o que isto significa com o Ex. 22. No Ex. 22, concluiu-se que E[Bt|Bx, x ≤ s] = Bs e que E[B2t − t|Bx, x ≤ s] = B2s − s. Assim sendo, podera´ entender-se que a melhor previsa˜o para os valores futuros Bt e B2t − t, dada a informac¸a˜o sobre o movimento Browniano (o quadrado do movimento Browniano) ate´ ao tempo presente, s, e´ fornecida pelos valores presentes dos processos, Bs e B 2 s−s, respectivamente. Pode adiantar-se que esta e´ a propriedade que caracteriza a classe das martingalas com segundo momento finito: a melhor previsa˜o dos valores futuros do processo estoca´stico e´ o valor observado no presente. 1.7 Martingalas 1.7.1 Propriedades Definidoras A noc¸a˜o de martingala e´ crucial para a compreensa˜o do integral estoca´stico de Itoˆ, pois os integrais estoca´sticos indefinidos de Itoˆ sa˜o constru´ıdos de forma a constituir martingalas. Def. 36: Filtrac¸a˜o Seja {Ft, t ≥ 0} uma famı´lia de σ−a´lgebras sobre o mesmo espac¸o Ω, cada σ−a´lgebra Ft uma subclasse duma σ−a´lgebra F , tambe´m sobre Ω. A famı´lia {Ft, t ≥ 0}, diz-se uma filtrac¸a˜o se Fs ⊂ Ft, 0 ≤ s ≤ t. 48 Se (Fn, n = 0, 1, 2, ....) e´ uma sucessa˜o de σ−a´lgebras sobre Ω e Fn ⊂ Fn+1,∀n, Fn diz-se igualmente uma filtrac¸a˜o. Nas aplicac¸o˜es para no´s relevantes, uma filtrac¸a˜o esta´ normalmente ligada a um processo estoca´stico. Def. 37: Processo Estoca´stico Adaptado a uma Filtrac¸a˜o Diz-se que um processo estoca´stico Y = (Yt, t ≥ 0) se encontra adaptado a` filtrac¸a˜o {Ft, t ≥ 0} quando σ(Yt) ⊂ Ft, t ≥ 0. Observac¸o˜es: • Um processo estoca´stico Y esta´ sempre adaptado a` filtrac¸a˜o natural, que e´ a filtrac¸a˜o por si gerada, Ft = σ(Ys, s ≤ t). • A adaptibilidade de um processo estoca´stico Y a uma filtrac¸a˜o {Ft, t ≥ 0}, significa que as varia´veis aleato´rias Yt na˜o trazem mais informac¸a˜o do que a dada por Ft. Ou ainda que, para cada t, se a informac¸a˜o em Ft e´ conhecida, enta˜o tambe´m se conhece o valor de Yt. • Se Y = (Yn, n = 0, 1, ...) e´ um processo estoca´stico em tempo discreto, a adaptibilidade e´ definida de forma ana´loga: para a filtrac¸a˜o (Fn, n = 0, 1, ...) exige-se que σ(Yn) ⊂ Fn.
Compartilhar