Baixe o app para aproveitar ainda mais
Prévia do material em texto
PROBABILIDADE & PROCESSOS ESTOCÁSTICOS H. Magalhães de Oliveira, docteur Programa de pós-graduação em Engenharia Elétrica DINTER UEA-UFPE E-mail hmo@ufpe.br URL http://www2.ee.ufpe.br/codec/deOliveira.html SUMÁRIO DA PARTE I Conceitos de Probabilidade limsup e liminf, classes monotonicas Álgebra e σ-álgebra Continuidade Independência e probabilidade condicional Funções mensuráveis e variáveis aleatórias Bernoulli, Binomial, geométrica, Poisson, uniforme, exponencial, gama, beta, normal, chi2, Weilbull... Variáveis conjuntas Transformação de variáveis aleatórias .................................. Vetores aleatórios: Jacobiano Desigualdades: .................................. Jensen, Minkowski, Liapunov, Cr Função característica e suas propriedades .................................. Geradora de momentos Cotas sobre probabilidades .................................. Chebyshev .................................. Markov .................................. Chernoff Seqüências de variáveis aleatórias Critérios de convergência .................................. em média quadrática .................................. em probabilidade .................................. com probabilidade 1 .................................. em distribuição Lei dos grandes números .................................. Teorema de Bernoulli .................................. Teorema da Kolmogorov .................................. Teorema de Borel Teorema central do limite .................................. (Lindenberg-Lévy, Lyapunov, etc.) [Médias estatísticas e momentos .................................. Correlações, propriedades...] Estimação e predição: Amostragem SUMÁRIO DA PARTE II Processos Estocásticos (contínuos e discretos) Definições e classificação Estacionaridade (sentido amplo e restrito) Passeio aleatório Processo de Wiener-Lévy (movimento Browniano) Onda telegráfica aleatória Densidade espectral, teorema de Wiener-Kinchine Ergodicidade Processos estocásticos através de Sistemas Lineares .................................. Análise espectral Preditores lineares: Filtragem ótima de Wiener Processos Estocásticos Gaussianos .................................. Normal e log-normal .................................. Vetores gaussianos .................................. Processo banda-estreita Processo de Poisson .................................. Processo de contagem .................................. Tempo entre chegadas .................................. Tempo de espera .................................. Processo filtrado Cadeias de Markov .................................. Equações de Chapman-Komogorov .................................. Classificação de estados .................................. Probabilidades limites .................................. Teoria das filas .................................. M/G/1, G/M/1, M/M/k ... REFERÊNCIAS RECOMENDADAS Probability, Random Variables ans Stochastic Processes, A. Papoulis, McGraw-Hill, 1965. Probabilidade, Variáveis Aleatórias e Processos Estocásticos, J. Albuquerque, J.P. Fortes, W. Finamore, Interciencia, 2008. Introduction to Probability Models, 9th ed. S.M. Ross, Academic Press, 2007. A First Course in Stochastic Processes, S. Karlin & H. Taylor, Academic Press, 1975. Random Processes: An Introduction for Applied Scientists and Engineers, Davenport Jr, W.B., McGraw-Hill, 1970. Sistemas Probabilisticos, F.M. Campello de Souza, Vade Mecum, Recife, 2006. An introduction to the Theory of Random Signals and Noise, Davenport Jr, W.B. and Root, W.L, McGraw- Hill, 1958. Probability Theory, M. Loève, Van Nostrand, 1963. <<Incerteza é a marca indelével do universo.>> Dennis Poisson. Assim um evento terá, pela sua própria natureza, uma chance, maior ou menor, conhecida ou desconhecida, e sua probabilidade será relativa aos nossos conhecimentos naquilo que lhe diz respeito.” Poisson, 1837. (Sceaux, França) Probabilitas � PROBABILIDADES ALEATÓRIAS Modelam o acaso em fenômenos empíricos � PROBABILIDADES ESPISTÊMICAS Descrevem graus de crença parcial lógicos de pessoa/sistema intencional Matemática determinismo Aleatório: Taboo Teorema de Gödel e o fim da “certeza matemática” AXIOMAS 2 (lógica) = Resultados (Proposições) Mundo “real” Explicar � resposta ao POR QUÊ? TELEOLÓGICA (finalista) ESTATÍSTICA (probabilística) GENÉTICA (histórica) NOMOLÓGICA (dedudiva) ** científica Deus ex-machina, anjos,... ???? Qual a finalidade? Tudo tem uma razão. Qual a utilidade? Por que fazer? Visão pessoal: (interrogações postas no inicio das questões, discordante). BREVE HISTÓRICO 1654 Pascal-Fermat (Paris-Toulouse) 1812 Laplace - escola deterministica (o demônio laplaciano) Russos : Markov, Chebyshev, Liapunov, Kinchine, Kolmogoroff.. TEORIAS i) Definição a priori como razão entre casos favoráveis para total de casos possíveis. ii) Freqüência relativa (Von Mises) iii) Axiomática iv) Medida de crença TRATAMENTO AXIOMÁTICO URL: http://www2.ufpe.br/codec/deOliveira.html Exercício. Se A e B são eventos certos, i.e., P(A)=P(B)=1, avaliar, usando apenas os axiomas de Kolmogorov: P(A∪B) e P(A∩B). Dicas: problemas 5 e 6. UNIÕES FINITAS DISJUNTAS Dados eventos A1, A2, A3..., An todos disjuntos par-a-par, então: ∑ == = n k k n k k APAP 11 )()(U . Por indução finita: P2. P(A1∪A2)=P(A1)+P(A2) (verdade via AX4) Pn. Admita verdadeira Pn. ∑ == = n k k n k k APAP 11 )()(U . Mostrar que Pn ⇒ Pn+1 )()( 1 1 1 1 + = + = ∪= n n k k n k k AAPAP UU ⇒T2 )()()( 1 1 1 1 + = + = += n n k k n k k APAPAP UU ⇒(via Pn) ∑ + = + = = 1 1 1 1 )()( n k k n k k APAP U i.e. Pn+1 é verdadeira! Q.E.D. APLICAÇÕES RECENTES DA TEORIA • Inteligência artificial • Mecânica Quântica • Algoritmos probabilísticos (e algoritmos genéticos) • Lógica nebulosa • Teoria de informação • Controle estocástico • Redes neuronais • Teoria da evolução e seleção natural • Genética • Otimização • Predição, teoria da decisão, teoria dos jogos… Etc. etc. TEORIA DOS CONJUNTOS Coleção arbitrária de elementos Conjunto vazio – por abuso, aquele que não contém elementos. CLASSE: conjuntos cujos elementos são conjuntos. CONJUNTO DE INDICES = T {At, t ∈T}. Conjunto das partes (é uma classe) A={w1, w2} ℘ (A)={ {w1}, {w2}, A, ∅} 2n Conjunto finito= tem um número finito de elementos. Conjunto enumerável = se é finito ou pode ser posto em correspondência biunívoca com . CARDINALIDADE || ||= || ||=ℵ0 cardinalidade 2c (do continuum) ||A||=2c se e só se ∃ f:A → biunívoca. 1,2,3,..., ℵ0 (?) 2c Paul Cohen (1934-2007), Medalha Fields Não pode ser deduzido da teoria de conjuntos. ∃?=sim ou não. Considere uma rede com diferentes caminhos entre os nós 1,2,3,4. Os caminhos são indicados por letras. Escrevao evento K13, há uma ligação (caminho fechado) entre o nó 1 e 3, em termos dos caminhos A, B, C, D, E. Aplique leis distributivas para mostrar que K13={A∩ [B ∪C (C∩E)]} ∪ {D ∩ [E ∪ (B ∩C)]}. DEFINIÇÃO. Dada uma classe {At}t∈T U Tt tt AA Tt ∈ = ∈ sup I Tt tt AA Tt ∈ = ∈ inf LEIS DE “DE MORGAN” = ∈ c Tt tAU ∈ I Tt c tA = ∈ c Tt tAI ∈ U Tt c tA Conseqüência = ∈ c tA Tt sup ctA Tt∈ inf = ∈ c tA Tt inf ctA Tt∈ sup CAMPO (ALGEBRA) ℑℑℑℑ É uma classe fechada quando efetuamos um número finito (arbitrário) de operações entre seus elementos. i) A,B ∈ ℑ ⇒ A∪B∈ℑ ii) A,B ∈ ℑ ⇒ A∩B∈ ℑ iii) A ∈ ℑ ⇒ Ac ∈ ℑ A,B∈ ℑ Ac,Bc∈ ℑ ⇒ Ac∪Bc∈ ℑ ⇒ [Ac∪Bc]c ∈ ℑ ⇔ A∩B∈ ℑ Exercício. Determinar uma álgebra em ΩΩΩΩ contendo A,B∈∈∈∈ΩΩΩΩ. Use apenas ∪ e (.)c Mostremos que ℑ ={∅,A, B, Ac, Bc, A∪B, (A∪B)c, A∩B, (A∩B)c, (B-A), (B-A)c, (A-B), (A-B)c, A∆B, (A∆B)c} DEF. LIMITE INFERIOR O conjunto de pontos que pertencem a quase todos os elementos Ak de uma classe (exceto possivelment em um número finito delas) é chamado de LIMITE INFERIOR de {At}t∈T UI ∞ = ∞ = = 1 :inflim n nk kk AA montar tais uniões e interpretar... DEF. LIMITE SUPERIOR O conjunto de pontos que pertencem a um número infinito de elementos Ak de uma classe é chamado de LIMITE SUPERIOR de {At}t∈T IU ∞ = ∞ = = 1 :suplim n nk kk AA montar as uniões e interpretar... Obs- kAinflim ⊆ kAsuplim Exemplo (trivia). Seja w∈Ak se k é ímpar w∉Ak se k é par. w∉ kAinflim e w∈ kAsuplim CONVERGÊNCIA EM CLASSES Seja {Ak}k=1 uma classe de cardinalidade enumerável. Dizemos que {Ak} é uma seqüência convergente e que existe um limite na classe quando kAinflim AAk == suplim Escreve-se AAk =lim . CLASSES MONOTÔNICAS • Classe não-decrescente: A1⊆ A2 ⊆ A3 ⊆ A4 ... notação An↑ • Classe não-crescente: A1⊇ A2 ⊇ A3 ⊇ A4 ... notação An↓ Classes monotônicas são convergentes! Vejamos. An↑ U ∞ = == 1 suplimlim n nkn AAA An↓ I ∞ = == 1 inflimlim n nkn AAA Se { }nB é uma seqüência qualquer, então: I ∞ = ≥ = nk k k B nk B inf ↑ faça diagramas de Venn... k nk k B nk B ≥ == ∞ = sup U ↓ faça diagramas de Venn... Verificação: I ∞ += + = 1 1 nk kn BD , I 1+= nnn DBD ⇒ 1+⊂ nn DD U ∞ += + = 1 1 nk kn BE , U 1+= nnn EBE ⇒ 1+⊃ nn EE . Examinar o tipo e a convergência nas seguintes classes: Ω=[0,1] ≤< + = 1 1 1|: x n xAn e <<= n xxBn 10|: σ-álgebra Álgebra de Borel Uma σ-álgebra é uma classe não vazia fechada sobre todas as operações enumeráveis com conjuntos. Obs- toda σ-álgebra é uma álgebra, mas o inverso não é válido. Obs- o conjunto das partes ℘(Ω) sempre uma σ-álgebra. Seja C uma classe. Para que ela seja uma σ-álgebra é necessário e suficiente que ∈∀ nA C, 1) ∈cnA C 2) ∈ ∞ = U 1n nA C Paralelo com o fechamento a.b e a+b EXEMPLOS TRIVIAIS ℑ := { [0,0.5], (0.5,1), ∅, [0,1]} é álgebra e σ-álgebra. ℑ := { [ ], [ ), ( ], ( ), ∅, [0,1]} não é σ-álgebra. Α Α Α Α álgebra de BOREAL na reta real É a álgebra que contém uma determinada classe de intervalos na reta real: os intervalos abertos. Notas: 1) Por causa da regra de dualidade, fechamento sob complementação e intersecções finitas (enumeráveis) implica em fechamento sob uniões finitas (enumeráveis). Podemos então trocar também, nestas propriedades, intersecções e uniões. 2) A maior σ-álgebra para uma dada classe é o conjunto das partes desta classe. PROPOSIÇÃO. A menor σ-álgebra passível de construção é {∅,Ω}. PROVA. Se G é uma σ-álgebra e A∈ G, então F definição de σ-álgebra, Ω,Ac e ∅ ∈ G e, portanto, F ⊂ G. Mas F é uma σ-álgebra, pois se tomamos complementos ou uniões de conjuntos de F, invariavelmente obtemos elementos de F. Segue-se que F é uma σ-álgebra que está contida em qualquer outra σ-álgebra G que contenha A, daí o resultado. Classes monotônicas. � 1) Ej∈� Ej ⊂Ej+1 e U ∞ = = 1 lim j jn EE ∈� 2) Ej∈� Ej ⊃Ej+1 e jjn EE I ∞ = = 1 lim ∈� σσσσ-álgebra mínima Está contida em qualquer σ-álgebra definida sobre a class. É única. Fmin=∩F. TEOREMA. Toda σ-álgebra é uma álgebra monotônica e vice-versa. TEOREMA. A σ-álgebra mínima sobre uma classe e a classe monotônica mínima sobre a mesma classe coincidem. Α σΑ σΑ σΑ σ-álgebra de BOREAL É a σ-álgebra mínima que contém uma determinada classe de intervalos na reta real: os intervalos abertos. FUNÇÕES DE CONJUNTO Seja C uma classe. Considere uma aplicação de C em . ϕ: C → )(AA ϕa . 1. Funções de conjunto aditivas Se C ={Aj} é uma classe disjunta e ∑ == = n j j n j j AA 11 )(ϕϕ U , a função é dita ser uma função de conjunto aditiva. Notação: A∪B=A+B se A∩B=∅ Generalizando, tem-se ∑ == = n j j n j j AA 11 U , se {Aj} é disjunta. 2. Funções de conjunto σ-aditivas Se C ={Aj} é uma classe disjunta e ∑ ∞ = ∞ = = 11 )( j j j j AA ϕϕ U , a função é dita ser uma função de conjunto σ-aditiva. • Se ∀j, |ϕ(Aj)|<+∞ , então a função de conjunto é dita σ-finita. Nota. Toda função aditiva (ou σ-aditiva) exige que ϕ(∅)=0. Prova. A=A+∅ ⇒ ϕ(A)= ϕ(A)+ ϕ(∅), daí o resultado. TEOREMA. Seja ϕ uma função de conjunto σ-aditiva tal que +∞< ∞ = U 1 )( j jAϕ . Então ∑j j A )(ϕ converge absolutamente. Nota. +∞<∑ j jA )(ϕ (~⇒) +∞<∑j jA )(ϕ +∞<∑ j jA )(ϕ (⇐) +∞<∑j jA )(ϕ . Separando: = + jA Aj ou ∅, se 0)( ≥jAϕ = − jA Aj ou ∅, se 0)( ≤jAϕ . ∑∑∑ −+ += )()()( jj j j AAA ϕϕϕ O primeiro termo converge por hipótese: ∑ + )( jAϕ O segundo termo exclui -∞. Sub-σσσσ-aditividade. TEOREMA Seja ϕ uma função de conjunto não-negativa, ϕ≥0, e aditiva. Então: i) ∀A | ϕ(A)<+∞ (σ-finita), se A⊃B ⇒ ϕ(B)≤ ϕ(A)<+∞ (monotonicidade) ii) ∑ == ≤ n j j n j j AA 11 )(ϕϕ U (sub-σ-aditividade). Prova. i A⊃B A=B+(A-B) e B∩(A-B)=∅. (i.e. B∩(Bc∩A)). Pela hipótese de aditividade, ϕ(A)= ϕ(B)+ ϕ(A-B). Mas como a função é não-negativa, ϕ(A-B)≥0, e a monotonicidade segue. ii U ∞ = +−−+−+= 1 123121 ...)()( j j AAAAAAA ou seja, U ∞ = +∩∩+∩+= 1 321211 ...)()( j ccc j AAAAAAA Mas jj c i AAA ⊆∩ e pela monotonicidade (item i), segue-se: U ∞ = +++≤ 1 321 ...)()()()( j j AAAA ϕϕϕϕ , provando assim a sub-σ- aditividade. CONTINUIDADE DE FUNÇÕES DE CONJUNTO ϕ é contínua por baixo se e só se ∀An↑ )(limlim nn A n A n ϕϕ ∞→ = ∞→ ϕ é contínua por cima se e só se ∀An↓ )(limlimnn A n A n ϕϕ ∞→ = ∞→ DEFINIÇÃO. ϕ é contínua se e só se ela é contínua por baixo e contínua por cima. Um exemplo. Seja A=[0,1]. dxeA x∫ − = 1 0 2/2 2 1)( pi µ (integral de Riemman) Medida An⊂A . Considere An↑ não decrescente A1⊆ A2 ⊆ A3 ⊆ A4 ... ∞ = + −≤≤ + ∈= 11 11 1 1|: n n n x n RxA An →A dxeA n n x n ∫ + − + − = 1 11 1 1 2/2 2 1)( pi µ Se µ é contínua, então )()(lim)(lim AAA nn µµµ == . Mas i) )()(lim AAn µµ = ii) )(2 1 2 1lim)(lim 1 0 2/1 11 1 1 2/ 22 AeeA xn n x n µ pipi µ === ∫∫ −+ − + − µ parece ser contínua (de fato, ela o é). Porém, verificar continuidade pela definição, já era! Mostraremos a continuidade da função Probabilidade. Probabilidade (Kolmogorov) é uma função de conjunto σ-aditiva definida na classe de eventos de um espaço amostral. (rigor, escola formal). σσσσ-aditividade ⇔⇔⇔⇔ Continuidade. Nota histórica. Axiomas: Kolmogorov usou continuidade, ao invés de A5 (dá no mesmo, são equivalentes). Hoje, usa-se formalmente a σ- aditividade. TEOREMA DA CONTINUIDADE DA MEDIDA DE PROBABILIDADE (siga também Davenport Jr) Prop(i) Toda função de conjunto σ-aditiva é aditiva e contínua. Prop(ii) Se uma função de conjunto é aditiva, contínua por baixo, finita e contínua em ∅, então ela é σ-aditiva. Nota. Nem é preciso continuidade (por baixo e por cima), porém leia-se em termos práticos: i) σ-aditiva ⇒ aditiva e contínua ii) aditiva e contínua ⇒ σ-aditiva. PROVA. (⇒) Seja An ↑ uma seqüência não-decrescente (arbitrária). U ∞ = = 1 lim n nn AA ...)()(lim 23121 +−+−+= AAAAAAn ∑ ∞ = − −= 1 1 )(lim n nnn AAA se A0:=∅. ∑ = − − ∞→ = n k kkn AA n A 1 1)( lim lim Aplicado a função de conjunto aos dois membros, ))(lim()(lim 1 1∑ = − − ∞→ = n k kkn AA n A ϕϕ . Pela σ-aditividade, ∑ = − − ∞→ = n k kkn AA n A 1 1)( lim)(lim ϕϕ . Mas )()()(..)()()()()( )( 123121 1 1 nnn n k kk AAAAAAAA AA ϕϕϕϕϕϕϕϕ ϕ =−++−+−+ =− − = −∑ Então )(lim)(lim nn A n A ϕϕ ∞→ = é contínua por baixo. Seja An ↓ uma seqüência não-crescente (arbitrária). I ∞ = = 1 lim n nn AA Construa uma seqüência (An0-An) ↑ n≥n0, (não-decrescente), com +∞<)( 0nAϕ . Aplicando a parte anterior da demonstração, vem: ( ) )(lim)lim( 00 nnnn AAAA −=− ϕϕ Ou seja, ( ) )(lim)(lim 00 nnnn AAAA ϕϕϕ −=− e finalmente, ( ) )(lim)((lim) 00 nnnn AAAA ϕϕϕϕ −=− donde a continuidade por cima. Se ϕ é contínua por baixo e por cima, então ela é contínua. (⇐) Parte A ∑ ∑ = ∞ += ∞ = += n k nk kk n n AAA 1 11 )( ϕϕϕ U . Mas quando n→+∞, 0)(lim 1 =∅= ∑ ∞ += ϕϕ nk kA (use hipótese) (é claro que assumimos a classse {An} disjunta, pois queremos provar a σ-aditividade). Assim, ∑ ∞ = ∞ = = 11 )( k k n n AA ϕϕ U Outra demonstração. = = ∑∑ = ∞ = ∞ = n k k k k n n AAA 111 limϕϕϕ U . Pela continuidade por baixo, se Bn ↑ então )(lim)(lim nn BB ϕϕ = A seqüência construída é ∑ = = n k kn AB 1 : ↑ e segue-se )(lim)(lim 11 ∑∑ == = n k n n k n AA ϕϕ e, portanto, ∑∑∑ ∞ == ∞ = == 111 )()(lim)( k n n k n k n AAA ϕϕϕ Q.E.D. TEOREMA (compacticidade). Se ϕ é contínua, então ∃ C, D tais que ϕϕ sup)( =C e ϕϕ inf)( =D . Prova. Tomemos ϕ<∞. {An} com An →A. Cada An escrito como uniões disjuntas de I n k kA 1 ' = , sendo kk AA =' ou kk AAA −= ' . São 2n subconjuntos. Caso n=2 A1∩A2 (A-A1)∩A2 A1∩(A-A2) (A-A1)∩(A-A2) Exemplo. Caso n=2 reescrever A2 A2=(A1∩A2)+A2∩(A-A1) = Azul + Cinza Exemplo. Caso n=3 reescrever A3 A3= A1∩A2∩A3+(A-A1)∩A2∩A3+(A-A1)∩(A-A2)∩A3+A1∩(A-A2)∩A3. Vermelho + Cinza + Verde + Azul Seja U nmn AB =: , Bn=∅ quando 0)( <nmAϕ Observação: mnmn AA ,'' ⊆ para n’>n. =∪∪∪∪≤≤ ∞ = ++ U nk knnnnnn BBBBBBA ϕϕϕϕ )...()()( '21 ϕ contínua. Defina U ∞ = = nk kBC lim: n→+∞, )(sup Cϕϕ ≤ , mas )(sup Cϕϕ ≥ (senão não seria sup). Assim ).(sup Cϕϕ = Prova nas mesmas linhas para a existência do inf. Q.E.D. Resolvendo a questão 11. ⊆kAinflim kAsuplim {An} com conjuntos disjuntos para a par, Ai∩Aj=∅. Calcularemos o lim sup Ak. IU ∞ = ∞ = = 1 suplim n nk kk AA ...suplim 4321 UUUU ∞ = ∞ = ∞ = ∞ = ∩∩∩= k k k k k k k kk AAAAA ou seja, ...)()(suplim 321 1 21 1 1 11 ++−∩ +−∩ −∩= ∞ = ∞ = ∞ = ∞ = AAAAAAAAAAA k k k k k k k kk UUUU Escrevendo em termos de eventos complementares: ...)()( suplim 321 1 21 1 1 11 ++∩∩ +∩∩ ∩∩ = ∑∑∑∑ ∞ = ∞ = ∞ = ∞ = c k k c k k c k k k k k AAAAAAAAAA A Usando de Morgan, ...)()( suplim 321 1 21 1 1 11 ∩∩∩∩ ∩∩∩ ∩∩ = ∑∑∑∑ ∞ = ∞ = ∞ = ∞ = ccc k k cc k k c k k k k k AAAAAAAAAA A ou seja, = ∩= ∩= ∑∑∑ ∞ = ∞ = ∞ = ∞ = c k k k k k c k k kk AAAAA 1111 suplim I ∅. Como ⊆kAinflim kAsuplim , então =kAinflim ∅. De lim inf Ak=lim sup Ak, segue-se que o limite existe e vale ∅. PROBABILIDADE CONDICIONAL Dados A,B, com P(A)>0, define-se )( )( :)|( AP BAPABP ∩= . Implicações Se A∩B=∅ P(A∩B)=0 ⇒ P(B|A)=0. Se A⊂B A∩B=A ⇒ P(B|A)=1 Se A⊃B A∩B=B ⇒ P(B|A)= P(B)/P(A)≥P(B). Caso limite P(B|A) com P(A)=0. Como definir? Abordagem menos comum nos textos básicos. Tome uma seqüência monotônica An ↓ que converge para A. Defina então )( )(lim :)|( n n AP ABP n ABP ∩ ∞→ = caso o limite exista e independa da escolha da seqüência An. Probabilidade Total (lei das probabilidades totais) Seja {Bj} uma partição de Ω. ∑ = ∩= n j jBAPAP 1 )()( REGRA DE BAYES Seja {Bj} uma partição de Ω, P(Bj)>0 (∀j). A∈ Ω, P(A)>0. ∑ = = n k kk jj j BAPBP BAPBP ABP 1 )|()( )|()()|( INDEPENDENCIA ENTRE EVENTOS P(B|A) = P(B) P(A|B) = P(A) P(A∩B)=P(A).P(B) Equivalentes! Nota. A e B mutuamente exclusivos são dependentes. A∩B=∅ P(A∩B)=0 P(B|A)=0 ≠ P(B) ⇒ não são independentes. Independência estatística entre eventos { }nkA 1 estatisticamente independentes se e só se para qualquer subcoleção arbitrária: I j i j i kk ii APAP 1 1 )()( = = ∏= . PROVAS DE IGUALDADE ENTRE CONJUNTOS A guia é estabelecer que i) Se x∈A ⇒ x∈B.ii) Se x∈B ⇒ x∈A. A função indicadora de conjunto. Para um conjunto A, Aw Aw wI A ∉ ∈ = 0 1)( . Álgebra de funções indicadoras- operações. BABA III +=+ se A∩B=∅. BABA III .=∩ 2mod)( BABA III +=∆ Uma seqüência {An} converge para A lim An=A ⇔ AA II n → . Funções mensuráveis e medidas Considerando a reta real . Classe: conjunto das partes de , ℘( ). Gera-se uma álgebra A na reta que consiste em todos os intervalos abertos I∈A, I⊂ . Os intervalos são do tipo I=(a,b) ou combinações (finitas) deles. A MEDIDA DE RIEMMAN (integral de Riemman) A medida m de conjuntos na álgebra A é naturalmente (uma função de conjunto) expressa pelo comprimento do intervalo, i.e., m(I):=l(I)=b-a. (quantos centímetros há em uma régua, no intervalo entre as marcações 4 cm e 7 cm? Naturalmente l(I)=7-4=3 cm. Sabemos medir outros “conjuntos”?). A extensão natural é passar de uma álgebra A para uma σ-álgebra B⊂℘( ). A σ-álgebra de Borel na reta real é aquela que contém todos os intervalos abertos na reta (B é uma extensão de A, i.e. B ⊃A). Como estender a medida m para os conjuntos em B? uma medida de extensão (medida externa) foi utilizada. A medida de Lebesgue: a caminho de variáveis aleatórias. Dado um conjunto A⊂ , define-se a medida ∑ ∪⊂ = )(inf :)( n n Il IA Aµ . Note que esta medida funciona como uma extensão: o caso particular de conjuntos do tipo intervalos, A=I, e a medida usada não requer uma cobertura U n nI e a medida vale l(I)=b-a, coincidindo com a medida de Riemman. NOTA-A medida de Lebesgue não é uma medida de probabilidade, pois µ( )≠1 e, portanto, não obedece AX3 (normalização). VARIÁVEIS ALEATÓRIAS Considere os mapeamentos X (denominados variáveis aleatórias) )( : wXw RX a →Ω A cada ponto do espaço amostral, atribui-se um número na reta real. Isto corresponde a transformar o objeto de estudo de um plano abstrato (espaço amostral) em valores numéricos. Agora saberemos “fazer contas”. Conjuntos serão mapeados em intervalos (que são mensuráveis usando as medidas – Riemman ou Lebesgue). A variável aleatória é uma “função” (mapeamento): X(w)=x. As transformações são entre dois sistemas – espaços de probabilidade triplas (Ω,A,P’) ⇒ ( ,B,P) Lembre o exemplo trivial: lançamento de um dado No espaço amostral, há “face do dado caiu exibindo 1”, “face do dado caiu exibindo 2”,..., “face do dado caiu exibindo 6”. Estes eventos são mapeados via v.a. nos números reais 1, 2, 3, 4, 5 e 6. Vejamos a medida de probabilidade: uma função de conjunto P:AAAA→→→→[0,1] Para cada subconjunto B na álgebra B B∈B ⇒ P(B):=P(X-1(B)) se X-1(B)∈A. Os conjuntos da σ-álgebra de Borel podem ser mensuráveis. Funções mensuráveis Dada f função real, contínua Qualquer conjunto do tipo {x | f(x)>α} α∈ é mensurável. Veja que conjuntos {x | f(x)≥α} são mensuráveis: −>=≥ +∞ = U 1 1)(|{})(| n n xfxxfx αα Se {x | f(x) ≥α} é mensurável, seu complemento também o é: {x | f(x) ≥α}c= -{x | f(x) ≥α} = {x | f(x)<α}. Se {x | f(x)<α} é mensurável, {x | f(x)≤α} também o é, pois +<=≤ +∞ = U 1 1)(|{})(| n n xfxxfx αα Assim, basta considerar conjuntos de um dos tipos: Seja a seleção {x | f(x)≤α}. No contexto de variáveis aleatórias, consideram-se: w ← x X ← f {w | X(w)≤α}:=FX(α). ISTO É a função distribuição da variável aleatória X! Conhecido FX(.), tem-se informação para calcular a probabilidade de eventos que representem quaisquer eventos que são meapados em conjuntos da álgebra de Borel. NOTAÇÃO P(B):=P{w∈Ω | w∈X-1(B)⊂A} FX(α):={w | X(w)≤α} Usaremos simplificadamente FX(x)= Pr(X<x) F é contínua à esquerda. (observação: definindo-se F(x):=Pr(X≤x), F é contínua à direita). EXEMPLOS (ilustração do comportamento de FX) Variável discreta Variável contínua NOTAS (DE RODAPÉ) SIMPLES FX(x1)=P(w∈Ω | X(w)<x1) FX(x2)=P(w∈Ω | X(w)<x2) Se x1<x2 ⇒ F(x1) ≤ F(x2). F(-∞)=P(w∈Ω | X(w)<-∞)=P(∅)=0. F(+∞)=P(w∈Ω | X(w)<+∞)=P(Ω)=1. Função densidade de Probabilidade f(x) associada com a função distribuição de probabilidades F(x). ∫ ∞− = x dfxF ξξ )()( . Como F(x) é não decrescente (monotonicidade), 0)()( ≥= dx xdF xf . Distribuições contínuas e diferenciáveis. Para os demais casos (discretas e mistas), usam-se impulsos de Dirac. Interpretando: ∆x suficientemente pequeno xxfxxXxP ∆≅∆+≤≤ ).()( ou x xxXxP x xf ∆ ∆+≤≤ →∆ = )( 0 lim)( Discretas Assumindo valores x1, x2, x3,... com probabilidade P(xi) )()()( ∑ −== i ii xxuxXPxF Derivando aparecem impulsos. No caso de distribuições mistas: ∑ −=+= i ii xXxXPdx xdC xf )()()()( δ . EXPERIMENTOS DE BERNOULLI (ensaios de Bernoulli) Um dos experimentos largamente usados é quando ao invés de lidar com resultados de UM ÚNICO experimento, considera-se o caso e realização repetida de um mesmo experimento. Em particular, interessa a probabilidade de o evento ocorrer k vezes nas n (n>k) realizações do mesmo. (este é essencialmente o problema de obter k caras em n lançamentos de uma moeda. O número de repetições do evento “jogar a moeda” é n.) Se p denota a probabilidade de ocorrer o evento, 1-p é a probabilidade dele não ocorrer (conseqüência imediata dos axiomas). A probabilidade de ocorrência de k caras em n jogadas é (experimentos independentes) P(A1∩A2∩A3∩...∩An)=P(A1).P(A2).P(A3)...P(An) p.p.p...p.(1-p).(1-p)....(1-p) k vezes n-k vezes (total n) Como os eventos da ocorrência de k caras em n lançamentos são mutuamente exclusivos e ocorrem em número k n , via AX4 tem-se: P(k ocorrências em n eventos repetidos)= knk pp k n − − )1( Note que só podem ocorrer k=0, k=1, k=2, k=3, ou... k=n ocorrências. MUTUAMENTE EXCLUSIVAS P(Ω)= knk n k pp k n − = − ∑ )1( 0 =[p+(1-p)]n=1 (vale AX3). A probabilidade de haver a ocorrência entre k1 e k2 vezes o evento nos n ensaios é dada por: knk k kk pp k n − = − ∑ )1( 2 1 . HIPÓTESES: Variável aleatória binária, n eventos, independencia entre eles. TEOREMAS ASSINTÓTICOS. Dá um “trabalhão” calcular estas expressões quando n é grande! TEOREMA DE “DE MOIVRE-LAPLACE” Assumindo que n é grande e também de modo que n.p.(1-p)>>1, então Vale uma aproximação Gaussiana para a Binomial: )1(2 )( 2 )1(2 1)1( pnp npk kk e pnp pp k n − − − − ≅− pi Assim, o cálculo da probabilidade da ocorrência entre k1 e k2 vezes o evento nos n ensaios pode ser estimado por: dxe pnp pp k n k k pnp npx kk k kk ∫∑ − − − = − ≅− 2 1 2 2 1 )1(2 )( )1(2 1)1( pi Integral Gaussiana – Tabelada. Função Q(.) ou erfc(.). − − − − − ≅− − = ∑ )1.(.)1.(. )1( 12 2 1 ppn npk erf ppn npk erfpp k n knk k kk(tirar pirulito de criança!) Aproximação II. n→∞ A aproximação proposta por De Moivre requer n.p>>1. Nos casos em que n.p≈1, isto não é válido. Considera-se agora: TEOREMA DE POISSON n→∞ ! )()1( k np epp k n k npknk −− ≅− Se n→∞ e p→0, mas com a relação n.p→a, tem-se ! )()1( k a epp k n k aknk −− ≅− . Isto definirá a variável aleatória de Poisson e o processo de Poisson. VARIÁVEIS ALEATÓRIAS USUAIS Discretas Bernoulli, Binomial, Poisson Contínuas Gaussiana, exponencial, Cauchy, Laplace, Uniforme, beta, χ2 Mistas GAUSSIANA UNIFORME 2 2 2 )( 22 1)( σ piσ mx exf −− = contrário caso 0 1 )( bxaabxf << − = EXPONENCIAL chi2 )(.)( TueaTf aT−= )()2/(2 2)( 22 2/12/ xuex n xf xn nn σ σ −− Γ = BETA Função fatorial generalizado (função gama de Euler) ∫ +∞ − ==Γ 0 !:)( xdex x ζζ ζ Função beta )( )().( :),( ba babaB +Γ ΓΓ = 11 )1.(),()( ++ −= βαβα xxBxfX phibeta t α, β, ( ) M α β, ( ) T α β, ( )α β+ 1− t a α β, ( )−( )α 1− b α β, ( ) t−( )β 1−⋅ ⋅:= Limitada à direita e a esquerda. Pode ser simétrica ou assimétrica. A simetria é controlada pelos parâmetros. MAXWELL )(21)( 22 2/22 xuexxf xX σpiσ − = VETORES ALEATÓRIOS O conceito de variável aleatória pode ser estendido para mapeamento no espaço euclidiano n-dimensional. X: Ω → n exemplo: mapeamento em 3. Um vetor aleatório é um mapeamento vetorial tal que 1) ∀x∈ n, o conjunto no espaço amostral X:={w∈ Ω |X≤x} corresponde a um evento. O vetor de x:=(x1,x2,x3,...,xn) e X≤x ⇔ (X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn) 2) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=∞,…, Xn(w) ≤xn)=0 (∀i) 3) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=-∞,…, Xn(w) ≤xn)=0 (∀i). FUNÇÃO DISTRIBUIÇÃO DE UM VETOR ALEATÓRIO A função distribuição de um vetor aleatório é descrita por FX: n → x →FX(x). Lembrete: o resultado é sempre um número real. FX(x)=P(X≤x)=P(X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn) A notação mais usual é: ),...,,( 21,...,, 21 nXnXX xxxF . PROPRIEDADES DA FUNÇÃO DISTRIBUIÇÃO DE UM VETOR ALEATÓRIO i) 0),...,...,,( 21,...,, 21 =−∞ nXnXX xxxF ii) 1),...,,...,,(,...,, 21 =∞∞∞∞XnXXF (normalização AX3) iii) F é monótona não-decrescente em cada argumento. iv) F é contínua pela direita em cada argumento. v) ∀i )(),...,,...,,(,...,,...,, 21 iXiXnXXX xFxF ii =∞∞∞ . O caso usual de (v) é a reobtenção das distribuições marginais em cada dimensão: Partindo de ),(, yxF YX : )(),( , xFxF XYX =∞ )(),( , yFyF YYX =∞ . A função densidade de um vetor aleatório também pode ser definida por extensão: ),...,,( ... :)( 21,...,, 21 21 nXXX n n X xxxF xxx xf n∂∂∂ ∂ = . PROPRIEDADES DAS DENSIDADES DE VETORES ∫ ∫ ∫ ∞− ∞− ∞− = 1 2 2121 ...),...,(...),...,,( 2121...21... x x x nnXXXnXXX n nn dddfxxxF ξξξξξξ 1) Normalização: 1...),...,(... 2121...21 =∫ ∫ ∫ +∞ ∞− +∞ ∞− +∞ ∞− nnXXX dddf n ξξξξξξ 2) Não-negatividade: 0),...,,( 21,...,, 21 ≥nXXX xxxf n 3) Distribuição Marginal: ∫ ∫ ∫∫ +∞ ∞− +∞ ∞− +∞ ∞−∞− = nnXXX x iX dddfxF n i i ξξξξξξ ...),...,(......)( 2121...21 4) Densidade Marginal (caso usual): ∫ +∞ ∞− = dyyxfxf XYX ),()( e ∫ +∞ ∞− = dxyxfyf XYY ),()( Há que se estudar e ler detalhadamente definição e propriedades de densidades de probabilidade condicionadas. Relação entre densidades e INDEPENDÊNCIA ESTATÍSTICA Independência entre duas v.a.’s X e Y. (desacoplamento) X e Y Independentes ⇔ )().(),( yFxFyxF YXXY = De modo equivalente: Independência entre duas v.a.’s X e Y. (desacoplamento) X e Y independentes ⇔⇔⇔⇔ )().(),( yfxfyxf YXXY = . Do ponto de vista de densidades condicionais, a independência implica em: )()(| xfxf XyYX == e )()(| yfyf YxXY == . Def. VETORES ALEATÓRIOS INDEPENDENTES. No caso mais geral de vetores aleatórios, a independência é definida quando ∏ = = n i iXnXXX xFxxxF in 1 21... )(),...,,(21 Independência simplifica substancialmente as coisas! ... VALOR ESPERADO E MOMENTOS Uma variável assume valore REAIS. Assim, é possível realizar cálculos, médias, modas, desvios... O valor esperado de uma variável aleatória X é definido por i n k i xxXPXE )(:)( 1 ∑ = == CASO DISCRETO ∫ +∞ ∞− = dxxxfXE X )(:)( CASO CONTINUO Interprete como médias “ponderadas” pela probabilidade de ocorrência. Isto permite definir uma série de médias (MOMENTOS) de uma v.a. E(X), E(X2), E(X3),..., E(Xn) E os respectivos momentos centrais, relativos à média m=E(X) (funcionam com o cálculo do centro de massa, momentos de inércia etc.) E(X-m), E((X-m)2), E((X-m)3),..., E((X-m)n). Os momentos relevantes são sempre os primeiros, de ordem mais baixa: E(X), média (m) E(X2), 2º momento E(X-m)=0 (sem uso), E((X-m)2), variância (σ2) Primeiro (medida do comportamento médio) Segundo (medida de espalhamento e variação, daí o nome) O desvio padrão é também largamente usado, expressando idéia similar à variância, mas com interpretação física atrativa }){(: 22 mXE −== σσ CASO DE DUAS VARIÁVEIS X, Y E(XnYm) E{(X-mX)n(Y-mY)m}. Se n ou m são nulos, os momentos são marginais, não cruzados. Para momentos “cruzados”, requer-se n,m≠0. Os momentos de menor ordem deste tipo são CORRELAÇÃO E(XY):= corr(X,Y)=RX,Y ou COVARIÂNCIA E{(X-mX)(Y-mY)}:=cov(X,Y)=KX,Y. Observe o nome co-variância (variância, 2º momento, co=entre variáveis). Significado como medida de dependência. (relação linear => correlação) INDEPENDÊNCIA E MOMENTOS X e Y independentes (usando o desacoplamento entre densidades) E(XnYm)=E(Xn).E(Ym) ∀n,m Existem os dois tipos de momentos (cruzados) de 2ª ordem E(XY) E{(X-mX).(Y-mY)}=E(XY)-mXmY. Cov e corr são relacionados. Teste preliminar: Se E(XY)=E(X)E(Y), então há um “desacoplamento parcial”, de 2ª ordem. Neste caso, cov(X,Y)=corr(X,Y)-E(X).E(Y)=0 ISTO É REFERIDO (por abuso) como correlação nula. O coeficiente dito coeficiente de correlação normalizado (deveria ser de covariância!) é YX XY XY K σσ ρ =: Mostra-se que -1≤ ρ ≤+1. O caso ρρρρ=0 é definido na literatura como correlação nula. (não covariacionados, termos mais correto, soa estranho e nunca é usado!) TRANSFORMAÇÕES DE VARIÁVEIS ALEATÓRIAS Se existe uma função determinista em cuja entrada é aplicada uma variável aleatória, a saída TAMBÉM será uma variável aleatória. Exemplo. X é v.a. Uma função quadrática y=x2. (função) A variável Y=X2 é aleatória. => transformação da v.a. X Como determinar a distribuição de probabilidades da nova variável (transformada) Y em termos da distribuição da entrada X, conhecida? Vejamos. Y=g(X), (em termos de f.D.p) FX(x)=P(X≤x) FY(y)=P(Y≤y)=P(g(X) ≤y). [Y≤y] => [X≤x1 ou x2≤X≤x3 ou x4≤X≤x5] disjuntos (P é aditiva) FY(y)=P(X≤x1)+P(x2≤X≤x3)+P(x4≤X≤x5). Escrevendo agora em termos de integrais: dxxfyF X x x x x x Y )()( 5 4 3 2 1 ++= ∫∫∫ ∞− Ora, )(11 ygxi −= (imagem inversa) EXEMPLO )()( xuexf xX −= . Sejaa transformação Y=X2, quem é fY? y>0: yy xy XY edxedxxfyF −− −=== ∫∫ 1)()( 00 u(y)eyF yY −−=1)( . (deriva-se e obtém-se a densidade). GENERALIZAÇÃO dxxfyF X x x x x x x Y n )(...)( 5 4 3 2 1 ++++= ∫ ∫∫∫ +∞ ∞− Para a determinação da densidade de probabilidade, usa-se a REGRA DE LEIBNITZ ( ) ( ) ∫∫ ∂ ∂ +−= )( )( )( )( ),()(),()(),(),( α α α α α αα α αα α α ααα α a b a b dxxf d dbbf d da afdxxf d d Aplicando-a na expressão de FY dy dx xf dy dx xf dy dx xf dy dx xf dy dx xf dy dx xf y yFyf nnXXXXXXYY )(...)()()()()( )()( 4455223311 −−+−+=∂ ∂ = dy dx xfyf iiX i Y )()( ∑= )( 1 1 ))(( yg i iX i i dy dxygf − −∑ . JACOBIANO da transformação No caso de vetores aleatórios, )( 11 1||||))(()( ygiX i Y i Jygfyf − −−∑= Funções biunívocas e diferenciáveis: Y=g(X), Y=(g1(X), g2(X),..., gn(X)). ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = n n n n n n n n x g x g x g x g x g x g x g x g x g XJ K MMKM K K 2 2 2 1 2 1 2 1 1 1 )( use |det(J(X))|. Exemplo resolvido. A transformação de um vetor bidimensional gaussiano em coordenadas polares, X e Y independentes. (X,Y) →(r,θ). Qual a distribuição conjunta da amplitude e da fase, frθ( r,θ)? Sejam 22 yxr += ; = − x y tg 1θ O jacobiano da transformação é 2222 2222 yx x yx y yx y yx x yx y r x r J ++ − ++ − = ∂ ∂ ∂ ∂ ∂ ∂ ∂ ∂ = θθ ryx JJ 11det|| 22 = + == . Assim, 2 2 2 22 2 2 2 2 22|| ),(),( σσθ piσpiσθ ryx XY r e r e r J yxf rf − + − === Como θ não aparece em frθ, fθ(θ) deve ser constante (v.a. uniforme). Como a variável fase é distribuida entre (0,2pi): )().(. 2 1),( 2 2 2 2 θσpi θ θσθ frferrf r r r == − As variáveis transformadas são indendentes: amplitude Rayleigh e fase uniforme. DESIGUALDADES CLÁSSICAS “Jensen” CONVEXIDADE A desigualdade de Jensen estabelece que ∫∫ ΩΩ ≤ µµ dgfgdf )( o f é convexa em (a,b) e g∈L1(µ), a≤g(x)≤b e µ(Ω)=1. g é Lebesgue-integrável, i.e., +∞≤∫ Ω µgd Observação: Se +∞≤ ∫ Ω p p dg /1 || µ diz-se que g∈Lp(µ). DEFINIÇÃO (convexidade) ),(: baf → é dita ser uma função convexa se ∀x<y [ ] )()()1()1( yfxfyxf λλλλ +−≤+− ∀0≤λ≤1. Ilustração: Observação. butsa <<<<∀ tu tfuf st sftf − − ≤ − − )()()()( é uma condição equivalente. • A derivada, se existir, é monotonicamente não-decrescente. • A 2ª derivada, se existir, é sempre positiva (concavidade) • ( )bax ,, ∈∀ ζ então )).((')()( ζζζ −+> xffxf TEOREMA. Se f é convexa em (a,b), então f é contínua em (a,b). Exemplo de função convexa: f(x)=ex. TEOREMA DE JENSEN Seja µ uma medida em uma álgebra A definida no espaço Ω tal que µ(Ω)=1. Se g é uma função real em L1(µ), com a<g(x)<b para todo x em Ω, e se f é uma função convexa em (a,b), então: ∫∫ ΩΩ ≤ µµ dgfgdf )( o . Observação. Este teorema não exclui os casos limites a=-∞, b=+∞. PROVA. Seja ∫Ω= µgdt : a<t<b. Tome agora st sftf − − = )()( sup:β ( st sftf − −≥ )()(β , pois é o sup). Concluímos que )()()( tstfsf −+≥ β (a<s<b), em particular, s=g(x), obtemos 0)()())(( ≥+−− txgtfxgf ββ . Integrando agora a expressão anterior, chega-se a: ( ) ( ) 0≥+−− ∫∫∫ ∫∫ ΩΩΩ ΩΩ µβµβµµµ dtgddgdfdgf o . Daí ( ) ( ) 0≥+−−∫ ∫∫Ω ΩΩ ttdgdfdgf ββµµµo donde ( ) ( ) 0≥−∫ ∫∫Ω ΩΩ µµµ dgdfdgf o , concluindo a demonstração. CONSEQUÊNCIAS 1) Se g(x)=x, obtemos a desigualdade: { }( ) { })(xfEXEf ≤ 2) Se f(x)=ex ⇒ { } ∫∫ ΩΩ ≤ µµ degd gexp . Suponha agora que Ω={p1,p2,...,pn} e que µ(pi)=1/n (equiprováveis) e tome g(pi)=xi∈ . Então: ( ) ( )nxxxxn eeee n xxx n +++≤ +++ ... 1 ... 1 exp 32121 Fazendo yi=exp(xi), obtém-se ( ) ( )nnn yyy n yyy +++≤ ...1..... 21 /1 21 importante! média geométrica × média aritmética. 3) { } ∫∫ ΩΩ ≤ µµ hdhdlogexp (tomando g=log h) média geométrica média aritmética Se 0:)( >= iip αµ , ∑ = i i 1α (distribuição discreta arbitrária) Chega-se a nnn yyyyyy n ααα ααα +++≤ ........ 221121 21 Generalização da relação entre médias harmônica & geométrica. 3) Sejam p e q expoentes conjugados, i.e, 111 =+ qp ; 1<p<+∞ (ou seja, p+q=p.q) TEOREMA- DESIGUALDADES BÁSICAS Sejam p, q expoentes conjugados, 1<p<+∞. Seja X um espaço de medida, com medida µ. Sejam f e g funções mensuráveis em X, com valores na faixa [0, +∞]. Então: (i) Desigualdade de Hölder Otto Hölder { } { }∫ ∫∫≤X qX qpX p dgdfgdf /1/1 .. µµµ (ii) Desigualdade de Minkowsky Hermann Minkowski { } { } { } p X p p X p p X p dgdfdgf /1/1/1 )( ∫∫∫ +≤+ µµµ . Hölder (PROVA) { } { }∫ ∫∫≤X qX qpX p dgdfgdf /1/1 .. µµµ :=A :=B (p e q são expoentes conjugados, f≥0, g≥0 mensuráveis) Sejam A fF =: e B gG =: funções (casos A=0 ou B=0; A=+∞ ou B=+∞ Triviais) Vejamos que { } 1=∫X pdF µ e { } 1=∫X qdG µ . {substituindo, 11 =⇒= ∫ ∫ ∫∫ X p X p X p pX p p df df df A d A f µ µ µµ ; 11 =⇒= ∫ ∫ ∫∫ X q X q X q qX q q dg dg dg B d B g µ µ µµ }. Dado x, ∃ s, t | psexF /)( = e qtexG /)( = . tsqtps eqepe 11// −−+ +≤ {eg é convexa, q t p s + =p-1s+q-1t é uma combinação convexa} ts eqepxGxF 11)()( −− +≤ Daí segue-se: )()()()( 11 xGqxFpxGxF ts −− +≤ , pois sp exF =)( e tq exG =)( . Integrando ambos os membros, deduz-se a desigualdade ∫∫∫ −− +≤ X q X p X dGqdFpdxGxF µµµ 11)()( Pela normalização, o 2º membro torna-se p-1+q-1. Como os expoentes são conjugados (por escolha inicial), chega-se a 1)()( ≤∫X dxGxF µ . Substituindo as expressões de F e G em termos de f e g, 1)()( ≤∫X dB xg A xf µ ∴ BAdxgxfX .)().( ≤∫ µ e a demonstração é concluída! Q.E.D. Para p=q=2, a desigualdade reduz-se à conhecida DESIGUALDADE DE SCHWARTZ (Hölder p=q=2) . { } { }{ }∫∫∫ ≤+ XXX dgdfdgf µµµ 2222 .)( Aplicação direta para variáveis aleatórias: HÖLDER PARA V.A.s Sejam f:=|X| e g:=|Y| { } { } { }qqpp YEXEXYE ||.|||| /1/1≤ . Minkowsky (PROVA) { } { } { } p X p p X p p X p dgdfdgf /1/1/1 )( ∫∫∫ +≤+ µµµ Pode ser reescrita de modo compacto como ppp gfgf |||||||||||| +≤+ Partindo de (f+g)p=f(f+g)p-1+g(f+g)p-1 [**] Aplicando Hölder a cada das funções do 2º membro: { } { } q X qpp X p X p dgfdfdgff /1)1(/11 )(.)( µµµ ∫∫∫ −− +≤+ (1ª função) { } { } q X qpp X p X p dgfdgdgfg /1)1(/11 )(.)( µµµ ∫∫∫ −− +≤+ (2ª função) Somando agora as desigualdades membro a membro, usando [**] no 1º membro,tem-se [ ] [ ]{ } qqpq X p X pp X p X p dgfdgdfdgf /1/1/1 )(.)( ++≤+ − ∫∫∫∫ µµµµ . Dividindo adequadamente, chega-se a [ ] [ ]{ }p X pp X p qp X X p dgdf dgf dgf /1/1 /1 )( )( ∫∫ ∫ ∫ +≤ + + µµ µ µ e a prova conclui. Q.E.D. Casos particulares da desigualdade de Minkowsky: { } { } { } 2/122/122/12)( ∫∫∫ +≤+ XXX dgdfdgf µµµ DESIGUALDADE Cr Estabelece que { } { } { }rrrrr YECXECYXE |||||| +≤+ em que ≤ ≥ = − 1 1 1 2 : 1 r r C r r Prova. Considere f(λ)=λr+(1-λ)r. Um esboço de f Segue a cota: 1 1 1 2)( 1 ≤ ≥ ≥ − r r se sef r λ . Conclusão: 1)( ≥λfCr , ∀r. (1) Tome agora |||| || YX X + =λ e daí |||| ||1 YX Y + =− λ Substituindo em (1), obtemos: ( ) ( ) 1|||| || |||| || ≥ + + + r r rr r r YX YC YX XC . ⇒ ( )rrrrr YXYCXC |||||||| +≥+ . Tomando o valor esperado: { } { } ( )rrrrr YXEYECXEC |||||||| +≥+ Usando finalmente a desigualdade triangular, chega-se a: { } { } ( )rrrrr YXEYECXEC |||||| +≥+ , Completando a prova. Q.E.D. DESIGUALDADE DE LYAPUNOV Teorema. Vale a desigualdade { } { }rrss XEXE |||| /1/1 ≤ para r≥≥≥≥s>0. Isto significa que Lr⊇Ls. PROVA. Defina a função { }tUEtf ||log:)( = , t≥0, função convexa. Seja 2||: ht UX + = e 2||: ht UY − = , (∀h). Da desigualdade de Cauchy-Schwartz, tem-se: { } 222 ||.|||| YEXEXYE ≤ Substituindo as variáveis X e Y em termos de U, { } hthtt UEUEUE −+≤ ||.||||2 Tomando log(.) em ambos os membros, chega-se a )( 2 1)( 2 1)( htfhtftf −++≤ ∀∀∀∀h. Observação. Se f é contínua e a desigualdade anterior se verifica, então f é convexa. f(0)=0 t tf )( declividade, monótona crescente. (antilog=exp) De t tf )( ↑ , antilog t tf )( =antilog { } { }ttt UE t UE ||||log /1= ↑ Da relação { }tt UE ||/1 ↑ segue a prova. Q.E.D. SIMULAÇÃO MONTE CARLO Estimativa de algibeira para o número de simulações necessárias para estimar a freqüência relativa de evento de probabilidade p (p desconhecida). Suponha que você deseja simular um sistema e avaliar uma taxa de erros ou taxa de acertos (e.g. de peças em uma linha de montagem, de uma transmissão digital, taxa de colisão de partículas etc.). A cada simulação, efetuam-se n repetições do evento e obtendo um resultado diferente cada vez que a simulação for realizada. O valor médio é um estimador da probabilidade p (vide anexo). Embora p<<1 seja desconhecida (típico), deve simular de modo a garantir um espalhamento pequeno em trono da média, digamos 10% (ou 1%). =0,1 (critério 10%) EXEMPLO. Ao estimar em computador a probabilidade de um evento que você “desconfia” em uma estimativa grosseira ter probabilidade da ordem de 10-4, (querendo simular para encontrar uma estimativa probabilisticamente confiável), use: N.B. Se o valor da estimativa for , por exemplo, bem inferior a sua estimativa inicial, refaça as contas sobre n e refaça a simulação... O método clássico de simulação, chamado MONTE CARLO, certamente não é indicado para avaliar a taxa de eventos com probabilidades muito pequenas, e.g., 10-9. (see importance sampling) ANEXO. Para um experimento de Bernoulli, k sendo o número de sucessos e n o número de repetições do experimento, k é uma variável aleatória com distribuição binomial. E(k)=np e var(k)=σ2(k)=np(1-p). Seja a estimativa de freqüência relativa para a probabilidade p do evento estudado (e repetido): . Como k é uma variável aleatória, também o é. 1. , o estimador é não enviezado. (o valor médio das diversas simulações tende a fornecer o valor de p) 2. de modo que o espalhamento relativo à média vale . (p pequeno) Integração Monte Carlo Hit or miss technique 0≤g(x)≤c em a≤x≤b. Deseja-se avaliar ∫= ba dxxgS )(: Seja o espaço amostral }0,),{(: cybxayx ≤≤≤≤∋=Ω E uma distribuição 2D-uniforme contrário yx caso se abcyxf YX Ω∈ − = ),( 0 )( 1 :),( , )(: Ω= area S p N realizações aleatória. estimador de freqüência relativa N n p hits=:ˆ Convergências – pp =ˆ plim e pp =ˆ l.i.m. (ver-se-á após). ALGORITMO. 1. Gere 2N números aleatórias uniformes {Uj} 2. Arrange-os em N pares (U1,U’1), ..., (UN,U’N) 3. Calcule )( abUaX ii −+= e )( iXg i=1,2,...,N. 4. Conte o número de casos n hits para os quais g(Xi)>cU’i 5. Estime a integral por N abcpp zpabc )()1.( ˆ)( −−±− α J. Von Neumann (EUA, imigrante Húngaro) A Função Característica de uma variável aleatória Def. Dada uma v.a. de distribuição FX(.), define-se: ∫∫ +∞ ∞− +∞ ∞− == dxxfexdFejM XxjXxjX )()(:)( ννν . Notações usuais: MX(.) ou (.)Xφ Isto corresponde a transformada inversa de Fourier da densidade de probabilidade da variável aleatória: )()( xfjM XX ↔ν . Nota: MX poderia ter sido mais “naturalmente” definida como a TF da densidade de probabilidade fX da v.a. X Exemplo. 1) Variável uniforme X~ UUUU(a,b). [ ]ajbjb a xj X xj X ee abjdxabedxxfejM νννν ν ν − − = − == ∫∫ ∞+ ∞− )( 11)()( . A função característica é [ ]ajbjX ee abjjM νν ν ν − − = )( 1)( 2) Variável exponencial . X~EEEE(λλλλ), ∫∫ ∞+∞ ∞− == 0 )()( dxeedxxfejM xjxXxjX νλν λν . νλ λ ν jjM X −=)( . Exemplo: O caso Gaussiano. 1) Para uma v.a. de distribuição Gaussiana normalizada, X~NNNN(0,1) 2/2 2 1)( xX exf −= pi . Tem-se imediatamente 2/2)( νν −= ejM X . 2) Uma variável gaussiana sob transformação afim, 22 2/)( 2 1)( σµ σpi −− = x X exf resulta em 2/22)( σννµν −= eejM jX . 3) variável de Poisson ∫ ∑ ∞+ ∞− ∞ = − −= dxix i e ejM i i xj X 0 )( ! )( δλν λ ν ( )∑∞ = − = 0 !i ij i e e ν λ λ )1()( νλν jeX ejM −−= . Propriedades da função característica. (10 propriedades) i) Para todo ∈ν )0(1|)(| XX MjM =≤ν . Claro que ∫ +∞ ∞− = )()0( xdFM XX e ∫∫ +∞ ∞− +∞ ∞− =≤= 1)(|||)(||)(| dxxfexdFejM XxjXxjX ννν . ii) =− )( νjM X )(* νjM X óbvio. iii) MX é uniformemente contínua em . ∫ ∫ +∞ ∞− +∞ ∞− + −=−+ )()()()(| )( xdFexdFejMhjM XxjXxhjXX νννν Mas [ ]∫∫ ∫ +∞ ∞− ++∞ ∞− +∞ ∞− + −=− )()()( )()( xdFeexdFexdFe XxjxhjXxjXxhj νννν e [ ] [ ]∫∫ +∞ ∞− +∞ ∞− −≤−=−+ )(1)(1)()(| xdFeexdFeejMhjM XjhxxjXjhxxjXX νννν de onde: 0)(1)(1|||)()(| →−=−≤−+ ∫∫ +∞ ∞− +∞ ∞− xdFexdFeejMhjM XjhxXjhxxjXX ννν se h→0. Assim, ενν ≤−+ |)()(| jMhjM XX h<δ { }||.||)(||)()(11 XEhxdFxhxdFhxxdFjhx XXX ===−+= ∫∫∫ +∞ ∞− +∞ ∞− +∞ ∞− ε { }|||| XE εδ < . iv) Transformação afim = − )( νjM X )(* νjM X e =+ )( νjM baX bjX ejaM νν ).( v) Geradora de momentos: { } 0 )()( = ∂ ∂ −= ν ν ν jMjXE Xn n nn vi) Fórmula de inversão: ∫ ∞+ ∞− − = νν pi ν djMexf XxjX )(2 1)( vii) De )()()Pr( −+ −== xFxFxX XX , ∫ −→ == n n X xj djMe n xX νν piνν )( 2 1 0 lim)Pr( . viii) MX(.) é semidefinida positiva: [ ]∑ ∈ ≥− Svu X uhvhuvjM , 0)(*)()( , ⊂S , finito, h: → qualquer. ix) { }iX v.a.’s independentes, e ∑= i iXY : e a variável soma, então ∏= i XY jMjM i )()( νν . x) Sequências de funções (Gnedenko 1962): Se { }∞ =1 )( nX jM n ν é uma sequência de funções características, então: ∑ =≥ 1|0 nn λλ ⇒ ∑ n Xn jM n )(. νλ é também uma função característica. Teorema da unicidade. Se duas funções distribuição de probabilidade têm a mesma função característica, então elas são iguais. {decorre de Fourier} (as funções características são especialmente úteis nos teoremas limites). Teorema (convergência de seqüências de distribuições). (a) Seja { }nF uma sequência de funções distribuição com funções características respectivas { }nM . Se Fn → F, então Mn → M, sendo a convergência uniforme com respeito a x em qualquer intervalo finito a<x<b. (b) Suponhamos que i) Mn converge em e define a função limite M; ii) M é contínua na origem. Então: Fn → F, em que F é uma função distribuição de probabilidade M é a função característica da variável de distribuição F. Série de Taylor para a função característica de uma v.a. Suponha que a expansão em série de Taylor da função característica existe em algum intervalo que contenha a origem. Então [ ]∑+∞ = = 0 ! )()( k k k X k jXEjM νν . A função característica fornece TODOS os momentos da variável aleatória. Assim, “conhecer momentos” ⇔ “conhecer distribuição”. Calcular os momentos (não-centrais) de uma distribuição gaussiana de média nula e variância σ2. X~ NNNN(0,σσσσ2). Fazendo ... !2 1)1(... 8 1 2 11)( 2244222/22 +−+++−== − llllX lejM σνσνσνν σν Chega-se a { } par ímpar n n n nXE n n = )!2/(2 ! 0 2/ . avaliar: dxex x 4/10 2−+∞ ∞− ∫ , use σ2=2 n=10. No caso de funções características conjuntas, seja o caso simples de apenas duas variáveis X1, X2, com distribuição FX1,X2. Mostra-se que [ ] 0,0 21, 21 21 21 21 ),()( == + + ∂∂ ∂ −= νν νν νν jjMjXXE XXmn mn mnmn generaliza-se facilmente ... Função característica de vetor aleatório X vetor n-dimensional: [ ]XjX TeEjM rrr r νν =:)( As propriedades são semelhantes, e.g., BXAY += rr . , A e B matrizes: )(.)( νν ν TXbjY jAMejM Tr r r = . Aplicação. Seja X um vetor aleatório bidimensional com função característica: ( )212221 .22 21 )),(()( ννννννν ++−== ejMjM XX rr r . Deseja-se o vetor média mX e a matriz de covariância KX. 1) { } )0,0(1 1 = ∂ ∂ −= ν ν r XMjXE ... calculando-se: { } [ ] 04)( )0,0(211 =−−−= =νννν rrjMjXE X . Idem para E{X2}. Resultado: = 0 0 Xm r . 2) { } [ ] 11)4).(4().()( 1221 )0,0(21 2 2 21 =−++−=∂∂ ∂ −= = ννννν νν ν r r r jMMjXXE XX e { } { } 12112 == XXEXXE . { } 4)( )0,0( 2 1 2 22 1 =∂ ∂ −= =ν ν r XMjXE e { } { } 42122 == XEXE , Resultando em = 41 14 XK . A VARIÁVEL SOMA Considere uma v.a. X definida pela soma de N variáveis aleatórias independentes, { }NnnX 1= . ∑ = = N n nXX 1 : . A função característica para X é = ∑ = N n nX XjEjM 1 exp)( νν . Logo, ( ) = ∏ = n N n X XjEjM νν exp)( 1 . Desde que as v.a.’s são independentes, o cálculo da esperança é desacoplado: ( )[ ] ∏∏ == == N n X N n nX jMXjEjM n 11 )(exp)( ννν . ∏ = = N n XX jMjM n 1 )()( νν A função característica da variável aleatória soma de variáveis independentes é o produto das funções características das variáveis individuais. TRIVIA: Z:=X+Y X e Y independentes. )().()( ννν jMjMjM YXZ = e usando a transformada de Fourier: )(*)()( zfzfzf YXZ = . Convolução! Caso particular— Soma de duas v.a.’s i.i.d. uniformes: Z:=X+Y ⇒ )(*)()( zfzfzf YXZ = = ∏∏ =)(*)( zz )(zΛ . VARIÁVEL aleatória CAUCHY )1( 11)( 2xxfX += pi e ||)( νν −= ejM X Sejam { }NnnX 1= i.i.d. Cauchy, e ∑ = = N n nXX 1 : . Qual a função característica de X? VARIÁVEL chi-quadrada (qui-quadrada) )()2/(2)( 2/ 2/2/)2( xu n ex xf n xn X Γ = −− e 2/)21( 1)( nX jjM νν −= Sejam { }NnnX 1= i.i.d. Cauchy, e ∑ = = N n nXX 1 : . Qual a função característica de X? COTAS SOBRE PROBABILIDADES Desigualdade de Chebyshev (Pafnutti Tchebyscheff). Dado ε>0 (arbitrariamente pequeno), X variável aleatória de • Média mX • Variância σX2 { } 2 2 ||Pr ε σ ε XmX ≤>− . Teorema. Se f≥a>0 em I⊂ , então { } { } a XfEIX )(Pr ≤∈ . Vejamos: { } )()()( xdFxfXfE X∫+∞ ∞− = . { } )()()()()( xdFxfxdFxfXfE XIXI C∫∫ += ⇒ { } )()()( xdFxfXfE XI∫≥ ≥0 Enfraquecendo a desigualdade: { } }Pr{)()( IXaxdFaXfE XI ∈=≥ ∫ Q.E.D. Aplicação. v.a. X, com média nula E{X}=0 e E{X2}=σ2 Seja 22 :)( += a xxf σ . Para x≥a>0, (intervalo I), 0)( 2222 ≥ +≥ += a a a xxf σσ . Esboço: { } { }2 2 2 )(Pr + ≤≥ a a xfE aX σ ou seja, { } { } 2 2 2 2422 //}{2 Pr + ++ ≤≥ a a aaXEXE aX σ σσ Logo { } 22 2 2 2 2 242 /Pr σ σ σ σσ + ≤ + +≤≥ a a a a aX ou { } 22 2 Pr σ σ + ≤≥ a aX . (cota). COTA INFERIOR E SUPERIOR Teorema. X uma variável aleatória e g≥0, g Borel mensurável (toda imagem inversa é um conjunto na σ-álgebra de Borel) Se g é par e não-decrescente em [0,∞). Então ∀a≥0, tem-se { } { } { })( )(||Pr)(sup.. )()( ag XgE aX xgsa agXgE ≤≥≤− Calculando E{g(X)}: { } ∫∫∫ ≥+= A XA XA X xdFxgxdFxgxdFxgXgE c )()()()()()()( , pois o 2º termo é positivo. { } { }aXagxdFagxdFxgXgE A XA X ≥=≥≥ ∫∫ ||Pr)()()()()()( . Por outro lado, )()( sup xgxg ≥ ou )()( sup.. xgxgsa ≥ a.e. { }aXxgxdFxgxdFxg A XA X ≥=≤ ∫∫ ||Pr).( sup)()(sup)()( (I) { } )(||Pr).( )()()()( agaXagxdFagxdFxg cc A XA X ≤≤=≤ ∫∫ (II) Somando termo a termo, { } )(||Pr).( sup)()( agaXxgxdFxg X +≥≤∫+∞ ∞− E finalmente { } { }aXxgagXgE ≥≤− ||Pr).(sup)()( Q.E.D. Corolário. Desigualdade Generalizada de Chebyshev. Dado ε>0 arbitrário, tão pequeno quanto se queira, g≥0,par não-decrescente em [0,∞). { } { })( )(||Pr ε ε g XgEX ≤≥ . Com g(x)=x2 { } { }2 2 ||Pr ε ε XEX ≤≥ . Para X-mx ← X Variável aleatória central { } { }2var||Pr εε X mX X ≤≥− desigualdade de Chebyshev DESIGUALDADE DE MARKOV Tomemos g(x)=|x|r { } { } r rXE X ε ε ≤≥||Pr . Observação. Convergência em r-ésima média Xn → X se e só se { } .0→− rn XXE XX ésimar n − → ⇔ { } .0→−rn XXE Exemplo. Uma visita à versão fraca da LEI DOS GRANDES NÚMEROS Uma sequência infinita de variáveis aleatórias{ }∞=1niY , estatisticamente independentes (e possivelmente identicamente distribuidas) Definamos ( )∑ = −= n i iin YEY n X 1 )(1: n=1,2,3,... Essa nova seqüência de v.a.’s tem • E{Xn}=0 • Var(Xn)= n iY n 2 2 σσ = Um esboço da versão fraca da Lei dos grandes números: { } { }2var||Pr εε X mX X ≤≥− { } 2 2 ||Pr ε σ ε n X n ≤≥ →0 quando n→∞. { } 0||Pr 0 lim =≥ → εnX n O estimador de frequência relativa é um estimador consistente (quando ele converge em Probabilidade). Os conceitos de convergência de sequências de variáveis aleatórias são requeridos. COTA (EXPONENCIAL) DE CHERNOFF Uma cota “apertada” – (tigth upper bound). Usando a função característica. ∫ +∞ ∞− = ).(:)( xdFejM XxjX νν Passando ao plano real: νjs← Seja ∫ +∞ ∞− = )()( xdFesM XsxX , s Real. (chamemo-la função geradora de momentos, sentido estrito) { }sXX eEsM =)( Seja { }sXX eEsMs ln)(ln:)( ==µ . ∫ +∞ ∞− = )(ln:)( xdFes Xsxµ pela desigualdade de Jensen { }XEsexdFes xxdFsXsx X .ln)(ln:)( )( =∫≥= +∞ ∞−∫ +∞ ∞− µ . Dado ε>0, Avaliemos agora { }ε≥XPr : { } { }∫ ∫+∞ ∞=∞==≥ ε εεε )(),[),[)(Pr xdFIIExdFX XX { } { } { }ε ε ε ε εεε s s s sX eEe IeE e xdFIX 1),[.1)(),[Pr ≤∞=∞=≥ ∫ Em termos de µ(s), s≥0 { } εµµ ε ε sss s ee e X −=≤≥ )()(1Pr . Resolvendo agora o problema de programação matemática (minimização) εµ ss s ts Min − ≥ )( 0 .. ⇒ [ ] 0)( =−∂ ∂ εµ ss s ou seja, ε µ = ∂ ∂ s s)( o que é atingido em um s=s0 particular. A cota (exponencial) desejada é { } εµε 00 )(Pr sseX −≤≥ Vejamos agora um caso de interesse. Seja ∑ = = N i iXX 1 : , com Xi i.i.d. e avaliemos { }εNX ≥Pr . Isto equivale a considerar ≥∑ = ε N i iXN 1 1Pr . Da cota de Chernoff básica, εµε 00 )( 1 1Pr Nss N i i XeX N − = ≤ ≥∑ . Mas { } ( )( ) ( ))(ln)(ln)(lnlnlnln)( 11 1 sMNsMeEeEeEeEs Xi N Xi N i sx N i sx xs sx X ii N i i == == ∑ == ∏∏ == =µ A cota de Chernoff no caso de variável soma i.i.d. torna-se: ( ))()( 1 00001Pr ssNNssN N i i iXiX eeX N µεεµ ε −−− = =≤ ≥∑ . A cota (exponencial) de CHERNOFF desejada é ( )εε , 1 0 1Pr sNE N i i eXN − = ≤ ≥∑ Esta cota decresce exponencialmente com N, enquanto que a lei fraca dos grandes números (com base na cota de Chebyshev) decresce apenas com 1/N. UMA COTA EXPONENCIALMENTE APERTADA! Pode ser demonstrado que o expoente E(s0,ε) é o maior possível, i.e., inexiste uma cota exponencial da forma ' 1 1Pr NE N i i eXN − = ≤ ≥∑ ε Com E’ independente de N e tal que E’> E(s0,ε). Por esta razão a cota de Chernoff é dita ser exponencialmente “apertada” (tight bound). APLICAÇÃO Cota para uma variável Gaussiana. 2/2 2 1)( xX exf −= pi 2/2)( νν −= ejM X . 2/2/)/( 22)( sjsX eesM == − ⇒ 2)( 2s s =µ . impondo ε µ = ∂ ∂ s s)( , tem-se ε=0s . Assim, Pr{X≥ε} pode ser exponencialmente cotada por { } 2/2 22 2 Pr ε ε ε ε − − =≤≥ eeX EXEMPLO DOIS.ZERO. (há carro 2.0!) A cota para a variável ∑ = N i iXN 1 1 com Xi variáveis de Bernoulli. p-1 prob. com p prob. com 0 1 =iX )1()( ppesM sX i −+= ⇒ ( ))1(ln)( ppes s −+=µ . De ε µ = −+ = ∂ ∂ s s ep ppes s ..)1( 1)( obtém-se − − = p p s ).1( )1.(ln0 ε ε ( ) )1ln()1(ln.)1ln()1(ln.)( ..00 εεεεεεµε −−−+−−−=− ppss iX Definindo: )1ln()1(ln:)( ppTp −−−−= ααα e )1ln()1(ln:)( ααααα −−−−=H Mostra-se que: ( ))()( 1 1Pr εεε HTN N i i peX N −− = ≤ ≥∑ , 1≤< εp . Ou ( ))()( 1 1Pr εεε HTN N i i peX N −− = ≤ ≤∑ , p<≤ ε0 . Herman Chernoff (EUA, imigrante russo) CONVERGÊNCIA DE SEQUÊNCIAS DE VARIÁVEIS ALEATÓRIAS Sequências de números reais: { }∞ =1nnr rn→ r (rn converge para r) se e somente se ∀ε>0 ∃ Nε ∋ | rn - r |<ε ∀ n> Nε Variável aleatória X:Ω → Função real de variável real. Conjunto de funções de valores reais: { }∞ =1nnf fn→ f (fn converge para f ponto a ponto) Se e somente se ∀ε>0 ∃ Nε,x ∋ | fn (x)- f(x) |<ε ∀ n> Nε,x ∀x. { }nf → f )()( xfxfn → ∀x. ⇑ Seq. de números reais. Convergência uniforme (já estudada em MMAT): Usar Nε em lugar de Nε,x Exemplo 1. ]1,0[∈x nx n xenxf −= 2:)( claro que 0)(lim = ∞→ xf n n . 0=→ ffn . A convergência é uniforme? Critério. Fn converge uniformemente ⇔ 0)()( ]1,0[ suplim =− ∈∞→ xfxf xn n . Temos: nx n xen x xfxf x − ∈ =− ∈ 2 ]1,0[ sup)()( ]1,0[ sup . Verificando o máximo: 0 232 =+−= −−− nxnxnx enxenxen dx d [1-n.x]=0 i.e., o ponto de máximo ocorre em nx 1 = . e n xen x nx = ∈ −2 ]1,0[ sup +∞= ∈∞→ −nxxen xn 2 ]1,0[ suplim e a convergência não é uniforme. Graficamente: Ver Animação. Exemplo 2. Xn(ω)→ X(ω)=0 (mas não uniformemente). Dado ω0 ∃ N ∋ n>N ⇒ 2/n< ω0 +∞= ∞→ = ∈∞→ n n X n n lim|)(| ]1,0[ suplim ω ω . Exemplo 3. n n eX /:)( ωω −= , com ].1,0[∈ω Xn(ω)→ X(ω)=1 (converge uniformemente). ?)()( ]1,0[ suplim =− ∈∞→ ωω ω XX n n nn ee // 1 ]1,0[ sup1 ]1,0[ sup ωω ωω −− − ∈ =− ∈ . Mas em ]1,0[∈ω , 1 //1 ≤≤ −− nn ee ω e portanto, 0|1|lim)()( ]1,0[ suplim /1 =− ∞→ =− ∈∞→ − n n e n XX n ωω ω . CONVERGÊNCIA COM PROBABILIDADE 1 Def. { }∞=1nnX diz-se que Xn→ X c.p.1 (p.s. = a.s.) se e só se 1 )()(lim Pr = = ∞→ ∋ ωω XX n w n . Denota-se também XX sa n .. → . Conseqüencia. 0 )()(lim Pr = ≠ ∞→ ∋ ωω XX n w n . São equivalentes as seguintes proposições. Xn→ X c.p.1 se e só se ∀δ>0, ∀ε>0 ∃Nδ,ε ∋ � { } δεωω εδ −> <−∋ > 1|)()(|Pr , XXw n Nn I (conjuntos bons) � { } δδεωω εδ =−−< ≥−∋ > )1(1|)()(|Pr , XXw n Nn U (conjuntos ruins) � δ εωω εδ −> <− > ∋ 1 |)()(|sup Pr , XX Nn w n . CONDIÇÕES I) Necessária Pr(Bn)→0 quando n→∞ ∑ >> →≤ Nn n Nn n BPBP 0)(U Obs. Suponha que nnBP 2 1)( = . Pr(Bn)→0 quando n→∞ mas > U Nn nBP pode não ser menor que um δ>0 arbitrário Exemplo- bolo à francesa .1= > U δNn nBPII) Suficiência para convergência cp 1 δ δ < > U Nn nBP Bn = bad sets Bn ↓ i.e. { }nB seja sequência monotônica não crescente Neste caso, U n Nk nk BB δ> = ⇒ 0)( →= > n n Nk k BPBP U δ . III) outra condição e suficiência com probabilidade 1 (conv. certa) ∑≤ )( nn BPBP U e Pr(Bn)→0 quando n→∞. Suponha que ∑ ∞ =1 )( n nBP seja convergente (cond.) Então ∑ > <⇒>∋∃ δ δδδ Nn nBPNnN )( e, portanto, δ δδ <≤ ∑ >> Nn n Nn k BPBP )(U . Convergência em média r-ésima Definição. { } 0lim →− ∞→ r n XXE n ∀r>0 . O espaço Lr é fechado em relação à convergência em média r-ésima Notação para r=2: XX n mil n = ∞→ ... Proposição: se XX r n→ então { } { }rrn XEXE n = ∞→ lim i) para 0<r≤1, usando a desigualdade-Cr { } { } { } { }rrnrnrn XEXXEXXXEXE +−≤+−= { } { } { }r n r n r XEXXEXE +−≤ Denominaremos por { } { } { }rnrrn XXEXEXEz −≤−=: { } { } { }rnrnr XXEXEXEz −≤−=− { } { } { } 0||0 ↓−≤−=≤ rnrrn XXEXEXEz pois XX r n→ ii) r>1 Usar a desigualdade de Minkowsky Convergência em Probabilidade Definição. Seja { }∞=1nnX uma sequência de variáveis aleatórias. Diz-se que Xn converge para X em probabilidade se e só se { }( ) 0|)()(|Prlim =≥−∋ ∞→ εwXwXw n n Notamos por XX P n→ i.e., para convergência em probabillidade exigimos que ( ) δ≤nBP para todo n>Nδ,ε. ou seja, ( ) 0Prlim = ∞→ nB n Bn são “conjuntos ruins”: { }ε≥−∋= |)()(|: wXwXwB nn . Notação: XX n p n = ∞→ lim Proposição. XX r n→ ⇒ XX P n→ Prova. Pela cota de Markov, ( ) { }r r n n XXE XX ε ε − ≤≥−≤ Pr0 Mas XX r n→ ⇔ { } 0lim =− ∞→ r n XXE n ⇒ ( ) 0Prlim =≥− ∞→ εXX n n e logo XX P n→ . Claro que a inversa não é verdadeira em geral. Mas, sob certas condições, XX P n→ ⇒ XX r n→ . Vejamos: Proposição. Se 0 1 lim = −+ − ∞→ r n r n XX XX E n (implica { } 0lim →− ∞→ r n XXE n ), então XX P n→ ⇒ XX r n→ . Prova. Seja X uma v.a. arbitrária e g em uma função de Borel não-negativa. Se g é par e não-decrescente em [0,∞), vale ∀a>0 { } { } { })( )(||Pr)(.. )()( ag XgE aX xSupgsa agXgE ≤≥≤ − Para este caso, tome r r X X xg ||1 ||)( + = . Chega-se a (a.s. sup g(x)=1): { } + +≤≥≤ + − + r r r r r r r r X XE a a aX a a X XE ||1 ||1||Pr 1||1 || Substitua X por Xn-X; a por ε, logo { } −+ −+≤≥−≤ + − −+ − r n r n r r nr r r n r n XX XXEXX XX XXE ||1 ||1||Pr 1||1 || ε ε ε ε ε 0 1 lim = −+ − ∞→ r n r n XX XX E n ⇔ bad sets de prob. Nula ou XX P n→ . DISTÂNCIA entre variáveis aleatórias −+ − = YX YX EYXd 1 :),( é uma distância, exceto que d(X,Y)=0 ⇒ X=Y p.p. Teremos um espaço completo de classes equivalentesde variáveis aleatórias. Proposição: XX sa n .. → c.p. 1 ⇒ XX P n→ (convergência forte implica em convergência fraca) Prova. Se há c.p.1 então δ εδ ≤ > U , Nn kBP . εδ ,Nn >∀ , U εδ ,Nn nn BB > ⊂ ⇒ ≤ > U εδ , )( Nn nn BPBP . Conclui-se então que δ≤)( nBP εδ ,Nn >∀ o que significa que 0)Pr(lim = ∞→ nB n ⇒ XX P n→ Q.E.D. Convergência em Distribuição Definição. Seja { }∞=1nnX uma sequência de variáveis aleatórias. Diz-se que Xn converge para X em distribuição se e só se )()(lim xFxF n XX n = ∞→ nos pontos de continuidade de FX. Notamos isto por XX d n→ . Teorema. XX P n→ ⇒ XX d n→ . Prova. (X<x’)= (Xn<x,X<x’) ∪ ( Xn≥x,X<x’) ⊂ (Xn<x) ∪ ( Xn≥x,X<x’) Disjuntos P(X<x’)≤ P(Xn<x) + P( Xn≥x,X<x’). Consideremos x’<x: P( Xn≥x,X<x’) ≤ P(|Xn-X|≥x-x’) →0 qdo n →∞, pois XX P n→ . Assim, )'|Pr(|)()'( xxXXxFxF nXX n −≥−+≤ donde )(inflim)'( xFxF nXX ≤ , x’<x. Similarmente, mostra-se que )''()(suplim xFxF XX n ≤ , x’’>x. Coletando os resultados, segue-se )''()(suplim)(inflim)'( xFxFxFxF XXXX nn ≤≤≤ para x’<x<x’’ Portanto, se x∈Continua {FX}, então fazendo x’↑x e x’’↓x, tem-se )()(lim xFxF n XX n = ∞→ Q.E.D. LEIS DOS GRANDES NÚMEROS Desejamos examinar a convergência de uma soma de variáveis aleatórias quando a soma é normalizada subtraindo-se o seu valor esperado e dividindo- se o resultado pelo número de termos da soma. Considere a sequência { }∞1iX e defina ∑ = = N i iN XS 1 : . Queremos examinar a convergência da sequencia de variáveis { }∞• 1NS , aonde [ ]}{1: NNN SESNS −= • . Tem-se [ ]∑∑∑ === • −= −= N i iii N i N i iN XEXN XEX N S 111 }{1}{1: . Em particular, temos interesse nas condições exigidas que asseguram que { }∞• 1NS converge para zero de alguma maneira. Se a sequência de variáveis aleatórias { }iX , verificando E{Xi}<∞ para cada i, é tal que: a) 0 ..sa NS → • então dizemos que a sequência dos { }iX obedece à Lei forte dos grandes números. b) 0 P NS → • então dizemos que a sequência dos { }iX obedece à Lei fraca dos grandes números. c) 0 r NS → • então dizemos que a sequência dos { }iX obedece à Lei média r-ésima dos grandes números. Convergências possíveis para a média amostral. Efeitos da normalização. Consider o caso em que os { }iX são v.a.’s i.i.d. com segundos momentos finitos. Neste caso, definindo NN SNS 1 := ∑ = == N i iN XEXEN SE 1 }{}{1}{ e 0 1 2 1 2 2 2 →== ∑ = NN X N i XS iN σ σσ VERSÕES FRACAS – Weak law of large numbers Teorema. Para que a sequência de variáveis aleatórias { }iX , possivelmente dependentes seja tal que 0 P NS → • , é necessário e suficiente que 0 }]{[ }]{[ lim 1 2 1 = −+ − ∞→ ∑ ∑ = = rN i ii rN i ii XEXN XEX E N para algum r>0. Prova. Sabemos que YY P N → se e somente se 01 lim = −+ − ∞→ r n r n YY YY E N . Então substituindo nN YS ←• e Y←0 , vem 0 P NS → • ⇔ 01 lim = +∞→ • • r N r N S S E N ⇔ ( ) ( ) 0}{11 }{1 lim 1 1 = −+ − ∞→ ∑ ∑ = = rN i ii rN i ii XEX N XEX N E N e o resultado segue. Gostaríamos de condições estipuladas em termos das variáveis Xi. Teorema de Markov (condição de suficiência). Se as variáveis aleatórias { }iX são tais que 0var 1lim 1 2 =
Compartilhar