slides PPE

•
Exatas

Peres silva
03/01/2018
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 321 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 321 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 321 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Métodos Estocásticos

52 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
PROBABILIDADE & PROCESSOS 
ESTOCÁSTICOS 
 
H. Magalhães de Oliveira, docteur 
 
Programa de pós-graduação em Engenharia Elétrica 
 
DINTER UEA-UFPE 
E-mail hmo@ufpe.br URL http://www2.ee.ufpe.br/codec/deOliveira.html
 
 
SUMÁRIO DA PARTE I 
 
Conceitos de Probabilidade 
 
limsup e liminf, classes monotonicas 
 
Álgebra e σ-álgebra 
 
Continuidade 
 
Independência e probabilidade condicional 
 
 
Funções mensuráveis e variáveis aleatórias 
 
Bernoulli, Binomial, geométrica, Poisson, uniforme, 
exponencial, gama, beta, normal, chi2, Weilbull... 
 
Variáveis conjuntas 
 
Transformação de variáveis aleatórias 
.................................. Vetores aleatórios: Jacobiano 
 
Desigualdades: 
.................................. Jensen, Minkowski, Liapunov, Cr 
 
Função característica e suas propriedades 
.................................. Geradora de momentos 
 
 
Cotas sobre probabilidades 
.................................. Chebyshev 
.................................. Markov 
.................................. Chernoff 
 
Seqüências de variáveis aleatórias 
 
Critérios de convergência 
.................................. em média quadrática 
.................................. em probabilidade 
.................................. com probabilidade 1 
.................................. em distribuição 
 
 
 
 
Lei dos grandes números 
.................................. Teorema de Bernoulli 
.................................. Teorema da Kolmogorov 
.................................. Teorema de Borel 
 
Teorema central do limite 
.................................. (Lindenberg-Lévy, Lyapunov, etc.) 
 
[Médias estatísticas e momentos 
.................................. Correlações, propriedades...] 
 
Estimação e predição: Amostragem 
 
 
 
 
SUMÁRIO DA PARTE II 
 
Processos Estocásticos (contínuos e discretos) 
 
Definições e classificação 
 
Estacionaridade (sentido amplo e restrito) 
 
Passeio aleatório 
 
Processo de Wiener-Lévy (movimento Browniano) 
 
Onda telegráfica aleatória 
 
 
Densidade espectral, teorema de Wiener-Kinchine 
 
Ergodicidade 
 
Processos estocásticos através de Sistemas Lineares 
.................................. Análise espectral 
 
Preditores lineares: Filtragem ótima de Wiener 
 
Processos Estocásticos Gaussianos 
.................................. Normal e log-normal 
.................................. Vetores gaussianos 
.................................. Processo banda-estreita 
 
 
 
Processo de Poisson 
.................................. Processo de contagem 
.................................. Tempo entre chegadas 
.................................. Tempo de espera 
.................................. Processo filtrado 
 
Cadeias de Markov 
.................................. Equações de Chapman-Komogorov 
.................................. Classificação de estados 
.................................. Probabilidades limites 
.................................. 
 
Teoria das filas 
.................................. M/G/1, G/M/1, M/M/k ... 
 
 
REFERÊNCIAS RECOMENDADAS 
 
Probability, Random Variables ans Stochastic 
Processes, A. Papoulis, McGraw-Hill, 1965. 
 
Probabilidade, Variáveis Aleatórias e Processos 
Estocásticos, J. Albuquerque, J.P. Fortes, W. 
Finamore, Interciencia, 2008. 
 
Introduction to Probability Models, 9th ed. S.M. Ross, 
Academic Press, 2007. 
 
A First Course in Stochastic Processes, S. Karlin & H. 
Taylor, Academic Press, 1975. 
 
 
Random Processes: An Introduction for Applied 
Scientists and Engineers, Davenport Jr, W.B., 
McGraw-Hill, 1970. 
 
Sistemas Probabilisticos, F.M. Campello de Souza, 
Vade Mecum, Recife, 2006. 
 
An introduction to the Theory of Random Signals and 
Noise, Davenport Jr, W.B. and Root, W.L, McGraw-
Hill, 1958. 
 
Probability Theory, M. Loève, Van Nostrand, 1963. 
 
 
 
 
 
 
 
<<Incerteza é a marca indelével do universo.>> 
 
Dennis Poisson. 
Assim um evento terá, pela sua própria natureza, uma chance, maior ou menor, 
conhecida ou desconhecida, e sua probabilidade será relativa aos nossos 
conhecimentos naquilo que lhe diz respeito.” Poisson, 1837. (Sceaux, França) 
Probabilitas 
 
 
� PROBABILIDADES ALEATÓRIAS 
 
Modelam o acaso em fenômenos empíricos 
 
� PROBABILIDADES ESPISTÊMICAS 
 
Descrevem graus de crença parcial lógicos de pessoa/sistema 
intencional 
 
Matemática determinismo 
Aleatório: Taboo 
 
Teorema de Gödel e o fim da “certeza matemática” 
 
 
 
AXIOMAS 2 (lógica) = Resultados (Proposições) 
 
 
 
 
 Mundo “real” 
 
Explicar � resposta ao POR QUÊ? 
TELEOLÓGICA (finalista) 
ESTATÍSTICA (probabilística) 
GENÉTICA (histórica) 
NOMOLÓGICA (dedudiva) ** científica 
Deus ex-machina, anjos,... 
???? Qual a finalidade? Tudo tem uma razão. Qual a utilidade? Por que fazer? 
Visão pessoal: (interrogações postas no inicio das questões, discordante). 
 
BREVE HISTÓRICO 
1654 Pascal-Fermat (Paris-Toulouse) 
 
 
1812 Laplace - escola deterministica (o demônio laplaciano) 
 
Russos : Markov, Chebyshev, Liapunov, Kinchine, Kolmogoroff.. 
 
 
 
 
 
TEORIAS 
 
i) Definição a priori como razão entre casos favoráveis para 
total de casos possíveis. 
 
ii) Freqüência relativa (Von Mises) 
 
iii) Axiomática 
 
iv) Medida de crença 
 
 TRATAMENTO AXIOMÁTICO 
 
 
 
 
 
 
URL: http://www2.ufpe.br/codec/deOliveira.html 
 
 
 
Exercício. 
Se A e B são eventos certos, i.e., P(A)=P(B)=1, avaliar, usando 
apenas os axiomas de Kolmogorov: 
P(A∪B) e P(A∩B). 
 
Dicas: problemas 5 e 6. 
 
UNIÕES FINITAS DISJUNTAS 
Dados eventos A1, A2, A3..., An todos disjuntos par-a-par, então: 
∑
==
=
n
k
k
n
k
k APAP
11
)()(U
. 
Por indução finita: 
P2. P(A1∪A2)=P(A1)+P(A2) (verdade via AX4) 
Pn. Admita verdadeira Pn. ∑
==
=
n
k
k
n
k
k APAP
11
)()(U
. 
Mostrar que Pn ⇒ Pn+1 
 
)()( 1
1
1
1
+
=
+
=
∪= n
n
k
k
n
k
k AAPAP UU ⇒T2 )()()( 1
1
1
1
+
=
+
=
+= n
n
k
k
n
k
k APAPAP UU
 
 
⇒(via Pn) ∑
+
=
+
=
=
1
1
1
1
)()(
n
k
k
n
k
k APAP U
 i.e. Pn+1 é verdadeira! Q.E.D. 
 
 
 
 
 
 
APLICAÇÕES RECENTES DA TEORIA 
 
• Inteligência artificial 
• Mecânica Quântica 
• Algoritmos probabilísticos (e algoritmos genéticos) 
• Lógica nebulosa 
• Teoria de informação 
• Controle estocástico 
• Redes neuronais 
• Teoria da evolução e seleção natural 
• Genética 
• Otimização 
• Predição, teoria da decisão, teoria dos jogos… 
Etc. etc.
 
TEORIA DOS CONJUNTOS 
Coleção arbitrária de elementos 
 
Conjunto vazio – por abuso, aquele que não contém elementos. 
 
CLASSE: conjuntos cujos elementos são conjuntos. 
 
CONJUNTO DE INDICES = T 
{At, t ∈T}. 
 
 
 
Conjunto das partes (é uma classe) 
A={w1, w2} 
℘ (A)={ {w1}, {w2}, A, ∅} 
2n 
Conjunto finito= 
tem um número finito de elementos. 
Conjunto enumerável = 
se é finito ou 
pode ser posto em correspondência biunívoca com . 
 
 
CARDINALIDADE 
|| ||= || ||=ℵ0 
 
cardinalidade 2c (do continuum) 
||A||=2c se e só se ∃ f:A → biunívoca. 
 
1,2,3,..., ℵ0 (?) 2c 
Paul Cohen (1934-2007), Medalha Fields 
Não pode ser deduzido da teoria de conjuntos. ∃?=sim ou não. 
 
Considere uma rede com diferentes caminhos entre os nós 1,2,3,4. 
Os caminhos são indicados por letras. Escrevao evento K13, há 
uma ligação (caminho fechado) entre o nó 1 e 3, em termos dos 
caminhos A, B, C, D, E. 
 
Aplique leis distributivas para mostrar que 
K13={A∩ [B ∪C (C∩E)]} ∪ {D ∩ [E ∪ (B ∩C)]}. 
 
DEFINIÇÃO. Dada uma classe {At}t∈T 
 
U
Tt
tt AA
Tt
∈
=
∈
sup
 
I
Tt
tt AA
Tt
∈
=
∈
inf
 
 
 
 
LEIS DE “DE MORGAN” 
 
=





∈
c
Tt
tAU 





∈
I
Tt
c
tA
 
=





∈
c
Tt
tAI 





∈
U
Tt
c
tA
 
 
Conseqüência 
 
=





∈
c
tA
Tt
sup ctA
Tt∈
inf
 
=





∈
c
tA
Tt
inf ctA
Tt∈
sup
 
 
 
 
CAMPO (ALGEBRA) ℑℑℑℑ 
É uma classe fechada quando efetuamos um número finito 
(arbitrário) de operações entre seus elementos. 
 
i) A,B ∈ ℑ ⇒ A∪B∈ℑ 
ii) A,B ∈ ℑ ⇒ A∩B∈ ℑ 
iii) A ∈ ℑ ⇒ Ac ∈ ℑ 
 
A,B∈ ℑ Ac,Bc∈ ℑ ⇒ Ac∪Bc∈ ℑ ⇒ [Ac∪Bc]c ∈ ℑ ⇔ A∩B∈ ℑ 
 
Exercício. 
Determinar uma álgebra em ΩΩΩΩ contendo A,B∈∈∈∈ΩΩΩΩ. 
Use apenas ∪ e (.)c 
 
Mostremos que 
 
ℑ ={∅,A, B, Ac, Bc, A∪B, (A∪B)c, A∩B, (A∩B)c, (B-A), (B-A)c, 
(A-B), (A-B)c, A∆B, (A∆B)c}
 
DEF. LIMITE INFERIOR 
 
O conjunto de pontos que pertencem a quase todos os elementos Ak 
de uma classe (exceto possivelment em um número finito delas) é 
chamado de LIMITE INFERIOR de {At}t∈T 
UI
∞
=
∞
=
=
1
:inflim
n nk
kk AA
 
montar tais uniões e interpretar... 
 
 
DEF. LIMITE SUPERIOR 
 
O conjunto de pontos que pertencem a um número infinito de 
elementos Ak de uma classe é chamado de LIMITE SUPERIOR de 
{At}t∈T 
IU
∞
=
∞
=
=
1
:suplim
n nk
kk AA
 
montar as uniões e interpretar... 
 
 
Obs- 
 
kAinflim
 ⊆ kAsuplim 
 
Exemplo (trivia). 
Seja w∈Ak se k é ímpar 
 w∉Ak se k é par. 
 
w∉ kAinflim e w∈ kAsuplim 
 
CONVERGÊNCIA EM CLASSES 
 
Seja {Ak}k=1 uma classe de cardinalidade enumerável. 
Dizemos que {Ak} é uma seqüência convergente e que existe um 
limite na classe quando 
kAinflim AAk == suplim
 
Escreve-se AAk =lim . 
 
 
 
CLASSES MONOTÔNICAS 
 
• Classe não-decrescente: A1⊆ A2 ⊆ A3 ⊆ A4 ... 
notação An↑ 
 
• Classe não-crescente: A1⊇ A2 ⊇ A3 ⊇ A4 ... 
notação An↓ 
Classes monotônicas são convergentes! Vejamos. 
 
 
An↑ U
∞
=
==
1
suplimlim
n
nkn AAA
 
 
An↓ I
∞
=
==
1
inflimlim
n
nkn AAA
 
 
 
 
 
 
Se { }nB é uma seqüência qualquer, então: 
I
∞
=
≥
=
nk
k
k
B
nk
B
inf
 ↑ faça diagramas de Venn... 
 
k
nk
k
B
nk
B
≥
==
∞
=
sup
U ↓ faça diagramas de Venn... 
 
 
 
Verificação: 
I
∞
+=
+ =
1
1
nk
kn BD
, I 1+= nnn DBD ⇒ 1+⊂ nn DD 
 
U
∞
+=
+ =
1
1
nk
kn BE
, U 1+= nnn EBE ⇒ 1+⊃ nn EE . 
 
 
 
 
Examinar o tipo e a convergência nas seguintes classes: Ω=[0,1] 
 





 ≤<
+
= 1
1
1|: x
n
xAn
 e 





<<=
n
xxBn
10|:
 
 
 
 
 
σ-álgebra Álgebra de Borel 
 
Uma σ-álgebra é uma classe não vazia fechada sobre todas as 
operações enumeráveis com conjuntos. 
 
Obs- toda σ-álgebra é uma álgebra, mas o inverso não é válido. 
Obs- o conjunto das partes ℘(Ω) sempre uma σ-álgebra. 
 
 
Seja C uma classe. Para que ela seja uma σ-álgebra é necessário e 
suficiente que 
∈∀ nA C, 
1) ∈cnA C 
2) ∈
∞
=
U
1n
nA C 
 
Paralelo com o fechamento a.b e a+b 
 
EXEMPLOS TRIVIAIS 
ℑ := { [0,0.5], (0.5,1), ∅, [0,1]} é álgebra e σ-álgebra. 
 
ℑ := { [ ], [ ), ( ], ( ), ∅, [0,1]} não é σ-álgebra. 
 
Α Α Α Α álgebra de BOREAL na reta real 
 
É a álgebra que contém uma determinada classe de intervalos na 
reta real: os intervalos abertos. 
 
Notas: 
1) Por causa da regra de dualidade, fechamento sob 
complementação e intersecções finitas (enumeráveis) 
implica em fechamento sob uniões finitas (enumeráveis). 
Podemos então trocar também, nestas propriedades, 
intersecções e uniões. 
 
2) A maior σ-álgebra para uma dada classe é o conjunto das 
partes desta classe. 
 
PROPOSIÇÃO. 
A menor σ-álgebra passível de construção é {∅,Ω}. 
PROVA. 
Se G é uma σ-álgebra e A∈ G, então F definição de σ-álgebra, 
Ω,Ac e ∅ ∈ G e, portanto, F ⊂ G. Mas F é uma σ-álgebra, pois se 
tomamos complementos ou uniões de conjuntos de F, 
invariavelmente obtemos elementos de F. Segue-se que F é uma 
σ-álgebra que está contida em qualquer outra σ-álgebra G que 
contenha A, daí o resultado. 
 
Classes monotônicas. 
� 
 
1) Ej∈� 
Ej ⊂Ej+1 e U
∞
=
=
1
lim
j
jn EE ∈� 
 
2) Ej∈� 
 Ej ⊃Ej+1 e jjn
EE I
∞
=
=
1
lim
 ∈� 
 
σσσσ-álgebra mínima 
Está contida em qualquer σ-álgebra definida sobre a class. 
É única. Fmin=∩F. 
TEOREMA. 
Toda σ-álgebra é uma álgebra monotônica e vice-versa. 
 
TEOREMA. 
A σ-álgebra mínima sobre uma classe e a classe monotônica 
mínima sobre a mesma classe coincidem. 
 
Α σΑ σΑ σΑ σ-álgebra de BOREAL 
 
É a σ-álgebra mínima que contém uma determinada classe de 
intervalos na reta real: os intervalos abertos. 
 
FUNÇÕES DE CONJUNTO 
Seja C uma classe. Considere uma aplicação de C em . 
ϕ: C → 
)(AA ϕa
. 
 
 
1. Funções de conjunto aditivas 
Se C ={Aj} é uma classe disjunta e ∑
==
=






 n
j
j
n
j
j AA
11
)(ϕϕ U
, a função é 
dita ser uma função de conjunto aditiva. 
 
Notação: A∪B=A+B se A∩B=∅ 
Generalizando, tem-se ∑
==
=
n
j
j
n
j
j AA
11
U
, se {Aj} é disjunta. 
 
 
2. Funções de conjunto σ-aditivas 
 
Se C ={Aj} é uma classe disjunta e ∑
∞
=
∞
=
=







11
)(
j
j
j
j AA ϕϕ U
, a função é 
dita ser uma função de conjunto σ-aditiva. 
 
• Se ∀j, |ϕ(Aj)|<+∞ , então a função de conjunto é dita σ-finita. 
 
 
 
Nota. Toda função aditiva (ou σ-aditiva) exige que ϕ(∅)=0. 
Prova. A=A+∅ ⇒ ϕ(A)= ϕ(A)+ ϕ(∅), daí o resultado. 
 
TEOREMA. 
Seja ϕ uma função de conjunto σ-aditiva tal que +∞<
∞
=
U
1
)(
j
jAϕ
. 
Então ∑j j
A )(ϕ
 converge absolutamente. 
 
 
 
Nota. 
+∞<∑
j
jA )(ϕ
 (~⇒) +∞<∑j jA )(ϕ 
+∞<∑
j
jA )(ϕ
 (⇐) +∞<∑j jA )(ϕ . 
 
Separando: 
=
+
jA Aj ou ∅, se 0)( ≥jAϕ 
=
−
jA Aj ou ∅, se 0)( ≤jAϕ . 
 
∑∑∑ −+ += )()()( jj
j
j AAA ϕϕϕ
 
O primeiro termo converge por hipótese: ∑
+ )( jAϕ
 
O segundo termo exclui -∞. 
 
 
 
 
 
 
Sub-σσσσ-aditividade. 
 
TEOREMA 
Seja ϕ uma função de conjunto não-negativa, ϕ≥0, e aditiva. 
Então: 
i) ∀A | ϕ(A)<+∞ (σ-finita), se A⊃B ⇒ ϕ(B)≤ ϕ(A)<+∞ 
(monotonicidade) 
ii) ∑
==
≤





 n
j
j
n
j
j AA
11
)(ϕϕ U
 (sub-σ-aditividade). 
 
Prova. 
i A⊃B 
A=B+(A-B) e B∩(A-B)=∅. (i.e. B∩(Bc∩A)). 
Pela hipótese de aditividade, ϕ(A)= ϕ(B)+ ϕ(A-B). Mas como a 
função é não-negativa, ϕ(A-B)≥0, e a monotonicidade segue. 
ii U
∞
=
+−−+−+=
1
123121 ...)()(
j
j AAAAAAA
 
ou seja, U
∞
=
+∩∩+∩+=
1
321211 ...)()(
j
ccc
j AAAAAAA
 
 
Mas jj
c
i AAA ⊆∩
 e pela monotonicidade (item i), segue-se: 
U
∞
=
+++≤
1
321 ...)()()()(
j
j AAAA ϕϕϕϕ
, provando assim a sub-σ-
aditividade. 
 
 
CONTINUIDADE DE FUNÇÕES DE CONJUNTO 
 
ϕ é contínua por baixo se e só se ∀An↑ 
)(limlim nn A
n
A
n
ϕϕ
∞→
=





∞→ 
 
ϕ é contínua por cima se e só se ∀An↓ 
)(limlimnn A
n
A
n
ϕϕ
∞→
=





∞→ 
 
DEFINIÇÃO. ϕ é contínua se e só se ela é contínua por baixo e 
contínua por cima. 
 
Um exemplo. Seja A=[0,1]. 
dxeA x∫
−
=
1
0
2/2
2
1)(
pi
µ
 (integral de Riemman) 
Medida An⊂A . 
Considere An↑ não decrescente A1⊆ A2 ⊆ A3 ⊆ A4 ... 
∞
=





+
−≤≤
+
∈=
11
11
1
1|:
n
n
n
x
n
RxA
 
 
An →A 
dxeA n
n
x
n ∫ +
−
+
−
=
1
11
1
1
2/2
2
1)(
pi
µ
 
Se µ é contínua, então )()(lim)(lim AAA nn µµµ == . 
Mas i) )()(lim AAn µµ = 
 ii) )(2
1
2
1lim)(lim 1
0
2/1
11
1
1
2/ 22 AeeA xn
n
x
n µ
pipi
µ === ∫∫
−+
−
+
−
 
µ parece ser contínua (de fato, ela o é). Porém, verificar 
continuidade pela definição, já era! 
 
Mostraremos a continuidade da função Probabilidade. 
 
Probabilidade (Kolmogorov) é uma função de conjunto σ-aditiva 
definida na classe de eventos de um espaço amostral. (rigor, escola 
formal). 
 
σσσσ-aditividade ⇔⇔⇔⇔ Continuidade. 
 
 
 
Nota histórica. 
 
 
Axiomas: Kolmogorov usou continuidade, ao invés de A5 (dá no 
mesmo, são equivalentes). Hoje, usa-se formalmente a σ-
aditividade. 
 
 
TEOREMA DA CONTINUIDADE DA MEDIDA DE 
PROBABILIDADE (siga também Davenport Jr) 
 
Prop(i) Toda função de conjunto σ-aditiva é aditiva e contínua. 
Prop(ii) Se uma função de conjunto é aditiva, contínua por baixo, 
finita e contínua em ∅, então ela é σ-aditiva. 
 
Nota. Nem é preciso continuidade (por baixo e por cima), porém 
leia-se em termos práticos: 
 
i) σ-aditiva ⇒ aditiva e contínua 
ii) aditiva e contínua ⇒ σ-aditiva. 
 
PROVA. 
(⇒) 
Seja An ↑ uma seqüência não-decrescente (arbitrária). 
U
∞
=
=
1
lim
n
nn AA
 
...)()(lim 23121 +−+−+= AAAAAAn 
 
∑
∞
=
−
−=
1
1 )(lim
n
nnn AAA
 se A0:=∅. 
 
∑
=
−
−
∞→
=
n
k
kkn AA
n
A
1
1)(
lim
lim
 
Aplicado a função de conjunto aos dois membros, 
))(lim()(lim
1
1∑
=
−
−
∞→
=
n
k
kkn AA
n
A ϕϕ
. Pela σ-aditividade, 
 
∑
=
−
−
∞→
=
n
k
kkn AA
n
A
1
1)(
lim)(lim ϕϕ
. 
Mas 
)()()(..)()()()()(
)(
123121
1
1
nnn
n
k
kk
AAAAAAAA
AA
ϕϕϕϕϕϕϕϕ
ϕ
=−++−+−+
=−
−
=
−∑
 
Então 
)(lim)(lim nn A
n
A ϕϕ
∞→
=
 é contínua por baixo. 
 
 
Seja An ↓ uma seqüência não-crescente (arbitrária). 
I
∞
=
=
1
lim
n
nn AA
 
Construa uma seqüência (An0-An) ↑ n≥n0, (não-decrescente), 
com +∞<)( 0nAϕ . Aplicando a parte anterior da demonstração, 
vem: 
( ) )(lim)lim( 00 nnnn AAAA −=− ϕϕ
 
Ou seja, ( ) )(lim)(lim 00 nnnn AAAA ϕϕϕ −=− e finalmente, 
( ) )(lim)((lim) 00 nnnn AAAA ϕϕϕϕ −=−
 
 
donde a continuidade por cima. 
Se ϕ é contínua por baixo e por cima, então ela é contínua. 
 
(⇐) 
Parte A ∑ ∑
=
∞
+=
∞
=






+=




 n
k nk
kk
n
n AAA
1 11
)( ϕϕϕ U
. 
Mas quando n→+∞, 0)(lim 1
=∅=





∑
∞
+=
ϕϕ
nk
kA
 (use hipótese) 
 
(é claro que assumimos a classse {An} disjunta, pois queremos 
provar a σ-aditividade). 
Assim, ∑
∞
=
∞
=
=





11
)(
k
k
n
n AA ϕϕ U
 
 
Outra demonstração. 






=





=





∑∑
=
∞
=
∞
=
n
k
k
k
k
n
n AAA
111
limϕϕϕ U
. Pela continuidade por baixo, se 
Bn ↑ então )(lim)(lim nn BB ϕϕ = 
 
A seqüência construída é ∑
=
=
n
k
kn AB
1
: ↑ e segue-se 
)(lim)(lim
11
∑∑
==
=
n
k
n
n
k
n AA ϕϕ
 e, portanto, 
∑∑∑
∞
==
∞
=
==
111
)()(lim)(
k
n
n
k
n
k
n AAA ϕϕϕ
 Q.E.D. 
 
TEOREMA (compacticidade). 
Se ϕ é contínua, então ∃ C, D tais que 
ϕϕ sup)( =C
 e ϕϕ inf)( =D . 
Prova. Tomemos ϕ<∞. 
{An} com An →A. 
Cada An escrito como uniões disjuntas de I
n
k
kA
1
'
=
, sendo kk AA =' ou 
kk AAA −=
'
. 
 
 
São 2n subconjuntos. Caso n=2 
A1∩A2 
(A-A1)∩A2 
A1∩(A-A2) 
(A-A1)∩(A-A2) 
 
Exemplo. Caso n=2 reescrever A2 
A2=(A1∩A2)+A2∩(A-A1) = Azul + Cinza 
 
Exemplo. Caso n=3 reescrever A3 
A3= 
A1∩A2∩A3+(A-A1)∩A2∩A3+(A-A1)∩(A-A2)∩A3+A1∩(A-A2)∩A3. 
 Vermelho + Cinza + Verde + Azul 
 
 
 
Seja U nmn AB =: , Bn=∅ quando 0)( <nmAϕ 
Observação: mnmn AA ,'' ⊆ para n’>n. 
 






=∪∪∪∪≤≤
∞
=
++ U
nk
knnnnnn BBBBBBA ϕϕϕϕ )...()()( '21
 
ϕ contínua. 
 
 
Defina U
∞
=
=
nk
kBC lim:
 
n→+∞, )(sup Cϕϕ ≤ , mas )(sup Cϕϕ ≥ (senão não seria sup). 
Assim 
).(sup Cϕϕ =
 
Prova nas mesmas linhas para a existência do inf. 
 
Q.E.D. 
 
Resolvendo a questão 11. 
⊆kAinflim kAsuplim
 
{An} com conjuntos disjuntos para a par, Ai∩Aj=∅. 
Calcularemos o lim sup Ak. 
IU
∞
=
∞
=
=
1
suplim
n nk
kk AA
 
...suplim
4321
UUUU
∞
=
∞
=
∞
=
∞
=
∩∩∩=
k
k
k
k
k
k
k
kk AAAAA
 
ou seja, 
 
...)()(suplim 321
1
21
1
1
11






++−∩





+−∩





−∩=
∞
=
∞
=
∞
=
∞
=
AAAAAAAAAAA
k
k
k
k
k
k
k
kk UUUU
 
Escrevendo em termos de eventos complementares: 
 
...)()(
suplim
321
1
21
1
1
11






++∩∩





+∩∩





∩∩
=
∑∑∑∑
∞
=
∞
=
∞
=
∞
=
c
k
k
c
k
k
c
k
k
k
k
k
AAAAAAAAAA
A
 
Usando de Morgan, 
 
...)()(
suplim
321
1
21
1
1
11






∩∩∩∩





∩∩∩





∩∩
=
∑∑∑∑
∞
=
∞
=
∞
=
∞
=
ccc
k
k
cc
k
k
c
k
k
k
k
k
AAAAAAAAAA
A
 
ou seja, 
 
=





∩=





∩= ∑∑∑
∞
=
∞
=
∞
=
∞
=
c
k
k
k
k
k
c
k
k
kk AAAAA
1111
suplim I ∅. 
Como ⊆kAinflim kAsuplim , então =kAinflim ∅. 
De lim inf Ak=lim sup Ak, segue-se que o limite existe e vale ∅. 
 
PROBABILIDADE CONDICIONAL 
 
Dados A,B, com P(A)>0, define-se 
)(
)(
:)|(
AP
BAPABP ∩=
. 
Implicações 
Se A∩B=∅ P(A∩B)=0 ⇒ P(B|A)=0. 
Se A⊂B A∩B=A ⇒ P(B|A)=1 
Se A⊃B A∩B=B ⇒ P(B|A)= P(B)/P(A)≥P(B). 
 
Caso limite 
P(B|A) com P(A)=0. 
Como definir? Abordagem menos comum nos textos básicos. 
Tome uma seqüência monotônica An ↓ que converge para A. 
Defina então 
)(
)(lim
:)|(
n
n
AP
ABP
n
ABP
∩
∞→
=
 
caso o limite exista e independa da escolha da seqüência An.
 
Probabilidade Total (lei das probabilidades totais) 
 
Seja {Bj} uma partição de Ω. 
∑
=
∩=
n
j
jBAPAP
1
)()(
 
 
REGRA DE BAYES 
 
Seja {Bj} uma partição de Ω, P(Bj)>0 (∀j). 
A∈ Ω, P(A)>0. 
 
∑
=
=
n
k
kk
jj
j
BAPBP
BAPBP
ABP
1
)|()(
)|()()|(
 
 
 
INDEPENDENCIA ENTRE EVENTOS 
 
P(B|A) = P(B) 
 
P(A|B) = P(A) 
 
P(A∩B)=P(A).P(B) 
 
Equivalentes! 
 
 
Nota. A e B mutuamente exclusivos são dependentes. 
A∩B=∅ P(A∩B)=0 
P(B|A)=0 ≠ P(B) ⇒ não são independentes. 
 
Independência estatística entre eventos 
{ }nkA 1 estatisticamente independentes se e só se para qualquer 
subcoleção arbitrária: 
I
j
i
j
i
kk ii APAP
1 1
)()(
= =
∏=
. 
 
PROVAS DE IGUALDADE ENTRE CONJUNTOS 
 
A guia é estabelecer que 
i) Se x∈A ⇒ x∈B.ii) Se x∈B ⇒ x∈A. 
 
A função indicadora de conjunto. Para um conjunto A, 
Aw
Aw
wI A ∉
∈



=
0
1)(
. 
 
 
Álgebra de funções indicadoras- operações. 
 
BABA III +=+
 se A∩B=∅. 
BABA III .=∩
 
2mod)( BABA III +=∆ 
 
Uma seqüência {An} converge para A 
lim An=A ⇔ AA II n → . 
 
 
 
 
Funções mensuráveis e medidas 
 
 
Considerando a reta real . 
 
Classe: conjunto das partes de , ℘( ). 
 
 
Gera-se uma álgebra A na reta que consiste em todos os intervalos 
abertos I∈A, I⊂ . Os intervalos são do tipo I=(a,b) ou combinações 
(finitas) deles. 
 
A MEDIDA DE RIEMMAN (integral de Riemman) 
 
 
A medida m de conjuntos na álgebra A é naturalmente (uma função de 
conjunto) expressa pelo comprimento do intervalo, i.e., 
 
m(I):=l(I)=b-a. 
 
(quantos centímetros há em uma régua, no intervalo entre as marcações 4 cm e 
7 cm? Naturalmente l(I)=7-4=3 cm. Sabemos medir outros “conjuntos”?). 
 
 
 
A extensão natural é passar de uma álgebra A para uma σ-álgebra 
B⊂℘( ). 
 
A σ-álgebra de Borel na reta real é aquela que contém todos os intervalos 
abertos na reta (B é uma extensão de A, i.e. B ⊃A). 
 
Como estender a medida m para os conjuntos em B? uma medida de extensão 
(medida externa) foi utilizada. 
 
 
A medida de Lebesgue: a caminho de variáveis aleatórias. 
 
Dado um conjunto A⊂ , define-se a medida 
 
∑
∪⊂
=
)(inf
:)( n
n
Il
IA
Aµ
. 
 
Note que esta medida funciona como uma extensão: o caso particular de 
conjuntos do tipo intervalos, A=I, e a medida usada não requer uma cobertura 
U
n
nI
 e a medida vale l(I)=b-a, coincidindo com a medida de Riemman. 
 
 
NOTA-A medida de Lebesgue não é uma medida de probabilidade, pois 
µ( )≠1 e, portanto, não obedece AX3 (normalização). 
 
VARIÁVEIS ALEATÓRIAS 
 
Considere os mapeamentos X (denominados variáveis aleatórias) 
 
)(
:
wXw
RX
a
→Ω
 
 
A cada ponto do espaço amostral, atribui-se um número na reta real. Isto 
corresponde a transformar o objeto de estudo de um plano abstrato 
 
(espaço amostral) em valores numéricos. Agora saberemos “fazer 
contas”. 
 
Conjuntos serão mapeados em intervalos (que são mensuráveis usando 
as medidas – Riemman ou Lebesgue). 
 
 
A variável aleatória é uma “função” (mapeamento): X(w)=x. 
 
As transformações são entre dois sistemas – espaços de probabilidade triplas 
 
 
(Ω,A,P’) ⇒ ( ,B,P) 
Lembre o exemplo trivial: lançamento de um dado 
 
No espaço amostral, há “face do dado caiu exibindo 1”, “face do dado 
caiu exibindo 2”,..., “face do dado caiu exibindo 6”. Estes eventos são 
mapeados via v.a. nos números reais 1, 2, 3, 4, 5 e 6. 
 
 
 
Vejamos a medida de probabilidade: uma função de conjunto 
 
 
P:AAAA→→→→[0,1] 
 
 
Para cada subconjunto B na álgebra B 
 
B∈B ⇒ P(B):=P(X-1(B)) se X-1(B)∈A. 
 
Os conjuntos da σ-álgebra de Borel podem ser mensuráveis.
 
Funções mensuráveis 
 
Dada f função real, contínua 
 
Qualquer conjunto do tipo {x | f(x)>α} α∈ é mensurável. 
 
 
Veja que conjuntos {x | f(x)≥α} são mensuráveis: 






−>=≥
+∞
=
U
1
1)(|{})(|
n n
xfxxfx αα
 
 
 
 
Se {x | f(x) ≥α} é mensurável, seu complemento também o é: 
 
{x | f(x) ≥α}c= -{x | f(x) ≥α} = {x | f(x)<α}. 
 
 
Se {x | f(x)<α} é mensurável, {x | f(x)≤α} também o é, pois 






+<=≤
+∞
=
U
1
1)(|{})(|
n n
xfxxfx αα
 
Assim, basta considerar conjuntos de um dos tipos: 
 
 
Seja a seleção {x | f(x)≤α}. 
 
 
 
No contexto de variáveis aleatórias, consideram-se: 
 
w ← x 
X ← f 
{w | X(w)≤α}:=FX(α). 
 
ISTO É a função distribuição da variável aleatória X! 
 
Conhecido FX(.), tem-se informação para calcular a probabilidade de eventos 
que representem quaisquer eventos que são meapados em conjuntos da álgebra 
de Borel. 
 
 
 
NOTAÇÃO 
 
P(B):=P{w∈Ω | w∈X-1(B)⊂A} 
FX(α):={w | X(w)≤α} 
 
Usaremos simplificadamente FX(x)= Pr(X<x) 
F é contínua à esquerda. 
 
(observação: definindo-se F(x):=Pr(X≤x), F é contínua à direita). 
 
 
 
EXEMPLOS (ilustração do comportamento de FX) 
Variável discreta 
Variável contínua 
 
NOTAS (DE RODAPÉ) SIMPLES 
 
FX(x1)=P(w∈Ω | X(w)<x1) 
FX(x2)=P(w∈Ω | X(w)<x2) 
Se x1<x2 ⇒ F(x1) ≤ F(x2). 
 
F(-∞)=P(w∈Ω | X(w)<-∞)=P(∅)=0. 
 
F(+∞)=P(w∈Ω | X(w)<+∞)=P(Ω)=1. 
 
 
 
Função densidade de Probabilidade 
 
f(x) associada com a função distribuição de probabilidades F(x). 
 
∫
∞−
=
x
dfxF ξξ )()(
. 
Como F(x) é não decrescente (monotonicidade), 0)()( ≥= dx
xdF
xf
. 
 
Distribuições contínuas e diferenciáveis. Para os demais casos (discretas e 
mistas), usam-se impulsos de Dirac. 
 
Interpretando: ∆x suficientemente pequeno 
xxfxxXxP ∆≅∆+≤≤ ).()(
 ou x
xxXxP
x
xf ∆
∆+≤≤
→∆
=
)(
0
lim)(
 
Discretas 
 
Assumindo valores x1, x2, x3,... com probabilidade P(xi) 
)()()( ∑ −==
i
ii xxuxXPxF
 
Derivando aparecem impulsos. No caso de distribuições mistas: 
 
∑ −=+=
i
ii xXxXPdx
xdC
xf )()()()( δ
. 
 
EXPERIMENTOS DE BERNOULLI 
(ensaios de Bernoulli) 
 
Um dos experimentos largamente usados é quando ao invés de lidar com 
resultados de UM ÚNICO experimento, considera-se o caso e realização 
repetida de um mesmo experimento. 
Em particular, interessa a probabilidade de o evento ocorrer k vezes nas n 
(n>k) realizações do mesmo. 
 
(este é essencialmente o problema de obter k caras em n lançamentos de uma 
moeda. O número de repetições do evento “jogar a moeda” é n.) 
 
 
Se p denota a probabilidade de ocorrer o evento, 1-p é a probabilidade dele não 
ocorrer (conseqüência imediata dos axiomas). 
 
A probabilidade de ocorrência de k caras em n jogadas é (experimentos 
independentes) 
 
P(A1∩A2∩A3∩...∩An)=P(A1).P(A2).P(A3)...P(An) 
p.p.p...p.(1-p).(1-p)....(1-p) 
 k vezes n-k vezes (total n) 
 
 
Como os eventos da ocorrência de k caras em n lançamentos são mutuamente 
exclusivos e ocorrem em número 





k
n
, via AX4 tem-se: 
 
P(k ocorrências em n eventos repetidos)=
knk pp
k
n
−
−




 )1(
 
 
Note que só podem ocorrer k=0, k=1, k=2, k=3, ou... k=n ocorrências. 
MUTUAMENTE EXCLUSIVAS 
P(Ω)= 
knk
n
k
pp
k
n
−
=
−





∑ )1(
0 =[p+(1-p)]n=1 (vale AX3). 
 
 
A probabilidade de haver a ocorrência entre k1 e k2 vezes o evento nos n 
ensaios é dada por: 
knk
k
kk
pp
k
n
−
=
−





∑ )1(
2
1
. 
HIPÓTESES: Variável aleatória binária, n eventos, independencia entre eles. 
 
TEOREMAS ASSINTÓTICOS. 
 
Dá um “trabalhão” calcular estas expressões quando n é grande! 
 
 
TEOREMA DE “DE MOIVRE-LAPLACE” 
 
Assumindo que n é grande e também de modo que n.p.(1-p)>>1, então 
Vale uma aproximação Gaussiana para a Binomial: 
)1(2
)( 2
)1(2
1)1( pnp
npk
kk e
pnp
pp
k
n
−
−
−
−
≅−





pi 
Assim, o cálculo da probabilidade da ocorrência entre k1 e k2 vezes o evento 
nos n ensaios pode ser estimado por: 
dxe
pnp
pp
k
n k
k
pnp
npx
kk
k
kk
∫∑
−
−
−
= −
≅−




 2
1
2
2
1
)1(2
)(
)1(2
1)1(
pi 
 
 
Integral Gaussiana – Tabelada. Função Q(.) ou erfc(.). 








−
−
−








−
−
≅−





−
=
∑ )1.(.)1.(.
)1( 12
2
1 ppn
npk
erf
ppn
npk
erfpp
k
n knk
k
kk(tirar pirulito de criança!) 
 
Aproximação II. n→∞ 
 
A aproximação proposta por De Moivre requer n.p>>1. 
Nos casos em que n.p≈1, isto não é válido. Considera-se agora: 
 
 
TEOREMA DE POISSON n→∞ 
 
!
)()1(
k
np
epp
k
n k
npknk −− ≅−





 
 
Se n→∞ e p→0, mas com a relação n.p→a, tem-se 
!
)()1(
k
a
epp
k
n k
aknk −− ≅−





. 
 
Isto definirá a variável aleatória de Poisson e o processo de Poisson. 
 
 
VARIÁVEIS ALEATÓRIAS USUAIS 
 
Discretas Bernoulli, Binomial, Poisson 
Contínuas Gaussiana, exponencial, Cauchy, Laplace, 
 Uniforme, beta, χ2 
Mistas 
 
GAUSSIANA UNIFORME 
2
2
2
)(
22
1)( σ
piσ
mx
exf
−−
=
 contrário caso 0
1
)( bxaabxf
<<




−
=
 
 
EXPONENCIAL chi2 
)(.)( TueaTf aT−=
 
)()2/(2
2)( 22 2/12/ xuex
n
xf xn
nn
σ
σ
−−
Γ
=
 
BETA 
Função fatorial generalizado (função gama de Euler) ∫
+∞
−
==Γ
0
!:)( xdex x ζζ ζ
 
Função beta )(
)().(
:),(
ba
babaB
+Γ
ΓΓ
=
 
11 )1.(),()( ++ −= βαβα xxBxfX 
phibeta t α, β, ( ) M α β, ( )
T α β, ( )α β+ 1−
t a α β, ( )−( )α 1− b α β, ( ) t−( )β 1−⋅ ⋅:=
 
 
 
Limitada à direita e a esquerda. Pode ser simétrica ou assimétrica. A 
simetria é controlada pelos parâmetros. 
 
MAXWELL 
)(21)( 22 2/22 xuexxf xX σpiσ
−
=
 
 
VETORES ALEATÓRIOS 
 
O conceito de variável aleatória pode ser estendido para mapeamento no 
espaço euclidiano n-dimensional. 
X: Ω → n 
exemplo: mapeamento em 3. 
 
Um vetor aleatório é um mapeamento vetorial tal que 
1) ∀x∈ n, o conjunto no espaço amostral X:={w∈ Ω |X≤x} corresponde 
a um evento. 
O vetor de x:=(x1,x2,x3,...,xn) e 
X≤x ⇔ (X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn) 
 
2) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=∞,…, Xn(w) ≤xn)=0 (∀i) 
 
3) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=-∞,…, Xn(w) ≤xn)=0 (∀i). 
 
 
FUNÇÃO DISTRIBUIÇÃO DE UM VETOR ALEATÓRIO 
 
A função distribuição de um vetor aleatório é descrita por 
FX: n → 
 x →FX(x). 
Lembrete: o resultado é sempre um número real. 
 
FX(x)=P(X≤x)=P(X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn) 
A notação mais usual é: ),...,,( 21,...,, 21 nXnXX xxxF . 
 
PROPRIEDADES DA FUNÇÃO DISTRIBUIÇÃO DE UM VETOR 
ALEATÓRIO 
 
i) 0),...,...,,( 21,...,, 21 =−∞ nXnXX xxxF 
ii) 1),...,,...,,(,...,, 21 =∞∞∞∞XnXXF (normalização AX3) 
iii) F é monótona não-decrescente em cada argumento. 
iv) F é contínua pela direita em cada argumento. 
v) ∀i )(),...,,...,,(,...,,...,, 21 iXiXnXXX xFxF ii =∞∞∞ . 
 
 
O caso usual de (v) é a reobtenção das distribuições marginais em cada 
dimensão: 
Partindo de ),(, yxF YX : 
)(),(
,
xFxF XYX =∞
 
)(),(
,
yFyF YYX =∞ . 
A função densidade de um vetor aleatório também pode ser definida por 
extensão: 
),...,,(
...
:)( 21,...,,
21
21 nXXX
n
n
X xxxF
xxx
xf
n∂∂∂
∂
=
. 
 
PROPRIEDADES DAS DENSIDADES DE VETORES 
∫ ∫ ∫
∞− ∞− ∞−
=
1 2
2121
...),...,(...),...,,( 2121...21...
x x x
nnXXXnXXX
n
nn
dddfxxxF ξξξξξξ
 
1) Normalização: 
1...),...,(... 2121...21 =∫ ∫ ∫
+∞
∞−
+∞
∞−
+∞
∞−
nnXXX dddf n ξξξξξξ 
 
2) Não-negatividade: 
0),...,,( 21,...,, 21 ≥nXXX xxxf n 
 
 
3) Distribuição Marginal: 
∫ ∫ ∫∫
+∞
∞−
+∞
∞−
+∞
∞−∞−
= nnXXX
x
iX dddfxF n
i
i
ξξξξξξ ...),...,(......)( 2121...21 
 
4) Densidade Marginal (caso usual): 
∫
+∞
∞−
= dyyxfxf XYX ),()(
 e ∫
+∞
∞−
= dxyxfyf XYY ),()(
 
 
Há que se estudar e ler detalhadamente definição e propriedades de 
densidades de probabilidade condicionadas. 
 
 
Relação entre densidades e INDEPENDÊNCIA ESTATÍSTICA 
 
Independência entre duas v.a.’s X e Y. (desacoplamento) 
X e Y Independentes ⇔ )().(),( yFxFyxF YXXY = 
De modo equivalente: 
 
Independência entre duas v.a.’s X e Y. (desacoplamento) 
X e Y independentes ⇔⇔⇔⇔ )().(),( yfxfyxf YXXY = . 
 
 
 
Do ponto de vista de densidades condicionais, a independência implica 
em: 
)()(| xfxf XyYX ==
 e )()(| yfyf YxXY == . 
 
Def. VETORES ALEATÓRIOS INDEPENDENTES. 
 
No caso mais geral de vetores aleatórios, a independência é definida 
quando 
∏
=
=
n
i
iXnXXX xFxxxF in
1
21... )(),...,,(21
 
Independência simplifica substancialmente as coisas! ... 
 
VALOR ESPERADO E MOMENTOS 
 
Uma variável assume valore REAIS. Assim, é possível realizar cálculos, 
médias, modas, desvios... 
 
O valor esperado de uma variável aleatória X é definido por 
 
i
n
k
i xxXPXE )(:)(
1
∑
=
==
 CASO DISCRETO 
∫
+∞
∞−
= dxxxfXE X )(:)( CASO CONTINUO 
 
 
Interprete como médias “ponderadas” pela probabilidade de ocorrência. 
 
Isto permite definir uma série de médias (MOMENTOS) de uma v.a. 
E(X), E(X2), E(X3),..., E(Xn) 
E os respectivos momentos centrais, relativos à média m=E(X) 
(funcionam com o cálculo do centro de massa, momentos de inércia 
etc.) 
E(X-m), E((X-m)2), E((X-m)3),..., E((X-m)n). 
 
 
Os momentos relevantes são sempre os primeiros, de ordem mais baixa: 
 
E(X), média (m) E(X2), 2º momento 
E(X-m)=0 (sem uso), E((X-m)2), variância (σ2) 
 
Primeiro (medida do comportamento médio) 
Segundo (medida de espalhamento e variação, daí o nome) 
 
O desvio padrão é também largamente usado, expressando idéia similar 
à variância, mas com interpretação física atrativa 
}){(: 22 mXE −== σσ
 
 
CASO DE DUAS VARIÁVEIS 
X, Y 
E(XnYm) 
E{(X-mX)n(Y-mY)m}. 
 
Se n ou m são nulos, os momentos são marginais, não cruzados. Para 
momentos “cruzados”, requer-se n,m≠0. Os momentos de menor ordem 
deste tipo são 
CORRELAÇÃO E(XY):= corr(X,Y)=RX,Y ou 
COVARIÂNCIA E{(X-mX)(Y-mY)}:=cov(X,Y)=KX,Y. 
 
Observe o nome co-variância (variância, 2º momento, co=entre 
variáveis). 
 
Significado como medida de dependência. 
(relação linear => correlação) 
 
INDEPENDÊNCIA E MOMENTOS 
X e Y independentes (usando o desacoplamento entre densidades) 
E(XnYm)=E(Xn).E(Ym) ∀n,m 
 
 
Existem os dois tipos de momentos (cruzados) de 2ª ordem 
E(XY) 
E{(X-mX).(Y-mY)}=E(XY)-mXmY. 
Cov e corr são relacionados. 
 
Teste preliminar: 
Se E(XY)=E(X)E(Y), então há um “desacoplamento parcial”, de 2ª 
ordem. 
Neste caso, cov(X,Y)=corr(X,Y)-E(X).E(Y)=0 
 
 
ISTO É REFERIDO (por abuso) como correlação nula. 
O coeficiente dito coeficiente de correlação normalizado (deveria ser de 
covariância!) é 
YX
XY
XY
K
σσ
ρ =:
 
Mostra-se que -1≤ ρ ≤+1. 
 
O caso ρρρρ=0 é definido na literatura como correlação nula. 
 
(não covariacionados, termos mais correto, soa estranho e nunca é usado!) 
 
TRANSFORMAÇÕES DE VARIÁVEIS ALEATÓRIAS 
 
Se existe uma função determinista em cuja entrada é aplicada uma 
variável aleatória, a saída TAMBÉM será uma variável aleatória. 
 
Exemplo. 
X é v.a. 
Uma função quadrática y=x2. (função) 
A variável Y=X2 é aleatória. => transformação da v.a. X 
 
 
Como determinar a distribuição de probabilidades da nova variável 
(transformada) Y em termos da distribuição da entrada X, conhecida? 
 
Vejamos. Y=g(X), (em termos de f.D.p) 
FX(x)=P(X≤x) 
FY(y)=P(Y≤y)=P(g(X) ≤y). 
 
 
 
[Y≤y] => [X≤x1 ou x2≤X≤x3 ou x4≤X≤x5] disjuntos (P é aditiva) 
 
FY(y)=P(X≤x1)+P(x2≤X≤x3)+P(x4≤X≤x5). 
 
Escrevendo agora em termos de integrais: 
dxxfyF X
x
x
x
x
x
Y )()(
5
4
3
2
1




 ++= ∫∫∫
∞− 
Ora, )(11 ygxi −= (imagem inversa) 
 
 
EXEMPLO 
)()( xuexf xX −= . Sejaa transformação Y=X2, quem é fY? y>0: 
 
yy xy
XY edxedxxfyF −− −=== ∫∫ 1)()( 00 
u(y)eyF yY −−=1)( . (deriva-se e obtém-se a densidade). 
 
GENERALIZAÇÃO 
 
dxxfyF X
x
x x
x
x
x
Y
n
)(...)( 5
4
3
2
1




 ++++= ∫ ∫∫∫
+∞
∞− 
Para a determinação da densidade de probabilidade, usa-se a REGRA 
DE LEIBNITZ 
 
( ) ( ) ∫∫ ∂
∂
+−=
)(
)(
)(
)(
),()(),()(),(),( α
α
α
α
α
αα
α
αα
α
α
ααα
α
a
b
a
b
dxxf
d
dbbf
d
da
afdxxf
d
d
 
 
 
 
Aplicando-a na expressão de FY 
 
dy
dx
xf
dy
dx
xf
dy
dx
xf
dy
dx
xf
dy
dx
xf
dy
dx
xf
y
yFyf nnXXXXXXYY )(...)()()()()(
)()( 4455223311 −−+−+=∂
∂
=
 
 
dy
dx
xfyf iiX
i
Y )()( ∑=
 
)(
1
1
))((
yg
i
iX
i
i
dy
dxygf
−
−∑
. 
 
 
JACOBIANO da transformação 
No caso de vetores aleatórios, 
)(
11
1||||))(()( ygiX
i
Y
i
Jygfyf
−
−−∑=
 
Funções biunívocas e diferenciáveis: 
Y=g(X), Y=(g1(X), g2(X),..., gn(X)). 




















∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
=
n
n
n
n
n
n
n
n
x
g
x
g
x
g
x
g
x
g
x
g
x
g
x
g
x
g
XJ
K
MMKM
K
K
2
2
2
1
2
1
2
1
1
1
)(
 use |det(J(X))|. 
 
Exemplo resolvido. 
A transformação de um vetor bidimensional gaussiano em coordenadas 
polares, X e Y independentes. 
(X,Y) →(r,θ). 
Qual a distribuição conjunta da amplitude e da fase, frθ( r,θ)? 
Sejam 22 yxr += ; 




=
−
x
y
tg 1θ
 
O jacobiano da transformação é 
2222
2222
yx
x
yx
y
yx
y
yx
x
yx
y
r
x
r
J
++
−
++
−
=
∂
∂
∂
∂
∂
∂
∂
∂
= θθ
 
 
ryx
JJ 11det||
22
=
+
==
. 
Assim, 
2
2
2
22
2
2
2
2 22||
),(),( σσθ piσpiσθ
ryx
XY
r e
r
e
r
J
yxf
rf −
+
−
===
 
Como θ não aparece em frθ, fθ(θ) deve ser constante (v.a. uniforme). 
Como a variável fase é distribuida entre (0,2pi): 
)().(.
2
1),( 2
2
2
2 θσpi
θ θσθ frferrf r
r
r ==
−
 
As variáveis transformadas são indendentes: 
amplitude Rayleigh e fase uniforme. 
 
DESIGUALDADES CLÁSSICAS 
 
“Jensen” CONVEXIDADE 
A desigualdade de Jensen estabelece que 
∫∫
ΩΩ
≤





 µµ dgfgdf )( o
 
f é convexa em (a,b) e g∈L1(µ), 
a≤g(x)≤b e µ(Ω)=1. 
g é Lebesgue-integrável, i.e., +∞≤∫
Ω
µgd
 
 
Observação: Se +∞≤






∫
Ω
p
p dg
/1
|| µ
 diz-se que g∈Lp(µ). 
 
DEFINIÇÃO (convexidade) 
),(: baf → é dita ser uma função convexa se 
 
∀x<y [ ] )()()1()1( yfxfyxf λλλλ +−≤+− ∀0≤λ≤1. 
 
Ilustração: 
 
 
Observação. 
butsa <<<<∀
 tu
tfuf
st
sftf
−
−
≤
−
− )()()()(
 é uma condição equivalente. 
 
 
 
• A derivada, se existir, é monotonicamente não-decrescente. 
• A 2ª derivada, se existir, é sempre positiva (concavidade) 
• ( )bax ,, ∈∀ ζ então )).((')()( ζζζ −+> xffxf 
 
TEOREMA. 
Se f é convexa em (a,b), então f é contínua em (a,b). 
 
Exemplo de função convexa: f(x)=ex. 
 
 
 
TEOREMA DE JENSEN 
Seja µ uma medida em uma álgebra A definida no espaço Ω tal que 
µ(Ω)=1. Se g é uma função real em L1(µ), com a<g(x)<b para todo x em 
Ω, e se f é uma função convexa em (a,b), então: 
∫∫
ΩΩ
≤





 µµ dgfgdf )( o
. 
 
Observação. 
Este teorema não exclui os casos limites a=-∞, b=+∞. 
 
 
PROVA. 
Seja ∫Ω= µgdt : a<t<b. 
Tome agora 
st
sftf
−
−
=
)()(
sup:β
 ( st
sftf
−
−≥ )()(β
, pois é o sup). 
Concluímos que )()()( tstfsf −+≥ β (a<s<b), em particular, s=g(x), 
obtemos 
0)()())(( ≥+−− txgtfxgf ββ
. 
Integrando agora a expressão anterior, chega-se a: 
( ) ( ) 0≥+−− ∫∫∫ ∫∫ ΩΩΩ ΩΩ µβµβµµµ dtgddgdfdgf o . 
 
Daí ( ) ( ) 0≥+−−∫ ∫∫Ω ΩΩ ttdgdfdgf ββµµµo donde 
 
( ) ( ) 0≥−∫ ∫∫Ω ΩΩ µµµ dgdfdgf o , concluindo a demonstração. 
 
CONSEQUÊNCIAS 
 
1) Se g(x)=x, obtemos a desigualdade: 
{ }( ) { })(xfEXEf ≤
 
 
 
2) Se f(x)=ex ⇒ { } ∫∫ ΩΩ ≤ µµ degd gexp . 
 
Suponha agora que Ω={p1,p2,...,pn} e que µ(pi)=1/n (equiprováveis) e 
tome g(pi)=xi∈ . Então: 
( ) ( )nxxxxn eeee
n
xxx
n
+++≤






+++ ...
1
...
1
exp 32121
 
Fazendo yi=exp(xi), obtém-se 
( ) ( )nnn yyy
n
yyy +++≤ ...1..... 21
/1
21
 importante! 
média geométrica × média aritmética. 
 
3) { } ∫∫ ΩΩ ≤ µµ hdhdlogexp (tomando g=log h) 
 média geométrica média aritmética 
 
Se 0:)( >= iip αµ , ∑ =
i
i 1α
 (distribuição discreta arbitrária) 
Chega-se a 
nnn yyyyyy n ααα
ααα +++≤ ........ 221121 21
 
Generalização da relação entre médias harmônica & geométrica. 
 
 
 
3) Sejam p e q expoentes conjugados, i.e, 
111 =+
qp ; 1<p<+∞ 
(ou seja, p+q=p.q) 
 
TEOREMA- DESIGUALDADES BÁSICAS 
 
Sejam p, q expoentes conjugados, 1<p<+∞. Seja X um espaço de 
medida, com medida µ. Sejam f e g funções mensuráveis em X, com 
valores na faixa [0, +∞]. Então: 
 
(i) Desigualdade de Hölder Otto Hölder 
{ } { }∫ ∫∫≤X qX qpX p dgdfgdf /1/1 .. µµµ 
 
(ii) Desigualdade de Minkowsky Hermann Minkowski 
{ } { } { } p
X
p
p
X
p
p
X
p dgdfdgf
/1/1/1
)( ∫∫∫ +≤+ µµµ . 
 
Hölder (PROVA) 
 
{ } { }∫ ∫∫≤X qX qpX p dgdfgdf /1/1 .. µµµ 
 :=A :=B 
(p e q são expoentes conjugados, f≥0, g≥0 mensuráveis) 
 
Sejam A
fF =:
 e B
gG =:
 funções 
(casos A=0 ou B=0; A=+∞ ou B=+∞ Triviais) 
 
 
Vejamos que 
{ } 1=∫X pdF µ e { } 1=∫X qdG µ . 
 
{substituindo, 
11 =⇒=






∫
∫
∫∫
X
p
X
p
X
p
pX p
p
df
df
df
A
d
A
f
µ
µ
µµ
; 
11 =⇒=






∫
∫
∫∫
X
q
X
q
X
q
qX q
q
dg
dg
dg
B
d
B
g
µ
µ
µµ }. 
 
 
Dado x, ∃ s, t | psexF /)( = e qtexG /)( = . 
tsqtps eqepe 11// −−+ +≤
 
{eg é convexa, q
t
p
s
+
=p-1s+q-1t é uma combinação convexa} 
ts eqepxGxF 11)()( −− +≤
 
Daí segue-se: 
)()()()( 11 xGqxFpxGxF ts −− +≤ , 
 
pois sp exF =)( e tq exG =)( . 
 
 
Integrando ambos os membros, deduz-se a desigualdade 
 
∫∫∫
−− +≤
X
q
X
p
X
dGqdFpdxGxF µµµ 11)()(
 
 
Pela normalização, o 2º membro torna-se p-1+q-1. Como os expoentes 
são conjugados (por escolha inicial), chega-se a 
 
1)()( ≤∫X dxGxF µ . 
 
 
Substituindo as expressões de F e G em termos de f e g, 
1)()( ≤∫X dB
xg
A
xf µ
 ∴ BAdxgxfX .)().( ≤∫ µ 
e a demonstração é concluída! Q.E.D. 
 
Para p=q=2, a desigualdade reduz-se à conhecida 
 
DESIGUALDADE DE SCHWARTZ (Hölder p=q=2) 
 
. 
{ } { }{ }∫∫∫ ≤+ XXX dgdfdgf µµµ 2222 .)(
 
Aplicação direta para variáveis aleatórias: 
 
HÖLDER PARA V.A.s 
 
Sejam f:=|X| e g:=|Y| 
 
{ } { } { }qqpp YEXEXYE ||.|||| /1/1≤
. 
 
Minkowsky (PROVA) 
 
{ } { } { } p
X
p
p
X
p
p
X
p dgdfdgf
/1/1/1
)( ∫∫∫ +≤+ µµµ 
 
Pode ser reescrita de modo compacto como ppp gfgf |||||||||||| +≤+ 
 
Partindo de 
(f+g)p=f(f+g)p-1+g(f+g)p-1 [**] 
 
 
 
Aplicando Hölder a cada das funções do 2º membro: 
 
{ } { } q
X
qpp
X
p
X
p dgfdfdgff /1)1(/11 )(.)( µµµ ∫∫∫ −− +≤+ (1ª função) 
{ } { } q
X
qpp
X
p
X
p dgfdgdgfg /1)1(/11 )(.)( µµµ ∫∫∫ −− +≤+ (2ª função) 
 
Somando agora as desigualdades membro a membro, usando [**] no 
1º membro,tem-se 
[ ] [ ]{ } qqpq
X
p
X
pp
X
p
X
p dgfdgdfdgf
/1/1/1 )(.)( 



 ++≤+
−
∫∫∫∫ µµµµ . 
 
 
Dividindo adequadamente, chega-se a 
 
[ ] [ ]{ }p
X
pp
X
p
qp
X
X
p
dgdf
dgf
dgf /1/1
/1
)(
)(
∫∫
∫
∫
+≤




 +
+
µµ
µ
µ
 e a prova conclui. Q.E.D. 
 
Casos particulares da desigualdade de Minkowsky: 
{ } { } { } 2/122/122/12)( ∫∫∫ +≤+ XXX dgdfdgf µµµ 
 
 
 
DESIGUALDADE Cr 
 
Estabelece que { } { } { }rrrrr YECXECYXE |||||| +≤+ 
em que 



≤
≥
=
−
1
1
1
2
:
1
r
r
C
r
r
 
 
 
 
Prova. 
Considere f(λ)=λr+(1-λ)r. 
Um esboço de f 
 
 
Segue a cota: 
1
1
1
2)(
1
≤
≥



≥
−
r
r
se
sef
r
λ
. 
Conclusão: 1)( ≥λfCr , ∀r. (1) 
 
Tome agora ||||
||
YX
X
+
=λ
 e daí ||||
||1
YX
Y
+
=− λ
 
 
Substituindo em (1), obtemos: 
( ) ( ) 1||||
||
||||
||
≥
+
+
+ r
r
rr
r
r YX
YC
YX
XC
. 
 
 
⇒ ( )rrrrr YXYCXC |||||||| +≥+ . 
 
Tomando o valor esperado: 
{ } { } ( )rrrrr YXEYECXEC |||||||| +≥+ 
 
Usando finalmente a desigualdade triangular, chega-se a: 
{ } { } ( )rrrrr YXEYECXEC |||||| +≥+ , 
Completando a prova. Q.E.D. 
 
DESIGUALDADE DE LYAPUNOV 
 
Teorema. Vale a desigualdade { } { }rrss XEXE |||| /1/1 ≤ para r≥≥≥≥s>0. 
Isto significa que Lr⊇Ls. 
 
PROVA. 
Defina a função { }tUEtf ||log:)( = , t≥0, função convexa. 
 
Seja 2||:
ht
UX
+
=
 e 2||:
ht
UY
−
= , (∀h). 
 
 
Da desigualdade de Cauchy-Schwartz, tem-se: 
{ } 222 ||.|||| YEXEXYE ≤
 
 
Substituindo as variáveis X e Y em termos de U, 
 
{ } hthtt UEUEUE −+≤ ||.||||2
 
 
Tomando log(.) em ambos os membros, chega-se a 
 
 
)(
2
1)(
2
1)( htfhtftf −++≤
 ∀∀∀∀h. 
Observação. Se f é contínua e a desigualdade anterior se verifica, então f 
é convexa. 
 
 
f(0)=0 
t
tf )(
 declividade, monótona crescente. (antilog=exp) 
De t
tf )(
↑ , antilog t
tf )(
=antilog 
{ } { }ttt UE
t
UE ||||log /1=
 ↑ 
 
Da relação { }tt UE ||/1 ↑ segue a prova. Q.E.D. 
 
 
 
 
SIMULAÇÃO MONTE CARLO 
 
 
Estimativa de algibeira para o número de simulações necessárias 
para estimar a freqüência relativa de evento de probabilidade p 
(p desconhecida). 
 
 
Suponha que você deseja simular um sistema e avaliar uma taxa de erros 
ou taxa de acertos (e.g. de peças em uma linha de montagem, de uma 
transmissão digital, taxa de colisão de partículas etc.). 
 
 
A cada simulação, efetuam-se n repetições do evento e obtendo um 
resultado diferente cada vez que a simulação for realizada. O valor 
médio é um estimador da probabilidade p (vide anexo). 
 
 
Embora p<<1 seja desconhecida (típico), deve simular de modo a 
garantir um espalhamento pequeno em trono da média, digamos 10% 
(ou 1%). 
=0,1 (critério 10%) 
 
 
EXEMPLO. Ao estimar em computador a probabilidade de um evento 
que você “desconfia” em uma estimativa grosseira ter probabilidade da 
ordem de 10-4, (querendo simular para encontrar uma estimativa 
probabilisticamente confiável), use: 
 
 
 
N.B. Se o valor da estimativa for , por exemplo, bem inferior 
a sua estimativa inicial, refaça as contas sobre n e refaça a simulação... 
 
 
O método clássico de simulação, chamado MONTE CARLO, 
certamente não é indicado para avaliar a taxa de eventos com 
probabilidades muito pequenas, e.g., 10-9. (see importance sampling) 
 
ANEXO. Para um experimento de Bernoulli, k sendo o número de sucessos e n o número de repetições do 
experimento, k é uma variável aleatória com distribuição binomial. 
 
E(k)=np e var(k)=σ2(k)=np(1-p). 
 
Seja a estimativa de freqüência relativa para a probabilidade p do evento estudado (e repetido): . Como 
k é uma variável aleatória, também o é. 
1. , o estimador é não enviezado. 
(o valor médio das diversas simulações tende a fornecer o valor de p) 
2. de modo que o espalhamento relativo à média vale . 
(p pequeno) 
 
 
Integração Monte Carlo 
Hit or miss technique 
0≤g(x)≤c em a≤x≤b. Deseja-se avaliar ∫= ba dxxgS )(: 
 
Seja o espaço amostral }0,),{(: cybxayx ≤≤≤≤∋=Ω 
E uma distribuição 2D-uniforme contrário
yx
caso
se
abcyxf YX
Ω∈




−
=
),(
0
)(
1
:),(
,
 
 
)(: Ω= area
S
p
 N realizações aleatória. 
estimador de freqüência relativa N
n
p hits=:ˆ
 
Convergências – pp =ˆ plim e pp =ˆ l.i.m. (ver-se-á após). 
 
ALGORITMO. 
 
1. Gere 2N números aleatórias uniformes {Uj} 
2. Arrange-os em N pares (U1,U’1), ..., (UN,U’N) 
3. Calcule )( abUaX ii −+= e )( iXg i=1,2,...,N. 
4. Conte o número de casos n hits para os quais g(Xi)>cU’i 
5. Estime a integral por N
abcpp
zpabc
)()1.(
ˆ)( −−±− α
 
 
J. Von Neumann (EUA, imigrante Húngaro) 
 
 
A Função Característica de uma variável aleatória 
 
 
Def. Dada uma v.a. de distribuição FX(.), define-se: 
 
∫∫
+∞
∞−
+∞
∞−
== dxxfexdFejM XxjXxjX )()(:)( ννν . 
 
Notações usuais: MX(.) ou (.)Xφ 
 
 
Isto corresponde a transformada inversa de Fourier da densidade de 
probabilidade da variável aleatória: )()( xfjM XX ↔ν . 
 
 
Nota: MX poderia ter sido mais “naturalmente” definida como a TF da 
densidade de probabilidade fX da v.a. X 
 
Exemplo. 
 
1) Variável uniforme X~ UUUU(a,b). 
 
[ ]ajbjb
a
xj
X
xj
X ee
abjdxabedxxfejM
νννν
ν
ν −
−
=
−
== ∫∫
∞+
∞− )(
11)()(
. 
A função característica é 
[ ]ajbjX ee
abjjM
νν
ν
ν −
−
= )(
1)(
 
 
 
2) Variável exponencial . X~EEEE(λλλλ), 
∫∫
∞+∞
∞−
==
0
)()( dxeedxxfejM xjxXxjX νλν λν . 
νλ
λ
ν jjM X −=)( . 
Exemplo: O caso Gaussiano. 
 
1) Para uma v.a. de distribuição Gaussiana normalizada, X~NNNN(0,1) 
 
2/2
2
1)( xX exf −=
pi . Tem-se imediatamente 
2/2)( νν −= ejM X . 
 
 
2) Uma variável gaussiana sob transformação afim, 
22 2/)(
2
1)( σµ
σpi
−−
=
x
X exf
 resulta em 
2/22)( σννµν −= eejM jX . 
 
3) variável de Poisson 
∫ ∑
∞+
∞−
∞
=
−
−= dxix
i
e
ejM
i
i
xj
X
0
)(
!
)( δλν
λ
ν ( )∑∞
=
−
=
0 !i
ij
i
e
e
ν
λ λ
 
)1()( νλν jeX ejM −−= . 
 
 
 
Propriedades da função característica. (10 propriedades) 
 
i) Para todo ∈ν )0(1|)(| XX MjM =≤ν . 
Claro que 
∫
+∞
∞−
= )()0( xdFM XX
 e ∫∫
+∞
∞−
+∞
∞−
=≤= 1)(|||)(||)(| dxxfexdFejM XxjXxjX ννν . 
 
ii) =− )( νjM X )(* νjM X óbvio. 
 
iii) MX é uniformemente contínua em . 
∫ ∫
+∞
∞−
+∞
∞−
+
−=−+ )()()()(| )( xdFexdFejMhjM XxjXxhjXX νννν
 
 
Mas [ ]∫∫ ∫ +∞
∞−
++∞
∞−
+∞
∞−
+
−=− )()()( )()( xdFeexdFexdFe XxjxhjXxjXxhj νννν
 
e 
[ ] [ ]∫∫ +∞
∞−
+∞
∞−
−≤−=−+ )(1)(1)()(| xdFeexdFeejMhjM XjhxxjXjhxxjXX νννν
 
de onde: 
0)(1)(1|||)()(| →−=−≤−+ ∫∫
+∞
∞−
+∞
∞−
xdFexdFeejMhjM XjhxXjhxxjXX ννν
 se h→0. 
 
Assim, ενν ≤−+ |)()(| jMhjM XX h<δ 
 
{ }||.||)(||)()(11 XEhxdFxhxdFhxxdFjhx XXX ===−+= ∫∫∫ +∞
∞−
+∞
∞−
+∞
∞−
ε
 
 
{ }|||| XE
εδ <
. 
 
iv) Transformação afim 
 
=
−
)( νjM X )(* νjM X e =+ )( νjM baX bjX ejaM νν ).( 
 
v) Geradora de momentos: 
{ }
0
)()(
=
∂
∂
−=
ν
ν
ν
jMjXE Xn
n
nn
 
 
 
 
vi) Fórmula de inversão: 
∫
∞+
∞−
−
= νν
pi
ν djMexf XxjX )(2
1)(
 
 
vii) De )()()Pr( −+ −== xFxFxX XX , 
∫
−→
==
n
n
X
xj djMe
n
xX νν
piνν )(
2
1
0
lim)Pr(
. 
 
viii) MX(.) é semidefinida positiva: 
 
[ ]∑
∈
≥−
Svu
X uhvhuvjM
,
0)(*)()(
, ⊂S , finito, h: → qualquer. 
 
ix) { }iX v.a.’s independentes, e ∑=
i
iXY :
 e a variável soma, então 
 
∏=
i
XY jMjM i )()( νν . 
 
 
x) Sequências de funções (Gnedenko 1962): 
Se { }∞
=1
)(
nX
jM
n
ν
 é uma sequência de funções características, então: 
∑ =≥ 1|0 nn λλ
 ⇒ ∑
n
Xn jM n )(. νλ
 é também uma função característica. 
 
 
 
Teorema da unicidade. Se duas funções distribuição de probabilidade têm 
a mesma função característica, então elas são iguais. {decorre de Fourier} 
 
(as funções características são especialmente úteis nos teoremas limites). 
 
Teorema (convergência de seqüências de distribuições). 
(a) Seja { }nF uma sequência de funções distribuição com funções 
características respectivas { }nM . Se Fn → F, então Mn → M, sendo a 
convergência uniforme com respeito a x em qualquer intervalo finito 
a<x<b. 
 
(b) Suponhamos que 
 
i) Mn converge em e define a função limite M; 
 
ii) M é contínua na origem. Então: 
Fn → F, em que F é uma função distribuição de probabilidade 
M é a função característica da variável de distribuição F. 
 
 
 
 
 
 
Série de Taylor para a função característica de uma v.a. 
 
Suponha que a expansão em série de Taylor da função característica existe 
em algum intervalo que contenha a origem. Então 
 
[ ]∑+∞
=
=
0 !
)()(
k
k
k
X k
jXEjM νν
. 
 
A função característica fornece TODOS os momentos da variável aleatória. 
Assim, “conhecer momentos” ⇔ “conhecer distribuição”. 
 
 
Calcular os momentos (não-centrais) de uma distribuição gaussiana de média 
nula e variância σ2. 
X~ NNNN(0,σσσσ2). 
Fazendo 
...
!2
1)1(...
8
1
2
11)( 2244222/22 +−+++−== − llllX lejM σνσνσνν
σν
 
Chega-se a 
{ }
par
ímpar
n
n
n
nXE
n
n




=
)!2/(2
!
0
2/ . 
avaliar: dxex
x 4/10 2−+∞
∞−
∫ , use σ2=2 n=10. 
 
 
No caso de funções características conjuntas, seja o caso simples de apenas 
duas variáveis X1, X2, com distribuição FX1,X2. 
 
Mostra-se que 
[ ]
0,0
21,
21
21
21
21
),()(
==
+
+
∂∂
∂
−=
νν
νν
νν
jjMjXXE XXmn
mn
mnmn
 
 
generaliza-se facilmente ... 
 
 
 
 
Função característica de vetor aleatório 
 
X vetor n-dimensional: [ ]XjX TeEjM rrr r νν =:)( 
 
As propriedades são semelhantes, e.g., BXAY +=
rr
. , A e B matrizes: 
)(.)( νν ν TXbjY jAMejM
Tr
r
r
=
. 
 
Aplicação. Seja X um vetor aleatório bidimensional com função característica: 
 
( )212221 .22
21 )),(()( ννννννν ++−== ejMjM XX rr
r
. 
 
 
Deseja-se o vetor média mX e a matriz de covariância KX. 
 
1) { }
)0,0(1
1
=
∂
∂
−=
ν
ν r
XMjXE
 ... calculando-se: 
{ } [ ] 04)( )0,0(211 =−−−= =νννν rrjMjXE X . 
Idem para E{X2}. 
Resultado: 





=
0
0
Xm
r
. 
 
2) { } [ ] 11)4).(4().()( 1221
)0,0(21
2
2
21 =−++−=∂∂
∂
−=
=
ννννν
νν
ν
r
r
r
jMMjXXE XX
 
e { } { } 12112 == XXEXXE . 
 
 
{ } 4)(
)0,0(
2
1
2
22
1 =∂
∂
−=
=ν
ν r
XMjXE
 e { } { } 42122 == XEXE , 
 
Resultando em 




=
41
14
XK
. 
 
 
 
 
 
 
 
A VARIÁVEL SOMA 
 
Considere uma v.a. X definida pela soma de N variáveis aleatórias 
independentes, { }NnnX 1= . 
∑
=
=
N
n
nXX
1
:
. 
A função característica para X é 











= ∑
=
N
n
nX XjEjM
1
exp)( νν
. 
Logo, ( )





= ∏
=
n
N
n
X XjEjM νν exp)(
1
. Desde que as v.a.’s são 
independentes, o cálculo da esperança é desacoplado: 
 
 
( )[ ] ∏∏
==
==
N
n
X
N
n
nX jMXjEjM n
11
)(exp)( ννν
. 
∏
=
=
N
n
XX jMjM n
1
)()( νν
 
 
A função característica da variável aleatória soma de 
variáveis independentes é o produto das funções 
características das variáveis individuais. 
 
 
 
 
TRIVIA: 
 
Z:=X+Y X e Y independentes. 
 
)().()( ννν jMjMjM YXZ = e usando a transformada de Fourier: 
)(*)()( zfzfzf YXZ = . 
Convolução! 
 
Caso particular— Soma de duas v.a.’s i.i.d. uniformes: 
 
Z:=X+Y ⇒ )(*)()( zfzfzf YXZ = = ∏∏ =)(*)( zz )(zΛ . 
 
 
VARIÁVEL aleatória CAUCHY 
 
)1(
11)( 2xxfX += pi e 
||)( νν −= ejM X 
Sejam { }NnnX 1= i.i.d. Cauchy, e ∑
=
=
N
n
nXX
1
:
. 
 
Qual a função característica de X? 
 
 
 
 
 
VARIÁVEL chi-quadrada (qui-quadrada) 
 
)()2/(2)( 2/
2/2/)2(
xu
n
ex
xf
n
xn
X Γ
=
−−
 e 2/)21(
1)(
nX jjM νν −= 
 
Sejam { }NnnX 1= i.i.d. Cauchy, e ∑
=
=
N
n
nXX
1
:
. 
 
Qual a função característica de X? 
 
 
 
COTAS SOBRE PROBABILIDADES 
 
Desigualdade de Chebyshev (Pafnutti Tchebyscheff). 
Dado ε>0 (arbitrariamente pequeno), X variável aleatória de 
 
• Média mX 
 
• Variância σX2 
 
{ } 2
2
||Pr
ε
σ
ε XmX ≤>−
. 
 
 
Teorema. Se f≥a>0 em I⊂ , então 
{ } { }
a
XfEIX )(Pr ≤∈
. 
 
 
 
 
 
Vejamos: { } )()()( xdFxfXfE X∫+∞
∞−
=
. 
{ } )()()()()( xdFxfxdFxfXfE XIXI C∫∫ += ⇒ { } )()()( xdFxfXfE XI∫≥ 
 ≥0 
Enfraquecendo a desigualdade: { } }Pr{)()( IXaxdFaXfE XI ∈=≥ ∫ 
Q.E.D. 
Aplicação. v.a. X, com média nula E{X}=0 e E{X2}=σ2 
Seja 
22
:)( 





+=
a
xxf σ
. 
Para x≥a>0, (intervalo I), 0)(
2222
≥





+≥





+=
a
a
a
xxf σσ
. 
 
Esboço: 
 
{ } { }2
2
2
)(Pr






+
≤≥
a
a
xfE
aX
σ
 ou seja, { }
{ }
2
2
2
2422 //}{2
Pr






+
++
≤≥
a
a
aaXEXE
aX
σ
σσ
 
Logo 
{ } 22
2
2
2
2
242 /Pr
σ
σ
σ
σσ
+
≤






+
+≤≥
a
a
a
a
aX
 ou { } 22
2
Pr
σ
σ
+
≤≥
a
aX
. (cota). 
 
COTA INFERIOR E SUPERIOR 
 
Teorema. X uma variável aleatória e g≥0, g Borel mensurável 
(toda imagem inversa é um conjunto na σ-álgebra de Borel) 
Se g é par e não-decrescente em [0,∞). 
Então ∀a≥0, tem-se 
 
{ } { } { })(
)(||Pr)(sup..
)()(
ag
XgE
aX
xgsa
agXgE ≤≥≤−
 
 
 
Calculando E{g(X)}: 
{ } ∫∫∫ ≥+= A XA XA X xdFxgxdFxgxdFxgXgE c )()()()()()()( , 
 pois o 2º termo é positivo. 
 
{ } { }aXagxdFagxdFxgXgE
A XA X
≥=≥≥ ∫∫ ||Pr)()()()()()( . 
 
Por outro lado, )()( sup xgxg ≥ ou )()( sup.. xgxgsa ≥ a.e. 
 
{ }aXxgxdFxgxdFxg
A XA X
≥=≤ ∫∫ ||Pr).( sup)()(sup)()( (I) 
 
{ } )(||Pr).( )()()()( agaXagxdFagxdFxg
cc A XA X
≤≤=≤ ∫∫ (II) 
 
Somando termo a termo, 
{ } )(||Pr).( sup)()( agaXxgxdFxg X +≥≤∫+∞
∞−
 
E finalmente 
 
{ } { }aXxgagXgE ≥≤− ||Pr).(sup)()(
 Q.E.D. 
 
Corolário. 
Desigualdade Generalizada de Chebyshev. Dado ε>0 arbitrário, tão 
pequeno quanto se queira, g≥0,par não-decrescente em [0,∞). 
 
{ } { })(
)(||Pr
ε
ε
g
XgEX ≤≥
. 
Com g(x)=x2 { } { }2
2
||Pr
ε
ε
XEX ≤≥
.
 
Para X-mx ← X Variável aleatória central 
 
{ } { }2var||Pr εε
X
mX X ≤≥−
 desigualdade de Chebyshev 
 
DESIGUALDADE DE MARKOV 
 
Tomemos g(x)=|x|r 
 
{ } { }
r
rXE
X
ε
ε ≤≥||Pr
. 
Observação. 
 
Convergência em r-ésima média Xn → X se e só se { } .0→− rn XXE 
 
 
XX
ésimar
n
−
→
 ⇔ { } .0→−rn XXE 
 
Exemplo. 
Uma visita à versão fraca da LEI DOS GRANDES NÚMEROS 
Uma sequência infinita de variáveis aleatórias{ }∞=1niY , estatisticamente 
independentes (e possivelmente identicamente distribuidas) 
 
Definamos ( )∑
=
−=
n
i
iin YEY
n
X
1
)(1:
 n=1,2,3,... 
 
Essa nova seqüência de v.a.’s tem 
• E{Xn}=0 
• Var(Xn)= n
iY
n
2
2 σσ =
 
 
Um esboço da versão fraca da Lei dos grandes números: 
{ } { }2var||Pr εε
X
mX X ≤≥−
 
 
{ } 2
2
||Pr
ε
σ
ε
n
X n ≤≥ →0 quando n→∞. 
{ } 0||Pr
0
lim
=≥
→
εnX
n 
 
O estimador de frequência relativa é um estimador consistente (quando ele 
converge em Probabilidade). Os conceitos de convergência de sequências de 
variáveis aleatórias são requeridos. 
 
 
COTA (EXPONENCIAL) DE CHERNOFF 
 
Uma cota “apertada” – (tigth upper bound). 
 
Usando a função característica. ∫
+∞
∞−
= ).(:)( xdFejM XxjX νν
 
Passando ao plano real: 
νjs←
 
 
Seja ∫
+∞
∞−
= )()( xdFesM XsxX , s Real. 
(chamemo-la função geradora de momentos, sentido estrito) 
 
 
{ }sXX eEsM =)( 
 
Seja { }sXX eEsMs ln)(ln:)( ==µ . 
 
∫
+∞
∞−
= )(ln:)( xdFes Xsxµ
 pela desigualdade de Jensen 
 
{ }XEsexdFes xxdFsXsx X .ln)(ln:)( )( =∫≥=
+∞
∞−∫
+∞
∞−
µ
. 
 
 
Dado ε>0, Avaliemos agora { }ε≥XPr : 
 
{ } { }∫ ∫+∞ ∞=∞==≥ ε εεε )(),[),[)(Pr xdFIIExdFX XX 
 
{ } { } { }ε
ε
ε
ε
εεε s
s
s
sX eEe
IeE
e
xdFIX 1),[.1)(),[Pr ≤∞=∞=≥ ∫
 
 
Em termos de µ(s), s≥0 
{ } εµµ
ε
ε sss
s
ee
e
X −=≤≥ )()(1Pr
. 
 
 
Resolvendo agora o problema de programação matemática (minimização) 
 
εµ ss
s
ts
Min −
≥
)(
0
..
 ⇒ [ ] 0)( =−∂
∂
εµ ss
s ou seja, ε
µ
=
∂
∂
s
s)(
 o que é atingido em um 
s=s0 particular. 
 
 
A cota (exponencial) desejada é 
{ } εµε 00 )(Pr sseX −≤≥
 
 
 
 
Vejamos agora um caso de interesse. 
Seja ∑
=
=
N
i
iXX
1
:
, com Xi i.i.d. e avaliemos { }εNX ≥Pr . 
Isto equivale a considerar 




 ≥∑
=
ε
N
i
iXN 1
1Pr
. 
 
Da cota de Chernoff básica, 
εµε 00 )(
1
1Pr Nss
N
i
i
XeX
N
−
=
≤





 ≥∑
. 
Mas { } ( )( ) ( ))(ln)(ln)(lnlnlnln)(
11
1 sMNsMeEeEeEeEs Xi
N
Xi
N
i
sx
N
i
sx
xs
sx
X
ii
N
i
i
==





==







 ∑
== ∏∏
==
=µ
 
 
 
 
A cota de Chernoff no caso de variável soma i.i.d. torna-se: 
( ))()(
1
00001Pr ssNNssN
N
i
i
iXiX eeX
N
µεεµ
ε
−−−
=
=≤





 ≥∑
. 
 
 
A cota (exponencial) de CHERNOFF desejada é 
( )εε ,
1
0
1Pr sNE
N
i
i eXN
−
=
≤





 ≥∑
 
 
Esta cota decresce exponencialmente com N, enquanto que a lei fraca dos 
grandes números (com base na cota de Chebyshev) decresce apenas com 
1/N. 
 
UMA COTA EXPONENCIALMENTE APERTADA! 
 
Pode ser demonstrado que o expoente E(s0,ε) é o maior possível, i.e., inexiste 
uma cota exponencial da forma 
'
1
1Pr NE
N
i
i eXN
−
=
≤





 ≥∑ ε
 
Com E’ independente de N e tal que E’> E(s0,ε). 
 
Por esta razão a cota de Chernoff é dita ser exponencialmente “apertada” 
(tight bound). 
 
 
 
 
APLICAÇÃO 
Cota para uma variável Gaussiana. 
2/2
2
1)( xX exf −=
pi 
 
2/2)( νν −= ejM X . 2/2/)/(
22)( sjsX eesM == − ⇒ 2)(
2s
s =µ
. 
impondo ε
µ
=
∂
∂
s
s)(
, tem-se ε=0s . 
Assim, Pr{X≥ε} pode ser exponencialmente cotada por 
{ } 2/2 22
2
Pr ε
ε
ε
ε −
−
=≤≥ eeX
 
 
 
EXEMPLO DOIS.ZERO. (há carro 2.0!) 
A cota para a variável ∑
=
N
i
iXN 1
1
 com Xi variáveis de Bernoulli. 
p-1 prob. com
p prob. com
0
1



=iX
 
 
)1()( ppesM sX i −+= ⇒ ( ))1(ln)( ppes s −+=µ . 
 
De ε
µ
=
−+
=
∂
∂ s
s
ep
ppes
s
..)1(
1)(
 obtém-se 





−
−
=
p
p
s ).1(
)1.(ln0 ε
ε
 
 
( ) )1ln()1(ln.)1ln()1(ln.)( ..00 εεεεεεµε −−−+−−−=− ppss iX
 
 
Definindo: 
 
)1ln()1(ln:)( ppTp −−−−= ααα e 
)1ln()1(ln:)( ααααα −−−−=H
 
 
Mostra-se que: 
( ))()(
1
1Pr εεε HTN
N
i
i
peX
N
−−
=
≤





 ≥∑
, 1≤< εp . 
Ou 
( ))()(
1
1Pr εεε HTN
N
i
i
peX
N
−−
=
≤





 ≤∑
, p<≤ ε0 . 
Herman Chernoff (EUA, imigrante russo) 
 
CONVERGÊNCIA DE SEQUÊNCIAS DE VARIÁVEIS ALEATÓRIAS 
 
Sequências de números reais: 
{ }∞
=1nnr rn→ r (rn converge para r) 
se e somente se ∀ε>0 ∃ Nε ∋ | rn - r |<ε ∀ n> Nε 
 
 
Variável aleatória X:Ω → Função real de variável real. 
Conjunto de funções de valores reais: 
{ }∞
=1nnf fn→ f (fn converge para f ponto a ponto) 
Se e somente se ∀ε>0 ∃ Nε,x ∋ | fn (x)- f(x) |<ε ∀ n> Nε,x ∀x. 
 
 
{ }nf → f 
)()( xfxfn → ∀x. 
 ⇑ Seq. de números reais. 
 
Convergência uniforme (já estudada em MMAT): 
 
Usar Nε em lugar de Nε,x 
 
 
 
 
Exemplo 1. 
]1,0[∈x
 
nx
n xenxf −= 2:)( claro que 
0)(lim =
∞→
xf
n
n
. 
0=→ ffn . A convergência é uniforme? 
 
Critério. 
 
Fn converge uniformemente ⇔ 
0)()(
]1,0[
suplim =−
∈∞→
xfxf
xn
n
. 
 
 
 
 
Temos: 
nx
n xen
x
xfxf
x
−
∈
=−
∈
2
]1,0[
sup)()(
]1,0[
sup
. 
 
Verificando o máximo: 0
232
=+−= −−− nxnxnx enxenxen
dx
d
 
[1-n.x]=0 i.e., o ponto de máximo ocorre em nx
1
=
. 
e
n
xen
x
nx
=
∈
−2
]1,0[
sup
 
 
+∞=
∈∞→
−nxxen
xn
2
]1,0[
suplim
 e a convergência não é uniforme. 
 
Graficamente: 
 
 
Ver Animação. 
 
Exemplo 2. 
 
Xn(ω)→ X(ω)=0 (mas não uniformemente). 
Dado ω0 ∃ N ∋ n>N ⇒ 2/n< ω0 
 
+∞=
∞→
=
∈∞→
n
n
X
n
n lim|)(|
]1,0[
suplim ω
ω . 
 
Exemplo 3. 
n
n eX
/:)( ωω −=
, com ].1,0[∈ω 
Xn(ω)→ X(ω)=1 (converge uniformemente). 
 
?)()(
]1,0[
suplim =−
∈∞→
ωω
ω
XX
n
n
 
nn ee // 1
]1,0[
sup1
]1,0[
sup ωω
ωω
−−
−
∈
=−
∈ . Mas em ]1,0[∈ω , 1
//1 ≤≤ −− nn ee ω
 e 
portanto, 
0|1|lim)()(
]1,0[
suplim /1 =−
∞→
=−
∈∞→
− n
n e
n
XX
n
ωω
ω . 
 
CONVERGÊNCIA COM PROBABILIDADE 1 
 
Def. { }∞=1nnX diz-se que Xn→ X c.p.1 (p.s. = a.s.) se e só se 
1
)()(lim
Pr =











 =
∞→
∋
ωω XX
n
w
n
. Denota-se também XX
sa
n
..
→
. 
 
Conseqüencia. 0
)()(lim
Pr =











 ≠
∞→
∋
ωω XX
n
w
n
. 
 
São equivalentes as seguintes proposições. 
 
 
 
 
Xn→ X c.p.1 se e só se ∀δ>0, ∀ε>0 ∃Nδ,ε ∋ 
� { } δεωω
εδ
−>








<−∋
>
1|)()(|Pr
,
XXw n
Nn
I
 (conjuntos bons) 
 
� { } δδεωω
εδ
=−−<








≥−∋
>
)1(1|)()(|Pr
,
XXw n
Nn
U
 (conjuntos ruins) 
 
� δ
εωω
εδ
−>












 <−
>
∋ 1
|)()(|sup
Pr
,
XX
Nn
w
n
. 
 
 
 
CONDIÇÕES 
I) Necessária 
 
Pr(Bn)→0 quando n→∞ 
∑
>>
→≤





Nn
n
Nn
n BPBP 0)(U
 
Obs. Suponha que nnBP 2
1)( =
. Pr(Bn)→0 quando n→∞ 
mas 





>
U
Nn
nBP
 pode não ser menor que um δ>0 arbitrário 
Exemplo- bolo à francesa .1=






>
U
δNn
nBPII) Suficiência para convergência cp 1 
δ
δ
<







>
U
Nn
nBP
 Bn = bad sets 
Bn ↓ i.e. { }nB seja sequência monotônica não crescente 
 
 
Neste caso, U
n
Nk
nk BB
δ>
=
 ⇒ 0)( →=






>
n
n
Nk
k BPBP U
δ
. 
 
III) outra condição e suficiência com probabilidade 1 (conv. certa) 
∑≤





 )( nn BPBP U
 e Pr(Bn)→0 quando n→∞. 
Suponha que ∑
∞
=1
)(
n
nBP
 seja convergente (cond.) 
 
Então ∑
>
<⇒>∋∃
δ
δδδ
Nn
nBPNnN )(
 e, portanto, δ
δδ
<≤







∑
>> Nn
n
Nn
k BPBP )(U
. 
 
 
Convergência em média r-ésima 
 
Definição. 
{ } 0lim →−
∞→
r
n XXE
n ∀r>0 . 
O espaço Lr é fechado em relação à convergência em média r-ésima 
Notação para r=2: 
XX
n
mil n =
∞→
...
 
 
Proposição: 
se XX
r
n→ então 
{ } { }rrn XEXE
n
=
∞→
lim
 
 
i) para 0<r≤1, usando a desigualdade-Cr 
{ } { } { } { }rrnrnrn XEXXEXXXEXE +−≤+−= 
 
{ } { } { }r
n
r
n
r XEXXEXE +−≤
 
Denominaremos por 
{ } { } { }rnrrn XXEXEXEz −≤−=: 
{ } { } { }rnrnr XXEXEXEz −≤−=− 
{ } { } { } 0||0 ↓−≤−=≤ rnrrn XXEXEXEz
 pois XX
r
n→ 
 
ii) r>1 Usar a desigualdade de Minkowsky 
 
Convergência em Probabilidade 
 
Definição. Seja { }∞=1nnX uma sequência de variáveis aleatórias. Diz-se que 
Xn converge para X em probabilidade se e só se 
 
{ }( ) 0|)()(|Prlim =≥−∋
∞→
εwXwXw
n
n
 
Notamos por XX
P
n→ i.e., para convergência em probabillidade exigimos 
que 
( ) δ≤nBP para todo n>Nδ,ε. 
 
ou seja, 
( ) 0Prlim =
∞→
nB
n 
 
Bn são “conjuntos ruins”: 
{ }ε≥−∋= |)()(|: wXwXwB nn . 
 
Notação: 
XX
n
p n =
∞→
lim
 
 
 
 
 
 
Proposição. XX
r
n→ ⇒ XX
P
n→ 
Prova. Pela cota de Markov, ( ) { }r
r
n
n
XXE
XX
ε
ε
−
≤≥−≤ Pr0
 
Mas XX
r
n→ ⇔ 
{ } 0lim =−
∞→
r
n XXE
n 
⇒ 
( ) 0Prlim =≥−
∞→
εXX
n
n
 e logo XX
P
n→ . 
 
Claro que a inversa não é verdadeira em geral. Mas, sob certas condições, 
XX
P
n→ ⇒ XX
r
n→ . Vejamos: 
 
Proposição. 
Se 
0
1
lim =








−+
−
∞→
r
n
r
n
XX
XX
E
n (implica 
{ } 0lim →−
∞→
r
n XXE
n ), então 
XX
P
n→ ⇒ XX
r
n→ . 
Prova. 
Seja X uma v.a. arbitrária e g em uma função de Borel não-negativa. Se g 
é par e não-decrescente em [0,∞), vale ∀a>0 
{ } { } { })(
)(||Pr)(..
)()(
ag
XgE
aX
xSupgsa
agXgE
≤≥≤
−
 
Para este caso, tome r
r
X
X
xg ||1
||)(
+
=
. Chega-se a (a.s. sup g(x)=1): 
 
{ }






+
+≤≥≤
+
−






+ r
r
r
r
r
r
r
r
X
XE
a
a
aX
a
a
X
XE ||1
||1||Pr
1||1
||
 
 
Substitua X por Xn-X; a por ε, logo 
{ }






−+
−+≤≥−≤
+
−






−+
−
r
n
r
n
r
r
nr
r
r
n
r
n
XX
XXEXX
XX
XXE ||1
||1||Pr
1||1
||
ε
ε
ε
ε
ε
 
 
0
1
lim =








−+
−
∞→
r
n
r
n
XX
XX
E
n ⇔ bad sets de prob. Nula ou XX
P
n→ . 
 
 
 
DISTÂNCIA entre variáveis aleatórias 
 








−+
−
=
YX
YX
EYXd
1
:),(
 é uma distância, exceto que d(X,Y)=0 ⇒ X=Y p.p. 
Teremos um espaço completo de classes equivalentesde variáveis 
aleatórias. 
 
Proposição: XX
sa
n
..
→
 c.p. 1 ⇒ XX
P
n→ 
 
(convergência forte implica em convergência fraca) 
 
 
Prova. 
Se há c.p.1 então δ
εδ
≤








>
U
,
Nn
kBP
. 
εδ ,Nn >∀ , U
εδ ,Nn
nn BB
>
⊂
 ⇒ 







≤
>
U
εδ ,
)(
Nn
nn BPBP
. 
Conclui-se então que δ≤)( nBP εδ ,Nn >∀ 
o que significa que 
0)Pr(lim =
∞→
nB
n ⇒ XX
P
n→ Q.E.D. 
 
 
 
 
Convergência em Distribuição 
 
Definição. Seja { }∞=1nnX uma sequência de variáveis aleatórias. Diz-se que 
Xn converge para X em distribuição se e só se 
)()(lim xFxF
n
XX n
=
∞→ nos pontos de continuidade de FX. 
 
Notamos isto por XX
d
n→ . 
 
Teorema. XX
P
n→ ⇒ XX
d
n→ . 
 
 
Prova. 
(X<x’)= (Xn<x,X<x’) ∪ ( Xn≥x,X<x’) ⊂ (Xn<x) ∪ ( Xn≥x,X<x’) 
 Disjuntos 
P(X<x’)≤ P(Xn<x) + P( Xn≥x,X<x’). 
 
Consideremos x’<x: 
P( Xn≥x,X<x’) ≤ P(|Xn-X|≥x-x’) →0 qdo n →∞, pois XX
P
n→ . 
 
Assim, 
)'|Pr(|)()'( xxXXxFxF nXX n −≥−+≤ 
 
 
donde 
)(inflim)'( xFxF
nXX
≤
, x’<x. 
 
Similarmente, mostra-se que 
)''()(suplim xFxF XX n ≤ , x’’>x. 
Coletando os resultados, segue-se 
)''()(suplim)(inflim)'( xFxFxFxF XXXX nn ≤≤≤ para x’<x<x’’ 
 
Portanto, se x∈Continua {FX}, então fazendo x’↑x e x’’↓x, tem-se 
)()(lim xFxF
n
XX n
=
∞→ Q.E.D. 
 
 
 
LEIS DOS GRANDES NÚMEROS 
 
Desejamos examinar a convergência de uma soma de variáveis aleatórias 
quando a soma é normalizada subtraindo-se o seu valor esperado e dividindo-
se o resultado pelo número de termos da soma. 
 
Considere a sequência { }∞1iX e defina ∑
=
=
N
i
iN XS
1
:
. Queremos examinar a 
convergência da sequencia de variáveis { }∞• 1NS , aonde 
 
[ ]}{1: NNN SESNS −=
•
. 
Tem-se 
[ ]∑∑∑
===
•
−=





−=
N
i
iii
N
i
N
i
iN XEXN
XEX
N
S
111
}{1}{1:
. 
Em particular, temos interesse nas condições exigidas que asseguram que 
{ }∞• 1NS converge para zero de alguma maneira. 
 
Se a sequência de variáveis aleatórias { }iX , verificando E{Xi}<∞ para cada i, 
é tal que: 
 
a) 0
..sa
NS →
•
 então dizemos que a sequência dos { }iX obedece à Lei 
forte dos grandes números. 
b) 0
P
NS →
•
 então dizemos que a sequência dos { }iX obedece à Lei 
fraca dos grandes números. 
c) 0
r
NS →
•
 então dizemos que a sequência dos { }iX obedece à Lei 
média r-ésima dos grandes números. 
Convergências possíveis para a média amostral. 
 
Efeitos da normalização. 
 
Consider o caso em que os { }iX são v.a.’s i.i.d. com segundos momentos 
finitos. Neste caso, definindo NN SNS
1
:=
 
 
∑
=
==
N
i
iN XEXEN
SE
1
}{}{1}{
 e 0
1 2
1
2
2
2 →== ∑
=
NN
X
N
i
XS iN
σ
σσ
 
 
 
 
VERSÕES FRACAS – Weak law of large numbers 
Teorema. Para que a sequência de variáveis aleatórias { }iX , possivelmente 
dependentes seja tal que 0
P
NS →
•
, é necessário e suficiente que 
0
}]{[
}]{[
lim
1
2
1
=














−+
−
∞→ ∑
∑
=
=
rN
i
ii
rN
i
ii
XEXN
XEX
E
N para algum r>0. 
Prova. 
Sabemos que YY
P
N → se e somente se 01
lim
=







−+
−
∞→
r
n
r
n
YY
YY
E
N . 
 
Então substituindo nN YS ←• e Y←0 , vem 
0
P
NS →
•
 ⇔ 01
lim
=








+∞→
•
•
r
N
r
N
S
S
E
N 
 ⇔ 
( )
( ) 0}{11
}{1
lim
1
1
=














−+
−
∞→ ∑
∑
=
=
rN
i
ii
rN
i
ii
XEX
N
XEX
N
E
N e o resultado segue. 
 
Gostaríamos de condições estipuladas em termos das variáveis Xi. 
 
 
Teorema de Markov (condição de suficiência). 
Se as variáveis aleatórias { }iX são tais que 0var
1lim
1
2 =




