probabilidademomentos (1)

•

UERN

Diego Palmiere

07/10/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 54 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Econometria

6.242 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Curso de Verão PUC-Rio
João Manoel Pinho de Mello
23 de janeiro de 2007
2
Sumário
I Notas de Aula: Estatística 5
1 Teoria da Probabilidade 7
1.1 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Classes e Álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Probabilidade: Axiomas e Modelo Probabilístico . . . . . . . . . . . . . . . . . 12
1.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Independência de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Função Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 20
1.8 Variáveis Aleatórias Discretas e Contínuas . . . . . . . . . . . . . . . . . . . . . 21
1.9 Mudança de Variável: Caso Univariado . . . . . . . . . . . . . . . . . . . . . . 23
1.10 Várias Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11 Independência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . 34
1.12 Mudança de Variável: Caso Multivariado . . . . . . . . . . . . . . . . . . . . . 37
1.13 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.13.1 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.13.2 Outros Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.14 Conceitos de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.15 Melhor Previsor e Melhor Previsor Linear . . . . . . . . . . . . . . . . . . . . . 53
1.16 Amostras Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
1.16.1 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1.17 Estatísticas de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.18 Teoria Assintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1.18.1 Convergência em Quase Certeza . . . . . . . . . . . . . . . . . . . . . . 69
1.18.2 Lei Forte dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . 70
1.18.3 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . 71
3
4 SUMÁRIO
1.18.4 Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
1.19 Princípio da Redução de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
1.20 Estatística Suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
1.21 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.21.1 Julgamento de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 82
1.21.2 Estimador de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 83
1.21.3 Propriedades do Estimador de Máxima Verossimilhança . . . . . . . . . 85
1.21.4 Estimação de um intervalo . . . . . . . . . . . . . . . . . . . . . . . . . 89
1.22 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
1.22.1 Testes de Hipóteses: Simples versus Simples . . . . . . . . . . . . . . . . 93
1.23 Testes de Hipóteses: Simples versus Composto . . . . . . . . . . . . . . . . . . 96
1.24 Testes de Hipóteses: Composto versus Composto . . . . . . . . . . . . . . . . . 98
Parte I
Notas de Aula: Estatística
5
Capítulo 1
Teoria da Probabilidade
1.1 Espaço Amostral e Eventos
Definição 1.1.1 (Espaço Amostral) Um espaço amostral (Ω) é o conjunto de todos os pos-
síveis resultados de um experimento.
Exemplos O experimento lançamento de um dado tem como espaço amostral {1, 2, 3, 4, 5, 6}.
O experimento sortear um habitante da cidade do Rio de Janeiro e medir seu peso em
quilogramas tem como um espaço amostral Ω = R. Contudo, este não é o único espaço amostral
possível para este experimento. É difícil imaginar que algum habitante do Rio de Janeiro (ou
do planeta Terra!) pese −10 quilogramas. Portanto, poderíamos definir o espaço amostral
deste experimento como o conjunto Ω = [0,+∞). Ainda assim, nosso espaço espaço amostral
contém valores que nunca iríamos observar ao realizar o experimento. Outra alternativa seria
definidir Ω = [13 , 10
3]. Já Ω = [0, 20] não é um espaço amostral, pois certamente existem
pessoas que pesam mais que 20 quilos.
O relevante, na definição espaço amostral, é que ele contenha todos os possíveis re-
sultados de um experimento. Para o experimento de lançamento de dados, um possível
espaço amostral é o conjunto {0, 1, 2, 3, 4, 5, 6, 7}. No caso do experimento de medir o peso de
um morador do Rio, seria difícil, senão impossível, chegar a um consenso acerca do valor máx-
imo e mínimo que poderíamos encontrar. Então, por convência, podemos adotar como espaço
amostral um conjunto que certamente contém todos os resultados possíveis do experimento,
como o conjunto dos números reais, mesmo que neste conjunto existam elementos que não são
possíveis.
7
8 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Definição 1.1.2 (Evento) Seja Ω o espaço amostral de um experimento. Todo subconjunto
A ⊆ Ω é chamado de evento. Ω é chamado de evento certo. ∅ é o evento impossível. O evento
ω, onde ω ∈ Ω, é chamado é um evento elementar.
Quando ω ∈ Ω e ω ∈ A ⊂ Ω dizemos que ω é favorável ao evento A.
Exemplos Voltando ao lançamento de um dado, observar um número par é um evento
representado pelo subconjunto A = {2, 4, 6} de Ω. Outro evento seria observar um número
menor que 5, representado pelo subconjunto B = {1, 2, 3, 4}.
No experimento escolher um ponto no círculo unitário, cujo espaço amostral é dado por
Ω = {(x, y) ∈ R2 : x2 + y2 ≤ 1}, tem como eventos:
• Distância entre o ponto escolhido e o ponto (0,0) é menor que 12 , representado por
A =
½
(x, y) ∈ R2 : x2 + y2 ≤ 1
4
¾
⊂ Ω.
• A coordenada x do ponto escolhido é menor que a coordenada y, representado por
B = {(x, y) ∈ Ω : x < y} ⊂ Ω.
Exemplos
Figura 1
1.1. ESPAÇO AMOSTRAL E EVENTOS 9
A teoria da probabilidade tem como objetivo assinalar números aos eventos. Estes números
são chamados de probabilidades. Uma pergunta: a quais eventos (sub-conjuntos do espaço
amostral) vamos atribuir probabilidade? Ora, por que não a todos os possíveis sub-conjuntos
de Ω? Deste modo a teoria seria a mais completa possível. O problema é, pelo incrível
de pareça há alguns sub-conjuntos de alguns Ωs aos quais não se pode assinalar números
de maneira consistente.1 Isto não ocorre quando Ω é finito ou contável, mas ocorre para
sub-conjunto de um tão simples quanto Ω = {x ∈ R : 0 ≤ x ≤ 1}. Por isto temos uma nova
definição:
Definição 1.1.3 (Evento Aleatório) Um evento A ao qual se atribui probabilidade é chamado
de evento aleatório.
Deixemos o pouco da discussão de quais eventos recebem a honra de ter uma probabilidade
assinalada para um pouco depois. Ou seja, já decidimos qual é conjunto de eventos aos quais
é assinalada probabilidade. Como é atrbuída esta probabilidade?
Para o caso em que Ω é um conjunto finito de elementos, uma maneira de atribuir proba-
bilidades a um evento A é por meio da definição clássica, ou frequentista, de probabilidade:
P (A) =
números de elementos de A
número de elementos de Ω
.
Mas este método não funciona quando Ω = {x ∈ R : 0 ≤ x ≤ 1} e A = {w ∈ Ω : 0 ≤ w ≤
1
3}. Neste caso, recorremos a definição geométrica:
P (A) =
comprimento de A
comprimento de Ω
.
Perceba que não importa a unidade de medida do comprimento de Ω, desde que utilizemos
a mesma unidade para auferir o comprimento de A.
No caso em que Ω não é subconjunto de R, mas sim de R2, a definição geométrica de
probabilidade nos é dada por:
P (A) =
área de A
área de Ω
.
Agora vamos discutir (um pouco) como são construídos os conjuntos de eventos de Ω aos
quais é assinalada probabilidade.
1Esses sub-conjuntos são chamados de não-mensuráveis. A compreensão da não-mensurabilidade depende
do Axioma daEscolha, e é tema de Teoria da Medida. No nosso curso não veremos nenhum deles e, para todos
os efeitos práticos, não importa muito que haja eventos que não podem ser medidos.
10 CAPÍTULO 1. TEORIA DA PROBABILIDADE
1.2 Classes e Álgebras
Definição 1.2.1 (Classe) Uma classe A de Ω é um conjunto de sub-conjuntos de Ω.
Uma classe é como um clube. Para pertencer a ela há que obedecer certas regras. Considere
novamente o exemplo do lançamento do dado. Defina Acomo o clube mais inclusivo possível:
a classe de Ω que contém todos subconjuntos possíveis do espaço amostral,
A = {∅,Ω, {1}, {2}, . . . , {1, 2}, . . . , {1, 2, 3}, . . . , {2, 3, 4, 5, 6}}.
Sendo o espaço amostral finito, a construção do conjunto que contém todos os subconjuntos
de Ω é fácil: simplesmente elencamos todos os possiveis sub-conjuntos de Ω (são 2k, sendo k
o número de elementos de Ω). Quando Ω é infinito porém enumerável ainda podemos (quase
por definição) “contar” todos os elementos. Não podemos escrever numa folha de papel os
conjuntos todos mas podemos visualizá-los de uma certa forma.
Quando o espaço amostral não é enumerável (e.g., Ω = {x ∈ R : 0 ≤ x ≤ 1}), a definição
de A não é imediata porque não se pode simplesmente elencar todos os possíveis sub-conjuntos
de Ω. Uma tentativa poderia ser
A = {todos os subconjuntos de Ω que são a união finita de subintervalos Ω}.
Note que o conjunto
C =
[
n∈ N
µ
1− 1
2n
, 1− 1
2n+1
¶
não pertence à A, mas C ⊂ Ω.
Nossa teoria de atribuição de probabilidade começa impondo algumas regras a respeito do
conjunto de sub-conjuntos do espaço amostral (classe A) ao qual vamos atriuir probabilidade.
Em particular vamos impor que A satisfaça:
A1. Ω ∈ A.
A2. A ∈ A⇒ Ac ∈ A.
A3. A ∈ A, B ∈ A⇒ A ∪B ∈ A.
Definição 1.2.2 (Álgebra) Seja Ω um conjunto não vazio. Uma classe A de subconjuntos
de Ω que satisfaça A1, A2 e A3 é chamada de Álgebra.
1.2. CLASSES E ÁLGEBRAS 11
Parece razoável, não? Começamos impondo que vamos atribuir um número ao conjunto
espaço amostral Ω, o que no fundo é uma normalização. Depois, impomos que, se podemos
atribuir probabilidade a um evento A, temos que conseguir a atribuir probabilidade ao evento
não A. Finalmente, impomos que, se somo capazes de assinalar probabilidade a dois eventos
A e B, podemos também dizer algo a respeito de A ou B.Como se decide o que é imposto
a priori? Do ponto de vista epistemológico2, queremos impor o menos possível de forma
arbitrária, e produzir o máximo de coisas de parecem razoáveis. Vocês podem perguntar:
não seria trazoável impor que se podemos assinalar probabilidade ao evento A e ao evento B,
também somos capazes de atribuir probabilidade ao evento A e B? Claro que sim!!
Proposição Se A é uma Álgebra de subconjuntos de Ω, então:
A4. ∅ ∈ A
A5. A1, . . . , An ∈ A⇒ ∩ni=1Ai ∈ A.
Prova Por A1, Ω ∈ A. Assim, por A2,
Ωc ∈ A⇒ ∅ ∈ A.
ProvaremosA5 por indução. ConsidereA1, . . . , An ∈ A. PorA2, temos queAc1, . . . , Acn ∈ A.
Pela propriedade A3,
Ac1 ∪Ac2 ∈ A.
Tomando como hipótese de indução que, para k < n, ∪ki=1Aci ∈ A, mostraremos que
∪k+1i=1Aci ∈ A. Por A3,
(∪ki=1Aci ∈ A) ∪Ack+1 ∈ A⇒ ∪k+1i=1Aci ∈ A ∀k ∈ {1, 2, . . . , n− 1}.
Portanto, ∪ni=1Aci ∈ A. Isto implica que (∪ni=1Aci)
c ∈ A. Finalmente, utilizando a regra de
De Morgan,
(∪ni=1Aci )c = ∩ni=1Ai ∈ A
2Palavrão, significa mais ou menos Teoria do Conhecimento ou Teoria da Produção de Conhecimento.
12 CAPÍTULO 1. TEORIA DA PROBABILIDADE
¤
Exemplo Para Ω = [0, 1], A = {toda união finita de subintervalos de [0, 1]} é uma Álgebra.
Considere agora a seguinte propriedade
A30. A1, A1, . . . , An, . . . ∈ A⇒
+∞[
i=1
An ∈ A.
Se uma Álgebra A atende A1, A2 e A03 diz-se que A é uma σ−Álgebra. Como qualquer
união finita de conjuntos pode ser escrita como uma união infinita, isto é,
∞[
i=1
An = A1 ∪A2 . . . ∪An ∪∅ . . . ∪∅ . . . ,
então toda σ−Álgebra é uma Álgebra. O contrário não é necessáriamente verdade. Tome
como exemplo Ω = [0, 1] e
A = {conjuntos finitos e cofinitos pertencetes a Ω}.
Observação Um conjunto cofinito tem como complemento um conjunto finito.
A atende as propriedades A1 e A2, mas não atende A30. Considere o conjunto dos racionais
rn em [0, 1]. rn ∈ A pois rn é finito. Todavia, ∪+∞i=1 rn não pertence à A pois o conjunto dos
racionais em [0, 1] não é finito nem cofinito.
Neste livro, trabalharemos, sem perda de generalidade, somente com σ−Álgebras. A dis-
tinção entre Álgebra e σ−Álgebra não faz diferença quando Ω é finito ou enumerável.
Voltando à situação onde Ω = [0, 1] uma σ−Álgebra deste espaço amostral é
A = [todos os subconjuntos de [0, 1] que tem comprimento definido]
Dado um espaço amostral, seja B a menor σ−Álgebra possível. Chamamos B de σ−Álgebra
de Borel.
1.3 Probabilidade: Axiomas e Modelo Probabilístico
Para todo elemento A ∈ A vamos assinalar um único número real, P (A). Considere as
seguintes restrições sobre P (A).
1.3. PROBABILIDADE: AXIOMAS E MODELO PROBABILÍSTICO 13
AP1. P (A) ≥ 0
AP2. P (Ω) = 1
AP3. Se A1, . . . , An ∈ A tais que Ai ∩Aj = ∅, ∀ i, j ≤ n, i 6= j
então P (
[
n
i=1Ai) =
nX
i=1
P (Ai) [Aditivdade Finita]
AP30 Se A1, . . . , An, . . . ∈ A tais que Ai ∩Aj = ∅, ∀ i, j ≤ n, i 6= j
então P (
[
+∞
i=1Ai) =
+∞X
i=1
P (Ai) [σ−Aditivdade]
Definição 1.3.1 (Medida da Probabilidade) Uma função P : A → [0, 1] que satisfaz
AP1, AP2 e AP30 é chamada de medida de probabilidade (ou simplesmente probabilidade).
Agora considere mais uma característica da medida de probabilidade.
AP4. Se a sequência {An}n≥1, An ∈ A decrescer para o vazio, então P (An)→ 0.
Observação Uma sequência de conjuntos tal An+1 ⊂ An para todo n ∈ A decresce para o
vazio se
T+∞
i=1 An = ∅.
Figura 2
14 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Definição 1.3.2 Dados AP1, AP2, AP3 temos que AP30 ⇔ AP4
Prova (⇒) Suponha que AP30 seja verdade. Seja {An}n≥1 ∈ A uma sequência de conjuntos
que decresce para o vazio. Note que
A1 = (A1 −A2)
[
(A2 −A3)
[
. . . =
+∞[
k=1
(Ak −Ak+1).
Para todo o k ∈ N o conjunto (Ak −Ak+1) ∈ A é disjunto de (Ak+1 −Ak+2). Logo, por
AP30,
P (A1) =
+∞X
k=1
P (Ak −Ak+1)
= lim
n→+∞
nX
k=1
P (Ak −Ak+1) (1.1)
Por AP3 e pela regra de DeMorgan temos que
P (Ak −Ak+1) = P (Ak
\
Ack+1)
= 1− P (Ack
[
Ak+1)
= 1− [1− P (Ak) + P (Ak+1)]
= P (Ak)− P (Ak+1) (1.2)
Portanto, usando (2), podemos reescrever (1) como
P (A1) = lim
n→+∞
nX
k=1
[P (Ak)− P (Ak+1)]
= lim
n→+∞
[P (A1)− P (An+1)]
= P (A1) + lim
n→+∞
P (An+1)⇒
lim
n→+∞
P (An+1) = 0
Deixamos a prova de suficiência como exercício para o leitor. ¤
Definição 1.3.3 (Modelo Probabilístico) Um modelo probabilístico é formado por
1. Um conjunto Ω não vazio (espaço amostral).
1.4. PROBABILIDADE CONDICIONAL 15
2. Uma σ−Álgebra A de eventos aleatórios.
3. Uma medida da probabilidade P : A→ R.
A terna (Ω,A, P (.)) é conhecido como espaço de proababilidades.
1.4 Probabilidade Condicional
Definição 1.4.1 Seja (Ω,A, P (.)) um espaço de probabilidade. Se B ∈ A e P (B) > 0, a
probabilidade condicional de A ∈ A dado B é definida como
P (A|B) = P (A ∩B)
P (B)
, ∀ A ∈ A.
Figura 3
Definição 1.4.2 Deixamos para o leitor demonstrar que, dado que P é uma medida de prob-
abilidade, P (A|B) atende aos Axiomas de Kolmogorov (AP1, AP2, AP30).
Teorema 1.4.1 (da Multiplicação) Sejam A1, . . . , An cojuntos pertences a A. Então
P (A1 ∩ . . . ∩An) = P (A1)P (A2|A1)P (A3|A1 ∩A2) . . . P (An|A1 ∩ . . . ∩An−1).
16 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Prova Prova por indução. Como primeiro passo, demonstraremos o teorema para n = 3.
Sejam A1, A2 e A3 ∈ A. Defina B = A1 ∩A2. Pela definição de probabilidade condicional,
P (A1 ∩A2 ∩A3) = P (A3|B)P (B)
= P (A3|A1 ∩A2)P (A1 ∩A2).
Novamente pela fórmula da probabilidade condicional, P (A1 ∩ A2) = P (A2|A1)P (A1).
Logo,
P (A1 ∩A2 ∩A3) = P (A3|A1 ∩A2)P (A2|A1)P (A1).
Nossa hipótese de indução é que a propriedade vale para os elementos A1, . . . , Ak de A, ou
seja,
P (A1 ∩ . . . ∩Ak) = P (A1)P (A2|A1)P (A3|A1 ∩A2) . . . P (Ak|A1 ∩ . . . ∩Ak−1). (1.3)
O teste de indução consisteem demonstrar que o teorema da multiplicação se aplica para
os conjuntos A1, . . . , Ak, Ak+1 de A.
Defina B = A1 ∩ . . . ∩Ak. Pela fórmula da probabilidade condicional,
P (A1 ∩ . . . ∩Ak+1) = P (Ak+1|B)P (B) (1.4)
Finalmente, substitutindo (1.3).em (1.4), temos:
P (A1 ∩ . . . ∩Ak+1) = P (Ak+1|B)P (B)
= P (Ak+1|A1 ∩ . . . ∩Ak)P (Ak|A1 ∩ . . . ∩Ak−1)...P (A3|A1 ∩A2)P (A2|A1)P (A1)
¤
Exemplo Qual a probabilidade de retirar, sem reposição, 3 reis de um baralho comum de
52 cartas? Defina Ai como o evento pegar um rei na i-ésima retirada. Queremos achar a
probabilidade de A = A1 ∩A2 ∩A3. Pelo teorema da multiplicação, temos
P (A1 ∩A2 ∩A3) = P (A3|A1 ∩A2)P (A2|A1)P (A1)
=
2
50
× 3
51
× 4
52
∼= 0, 0000905
1.4. PROBABILIDADE CONDICIONAL 17
Outra forma de obter este resultado é perceber que
⎛⎝ 52
3
⎞⎠ equivale ao número de possíveis
conjuntos de três cartas no baralho e
⎛⎝ 4
3
⎞⎠ é o número de conjunto de 3 reis. Portanto,
P (A)=
⎛⎝ 4
3
⎞⎠
⎛⎝ 52
3
⎞⎠ =
4!
3!1!
52!
3!49!
∼= 0, 0000905.
Definição 1.4.3 (Partição) Suponha que A1, A2, . . . , An . . . são subconjuntos mutuamente
excludentes de A e que
S+∞
i=1 Ai = Ω. Dizemos então que {Ai}n≥1 é uma partição de Ω.
Teorema 1.4.2 (Bayes) Seja {Ai}i≥1 uma partição de Ω e considere B ∈ A, com P (B) > 0.
Então,
P (Ai|B) =
P (Ai ∩B)
P (B)
=
P (B|Ai)P (Ai)Pn
j=1 P (B|Aj)P (Aj)
.
Exemplo Tome 3 moedas, duas honestas e uma com duas caras. Qual a probabilidade da
moeda ser de duas caras dado que observamos cara quando escolhemos, ao acaso, uma das
moedas?
Defina A1 como o evento a moeda é honesta, A2 a moeda é desonesta, C1 o evento observa-se
cara e C2 observa-se coroa. Pela regra de Bayes,
P (A2|C1) =
P (A2 ∩ C1)
P (C1)
=
P (C1|A2)P (A2)
P (C1|A2)P (A2) + P (C1|A1)P (A1)
=
1× 13
1× 13 +
1
2 ×
2
3
=
1
2
18 CAPÍTULO 1. TEORIA DA PROBABILIDADE
1.5 Independência de Eventos
Definição 1.5.1 (Independência) Dois eventos A e B são independentes (denota-se A ⊥
B) se P (A ∩B) = P (A)P (B).
Teorema 1.5.1 Se A ⊥ B então as seguintes afirmações são válidas:
1. A ⊥ Bc.
2. Ac ⊥ B.
3. Ac ⊥ Bc.
Prova Provaremos somente 1, deixando como exercício para o leitor a demonstração das
outras afirmações.
Para qualquer evento A podemos escrever
P (A) = P (A ∩B) + P (A ∩Bc)⇒
P (A ∩Bc) = P (A)− P (A ∩B)
Como A ⊥ B, P (A ∩B) = P (A)P (B). Assim,
P (A ∩Bc) = P (A)− P (A)P (B)
= P (A) (1− P (B))
= P (A)P (Bc)⇒
A ⊥ Bc
¤
Definição 1.5.2 (Independência dois a dois) Os eventos A1, . . . , An são ditos indepen-
dentes dois a dois se
P (Ai ∩Aj) = P (Ai)P (Aj) ∀i 6= j, i, j ∈ {1, . . . , n}.
1.6. VARIÁVEL ALEATÓRIA 19
Exemplo Considere dois lançamento de uma moeda com lados 1 e 2. Sejam A o evento
ímpar no primeiro lançamento, B o evento ímpar no segundo lançamento e C o evento soma
dos resultados dos lançamentos é impar. Note que A ⊥ B e que
P (A ∩ C) = P (A ∩Bc) = P (A)P (Bc) = P (A)P (C)
P (B ∩ C) = P (B)P (C)
Logo, A, B e C são independentes dois a dois.
Definição 1.5.3 (Independência Coletiva) Os eventos A1, . . . , An são ditos coletivamente
(mutuamente) independentes se
P (Ai1 ∩Ai2 ∩ . . . ∩Aim) = P (Ai1)P (Ai2) . . . P (Aim)
∀ 1 ≤ ii ≤ i2 ≤ . . . ≤ im ≤ n e ∀ m ∈ {2, 3, . . . , n}.
Observação Note que, por definição, independência coletiva implica independência dois a
dois (se você não está convencido leia novamente as duas definições). Por outro lado,o último
exemplo mostra claramente que independência dois a dois não implica independência coletiva
1.6 Variável Aleatória
Definição 1.6.1 (Variável Aleatória I) Uma variável aleatória X é uma função do espaço
amostral na reta real, isto é, X : Ω→ R.
Exemplos Considere o seguinte experimento: lançar um dado duas vezes e observar a se-
quência de números. Seja ω um elemento de
Ω = {(1, 1); (1, 2), . . . , (1, 6), . . . , (6, 1), . . . , (6, 6)}.
Uma variável aleatória criada a partir de Ω é a soma dos resultados dos lançamentos. Desta
forma,
X(ω) = {2, 3, 4, . . . , 12}.
20 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Já para o experimento selecionar um ponto no intervalo [0, 1], que tem como espaço
amostral Ω = [0, 1], uma variável aleatória é o quadrado do número sorteado. Neste caso,
X(ω) = ω2.
Definição 1.6.2 (Variável Aleatória II) Uma variável aleatória X num espaço de proba-
bilidade (Ω,A, P ) é uma função real definida em Ω tal que, dado x ∈ R, X ≤ x é um evento
aleatório. Isto é,
A ≡ [ω ∈ Ω : X(ω) ≤ x]⇒ A ∈ A.
As definições I e II são equivalentes. A definição I diz que ama variável aleatória é uma
transformação do espaço amostral da reta, ou seja uma função. Para tanto, esta função tem
que ser bem definida sob um certo critério. Este critério é o da definição II. Vamos à imagem
(o conjunto dos números reais) e escolhemos um conjunto bem definido, neste caso X ≤ x .
Agora nos perguntamos: quais os ω ∈ Ω que fazem com que X(ω) ≤ x seja verdade. Estes
elementos ω ∈ Ω formam um subconjunto de Ω. Aí nos perguntamos, este subconjunto faz
parte da álgebra de sub-conjuntos aos quais atribuímos probabilidade? Se a reposta for sim,
então a função é bem definida.3
1.7 Função Distribuição de Probabilidade
Para cada variável aleatória, associa-se uma função distribuição cumulativa (fdc).
Definição 1.7.1 (Função Distribuição Cumulativa) Uma função distribuição cumulativa
(fdc), FX : R→ [0, 1] associada a variável aleatória X, é definida por:
FX(x) = P [X ≤ x] ∀ x ∈ R.
Uma fdc possui as seguintes propriedades:
P1. Se x ≤ y então FX(x) ≤ FX(y).
P2. Se a sequência {xn}n∈ N ↓ y, então FX(xn) ↓ FX(y).
P3. Se a sequência {xn}n∈ N ↓ −∞, então FX(xn) ↓ 0.
P4. Se {xn}n∈ N ↑ +∞, então FX(xn) ↑ 1
Atente para o fato de que P1 implica que FX(x) é não decrescente.
3Outra maneira de dizer, mais chique, é que o conjuntos {ω ∈ Ω : X (ω) ≤ x} é mensurável.
1.8. VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS 21
1.8 Variáveis Aleatórias Discretas e Contínuas
Definição 1.8.1 (Variável Aleatória Discreta) Uma variável aleatória é discreta se toma
um número finito ou enumerável de valores, isto é, se existe um subconjunto finito ou enu-
merável {x1, x2, . . .} ∈ R tal que x(ω) ∈ {x1, x2, . . .} para qualquer ω ∈ Ω.
Definição 1.8.2 (Variável Aleatória Absolutamente Contínua) Uma variável aleatória
é absolutamente contínua se existe uma função f : R→ R, f(x) ≥ 0, tal que
Prob[X ≤ x] ≡ FX(x) =
Z x
−∞
f(t)dx ∀x ∈ R.
Exemplos Considere a seguinte fdc
FX(x) =
⎧⎪⎪⎪⎨⎪⎪⎪⎩
0, se x < 0;
x, se x ∈ [0, 1];
1, se x > 1.
A função
f(x) =
⎧⎨⎩ 1, se x ∈ [0, 1];0, se x > 1 ou x < 0.
é tal que FX(x) =
R x
−∞ f(t)dt para todo x ∈ R. Portanto, X é uma variável aleatória
absolutamente contínua.
22 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Figura 4
Agora considere Y = min
©
X, 12
ª
, X ∼ U [0, 1]. Verifique que esta variável tem a seguinte
fdc:
FY (y) =
⎧⎪⎪⎪⎨⎪⎪⎪⎩
0, se y < 0;
y, se y ∈
£
0, 12
¢
;
1, se y ≥ 12 .
Perceba que FY não é contínua. Uma variável aleatória X só é (absolutamente) contínua
se FX(x) for (absolutamente) contínua.
1.9. MUDANÇA DE VARIÁVEL: CASO UNIVARIADO 23
Figura 5
1.9 Mudança de Variável: Caso Univariado
Seja X uma variável aletatória contínua, FX(x) a sua fdc e Y = Φ(X), Φ : R→ R. Suponha
Φ continuamente diferenciável. Queremos encontrar, a partir da fdp de X (f(x)), a fdp de Y
(g(y)).
Teorema 1.9.1 (Método Jacobiano) Se Φ é estritamente monótona, então
g(y) = f(Φ−1(y))
¯̄̄̄
dΦ−1
dy
¯̄̄̄
,
onde
¯̄̄
dΦ−1
dy
¯̄̄
é o jacobiano da transformação.
Prova Suponha que Φ é estritamente crescente. Pela definição de fdc:
24 CAPÍTULO 1. TEORIA DA PROBABILIDADE
FY (y) = Prob[Y ≥ y]
= Prob[Φ(x) ≥ y]
= Prob[X ≥ Φ−1(y)]
= FX(Φ
−1(y)).
Para achar a fdp basta derivar a função cumulativa em relação a y,
g(y) =
dFY (y)
dy
=
dFX(Φ
−1(y))
dy
= f(Φ−1(y))
dΦ−1
dy
.
Suponha agora que Φ é decrescente. Novamente, pela definição da fdc de X:
FY (y) = Prob[Y ≤ y]
= Prob[Φ(X) ≤ y]
= Prob[X ≥ Φ−1(y)]
= 1− Prob[X ≤ Φ−1(y)]
= 1− FX(Φ−1(y)).
Assim,
g(y) =
dFY (y)
dy
= −dFX(Φ
−1(y))
dy
= f(Φ−1(y))
µ
−dΦ
−1
dy
¶
.
¤
ColorárioSeja X uma variável contínua que possui densidade de probabilidade f(x). Con-
sidere a variável aleatória Y = a + bX, b > 0. Então Y possui uma densidade (i.e, Y é
contínua) e g(y) = 1bf
¡y−a
b
¢
.
1.9. MUDANÇA DE VARIÁVEL: CASO UNIVARIADO 25
Prova A forma funcional de g(y) é aplicação direta do teorema anterior. Vamos provar que
Y possui densidade. Suponha que Φ é estritamente crescente. Então:
FY (y) = Prob[Y ≤ y]
= Prob[Φ(x) ≤ y]
= Prob[X ≤ Φ−1(y)]
= FX(Φ
−1(y))
=
Z Φ−1(y)
−∞
f(x)dx
=
Z y
−∞
f(Φ−1(t))Φ−1
0
(t)dt.
Portanto, Y possui densidade. A prova para o caso em que Φ é decrescente é análoga.4 ¤
Exemplos Considere a variável aleatória X ∼ exp(λ = 1). X tem fdp dada por:
f(x) =
⎧⎨⎩ e−x, se x > 0;0, caso contrário. .
Outro exemplo: seja Y = X2. Qual é a fdp de Y? Aplicando o método jacobiano:
g(y) =
⎧⎨⎩ 12√y exp(−
√
y), se y > 0;
0, caso contrário.
Para calcular a fdc de Y proceda da sequinte forma:
4Lembre-se da fórmula de mudança de variável. Seja g (·) uma função diferenciável com derivada não nula
no intervalo [t1, t2]. Seja f (·) uma função e F (·) sua primitiva. Então:
Z g(t2)
g(t1)
f (x) dx =
F (g (t2))− F (g (t1)) =
Z t2
t1
h (y) dy
onde h (·) = F (g (·)) g0 (·). Usa-se o Teorema Fundamental do Cálculo duas vezes.
26 CAPÍTULO 1. TEORIA DA PROBABILIDADE
FY (y) = Prob[Y ≤ y]
= Prob[X2 ≤ y]
= Prob[X ≤ √y]
=
Z √y
0
exp(−x)dx
= − exp(−x)|
√
y
0
= − exp(−√y) + 1.
Seja X ∼ U [−1, 1]. A fdp de X é dada por
f(x) =
⎧⎨⎩ 12 , se −1 < x < 1;0, caso contrário.
e defina Y como
Y =
⎧⎨⎩ X, se X ≤ 0.X2, se X > 0.
Perceba que neste caso a função que define Y não é monótona. Logo, não podemos aplicar
o teorema 2.1.
Para calcular FY (y) faça,
FY (y) = Prob[Y ≤ y]
= Prob[−√y ≤ X ≤ y]
=
Z y
−√y
1
2
dx
=
y +
√
y
2
.
Portanto,
FY (y) =
⎧⎪⎪⎪⎨⎪⎪⎪⎩
0, se y ≤ 0;
y+
√
y
2 , se y ∈ (0, 1);
1, se y > 1.
Derivando a função acima em relação a y obtemos a fdp:
g(y) =
⎧⎨⎩ 12 + 14√y , se 0 ≤ y ≤ 1;0, caso contrário.
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 27
O procedimento utilizado acima para encontrar a densidade da variável aleatória é con-
hecido como método direto.
1.10 Várias Variáveis Aleatórias
Suponha que observamos várias características (cada uma delas uma variável aleatória) das
pessoas. Entre elas: salário, raça, idade, número de anos de escolaridade,etc. Nesta seção,
buscaremos respostas para os seguintes tipos de pergunta:
• (Distribuição Conjunta) Qual é a probabilidade de alguém ter entre 40 e 50 anos, ser
branco e ganhar menos de 500 reais?
• (Distribuição Condicional) Dado que uma pessoa é branca e tem entre 40 e 50 anos, qual
é a probabilidade de ganhar menos de 500?
Definição 1.10.1 (Vetor Aleatório) Um vetor aleatório é uma função que leva de uma
σ−Álgebra A para um vetor do Rn.
Exemplo Leve em conta o seguinte experimento: jogar dois dados aleatoriamente e observar
a soma dos resultados e o valor absoluto da diferença. O espaço de probabilidades (Ω,A, P ) é
dado por:
• Ω = {(w1, w2) ∈ R2 : wi ∈ {1, 2, . . . , 6}, i = 1, 2};
• A = Classe de todos os subconjuntos de Ω;
• P : A→ [0, 1], definida por
⎛⎝ X1(w1, w2)
X2(w1, w2)
⎞⎠ =
⎛⎝ w1 + w2
|w1 − w2|
⎞⎠ .
A partir dessas definições, podemos calcular
Prob[X1 = 5, X2 = 3] = Prob[(4, 1), (1, 4)] =
1
18
e
28 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Prob[X1 = 5] = Prob[(4, 1), (1, 4), (2, 3), (3, 2)] =
1
9
.
Definição 1.10.2 (Função de Probabilidade) Seja (X1, . . . ,Xn) um vetor aleatório n−dimensional.
A função probabilidade (frequência) definida do Rn em [0, 1] é definida por:
PX1,...,Xn(x1, . . . , xn) = Prob[X1 = x1, . . . ,Xn = xn].
Exemplo Voltando ao experimento do exemplo anterior, a função probabilidade pode ser
descrita da seguinte forma:
X2
0 1 2 3 4 5 P (X2)
2 136
1
36
3 118
1
18
4 136
1
18
3
36
5 118
1
18
2
18
6 136
1
18
1
18
5
36
X1 7 118
1
18
1
18
3
18
8 136
1
18
1
18
5
36
9 118
1
18
2
18
10 136
1
18
3
36
11 118
1
18
12 136
1
36
P (X2)
1
6
5
18
4
18
3
18
2
18
1
18 1
Definição 1.10.3 (Função de Probabilidade Marginal) Seja (X1, . . . ,Xn) um vetor aleatória
discreto. A função probabilidade marginal de Xi é
PXi(xi) =
X
x1∈ R
X
x2∈ R
. . .
X
xi−1∈ R
X
xi+1∈ R
. . .
X
xn∈ R
PX1,...,Xn(X1 = x1, . . . ,Xn = xn).
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 29
Exemplo Retornando ao exemplo anterior do laçamento de dois dados,
Prob[X1 = 7] = Prob[X1 = 7,X2 = 1] + Prob[X1 = 7,X2 = 3] + Prob[X1 = 7,X2 = 5].
Definição 1.10.4 (Vetor Aleatório Contínuo) Um vetor aleatório (X1, . . . ,Xn) é dito (ab-
solutamente) contínuo se existe uma função f : Rn → R+ tal que para qualquer subconjunto5
A ∈ Rn
Prob[A] =
Z Z
A
. . .
Z
| {z }
n vezes
f(x1, . . . , xn)dx1 . . . dxn.
Exemplo No caso bivariado,
Prob(X1 ≤ x1,X2 ≤ x2) =
Z x1
−∞
Z x2
−∞
f(x1, x2)dx2dx1 =
Z
A
Z
f(x1, x2)dx1dx2,
em que A = {(x1, x2) ∈ R2 : X1 ≤ x1,X2 ≤ x2}.
Definição 1.10.5 (Função densidade marginal) A função densidade marginal de Xi é
definida por
fXi(xi) =
Z +∞
−∞
. . .
Z +∞
−∞| {z }
n−1 vezes
fX1,...,Xn(x1, . . . , xn)dx1 . . . dxi−1dxi+1 . . . dxn.
Definição 1.10.6 (Função distribuição cumulativa) Define-se a função distribuição cu-
mulativa do vetor aleatório (X1, . . . ,Xn) como:
FX1,...,Xn(x1, . . . , xn) =
Z xn
−∞
. . .
Z x1
−∞
fX1...Xn(x1, . . . , xn)dx1 . . . dxn.
Exemplo Seja (X,Y ) um vetor aleatório com densidade dada por:
f(x, y) =
⎧⎨⎩ 6xy2, se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1;0, caso contrário.
Graficamente,
5Na verdade é qualquer sub-conjunto mensurável mas não quero entrar nesta discussão...
30 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Figura 6
Note que o ponto B tem probabilidade maior que A, pois a função densidade é crescente.
A probabilidade, neste caso, não é dada somente pela área, mas também pelo volume.
A fdp marginal de X é:
f(x) =
Z 1
0
6xy2dy
= 2x, ∀ 0 ≤ x ≤ 1.
Além disso, podemos estar interessados em:
Prob[Y > X] =
Z 1
p
Z 1
x
6xy2dydx.
Prob[X + Y < 1] =
Z 1
0
Z 1−x
0
6xy2dydx.
Defina agora a Z = X + Y. A distribuição de Z é dada por:
GZ(z) = Prob[Z < z]
= Prob[X + Y < z].
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 31
Para z < 1 temos
GZ(z) =
Z z
0
Z z−x
0
6xy2dydx.
Para z > 1,
GZ(z) =
Z z−1
0
Z 1
0
6xy2dydx+
Z 1
z−1
Z z−x
0
6xy2dydx.
Definição 1.10.7 (Distribuição condicional: caso discreto) Seja PX,Y (x, y) a função fre-
quência. Para cada x tal que PX(x) > 0, a função frequência de Y dado x é dada por:
PY (y|x) =
PX,Y (x, y)
PX(x)
.
Definição 1.10.8 (Distribuição condicional: caso contínuo) Suponha que (X,Y ) tenha
uma densidade conjunta f(x, y). Seja S um evento aleatório tal que P (S) > 0. Então, a
densidade condicional conjunta de (X,Y ) dado que (X,Y ) ∈ S é
f(x, y|S) =
⎧⎨⎩
f(x,y)
P (S) , se (x, y) ∈ S;
0, caso contrário.
Exemplo Seja f(x, y) uma função densidade de probabilidade e S um subconjunto do plano
tal que, para qualquer x no suporte de X, h(x) < y < g(x).
32 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Figura 7
Suponha também que P ((X,Y ) ∈ S) > 0. A densidade condicional deX dado S, denotada
f(x|S), é definida por:
f(x|S) =
R g(x)
h(x) f(x, y)dy
P ((X,Y ) ∈ S) .
Caso h(x) = y1 e g(x) = y2, sendo y2 > y1 temos,
P (S) =
Z +∞
−∞
Z y2
y1
f(x, y)dydx
f(x|y1 ≤ Y ≤ y2) =
R y2
y1
f(x, y)dyR +∞
−∞
R y2
y1
f(x, y)dydx
Prob[x1 < X < x2|y1 < Y < y2] =
R x2
x1
hR y2
y1
f(x, y)dy
i
dxR +∞
−∞
R y2
y1
f(x, y)dydx
.
O numerador e o denominador da expressão acima correspondem a, respectivamente,
Prob[x1 < X < x2 ∩ y1 < Y < y2] e Prob[y1 < Y < y2].
Definição 1.10.9 (Probabilidade Condicional) A probabilidade condicional de X ∈ [x1, x2]
dado Y = a+ bX é definida como:
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 33
lim
∆a→0
Prob[x1 < X < x2|a+ bX < Y < a+∆a+ bX].
Definição 1.10.10 (Densidade Condicional) A densidade condicional de X dado que Y =
a+ bX, se existe, é definida como uma função f ≥ 0 que satisfaz:
Prob[x1 < X < x2|Y = a+ bX] =
Z x2
x1
f(x|Y = a+ bX)dx.
Teorema 1.10.1 (Densidade Condicional) A densidade f(x|Y = a + bx), se existe, é
dada por:
f(x|Y = a+ bX) =f(x, a+ bx)R +∞
−∞ f(x, a+ bx)dx
.
Prova
Prob[x1 < X < x2|Y = a+ bX] = lim
∆a→0
Prob[x1 < X < x2|a+ bX < Y < a+∆a+ bX]
= lim
∆a→0
R x2
x1
R a+∆a+bx
a+bx f(x, y)dydxR +∞
−∞
R a+∆a+bx
a+bx f(x, y)dydx
= lim
∆a→0
R x2
x1
R a+∆a+bx
a+bx f(x,y)dydx
∆aR +∞
−∞
R a+∆a+bx
a+bx f(x,y)dydx
∆a
Sob condições gerais de regularidade6:
lim
∆a→0
R x2
x1
R a+∆a+bx
a+bx f(x, y)dydx
∆a
=
Z x2
x1
Ã
lim
∆a→0
R a+∆a+bx
a+bx f(x, y)dy
∆a
!
dx (1.5)
Tratando x como uma constante, podemos escrever h (y;x) = f (x, y). Seja H (y;x) a
primitiva de h (y;x). Usando o teorema fundamental do cálculo e a definição de derivada:
lim
∆a→0
R a+∆a+bx
a+bx f(x, y)dy
∆a
= lim
∆a→0
H (a+∆a+ bx)−H (a+ bx)
∆a
=
dH (y;x)
dy
¯̄̄̄
y=a+bx
= f (x, a+ bx)
Substituindo em (1.5), temos
Prob[x1 < X < x2|Y = a+ bx] =
R x2
x1
f(x, a+ bx)dxR +∞
−∞ f(x, a+ bx)dx
=
Z x2
x1
Ã
f(x, a+ bx)R +∞
−∞ f(x, a+ bx)dx
!
dx
=
Z x2
x1
f(x|Y = a+ bX)dx.
6São as condições que nos permitem trocar as operações limite e integração ou, na realidade, trocar a ordem
dos limites. Mais sobre isto depois...
34 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Onde:
f(x|Y = a+ bX) = f(x, a+ bx)R +∞
−∞ f(x, a+ bx)dx
¤
Aplicando o teorema acima para o caso em que a = y e b = 0
f(x|y) = f(x, y)R +∞
−∞ f (x, y) dx
=
f(x, y)
f (y)
e aparece o resultado que vocês provavelmente já conhecem.
1.11 Independência de Variáveis Aleatórias
Definição 1.11.1 (Variáveis Independentes Discretas) Duas variáveis aleatória discre-
tas X,Y são independentes se:
PX,Y (X = xi, Y = yj) = PX(xi)PY (yj) ∀ i, j.
Definição 1.11.2 (Variáveis Independentes Contínuas) Duas variáveis aleatórias con-
tínuas X e Y são independentes se, para todo (x, y) ∈ R2,
fXY (x, y) = fX(x)fY (y).
Observação Suponha que seja possível escrever fXY (x, y) = h(x)g(y). A priori, h(x) e g(y)
são funções quaisquer (não necessariamente as densidades de X e Y ). Se o suporte de (X,Y )
for um retângulo com os lados paralelos aos eixos e podemos escrever fXY (x, y) = h(x)g(y),
temos que X e Y são funções independenes.
Exemplo Tome a densidade f(x, y) = 1 para qualquer 0 < x < 1 e 0 < y < 1. Defina
h(x) = 1 e g(y) = 1. Então, f(x, y) = h(x)g(y) e, pela observação acima, X e Y são
independentes.
Definição 1.11.3 (Independência de 3 Variáveis Aleatórias Contínuas) Três variáveis
aleatórias contínuas X, Y e Z são independentes se para quaisquer x, y e z, fXY Z(x, y, z)
atende às quatro condições abaixo:
1.11. INDEPENDÊNCIA DE VARIÁVEIS ALEATÓRIAS 35
fXY Z(x, y, z) = fX(x)fY (y)fZ(z)
fXY (x, y) = fX(x)fY (y)
fXZ(x, z) = fX(x)fZ(z)
fY Z(y, z) = fY (y)fZ(z)
O caso para N variáveis é uma simples extensão do caso para 3 variáveis.
Exemplos Seja f(x, y) = 24xy uma função densidade definida no suporte 0 < x < 1 e
0 < y < 1− x.
Qual é o valor de Prob
£
0 < Y < 14 |X =
1
2
¤
?
Primeiramente, calculamos a densidade marginal de X.
fX(x) =
Z 1−x
0
f(x, y)dy = 12x(1− x)2 ∀ 0 < x < 1
e, agora, computamos a densidade condicional de Y |X,
fY |X(y|x) =
fXY (x, y)
fX(x)
=
24xy
12x(1− x)2
=
2y
(1− x)2 ∀ 0 < y < 1− x.
Portanto,
fY |X
µ
y|X = 1
2
¶
= 8y,
e,
Prob
∙
0 < Y <
1
4
|X = 1
2
¸
=
Z 1
4
0
8ydy
=
1
4
.
Agora, seja f(x, y) = 12 uma densidade que tem como suporte o retângulo de vértices
(1, 0), (0, 1), (−1, 0), (0,−1).
36 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Figura 8
Verifique que a distribuição marginal de Y é dada por:
fY (y) =
⎧⎪⎪⎪⎨⎪⎪⎪⎩
R 1−y
−1+y
1
2dx, se 0 < y < 1;R 1+y
−1−y
1
2 , se −1 < y < 0.
0, caso contrário.
Mais um exemplo: tome a densidade f(x, y) = 1 definida no suporte 0 < x < 1 e 0 < y < 1.
1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 37
Figura 9
Neste caso,
f(x|X > Y ) =
R g(x)=x
h(x)=0 1dyR 1
0
R g(x)=x
h(x)=0 1dydx
f(x|X < Y ) =
R 1
x 1dyR 1
0
R 1
x dydx
1.12 Mudança de Variável: Caso Multivariado
Sejam (X,Y ) um vetor aleatório com densidade fXY (x, y) e T (X,Y ) : R2 → R2, tal que
⎛⎝ Z
W
⎞⎠ =
⎛⎝ g(X,Y )
h(X,Y )
⎞⎠ = T (X,Y ).
Suponha g e f funções monótonas e diferenciáveis. Então,
fZW (z, w) = fXY (g
−1(z, w), h−1(z, w)) det
¯̄̄̄
¯̄ ∂g−1∂z ∂g−1∂w∂h−1
∂z
∂h−1
∂w
¯̄̄̄
¯̄
38 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Este método para efetuar a mudança de variável é conhecido como método jacobiano.
Exemplos Tome f(x, y) = 1 com suporte 0 < x < 1 e 0 < y < 1. Defina Z = max(X,Y )
Como exercício, complete o sistema (i.e, defina W = X) e aplique o método jacobiano.
Por que ele não funciona?
Vamos aplicar o método direto (a partir das definições). Note que o evento max(X,Y ) < z
é equivalente ao evento X < z e Y < z.
FZ(z) = Prob[Z < z]
= Prob[max(X,Y ) < z]
= Prob[X < z, Y < z]
= Prob[X < z]Prob[Y < z]
= z2
Portanto,
fZ(z) = 2z ∀ 0 < z < 1.
Defina agora W = YX .
1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 39
Figrua 10
Computando a densidade de W pelo método direto,
FZ(z) = Prob[Z < z]
= Prob
∙
Y
X
< z
¸
=
⎧⎪⎪⎪⎨⎪⎪⎪⎩
1− 12z , se z > 1;
z
2 , se 0 < z < 1.
Portanto,
fZ(z) =
⎧⎨⎩ 12z2 , se z > 1;1
2 , se 0 < z < 1.
Seja fX1X2(x1, x2), definida no quadrado unitário e, considere o vetor:⎛⎝ Y1
Y2
⎞⎠ =
⎛⎝ 1 1
1 −1
⎞⎠⎛⎝ X1
X2
⎞⎠ .
Deixamos para o leito encontrar a fdc do vetor (Y1, Y2). Utilize o método jacobiano e o
método direto. Qual método é o mais conveniente?
40 CAPÍTULO 1. TEORIA DA PROBABILIDADE
1.13 Momentos
1.13.1 Esperança
Definição 1.13.1 (Esperança) Seja X uma variável aleatória contínua (discreta) e f(x) sua
densidade (função probabilidade). O valor esperado da variável aleatória g(X), que denotamos
E[g(x)], é
Z +∞
−∞
g(x)f(x)dx se g(X) é absolutamente contínua e
X
x∈χ
g(x)Prob[X = x] se g(X) é discreta.
caso a soma ou integral existam. Se E[|g(X)|] = +∞, então dizemos que E[g(X)] não
existe. χ é o conjunto (finito ou contável) dos valores de que recebem probabilidade positiva no
caso discreto.
Exemplos Primeiramente, considere X ∼ exp(λ), ou seja,
f(x) =
1
λ
e−
x
λ , se x > 0, λ > 0.
E[X] =
Z ∞
−∞
xf(x)dx
=
Z +∞
0
x
1
λ
e−
x
λdx
= −xe−xλ
¯̄̄+∞
0
−
Z +∞
0
e−
x
λdx
= −λe−xλ
¯̄̄+∞
0
= λ.
A seguir, computaremos a esperança de uma variável discreta. Seja X ∼ B(n, p), isto é,
P [X = x] =
⎛⎝ n
x
⎞⎠ px(1− p)n−x.
1.13. MOMENTOS 41
E[X] =
nX
x=0
x
⎛⎝ n
x
⎞⎠ px(1− p)n−x
=
nX
x=1
x
n!
x!(n− x)!p
x(1− p)n−x
=
nX
x=1
n(n− 1)!
(x− 1)!(n− x)!p
x(1− p)n−x
Fazendo uma troca de variáveis para y = x − 1 e colocando n para fora do somatório,
temos:
= n
n−1X
y=0
(n− 1)!
y!(n− y − 1)!p
y+1(1− p)n−(y+1)
= np
n−1X
y=0
(n− 1)!
y!(n− 1− y)!p
y(1− p)n−1−y
= np.
porque
Pn−1
y=0
(n−1)!
y!(n−(y+1))!p
y(1− p)n−(y+1) = Pr (Y ≤ n− 1) = 1 onde Y ∼ B (n− 1, p)
Suponha que um pesquisador esteja interessado em fazer previsões a cerca do valor de uma
variável aleatória X. Seja x a realização desta variável e b o "chute"do pesquisador. Um
dos possíveis critérios para a formulação deste chute é a minização da esperança do erro
quadráticos médio, isto é,
min
b
E[(x− b)2] ≡ min
b
E[(X −E(X) +E(X)− b)2]
≡ min
b
E[(X −E[X])2 + 2E[(X −E[X])(E[X]− b)] +E(E[X]− b)2
Note que (E[X]− b)E[(X −E[X])] = (E[X]− b)(E [X]−E[X]) = 0. (E[X]− b) saiu para
fora do operador esperança porque é um número fixo. Portanto:
min
b
E[(x− b)2] ≡ min
b
E[(X −E[X])2 +E(E[X]− b)2
Como E[(X −E[X])2 é um número fixo (não depende da escolha de b):
min
b
E[(x− b)2] ≡ min
b
E(E[X]− b)2
O melhor que podemos fazer é atingir o valor 0 para a função objetivo. Escolhendo b =
E[X] alcançamos 0. Dessa forma:
42 CAPÍTULO 1. TEORIA DA PROBABILIDADE
E[X] = argmin
b
E[(x− b)2].
A esperança é, portanto, o melhor previsor para X sob o critério de minimização do erro
quadrático médio de previsão. Voltemos nossa atenção agora para o caso bivariado.
Definição 1.13.2 (Esperança) Sejam X e Y duas variáveis aleatórias contínuas e Z =
Φ(x, y). O valor esperado de Z é dado por:
EXY = EXY [Φ(x, y)] =
Z +∞
−∞
Φ(x, y)f(x, y)dxdy.
1.13.2 Outros Momentos
Definição 1.13.3 (Momentos) Para cada número natural n, o enésimo momento não cen-
trado (centrado) de X, denotado µ0n (µn) édefinido como:
µ0n = E[X
n] (µn = E[(X − µ01)n]).
Um caso particular é a variância, que é simplesmente o segundo momento centrado de uma
variável aleatória. Deixamos para o leitor verificar a validade das seguintes propriedades da
variância:
V ar[X] = E
h
(X −E [X])2
i
= E[X2]−E[X]2
V ar[aX + b] = a2V ar[X], ∀ a, b ∈ R
Definição 1.13.4 (Covariância) Sejam X e Y duas variáveis aleatórias. A covariância de
X e Y é definida por
Cov(X,Y ) = EXY [(X −EX [X])(Y −EY [Y ])].
Definição 1.13.5 (Correlação) A correlação entre X e Y é dada por:
ρ(X,Y ) =
Cov(X,Y )p
V ar[X]V ar[Y ]
.
Teorema 1.13.1 (Cauchy-Schwartz) |ρ(X,Y )| ≥ 1
1.14. CONCEITOS DE INDEPENDÊNCIA 43
Prova Para qualquer λ ∈ R,
EXY [((X −E[X])− λ(Y −E[Y ]))2] ≥ 0⇒
EXY [(X −E[X])2 − 2λ(Y −E[Y ])(X −E[X]) + λ2(Y −E[Y ])2] ≥ 0⇒
V ar[X]− 2λCov(X,Y ) + λ2V ar[Y ] ≥ 0.
Em particular, faça λ = Cov(X,Y )V ar[Y ] , obtendo:
V ar[X]− 2Cov(X,Y )
2
V ar[Y ]
+
Cov(X,Y )2
V ar[Y ]2
V ar[Y ] ≥ 0⇒
V ar[X]− Cov(X,Y )
2
V ar[Y ]
≥ 0⇒
V ar[Y ]
V ar[Y ]
≥ Cov(X,Y )
2
V ar[X]V ar[Y ]
⇒
ρ(X,Y )2 ≤ 1.
¤
Em muitas ocasiões é mais fácil calcular a covariância utilizando a seguinte fórmula:
Cov(X,Y ) = EXY [XY ] − EX [X]EY [Y ]. A demonstração da validade desta igualdade segue
diretamente da definição de covariância.
Cov(X,Y ) = EXY [(X −EX(X))(Y −EY [Y ])]
= EXY [XY −XEY [Y ]−EX [X]Y +EX [X]EY [Y ]]
= EXY [XY ]−EX [X]EY [Y ]−EX [X]EY [Y ] +EX [X]EY [Y ]]
= EXY [XY ]−EX [X]EY [Y ].
1.14 Conceitos de Independência
Teorema 1.14.1 Se X e Y são duas variáveis independentes
EXY [g(X)h(Y )] = EX [g(X)]EY [h(Y )].
Prova Mostraremos aqui a prova para o caso contínuo.
44 CAPÍTULO 1. TEORIA DA PROBABILIDADE
EXY [g(X)h(Y )] =
Z +∞
−∞
Z +∞
−∞
g(x)h(y)f(x, y)dxdy
independência
=
Z +∞
−∞
Z +∞
−∞
g(x)h(y)fX(x)fY (y)dxdy
=
Z +∞
−∞
∙
g(x)
Z +∞
−∞
h(y)fY (y)dy
¸
fX(x)dx
=
Z +∞
−∞
EY [h(Y )]fX(x)dx
= EY [h(Y )]
Z +∞
−∞
E[g(Y )]fX(x)dx
= EX [g(X)]EY [h(Y )].
¤
Definição 1.14.1 Duas variáveis aleatórias X e Y são ditas linearmente independentes (ou
ortogonais) se Cov(X,Y ) = 0.
Um corolário direto da definição de independência linear e do teorema 3.1 é que se duas
variáveis são independentes, então são linearmente independentes. Todavia, a recíproca não
é verdadeira, como mostra o exemplo a seguir.
Cov (X,Y ) ; X ⊥ Y
f(x, y) = 1 é uma densidade no suporte −1 < x < 0, 0 < y < −x, 0 < x < 1 e 0 < y < x.
1.14. CONCEITOS DE INDEPENDÊNCIA 45
Figura 11
Claramente,X e Y não são independentes (é possível aprender algo sobre Y quando fixamos
X). Contudo,
E[X] = 0
E[XY ] =
Z 0
−1
Z x
0
xydydx+
Z 1
0
Z x
0
xydydx
=
Z 0
−1
x3
2
dx+
Z 1
0
x3
2
dx
= −1
8
+
1
8
= 0
Logo, Cov(X,Y ) = 0.
Definição 1.14.2 (Esperança Condicional) Sejam X e Y duas variáveis aleatórias e g(Y )
uma função somente de Y . Então, o valor esperado de g(Y ) dado X = x é
E[g(Y )|X = x] =
Z
A
g(y)f(y|x)dy.
46 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Teorema 1.14.2 (Lei das Expectativas Iteradas) Seja Z = Φ(X,Y ) uma variável aleatória.
Então,
EXY [Φ(X,Y )] = EX [EY [Φ(X,Y )|X = x]].
Prova
E[Φ(X,Y )] =
Z +∞
−∞
Z +∞
−∞
Φ(X,Y )f(x, y)dydx
=
Z +∞
−∞
Z +∞
−∞
Φ(X,Y )f(y|x)f(x)dydx
=
Z +∞
−∞
∙Z +∞
−∞
Φ(X,Y )f(y|x)dy
¸
f(x)dx
=
Z +∞
−∞
EY [Φ(X,Y )|X = x]f(x)dx
= EX [EY [Φ(X,Y )|X = x].
¤
Exemplo Considere X ∈ {0, 1} com Prob[X = 1] = 12 e Y tal que
f(y|X = 1) ∼ U [1, 2]
f(y|X = 0) ∼ U [0, 1]
Como E[y|X = 0] = 12 e E[Y |X = 1] =
3
2 , pela lei das expectativas iteradas,
E[Y ] =
1
2
E[Y |X = 0] + 1
2
E[Y |X = 1] = 1.
Exemplo Se quisermos saber a média salarial um uma determinada população, podemos
proceder da seguinte forma. Calcular a média salarial para cada quantidade de anos de es-
colariedade. Aí calculamos uma Wmédia de média, poderando pela frequência de cada ano
de escolariedade. Seja W a variável aleatória salário, e S a variável aleatória escolariedade.
Suponha, por simplicidade, que temos apenas 4 e 8 anos de escolariadade possíveis:
EW [W ] = EW [W |S = 4]Pr (S = 4) +ES [S|E = 8]Pr (E = 8)
= EE [S|E]
1.14. CONCEITOS DE INDEPENDÊNCIA 47
Definição 1.14.3 (Independência em Média) Sejam X e Y duas variáveis aleatórias.
Diz-se que Y é independente em média de X se
E[Y |X = x] = E[Y ] ∀ x ∈ supp(X),
onde supp(X) denota o suporte de X.
Teorema 1.14.3 (Independência em Média I) Se duas variáveis aleatórias são indepen-
dentes, então também são independentes em média.
Prova Suponha X e Y independentes. Assim, podemos escrever f(x, y) = fX(x)fY (y) e
fY (y|x) = fY (y).
EY [Y |X = x] =
Z +∞
−∞
fY (y|x)dy
=
Z +∞
−∞
yfY (y)dy
= E[Y ].
¤
Teorema 1.14.4 (Independência em Média II) Se duas variáveis aleatórias são indepen-
dentes em média, então também são linearmente independentes.
Prova Suponha que X e Y são independentes em média. Isso implica que EY [Y |X] = E[Y ].
Usando a lei das expectativas iteradas,
E[XY ] = EX [EY [XY |X]]
= EX [XEY [Y |X]]
= EX [X]EY [Y ]
EXY [XY ] = E[X]E[Y ] implica que Cov(X,Y ) = 0, como queríamos demonstrar. ¤
48 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Deve-se ter atenção ao aplicar os teoremas acimas. Vimos que independência implica
em independência em média que, por sua vez, implica em indenpendência linear. As
recíprocas não são verdadeiras, isto é, independência linear não implica em independência em
média, esta última não sendo sinônimo de independência. Dois exemplos ajudam:
Cov (X,Y ) = 0;Independência
Ver exemplo de Cov (X,Y ) = 0; X ⊥ Y
Independência em média ; X ⊥ Y
Seja (X,Y ) um vetor aleatório contínuo com a seguinte densidade conjunta:
f (x, y) =
⎧⎨⎩ 12 , na área vermelha da figura 120, caso contrário
Figura 12
As distribuições de condicionais são (como fica claro pela figura 13):
1.14. CONCEITOS DE INDEPENDÊNCIA 49
Y |X = x ∼
⎧⎨⎩ U [−1− x, 1 + x] , se −1 ≤ x ≥ 0U [−1 + x, 1− x] , se 0 ≤ x ≥ 1
X|Y = y ∼
⎧⎨⎩ U [−1− y, 1 + y] , se −1 ≤ y ≤ 0U [−1 + y, 1− y] , se 0 ≤ y ≤ 1
Figura 13
Portanto
E [Y |X = x] =
⎧⎨⎩ −1−x+1+x2 = 0,se −1 ≤ x ≥ 0−1+x+1−x
2 = 0,se 0 ≤ x ≥ 1
= E [Y ] ∀x
E [X|Y = y] =
⎧⎨⎩
−1−y+1+y
2 = 0,se −1 ≤ y ≥ 0
−1+y+1−y
2 = 0,se 0 ≤ y ≥ 1
= E [X] ∀y
Ou seja, Y (X) é independente em média de X (Y ).
No entanto, Y e X não são independentes. Para ver isso, note que:
50 CAPÍTULO 1. TEORIA DA PROBABILIDADE
V AR [Y |X = x] =
⎧⎨⎩
((−1−x)−(1+x))2
12 ,se −1 ≤ x ≥ 0
((1−x)−(−1+x))2
12 ,se 0 ≤ x ≥ 1
E, portanto, a variância condicional de Y depende do valor de X.
Definição 1.14.4 (Variância Condicional) A variância condicional de Φ (X,Y ) dado X
é:
V arY (Φ (X,Y ) |X) = EY [(Φ (X,Y )−E[Φ (X,Y ) |X])2|X].
Uma maneira de escrever que muitas vezes ajuda é:
V arY (Φ (X,Y ) |X = x) = EY [(Φ (x, Y )−E[Φ (x, Y ) |X = x])2|X = x]
Em particular, temos
Definição 1.14.5 (Variância Condicional II) A variância condicional de Y dado X é:
V arY (Y |X) = EY [(Y −E[Y |X])2|X]
Teorema 1.14.5 (Variância Condicional) Outra maneira de expressar a variância condi-
cional é dado por
V arY (Y |X) = EY [Y 2|X]− (E[Y |X])2.
Prova
EY [(Y −E[Y |X])2|X] = EY [Y 2|X]− 2EY [Y E[Y |X]] +EY [Y |X]2
= EY [Y
2|X]− 2EY [Y |X2] +EY [Y |X]2
= EY [Y
2|X]−EY [Y |X2].
¤
Teorema 1.14.6 (Lei da Decomposição da Variância)
V arXY (Φ(X,Y )) = EX [V arY (Φ(X,Y ))|X] + V arX [EY [Φ(X,Y )|X]].
1.14. CONCEITOS DE INDEPENDÊNCIA 51
Prova Pela definição de variância condicional
V arY (Φ(X,Y )|X) = EY [Φ(X,Y )2|X]− (EY [Φ(X,Y )|X]2) (1.6)
Passando o operador esperança (tomado em X) em (1.3)
EX(V arY (Φ(X,Y )|X)) = EX [EY [Φ(X,Y )2|X]]−EX [(EY [Φ(X,Y )|X])2] (1.7)
= EXY
£
Φ(X,Y )2
¤
−EX [(EY [Φ(X,Y )|X])2] (1.8)
onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no primeiro
termo.
Note que EY [Φ(X,Y )|X] nada mais é que uma função da variável aletória X. Usando a
definição de variância, sabemos que
V arX(EY [Φ(X,Y )|X]) = EX [(EY [Φ(X,Y )|X])2]− (EX [EY [Φ(X,Y )|X]])2 (1.9)
= EX [(EY [Φ(X,Y )|X])2]− (EXY [Φ(X,Y )])2 (1.10)
onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no segundotermo.
Somando (1.4) e (1.5),
EX(V arY (Φ(X,Y )|X)) + V arX(EY [Φ(X,Y )|X])
= EXY
£
Φ(X,Y )2
¤
−EX [(EY [Φ(X,Y )|X])2] +EX [(EY [Φ(X,Y )|X])2]− (EXY [Φ(X,Y )])2
= EXY [Φ(X,Y )
2]− (EXY [Φ(X,Y )])2 == V arXY [Φ(X,Y )]
¤
Colorário A variância de Y pode ser decomposta como:
V arY (Y ) = EX [V arY (Y ) |X] + V arX [EY [Y |X]].
Prova Faça Φ(X,Y ) = Y. ¤
52 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Exemplo Suponha que estejamos interessados em calcular a desigualdade salarial. Um pos-
sível momento a ser olhado é a variância.7 A lei de decomposição da variância diz que podemos
fazer em duas etapas. Primeiro, vemos qual á a variância do salário para cada ano de escolar-
iedade. Aí calculamos a média desta variâncias, que é o termo.ES[V arW (W ) |S]. Mas há uma
segunda fonte de variação, que vem do fato de que, para cada nível de educação S, a média do
salário pode ser diferente. Este é o segundo termo V arS [EW [W |S]]. Gráficos sempre ajudam.
Figura 14
Agora note a diferença da variação de W quando o segundo termo é igual a zero, i.e.
V arS[EW [W |S]].
7Há outras características da distribuição que são normalmente estudadas, como o famoso índice de Gini.
1.15. MELHOR PREVISOR E MELHOR PREVISOR LINEAR 53
Figura 15
1.15 Melhor Previsor e Melhor Previsor Linear
Vimos anteriormente que fixado uma variável aleatória X, o melhor previsor de X quando
minimizamos a esperança do erro quadrático de previsão é a sua esperança. Suponha agora
que um pesquisador esteja interessado em estudar um vetor aleatório (X,Y ). Ele observa o
comportamento de X e deseja fazer previsões sobre a realização de Y . Seja h(x) a função que
descreve a regra de "chute"para Y dado os valores de X observados. Define-se erro quadrático
de previsão como (y− h(x))2. Qual é o melhor previsor de Y dado X (h(x)), sob o critério de
minimização do erro quadrático médio de previsão?
min
h(X)
EXY [(Y − h(X))2] ≡ min
h(X)
EXY [(Y −EY [Y |X] +EY [Y |X]− h(X))2]
= min
h(X)
EXY [(Y −EY [Y |X])2] + 2EXY [(Y −EY [Y |X])(EY [Y |X]− h(X))]
+EXY [(EY [Y |X]− h(X))2]
Note que o primeiro termo da função objetivo acima não depende de h(X). Portanto,
podemos reescrever o programa como
54 CAPÍTULO 1. TEORIA DA PROBABILIDADE
min
h(X)
2EXY [(Y −EY [Y |X])(EY [Y |X]− h(X))] +EXY [(EY [Y |X]− h(X))2]
= min
h(X)
2[EXY [Y ]−EXY [EY [Y |X]]]EXY (EY [Y |X]− h(X)) +EXY [(EY [Y |X]− h(X))2]
= min
h(X)
2[EXY [Y ]−EXY [Y ]]EXY (EY [Y |X]− h(X)) +EXY [(EY [Y |X]− h(X))2]
= min
h(X)
EXY [(EY [Y |X]− h(X))2]
A função objetivo é não negativa e atinge o valor zero somente se h(X) = EY [Y |X].
Portanto,
EY [Y |X] = argmin
h(X)
EXY [(Y − h(X))2],
ou seja, a esperança condicional de Y dado X é o melhor previsor de Y (sob o critério
de minimização do erro quadrático médio).
A partir deste fato, definimos o erro quadrático médio de previsão (EQMP) como
EXY [(Y −EY [Y |X])2]
Deixamos para o leito provar que o erro quadrático médio de previsão é igual a EY [Y 2]−
EX [EY [Y |X]2]. (Dica: utilize a lei da decomposição da variância e a lei das expectativas
iteradas)
Suponha agora que queremos encontrar o melhor previsor de Y dado X, ainda sob o
critério de minimização do erro quadrático médio de previsão, mas nos restringimos a previsores
lineares. Nosso problema passa a ser
min
h(X)
E[(Y − h(X))2]
s.a h(X) = α+ βX
Este programa equivale a
min
α,β
E[(Y − α− βX)2]
que tem como condições de primeira ordem:
−2E[(Y − α∗ − β∗X)] = 0
−2βE[(Y − α∗ − β∗X)X] = 0