Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso de Verão PUC-Rio João Manoel Pinho de Mello 23 de janeiro de 2007 2 Sumário I Notas de Aula: Estatística 5 1 Teoria da Probabilidade 7 1.1 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Classes e Álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Probabilidade: Axiomas e Modelo Probabilístico . . . . . . . . . . . . . . . . . 12 1.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5 Independência de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.6 Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.7 Função Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 20 1.8 Variáveis Aleatórias Discretas e Contínuas . . . . . . . . . . . . . . . . . . . . . 21 1.9 Mudança de Variável: Caso Univariado . . . . . . . . . . . . . . . . . . . . . . 23 1.10 Várias Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.11 Independência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . 34 1.12 Mudança de Variável: Caso Multivariado . . . . . . . . . . . . . . . . . . . . . 37 1.13 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.13.1 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.13.2 Outros Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1.14 Conceitos de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.15 Melhor Previsor e Melhor Previsor Linear . . . . . . . . . . . . . . . . . . . . . 53 1.16 Amostras Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 1.16.1 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 1.17 Estatísticas de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 1.18 Teoria Assintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 1.18.1 Convergência em Quase Certeza . . . . . . . . . . . . . . . . . . . . . . 69 1.18.2 Lei Forte dos Grandes Números . . . . . . . . . . . . . . . . . . . . . . . 70 1.18.3 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . 71 3 4 SUMÁRIO 1.18.4 Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 1.19 Princípio da Redução de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 1.20 Estatística Suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 1.21 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 1.21.1 Julgamento de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 82 1.21.2 Estimador de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 83 1.21.3 Propriedades do Estimador de Máxima Verossimilhança . . . . . . . . . 85 1.21.4 Estimação de um intervalo . . . . . . . . . . . . . . . . . . . . . . . . . 89 1.22 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 1.22.1 Testes de Hipóteses: Simples versus Simples . . . . . . . . . . . . . . . . 93 1.23 Testes de Hipóteses: Simples versus Composto . . . . . . . . . . . . . . . . . . 96 1.24 Testes de Hipóteses: Composto versus Composto . . . . . . . . . . . . . . . . . 98 Parte I Notas de Aula: Estatística 5 Capítulo 1 Teoria da Probabilidade 1.1 Espaço Amostral e Eventos Definição 1.1.1 (Espaço Amostral) Um espaço amostral (Ω) é o conjunto de todos os pos- síveis resultados de um experimento. Exemplos O experimento lançamento de um dado tem como espaço amostral {1, 2, 3, 4, 5, 6}. O experimento sortear um habitante da cidade do Rio de Janeiro e medir seu peso em quilogramas tem como um espaço amostral Ω = R. Contudo, este não é o único espaço amostral possível para este experimento. É difícil imaginar que algum habitante do Rio de Janeiro (ou do planeta Terra!) pese −10 quilogramas. Portanto, poderíamos definir o espaço amostral deste experimento como o conjunto Ω = [0,+∞). Ainda assim, nosso espaço espaço amostral contém valores que nunca iríamos observar ao realizar o experimento. Outra alternativa seria definidir Ω = [13 , 10 3]. Já Ω = [0, 20] não é um espaço amostral, pois certamente existem pessoas que pesam mais que 20 quilos. O relevante, na definição espaço amostral, é que ele contenha todos os possíveis re- sultados de um experimento. Para o experimento de lançamento de dados, um possível espaço amostral é o conjunto {0, 1, 2, 3, 4, 5, 6, 7}. No caso do experimento de medir o peso de um morador do Rio, seria difícil, senão impossível, chegar a um consenso acerca do valor máx- imo e mínimo que poderíamos encontrar. Então, por convência, podemos adotar como espaço amostral um conjunto que certamente contém todos os resultados possíveis do experimento, como o conjunto dos números reais, mesmo que neste conjunto existam elementos que não são possíveis. 7 8 CAPÍTULO 1. TEORIA DA PROBABILIDADE Definição 1.1.2 (Evento) Seja Ω o espaço amostral de um experimento. Todo subconjunto A ⊆ Ω é chamado de evento. Ω é chamado de evento certo. ∅ é o evento impossível. O evento ω, onde ω ∈ Ω, é chamado é um evento elementar. Quando ω ∈ Ω e ω ∈ A ⊂ Ω dizemos que ω é favorável ao evento A. Exemplos Voltando ao lançamento de um dado, observar um número par é um evento representado pelo subconjunto A = {2, 4, 6} de Ω. Outro evento seria observar um número menor que 5, representado pelo subconjunto B = {1, 2, 3, 4}. No experimento escolher um ponto no círculo unitário, cujo espaço amostral é dado por Ω = {(x, y) ∈ R2 : x2 + y2 ≤ 1}, tem como eventos: • Distância entre o ponto escolhido e o ponto (0,0) é menor que 12 , representado por A = ½ (x, y) ∈ R2 : x2 + y2 ≤ 1 4 ¾ ⊂ Ω. • A coordenada x do ponto escolhido é menor que a coordenada y, representado por B = {(x, y) ∈ Ω : x < y} ⊂ Ω. Exemplos Figura 1 1.1. ESPAÇO AMOSTRAL E EVENTOS 9 A teoria da probabilidade tem como objetivo assinalar números aos eventos. Estes números são chamados de probabilidades. Uma pergunta: a quais eventos (sub-conjuntos do espaço amostral) vamos atribuir probabilidade? Ora, por que não a todos os possíveis sub-conjuntos de Ω? Deste modo a teoria seria a mais completa possível. O problema é, pelo incrível de pareça há alguns sub-conjuntos de alguns Ωs aos quais não se pode assinalar números de maneira consistente.1 Isto não ocorre quando Ω é finito ou contável, mas ocorre para sub-conjunto de um tão simples quanto Ω = {x ∈ R : 0 ≤ x ≤ 1}. Por isto temos uma nova definição: Definição 1.1.3 (Evento Aleatório) Um evento A ao qual se atribui probabilidade é chamado de evento aleatório. Deixemos o pouco da discussão de quais eventos recebem a honra de ter uma probabilidade assinalada para um pouco depois. Ou seja, já decidimos qual é conjunto de eventos aos quais é assinalada probabilidade. Como é atrbuída esta probabilidade? Para o caso em que Ω é um conjunto finito de elementos, uma maneira de atribuir proba- bilidades a um evento A é por meio da definição clássica, ou frequentista, de probabilidade: P (A) = números de elementos de A número de elementos de Ω . Mas este método não funciona quando Ω = {x ∈ R : 0 ≤ x ≤ 1} e A = {w ∈ Ω : 0 ≤ w ≤ 1 3}. Neste caso, recorremos a definição geométrica: P (A) = comprimento de A comprimento de Ω . Perceba que não importa a unidade de medida do comprimento de Ω, desde que utilizemos a mesma unidade para auferir o comprimento de A. No caso em que Ω não é subconjunto de R, mas sim de R2, a definição geométrica de probabilidade nos é dada por: P (A) = área de A área de Ω . Agora vamos discutir (um pouco) como são construídos os conjuntos de eventos de Ω aos quais é assinalada probabilidade. 1Esses sub-conjuntos são chamados de não-mensuráveis. A compreensão da não-mensurabilidade depende do Axioma daEscolha, e é tema de Teoria da Medida. No nosso curso não veremos nenhum deles e, para todos os efeitos práticos, não importa muito que haja eventos que não podem ser medidos. 10 CAPÍTULO 1. TEORIA DA PROBABILIDADE 1.2 Classes e Álgebras Definição 1.2.1 (Classe) Uma classe A de Ω é um conjunto de sub-conjuntos de Ω. Uma classe é como um clube. Para pertencer a ela há que obedecer certas regras. Considere novamente o exemplo do lançamento do dado. Defina Acomo o clube mais inclusivo possível: a classe de Ω que contém todos subconjuntos possíveis do espaço amostral, A = {∅,Ω, {1}, {2}, . . . , {1, 2}, . . . , {1, 2, 3}, . . . , {2, 3, 4, 5, 6}}. Sendo o espaço amostral finito, a construção do conjunto que contém todos os subconjuntos de Ω é fácil: simplesmente elencamos todos os possiveis sub-conjuntos de Ω (são 2k, sendo k o número de elementos de Ω). Quando Ω é infinito porém enumerável ainda podemos (quase por definição) “contar” todos os elementos. Não podemos escrever numa folha de papel os conjuntos todos mas podemos visualizá-los de uma certa forma. Quando o espaço amostral não é enumerável (e.g., Ω = {x ∈ R : 0 ≤ x ≤ 1}), a definição de A não é imediata porque não se pode simplesmente elencar todos os possíveis sub-conjuntos de Ω. Uma tentativa poderia ser A = {todos os subconjuntos de Ω que são a união finita de subintervalos Ω}. Note que o conjunto C = [ n∈ N µ 1− 1 2n , 1− 1 2n+1 ¶ não pertence à A, mas C ⊂ Ω. Nossa teoria de atribuição de probabilidade começa impondo algumas regras a respeito do conjunto de sub-conjuntos do espaço amostral (classe A) ao qual vamos atriuir probabilidade. Em particular vamos impor que A satisfaça: A1. Ω ∈ A. A2. A ∈ A⇒ Ac ∈ A. A3. A ∈ A, B ∈ A⇒ A ∪B ∈ A. Definição 1.2.2 (Álgebra) Seja Ω um conjunto não vazio. Uma classe A de subconjuntos de Ω que satisfaça A1, A2 e A3 é chamada de Álgebra. 1.2. CLASSES E ÁLGEBRAS 11 Parece razoável, não? Começamos impondo que vamos atribuir um número ao conjunto espaço amostral Ω, o que no fundo é uma normalização. Depois, impomos que, se podemos atribuir probabilidade a um evento A, temos que conseguir a atribuir probabilidade ao evento não A. Finalmente, impomos que, se somo capazes de assinalar probabilidade a dois eventos A e B, podemos também dizer algo a respeito de A ou B.Como se decide o que é imposto a priori? Do ponto de vista epistemológico2, queremos impor o menos possível de forma arbitrária, e produzir o máximo de coisas de parecem razoáveis. Vocês podem perguntar: não seria trazoável impor que se podemos assinalar probabilidade ao evento A e ao evento B, também somos capazes de atribuir probabilidade ao evento A e B? Claro que sim!! Proposição Se A é uma Álgebra de subconjuntos de Ω, então: A4. ∅ ∈ A A5. A1, . . . , An ∈ A⇒ ∩ni=1Ai ∈ A. Prova Por A1, Ω ∈ A. Assim, por A2, Ωc ∈ A⇒ ∅ ∈ A. ProvaremosA5 por indução. ConsidereA1, . . . , An ∈ A. PorA2, temos queAc1, . . . , Acn ∈ A. Pela propriedade A3, Ac1 ∪Ac2 ∈ A. Tomando como hipótese de indução que, para k < n, ∪ki=1Aci ∈ A, mostraremos que ∪k+1i=1Aci ∈ A. Por A3, (∪ki=1Aci ∈ A) ∪Ack+1 ∈ A⇒ ∪k+1i=1Aci ∈ A ∀k ∈ {1, 2, . . . , n− 1}. Portanto, ∪ni=1Aci ∈ A. Isto implica que (∪ni=1Aci) c ∈ A. Finalmente, utilizando a regra de De Morgan, (∪ni=1Aci )c = ∩ni=1Ai ∈ A 2Palavrão, significa mais ou menos Teoria do Conhecimento ou Teoria da Produção de Conhecimento. 12 CAPÍTULO 1. TEORIA DA PROBABILIDADE ¤ Exemplo Para Ω = [0, 1], A = {toda união finita de subintervalos de [0, 1]} é uma Álgebra. Considere agora a seguinte propriedade A30. A1, A1, . . . , An, . . . ∈ A⇒ +∞[ i=1 An ∈ A. Se uma Álgebra A atende A1, A2 e A03 diz-se que A é uma σ−Álgebra. Como qualquer união finita de conjuntos pode ser escrita como uma união infinita, isto é, ∞[ i=1 An = A1 ∪A2 . . . ∪An ∪∅ . . . ∪∅ . . . , então toda σ−Álgebra é uma Álgebra. O contrário não é necessáriamente verdade. Tome como exemplo Ω = [0, 1] e A = {conjuntos finitos e cofinitos pertencetes a Ω}. Observação Um conjunto cofinito tem como complemento um conjunto finito. A atende as propriedades A1 e A2, mas não atende A30. Considere o conjunto dos racionais rn em [0, 1]. rn ∈ A pois rn é finito. Todavia, ∪+∞i=1 rn não pertence à A pois o conjunto dos racionais em [0, 1] não é finito nem cofinito. Neste livro, trabalharemos, sem perda de generalidade, somente com σ−Álgebras. A dis- tinção entre Álgebra e σ−Álgebra não faz diferença quando Ω é finito ou enumerável. Voltando à situação onde Ω = [0, 1] uma σ−Álgebra deste espaço amostral é A = [todos os subconjuntos de [0, 1] que tem comprimento definido] Dado um espaço amostral, seja B a menor σ−Álgebra possível. Chamamos B de σ−Álgebra de Borel. 1.3 Probabilidade: Axiomas e Modelo Probabilístico Para todo elemento A ∈ A vamos assinalar um único número real, P (A). Considere as seguintes restrições sobre P (A). 1.3. PROBABILIDADE: AXIOMAS E MODELO PROBABILÍSTICO 13 AP1. P (A) ≥ 0 AP2. P (Ω) = 1 AP3. Se A1, . . . , An ∈ A tais que Ai ∩Aj = ∅, ∀ i, j ≤ n, i 6= j então P ( [ n i=1Ai) = nX i=1 P (Ai) [Aditivdade Finita] AP30 Se A1, . . . , An, . . . ∈ A tais que Ai ∩Aj = ∅, ∀ i, j ≤ n, i 6= j então P ( [ +∞ i=1Ai) = +∞X i=1 P (Ai) [σ−Aditivdade] Definição 1.3.1 (Medida da Probabilidade) Uma função P : A → [0, 1] que satisfaz AP1, AP2 e AP30 é chamada de medida de probabilidade (ou simplesmente probabilidade). Agora considere mais uma característica da medida de probabilidade. AP4. Se a sequência {An}n≥1, An ∈ A decrescer para o vazio, então P (An)→ 0. Observação Uma sequência de conjuntos tal An+1 ⊂ An para todo n ∈ A decresce para o vazio se T+∞ i=1 An = ∅. Figura 2 14 CAPÍTULO 1. TEORIA DA PROBABILIDADE Definição 1.3.2 Dados AP1, AP2, AP3 temos que AP30 ⇔ AP4 Prova (⇒) Suponha que AP30 seja verdade. Seja {An}n≥1 ∈ A uma sequência de conjuntos que decresce para o vazio. Note que A1 = (A1 −A2) [ (A2 −A3) [ . . . = +∞[ k=1 (Ak −Ak+1). Para todo o k ∈ N o conjunto (Ak −Ak+1) ∈ A é disjunto de (Ak+1 −Ak+2). Logo, por AP30, P (A1) = +∞X k=1 P (Ak −Ak+1) = lim n→+∞ nX k=1 P (Ak −Ak+1) (1.1) Por AP3 e pela regra de DeMorgan temos que P (Ak −Ak+1) = P (Ak \ Ack+1) = 1− P (Ack [ Ak+1) = 1− [1− P (Ak) + P (Ak+1)] = P (Ak)− P (Ak+1) (1.2) Portanto, usando (2), podemos reescrever (1) como P (A1) = lim n→+∞ nX k=1 [P (Ak)− P (Ak+1)] = lim n→+∞ [P (A1)− P (An+1)] = P (A1) + lim n→+∞ P (An+1)⇒ lim n→+∞ P (An+1) = 0 Deixamos a prova de suficiência como exercício para o leitor. ¤ Definição 1.3.3 (Modelo Probabilístico) Um modelo probabilístico é formado por 1. Um conjunto Ω não vazio (espaço amostral). 1.4. PROBABILIDADE CONDICIONAL 15 2. Uma σ−Álgebra A de eventos aleatórios. 3. Uma medida da probabilidade P : A→ R. A terna (Ω,A, P (.)) é conhecido como espaço de proababilidades. 1.4 Probabilidade Condicional Definição 1.4.1 Seja (Ω,A, P (.)) um espaço de probabilidade. Se B ∈ A e P (B) > 0, a probabilidade condicional de A ∈ A dado B é definida como P (A|B) = P (A ∩B) P (B) , ∀ A ∈ A. Figura 3 Definição 1.4.2 Deixamos para o leitor demonstrar que, dado que P é uma medida de prob- abilidade, P (A|B) atende aos Axiomas de Kolmogorov (AP1, AP2, AP30). Teorema 1.4.1 (da Multiplicação) Sejam A1, . . . , An cojuntos pertences a A. Então P (A1 ∩ . . . ∩An) = P (A1)P (A2|A1)P (A3|A1 ∩A2) . . . P (An|A1 ∩ . . . ∩An−1). 16 CAPÍTULO 1. TEORIA DA PROBABILIDADE Prova Prova por indução. Como primeiro passo, demonstraremos o teorema para n = 3. Sejam A1, A2 e A3 ∈ A. Defina B = A1 ∩A2. Pela definição de probabilidade condicional, P (A1 ∩A2 ∩A3) = P (A3|B)P (B) = P (A3|A1 ∩A2)P (A1 ∩A2). Novamente pela fórmula da probabilidade condicional, P (A1 ∩ A2) = P (A2|A1)P (A1). Logo, P (A1 ∩A2 ∩A3) = P (A3|A1 ∩A2)P (A2|A1)P (A1). Nossa hipótese de indução é que a propriedade vale para os elementos A1, . . . , Ak de A, ou seja, P (A1 ∩ . . . ∩Ak) = P (A1)P (A2|A1)P (A3|A1 ∩A2) . . . P (Ak|A1 ∩ . . . ∩Ak−1). (1.3) O teste de indução consisteem demonstrar que o teorema da multiplicação se aplica para os conjuntos A1, . . . , Ak, Ak+1 de A. Defina B = A1 ∩ . . . ∩Ak. Pela fórmula da probabilidade condicional, P (A1 ∩ . . . ∩Ak+1) = P (Ak+1|B)P (B) (1.4) Finalmente, substitutindo (1.3).em (1.4), temos: P (A1 ∩ . . . ∩Ak+1) = P (Ak+1|B)P (B) = P (Ak+1|A1 ∩ . . . ∩Ak)P (Ak|A1 ∩ . . . ∩Ak−1)...P (A3|A1 ∩A2)P (A2|A1)P (A1) ¤ Exemplo Qual a probabilidade de retirar, sem reposição, 3 reis de um baralho comum de 52 cartas? Defina Ai como o evento pegar um rei na i-ésima retirada. Queremos achar a probabilidade de A = A1 ∩A2 ∩A3. Pelo teorema da multiplicação, temos P (A1 ∩A2 ∩A3) = P (A3|A1 ∩A2)P (A2|A1)P (A1) = 2 50 × 3 51 × 4 52 ∼= 0, 0000905 1.4. PROBABILIDADE CONDICIONAL 17 Outra forma de obter este resultado é perceber que ⎛⎝ 52 3 ⎞⎠ equivale ao número de possíveis conjuntos de três cartas no baralho e ⎛⎝ 4 3 ⎞⎠ é o número de conjunto de 3 reis. Portanto, P (A)= ⎛⎝ 4 3 ⎞⎠ ⎛⎝ 52 3 ⎞⎠ = 4! 3!1! 52! 3!49! ∼= 0, 0000905. Definição 1.4.3 (Partição) Suponha que A1, A2, . . . , An . . . são subconjuntos mutuamente excludentes de A e que S+∞ i=1 Ai = Ω. Dizemos então que {Ai}n≥1 é uma partição de Ω. Teorema 1.4.2 (Bayes) Seja {Ai}i≥1 uma partição de Ω e considere B ∈ A, com P (B) > 0. Então, P (Ai|B) = P (Ai ∩B) P (B) = P (B|Ai)P (Ai)Pn j=1 P (B|Aj)P (Aj) . Exemplo Tome 3 moedas, duas honestas e uma com duas caras. Qual a probabilidade da moeda ser de duas caras dado que observamos cara quando escolhemos, ao acaso, uma das moedas? Defina A1 como o evento a moeda é honesta, A2 a moeda é desonesta, C1 o evento observa-se cara e C2 observa-se coroa. Pela regra de Bayes, P (A2|C1) = P (A2 ∩ C1) P (C1) = P (C1|A2)P (A2) P (C1|A2)P (A2) + P (C1|A1)P (A1) = 1× 13 1× 13 + 1 2 × 2 3 = 1 2 18 CAPÍTULO 1. TEORIA DA PROBABILIDADE 1.5 Independência de Eventos Definição 1.5.1 (Independência) Dois eventos A e B são independentes (denota-se A ⊥ B) se P (A ∩B) = P (A)P (B). Teorema 1.5.1 Se A ⊥ B então as seguintes afirmações são válidas: 1. A ⊥ Bc. 2. Ac ⊥ B. 3. Ac ⊥ Bc. Prova Provaremos somente 1, deixando como exercício para o leitor a demonstração das outras afirmações. Para qualquer evento A podemos escrever P (A) = P (A ∩B) + P (A ∩Bc)⇒ P (A ∩Bc) = P (A)− P (A ∩B) Como A ⊥ B, P (A ∩B) = P (A)P (B). Assim, P (A ∩Bc) = P (A)− P (A)P (B) = P (A) (1− P (B)) = P (A)P (Bc)⇒ A ⊥ Bc ¤ Definição 1.5.2 (Independência dois a dois) Os eventos A1, . . . , An são ditos indepen- dentes dois a dois se P (Ai ∩Aj) = P (Ai)P (Aj) ∀i 6= j, i, j ∈ {1, . . . , n}. 1.6. VARIÁVEL ALEATÓRIA 19 Exemplo Considere dois lançamento de uma moeda com lados 1 e 2. Sejam A o evento ímpar no primeiro lançamento, B o evento ímpar no segundo lançamento e C o evento soma dos resultados dos lançamentos é impar. Note que A ⊥ B e que P (A ∩ C) = P (A ∩Bc) = P (A)P (Bc) = P (A)P (C) P (B ∩ C) = P (B)P (C) Logo, A, B e C são independentes dois a dois. Definição 1.5.3 (Independência Coletiva) Os eventos A1, . . . , An são ditos coletivamente (mutuamente) independentes se P (Ai1 ∩Ai2 ∩ . . . ∩Aim) = P (Ai1)P (Ai2) . . . P (Aim) ∀ 1 ≤ ii ≤ i2 ≤ . . . ≤ im ≤ n e ∀ m ∈ {2, 3, . . . , n}. Observação Note que, por definição, independência coletiva implica independência dois a dois (se você não está convencido leia novamente as duas definições). Por outro lado,o último exemplo mostra claramente que independência dois a dois não implica independência coletiva 1.6 Variável Aleatória Definição 1.6.1 (Variável Aleatória I) Uma variável aleatória X é uma função do espaço amostral na reta real, isto é, X : Ω→ R. Exemplos Considere o seguinte experimento: lançar um dado duas vezes e observar a se- quência de números. Seja ω um elemento de Ω = {(1, 1); (1, 2), . . . , (1, 6), . . . , (6, 1), . . . , (6, 6)}. Uma variável aleatória criada a partir de Ω é a soma dos resultados dos lançamentos. Desta forma, X(ω) = {2, 3, 4, . . . , 12}. 20 CAPÍTULO 1. TEORIA DA PROBABILIDADE Já para o experimento selecionar um ponto no intervalo [0, 1], que tem como espaço amostral Ω = [0, 1], uma variável aleatória é o quadrado do número sorteado. Neste caso, X(ω) = ω2. Definição 1.6.2 (Variável Aleatória II) Uma variável aleatória X num espaço de proba- bilidade (Ω,A, P ) é uma função real definida em Ω tal que, dado x ∈ R, X ≤ x é um evento aleatório. Isto é, A ≡ [ω ∈ Ω : X(ω) ≤ x]⇒ A ∈ A. As definições I e II são equivalentes. A definição I diz que ama variável aleatória é uma transformação do espaço amostral da reta, ou seja uma função. Para tanto, esta função tem que ser bem definida sob um certo critério. Este critério é o da definição II. Vamos à imagem (o conjunto dos números reais) e escolhemos um conjunto bem definido, neste caso X ≤ x . Agora nos perguntamos: quais os ω ∈ Ω que fazem com que X(ω) ≤ x seja verdade. Estes elementos ω ∈ Ω formam um subconjunto de Ω. Aí nos perguntamos, este subconjunto faz parte da álgebra de sub-conjuntos aos quais atribuímos probabilidade? Se a reposta for sim, então a função é bem definida.3 1.7 Função Distribuição de Probabilidade Para cada variável aleatória, associa-se uma função distribuição cumulativa (fdc). Definição 1.7.1 (Função Distribuição Cumulativa) Uma função distribuição cumulativa (fdc), FX : R→ [0, 1] associada a variável aleatória X, é definida por: FX(x) = P [X ≤ x] ∀ x ∈ R. Uma fdc possui as seguintes propriedades: P1. Se x ≤ y então FX(x) ≤ FX(y). P2. Se a sequência {xn}n∈ N ↓ y, então FX(xn) ↓ FX(y). P3. Se a sequência {xn}n∈ N ↓ −∞, então FX(xn) ↓ 0. P4. Se {xn}n∈ N ↑ +∞, então FX(xn) ↑ 1 Atente para o fato de que P1 implica que FX(x) é não decrescente. 3Outra maneira de dizer, mais chique, é que o conjuntos {ω ∈ Ω : X (ω) ≤ x} é mensurável. 1.8. VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS 21 1.8 Variáveis Aleatórias Discretas e Contínuas Definição 1.8.1 (Variável Aleatória Discreta) Uma variável aleatória é discreta se toma um número finito ou enumerável de valores, isto é, se existe um subconjunto finito ou enu- merável {x1, x2, . . .} ∈ R tal que x(ω) ∈ {x1, x2, . . .} para qualquer ω ∈ Ω. Definição 1.8.2 (Variável Aleatória Absolutamente Contínua) Uma variável aleatória é absolutamente contínua se existe uma função f : R→ R, f(x) ≥ 0, tal que Prob[X ≤ x] ≡ FX(x) = Z x −∞ f(t)dx ∀x ∈ R. Exemplos Considere a seguinte fdc FX(x) = ⎧⎪⎪⎪⎨⎪⎪⎪⎩ 0, se x < 0; x, se x ∈ [0, 1]; 1, se x > 1. A função f(x) = ⎧⎨⎩ 1, se x ∈ [0, 1];0, se x > 1 ou x < 0. é tal que FX(x) = R x −∞ f(t)dt para todo x ∈ R. Portanto, X é uma variável aleatória absolutamente contínua. 22 CAPÍTULO 1. TEORIA DA PROBABILIDADE Figura 4 Agora considere Y = min © X, 12 ª , X ∼ U [0, 1]. Verifique que esta variável tem a seguinte fdc: FY (y) = ⎧⎪⎪⎪⎨⎪⎪⎪⎩ 0, se y < 0; y, se y ∈ £ 0, 12 ¢ ; 1, se y ≥ 12 . Perceba que FY não é contínua. Uma variável aleatória X só é (absolutamente) contínua se FX(x) for (absolutamente) contínua. 1.9. MUDANÇA DE VARIÁVEL: CASO UNIVARIADO 23 Figura 5 1.9 Mudança de Variável: Caso Univariado Seja X uma variável aletatória contínua, FX(x) a sua fdc e Y = Φ(X), Φ : R→ R. Suponha Φ continuamente diferenciável. Queremos encontrar, a partir da fdp de X (f(x)), a fdp de Y (g(y)). Teorema 1.9.1 (Método Jacobiano) Se Φ é estritamente monótona, então g(y) = f(Φ−1(y)) ¯̄̄̄ dΦ−1 dy ¯̄̄̄ , onde ¯̄̄ dΦ−1 dy ¯̄̄ é o jacobiano da transformação. Prova Suponha que Φ é estritamente crescente. Pela definição de fdc: 24 CAPÍTULO 1. TEORIA DA PROBABILIDADE FY (y) = Prob[Y ≥ y] = Prob[Φ(x) ≥ y] = Prob[X ≥ Φ−1(y)] = FX(Φ −1(y)). Para achar a fdp basta derivar a função cumulativa em relação a y, g(y) = dFY (y) dy = dFX(Φ −1(y)) dy = f(Φ−1(y)) dΦ−1 dy . Suponha agora que Φ é decrescente. Novamente, pela definição da fdc de X: FY (y) = Prob[Y ≤ y] = Prob[Φ(X) ≤ y] = Prob[X ≥ Φ−1(y)] = 1− Prob[X ≤ Φ−1(y)] = 1− FX(Φ−1(y)). Assim, g(y) = dFY (y) dy = −dFX(Φ −1(y)) dy = f(Φ−1(y)) µ −dΦ −1 dy ¶ . ¤ ColorárioSeja X uma variável contínua que possui densidade de probabilidade f(x). Con- sidere a variável aleatória Y = a + bX, b > 0. Então Y possui uma densidade (i.e, Y é contínua) e g(y) = 1bf ¡y−a b ¢ . 1.9. MUDANÇA DE VARIÁVEL: CASO UNIVARIADO 25 Prova A forma funcional de g(y) é aplicação direta do teorema anterior. Vamos provar que Y possui densidade. Suponha que Φ é estritamente crescente. Então: FY (y) = Prob[Y ≤ y] = Prob[Φ(x) ≤ y] = Prob[X ≤ Φ−1(y)] = FX(Φ −1(y)) = Z Φ−1(y) −∞ f(x)dx = Z y −∞ f(Φ−1(t))Φ−1 0 (t)dt. Portanto, Y possui densidade. A prova para o caso em que Φ é decrescente é análoga.4 ¤ Exemplos Considere a variável aleatória X ∼ exp(λ = 1). X tem fdp dada por: f(x) = ⎧⎨⎩ e−x, se x > 0;0, caso contrário. . Outro exemplo: seja Y = X2. Qual é a fdp de Y? Aplicando o método jacobiano: g(y) = ⎧⎨⎩ 12√y exp(− √ y), se y > 0; 0, caso contrário. Para calcular a fdc de Y proceda da sequinte forma: 4Lembre-se da fórmula de mudança de variável. Seja g (·) uma função diferenciável com derivada não nula no intervalo [t1, t2]. Seja f (·) uma função e F (·) sua primitiva. Então: Z g(t2) g(t1) f (x) dx = F (g (t2))− F (g (t1)) = Z t2 t1 h (y) dy onde h (·) = F (g (·)) g0 (·). Usa-se o Teorema Fundamental do Cálculo duas vezes. 26 CAPÍTULO 1. TEORIA DA PROBABILIDADE FY (y) = Prob[Y ≤ y] = Prob[X2 ≤ y] = Prob[X ≤ √y] = Z √y 0 exp(−x)dx = − exp(−x)| √ y 0 = − exp(−√y) + 1. Seja X ∼ U [−1, 1]. A fdp de X é dada por f(x) = ⎧⎨⎩ 12 , se −1 < x < 1;0, caso contrário. e defina Y como Y = ⎧⎨⎩ X, se X ≤ 0.X2, se X > 0. Perceba que neste caso a função que define Y não é monótona. Logo, não podemos aplicar o teorema 2.1. Para calcular FY (y) faça, FY (y) = Prob[Y ≤ y] = Prob[−√y ≤ X ≤ y] = Z y −√y 1 2 dx = y + √ y 2 . Portanto, FY (y) = ⎧⎪⎪⎪⎨⎪⎪⎪⎩ 0, se y ≤ 0; y+ √ y 2 , se y ∈ (0, 1); 1, se y > 1. Derivando a função acima em relação a y obtemos a fdp: g(y) = ⎧⎨⎩ 12 + 14√y , se 0 ≤ y ≤ 1;0, caso contrário. 1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 27 O procedimento utilizado acima para encontrar a densidade da variável aleatória é con- hecido como método direto. 1.10 Várias Variáveis Aleatórias Suponha que observamos várias características (cada uma delas uma variável aleatória) das pessoas. Entre elas: salário, raça, idade, número de anos de escolaridade,etc. Nesta seção, buscaremos respostas para os seguintes tipos de pergunta: • (Distribuição Conjunta) Qual é a probabilidade de alguém ter entre 40 e 50 anos, ser branco e ganhar menos de 500 reais? • (Distribuição Condicional) Dado que uma pessoa é branca e tem entre 40 e 50 anos, qual é a probabilidade de ganhar menos de 500? Definição 1.10.1 (Vetor Aleatório) Um vetor aleatório é uma função que leva de uma σ−Álgebra A para um vetor do Rn. Exemplo Leve em conta o seguinte experimento: jogar dois dados aleatoriamente e observar a soma dos resultados e o valor absoluto da diferença. O espaço de probabilidades (Ω,A, P ) é dado por: • Ω = {(w1, w2) ∈ R2 : wi ∈ {1, 2, . . . , 6}, i = 1, 2}; • A = Classe de todos os subconjuntos de Ω; • P : A→ [0, 1], definida por ⎛⎝ X1(w1, w2) X2(w1, w2) ⎞⎠ = ⎛⎝ w1 + w2 |w1 − w2| ⎞⎠ . A partir dessas definições, podemos calcular Prob[X1 = 5, X2 = 3] = Prob[(4, 1), (1, 4)] = 1 18 e 28 CAPÍTULO 1. TEORIA DA PROBABILIDADE Prob[X1 = 5] = Prob[(4, 1), (1, 4), (2, 3), (3, 2)] = 1 9 . Definição 1.10.2 (Função de Probabilidade) Seja (X1, . . . ,Xn) um vetor aleatório n−dimensional. A função probabilidade (frequência) definida do Rn em [0, 1] é definida por: PX1,...,Xn(x1, . . . , xn) = Prob[X1 = x1, . . . ,Xn = xn]. Exemplo Voltando ao experimento do exemplo anterior, a função probabilidade pode ser descrita da seguinte forma: X2 0 1 2 3 4 5 P (X2) 2 136 1 36 3 118 1 18 4 136 1 18 3 36 5 118 1 18 2 18 6 136 1 18 1 18 5 36 X1 7 118 1 18 1 18 3 18 8 136 1 18 1 18 5 36 9 118 1 18 2 18 10 136 1 18 3 36 11 118 1 18 12 136 1 36 P (X2) 1 6 5 18 4 18 3 18 2 18 1 18 1 Definição 1.10.3 (Função de Probabilidade Marginal) Seja (X1, . . . ,Xn) um vetor aleatória discreto. A função probabilidade marginal de Xi é PXi(xi) = X x1∈ R X x2∈ R . . . X xi−1∈ R X xi+1∈ R . . . X xn∈ R PX1,...,Xn(X1 = x1, . . . ,Xn = xn). 1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 29 Exemplo Retornando ao exemplo anterior do laçamento de dois dados, Prob[X1 = 7] = Prob[X1 = 7,X2 = 1] + Prob[X1 = 7,X2 = 3] + Prob[X1 = 7,X2 = 5]. Definição 1.10.4 (Vetor Aleatório Contínuo) Um vetor aleatório (X1, . . . ,Xn) é dito (ab- solutamente) contínuo se existe uma função f : Rn → R+ tal que para qualquer subconjunto5 A ∈ Rn Prob[A] = Z Z A . . . Z | {z } n vezes f(x1, . . . , xn)dx1 . . . dxn. Exemplo No caso bivariado, Prob(X1 ≤ x1,X2 ≤ x2) = Z x1 −∞ Z x2 −∞ f(x1, x2)dx2dx1 = Z A Z f(x1, x2)dx1dx2, em que A = {(x1, x2) ∈ R2 : X1 ≤ x1,X2 ≤ x2}. Definição 1.10.5 (Função densidade marginal) A função densidade marginal de Xi é definida por fXi(xi) = Z +∞ −∞ . . . Z +∞ −∞| {z } n−1 vezes fX1,...,Xn(x1, . . . , xn)dx1 . . . dxi−1dxi+1 . . . dxn. Definição 1.10.6 (Função distribuição cumulativa) Define-se a função distribuição cu- mulativa do vetor aleatório (X1, . . . ,Xn) como: FX1,...,Xn(x1, . . . , xn) = Z xn −∞ . . . Z x1 −∞ fX1...Xn(x1, . . . , xn)dx1 . . . dxn. Exemplo Seja (X,Y ) um vetor aleatório com densidade dada por: f(x, y) = ⎧⎨⎩ 6xy2, se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1;0, caso contrário. Graficamente, 5Na verdade é qualquer sub-conjunto mensurável mas não quero entrar nesta discussão... 30 CAPÍTULO 1. TEORIA DA PROBABILIDADE Figura 6 Note que o ponto B tem probabilidade maior que A, pois a função densidade é crescente. A probabilidade, neste caso, não é dada somente pela área, mas também pelo volume. A fdp marginal de X é: f(x) = Z 1 0 6xy2dy = 2x, ∀ 0 ≤ x ≤ 1. Além disso, podemos estar interessados em: Prob[Y > X] = Z 1 p Z 1 x 6xy2dydx. Prob[X + Y < 1] = Z 1 0 Z 1−x 0 6xy2dydx. Defina agora a Z = X + Y. A distribuição de Z é dada por: GZ(z) = Prob[Z < z] = Prob[X + Y < z]. 1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 31 Para z < 1 temos GZ(z) = Z z 0 Z z−x 0 6xy2dydx. Para z > 1, GZ(z) = Z z−1 0 Z 1 0 6xy2dydx+ Z 1 z−1 Z z−x 0 6xy2dydx. Definição 1.10.7 (Distribuição condicional: caso discreto) Seja PX,Y (x, y) a função fre- quência. Para cada x tal que PX(x) > 0, a função frequência de Y dado x é dada por: PY (y|x) = PX,Y (x, y) PX(x) . Definição 1.10.8 (Distribuição condicional: caso contínuo) Suponha que (X,Y ) tenha uma densidade conjunta f(x, y). Seja S um evento aleatório tal que P (S) > 0. Então, a densidade condicional conjunta de (X,Y ) dado que (X,Y ) ∈ S é f(x, y|S) = ⎧⎨⎩ f(x,y) P (S) , se (x, y) ∈ S; 0, caso contrário. Exemplo Seja f(x, y) uma função densidade de probabilidade e S um subconjunto do plano tal que, para qualquer x no suporte de X, h(x) < y < g(x). 32 CAPÍTULO 1. TEORIA DA PROBABILIDADE Figura 7 Suponha também que P ((X,Y ) ∈ S) > 0. A densidade condicional deX dado S, denotada f(x|S), é definida por: f(x|S) = R g(x) h(x) f(x, y)dy P ((X,Y ) ∈ S) . Caso h(x) = y1 e g(x) = y2, sendo y2 > y1 temos, P (S) = Z +∞ −∞ Z y2 y1 f(x, y)dydx f(x|y1 ≤ Y ≤ y2) = R y2 y1 f(x, y)dyR +∞ −∞ R y2 y1 f(x, y)dydx Prob[x1 < X < x2|y1 < Y < y2] = R x2 x1 hR y2 y1 f(x, y)dy i dxR +∞ −∞ R y2 y1 f(x, y)dydx . O numerador e o denominador da expressão acima correspondem a, respectivamente, Prob[x1 < X < x2 ∩ y1 < Y < y2] e Prob[y1 < Y < y2]. Definição 1.10.9 (Probabilidade Condicional) A probabilidade condicional de X ∈ [x1, x2] dado Y = a+ bX é definida como: 1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 33 lim ∆a→0 Prob[x1 < X < x2|a+ bX < Y < a+∆a+ bX]. Definição 1.10.10 (Densidade Condicional) A densidade condicional de X dado que Y = a+ bX, se existe, é definida como uma função f ≥ 0 que satisfaz: Prob[x1 < X < x2|Y = a+ bX] = Z x2 x1 f(x|Y = a+ bX)dx. Teorema 1.10.1 (Densidade Condicional) A densidade f(x|Y = a + bx), se existe, é dada por: f(x|Y = a+ bX) =f(x, a+ bx)R +∞ −∞ f(x, a+ bx)dx . Prova Prob[x1 < X < x2|Y = a+ bX] = lim ∆a→0 Prob[x1 < X < x2|a+ bX < Y < a+∆a+ bX] = lim ∆a→0 R x2 x1 R a+∆a+bx a+bx f(x, y)dydxR +∞ −∞ R a+∆a+bx a+bx f(x, y)dydx = lim ∆a→0 R x2 x1 R a+∆a+bx a+bx f(x,y)dydx ∆aR +∞ −∞ R a+∆a+bx a+bx f(x,y)dydx ∆a Sob condições gerais de regularidade6: lim ∆a→0 R x2 x1 R a+∆a+bx a+bx f(x, y)dydx ∆a = Z x2 x1 Ã lim ∆a→0 R a+∆a+bx a+bx f(x, y)dy ∆a ! dx (1.5) Tratando x como uma constante, podemos escrever h (y;x) = f (x, y). Seja H (y;x) a primitiva de h (y;x). Usando o teorema fundamental do cálculo e a definição de derivada: lim ∆a→0 R a+∆a+bx a+bx f(x, y)dy ∆a = lim ∆a→0 H (a+∆a+ bx)−H (a+ bx) ∆a = dH (y;x) dy ¯̄̄̄ y=a+bx = f (x, a+ bx) Substituindo em (1.5), temos Prob[x1 < X < x2|Y = a+ bx] = R x2 x1 f(x, a+ bx)dxR +∞ −∞ f(x, a+ bx)dx = Z x2 x1 Ã f(x, a+ bx)R +∞ −∞ f(x, a+ bx)dx ! dx = Z x2 x1 f(x|Y = a+ bX)dx. 6São as condições que nos permitem trocar as operações limite e integração ou, na realidade, trocar a ordem dos limites. Mais sobre isto depois... 34 CAPÍTULO 1. TEORIA DA PROBABILIDADE Onde: f(x|Y = a+ bX) = f(x, a+ bx)R +∞ −∞ f(x, a+ bx)dx ¤ Aplicando o teorema acima para o caso em que a = y e b = 0 f(x|y) = f(x, y)R +∞ −∞ f (x, y) dx = f(x, y) f (y) e aparece o resultado que vocês provavelmente já conhecem. 1.11 Independência de Variáveis Aleatórias Definição 1.11.1 (Variáveis Independentes Discretas) Duas variáveis aleatória discre- tas X,Y são independentes se: PX,Y (X = xi, Y = yj) = PX(xi)PY (yj) ∀ i, j. Definição 1.11.2 (Variáveis Independentes Contínuas) Duas variáveis aleatórias con- tínuas X e Y são independentes se, para todo (x, y) ∈ R2, fXY (x, y) = fX(x)fY (y). Observação Suponha que seja possível escrever fXY (x, y) = h(x)g(y). A priori, h(x) e g(y) são funções quaisquer (não necessariamente as densidades de X e Y ). Se o suporte de (X,Y ) for um retângulo com os lados paralelos aos eixos e podemos escrever fXY (x, y) = h(x)g(y), temos que X e Y são funções independenes. Exemplo Tome a densidade f(x, y) = 1 para qualquer 0 < x < 1 e 0 < y < 1. Defina h(x) = 1 e g(y) = 1. Então, f(x, y) = h(x)g(y) e, pela observação acima, X e Y são independentes. Definição 1.11.3 (Independência de 3 Variáveis Aleatórias Contínuas) Três variáveis aleatórias contínuas X, Y e Z são independentes se para quaisquer x, y e z, fXY Z(x, y, z) atende às quatro condições abaixo: 1.11. INDEPENDÊNCIA DE VARIÁVEIS ALEATÓRIAS 35 fXY Z(x, y, z) = fX(x)fY (y)fZ(z) fXY (x, y) = fX(x)fY (y) fXZ(x, z) = fX(x)fZ(z) fY Z(y, z) = fY (y)fZ(z) O caso para N variáveis é uma simples extensão do caso para 3 variáveis. Exemplos Seja f(x, y) = 24xy uma função densidade definida no suporte 0 < x < 1 e 0 < y < 1− x. Qual é o valor de Prob £ 0 < Y < 14 |X = 1 2 ¤ ? Primeiramente, calculamos a densidade marginal de X. fX(x) = Z 1−x 0 f(x, y)dy = 12x(1− x)2 ∀ 0 < x < 1 e, agora, computamos a densidade condicional de Y |X, fY |X(y|x) = fXY (x, y) fX(x) = 24xy 12x(1− x)2 = 2y (1− x)2 ∀ 0 < y < 1− x. Portanto, fY |X µ y|X = 1 2 ¶ = 8y, e, Prob ∙ 0 < Y < 1 4 |X = 1 2 ¸ = Z 1 4 0 8ydy = 1 4 . Agora, seja f(x, y) = 12 uma densidade que tem como suporte o retângulo de vértices (1, 0), (0, 1), (−1, 0), (0,−1). 36 CAPÍTULO 1. TEORIA DA PROBABILIDADE Figura 8 Verifique que a distribuição marginal de Y é dada por: fY (y) = ⎧⎪⎪⎪⎨⎪⎪⎪⎩ R 1−y −1+y 1 2dx, se 0 < y < 1;R 1+y −1−y 1 2 , se −1 < y < 0. 0, caso contrário. Mais um exemplo: tome a densidade f(x, y) = 1 definida no suporte 0 < x < 1 e 0 < y < 1. 1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 37 Figura 9 Neste caso, f(x|X > Y ) = R g(x)=x h(x)=0 1dyR 1 0 R g(x)=x h(x)=0 1dydx f(x|X < Y ) = R 1 x 1dyR 1 0 R 1 x dydx 1.12 Mudança de Variável: Caso Multivariado Sejam (X,Y ) um vetor aleatório com densidade fXY (x, y) e T (X,Y ) : R2 → R2, tal que ⎛⎝ Z W ⎞⎠ = ⎛⎝ g(X,Y ) h(X,Y ) ⎞⎠ = T (X,Y ). Suponha g e f funções monótonas e diferenciáveis. Então, fZW (z, w) = fXY (g −1(z, w), h−1(z, w)) det ¯̄̄̄ ¯̄ ∂g−1∂z ∂g−1∂w∂h−1 ∂z ∂h−1 ∂w ¯̄̄̄ ¯̄ 38 CAPÍTULO 1. TEORIA DA PROBABILIDADE Este método para efetuar a mudança de variável é conhecido como método jacobiano. Exemplos Tome f(x, y) = 1 com suporte 0 < x < 1 e 0 < y < 1. Defina Z = max(X,Y ) Como exercício, complete o sistema (i.e, defina W = X) e aplique o método jacobiano. Por que ele não funciona? Vamos aplicar o método direto (a partir das definições). Note que o evento max(X,Y ) < z é equivalente ao evento X < z e Y < z. FZ(z) = Prob[Z < z] = Prob[max(X,Y ) < z] = Prob[X < z, Y < z] = Prob[X < z]Prob[Y < z] = z2 Portanto, fZ(z) = 2z ∀ 0 < z < 1. Defina agora W = YX . 1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 39 Figrua 10 Computando a densidade de W pelo método direto, FZ(z) = Prob[Z < z] = Prob ∙ Y X < z ¸ = ⎧⎪⎪⎪⎨⎪⎪⎪⎩ 1− 12z , se z > 1; z 2 , se 0 < z < 1. Portanto, fZ(z) = ⎧⎨⎩ 12z2 , se z > 1;1 2 , se 0 < z < 1. Seja fX1X2(x1, x2), definida no quadrado unitário e, considere o vetor:⎛⎝ Y1 Y2 ⎞⎠ = ⎛⎝ 1 1 1 −1 ⎞⎠⎛⎝ X1 X2 ⎞⎠ . Deixamos para o leito encontrar a fdc do vetor (Y1, Y2). Utilize o método jacobiano e o método direto. Qual método é o mais conveniente? 40 CAPÍTULO 1. TEORIA DA PROBABILIDADE 1.13 Momentos 1.13.1 Esperança Definição 1.13.1 (Esperança) Seja X uma variável aleatória contínua (discreta) e f(x) sua densidade (função probabilidade). O valor esperado da variável aleatória g(X), que denotamos E[g(x)], é Z +∞ −∞ g(x)f(x)dx se g(X) é absolutamente contínua e X x∈χ g(x)Prob[X = x] se g(X) é discreta. caso a soma ou integral existam. Se E[|g(X)|] = +∞, então dizemos que E[g(X)] não existe. χ é o conjunto (finito ou contável) dos valores de que recebem probabilidade positiva no caso discreto. Exemplos Primeiramente, considere X ∼ exp(λ), ou seja, f(x) = 1 λ e− x λ , se x > 0, λ > 0. E[X] = Z ∞ −∞ xf(x)dx = Z +∞ 0 x 1 λ e− x λdx = −xe−xλ ¯̄̄+∞ 0 − Z +∞ 0 e− x λdx = −λe−xλ ¯̄̄+∞ 0 = λ. A seguir, computaremos a esperança de uma variável discreta. Seja X ∼ B(n, p), isto é, P [X = x] = ⎛⎝ n x ⎞⎠ px(1− p)n−x. 1.13. MOMENTOS 41 E[X] = nX x=0 x ⎛⎝ n x ⎞⎠ px(1− p)n−x = nX x=1 x n! x!(n− x)!p x(1− p)n−x = nX x=1 n(n− 1)! (x− 1)!(n− x)!p x(1− p)n−x Fazendo uma troca de variáveis para y = x − 1 e colocando n para fora do somatório, temos: = n n−1X y=0 (n− 1)! y!(n− y − 1)!p y+1(1− p)n−(y+1) = np n−1X y=0 (n− 1)! y!(n− 1− y)!p y(1− p)n−1−y = np. porque Pn−1 y=0 (n−1)! y!(n−(y+1))!p y(1− p)n−(y+1) = Pr (Y ≤ n− 1) = 1 onde Y ∼ B (n− 1, p) Suponha que um pesquisador esteja interessado em fazer previsões a cerca do valor de uma variável aleatória X. Seja x a realização desta variável e b o "chute"do pesquisador. Um dos possíveis critérios para a formulação deste chute é a minização da esperança do erro quadráticos médio, isto é, min b E[(x− b)2] ≡ min b E[(X −E(X) +E(X)− b)2] ≡ min b E[(X −E[X])2 + 2E[(X −E[X])(E[X]− b)] +E(E[X]− b)2 Note que (E[X]− b)E[(X −E[X])] = (E[X]− b)(E [X]−E[X]) = 0. (E[X]− b) saiu para fora do operador esperança porque é um número fixo. Portanto: min b E[(x− b)2] ≡ min b E[(X −E[X])2 +E(E[X]− b)2 Como E[(X −E[X])2 é um número fixo (não depende da escolha de b): min b E[(x− b)2] ≡ min b E(E[X]− b)2 O melhor que podemos fazer é atingir o valor 0 para a função objetivo. Escolhendo b = E[X] alcançamos 0. Dessa forma: 42 CAPÍTULO 1. TEORIA DA PROBABILIDADE E[X] = argmin b E[(x− b)2]. A esperança é, portanto, o melhor previsor para X sob o critério de minimização do erro quadrático médio de previsão. Voltemos nossa atenção agora para o caso bivariado. Definição 1.13.2 (Esperança) Sejam X e Y duas variáveis aleatórias contínuas e Z = Φ(x, y). O valor esperado de Z é dado por: EXY = EXY [Φ(x, y)] = Z +∞ −∞ Φ(x, y)f(x, y)dxdy. 1.13.2 Outros Momentos Definição 1.13.3 (Momentos) Para cada número natural n, o enésimo momento não cen- trado (centrado) de X, denotado µ0n (µn) édefinido como: µ0n = E[X n] (µn = E[(X − µ01)n]). Um caso particular é a variância, que é simplesmente o segundo momento centrado de uma variável aleatória. Deixamos para o leitor verificar a validade das seguintes propriedades da variância: V ar[X] = E h (X −E [X])2 i = E[X2]−E[X]2 V ar[aX + b] = a2V ar[X], ∀ a, b ∈ R Definição 1.13.4 (Covariância) Sejam X e Y duas variáveis aleatórias. A covariância de X e Y é definida por Cov(X,Y ) = EXY [(X −EX [X])(Y −EY [Y ])]. Definição 1.13.5 (Correlação) A correlação entre X e Y é dada por: ρ(X,Y ) = Cov(X,Y )p V ar[X]V ar[Y ] . Teorema 1.13.1 (Cauchy-Schwartz) |ρ(X,Y )| ≥ 1 1.14. CONCEITOS DE INDEPENDÊNCIA 43 Prova Para qualquer λ ∈ R, EXY [((X −E[X])− λ(Y −E[Y ]))2] ≥ 0⇒ EXY [(X −E[X])2 − 2λ(Y −E[Y ])(X −E[X]) + λ2(Y −E[Y ])2] ≥ 0⇒ V ar[X]− 2λCov(X,Y ) + λ2V ar[Y ] ≥ 0. Em particular, faça λ = Cov(X,Y )V ar[Y ] , obtendo: V ar[X]− 2Cov(X,Y ) 2 V ar[Y ] + Cov(X,Y )2 V ar[Y ]2 V ar[Y ] ≥ 0⇒ V ar[X]− Cov(X,Y ) 2 V ar[Y ] ≥ 0⇒ V ar[Y ] V ar[Y ] ≥ Cov(X,Y ) 2 V ar[X]V ar[Y ] ⇒ ρ(X,Y )2 ≤ 1. ¤ Em muitas ocasiões é mais fácil calcular a covariância utilizando a seguinte fórmula: Cov(X,Y ) = EXY [XY ] − EX [X]EY [Y ]. A demonstração da validade desta igualdade segue diretamente da definição de covariância. Cov(X,Y ) = EXY [(X −EX(X))(Y −EY [Y ])] = EXY [XY −XEY [Y ]−EX [X]Y +EX [X]EY [Y ]] = EXY [XY ]−EX [X]EY [Y ]−EX [X]EY [Y ] +EX [X]EY [Y ]] = EXY [XY ]−EX [X]EY [Y ]. 1.14 Conceitos de Independência Teorema 1.14.1 Se X e Y são duas variáveis independentes EXY [g(X)h(Y )] = EX [g(X)]EY [h(Y )]. Prova Mostraremos aqui a prova para o caso contínuo. 44 CAPÍTULO 1. TEORIA DA PROBABILIDADE EXY [g(X)h(Y )] = Z +∞ −∞ Z +∞ −∞ g(x)h(y)f(x, y)dxdy independência = Z +∞ −∞ Z +∞ −∞ g(x)h(y)fX(x)fY (y)dxdy = Z +∞ −∞ ∙ g(x) Z +∞ −∞ h(y)fY (y)dy ¸ fX(x)dx = Z +∞ −∞ EY [h(Y )]fX(x)dx = EY [h(Y )] Z +∞ −∞ E[g(Y )]fX(x)dx = EX [g(X)]EY [h(Y )]. ¤ Definição 1.14.1 Duas variáveis aleatórias X e Y são ditas linearmente independentes (ou ortogonais) se Cov(X,Y ) = 0. Um corolário direto da definição de independência linear e do teorema 3.1 é que se duas variáveis são independentes, então são linearmente independentes. Todavia, a recíproca não é verdadeira, como mostra o exemplo a seguir. Cov (X,Y ) ; X ⊥ Y f(x, y) = 1 é uma densidade no suporte −1 < x < 0, 0 < y < −x, 0 < x < 1 e 0 < y < x. 1.14. CONCEITOS DE INDEPENDÊNCIA 45 Figura 11 Claramente,X e Y não são independentes (é possível aprender algo sobre Y quando fixamos X). Contudo, E[X] = 0 E[XY ] = Z 0 −1 Z x 0 xydydx+ Z 1 0 Z x 0 xydydx = Z 0 −1 x3 2 dx+ Z 1 0 x3 2 dx = −1 8 + 1 8 = 0 Logo, Cov(X,Y ) = 0. Definição 1.14.2 (Esperança Condicional) Sejam X e Y duas variáveis aleatórias e g(Y ) uma função somente de Y . Então, o valor esperado de g(Y ) dado X = x é E[g(Y )|X = x] = Z A g(y)f(y|x)dy. 46 CAPÍTULO 1. TEORIA DA PROBABILIDADE Teorema 1.14.2 (Lei das Expectativas Iteradas) Seja Z = Φ(X,Y ) uma variável aleatória. Então, EXY [Φ(X,Y )] = EX [EY [Φ(X,Y )|X = x]]. Prova E[Φ(X,Y )] = Z +∞ −∞ Z +∞ −∞ Φ(X,Y )f(x, y)dydx = Z +∞ −∞ Z +∞ −∞ Φ(X,Y )f(y|x)f(x)dydx = Z +∞ −∞ ∙Z +∞ −∞ Φ(X,Y )f(y|x)dy ¸ f(x)dx = Z +∞ −∞ EY [Φ(X,Y )|X = x]f(x)dx = EX [EY [Φ(X,Y )|X = x]. ¤ Exemplo Considere X ∈ {0, 1} com Prob[X = 1] = 12 e Y tal que f(y|X = 1) ∼ U [1, 2] f(y|X = 0) ∼ U [0, 1] Como E[y|X = 0] = 12 e E[Y |X = 1] = 3 2 , pela lei das expectativas iteradas, E[Y ] = 1 2 E[Y |X = 0] + 1 2 E[Y |X = 1] = 1. Exemplo Se quisermos saber a média salarial um uma determinada população, podemos proceder da seguinte forma. Calcular a média salarial para cada quantidade de anos de es- colariedade. Aí calculamos uma Wmédia de média, poderando pela frequência de cada ano de escolariedade. Seja W a variável aleatória salário, e S a variável aleatória escolariedade. Suponha, por simplicidade, que temos apenas 4 e 8 anos de escolariadade possíveis: EW [W ] = EW [W |S = 4]Pr (S = 4) +ES [S|E = 8]Pr (E = 8) = EE [S|E] 1.14. CONCEITOS DE INDEPENDÊNCIA 47 Definição 1.14.3 (Independência em Média) Sejam X e Y duas variáveis aleatórias. Diz-se que Y é independente em média de X se E[Y |X = x] = E[Y ] ∀ x ∈ supp(X), onde supp(X) denota o suporte de X. Teorema 1.14.3 (Independência em Média I) Se duas variáveis aleatórias são indepen- dentes, então também são independentes em média. Prova Suponha X e Y independentes. Assim, podemos escrever f(x, y) = fX(x)fY (y) e fY (y|x) = fY (y). EY [Y |X = x] = Z +∞ −∞ fY (y|x)dy = Z +∞ −∞ yfY (y)dy = E[Y ]. ¤ Teorema 1.14.4 (Independência em Média II) Se duas variáveis aleatórias são indepen- dentes em média, então também são linearmente independentes. Prova Suponha que X e Y são independentes em média. Isso implica que EY [Y |X] = E[Y ]. Usando a lei das expectativas iteradas, E[XY ] = EX [EY [XY |X]] = EX [XEY [Y |X]] = EX [X]EY [Y ] EXY [XY ] = E[X]E[Y ] implica que Cov(X,Y ) = 0, como queríamos demonstrar. ¤ 48 CAPÍTULO 1. TEORIA DA PROBABILIDADE Deve-se ter atenção ao aplicar os teoremas acimas. Vimos que independência implica em independência em média que, por sua vez, implica em indenpendência linear. As recíprocas não são verdadeiras, isto é, independência linear não implica em independência em média, esta última não sendo sinônimo de independência. Dois exemplos ajudam: Cov (X,Y ) = 0;Independência Ver exemplo de Cov (X,Y ) = 0; X ⊥ Y Independência em média ; X ⊥ Y Seja (X,Y ) um vetor aleatório contínuo com a seguinte densidade conjunta: f (x, y) = ⎧⎨⎩ 12 , na área vermelha da figura 120, caso contrário Figura 12 As distribuições de condicionais são (como fica claro pela figura 13): 1.14. CONCEITOS DE INDEPENDÊNCIA 49 Y |X = x ∼ ⎧⎨⎩ U [−1− x, 1 + x] , se −1 ≤ x ≥ 0U [−1 + x, 1− x] , se 0 ≤ x ≥ 1 X|Y = y ∼ ⎧⎨⎩ U [−1− y, 1 + y] , se −1 ≤ y ≤ 0U [−1 + y, 1− y] , se 0 ≤ y ≤ 1 Figura 13 Portanto E [Y |X = x] = ⎧⎨⎩ −1−x+1+x2 = 0,se −1 ≤ x ≥ 0−1+x+1−x 2 = 0,se 0 ≤ x ≥ 1 = E [Y ] ∀x E [X|Y = y] = ⎧⎨⎩ −1−y+1+y 2 = 0,se −1 ≤ y ≥ 0 −1+y+1−y 2 = 0,se 0 ≤ y ≥ 1 = E [X] ∀y Ou seja, Y (X) é independente em média de X (Y ). No entanto, Y e X não são independentes. Para ver isso, note que: 50 CAPÍTULO 1. TEORIA DA PROBABILIDADE V AR [Y |X = x] = ⎧⎨⎩ ((−1−x)−(1+x))2 12 ,se −1 ≤ x ≥ 0 ((1−x)−(−1+x))2 12 ,se 0 ≤ x ≥ 1 E, portanto, a variância condicional de Y depende do valor de X. Definição 1.14.4 (Variância Condicional) A variância condicional de Φ (X,Y ) dado X é: V arY (Φ (X,Y ) |X) = EY [(Φ (X,Y )−E[Φ (X,Y ) |X])2|X]. Uma maneira de escrever que muitas vezes ajuda é: V arY (Φ (X,Y ) |X = x) = EY [(Φ (x, Y )−E[Φ (x, Y ) |X = x])2|X = x] Em particular, temos Definição 1.14.5 (Variância Condicional II) A variância condicional de Y dado X é: V arY (Y |X) = EY [(Y −E[Y |X])2|X] Teorema 1.14.5 (Variância Condicional) Outra maneira de expressar a variância condi- cional é dado por V arY (Y |X) = EY [Y 2|X]− (E[Y |X])2. Prova EY [(Y −E[Y |X])2|X] = EY [Y 2|X]− 2EY [Y E[Y |X]] +EY [Y |X]2 = EY [Y 2|X]− 2EY [Y |X2] +EY [Y |X]2 = EY [Y 2|X]−EY [Y |X2]. ¤ Teorema 1.14.6 (Lei da Decomposição da Variância) V arXY (Φ(X,Y )) = EX [V arY (Φ(X,Y ))|X] + V arX [EY [Φ(X,Y )|X]]. 1.14. CONCEITOS DE INDEPENDÊNCIA 51 Prova Pela definição de variância condicional V arY (Φ(X,Y )|X) = EY [Φ(X,Y )2|X]− (EY [Φ(X,Y )|X]2) (1.6) Passando o operador esperança (tomado em X) em (1.3) EX(V arY (Φ(X,Y )|X)) = EX [EY [Φ(X,Y )2|X]]−EX [(EY [Φ(X,Y )|X])2] (1.7) = EXY £ Φ(X,Y )2 ¤ −EX [(EY [Φ(X,Y )|X])2] (1.8) onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no primeiro termo. Note que EY [Φ(X,Y )|X] nada mais é que uma função da variável aletória X. Usando a definição de variância, sabemos que V arX(EY [Φ(X,Y )|X]) = EX [(EY [Φ(X,Y )|X])2]− (EX [EY [Φ(X,Y )|X]])2 (1.9) = EX [(EY [Φ(X,Y )|X])2]− (EXY [Φ(X,Y )])2 (1.10) onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no segundotermo. Somando (1.4) e (1.5), EX(V arY (Φ(X,Y )|X)) + V arX(EY [Φ(X,Y )|X]) = EXY £ Φ(X,Y )2 ¤ −EX [(EY [Φ(X,Y )|X])2] +EX [(EY [Φ(X,Y )|X])2]− (EXY [Φ(X,Y )])2 = EXY [Φ(X,Y ) 2]− (EXY [Φ(X,Y )])2 == V arXY [Φ(X,Y )] ¤ Colorário A variância de Y pode ser decomposta como: V arY (Y ) = EX [V arY (Y ) |X] + V arX [EY [Y |X]]. Prova Faça Φ(X,Y ) = Y. ¤ 52 CAPÍTULO 1. TEORIA DA PROBABILIDADE Exemplo Suponha que estejamos interessados em calcular a desigualdade salarial. Um pos- sível momento a ser olhado é a variância.7 A lei de decomposição da variância diz que podemos fazer em duas etapas. Primeiro, vemos qual á a variância do salário para cada ano de escolar- iedade. Aí calculamos a média desta variâncias, que é o termo.ES[V arW (W ) |S]. Mas há uma segunda fonte de variação, que vem do fato de que, para cada nível de educação S, a média do salário pode ser diferente. Este é o segundo termo V arS [EW [W |S]]. Gráficos sempre ajudam. Figura 14 Agora note a diferença da variação de W quando o segundo termo é igual a zero, i.e. V arS[EW [W |S]]. 7Há outras características da distribuição que são normalmente estudadas, como o famoso índice de Gini. 1.15. MELHOR PREVISOR E MELHOR PREVISOR LINEAR 53 Figura 15 1.15 Melhor Previsor e Melhor Previsor Linear Vimos anteriormente que fixado uma variável aleatória X, o melhor previsor de X quando minimizamos a esperança do erro quadrático de previsão é a sua esperança. Suponha agora que um pesquisador esteja interessado em estudar um vetor aleatório (X,Y ). Ele observa o comportamento de X e deseja fazer previsões sobre a realização de Y . Seja h(x) a função que descreve a regra de "chute"para Y dado os valores de X observados. Define-se erro quadrático de previsão como (y− h(x))2. Qual é o melhor previsor de Y dado X (h(x)), sob o critério de minimização do erro quadrático médio de previsão? min h(X) EXY [(Y − h(X))2] ≡ min h(X) EXY [(Y −EY [Y |X] +EY [Y |X]− h(X))2] = min h(X) EXY [(Y −EY [Y |X])2] + 2EXY [(Y −EY [Y |X])(EY [Y |X]− h(X))] +EXY [(EY [Y |X]− h(X))2] Note que o primeiro termo da função objetivo acima não depende de h(X). Portanto, podemos reescrever o programa como 54 CAPÍTULO 1. TEORIA DA PROBABILIDADE min h(X) 2EXY [(Y −EY [Y |X])(EY [Y |X]− h(X))] +EXY [(EY [Y |X]− h(X))2] = min h(X) 2[EXY [Y ]−EXY [EY [Y |X]]]EXY (EY [Y |X]− h(X)) +EXY [(EY [Y |X]− h(X))2] = min h(X) 2[EXY [Y ]−EXY [Y ]]EXY (EY [Y |X]− h(X)) +EXY [(EY [Y |X]− h(X))2] = min h(X) EXY [(EY [Y |X]− h(X))2] A função objetivo é não negativa e atinge o valor zero somente se h(X) = EY [Y |X]. Portanto, EY [Y |X] = argmin h(X) EXY [(Y − h(X))2], ou seja, a esperança condicional de Y dado X é o melhor previsor de Y (sob o critério de minimização do erro quadrático médio). A partir deste fato, definimos o erro quadrático médio de previsão (EQMP) como EXY [(Y −EY [Y |X])2] Deixamos para o leito provar que o erro quadrático médio de previsão é igual a EY [Y 2]− EX [EY [Y |X]2]. (Dica: utilize a lei da decomposição da variância e a lei das expectativas iteradas) Suponha agora que queremos encontrar o melhor previsor de Y dado X, ainda sob o critério de minimização do erro quadrático médio de previsão, mas nos restringimos a previsores lineares. Nosso problema passa a ser min h(X) E[(Y − h(X))2] s.a h(X) = α+ βX Este programa equivale a min α,β E[(Y − α− βX)2] que tem como condições de primeira ordem: −2E[(Y − α∗ − β∗X)] = 0 −2βE[(Y − α∗ − β∗X)X] = 0
Compartilhar