Baixe o app para aproveitar ainda mais
Prévia do material em texto
Métodos Estat́ısticos Não-Paramétricos e suas Aplicações em Dados Genéticos Alúısio Pinheiro1 Hildete Prisco Pinheiro2 Departamento de Estat́ıstica Universidade Estadual de Campinas 1 pinheiro@ime.unicamp.br 2 hildete@ime.unicamp.br Para Táıs e Joana. Descrição do Curso O curso tem por principal objetivo apresentar as bases teóricas da inferência não-paramétrica, em particular das U -estat́ısticas, e suas posśıveis aplicações. Nessa apresentação, incluem-se o desenvolvi- mento de suas propriedades assintóticas e para pequenas amostras, aplicações a dados biológicos e considerações sobre como a complexa estrutura de dependência em dados genéticos motiva a utilização de técnicas de estimação mais robustas. Espera-se motivar os leitores a estudar os conceitos basais das inferências estat́ısticas, sua aplicabilidade em dados reais e os desen- volvimentos necessários para sua utilização em problemas contem- porâneos. O enfoque de aplicação será a área de dados genéticos e ecológicos mas as técnicas apresentadas geram metodologias para qualquer área do conhecimento, principalmente naquelas em que com- plexas estruturas de dependência estejam presentes. O livro se estrutura em cinco caṕıtulos. No caṕıtulo 1, introduz- se a noção axiomática de modelo probabiĺıstico e seus dois principais resultados (dentro do enfoque do texto): Lei dos Grandes Números e Teorema Central do Limite. Motiva-se a área de inferência estat́ıstica pelo Teorema de Glivenko-Cantelli. No caṕıtulo 2, apresentam-se: o modelo estat́ıstico paramétrico; estimação; testes de hipóteses; e algumas de suas principais pro- priedades assintóticas. Discutem-se alguns problemas do modelo paramétrico e apresentam-se as bases inferenciais não-paramétricas numa rediscussão do Teorema de Glivenko-Cantelli. Apresentam-se algumas técnicas para correção de problemas de estimação, entre elas o bootstrap e o jackknife. Ilustra-se também o uso de tais técnicas de reamostragem como metodologia de testes de hipóteses. iii iv No caṕıtulo 3, introduz-se o conceito de representação natural de caracteŕısticas populacionais como funções da distribuição de pro- babilidade a ela associada. Em seguida, constrói-se a classe de U - estat́ısticas como seus estimadores canônicos. Discutem-se então suas principais propriedades finito-dimensionais e, por fim, demonstram-se teoremas centrais do limite e leis fortes para U -estat́ısticas. No caṕıtulo 4, apresentam-se as noções de entropia e de outros paradigmas decorrentes de desigualdades de informação. Com isso, propõem-se medidas de diversidade. Apontam-se suas respectivas vantagens e desvantagens, teóricas e práticas. Ilustram-se seus po- tenciais usos em exemplos reais. No caṕıtulo 5, discutem-se os aspectos teóricos do uso de U -esta- t́ısticas no estudo de medidas de diversidade, em particular para dados genéticos, principalmente no tocante a: dados dependentes; decomposição de medidas de diversidade; o uso da distância de Ham- ming e sua generalização; e limitações do uso da distribuição assin- tótica e o recurso de técnicas de reamostragem. Os autores agradecem aos Professores Mario Antonio Gneri e Hervé Guiol, pela sugestão de vários exemplos e exerćıcios. Conteúdo 1 Modelo Probabiĺıstico 1 1.1 Um Modelo de Probabilidade . . . . . . . . . . . . . . 1 1.1.1 Eventos . . . . . . . . . . . . . . . . . . . . . . 3 1.1.2 Definição Axiomática de Probabilidade . . . . 5 1.2 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . 8 1.2.1 Função de Distribuição Acumulada . . . . . . . 13 1.2.2 Variáveis Aleatórias Discretas . . . . . . . . . . 17 1.2.3 Distribuições Cont́ınuas . . . . . . . . . . . . . 18 1.2.4 Seqüência de Variáveis Aleatórias . . . . . . . . 21 1.2.5 Momentos e Outras Medidas de Posição e Dis- persão . . . . . . . . . . . . . . . . . . . . . . . 22 1.3 Leis dos Grandes Números . . . . . . . . . . . . . . . . 34 1.3.1 Teorema Central do Limite . . . . . . . . . . . 46 1.4 Teoremas Centrais do Limite . . . . . . . . . . . . . . 50 1.5 O Teorema de Glivenko-Cantelli . . . . . . . . . . . . 54 1.6 Alguns Tópicos de Teoria Assintótica . . . . . . . . . . 55 1.7 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 58 2 Os Paradigmas Estat́ısticos 69 2.1 O Modelo Estat́ıstico Paramétrico . . . . . . . . . . . 69 2.2 Estimação por Máxima Verossimilhança . . . . . . . . 71 2.3 Testes de Razão de Verossimilhanças . . . . . . . . . . 72 2.4 Comportamento Assintótico de Estimadores e Testes . 76 2.5 Deficiências do Modelo Paramétrico . . . . . . . . . . 80 2.6 Alternativas Não-Paramétricas . . . . . . . . . . . . . 83 2.7 Técnicas de Reamostragem . . . . . . . . . . . . . . . 84 v vi CONTEÚDO 2.7.1 Reamostragem por Bootstrap . . . . . . . . . . 85 2.7.2 Reamostragem por Jackknife . . . . . . . . . . 88 2.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 90 3 U-Estat́ısticas 93 3.1 Caracteŕısticas Populacionais e suas Representações . 93 3.2 U -Estat́ısticas - Estimadores Naturais . . . . . . . . . 94 3.3 Propriedades de U -Estat́ısticas para n finito . . . . . . 96 3.4 Teorema Central do Limite para U -Estat́ısticas . . . . 98 3.5 Outras Convergências . . . . . . . . . . . . . . . . . . 100 3.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 101 4 Medidas Estat́ısticas de Diversidade 105 4.1 Medidas de Diversidade . . . . . . . . . . . . . . . . . 105 4.1.1 Motivação . . . . . . . . . . . . . . . . . . . . . 106 4.1.2 Índice de Shannon . . . . . . . . . . . . . . . . 106 4.2 Outros Paradigmas de Informação . . . . . . . . . . . 107 4.2.1 Caracterização de Rao . . . . . . . . . . . . . . 111 4.3 Índice de Gini-Simpson . . . . . . . . . . . . . . . . . 113 4.4 Decomposições de medidas de diversidade . . . . . . . 116 4.4.1 Decomposição das medidas de diversidade u- sando dados amostrais . . . . . . . . . . . . . . 120 4.5 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 130 5 U-Estat́ısticas e Medidas de Diversidade 134 5.1 Bootstrap e Jackknife sob Depen- dência . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.2 Distância de Hamming . . . . . . . . . . . . . . . . . . 137 5.2.1 Índice de Gini-Simpson generalizado . . . . . . 138 5.2.2 Representação via U-estat́ısticas . . . . . . . . 138 5.3 Decomposição da Distância de Hamming . . . . . . . . 140 5.3.1 U-estat́ısticas generalizadas . . . . . . . . . . . 140 5.3.2 Decomposições em distâncias intra- e entre gru- pos . . . . . . . . . . . . . . . . . . . . . . . . . 140 5.4 Aplicações da Distância de Hamming em Dados Gené- ticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 5.4.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . 149 CONTEÚDO vii 5.4.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . 153 5.5 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 158 Bibliografia 160 Lista de Figuras 1.1 Tiro ao Alvo - (a) Treino de Amadores (b) Treino de Profissionais . . . . . . . . . . . . . . . . . . . . . . . . 43 1.2 Desigualdade de Markov para a Bernoulli . . . . . . . 44 1.3 Assimetria e Medidas de Locação . . . . . . . . . . . . 44 1.4 Aproximação da Binomial pela Normal . . . . . . . . . 45 1.5 Incerteza na Pesquisa Eleitoral . . . . . . . . . . . . . 45 4.1 Distribuição emṕırica de F1: seqüências de DNA de populações de cágados. (a) Gene Cytochrome b. (b) Região de Controle. . . . . . . . . . . . . . . . . . . . 128 4.2 Distribuição emṕırica de F1: seqüências de DNA de cágados da Microbacia I. (a) Gene cytochrome b. (b) Região de Controle. . . . . . . . . . . . . . . . . . . . 128 4.3 Distribuição emṕırica de F1: seqüências de DNA de cágados da região de controle da Microbacia I. (a) Partições 1 e 2. (b) Partições 1 e 3.(c) Partições 2 e 3. 129 5.1 Distribuições emṕıricas sob a hipótese nula de homo- geneidade entre Homo Sapiens e outros primatas. . . . 152 ix Lista de Tabelas 1.1 Erro da Aproximação da Binomial pela Normal . . . . 38 4.1 Decomposição de Diversidade numa classificação hierár- quica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.2 Análise de Diversidade para dados com fatores . . . . 119 4.3 Populações e observações . . . . . . . . . . . . . . . . 121 4.4 Freqüências de diferentes opiniões em k populações . . 122 4.5 Valores observados de F1 e p-valores . . . . . . . . . . 127 4.6 Valores observados de F1 e p-valores: Microbacia I . . 127 5.1 Valores observados das estat́ısticas de teste . . . . . . 150 5.2 Quantis Bootstrap das distribuições emṕıricas . . . . . 151 5.3 P-valores para diferentes estat́ısticas de teste (B=2000) 153 5.4 Grupos G1-G17 - Distâncias de Hamming, Intra-grupos e Entre-grupos . . . . . . . . . . . . . . . . . . . . . . 155 5.5 Testes de Homogeneidade baseados em Dn(B) - Inter- valos de Confiança Bootstrap, Vı́cio corrigido e Inter- valos de Confiança Bootstrap acelerados, Intervalos de Confiança Jackknife . . . . . . . . . . . . . . . . . . . 157 xi Caṕıtulo 1 Modelo Probabiĺıstico Neste caṕıtulo, discutimos os fundamentos da teoria estat́ıstica, começando pelo modelo axiomático de Kolmogorov, chegando ao Teorema Fundamental da Estat́ıstica, mais conhecido como Teo- rema de Glivenko-Cantelli. Referem-se os leitores aos textos [23, 31, 68] para um tratamento mais profundo desses tópicos. [75] descreve a história do desenvolvimento da teoria de proba- bilidade. Referências fundamentais em probabilidade [11, 14, 15], e alguns de seus aspectos auxiliares e espećıficos [5, 9, 18, 71, 74] podem ajudar o leitor a aprofundar e enriquecer seu estudo do assunto. Para aqueles interessados nos modelos probabiĺısticos mais importantes, num tratamento detalhado de suas propriedades probabiĺısticas e es- tat́ısticas, recomendam-se [24], [25] e [26]. A transliteração do ciŕılico segue as recomendações de [10]. 1.1 Um Modelo de Probabilidade A primeira noção fundamental da teoria da probabilidade, o exper- imento aleatório, é de fato aquela de maior importância, pois sua expressão correta permite construir um modelo capaz de modelá-la e, portanto, entender e prever seus resultados. No entanto, para o entendimento da natureza de um experimento aleatório, devemos ter clara em nossa mente a definição de um ex- 1 2 [CAP. 1: MODELO PROBABIĹISTICO perimento (que estaremos chamando aqui de Experimento Deter- mińıstico, isto é, não submetido ao acaso). Definição 1.1.1 (Experimento Determińıstico). Sejam: Ξ = {ξ : ξ ∈ Ξ} um certo conjunto de ações; R um conjunto de resultados; e r uma aplicação de Ξ em R. A aplicação de cada elemento ξ ∈ Ξ conduz a um resultado único r(ξ), isto é, sempre que a ação ξ for tomada, tem-se como resultado r(ξ). Então, dizemos que (Ξ, R, r) é um experimento determińıstico. Deve-se entender da definição 1.1.1 que, num experimento de- termińıstico, sempre que realizarmos uma ação controlada, temos condições de saber exatamente qual será o resultado obtido. Exemplo 1.1.1 (Lançamento de uma Caneta). Estou numa área vazia e tenho uma caneta na mão. Decido jogá-la para ver o que acontece. Vamos supor (o que é bem natural) que a única força a que a caneta (uma vez fora de minha mão) está submetida seja a gravitação terrestre. O conjunto de ações Ξ tem por elementos: ‘abrir a mão e deixar cair a caneta’, ‘lançar a caneta para cima’, ‘jogar com força a caneta no chão’ etc. O resultado de qualquer uma dessas ações será invari- avelmente ‘a caneta cai no chão’. Há a necessidade de um conceito mais geral de experimento, em que múltiplos resultados possam ser obtidos de uma única ação. Isto se dá com o conceito de experimento aleatório. Isto significa que uma determinada ação ξ resulta em um elemento de r(ξ) que, desta vez, é um conjunto. Portanto, cada vez que se faz o experimento, o resultado pode ser diferente, mesmo tomando-se (aparentemente) a mesma ação. Para qualquer ξ, os conjuntos r(ξ) têm várias cardi- nalidades posśıveis. O estudo de probabilidade tem, exatamente, o objetivo de relacionar ξ e r(ξ) de alguma forma quantitativa. Definição 1.1.2 (Experimento Aleatório). Um experimento ale- atório se descreve com o conjunto dos resultados posśıveis de um experimento. Denota-se por ω um tal resultado e Ω o espaço formado por todos esses resultados. O espaço Ω é chamado de universo ou espaço amostral. [SEC. 1.1: UM MODELO DE PROBABILIDADE 3 Exemplo 1.1.2 (Embaralhamento de n Cartas). Por conveniência, vamos supor que as cartas estejam numeradas de 1 a n. Misturamos o baralho e observamos a seqüência de cartas assim obtida. Um re- sultado será do tipo ω = (σ1, . . . , σn), em que σi ∈ {1, . . . , n} e σi 6= σj para quaisquer i 6= j. O universo é, então, Ω = Sn, o conjunto das permutações de {1, . . . , n}. Este espaço é também finito: podemos mostrar que |Ω| = n!. 1.1.1 Eventos A segunda noção fundamental da Teoria de Probabilidade é aquela do Evento Aleatório. Consideramos que a realização (sucesso) ou não- realização (fracasso) de um evento aleatório depende exclusivamente do resultado do experimento associado. Definição 1.1.3 (Evento Aleatório). Um evento aleatório A será representado como o conjunto dos resultados ω do experimento que o realizam: A = {ω ∈ Ω : A é realizado se ω é o resultado do experimento}. Exemplo 1.1.3 (Lançamento de Dois Dados). Para o experimento - lançamento de dois dados, temos Ω = {1, . . . , 6} × {1, . . . , 6} e o evento A = ‘a soma do resultado é par’ pode ser descrito por A = {(1, 1); (1, 3); (1, 5); (2, 2); (2, 4); (2, 6); (3, 1); (3, 3); (3, 5); (4, 2); (4, 4); (4, 6); (5, 1); (5, 3); (5, 5); (6, 2); (6, 4); (6, 6)}. 4 [CAP. 1: MODELO PROBABIĹISTICO O evento imposśıvel será denotado por ∅. A fórmula A ∩B = ∅ significa que os eventos A e B são incompat́ıveis ou mutuamente exclusivos. Para cada par de eventos (A1, A2), o evento A1 ou A2, denotado por A1 ∪A2, é o evento realizado quando pelo menos um dos eventos A1 ou A2 é realizado. O evento certo é denotado por Ω, porque é realizado para todo resultado ω do experimento aleatório. Além de definir as relações entre dois espećıficos eventos, as ope- rações precedentes podem ser utilizadas para combinar mais de dois eventos. Se, por exemplo, (An)n∈N é uma seqüência finita ou infinita de eventos, ∪nAn significa o evento A1 ou A2 ou . . ., e ∩nAn significa o evento A1 e A2 e . . .. Duas operações que fazem sentido apenas para dois eventos são, no entanto, extremamente úteis. A diferença de dois conjuntos, denotada por −, é definida por: A−B = A ∩Bc. Do ponto de visto de eventos, A−B é o evento tal que A acontece mas B não. Conseqüentemente, se A∩B = ∅, então A−B = A e, se A ⊂ B, então A−B = ∅. A diferença simétrica de dois conjuntos, denotada por 4, é definida por A4B = (A ∩Bc) ∪ (Ac ∩B) = (A ∪B)− (A ∩B). Do ponto de visto de eventos, A4B é o evento tal que A ou B acontecem exclusivamente. Conseqüentemente, se A ∩ B = ∅, então A4B = A ∪B e, se A ⊂ B, então A4B = B −A. Probabilidade: A probabilidade (de um evento), em matemática: razão entre o número de casos favoráveis pelo número de casos posśıveis para um evento qualquer, em que os casos posśıveis têm supostamente o mesmo grau de probabilidade. Grande Enciclopédia Larousse Cultural, 1998. Cardano, Pascal, de Fermat, Huygens, a famı́lia Bernoulli e de Moivre são alguns dos grandes matemáticos que iniciaram a então [SEC. 1.1: UM MODELO DE PROBABILIDADE 5 chamada Teoria das Probabilidades. Mais tarde, temos Laplace, Eu- ler, Legendre, Poisson e o pŕıncipe dos matemáticos, Carl Friedrich Gauss. Da F́ısica, surgiram contribuições de Maxwell, Planck, Boltz- mann,entre outros. No entanto, o conceito de probabilidade continuava vago e con- troverso. Isso só foi resolvido de forma satisfatória pela contribuição de outro grande matemático, Kolmogorov, que, em 1933, propôs sua solução axiomática. Essa descrição é a mais adotada e a que seguire- mos neste curso. 1.1.2 Definição Axiomática de Probabilidade Vimos que podemos identificar os eventos como subconjuntos de Ω. Será que qualquer subconjunto de Ω é um evento? A resposta é negativa, mas suas razões ultrapassam o ńıvel deste curso. De fato, é necessario pensar no conjunto dos eventos como sendo uma coleção F de sub-conjuntos de Ω com algumas propriedades. Definição 1.1.4 (Sigma-álgebra). Uma coleção F de subconjuntos de Ω é chamada de σ-álgebra se temos (todas) as condições seguintes (a) Ω ∈ F ; (b) se A1, A2, ... ∈ F , então ∪∞i=1Ai ∈ F ; e (c) se A ∈ F , então Ac ∈ F . Observação: É importante não perder de vista que uma σ- álgebra F é associada ao seu espaço Ω (veja o exemplo 1.1.6 seguinte). Exemplo 1.1.4. [Menor σ-álgebra] A menor σ-álgebra associada com Ω é F = {∅,Ω}. Exemplo 1.1.5. [Menor σ-álgebra que Possui A] Se A é um subcon- junto de Ω então F = {∅, A, Ac, Ω} é uma σ-álgebra. Exemplo 1.1.6. [σ-álgebra a partir de A∩B] Seja F uma σ-álgebra de subconjuntos de Ω e B ∈ F . Então G = {A ∩ B : A ∈ F} é uma σ-álgebra de subconjuntos de B (veja exerćıcio 1.1). Observe que G não é uma σ-álgebra sobre Ω: se C ∈ G então ∃C ′ ∈ F tal que C = C ′ ∩ B. O complementar de C em B é o conjunto (C ′)c∩B que pertence ao G, mas o complementar de C em Ω é o conjunto (C ′)c ∪Bc que não é um elemento de G. 6 [CAP. 1: MODELO PROBABIĹISTICO Definição 1.1.5 (Medida de Probabilidade). Uma Medida de Pro- babilidade P sobre (Ω,F) é uma função P : F → [0, 1] tal que (a) P(Ω) = 1; (b) se {A1, A2, ...} é uma coleção de elementos disjuntos de F , tal que Ai ∩Aj = ∅ para cada par i, j, i 6= j, então P (∪∞i=1Ai) = ∞∑ i=1 P(Ai). A tripla (Ω,F ,P) é chamada de Espaço de Probabilidade. Exemplo 1.1.7 (Cara ou Coroa). Descreve-se o universo Ω = {0, 1} (0=”cara”, 1=”coroa”) e F = {∅, {0}, {1}, Ω}. Seja P : F → [0, 1] dada por P(∅) = 0, P({0}) = p, P({1}) = 1− p, P(Ω) = 1, em que p é um número real fixo do intervalo [0, 1]. Se p = 1/2, a moeda é não viciada. Exemplo 1.1.8 (Dado). Sejam Ω = {1, 2, 3, 4, 5, 6}, F = P(Ω) o conjunto de partes (dos sub-conjuntos) de Ω e P dada por P(A) = ∑ i∈A pi, para qualquer A ⊂ Ω, em que p1, p2, ..., p6 são números fixos do intervalo [0, 1], cuja soma é 1. A probabilidade de que a face i apareça é pi. O dado é normal se pi = 1/6, para cada i, e, portanto, P(A) = |A| 6 , para qualquer A ⊂ Ω, em que |A| representa o número de elementos (cardinalidade) de A. Um conceito muito importante é o de independência estocástica. Definição 1.1.6 (Eventos Independentes). Sejam (Ω,F , P ) e A,B ∈ F . A e B são eventos independentes se P(A ∩B) = P(A)P(B). [SEC. 1.1: UM MODELO DE PROBABILIDADE 7 A partir do momento que eventos podem ser independentes ou não, e essa caracteŕıstica depende da diferença entre P(A ∩ B) e P(A)P(B), é natural que se investigue como o conhecimento da ocor- rência de um evento B pode influir na ocorrência de um evento A, numa reavaliação da probabilidade de A pelo conhecimento da ocorrência de B. Definição 1.1.7 (Probabilidade Condicional). Sejam (Ω,F , P ) e A,B ∈ F . A probabilidade condicional de A dado B, P(A|B), é dada por P(A|B) = P(A ∩B)/P(B) se P(B) > 0 P(A) se P(B) = 0. Exemplo 1.1.9 (Independência de Eventos). Sejam A, B e C even- tos tais que P(A) = 0, 2, P(B) = 0, 7, P(C) = 0, 5, P(A ∩ B) = 0, 1, P(A∩C) = 0, 1 e P(B∩C) = 0, 2. Note que A e C são independentes, A e B são dependentes e B e C são dependentes. Mais ainda: P(A|B) = 0, 1/0, 7 = 1/7 < P(A) P(B|A) = 0, 1/0, 5 = 1/5 < P(B) P(A|C) = 0, 1/0, 5 = 0, 2 = P(A) P(C|A) = 0, 1/0, 2 = 0, 5 = P(C) P(B|C) = 0, 2/0, 5 = 0, 4 < P(B) P(C|B) = 0, 2/0, 7 = 2/7 < P(C). Note no exemplo 1.1.9 que os eventos que são mutuamente inde- pendentes (A e C) não sofrem alterações de cálculo em suas proba- bilidades por condicionamento, exatamente por serem independentes. No caso de eventos mutuamente dependentes, como A e B ou B e C, a reavaliação dada a ocorrência do outro evento modifica as expecta- tivas de ocorrência. Observação 1.1.1. • Se P(A) = 0 ou P(A) = 1, então A é independente de B, qualquer que seja B ∈ F • Eventos disjuntos A e B são tais que P(A∩B) = 0 6= P(A)P(B) a não ser que P(A) = 0 ou P(B) = 0. • Portanto, eventos disjuntos, em geral, são dependentes. Apesar de, em prinćıpio, isso parecer pouco intuitivo, note que eventos que NUNCA acontecem juntos são bastante dependentes. 8 [CAP. 1: MODELO PROBABIĹISTICO 1.2 Variáveis Aleatórias Seja E um experimento aleatório e Ω seu espaço de resultados. Em muitas situações, o resultado observado do experimento ω ∈ Ω não intervém de forma expĺıcita, pois podemos estar interessados apenas em alguma caracteŕıstica de ω e não necessariamente em sua indivi- dualização. Uma forma conveniente de representar uma caracteŕıstica de in- teresse é mediante a definição de uma função X com domı́nio em Ω. Estudaremos aqui caracteŕısticas numéricas das observações, ou seja, as dadas através de funções X: F → R. Estas funções são chamadas de variáveis aleatórias e sua definição formal será vista adiante. Exemplo 1.2.1 (Calçados Masculinos). Um fabricante de calçados masculinos para adultos pretende atender ao consumo local de uma pequena cidade, ou seja, Ω = {‘os homens adultos que moram na cidade’}. É óbvio que, para dimensionar sua produção, ele não pre- cisa conhecer os nomes nem outras caracteŕısticas pessoais dos seus clientes potenciais, com exceção do tamanho do sapato. Em resumo, podemos dizer que o fabricante deve possuir algum conhecimento a respeito da variável X definida por: X(ω) =‘número de sapato utilizado pela pessoa ω’, para cada ω ∈ Ω. Mas qual é o conhecimento necessário a respeito de X? Por exem- plo, o fabricante deve saber que, fabricando sapatos desde o número 32 até o 48, ele cobre todas as possibilidades e também que existem mais clientes potenciais para os números 40 e 41 do que para 32 ou 48. Com maior generalidade, é necessário que o fabricante conheça as probabilidades dos conjuntos {ω/X(ω) = x}, denotados por [X = x] para 32 ≤ x ≤ 48. Exemplo 1.2.2 (Graciliano). Graciliano é aposentado da SANASA e uma vez ao mês costuma se encontrar com seus antigos colegas no Largo do Carmo. Ele pega o ônibus que vai para o centro de Campinas, no terminal de Barão Geraldo. Nos horários em que ele costuma viajar, há um intervalo de exatamente cinco minutos entre duas sáıdas consecutivas. Graciliano é muito calmo e nem tenta acer- tar a chegada no ponto para minimizar a espera. Ele tampouco gosta de correr, de forma que, mesmo que o ônibus esteja na plataforma [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 9 prestes a partir, ele continuará andando no seu ritmo. O tempo X que Graciliano fica no ponto aguardando o ônibus depende do horário de chegada ao ponto que, por sua vez depende de muitos fatores: hora em que Graciliano acordou, tempo demorado no café da manhã, tempo demorado para tomar banho etc. Assim sendo, desistiremos de considerar o posśıvel conjunto de situações ω que determina o tempo final X. Alternativamente, tentaremos trabalhar diretamente em X: com base na informação dispońıvel a respeito dos costumes de Gracilia- no, formularemos algumas hipóteses que simplifiquem o problema e que nos permitam resolvê-lo. Em primeiro lugar, é evidente que 0 ≤ X < 5. O mı́nimo que ele espera é claramente 0. Por que X < 5 e não X ≤ 5 ? O que significa X = 5? Uma situação em que X poderia ser exatamente igual a 5 seria caso Graciliano chegasse na hora certa e simultaneamente dormisse no ponto. Parece razoável pensar que, se 0 ≤ a < b < 5, a probabilidadede {ω / a ≤ X(ω) < b} seja proporcional ao comprimento de [a, b), ou seja, (b− a)/5. Veja que se a = 0 e b = 5, teremos probabilidade para [0 < X < 5] igual a 1, o que é correto. Como conseqüência, se A ∩ [0 < X < 5] = φ, a probabilidade de [X ∈ A] é igual a 0. Outro fato interessante é o de como seria a probabilidade de [X = c], para 0 ≤ c < 5? Observe que o conjunto [X = c] pode ser pensado como [X = c] = lim n→∞ [max(0, c− 1/n) ≤ X ≤ min(5, c− 1/n)], que é decrescente e cujas probabilidades são menores do que ou iguais a 2n−1. Portanto, é natural que, se a probabilidade estiver definida de forma consistente, [X = c] tenha probabilidade 0. Isto poderia, à primeira vista, parecer contraditório com os fatos [0 ≤ X < 5] = ∪0≤c<5[X = c] e P([0 ≤ X < 5]) = 1. Note, no entanto, que o conjunto [0 ≤ X < 5] é união de uma famı́lia não-enumerável de conjuntos disjuntos e, portanto, aqui não é imedi- ata a aplicação de propriedades do tipo aditividade ou σ-aditividade. Observe também que você já enfrentou este tipo de contradições aparentes: por exemplo, o retângulo [0 ≤ x ≤ 1] × [0 ≤ y ≤ 1] ∈ R2 10 [CAP. 1: MODELO PROBABIĹISTICO pode ser escrito como união disjunta da famı́lia não-enumerável dos segmentos [0 ≤ x ≤ 1]×{y}, em que 0 ≤ y ≤ 1, sendo nula a área de cada um dos segmentos e igual a 1 a área total do retângulo. Também, como conseqüência de que a probabilidade de [X = c] é igual a 0 se 0 ≤ c < 5, tem-se que: se 0 ≤ a < b < 5, ou seja, as probabilidades dos conjuntos [a ≤ X ≤ b], [a ≤ X < b], [a < X ≤ b] e [a < X < b] são todas (b− a)/5. Observe que, diferentemente do exemplo 1.2.1, em que a probabi- lidade estava concentrada em um número finito de valores de X, aqui a probabilidade de qualquer conjunto [X = c] é nula e, conseqüente- mente, o interesse está nas probabilidades de outros conjuntos como, por exemplo, as imagens inversas de intervalos, tal como vimos no parágrafo precedente. Exemplo 1.2.3. [Alvo] Um indiv́ıduo atira num alvo a uma distância de vinte metros. O alvo consiste de um ćırculo de madeira de 2 m de raio com um ponto C marcado no seu centro. Assuma que o atirador sempre acerta o plano Π determinado pelo ćırculo e que, mediante algum dispositivo, seja posśıvel detectar o ponto P em que o disparo atravessa Π. Neste caso, o espaço dos resultados pode ser representado pelo conjunto Ω = {P/P ∈ Π}. Define-se a variável X = distância (P,C) e é claro que Imagem(X) = R+ = {r ∈ R/r ≥ 0}. Este exemplo tem alguns aspectos semelhantes ao exemplo 1.2.2, no sentido de que a probabilidade de qualquer subconjunto A de Ω deve ter alguma relação com a área de A. Em primeiro lugar, é razoável pensar que se área(A) = 0, então P(A) = 0, como ocorre no exemplo 1.2.2. Mas, neste caso, não mais se sustenta a hipótese de que a probabilidade deva ser diretamente proporcional à área, já que um atirador razoável acertará com maior freqüência o ćırculo de centro C e raio 5 metros (cuja área é 25πm2) do que o seu complementar (cuja área é infinita). Neste momento, não preocupar-nos-emos em criar um modelo mais ou menos preciso para X, como fizéramos no exemplo 1.2.2, por sua maior complexidade, mas apresentamos, na figura 1.2, uma simu- lação do desempenho comparado de quinhentos atiradores amadores e quinhentos profissionais. Note que, no caso dos amadores, a dis- tribuição espacial das flechas não é proporcional à área. À primeira [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 11 vista, no entanto, existiria certa proporcionalidade no caso dos profis- sionais. Essa idéia inicial é um eqúıvoco, fruto da escala dos gráficos, tendo os profissionais comportamento análogo ao dos amadores desde que a escala seja escolhida de forma adequada. As escalas adequadas são diferentes pelo simples fato de que os profissionais são mais pre- cisos e, portanto, suas flechas se concentram de forma bem mais acen- tuada em torno do centro do alvo. Note que a grande maioria de suas flechas acertou uma região menor (centro preto do exemplo 1.2.4), enquanto os amadores tem suas flechas espalhadas por todo o alvo e várias caindo fora do mesmo. Desempenho de Quinhentos Atiradores Amadores (a) 12 [CAP. 1: MODELO PROBABIĹISTICO Desempenho de Quinhentos Atiradores Profissionais (b) Figura 1.1: Tiro ao Alvo - (a) Treino de Amadores (b) Treino de Profissionais Exemplo 1.2.4 (Alvo II). Consideremos uma situação igual à do exemplo 1.2.3, com exceção de que agora o alvo tem um centro preto de 50 cm de diâmetro e o resto do ćırculo (um anel) de madeira está pintado de branco. O atirador ganha 8 pontos se acertar no centro, 2 se acertar na parte branca e −5 se não acertar na placa do alvo. Seja Ω o mesmo conjunto do exemplo 1.2.3. Agora, no entanto, definiremos a variável Y (pontuação) da seguinte forma: Y (ω) = 8 se ω estiver no centro preto; 2 se ω estiver na parte branca da placa; e −5 se ω estiver fora da placa. Esta situação é semelhante à descrita no exemplo 1.2.1 e seria, portanto, interessante determinar as probabilidades dos conjuntos: [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 13 [Y = −5], [Y = 2] e [Y = 8]. Uma observação que o leitor atento já se deve ter feito é a de que esse exemplo do alvo e da importância factual apenas dos valores de Y , contrastada com o exato ponto em que a flecha atinge o plano π nos mostra a abundância excessiva de informação de Ω para os nossos propósitos e que a introdução de uma variável aleatória nos possibilita calcular probabilidades apenas para os casos de interesse, em vez de fazê-lo para uma classe de subcon- juntos de Ω grande demais. Exemplo 1.2.5 (Tempo de Prova). Os alunos inscritos na disciplina ‘Probabilidade I’ são submetidos a uma prova cuja duração máxima é de duas horas. Anota-se o tempo demorado X por cada aluno para entregá-la. Defina formalmente Ω e X. É fácil que haja empates nos tempos de entrega? Em que valor eles ocorreriam? Definição 1.2.1 (Variável Aleatória). Seja (Ω,F ,P) o espaço de probabilidade associado a um experimento aleatório. Uma função X : Ω → R é dita uma variável aleatória se: {ω/X(ω) ∈ I} = [X ∈ I] = X−1(I) ∈ F , para todo intervalo I ⊂ R. Observação 1.2.1. A definição acima foi feita para possibilitar o cálculo das probabilidades dos conjuntos [X ∈ I], para todo intervalo I ⊂ R. Definição 1.2.2 (Pontos Isolados). Um subconjunto A de R é um conjunto de pontos isolados se satisfaz a seguinte propriedade: para todo a ∈ A, existe um intervalo aberto Ia tal que Ia ∩A = {a}. Observação 1.2.2. Conhecer as probabilidades dos conjuntos [X ∈ I] para todo intervalo I ⊂ R é fundamental no exemplo 1.2.2; o mesmo acontece nos exemplos 1.2.3, 1.2.5, sendo óbvio que a definição 1.2.1 nos possibilita trabalhar nesses casos. Também em todos os e- xemplos citados neste parágrafo, com exceção do exemplo 1.2.5, as probabilidades dos conjuntos [X = x] são nulas. Já no exemplo 1.2.1 (também nos exemplos 1.2.4, 1.2.5), o inte- resse maior estaria centrado em calcular as probabilidade de conjun- tos do tipo [X = x], para x ∈ R. Em todos estes casos, Imagem(X) 14 [CAP. 1: MODELO PROBABIĹISTICO é um conjunto finito e, portanto, todos estes casos também são con- templados pela definição 1.2.1, dado que: • se x /∈ Imagem(X), então [X = x] = φ ∈ F ; • se Imagem(X) for um conjunto finito e x ∈ Imagem(X), então existe um intervalo I ⊂ R tal que [X = x] = [X ∈ I] - basta tomar I = (x− ϕ, x + ϕ), em que 0 < ϕ < min |x, y| (sendo essa minimização feita para o conjunto de y’s tais que y ∈ Imagem(X), y 6= x) e, portanto, [X = x] ∈ F ; • mais geralmente, se Imagem(X) for um conjunto de pontos isolados e x ∈ Imagem(X), é obvio que [X = x] ∈ F , dado que basta considerar qualquer intervalo I ⊂ R tal que x ∈ I e I ∩ Imagem(X) = {x} (veja definição 1.2.2) pois, neste caso, [X = x] = [X ∈ I]. Podemos dizer que a definição 1.2.1 é apta para responder a todas as perguntas de interesse relativasaos exemplos acima. Uma pergunta que o leitor ainda deve ter é sobre a utilidade da definição 1.2.1 para lidar com variáveis categóricas, isto é, que divi- dam as possibilidades de ocorrências em categorias como, por exem- plo, ser ou não fumante ou o primeiro parto, como no exemplo 1.2.2. Não é nosso objetivo exaurir todas as questões relevantes que se po- dem colocar diante dos leitores mas, nesse caso, uma posśıvel solução seria a de se criarem variáveis binárias que em conjunto represen- tem a variável categórica de interesse e, através daquelas, utilizar a definição 1.2.1. 1.2.1 Função de Distribuição Acumulada Dada uma variável aleatória X, é fácil verificar que, para todo r ∈ R, o conjunto [X ≤ r] = {ω/X(ω) ≤ r} ∈ F , dado que se m = max {z ∈ Z/z ≤ r}, então: [X ≤ r] = ⋃ n∈Z,n≤m [n− 1 < X ≤ n] ∪ [m < X ≤ r], [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 15 (se r for inteiro, então m = r e [m < X < r] = φ). Também, dado que o conjunto [X ≤ r] foi escrito como a união disjunta de uma subfamı́lia enumerável de conjuntos da famı́lia {[a < X ≤ b], a, b ∈ R, a < b}, é posśıvel calcular as probabilidades dos conjuntos [X ≤ r] = {ω/X(ω) ≤ r], r ∈ R a partir das probabilida- des dos conjuntos {[a < X ≤ b], a, b ∈ R, a < b}. Reciprocamente, veremos que, a partir das probabilidades dos conjuntos {[X ≤ r, r ∈ R]}, será posśıvel obter as probabilidades dos conjuntos [X ∈ I], para qualquer intervalo I ⊂ R. Por exemplo, se a < b, então [X ≤ b] = [X ≤ a] ∪ [a < X ≤ b] e, portanto, P([a < X ≤ b]) = P([X ≤ b])− P([X ≤ a]). Além de se obterem as probabilidades dos conjuntos [X ∈ I], I ⊂ R, será posśıvel, a partir das probabilidades de conjuntos do tipo [X ≤ a], achar as probabilidades de outros muitos conjuntos interessantes. Finalmente, para condensar a informação contida nos conjuntos {[X ≤ r], r ∈ R}, define-se a função de distribuição acumulada da variável aleatória X a seguir. Definição 1.2.3 (Função de Distribuição Acumulada). A função de distribuição acumulada da variável aleatória X é a seguinte função F : R → [0, 1]: F (r) = P([X ≤ r]) = P({ω/X(ω) ≤ r, r ∈ R}), para todo r ∈ R. Muitas vezes, será conveniente denotar F por FX , para salientar que se trata da função de distribuição acumulada associada à variável aleatória X (por exemplo, quando se trabalha com várias variáveis aleatórias simultaneamente). A função de distribuição acumulada receberá a abreviação f.d. . Teorema 1.2.1 (Propriedades da Função de Distribuição). Seja X uma variável aleatória definida no espaço de probabilidade (Ω,F ,P). Então, a função de distribuição acumulada F de X tem as seguintes propriedades: a) F é monótona não decrescente; b) F é cont́ınua à direita, ou seja, limt→r+ F (t) = F (r); e c) limt→−∞ F (t) = 0 e limt→∞ F (t) = 1. 16 [CAP. 1: MODELO PROBABIĹISTICO Demonstração: a) É conseqüência do seguinte fato: se a < b, então [X ≤ a] ⊂ [X ≤ b]; b) Dado que F é monótona, existe limt→r+ F (t) e também vale que limt→r+ F (t) = limn→∞ F (tn), para qualquer seqüência tal que tn → r+. Consideremos, então, a seqüência tn = r + 1/n: verifica-se que limt→r+ F (t) = limn→∞ F (tn) = F (r), dado que a seqüência decres- cente de conjuntos {[X ≤ r + 1/n], n ∈ N} converge para o conjunto [X ≤ r]; e c) Sendo F monótona, existem limt→ −∞ F (t) e limt→∞ F (t) e estes podem ser calculados através de quaisquer seqüências cujos ‘limites’ sejam −∞ e +∞, respectivamente. Por exemplo: limt→−∞ F (t) = limm→−∞ F (m) e limt→∞ F (t) = limn→∞ F (n), em que n ∈ N e m = −n e basta-nos então considerar as seqüências de conjuntos {[X ≤ −n], n ∈ N} e {[X ≤ n], n ∈ N} e observar que a primeira delas decresce para φ e que a segunda cresce para Ω. ¥ Teorema 1.2.2 (Rećıproco do Teorema 1.2.1). Seja F : R → R tal que: a) F é monótona não-decrescente; b) F é cont́ınua à direita, ou seja, limt→r+ F (t) = F (r); e c) limt→−∞F (t) = 0 e limt→∞F (t) = 1. Nessas condições: i) Existe uma variável aleatória X definida em um espaço de proba- bilidade (Ω,F ,P) cuja função de distribuição acumulada é F ; ii) A probabilidade PX definida nos borelianos de R por: PX(B) = P(X−1(B)) = P({ω/X(ω) ∈ B}) é única e obviamente determinada pela função F . O teorema 1.2.2 é de natureza puramente técnica, de certa forma não-construtiva, pois não sabemos de qual caracteŕıstica (variável aleatória) F é a função de distribuição acumulada. Além disso, sua demonstração exige conhecimentos matemáticos bem além dos exigi- dos neste curso e será, portanto, omitida. No entanto, é fundamental para a Inferência Estat́ıstica, em validar existência de distribuições associadas à caracteŕısticas amostrais. [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 17 Teorema 1.2.3 (Descontinuidades da Função de Distribuição). Seja F a função de distribuição acumulada da variável aleatória X. Então: a) Existem e são finitos os limites laterais de F para todo t ∈ R; além disso, satisfazem limt→r− F (t) ≤ limt→r+ F (t); b)limt→r+ F (t) = F (r); c) F é descont́ınua em r ∈ R se e somente se limt→r− F (t) < F (t) e, portanto, toda descontinuidade consiste em um salto; d) para todo r ∈ R, vale que P(X = r) = F (r) − limt→r− F (t) = salto de F em r (este salto pode ser inclusive 0, em caso de um ponto de continuidade); e) existe, no máximo, um número enumerável de descontinuidades. Demonstração: a) a existência e finitude dos limites laterais decorre do fato de F ser monótona e limitada; também, sendo F monótona não decrescente, então, para todo r ∈ R, limt→r− F (t) ≤ limt→r+ F (t); b) é conseqüência da continuidade à direita de F ; c) decorre do fato de ser F monótona não decrescente; d) para todo r ∈ R , o conjunto [X = r] é limite da seqüência decrescente [r − 1/n < X ≤ r]; e e) por definição, salto de F em t é igual a lim t→r+ F (t)− lim t→r− F (t); então, sendo F monótona, # ( {t/salto de F em t > 1 n } ) × 1 n ≤ 1 = sup t∈R F (t)− inf t∈R F (t), para todo n ∈ N. Portanto, #({t/salto de F em t > 1/n}) é finito para todo n ∈ N e, conseqüentemente, {saltos de F} = ⋃ n∈N {salto de F/ salto > 1/n} é no máximo enumerável. ¥ Observação 1.2.3. As demonstrações dos teoremas 1.2.2 e 1.2.3 utilizam conceitos de análise. Em caso de dúvidas, seria bom que 18 [CAP. 1: MODELO PROBABIĹISTICO o leitor interessado procurasse um bom livro de análise como, por exemplo, o excelente [64]. Os pontos e amplitudes dos saltos da f.d. têm, portanto, grande importância na Teoria de Probabilidade e seu estudo motiva a seguinte definição associada. Definição 1.2.4 (Função de Massa). Seja X uma variável aleatória definida no espaço de probabilidade (Ω,F ,P), com função de dis- tribuição acumulada F . A função de massa de probabilidade da variável aleatória X é a função p : R→ R definida por: p(r) = P(X = r) = P({ω/X(ω) = r}). Lembre que, pelo item d do teorema 1.2.3, para todo r ∈ R, tem-se P(X = r) = F (r)− limt→r− F (t) = salto de F em r. 1.2.2 Variáveis Aleatórias Discretas Estudaremos aqui aquelas variáveis aleatórias X : Ω → R cujas ima- gens sejam algum conjunto finito ou enumerável. No caso enumerável, acrescentaremos a condição de que os pontos da Imagem(X) sejam isolados. Definição 1.2.5 (Variável Aleatória Discreta). Seja (Ω,A,P) o es- paço de probabilidade associado a um experimento aleatório. Uma função X : Ω → R é dita uma variável aleatória discreta se: i) Imagem(X) é um conjunto finito ou um conjunto enumerável de pontos isolados; e ii) [X = x] = X−1(x) ∈ A, para todo x ∈ Imagem(X). Observação 1.2.4. Se Imagem(X) = {αi}i∈N, então é claro que: {[X = αi]}i∈N é uma partição de Ω e, portanto, ∑ i∈N P(X = αi) = 1. Um conjunto de resultados muito importantes pode ser resumido pela seguinte proposição. [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 19 Proposição 1.2.1 (Propriedades de uma Variável Discreta). Seja X uma variável aleatóriadiscreta (definição 1.2.5). Então: (i) X satisfaz a definição 1.2.1 de uma variável aleatória; ii) X satisfaz ∑ r∈R p(r) = ∑ r∈R P(X = r) = 1, em que p é a função de massa de probabilidade de X e P(X = r) > 0 se e somente se r ∈ Imagem(X); e iii) Se Imagem(X) = {αi}i∈N, então: X = ∑ i∈N αiIAi , em que Ai = X−1(αi) para todo i ∈ N e, se F é a função de dis- tribuição acumulada de X, tem-se que: F (t) = ∑ r≤t p(r) = ∑ αi≤t P(X = αi) = ∑ i∈N P(X = αi)I[αi,∞)(t). Considere-se um evento A ∈ F . Defina-se a v.a. indicadora do evento A, denotada por IA, por IA(ω) = { 1 se ω ∈ A 0 c.c. O leitor pode verificar que IA é uma v.a. em (Ω,F ,P). Além disso, é uma v.a. discreta, com dois resultados posśıveis: 0 ou 1. Sua função de massa p é descrita por p(1) = P(A) e p(0) = P(Ac) = 1− P(A). A demonstração da proposição 1.2.1 é deixada a cargo do leitor. Notemos, como sua conseqüência mais importante é que, para verifi- carmos se uma determinada seqüência {pi, i ∈ I} (seja I um conjunto finito ou não, desde que enumerável) representa as probabilidades de alguma variável aleatória discreta, basta-nos verificar que ∑ i∈I pi = 1; e (1.1) pi ≥ 0, ∀i ∈ I, (1.2) 20 [CAP. 1: MODELO PROBABIĹISTICO ou seja, toda a probabilidade deve estar concentrada em I (por (1.1)) e todos os pi’s devem ser não-negativos (por (1.2)), para que possam ser realmente probabilidades. Lembrem-se que ∀A ∈ F , 0 ≤ P(A) ≤ 1. Caso ambas as condições sejam satisfeitas, diz-se que {pi, i ∈ I} é uma função de massa fidedigna. 1.2.3 Distribuições Cont́ınuas Definição 1.2.6 (Variável Aleatória Cont́ınua). X é dita cont́ınua se sua função de distribuição acumulada FX for uma função cont́ınua. Equivalentemente, X é cont́ınua se e somente se p(t) = P(X = t) = 0 para todo t ∈ R. Exemplo 1.2.6 (Distribuição Uniforme). Seja X a variável aleatória definida no exemplo 1.2.2. Foi visto que FX é dada por: FX(t) = 0 t < 0, t/5 0 ≤ t < 5, 1 t ≥ 5; Exemplo 1.2.7 (Distribuição Cauchy). Seja V uma variável aleatória cuja função de distribuição acumulada FV (t) é dada por: FV (t) = 1 2 + 1 π tan−1 t, para todo t ∈ R, em que tan−1 é a função inversa de tan : (−π/2, π/2) → R. Note que, no caso da variável V , para todo t ∈ R, existe a derivada de FV (t), sendo fT (t) = (FT )′(t) = 1 π 1 1 + t2 . Quando existe fT (t) = (FT )′(t) para todo t, o teorema fundamen- tal do cálculo integral afirma que, para todo s, t ∈ R, s < t: P(s < T ≤ t) = FT (t)− FT (s) = ∫ t s fT (u)du. [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 21 Tomando-se s → −∞ na equação acima, obtém-se FT (t) = ∫ t −∞ fT (u)du. Observe-se que, sendo FT monótona não decrescente e fT cont́ı- nua, fT (t) ≥ 0 para todo t ∈ R. Muitas vezes, a função de distribuição acumulada, F , de uma certa variável aleatória satisfaz F (t) − F (s) = ∫ t s f(u)du, em que f é uma função não-negativa, integrável, mas não necessariamente cont́ınua. Isto ocorre, por exemplo, no caso da função de distribuição acumulada FX(t) da variável X do exemplo 1.2.2, para a qual (FX)′(t) = 0 t < 0, 1/5 0 < t < 5, 0 t > 5 e que (FX)′(t) não existe em 0 e 5; também observa-se que, além de não estar definida em 0 e 5, (FX)′ tem descontinuidades essenciais em 0 ou 5, já que, nesses pontos, não coincidem os limites laterais. Entretanto, é fácil verificar que FX(t) satisfaz: FX(t)− FX(s) = ∫ t s (FX)′(u)du, se s, t ∈ R, s < t, sendo irrelevante para a validade da igualdade acima o fato de (FX)′ não estar definida em 0 e 5 (ou em qualquer conjunto finito de pontos). Definição 1.2.7 (Função de Densidade). Seja X uma variável alea- tória cont́ınua e FX sua função de distribuição acumulada. Uma função fX não-negativa e integrável em R é dita função de densi- dade de probabilidade de X se FX(t)− FX(s) = ∫ t s fX(u)du, para s, t ∈ R, s < t. De forma análoga à notação da função de distribuição acumulada, f é denotada por fX , quando se fizer necessária a distinção entre 22 [CAP. 1: MODELO PROBABIĹISTICO várias variáveis aleatórias. Além disso, nessas condições, a variável aleatória X é dita absolutamente cont́ınua. Veja que, caso exista uma densidade para a variável aleatória cont́ınua X com função de distribuição acumulada FX , ela não será única, no sentido de que, se a modificarmos num número finito de pontos, esta nova função continua a satisfazer o teorema fundamen- tal do cálculo integral para FX e, portanto, também é uma função de densidade de X. Com isso, é usual utilizarmo-nos da função de densidade de X que tiver menos pontos de descontinuidades e, caso posśıvel, que seja cont́ınua. Como f é uma função limitada (por ser integrável), se F satisfaz F (t)− F (s) = ∫ t s f(u)du, para s, t ∈ R, s < t, necessariamente F será uniformemente cont́ınua, já que, se s, t ∈ R e s < t, |F (t)− F (s)| = F (t)− F (s) = ∫ t s f(u)du ≤ (t− s) sup x∈R f(x). De forma análoga ao caso discreto, iremos chamar de uma função de densidade fidedigna toda função f tal que: f(x) ≥ 0 ∀x ∈ R e ∫ +∞ −∞ f(x)dx = 1. (1.3) Claramente a não-negatividade de f é fundamental para que F , definida em f , no esṕırito da definição 1.2.7 seja monótona não- decrescente mas que sua integral seja 1 pode ser facilmente contor- nada por uma transformação desde que sua integral seja estritamente positiva. Finalmente, existem distribuições cont́ınuas que não são absoluta- mente cont́ınuas mas estão fora do escopo deste livro a construção de um exemplo ou uma discussão mais aprofundada do assunto. Nesse esṕırito, iremos utilizar os termos absolutamente cont́ınua e cont́ınua sem maiores preocupações, ao longo do texto. [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 23 1.2.4 Seqüência de Variáveis Aleatórias Definido um espaço de probabilidade e estudada uma variável alea- tória, um próximo passo é o estudo de uma seqüência de variáveis aleatórias definidas num mesmo espaço de probabilidade. A noção de seqüência de variáveis aleatórias é basal para uma multiplicidade de áreas como Processos Estocásticos, Teoria de Sinais, Teoria de Controle, entre outras. Para o nosso texto, ela é fundamental na construção de funções de distribuição emṕıricas e do Teorema Fundamental da Estat́ıstica (Glivenko-Cantelli), que estudaremos ao final deste caṕıtulo. Há vários detalhes técnicos que omitiremos mas que não comprometem a utilização do conceito no resto do texto. Definição 1.2.8 (Seqüência de Variáveis Aleatórias). Considere (Ω, F ,P). X1, X2, . . . é uma seqüência de variáveis aleatórias definidas em (Ω,F ,P) se Xi é uma variável aleatória definida em (Ω,F ,P), para i ≥ 1. No caso de Inferência Estat́ıstica, um caso particular importan- t́ıssimo é aquele das variáveis aleatórias independentes. Definição 1.2.9 (Independência de Variáveis Aleatórias). (i) Sejam X1, . . . , Xn variáveis aleatórias definidas num espaço de probabilidade (Ω,F ,P). Sua função de distribuição conjunta é dada por: FX1,...,Xn(x1, . . . , xn) = P (X1 ≤ x1, . . . , Xn ≤ xn) ∀x1, . . . , xn ∈ R. (ii) X1, . . . , Xn são ditas independentes se FX1,...,Xn(x1, . . . , xn) = FX1(x1)× · · · × FXn(xn) ∀x1, . . . , xn ∈ R. (iii) Uma seqüência de v.a.’s definidas em (Ω,F ,P) é dita indepen- dente se X1, . . . , Xn são independentes ∀n ≥ 2. Um caso particular da definição 1.2.9 é dado a seguir. Usa-se o mesmo termo i.i.d. para conjuntos finitos X1, . . . , Xn. Definição 1.2.10 (Seqüência de Variáveis Aleatórias i.i.d.). Uma seqüência de v.a.’s definidas em (Ω,F ,P) é dita i.i.d. se X1, . . . , Xn são independentes ∀n ≥ 2 e FXi ≡ FX1 para todo i = 2, . . .. 24 [CAP. 1: MODELO PROBABIĹISTICO 1.2.5 Momentos e Outras Medidas de Posição e Dispersão Definição 1.2.11 (Esperança de uma v.a. com Imagem Finita). Considere-se uma variável aleatória discreta X, com imagem {x1,. . . , xn}, e seja p sua função de massa. Então, o ‘valor esperado’ (ou valor médio) da variável X, denotada por E(X), é a seguinte média ponderada: E(X) = n∑ i=1 xip(xi). Podemos estender sem dificuldades a definição para v.a.’s discre- tas com imagem infinita. Definição 1.2.12 (Esperança de uma Variável Aleatória Discreta). Seja X uma variável aleatória discreta, com imagem {x1, x2, . . .}, e função de massa p. Sua esperança é dada por E(X) = +∞∑ i=1 xip(xi), quando essa soma (infinita) converge. Uma questão natural é a da extensão de tal conceito para variáveis aleatórias de qualquer natureza, isto é, que não sejam necessaria- mente discretas. Foge aos objetivos deste livro o tratamento sis- temático de variáveis aleatórias que não sejam discretas ou absoluta- mente cont́ınuas. No entanto, falta-nos ainda uma definição de con- ceito equivalente para o caso de variáveis aleatórias (absolutamente) cont́ınuas. Primeiramente, qual a interpretação que se pode dar a conceitos como os expostos nas definições 1.2.11 e 1.2.12? Claramente, a uti- lização de um valor esperado era o de caracterizar um valor relevante ou de alguma forma central no conjunto de todos os valores posśıveis do que a média de todos eles. Quando distanciamo-nos da noção clássica de probabilidade, aceitando probabilidades diferentes para eventos discretos, por exemplo, a idéia de um valor central se torna mais complicada numa primeira leitura. O que ele faz, no entanto, [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 25 é simplesmente, substituir a média geral por uma média ponderada pelas respectivas probabilidades, o que é exatamente a interpretação da definição 1.2.11. Como interpretar a esperança de v.a.’s discretas (mas de infinitos valores), como o exposto na definição 1.2.12? Se pensarmos, intuitivamente, em que podemos definir valores espera- dos para cada conjunto finito de valores posśıveis: {x1, x2, . . . , xk} e tomar seu limite quando k → ∞12, teŕıamos que a esperança de uma v.a. discreta com conjunto de valores posśıveis infinito seria resultado de uma reavaliação sistemática das esperanças das v.a’s definidas em conjuntos finitos, quando do aumento do conjunto de valores posśıveis. Qualquer precisa formulação de um valor carac- teŕıstico (como deve ser a esperança) deveria ser robusto a tais mu- danças e é isto que a definição 1.2.12 nos traz sobre a definição 1.2.11. Embúıdos de tal esṕırito, devemos também lembrar que a noção de densidade e função de massa tem similaridades que por nós devem ser utilizadas para que possamos definir a esperança de uma variável cont́ınua analogamente à de uma discreta. Definição 1.2.13 (Esperança de uma Variável Aleatória Cont́ınua). Seja X uma variável aleatória cont́ınua com densidade f . Define-se a esperança de X, denotada por E(X), como E(X) = ∫ +∞ −∞ xf(x) dx, quando esta integral (infinita) existe. A esperança é um operador linear positivo, isto é, Proposição 1.2.2 (Propriedades da Esperança). (a) Seja X uma variável aleatória positiva. Então, E(X) > 0. (b) E(1) = 1; (c) Se a ∈ R então, E(aX) = aE(X); e (d) E(X + b) = E(X) + b, ∀b ∈ R. 1conceito equivalente à definição de uma série como o limite de somas quando o conjunto de ı́ndices cresce. 2Há que se tomar cuidado com a idéia de fazer tal operação de limite mas esses problemas fogem ao grau de complexidade deste livro. 26 [CAP. 1: MODELO PROBABIĹISTICO Demonstração: Primeiramente, o resultado (b) é muito simples: 1 pode ser visto como uma v.a. discreta assumindo somente um valor: 1. Tem, por- tanto, função de massa dada por p(1) = 1, p(x) = 0 caso x 6= 1 e o resultado é aplicação imediata da definição 1.2.12. A demonstração dos outros resultados pode ser decomposta em dois casos, de acordo com a variável ser discreta ou (absolutamente) cont́ınua. Caso Discreto: (a) Sendo a variável aleatória positiva, sua esperança nada mais é do que uma soma de quantidades positivas, sendo portanto positiva; (c) Sem perda de generalidade, vamos supor que X ∈ {x1, x2, . . .}, com função de massa pX . A v.a. aX tem imagem {ax1, ax2, . . .} e sua função de massa, paX , atende a paX(axi) = pX(xi), para qualquer i ≥ 1. Portanto, E(aX) = ∞∑ i=1 axipaX(axi) = a ∞∑ i=1 xipX(xi) = aE(X). (d) Seja Y = X+b. Sendo, sem perda de generalidade, Imagem(X) = {x1, x2, . . .}, temos Imagem(Y ) = {x1 + b, x2 + b, . . .}. Além disso, pY (k) = pX(k − b). Portanto, E(Y ) = ∑ k∈ImY kpY (k) = ∑ m∈ImX (m + b)pX(m) = ( ∑ m∈ImX mpX(m) ) + b = E(X) + b. [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 27 Caso (absolutamente) Cont́ınuo: (a) Sendo a variável aleatória positiva, sua esperança nada mais é do que uma integral do produto de duas funções positivas, sendo portanto positiva; (c) Se a = 0, o resultado é trivial. Se a > 0, seja fX a densidade de X. A v.a. aX tem por função de distribuição acumulada P(aX ≤ x) = P(X ≤ x/a) = ∫ x/a −∞ fX(t) dt. Usando-se a mudança de variável: u = at, temos P(aX ≤ x) = ∫ x −∞ 1 a fX(u/a) du. Conseqüentemente, aX é uma variável aleatória cont́ınua, com densidade 1afX(u/a). Segue que E(aX) = ∫ +∞ −∞ u a fX(u/a) du. Usando-se t = u/a, tem-se E(aX) = ∫ +∞ −∞ atfX(t) dt = aE(X). O caso a < 0 é semelhante e será tratado no Exerćıcio 1.33. (d) Seja Y = X + b. A distribuição acumulada de Y é dada por FY (x) = FX+b(x) = P(X + b ≤ x) = P(X ≤ x− b) = FX+b(x) = ∫ x−b −∞ fX(t) dt = ∫ x −∞ fX(u− b) du. Portanto, Y = X + b tem densidade fX(· − b) e 28 [CAP. 1: MODELO PROBABIĹISTICO E(X + b) = ∫ +∞ −∞ tfX(t− b) dt = ∫ +∞ −∞ (u + b)fX(u) du = ∫ +∞ −∞ ufX(u) du + b = E(X) + b. ¥ Um resultado muito simples mas extremamente interessante que relaciona de forma direta os conceitos de probabilidade e esperança é dado na proposição a seguir. Proposição 1.2.3 (Esperança da Função Indicadora). Para qualquer evento A ∈ F , tem-se E(IA) = P(A). Demonstração: Por sua própria definição, E(IA) pode ser escrita como E(IA) = 0× (1− P(A)) + 1× P(A). ¥ Uma aplicação imediata da proposição 1.2.3 gera um dos resulta- dos fundamentais da Teoria de Probabilidade: a Desigualdade de Markov. Teorema 1.2.4 (Desigualdade de Markov). Seja X uma variável aleatória positiva e a > 0 real. Então, P(X > a) ≤ E(X) a Demonstração: Caso E(X) não seja finita, o resultado é trivial, com desigualdade estrita. Considere o evento A = {X > a}. Note que Ω = A ∪Ac, [X = x] = [X = x, ω ∈ A] ⋃ [X = x, ω ∈ Ac] e, para cada ω ∈ Ω, IA(ω) + IAc(ω) = 1, [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 29 pois ω ∈ A ou ω ∈ Ac exclusivamente. Portanto, X = XIA + XIAc = XI[X>a] + XIAc ≥ aIA em que usamos que X ≥ 0. Segue das propriedades de linearidade e positividade da esperança e da proposição 1.2.3 que E(X) ≥ aE(IA) = aP(X > a). ¥ Exemplo 1.2.8 (Desigualdade de Markov para a Bernoulli). Suponha que X possa assumir apenas os valores 0 e 1, com respectivas proba- bilidades 1− p e p, em que 0 ≤ p ≤ 1. Sabemos, portanto que: P(X > a) = { p 0 < a < 1 0 1 ≤ a (1.4) Mas, por outro lado, sabemos que E(X) = 0× (1− p) + 1× p = p, e, pela desigualdade de Markov 1.2.4, temos o seguinte limite para P(X > a), a > 0: P(X > a) < E(X) a = p a . (1.5) Note que os valores dados pela desigualdade são tão maiores quanto maior for o valor da probabilidade de se obter X = 1 e inversa- mente proporcionais ao ińıcio da cauda, a. O verdadeiro valor caudal, no entanto, tem comportamento dicotômico, isto é, assume apenas dois valores: p ou 0. A importância do ińıcio da cauda, a, é ape- nas para compará-lo com 1. É muito importante levar em conta que a desigualdade de Markov fornece valores universais, no sentido de que independem das distribuições das variáveis aleatórias (dependem apenas da esperança), razão por que são úteis. Porém, exatamente por isso, seu comportamento será heterogêneo, provendo valores ex- tremamente finos por vezes e grosseirospor outras. Na figura 1.2.5, ilustramos os comentários acima para alguns casos de p. Note que o valor fornecido por (1.5) chega a ser 100 vezes maior do que o verdadeiro valor, dado por (1.4), para p = 0, 9, com valores 30 [CAP. 1: MODELO PROBABIĹISTICO aproximados de P(X > a) iguais a 90, ou seja, completamente inúteis. As comparações são realizadas apenas para 0 < a < 1, pois P(X > a) = 0, para a ≥ 1. Para esses valores de a, a aproximação fornecida pela desigualdade se torna extremamente ruim. O comportamento da razão valor estimado / valor verdadeiro é homogêneo para p ∈ (0, 1). Figura 1.2: Desigualdade de Markov para a Bernoulli 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 10 20 30 40 50 60 70 80 90 100 p=0,9 a ap ro x. /v er d. aprox./verd. 1 Exemplo 1.2.9 (Desigualdade de Markov para a Exponencial). Suponha que X tenha densidade dada por f(x) = exp (−x)IR+(x). Claramente P(X > 0) = 1. Sua esperança é dada por: E(X) = ∫ +∞ 0 x exp (−x)dx = 1. [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 31 Observe-se que, se g fosse uma função não-decrescente, positiva e se E(g(X)) existisse, escrevendo-se g(X) = g(X)IA + g(X)IAc ≥ g(a)1A, teŕıamos P(X > a) ≤ E(g(X)) g(a) . (1.6) Portanto, é interessante podermos calcular valores esperados não somente de variáveis aleatórias mas de funções adequadas das mes- mas. Para isso, precisamos de dois resultados muito gerais e impor- tantes. Suponha que X seja uma variável discreta com função de massa p: denotamos Imagem(X) sua imagem, isto é, Imagem(X) = {x ∈ R|p(x) > 0}. Analogamente, caso X seja uma variável aleatória cont́ınua com densidade f , Imagem(X) = {x ∈ R|f(x) > 0}. Ao definirmos uma variável aleatória, supomos ter esssa uma determi- nada caracteŕıstica de imagem inversa na σ-álgebra. Essa necessidade de ligação traz consigo duas reflexões: quão dif́ıcil é a existência de tais ligações e podemos definir novas variáveis aleatórias a partir de antigas, sem precisar retornar à σ-álgebra? A primeira questão é bastante técnica e foi respondida, de forma positiva, sem maiores justificativas, no começo desta seção. A se- gunda será aqui brevemente comentada, com resposta também posi- tiva, para um conjunto de funções tão grande que o leitor não se deve mais ocupar com tal assunto, ao ńıvel deste curso. Lema 1.2.1 (Transformação de Variáveis Aleatórias). Sejam: X uma variável aleatória em (Ω,F ,P); e g uma função de Imagem(X) em J ⊂ R, tal que, qualquer que seja I intervalo de R, o conjunto g−1(I) também é um intervalo de R. Então, g(X) é uma variável aleatória em (Ω,F ,P). Demonstração: Seja I um intervalo de R. Pelas propriedades de inversas de funções compostas, temos (g(X))−1(I) = X−1(g−1(I)). Como, por hipótese, g−1(I) é um intervalo de R e X−1(J) ∈ F , para qualquer intervalo real J , pois X é uma v.a. de (Ω,F ,P), conclúımos que X−1(g−1(I)) ∈ F e portanto g(X) é uma variável aleatória em (Ω,F ,P). ¥ Neste ponto, não nos interessa estudar em detalhes a distribuição 32 [CAP. 1: MODELO PROBABIĹISTICO da nova variável aleatória g(X). Para nossos objetivos, basta-nos caracterizar sua esperança, como determinada na proposição a seguir. Proposição 1.2.4 (Esperança da Transformação de V.a.’s). Seja g uma função mensurável e X uma v.a. (a) discreta, com funçao de massa pX e imagem Imagem(X). Então, E(g(X)) = ∑ k∈Imagem(X) g(k)pX(k); e (b) cont́ınua, com densidade fX . Então, E(g(X)) = ∫ ∞ −∞ g(t)fX(t) dt. No entanto, mesmo sabendo calcular E(g(X)), para qualquer g mensurável, o leitor deve estar questionando a utilidade prática de resultado como (1.6), pois de que maneira podeŕıamos decidir qual a função g adequada para uma determinada situação? A seguir, defi- nimos uma série de funções g simples que, no entanto, são bastante úteis para essa finalidade. Uma aplicação direta da Desigualdade de Markov (em sua versão dada por (1.6)), com função g do tipo: x 7→ x2, x 7→ x3,. . ., x 7→ xk é a seguinte: P(X > a) ≤ E(X k) ak , (1.7) para todo a positivo. O conhecimento dos valores E(Xk) pode então revelar-se muito interessante quando queremos controlar a probabilidade de um evento raro, do tipo P(X > a)3 4. 3Intuitivamente, um evento raro deve ser caracterizado por uma baixa proba- bilidade de ocorrência. Mas, do ponto de vista prático, um evento raro também deve ser especial do ponto de vista dos valores que a v.a. estará assumindo. Portanto, para v.a’s positivas, um evento do tipo [a < X < b] não seria raro pois, mesmo que sua probabilidade de ocorrência fosse pequena, nada haveria de especial nos valores de X a ele associados. 4Note que o resultado (1.7) é válido mesmo que o termo à direita não seja finito. No entanto, quando esse não for finito, o resultado é trivial e inútil, pois já sab́ıamos ser a probabilidade em questão limitada por 1. [SEC. 1.2: VARIÁVEIS ALEATÓRIAS 33 Definição 1.2.14 (Momentos de Ordem Superior). Seja X uma variável aleatória em (Ω,F ,P). O valor E(Xk) (quando existe) é chamado de Momento de ordem k de X e denotado por µk. Uma propriedade importante dos momentos é dada na proposição 1.2.5, em que é demonstrado o fato de que, sempre que existir o n- ésimo momento de uma v.a., X, existirão também todos os momentos de ordem k = 1, 2, . . . , n− 1. Antes, definamos Proposição 1.2.5 (Existência de Momentos). Sejam X uma variável aleatória em (Ω,F ,P) e n um número natural tais que existe E(Xn+1). Então existe E(Xn). Demonstração: Devemos provar que E(|Xn|) < ∞. Dado que |Xn| = |Xn|.1{|X|≤1} + |Xn|.1{|X|>1} ≤ 1 + |X|n+1, chega-se a E(|Xn|) = E(|Xn|.1{|X|≤1}) + E(|Xn|.1{|X|>1}) ≤ 1 + E(|X|n+1). Finalmente, dado que, por hipótese, E(|X|n+1) < ∞, tem-se E(|Xn|) < ∞. ¥ Uma pequena observação é a de que, existindo E(Xk), para algum k ∈ N, também existirá a seguinte esperança: E (X(X − 1) · · · (X − k + 1)) . Na hora de calcular probabilidades de eventos raros, aparece natu- ralmente a seguinte pergunta: se X tem por média µ := E(X) como exprimir a probabilidade de a variável se desviar por mais do que uma certa quantidade de µ? Matematicamente, dado δ > 0, como estimar P(|X − µ| > δ)? Definamos, então, o conceito de momento central absoluto. Definição 1.2.15 (Momento Central Absoluto de Ordem k). Chama- se de momento central de ordem k o número (quando existe) σk = E(|X−µ|k). O momento central de ordem 2 é chamado de variância e denotado por σ2. 34 [CAP. 1: MODELO PROBABIĹISTICO Um resultado muito utilizado em Estat́ıstica e, em particular nas Leis dos Grandes Números e no Teorema Central do Limite é dado, a seguir, sem demonstração. Proposição 1.2.6 (Linearidade da Esperança e da Variância). Se- jam X1, . . . , Xn v.a.’s independentes definidas em (Ω,F ,P). Então, E(X1 + · · ·+ Xn) = n∑ i=1 E(Xi) e V ar(X1 + . . . + Xn) = n∑ i=1 V ar(Xi). Exemplo 1.2.10 (Assimetria e Medidas de Locação). Suponha que tenhamos as seguintes variáveis aleatórias e suas respectivas densi- dades: X, Y , Z, W , fX , fY , fZ e fW . Na figura 1.3, temos as quatro densidades ilustradas. Figura 1.3: Assimetria e Medidas de Locação 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Densidade de X x de ns id ad e em x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Densidade de Y x de ns id ad e em x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Densidade de Z x de ns id ad e em x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Densidade de W x de ns id ad e em x Temos E(X) = E(Y ) = E(Z) = E(W ) = 0, 5, mas claramente 0, 5 tem relevância diferenciada em cada uma das densidades. No caso de X, o ponto 0, 5 é central e parece ser o mais relevante no seguinte sentido: não existe outro ponto real c que o ultrapasse em [SEC. 1.2: VARIÁVEISALEATÓRIAS 35 probabilidades do tipo: P(0, 5− δ ≤ X ≤ 0, 5 + δ). (1.8) Claramente, esse não é o caso para Y , Z ou W . Além disso, note que, no caso de W , não só 0, 5 não apresenta essa propriedade de altas probabilidades como ele é um ponto de vale, isto é, em torno de 0, 5, TODOS os pontos terão associadas probabilidades do tipo (1.8) maiores do que as dele. Portanto, esses quatro exemplos ilustram qualitativamente as si- tuações de caracterização de uma variável aleatória por sua esperança: sua relevância muito grande (caso de X), sua relevância discreta (ca- sos de Y e Z) e sua completa irrelevância (caso de W ). Uma noção alternativa de medidas de locação é dada a seguir. Ela é especialmente importante para a Inferência Não-Paramétrica. Definição 1.2.16 (Quartis, Percentis e Quantis). Seja X uma va- riável aleatória em (Ω,S,P), com f.d. FX . Seu α-ésimo quantil, qα, para 0 < α < 1, é qualquer valor, q, tal que: argc∈R{P (X ≤ c) ≥ α,P (X ≥ c) ≥ 1− α}. Em particular, utiliza-se a seguinte notação: α Nome Notação 0, 25 Primeiro Quartil Q1 0, 50 Segundo Quartil (Mediana) Q2 0, 75 Terceiro Quartil Q3 0, 01 Primeiro Percentil P1 0, 02 Segundo Percentil P2 · · · · · · 0, 01× j j-ésimo Percentil Pj · · · · · · 0, 98 Nonagésimo Oitavo Percentil P98 0, 99 Nonagésimo Nono Percentil P99 36 [CAP. 1: MODELO PROBABIĹISTICO Observação 1.2.5. A mediana (Q2 ou quantil 0,50) é utilizada como uma alternativa não-paramétrica (caṕıtulo 2) para a média. Definição 1.2.17 (Desvio Interquart́ılico e Desvio Médio). Seja X uma variável aleatória em (Ω,S,P), com f.d. FX . O desvio in- terquart́ılico, D, é dado por DI = Q3 − Q1. Suponha que X seja cont́ınua (discreta), com densidade (massa) fX (pX) e que possua esperança E(X). Seu desvio médio, DM , é dado por: ∫ +∞ −∞ |u− E(X)|fX(u)du, para v.a.’s cont́ınuas, e +∞∑ i=−∞ |xi − E(X)|pxi , para v.a.’s discretas. 1.3 Leis dos Grandes Números O teorema 1.3.1 e seu corolário 1.3.1 são versões da Desigualdade de Tchebichev. Teorema 1.3.1 (Desigualdade de Tchebichev). Sejam X uma vari- ável aleatória definida no espaço de probabilidade (Ω,F ,P) e f : R→ R uma função não-negativa. Dado um conjunto A tal que ∅ 6= A ⊂ R, seja iA = inf{f(x) : x ∈ A}. Nessas condições: E(f(X)) ≥ iA.P(X ∈ A). Demonstração: E(f(X)) = E ( f(X).1[X∈A] + f(X).1[X 6∈A] ) = E ( f(X).1[X∈A] ) + E ( f(X).1[X 6∈A] ) . Sendo f não-negativa, E ( f(X).1[X 6∈A] ) ≥ 0 e, portanto: E (f(X)) ≥ E (f(X).1[X∈A] ) ≥ iA.E ( 1[X∈A] ) = iA.P (X ∈ A) . ¥ [SEC. 1.3: LEIS DOS GRANDES NÚMEROS 37 Algumas das muitas aplicações do teorema 1.3.1 se encontram no corolário 1.3.1. O teorema 1.3.1 será também utilizado diretamente na demonstração do Teorema de Bernoulli. Corolário 1.3.1. Seja X uma variável aleatória definida em um espaço de probabilidade (Ω,F ,P). Então, para quaisquer ε > 0 e j ∈ N, têm-se a) P(|X| > ε) ≤ E(|X| j) εj . b) se E(|X|) < +∞, P(|X − E(X)| > ε) ≤ E(|X − E(X)| j) εj . Em particular, para j = 2, se E ( X2 ) < +∞, tem-se a Desigual- dade de Tchebichev P(|X − E(X)| > ε) ≤ V ar(X) ε2 ; c) se σj := E(|X − E(X)|j) < +∞, P(|X − E(X)| > ε.(σj)1/j) ≤ 1 εj . Em particular, para j = 2, se σ2 := V ar(X) < +∞, tem-se P(|X − E(X)| > ε.σ) ≤ 1 ε2 . Demonstração: a) Aplique o teorema 1.3.1 a f(x) = |x|j e A = {x ∈ R : |x| > ε}; b) Aplique o teorema 1.3.1 a f(x) = |x − E(X)|j e A = {x ∈ R : |x− E(X)| > ε}; e c) Substitua ε = ε.(σj)1/j em b). ¥ Definição 1.3.1 (Lei Fraca dos Grandes Números). Seja {Xj}j∈N uma seqüência de variáveis aleatórias definidas no espaço de proba- bilidade (Ω,F ,P) tais que E(|Xj |) < +∞, para todo j ∈ N. Defina {Sn}n∈N como a seqüência de somas parciais, isto é, Sn = ∑n j=1 Xj. 38 [CAP. 1: MODELO PROBABIĹISTICO Nessas condições, diremos que a seqüência {Xj}j∈N satisfaz à Lei Fraca dos Grandes Números se, para qualquer ε > 0, lim n→+∞ P (∣∣∣∣ Sn − E(Sn) n ∣∣∣∣ > ε ) = 0. As diversas versões existentes de Leis Fracas dos Grandes Números que veremos em seguida (e todas as demais que omitiremos) dizem respeito às condições suficientes para que a seqüência de variáveis aleatórias {Xj}j∈N satisfaça à condição: lim n→+∞ P (∣∣∣∣ Sn − E(Sn) n ∣∣∣∣ > ε ) = 0. Definição 1.3.2 (Experimentos de Bernoulli). Seja X1, X2, . . . uma seqüência i.i.d. de v.a.’s definidas em (Ω,F ,P). Ela forma uma Seqüência de Experimentos de Bernoulli se P(X = 1) = p = 1 − P(X = 0), para algum 0 ≤ p ≤ 1. Notemos que, pela proposição 1.2.6, E(X1 + · · · + Xn) = np e V ar(X1 + · · ·+ Xn) = np(1− p), para todo n ≥ 2 e X1, X2, . . . uma seqüência de experimentos de Bernoulli. Teorema 1.3.2 (Teorema de Bernoulli). Consideremos uma seqüên- cia de ensaios de Bernoulli independentes . Sejam p a probabilidade de sucesso em cada ensaio e Sn o número observado de sucessos nos n primeiros ensaios. Então, para todo ε > 0, vale que lim n→+∞ P (∣∣∣∣ Sn n − p ∣∣∣∣ > ε ) = 0. Demonstração: Dado que Sn tem distribuição Bin(n, p), tem-se que E(Sn) = np e V ar(Sn) = np(1−p). Então, E(Sn/n) = p e V ar(Sn/n) = p(1−p)/n; aplicando-se a Desigualdade de Tchebichev (Corolário 1.3.1 item b) ) à variável Sn/n obtém-se P (∣∣∣∣ Sn n − p ∣∣∣∣ > ε ) ≤ p(1− p) nε2 . Portanto, basta-nos tomar n → +∞. ¥ [SEC. 1.3: LEIS DOS GRANDES NÚMEROS 39 Observação 1.3.1. A tese do Teorema de Bernoulli pode ser escrita na seguinte forma equivalente. Para qualquer ε > 0, lim n→+∞ P (∣∣∣∣ Sn n − p ∣∣∣∣ ≤ ε ) = 1. Tendo em mente essa última versão, devemos salientar que o Teorema de Bernoulli não implica na convergência das freqüências relativas à probabilidade p, no sentido ordinário de análise. Com efeito, a afirmação limn→∞ Sn/n = p considerada no sentido usual significaria que, para qualquer ε > 0, existiria um ı́ndice n0 ∈ N (n0 = n0(ε)), tal que, para todo n ≥ n0, teŕıamos |Sn/n − p| ≤ ε. Estaŕıamos, portanto, afirmando que, para qualquer ε > 0, existiria um ı́ndice n0 ∈ N (n0 = n0(ε)), tal que, para todo n ≥ n0, o evento {|Sn/n−p| ≤ ε} seria o evento certo, numa linguagem menos formal: Sn/n estaria arbitrariamente perto de p se n fosse suficientemente grande. A tese do teorema de Bernoulli, no entanto, é mais fraca e tem o seguinte significado: Para qualquer ε > 0 e qualquer δ > 0, existe um ı́ndice n0 ∈ N (n0 = n0(ε, δ)), tal que, para todo n ≥ n0, temos P(|Sn/n − p| > ε) < δ ou, equivalentemente, para qualquer ε > 0 e qualquer δ > 0, existe um ı́ndice n0 ∈ N ( n0 = n0(ε, δ)), tal que, para todo n ≥ n0, temos P(|Sn/n− p| ≤ ε) > 1− δ. Informalmente, o teorema de Bernoulli afirma que a probabilida- de de Sn/n estar arbitrariamente perto de p estará tão próxima de 1 quanto se desejar, se n for suficientemente grande. Nesta altura, é interessante dizer que, em 1909, Borel provou a Lei Forte dos Grandes Números, nos seguintes termos: Consideremos uma seqüência de ensaios de Bernoulli indepen- dentes; sejam p a probabilidade de sucesso em cada ensaio e Sn o número observado de sucessos nos n primeiros ensaios. Então: P( lim n→+∞ Sn/n = p) = 1. Observe que esse resultado é o mais próximo à convergência de Sn/n a p no sentido ordinário da análise, em que {limn→∞ Sn/n = p} seria o evento certo (visto que este resultado não existe). 40 [CAP. 1: MODELO PROBABIĹISTICO Na tentativa de melhorar a demonstração do Teorema de Bernoulli, de Moivre teve a idéia de substituir as probabilidades binomiais por uma expressão assintótica. Mais precisamente, ele demonstrou que, se Sn tem distribuição Bin(n, 1/2)5, então: P(Sn = j) ≈ (2πn(1/2)2)−1/2 exp ( − (j − n/2) 2 2n(1/2)2 ) , se n for suficientemente grande, introduzindo desta forma a famosa curva gaussiana e dando também a primeira versão do Teorema Cen- tral do Limite : a convergência da distribuição Binomial (n, 1/2) à normal. Nos gráficos da figura 1.4, vemos o comportamento de tal apro- ximação. Note quão bom é seu desempenho, mesmopara aparente- mente valores pequenos de n. No entanto, na tabela 1.1, vemos que o desempenho absoluto (bem retratado nos gráficos) melhora rapida- mente em n mas exatamente o contrário ocorre com o erro relativo máximo, que cresce com n. Devemos salientar, no entanto, que essa piora acontece apenas nas caudas, não querendo dizer que a aproxi- mação esteja piorando. Tabela 1.1: Erro da Aproximação da Binomial pela Normal n Erro Abs. Erro Rel. Máximo Máximo 5 0, 011 0, 0715 10 0, 0062 0, 7409 20 0, 0022 7, 4934 30 0, 0012 46, 85 50 0, 000056 1, 7634× 103 100 0, 000020 1, 95× 107 200 0, 0000070 3, 37× 1015 5Sn = X1 + · · ·+ Xn, P(X = 0) = P(X = 1) = 1/2 [SEC. 1.3: LEIS DOS GRANDES NÚMEROS 41 Figura 1.4: Aproximação da Binomial pela Normal 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 j pr ob ab ili da de n=5 aprox verd 0 1 2 3 4 5 6 7 8 9 10 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 j pr ob ab ili da de n=10 aprox verd 0 2 4 6 8 10 12 14 16 18 20 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 j pr ob ab ili da de n=20 0 5 10 15 20 25 30 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 n=30 j pr ob ab ili da de aprox verd Teorema 1.3.3 (Lei Fraca dos Grandes Números para v.a.’s i.i.d.). Seja {Xj}j∈N uma seqüência de variáveis aleatórias i.i.d. de- finidas no espaço de probabilidade (Ω,F ,P), tais que V ar(X1) < +∞. Defina-se a seqüência de somas parciais {Sn}n∈N, isto é, Sn =∑n j=1 Xj. Então, {Xn}n∈N satisfaz a Lei Fraca dos Grandes Números ou, equivalentemente, para qualquer ε > 0, lim n→+∞ P(|Sn/n− E(X1)| > ε) = 0. Demonstração: Aplicaremos a Desigualdade de Tchebichev (Corolário 1.3.1 item b) à variável aleatória Sn/n. Para tanto, precisamos calcular suas esperança e variância. E(Sn/n) = n−1E(Sn) = n−1E( n∑ j=1 Xj) = n−1 n∑ j=1 E(Xj) = E(X1). 42 [CAP. 1: MODELO PROBABIĹISTICO Como temos X1, X2, . . . , Xn, .. i.i.d., sabemos que V ar( ∑n j=1 Xj) = ∑n j=1 V ar(Xj) e, portanto, V ar(Sn/n) = n−2V ar( n∑ j=1 Xj) = n−2 n∑ j=1 V ar(Xj) = n−1V ar(X1). Então, pela Desigualdade de Tchebichev (pelo item b) do Corolário 1.3.1): P(|Sn/n− E(X1)| > ε) ≤ V ar(X1) nε2 . Sendo a variância de X1 finita, temos o resultado, quando n → +∞. ¥ Observação 1.3.2. a) Note que no teorema 1.3.2, Sn representava o número de suces- sos nos n primeiros experimentos de Bernoulli independentes. Por- tanto, o teorema 1.3.3 é uma generalização do Teorema de Bernoulli. b) o resultado lim n→+∞ P(|Sn/n− E(X1)| > ε) = 0 implica em que os valores da variável aleatória Sn/n se concentram em torno do valor E(X1), à medida em que n → +∞, sendo esse o motivo por que o valor E(X1) pode ser legitimamente chamado de valor esperado ou esperança; c) o resultado intermediário P(|Sn/n− E(X1)| > ε) ≤ V ar(X1) nε2 , é de muita utilidade para a estimação de E(X1), como pode ser visto no exemplo 1.3.1. Exemplo 1.3.1 (Pesquisa Eleitoral). Suponha que desejemos estimar a proporção do eleitorado que pretende votar em um certo candidato. Qual deve ser o tamanho [SEC. 1.3: LEIS DOS GRANDES NÚMEROS 43 amostral para garantir um certo erro entre a proporção populacional, p, e a proporção amostral, Sn/n? Antes de resolvermos esse problema, devemos refletir sobre a de- finição de erro. Usualmente, quando se fala em erro, está-se diante de um número real que exprime a (in)capacidade de uma certa quan- tidade ao representar uma outra. No caso em estudo, porém, deve- mos pensar que, sendo uma das quantidades baseada na amostra e a verdadeira, populacional, essa simples interpretação não nos seria posśıvel - aqui, a interpretação é análoga à de convergência de Sn/n para p. Como temos, associada a uma medida amostral (que é uma variá- vel aleatória) uma incerteza (expressa por um modelo probabiĺıstico)6, restrições de distância entre as proporções amostral e populacional só podem ser avaliadas em conjuntos contidos em Ω e nunca no próprio evento certo. Portanto, quando se fala que desejamos encontrar um tamanho amostral suficiente para um certo erro máximo, por exemplo 0, 01, temos que fazê-lo com uma medida de certeza a ela associada, expressa numa probabilidade, como por exemplo 0, 95. Matematica- mente, queremos encontrar n tal que: P(|Sn/n− p| > 0, 01) ≤ 0, 95. Supondo ter Sn uma distribuição Bin(n, p) e X1 distribuição b(p), a fórmula mencionada na Observação 1.3.2 c) nos diz que P(|Sn/n− p| > 0, 01) ≤ p(1− p) n(0, 01)2 . Desconhecemos p, mas sabemos que p(1− p) é uma parábola con- vexa, ilustrada na figura 1.5. É fácil ver que seu máximo ocorre em 1/2, isto é, p(1 − p) ≤ 1/4. Portanto, trabalhando-se com a pior hipótese (p = 1/2), temos: P(|Sn/n− p| > 0, 01) ≤ 14n(0, 01)2 . Finalmente, igualando nosso valor teórico 1/(4n(0.01)2) ao valor 6Nesse exemplo, considera-se que o voto de cada eleitor tenha uma distribuição b(p) 44 [CAP. 1: MODELO PROBABIĹISTICO Figura 1.5: Incerteza na Pesquisa Eleitoral 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.05 0.1 0.15 0.2 0.25 p p( 1− p) p(1−p) vs p máximo desejado de incerteza, 0, 05 = 1− 0, 95, verificamos que n ≥ (0, 05).4(0, 01)2)−1 nos garante que |Sn/n−p| > 0, 01 tem probabilidade no máximo igual a 0,05 ou, equivalentemente, n ≥ (0, 05.4(0, 01)2)−1 é uma condição suficiente para que |Sn/n − p| ≤ 0, 01 tenha uma probabilidade no mı́nimo igual a 0,95. Podemos provar que, em geral, quando se deseja estimar uma proporção p, de tal forma que o erro na estimação seja menor do que um ε > 0 com probabilidade pelo menos igual a α (ε e α prefixados), é suficiente que o tamanho da amostra n seja maior do que ou igual a ((1− α)4ε2)−1. Note que, no caso em questão, p = 0, 01 e ε = 0, 05, n deve- ria ser pelo menos 50000, um número absurdo para uma amostra. Felizmente, as técnicas de amostragem são desenvolvidas de forma bem mais sofisticada do que nesse exemplo, diminuindo-se assim o tamanho amostral necessário a valores viáveis. Teorema 1.3.4 (Lei Fraca dos Grandes Números de Tchebichev). Seja {Xn}n∈N uma seqüência de variáveis aleatórias. Definam-se as somas parciais, Sn = ∑n j=1 Xj, para cada n ∈ N. Se as variáveis [SEC. 1.3: LEIS DOS GRANDES NÚMEROS 45 forem independentes, com variâncias finitas e, além disso, lim n→∞ 1 n2 n∑ j=1 V ar(Xj) = 0; então, a seqüência {Xn}n∈N satisfaz a Lei Fraca dos Grandes Números, ou seja, para qualquer ε > 0, lim n→+∞ P(|(Sn− E(Sn))/n| > ε) = 0. Demonstração: Aplique a Desigualdade de Tchebichev clássica (Corolário 1.3.1 item b) à variável Sn/n. ¥ Um resultado também muito importante, mas cuja demonstração foge ao ńıvel do texto, é a Lei Forte dos Grandes Números. Como já vimos, há várias versões de Leis Fracas dos Grandes Números e veremos que também há várias versões de Teoremas Centrais do Limite. De forma análoga, há várias versões de Leis Fortes dos Grandes Números. Enunciaremos a clássica. Teorema 1.3.5 (Lei Forte dos Grandes Números). Seja X1, X2, . . . uma seqüência i.i.d. em (Ω,F ,P), com E(X1) = µ. Se E|X1| < ∞, então P( lim n→∞ Sn/n = µ) = 1. 1.3.1 Teorema Central do Limite Teorema 1.3.6 (Teorema de de Moivre). Consideremos uma seqüência de ensaios de Bernoulli indepen- dentes. Sejam p a probabilidade de sucesso em cada ensaio e Sn o número observado de sucessos nos n primeiros ensaios. Então, para n suficientemente grande e para qualquer x ∈ {0, . . . , n}, vale que P(Sn = x) ³ 1√ 2πnp(1− p) exp [ − (x− np) 2 2np(1− p) ] . Demonstração: Por conveniência, defina-se q = 1− p. Seja Pn(x) a probabilidade de [Sn = x]: 46 [CAP. 1: MODELO PROBABIĹISTICO Pn(x) = P(Sn = x) = n! x!(n− x)!p xqn−x. A fórmula de Stirling afirma (veja Observação 1.3.3 ii) a seguir) que, se m ∈ N, então m! ³ mme−m √ 2πm. Portanto, Pn(x) ³ n ne−n √ 2πnpxqn−x xxe−x √ 2πx(n− x)n−xe−n+x √ 2π(n− x) = ( np x )x+1/2 ( nq n− x )n−x+1/2 √ 2πnpq . (1.9) Sejam w
Compartilhar