Buscar

Metodos Nao Paramétricos em Geneetica

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 187 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 187 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 187 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Métodos Estat́ısticos
Não-Paramétricos e suas
Aplicações em Dados Genéticos
Alúısio Pinheiro1 Hildete Prisco Pinheiro2
Departamento de Estat́ıstica
Universidade Estadual de Campinas
1 pinheiro@ime.unicamp.br
2 hildete@ime.unicamp.br
Para Táıs e Joana.
Descrição do Curso
O curso tem por principal objetivo apresentar as bases teóricas da
inferência não-paramétrica, em particular das U -estat́ısticas, e suas
posśıveis aplicações. Nessa apresentação, incluem-se o desenvolvi-
mento de suas propriedades assintóticas e para pequenas amostras,
aplicações a dados biológicos e considerações sobre como a complexa
estrutura de dependência em dados genéticos motiva a utilização de
técnicas de estimação mais robustas.
Espera-se motivar os leitores a estudar os conceitos basais das
inferências estat́ısticas, sua aplicabilidade em dados reais e os desen-
volvimentos necessários para sua utilização em problemas contem-
porâneos. O enfoque de aplicação será a área de dados genéticos
e ecológicos mas as técnicas apresentadas geram metodologias para
qualquer área do conhecimento, principalmente naquelas em que com-
plexas estruturas de dependência estejam presentes.
O livro se estrutura em cinco caṕıtulos. No caṕıtulo 1, introduz-
se a noção axiomática de modelo probabiĺıstico e seus dois principais
resultados (dentro do enfoque do texto): Lei dos Grandes Números e
Teorema Central do Limite. Motiva-se a área de inferência estat́ıstica
pelo Teorema de Glivenko-Cantelli.
No caṕıtulo 2, apresentam-se: o modelo estat́ıstico paramétrico;
estimação; testes de hipóteses; e algumas de suas principais pro-
priedades assintóticas. Discutem-se alguns problemas do modelo
paramétrico e apresentam-se as bases inferenciais não-paramétricas
numa rediscussão do Teorema de Glivenko-Cantelli. Apresentam-se
algumas técnicas para correção de problemas de estimação, entre elas
o bootstrap e o jackknife. Ilustra-se também o uso de tais técnicas de
reamostragem como metodologia de testes de hipóteses.
iii
iv
No caṕıtulo 3, introduz-se o conceito de representação natural de
caracteŕısticas populacionais como funções da distribuição de pro-
babilidade a ela associada. Em seguida, constrói-se a classe de U -
estat́ısticas como seus estimadores canônicos. Discutem-se então suas
principais propriedades finito-dimensionais e, por fim, demonstram-se
teoremas centrais do limite e leis fortes para U -estat́ısticas.
No caṕıtulo 4, apresentam-se as noções de entropia e de outros
paradigmas decorrentes de desigualdades de informação. Com isso,
propõem-se medidas de diversidade. Apontam-se suas respectivas
vantagens e desvantagens, teóricas e práticas. Ilustram-se seus po-
tenciais usos em exemplos reais.
No caṕıtulo 5, discutem-se os aspectos teóricos do uso de U -esta-
t́ısticas no estudo de medidas de diversidade, em particular para
dados genéticos, principalmente no tocante a: dados dependentes;
decomposição de medidas de diversidade; o uso da distância de Ham-
ming e sua generalização; e limitações do uso da distribuição assin-
tótica e o recurso de técnicas de reamostragem.
Os autores agradecem aos Professores Mario Antonio Gneri e
Hervé Guiol, pela sugestão de vários exemplos e exerćıcios.
Conteúdo
1 Modelo Probabiĺıstico 1
1.1 Um Modelo de Probabilidade . . . . . . . . . . . . . . 1
1.1.1 Eventos . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Definição Axiomática de Probabilidade . . . . 5
1.2 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . 8
1.2.1 Função de Distribuição Acumulada . . . . . . . 13
1.2.2 Variáveis Aleatórias Discretas . . . . . . . . . . 17
1.2.3 Distribuições Cont́ınuas . . . . . . . . . . . . . 18
1.2.4 Seqüência de Variáveis Aleatórias . . . . . . . . 21
1.2.5 Momentos e Outras Medidas de Posição e Dis-
persão . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Leis dos Grandes Números . . . . . . . . . . . . . . . . 34
1.3.1 Teorema Central do Limite . . . . . . . . . . . 46
1.4 Teoremas Centrais do Limite . . . . . . . . . . . . . . 50
1.5 O Teorema de Glivenko-Cantelli . . . . . . . . . . . . 54
1.6 Alguns Tópicos de Teoria Assintótica . . . . . . . . . . 55
1.7 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 58
2 Os Paradigmas Estat́ısticos 69
2.1 O Modelo Estat́ıstico Paramétrico . . . . . . . . . . . 69
2.2 Estimação por Máxima Verossimilhança . . . . . . . . 71
2.3 Testes de Razão de Verossimilhanças . . . . . . . . . . 72
2.4 Comportamento Assintótico de Estimadores e Testes . 76
2.5 Deficiências do Modelo Paramétrico . . . . . . . . . . 80
2.6 Alternativas Não-Paramétricas . . . . . . . . . . . . . 83
2.7 Técnicas de Reamostragem . . . . . . . . . . . . . . . 84
v
vi CONTEÚDO
2.7.1 Reamostragem por Bootstrap . . . . . . . . . . 85
2.7.2 Reamostragem por Jackknife . . . . . . . . . . 88
2.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 90
3 U-Estat́ısticas 93
3.1 Caracteŕısticas Populacionais e suas Representações . 93
3.2 U -Estat́ısticas - Estimadores Naturais . . . . . . . . . 94
3.3 Propriedades de U -Estat́ısticas para n finito . . . . . . 96
3.4 Teorema Central do Limite para U -Estat́ısticas . . . . 98
3.5 Outras Convergências . . . . . . . . . . . . . . . . . . 100
3.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 101
4 Medidas Estat́ısticas de Diversidade 105
4.1 Medidas de Diversidade . . . . . . . . . . . . . . . . . 105
4.1.1 Motivação . . . . . . . . . . . . . . . . . . . . . 106
4.1.2 Índice de Shannon . . . . . . . . . . . . . . . . 106
4.2 Outros Paradigmas de Informação . . . . . . . . . . . 107
4.2.1 Caracterização de Rao . . . . . . . . . . . . . . 111
4.3 Índice de Gini-Simpson . . . . . . . . . . . . . . . . . 113
4.4 Decomposições de medidas de diversidade . . . . . . . 116
4.4.1 Decomposição das medidas de diversidade u-
sando dados amostrais . . . . . . . . . . . . . . 120
4.5 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 130
5 U-Estat́ısticas e Medidas de Diversidade 134
5.1 Bootstrap e Jackknife sob Depen-
dência . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.2 Distância de Hamming . . . . . . . . . . . . . . . . . . 137
5.2.1 Índice de Gini-Simpson generalizado . . . . . . 138
5.2.2 Representação via U-estat́ısticas . . . . . . . . 138
5.3 Decomposição da Distância de Hamming . . . . . . . . 140
5.3.1 U-estat́ısticas generalizadas . . . . . . . . . . . 140
5.3.2 Decomposições em distâncias intra- e entre gru-
pos . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.4 Aplicações da Distância de Hamming em Dados Gené-
ticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . 149
CONTEÚDO vii
5.4.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . 153
5.5 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 158
Bibliografia 160
Lista de Figuras
1.1 Tiro ao Alvo - (a) Treino de Amadores (b) Treino de
Profissionais . . . . . . . . . . . . . . . . . . . . . . . . 43
1.2 Desigualdade de Markov para a Bernoulli . . . . . . . 44
1.3 Assimetria e Medidas de Locação . . . . . . . . . . . . 44
1.4 Aproximação da Binomial pela Normal . . . . . . . . . 45
1.5 Incerteza na Pesquisa Eleitoral . . . . . . . . . . . . . 45
4.1 Distribuição emṕırica de F1: seqüências de DNA de
populações de cágados. (a) Gene Cytochrome b. (b)
Região de Controle. . . . . . . . . . . . . . . . . . . . 128
4.2 Distribuição emṕırica de F1: seqüências de DNA de
cágados da Microbacia I. (a) Gene cytochrome b. (b)
Região de Controle. . . . . . . . . . . . . . . . . . . . 128
4.3 Distribuição emṕırica de F1: seqüências de DNA de
cágados da região de controle da Microbacia I. (a)
Partições 1 e 2. (b) Partições 1 e 3.(c) Partições 2 e 3. 129
5.1 Distribuições emṕıricas sob a hipótese nula de homo-
geneidade entre Homo Sapiens e outros primatas. . . . 152
ix
Lista de Tabelas
1.1 Erro da Aproximação da Binomial pela Normal . . . . 38
4.1 Decomposição de Diversidade numa classificação hierár-
quica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2 Análise de Diversidade para dados com fatores . . . . 119
4.3 Populações e observações . . . . . . . . . . . . . . . . 121
4.4 Freqüências de diferentes opiniões em k populações . . 122
4.5 Valores observados de F1 e p-valores . . . . . . . . . . 127
4.6 Valores observados de F1 e p-valores: Microbacia I . . 127
5.1 Valores observados das estat́ısticas de teste . . . . . . 150
5.2 Quantis Bootstrap das distribuições emṕıricas . . . . . 151
5.3 P-valores para diferentes estat́ısticas de teste (B=2000) 153
5.4 Grupos G1-G17 - Distâncias de Hamming, Intra-grupos
e Entre-grupos . . . . . . . . . . . . . . . . . . . . . . 155
5.5 Testes de Homogeneidade baseados em Dn(B) - Inter-
valos de Confiança Bootstrap, Vı́cio corrigido e Inter-
valos de Confiança Bootstrap acelerados, Intervalos de
Confiança Jackknife . . . . . . . . . . . . . . . . . . . 157
xi
Caṕıtulo 1
Modelo Probabiĺıstico
Neste caṕıtulo, discutimos os fundamentos da teoria estat́ıstica,
começando pelo modelo axiomático de Kolmogorov, chegando ao
Teorema Fundamental da Estat́ıstica, mais conhecido como Teo-
rema de Glivenko-Cantelli. Referem-se os leitores aos textos [23, 31,
68] para um tratamento mais profundo desses tópicos.
[75] descreve a história do desenvolvimento da teoria de proba-
bilidade. Referências fundamentais em probabilidade [11, 14, 15], e
alguns de seus aspectos auxiliares e espećıficos [5, 9, 18, 71, 74] podem
ajudar o leitor a aprofundar e enriquecer seu estudo do assunto. Para
aqueles interessados nos modelos probabiĺısticos mais importantes,
num tratamento detalhado de suas propriedades probabiĺısticas e es-
tat́ısticas, recomendam-se [24], [25] e [26]. A transliteração do ciŕılico
segue as recomendações de [10].
1.1 Um Modelo de Probabilidade
A primeira noção fundamental da teoria da probabilidade, o exper-
imento aleatório, é de fato aquela de maior importância, pois sua
expressão correta permite construir um modelo capaz de modelá-la
e, portanto, entender e prever seus resultados.
No entanto, para o entendimento da natureza de um experimento
aleatório, devemos ter clara em nossa mente a definição de um ex-
1
2 [CAP. 1: MODELO PROBABIĹISTICO
perimento (que estaremos chamando aqui de Experimento Deter-
mińıstico, isto é, não submetido ao acaso).
Definição 1.1.1 (Experimento Determińıstico). Sejam: Ξ = {ξ :
ξ ∈ Ξ} um certo conjunto de ações; R um conjunto de resultados; e
r uma aplicação de Ξ em R. A aplicação de cada elemento ξ ∈ Ξ
conduz a um resultado único r(ξ), isto é, sempre que a ação ξ for
tomada, tem-se como resultado r(ξ). Então, dizemos que (Ξ, R, r) é
um experimento determińıstico.
Deve-se entender da definição 1.1.1 que, num experimento de-
termińıstico, sempre que realizarmos uma ação controlada, temos
condições de saber exatamente qual será o resultado obtido.
Exemplo 1.1.1 (Lançamento de uma Caneta). Estou numa área
vazia e tenho uma caneta na mão. Decido jogá-la para ver o que
acontece. Vamos supor (o que é bem natural) que a única força a
que a caneta (uma vez fora de minha mão) está submetida seja a
gravitação terrestre.
O conjunto de ações Ξ tem por elementos: ‘abrir a mão e deixar
cair a caneta’, ‘lançar a caneta para cima’, ‘jogar com força a caneta
no chão’ etc. O resultado de qualquer uma dessas ações será invari-
avelmente ‘a caneta cai no chão’.
Há a necessidade de um conceito mais geral de experimento, em
que múltiplos resultados possam ser obtidos de uma única ação. Isto
se dá com o conceito de experimento aleatório. Isto significa que
uma determinada ação ξ resulta em um elemento de r(ξ) que, desta
vez, é um conjunto. Portanto, cada vez que se faz o experimento, o
resultado pode ser diferente, mesmo tomando-se (aparentemente) a
mesma ação. Para qualquer ξ, os conjuntos r(ξ) têm várias cardi-
nalidades posśıveis. O estudo de probabilidade tem, exatamente, o
objetivo de relacionar ξ e r(ξ) de alguma forma quantitativa.
Definição 1.1.2 (Experimento Aleatório). Um experimento ale-
atório se descreve com o conjunto dos resultados posśıveis de um
experimento. Denota-se por ω um tal resultado e Ω o espaço formado
por todos esses resultados. O espaço Ω é chamado de universo ou
espaço amostral.
[SEC. 1.1: UM MODELO DE PROBABILIDADE 3
Exemplo 1.1.2 (Embaralhamento de n Cartas). Por conveniência,
vamos supor que as cartas estejam numeradas de 1 a n. Misturamos
o baralho e observamos a seqüência de cartas assim obtida. Um re-
sultado será do tipo
ω = (σ1, . . . , σn),
em que σi ∈ {1, . . . , n} e σi 6= σj para quaisquer i 6= j.
O universo é, então,
Ω = Sn,
o conjunto das permutações de {1, . . . , n}. Este espaço é também
finito: podemos mostrar que |Ω| = n!.
1.1.1 Eventos
A segunda noção fundamental da Teoria de Probabilidade é aquela do
Evento Aleatório. Consideramos que a realização (sucesso) ou não-
realização (fracasso) de um evento aleatório depende exclusivamente
do resultado do experimento associado.
Definição 1.1.3 (Evento Aleatório). Um evento aleatório A será
representado como o conjunto dos resultados ω do experimento que o
realizam:
A = {ω ∈ Ω : A é realizado se ω é o resultado do experimento}.
Exemplo 1.1.3 (Lançamento de Dois Dados). Para o experimento
- lançamento de dois dados, temos
Ω = {1, . . . , 6} × {1, . . . , 6}
e o evento A = ‘a soma do resultado é par’ pode ser descrito por
A = {(1, 1); (1, 3); (1, 5); (2, 2); (2, 4); (2, 6); (3, 1); (3, 3); (3, 5);
(4, 2); (4, 4); (4, 6); (5, 1); (5, 3); (5, 5); (6, 2); (6, 4); (6, 6)}.
4 [CAP. 1: MODELO PROBABIĹISTICO
O evento imposśıvel será denotado por ∅. A fórmula A ∩B = ∅
significa que os eventos A e B são incompat́ıveis ou mutuamente
exclusivos. Para cada par de eventos (A1, A2), o evento A1 ou A2,
denotado por A1 ∪A2, é o evento realizado quando pelo menos um
dos eventos A1 ou A2 é realizado. O evento certo é denotado por Ω,
porque é realizado para todo resultado ω do experimento aleatório.
Além de definir as relações entre dois espećıficos eventos, as ope-
rações precedentes podem ser utilizadas para combinar mais de dois
eventos. Se, por exemplo, (An)n∈N é uma seqüência finita ou infinita
de eventos, ∪nAn significa o evento A1 ou A2 ou . . ., e ∩nAn significa
o evento A1 e A2 e . . ..
Duas operações que fazem sentido apenas para dois eventos são,
no entanto, extremamente úteis. A diferença de dois conjuntos,
denotada por −, é definida por:
A−B = A ∩Bc.
Do ponto de visto de eventos, A−B é o evento tal que A acontece
mas B não. Conseqüentemente, se A∩B = ∅, então A−B = A e, se
A ⊂ B, então A−B = ∅.
A diferença simétrica de dois conjuntos, denotada por 4, é
definida por
A4B = (A ∩Bc) ∪ (Ac ∩B) = (A ∪B)− (A ∩B).
Do ponto de visto de eventos, A4B é o evento tal que A ou B
acontecem exclusivamente. Conseqüentemente, se A ∩ B = ∅,
então A4B = A ∪B e, se A ⊂ B, então A4B = B −A.
Probabilidade:
A probabilidade (de um evento), em matemática: razão entre o número de
casos favoráveis pelo número de casos posśıveis para um evento qualquer,
em que os casos posśıveis têm supostamente o mesmo grau de probabilidade.
Grande Enciclopédia Larousse Cultural, 1998.
Cardano, Pascal, de Fermat, Huygens, a famı́lia Bernoulli e de
Moivre são alguns dos grandes matemáticos que iniciaram a então
[SEC. 1.1: UM MODELO DE PROBABILIDADE 5
chamada Teoria das Probabilidades. Mais tarde, temos Laplace, Eu-
ler, Legendre, Poisson e o pŕıncipe dos matemáticos, Carl Friedrich
Gauss. Da F́ısica, surgiram contribuições de Maxwell, Planck, Boltz-
mann,entre outros.
No entanto, o conceito de probabilidade continuava vago e con-
troverso. Isso só foi resolvido de forma satisfatória pela contribuição
de outro grande matemático, Kolmogorov, que, em 1933, propôs sua
solução axiomática. Essa descrição é a mais adotada e a que seguire-
mos neste curso.
1.1.2 Definição Axiomática de Probabilidade
Vimos que podemos identificar os eventos como subconjuntos de Ω.
Será que qualquer subconjunto de Ω é um evento? A resposta é
negativa, mas suas razões ultrapassam o ńıvel deste curso. De fato,
é necessario pensar no conjunto dos eventos como sendo uma coleção
F de sub-conjuntos de Ω com algumas propriedades.
Definição 1.1.4 (Sigma-álgebra). Uma coleção F de subconjuntos
de Ω é chamada de σ-álgebra se temos (todas) as condições seguintes
(a) Ω ∈ F ;
(b) se A1, A2, ... ∈ F , então ∪∞i=1Ai ∈ F ; e
(c) se A ∈ F , então Ac ∈ F .
Observação: É importante não perder de vista que uma σ-
álgebra F é associada ao seu espaço Ω (veja o exemplo 1.1.6 seguinte).
Exemplo 1.1.4. [Menor σ-álgebra] A menor σ-álgebra associada
com Ω é F = {∅,Ω}.
Exemplo 1.1.5. [Menor σ-álgebra que Possui A] Se A é um subcon-
junto de Ω então F = {∅, A, Ac, Ω} é uma σ-álgebra.
Exemplo 1.1.6. [σ-álgebra a partir de A∩B] Seja F uma σ-álgebra
de subconjuntos de Ω e B ∈ F . Então G = {A ∩ B : A ∈ F} é uma
σ-álgebra de subconjuntos de B (veja exerćıcio 1.1).
Observe que G não é uma σ-álgebra sobre Ω: se C ∈ G então
∃C ′ ∈ F tal que C = C ′ ∩ B. O complementar de C em B é o
conjunto (C ′)c∩B que pertence ao G, mas o complementar de C em
Ω é o conjunto (C ′)c ∪Bc que não é um elemento de G.
6 [CAP. 1: MODELO PROBABIĹISTICO
Definição 1.1.5 (Medida de Probabilidade). Uma Medida de Pro-
babilidade P sobre (Ω,F) é uma função P : F → [0, 1] tal que
(a) P(Ω) = 1;
(b) se {A1, A2, ...} é uma coleção de elementos disjuntos de F , tal
que Ai ∩Aj = ∅ para cada par i, j, i 6= j, então
P (∪∞i=1Ai) =
∞∑
i=1
P(Ai).
A tripla (Ω,F ,P) é chamada de Espaço de Probabilidade.
Exemplo 1.1.7 (Cara ou Coroa). Descreve-se o universo Ω = {0, 1}
(0=”cara”, 1=”coroa”) e F = {∅, {0}, {1}, Ω}. Seja P : F → [0, 1]
dada por
P(∅) = 0, P({0}) = p, P({1}) = 1− p, P(Ω) = 1,
em que p é um número real fixo do intervalo [0, 1]. Se p = 1/2, a
moeda é não viciada.
Exemplo 1.1.8 (Dado). Sejam Ω = {1, 2, 3, 4, 5, 6}, F = P(Ω) o
conjunto de partes (dos sub-conjuntos) de Ω e P dada por
P(A) =
∑
i∈A
pi, para qualquer A ⊂ Ω,
em que p1, p2, ..., p6 são números fixos do intervalo [0, 1], cuja soma
é 1. A probabilidade de que a face i apareça é pi. O dado é normal
se pi = 1/6, para cada i, e, portanto,
P(A) =
|A|
6
, para qualquer A ⊂ Ω,
em que |A| representa o número de elementos (cardinalidade) de A.
Um conceito muito importante é o de independência estocástica.
Definição 1.1.6 (Eventos Independentes). Sejam (Ω,F , P ) e A,B ∈
F . A e B são eventos independentes se
P(A ∩B) = P(A)P(B).
[SEC. 1.1: UM MODELO DE PROBABILIDADE 7
A partir do momento que eventos podem ser independentes ou
não, e essa caracteŕıstica depende da diferença entre P(A ∩ B) e
P(A)P(B), é natural que se investigue como o conhecimento da ocor-
rência de um evento B pode influir na ocorrência de um evento
A, numa reavaliação da probabilidade de A pelo conhecimento da
ocorrência de B.
Definição 1.1.7 (Probabilidade Condicional). Sejam (Ω,F , P ) e
A,B ∈ F . A probabilidade condicional de A dado B, P(A|B), é
dada por
P(A|B) =



P(A ∩B)/P(B) se P(B) > 0
P(A) se P(B) = 0.
Exemplo 1.1.9 (Independência de Eventos). Sejam A, B e C even-
tos tais que P(A) = 0, 2, P(B) = 0, 7, P(C) = 0, 5, P(A ∩ B) = 0, 1,
P(A∩C) = 0, 1 e P(B∩C) = 0, 2. Note que A e C são independentes,
A e B são dependentes e B e C são dependentes. Mais ainda:
P(A|B) = 0, 1/0, 7 = 1/7 < P(A) P(B|A) = 0, 1/0, 5 = 1/5 < P(B)
P(A|C) = 0, 1/0, 5 = 0, 2 = P(A) P(C|A) = 0, 1/0, 2 = 0, 5 = P(C)
P(B|C) = 0, 2/0, 5 = 0, 4 < P(B) P(C|B) = 0, 2/0, 7 = 2/7 < P(C).
Note no exemplo 1.1.9 que os eventos que são mutuamente inde-
pendentes (A e C) não sofrem alterações de cálculo em suas proba-
bilidades por condicionamento, exatamente por serem independentes.
No caso de eventos mutuamente dependentes, como A e B ou B e C,
a reavaliação dada a ocorrência do outro evento modifica as expecta-
tivas de ocorrência.
Observação 1.1.1.
• Se P(A) = 0 ou P(A) = 1, então A é independente de B,
qualquer que seja B ∈ F
• Eventos disjuntos A e B são tais que P(A∩B) = 0 6= P(A)P(B)
a não ser que P(A) = 0 ou P(B) = 0.
• Portanto, eventos disjuntos, em geral, são dependentes. Apesar
de, em prinćıpio, isso parecer pouco intuitivo, note que eventos
que NUNCA acontecem juntos são bastante dependentes.
8 [CAP. 1: MODELO PROBABIĹISTICO
1.2 Variáveis Aleatórias
Seja E um experimento aleatório e Ω seu espaço de resultados. Em
muitas situações, o resultado observado do experimento ω ∈ Ω não
intervém de forma expĺıcita, pois podemos estar interessados apenas
em alguma caracteŕıstica de ω e não necessariamente em sua indivi-
dualização.
Uma forma conveniente de representar uma caracteŕıstica de in-
teresse é mediante a definição de uma função X com domı́nio em Ω.
Estudaremos aqui caracteŕısticas numéricas das observações, ou seja,
as dadas através de funções X: F → R. Estas funções são chamadas
de variáveis aleatórias e sua definição formal será vista adiante.
Exemplo 1.2.1 (Calçados Masculinos). Um fabricante de calçados
masculinos para adultos pretende atender ao consumo local de uma
pequena cidade, ou seja, Ω = {‘os homens adultos que moram na
cidade’}. É óbvio que, para dimensionar sua produção, ele não pre-
cisa conhecer os nomes nem outras caracteŕısticas pessoais dos seus
clientes potenciais, com exceção do tamanho do sapato.
Em resumo, podemos dizer que o fabricante deve possuir algum
conhecimento a respeito da variável X definida por: X(ω) =‘número
de sapato utilizado pela pessoa ω’, para cada ω ∈ Ω.
Mas qual é o conhecimento necessário a respeito de X? Por exem-
plo, o fabricante deve saber que, fabricando sapatos desde o número
32 até o 48, ele cobre todas as possibilidades e também que existem
mais clientes potenciais para os números 40 e 41 do que para 32 ou
48.
Com maior generalidade, é necessário que o fabricante conheça as
probabilidades dos conjuntos {ω/X(ω) = x}, denotados por [X = x]
para 32 ≤ x ≤ 48.
Exemplo 1.2.2 (Graciliano). Graciliano é aposentado da SANASA
e uma vez ao mês costuma se encontrar com seus antigos colegas
no Largo do Carmo. Ele pega o ônibus que vai para o centro de
Campinas, no terminal de Barão Geraldo. Nos horários em que ele
costuma viajar, há um intervalo de exatamente cinco minutos entre
duas sáıdas consecutivas. Graciliano é muito calmo e nem tenta acer-
tar a chegada no ponto para minimizar a espera. Ele tampouco gosta
de correr, de forma que, mesmo que o ônibus esteja na plataforma
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 9
prestes a partir, ele continuará andando no seu ritmo. O tempo X
que Graciliano fica no ponto aguardando o ônibus depende do horário
de chegada ao ponto que, por sua vez depende de muitos fatores:
hora em que Graciliano acordou, tempo demorado no café da manhã,
tempo demorado para tomar banho etc. Assim sendo, desistiremos de
considerar o posśıvel conjunto de situações ω que determina o tempo
final X.
Alternativamente, tentaremos trabalhar diretamente em X: com
base na informação dispońıvel a respeito dos costumes de Gracilia-
no, formularemos algumas hipóteses que simplifiquem o problema
e que nos permitam resolvê-lo. Em primeiro lugar, é evidente que
0 ≤ X < 5. O mı́nimo que ele espera é claramente 0. Por que X < 5
e não X ≤ 5 ? O que significa X = 5? Uma situação em que X
poderia ser exatamente igual a 5 seria caso Graciliano chegasse na
hora certa e simultaneamente dormisse no ponto.
Parece razoável pensar que, se 0 ≤ a < b < 5, a probabilidadede {ω / a ≤ X(ω) < b} seja proporcional ao comprimento de [a, b),
ou seja, (b− a)/5. Veja que se a = 0 e b = 5, teremos probabilidade
para [0 < X < 5] igual a 1, o que é correto. Como conseqüência, se
A ∩ [0 < X < 5] = φ, a probabilidade de [X ∈ A] é igual a 0.
Outro fato interessante é o de como seria a probabilidade de [X =
c], para 0 ≤ c < 5? Observe que o conjunto [X = c] pode ser pensado
como
[X = c] = lim
n→∞
[max(0, c− 1/n) ≤ X ≤ min(5, c− 1/n)],
que é decrescente e cujas probabilidades são menores do que ou iguais
a 2n−1.
Portanto, é natural que, se a probabilidade estiver definida de
forma consistente, [X = c] tenha probabilidade 0.
Isto poderia, à primeira vista, parecer contraditório com os fatos
[0 ≤ X < 5] = ∪0≤c<5[X = c] e P([0 ≤ X < 5]) = 1. Note,
no entanto, que o conjunto [0 ≤ X < 5] é união de uma famı́lia
não-enumerável de conjuntos disjuntos e, portanto, aqui não é imedi-
ata a aplicação de propriedades do tipo aditividade ou σ-aditividade.
Observe também que você já enfrentou este tipo de contradições
aparentes: por exemplo, o retângulo [0 ≤ x ≤ 1] × [0 ≤ y ≤ 1] ∈ R2
10 [CAP. 1: MODELO PROBABIĹISTICO
pode ser escrito como união disjunta da famı́lia não-enumerável dos
segmentos [0 ≤ x ≤ 1]×{y}, em que 0 ≤ y ≤ 1, sendo nula a área de
cada um dos segmentos e igual a 1 a área total do retângulo.
Também, como conseqüência de que a probabilidade de [X = c]
é igual a 0 se 0 ≤ c < 5, tem-se que: se 0 ≤ a < b < 5, ou seja, as
probabilidades dos conjuntos [a ≤ X ≤ b], [a ≤ X < b], [a < X ≤ b]
e [a < X < b] são todas (b− a)/5.
Observe que, diferentemente do exemplo 1.2.1, em que a probabi-
lidade estava concentrada em um número finito de valores de X, aqui
a probabilidade de qualquer conjunto [X = c] é nula e, conseqüente-
mente, o interesse está nas probabilidades de outros conjuntos como,
por exemplo, as imagens inversas de intervalos, tal como vimos no
parágrafo precedente.
Exemplo 1.2.3. [Alvo] Um indiv́ıduo atira num alvo a uma distância
de vinte metros. O alvo consiste de um ćırculo de madeira de 2 m
de raio com um ponto C marcado no seu centro. Assuma que o
atirador sempre acerta o plano Π determinado pelo ćırculo e que,
mediante algum dispositivo, seja posśıvel detectar o ponto P em que
o disparo atravessa Π. Neste caso, o espaço dos resultados pode ser
representado pelo conjunto Ω = {P/P ∈ Π}. Define-se a variável X
= distância (P,C) e é claro que Imagem(X) = R+ = {r ∈ R/r ≥ 0}.
Este exemplo tem alguns aspectos semelhantes ao exemplo 1.2.2,
no sentido de que a probabilidade de qualquer subconjunto A de Ω
deve ter alguma relação com a área de A.
Em primeiro lugar, é razoável pensar que se área(A) = 0, então
P(A) = 0, como ocorre no exemplo 1.2.2. Mas, neste caso, não mais
se sustenta a hipótese de que a probabilidade deva ser diretamente
proporcional à área, já que um atirador razoável acertará com maior
freqüência o ćırculo de centro C e raio 5 metros (cuja área é 25πm2)
do que o seu complementar (cuja área é infinita).
Neste momento, não preocupar-nos-emos em criar um modelo
mais ou menos preciso para X, como fizéramos no exemplo 1.2.2, por
sua maior complexidade, mas apresentamos, na figura 1.2, uma simu-
lação do desempenho comparado de quinhentos atiradores amadores
e quinhentos profissionais. Note que, no caso dos amadores, a dis-
tribuição espacial das flechas não é proporcional à área. À primeira
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 11
vista, no entanto, existiria certa proporcionalidade no caso dos profis-
sionais. Essa idéia inicial é um eqúıvoco, fruto da escala dos gráficos,
tendo os profissionais comportamento análogo ao dos amadores desde
que a escala seja escolhida de forma adequada. As escalas adequadas
são diferentes pelo simples fato de que os profissionais são mais pre-
cisos e, portanto, suas flechas se concentram de forma bem mais acen-
tuada em torno do centro do alvo. Note que a grande maioria de suas
flechas acertou uma região menor (centro preto do exemplo 1.2.4),
enquanto os amadores tem suas flechas espalhadas por todo o alvo e
várias caindo fora do mesmo.
Desempenho de Quinhentos Atiradores Amadores
(a)
12 [CAP. 1: MODELO PROBABIĹISTICO
Desempenho de Quinhentos Atiradores Profissionais
(b)
Figura 1.1: Tiro ao Alvo - (a) Treino de Amadores (b) Treino de
Profissionais
Exemplo 1.2.4 (Alvo II). Consideremos uma situação igual à do
exemplo 1.2.3, com exceção de que agora o alvo tem um centro preto
de 50 cm de diâmetro e o resto do ćırculo (um anel) de madeira está
pintado de branco. O atirador ganha 8 pontos se acertar no centro,
2 se acertar na parte branca e −5 se não acertar na placa do alvo.
Seja Ω o mesmo conjunto do exemplo 1.2.3. Agora, no entanto,
definiremos a variável Y (pontuação) da seguinte forma:
Y (ω) =



8 se ω estiver no centro preto;
2 se ω estiver na parte branca da placa; e
−5 se ω estiver fora da placa.
Esta situação é semelhante à descrita no exemplo 1.2.1 e seria,
portanto, interessante determinar as probabilidades dos conjuntos:
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 13
[Y = −5], [Y = 2] e [Y = 8]. Uma observação que o leitor atento já
se deve ter feito é a de que esse exemplo do alvo e da importância
factual apenas dos valores de Y , contrastada com o exato ponto em
que a flecha atinge o plano π nos mostra a abundância excessiva de
informação de Ω para os nossos propósitos e que a introdução de uma
variável aleatória nos possibilita calcular probabilidades apenas para
os casos de interesse, em vez de fazê-lo para uma classe de subcon-
juntos de Ω grande demais.
Exemplo 1.2.5 (Tempo de Prova). Os alunos inscritos na disciplina
‘Probabilidade I’ são submetidos a uma prova cuja duração máxima
é de duas horas. Anota-se o tempo demorado X por cada aluno para
entregá-la. Defina formalmente Ω e X. É fácil que haja empates nos
tempos de entrega? Em que valor eles ocorreriam?
Definição 1.2.1 (Variável Aleatória). Seja (Ω,F ,P) o espaço de
probabilidade associado a um experimento aleatório. Uma função X :
Ω → R é dita uma variável aleatória se:
{ω/X(ω) ∈ I} = [X ∈ I] = X−1(I) ∈ F ,
para todo intervalo I ⊂ R.
Observação 1.2.1. A definição acima foi feita para possibilitar o
cálculo das probabilidades dos conjuntos [X ∈ I], para todo intervalo
I ⊂ R.
Definição 1.2.2 (Pontos Isolados). Um subconjunto A de R é um
conjunto de pontos isolados se satisfaz a seguinte propriedade: para
todo a ∈ A, existe um intervalo aberto Ia tal que Ia ∩A = {a}.
Observação 1.2.2. Conhecer as probabilidades dos conjuntos
[X ∈ I] para todo intervalo I ⊂ R é fundamental no exemplo 1.2.2; o
mesmo acontece nos exemplos 1.2.3, 1.2.5, sendo óbvio que a definição
1.2.1 nos possibilita trabalhar nesses casos. Também em todos os e-
xemplos citados neste parágrafo, com exceção do exemplo 1.2.5, as
probabilidades dos conjuntos [X = x] são nulas.
Já no exemplo 1.2.1 (também nos exemplos 1.2.4, 1.2.5), o inte-
resse maior estaria centrado em calcular as probabilidade de conjun-
tos do tipo [X = x], para x ∈ R. Em todos estes casos, Imagem(X)
14 [CAP. 1: MODELO PROBABIĹISTICO
é um conjunto finito e, portanto, todos estes casos também são con-
templados pela definição 1.2.1, dado que:
• se x /∈ Imagem(X), então [X = x] = φ ∈ F ;
• se Imagem(X) for um conjunto finito e x ∈ Imagem(X), então
existe um intervalo I ⊂ R tal que [X = x] = [X ∈ I] - basta
tomar I = (x− ϕ, x + ϕ), em que
0 < ϕ < min |x, y|
(sendo essa minimização feita para o conjunto de y’s tais que
y ∈ Imagem(X), y 6= x)
e, portanto, [X = x] ∈ F ;
• mais geralmente, se Imagem(X) for um conjunto de pontos
isolados e x ∈ Imagem(X), é obvio que [X = x] ∈ F , dado
que basta considerar qualquer intervalo I ⊂ R tal que x ∈ I e
I ∩ Imagem(X) = {x} (veja definição 1.2.2) pois, neste caso,
[X = x] = [X ∈ I].
Podemos dizer que a definição 1.2.1 é apta para responder a todas
as perguntas de interesse relativasaos exemplos acima.
Uma pergunta que o leitor ainda deve ter é sobre a utilidade da
definição 1.2.1 para lidar com variáveis categóricas, isto é, que divi-
dam as possibilidades de ocorrências em categorias como, por exem-
plo, ser ou não fumante ou o primeiro parto, como no exemplo 1.2.2.
Não é nosso objetivo exaurir todas as questões relevantes que se po-
dem colocar diante dos leitores mas, nesse caso, uma posśıvel solução
seria a de se criarem variáveis binárias que em conjunto represen-
tem a variável categórica de interesse e, através daquelas, utilizar a
definição 1.2.1.
1.2.1 Função de Distribuição Acumulada
Dada uma variável aleatória X, é fácil verificar que, para todo r ∈
R, o conjunto [X ≤ r] = {ω/X(ω) ≤ r} ∈ F , dado que se m =
max {z ∈ Z/z ≤ r}, então:
[X ≤ r] =
⋃
n∈Z,n≤m
[n− 1 < X ≤ n] ∪ [m < X ≤ r],
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 15
(se r for inteiro, então m = r e [m < X < r] = φ).
Também, dado que o conjunto [X ≤ r] foi escrito como a união
disjunta de uma subfamı́lia enumerável de conjuntos da famı́lia {[a <
X ≤ b], a, b ∈ R, a < b}, é posśıvel calcular as probabilidades dos
conjuntos [X ≤ r] = {ω/X(ω) ≤ r], r ∈ R a partir das probabilida-
des dos conjuntos {[a < X ≤ b], a, b ∈ R, a < b}.
Reciprocamente, veremos que, a partir das probabilidades dos
conjuntos {[X ≤ r, r ∈ R]}, será posśıvel obter as probabilidades dos
conjuntos [X ∈ I], para qualquer intervalo I ⊂ R. Por exemplo,
se a < b, então [X ≤ b] = [X ≤ a] ∪ [a < X ≤ b] e, portanto,
P([a < X ≤ b]) = P([X ≤ b])− P([X ≤ a]).
Além de se obterem as probabilidades dos conjuntos [X ∈ I],
I ⊂ R, será posśıvel, a partir das probabilidades de conjuntos do
tipo [X ≤ a], achar as probabilidades de outros muitos conjuntos
interessantes.
Finalmente, para condensar a informação contida nos conjuntos
{[X ≤ r], r ∈ R}, define-se a função de distribuição acumulada da
variável aleatória X a seguir.
Definição 1.2.3 (Função de Distribuição Acumulada). A função de
distribuição acumulada da variável aleatória X é a seguinte função
F : R → [0, 1]:
F (r) = P([X ≤ r]) = P({ω/X(ω) ≤ r, r ∈ R}),
para todo r ∈ R.
Muitas vezes, será conveniente denotar F por FX , para salientar
que se trata da função de distribuição acumulada associada à variável
aleatória X (por exemplo, quando se trabalha com várias variáveis
aleatórias simultaneamente). A função de distribuição acumulada
receberá a abreviação f.d. .
Teorema 1.2.1 (Propriedades da Função de Distribuição). Seja X
uma variável aleatória definida no espaço de probabilidade (Ω,F ,P).
Então, a função de distribuição acumulada F de X tem as seguintes
propriedades:
a) F é monótona não decrescente;
b) F é cont́ınua à direita, ou seja, limt→r+ F (t) = F (r); e
c) limt→−∞ F (t) = 0 e limt→∞ F (t) = 1.
16 [CAP. 1: MODELO PROBABIĹISTICO
Demonstração: a) É conseqüência do seguinte fato: se a < b, então
[X ≤ a] ⊂ [X ≤ b];
b) Dado que F é monótona, existe limt→r+ F (t) e também vale que
limt→r+ F (t) = limn→∞ F (tn), para qualquer seqüência tal que tn →
r+. Consideremos, então, a seqüência tn = r + 1/n: verifica-se que
limt→r+ F (t) = limn→∞ F (tn) = F (r), dado que a seqüência decres-
cente de conjuntos {[X ≤ r + 1/n], n ∈ N} converge para o conjunto
[X ≤ r]; e
c) Sendo F monótona, existem limt→ −∞ F (t) e limt→∞ F (t) e estes
podem ser calculados através de quaisquer seqüências cujos ‘limites’
sejam −∞ e +∞, respectivamente. Por exemplo: limt→−∞ F (t) =
limm→−∞ F (m) e limt→∞ F (t) = limn→∞ F (n), em que n ∈ N e
m = −n e basta-nos então considerar as seqüências de conjuntos
{[X ≤ −n], n ∈ N} e {[X ≤ n], n ∈ N} e observar que a primeira
delas decresce para φ e que a segunda cresce para Ω. ¥
Teorema 1.2.2 (Rećıproco do Teorema 1.2.1). Seja F : R → R tal
que:
a) F é monótona não-decrescente;
b) F é cont́ınua à direita, ou seja, limt→r+ F (t) = F (r); e
c) limt→−∞F (t) = 0 e limt→∞F (t) = 1.
Nessas condições:
i) Existe uma variável aleatória X definida em um espaço de proba-
bilidade (Ω,F ,P) cuja função de distribuição acumulada é F ;
ii) A probabilidade PX definida nos borelianos de R por:
PX(B) = P(X−1(B)) = P({ω/X(ω) ∈ B})
é única e obviamente determinada pela função F .
O teorema 1.2.2 é de natureza puramente técnica, de certa forma
não-construtiva, pois não sabemos de qual caracteŕıstica (variável
aleatória) F é a função de distribuição acumulada. Além disso, sua
demonstração exige conhecimentos matemáticos bem além dos exigi-
dos neste curso e será, portanto, omitida. No entanto, é fundamental
para a Inferência Estat́ıstica, em validar existência de distribuições
associadas à caracteŕısticas amostrais.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 17
Teorema 1.2.3 (Descontinuidades da Função de Distribuição). Seja
F a função de distribuição acumulada da variável aleatória X. Então:
a) Existem e são finitos os limites laterais de F para todo t ∈ R; além
disso, satisfazem limt→r− F (t) ≤ limt→r+ F (t);
b)limt→r+ F (t) = F (r);
c) F é descont́ınua em r ∈ R se e somente se limt→r− F (t) < F (t)
e, portanto, toda descontinuidade consiste em um salto;
d) para todo r ∈ R, vale que P(X = r) = F (r) − limt→r− F (t) =
salto de F em r (este salto pode ser inclusive 0, em caso de um ponto
de continuidade);
e) existe, no máximo, um número enumerável de descontinuidades.
Demonstração:
a) a existência e finitude dos limites laterais decorre do fato de F ser
monótona e limitada; também, sendo F monótona não decrescente,
então, para todo r ∈ R, limt→r− F (t) ≤ limt→r+ F (t);
b) é conseqüência da continuidade à direita de F ;
c) decorre do fato de ser F monótona não decrescente;
d) para todo r ∈ R , o conjunto [X = r] é limite da seqüência
decrescente [r − 1/n < X ≤ r]; e
e) por definição, salto de F em t é igual a
lim
t→r+
F (t)− lim
t→r−
F (t);
então, sendo F monótona,
#
(
{t/salto de F em t > 1
n
}
)
× 1
n
≤ 1 = sup
t∈R
F (t)− inf
t∈R
F (t),
para todo n ∈ N.
Portanto, #({t/salto de F em t > 1/n}) é finito para todo n ∈ N
e, conseqüentemente,
{saltos de F} =
⋃
n∈N
{salto de F/ salto > 1/n}
é no máximo enumerável. ¥
Observação 1.2.3. As demonstrações dos teoremas 1.2.2 e 1.2.3
utilizam conceitos de análise. Em caso de dúvidas, seria bom que
18 [CAP. 1: MODELO PROBABIĹISTICO
o leitor interessado procurasse um bom livro de análise como, por
exemplo, o excelente [64].
Os pontos e amplitudes dos saltos da f.d. têm, portanto, grande
importância na Teoria de Probabilidade e seu estudo motiva a seguinte
definição associada.
Definição 1.2.4 (Função de Massa). Seja X uma variável aleatória
definida no espaço de probabilidade (Ω,F ,P), com função de dis-
tribuição acumulada F . A função de massa de probabilidade
da variável aleatória X é a função p : R→ R definida por:
p(r) = P(X = r) = P({ω/X(ω) = r}).
Lembre que, pelo item d do teorema 1.2.3, para todo r ∈ R, tem-se
P(X = r) = F (r)− limt→r− F (t) = salto de F em r.
1.2.2 Variáveis Aleatórias Discretas
Estudaremos aqui aquelas variáveis aleatórias X : Ω → R cujas ima-
gens sejam algum conjunto finito ou enumerável. No caso enumerável,
acrescentaremos a condição de que os pontos da Imagem(X) sejam
isolados.
Definição 1.2.5 (Variável Aleatória Discreta). Seja (Ω,A,P) o es-
paço de probabilidade associado a um experimento aleatório. Uma
função X : Ω → R é dita uma variável aleatória discreta se:
i) Imagem(X) é um conjunto finito ou um conjunto enumerável de
pontos isolados; e
ii) [X = x] = X−1(x) ∈ A, para todo x ∈ Imagem(X).
Observação 1.2.4. Se Imagem(X) = {αi}i∈N, então é claro que:
{[X = αi]}i∈N é uma partição de Ω e, portanto,
∑
i∈N
P(X = αi) = 1.
Um conjunto de resultados muito importantes pode ser resumido
pela seguinte proposição.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 19
Proposição 1.2.1 (Propriedades de uma Variável Discreta). Seja X
uma variável aleatóriadiscreta (definição 1.2.5). Então:
(i) X satisfaz a definição 1.2.1 de uma variável aleatória;
ii) X satisfaz ∑
r∈R
p(r) =
∑
r∈R
P(X = r) = 1,
em que p é a função de massa de probabilidade de X e P(X = r) > 0
se e somente se r ∈ Imagem(X); e
iii) Se Imagem(X) = {αi}i∈N, então:
X =
∑
i∈N
αiIAi ,
em que Ai = X−1(αi) para todo i ∈ N e, se F é a função de dis-
tribuição acumulada de X, tem-se que:
F (t) =
∑
r≤t
p(r) =
∑
αi≤t
P(X = αi) =
∑
i∈N
P(X = αi)I[αi,∞)(t).
Considere-se um evento A ∈ F . Defina-se a v.a. indicadora do
evento A, denotada por IA, por
IA(ω) =
{
1 se ω ∈ A
0 c.c.
O leitor pode verificar que IA é uma v.a. em (Ω,F ,P). Além disso,
é uma v.a. discreta, com dois resultados posśıveis: 0 ou 1. Sua função
de massa p é descrita por p(1) = P(A) e p(0) = P(Ac) = 1− P(A).
A demonstração da proposição 1.2.1 é deixada a cargo do leitor.
Notemos, como sua conseqüência mais importante é que, para verifi-
carmos se uma determinada seqüência {pi, i ∈ I} (seja I um conjunto
finito ou não, desde que enumerável) representa as probabilidades de
alguma variável aleatória discreta, basta-nos verificar que
∑
i∈I
pi = 1; e (1.1)
pi ≥ 0, ∀i ∈ I, (1.2)
20 [CAP. 1: MODELO PROBABIĹISTICO
ou seja, toda a probabilidade deve estar concentrada em I (por (1.1))
e todos os pi’s devem ser não-negativos (por (1.2)), para que possam
ser realmente probabilidades. Lembrem-se que ∀A ∈ F , 0 ≤ P(A) ≤
1. Caso ambas as condições sejam satisfeitas, diz-se que {pi, i ∈ I} é
uma função de massa fidedigna.
1.2.3 Distribuições Cont́ınuas
Definição 1.2.6 (Variável Aleatória Cont́ınua). X é dita cont́ınua se
sua função de distribuição acumulada FX for uma função cont́ınua.
Equivalentemente, X é cont́ınua se e somente se p(t) = P(X = t) = 0
para todo t ∈ R.
Exemplo 1.2.6 (Distribuição Uniforme). Seja X a variável aleatória
definida no exemplo 1.2.2. Foi visto que FX é dada por:
FX(t) =



0 t < 0,
t/5 0 ≤ t < 5,
1 t ≥ 5;
Exemplo 1.2.7 (Distribuição Cauchy). Seja V uma variável aleatória
cuja função de distribuição acumulada FV (t) é dada por:
FV (t) =
1
2
+
1
π
tan−1 t,
para todo t ∈ R, em que tan−1 é a função inversa de tan : (−π/2, π/2)
→ R.
Note que, no caso da variável V , para todo t ∈ R, existe a derivada
de FV (t), sendo
fT (t) = (FT )′(t) =
1
π
1
1 + t2
.
Quando existe fT (t) = (FT )′(t) para todo t, o teorema fundamen-
tal do cálculo integral afirma que, para todo s, t ∈ R, s < t:
P(s < T ≤ t) = FT (t)− FT (s) =
∫ t
s
fT (u)du.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 21
Tomando-se s → −∞ na equação acima, obtém-se
FT (t) =
∫ t
−∞
fT (u)du.
Observe-se que, sendo FT monótona não decrescente e fT cont́ı-
nua, fT (t) ≥ 0 para todo t ∈ R.
Muitas vezes, a função de distribuição acumulada, F , de uma
certa variável aleatória satisfaz F (t) − F (s) = ∫ t
s
f(u)du, em que
f é uma função não-negativa, integrável, mas não necessariamente
cont́ınua. Isto ocorre, por exemplo, no caso da função de distribuição
acumulada FX(t) da variável X do exemplo 1.2.2, para a qual
(FX)′(t) =



0 t < 0,
1/5 0 < t < 5,
0 t > 5
e que (FX)′(t) não existe em 0 e 5; também observa-se que, além de
não estar definida em 0 e 5, (FX)′ tem descontinuidades essenciais
em 0 ou 5, já que, nesses pontos, não coincidem os limites laterais.
Entretanto, é fácil verificar que FX(t) satisfaz:
FX(t)− FX(s) =
∫ t
s
(FX)′(u)du,
se s, t ∈ R, s < t, sendo irrelevante para a validade da igualdade
acima o fato de (FX)′ não estar definida em 0 e 5 (ou em qualquer
conjunto finito de pontos).
Definição 1.2.7 (Função de Densidade). Seja X uma variável alea-
tória cont́ınua e FX sua função de distribuição acumulada. Uma
função fX não-negativa e integrável em R é dita função de densi-
dade de probabilidade de X se
FX(t)− FX(s) =
∫ t
s
fX(u)du,
para s, t ∈ R, s < t.
De forma análoga à notação da função de distribuição acumulada,
f é denotada por fX , quando se fizer necessária a distinção entre
22 [CAP. 1: MODELO PROBABIĹISTICO
várias variáveis aleatórias. Além disso, nessas condições, a variável
aleatória X é dita absolutamente cont́ınua.
Veja que, caso exista uma densidade para a variável aleatória
cont́ınua X com função de distribuição acumulada FX , ela não será
única, no sentido de que, se a modificarmos num número finito de
pontos, esta nova função continua a satisfazer o teorema fundamen-
tal do cálculo integral para FX e, portanto, também é uma função
de densidade de X. Com isso, é usual utilizarmo-nos da função de
densidade de X que tiver menos pontos de descontinuidades e, caso
posśıvel, que seja cont́ınua.
Como f é uma função limitada (por ser integrável), se F satisfaz
F (t)− F (s) =
∫ t
s
f(u)du,
para s, t ∈ R, s < t, necessariamente F será uniformemente cont́ınua,
já que, se s, t ∈ R e s < t,
|F (t)− F (s)| = F (t)− F (s) =
∫ t
s
f(u)du ≤ (t− s) sup
x∈R
f(x).
De forma análoga ao caso discreto, iremos chamar de uma função
de densidade fidedigna toda função f tal que:
f(x) ≥ 0 ∀x ∈ R e
∫ +∞
−∞
f(x)dx = 1. (1.3)
Claramente a não-negatividade de f é fundamental para que F ,
definida em f , no esṕırito da definição 1.2.7 seja monótona não-
decrescente mas que sua integral seja 1 pode ser facilmente contor-
nada por uma transformação desde que sua integral seja estritamente
positiva.
Finalmente, existem distribuições cont́ınuas que não são absoluta-
mente cont́ınuas mas estão fora do escopo deste livro a construção de
um exemplo ou uma discussão mais aprofundada do assunto. Nesse
esṕırito, iremos utilizar os termos absolutamente cont́ınua e cont́ınua
sem maiores preocupações, ao longo do texto.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 23
1.2.4 Seqüência de Variáveis Aleatórias
Definido um espaço de probabilidade e estudada uma variável alea-
tória, um próximo passo é o estudo de uma seqüência de variáveis
aleatórias definidas num mesmo espaço de probabilidade. A noção de
seqüência de variáveis aleatórias é basal para uma multiplicidade
de áreas como Processos Estocásticos, Teoria de Sinais, Teoria de
Controle, entre outras. Para o nosso texto, ela é fundamental na
construção de funções de distribuição emṕıricas e do Teorema
Fundamental da Estat́ıstica (Glivenko-Cantelli), que estudaremos
ao final deste caṕıtulo. Há vários detalhes técnicos que omitiremos
mas que não comprometem a utilização do conceito no resto do texto.
Definição 1.2.8 (Seqüência de Variáveis Aleatórias). Considere (Ω,
F ,P). X1, X2, . . . é uma seqüência de variáveis aleatórias definidas
em (Ω,F ,P) se Xi é uma variável aleatória definida em (Ω,F ,P),
para i ≥ 1.
No caso de Inferência Estat́ıstica, um caso particular importan-
t́ıssimo é aquele das variáveis aleatórias independentes.
Definição 1.2.9 (Independência de Variáveis Aleatórias).
(i) Sejam X1, . . . , Xn variáveis aleatórias definidas num espaço de
probabilidade (Ω,F ,P). Sua função de distribuição conjunta é dada
por:
FX1,...,Xn(x1, . . . , xn) = P (X1 ≤ x1, . . . , Xn ≤ xn) ∀x1, . . . , xn ∈ R.
(ii) X1, . . . , Xn são ditas independentes se
FX1,...,Xn(x1, . . . , xn) = FX1(x1)× · · · × FXn(xn) ∀x1, . . . , xn ∈ R.
(iii) Uma seqüência de v.a.’s definidas em (Ω,F ,P) é dita indepen-
dente se X1, . . . , Xn são independentes ∀n ≥ 2.
Um caso particular da definição 1.2.9 é dado a seguir. Usa-se o
mesmo termo i.i.d. para conjuntos finitos X1, . . . , Xn.
Definição 1.2.10 (Seqüência de Variáveis Aleatórias i.i.d.). Uma
seqüência de v.a.’s definidas em (Ω,F ,P) é dita i.i.d. se X1, . . . , Xn
são independentes ∀n ≥ 2 e FXi ≡ FX1 para todo i = 2, . . ..
24 [CAP. 1: MODELO PROBABIĹISTICO
1.2.5 Momentos e Outras Medidas de Posição e
Dispersão
Definição 1.2.11 (Esperança de uma v.a. com Imagem Finita).
Considere-se uma variável aleatória discreta X, com imagem {x1,. . . ,
xn}, e seja p sua função de massa. Então, o ‘valor esperado’ (ou
valor médio) da variável X, denotada por E(X), é a seguinte média
ponderada:
E(X) =
n∑
i=1
xip(xi).
Podemos estender sem dificuldades a definição para v.a.’s discre-
tas com imagem infinita.
Definição 1.2.12 (Esperança de uma Variável Aleatória Discreta).
Seja X uma variável aleatória discreta, com imagem {x1, x2, . . .}, e
função de massa p. Sua esperança é dada por
E(X) =
+∞∑
i=1
xip(xi),
quando essa soma (infinita) converge.
Uma questão natural é a da extensão de tal conceito para variáveis
aleatórias de qualquer natureza, isto é, que não sejam necessaria-
mente discretas. Foge aos objetivos deste livro o tratamento sis-
temático de variáveis aleatórias que não sejam discretas ou absoluta-
mente cont́ınuas. No entanto, falta-nos ainda uma definição de con-
ceito equivalente para o caso de variáveis aleatórias (absolutamente)
cont́ınuas.
Primeiramente, qual a interpretação que se pode dar a conceitos
como os expostos nas definições 1.2.11 e 1.2.12? Claramente, a uti-
lização de um valor esperado era o de caracterizar um valor relevante
ou de alguma forma central no conjunto de todos os valores posśıveis
do que a média de todos eles. Quando distanciamo-nos da noção
clássica de probabilidade, aceitando probabilidades diferentes para
eventos discretos, por exemplo, a idéia de um valor central se torna
mais complicada numa primeira leitura. O que ele faz, no entanto,
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 25
é simplesmente, substituir a média geral por uma média ponderada
pelas respectivas probabilidades, o que é exatamente a interpretação
da definição 1.2.11. Como interpretar a esperança de v.a.’s discretas
(mas de infinitos valores), como o exposto na definição 1.2.12? Se
pensarmos, intuitivamente, em que podemos definir valores espera-
dos para cada conjunto finito de valores posśıveis: {x1, x2, . . . , xk}
e tomar seu limite quando k → ∞12, teŕıamos que a esperança de
uma v.a. discreta com conjunto de valores posśıveis infinito seria
resultado de uma reavaliação sistemática das esperanças das v.a’s
definidas em conjuntos finitos, quando do aumento do conjunto de
valores posśıveis. Qualquer precisa formulação de um valor carac-
teŕıstico (como deve ser a esperança) deveria ser robusto a tais mu-
danças e é isto que a definição 1.2.12 nos traz sobre a definição 1.2.11.
Embúıdos de tal esṕırito, devemos também lembrar que a noção
de densidade e função de massa tem similaridades que por nós devem
ser utilizadas para que possamos definir a esperança de uma variável
cont́ınua analogamente à de uma discreta.
Definição 1.2.13 (Esperança de uma Variável Aleatória Cont́ınua).
Seja X uma variável aleatória cont́ınua com densidade f . Define-se
a esperança de X, denotada por E(X), como
E(X) =
∫ +∞
−∞
xf(x) dx,
quando esta integral (infinita) existe.
A esperança é um operador linear positivo, isto é,
Proposição 1.2.2 (Propriedades da Esperança). (a) Seja X uma
variável aleatória positiva. Então, E(X) > 0.
(b) E(1) = 1;
(c) Se a ∈ R então, E(aX) = aE(X); e
(d) E(X + b) = E(X) + b, ∀b ∈ R.
1conceito equivalente à definição de uma série como o limite de somas quando
o conjunto de ı́ndices cresce.
2Há que se tomar cuidado com a idéia de fazer tal operação de limite mas
esses problemas fogem ao grau de complexidade deste livro.
26 [CAP. 1: MODELO PROBABIĹISTICO
Demonstração:
Primeiramente, o resultado (b) é muito simples: 1 pode ser visto
como uma v.a. discreta assumindo somente um valor: 1. Tem, por-
tanto, função de massa dada por p(1) = 1, p(x) = 0 caso x 6= 1 e o
resultado é aplicação imediata da definição 1.2.12.
A demonstração dos outros resultados pode ser decomposta em
dois casos, de acordo com a variável ser discreta ou (absolutamente)
cont́ınua.
Caso Discreto:
(a) Sendo a variável aleatória positiva, sua esperança nada mais é do
que uma soma de quantidades positivas, sendo portanto positiva;
(c) Sem perda de generalidade, vamos supor que X ∈ {x1, x2, . . .},
com função de massa pX . A v.a. aX tem imagem {ax1, ax2, . . .} e
sua função de massa, paX , atende a
paX(axi) = pX(xi),
para qualquer i ≥ 1. Portanto,
E(aX) =
∞∑
i=1
axipaX(axi) = a
∞∑
i=1
xipX(xi) = aE(X).
(d) Seja Y = X+b. Sendo, sem perda de generalidade, Imagem(X)
= {x1, x2, . . .}, temos
Imagem(Y ) = {x1 + b, x2 + b, . . .}.
Além disso, pY (k) = pX(k − b). Portanto,
E(Y ) =
∑
k∈ImY
kpY (k) =
∑
m∈ImX
(m + b)pX(m)
=
( ∑
m∈ImX
mpX(m)
)
+ b
= E(X) + b.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 27
Caso (absolutamente) Cont́ınuo:
(a) Sendo a variável aleatória positiva, sua esperança nada mais é
do que uma integral do produto de duas funções positivas, sendo
portanto positiva;
(c) Se a = 0, o resultado é trivial. Se a > 0, seja fX a densidade de
X. A v.a. aX tem por função de distribuição acumulada
P(aX ≤ x) = P(X ≤ x/a) =
∫ x/a
−∞
fX(t) dt.
Usando-se a mudança de variável: u = at, temos
P(aX ≤ x) =
∫ x
−∞
1
a
fX(u/a) du.
Conseqüentemente, aX é uma variável aleatória cont́ınua, com
densidade 1afX(u/a). Segue que
E(aX) =
∫ +∞
−∞
u
a
fX(u/a) du.
Usando-se t = u/a, tem-se
E(aX) =
∫ +∞
−∞
atfX(t) dt = aE(X).
O caso a < 0 é semelhante e será tratado no Exerćıcio 1.33.
(d) Seja Y = X + b. A distribuição acumulada de Y é dada por
FY (x) = FX+b(x) = P(X + b ≤ x) = P(X ≤ x− b)
= FX+b(x) =
∫ x−b
−∞
fX(t) dt
=
∫ x
−∞
fX(u− b) du.
Portanto, Y = X + b tem densidade fX(· − b) e
28 [CAP. 1: MODELO PROBABIĹISTICO
E(X + b) =
∫ +∞
−∞
tfX(t− b) dt =
∫ +∞
−∞
(u + b)fX(u) du
=
∫ +∞
−∞
ufX(u) du + b
= E(X) + b.
¥
Um resultado muito simples mas extremamente interessante que
relaciona de forma direta os conceitos de probabilidade e esperança
é dado na proposição a seguir.
Proposição 1.2.3 (Esperança da Função Indicadora). Para qualquer
evento A ∈ F , tem-se
E(IA) = P(A).
Demonstração: Por sua própria definição, E(IA) pode ser escrita
como
E(IA) = 0× (1− P(A)) + 1× P(A).
¥
Uma aplicação imediata da proposição 1.2.3 gera um dos resulta-
dos fundamentais da Teoria de Probabilidade: a Desigualdade de
Markov.
Teorema 1.2.4 (Desigualdade de Markov). Seja X uma variável
aleatória positiva e a > 0 real. Então,
P(X > a) ≤ E(X)
a
Demonstração: Caso E(X) não seja finita, o resultado é trivial,
com desigualdade estrita. Considere o evento A = {X > a}. Note
que Ω = A ∪Ac,
[X = x] = [X = x, ω ∈ A]
⋃
[X = x, ω ∈ Ac]
e, para cada ω ∈ Ω,
IA(ω) + IAc(ω) = 1,
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 29
pois ω ∈ A ou ω ∈ Ac exclusivamente. Portanto,
X = XIA + XIAc = XI[X>a] + XIAc ≥ aIA
em que usamos que X ≥ 0. Segue das propriedades de linearidade e
positividade da esperança e da proposição 1.2.3 que
E(X) ≥ aE(IA) = aP(X > a). ¥
Exemplo 1.2.8 (Desigualdade de Markov para a Bernoulli). Suponha
que X possa assumir apenas os valores 0 e 1, com respectivas proba-
bilidades 1− p e p, em que 0 ≤ p ≤ 1. Sabemos, portanto que:
P(X > a) =
{
p 0 < a < 1
0 1 ≤ a (1.4)
Mas, por outro lado, sabemos que
E(X) = 0× (1− p) + 1× p = p,
e, pela desigualdade de Markov 1.2.4, temos o seguinte limite para
P(X > a), a > 0:
P(X > a) <
E(X)
a
=
p
a
. (1.5)
Note que os valores dados pela desigualdade são tão maiores
quanto maior for o valor da probabilidade de se obter X = 1 e inversa-
mente proporcionais ao ińıcio da cauda, a. O verdadeiro valor caudal,
no entanto, tem comportamento dicotômico, isto é, assume apenas
dois valores: p ou 0. A importância do ińıcio da cauda, a, é ape-
nas para compará-lo com 1. É muito importante levar em conta que
a desigualdade de Markov fornece valores universais, no sentido de
que independem das distribuições das variáveis aleatórias (dependem
apenas da esperança), razão por que são úteis. Porém, exatamente
por isso, seu comportamento será heterogêneo, provendo valores ex-
tremamente finos por vezes e grosseirospor outras.
Na figura 1.2.5, ilustramos os comentários acima para alguns casos
de p. Note que o valor fornecido por (1.5) chega a ser 100 vezes maior
do que o verdadeiro valor, dado por (1.4), para p = 0, 9, com valores
30 [CAP. 1: MODELO PROBABIĹISTICO
aproximados de P(X > a) iguais a 90, ou seja, completamente inúteis.
As comparações são realizadas apenas para 0 < a < 1, pois P(X >
a) = 0, para a ≥ 1. Para esses valores de a, a aproximação fornecida
pela desigualdade se torna extremamente ruim. O comportamento da
razão valor estimado / valor verdadeiro é homogêneo para p ∈ (0, 1).
Figura 1.2: Desigualdade de Markov para a Bernoulli
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
10
20
30
40
50
60
70
80
90
100
p=0,9
a
ap
ro
x.
/v
er
d.
aprox./verd.
1
Exemplo 1.2.9 (Desigualdade de Markov para a Exponencial). Suponha
que X tenha densidade dada por
f(x) = exp (−x)IR+(x).
Claramente P(X > 0) = 1. Sua esperança é dada por:
E(X) =
∫ +∞
0
x exp (−x)dx = 1.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 31
Observe-se que, se g fosse uma função não-decrescente, positiva
e se E(g(X)) existisse, escrevendo-se g(X) = g(X)IA + g(X)IAc ≥
g(a)1A, teŕıamos
P(X > a) ≤ E(g(X))
g(a)
. (1.6)
Portanto, é interessante podermos calcular valores esperados não
somente de variáveis aleatórias mas de funções adequadas das mes-
mas. Para isso, precisamos de dois resultados muito gerais e impor-
tantes.
Suponha que X seja uma variável discreta com função de massa
p: denotamos Imagem(X) sua imagem, isto é, Imagem(X) = {x ∈
R|p(x) > 0}. Analogamente, caso X seja uma variável aleatória
cont́ınua com densidade f , Imagem(X) = {x ∈ R|f(x) > 0}. Ao
definirmos uma variável aleatória, supomos ter esssa uma determi-
nada caracteŕıstica de imagem inversa na σ-álgebra. Essa necessidade
de ligação traz consigo duas reflexões: quão dif́ıcil é a existência de
tais ligações e podemos definir novas variáveis aleatórias a partir de
antigas, sem precisar retornar à σ-álgebra?
A primeira questão é bastante técnica e foi respondida, de forma
positiva, sem maiores justificativas, no começo desta seção. A se-
gunda será aqui brevemente comentada, com resposta também posi-
tiva, para um conjunto de funções tão grande que o leitor não se deve
mais ocupar com tal assunto, ao ńıvel deste curso.
Lema 1.2.1 (Transformação de Variáveis Aleatórias). Sejam: X
uma variável aleatória em (Ω,F ,P); e g uma função de Imagem(X)
em J ⊂ R, tal que, qualquer que seja I intervalo de R, o conjunto
g−1(I) também é um intervalo de R. Então, g(X) é uma variável
aleatória em (Ω,F ,P).
Demonstração: Seja I um intervalo de R. Pelas propriedades de
inversas de funções compostas, temos (g(X))−1(I) = X−1(g−1(I)).
Como, por hipótese, g−1(I) é um intervalo de R e X−1(J) ∈ F , para
qualquer intervalo real J , pois X é uma v.a. de (Ω,F ,P), conclúımos
que X−1(g−1(I)) ∈ F e portanto g(X) é uma variável aleatória em
(Ω,F ,P). ¥
Neste ponto, não nos interessa estudar em detalhes a distribuição
32 [CAP. 1: MODELO PROBABIĹISTICO
da nova variável aleatória g(X). Para nossos objetivos, basta-nos
caracterizar sua esperança, como determinada na proposição a seguir.
Proposição 1.2.4 (Esperança da Transformação de V.a.’s). Seja g
uma função mensurável e X uma v.a.
(a) discreta, com funçao de massa pX e imagem Imagem(X).
Então,
E(g(X)) =
∑
k∈Imagem(X)
g(k)pX(k); e
(b) cont́ınua, com densidade fX . Então,
E(g(X)) =
∫ ∞
−∞
g(t)fX(t) dt.
No entanto, mesmo sabendo calcular E(g(X)), para qualquer g
mensurável, o leitor deve estar questionando a utilidade prática de
resultado como (1.6), pois de que maneira podeŕıamos decidir qual a
função g adequada para uma determinada situação? A seguir, defi-
nimos uma série de funções g simples que, no entanto, são bastante
úteis para essa finalidade.
Uma aplicação direta da Desigualdade de Markov (em sua versão
dada por (1.6)), com função g do tipo: x 7→ x2, x 7→ x3,. . ., x 7→ xk
é a seguinte:
P(X > a) ≤ E(X
k)
ak
, (1.7)
para todo a positivo.
O conhecimento dos valores E(Xk) pode então revelar-se muito
interessante quando queremos controlar a probabilidade de um evento
raro, do tipo P(X > a)3 4.
3Intuitivamente, um evento raro deve ser caracterizado por uma baixa proba-
bilidade de ocorrência. Mas, do ponto de vista prático, um evento raro também
deve ser especial do ponto de vista dos valores que a v.a. estará assumindo.
Portanto, para v.a’s positivas, um evento do tipo [a < X < b] não seria raro
pois, mesmo que sua probabilidade de ocorrência fosse pequena, nada haveria de
especial nos valores de X a ele associados.
4Note que o resultado (1.7) é válido mesmo que o termo à direita não seja
finito. No entanto, quando esse não for finito, o resultado é trivial e inútil, pois
já sab́ıamos ser a probabilidade em questão limitada por 1.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 33
Definição 1.2.14 (Momentos de Ordem Superior). Seja X uma
variável aleatória em (Ω,F ,P). O valor E(Xk) (quando existe) é
chamado de Momento de ordem k de X e denotado por µk.
Uma propriedade importante dos momentos é dada na proposição
1.2.5, em que é demonstrado o fato de que, sempre que existir o n-
ésimo momento de uma v.a., X, existirão também todos os momentos
de ordem k = 1, 2, . . . , n− 1. Antes, definamos
Proposição 1.2.5 (Existência de Momentos). Sejam X uma variável
aleatória em (Ω,F ,P) e n um número natural tais que existe E(Xn+1).
Então existe E(Xn).
Demonstração: Devemos provar que E(|Xn|) < ∞. Dado que
|Xn| = |Xn|.1{|X|≤1} + |Xn|.1{|X|>1} ≤ 1 + |X|n+1,
chega-se a
E(|Xn|) = E(|Xn|.1{|X|≤1}) + E(|Xn|.1{|X|>1}) ≤ 1 + E(|X|n+1).
Finalmente, dado que, por hipótese, E(|X|n+1) < ∞, tem-se
E(|Xn|) < ∞. ¥
Uma pequena observação é a de que, existindo E(Xk), para algum
k ∈ N, também existirá a seguinte esperança:
E (X(X − 1) · · · (X − k + 1)) .
Na hora de calcular probabilidades de eventos raros, aparece natu-
ralmente a seguinte pergunta: se X tem por média µ := E(X) como
exprimir a probabilidade de a variável se desviar por mais do que
uma certa quantidade de µ? Matematicamente, dado δ > 0, como
estimar P(|X − µ| > δ)? Definamos, então, o conceito de momento
central absoluto.
Definição 1.2.15 (Momento Central Absoluto de Ordem k). Chama-
se de momento central de ordem k o número (quando existe) σk =
E(|X−µ|k). O momento central de ordem 2 é chamado de variância
e denotado por σ2.
34 [CAP. 1: MODELO PROBABIĹISTICO
Um resultado muito utilizado em Estat́ıstica e, em particular nas
Leis dos Grandes Números e no Teorema Central do Limite é dado,
a seguir, sem demonstração.
Proposição 1.2.6 (Linearidade da Esperança e da Variância). Se-
jam X1, . . . , Xn v.a.’s independentes definidas em (Ω,F ,P). Então,
E(X1 + · · ·+ Xn) =
n∑
i=1
E(Xi) e
V ar(X1 + . . . + Xn) =
n∑
i=1
V ar(Xi).
Exemplo 1.2.10 (Assimetria e Medidas de Locação). Suponha que
tenhamos as seguintes variáveis aleatórias e suas respectivas densi-
dades: X, Y , Z, W , fX , fY , fZ e fW . Na figura 1.3, temos as
quatro densidades ilustradas.
Figura 1.3: Assimetria e Medidas de Locação
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de X
x
de
ns
id
ad
e 
em
 x
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de Y
x
de
ns
id
ad
e 
em
 x
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de Z
x
de
ns
id
ad
e 
em
 x
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de W
x
de
ns
id
ad
e 
em
 x
Temos E(X) = E(Y ) = E(Z) = E(W ) = 0, 5, mas claramente
0, 5 tem relevância diferenciada em cada uma das densidades. No
caso de X, o ponto 0, 5 é central e parece ser o mais relevante no
seguinte sentido: não existe outro ponto real c que o ultrapasse em
[SEC. 1.2: VARIÁVEISALEATÓRIAS 35
probabilidades do tipo:
P(0, 5− δ ≤ X ≤ 0, 5 + δ). (1.8)
Claramente, esse não é o caso para Y , Z ou W . Além disso, note
que, no caso de W , não só 0, 5 não apresenta essa propriedade de
altas probabilidades como ele é um ponto de vale, isto é, em torno de
0, 5, TODOS os pontos terão associadas probabilidades do tipo (1.8)
maiores do que as dele.
Portanto, esses quatro exemplos ilustram qualitativamente as si-
tuações de caracterização de uma variável aleatória por sua esperança:
sua relevância muito grande (caso de X), sua relevância discreta (ca-
sos de Y e Z) e sua completa irrelevância (caso de W ).
Uma noção alternativa de medidas de locação é dada a seguir.
Ela é especialmente importante para a Inferência Não-Paramétrica.
Definição 1.2.16 (Quartis, Percentis e Quantis). Seja X uma va-
riável aleatória em (Ω,S,P), com f.d. FX . Seu α-ésimo quantil, qα,
para 0 < α < 1, é qualquer valor, q, tal que:
argc∈R{P (X ≤ c) ≥ α,P (X ≥ c) ≥ 1− α}.
Em particular, utiliza-se a seguinte notação:
α Nome Notação
0, 25 Primeiro Quartil Q1
0, 50 Segundo Quartil (Mediana) Q2
0, 75 Terceiro Quartil Q3
0, 01 Primeiro Percentil P1
0, 02 Segundo Percentil P2
· · · · · ·
0, 01× j j-ésimo Percentil Pj
· · · · · ·
0, 98 Nonagésimo Oitavo Percentil P98
0, 99 Nonagésimo Nono Percentil P99
36 [CAP. 1: MODELO PROBABIĹISTICO
Observação 1.2.5. A mediana (Q2 ou quantil 0,50) é utilizada como
uma alternativa não-paramétrica (caṕıtulo 2) para a média.
Definição 1.2.17 (Desvio Interquart́ılico e Desvio Médio). Seja X
uma variável aleatória em (Ω,S,P), com f.d. FX . O desvio in-
terquart́ılico, D, é dado por DI = Q3 − Q1. Suponha que X seja
cont́ınua (discreta), com densidade (massa) fX (pX) e que possua
esperança E(X). Seu desvio médio, DM , é dado por:
∫ +∞
−∞
|u− E(X)|fX(u)du,
para v.a.’s cont́ınuas, e
+∞∑
i=−∞
|xi − E(X)|pxi ,
para v.a.’s discretas.
1.3 Leis dos Grandes Números
O teorema 1.3.1 e seu corolário 1.3.1 são versões da Desigualdade de
Tchebichev.
Teorema 1.3.1 (Desigualdade de Tchebichev). Sejam X uma vari-
ável aleatória definida no espaço de probabilidade (Ω,F ,P) e f : R→
R uma função não-negativa. Dado um conjunto A tal que ∅ 6= A ⊂ R,
seja iA = inf{f(x) : x ∈ A}. Nessas condições:
E(f(X)) ≥ iA.P(X ∈ A).
Demonstração:
E(f(X)) = E
(
f(X).1[X∈A] + f(X).1[X 6∈A]
)
= E
(
f(X).1[X∈A]
)
+ E
(
f(X).1[X 6∈A]
)
.
Sendo f não-negativa, E
(
f(X).1[X 6∈A]
) ≥ 0 e, portanto:
E (f(X)) ≥ E (f(X).1[X∈A]
) ≥ iA.E
(
1[X∈A]
)
= iA.P (X ∈ A) . ¥
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 37
Algumas das muitas aplicações do teorema 1.3.1 se encontram no
corolário 1.3.1. O teorema 1.3.1 será também utilizado diretamente
na demonstração do Teorema de Bernoulli.
Corolário 1.3.1. Seja X uma variável aleatória definida em um
espaço de probabilidade (Ω,F ,P). Então, para quaisquer ε > 0 e
j ∈ N, têm-se
a)
P(|X| > ε) ≤ E(|X|
j)
εj
.
b) se E(|X|) < +∞,
P(|X − E(X)| > ε) ≤ E(|X − E(X)|
j)
εj
.
Em particular, para j = 2, se E
(
X2
)
< +∞, tem-se a Desigual-
dade de Tchebichev
P(|X − E(X)| > ε) ≤ V ar(X)
ε2
;
c) se σj := E(|X − E(X)|j) < +∞,
P(|X − E(X)| > ε.(σj)1/j) ≤ 1
εj
.
Em particular, para j = 2, se σ2 := V ar(X) < +∞, tem-se
P(|X − E(X)| > ε.σ) ≤ 1
ε2
.
Demonstração:
a) Aplique o teorema 1.3.1 a f(x) = |x|j e A = {x ∈ R : |x| > ε};
b) Aplique o teorema 1.3.1 a f(x) = |x − E(X)|j e A = {x ∈ R :
|x− E(X)| > ε}; e
c) Substitua ε = ε.(σj)1/j em b). ¥
Definição 1.3.1 (Lei Fraca dos Grandes Números). Seja {Xj}j∈N
uma seqüência de variáveis aleatórias definidas no espaço de proba-
bilidade (Ω,F ,P) tais que E(|Xj |) < +∞, para todo j ∈ N. Defina
{Sn}n∈N como a seqüência de somas parciais, isto é, Sn =
∑n
j=1 Xj.
38 [CAP. 1: MODELO PROBABIĹISTICO
Nessas condições, diremos que a seqüência {Xj}j∈N satisfaz à Lei
Fraca dos Grandes Números se, para qualquer ε > 0,
lim
n→+∞
P
(∣∣∣∣
Sn − E(Sn)
n
∣∣∣∣ > ε
)
= 0.
As diversas versões existentes de Leis Fracas dos Grandes Números
que veremos em seguida (e todas as demais que omitiremos) dizem
respeito às condições suficientes para que a seqüência de variáveis
aleatórias {Xj}j∈N satisfaça à condição:
lim
n→+∞
P
(∣∣∣∣
Sn − E(Sn)
n
∣∣∣∣ > ε
)
= 0.
Definição 1.3.2 (Experimentos de Bernoulli). Seja X1, X2, . . . uma
seqüência i.i.d. de v.a.’s definidas em (Ω,F ,P). Ela forma uma
Seqüência de Experimentos de Bernoulli se P(X = 1) = p = 1 −
P(X = 0), para algum 0 ≤ p ≤ 1.
Notemos que, pela proposição 1.2.6, E(X1 + · · · + Xn) = np e
V ar(X1 + · · ·+ Xn) = np(1− p), para todo n ≥ 2 e X1, X2, . . . uma
seqüência de experimentos de Bernoulli.
Teorema 1.3.2 (Teorema de Bernoulli). Consideremos uma seqüên-
cia de ensaios de Bernoulli independentes .
Sejam p a probabilidade de sucesso em cada ensaio e Sn o número
observado de sucessos nos n primeiros ensaios. Então, para todo
ε > 0, vale que
lim
n→+∞
P
(∣∣∣∣
Sn
n
− p
∣∣∣∣ > ε
)
= 0.
Demonstração:
Dado que Sn tem distribuição Bin(n, p), tem-se que E(Sn) = np e
V ar(Sn) = np(1−p). Então, E(Sn/n) = p e V ar(Sn/n) = p(1−p)/n;
aplicando-se a Desigualdade de Tchebichev (Corolário 1.3.1 item b)
) à variável Sn/n obtém-se
P
(∣∣∣∣
Sn
n
− p
∣∣∣∣ > ε
)
≤ p(1− p)
nε2
.
Portanto, basta-nos tomar n → +∞. ¥
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 39
Observação 1.3.1. A tese do Teorema de Bernoulli pode ser escrita
na seguinte forma equivalente.
Para qualquer ε > 0,
lim
n→+∞
P
(∣∣∣∣
Sn
n
− p
∣∣∣∣ ≤ ε
)
= 1.
Tendo em mente essa última versão, devemos salientar que o
Teorema de Bernoulli não implica na convergência das freqüências
relativas à probabilidade p, no sentido ordinário de análise. Com
efeito, a afirmação limn→∞ Sn/n = p considerada no sentido usual
significaria que, para qualquer ε > 0, existiria um ı́ndice n0 ∈ N
(n0 = n0(ε)), tal que, para todo n ≥ n0, teŕıamos |Sn/n − p| ≤ ε.
Estaŕıamos, portanto, afirmando que, para qualquer ε > 0, existiria
um ı́ndice n0 ∈ N (n0 = n0(ε)), tal que, para todo n ≥ n0, o evento
{|Sn/n−p| ≤ ε} seria o evento certo, numa linguagem menos formal:
Sn/n estaria arbitrariamente perto de p se n fosse suficientemente
grande.
A tese do teorema de Bernoulli, no entanto, é mais fraca e tem o
seguinte significado:
Para qualquer ε > 0 e qualquer δ > 0, existe um ı́ndice n0 ∈ N
(n0 = n0(ε, δ)), tal que, para todo n ≥ n0, temos P(|Sn/n − p| >
ε) < δ ou, equivalentemente, para qualquer ε > 0 e qualquer δ > 0,
existe um ı́ndice n0 ∈ N ( n0 = n0(ε, δ)), tal que, para todo n ≥ n0,
temos P(|Sn/n− p| ≤ ε) > 1− δ.
Informalmente, o teorema de Bernoulli afirma que a probabilida-
de de Sn/n estar arbitrariamente perto de p estará tão próxima de
1 quanto se desejar, se n for suficientemente grande.
Nesta altura, é interessante dizer que, em 1909, Borel provou a
Lei Forte dos Grandes Números, nos seguintes termos:
Consideremos uma seqüência de ensaios de Bernoulli indepen-
dentes; sejam p a probabilidade de sucesso em cada ensaio e Sn o
número observado de sucessos nos n primeiros ensaios. Então:
P( lim
n→+∞
Sn/n = p) = 1.
Observe que esse resultado é o mais próximo à convergência de
Sn/n a p no sentido ordinário da análise, em que {limn→∞ Sn/n =
p} seria o evento certo (visto que este resultado não existe).
40 [CAP. 1: MODELO PROBABIĹISTICO
Na tentativa de melhorar a demonstração do Teorema de Bernoulli,
de Moivre teve a idéia de substituir as probabilidades binomiais por
uma expressão assintótica. Mais precisamente, ele demonstrou que,
se Sn tem distribuição Bin(n, 1/2)5, então:
P(Sn = j) ≈ (2πn(1/2)2)−1/2 exp
(
− (j − n/2)
2
2n(1/2)2
)
,
se n for suficientemente grande, introduzindo desta forma a famosa
curva gaussiana e dando também a primeira versão do Teorema Cen-
tral do Limite : a convergência da distribuição Binomial (n, 1/2) à
normal.
Nos gráficos da figura 1.4, vemos o comportamento de tal apro-
ximação. Note quão bom é seu desempenho, mesmopara aparente-
mente valores pequenos de n. No entanto, na tabela 1.1, vemos que
o desempenho absoluto (bem retratado nos gráficos) melhora rapida-
mente em n mas exatamente o contrário ocorre com o erro relativo
máximo, que cresce com n. Devemos salientar, no entanto, que essa
piora acontece apenas nas caudas, não querendo dizer que a aproxi-
mação esteja piorando.
Tabela 1.1: Erro da Aproximação da Binomial pela Normal
n Erro Abs. Erro Rel.
Máximo Máximo
5 0, 011 0, 0715
10 0, 0062 0, 7409
20 0, 0022 7, 4934
30 0, 0012 46, 85
50 0, 000056 1, 7634× 103
100 0, 000020 1, 95× 107
200 0, 0000070 3, 37× 1015
5Sn = X1 + · · ·+ Xn, P(X = 0) = P(X = 1) = 1/2
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 41
Figura 1.4: Aproximação da Binomial pela Normal
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
j
pr
ob
ab
ili
da
de
n=5
aprox
verd
0 1 2 3 4 5 6 7 8 9 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
j
pr
ob
ab
ili
da
de
n=10
aprox
verd
0 2 4 6 8 10 12 14 16 18 20
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
j
pr
ob
ab
ili
da
de
n=20
0 5 10 15 20 25 30
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
n=30
j
pr
ob
ab
ili
da
de
aprox
verd
Teorema 1.3.3 (Lei Fraca dos Grandes Números para v.a.’s i.i.d.).
Seja {Xj}j∈N uma seqüência de variáveis aleatórias i.i.d. de-
finidas no espaço de probabilidade (Ω,F ,P), tais que V ar(X1) <
+∞. Defina-se a seqüência de somas parciais {Sn}n∈N, isto é, Sn =∑n
j=1 Xj. Então, {Xn}n∈N satisfaz a Lei Fraca dos Grandes
Números ou, equivalentemente, para qualquer ε > 0,
lim
n→+∞
P(|Sn/n− E(X1)| > ε) = 0.
Demonstração:
Aplicaremos a Desigualdade de Tchebichev (Corolário 1.3.1 item
b) à variável aleatória Sn/n. Para tanto, precisamos calcular suas
esperança e variância.
E(Sn/n) = n−1E(Sn) = n−1E(
n∑
j=1
Xj) = n−1
n∑
j=1
E(Xj) = E(X1).
42 [CAP. 1: MODELO PROBABIĹISTICO
Como temos X1, X2, . . . , Xn, .. i.i.d., sabemos que V ar(
∑n
j=1 Xj)
=
∑n
j=1 V ar(Xj) e, portanto,
V ar(Sn/n) = n−2V ar(
n∑
j=1
Xj) = n−2
n∑
j=1
V ar(Xj) = n−1V ar(X1).
Então, pela Desigualdade de Tchebichev (pelo item b) do Corolário
1.3.1):
P(|Sn/n− E(X1)| > ε) ≤ V ar(X1)
nε2
.
Sendo a variância de X1 finita, temos o resultado, quando n →
+∞. ¥
Observação 1.3.2.
a) Note que no teorema 1.3.2, Sn representava o número de suces-
sos nos n primeiros experimentos de Bernoulli independentes. Por-
tanto, o teorema 1.3.3 é uma generalização do Teorema de Bernoulli.
b) o resultado
lim
n→+∞
P(|Sn/n− E(X1)| > ε) = 0
implica em que os valores da variável aleatória Sn/n se concentram
em torno do valor E(X1), à medida em que n → +∞, sendo esse
o motivo por que o valor E(X1) pode ser legitimamente chamado de
valor esperado ou esperança;
c) o resultado intermediário
P(|Sn/n− E(X1)| > ε) ≤ V ar(X1)
nε2
,
é de muita utilidade para a estimação de E(X1), como pode ser visto
no exemplo 1.3.1.
Exemplo 1.3.1 (Pesquisa Eleitoral).
Suponha que desejemos estimar a proporção do eleitorado que
pretende votar em um certo candidato. Qual deve ser o tamanho
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 43
amostral para garantir um certo erro entre a proporção populacional,
p, e a proporção amostral, Sn/n?
Antes de resolvermos esse problema, devemos refletir sobre a de-
finição de erro. Usualmente, quando se fala em erro, está-se diante
de um número real que exprime a (in)capacidade de uma certa quan-
tidade ao representar uma outra. No caso em estudo, porém, deve-
mos pensar que, sendo uma das quantidades baseada na amostra e
a verdadeira, populacional, essa simples interpretação não nos seria
posśıvel - aqui, a interpretação é análoga à de convergência de Sn/n
para p.
Como temos, associada a uma medida amostral (que é uma variá-
vel aleatória) uma incerteza (expressa por um modelo probabiĺıstico)6,
restrições de distância entre as proporções amostral e populacional só
podem ser avaliadas em conjuntos contidos em Ω e nunca no próprio
evento certo. Portanto, quando se fala que desejamos encontrar um
tamanho amostral suficiente para um certo erro máximo, por exemplo
0, 01, temos que fazê-lo com uma medida de certeza a ela associada,
expressa numa probabilidade, como por exemplo 0, 95. Matematica-
mente, queremos encontrar n tal que:
P(|Sn/n− p| > 0, 01) ≤ 0, 95.
Supondo ter Sn uma distribuição Bin(n, p) e X1 distribuição b(p),
a fórmula mencionada na Observação 1.3.2 c) nos diz que
P(|Sn/n− p| > 0, 01) ≤ p(1− p)
n(0, 01)2
.
Desconhecemos p, mas sabemos que p(1− p) é uma parábola con-
vexa, ilustrada na figura 1.5. É fácil ver que seu máximo ocorre em
1/2, isto é, p(1 − p) ≤ 1/4. Portanto, trabalhando-se com a pior
hipótese (p = 1/2), temos:
P(|Sn/n− p| > 0, 01) ≤ 14n(0, 01)2 .
Finalmente, igualando nosso valor teórico 1/(4n(0.01)2) ao valor
6Nesse exemplo, considera-se que o voto de cada eleitor tenha uma distribuição
b(p)
44 [CAP. 1: MODELO PROBABIĹISTICO
Figura 1.5: Incerteza na Pesquisa Eleitoral
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.05
0.1
0.15
0.2
0.25
p
p(
1−
p)
p(1−p) vs p
máximo desejado de incerteza, 0, 05 = 1− 0, 95, verificamos que
n ≥ (0, 05).4(0, 01)2)−1
nos garante que |Sn/n−p| > 0, 01 tem probabilidade no máximo igual
a 0,05 ou, equivalentemente, n ≥ (0, 05.4(0, 01)2)−1 é uma condição
suficiente para que |Sn/n − p| ≤ 0, 01 tenha uma probabilidade no
mı́nimo igual a 0,95.
Podemos provar que, em geral, quando se deseja estimar uma
proporção p, de tal forma que o erro na estimação seja menor do que
um ε > 0 com probabilidade pelo menos igual a α (ε e α prefixados),
é suficiente que o tamanho da amostra n seja maior do que ou igual
a ((1− α)4ε2)−1.
Note que, no caso em questão, p = 0, 01 e ε = 0, 05, n deve-
ria ser pelo menos 50000, um número absurdo para uma amostra.
Felizmente, as técnicas de amostragem são desenvolvidas de forma
bem mais sofisticada do que nesse exemplo, diminuindo-se assim o
tamanho amostral necessário a valores viáveis.
Teorema 1.3.4 (Lei Fraca dos Grandes Números de Tchebichev).
Seja {Xn}n∈N uma seqüência de variáveis aleatórias. Definam-se
as somas parciais, Sn =
∑n
j=1 Xj, para cada n ∈ N. Se as variáveis
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 45
forem independentes, com variâncias finitas e, além disso,
lim
n→∞
1
n2
n∑
j=1
V ar(Xj) = 0;
então, a seqüência {Xn}n∈N satisfaz a Lei Fraca dos Grandes
Números, ou seja, para qualquer ε > 0,
lim
n→+∞
P(|(Sn− E(Sn))/n| > ε) = 0.
Demonstração:
Aplique a Desigualdade de Tchebichev clássica (Corolário 1.3.1
item b) à variável Sn/n. ¥
Um resultado também muito importante, mas cuja demonstração
foge ao ńıvel do texto, é a Lei Forte dos Grandes Números. Como
já vimos, há várias versões de Leis Fracas dos Grandes Números
e veremos que também há várias versões de Teoremas Centrais do
Limite. De forma análoga, há várias versões de Leis Fortes dos
Grandes Números. Enunciaremos a clássica.
Teorema 1.3.5 (Lei Forte dos Grandes Números). Seja X1, X2, . . .
uma seqüência i.i.d. em (Ω,F ,P), com E(X1) = µ. Se E|X1| < ∞,
então
P( lim
n→∞
Sn/n = µ) = 1.
1.3.1 Teorema Central do Limite
Teorema 1.3.6 (Teorema de de Moivre).
Consideremos uma seqüência de ensaios de Bernoulli indepen-
dentes. Sejam p a probabilidade de sucesso em cada ensaio e Sn o
número observado de sucessos nos n primeiros ensaios. Então, para
n suficientemente grande e para qualquer x ∈ {0, . . . , n}, vale que
P(Sn = x) ³ 1√
2πnp(1− p) exp
[
− (x− np)
2
2np(1− p)
]
.
Demonstração:
Por conveniência, defina-se q = 1− p. Seja Pn(x) a probabilidade
de [Sn = x]:
46 [CAP. 1: MODELO PROBABIĹISTICO
Pn(x) = P(Sn = x) =
n!
x!(n− x)!p
xqn−x.
A fórmula de Stirling afirma (veja Observação 1.3.3 ii) a seguir)
que, se m ∈ N, então
m! ³ mme−m
√
2πm.
Portanto,
Pn(x) ³ n
ne−n
√
2πnpxqn−x
xxe−x
√
2πx(n− x)n−xe−n+x
√
2π(n− x)
=
(
np
x
)x+1/2 ( nq
n− x
)n−x+1/2
√
2πnpq
. (1.9)
Sejam
w

Continue navegando