Metodos Nao Paramétricos em Geneetica

Estatistica Nao Parametrica

•
UNICAMP

Thalita do Bem
01/08/2021
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 187 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 187 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 187 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatistica Nao Parametrica

25 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Métodos Estat́ısticos
Não-Paramétricos e suas
Aplicações em Dados Genéticos
Alúısio Pinheiro1 Hildete Prisco Pinheiro2
Departamento de Estat́ıstica
Universidade Estadual de Campinas
1 pinheiro@ime.unicamp.br
2 hildete@ime.unicamp.br
Para Táıs e Joana.
Descrição do Curso
O curso tem por principal objetivo apresentar as bases teóricas da
inferência não-paramétrica, em particular das U -estat́ısticas, e suas
posśıveis aplicações. Nessa apresentação, incluem-se o desenvolvi-
mento de suas propriedades assintóticas e para pequenas amostras,
aplicações a dados biológicos e considerações sobre como a complexa
estrutura de dependência em dados genéticos motiva a utilização de
técnicas de estimação mais robustas.
Espera-se motivar os leitores a estudar os conceitos basais das
inferências estat́ısticas, sua aplicabilidade em dados reais e os desen-
volvimentos necessários para sua utilização em problemas contem-
porâneos. O enfoque de aplicação será a área de dados genéticos
e ecológicos mas as técnicas apresentadas geram metodologias para
qualquer área do conhecimento, principalmente naquelas em que com-
plexas estruturas de dependência estejam presentes.
O livro se estrutura em cinco caṕıtulos. No caṕıtulo 1, introduz-
se a noção axiomática de modelo probabiĺıstico e seus dois principais
resultados (dentro do enfoque do texto): Lei dos Grandes Números e
Teorema Central do Limite. Motiva-se a área de inferência estat́ıstica
pelo Teorema de Glivenko-Cantelli.
No caṕıtulo 2, apresentam-se: o modelo estat́ıstico paramétrico;
estimação; testes de hipóteses; e algumas de suas principais pro-
priedades assintóticas. Discutem-se alguns problemas do modelo
paramétrico e apresentam-se as bases inferenciais não-paramétricas
numa rediscussão do Teorema de Glivenko-Cantelli. Apresentam-se
algumas técnicas para correção de problemas de estimação, entre elas
o bootstrap e o jackknife. Ilustra-se também o uso de tais técnicas de
reamostragem como metodologia de testes de hipóteses.
iii
iv
No caṕıtulo 3, introduz-se o conceito de representação natural de
caracteŕısticas populacionais como funções da distribuição de pro-
babilidade a ela associada. Em seguida, constrói-se a classe de U -
estat́ısticas como seus estimadores canônicos. Discutem-se então suas
principais propriedades finito-dimensionais e, por fim, demonstram-se
teoremas centrais do limite e leis fortes para U -estat́ısticas.
No caṕıtulo 4, apresentam-se as noções de entropia e de outros
paradigmas decorrentes de desigualdades de informação. Com isso,
propõem-se medidas de diversidade. Apontam-se suas respectivas
vantagens e desvantagens, teóricas e práticas. Ilustram-se seus po-
tenciais usos em exemplos reais.
No caṕıtulo 5, discutem-se os aspectos teóricos do uso de U -esta-
t́ısticas no estudo de medidas de diversidade, em particular para
dados genéticos, principalmente no tocante a: dados dependentes;
decomposição de medidas de diversidade; o uso da distância de Ham-
ming e sua generalização; e limitações do uso da distribuição assin-
tótica e o recurso de técnicas de reamostragem.
Os autores agradecem aos Professores Mario Antonio Gneri e
Hervé Guiol, pela sugestão de vários exemplos e exerćıcios.
Conteúdo
1 Modelo Probabiĺıstico 1
1.1 Um Modelo de Probabilidade . . . . . . . . . . . . . . 1
1.1.1 Eventos . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Definição Axiomática de Probabilidade . . . . 5
1.2 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . 8
1.2.1 Função de Distribuição Acumulada . . . . . . . 13
1.2.2 Variáveis Aleatórias Discretas . . . . . . . . . . 17
1.2.3 Distribuições Cont́ınuas . . . . . . . . . . . . . 18
1.2.4 Seqüência de Variáveis Aleatórias . . . . . . . . 21
1.2.5 Momentos e Outras Medidas de Posição e Dis-
persão . . . . . . . . . . . . . . . . . . . . . . . 22
1.3 Leis dos Grandes Números . . . . . . . . . . . . . . . . 34
1.3.1 Teorema Central do Limite . . . . . . . . . . . 46
1.4 Teoremas Centrais do Limite . . . . . . . . . . . . . . 50
1.5 O Teorema de Glivenko-Cantelli . . . . . . . . . . . . 54
1.6 Alguns Tópicos de Teoria Assintótica . . . . . . . . . . 55
1.7 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 58
2 Os Paradigmas Estat́ısticos 69
2.1 O Modelo Estat́ıstico Paramétrico . . . . . . . . . . . 69
2.2 Estimação por Máxima Verossimilhança . . . . . . . . 71
2.3 Testes de Razão de Verossimilhanças . . . . . . . . . . 72
2.4 Comportamento Assintótico de Estimadores e Testes . 76
2.5 Deficiências do Modelo Paramétrico . . . . . . . . . . 80
2.6 Alternativas Não-Paramétricas . . . . . . . . . . . . . 83
2.7 Técnicas de Reamostragem . . . . . . . . . . . . . . . 84
v
vi CONTEÚDO
2.7.1 Reamostragem por Bootstrap . . . . . . . . . . 85
2.7.2 Reamostragem por Jackknife . . . . . . . . . . 88
2.8 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 90
3 U-Estat́ısticas 93
3.1 Caracteŕısticas Populacionais e suas Representações . 93
3.2 U -Estat́ısticas - Estimadores Naturais . . . . . . . . . 94
3.3 Propriedades de U -Estat́ısticas para n finito . . . . . . 96
3.4 Teorema Central do Limite para U -Estat́ısticas . . . . 98
3.5 Outras Convergências . . . . . . . . . . . . . . . . . . 100
3.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 101
4 Medidas Estat́ısticas de Diversidade 105
4.1 Medidas de Diversidade . . . . . . . . . . . . . . . . . 105
4.1.1 Motivação . . . . . . . . . . . . . . . . . . . . . 106
4.1.2 Índice de Shannon . . . . . . . . . . . . . . . . 106
4.2 Outros Paradigmas de Informação . . . . . . . . . . . 107
4.2.1 Caracterização de Rao . . . . . . . . . . . . . . 111
4.3 Índice de Gini-Simpson . . . . . . . . . . . . . . . . . 113
4.4 Decomposições de medidas de diversidade . . . . . . . 116
4.4.1 Decomposição das medidas de diversidade u-
sando dados amostrais . . . . . . . . . . . . . . 120
4.5 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 130
5 U-Estat́ısticas e Medidas de Diversidade 134
5.1 Bootstrap e Jackknife sob Depen-
dência . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.2 Distância de Hamming . . . . . . . . . . . . . . . . . . 137
5.2.1 Índice de Gini-Simpson generalizado . . . . . . 138
5.2.2 Representação via U-estat́ısticas . . . . . . . . 138
5.3 Decomposição da Distância de Hamming . . . . . . . . 140
5.3.1 U-estat́ısticas generalizadas . . . . . . . . . . . 140
5.3.2 Decomposições em distâncias intra- e entre gru-
pos . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.4 Aplicações da Distância de Hamming em Dados Gené-
ticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . 149
CONTEÚDO vii
5.4.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . 153
5.5 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . 158
Bibliografia 160
Lista de Figuras
1.1 Tiro ao Alvo - (a) Treino de Amadores (b) Treino de
Profissionais . . . . . . . . . . . . . . . . . . . . . . . . 43
1.2 Desigualdade de Markov para a Bernoulli . . . . . . . 44
1.3 Assimetria e Medidas de Locação . . . . . . . . . . . . 44
1.4 Aproximação da Binomial pela Normal . . . . . . . . . 45
1.5 Incerteza na Pesquisa Eleitoral . . . . . . . . . . . . . 45
4.1 Distribuição emṕırica de F1: seqüências de DNA de
populações de cágados. (a) Gene Cytochrome b. (b)
Região de Controle. . . . . . . . . . . . . . . . . . . . 128
4.2 Distribuição emṕırica de F1: seqüências de DNA de
cágados da Microbacia I. (a) Gene cytochrome b. (b)
Região de Controle. . . . . . . . . . . . . . . . . . . . 128
4.3 Distribuição emṕırica de F1: seqüências de DNA de
cágados da região de controle da Microbacia I. (a)
Partições 1 e 2. (b) Partições 1 e 3.(c) Partições 2 e 3. 129
5.1 Distribuições emṕıricas sob a hipótese nula de homo-
geneidade entre Homo Sapiens e outros primatas. . . . 152
ix
Lista de Tabelas
1.1 Erro da Aproximação da Binomial pela Normal . . . . 38
4.1 Decomposição de Diversidade numa classificação hierár-
quica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.2 Análise de Diversidade para dados com fatores . . . . 119
4.3 Populações e observações . . . . . . . . . . . . . . . . 121
4.4 Freqüências de diferentes opiniões em k populações . . 122
4.5 Valores observados de F1 e p-valores . . . . . . . . . . 127
4.6 Valores observados de F1 e p-valores: Microbacia I . . 127
5.1 Valores observados das estat́ısticas de teste . . . . . . 150
5.2 Quantis Bootstrap das distribuições emṕıricas . . . . . 151
5.3 P-valores para diferentes estat́ısticas de teste (B=2000) 153
5.4 Grupos G1-G17 - Distâncias de Hamming, Intra-grupos
e Entre-grupos . . . . . . . . . . . . . . . . . . . . . . 155
5.5 Testes de Homogeneidade baseados em Dn(B) - Inter-
valos de Confiança Bootstrap, Vı́cio corrigido e Inter-
valos de Confiança Bootstrap acelerados, Intervalos de
Confiança Jackknife . . . . . . . . . . . . . . . . . . . 157
xi
Caṕıtulo 1
Modelo Probabiĺıstico
Neste caṕıtulo, discutimos os fundamentos da teoria estat́ıstica,
começando pelo modelo axiomático de Kolmogorov, chegando ao
Teorema Fundamental da Estat́ıstica, mais conhecido como Teo-
rema de Glivenko-Cantelli. Referem-se os leitores aos textos [23, 31,
68] para um tratamento mais profundo desses tópicos.
[75] descreve a história do desenvolvimento da teoria de proba-
bilidade. Referências fundamentais em probabilidade [11, 14, 15], e
alguns de seus aspectos auxiliares e espećıficos [5, 9, 18, 71, 74] podem
ajudar o leitor a aprofundar e enriquecer seu estudo do assunto. Para
aqueles interessados nos modelos probabiĺısticos mais importantes,
num tratamento detalhado de suas propriedades probabiĺısticas e es-
tat́ısticas, recomendam-se [24], [25] e [26]. A transliteração do ciŕılico
segue as recomendações de [10].
1.1 Um Modelo de Probabilidade
A primeira noção fundamental da teoria da probabilidade, o exper-
imento aleatório, é de fato aquela de maior importância, pois sua
expressão correta permite construir um modelo capaz de modelá-la
e, portanto, entender e prever seus resultados.
No entanto, para o entendimento da natureza de um experimento
aleatório, devemos ter clara em nossa mente a definição de um ex-
1
2 [CAP. 1: MODELO PROBABIĹISTICO
perimento (que estaremos chamando aqui de Experimento Deter-
mińıstico, isto é, não submetido ao acaso).
Definição 1.1.1 (Experimento Determińıstico). Sejam: Ξ = {ξ :
ξ ∈ Ξ} um certo conjunto de ações; R um conjunto de resultados; e
r uma aplicação de Ξ em R. A aplicação de cada elemento ξ ∈ Ξ
conduz a um resultado único r(ξ), isto é, sempre que a ação ξ for
tomada, tem-se como resultado r(ξ). Então, dizemos que (Ξ, R, r) é
um experimento determińıstico.
Deve-se entender da definição 1.1.1 que, num experimento de-
termińıstico, sempre que realizarmos uma ação controlada, temos
condições de saber exatamente qual será o resultado obtido.
Exemplo 1.1.1 (Lançamento de uma Caneta). Estou numa área
vazia e tenho uma caneta na mão. Decido jogá-la para ver o que
acontece. Vamos supor (o que é bem natural) que a única força a
que a caneta (uma vez fora de minha mão) está submetida seja a
gravitação terrestre.
O conjunto de ações Ξ tem por elementos: ‘abrir a mão e deixar
cair a caneta’, ‘lançar a caneta para cima’, ‘jogar com força a caneta
no chão’ etc. O resultado de qualquer uma dessas ações será invari-
avelmente ‘a caneta cai no chão’.
Há a necessidade de um conceito mais geral de experimento, em
que múltiplos resultados possam ser obtidos de uma única ação. Isto
se dá com o conceito de experimento aleatório. Isto significa que
uma determinada ação ξ resulta em um elemento de r(ξ) que, desta
vez, é um conjunto. Portanto, cada vez que se faz o experimento, o
resultado pode ser diferente, mesmo tomando-se (aparentemente) a
mesma ação. Para qualquer ξ, os conjuntos r(ξ) têm várias cardi-
nalidades posśıveis. O estudo de probabilidade tem, exatamente, o
objetivo de relacionar ξ e r(ξ) de alguma forma quantitativa.
Definição 1.1.2 (Experimento Aleatório). Um experimento ale-
atório se descreve com o conjunto dos resultados posśıveis de um
experimento. Denota-se por ω um tal resultado e Ω o espaço formado
por todos esses resultados. O espaço Ω é chamado de universo ou
espaço amostral.
[SEC. 1.1: UM MODELO DE PROBABILIDADE 3
Exemplo 1.1.2 (Embaralhamento de n Cartas). Por conveniência,
vamos supor que as cartas estejam numeradas de 1 a n. Misturamos
o baralho e observamos a seqüência de cartas assim obtida. Um re-
sultado será do tipo
ω = (σ1, . . . , σn),
em que σi ∈ {1, . . . , n} e σi 6= σj para quaisquer i 6= j.
O universo é, então,
Ω = Sn,
o conjunto das permutações de {1, . . . , n}. Este espaço é também
finito: podemos mostrar que |Ω| = n!.
1.1.1 Eventos
A segunda noção fundamental da Teoria de Probabilidade é aquela do
Evento Aleatório. Consideramos que a realização (sucesso) ou não-
realização (fracasso) de um evento aleatório depende exclusivamente
do resultado do experimento associado.
Definição 1.1.3 (Evento Aleatório). Um evento aleatório A será
representado como o conjunto dos resultados ω do experimento que o
realizam:
A = {ω ∈ Ω : A é realizado se ω é o resultado do experimento}.
Exemplo 1.1.3 (Lançamento de Dois Dados). Para o experimento
- lançamento de dois dados, temos
Ω = {1, . . . , 6} × {1, . . . , 6}
e o evento A = ‘a soma do resultado é par’ pode ser descrito por
A = {(1, 1); (1, 3); (1, 5); (2, 2); (2, 4); (2, 6); (3, 1); (3, 3); (3, 5);
(4, 2); (4, 4); (4, 6); (5, 1); (5, 3); (5, 5); (6, 2); (6, 4); (6, 6)}.
4 [CAP. 1: MODELO PROBABIĹISTICO
O evento imposśıvel será denotado por ∅. A fórmula A ∩B = ∅
significa que os eventos A e B são incompat́ıveis ou mutuamente
exclusivos. Para cada par de eventos (A1, A2), o evento A1 ou A2,
denotado por A1 ∪A2, é o evento realizado quando pelo menos um
dos eventos A1 ou A2 é realizado. O evento certo é denotado por Ω,
porque é realizado para todo resultado ω do experimento aleatório.
Além de definir as relações entre dois espećıficos eventos, as ope-
rações precedentes podem ser utilizadas para combinar mais de dois
eventos. Se, por exemplo, (An)n∈N é uma seqüência finita ou infinita
de eventos, ∪nAn significa o evento A1 ou A2 ou . . ., e ∩nAn significa
o evento A1 e A2 e . . ..
Duas operações que fazem sentido apenas para dois eventos são,
no entanto, extremamente úteis. A diferença de dois conjuntos,
denotada por −, é definida por:
A−B = A ∩Bc.
Do ponto de visto de eventos, A−B é o evento tal que A acontece
mas B não. Conseqüentemente, se A∩B = ∅, então A−B = A e, se
A ⊂ B, então A−B = ∅.
A diferença simétrica de dois conjuntos, denotada por 4, é
definida por
A4B = (A ∩Bc) ∪ (Ac ∩B) = (A ∪B)− (A ∩B).
Do ponto de visto de eventos, A4B é o evento tal que A ou B
acontecem exclusivamente. Conseqüentemente, se A ∩ B = ∅,
então A4B = A ∪B e, se A ⊂ B, então A4B = B −A.
Probabilidade:
A probabilidade (de um evento), em matemática: razão entre o número de
casos favoráveis pelo número de casos posśıveis para um evento qualquer,
em que os casos posśıveis têm supostamente o mesmo grau de probabilidade.
Grande Enciclopédia Larousse Cultural, 1998.
Cardano, Pascal, de Fermat, Huygens, a famı́lia Bernoulli e de
Moivre são alguns dos grandes matemáticos que iniciaram a então
[SEC. 1.1: UM MODELO DE PROBABILIDADE 5
chamada Teoria das Probabilidades. Mais tarde, temos Laplace, Eu-
ler, Legendre, Poisson e o pŕıncipe dos matemáticos, Carl Friedrich
Gauss. Da F́ısica, surgiram contribuições de Maxwell, Planck, Boltz-
mann,entre outros.
No entanto, o conceito de probabilidade continuava vago e con-
troverso. Isso só foi resolvido de forma satisfatória pela contribuição
de outro grande matemático, Kolmogorov, que, em 1933, propôs sua
solução axiomática. Essa descrição é a mais adotada e a que seguire-
mos neste curso.
1.1.2 Definição Axiomática de Probabilidade
Vimos que podemos identificar os eventos como subconjuntos de Ω.
Será que qualquer subconjunto de Ω é um evento? A resposta é
negativa, mas suas razões ultrapassam o ńıvel deste curso. De fato,
é necessario pensar no conjunto dos eventos como sendo uma coleção
F de sub-conjuntos de Ω com algumas propriedades.
Definição 1.1.4 (Sigma-álgebra). Uma coleção F de subconjuntos
de Ω é chamada de σ-álgebra se temos (todas) as condições seguintes
(a) Ω ∈ F ;
(b) se A1, A2, ... ∈ F , então ∪∞i=1Ai ∈ F ; e
(c) se A ∈ F , então Ac ∈ F .
Observação: É importante não perder de vista que uma σ-
álgebra F é associada ao seu espaço Ω (veja o exemplo 1.1.6 seguinte).
Exemplo 1.1.4. [Menor σ-álgebra] A menor σ-álgebra associada
com Ω é F = {∅,Ω}.
Exemplo 1.1.5. [Menor σ-álgebra que Possui A] Se A é um subcon-
junto de Ω então F = {∅, A, Ac, Ω} é uma σ-álgebra.
Exemplo 1.1.6. [σ-álgebra a partir de A∩B] Seja F uma σ-álgebra
de subconjuntos de Ω e B ∈ F . Então G = {A ∩ B : A ∈ F} é uma
σ-álgebra de subconjuntos de B (veja exerćıcio 1.1).
Observe que G não é uma σ-álgebra sobre Ω: se C ∈ G então
∃C ′ ∈ F tal que C = C ′ ∩ B. O complementar de C em B é o
conjunto (C ′)c∩B que pertence ao G, mas o complementar de C em
Ω é o conjunto (C ′)c ∪Bc que não é um elemento de G.
6 [CAP. 1: MODELO PROBABIĹISTICO
Definição 1.1.5 (Medida de Probabilidade). Uma Medida de Pro-
babilidade P sobre (Ω,F) é uma função P : F → [0, 1] tal que
(a) P(Ω) = 1;
(b) se {A1, A2, ...} é uma coleção de elementos disjuntos de F , tal
que Ai ∩Aj = ∅ para cada par i, j, i 6= j, então
P (∪∞i=1Ai) =
∞∑
i=1
P(Ai).
A tripla (Ω,F ,P) é chamada de Espaço de Probabilidade.
Exemplo 1.1.7 (Cara ou Coroa). Descreve-se o universo Ω = {0, 1}
(0=”cara”, 1=”coroa”) e F = {∅, {0}, {1}, Ω}. Seja P : F → [0, 1]
dada por
P(∅) = 0, P({0}) = p, P({1}) = 1− p, P(Ω) = 1,
em que p é um número real fixo do intervalo [0, 1]. Se p = 1/2, a
moeda é não viciada.
Exemplo 1.1.8 (Dado). Sejam Ω = {1, 2, 3, 4, 5, 6}, F = P(Ω) o
conjunto de partes (dos sub-conjuntos) de Ω e P dada por
P(A) =
∑
i∈A
pi, para qualquer A ⊂ Ω,
em que p1, p2, ..., p6 são números fixos do intervalo [0, 1], cuja soma
é 1. A probabilidade de que a face i apareça é pi. O dado é normal
se pi = 1/6, para cada i, e, portanto,
P(A) =
|A|
6
, para qualquer A ⊂ Ω,
em que |A| representa o número de elementos (cardinalidade) de A.
Um conceito muito importante é o de independência estocástica.
Definição 1.1.6 (Eventos Independentes). Sejam (Ω,F , P ) e A,B ∈
F . A e B são eventos independentes se
P(A ∩B) = P(A)P(B).
[SEC. 1.1: UM MODELO DE PROBABILIDADE 7
A partir do momento que eventos podem ser independentes ou
não, e essa caracteŕıstica depende da diferença entre P(A ∩ B) e
P(A)P(B), é natural que se investigue como o conhecimento da ocor-
rência de um evento B pode influir na ocorrência de um evento
A, numa reavaliação da probabilidade de A pelo conhecimento da
ocorrência de B.
Definição 1.1.7 (Probabilidade Condicional). Sejam (Ω,F , P ) e
A,B ∈ F . A probabilidade condicional de A dado B, P(A|B), é
dada por
P(A|B) =



P(A ∩B)/P(B) se P(B) > 0
P(A) se P(B) = 0.
Exemplo 1.1.9 (Independência de Eventos). Sejam A, B e C even-
tos tais que P(A) = 0, 2, P(B) = 0, 7, P(C) = 0, 5, P(A ∩ B) = 0, 1,
P(A∩C) = 0, 1 e P(B∩C) = 0, 2. Note que A e C são independentes,
A e B são dependentes e B e C são dependentes. Mais ainda:
P(A|B) = 0, 1/0, 7 = 1/7 < P(A) P(B|A) = 0, 1/0, 5 = 1/5 < P(B)
P(A|C) = 0, 1/0, 5 = 0, 2 = P(A) P(C|A) = 0, 1/0, 2 = 0, 5 = P(C)
P(B|C) = 0, 2/0, 5 = 0, 4 < P(B) P(C|B) = 0, 2/0, 7 = 2/7 < P(C).
Note no exemplo 1.1.9 que os eventos que são mutuamente inde-
pendentes (A e C) não sofrem alterações de cálculo em suas proba-
bilidades por condicionamento, exatamente por serem independentes.
No caso de eventos mutuamente dependentes, como A e B ou B e C,
a reavaliação dada a ocorrência do outro evento modifica as expecta-
tivas de ocorrência.
Observação 1.1.1.
• Se P(A) = 0 ou P(A) = 1, então A é independente de B,
qualquer que seja B ∈ F
• Eventos disjuntos A e B são tais que P(A∩B) = 0 6= P(A)P(B)
a não ser que P(A) = 0 ou P(B) = 0.
• Portanto, eventos disjuntos, em geral, são dependentes. Apesar
de, em prinćıpio, isso parecer pouco intuitivo, note que eventos
que NUNCA acontecem juntos são bastante dependentes.
8 [CAP. 1: MODELO PROBABIĹISTICO
1.2 Variáveis Aleatórias
Seja E um experimento aleatório e Ω seu espaço de resultados. Em
muitas situações, o resultado observado do experimento ω ∈ Ω não
intervém de forma expĺıcita, pois podemos estar interessados apenas
em alguma caracteŕıstica de ω e não necessariamente em sua indivi-
dualização.
Uma forma conveniente de representar uma caracteŕıstica de in-
teresse é mediante a definição de uma função X com domı́nio em Ω.
Estudaremos aqui caracteŕısticas numéricas das observações, ou seja,
as dadas através de funções X: F → R. Estas funções são chamadas
de variáveis aleatórias e sua definição formal será vista adiante.
Exemplo 1.2.1 (Calçados Masculinos). Um fabricante de calçados
masculinos para adultos pretende atender ao consumo local de uma
pequena cidade, ou seja, Ω = {‘os homens adultos que moram na
cidade’}. É óbvio que, para dimensionar sua produção, ele não pre-
cisa conhecer os nomes nem outras caracteŕısticas pessoais dos seus
clientes potenciais, com exceção do tamanho do sapato.
Em resumo, podemos dizer que o fabricante deve possuir algum
conhecimento a respeito da variável X definida por: X(ω) =‘número
de sapato utilizado pela pessoa ω’, para cada ω ∈ Ω.
Mas qual é o conhecimento necessário a respeito de X? Por exem-
plo, o fabricante deve saber que, fabricando sapatos desde o número
32 até o 48, ele cobre todas as possibilidades e também que existem
mais clientes potenciais para os números 40 e 41 do que para 32 ou
48.
Com maior generalidade, é necessário que o fabricante conheça as
probabilidades dos conjuntos {ω/X(ω) = x}, denotados por [X = x]
para 32 ≤ x ≤ 48.
Exemplo 1.2.2 (Graciliano). Graciliano é aposentado da SANASA
e uma vez ao mês costuma se encontrar com seus antigos colegas
no Largo do Carmo. Ele pega o ônibus que vai para o centro de
Campinas, no terminal de Barão Geraldo. Nos horários em que ele
costuma viajar, há um intervalo de exatamente cinco minutos entre
duas sáıdas consecutivas. Graciliano é muito calmo e nem tenta acer-
tar a chegada no ponto para minimizar a espera. Ele tampouco gosta
de correr, de forma que, mesmo que o ônibus esteja na plataforma
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 9
prestes a partir, ele continuará andando no seu ritmo. O tempo X
que Graciliano fica no ponto aguardando o ônibus depende do horário
de chegada ao ponto que, por sua vez depende de muitos fatores:
hora em que Graciliano acordou, tempo demorado no café da manhã,
tempo demorado para tomar banho etc. Assim sendo, desistiremos de
considerar o posśıvel conjunto de situações ω que determina o tempo
final X.
Alternativamente, tentaremos trabalhar diretamente em X: com
base na informação dispońıvel a respeito dos costumes de Gracilia-
no, formularemos algumas hipóteses que simplifiquem o problema
e que nos permitam resolvê-lo. Em primeiro lugar, é evidente que
0 ≤ X < 5. O mı́nimo que ele espera é claramente 0. Por que X < 5
e não X ≤ 5 ? O que significa X = 5? Uma situação em que X
poderia ser exatamente igual a 5 seria caso Graciliano chegasse na
hora certa e simultaneamente dormisse no ponto.
Parece razoável pensar que, se 0 ≤ a < b < 5, a probabilidadede {ω / a ≤ X(ω) < b} seja proporcional ao comprimento de [a, b),
ou seja, (b− a)/5. Veja que se a = 0 e b = 5, teremos probabilidade
para [0 < X < 5] igual a 1, o que é correto. Como conseqüência, se
A ∩ [0 < X < 5] = φ, a probabilidade de [X ∈ A] é igual a 0.
Outro fato interessante é o de como seria a probabilidade de [X =
c], para 0 ≤ c < 5? Observe que o conjunto [X = c] pode ser pensado
como
[X = c] = lim
n→∞
[max(0, c− 1/n) ≤ X ≤ min(5, c− 1/n)],
que é decrescente e cujas probabilidades são menores do que ou iguais
a 2n−1.
Portanto, é natural que, se a probabilidade estiver definida de
forma consistente, [X = c] tenha probabilidade 0.
Isto poderia, à primeira vista, parecer contraditório com os fatos
[0 ≤ X < 5] = ∪0≤c<5[X = c] e P([0 ≤ X < 5]) = 1. Note,
no entanto, que o conjunto [0 ≤ X < 5] é união de uma famı́lia
não-enumerável de conjuntos disjuntos e, portanto, aqui não é imedi-
ata a aplicação de propriedades do tipo aditividade ou σ-aditividade.
Observe também que você já enfrentou este tipo de contradições
aparentes: por exemplo, o retângulo [0 ≤ x ≤ 1] × [0 ≤ y ≤ 1] ∈ R2
10 [CAP. 1: MODELO PROBABIĹISTICO
pode ser escrito como união disjunta da famı́lia não-enumerável dos
segmentos [0 ≤ x ≤ 1]×{y}, em que 0 ≤ y ≤ 1, sendo nula a área de
cada um dos segmentos e igual a 1 a área total do retângulo.
Também, como conseqüência de que a probabilidade de [X = c]
é igual a 0 se 0 ≤ c < 5, tem-se que: se 0 ≤ a < b < 5, ou seja, as
probabilidades dos conjuntos [a ≤ X ≤ b], [a ≤ X < b], [a < X ≤ b]
e [a < X < b] são todas (b− a)/5.
Observe que, diferentemente do exemplo 1.2.1, em que a probabi-
lidade estava concentrada em um número finito de valores de X, aqui
a probabilidade de qualquer conjunto [X = c] é nula e, conseqüente-
mente, o interesse está nas probabilidades de outros conjuntos como,
por exemplo, as imagens inversas de intervalos, tal como vimos no
parágrafo precedente.
Exemplo 1.2.3. [Alvo] Um indiv́ıduo atira num alvo a uma distância
de vinte metros. O alvo consiste de um ćırculo de madeira de 2 m
de raio com um ponto C marcado no seu centro. Assuma que o
atirador sempre acerta o plano Π determinado pelo ćırculo e que,
mediante algum dispositivo, seja posśıvel detectar o ponto P em que
o disparo atravessa Π. Neste caso, o espaço dos resultados pode ser
representado pelo conjunto Ω = {P/P ∈ Π}. Define-se a variável X
= distância (P,C) e é claro que Imagem(X) = R+ = {r ∈ R/r ≥ 0}.
Este exemplo tem alguns aspectos semelhantes ao exemplo 1.2.2,
no sentido de que a probabilidade de qualquer subconjunto A de Ω
deve ter alguma relação com a área de A.
Em primeiro lugar, é razoável pensar que se área(A) = 0, então
P(A) = 0, como ocorre no exemplo 1.2.2. Mas, neste caso, não mais
se sustenta a hipótese de que a probabilidade deva ser diretamente
proporcional à área, já que um atirador razoável acertará com maior
freqüência o ćırculo de centro C e raio 5 metros (cuja área é 25πm2)
do que o seu complementar (cuja área é infinita).
Neste momento, não preocupar-nos-emos em criar um modelo
mais ou menos preciso para X, como fizéramos no exemplo 1.2.2, por
sua maior complexidade, mas apresentamos, na figura 1.2, uma simu-
lação do desempenho comparado de quinhentos atiradores amadores
e quinhentos profissionais. Note que, no caso dos amadores, a dis-
tribuição espacial das flechas não é proporcional à área. À primeira
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 11
vista, no entanto, existiria certa proporcionalidade no caso dos profis-
sionais. Essa idéia inicial é um eqúıvoco, fruto da escala dos gráficos,
tendo os profissionais comportamento análogo ao dos amadores desde
que a escala seja escolhida de forma adequada. As escalas adequadas
são diferentes pelo simples fato de que os profissionais são mais pre-
cisos e, portanto, suas flechas se concentram de forma bem mais acen-
tuada em torno do centro do alvo. Note que a grande maioria de suas
flechas acertou uma região menor (centro preto do exemplo 1.2.4),
enquanto os amadores tem suas flechas espalhadas por todo o alvo e
várias caindo fora do mesmo.
Desempenho de Quinhentos Atiradores Amadores
(a)
12 [CAP. 1: MODELO PROBABIĹISTICO
Desempenho de Quinhentos Atiradores Profissionais
(b)
Figura 1.1: Tiro ao Alvo - (a) Treino de Amadores (b) Treino de
Profissionais
Exemplo 1.2.4 (Alvo II). Consideremos uma situação igual à do
exemplo 1.2.3, com exceção de que agora o alvo tem um centro preto
de 50 cm de diâmetro e o resto do ćırculo (um anel) de madeira está
pintado de branco. O atirador ganha 8 pontos se acertar no centro,
2 se acertar na parte branca e −5 se não acertar na placa do alvo.
Seja Ω o mesmo conjunto do exemplo 1.2.3. Agora, no entanto,
definiremos a variável Y (pontuação) da seguinte forma:
Y (ω) =



8 se ω estiver no centro preto;
2 se ω estiver na parte branca da placa; e
−5 se ω estiver fora da placa.
Esta situação é semelhante à descrita no exemplo 1.2.1 e seria,
portanto, interessante determinar as probabilidades dos conjuntos:
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 13
[Y = −5], [Y = 2] e [Y = 8]. Uma observação que o leitor atento já
se deve ter feito é a de que esse exemplo do alvo e da importância
factual apenas dos valores de Y , contrastada com o exato ponto em
que a flecha atinge o plano π nos mostra a abundância excessiva de
informação de Ω para os nossos propósitos e que a introdução de uma
variável aleatória nos possibilita calcular probabilidades apenas para
os casos de interesse, em vez de fazê-lo para uma classe de subcon-
juntos de Ω grande demais.
Exemplo 1.2.5 (Tempo de Prova). Os alunos inscritos na disciplina
‘Probabilidade I’ são submetidos a uma prova cuja duração máxima
é de duas horas. Anota-se o tempo demorado X por cada aluno para
entregá-la. Defina formalmente Ω e X. É fácil que haja empates nos
tempos de entrega? Em que valor eles ocorreriam?
Definição 1.2.1 (Variável Aleatória). Seja (Ω,F ,P) o espaço de
probabilidade associado a um experimento aleatório. Uma função X :
Ω → R é dita uma variável aleatória se:
{ω/X(ω) ∈ I} = [X ∈ I] = X−1(I) ∈ F ,
para todo intervalo I ⊂ R.
Observação 1.2.1. A definição acima foi feita para possibilitar o
cálculo das probabilidades dos conjuntos [X ∈ I], para todo intervalo
I ⊂ R.
Definição 1.2.2 (Pontos Isolados). Um subconjunto A de R é um
conjunto de pontos isolados se satisfaz a seguinte propriedade: para
todo a ∈ A, existe um intervalo aberto Ia tal que Ia ∩A = {a}.
Observação 1.2.2. Conhecer as probabilidades dos conjuntos
[X ∈ I] para todo intervalo I ⊂ R é fundamental no exemplo 1.2.2; o
mesmo acontece nos exemplos 1.2.3, 1.2.5, sendo óbvio que a definição
1.2.1 nos possibilita trabalhar nesses casos. Também em todos os e-
xemplos citados neste parágrafo, com exceção do exemplo 1.2.5, as
probabilidades dos conjuntos [X = x] são nulas.
Já no exemplo 1.2.1 (também nos exemplos 1.2.4, 1.2.5), o inte-
resse maior estaria centrado em calcular as probabilidade de conjun-
tos do tipo [X = x], para x ∈ R. Em todos estes casos, Imagem(X)
14 [CAP. 1: MODELO PROBABIĹISTICO
é um conjunto finito e, portanto, todos estes casos também são con-
templados pela definição 1.2.1, dado que:
• se x /∈ Imagem(X), então [X = x] = φ ∈ F ;
• se Imagem(X) for um conjunto finito e x ∈ Imagem(X), então
existe um intervalo I ⊂ R tal que [X = x] = [X ∈ I] - basta
tomar I = (x− ϕ, x + ϕ), em que
0 < ϕ < min |x, y|
(sendo essa minimização feita para o conjunto de y’s tais que
y ∈ Imagem(X), y 6= x)
e, portanto, [X = x] ∈ F ;
• mais geralmente, se Imagem(X) for um conjunto de pontos
isolados e x ∈ Imagem(X), é obvio que [X = x] ∈ F , dado
que basta considerar qualquer intervalo I ⊂ R tal que x ∈ I e
I ∩ Imagem(X) = {x} (veja definição 1.2.2) pois, neste caso,
[X = x] = [X ∈ I].
Podemos dizer que a definição 1.2.1 é apta para responder a todas
as perguntas de interesse relativasaos exemplos acima.
Uma pergunta que o leitor ainda deve ter é sobre a utilidade da
definição 1.2.1 para lidar com variáveis categóricas, isto é, que divi-
dam as possibilidades de ocorrências em categorias como, por exem-
plo, ser ou não fumante ou o primeiro parto, como no exemplo 1.2.2.
Não é nosso objetivo exaurir todas as questões relevantes que se po-
dem colocar diante dos leitores mas, nesse caso, uma posśıvel solução
seria a de se criarem variáveis binárias que em conjunto represen-
tem a variável categórica de interesse e, através daquelas, utilizar a
definição 1.2.1.
1.2.1 Função de Distribuição Acumulada
Dada uma variável aleatória X, é fácil verificar que, para todo r ∈
R, o conjunto [X ≤ r] = {ω/X(ω) ≤ r} ∈ F , dado que se m =
max {z ∈ Z/z ≤ r}, então:
[X ≤ r] =
⋃
n∈Z,n≤m
[n− 1 < X ≤ n] ∪ [m < X ≤ r],
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 15
(se r for inteiro, então m = r e [m < X < r] = φ).
Também, dado que o conjunto [X ≤ r] foi escrito como a união
disjunta de uma subfamı́lia enumerável de conjuntos da famı́lia {[a <
X ≤ b], a, b ∈ R, a < b}, é posśıvel calcular as probabilidades dos
conjuntos [X ≤ r] = {ω/X(ω) ≤ r], r ∈ R a partir das probabilida-
des dos conjuntos {[a < X ≤ b], a, b ∈ R, a < b}.
Reciprocamente, veremos que, a partir das probabilidades dos
conjuntos {[X ≤ r, r ∈ R]}, será posśıvel obter as probabilidades dos
conjuntos [X ∈ I], para qualquer intervalo I ⊂ R. Por exemplo,
se a < b, então [X ≤ b] = [X ≤ a] ∪ [a < X ≤ b] e, portanto,
P([a < X ≤ b]) = P([X ≤ b])− P([X ≤ a]).
Além de se obterem as probabilidades dos conjuntos [X ∈ I],
I ⊂ R, será posśıvel, a partir das probabilidades de conjuntos do
tipo [X ≤ a], achar as probabilidades de outros muitos conjuntos
interessantes.
Finalmente, para condensar a informação contida nos conjuntos
{[X ≤ r], r ∈ R}, define-se a função de distribuição acumulada da
variável aleatória X a seguir.
Definição 1.2.3 (Função de Distribuição Acumulada). A função de
distribuição acumulada da variável aleatória X é a seguinte função
F : R → [0, 1]:
F (r) = P([X ≤ r]) = P({ω/X(ω) ≤ r, r ∈ R}),
para todo r ∈ R.
Muitas vezes, será conveniente denotar F por FX , para salientar
que se trata da função de distribuição acumulada associada à variável
aleatória X (por exemplo, quando se trabalha com várias variáveis
aleatórias simultaneamente). A função de distribuição acumulada
receberá a abreviação f.d. .
Teorema 1.2.1 (Propriedades da Função de Distribuição). Seja X
uma variável aleatória definida no espaço de probabilidade (Ω,F ,P).
Então, a função de distribuição acumulada F de X tem as seguintes
propriedades:
a) F é monótona não decrescente;
b) F é cont́ınua à direita, ou seja, limt→r+ F (t) = F (r); e
c) limt→−∞ F (t) = 0 e limt→∞ F (t) = 1.
16 [CAP. 1: MODELO PROBABIĹISTICO
Demonstração: a) É conseqüência do seguinte fato: se a < b, então
[X ≤ a] ⊂ [X ≤ b];
b) Dado que F é monótona, existe limt→r+ F (t) e também vale que
limt→r+ F (t) = limn→∞ F (tn), para qualquer seqüência tal que tn →
r+. Consideremos, então, a seqüência tn = r + 1/n: verifica-se que
limt→r+ F (t) = limn→∞ F (tn) = F (r), dado que a seqüência decres-
cente de conjuntos {[X ≤ r + 1/n], n ∈ N} converge para o conjunto
[X ≤ r]; e
c) Sendo F monótona, existem limt→ −∞ F (t) e limt→∞ F (t) e estes
podem ser calculados através de quaisquer seqüências cujos ‘limites’
sejam −∞ e +∞, respectivamente. Por exemplo: limt→−∞ F (t) =
limm→−∞ F (m) e limt→∞ F (t) = limn→∞ F (n), em que n ∈ N e
m = −n e basta-nos então considerar as seqüências de conjuntos
{[X ≤ −n], n ∈ N} e {[X ≤ n], n ∈ N} e observar que a primeira
delas decresce para φ e que a segunda cresce para Ω. ¥
Teorema 1.2.2 (Rećıproco do Teorema 1.2.1). Seja F : R → R tal
que:
a) F é monótona não-decrescente;
b) F é cont́ınua à direita, ou seja, limt→r+ F (t) = F (r); e
c) limt→−∞F (t) = 0 e limt→∞F (t) = 1.
Nessas condições:
i) Existe uma variável aleatória X definida em um espaço de proba-
bilidade (Ω,F ,P) cuja função de distribuição acumulada é F ;
ii) A probabilidade PX definida nos borelianos de R por:
PX(B) = P(X−1(B)) = P({ω/X(ω) ∈ B})
é única e obviamente determinada pela função F .
O teorema 1.2.2 é de natureza puramente técnica, de certa forma
não-construtiva, pois não sabemos de qual caracteŕıstica (variável
aleatória) F é a função de distribuição acumulada. Além disso, sua
demonstração exige conhecimentos matemáticos bem além dos exigi-
dos neste curso e será, portanto, omitida. No entanto, é fundamental
para a Inferência Estat́ıstica, em validar existência de distribuições
associadas à caracteŕısticas amostrais.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 17
Teorema 1.2.3 (Descontinuidades da Função de Distribuição). Seja
F a função de distribuição acumulada da variável aleatória X. Então:
a) Existem e são finitos os limites laterais de F para todo t ∈ R; além
disso, satisfazem limt→r− F (t) ≤ limt→r+ F (t);
b)limt→r+ F (t) = F (r);
c) F é descont́ınua em r ∈ R se e somente se limt→r− F (t) < F (t)
e, portanto, toda descontinuidade consiste em um salto;
d) para todo r ∈ R, vale que P(X = r) = F (r) − limt→r− F (t) =
salto de F em r (este salto pode ser inclusive 0, em caso de um ponto
de continuidade);
e) existe, no máximo, um número enumerável de descontinuidades.
Demonstração:
a) a existência e finitude dos limites laterais decorre do fato de F ser
monótona e limitada; também, sendo F monótona não decrescente,
então, para todo r ∈ R, limt→r− F (t) ≤ limt→r+ F (t);
b) é conseqüência da continuidade à direita de F ;
c) decorre do fato de ser F monótona não decrescente;
d) para todo r ∈ R , o conjunto [X = r] é limite da seqüência
decrescente [r − 1/n < X ≤ r]; e
e) por definição, salto de F em t é igual a
lim
t→r+
F (t)− lim
t→r−
F (t);
então, sendo F monótona,
#
(
{t/salto de F em t > 1
n
}
)
× 1
n
≤ 1 = sup
t∈R
F (t)− inf
t∈R
F (t),
para todo n ∈ N.
Portanto, #({t/salto de F em t > 1/n}) é finito para todo n ∈ N
e, conseqüentemente,
{saltos de F} =
⋃
n∈N
{salto de F/ salto > 1/n}
é no máximo enumerável. ¥
Observação 1.2.3. As demonstrações dos teoremas 1.2.2 e 1.2.3
utilizam conceitos de análise. Em caso de dúvidas, seria bom que
18 [CAP. 1: MODELO PROBABIĹISTICO
o leitor interessado procurasse um bom livro de análise como, por
exemplo, o excelente [64].
Os pontos e amplitudes dos saltos da f.d. têm, portanto, grande
importância na Teoria de Probabilidade e seu estudo motiva a seguinte
definição associada.
Definição 1.2.4 (Função de Massa). Seja X uma variável aleatória
definida no espaço de probabilidade (Ω,F ,P), com função de dis-
tribuição acumulada F . A função de massa de probabilidade
da variável aleatória X é a função p : R→ R definida por:
p(r) = P(X = r) = P({ω/X(ω) = r}).
Lembre que, pelo item d do teorema 1.2.3, para todo r ∈ R, tem-se
P(X = r) = F (r)− limt→r− F (t) = salto de F em r.
1.2.2 Variáveis Aleatórias Discretas
Estudaremos aqui aquelas variáveis aleatórias X : Ω → R cujas ima-
gens sejam algum conjunto finito ou enumerável. No caso enumerável,
acrescentaremos a condição de que os pontos da Imagem(X) sejam
isolados.
Definição 1.2.5 (Variável Aleatória Discreta). Seja (Ω,A,P) o es-
paço de probabilidade associado a um experimento aleatório. Uma
função X : Ω → R é dita uma variável aleatória discreta se:
i) Imagem(X) é um conjunto finito ou um conjunto enumerável de
pontos isolados; e
ii) [X = x] = X−1(x) ∈ A, para todo x ∈ Imagem(X).
Observação 1.2.4. Se Imagem(X) = {αi}i∈N, então é claro que:
{[X = αi]}i∈N é uma partição de Ω e, portanto,
∑
i∈N
P(X = αi) = 1.
Um conjunto de resultados muito importantes pode ser resumido
pela seguinte proposição.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 19
Proposição 1.2.1 (Propriedades de uma Variável Discreta). Seja X
uma variável aleatóriadiscreta (definição 1.2.5). Então:
(i) X satisfaz a definição 1.2.1 de uma variável aleatória;
ii) X satisfaz ∑
r∈R
p(r) =
∑
r∈R
P(X = r) = 1,
em que p é a função de massa de probabilidade de X e P(X = r) > 0
se e somente se r ∈ Imagem(X); e
iii) Se Imagem(X) = {αi}i∈N, então:
X =
∑
i∈N
αiIAi ,
em que Ai = X−1(αi) para todo i ∈ N e, se F é a função de dis-
tribuição acumulada de X, tem-se que:
F (t) =
∑
r≤t
p(r) =
∑
αi≤t
P(X = αi) =
∑
i∈N
P(X = αi)I[αi,∞)(t).
Considere-se um evento A ∈ F . Defina-se a v.a. indicadora do
evento A, denotada por IA, por
IA(ω) =
{
1 se ω ∈ A
0 c.c.
O leitor pode verificar que IA é uma v.a. em (Ω,F ,P). Além disso,
é uma v.a. discreta, com dois resultados posśıveis: 0 ou 1. Sua função
de massa p é descrita por p(1) = P(A) e p(0) = P(Ac) = 1− P(A).
A demonstração da proposição 1.2.1 é deixada a cargo do leitor.
Notemos, como sua conseqüência mais importante é que, para verifi-
carmos se uma determinada seqüência {pi, i ∈ I} (seja I um conjunto
finito ou não, desde que enumerável) representa as probabilidades de
alguma variável aleatória discreta, basta-nos verificar que
∑
i∈I
pi = 1; e (1.1)
pi ≥ 0, ∀i ∈ I, (1.2)
20 [CAP. 1: MODELO PROBABIĹISTICO
ou seja, toda a probabilidade deve estar concentrada em I (por (1.1))
e todos os pi’s devem ser não-negativos (por (1.2)), para que possam
ser realmente probabilidades. Lembrem-se que ∀A ∈ F , 0 ≤ P(A) ≤
1. Caso ambas as condições sejam satisfeitas, diz-se que {pi, i ∈ I} é
uma função de massa fidedigna.
1.2.3 Distribuições Cont́ınuas
Definição 1.2.6 (Variável Aleatória Cont́ınua). X é dita cont́ınua se
sua função de distribuição acumulada FX for uma função cont́ınua.
Equivalentemente, X é cont́ınua se e somente se p(t) = P(X = t) = 0
para todo t ∈ R.
Exemplo 1.2.6 (Distribuição Uniforme). Seja X a variável aleatória
definida no exemplo 1.2.2. Foi visto que FX é dada por:
FX(t) =



0 t < 0,
t/5 0 ≤ t < 5,
1 t ≥ 5;
Exemplo 1.2.7 (Distribuição Cauchy). Seja V uma variável aleatória
cuja função de distribuição acumulada FV (t) é dada por:
FV (t) =
1
2
+
1
π
tan−1 t,
para todo t ∈ R, em que tan−1 é a função inversa de tan : (−π/2, π/2)
→ R.
Note que, no caso da variável V , para todo t ∈ R, existe a derivada
de FV (t), sendo
fT (t) = (FT )′(t) =
1
π
1
1 + t2
.
Quando existe fT (t) = (FT )′(t) para todo t, o teorema fundamen-
tal do cálculo integral afirma que, para todo s, t ∈ R, s < t:
P(s < T ≤ t) = FT (t)− FT (s) =
∫ t
s
fT (u)du.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 21
Tomando-se s → −∞ na equação acima, obtém-se
FT (t) =
∫ t
−∞
fT (u)du.
Observe-se que, sendo FT monótona não decrescente e fT cont́ı-
nua, fT (t) ≥ 0 para todo t ∈ R.
Muitas vezes, a função de distribuição acumulada, F , de uma
certa variável aleatória satisfaz F (t) − F (s) = ∫ t
s
f(u)du, em que
f é uma função não-negativa, integrável, mas não necessariamente
cont́ınua. Isto ocorre, por exemplo, no caso da função de distribuição
acumulada FX(t) da variável X do exemplo 1.2.2, para a qual
(FX)′(t) =



0 t < 0,
1/5 0 < t < 5,
0 t > 5
e que (FX)′(t) não existe em 0 e 5; também observa-se que, além de
não estar definida em 0 e 5, (FX)′ tem descontinuidades essenciais
em 0 ou 5, já que, nesses pontos, não coincidem os limites laterais.
Entretanto, é fácil verificar que FX(t) satisfaz:
FX(t)− FX(s) =
∫ t
s
(FX)′(u)du,
se s, t ∈ R, s < t, sendo irrelevante para a validade da igualdade
acima o fato de (FX)′ não estar definida em 0 e 5 (ou em qualquer
conjunto finito de pontos).
Definição 1.2.7 (Função de Densidade). Seja X uma variável alea-
tória cont́ınua e FX sua função de distribuição acumulada. Uma
função fX não-negativa e integrável em R é dita função de densi-
dade de probabilidade de X se
FX(t)− FX(s) =
∫ t
s
fX(u)du,
para s, t ∈ R, s < t.
De forma análoga à notação da função de distribuição acumulada,
f é denotada por fX , quando se fizer necessária a distinção entre
22 [CAP. 1: MODELO PROBABIĹISTICO
várias variáveis aleatórias. Além disso, nessas condições, a variável
aleatória X é dita absolutamente cont́ınua.
Veja que, caso exista uma densidade para a variável aleatória
cont́ınua X com função de distribuição acumulada FX , ela não será
única, no sentido de que, se a modificarmos num número finito de
pontos, esta nova função continua a satisfazer o teorema fundamen-
tal do cálculo integral para FX e, portanto, também é uma função
de densidade de X. Com isso, é usual utilizarmo-nos da função de
densidade de X que tiver menos pontos de descontinuidades e, caso
posśıvel, que seja cont́ınua.
Como f é uma função limitada (por ser integrável), se F satisfaz
F (t)− F (s) =
∫ t
s
f(u)du,
para s, t ∈ R, s < t, necessariamente F será uniformemente cont́ınua,
já que, se s, t ∈ R e s < t,
|F (t)− F (s)| = F (t)− F (s) =
∫ t
s
f(u)du ≤ (t− s) sup
x∈R
f(x).
De forma análoga ao caso discreto, iremos chamar de uma função
de densidade fidedigna toda função f tal que:
f(x) ≥ 0 ∀x ∈ R e
∫ +∞
−∞
f(x)dx = 1. (1.3)
Claramente a não-negatividade de f é fundamental para que F ,
definida em f , no esṕırito da definição 1.2.7 seja monótona não-
decrescente mas que sua integral seja 1 pode ser facilmente contor-
nada por uma transformação desde que sua integral seja estritamente
positiva.
Finalmente, existem distribuições cont́ınuas que não são absoluta-
mente cont́ınuas mas estão fora do escopo deste livro a construção de
um exemplo ou uma discussão mais aprofundada do assunto. Nesse
esṕırito, iremos utilizar os termos absolutamente cont́ınua e cont́ınua
sem maiores preocupações, ao longo do texto.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 23
1.2.4 Seqüência de Variáveis Aleatórias
Definido um espaço de probabilidade e estudada uma variável alea-
tória, um próximo passo é o estudo de uma seqüência de variáveis
aleatórias definidas num mesmo espaço de probabilidade. A noção de
seqüência de variáveis aleatórias é basal para uma multiplicidade
de áreas como Processos Estocásticos, Teoria de Sinais, Teoria de
Controle, entre outras. Para o nosso texto, ela é fundamental na
construção de funções de distribuição emṕıricas e do Teorema
Fundamental da Estat́ıstica (Glivenko-Cantelli), que estudaremos
ao final deste caṕıtulo. Há vários detalhes técnicos que omitiremos
mas que não comprometem a utilização do conceito no resto do texto.
Definição 1.2.8 (Seqüência de Variáveis Aleatórias). Considere (Ω,
F ,P). X1, X2, . . . é uma seqüência de variáveis aleatórias definidas
em (Ω,F ,P) se Xi é uma variável aleatória definida em (Ω,F ,P),
para i ≥ 1.
No caso de Inferência Estat́ıstica, um caso particular importan-
t́ıssimo é aquele das variáveis aleatórias independentes.
Definição 1.2.9 (Independência de Variáveis Aleatórias).
(i) Sejam X1, . . . , Xn variáveis aleatórias definidas num espaço de
probabilidade (Ω,F ,P). Sua função de distribuição conjunta é dada
por:
FX1,...,Xn(x1, . . . , xn) = P (X1 ≤ x1, . . . , Xn ≤ xn) ∀x1, . . . , xn ∈ R.
(ii) X1, . . . , Xn são ditas independentes se
FX1,...,Xn(x1, . . . , xn) = FX1(x1)× · · · × FXn(xn) ∀x1, . . . , xn ∈ R.
(iii) Uma seqüência de v.a.’s definidas em (Ω,F ,P) é dita indepen-
dente se X1, . . . , Xn são independentes ∀n ≥ 2.
Um caso particular da definição 1.2.9 é dado a seguir. Usa-se o
mesmo termo i.i.d. para conjuntos finitos X1, . . . , Xn.
Definição 1.2.10 (Seqüência de Variáveis Aleatórias i.i.d.). Uma
seqüência de v.a.’s definidas em (Ω,F ,P) é dita i.i.d. se X1, . . . , Xn
são independentes ∀n ≥ 2 e FXi ≡ FX1 para todo i = 2, . . ..
24 [CAP. 1: MODELO PROBABIĹISTICO
1.2.5 Momentos e Outras Medidas de Posição e
Dispersão
Definição 1.2.11 (Esperança de uma v.a. com Imagem Finita).
Considere-se uma variável aleatória discreta X, com imagem {x1,. . . ,
xn}, e seja p sua função de massa. Então, o ‘valor esperado’ (ou
valor médio) da variável X, denotada por E(X), é a seguinte média
ponderada:
E(X) =
n∑
i=1
xip(xi).
Podemos estender sem dificuldades a definição para v.a.’s discre-
tas com imagem infinita.
Definição 1.2.12 (Esperança de uma Variável Aleatória Discreta).
Seja X uma variável aleatória discreta, com imagem {x1, x2, . . .}, e
função de massa p. Sua esperança é dada por
E(X) =
+∞∑
i=1
xip(xi),
quando essa soma (infinita) converge.
Uma questão natural é a da extensão de tal conceito para variáveis
aleatórias de qualquer natureza, isto é, que não sejam necessaria-
mente discretas. Foge aos objetivos deste livro o tratamento sis-
temático de variáveis aleatórias que não sejam discretas ou absoluta-
mente cont́ınuas. No entanto, falta-nos ainda uma definição de con-
ceito equivalente para o caso de variáveis aleatórias (absolutamente)
cont́ınuas.
Primeiramente, qual a interpretação que se pode dar a conceitos
como os expostos nas definições 1.2.11 e 1.2.12? Claramente, a uti-
lização de um valor esperado era o de caracterizar um valor relevante
ou de alguma forma central no conjunto de todos os valores posśıveis
do que a média de todos eles. Quando distanciamo-nos da noção
clássica de probabilidade, aceitando probabilidades diferentes para
eventos discretos, por exemplo, a idéia de um valor central se torna
mais complicada numa primeira leitura. O que ele faz, no entanto,
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 25
é simplesmente, substituir a média geral por uma média ponderada
pelas respectivas probabilidades, o que é exatamente a interpretação
da definição 1.2.11. Como interpretar a esperança de v.a.’s discretas
(mas de infinitos valores), como o exposto na definição 1.2.12? Se
pensarmos, intuitivamente, em que podemos definir valores espera-
dos para cada conjunto finito de valores posśıveis: {x1, x2, . . . , xk}
e tomar seu limite quando k → ∞12, teŕıamos que a esperança de
uma v.a. discreta com conjunto de valores posśıveis infinito seria
resultado de uma reavaliação sistemática das esperanças das v.a’s
definidas em conjuntos finitos, quando do aumento do conjunto de
valores posśıveis. Qualquer precisa formulação de um valor carac-
teŕıstico (como deve ser a esperança) deveria ser robusto a tais mu-
danças e é isto que a definição 1.2.12 nos traz sobre a definição 1.2.11.
Embúıdos de tal esṕırito, devemos também lembrar que a noção
de densidade e função de massa tem similaridades que por nós devem
ser utilizadas para que possamos definir a esperança de uma variável
cont́ınua analogamente à de uma discreta.
Definição 1.2.13 (Esperança de uma Variável Aleatória Cont́ınua).
Seja X uma variável aleatória cont́ınua com densidade f . Define-se
a esperança de X, denotada por E(X), como
E(X) =
∫ +∞
−∞
xf(x) dx,
quando esta integral (infinita) existe.
A esperança é um operador linear positivo, isto é,
Proposição 1.2.2 (Propriedades da Esperança). (a) Seja X uma
variável aleatória positiva. Então, E(X) > 0.
(b) E(1) = 1;
(c) Se a ∈ R então, E(aX) = aE(X); e
(d) E(X + b) = E(X) + b, ∀b ∈ R.
1conceito equivalente à definição de uma série como o limite de somas quando
o conjunto de ı́ndices cresce.
2Há que se tomar cuidado com a idéia de fazer tal operação de limite mas
esses problemas fogem ao grau de complexidade deste livro.
26 [CAP. 1: MODELO PROBABIĹISTICO
Demonstração:
Primeiramente, o resultado (b) é muito simples: 1 pode ser visto
como uma v.a. discreta assumindo somente um valor: 1. Tem, por-
tanto, função de massa dada por p(1) = 1, p(x) = 0 caso x 6= 1 e o
resultado é aplicação imediata da definição 1.2.12.
A demonstração dos outros resultados pode ser decomposta em
dois casos, de acordo com a variável ser discreta ou (absolutamente)
cont́ınua.
Caso Discreto:
(a) Sendo a variável aleatória positiva, sua esperança nada mais é do
que uma soma de quantidades positivas, sendo portanto positiva;
(c) Sem perda de generalidade, vamos supor que X ∈ {x1, x2, . . .},
com função de massa pX . A v.a. aX tem imagem {ax1, ax2, . . .} e
sua função de massa, paX , atende a
paX(axi) = pX(xi),
para qualquer i ≥ 1. Portanto,
E(aX) =
∞∑
i=1
axipaX(axi) = a
∞∑
i=1
xipX(xi) = aE(X).
(d) Seja Y = X+b. Sendo, sem perda de generalidade, Imagem(X)
= {x1, x2, . . .}, temos
Imagem(Y ) = {x1 + b, x2 + b, . . .}.
Além disso, pY (k) = pX(k − b). Portanto,
E(Y ) =
∑
k∈ImY
kpY (k) =
∑
m∈ImX
(m + b)pX(m)
=
( ∑
m∈ImX
mpX(m)
)
+ b
= E(X) + b.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 27
Caso (absolutamente) Cont́ınuo:
(a) Sendo a variável aleatória positiva, sua esperança nada mais é
do que uma integral do produto de duas funções positivas, sendo
portanto positiva;
(c) Se a = 0, o resultado é trivial. Se a > 0, seja fX a densidade de
X. A v.a. aX tem por função de distribuição acumulada
P(aX ≤ x) = P(X ≤ x/a) =
∫ x/a
−∞
fX(t) dt.
Usando-se a mudança de variável: u = at, temos
P(aX ≤ x) =
∫ x
−∞
1
a
fX(u/a) du.
Conseqüentemente, aX é uma variável aleatória cont́ınua, com
densidade 1afX(u/a). Segue que
E(aX) =
∫ +∞
−∞
u
a
fX(u/a) du.
Usando-se t = u/a, tem-se
E(aX) =
∫ +∞
−∞
atfX(t) dt = aE(X).
O caso a < 0 é semelhante e será tratado no Exerćıcio 1.33.
(d) Seja Y = X + b. A distribuição acumulada de Y é dada por
FY (x) = FX+b(x) = P(X + b ≤ x) = P(X ≤ x− b)
= FX+b(x) =
∫ x−b
−∞
fX(t) dt
=
∫ x
−∞
fX(u− b) du.
Portanto, Y = X + b tem densidade fX(· − b) e
28 [CAP. 1: MODELO PROBABIĹISTICO
E(X + b) =
∫ +∞
−∞
tfX(t− b) dt =
∫ +∞
−∞
(u + b)fX(u) du
=
∫ +∞
−∞
ufX(u) du + b
= E(X) + b.
¥
Um resultado muito simples mas extremamente interessante que
relaciona de forma direta os conceitos de probabilidade e esperança
é dado na proposição a seguir.
Proposição 1.2.3 (Esperança da Função Indicadora). Para qualquer
evento A ∈ F , tem-se
E(IA) = P(A).
Demonstração: Por sua própria definição, E(IA) pode ser escrita
como
E(IA) = 0× (1− P(A)) + 1× P(A).
¥
Uma aplicação imediata da proposição 1.2.3 gera um dos resulta-
dos fundamentais da Teoria de Probabilidade: a Desigualdade de
Markov.
Teorema 1.2.4 (Desigualdade de Markov). Seja X uma variável
aleatória positiva e a > 0 real. Então,
P(X > a) ≤ E(X)
a
Demonstração: Caso E(X) não seja finita, o resultado é trivial,
com desigualdade estrita. Considere o evento A = {X > a}. Note
que Ω = A ∪Ac,
[X = x] = [X = x, ω ∈ A]
⋃
[X = x, ω ∈ Ac]
e, para cada ω ∈ Ω,
IA(ω) + IAc(ω) = 1,
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 29
pois ω ∈ A ou ω ∈ Ac exclusivamente. Portanto,
X = XIA + XIAc = XI[X>a] + XIAc ≥ aIA
em que usamos que X ≥ 0. Segue das propriedades de linearidade e
positividade da esperança e da proposição 1.2.3 que
E(X) ≥ aE(IA) = aP(X > a). ¥
Exemplo 1.2.8 (Desigualdade de Markov para a Bernoulli). Suponha
que X possa assumir apenas os valores 0 e 1, com respectivas proba-
bilidades 1− p e p, em que 0 ≤ p ≤ 1. Sabemos, portanto que:
P(X > a) =
{
p 0 < a < 1
0 1 ≤ a (1.4)
Mas, por outro lado, sabemos que
E(X) = 0× (1− p) + 1× p = p,
e, pela desigualdade de Markov 1.2.4, temos o seguinte limite para
P(X > a), a > 0:
P(X > a) <
E(X)
a
=
p
a
. (1.5)
Note que os valores dados pela desigualdade são tão maiores
quanto maior for o valor da probabilidade de se obter X = 1 e inversa-
mente proporcionais ao ińıcio da cauda, a. O verdadeiro valor caudal,
no entanto, tem comportamento dicotômico, isto é, assume apenas
dois valores: p ou 0. A importância do ińıcio da cauda, a, é ape-
nas para compará-lo com 1. É muito importante levar em conta que
a desigualdade de Markov fornece valores universais, no sentido de
que independem das distribuições das variáveis aleatórias (dependem
apenas da esperança), razão por que são úteis. Porém, exatamente
por isso, seu comportamento será heterogêneo, provendo valores ex-
tremamente finos por vezes e grosseirospor outras.
Na figura 1.2.5, ilustramos os comentários acima para alguns casos
de p. Note que o valor fornecido por (1.5) chega a ser 100 vezes maior
do que o verdadeiro valor, dado por (1.4), para p = 0, 9, com valores
30 [CAP. 1: MODELO PROBABIĹISTICO
aproximados de P(X > a) iguais a 90, ou seja, completamente inúteis.
As comparações são realizadas apenas para 0 < a < 1, pois P(X >
a) = 0, para a ≥ 1. Para esses valores de a, a aproximação fornecida
pela desigualdade se torna extremamente ruim. O comportamento da
razão valor estimado / valor verdadeiro é homogêneo para p ∈ (0, 1).
Figura 1.2: Desigualdade de Markov para a Bernoulli
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
10
20
30
40
50
60
70
80
90
100
p=0,9
a
ap
ro
x.
/v
er
d.
aprox./verd.
1
Exemplo 1.2.9 (Desigualdade de Markov para a Exponencial). Suponha
que X tenha densidade dada por
f(x) = exp (−x)IR+(x).
Claramente P(X > 0) = 1. Sua esperança é dada por:
E(X) =
∫ +∞
0
x exp (−x)dx = 1.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 31
Observe-se que, se g fosse uma função não-decrescente, positiva
e se E(g(X)) existisse, escrevendo-se g(X) = g(X)IA + g(X)IAc ≥
g(a)1A, teŕıamos
P(X > a) ≤ E(g(X))
g(a)
. (1.6)
Portanto, é interessante podermos calcular valores esperados não
somente de variáveis aleatórias mas de funções adequadas das mes-
mas. Para isso, precisamos de dois resultados muito gerais e impor-
tantes.
Suponha que X seja uma variável discreta com função de massa
p: denotamos Imagem(X) sua imagem, isto é, Imagem(X) = {x ∈
R|p(x) > 0}. Analogamente, caso X seja uma variável aleatória
cont́ınua com densidade f , Imagem(X) = {x ∈ R|f(x) > 0}. Ao
definirmos uma variável aleatória, supomos ter esssa uma determi-
nada caracteŕıstica de imagem inversa na σ-álgebra. Essa necessidade
de ligação traz consigo duas reflexões: quão dif́ıcil é a existência de
tais ligações e podemos definir novas variáveis aleatórias a partir de
antigas, sem precisar retornar à σ-álgebra?
A primeira questão é bastante técnica e foi respondida, de forma
positiva, sem maiores justificativas, no começo desta seção. A se-
gunda será aqui brevemente comentada, com resposta também posi-
tiva, para um conjunto de funções tão grande que o leitor não se deve
mais ocupar com tal assunto, ao ńıvel deste curso.
Lema 1.2.1 (Transformação de Variáveis Aleatórias). Sejam: X
uma variável aleatória em (Ω,F ,P); e g uma função de Imagem(X)
em J ⊂ R, tal que, qualquer que seja I intervalo de R, o conjunto
g−1(I) também é um intervalo de R. Então, g(X) é uma variável
aleatória em (Ω,F ,P).
Demonstração: Seja I um intervalo de R. Pelas propriedades de
inversas de funções compostas, temos (g(X))−1(I) = X−1(g−1(I)).
Como, por hipótese, g−1(I) é um intervalo de R e X−1(J) ∈ F , para
qualquer intervalo real J , pois X é uma v.a. de (Ω,F ,P), conclúımos
que X−1(g−1(I)) ∈ F e portanto g(X) é uma variável aleatória em
(Ω,F ,P). ¥
Neste ponto, não nos interessa estudar em detalhes a distribuição
32 [CAP. 1: MODELO PROBABIĹISTICO
da nova variável aleatória g(X). Para nossos objetivos, basta-nos
caracterizar sua esperança, como determinada na proposição a seguir.
Proposição 1.2.4 (Esperança da Transformação de V.a.’s). Seja g
uma função mensurável e X uma v.a.
(a) discreta, com funçao de massa pX e imagem Imagem(X).
Então,
E(g(X)) =
∑
k∈Imagem(X)
g(k)pX(k); e
(b) cont́ınua, com densidade fX . Então,
E(g(X)) =
∫ ∞
−∞
g(t)fX(t) dt.
No entanto, mesmo sabendo calcular E(g(X)), para qualquer g
mensurável, o leitor deve estar questionando a utilidade prática de
resultado como (1.6), pois de que maneira podeŕıamos decidir qual a
função g adequada para uma determinada situação? A seguir, defi-
nimos uma série de funções g simples que, no entanto, são bastante
úteis para essa finalidade.
Uma aplicação direta da Desigualdade de Markov (em sua versão
dada por (1.6)), com função g do tipo: x 7→ x2, x 7→ x3,. . ., x 7→ xk
é a seguinte:
P(X > a) ≤ E(X
k)
ak
, (1.7)
para todo a positivo.
O conhecimento dos valores E(Xk) pode então revelar-se muito
interessante quando queremos controlar a probabilidade de um evento
raro, do tipo P(X > a)3 4.
3Intuitivamente, um evento raro deve ser caracterizado por uma baixa proba-
bilidade de ocorrência. Mas, do ponto de vista prático, um evento raro também
deve ser especial do ponto de vista dos valores que a v.a. estará assumindo.
Portanto, para v.a’s positivas, um evento do tipo [a < X < b] não seria raro
pois, mesmo que sua probabilidade de ocorrência fosse pequena, nada haveria de
especial nos valores de X a ele associados.
4Note que o resultado (1.7) é válido mesmo que o termo à direita não seja
finito. No entanto, quando esse não for finito, o resultado é trivial e inútil, pois
já sab́ıamos ser a probabilidade em questão limitada por 1.
[SEC. 1.2: VARIÁVEIS ALEATÓRIAS 33
Definição 1.2.14 (Momentos de Ordem Superior). Seja X uma
variável aleatória em (Ω,F ,P). O valor E(Xk) (quando existe) é
chamado de Momento de ordem k de X e denotado por µk.
Uma propriedade importante dos momentos é dada na proposição
1.2.5, em que é demonstrado o fato de que, sempre que existir o n-
ésimo momento de uma v.a., X, existirão também todos os momentos
de ordem k = 1, 2, . . . , n− 1. Antes, definamos
Proposição 1.2.5 (Existência de Momentos). Sejam X uma variável
aleatória em (Ω,F ,P) e n um número natural tais que existe E(Xn+1).
Então existe E(Xn).
Demonstração: Devemos provar que E(|Xn|) < ∞. Dado que
|Xn| = |Xn|.1{|X|≤1} + |Xn|.1{|X|>1} ≤ 1 + |X|n+1,
chega-se a
E(|Xn|) = E(|Xn|.1{|X|≤1}) + E(|Xn|.1{|X|>1}) ≤ 1 + E(|X|n+1).
Finalmente, dado que, por hipótese, E(|X|n+1) < ∞, tem-se
E(|Xn|) < ∞. ¥
Uma pequena observação é a de que, existindo E(Xk), para algum
k ∈ N, também existirá a seguinte esperança:
E (X(X − 1) · · · (X − k + 1)) .
Na hora de calcular probabilidades de eventos raros, aparece natu-
ralmente a seguinte pergunta: se X tem por média µ := E(X) como
exprimir a probabilidade de a variável se desviar por mais do que
uma certa quantidade de µ? Matematicamente, dado δ > 0, como
estimar P(|X − µ| > δ)? Definamos, então, o conceito de momento
central absoluto.
Definição 1.2.15 (Momento Central Absoluto de Ordem k). Chama-
se de momento central de ordem k o número (quando existe) σk =
E(|X−µ|k). O momento central de ordem 2 é chamado de variância
e denotado por σ2.
34 [CAP. 1: MODELO PROBABIĹISTICO
Um resultado muito utilizado em Estat́ıstica e, em particular nas
Leis dos Grandes Números e no Teorema Central do Limite é dado,
a seguir, sem demonstração.
Proposição 1.2.6 (Linearidade da Esperança e da Variância). Se-
jam X1, . . . , Xn v.a.’s independentes definidas em (Ω,F ,P). Então,
E(X1 + · · ·+ Xn) =
n∑
i=1
E(Xi) e
V ar(X1 + . . . + Xn) =
n∑
i=1
V ar(Xi).
Exemplo 1.2.10 (Assimetria e Medidas de Locação). Suponha que
tenhamos as seguintes variáveis aleatórias e suas respectivas densi-
dades: X, Y , Z, W , fX , fY , fZ e fW . Na figura 1.3, temos as
quatro densidades ilustradas.
Figura 1.3: Assimetria e Medidas de Locação
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de X
x
de
ns
id
ad
e 
em
 x
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de Y
x
de
ns
id
ad
e 
em
 x
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de Z
x
de
ns
id
ad
e 
em
 x
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Densidade de W
x
de
ns
id
ad
e 
em
 x
Temos E(X) = E(Y ) = E(Z) = E(W ) = 0, 5, mas claramente
0, 5 tem relevância diferenciada em cada uma das densidades. No
caso de X, o ponto 0, 5 é central e parece ser o mais relevante no
seguinte sentido: não existe outro ponto real c que o ultrapasse em
[SEC. 1.2: VARIÁVEISALEATÓRIAS 35
probabilidades do tipo:
P(0, 5− δ ≤ X ≤ 0, 5 + δ). (1.8)
Claramente, esse não é o caso para Y , Z ou W . Além disso, note
que, no caso de W , não só 0, 5 não apresenta essa propriedade de
altas probabilidades como ele é um ponto de vale, isto é, em torno de
0, 5, TODOS os pontos terão associadas probabilidades do tipo (1.8)
maiores do que as dele.
Portanto, esses quatro exemplos ilustram qualitativamente as si-
tuações de caracterização de uma variável aleatória por sua esperança:
sua relevância muito grande (caso de X), sua relevância discreta (ca-
sos de Y e Z) e sua completa irrelevância (caso de W ).
Uma noção alternativa de medidas de locação é dada a seguir.
Ela é especialmente importante para a Inferência Não-Paramétrica.
Definição 1.2.16 (Quartis, Percentis e Quantis). Seja X uma va-
riável aleatória em (Ω,S,P), com f.d. FX . Seu α-ésimo quantil, qα,
para 0 < α < 1, é qualquer valor, q, tal que:
argc∈R{P (X ≤ c) ≥ α,P (X ≥ c) ≥ 1− α}.
Em particular, utiliza-se a seguinte notação:
α Nome Notação
0, 25 Primeiro Quartil Q1
0, 50 Segundo Quartil (Mediana) Q2
0, 75 Terceiro Quartil Q3
0, 01 Primeiro Percentil P1
0, 02 Segundo Percentil P2
· · · · · ·
0, 01× j j-ésimo Percentil Pj
· · · · · ·
0, 98 Nonagésimo Oitavo Percentil P98
0, 99 Nonagésimo Nono Percentil P99
36 [CAP. 1: MODELO PROBABIĹISTICO
Observação 1.2.5. A mediana (Q2 ou quantil 0,50) é utilizada como
uma alternativa não-paramétrica (caṕıtulo 2) para a média.
Definição 1.2.17 (Desvio Interquart́ılico e Desvio Médio). Seja X
uma variável aleatória em (Ω,S,P), com f.d. FX . O desvio in-
terquart́ılico, D, é dado por DI = Q3 − Q1. Suponha que X seja
cont́ınua (discreta), com densidade (massa) fX (pX) e que possua
esperança E(X). Seu desvio médio, DM , é dado por:
∫ +∞
−∞
|u− E(X)|fX(u)du,
para v.a.’s cont́ınuas, e
+∞∑
i=−∞
|xi − E(X)|pxi ,
para v.a.’s discretas.
1.3 Leis dos Grandes Números
O teorema 1.3.1 e seu corolário 1.3.1 são versões da Desigualdade de
Tchebichev.
Teorema 1.3.1 (Desigualdade de Tchebichev). Sejam X uma vari-
ável aleatória definida no espaço de probabilidade (Ω,F ,P) e f : R→
R uma função não-negativa. Dado um conjunto A tal que ∅ 6= A ⊂ R,
seja iA = inf{f(x) : x ∈ A}. Nessas condições:
E(f(X)) ≥ iA.P(X ∈ A).
Demonstração:
E(f(X)) = E
(
f(X).1[X∈A] + f(X).1[X 6∈A]
)
= E
(
f(X).1[X∈A]
)
+ E
(
f(X).1[X 6∈A]
)
.
Sendo f não-negativa, E
(
f(X).1[X 6∈A]
) ≥ 0 e, portanto:
E (f(X)) ≥ E (f(X).1[X∈A]
) ≥ iA.E
(
1[X∈A]
)
= iA.P (X ∈ A) . ¥
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 37
Algumas das muitas aplicações do teorema 1.3.1 se encontram no
corolário 1.3.1. O teorema 1.3.1 será também utilizado diretamente
na demonstração do Teorema de Bernoulli.
Corolário 1.3.1. Seja X uma variável aleatória definida em um
espaço de probabilidade (Ω,F ,P). Então, para quaisquer ε > 0 e
j ∈ N, têm-se
a)
P(|X| > ε) ≤ E(|X|
j)
εj
.
b) se E(|X|) < +∞,
P(|X − E(X)| > ε) ≤ E(|X − E(X)|
j)
εj
.
Em particular, para j = 2, se E
(
X2
)
< +∞, tem-se a Desigual-
dade de Tchebichev
P(|X − E(X)| > ε) ≤ V ar(X)
ε2
;
c) se σj := E(|X − E(X)|j) < +∞,
P(|X − E(X)| > ε.(σj)1/j) ≤ 1
εj
.
Em particular, para j = 2, se σ2 := V ar(X) < +∞, tem-se
P(|X − E(X)| > ε.σ) ≤ 1
ε2
.
Demonstração:
a) Aplique o teorema 1.3.1 a f(x) = |x|j e A = {x ∈ R : |x| > ε};
b) Aplique o teorema 1.3.1 a f(x) = |x − E(X)|j e A = {x ∈ R :
|x− E(X)| > ε}; e
c) Substitua ε = ε.(σj)1/j em b). ¥
Definição 1.3.1 (Lei Fraca dos Grandes Números). Seja {Xj}j∈N
uma seqüência de variáveis aleatórias definidas no espaço de proba-
bilidade (Ω,F ,P) tais que E(|Xj |) < +∞, para todo j ∈ N. Defina
{Sn}n∈N como a seqüência de somas parciais, isto é, Sn =
∑n
j=1 Xj.
38 [CAP. 1: MODELO PROBABIĹISTICO
Nessas condições, diremos que a seqüência {Xj}j∈N satisfaz à Lei
Fraca dos Grandes Números se, para qualquer ε > 0,
lim
n→+∞
P
(∣∣∣∣
Sn − E(Sn)
n
∣∣∣∣ > ε
)
= 0.
As diversas versões existentes de Leis Fracas dos Grandes Números
que veremos em seguida (e todas as demais que omitiremos) dizem
respeito às condições suficientes para que a seqüência de variáveis
aleatórias {Xj}j∈N satisfaça à condição:
lim
n→+∞
P
(∣∣∣∣
Sn − E(Sn)
n
∣∣∣∣ > ε
)
= 0.
Definição 1.3.2 (Experimentos de Bernoulli). Seja X1, X2, . . . uma
seqüência i.i.d. de v.a.’s definidas em (Ω,F ,P). Ela forma uma
Seqüência de Experimentos de Bernoulli se P(X = 1) = p = 1 −
P(X = 0), para algum 0 ≤ p ≤ 1.
Notemos que, pela proposição 1.2.6, E(X1 + · · · + Xn) = np e
V ar(X1 + · · ·+ Xn) = np(1− p), para todo n ≥ 2 e X1, X2, . . . uma
seqüência de experimentos de Bernoulli.
Teorema 1.3.2 (Teorema de Bernoulli). Consideremos uma seqüên-
cia de ensaios de Bernoulli independentes .
Sejam p a probabilidade de sucesso em cada ensaio e Sn o número
observado de sucessos nos n primeiros ensaios. Então, para todo
ε > 0, vale que
lim
n→+∞
P
(∣∣∣∣
Sn
n
− p
∣∣∣∣ > ε
)
= 0.
Demonstração:
Dado que Sn tem distribuição Bin(n, p), tem-se que E(Sn) = np e
V ar(Sn) = np(1−p). Então, E(Sn/n) = p e V ar(Sn/n) = p(1−p)/n;
aplicando-se a Desigualdade de Tchebichev (Corolário 1.3.1 item b)
) à variável Sn/n obtém-se
P
(∣∣∣∣
Sn
n
− p
∣∣∣∣ > ε
)
≤ p(1− p)
nε2
.
Portanto, basta-nos tomar n → +∞. ¥
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 39
Observação 1.3.1. A tese do Teorema de Bernoulli pode ser escrita
na seguinte forma equivalente.
Para qualquer ε > 0,
lim
n→+∞
P
(∣∣∣∣
Sn
n
− p
∣∣∣∣ ≤ ε
)
= 1.
Tendo em mente essa última versão, devemos salientar que o
Teorema de Bernoulli não implica na convergência das freqüências
relativas à probabilidade p, no sentido ordinário de análise. Com
efeito, a afirmação limn→∞ Sn/n = p considerada no sentido usual
significaria que, para qualquer ε > 0, existiria um ı́ndice n0 ∈ N
(n0 = n0(ε)), tal que, para todo n ≥ n0, teŕıamos |Sn/n − p| ≤ ε.
Estaŕıamos, portanto, afirmando que, para qualquer ε > 0, existiria
um ı́ndice n0 ∈ N (n0 = n0(ε)), tal que, para todo n ≥ n0, o evento
{|Sn/n−p| ≤ ε} seria o evento certo, numa linguagem menos formal:
Sn/n estaria arbitrariamente perto de p se n fosse suficientemente
grande.
A tese do teorema de Bernoulli, no entanto, é mais fraca e tem o
seguinte significado:
Para qualquer ε > 0 e qualquer δ > 0, existe um ı́ndice n0 ∈ N
(n0 = n0(ε, δ)), tal que, para todo n ≥ n0, temos P(|Sn/n − p| >
ε) < δ ou, equivalentemente, para qualquer ε > 0 e qualquer δ > 0,
existe um ı́ndice n0 ∈ N ( n0 = n0(ε, δ)), tal que, para todo n ≥ n0,
temos P(|Sn/n− p| ≤ ε) > 1− δ.
Informalmente, o teorema de Bernoulli afirma que a probabilida-
de de Sn/n estar arbitrariamente perto de p estará tão próxima de
1 quanto se desejar, se n for suficientemente grande.
Nesta altura, é interessante dizer que, em 1909, Borel provou a
Lei Forte dos Grandes Números, nos seguintes termos:
Consideremos uma seqüência de ensaios de Bernoulli indepen-
dentes; sejam p a probabilidade de sucesso em cada ensaio e Sn o
número observado de sucessos nos n primeiros ensaios. Então:
P( lim
n→+∞
Sn/n = p) = 1.
Observe que esse resultado é o mais próximo à convergência de
Sn/n a p no sentido ordinário da análise, em que {limn→∞ Sn/n =
p} seria o evento certo (visto que este resultado não existe).
40 [CAP. 1: MODELO PROBABIĹISTICO
Na tentativa de melhorar a demonstração do Teorema de Bernoulli,
de Moivre teve a idéia de substituir as probabilidades binomiais por
uma expressão assintótica. Mais precisamente, ele demonstrou que,
se Sn tem distribuição Bin(n, 1/2)5, então:
P(Sn = j) ≈ (2πn(1/2)2)−1/2 exp
(
− (j − n/2)
2
2n(1/2)2
)
,
se n for suficientemente grande, introduzindo desta forma a famosa
curva gaussiana e dando também a primeira versão do Teorema Cen-
tral do Limite : a convergência da distribuição Binomial (n, 1/2) à
normal.
Nos gráficos da figura 1.4, vemos o comportamento de tal apro-
ximação. Note quão bom é seu desempenho, mesmopara aparente-
mente valores pequenos de n. No entanto, na tabela 1.1, vemos que
o desempenho absoluto (bem retratado nos gráficos) melhora rapida-
mente em n mas exatamente o contrário ocorre com o erro relativo
máximo, que cresce com n. Devemos salientar, no entanto, que essa
piora acontece apenas nas caudas, não querendo dizer que a aproxi-
mação esteja piorando.
Tabela 1.1: Erro da Aproximação da Binomial pela Normal
n Erro Abs. Erro Rel.
Máximo Máximo
5 0, 011 0, 0715
10 0, 0062 0, 7409
20 0, 0022 7, 4934
30 0, 0012 46, 85
50 0, 000056 1, 7634× 103
100 0, 000020 1, 95× 107
200 0, 0000070 3, 37× 1015
5Sn = X1 + · · ·+ Xn, P(X = 0) = P(X = 1) = 1/2
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 41
Figura 1.4: Aproximação da Binomial pela Normal
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
j
pr
ob
ab
ili
da
de
n=5
aprox
verd
0 1 2 3 4 5 6 7 8 9 10
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
j
pr
ob
ab
ili
da
de
n=10
aprox
verd
0 2 4 6 8 10 12 14 16 18 20
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
j
pr
ob
ab
ili
da
de
n=20
0 5 10 15 20 25 30
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
n=30
j
pr
ob
ab
ili
da
de
aprox
verd
Teorema 1.3.3 (Lei Fraca dos Grandes Números para v.a.’s i.i.d.).
Seja {Xj}j∈N uma seqüência de variáveis aleatórias i.i.d. de-
finidas no espaço de probabilidade (Ω,F ,P), tais que V ar(X1) <
+∞. Defina-se a seqüência de somas parciais {Sn}n∈N, isto é, Sn =∑n
j=1 Xj. Então, {Xn}n∈N satisfaz a Lei Fraca dos Grandes
Números ou, equivalentemente, para qualquer ε > 0,
lim
n→+∞
P(|Sn/n− E(X1)| > ε) = 0.
Demonstração:
Aplicaremos a Desigualdade de Tchebichev (Corolário 1.3.1 item
b) à variável aleatória Sn/n. Para tanto, precisamos calcular suas
esperança e variância.
E(Sn/n) = n−1E(Sn) = n−1E(
n∑
j=1
Xj) = n−1
n∑
j=1
E(Xj) = E(X1).
42 [CAP. 1: MODELO PROBABIĹISTICO
Como temos X1, X2, . . . , Xn, .. i.i.d., sabemos que V ar(
∑n
j=1 Xj)
=
∑n
j=1 V ar(Xj) e, portanto,
V ar(Sn/n) = n−2V ar(
n∑
j=1
Xj) = n−2
n∑
j=1
V ar(Xj) = n−1V ar(X1).
Então, pela Desigualdade de Tchebichev (pelo item b) do Corolário
1.3.1):
P(|Sn/n− E(X1)| > ε) ≤ V ar(X1)
nε2
.
Sendo a variância de X1 finita, temos o resultado, quando n →
+∞. ¥
Observação 1.3.2.
a) Note que no teorema 1.3.2, Sn representava o número de suces-
sos nos n primeiros experimentos de Bernoulli independentes. Por-
tanto, o teorema 1.3.3 é uma generalização do Teorema de Bernoulli.
b) o resultado
lim
n→+∞
P(|Sn/n− E(X1)| > ε) = 0
implica em que os valores da variável aleatória Sn/n se concentram
em torno do valor E(X1), à medida em que n → +∞, sendo esse
o motivo por que o valor E(X1) pode ser legitimamente chamado de
valor esperado ou esperança;
c) o resultado intermediário
P(|Sn/n− E(X1)| > ε) ≤ V ar(X1)
nε2
,
é de muita utilidade para a estimação de E(X1), como pode ser visto
no exemplo 1.3.1.
Exemplo 1.3.1 (Pesquisa Eleitoral).
Suponha que desejemos estimar a proporção do eleitorado que
pretende votar em um certo candidato. Qual deve ser o tamanho
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 43
amostral para garantir um certo erro entre a proporção populacional,
p, e a proporção amostral, Sn/n?
Antes de resolvermos esse problema, devemos refletir sobre a de-
finição de erro. Usualmente, quando se fala em erro, está-se diante
de um número real que exprime a (in)capacidade de uma certa quan-
tidade ao representar uma outra. No caso em estudo, porém, deve-
mos pensar que, sendo uma das quantidades baseada na amostra e
a verdadeira, populacional, essa simples interpretação não nos seria
posśıvel - aqui, a interpretação é análoga à de convergência de Sn/n
para p.
Como temos, associada a uma medida amostral (que é uma variá-
vel aleatória) uma incerteza (expressa por um modelo probabiĺıstico)6,
restrições de distância entre as proporções amostral e populacional só
podem ser avaliadas em conjuntos contidos em Ω e nunca no próprio
evento certo. Portanto, quando se fala que desejamos encontrar um
tamanho amostral suficiente para um certo erro máximo, por exemplo
0, 01, temos que fazê-lo com uma medida de certeza a ela associada,
expressa numa probabilidade, como por exemplo 0, 95. Matematica-
mente, queremos encontrar n tal que:
P(|Sn/n− p| > 0, 01) ≤ 0, 95.
Supondo ter Sn uma distribuição Bin(n, p) e X1 distribuição b(p),
a fórmula mencionada na Observação 1.3.2 c) nos diz que
P(|Sn/n− p| > 0, 01) ≤ p(1− p)
n(0, 01)2
.
Desconhecemos p, mas sabemos que p(1− p) é uma parábola con-
vexa, ilustrada na figura 1.5. É fácil ver que seu máximo ocorre em
1/2, isto é, p(1 − p) ≤ 1/4. Portanto, trabalhando-se com a pior
hipótese (p = 1/2), temos:
P(|Sn/n− p| > 0, 01) ≤ 14n(0, 01)2 .
Finalmente, igualando nosso valor teórico 1/(4n(0.01)2) ao valor
6Nesse exemplo, considera-se que o voto de cada eleitor tenha uma distribuição
b(p)
44 [CAP. 1: MODELO PROBABIĹISTICO
Figura 1.5: Incerteza na Pesquisa Eleitoral
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.05
0.1
0.15
0.2
0.25
p
p(
1−
p)
p(1−p) vs p
máximo desejado de incerteza, 0, 05 = 1− 0, 95, verificamos que
n ≥ (0, 05).4(0, 01)2)−1
nos garante que |Sn/n−p| > 0, 01 tem probabilidade no máximo igual
a 0,05 ou, equivalentemente, n ≥ (0, 05.4(0, 01)2)−1 é uma condição
suficiente para que |Sn/n − p| ≤ 0, 01 tenha uma probabilidade no
mı́nimo igual a 0,95.
Podemos provar que, em geral, quando se deseja estimar uma
proporção p, de tal forma que o erro na estimação seja menor do que
um ε > 0 com probabilidade pelo menos igual a α (ε e α prefixados),
é suficiente que o tamanho da amostra n seja maior do que ou igual
a ((1− α)4ε2)−1.
Note que, no caso em questão, p = 0, 01 e ε = 0, 05, n deve-
ria ser pelo menos 50000, um número absurdo para uma amostra.
Felizmente, as técnicas de amostragem são desenvolvidas de forma
bem mais sofisticada do que nesse exemplo, diminuindo-se assim o
tamanho amostral necessário a valores viáveis.
Teorema 1.3.4 (Lei Fraca dos Grandes Números de Tchebichev).
Seja {Xn}n∈N uma seqüência de variáveis aleatórias. Definam-se
as somas parciais, Sn =
∑n
j=1 Xj, para cada n ∈ N. Se as variáveis
[SEC. 1.3: LEIS DOS GRANDES NÚMEROS 45
forem independentes, com variâncias finitas e, além disso,
lim
n→∞
1
n2
n∑
j=1
V ar(Xj) = 0;
então, a seqüência {Xn}n∈N satisfaz a Lei Fraca dos Grandes
Números, ou seja, para qualquer ε > 0,
lim
n→+∞
P(|(Sn− E(Sn))/n| > ε) = 0.
Demonstração:
Aplique a Desigualdade de Tchebichev clássica (Corolário 1.3.1
item b) à variável Sn/n. ¥
Um resultado também muito importante, mas cuja demonstração
foge ao ńıvel do texto, é a Lei Forte dos Grandes Números. Como
já vimos, há várias versões de Leis Fracas dos Grandes Números
e veremos que também há várias versões de Teoremas Centrais do
Limite. De forma análoga, há várias versões de Leis Fortes dos
Grandes Números. Enunciaremos a clássica.
Teorema 1.3.5 (Lei Forte dos Grandes Números). Seja X1, X2, . . .
uma seqüência i.i.d. em (Ω,F ,P), com E(X1) = µ. Se E|X1| < ∞,
então
P( lim
n→∞
Sn/n = µ) = 1.
1.3.1 Teorema Central do Limite
Teorema 1.3.6 (Teorema de de Moivre).
Consideremos uma seqüência de ensaios de Bernoulli indepen-
dentes. Sejam p a probabilidade de sucesso em cada ensaio e Sn o
número observado de sucessos nos n primeiros ensaios. Então, para
n suficientemente grande e para qualquer x ∈ {0, . . . , n}, vale que
P(Sn = x) ³ 1√
2πnp(1− p) exp
[
− (x− np)
2
2np(1− p)
]
.
Demonstração:
Por conveniência, defina-se q = 1− p. Seja Pn(x) a probabilidade
de [Sn = x]:
46 [CAP. 1: MODELO PROBABIĹISTICO
Pn(x) = P(Sn = x) =
n!
x!(n− x)!p
xqn−x.
A fórmula de Stirling afirma (veja Observação 1.3.3 ii) a seguir)
que, se m ∈ N, então
m! ³ mme−m
√
2πm.
Portanto,
Pn(x) ³ n
ne−n
√
2πnpxqn−x
xxe−x
√
2πx(n− x)n−xe−n+x
√
2π(n− x)
=
(
np
x
)x+1/2 ( nq
n− x
)n−x+1/2
√
2πnpq
. (1.9)
Sejam
w