Buscar

tema 2 Amostras aleatórias e suas propriedades

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

DEFINIÇÃO
Apresentação dos conceitos de Probabilidade e Estatística. Definição de amostra aleatória e suas propriedades — resultados e
noções importantes. Conjecturas sobre uma população a partir de uma amostra — conceitos de viés e erro quadrático médio.
Principais teoremas-limite da Estatística — Lei Fraca dos Grandes Números e Teorema Central do Limite.
PROPÓSITO
Examinar as propriedades teóricas de amostras aleatórias e os resultados para o desenvolvimento do exercício de inferência sobre
uma população a partir de um subconjunto dela, tal como as conclusões a respeito dessa população a partir de pequenos recortes,
algo fundamental no cotidiano profissional de várias áreas.
PREPARAÇÃO
Antes de iniciar o conteúdo deste tema, certifique-se de ter papel e lápis por perto para acompanhar os exemplos e demonstrações.
OBJETIVOS
MÓDULO 1
Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
MÓDULO 2
Descrever média e variância amostral e suas relações com as contrapartidas populacionais
MÓDULO 3
Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da Estatística
INTRODUÇÃO
O conceito de amostra, de um subconjunto de uma determinada população, é central para o exercício da Estatística.
Há diferentes tipos de amostra. Sobre este tópico:
1
Começaremos caracterizando uma amostra aleatória e suas propriedades, e as possíveis relações entre seus elementos. Assim,
começaremos a transição da Teoria da Probabilidade para a Estatística.
Usaremos amostras para fazer conjecturas a respeito de populações. Para isso, teremos que desenvolver um ferramental específico e
um novo conjunto de hipóteses que permitam fazer inferências sobre a população que queremos estudar.
2
3
Chegaremos a alguns dos resultados mais importantes da Estatística: a Desigualdade de Chebyshev, a Lei (Fraca) dos Grandes
Números e o Teorema Central do Limite.
MÓDULO 1
 Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
LIGANDO OS PONTOS
Você sabe o que é uma amostra aleatória? Diante da necessidade de estudar a eficácia em grande escala de um serviço ou produto,
qual estratégia você adotaria para que seus resultados fossem confiáveis?
Para respondermos a essas perguntas, vamos analisar algumas situações práticas.
Shutterstock.com
Nossa percepção da realidade é baseada, principalmente, em nossas experiências. No entanto, isso não significa que nossa
percepção seja correta. O que poderia explicar essa condição?
A limitação de situações às quais fomos expostos pode nos conduzir a conclusões tendenciosas. Exatamente para evitar esse tipo de
erro, precisamos ser críticos e apoiar nossas opiniões em fontes de informações confiáveis.
A percepção da realidade é algo extremamente poderoso. Vamos analisar duas situações: uma excelente e outra péssima.
Primeiro, a situação excelente: sabemos que a educação financeira é um importante aliado para que possamos construir e gerenciar
nossos patrimônios, pois, por meio dela, entendemos como reduzir riscos desnecessários, fugir de custos exagerados e investir em
projetos sólidos e promissores.
Agora, a situação péssima: um grupo fraudador atrai vítimas para o golpe da pirâmide financeira com promessas de lucros muito
acima do mercado. Para tentar ganhar a confiança das vítimas, apresenta alguns casos de sucesso. Essa história se repete com
grande frequência e sempre termina da mesma forma, com enormes prejuízos para as vítimas.
O que os dois casos têm em comum? Por que a educação financeira é importante? Por que golpes de pirâmides financeiras ainda
continuam atraindo as pessoas?
Dificilmente teríamos apenas uma resposta, mas com certeza todas elas teriam em comum a exposição à experiência e a percepção
do que ela significa, ou seja, nossa construção do que é a realidade.
Ao estudar qualquer processo, devemos utilizar metodologias que sejam capazes de submeter percepções à crítica rigorosa, pois, no
caso de as percepções, ainda assim, sustentarem-se, aumentamos nosso grau de confiança. É difícil imaginar quantos prejuízos e
outros males foram causados contra empresas e pessoas por percepções erradas.
Uma forma concreta de a estatística nos ajudar a entender a realidade é por meio da coleta e da análise de amostras aleatórias. Isso
nos dá uma abrangência sobre o que de fato está ocorrendo dentro de um processo e que seja viável sob os pontos de vista
econômico e de esforço.
APÓS A LEITURA DO CASE, É HORA DE APLICAR SEUS
CONHECIMENTOS! VAMOS LIGAR ESSES PONTOS?
1. COMO VOCÊ VIU, A PERCEPÇÃO DA REALIDADE TEM ENORME IMPACTO PARA TOMADA DE
DECISÃO. IMAGINE O CONTEXTO DO GOLPE DAS PIRÂMIDES FINANCEIRAS, EM QUE FRAUDADORES
ILUDEM AS VÍTIMAS A INVESTIREM SEU PATRIMÔNIO. VOCÊ ACREDITA QUE A ESTATÍSTICA PODE
AJUDAR A COMBATER ESSE TIPO DE FRAUDE? POR QUÊ?
A) Não, pois os fraudadores criam uma falsa percepção da realidade para a vítima.
B) Sim, pois investimentos sérios têm históricos que podem ser analisados.
C) Sim, basta forçar que os golpistas entrem em contradição.
D) Sim, pois os golpistas não conhecem nada sobre investimentos reais.
E) Não, pois os golpistas são muito sofisticados na elaboração de golpes.
2. VOCÊ JÁ SABE QUE UM DOS MÉTODOS DA ESTATÍSTICA PARA REALIZAR ESTUDOS É A
AMOSTRAGEM ALEATÓRIA. O QUE VOCÊ ENTENDE POR AMOSTRA ALEATÓRIA?
A) É a seleção de qualquer informação a respeito de um processo.
B) É a utilização de sorteios para selecionar dados de um processo.
C) É a construção da percepção a partir de estudos científicos.
D) É a utilização de ferramentas computacionais para gerar dados de estudo.
E) É a escolha de dados que possuem a mesma probabilidade de ocorrência.
GABARITO
1. Como você viu, a percepção da realidade tem enorme impacto para tomada de decisão. Imagine o contexto do golpe das
pirâmides financeiras, em que fraudadores iludem as vítimas a investirem seu patrimônio. Você acredita que a estatística
pode ajudar a combater esse tipo de fraude? Por quê?
A alternativa "B " está correta.
Golpistas são especialistas em distorcer a realidade com falsas amostras. Em especial, nas pirâmides financeiras, eles iludem as
vítimas com alguns casos de sucesso artificiais e, assim, induzem-nas ao erro. A estatística pode ajudar a combater esse tipo de golpe
simplesmente submetendo-o ao exame minucioso da análise histórica.
2. Você já sabe que um dos métodos da estatística para realizar estudos é a amostragem aleatória. O que você entende por
amostra aleatória?
A alternativa "E " está correta.
A apuração da veracidade de um estudo precisa ser embasada em dados confiáveis. Raramente, é possível ter acesso a todos os
dados. Por isso, a amostragem aleatória é tão importante. Por meio dela, podemos selecionar amostras de dados que possuem a
mesma chance de ocorrência. Dessa forma, evitamos que a base a ser utilizada para realizar nossos estudos seja tendenciosa e,
assim, temos uma visão mais fidedigna da realidade.
3. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ É O RESPONSÁVEL POR
ANALISAR OS DADOS DOS EQUIPAMENTOS DANIFICADOS UTILIZADOS
PARA TRANSPORTE DE CARGAS DE UMA EMPRESA DE GRANDE PORTE. AS
CONDIÇÕES EM QUE ESSES EQUIPAMENTOS OPERAM SÃO AS PRINCIPAIS
CAUSADORAS DE PARADAS FORÇADAS PARA MANUTENÇÃO CORRETIVA.
NESSE CONTEXTO, QUAL SERIA SUA ESTRATÉGIA PARA REDUZIR AS
PARADAS PARA MANUTENÇÃO CORRETIVA?
RESPOSTA
Espelho de resposta
O cenário apresentado envolve uma grande quantidade de equipamentos. Então, a primeira etapa é
selecionar quais os principais problemas que levam a paradas para manutenção corretiva. Em seguida, vem
a seleção dos equipamentos em que esses problemas ocorrem com maior frequência. No início da análise, é
importante restringir os elementos da população para estudar com profundidade as causas que levaram à
parada para manutenção corretiva. Superada essa etapa, basta submeter as percepções iniciais daanálise a
outros equipamentos para verificar se elas se sustentam.
AMOSTRAS ALEATÓRIAS
Pesquisadores frequentemente coletam dados sobre diversas informações em um experimento. Esses dados consistem em várias
observações sobre diferentes variáveis de interesse.
Fonte: geralt/pixabay
javascript:void(0)
Um grupo de pesquisadores da área de saúde pode coletar informações sobre altura, peso e pressão sanguínea da população de uma
cidade.
Quase sempre, porém, é inviável coletar essas informações para todas as pessoas. Para isso, utilizam-se técnicas de amostragem
que buscam selecionar uma subpopulação (a amostra) a fim de chegar a conclusões que sejam generalizáveis para o restante da
população.
O principal método de amostragem é chamado de amostragem aleatória, vamos conhecer sua definição.
AMOSTRA ALEATÓRIA - DEFINIÇÃO
As variáveis aleatórias X1,…,Xn são chamadas de amostra aleatória de tamanho n da população com densidade marginal fX(x) se
X1,…,Xn se forem mutuamente independentes e se a distribuição marginal de cada Xi for a mesma função fX(x). De modo alternativo,
X1,…,Xn são chamadas de variáveis aleatórias independentes e identicamente distribuídas, com distribuição fX(X). Comumente,
chama-se esse tipo de variável de “variável aleatória iid”.
Vamos analisar algumas informações sobre o modelo de amostragem aleatória:
INFORMAÇÃO 1
INFORMAÇÃO 2
INFORMAÇÃO 3
INFORMAÇÃO 1
Descreve um tipo de situação em que a variável de interesse X tem uma distribuição dada por fX(x).
INFORMAÇÃO 2
Na maioria dos experimentos, não observamos somente uma realização de X, mas n > 1 observações repetidas dessa variável
aleatória. Medimos a altura para n > 1 indivíduos, ou o peso para n > 1 indivíduos, por exemplo.
INFORMAÇÃO 3
De acordo com o modelo de amostragem aleatória descrito, cada observação Xi tem uma distribuição marginal dada por fX(x). Além
disso, essas observações não têm relação entre si, ou seja, são mutualmente independentes.
Desse modo, chegamos à função de distribuição conjunta, dada por:
FX1 . . . XN X1, . . . , XN = FX1 X1 FX2 X2 . . . FXN XN = ∏
N
I = 1FXI XI
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Podemos utilizar a equação apresentada para calcular probabilidades envolvendo uma amostra aleatória iid.
( ) ( ) ( ) ( ) ( )
PRIMEIRA IGUALDADE
Na primeira igualdade, utilizamos a independência para separar a densidade marginal conjunta em um produto de densidades
marginais individuais.
SEGUNDA IGUALDADE
Na segunda igualdade, utilizamos o fato de elas seguirem a mesma distribuição.
Uma vez que X1,…,Xn são identicamente distribuídas, todas as densidades marginais fXi(x) são iguais, ou seja, fX1(x) = fX2(x) = ⋯ =
fXn(x). Isso vale, inclusive, para distribuições paramétricas, como a exponencial do exemplo a seguir:
EXEMPLO
Sejam X1,…,Xn uma amostra aleatória de uma população exponencial com parâmetro β. Mais especificamente, essa amostra
corresponde aos períodos decorridos (medidos em anos) até que ocorra uma falha em n circuitos idênticos, que são testados e
utilizados até falharem. A distribuição conjunta da amostra é dada por:
fX1 . . . Xn x1, . . . , xn β = ∏
n
i = 1fXi xi β = ∏
n
i = 1
1
βe
- xi / β = 
1
βe
- X1 + . . . + Xn / β
Essa distribuição pode ser utilizada para responder a questões relacionadas à amostra, como por exemplo:
Qual a probabilidade de que todos os circuitos tenham uma duração maior do que cinco anos?
Podemos obter esse valor a partir do seguinte cálculo:
P X1 > 5, . . . , XN > 5 = ∫
∞
5 . . . ∫
∞
5 ∏
N
I = 1
1
ΒE
-
XI
Β DX1. . . DXN
= E -
5
Β ∫ ∞5 . . . ∫
∞
5 ∏
N
I = 2
1
ΒE
-
XI
Β DX2. . . DXN
= E -
5
Β
2
∫ ∞5 . . . ∫
∞
5 ∏
N
I = 3
1
ΒE
-
XI
Β DX3. . . DXN = . . . = E
-
5
Β
N
= E -
5N
Β
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Se β, tempo de duração médio de um circuito, for grande em relação ao número n de observações da amostra, verificamos que
essa probabilidade é próxima de 1.
Esse cálculo ilustra como a distribuição de uma amostra aleatória iid pode ser utilizada para calcular probabilidades sobre essa
amostra.
( | ) ( | ) ( )
( )
[ ]
( ) [ ] ( )
javascript:void(0)
javascript:void(0)
Perceba que a propriedade das variáveis de serem independentes e identicamente distribuídas dentro dessa amostra também pode
ser utilizada diretamente nos cálculos. Por exemplo, podemos chegar ao mesmo resultado da seguinte maneira:
P X1 > 5, . . . , XN > 5 = P X1 > 5 . . . P XN > 5 = P X1 > 5
N = E -
5
Β
N
= E -
5N
Β
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Vamos analisar as passagens apresentadas na fórmula:
DA PRIMEIRA PARA A SEGUNDA
Utilizamos a propriedade de independência.
DA SEGUNDA PARA A TERCEIRA
Utilizamos a propriedade de as variáveis serem identicamente distribuídas.
O modelo de amostragem aleatória utilizado anteriormente é chamado de amostragem de uma população infinita.
Considere a obtenção dos valores de X1,…,Xn sequencialmente.
1° Realizamos o experimento e observamos X1 = x1.

2° Repetimos o experimento e obtemos X2 = x2.
A suposição de independência no processo de amostragem aleatória implica que a distribuição de probabilidade de X2 não é afetada
pelo fato de termos observado X1 = x1. Se removermos x1> da população infinita, essa população não é modificada; logo, X2 = x2
ainda é uma observação aleatória da mesma população.
Fonte: Free-Photos/pixabay
( ) ( ) ( ) [ ( )] ( )
javascript:void(0)
javascript:void(0)
 RESUMINDO
Quando temos uma população infinita, a amostragem equivale a uma amostragem aleatória. Esse não será sempre o caso para
amostras de uma população finita, como veremos agora.
AMOSTRAS FINITAS
Fonte: Adaptado de Freepik
Uma população finita é descrita por um conjunto de números {x1,…,xN}. Uma amostra X1,…,Xn, onde n ≤ N, deve ser obtida a partir
dessa população.
PRIMEIRO
Suponha que um valor seja escolhido dentro dessa população, de modo que cada um dos N valores tenha a mesma probabilidade de
ser escolhido (i.e., probabilidade igual a 1/N). Esse valor sorteado é registrado como X1 = x1.
SEGUNDO
O processo é repetido, e obtemos X2 = x2. Esse processo é repetido n vezes, até que tenhamos gerado a amostra X1, ..., Xn.
Esse tipo de processo de amostragem é considerado com reposição.
PROCESSO DE AMOSTRAGEM COM REPOSIÇÃO
Neste processo de amostragem, o valor escolhido em cada rodada é “reposto” na população e está novamente disponível para ser
sorteado na rodada seguinte.
Para esse tipo de amostragem temos:
1
As mesmas propriedades que obtemos para a amostragem com uma população infinita, isto é, de uma amostragem onde X1, ..., Xn
são variáveis aleatórias independentes e identicamente distribuídas.
javascript:void(0)
javascript:void(0)
Cada Xi é uma variável aleatória discreta que assume cada um dos valores x1, ..., xN com a mesma probabilidade, logo, são
identicamente distribuídas.
2
3
Elas também são independentes porque o processo para escolha de qualquer Xi é o mesmo, independentemente dos valores que são
obtidos para qualquer uma das outras variáveis.
Vamos considerar um segundo caso. Queremos obter uma amostra aleatória a partir de uma população finita, mas sem reposição.
PASSO 1
PASSO 2
PASSO 1
Escolhemos um valor a partir da população finita descrita por {x1,…,xN}, de modo que cada um dos N valores tenha a mesma
probabilidade de ser escolhido igual a 1/N. Esse valor é registrado como X1 = x1.
PASSO 2
Agora, um segundo valor é sorteado dentre os N - 1 restantes. Desse modo, a probabilidade de escolhermos um desses N - 1 valores
é igual a 1/(N - 1). O segundo valor sorteado é registrado como X2 = x2.
OBSERVAÇÃO
Assim que um valor é escolhido, ele se torna indisponível para a escolha em qualquer estágio posterior, pois não é reposto na
população. A escolha dos valores restantes continua dessa maneira, gerando a amostra X1,…,Xn.
NOTE QUE ESSE TIPO DE AMOSTRA NÃO SATISFAZ TODAS AS CONDIÇÕES
DA DEFINIÇÃODE AMOSTRA ALEATÓRIA DADA NO COMEÇO DESSE
MÓDULO. PRIMEIRO,X1,…,XN NÃO SÃO MUTUAMENTE INDEPENDENTES.
COMO PODEMOS VERIFICAR ISSO?
Tome x e y como elementos distintos de {x1,…,xN}. Segue que P(X2 = y │ X1 = y) = 0, pois o valor y não pode ser escolhido na
segunda rodada se já o tiver sido anteriormente. Contudo, note que P(X2 = y │ X1 = x) = 1/(N - 1) pois, apesar de termos sorteado x na
primeira rodada e reduzido o tamanho da população de N para N-1, o valor y ainda pode ser sorteado. Desse modo, podemos dizer
que a distribuição de X2 depende do valor que é observado para X1 e, logo, X1 e X2 não são independentes.
P X2 = X = ∑
N
I = 1P X2 = X X1 = XI P X1 = XI
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Para um valor do índice i, digamos i = k, temos x = xk e P(X2 = x│X1 = xk) = 0. Para todos os outros, j ≠ k e P(X2 = x │ X1 =xj ) = 1/(N -
1). Portanto:
P X2 = X = (N - 1)
1
N - 1
1
N =
1
N
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Argumentos similares podem ser utilizados para mostrar que cada um dos X_i tem a mesma distribuição marginal.
Por último, vale observar a consequência de amostras aleatórias independentes e identicamente distribuídas para o operador
esperança. Caso X1, …,Xn sejam iid, temos:
E X1X2. . . XN = E X1 E X2 . . . E XN = E X1 N
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Onde a independência garante a primeira igualdade e a distribuição idêntica da amostra garante a segunda.
Neste vídeo, o professor Raphael Bruce apresentará e resolverá um exercício para a fixação dos conceitos vistos durante o módulo.
( ) ( | ) ( )
( ) ( )
[ ] [ ] [ ] [ ] [ ]
VERIFICANDO O APRENDIZADO
1. SEJAM X1,…,XN VARIÁVEIS ALEATÓRIAS IID COM FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA
CONTÍNUA FX (X), E SUPONHA QUE E[XI ] = Μ. DEFINA AS VARIÁVEIS ALEATÓRIAS Y1,…, YI POR:
YI =
1, SE XI > Μ
0, SE XI ≤ Μ
ENCONTRE A DISTRIBUIÇÃO DE ∑N(I = 1) YI E ASSINALE A ALTERNATIVA CORRESPONDENTE.
A) ∑n(i = 1) Yi ~ Bernoulli (p = 1 - FX (μ))
B) ∑n(i = 1) Yi ~ Bernoulli (p = FX (μ))
C) ∑n(i = 1) Yi ~ Binomial (n, p = 1 - FX (μ))
D) ∑n(i = 1) Yi ~ Binomial (n, p = FX (μ))
2. SEJAM X1, X2 E X3 TRÊS VARIÁVEIS ALEATÓRIAS IID QUE SEGUEM UMA DISTRIBUIÇÃO BERNOULLI
(P = 1/2) COM PROBABILIDADE DE SUCESSO E COM AS VARIÁVEIS Y1,Y2,Y3 DEFINIDAS COMO:
Y1 = MAX (X1, X2)
Y2 = MAX (X1, X3)
Y3= MAX (X2, X3)
Y = Y1 + Y2 + Y3
ENCONTRE E[Y] E VAR[Y] E ASSINALE A ALTERNATIVA QUE CORRESPONDE AOS VALORES
CORRETOS:
A) E[Y] = 7/4 e Var[Y] = 37/16
B) E[Y] = 9/4 e Var[Y] = 33/16
C) E[Y] = 7/4 e Var[Y] = 33/16
{
D) E[Y] = 9/4 e Var[Y] = 37/16
GABARITO
1. Sejam X1,…,Xn variáveis aleatórias iid com função de distribuição acumulada contínua FX (x), e suponha que E[Xi ] = μ.
Defina as variáveis aleatórias Y1,…, Yi por:
Yi =
1, se Xi > μ
0, se Xi ≤ μ
Encontre a distribuição de ∑n(i = 1) Yi e assinale a alternativa correspondente.
A alternativa "C " está correta.
Note que Yi ~ Bernoulli com pi = P(Xi > μ) = 1 - FX (μ) para cada i, onde pi é a probabilidade de sucesso da Bernoulli. Para constatar,
basta notar que cada Yi assume o valor 1, caso satisfaça a condição Xi > μ, e, em caso contrário, assume o valor 0 (zero). Como as
variáveis Yi são iid com distribuição Bernoulli, e uma sequência de variáveis aleatórias que seguem uma Bernoulli é representada pela
distribuição Binomial, temos ∑n(i = 1) Yi ~ Binomial (n, p = 1 - FX (μ)).
2. Sejam X1, X2 e X3 três variáveis aleatórias iid que seguem uma distribuição Bernoulli (p = 1/2) com probabilidade de
sucesso e com as variáveis Y1,Y2,Y3 definidas como:
Y1 = max (X1, X2)
Y2 = max (X1, X3)
Y3= max (X2, X3)
Y = Y1 + Y2 + Y3
Encontre E[Y] e Var[Y] e assinale a alternativa que corresponde aos valores corretos:
A alternativa "B " está correta.
Por Y1, Y2 e Y3 serem identicamente distribuídas, segue que:
E[Y] = E[Y1 ] + E[Y2 ] + E[Y3 ] = 3E[Y1]
Também temos:
Var[Y] = Var[Y1 ] + Var[Y2 ] + Var[Y3 ] +2 Cov[Y1, Y2 ] + 2Cov[Y1, Y3 ] + 2Cov[Y2, Y3 ] = 3Var[Y1 ] + 6Cov[Y1, Y1]
Note que Y1, Y2 e Y3, apesar de terem igualmente distribuição Bernoulli, assim como X1, X2 e X3, não são independentes. Em
particular, temos:
P(Y1 = 1) = P((X1 = 1) ∪ (X2 = 1)) = P(X1 = 1) + P(X2 = 1) - P((X1 = 1) ∩ (X2 = 1)) = 2p - p
2
Logo Y1 ~ Bernoulli (2p - p2) e podemos obter:
E[Y1 ] = 2p - p
2 = p(2-p)
Var[Y1]=(2p - p
2 )(1 - 2p + p2 ) = p(2 - p)(1 - p2)
{
Resta encontrar Cov(Y1,Y1). Podemos escrever:
Cov(Y1, Y2 ) = E[Y1 Y2 ] - E[Y1 ]E[Y2 ] = E[Y1 Y2 ] - p2 (2 - p)2
Como Y1 Y2 também segue uma distribuição Bernoulli, temos:
E[Y1 Y2 ] = P(Y1 = 1, Y2 = 1) = P((X1 = 1) ∪ (X2 = 1, X3 = 1)) = P(X1 = 1) + P(X2 = 1, X3 = 1) - P(X1 = 1, X2 = 1, X3 = 1) = p + p2 - p3
Logo, temos:
Cov(Y1, Y1 ) = E[Y1 Y2 ] - p2 (2 - p)2 = p + p2 - p3 - p2 (2 - p)2
Finalmente, E[Y] = 3E[Y1 ] = 3p(2 - p), e:
Var[Y] = 3Var[Y1 ] + 6 Cov[Y1, Y2 ] = 3p(2 - p)(1 - p
2 ) + 6(p + p2 - p3 - p2 (2 - p)2 )
Como p = 1/2, temos que: E[Y] = 9/4 e Var[Y] = 33/16
Uma vez que esta atividade envolve cálculo de valores específicos, caso o aluno tenha encontrado os valores das opções “a”, “c” ou
“d”, terá cometido algum erro de cálculo.
MÓDULO 2
 Descrever média e variância amostral e suas relações com as contrapartidas populacionais
LIGANDO OS PONTOS
Você conhece os conceitos de média e variância amostrais? Que estratégia você adotaria para generalizar seu conhecimento para
uma população a partir de uma amostra dela?
Um dos primeiros contatos que um estudante do ensino superior tem com a estatística é o cálculo da média e do desvio-padrão de um
conjunto de dados. É interessante observar que, depois de adquirir mais experiência na área, esses dois conceitos continuam a ser
muito relevantes. Mas por que eles são tão importantes?
Porque traduzem de forma muito simples informações sobre os dados. É claro que a estatística nos fornece muitas outras técnicas
que nos ajudam a entender a distribuição dos dados e suas relações.
É bem provável que você já tenha ouvido a expressão: os dados são o novo petróleo. Isso significa que, semelhante ao que ocorre
com o petróleo, o dado é uma matéria-prima e precisa ser submetido aos processos de limpeza, transformação e análise. Novamente,
a estatística nos auxilia com métodos de amostragem que traduzem um conjunto de dados para informações mais específicas.
Para entendermos esses aspectos na prática, vamos analisar uma situação prática.
Shutterstock.com
Vamos pensar na formação de uma carteira de investimentos. Atualmente, ter acesso a dados dessa natureza é muito simples. Se
você usa as linguagens de programação Python ou R, vai encontrar funções que trazem os dados de ações negociadas na bolsa
completamente estruturados. Tendo esses dados em mão, queremos entender o comportamento de alguns ativos.
Mas faz sentido analisar todos os dados como se fizessem parte do mesmo grupo?
Devemos segmentá-los por atividades das empresas?
Que período é relevante estudarmos para fazer estimativas?
Essas são apenas algumas das perguntas a que precisamos responder para realizar um estudo sério sobre investimentos. Dentro de
nosso contexto de estudo, claramente, precisamos realizar uma amostragem aleatória para poder testar nossas hipóteses sobre o
comportamento expresso nos dados para o período que selecionamos.
Semelhante a esse exemplo, existem muitas outras situações para as quais os processos de seleção de amostras aleatórias são
fundamentais para obter uma análise de qualidade.
APÓS A LEITURA DO CASE, É HORA DE APLICAR SEUS
CONHECIMENTOS! VAMOS LIGAR ESSES PONTOS?
1. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ É RESPONSÁVEL POR MONITORAR UMA APLICAÇÃO DE
BIG DATA COM INTERNET DAS COISAS. O VOLUME DE DADOS E A VELOCIDADE COM QUE SÃO
GERADOS DIARIAMENTE SÃO GIGANTESCOS. NESSE CONTEXTO, QUE ESTRATÉGIA VOCÊ
APLICARIA PARA DETECTAR ANOMALIAS?
A) Submeter todos os dados a um processo de análise, de modo a identificar padrões de distribuição.
B) Testar hipótesespara algumas amostras de dados.
C) Concentrar a amostragem de dados em alguns momentos específicos do dia, para calcular a média e a variância amostral.
D) Fazer amostragem aleatória periódica e comparar a média e a variância amostrais com resultados de análises históricas.
E) Usar a média e a variância dos dados para estudá-los em relação à distribuição normal.
2. COMO VOCÊ VIU, O ESTUDO DA MÉDIA E DA VARIÂNCIA AMOSTRAIS É ÚTIL PARA IDENTIFICAR
PROPRIEDADES DOS DADOS POPULACIONAIS. EM SUA OPINIÃO, COMO ESSAS MEDIDAS PODEM
SER APLICADAS PARA EVITAR UMA ANÁLISE ENVIESADA?
A) As medidas das amostras aleatórias estão diretamente relacionadas às medidas dos dados populacionais.
B) Conhecendo a média e a variância de uma amostra, é possível relacionar os dados populacionais à distribuição normal.
C) Apesar da incerteza sobre a distribuição dos dados, a identificação da média e da variância populacional é um guia para uma
análise sem viés.
D) Não há como fazer afirmações a respeito dos dados populacionais apenas com a média e a variância amostrais.
E) Só é possível calcular a média e a variância amostrais em aplicações de Big Data.
GABARITO
1. Considere o seguinte cenário: você é responsável por monitorar uma aplicação de Big Data com Internet das Coisas. O
volume de dados e a velocidade com que são gerados diariamente são gigantescos. Nesse contexto, que estratégia você
aplicaria para detectar anomalias?
A alternativa "D " está correta.
Analisar grandes volumes de dados em pouco tempo é um desafio. Ainda assim, alguns testes podem ser facilmente aplicados, como
limites mínimo e máximo com que os dados podem variar. No entanto, quando é necessário estudar o padrão desses dados em
relação à forma como são distribuídos, a melhor estratégia é fazer uma amostragem aleatória para calcular a média e a variância
amostrais e compará-las com resultados esperados.
2. Como você viu, o estudo da média e da variância amostrais é útil para identificar propriedades dos dados populacionais.
Em sua opinião, como essas medidas podem ser aplicadas para evitar uma análise enviesada?
A alternativa "A " está correta.
A amostragem aleatória é uma forma muito eficiente de fazer inferências sobre os dados populacionais a partir do estudo de um
subconjunto desses dados. Realizar esse processo com qualidade significa que todos os dados da amostra possuem a mesma
chance de serem escolhidos. Dessa forma, os resultados obtidos com as análises das amostras nos permitem fazer generalizações
para os dados populacionais.
3. VOCÊ JÁ SABE QUE A AMOSTRAGEM ALEATÓRIA É UM MÉTODO MUITO
IMPORTANTE NO ESTUDO DE GRANDES VOLUMES DE DADOS, POIS ESSA
TÉCNICA PERMITE QUE COMPREENDAMOS O TODO A PARTIR DE UMA
PARTE. ATUALMENTE, DISPOMOS DE COMPUTADORES MUITO RÁPIDOS
QUE PODEM PROCESSAR GRANDES VOLUMES DE DADOS.
CONSIDERANDO ESSE FATO, VOCÊ ACREDITA QUE A AMOSTRAGEM
ALEATÓRIA TEM VALOR PRÁTICO? JUSTIFIQUE SUA RESPOSTA.
RESPOSTA
Espelho de resposta
De fato, os computadores modernos são muito velozes, além de ser possível utilizar infraestruturas
computacionais elaboradas de computação distribuída, que podem lidar com grandes demandas de
processamento. No entanto, quando trabalhamos com grandes volumes de dados e temos recursos
limitados, precisamos utilizar técnicas eficientes. Nesse sentido, a tecnologia é um importante aliado para
aplicarmos a amostragem aleatória.
DEFINIÇÕES INICIAIS
Fonte: geralt/pixabay
O objetivo da Estatística é aprender características de uma população a partir de uma amostra. Tecnicamente, é a partir da
introdução do conceito de amostra, explanado no módulo anterior, que é feita a transição da probabilidade para a estatística.
Essas “características populacionais” que procuramos aprender são chamadas de parâmetros e costumam ser denotadas por letras do
alfabeto grego como μ, β ou θ, apesar de, ocasionalmente, também serem representadas por caracteres do nosso alfabeto.
Parâmetro - definição
Um parâmetro θ é qualquer função de uma população representada pela distribuição marginal f.
 EXEMPLO
A média populacional μ = E[X] é uma função de fX (x); no caso, é o primeiro momento de fX (x).
Estatística ‒ definição
javascript:void(0)
Sejam X1,…,Xn uma amostra aleatória de tamanho n a partir de uma população, e seja T(x1,…,xn) uma função com valor real ou por
vetor, cujo domínio inclui o espaço amostral de (X1,…,Xn). Então, a variável aleatória ou vetor aleatório θ̂ = T(X1,…,Xn) é chamado de
uma estatística.
A DISTRIBUIÇÃO DE PROBABILIDADE DE UMA ESTATÍSTICA Θ̂ É CHAMADA
DISTRIBUIÇÃO AMOSTRAL DE Θ̂
O sumário da amostra aleatória fornecido por uma estatística pode incluir muitos tipos de informação.
 EXEMPLO
Ela pode dar o menor ou o maior valor na amostra, o valor médio, ou uma medida de variabilidade nas observações da amostra.
Assim como há uma diferença entre variáveis aleatórias (e.g. Xi) e suas realizações (e.g. x), há também uma distinção entre uma
estatística como função de uma amostra aleatória (neste caso, a estatística é uma variável aleatória) e uma estatística como função da
realização da amostra.
No primeiro caso, a entendemos como função de amostra de variáveis aleatórias, enquanto no segundo a entendemos como função
de valores já realizados. Uma maneira de perceber essa distinção de maneira mais clara é pensar em termos de “antes de ver os
dados da pesquisa” e “depois de ver os dados da pesquisa”:
Estatística como função de uma amostra aleatória
Quando pensamos em uma estatística “antes de ver os dados da pesquisa” não sabemos o valor que ela pode tomar. Sob o nosso
ponto de vista — o do pesquisador — ela é desconhecida e aleatória.

Estatística como função da realização da amostra.
Após observar os dados ― ou seja, “depois de examinar os dados da pesquisa” ― e, mais especificamente, computar a estatística,
ela é um número específico e, assim, uma realização. Ou seja, não irá tomar outros valores.
QUANDO REPETIMOS A AMOSTRAGEM ALEATÓRIA SOBRE UMA
POPULAÇÃO, GERAMOS REALIZAÇÕES DIFERENTES E, PORTANTO,
ESTATÍSTICAS DIFERENTES.
Algumas estatísticas podem ser utilizadas para estimar parâmetros:
Estimador ‒ definição
Um estimador θ̂ ̂para um parâmetro θ é uma estatística entendida como uma conjectura sobre θ.
Note que definimos o estimador utilizando a expressão vaga de “conjectura” (i.e. um palpite). Isso é intencional. Ao introduzir a
definição de estimador, desejamos incluir nela o maior número de possíveis estimadores.
Algumas vezes chamamos θ̂ de estimador e outras, de estimativa. Há, porém, uma diferença fundamental entre esses nomes.
θ̂ estimador
Chamamos θ̂ de estimador quando ele é expresso em função de variáveis aleatórias e, portanto, também é uma variável aleatória.
Assim, podemos utilizar a teoria de probabilidade que conhecemos para obter a distribuição de θ̂. Enquanto estivermos desenvolvendo
a teoria a respeito de θ ̂, o chamaremos de estimador de θ.
̂
θ estimativa
Chamamos θ̂ de estimativa quando ele é um valor específico (ou realizado) calculado para uma amostra específica. Assim, em
aplicações específicas iremos nos referir a θ̂ como estimativa de θ.
COMO OBTER UM ESTIMADOR Θ̂?
Um jeito simples é utilizando o princípio da analogia: expressar primeiro o parâmetro θ como função da população e, em seguida,
expressar θ̂ como função análoga para a amostra. Isso ficará mais claro a seguir, ao examinarmos a média amostral.
Um dos parâmetros fundamentais para o campo da Estatística é a esperança populacional representada por μ = E[X]. Por meio de
transformações, diversos parâmetros de interesse podem ser escritos em termos de esperanças populacionais.
ESPERANÇAS POPULACIONAIS
É a média tirada para toda a população.
PARA ESTIMAR Μ PELO PRINCÍPIO DA ANALOGIA, BASTA APLICAR A
MESMA FUNÇÃO À AMOSTRA. COMO Μ É A MÉDIA DE X PARA A
POPULAÇÃO, O ESTIMADOR ANÁLOGO É A MÉDIA DE X PARA A AMOSTRA.
Média amostral - definição
A média amostral é a média aritmética dos valores de uma amostra aleatória. Isso geralmente é denotadopor:
Xn =
X1 + . . . + Xn
n =
1
n ∑
n
i = 1Xi
A média amostral é uma estatística, uma vez que é função da amostra. É também aleatória, como previamente discutido.
O QUE ISSO SIGNIFICA?
Significa que a média amostral não terá sempre o mesmo valor se utilizarmos amostras aleatórias diferentes, à distinção da média
populacional μ, que é um parâmetro populacional.
Agora, vamos definir os estimadores amostrais para variância e desvio-padrão:
VARIÂNCIA AMOSTRAL ‒ DEFINIÇÃO
A variância amostral é a estatística definida por:
S2 =
1
n - 1 ∑
n
i = 1 Xi - Xn
2( )
javascript:void(0)
javascript:void(0)
DESVIO PADRÃO AMOSTRAL – DEFINIÇÃO
O desvio padrão amostral é a estatística definida por:
S = √S2
Em geral, suprimimos a notação funcional nas definições anteriores a respeito dessas estatísticas. Isto é, escrevemos:
S EM VEZ DE S(X1,…,XN).
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
A dependência da estatística na amostra é subentendida. Assim como antes, grafaremos os valores observados de estatísticas com
letras minúsculas. Desse modo:
X, 𝑠2 E 𝑠 DENOTAM VALORES OBSERVADOS DE X, 𝑆2 𝑒 𝑆.
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
A média amostral já é, provavelmente, familiar para o leitor.
A VARIÂNCIA E O DESVIO-PADRÃO DA AMOSTRA
A variância e o desvio-padrão da amostra são medidas de variabilidade na amostra, relacionadas à variância e ao desvio-padrão da
população que veremos a seguir. Começamos derivando algumas propriedades da média e da variância amostral.
PROPRIEDADES
Neste vídeo, o professor Raphael Bruce falará sobre as propriedades de uma amostra aleatória, por meio de seus teoremas.
javascript:void(0)
Um assunto que é tratado com maior profundidade em estimação pontual, mas que vale ser introduzido desde já, é o de viés
estatístico. Sem nos aprofundarmos muito nesse assunto, dizemos que as estatísticas Xn e S2 são, respectivamente, estimadores
não viesados de μ e σ2.
Estimadores não viesados ‒ definição
Um estimador é dito não viesado se a sua esperança é igual à sua contrapartida populacional.
Nesses casos, E[Xn] = μ e E[S
2 ] = σ2..
Um detalhe importante a respeito de S2 é que se definirmos esse estimador como a média usual dos desvios quadráticos com n ao
invés de n - 1 no denominador, então E[S2 ] seria igual a (n - 1)/n σ2, e, portanto, S2 não seria um estimador não viesado de σ2.
Por fim, apresentaremos algumas propriedades das quantidades amostrais obtidas a partir de uma população normal, que consiste em
um dos modelos estatísticos mais amplamente utilizados.
A amostragem a partir de uma população normal leva a muitas propriedades úteis da estatística e a muitas distribuições amostrais
bastante conhecidas.
Definição
Sejam X1,…,Xn uma amostra aleatória de uma distribuição N(μ, σ
2), e que Xn =
1
n ∑
n
i = 1 Xi e S
2 =
1
n - 1 ∑
n
i = 1 Xi - Xn
2. Então:
Xn e S
2 são variáveis aleatórias independentes;
Xn tem uma distribuição N μ, 
σ2
n ;
( n - 1 ) S2
σ2
 tem uma distribuição qui-quadrado com n - 1 graus de liberdade.
VERIFICANDO O APRENDIZADO
1. SEJA TO O TEMPO NECESSÁRIO PARA TERMINAR O SIMULADO AO FINAL DESTE TEMA. PARA
ESTIMAR A MÉDIA E A VARIÂNCIA DE T, OBSERVAMOS UMA AMOSTRA ALEATÓRIA T1,T2,…,T6. ASSIM,
OS TI SÃO INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDAS E TEM A MESMA DISTRIBUIÇÃO DE T:
18, 21, 17, 16, 24, 20
ENCONTRE OS VALORES PARA A MÉDIA AMOSTRAL, A VARIÂNCIA AMOSTRAL E O DESVIO-PADRÃO
( )
( )
AMOSTRAL PARA ESSA AMOSTRA OBSERVADA E ASSINALE A ALTERNATIVA COM OS VALORES
CORRETOS:
A) T = 14.76, S2 = 4.32, S = 2.07
B) T = 23.42, S2 = 7.61, S = 2.75
C) T = 15.92, S2 = 5.12, S = 2.26
D) T = 19.33, S2 = 8.67, S = 2.94
2. SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA COM UMA DISTRIBUIÇÃO UNIFORME U(0,Θ), EM QUE Θ É
DESCONHECIDO. DEFINA O ESTIMADOR:
Θ̂N = MAX (X1,…,XN)
ENCONTRE O VIÉS DE Θ̂N, DADO POR B(Θ̂N) = E[Θ̂N] - Θ, E O ERRO QUADRÁTICO MÉDIO DE Θ̂N,
DADO POR EQM(Θ̂N) = E[Θ̂N - Θ]2.
PARA FACILITAR O CÁLCULO USE O FATO DE QUE FΘ̂N Y = NFX(Y) FX(Y)
( N - 1 ) .
ASSINALE A ALTERNATIVA CORRETA:
A) B θ̂n = -
θ
n + 1
 e EQM θ̂n =
2θ2
( n + 2 ) ( n + 1 )
B) B θ̂n =
θ
n + 1 e EQM θ̂n =
2θ2
( n + 2 ) ( n + 1 )
C) B θ̂n = -
θ
n + 1 e EQM θ̂n =
θ2
( n + 2 ) ( n + 1 )
D) B θ̂n =
θ
n + 1 e EQM θ̂n =
2θ2
( n + 2 ) ( n + 1 ) 2
GABARITO
1. Seja To o tempo necessário para terminar o simulado ao final deste tema. Para estimar a média e a variância de T,
observamos uma amostra aleatória T1,T2,…,T6. Assim, os Ti são independentes e identicamente distribuídas e tem a mesma
distribuição de T:
18, 21, 17, 16, 24, 20
Encontre os valores para a média amostral, a variância amostral e o desvio-padrão amostral para essa amostra observada e
assinale a alternativa com os valores corretos:
A alternativa "D " está correta.
Como vimos na seção 1, para obter a média aleatória, efetuamos o seguinte cálculo:
T = 
T1 + T2 + T3 + T4 + T5 + T6
6 = 
T = 
8 + 21 + 17 + 16 + 24 + 20 )
6 = 19. 33
( ) [ ]
( ) ( )
( ) ( )
( ) ( )
( ) ( )
( )
Para obter a variância amostral efetuamos o seguinte cálculo:
S2 = 
1
n - 1 ∑
6
i = 1 Ti - 19. 33
2 = 8. 67
Por fim, para obter o desvio-padrão amostral basta tirar a raiz quadrada da variância amostral, ou seja:
S = √8. 67 = 2. 94
Desse modo, a resposta certa é a letra d.
2. Seja X1,…,Xn uma amostra aleatória com uma distribuição uniforme U(0,θ), em que θ é desconhecido. Defina o estimador:
θ̂n = max (X1,…,Xn)
Encontre o viés de θ̂n, dado por B(θ̂n) = E[θ̂n] - θ, e o erro quadrático médio de θ̂n, dado por EQM(θ̂n) = E[θ̂n - θ]
2.
Para facilitar o cálculo use o fato de que fθ̂n y = nfX(y) FX(y)
( n - 1 ) .
Assinale a alternativa correta:
A alternativa "A " está correta.
Se X ~U(0,θ), então a distribuição marginal e a distribuição acumulada de X são dadas por:
fX(x) =
1
θ , se x ∈ [0, θ]
0, caso contrário
FX(x) =
0, se x < 0
x
θ , se 0 ≤ x ≤ θ
1, se x > θ
Utilizando a o resultado auxiliar dado no enunciado θ̂n:
fθ̂n(y) = nfx(y) Fx(y)
( n - 1 ) =
nyn - 1
θn
, se y ∈ [0, θ]
0, se caso contrário
Com a densidade marginal de θ̂n, podemos agora obter E[θ̂n]:
E θ̂n = ∫
θ
0y
nyn - 1
θn
d y = 
n
n + 1 θ
Logo, o viés de θ̂n é dado por:
B θ̂n = E θ̂n - θ = 
n
n + 1 θ - θ = -
θ
n + 1
Resta agora obter EQM(θ̂n). Note que, pela fórmula do erro quadrático médio dada no enunciado, obtemos:
EQM θ̂n = E θ̂n - θ
2 = E θ̂n - E θ̂n + E θ̂n - θ
2
= E θ̂n - E θ̂n
2 + 2E θ̂n - E θ̂n E θ̂n - θ + E θ̂n - θ
2
= E θ̂n - E θ̂n
2 + 2E θ̂n - E θ̂n E θ̂n - θ + E θ̂n - θ
2
( )
( ) [ ]
{
{
[ ] {
[ ]
( ) [ ]
( ) [ ] [ [ ] [ ] ]
[ [ ] ] [( [ ])( [ ] )] ( [ ] )
[ [ ]] [( [ ])] ( [ ] ) ( [ ] )
= E θ̂n - E θ̂n
2 + 2 E θ̂n - E θ̂n E θ̂n - θ + E θ̂n - θ
2
= E θ̂n - E θ̂n
2 + 2(0) E θ̂n - θ + E θ̂n - θ
2
= E θ̂n - E θ̂n
2 + E θ̂n - θ
2 = Var θ̂n + B θ̂n
2
A derivação do erro quadrático médio em termos da variância e do viés é muito útil e importante. Recomenda-se que o aluno pratique
até entender os passos. Existem duas passagens cruciais. A primeira, logo no início, consiste em somar -E θ̂n + E θ̂n dentro da
esperança original. Isso equivale a somar por zero e permite a derivação posterior. Na segunda passagem importante, utilizamos o
fato de E θ̂n - θ ser uma constante para chegar ao resultado. Isso se dá, pois, a esperança E θ̂n é uma constante e θ também.
Desse modo, temos:
EQM θ̂n = Var θ̂n + B θ̂n
2 = Var θ̂n + -
θ
n + 1
2
Precisamos obter E θ̂
2
n para chegarmos a Var θ̂n ). Temos, portanto:
E θ̂
2
n = ∫
θ
0y
2 ny
n - 1 
θn
d y = 
n
n + 2 θ
2
Logo, a variância de θ̂n é dada por:
Var θ̂n = E θ̂
2
n - E θ̂
2
n
2
=
n
n + 2 θ
2 -
n
n + 1 θ
2
=
n
( n + 2 ) ( n + 1 ) 2
 θ2
Segue que a resposta certa é o item “a”.
MÓDULO 3
 Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da
Estatística
LIGANDO OS PONTOS
Você conhece a teoria dos grandes números? Conseguiriautilizá-la para encontrar oportunidades de ofertas de serviços tanto no setor
público quanto no privado? Vamos entender esse conceito na prática.
[ [ ] ] ( [ ] [ ] )( [ ] ) ( [ ] )
[ [ ]] ( [ ] ) ( [ ] )
[ [ ]] ( [ ] ) ( ) ( )
[ ] [ ]
[ ] [ ]
( ) ( ) ( ) ( ) ( )
[ ] ( )
[ ]
( ) [ ] [ ] ( )
Shutterstock.com
A distribuição normal ocupa o posto mais importante das distribuições de probabilidade. Seu formato é de um sino, no qual os dados
são distribuídos simetricamente em torno da média.
Essa distribuição é bastante intuitiva, e é fácil encontrar aplicações práticas nas mais diferentes áreas, que vão da distribuição das
alturas das crianças de uma escola até o estudo do movimento dos planetas em torno do Sol. Não é à toa que ela recebe o nome de
distribuição normal.
Entretanto, ela não pode ser aplicada a qualquer situação. Por exemplo, a distribuição normal não é recomendada para o estudo de
ativos negociados na bolsa de valores, pois não possui mecanismos que reproduzam os comportamentos altamente dinâmicos dos
dados das séries temporais. Nesse caso, há distribuições mais adequadas que utilizam o conceito de variação dos erros para cada
valor da série. Mas, mesmo nesses casos, a distribuição normal pode nos ajudar, devido ao Teorema Central do Limite
Ao aplicarmos a amostragem aleatória para analisar um conjunto de dados, podemos calcular sua média e variância amostrais. Com
essas informações, podemos estudar os dados a partir do Teorema Central do Limite.
Atualmente, com a disponibilidade de recursos tecnológicos e com aplicações que lidam com grandes volumes de dados, conhecer o
Teorema Central do Limite para resolver problemas práticos é fundamental.
APÓS A LEITURA DO CASE, É HORA DE APLICAR SEUS
CONHECIMENTOS! VAMOS LIGAR ESSES PONTOS?
TEOREMA CENTRAL DO LIMITE
Em muitos textos, é utilizada a expressão Teorema do Limite Central. A ideia é a seguinte: se as variáveis aleatórias forem
independentes e identicamente distribuídas (iid), então a média delas segue a distribuição normal. Esse resultado é muito
importante, pois nos oferece uma ferramenta para estudarmos qualquer conjunto de dados, desde que sejam iid.
javascript:void(0)
1. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ É O RESPONSÁVEL PELA VERIFICAÇÃO DA QUALIDADE
DOS DADOS DE UMA APLICAÇÃO DE STREAMING. ESSE TIPO DE APLICAÇÃO É MUITO POPULAR E,
CLARO, ENVOLVE MUITOS INTERESSES COMERCIAIS. PORTANTO, QUALIDADE É ESSENCIAL. NESSE
CONTEXTO, QUAL É A ESCOLHA ADEQUADA PARA QUE VOCÊ ANALISE ESSES DADOS DE MODO
EFICIENTE?
A) Analisar todos os dados transmitidos para os usuários do sistema e compará-los com valores de referência.
B) Aguardar pelas solicitações dos usuários do serviço para realizar uma verificação focada em resolver um problema.
C) Realizar amostragem aleatória, calcular as medidas amostrais e compará-las com as medidas de referência da população.
D) Realizar testes de transmissão em ambientes controlados para evitar a ocorrência de algum problema enquanto os usuários
consomem o serviço.
E) Calcular a média e a variância amostral no início, na metade e no final da transmissão para comparar com valores de referência.
2. COMO VOCÊ VIU, IDENTIFICAR PADRÕES EM UM CONJUNTO DE DADOS É UM PROCESSO QUE
ENVOLVE PLANEJAMENTO E INVESTIGAÇÃO CUIDADOSA. POR ISSO, É IMPORTANTE APLICAR
CONCEITOS DE PROBABILIDADE, COMO O TEOREMA CENTRAL DO LIMITE. NESSE SENTIDO, QUAL É
O RESULTADO ESPERADO DE CALCULAR A MÉDIA DE UMA SEQUÊNCIA DE AMOSTRAS ALEATÓRIAS
PARA UM CONJUNTO DE DADOS SOBRE O QUAL VOCÊ NÃO TEM CONHECIMENTO QUANTO À
FUNÇÃO DE DISTRIBUIÇÃO?
A) Será obtida a distribuição que corresponde ao conjunto de dados originais.
B) A tendência é que a variância dos erros amostrais reduza com o cálculo de cada média amostral.
C) As médias amostrais vão determinar os limites inferior e superior dos valores dos dados originais.
D) A distribuição das médias das sequências corresponderá à distribuição normal.
E) Não é possível fazer afirmações sobre o resultado esperado, pois o Teorema Central do Limite só pode ser aplicado para dados que
seguem a distribuição normal.
GABARITO
1. Considere o seguinte cenário: você é o responsável pela verificação da qualidade dos dados de uma aplicação de
streaming. Esse tipo de aplicação é muito popular e, claro, envolve muitos interesses comerciais. Portanto, qualidade é
essencial. Nesse contexto, qual é a escolha adequada para que você analise esses dados de modo eficiente?
A alternativa "C " está correta.
Serviços de streaming envolvem grande fluxo de dados em tempo real. Certamente, há medidas que funcionam como referência de
qualidade da realização do serviço. Nesse tipo de aplicação, a amostragem aleatória é bastante adequada para acompanhar o
desempenho do serviço e, se for necessário, acionar os responsáveis para corrigir a ocorrência de algum problema.
2. Como você viu, identificar padrões em um conjunto de dados é um processo que envolve planejamento e investigação
cuidadosa. Por isso, é importante aplicar conceitos de probabilidade, como o Teorema Central do Limite. Nesse sentido, qual
é o resultado esperado de calcular a média de uma sequência de amostras aleatórias para um conjunto de dados sobre o
qual você não tem conhecimento quanto à função de distribuição?
A alternativa "D " está correta.
O Teorema Central do Limite é um importante instrumento na investigação de padrões dos dados. Ele afirma que as médias de
amostras aleatórias para um grande conjunto de dados seguem a distribuição normal. Dessa forma, é possível explorar características
dos dados originais sem, necessariamente, conhecer a distribuição deles.
3. VOCÊ JÁ SABE A IMPORTÂNCIA DO CONHECIMENTO DOS CONCEITOS DE
ESTATÍSTICA E PROBABILIDADE NA ANÁLISE EXPLORATÓRIA DE DADOS.
ATUALMENTE, TEMOS À DISPOSIÇÃO PROGRAMAS QUE OFERECEM
MUITOS RECURSOS PARA AUXILIAR NESSE PROCESSO INVESTIGATIVO.
COM BASE EM SUA EXPERIÊNCIA, É INTERESSANTE PARA A FORMAÇÃO
DE UM PROFISSIONAL ALIAR O CONHECIMENTO TEÓRICO COM O USO DE
FERRAMENTAS COMPUTACIONAIS, OU É MELHOR FAZER UMA DISTINÇÃO
ENTRE ESSAS ÁREAS? JUSTIFIQUE SUA RESPOSTA.
RESPOSTA
Espelho de resposta
A análise de dados é fundamental para dar suporte à tomada de decisão. Demandas desse tipo podem ser
facilmente encontradas em diferentes segmentos da sociedade que dispõem de grande volume de dados,
como é o caso, por exemplo, dos setores financeiros, educacionais e de entretenimento. Para realizar o
processo investigativo, é importante combinar os conhecimentos teórico e prático, pois isso dá mais
flexibilidade ao profissional para explorar características não triviais dos dados com o uso de ferramentas
computacionais que aceleram o processo investigativo e aumentam a confiança nos resultados obtidos.
NOÇÕES DE CONVERGÊNCIA
Este módulo aborda a ideia um tanto fantasiosa de permitir que o tamanho da amostra aproxime-se do infinito e investiga o
comportamento de determinadas estatísticas amostrais à medida que isso acontece.
Embora a noção de uma amostra de tamanho infinito seja um artefato puramente teórico, isso nos oferece algumas aproximações
úteis para o caso da amostra finita, uma vez que, geralmente, expressões algebricamente complexas tornam-se simplificadas no
limite.
javascript:void(0)
Fonte: Freepik
Neste estágio, estamos preocupados, principalmente, com dois tipos de convergência e as abordaremos em níveis de detalhes
diferentes. Em particular, queremos observar o comportamento de Xn, a média de n observações, à medida que n ⟶ ∞.
Primeiro, iremos explorar o conceito de convergência em probabilidade. Esse tipo de convergência é o mais fraco e, por isso,
geralmente, é bastante fácil de ser verificado.
Convergência em probabilidade ‒ definição
Uma sequência de variáveis aleatórias, X1,X1,…, converge em probabilidade para uma variável aleatória X se, para cada ϵ > 0:
lim
n → ∞
P Xn - X ≥ ∈ = 0
Ou, de modo equivalente:
lim
n → ∞
P Xn - X < ∈ = 1
Vamos analisar as duas expressões:
1° expressão
A primeira expressão nos diz que sea probabilidade da sequência Xn ficar distante de X, vai diminuindo à medida que a amostra
aumenta.

2° expressão
A segunda expressão enuncia a afirmação equivalente de que a probabilidade de os valores tomados por Xn serem próximos dos
valores de X aumenta à medida que a amostra aumenta.
1
As variáveis aleatórias da sequência X1, X2,… são, tipicamente, variáveis aleatórias independentes e identicamente distribuídas, como
em uma amostra aleatória.
( | | )
( | | )
A distribuição de Xn modifica-se à medida que o subscrito se modifica, e os conceitos de convergência discutidos neste módulo
descrevem diversos modos pelos quais a distribuição de Xn converge para alguma distribuição limite.
2
3
Neste caso, dizemos, que X é o limite em probabilidade de Xn. Muitas vezes, é utilizado também o termo “plim” (do inglês probability
limit) para indicar o limite em probabilidade, como em plimXn = X.
Apesar de a definição anterior ser um tanto técnica, ela transmite uma intuição simples, que ficará mais clara com o teorema abaixo,
que é um dos principais resultados da teoria estatística.
a) Teorema ‒ Lei Fraca dos Grandes Números (LFrGN)
Sejam X1, X2,…, variáveis aleatórias iid com E[Xi] = μ e Var[Xi] = σ2 < ∞. Definimos X̄n =
1
n ∑
n
i = 1Xi. Então, temos que X̄n converge em
probabilidade para μ. Ou seja, para cada ϵ > 0, segue que:
LIM
N → ∞
P X̄N - Μ < ∈ = 1
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
ESTE TEOREMA, DE MODO BASTANTE ELEGANTE ESTABELECE QUE, SOB
CONDIÇÕES GERAIS, A MÉDIA AMOSTRAL APROXIMA-SE DA MÉDIA
POPULACIONAL À MEDIDA QUE AUMENTAMOS O TAMANHO DA NOSSA
AMOSTRA, OU SEJA, À MEDIDA QUE N ⟶ ∞.
Exemplo
Imagine uma bolsa cheia de dados honestos de seis faces. Se tirarmos o valor esperado de um dado de seis faces, obteremos o valor
μ =
1 + 2 + 3 + 4 + 5 + 6
6 = 3, 5.
Imagine que cada dado representa uma variável aleatória Xi.
( | | )
PIRO4D/pixabay
Seguindo o exemplo apresentado:
Inicialmente, jogamos apenas dois dados e tiramos a média dos valores sorteados.

Em seguida, jogamos três dados e tiramos novamente a média desses três valores sorteados.

Em cada rodada ,aumentamos o número de dados que jogamos e tiramos a média dos valores sorteados.
O que a LFrGN nos diz é que quanto maior o número de dados usarmos para tirar a média amostral, mais próximo o valor dela será da
esperança populacional μ = 3,5.
Sob a luz do exemplo apresentado, o uso da probabilidade na definição da LFrGN enuncia que quanto maior o número de dados de
seis faces que jogamos, maior a certeza de que a média amostral está próxima da média populacional.
QUANDO UMA SEQUÊNCIA DE VARIÁVEIS ALEATÓRIAS ATENDE ÀS
HIPÓTESES DA LFRGN, DIZEMOS QUE ELA É CONSISTENTE.
Vejamos, por exemplo, o caso da consistência da variância amostral S2. Suponha que tenhamos uma sequência X1,X2,…, de
variáveis aleatórias independentes e identicamente distribuídas com:
E XI = Μ E VAR XI = Σ
2 < ∞.
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Se definimos:
[ ] [ ]
S2N =
1
N - 1 ∑
N
I = 1 XI - X̄N
2
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Será possível provar a LFrGN para S2n utilizando a Desigualdade de Chebyshev, um resultado muito útil de estatística, especialmente
para demonstrações da LFrGN.
b) Teorema ‒ Desigualdade de Chebyshev
Seja X uma variável aleatória e g(x) uma função não negativa. Então, para qualquer δ > 0, temos:
P(|X - E[X]| ≥ Δ) ≤
VAR [ X ]
Δ2
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
INTUITIVAMENTE, O QUE ESSA DESIGUALDADE NOS DIZ É QUE QUANTO
MAIS LONGE UMA VARIÁVEL ALEATÓRIA ESTÁ DE SUA ESPERANÇA
POPULACIONAL, MAIS RARA É SUA OCORRÊNCIA. ELA MOSTRA O “GRAU
DE CONCENTRAÇÃO” DA PROBABILIDADE PERTO DE E[X].
Desse modo, temos:
P S2N - Δ
2 ≥ ∈ = P S2N - Δ
2 2 ≥ ∈2 ≤
E S2N - Δ
2 2
∈2
=
VAR S2N
∈2
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Por esse resultado, encontramos que a condição necessária para que S2n seja um estimador consistente de σ
2 é que Var S2n → 0 à
medida que n ⟶ ∞.
CONVERGÊNCIA EM DISTRIBUIÇÃO
Agora, exploraremos um novo tipo de convergência: a convergência em distribuição.
Convergência em distribuição ‒ definição
Sejam X1,X2,… uma sequência de variáveis aleatórias. Dizemos que essa sequência converge em distribuição para uma variável
aleatória X. Se, para todos os pontos x em que FX(x) é contínua, temos:.
lim
n → ∞
FXn(x) = FX(x)
( )
( | | ) (( ) ) [ ] [ ]
[ ]
É comum referir-se a FX (x) como a distribuição assintótica de Xn. Apesar de o nome indicar que a sequência de variáveis aleatórias
converge em distribuição, são realmente as funções de distribuição acumulada que convergem, não as variáveis aleatórias.
Nesse sentido, a convergência em distribuição é muito diferente da convergência em probabilidade. Porém, vale notar que essa
convergência é implícita à convergência em probabilidade, como mostra o 1º teorema a seguir:
1° Teorema
Se a sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma variável aleatória X, ela também converge em
distribuição para X.

2° Teorema
A sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma constante c, se, e somente se, também convergir
em distribuição para essa constante.
 ATENÇÃO
Vale frisar que a implicação contrária citada no 1° teorema nem sempre é verdadeira: nem toda sequência de variáveis aleatórias
X1,X2,… que converge em distribuição para X converge também em probabilidade para essa variável aleatória. Existe uma exceção
importante: quando a sequência converge para uma constante. Nesse caso, vale o 2° teorema.
VAMOS OBSERVAR O CASO DA MÉDIA AMOSTRAL X̄N:
1
Vimos, anteriormente, como consequência da LFrGN, que essa variável converge em probabilidade para μ.
No segundo teorema vimos que a convergência em probabilidade para uma constante implica convergência em distribuição para a
mesma.
2
3
Temos também que X̄n converge em distribuição para μ.
Uma distribuição desse tipo tem pouca utilidade para fins estatísticos. Para que esses resultados adquiram alguma utilidade,
precisamos ponderar X̄n de maneira um pouco diferente.
Para isso, lembre-se que:
VAR X̄N - Μ =
Σ2
N
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Isso significa que:
VAR √N X̄N - Μ = Σ2
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Vamos chamar Zn = √n X̄n - μ , de modo que temos E Zn = 0 e Var Zn = σ2. Possuímos, assim, a esperança populacional e a
variância para essa variável aleatória.
COMO PODEMOS DEFINIR A DISTRIBUIÇÃO ASSINTÓTICA DE ZN, ISSO É, A
FZ(X) DA QUAL A FZN(X) É O LIMITE?
Outro resultado de considerável relevância para a estatística, que nos dará a resposta para essa pergunta, é o Teorema do Limite
Central.
c) Teorema central do limite
Definição
Seja X1,X2,… uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com E[Xi] = μ e Var[Xi] = σ
2 > 0.
Defina a média amostral como X̄n =
1
n ∑
n
i = 1Xi.
Então, temos que à medida que n ⟶ ∞, √n Xn - μ converge em distribuição para uma normal N(0,σ2>) e, consequentemente,
√n Xn - μ
σ converge em distribuição para uma normal padrão N(0,1).
Nessa definição, utilizamos o fato de que uma variável aleatória qualquer X, que segue uma normal N(μ,σ^2 ), pode ser padronizada
para uma variável aleatória Z=(X-μ)/σ, que segue uma normal N(0,1). Essa formulação do teorema central do limite (TCL) é conhecida
como formulação Lindeberg-Lévy.
LINDEBERG-LÉVY
Jarl Lindeberg (1876-1932) e Paul Lévy (1886-1971)
[ ]
[ ( )]
( ) [ ] [ ]
( )
( )
javascript:void(0)
Matemáticos que deixaram contribuições essenciais para que o resultado do TCL fosse alcançado.
O TCL é extremamente poderoso.
PRIMEIRO
SEGUNDO
PRIMEIRO
Começamos com pouquíssimas hipóteses, basicamente exigimos amostragem aleatória e variância finita, e terminamos com
normalidade.Essa normalidade no limite surge da soma de pequenos distúrbios independentes (representados pela variância σ2
finita).
SEGUNDO
O TCL nos diz que, se temos um problema no qual estamos interessados na soma de muitas variáveis aleatórias iid X_i, é possível
obter de imediato a distribuição dessa soma se soubermos a média e a variância de Xi.
UM CASO DE INTERESSE QUE ENVOLVE A SOMA DE MUITAS VARIÁVEIS
ALEATÓRIAS É A MÉDIA AMOSTRAL.
Voltando para o exemplo da bolsa cheia de dados de seis faces, cada dado segue uma distribuição uniforme: a probabilidade de cair
qualquer uma das seis faces é igual. Assim, se jogarmos o mesmo dado 500 vezes, veremos algo próximo de uma distribuição
uniforme. Porém, esse resultado não vale para o valor da média amostral.
Vamos continuar analisando o exemplo dos dados honestos e um novo exemplo baseado na altura de todos os cidadãos do Brasil.
DADOS HONESTOS
Suponha agora que dois dados sejam jogamos 500 vezes, computando a média do valor de ambos para as 500 rodadas.
A distribuição ficará mais densa em torno da média 3,5 e mais “leve” nas caudas, perto de 1 e 6. Se repetirmos esse procedimento
anotando 500 vezes a média para três dados, quatro dados, e assim por diante, a distribuição se aproximará de uma distribuição
normal.
Assim, a média de variáveis aleatórias com distribuição uniforme tem distribuição assintótica normal. Isso não vale somente para uma
distribuição uniforme. Qualquer distribuição com variância finita terá, como distribuição assintótica de sua média, uma distribuição
normal.
ALTURA DOS CIDADÃOS DO BRASIL
Suponha que tenhamos uma base de dados com informações sobre a altura de todos os cidadãos do Brasil. Para testar o TCL,
pegaríamos 10 amostras aleatórias dessa base de dados e tiraríamos a altura média para cada uma dessas alturas.
Se fizéssemos um histograma dessas médias, ele lembraria o formato de sino da distribuição normal. Repetindo o mesmo
procedimento com 100 amostras aleatórias, o histograma ficaria mais semelhante a uma distribuição normal. À medida que
aumentássemos o número de amostras, mais o histograma convergiria para a distribuição normal.
javascript:void(0)
Um detalhe fascinante do TCL é que, mesmo sabendo o histograma verdadeiro da altura dos cidadãos brasileiros, o histograma
dessas médias amostrais seguirá o formato de uma distribuição normal.
HISTOGRAMA
Representação gráfica em colunas ou em retângulo de um conjunto de dados previamente tabulado e dividido em classes
uniformes ou não uniformes. A base de cada retângulo representa uma classe.
 ATENÇÃO
Um detalhe importante sobre o TCL é que podemos relaxar a hipótese de que todas as variáveis aleatórias da sequência precisam ser
identicamente distribuídas.
Agora, vamos deixar que cada X_i tenha sua própria esperança populacional μi e variância σi2. Desse modo, temos a seguinte
formulação alternativa do teorema TCL:
Teorema central do limite (versão mais geral).
Neste teorema, seja X1,X2,…, uma sequência de variáveis aleatórias independentes, com E[Xi] = μi e Var[Xi] = σi2 > 0. Defina a média
amostral como:
X̄N =
1
N ∑
N
I = 1XI
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Sob algumas condições gerais, temos que à medida que n⟶∞, consequentemente:
∑ NI = 1XI - ∑
N
I = 1ΜI
∑ NI = 1Σ
2
I
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Converge em distribuição para uma normal padrão N(0,1).
As condições gerais mencionadas no enunciado dessa formulação do TCL podem ser descritas da seguinte maneira:
CADA PARCELA DA SOMA CONTRIBUI COM UM VALOR SEM IMPORTÂNCIA
PARA A VARIAÇÃO DA SOMA, SENDO MUITO IMPROVÁVEL QUE QUALQUER
PARCELA ISOLADA DÊ UMA CONTRIBUIÇÃO MUITO GRANDE PARA A
√
MESMA. FORMALMENTE, ESSAS CONDIÇÕES SÃO CONHECIDAS COMO
CONDIÇÕES DE LYAPUNOV.
ALEKSANDER LYAPUNOV (1857-1918)
Matemático russo, pioneiro na formulação do TCL nesses termos.
Neste vídeo, o professor Raphael Bruce mostrará exemplos numéricos para ilustrar alguns teoremas apresentados.
VERIFICANDO O APRENDIZADO
1. (ANPEC 2006 ‒ MODIFICADA): INDIQUE SE AS AFIRMAÇÕES ABAIXO SÃO FALSAS OU
VERDADEIRAS E ASSINALE A OPÇÃO QUE CONTÊM TODAS AS VERDADEIRAS:
A DESIGUALDADE DE CHEBYSHEV É ÚTIL PARA CALCULAR O LIMITE INFERIOR PARA A
PROBABILIDADE DE UMA VARIÁVEL ALEATÓRIA COM DISTRIBUIÇÃO CONHECIDA QUANDO SE
TEM APENAS A VARIÂNCIA DA POPULAÇÃO.
javascript:void(0)
SEJAM Y1,…,YN VARIÁVEIS ALEATÓRIAS INDEPENDENTES COM MÉDIA Μ E VARIÂNCIA FINITA.
PELA LEI DOS GRANDES NÚMEROS, E
1
N ∑
N
I = 1YI = Μ.
SEJAM EM>Y1,…,YN VARIÁVEIS ALEATÓRIAS INDEPENDENTES COM MÉDIA Μ E VARIÂNCIA
FINITA. PELO TEOREMA CENTRAL DO LIMITE, PARA UM N SUFICIENTEMENTE GRANDE,
PODEMOS DIZER QUE A DISTRIBUIÇÃO DA MÉDIA AMOSTRAL Y =
1
N ∑
N
I = 1YI SEGUE,
APROXIMADAMENTE, UMA DISTRIBUIÇÃO NORMAL N Μ,
Σ2
N .
A) Apenas as afirmações II e III são verdadeiras.
B) Apenas a afirmação I é verdadeira.
C) Apenas a afirmação II é verdadeira.
D) Apenas a afirmação III é verdadeira.
2. (ANPEC 2012 ‒ MODIFICADA): INDIQUE SE AS AFIRMAÇÕES ABAIXO SÃO FALSAS OU
VERDADEIRAS E ASSINALE A OPÇÃO QUE CONTÊM TODAS AS VERDADEIRAS:
SEJAM X1,…,XN VARIÁVEIS ALEATÓRIAS INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDAS,
TAIS QUE E[XI]= Μ < ∞. SE VAR[XI] CONVERGE PARA 0 À MEDIDA QUE A AMOSTRA AUMENTA,
ENTÃO XI CONVERGE EM PROBABILIDADE PARA Μ.
SEJA X1,X2,…, UMA SEQUÊNCIA DE VARIÁVEIS ALEATÓRIAS. ESSA SEQUÊNCIA CONVERGE EM
PROBABILIDADE PARA UMA CONSTANTE Μ SE, E SOMENTE SE, ESSA SEQUÊNCIA TAMBÉM
CONVERGE EM DISTRIBUIÇÃO PARA Μ.
SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA MÉDIA X ̅ E VARIÂNCIA 0 < S2 < ∞. PODEMOS AFIRMAR
QUE W = CX COM C ∈ ℝ CONVERGE PARA UMA DISTRIBUIÇÃO NORMAL COM MÉDIA Μ E
VARIÂNCIA 
Σ2
N .
A) Apenas as afirmações I e II são verdadeiras.
B) Apenas as afirmações II e III são verdadeiras.
C) Apenas a afirmação I é verdadeira.
[ ]
( )
D) Apenas as afirmações I e III são verdadeiras.
GABARITO
1. (ANPEC 2006 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm
todas as verdadeiras:
A desigualdade de Chebyshev é útil para calcular o limite inferior para a probabilidade de uma variável aleatória com
distribuição conhecida quando se tem apenas a variância da população.
Sejam Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pela Lei dos Grandes Números,
E
1
n ∑
n
i = 1Yi = μ.
Sejam em>Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pelo Teorema Central do Limite,
para um n suficientemente grande, podemos dizer que a distribuição da média amostral Y =
1
n ∑
n
i = 1Yi segue,
aproximadamente, uma distribuição normal N μ,
σ2
n .
A alternativa "D " está correta.
A afirmação I é falsa, como visto na seção 1. Lembre-se que a desigualdade de Chebyshev é dada por P(|X - E[X]| ≥ σ) ≤
Var [ X ]
σ2
 , ou
seja, é necessário saber a média E[X] além da variância Var[X].
A afirmação II é falsa, como visto na seção 1. O resultado E 
1
n ∑
n
i = 1Yi = μ é consequência da propriedade da esperança, e não da
lei dos grandes números, pois E 
1
n ∑
n
i = 1Yi = 
1
n E ∑
n
i = 1Yi = 
1
n (n)μ = μ.
Finalmente, temos que a afirmação III é verdadeira, como visto na seção 2.
Veja que μ =
1
n ∑
n
i = 1μi = 
1
n ∑
n
i = 1μ = 
nμ
n = μ e σ
2 =
1
n ∑
n
i = 1σ
2
i
 = 
1
n ∑
n
i = 1σ
2 = 
nσ2
n = σ
2.
Utilizando a versão mais geral do TCL, temos que 
∑ ni = 1Yi - ∑
n
i = 1μi
∑ ni = 1σ
2
i
 = 
1
n ∑
n
i = 1Yi - nμ
1
n √nσ2
 = 
Y - μ
σ2
n
 onverge em distribuição para uma normal
padrão N(0,1), ou seja, à medida que a amostra cresce, Y - μ se aproxima de uma normal N 0, 
σ2
n e, por fim, Y se aproxima de uma
normal N μ, 
σ2
n .
2. (ANPEC 2012 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm
todas as verdadeiras:
Sejam X1,…,Xn variáveis aleatórias independentes e identicamente distribuídas, tais que E[Xi]= μ < ∞. Se Var[Xi]
converge para 0 à medida que aamostra aumenta, então Xi converge em probabilidade para μ.
[ ]
( )
[ ]
[ ] [ ]
√
( ) ( )
( ) √
( )
( )
Seja X1,X2,…, uma sequência de variáveis aleatórias. Essa sequência converge em probabilidade para uma constante μ
se, e somente se, essa sequência também converge em distribuição para μ.
Seja X1,…,Xn uma amostra aleatória média X ̅ e variância 0 < s2 < ∞. Podemos afirmar que W = cX com c ∈ ℝ converge
para uma distribuição normal com média μ e variância 
σ2
n .
A alternativa "A " está correta.
A afirmação I é verdadeira. Pela desigualdade de Chebyshev, temos que P(|X - E[X]| ≥ σ) ≤
Var [ X ]
σ2
 ou seja, P Xn - μ ≤ ∈ > 1 -
σ2n
∈2
.
Se σ2n → n, temos que lim
n → ∞
P Xn - μ ≤ ∈ = 1, ou seja Xn converge em probabilidade para μ.
A afirmação II também é verdadeira. Se uma sequência de variáveis aleatórias converge em probabilidade para uma variável aleatória
X, também converge em distribuição para X. O inverso não é sempre verdadeiro. Uma exceção importante é o caso em que X é uma
constante, como no enunciado. Nesse caso, a convergência em distribuição para uma constante X = μ implica convergência em
probabilidade para essa mesma constante.
A afirmação III é falsa, como vimos na seção 3. Pelo TCL temos que 
( X - μ )
σ2
n
 converge em distribuição para uma normal padrão N(0,1).
Como W = cX, temos que 
( W - cμ )
c2σ2
n
 também converge em distribuição para uma normal padrão N(0,1). Rearranjando os termos,
obtemos que W - cμ converge para N 0, c2σ2 e, por fim, W converge em distribuição para N cμ,
c2σ2
n .
CONCLUSÃO
CONSIDERAÇÕES FINAIS
Amostras são subconjuntos de alguma população. Analisamos amostras porque, em geral, não é factível estudar a população como
um todo. Por exemplo, ao testar a eficácia de uma vacina, usamos uma amostra de pessoas suscetíveis à doença contra a qual
busca-se proteção.
O objetivo da análise de amostras é, no fim das contas, fazer inferências sobre a população como um todo: se a vacina funcionar bem
em amostras aleatórias, também deve funcionar para a população. Formalizamos isso ao estudar inferências a partir de amostras.
Finalmente, estabelecemos alguns dos resultados fundamentais para esse tipo de inferência: a Desigualdade de Chebyshev, a Lei
(Fraca) dos Grandes Números e o Teorema Central do Limite.
(| | )
( | | )
√
√
( ) ( )
AVALIAÇÃO DO TEMA:
REFERÊNCIAS
CASELLA, G.; BERGER, R. L. Inferência estatística. 2. ed. São Paulo: Cengage Learning, 2011.
MEYER, P. L. Probabilidade: aplicações à Estatística. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1983.
ROSS, S. Probabilidade: um curso moderno com aplicações. 8. ed. Porto Alegre: Bookman, 2009.
EXPLORE+
Para fixar os conceitos, recomenda-se a leitura do Capítulo 8 do livro Probabilidade: um curso moderno com aplicações (8ª edição), de
Sheldon Ross. Esse capítulo abrange uma grande variedade de exercícios sobre os conteúdos do Módulo 3.
Do livro Probabilidade: aplicações à Estatística (2ª edição), de Paul Meyer, recomenda-se a seção 7.8 (referente à desigualdade de
Chebyshev) e os capítulos 12 e 13. O Capítulo 12 cobre, em maior profundidade, os tópicos do Módulo 3, enquanto o Capítulo 13
cobre o Módulo 1.
CONTEUDISTA
Raphael Guinâncio Bruce

Outros materiais