Buscar

Ciclo de Vida e Introdução à Linguagem r Tema 2 Amostras aleatórias e suas propriedades

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 36 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

DEFINIÇÃO
Apresentação dos conceitos de Probabilidade e Estatística. Definição de amostra aleatória e suas propriedades — resultados e noções
importantes. Conjecturas sobre uma população a partir de uma amostra — conceitos de viés e erro quadrático médio. Principais teoremas-limite da
Estatística — Lei Fraca dos Grandes Números e Teorema Central do Limite.
PROPÓSITO
Examinar as propriedades teóricas de amostras aleatórias e os resultados para o desenvolvimento do exercício de inferência sobre uma população
a partir de um subconjunto dela, tal como as conclusões a respeito dessa população a partir de pequenos recortes, algo fundamental no cotidiano
profissional de várias áreas.
PREPARAÇÃO
Antes de iniciar o conteúdo deste tema, certifique-se de ter papel e lápis por perto para acompanhar os exemplos e demonstrações.
OBJETIVOS
MÓDULO 1
Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
MÓDULO 2
Descrever média e variância amostral e suas relações com as contrapartidas populacionais
MÓDULO 3
Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da Estatística
INTRODUÇÃO
O conceito de amostra, de um subconjunto de uma determinada população, é central para o exercício da Estatística.
Há diferentes tipos de amostra. Sobre este tópico:
1
Começaremos caracterizando uma amostra aleatória e suas propriedades, e as possíveis relações entre seus elementos. Assim, começaremos a
transição da Teoria da Probabilidade para a Estatística.
Usaremos amostras para fazer conjecturas a respeito de populações. Para isso, teremos que desenvolver um ferramental específico e um novo
conjunto de hipóteses que permitam fazer inferências sobre a população que queremos estudar.
2
3
Chegaremos a alguns dos resultados mais importantes da Estatística: a Desigualdade de Chebyshev, a Lei (Fraca) dos Grandes Números e o
Teorema Central do Limite.
MÓDULO 1
 Descrever uma amostra aleatória e o que a torna especial em relação a outros subconjuntos da população de interesse
LIGANDO OS PONTOS
Você sabe o que é uma amostra aleatória? Diante da necessidade de estudar a eficácia em grande escala de um serviço ou produto, qual
estratégia você adotaria para que seus resultados fossem confiáveis?
Para respondermos a essas perguntas, vamos analisar algumas situações práticas.
Shutterstock.com
Nossa percepção da realidade é baseada, principalmente, em nossas experiências. No entanto, isso não significa que nossa percepção seja
correta. O que poderia explicar essa condição?
A limitação de situações às quais fomos expostos pode nos conduzir a conclusões tendenciosas. Exatamente para evitar esse tipo de erro,
precisamos ser críticos e apoiar nossas opiniões em fontes de informações confiáveis.
A percepção da realidade é algo extremamente poderoso. Vamos analisar duas situações: uma excelente e outra péssima.
Primeiro, a situação excelente: sabemos que a educação financeira é um importante aliado para que possamos construir e gerenciar nossos
patrimônios, pois, por meio dela, entendemos como reduzir riscos desnecessários, fugir de custos exagerados e investir em projetos sólidos e
promissores.
Agora, a situação péssima: um grupo fraudador atrai vítimas para o golpe da pirâmide financeira com promessas de lucros muito acima do
mercado. Para tentar ganhar a confiança das vítimas, apresenta alguns casos de sucesso. Essa história se repete com grande frequência e
sempre termina da mesma forma, com enormes prejuízos para as vítimas.
O que os dois casos têm em comum? Por que a educação financeira é importante? Por que golpes de pirâmides financeiras ainda continuam
atraindo as pessoas?
Dificilmente teríamos apenas uma resposta, mas com certeza todas elas teriam em comum a exposição à experiência e a percepção do que ela
significa, ou seja, nossa construção do que é a realidade.
Ao estudar qualquer processo, devemos utilizar metodologias que sejam capazes de submeter percepções à crítica rigorosa, pois, no caso de as
percepções, ainda assim, sustentarem-se, aumentamos nosso grau de confiança. É difícil imaginar quantos prejuízos e outros males foram
causados contra empresas e pessoas por percepções erradas.
Uma forma concreta de a estatística nos ajudar a entender a realidade é por meio da coleta e da análise de amostras aleatórias. Isso nos dá uma
abrangência sobre o que de fato está ocorrendo dentro de um processo e que seja viável sob os pontos de vista econômico e de esforço.
APÓS A LEITURA DO CASE, É HORA DE APLICAR SEUS
CONHECIMENTOS! VAMOS LIGAR ESSES PONTOS?
1. COMO VOCÊ VIU, A PERCEPÇÃO DA REALIDADE TEM ENORME IMPACTO PARA TOMADA DE DECISÃO.
IMAGINE O CONTEXTO DO GOLPE DAS PIRÂMIDES FINANCEIRAS, EM QUE FRAUDADORES ILUDEM AS
VÍTIMAS A INVESTIREM SEU PATRIMÔNIO. VOCÊ ACREDITA QUE A ESTATÍSTICA PODE AJUDAR A COMBATER
ESSE TIPO DE FRAUDE? POR QUÊ?
A) Não, pois os fraudadores criam uma falsa percepção da realidade para a vítima.
B) Sim, pois investimentos sérios têm históricos que podem ser analisados.
C) Sim, basta forçar que os golpistas entrem em contradição.
D) Sim, pois os golpistas não conhecem nada sobre investimentos reais.
E) Não, pois os golpistas são muito sofisticados na elaboração de golpes.
2. VOCÊ JÁ SABE QUE UM DOS MÉTODOS DA ESTATÍSTICA PARA REALIZAR ESTUDOS É A AMOSTRAGEM
ALEATÓRIA. O QUE VOCÊ ENTENDE POR AMOSTRA ALEATÓRIA?
A) É a seleção de qualquer informação a respeito de um processo.
B) É a utilização de sorteios para selecionar dados de um processo.
C) É a construção da percepção a partir de estudos científicos.
D) É a utilização de ferramentas computacionais para gerar dados de estudo.
E) É a escolha de dados que possuem a mesma probabilidade de ocorrência.
GABARITO
1. Como você viu, a percepção da realidade tem enorme impacto para tomada de decisão. Imagine o contexto do golpe das pirâmides
financeiras, em que fraudadores iludem as vítimas a investirem seu patrimônio. Você acredita que a estatística pode ajudar a combater
esse tipo de fraude? Por quê?
A alternativa "B " está correta.
Golpistas são especialistas em distorcer a realidade com falsas amostras. Em especial, nas pirâmides financeiras, eles iludem as vítimas com
alguns casos de sucesso artificiais e, assim, induzem-nas ao erro. A estatística pode ajudar a combater esse tipo de golpe simplesmente
submetendo-o ao exame minucioso da análise histórica.
2. Você já sabe que um dos métodos da estatística para realizar estudos é a amostragem aleatória. O que você entende por amostra
aleatória?
A alternativa "E " está correta.
A apuração da veracidade de um estudo precisa ser embasada em dados confiáveis. Raramente, é possível ter acesso a todos os dados. Por isso,
a amostragem aleatória é tão importante. Por meio dela, podemos selecionar amostras de dados que possuem a mesma chance de ocorrência.
Dessa forma, evitamos que a base a ser utilizada para realizar nossos estudos seja tendenciosa e, assim, temos uma visão mais fidedigna da
realidade.
3. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ É O RESPONSÁVEL POR ANALISAR
OS DADOS DOS EQUIPAMENTOS DANIFICADOS UTILIZADOS PARA TRANSPORTE
DE CARGAS DE UMA EMPRESA DE GRANDE PORTE. AS CONDIÇÕES EM QUE
ESSES EQUIPAMENTOS OPERAM SÃO AS PRINCIPAIS CAUSADORAS DE PARADAS
FORÇADAS PARA MANUTENÇÃO CORRETIVA. NESSE CONTEXTO, QUAL SERIA
SUA ESTRATÉGIA PARA REDUZIR AS PARADAS PARA MANUTENÇÃO CORRETIVA?
RESPOSTA
Espelho de resposta
O cenário apresentado envolve uma grande quantidade de equipamentos. Então, a primeira etapa é
selecionar quais os principais problemas que levam a paradas para manutenção corretiva. Em seguida, vem
a seleção dos equipamentos em que esses problemas ocorrem com maior frequência. No início da análise, é
importante restringir os elementos da população para estudar com profundidade as causas que levaram à
parada para manutenção corretiva. Superada essa etapa, basta submeter as percepções iniciais daanálise a
outros equipamentos para verificar se elas se sustentam.
AMOSTRAS ALEATÓRIAS
Pesquisadores frequentemente coletam dados sobre diversas informações em um experimento. Esses dados consistem em várias observações
sobre diferentes variáveis de interesse.
Fonte: geralt/pixabay
Um grupo de pesquisadores da área de saúde pode coletar informações sobre altura, peso e pressão sanguínea da população de uma cidade.
Quase sempre, porém, é inviável coletar essas informações para todas as pessoas. Para isso, utilizam-se técnicas de amostragem que buscam
selecionar uma subpopulação (a amostra) a fim de chegar a conclusões que sejam generalizáveis para o restante da população.
O principal método de amostragem é chamado de amostragem aleatória, vamos conhecer sua definição.
AMOSTRA ALEATÓRIA - DEFINIÇÃO
As variáveis aleatórias X1,…,Xn são chamadas de amostra aleatória de tamanho n da população com densidade marginal fX(x) se X1,…,Xn se
forem mutuamente independentes e se a distribuição marginal de cada Xi for a mesma função fX(x). De modo alternativo, X1,…,Xn são chamadas
de variáveis aleatórias independentes e identicamente distribuídas, com distribuição fX(X). Comumente, chama-se esse tipo de variável de
“variável aleatória iid”.
Vamos analisar algumas informações sobre o modelo de amostragem aleatória:
INFORMAÇÃO 1
INFORMAÇÃO 2
javascript:void(0)
INFORMAÇÃO 3
INFORMAÇÃO 1
Descreve um tipo de situação em que a variável de interesse X tem uma distribuição dada por fX(x).
INFORMAÇÃO 2
Na maioria dos experimentos, não observamos somente uma realização de X, mas n > 1 observações repetidas dessa variável aleatória. Medimos
a altura para n > 1 indivíduos, ou o peso para n > 1 indivíduos, por exemplo.
INFORMAÇÃO 3
De acordo com o modelo de amostragem aleatória descrito, cada observação Xi tem uma distribuição marginal dada por fX(x). Além disso, essas
observações não têm relação entre si, ou seja, são mutualmente independentes.
Desse modo, chegamos à função de distribuição conjunta, dada por:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Podemos utilizar a equação apresentada para calcular probabilidades envolvendo uma amostra aleatória iid.
PRIMEIRA IGUALDADE
Na primeira igualdade, utilizamos a independência para separar a densidade marginal conjunta em um produto de densidades marginais
individuais.
SEGUNDA IGUALDADE
Na segunda igualdade, utilizamos o fato de elas seguirem a mesma distribuição.
Uma vez que X1,…,Xn são identicamente distribuídas, todas as densidades marginais fXi(x) são iguais, ou seja, fX1(x) = fX2(x) = ⋯ = fXn(x). Isso
vale, inclusive, para distribuições paramétricas, como a exponencial do exemplo a seguir:
EXEMPLO
Sejam X1,…,Xn uma amostra aleatória de uma população exponencial com parâmetro β. Mais especificamente, essa amostra corresponde aos
períodos decorridos (medidos em anos) até que ocorra uma falha em n circuitos idênticos, que são testados e utilizados até falharem. A
distribuição conjunta da amostra é dada por:
Essa distribuição pode ser utilizada para responder a questões relacionadas à amostra, como por exemplo:
Qual a probabilidade de que todos os circuitos tenham uma duração maior do que cinco anos?
Podemos obter esse valor a partir do seguinte cálculo:
fX1  . . .  Xn  (x1, . . . ,xn)=  fX1(x1) fX2(x2). . . fXn(xn)=  ∏
n
i=1 fXi(xi)
fX1  . . .  Xn  (x1, . . . ,xn | β)= ∏
n
i=1 fXi(xi | β)=  ∏
n
i=1 e
−xi / β =   e− (X1+ ... +Xn ) /β1
β
1
β
javascript:void(0)
javascript:void(0)
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Se β, tempo de duração médio de um circuito, for grande em relação ao número n de observações da amostra, verificamos que essa
probabilidade é próxima de 1.
Esse cálculo ilustra como a distribuição de uma amostra aleatória iid pode ser utilizada para calcular probabilidades sobre essa amostra.
Perceba que a propriedade das variáveis de serem independentes e identicamente distribuídas dentro dessa amostra também pode ser utilizada
diretamente nos cálculos. Por exemplo, podemos chegar ao mesmo resultado da seguinte maneira:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Vamos analisar as passagens apresentadas na fórmula:
DA PRIMEIRA PARA A SEGUNDA
Utilizamos a propriedade de independência.
DA SEGUNDA PARA A TERCEIRA
Utilizamos a propriedade de as variáveis serem identicamente distribuídas.
O modelo de amostragem aleatória utilizado anteriormente é chamado de amostragem de uma população infinita.
Considere a obtenção dos valores de X1,…,Xn sequencialmente.
1° Realizamos o experimento e observamos X1 = x1.

2° Repetimos o experimento e obtemos X2 = x2.
A suposição de independência no processo de amostragem aleatória implica que a distribuição de probabilidade de X2 não é afetada pelo fato de
termos observado X1 = x1. Se removermos x1> da população infinita, essa população não é modificada; logo, X2 = x2 ainda é uma observação
aleatória da mesma população.
P(X1 > 5, . . . ,Xn > 5)= ∫
∞
5 . . . ∫
∞
5 ∏
n
i=1 e
−
dx1. . . dxn
1
β
xi
β
= e− [∫ ∞5 . . . ∫
∞
5 ∏
n
i=2 e
−
dx2. . . dxn]
5
β 1
β
xi
β
= (e− )
2
[∫ ∞5 . . . ∫
∞
5 ∏
n
i=3 e
−
dx3. . . dxn]=. . . = (e− )
n5
β 1
β
xi
β
5
β
=  e
− 5n
β
P(X1 > 5, . . . ,  Xn > 5)=  P(X1 > 5). . .P(Xn > 5)= [P(X1 > 5)]
n = (e− )
n
=  e
−5
β
5n
β
javascript:void(0)
javascript:void(0)
Fonte: Free-Photos/pixabay
 RESUMINDO
Quando temos uma população infinita, a amostragem equivale a uma amostragem aleatória. Esse não será sempre o caso para amostras de uma
população finita, como veremos agora.
AMOSTRAS FINITAS
Fonte: Adaptado de Freepik
Uma população finita é descrita por um conjunto de números {x1,…,xN}. Uma amostra X1,…,Xn, onde n ≤ N, deve ser obtida a partir dessa
população.
PRIMEIRO
Suponha que um valor seja escolhido dentro dessa população, de modo que cada um dos N valores tenha a mesma probabilidade de ser
escolhido (i.e., probabilidade igual a 1/N). Esse valor sorteado é registrado como X1 = x1.
SEGUNDO
O processo é repetido, e obtemos X2 = x2. Esse processo é repetido n vezes, até que tenhamos gerado a amostra X1, ..., Xn.
Esse tipo de processo de amostragem é considerado com reposição.
javascript:void(0)
javascript:void(0)
PROCESSO DE AMOSTRAGEM COM REPOSIÇÃO
Neste processo de amostragem, o valor escolhido em cada rodada é “reposto” na população e está novamente disponível para ser sorteado na
rodada seguinte.
Para esse tipo de amostragem temos:
1
As mesmas propriedades que obtemos para a amostragem com uma população infinita, isto é, de uma amostragem onde X1, ..., Xn são variáveis
aleatórias independentes e identicamente distribuídas.
Cada Xi é uma variável aleatória discreta que assume cada um dos valores x1, ..., xN com a mesma probabilidade, logo, são identicamente
distribuídas.
2
3
Elas também são independentes porque o processo para escolha de qualquer Xi é o mesmo, independentemente dos valores que são obtidos para
qualquer uma das outras variáveis.
Vamos considerar um segundo caso. Queremos obter uma amostra aleatória a partir de uma população finita, mas sem reposição.
PASSO 1
PASSO 2
PASSO 1
Escolhemos um valor a partir da população finita descrita por {x1,…,xN}, de modo que cada um dos N valores tenha a mesma probabilidade de ser
escolhido igual a 1/N. Esse valor é registrado como X1 = x1.
PASSO 2
Agora, um segundo valor é sorteado dentre os N - 1 restantes. Desse modo, a probabilidade de escolhermos um desses N - 1 valores é igual a
1/(N - 1). O segundo valor sorteado é registrado como X2 = x2.
OBSERVAÇÃO
Assim que um valor é escolhido, ele se torna indisponível para a escolha em qualquer estágio posterior, pois não é reposto na população. A
escolha dos valores restantes continua dessa maneira, gerando a amostra X1,…,Xn.
NOTE QUE ESSE TIPO DE AMOSTRA NÃO SATISFAZ TODAS AS CONDIÇÕES DA
DEFINIÇÃO DE AMOSTRA ALEATÓRIA DADA NO COMEÇO DESSE MÓDULO.
PRIMEIRO,X1,…,XN NÃO SÃO MUTUAMENTEINDEPENDENTES.
COMO PODEMOS VERIFICAR ISSO?
Tome x e y como elementos distintos de {x1,…,xN}. Segue que P(X2 = y │ X1 = y) = 0, pois o valor y não pode ser escolhido na segunda rodada se
já o tiver sido anteriormente. Contudo, note que P(X2 = y │ X1 = x) = 1/(N - 1) pois, apesar de termos sorteado x na primeira rodada e reduzido o
tamanho da população de N para N-1, o valor y ainda pode ser sorteado. Desse modo, podemos dizer que a distribuição de X2 depende do valor
que é observado para X1 e, logo, X1 e X2 não são independentes.
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Para um valor do índice i, digamos i = k, temos x = xk e P(X2 = x│X1 = xk) = 0. Para todos os outros, j ≠ k e P(X2 = x │ X1 =xj ) = 1/(N - 1). Portanto:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Argumentos similares podem ser utilizados para mostrar que cada um dos X_i tem a mesma distribuição marginal.
Por último, vale observar a consequência de amostras aleatórias independentes e identicamente distribuídas para o operador esperança. Caso X1,
…,Xn sejam iid, temos:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Onde a independência garante a primeira igualdade e a distribuição idêntica da amostra garante a segunda.
Neste vídeo, o professor Raphael Bruce apresentará e resolverá um exercício para a fixação dos conceitos vistos durante o módulo.
P(X2 = x)= ∑
N
i=1 P(X2 = x | X1 = xi)P(X1 = xi)
P(X2 = x)=(N − 1)( )=1N−1
1
N
1
N
E[X1X2. . .Xn]= E[X1] E[X2] . . .  E[Xn]  =  E[X1]
n
VERIFICANDO O APRENDIZADO
1. SEJAM X1,…,XN VARIÁVEIS ALEATÓRIAS IID COM FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA CONTÍNUA FX (X),
E SUPONHA QUE E[XI ] = Μ. DEFINA AS VARIÁVEIS ALEATÓRIAS Y1,…, YI POR:
ENCONTRE A DISTRIBUIÇÃO DE ∑N(I = 1) YI E ASSINALE A ALTERNATIVA CORRESPONDENTE.
A) ∑n(i = 1) Yi ~ Bernoulli (p = 1 - FX (μ))
B) ∑n(i = 1) Yi ~ Bernoulli (p = FX (μ))
C) ∑n(i = 1) Yi ~ Binomial (n, p = 1 - FX (μ))
D) ∑n(i = 1) Yi ~ Binomial (n, p = FX (μ))
2. SEJAM X1, X2 E X3 TRÊS VARIÁVEIS ALEATÓRIAS IID QUE SEGUEM UMA DISTRIBUIÇÃO BERNOULLI (P = 1/2)
COM PROBABILIDADE DE SUCESSO E COM AS VARIÁVEIS Y1,Y2,Y3 DEFINIDAS COMO:
Y1 = MAX (X1, X2)
Y2 = MAX (X1, X3)
Y3= MAX (X2, X3)
Y = Y1 + Y2 + Y3
ENCONTRE E[Y] E VAR[Y] E ASSINALE A ALTERNATIVA QUE CORRESPONDE AOS VALORES CORRETOS:
A) E[Y] = 7/4 e Var[Y] = 37/16
B) E[Y] = 9/4 e Var[Y] = 33/16
C) E[Y] = 7/4 e Var[Y] = 33/16
D) E[Y] = 9/4 e Var[Y] = 37/16
GABARITO
Yi ={
1, se Xi > μ
0, se Xi ≤ μ
1. Sejam X1,…,Xn variáveis aleatórias iid com função de distribuição acumulada contínua FX (x), e suponha que E[Xi ] = μ. Defina as
variáveis aleatórias Y1,…, Yi por:
Encontre a distribuição de ∑n(i = 1) Yi e assinale a alternativa correspondente.
A alternativa "C " está correta.
Note que Yi ~ Bernoulli com pi = P(Xi > μ) = 1 - FX (μ) para cada i, onde pi é a probabilidade de sucesso da Bernoulli. Para constatar, basta notar
que cada Yi assume o valor 1, caso satisfaça a condição Xi > μ, e, em caso contrário, assume o valor 0 (zero). Como as variáveis Yi são iid com
distribuição Bernoulli, e uma sequência de variáveis aleatórias que seguem uma Bernoulli é representada pela distribuição Binomial, temos ∑n(i = 1)
Yi ~ Binomial (n, p = 1 - FX (μ)).
2. Sejam X1, X2 e X3 três variáveis aleatórias iid que seguem uma distribuição Bernoulli (p = 1/2) com probabilidade de sucesso e com as
variáveis Y1,Y2,Y3 definidas como:
Y1 = max (X1, X2)
Y2 = max (X1, X3)
Y3= max (X2, X3)
Y = Y1 + Y2 + Y3
Encontre E[Y] e Var[Y] e assinale a alternativa que corresponde aos valores corretos:
A alternativa "B " está correta.
Por Y1, Y2 e Y3 serem identicamente distribuídas, segue que:
E[Y] = E[Y1 ] + E[Y2 ] + E[Y3 ] = 3E[Y1]
Também temos:
Var[Y] = Var[Y1 ] + Var[Y2 ] + Var[Y3 ] +2 Cov[Y1, Y2 ] + 2Cov[Y1, Y3 ] + 2Cov[Y2, Y3 ] = 3Var[Y1 ] + 6Cov[Y1, Y1]
Note que Y1, Y2 e Y3, apesar de terem igualmente distribuição Bernoulli, assim como X1, X2 e X3, não são independentes. Em particular, temos:
P(Y1 = 1) = P((X1 = 1) ∪ (X2 = 1)) = P(X1 = 1) + P(X2 = 1) - P((X1 = 1) ∩ (X2 = 1)) = 2p - p
2
Logo Y1 ~ Bernoulli (2p - p
2) e podemos obter:
E[Y1 ] = 2p - p
2 = p(2-p)
Var[Y1]=(2p - p
2 )(1 - 2p + p2 ) = p(2 - p)(1 - p2)
Resta encontrar Cov(Y1,Y1). Podemos escrever:
Cov(Y1, Y2 ) = E[Y1 Y2 ] - E[Y1 ]E[Y2 ] = E[Y1 Y2 ] - p
2 (2 - p)2
Como Y1 Y2 também segue uma distribuição Bernoulli, temos:
E[Y1 Y2 ] = P(Y1 = 1, Y2 = 1) = P((X1 = 1) ∪ (X2 = 1, X3 = 1)) = P(X1 = 1) + P(X2 = 1, X3 = 1) - P(X1 = 1, X2 = 1, X3 = 1) = p + p2 - p3
Logo, temos:
Yi ={
1, se Xi > μ
0, se Xi ≤ μ
Cov(Y1, Y1 ) = E[Y1 Y2 ] - p
2 (2 - p)2 = p + p2 - p3 - p2 (2 - p)2
Finalmente, E[Y] = 3E[Y1 ] = 3p(2 - p), e:
Var[Y] = 3Var[Y1 ] + 6 Cov[Y1, Y2 ] = 3p(2 - p)(1 - p2 ) + 6(p + p2 - p3 - p2 (2 - p)2 )
Como p = 1/2, temos que: E[Y] = 9/4 e Var[Y] = 33/16
Uma vez que esta atividade envolve cálculo de valores específicos, caso o aluno tenha encontrado os valores das opções “a”, “c” ou “d”, terá
cometido algum erro de cálculo.
MÓDULO 2
 Descrever média e variância amostral e suas relações com as contrapartidas populacionais
LIGANDO OS PONTOS
Você conhece os conceitos de média e variância amostrais? Que estratégia você adotaria para generalizar seu conhecimento para uma população
a partir de uma amostra dela?
Um dos primeiros contatos que um estudante do ensino superior tem com a estatística é o cálculo da média e do desvio-padrão de um conjunto de
dados. É interessante observar que, depois de adquirir mais experiência na área, esses dois conceitos continuam a ser muito relevantes. Mas por
que eles são tão importantes?
Porque traduzem de forma muito simples informações sobre os dados. É claro que a estatística nos fornece muitas outras técnicas que nos
ajudam a entender a distribuição dos dados e suas relações.
É bem provável que você já tenha ouvido a expressão: os dados são o novo petróleo. Isso significa que, semelhante ao que ocorre com o petróleo,
o dado é uma matéria-prima e precisa ser submetido aos processos de limpeza, transformação e análise. Novamente, a estatística nos auxilia com
métodos de amostragem que traduzem um conjunto de dados para informações mais específicas.
Para entendermos esses aspectos na prática, vamos analisar uma situação prática.
Shutterstock.com
Vamos pensar na formação de uma carteira de investimentos. Atualmente, ter acesso a dados dessa natureza é muito simples. Se você usa as
linguagens de programação Python ou R, vai encontrar funções que trazem os dados de ações negociadas na bolsa completamente estruturados.
Tendo esses dados em mão, queremos entender o comportamento de alguns ativos.
Mas faz sentido analisar todos os dados como se fizessem parte do mesmo grupo?
Devemos segmentá-los por atividades das empresas?
Que período é relevante estudarmos para fazer estimativas?
Essas são apenas algumas das perguntas a que precisamos responder para realizar um estudo sério sobre investimentos. Dentro de nosso
contexto de estudo, claramente, precisamos realizar uma amostragem aleatória para poder testar nossas hipóteses sobre o comportamento
expresso nos dados para o período que selecionamos.
Semelhante a esse exemplo, existem muitas outras situações para as quais os processos de seleção de amostras aleatórias são fundamentais
para obter uma análise de qualidade.
APÓS A LEITURA DO CASE, É HORA DE APLICAR SEUS
CONHECIMENTOS! VAMOS LIGAR ESSES PONTOS?
1. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ É RESPONSÁVEL POR MONITORAR UMA APLICAÇÃO DE BIG
DATA COM INTERNET DAS COISAS. O VOLUME DE DADOS E A VELOCIDADE COM QUE SÃO GERADOS
DIARIAMENTE SÃO GIGANTESCOS. NESSE CONTEXTO, QUE ESTRATÉGIA VOCÊ APLICARIA PARA DETECTAR
ANOMALIAS?
A) Submeter todos os dados a um processo de análise, de modo a identificar padrões de distribuição.
B) Testar hipóteses para algumas amostras de dados.
C) Concentrar a amostragem de dados em alguns momentos específicos do dia, para calcular a média ea variância amostral.
D) Fazer amostragem aleatória periódica e comparar a média e a variância amostrais com resultados de análises históricas.
E) Usar a média e a variância dos dados para estudá-los em relação à distribuição normal.
2. COMO VOCÊ VIU, O ESTUDO DA MÉDIA E DA VARIÂNCIA AMOSTRAIS É ÚTIL PARA IDENTIFICAR
PROPRIEDADES DOS DADOS POPULACIONAIS. EM SUA OPINIÃO, COMO ESSAS MEDIDAS PODEM SER
APLICADAS PARA EVITAR UMA ANÁLISE ENVIESADA?
A) As medidas das amostras aleatórias estão diretamente relacionadas às medidas dos dados populacionais.
B) Conhecendo a média e a variância de uma amostra, é possível relacionar os dados populacionais à distribuição normal.
C) Apesar da incerteza sobre a distribuição dos dados, a identificação da média e da variância populacional é um guia para uma análise sem viés.
D) Não há como fazer afirmações a respeito dos dados populacionais apenas com a média e a variância amostrais.
E) Só é possível calcular a média e a variância amostrais em aplicações de Big Data.
GABARITO
1. Considere o seguinte cenário: você é responsável por monitorar uma aplicação de Big Data com Internet das Coisas. O volume de
dados e a velocidade com que são gerados diariamente são gigantescos. Nesse contexto, que estratégia você aplicaria para detectar
anomalias?
A alternativa "D " está correta.
Analisar grandes volumes de dados em pouco tempo é um desafio. Ainda assim, alguns testes podem ser facilmente aplicados, como limites
mínimo e máximo com que os dados podem variar. No entanto, quando é necessário estudar o padrão desses dados em relação à forma como
são distribuídos, a melhor estratégia é fazer uma amostragem aleatória para calcular a média e a variância amostrais e compará-las com
resultados esperados.
2. Como você viu, o estudo da média e da variância amostrais é útil para identificar propriedades dos dados populacionais. Em sua
opinião, como essas medidas podem ser aplicadas para evitar uma análise enviesada?
A alternativa "A " está correta.
A amostragem aleatória é uma forma muito eficiente de fazer inferências sobre os dados populacionais a partir do estudo de um subconjunto
desses dados. Realizar esse processo com qualidade significa que todos os dados da amostra possuem a mesma chance de serem escolhidos.
Dessa forma, os resultados obtidos com as análises das amostras nos permitem fazer generalizações para os dados populacionais.
3. VOCÊ JÁ SABE QUE A AMOSTRAGEM ALEATÓRIA É UM MÉTODO MUITO
IMPORTANTE NO ESTUDO DE GRANDES VOLUMES DE DADOS, POIS ESSA
TÉCNICA PERMITE QUE COMPREENDAMOS O TODO A PARTIR DE UMA PARTE.
ATUALMENTE, DISPOMOS DE COMPUTADORES MUITO RÁPIDOS QUE PODEM
PROCESSAR GRANDES VOLUMES DE DADOS. CONSIDERANDO ESSE FATO, VOCÊ
ACREDITA QUE A AMOSTRAGEM ALEATÓRIA TEM VALOR PRÁTICO? JUSTIFIQUE
SUA RESPOSTA.
RESPOSTA
Espelho de resposta
De fato, os computadores modernos são muito velozes, além de ser possível utilizar infraestruturas
computacionais elaboradas de computação distribuída, que podem lidar com grandes demandas de
processamento. No entanto, quando trabalhamos com grandes volumes de dados e temos recursos
limitados, precisamos utilizar técnicas eficientes. Nesse sentido, a tecnologia é um importante aliado para
aplicarmos a amostragem aleatória.
DEFINIÇÕES INICIAIS
javascript:void(0)
Fonte: geralt/pixabay
O objetivo da Estatística é aprender características de uma população a partir de uma amostra. Tecnicamente, é a partir da introdução do
conceito de amostra, explanado no módulo anterior, que é feita a transição da probabilidade para a estatística.
Essas “características populacionais” que procuramos aprender são chamadas de parâmetros e costumam ser denotadas por letras do alfabeto
grego como μ, β ou θ, apesar de, ocasionalmente, também serem representadas por caracteres do nosso alfabeto.
Parâmetro - definição
Um parâmetro θ é qualquer função de uma população representada pela distribuição marginal f.
 EXEMPLO
A média populacional μ = E[X] é uma função de fX (x); no caso, é o primeiro momento de fX (x).
Estatística ‒ definição
Sejam X1,…,Xn uma amostra aleatória de tamanho n a partir de uma população, e seja T(x1,…,xn) uma função com valor real ou por vetor, cujo
domínio inclui o espaço amostral de (X1,…,Xn). Então, a variável aleatória ou vetor aleatório = T(X1,…,Xn) é chamado de uma estatística.
A DISTRIBUIÇÃO DE PROBABILIDADE DE UMA ESTATÍSTICA É CHAMADA
DISTRIBUIÇÃO AMOSTRAL DE 
O sumário da amostra aleatória fornecido por uma estatística pode incluir muitos tipos de informação.
 EXEMPLO
Ela pode dar o menor ou o maior valor na amostra, o valor médio, ou uma medida de variabilidade nas observações da amostra.
Assim como há uma diferença entre variáveis aleatórias (e.g. Xi) e suas realizações (e.g. x), há também uma distinção entre uma estatística como
função de uma amostra aleatória (neste caso, a estatística é uma variável aleatória) e uma estatística como função da realização da amostra.
No primeiro caso, a entendemos como função de amostra de variáveis aleatórias, enquanto no segundo a entendemos como função de valores já
realizados. Uma maneira de perceber essa distinção de maneira mais clara é pensar em termos de “antes de ver os dados da pesquisa” e “depois
de ver os dados da pesquisa”:
Estatística como função de uma amostra aleatória
Quando pensamos em uma estatística “antes de ver os dados da pesquisa” não sabemos o valor que ela pode tomar. Sob o nosso ponto de vista
— o do pesquisador — ela é desconhecida e aleatória.
θ̂
θ̂
θ̂

Estatística como função da realização da amostra.
Após observar os dados ― ou seja, “depois de examinar os dados da pesquisa” ― e, mais especificamente, computar a estatística, ela é um
número específico e, assim, uma realização. Ou seja, não irá tomar outros valores.
QUANDO REPETIMOS A AMOSTRAGEM ALEATÓRIA SOBRE UMA POPULAÇÃO,
GERAMOS REALIZAÇÕES DIFERENTES E, PORTANTO, ESTATÍSTICAS DIFERENTES.
Algumas estatísticas podem ser utilizadas para estimar parâmetros:
Estimador ‒ definição
Um estimador ̂para um parâmetro θ é uma estatística entendida como uma conjectura sobre θ.
Note que definimos o estimador utilizando a expressão vaga de “conjectura” (i.e. um palpite). Isso é intencional. Ao introduzir a definição de
estimador, desejamos incluir nela o maior número de possíveis estimadores.
Algumas vezes chamamos de estimador e outras, de estimativa. Há, porém, uma diferença fundamental entre esses nomes.
 estimador
Chamamos de estimador quando ele é expresso em função de variáveis aleatórias e, portanto, também é uma variável aleatória. Assim,
podemos utilizar a teoria de probabilidade que conhecemos para obter a distribuição de . Enquanto estivermos desenvolvendo a teoria a respeito
de θ ̂, o chamaremos de estimador de θ.

 estimativa
Chamamos de estimativa quando ele é um valor específico (ou realizado) calculado para uma amostra específica. Assim, em aplicações
específicas iremos nos referir a como estimativa de θ.
COMO OBTER UM ESTIMADOR ?
Um jeito simples é utilizando o princípio da analogia: expressar primeiro o parâmetro θ como função da população e, em seguida, expressar 
como função análoga para a amostra. Isso ficará mais claro a seguir, ao examinarmos a média amostral.
Um dos parâmetros fundamentais para o campo da Estatística é a esperança populacional representada por μ = E[X]. Por meio de transformações,
diversos parâmetros de interesse podem ser escritos em termos de esperanças populacionais.
ESPERANÇAS POPULACIONAIS
É a média tirada para toda a população.
PARA ESTIMAR Μ PELO PRINCÍPIO DA ANALOGIA, BASTA APLICAR A MESMA
FUNÇÃO À AMOSTRA. COMO Μ É A MÉDIA DE X PARA A POPULAÇÃO, O
θ̂
θ̂
θ̂
θ̂
θ̂
θ̂
θ̂
θ̂
θ̂
θ̂
javascript:void(0)
ESTIMADOR ANÁLOGO É A MÉDIA DE X PARA A AMOSTRA.
Média amostral - definição
A média amostral é a média aritmética dos valores de uma amostra aleatória. Isso geralmente é denotado por:
A média amostral é uma estatística, uma vez que é função da amostra. É também aleatória,como previamente discutido.
O QUE ISSO SIGNIFICA?
Significa que a média amostral não terá sempre o mesmo valor se utilizarmos amostras aleatórias diferentes, à distinção da média populacional μ,
que é um parâmetro populacional.
Agora, vamos definir os estimadores amostrais para variância e desvio-padrão:
VARIÂNCIA AMOSTRAL ‒ DEFINIÇÃO
A variância amostral é a estatística definida por:
DESVIO PADRÃO AMOSTRAL – DEFINIÇÃO
O desvio padrão amostral é a estatística definida por:
Em geral, suprimimos a notação funcional nas definições anteriores a respeito dessas estatísticas. Isto é, escrevemos:
S EM VEZ DE S(X1,…,XN).
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
A dependência da estatística na amostra é subentendida. Assim como antes, grafaremos os valores observados de estatísticas com letras
minúsculas. Desse modo:
, 𝑠2 E 𝑠 DENOTAM VALORES OBSERVADOS DE , 𝑆2 𝑒 𝑆.
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
A média amostral já é, provavelmente, familiar para o leitor.
A VARIÂNCIA E O DESVIO-PADRÃO DA AMOSTRA
A variância e o desvio-padrão da amostra são medidas de variabilidade na amostra, relacionadas à variância e ao desvio-padrão da população que
veremos a seguir. Começamos derivando algumas propriedades da média e da variância amostral.
PROPRIEDADES
X n = = ∑
n
i=1 Xi
X1+...+Xn
n
1
n
S2 =  ∑ni=1 (Xi − X n)
21
n−1
S  =  √S2
x X
javascript:void(0)
javascript:void(0)
Neste vídeo, o professor Raphael Bruce falará sobre as propriedades de uma amostra aleatória, por meio de seus teoremas.
Um assunto que é tratado com maior profundidade em estimação pontual, mas que vale ser introduzido desde já, é o de viés estatístico. Sem nos
aprofundarmos muito nesse assunto, dizemos que as estatísticas e S2 são, respectivamente, estimadores não viesados de μ e σ2.
Estimadores não viesados ‒ definição
Um estimador é dito não viesado se a sua esperança é igual à sua contrapartida populacional.
Nesses casos, E[ ] = μ e E[S2 ] = σ2..
Um detalhe importante a respeito de S2 é que se definirmos esse estimador como a média usual dos desvios quadráticos com n ao invés de n - 1
no denominador, então E[S2 ] seria igual a (n - 1)/n σ2, e, portanto, S2 não seria um estimador não viesado de σ2.
Por fim, apresentaremos algumas propriedades das quantidades amostrais obtidas a partir de uma população normal, que consiste em um dos
modelos estatísticos mais amplamente utilizados.
A amostragem a partir de uma população normal leva a muitas propriedades úteis da estatística e a muitas distribuições amostrais bastante
conhecidas.
Definição
Sejam X1,…,Xn uma amostra aleatória de uma distribuição N(μ, σ
2), e que e . Então:
 e S2 são variáveis aleatórias independentes;
 tem uma distribuição ;
 tem uma distribuição qui-quadrado com n - 1 graus de liberdade.
VERIFICANDO O APRENDIZADO
X n
X n
X n =  ∑
n
i=1  Xi
1
n S
2 =  ∑ni=1 (Xi − X n)
21
n−1
X n
X n N  (μ,   )
σ2
n
(n−1 )S2
σ2
1. SEJA TO O TEMPO NECESSÁRIO PARA TERMINAR O SIMULADO AO FINAL DESTE TEMA. PARA ESTIMAR A
MÉDIA E A VARIÂNCIA DE T, OBSERVAMOS UMA AMOSTRA ALEATÓRIA T1,T2,…,T6. ASSIM, OS TI SÃO
INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDAS E TEM A MESMA DISTRIBUIÇÃO DE T:
18, 21, 17, 16, 24, 20
ENCONTRE OS VALORES PARA A MÉDIA AMOSTRAL, A VARIÂNCIA AMOSTRAL E O DESVIO-PADRÃO
AMOSTRAL PARA ESSA AMOSTRA OBSERVADA E ASSINALE A ALTERNATIVA COM OS VALORES CORRETOS:
A) = 14.76, S2 = 4.32, S = 2.07
B) = 23.42, S2 = 7.61, S = 2.75
C) = 15.92, S2 = 5.12, S = 2.26
D) = 19.33, S2 = 8.67, S = 2.94
2. SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA COM UMA DISTRIBUIÇÃO UNIFORME U(0,Θ), EM QUE Θ É
DESCONHECIDO. DEFINA O ESTIMADOR:
 = MAX (X1,…,XN)
ENCONTRE O VIÉS DE , DADO POR B( ) = E[ ] - Θ, E O ERRO QUADRÁTICO MÉDIO DE , DADO POR EQM(
) = E[ - Θ]2.
PARA FACILITAR O CÁLCULO USE O FATO DE QUE .
ASSINALE A ALTERNATIVA CORRETA:
A) e 
B) e 
C) e 
D) e 
GABARITO
1. Seja To o tempo necessário para terminar o simulado ao final deste tema. Para estimar a média e a variância de T, observamos uma
amostra aleatória T1,T2,…,T6. Assim, os Ti são independentes e identicamente distribuídas e tem a mesma distribuição de T:
18, 21, 17, 16, 24, 20
Encontre os valores para a média amostral, a variância amostral e o desvio-padrão amostral para essa amostra observada e assinale a
alternativa com os valores corretos:
A alternativa "D " está correta.
Como vimos na seção 1, para obter a média aleatória, efetuamos o seguinte cálculo:
T
T
T
T
θ̂n
θ̂n θ̂n θ̂n θ̂n
θ̂n θ̂n
f
θ̂n
(y) = nfX(y)[FX(y)]
(n−1 )
B(θ̂n)= −
θ
n+1
EQM(θ̂n)=
2θ
2
(n+2 ) (n+1 )
B(θ̂n)=
θ
n+1
EQM(θ̂n)=
2θ
2
(n+2 ) (n+1 )
B(θ̂n)= −
θ
n+1
EQM(θ̂n)=
θ
2
(n+2 ) (n+1 )
B(θ̂n)=
θ
n+1
EQM(θ̂n)=
2θ
2
(n+2 ) (n+1 ) 2
T = = 
(T1+T2+T3+T4+T5+T6)
6
T = = 19. 33
8+21+17+16+24+20)
6
Para obter a variância amostral efetuamos o seguinte cálculo:
Por fim, para obter o desvio-padrão amostral basta tirar a raiz quadrada da variância amostral, ou seja:
Desse modo, a resposta certa é a letra d.
2. Seja X1,…,Xn uma amostra aleatória com uma distribuição uniforme U(0,θ), em que θ é desconhecido. Defina o estimador:
 = max (X1,…,Xn)
Encontre o viés de , dado por B( ) = E[ ] - θ, e o erro quadrático médio de , dado por EQM( ) = E[ - θ]2.
Para facilitar o cálculo use o fato de que .
Assinale a alternativa correta:
A alternativa "A " está correta.
Se X ~U(0,θ), então a distribuição marginal e a distribuição acumulada de X são dadas por:
Utilizando a o resultado auxiliar dado no enunciado :
Com a densidade marginal de , podemos agora obter E[ ]:
Logo, o viés de é dado por:
Resta agora obter EQM( ). Note que, pela fórmula do erro quadrático médio dada no enunciado, obtemos:
S
2
 = ∑
6
i = 1 (Ti − 19. 33)
2
 = 8. 671
n − 1
S = √8. 67 = 2. 94
θ̂n
θ̂n θ̂n θ̂n θ̂n θ̂n θ̂n
f
θ̂n
(y) = nfX(y)[FX(y)]
(n−1 )
fX(x)={
, se x ∈[0, θ]
0, caso contrário
1
θ
FX(x)=
⎧⎪⎪
⎨
⎪⎪⎩
0, se x < 0
, se 0 ≤ x ≤ θ
1, se x > θ
x
θ
θ̂n
= nfx(y)[Fx(y)]
(n−1 )
=
⎧
⎨⎩
, se y ∈[0, θ]
0, se caso contrário
f
θ̂n
(y)
nyn−1
θ
n
θ̂n θ̂n
E[θ̂n]= ∫
θ
0 y d y = θ
nyn−1
θn
n
n+1
θ̂n
B(θ̂n)= E[θ̂n]−θ = θ − θ = −
n
n+1
θ
n+1
θ̂n
EQM(θ̂n)= E[θ̂n − θ]
2
= E[θ̂n − E[θ̂n]+E[θ̂n]−θ]
2
= E[θ̂n − E[θ̂n]]
2
 + 2E[(θ̂n − E[θ̂n])(E[θ̂n]−θ)]+(E[θ̂n]−θ)
2
= E[θ̂n − E[θ̂n]]
2
 + 2E[(θ̂n − E[θ̂n])](E[θ̂n]−θ)+(E[θ̂n]−θ)
2
= E[θ̂n − E[θ̂n]]
2
 + 2(E[θ̂n]−E[θ̂n])(E[θ̂n]−θ)+(E[θ̂n]−θ)
2
= E[θ̂n − E[θ̂n]]
2
 + 2(0)(E[θ̂n]−θ)+(E[θ̂n]−θ)
2
= E[θ̂n − E[θ̂n]]
2
 + (E[θ̂n]−θ)
2
= Var(θ̂n)+B(θ̂n)
2
A derivação do erro quadrático médio em termos da variância e do viés é muito útil e importante. Recomenda-se que o aluno pratique até entender
os passos. Existem duas passagens cruciais. A primeira, logo no início, consiste em somar dentro da esperança original. Isso
equivale a somar por zero e permite a derivação posterior. Na segunda passagem importante, utilizamos o fato de ser uma constante para
chegar ao resultado. Isso se dá, pois, a esperança é uma constante e θ também.
Desse modo, temos:
Precisamos obter para chegarmos a ). Temos, portanto:
Logo, a variância de é dada por:
Segue que a resposta certa é o item “a”.
MÓDULO 3
 Empregar os principais teoremas-limite da teoria estatística, assim como suas intuições e utilidades práticas no exercício da Estatística
LIGANDO OS PONTOS
Você conhece a teoria dos grandes números? Conseguiria utilizá-la para encontrar oportunidades de ofertas de serviços tanto no setor público
quanto no privado? Vamos entender esse conceito na prática.
Shutterstock.com
A distribuição normal ocupa o posto mais importante das distribuições de probabilidade. Seu formato é de um sino, no qual os dados são
distribuídos simetricamente em torno da média.
Essa distribuição é bastante intuitiva, e é fácil encontrar aplicações práticas nas mais diferentes áreas, que vão da distribuição das alturas das
crianças de uma escola até oestudo do movimento dos planetas em torno do Sol. Não é à toa que ela recebe o nome de distribuição normal.
−E[θ̂n] + E[θ̂n]
E[θ̂n]−θ
E[θ̂n]
EQM(θ̂n)= Var(θ̂n)+B(θ̂n)
2
= Var(θ̂n)+(− )
2θ
n+1
E[θ̂
2
n] Var(θ̂n)
E[θ̂
2
n]= ∫
θ
0 y
2
d y = θ
2nyn−1 
θ
n
n
n+2
θ̂n
Var(θ̂n)= E[θ̂
2
n]−E[θ̂
2
n]
2
= θ
2
− ( θ)
2
= θ
2n
n+2
n
n+1
n
(n+2 ) (n+1 ) 2
Entretanto, ela não pode ser aplicada a qualquer situação. Por exemplo, a distribuição normal não é recomendada para o estudo de ativos
negociados na bolsa de valores, pois não possui mecanismos que reproduzam os comportamentos altamente dinâmicos dos dados das séries
temporais. Nesse caso, há distribuições mais adequadas que utilizam o conceito de variação dos erros para cada valor da série. Mas, mesmo
nesses casos, a distribuição normal pode nos ajudar, devido ao Teorema Central do Limite
Ao aplicarmos a amostragem aleatória para analisar um conjunto de dados, podemos calcular sua média e variância amostrais. Com essas
informações, podemos estudar os dados a partir do Teorema Central do Limite.
Atualmente, com a disponibilidade de recursos tecnológicos e com aplicações que lidam com grandes volumes de dados, conhecer o Teorema
Central do Limite para resolver problemas práticos é fundamental.
APÓS A LEITURA DO CASE, É HORA DE APLICAR SEUS
CONHECIMENTOS! VAMOS LIGAR ESSES PONTOS?
TEOREMA CENTRAL DO LIMITE
Em muitos textos, é utilizada a expressão Teorema do Limite Central. A ideia é a seguinte: se as variáveis aleatórias forem independentes e
identicamente distribuídas (iid), então a média delas segue a distribuição normal. Esse resultado é muito importante, pois nos oferece uma
ferramenta para estudarmos qualquer conjunto de dados, desde que sejam iid.
1. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ É O RESPONSÁVEL PELA VERIFICAÇÃO DA QUALIDADE DOS
DADOS DE UMA APLICAÇÃO DE STREAMING. ESSE TIPO DE APLICAÇÃO É MUITO POPULAR E, CLARO,
ENVOLVE MUITOS INTERESSES COMERCIAIS. PORTANTO, QUALIDADE É ESSENCIAL. NESSE CONTEXTO,
QUAL É A ESCOLHA ADEQUADA PARA QUE VOCÊ ANALISE ESSES DADOS DE MODO EFICIENTE?
A) Analisar todos os dados transmitidos para os usuários do sistema e compará-los com valores de referência.
B) Aguardar pelas solicitações dos usuários do serviço para realizar uma verificação focada em resolver um problema.
C) Realizar amostragem aleatória, calcular as medidas amostrais e compará-las com as medidas de referência da população.
D) Realizar testes de transmissão em ambientes controlados para evitar a ocorrência de algum problema enquanto os usuários consomem o
serviço.
E) Calcular a média e a variância amostral no início, na metade e no final da transmissão para comparar com valores de referência.
2. COMO VOCÊ VIU, IDENTIFICAR PADRÕES EM UM CONJUNTO DE DADOS É UM PROCESSO QUE ENVOLVE
PLANEJAMENTO E INVESTIGAÇÃO CUIDADOSA. POR ISSO, É IMPORTANTE APLICAR CONCEITOS DE
PROBABILIDADE, COMO O TEOREMA CENTRAL DO LIMITE. NESSE SENTIDO, QUAL É O RESULTADO
ESPERADO DE CALCULAR A MÉDIA DE UMA SEQUÊNCIA DE AMOSTRAS ALEATÓRIAS PARA UM CONJUNTO DE
DADOS SOBRE O QUAL VOCÊ NÃO TEM CONHECIMENTO QUANTO À FUNÇÃO DE DISTRIBUIÇÃO?
A) Será obtida a distribuição que corresponde ao conjunto de dados originais.
B) A tendência é que a variância dos erros amostrais reduza com o cálculo de cada média amostral.
C) As médias amostrais vão determinar os limites inferior e superior dos valores dos dados originais.
D) A distribuição das médias das sequências corresponderá à distribuição normal.
javascript:void(0)
E) Não é possível fazer afirmações sobre o resultado esperado, pois o Teorema Central do Limite só pode ser aplicado para dados que seguem a
distribuição normal.
GABARITO
1. Considere o seguinte cenário: você é o responsável pela verificação da qualidade dos dados de uma aplicação de streaming. Esse tipo
de aplicação é muito popular e, claro, envolve muitos interesses comerciais. Portanto, qualidade é essencial. Nesse contexto, qual é a
escolha adequada para que você analise esses dados de modo eficiente?
A alternativa "C " está correta.
Serviços de streaming envolvem grande fluxo de dados em tempo real. Certamente, há medidas que funcionam como referência de qualidade da
realização do serviço. Nesse tipo de aplicação, a amostragem aleatória é bastante adequada para acompanhar o desempenho do serviço e, se for
necessário, acionar os responsáveis para corrigir a ocorrência de algum problema.
2. Como você viu, identificar padrões em um conjunto de dados é um processo que envolve planejamento e investigação cuidadosa. Por
isso, é importante aplicar conceitos de probabilidade, como o Teorema Central do Limite. Nesse sentido, qual é o resultado esperado de
calcular a média de uma sequência de amostras aleatórias para um conjunto de dados sobre o qual você não tem conhecimento quanto
à função de distribuição?
A alternativa "D " está correta.
O Teorema Central do Limite é um importante instrumento na investigação de padrões dos dados. Ele afirma que as médias de amostras aleatórias
para um grande conjunto de dados seguem a distribuição normal. Dessa forma, é possível explorar características dos dados originais sem,
necessariamente, conhecer a distribuição deles.
3. VOCÊ JÁ SABE A IMPORTÂNCIA DO CONHECIMENTO DOS CONCEITOS DE
ESTATÍSTICA E PROBABILIDADE NA ANÁLISE EXPLORATÓRIA DE DADOS.
ATUALMENTE, TEMOS À DISPOSIÇÃO PROGRAMAS QUE OFERECEM MUITOS
RECURSOS PARA AUXILIAR NESSE PROCESSO INVESTIGATIVO. COM BASE EM
SUA EXPERIÊNCIA, É INTERESSANTE PARA A FORMAÇÃO DE UM PROFISSIONAL
ALIAR O CONHECIMENTO TEÓRICO COM O USO DE FERRAMENTAS
COMPUTACIONAIS, OU É MELHOR FAZER UMA DISTINÇÃO ENTRE ESSAS ÁREAS?
JUSTIFIQUE SUA RESPOSTA.
RESPOSTA
Espelho de resposta
A análise de dados é fundamental para dar suporte à tomada de decisão. Demandas desse tipo podem ser
facilmente encontradas em diferentes segmentos da sociedade que dispõem de grande volume de dados,
como é o caso, por exemplo, dos setores financeiros, educacionais e de entretenimento. Para realizar o
javascript:void(0)
processo investigativo, é importante combinar os conhecimentos teórico e prático, pois isso dá mais
flexibilidade ao profissional para explorar características não triviais dos dados com o uso de ferramentas
computacionais que aceleram o processo investigativo e aumentam a confiança nos resultados obtidos.
NOÇÕES DE CONVERGÊNCIA
Este módulo aborda a ideia um tanto fantasiosa de permitir que o tamanho da amostra aproxime-se do infinito e investiga o comportamento de
determinadas estatísticas amostrais à medida que isso acontece.
Embora a noção de uma amostra de tamanho infinito seja um artefato puramente teórico, isso nos oferece algumas aproximações úteis para o
caso da amostra finita, uma vez que, geralmente, expressões algebricamente complexas tornam-se simplificadas no limite.
Fonte: Freepik
Neste estágio, estamos preocupados, principalmente, com dois tipos de convergência e as abordaremos em níveis de detalhes diferentes. Em
particular, queremos observar o comportamento de , a média de n observações, à medida que n ⟶ ∞.
Primeiro, iremos explorar o conceito de convergência em probabilidade. Esse tipo de convergência é o mais fraco e, por isso, geralmente, é
bastante fácil de ser verificado.
Convergência em probabilidade ‒ definição
Uma sequência de variáveis aleatórias, X1,X1,…, converge em probabilidade para uma variável aleatória X se, para cada ϵ > 0:
Ou, de modo equivalente:
Vamos analisar as duas expressões:
1° expressão
A primeira expressão nos diz que se a probabilidade da sequência Xn ficar distante de X, vai diminuindo à medida que a amostra aumenta.

2° expressão
A segunda expressão enuncia a afirmação equivalente de que a probabilidade de os valores tomados por Xn serem próximos dos valores de X
aumenta à medida que a amostra aumenta.
X n
lim
n→∞
P(|Xn − X|≥∈)= 0
lim
n→∞
P(|Xn − X|<∈)= 1
1
As variáveis aleatórias da sequência X1, X2,… são, tipicamente, variáveis aleatórias independentes e identicamente distribuídas,como em uma
amostra aleatória.
A distribuição de Xn modifica-se à medida que o subscrito se modifica, e os conceitos de convergência discutidos neste módulo descrevem
diversos modos pelos quais a distribuição de Xn converge para alguma distribuição limite.
2
3
Neste caso, dizemos, que X é o limite em probabilidade de Xn. Muitas vezes, é utilizado também o termo “plim” (do inglês probability limit) para
indicar o limite em probabilidade, como em plimXn = X.
Apesar de a definição anterior ser um tanto técnica, ela transmite uma intuição simples, que ficará mais clara com o teorema abaixo, que é um dos
principais resultados da teoria estatística.
a) Teorema ‒ Lei Fraca dos Grandes Números (LFrGN)
Sejam X1, X2,…, variáveis aleatórias iid com E[Xi] = μ e Var[Xi] = σ
2 < ∞. Definimos . Então, temos que converge em
probabilidade para μ. Ou seja, para cada ϵ > 0, segue que:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
ESTE TEOREMA, DE MODO BASTANTE ELEGANTE ESTABELECE QUE, SOB
CONDIÇÕES GERAIS, A MÉDIA AMOSTRAL APROXIMA-SE DA MÉDIA
POPULACIONAL À MEDIDA QUE AUMENTAMOS O TAMANHO DA NOSSA AMOSTRA,
OU SEJA, À MEDIDA QUE N ⟶ ∞.
Exemplo
Imagine uma bolsa cheia de dados honestos de seis faces. Se tirarmos o valor esperado de um dado de seis faces, obteremos o valor
.
Imagine que cada dado representa uma variável aleatória Xi.
¯̄X̄ n = ∑
n
i=1 Xi
1
n
¯̄X̄ n
lim
n→∞
P(∣∣¯̄X̄ n − μ∣∣<∈)= 1
μ = = 3, 51+2+3+4+5+6
6
PIRO4D/pixabay
Seguindo o exemplo apresentado:
Inicialmente, jogamos apenas dois dados e tiramos a média dos valores sorteados.

Em seguida, jogamos três dados e tiramos novamente a média desses três valores sorteados.

Em cada rodada ,aumentamos o número de dados que jogamos e tiramos a média dos valores sorteados.
O que a LFrGN nos diz é que quanto maior o número de dados usarmos para tirar a média amostral, mais próximo o valor dela será da esperança
populacional μ = 3,5.
Sob a luz do exemplo apresentado, o uso da probabilidade na definição da LFrGN enuncia que quanto maior o número de dados de seis faces que
jogamos, maior a certeza de que a média amostral está próxima da média populacional.
QUANDO UMA SEQUÊNCIA DE VARIÁVEIS ALEATÓRIAS ATENDE ÀS HIPÓTESES DA
LFRGN, DIZEMOS QUE ELA É CONSISTENTE.
Vejamos, por exemplo, o caso da consistência da variância amostral S2. Suponha que tenhamos uma sequência X1,X2,…, de variáveis aleatórias
independentes e identicamente distribuídas com:
.
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Se definimos:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
E[Xi]  =  μ e V ar[Xi] = σ2 < ∞
S2n = ∑
n
i=1 (Xi − ¯̄X̄ n)
21
n−1
Será possível provar a LFrGN para utilizando a Desigualdade de Chebyshev, um resultado muito útil de estatística, especialmente para
demonstrações da LFrGN.
b) Teorema ‒ Desigualdade de Chebyshev
Seja X uma variável aleatória e g(x) uma função não negativa. Então, para qualquer δ > 0, temos:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
INTUITIVAMENTE, O QUE ESSA DESIGUALDADE NOS DIZ É QUE QUANTO MAIS
LONGE UMA VARIÁVEL ALEATÓRIA ESTÁ DE SUA ESPERANÇA POPULACIONAL,
MAIS RARA É SUA OCORRÊNCIA. ELA MOSTRA O “GRAU DE CONCENTRAÇÃO” DA
PROBABILIDADE PERTO DE E[X].
Desse modo, temos:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Por esse resultado, encontramos que a condição necessária para que seja um estimador consistente de σ2 é que à medida que
n ⟶ ∞.
CONVERGÊNCIA EM DISTRIBUIÇÃO
Agora, exploraremos um novo tipo de convergência: a convergência em distribuição.
Convergência em distribuição ‒ definição
Sejam X1,X2,… uma sequência de variáveis aleatórias. Dizemos que essa sequência converge em distribuição para uma variável aleatória X. Se,
para todos os pontos x em que FX(x) é contínua, temos:.
É comum referir-se a FX (x) como a distribuição assintótica de Xn. Apesar de o nome indicar que a sequência de variáveis aleatórias converge em
distribuição, são realmente as funções de distribuição acumulada que convergem, não as variáveis aleatórias.
Nesse sentido, a convergência em distribuição é muito diferente da convergência em probabilidade. Porém, vale notar que essa convergência é
implícita à convergência em probabilidade, como mostra o 1º teorema a seguir:
1° Teorema
Se a sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma variável aleatória X, ela também converge em distribuição
para X.

S2n
P(|X − E[X]|≥ δ)≤
V ar [X ]
δ2
P(∣∣S2n − δ2∣∣≥∈)= P((S2n − δ2)
2
≥∈2)≤ =E [S
2
n−δ2 ]
2
∈2
V ar [S2n ]
∈2
S2n V ar[S2n]→ 0
lim
n→∞
FXn(x)=  FX(x)
2° Teorema
A sequência de variáveis aleatórias X1,X2,… converge em probabilidade para uma constante c, se, e somente se, também convergir em
distribuição para essa constante.
 ATENÇÃO
Vale frisar que a implicação contrária citada no 1° teorema nem sempre é verdadeira: nem toda sequência de variáveis aleatórias X1,X2,… que
converge em distribuição para X converge também em probabilidade para essa variável aleatória. Existe uma exceção importante: quando a
sequência converge para uma constante. Nesse caso, vale o 2° teorema.
VAMOS OBSERVAR O CASO DA MÉDIA AMOSTRAL :
1
Vimos, anteriormente, como consequência da LFrGN, que essa variável converge em probabilidade para μ.
No segundo teorema vimos que a convergência em probabilidade para uma constante implica convergência em distribuição para a mesma.
2
3
Temos também que converge em distribuição para μ.
Uma distribuição desse tipo tem pouca utilidade para fins estatísticos. Para que esses resultados adquiram alguma utilidade, precisamos ponderar
 de maneira um pouco diferente.
Para isso, lembre-se que:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Isso significa que:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Vamos chamar , de modo que temos e . Possuímos, assim, a esperança populacional e a variância
para essa variável aleatória.
¯̄X̄ n
¯̄X̄ n
¯̄X̄ n
V ar[¯̄X̄ n − μ]= σ
2
n
V ar[√n(¯̄X̄ n − μ)]=  σ2
Zn = √n(¯̄X̄ n − μ) E[Zn]= 0 V ar[Zn]= σ2
COMO PODEMOS DEFINIR A DISTRIBUIÇÃO ASSINTÓTICA DE ZN, ISSO É, A FZ(X) DA
QUAL A FZN(X) É O LIMITE?
Outro resultado de considerável relevância para a estatística, que nos dará a resposta para essa pergunta, é o Teorema do Limite Central.
c) Teorema central do limite
Definição
Seja X1,X2,… uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com E[Xi] = μ e Var[Xi] = σ
2 > 0.
Defina a média amostral como .
Então, temos que à medida que n ⟶ ∞, converge em distribuição para uma normal N(0,σ2>) e, consequentemente, 
converge em distribuição para uma normal padrão N(0,1).
Nessa definição, utilizamos o fato de que uma variável aleatória qualquer X, que segue uma normal N(μ,σ^2 ), pode ser padronizada para uma
variável aleatória Z=(X-μ)/σ, que segue uma normal N(0,1). Essa formulação do teorema central do limite (TCL) é conhecida como formulação
Lindeberg-Lévy.
LINDEBERG-LÉVY
Jarl Lindeberg (1876-1932) e Paul Lévy (1886-1971)
Matemáticos que deixaram contribuições essenciais para que o resultado do TCL fosse alcançado.
O TCL é extremamente poderoso.
PRIMEIRO
SEGUNDO
PRIMEIRO
Começamos com pouquíssimas hipóteses, basicamente exigimos amostragem aleatória e variância finita, e terminamos com normalidade. Essa
normalidade no limite surge da soma de pequenos distúrbios independentes (representados pela variância σ2 finita).
SEGUNDO
O TCL nos diz que, se temos um problema no qual estamos interessados na soma de muitas variáveis aleatórias iid X_i, é possível obter de
imediato a distribuição dessa soma se soubermos a média e a variância de Xi.
UM CASO DE INTERESSE QUE ENVOLVE A SOMA DE MUITAS VARIÁVEIS
ALEATÓRIAS É A MÉDIA AMOSTRAL.
Voltando para o exemplo da bolsa cheia de dados de seis faces, cada dado segue uma distribuição uniforme: aprobabilidade de cair qualquer uma
das seis faces é igual. Assim, se jogarmos o mesmo dado 500 vezes, veremos algo próximo de uma distribuição uniforme. Porém, esse resultado
não vale para o valor da média amostral.
¯̄X̄ n = ∑
n
i=1 Xi
1
n
√n(X n − μ)
√n ( X n−μ )
σ
javascript:void(0)
Vamos continuar analisando o exemplo dos dados honestos e um novo exemplo baseado na altura de todos os cidadãos do Brasil.
DADOS HONESTOS
Suponha agora que dois dados sejam jogamos 500 vezes, computando a média do valor de ambos para as 500 rodadas.
A distribuição ficará mais densa em torno da média 3,5 e mais “leve” nas caudas, perto de 1 e 6. Se repetirmos esse procedimento anotando 500
vezes a média para três dados, quatro dados, e assim por diante, a distribuição se aproximará de uma distribuição normal.
Assim, a média de variáveis aleatórias com distribuição uniforme tem distribuição assintótica normal. Isso não vale somente para uma distribuição
uniforme. Qualquer distribuição com variância finita terá, como distribuição assintótica de sua média, uma distribuição normal.
ALTURA DOS CIDADÃOS DO BRASIL
Suponha que tenhamos uma base de dados com informações sobre a altura de todos os cidadãos do Brasil. Para testar o TCL, pegaríamos 10
amostras aleatórias dessa base de dados e tiraríamos a altura média para cada uma dessas alturas.
Se fizéssemos um histograma dessas médias, ele lembraria o formato de sino da distribuição normal. Repetindo o mesmo procedimento com 100
amostras aleatórias, o histograma ficaria mais semelhante a uma distribuição normal. À medida que aumentássemos o número de amostras, mais
o histograma convergiria para a distribuição normal.
Um detalhe fascinante do TCL é que, mesmo sabendo o histograma verdadeiro da altura dos cidadãos brasileiros, o histograma dessas médias
amostrais seguirá o formato de uma distribuição normal.
HISTOGRAMA
Representação gráfica em colunas ou em retângulo de um conjunto de dados previamente tabulado e dividido em classes uniformes ou não
uniformes. A base de cada retângulo representa uma classe.
 ATENÇÃO
Um detalhe importante sobre o TCL é que podemos relaxar a hipótese de que todas as variáveis aleatórias da sequência precisam ser
identicamente distribuídas.
Agora, vamos deixar que cada X_i tenha sua própria esperança populacional μi e variância σi
2. Desse modo, temos a seguinte formulação
alternativa do teorema TCL:
Teorema central do limite (versão mais geral).
Neste teorema, seja X1,X2,…, uma sequência de variáveis aleatórias independentes, com E[Xi] = μi e Var[Xi] = σi2 > 0. Defina a média amostral
como:
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Sob algumas condições gerais, temos que à medida que n⟶∞, consequentemente:
¯̄X̄ n = ∑
n
i=1 Xi
1
n
∑ni=1 Xi − ∑
n
i=1 μi
√∑n
i=1 σ
2
i
javascript:void(0)
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Converge em distribuição para uma normal padrão N(0,1).
As condições gerais mencionadas no enunciado dessa formulação do TCL podem ser descritas da seguinte maneira:
CADA PARCELA DA SOMA CONTRIBUI COM UM VALOR SEM IMPORTÂNCIA PARA A
VARIAÇÃO DA SOMA, SENDO MUITO IMPROVÁVEL QUE QUALQUER PARCELA
ISOLADA DÊ UMA CONTRIBUIÇÃO MUITO GRANDE PARA A MESMA.
FORMALMENTE, ESSAS CONDIÇÕES SÃO CONHECIDAS COMO CONDIÇÕES DE
LYAPUNOV.
ALEKSANDER LYAPUNOV (1857-1918)
Matemático russo, pioneiro na formulação do TCL nesses termos.
Neste vídeo, o professor Raphael Bruce mostrará exemplos numéricos para ilustrar alguns teoremas apresentados.
VERIFICANDO O APRENDIZADO
1. (ANPEC 2006 ‒ MODIFICADA): INDIQUE SE AS AFIRMAÇÕES ABAIXO SÃO FALSAS OU VERDADEIRAS E
ASSINALE A OPÇÃO QUE CONTÊM TODAS AS VERDADEIRAS:
javascript:void(0)
A DESIGUALDADE DE CHEBYSHEV É ÚTIL PARA CALCULAR O LIMITE INFERIOR PARA A PROBABILIDADE
DE UMA VARIÁVEL ALEATÓRIA COM DISTRIBUIÇÃO CONHECIDA QUANDO SE TEM APENAS A VARIÂNCIA
DA POPULAÇÃO.
SEJAM Y1,…,YN VARIÁVEIS ALEATÓRIAS INDEPENDENTES COM MÉDIA Μ E VARIÂNCIA FINITA. PELA LEI
DOS GRANDES NÚMEROS, .
SEJAM EM>Y1,…,YN VARIÁVEIS ALEATÓRIAS INDEPENDENTES COM MÉDIA Μ E VARIÂNCIA FINITA. PELO
TEOREMA CENTRAL DO LIMITE, PARA UM N SUFICIENTEMENTE GRANDE, PODEMOS DIZER QUE A
DISTRIBUIÇÃO DA MÉDIA AMOSTRAL SEGUE, APROXIMADAMENTE, UMA DISTRIBUIÇÃO
NORMAL .
A) Apenas as afirmações II e III são verdadeiras.
B) Apenas a afirmação I é verdadeira.
C) Apenas a afirmação II é verdadeira.
D) Apenas a afirmação III é verdadeira.
2. (ANPEC 2012 ‒ MODIFICADA): INDIQUE SE AS AFIRMAÇÕES ABAIXO SÃO FALSAS OU VERDADEIRAS E
ASSINALE A OPÇÃO QUE CONTÊM TODAS AS VERDADEIRAS:
SEJAM X1,…,XN VARIÁVEIS ALEATÓRIAS INDEPENDENTES E IDENTICAMENTE DISTRIBUÍDAS, TAIS QUE
E[XI]= Μ < ∞. SE VAR[XI] CONVERGE PARA 0 À MEDIDA QUE A AMOSTRA AUMENTA, ENTÃO XI CONVERGE
EM PROBABILIDADE PARA Μ.
SEJA X1,X2,…, UMA SEQUÊNCIA DE VARIÁVEIS ALEATÓRIAS. ESSA SEQUÊNCIA CONVERGE EM
PROBABILIDADE PARA UMA CONSTANTE Μ SE, E SOMENTE SE, ESSA SEQUÊNCIA TAMBÉM CONVERGE
EM DISTRIBUIÇÃO PARA Μ.
SEJA X1,…,XN UMA AMOSTRA ALEATÓRIA MÉDIA X ̅ E VARIÂNCIA 0 < S2 < ∞. PODEMOS AFIRMAR QUE
 COM CONVERGE PARA UMA DISTRIBUIÇÃO NORMAL COM MÉDIA Μ E VARIÂNCIA .
A) Apenas as afirmações I e II são verdadeiras.
B) Apenas as afirmações II e III são verdadeiras.
C) Apenas a afirmação I é verdadeira.
D) Apenas as afirmações I e III são verdadeiras.
E[ ∑
n
i=1 Yi]= μ
1
n
Y = ∑
n
i=1 Yi
1
n
N(μ, )σ
2
n
W = c X c ∈ R σ
2
n
GABARITO
1. (ANPEC 2006 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm todas as
verdadeiras:
A desigualdade de Chebyshev é útil para calcular o limite inferior para a probabilidade de uma variável aleatória com distribuição
conhecida quando se tem apenas a variância da população.
Sejam Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pela Lei dos Grandes Números, .
Sejam em>Y1,…,Yn variáveis aleatórias independentes com média μ e variância finita. Pelo Teorema Central do Limite, para um n
suficientemente grande, podemos dizer que a distribuição da média amostral segue, aproximadamente, uma
distribuição normal .
A alternativa "D " está correta.
A afirmação I é falsa, como visto na seção 1. Lembre-se que a desigualdade de Chebyshev é dada por , ou seja, é
necessário saber a média E[X] além da variância Var[X].
A afirmação II é falsa, como visto na seção 1. O resultado é consequência da propriedade da esperança, e não da lei dos
grandes números, pois .
Finalmente, temos que a afirmação III é verdadeira, como visto na seção 2.
Veja que e .
Utilizando a versão mais geral do TCL, temos que onverge em distribuição para uma normal padrão N(0,1),
ou seja, à medida que a amostra cresce, se aproxima de uma normal e, por fim, se aproxima de uma normal .
2. (ANPEC 2012 ‒ modificada): Indique se as afirmações abaixo são falsas ou verdadeiras e assinale a opção que contêm todas as
verdadeiras:
Sejam X1,…,Xn variáveis aleatórias independentes e identicamente distribuídas, tais que E[Xi]= μ < ∞. Se Var[Xi] converge para 0 à
medida que a amostra aumenta, então Xi converge em probabilidade para μ.
Seja X1,X2,…, uma sequência de variáveis aleatórias. Essa sequência converge em probabilidade para uma constante μ se, e
somente se, essa sequência também converge em distribuição para μ.
Seja X1,…,Xn uma amostra aleatória média X ̅ e variância 0 < s2 < ∞. Podemos afirmar que com converge para uma
distribuição normal com média μ e variância .
A alternativa "A " está correta.
A afirmação I é verdadeira. Pela desigualdade de Chebyshev, temos que ou seja, . Se , temos
que , ou seja Xn converge em probabilidade para μ.
A afirmação II também é verdadeira. Se uma sequência de variáveis aleatórias converge em probabilidade para uma variável aleatória X, também
E[ ∑ni=1 Yi]= μ
1
n
Y = ∑
n
i=1 Yi
1
n
N(μ, )σ
2
n
P(|X − E[X]|≥ σ)≤
Var [X ]
σ
2
E [ ∑
n
i=1 Yi] = μ
1
n
E [ ∑
n
i=1 Yi] = E [∑
n
i=1 Yi] = (n)μ = μ
1
n
1
n
1
n
μ = ∑n
i=1 μi = ∑
n
i=1 μ = = μ
1
n
1
n
nμ
n
σ
2
= ∑
n
i=1 σ
2
i
 = ∑
n
i=1 σ
2
 = = σ
21
n
1
n
nσ
2
n
 = = 
∑
n
i=1 Yi−∑
n
i=1 μi
√∑ni=1 σ
2
i
( ) (∑
n
i=1 Yi−nμ)
1
n
( )√nσ21n
Y −μ
√ σ
2
n
Y − μ N (0, )σ
2
n
Y N (μ, )σ
2
n
W = c X c ∈ R
σ
2
n
P(|X − E[X]|≥ σ)≤
Var [X ]
σ
2 P(∣∣Xn − μ∣∣≤∈)> 1 −
σ
2
n
∈
2 σ
2
n → n
lim
n→∞
P(∣∣Xn − μ∣∣≤∈)= 1
converge em distribuição para X. O inverso não é sempre verdadeiro. Uma exceção importante é o caso em que X é uma constante, como no
enunciado. Nesse caso, a convergência em distribuição para uma constante X = μ implica convergência em probabilidade para essa mesma
constante.
A afirmação III é falsa, como vimos na seção 3. Pelo TCL temos que converge em distribuição para uma normal padrão N(0,1). Como
, temos que também converge em distribuição para uma normal padrão N(0,1). Rearranjando os termos, obtemos que 
converge para e, por fim, W converge em distribuição para .
CONCLUSÃO
CONSIDERAÇÕES FINAIS
Amostras são subconjuntos de alguma população. Analisamos amostras porque, em geral, não é factível estudar a população como um todo. Por
exemplo, ao testar a eficácia de uma vacina, usamos uma amostra de pessoas suscetíveis à doença contra a qual busca-se proteção.
O objetivo da análise de amostras é, no fim das contas, fazer inferências sobre a população como um todo: se a vacina funcionar bem em
amostras aleatórias, também deve funcionar para a população. Formalizamos isso ao estudar inferências a partir de amostras. Finalmente,
estabelecemos alguns dos resultados fundamentais para esse tipo de inferência: a Desigualdade de Chebyshev, a Lei (Fraca) dos Grandes
Números e o Teorema Central do Limite.
AVALIAÇÃO DO TEMA:
REFERÊNCIAS
CASELLA, G.; BERGER, R. L. Inferência estatística. 2. ed. São Paulo: Cengage Learning, 2011.
MEYER, P. L. Probabilidade: aplicações à Estatística. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1983.
ROSS, S. Probabilidade: um curso moderno com aplicações. 8. ed. Porto Alegre: Bookman, 2009.
EXPLORE+
( X −μ )
√ σ
2
n
W = c X
(W−cμ )
√ c
2σ2
n
W − cμ
N(0, c2σ2) N(cμ, )c
2
σ
2
n
Para fixar os conceitos, recomenda-se a leitura do Capítulo 8 do livro Probabilidade: um curso moderno com aplicações (8ª edição), de Sheldon
Ross. Esse capítulo abrange uma grande variedade de exercícios sobre os conteúdos do Módulo 3.
Do livro Probabilidade: aplicações à Estatística (2ª edição), de Paul Meyer, recomenda-se a seção 7.8 (referente à desigualdade de Chebyshev) e
os capítulos 12 e 13. O Capítulo 12 cobre, em maior profundidade, os tópicos do Módulo 3, enquanto o Capítulo 13 cobre o Módulo 1.
CONTEUDISTA
Raphael Guinâncio Bruce

Continue navegando