Buscar

3 1 1-Amostragem

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

NÃO PODE FALTAR
AMOSTRAGEM
Gabriel Ferreira dos Santos Silva
CONVITE AO ESTUDO
Caro aluno 
Nesta unidade, começaremos a aprofundar um pouco mais o conteúdo de
Probabilidade e Estatística para Análise de Dados. Você perceberá que diversos
conceitos abordados de forma super�cial anteriormente serão contemplados de
modo mais detalhado, permitindo desenvolver um conhecimento cada vez mais
sólido sobre o assunto. Esta unidade, denominada Amostragem e distribuição de
dados, está estruturada em três aulas: 1. Amostragem; 2. Distribuição de dados; e
3. Análise de distribuição de dados em R.
Na primeira seção ou aula, retomaremos as discussões relacionadas à
amostragem, porém com maior profundidade do que aquela observada na
segunda seção da Unidade 1. Discutiremos acerca dos conceitos de amostragem
Fonte: Shutterstock.
Áudio disponível no material digital.
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
1 of 20 28/11/2022 20:02
aleatória simples, seleção aleatória, tamanho e qualidade da amostra, além da
distribuição de amostragem, que nos permitirá entender um pouco mais sobre o
Teorema do Limite Central.
Na segunda seção ou aula, discutiremos os principais tipos de distribuição, bem
como suas distinções entre si, de modo a entender de que forma esses conceitos
são aplicados no dia a dia. Além dos tipos de distribuição, trabalharemos também
algumas questões relacionadas a dois tipos importantes de funções: a de
distribuição de dados e a de densidade de probabilidade.
Por �m, na seção 3, além de trabalharmos alguns aspectos teóricos primordiais,
como erros e intervalos de con�ança, reamostragem e análise dos tipos de
distribuição, aplicaremos os tópicos discutidos em exercícios com o R, o que nos
permitirá �xar a teoria por meio da atividade prática.
Os conceitos apresentados nesta unidade são de grande relevância para a análise
de dados, principalmente quando falamos de análises que envolvem maior
complexidade. Compreendê-los, portanto, é de suma importância, não só para
esta disciplina, mas também para as demais do curso.
Uma excelente unidade! 
PRATICAR PARA APRENDER
Caro aluno
Na segunda seção da Unidade 1, trabalhamos alguns conceitos iniciais de
amostragem, apresentando, de forma introdutória, a importância em obter uma
amostra representativa de uma população, principalmente quando estamos diante
de grandes conjuntos de dados. 
Nesta seção, exploraremos um pouco mais este conteúdo, de modo a nos
tornarmos aptos a proceder com alguns métodos de amostragem. Para tanto,
iniciaremos retomando brevemente a importância da amostragem, partindo para
os conceitos de amostragem aleatória simples, seleção aleatória, tamanho e
qualidade da amostra e distribuição amostral, com os quais discutiremos a
respeito do Teorema do Limite Central. 
A amostragem é importante em diversos contextos. Se você trabalha em uma
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
2 of 20 28/11/2022 20:02
empresa de grande porte e deseja identi�car alguma característica de seus
funcionários, por exemplo, não é necessário entrevistá-los integralmente. Além de
desnecessário, seria inviável operacionalmente. Se estamos considerando uma
empresa de 20, 30 ou até 100 funcionários, tudo bem. Mas já parou para pensar no
contexto de empresas com 1.000, 10.000 e 30.000 funcionários? Entrevistar cada
um deles já não parece ser a melhor alternativa. 
É nesse contexto que se insere a amostragem. Com base na população de um
conjunto de dados, iremos obter uma amostra representativa, su�ciente para
entendermos, com uma margem de erro associada, qual é o comportamento
daquela população. 
Imagine, por exemplo, realizar uma pesquisa com 20.000 pessoas, sendo que a
mesma pesquisa, com somente 400 delas poderia trazer resultados semelhantes.
Essa é a ideia por trás da amostragem, uma importante ferramenta que nos
permite economizar tempo, esforço e custo. 
Nesse sentido, para que se tenha um completo entendimento dos tópicos
abordados na seção, é fortemente recomendado, além da leitura completa do
conteúdo, que se realizem as situações-problema e as questões, como forma de
exercitar e �xar o conteúdo abordado. Explore todos os recursos disponibilizados.
Caro aluno, a atividade de análise de dados apresenta diversos desa�os em seu dia
a dia, o que a faz ainda mais interessante. Frequentemente, deparamo-nos com
situações que nos tiram de uma zona de conforto e nos levam a buscar formas de
resolver problemas. Algo comum, por exemplo, é a limitação operacional em
situações que envolvem populações com muitas observações. Como proceder uma
análise de dados de uma empresa com 20.000, 30.000 ou até 100.000
funcionários? Ou, então, como realizar uma pesquisa eleitoral que indique as
intenções de voto dos habitantes de um país? É preciso entrevistar cada um deles
para que se obtenha um número representativo? A resposta é não! E é nesse
sentido que se encaixa o importante conceito na análise de dados: a amostragem. 
Outro tópico de grande relevância na análise de dados é análise de distribuição. O
que faz, por exemplo, um conjunto de dados possuir um comportamento
semelhante a um sino, na denominada distribuição normal? Ou, em que contexto
utilizamos uma distribuição t de Student? A compreensão desses conceitos é
fundamental para que se avance em análises ainda mais interessantes, como o
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
3 of 20 28/11/2022 20:02
cálculo dos intervalos de con�ança, a comparação estatística de médias, entre
outras. Dessa forma, dominar tanto o processo de amostragem, quanto a análise
de distribuição é de suma importância para a resolução de problemas práticos da
atividade de análise de dados.
Você é analista de dados de uma empresa e está oferecendo um suporte para a
área de inteligência de negócios, que realizará uma pesquisa de mercado com os
clientes registrados nas carteiras de cinco estados distintos. A relação dos clientes
está registrada na Tabela 3.1:
Tabela 3.1 | Total de clientes por estado
SP
RJ
MG
PR
BA
12.350
6.345
7.120
5.145
8.920
Total 39.880
Fonte: elaborada pelo autor. Dados �ctícios.
A ideia é avaliar a satisfação média da população em cada estado. Você deverá
simular o tamanho amostral mínimo necessário para que o total de clientes
entrevistados representem o comportamento geral em cada estado. Faça duas
simulações, uma com uma margem de erro de 5% e outra de 10%. Utilize um nível
de con�ança de 95%.
CONCEITO-CHAVE
Na primeira unidade deste livro, foi discutido brevemente sobre três importantes
conceitos para a análise: amostra, amostragem e população. 
A amostragem é um processo criterioso que deve considerar uma série de
requisitos para que seja bem-sucedido. Suponha, por exemplo, que uma empresa
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
4 of 20 28/11/2022 20:02
da área do ramo alimentício deseja obter algumas informações a respeito dos
hábitos alimentares dos brasileiros. Para tanto, a organização, localizada no estado
do Paraná, realizou um levantamento com uma amostra da população,
considerando, no entanto, somente indivíduos paranaenses. Claramente, neste
caso, a amostra selecionada pela empresa não será representativa de toda a
população brasileira, ao passo que estamos com um público residente no estado
do Paraná. Neste caso, existe um viés de seleção, ou seja, os hábitos alimentares
paranaenses estão sendo bene�ciados devido à seleção realizada pela empresa. 
Situações como essas, por mais que claramente equivocadas, ocorrem com
frequência em diversos contextos. Por essa razão, é fundamental estarmos bem
amparados conceitualmente para que o trabalho não abra brechas paraoferecer
informações inconsistentes a respeito de determinado comportamento de
interesse. 
De modo geral, quando se fala em amostragem, é preciso ter claro que existem
dois grandes grupos: a probabilística e a não-probabilística. A amostragem
probabilística é uma situação na qual todas as unidades amostrais possuem a
mesma chance de serem sorteadas, sendo a Amostragem Aleatória Simples (AAS)
um dos métodos mais utilizados. Por outro lado, a amostragem não-probabilística
geralmente está associada a situações em que o responsável pode interferir
diretamente na seleção das observações. Os tipos mais comuns de amostragem
não-probabilística são: amostragem por conveniência, amostragem por cotas,
amostragem consecutiva e amostragem por julgamento.
Nesta aula, o foco é à amostragem aleatória simples (AAS), possivelmente o
método mais utilizado, tanto no mercado quanto na área acadêmica. A AAS opera
em um processo semelhante a um sorteio. Para tanto, após o conhecimento de
todos os elementos populacionais, é associado um número ou outra característica
única e individual, realizando um sorteio com base nesses critérios estabelecidos.
Se o Governo Federal desejasse, por exemplo, realizar uma AAS dos indivíduos do
país, um bom índice para sorteio seria o respectivo número de documento, como o
Cadastro de Pessoa Física (CPF) ou o Registro Geral (RG). 
Existem dois tipos gerais de AAS: com reposição e sem reposição (BUSSAB;
MORETTIN, 2010). Na amostragem com reposição, é possível sortear uma mesma
pessoa mais de uma vez, o que pode não ser interessante, a depender do interesse
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
5 of 20 28/11/2022 20:02
por trás da amostragem. Basicamente, após selecionada como unidade amostral, o
indivíduo retorna ao sorteio, podendo ser amostrado novamente. Por outro lado,
quando diante de uma amostragem sem repetição, cada indivíduo, uma vez
sorteado, não poderá ser incluído na amostra novamente.
Suponha, por exemplo, que se deseja fazer um estudo sobre o estado de humor
dos colaboradores de uma empresa ao longo de cinco dias. Existem diversos
caminhos metodológicos a serem seguidos, mas serão apresentados somente
dois: no primeiro deles, a empresa sorteia, a cada dia, um conjunto de 30
funcionários, com reposição, o que possivelmente traria cinco grupos distintos,
mas não impediria que um mesmo colaborador sorteado na segunda-feira
também pudesse compor o estudo em algum outro dia. No segundo, a empresa
também sorteia 30 colaboradores a cada dia, mas sem reposição. Essa estratégia
impediria que um mesmo colaborador sorteado compusesse novamente as
amostras de estudo dos outros dias.
Nesse sentido, a Amostragem Aleatória Simples não envolve conceitos complexos.
De modo geral, a ideia é obter, por meio da seleção aleatória, um conjunto de
dados amostrais que representem uma população geral. 
Existem diversas formas de se obter uma seleção aleatória. A tradicional
brincadeira de amigo secreto, geralmente realizada nas festividades de �nal de
ano, é um exemplo que, apesar de simples, re�ete o conceito de seleção aleatória.
Os nomes dos participantes são escritos em um papel e sorteados aleatoriamente
por cada um dos integrantes da brincadeira. Esse, inclusive, foi um método de
seleção aleatória bastante utilizado nos séculos passados, mas que, graças aos
avanços tecnológicos da informática, passou a ser pouco empregado.
Nesse sentido, com o auxílio da informática, é possível realizar processos
aleatórios, tanto com reposição, quanto sem reposição, por meio de softwares e
programas, como o Excel, Python, R, entre outros. Com esses processos
relativamente automatizados, ganha-se em tempo e em redução de erros e vieses.
Em Estatística e Probabilidade, dois importantes conceitos, frequentemente
confundidos, são a margem de erro e a margem (ou nível) de con�ança.
Para facilitar o entendimento, pense em uma pesquisa eleitoral. Quando se
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
6 of 20 28/11/2022 20:02
diz que determinado candidato possui 40% das intenções de voto, com
margem de 5% para baixo ou 5% para cima, estamos falando da margem
de erro. Por outro lado, a margem de con�ança re�ete a replicabilidade
desse resultado. Portanto, quando é trabalhado, por exemplo, com um
nível de con�ança de 95%, a ideia é que, se replicássemos a pesquisa 100
vezes, em 95 deles os resultados estariam dentro de uma mesma faixa de
valor, denominada intervalo de con�ança.
Para auxiliar a �xação do conceito, a Figura 3.1 apresenta um exemplo de
amostragem aleatória simples, tanto para o caso com reposição quanto para sem.
À esquerda, temos a população do estudo, com um total de quinze observações.
Os dados foram submetidos a um processo de amostragem, um com reposição
das observações e outro sem. Para ambos, foram selecionadas amostras com n=7.
No caso sem reposição, cada observação pode ser amostrada somente uma vez,
ao passo que é “retirada” do universo populacional, após ter sido sorteada. Por
outro lado, no caso com reposição, é possível que uma mesma observação seja
selecionada para a amostra mais de uma vez, como é o caso da observação n° 15.
Figura 3.1 | Exemplo de amostragem com e sem reposição
Fonte: elaborada pelo autor.
No exemplo acima, realizamos uma amostragem com 7 elementos a partir de uma
população com 15 observações. Nesse caso, o tamanho amostral foi de�nido ao
acaso, considerando que se trata de um exercício de �xação. No entanto, em um
contexto prático, devemos calcular o tamanho amostral utilizando critérios
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
7 of 20 28/11/2022 20:02
probabilísticos.
A distribuição normal, que possui o formato semelhante a um sino, é uma
das mais importantes distribuições da Estatística e Probabilidade. Os
valores de seus parâmetros, como média e desvio padrão, variam de
acordo com o conjunto de dados. Nesse sentido, a Estatística dispõe de
uma distribuição normal padronizada, denominada distribuição Z, e que
possui média centrada 0 e desvio padrão equivalente a 1. Por essa razão,
trata-se de uma distribuição utilizada em diversos modelos estatísticos e
que permite, por exemplo, trabalhar com ferramentas para obtenção do
tamanho amostral. Por se tratar de valores padrão, a distribuição Z possui
uma tabela de referência. No entanto, não se preocupe! Traremos mais
detalhes a respeito deste conteúdo nas próximas seções.
Nesse sentido, o cálculo do tamanho amostral passa pela estrutura apresentada
no Quadro 3.1.
Quadro 3.1 | Fórmulas para cálculo do tamanho amostral 
(geralmente variáveis quantitativas,
com possibilidade de se obter o
valor da variância)
(geralmente variáveis qualitativas)
Fonte: elaborado pelo autor.
•  refere-se ao erro amostral, ou seja, até qual valor está disposto a aceitar um
desvio em relação à população. Quanto maior o erro amostral, menor será o
n =
σ2⋅Z 2γ
ε2
n =
N ⋅σ2⋅Z 2γ
(N−1)⋅ε2+σ2⋅Z 2γ
n =
p⋅(1−p)⋅Z 2γ
ε2
n =
N ⋅p⋅(1−p)⋅Z 2γ
(N−1)⋅ε2+p⋅(1−p)⋅Z 2γ
ε
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
8 of 20 28/11/2022 20:02
valor de  .
•  é obtido através da tabela de Distribuição Normal Padrão, ou somente
Distribuição Z. O símbolo  refere-se à margem de con�ança que está sendo
utilizada, conceito que também será desenvolvido nas próximas seções.
Geralmente, utiliza-se uma margem de 95%. Por meio de uma consulta na
tabela Z, é possível obter que  .
•  equivale ao tamanho populacional.
• O termo  refere-se à variância populacional. No entanto, di�cilmente possui
a variância populacional disponível. Nesse caso, há duas saídas: obter uma
aproximação de um estudo prévio ou utilizar o valor da proporção.
•  equivale à proporção de prevalência de determinada característica de
interesse. Geralmente é utilizada quando desconhecemos  .
Um conceito importante no estudo populacional é a �nitude. De modo
geral, uma população, do ponto de vista estatístico, pode ser �nita ou
in�nita. Segundo Castanheira (2005), uma população �nita é aquela que
possui limites facilmente de�nidos, como, por exemplo, a população
residente no Estado de São Paulo em determinado ano, ou o total de
colaboradores contratados por uma empresa em um mês. Por outro lado, a
população in�nita é aquela que não possui parâmetros limitantes bem
de�nidos, impossibilitando que se obtenha facilmente o tamanho
populacional. É o caso, por exemplo, do número de clientes em um
supermercado em um período indeterminado. Ou, então, o número de
estrelas do universo.
Por mais que as fórmulas apresentadas pareçam complexas, o mais crucial é
entendermos em quais contextos devemos utilizá-las, o que varia em relação ao
tipo da população e a disponibilidade da variância amostral. Na maioria dos casos,
trabalhamos com populações �nitas e com proporções, ao passo que obter a
variância populacional geralmente é algo inviável, e as variáveis precisam ser
quantitativas. Para melhor compreendermos as aplicações de cada uma das
fórmulas, apresentamos os quatro exemplos a seguir.
n
Zγ
γ
Z0,95 = 1,96
N
σ2
p
p
σ2
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
9 of 20 28/11/2022 20:02
POPULAÇÃO INFINITA – VARIÂNCIA POPULACIONAL CONHECIDA
Uma empresa de telemarketing está avaliando o tempo de ligações realizadas por
seus colaboradores. No entanto, sem especi�car um período de análise, a
companhia deseja saber quantas ligações devem ser analisadas para se obter uma
margem de erro amostral equivalente a 30% e uma margem de con�ança de 95%.
Segundo informado por um órgão externo regulador do setor, as ligações
realizadas pelos colaboradores, considerando todas as empresas cadastradas,
duram, em média, 20 minutos, com um desvio-padrão de 14. Como parâmetro, a
empresa utilizou esse valor para o cálculo do tamanho amostral. Considerando o
contexto apresentado, tem-se uma situação de população in�nita, ao passo que
não foi de�nido um intervalo de tempo especí�co, e uma variância populacional
aproximada, oriunda de informação externa. Assim, o cálculo do tamanho
amostral é dado por:
Nesse sentido, por se tratar de uma amostra in�nita e considerando as margens
de erro e con�ança apresentadas, a empresa deveria analisar 598 ligações para
obter uma amostra representativa. Apesar de conceitualmente de�nida,
amostragens com populações in�nitas não são tão comuns.
POPULAÇÃO INFINITA - PROPORÇÃO
Uma empresa localizada no bairro de Pinheiros, na cidade de São Paulo, deseja
avaliar a proporção de clientes vindos do bairro Butantã, localizado do outro lado
do Rio Pinheiros. Considerando uma margem de erro de 10% e uma margem de
con�ança de 95%, a empresa deseja saber a quantidade de clientes que deverá
entrevistar para obter informações representativas. Não se sabe ao certo qual é o
comportamento da proporção  amostral. Desse modo, foi utilizada a aproximação
de . Assim, o cálculo do tamanho amostral é dado por:
Considerando o cenário apresentado pela empresa, serão necessárias 96
entrevistas para se obter uma amostra representativa. Lembrando que, para tanto,
deve-se proceder de forma aleatória a escolha dos indivíduos para a amostragem. 
n =
σ2⋅Z 2γ
ε2
=
25⋅(1,96)2
30% 2
= 14⋅3,84160,09 ≅598
n =
p⋅(1−p)⋅Z 2γ
ε2
=
0,5⋅(1−0,5)⋅1,962
10% 2
= 0,5⋅0,5⋅1,96
2
0,1⋅0,1 =
0,25⋅3,8416
0,01 ≅96
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
10 of 20 28/11/2022 20:02
Na prática, situações de cálculo com populações in�nitas não são tão
comuns, ao passo que normalmente se trabalha com aspectos
populacionais bem de�nidos, considerando um período especí�co ou outra
característica que delimite a população de estudo. No seu dia a dia, você se
recorda de alguma possível situação com população in�nita? Em caso
positivo, como delimitar esse conjunto de modo a conferir �nitude à
população?
POPULAÇÃO FINITA – VARIÂNCIA POPULACIONAL CONHECIDA
Uma consultoria da área de dados criou um software de gestão que, atualmente, é
utilizado por 1.350 empresas. Por meio de uma amostra de teste, a consultoria
obteve que a média de faturamento é de R$ 118 mil, com uma variância de 15.
Nesse sentido, para realizar um estudo de todas as empresas clientes, a
consultoria estabeleceu uma margem de erro de 20% e uma margem de con�ança
de 95%, desejando, a partir disso, obter um tamanho amostral que seja
representativo da população. Para tanto, é comum utilizar a variância da amostra
de teste como uma aproximação para a amostra populacional. Assim, tem-se que o
cálculo do tamanho amostral é dado por:
POPULAÇÃO FINITA - PROPORÇÃO
Em outra situação, uma empresa da área de computadores deseja avaliar quais
são as marcas de processadores utilizadas pelos brasileiros: processador A ou
processador B. No entanto, não se sabe qual é a real proporção das pessoas que
utilizam cada um dos processadores, o que fez com que a empresa utilizasse a
aproximação de  . Estima-se que 105 milhões de brasileiros possuam
computadores em suas residências. Portanto, considerando uma margem de erro
de 10% e uma margem de con�ança de 95%, a empresa estimou um tamanho
amostral para que se tenha um valor representativo da população. Considerando a
população em questão, o cálculo foi dado por:
n =
N ⋅σ2⋅Z 2γ
(N−1)⋅ε2+σ2⋅Z 2γ
= 1.350⋅15⋅1,96
2
(1.350−1)⋅30% 2+15⋅1,962
=  77.792,40179,03 = 435
p = 0,5
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
11 of 20 28/11/2022 20:02
Entrevistando aleatoriamente 96 pessoas que possuem computador em casa, a
empresa obterá uma amostra representativa da população. Aqui, no entanto,
estão sendo desconsiderados diversos outros fatores, como distribuição
populacional, percentuais de indivíduos que possuem computadores distintos
entre os estados (ex: SP 70%, RJ: 68%, PR: 67%), entre outras.
Os exemplos apresentados permitem diferenciar as situações de cálculo. No geral,
utiliza-se com mais frequência a fórmula para obtenção do tamanho amostral com
base em proporção e população �nita. Geralmente, é atribuído o valor de 0,5 ao
parâmetro  .
Em relação à qualidade amostral, alguns itens devem ser levados em consideração.
Com base no método que estamos explorando, Amostragem Aleatória Simples, o
erro amostral, a margem de con�ança e a aleatorização são fatores determinantes
na qualidade dos dados. Quanto menor a margem de erro e maior a margem de
con�ança, maior será a representatividade da amostra em relação à população. No
entanto, para que se tenha uma maior con�abilidade e uma menor margem de
erro, é comum que o tamanho amostral seja demasiadamente grande, o que pode
impedir a viabilidade operacional do estudo em questão. Dessa forma, muitas
vezes é desejável trabalhar com uma amostra de maior erro ou menor
con�abilidade, mas que seja viável operacionalmente.
Suponha que você é responsável por desenhar o cálculo do tamanho
amostral de uma pesquisa que sua empresa realizará com seus clientes. A
população total a ser avaliada é de 5.342 pessoas. O custo de cada
entrevista é de R$ 23,00 e sua empresa já deixou claro que o custo total
deve ser de no máximo R$ 2.300,00. Ciente disso, você começa a realizar
algumas simulações, considerando uma margem de con�ança de 95%. Para
o cálculo do tamanho amostral sobre a população in�nita e proporção
desconhecida, em que se utiliza  , você realizou uma simulação
inicial com margem de erro de 5%.O tamanho amostral necessário para
n =
N ⋅p⋅(1−p)⋅Z 2γ
(N−1)⋅ε2+p⋅(1−p)⋅Z 2γ
=
105.000.000⋅50%⋅(1−50%)⋅(1,96)2
104.999.999⋅10%2+50%⋅(1−50%)⋅(1,96)2
=
= 100.842.0001.050.001 = 96
p
p = 0,5
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
12 of 20 28/11/2022 20:02
atender as condições propostas seria de 359 clientes, o que implicaria um
custo de R$ 8.257. No entanto, para os mesmos parâmetros estabelecidos e
uma margem de erro de 10%, o tamanho amostral cairia para 95
entrevistas, gerando um custo de R$ 2.185, valor dentro do limite
estabelecido pela empresa. Nesse sentido, devido a uma limitação
operacional e �nanceira, a viabilidade de trabalho está em se utilizar uma
margem de erro de 10%, em detrimento de 5%.
No contexto da amostragem, um importante conceito é a distribuição amostral.
Suponha que o processo de obtenção de uma amostra seja repetido diversas
vezes. Cada uma dessas amostras possuirá uma média, representada por  . Para
a população, o valor da média é dado por  . Por mais que busquemos, por meio
de uma amostragem, encontrar valores que representem o comportamento
populacional, os valores das médias amostrais serão diferentes entre si e distintos
do valor da média populacional. Se extrairmos dez amostras de uma população,
teremos dez médias amostrais. A média populacional, no entanto, não se altera. O
comportamento da distribuição das médias segue o padrão apresentado na Figura
3.2.
Figura 3.2 | Distribuição das médias amostrais e populacional
Fonte: elaborada pelo autor.
Dessa forma, notamos que algumas amostras terão uma média abaixo daquela
observada para a população, enquanto outras amostras possuem valores acima.
Se aumentarmos o número da amostra, perceberemos que os valores tendem
cada vez mais para um valor central. Na Figura 3.3, é apresentado um histograma,
X̄
μ
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
13 of 20 28/11/2022 20:02
a partir de uma simulação realizada com auxílio do R. De um conjunto de dados
com 10.000 observações, extraímos 1.000 amostras aleatórias, cada uma com 30
observações. Os dados foram simulados com uma média populacional equivalente
a 15. Nesse sentido, com o auxílio do histograma, é possível observar que, por
mais que algumas médias amostrais tenham �cado próximas a 13, no limite
inferior, ou 17, no limite superior, a maior parte das médias concentrou-se nos
valores ao redor de 15, ou seja, próximo à média populacional, indicando,
novamente, uma tendência a um valor central. 
Figura 3.3 | Histograma das Médias Amostrais. Simulação considerando média populacional
equivalente a 15, desvio padrão de 3 e n=30.
Fonte: elaborada pelo autor. Dados �ctícios.
O mesmo acontece quando trabalhamos com o desvio padrão dos conjuntos de
dados. Com base na simulação realizada, o desvio padrão populacional é
equivalente a 3. A Figura 3.4 apresenta o histograma dos desvios amostrais. Da
mesma forma do observado para as médias, existem desvios padrão relativamente
altos, próximos de 4,5, e existem desvios relativamente baixos, em torno de 2. No
entanto, a grande massa se concentra ao redor do valor 3 que, como vimos,
equivale ao desvio populacional.
Figura 3.4 | Histograma dos Desvios Padrão Amostrais. Simulação considerando média populacional
equivalente a 15, desvio padrão de 3 e n=30.
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
14 of 20 28/11/2022 20:02
Fonte: elaborada pelo autor. Dados �ctícios.
Ao aumentarmos ainda mais os tamanhos amostrais, podemos perceber que,
tanto as médias quanto os desvios padrão amostrais, convergem para os
respectivos valores populacionais. Na Figura 3.5, foram utilizados dois tamanhos
amostrais: um para  , como �zemos anteriormente, e outro para  .
Observamos, portanto, que quanto maior o tamanho amostral, maior é a
convergência em relação aos valores da média e do desvio padrão.
Figura 3.5 | Histograma das Médias e Desvios Padrão Amostrais. Simulação considerando média
populacional equivalente a 15 e desvio padrão de 3. Tamanhos amostrais variantes:   na primeira
linha e  na segunda. 1.000 amostras simuladas em cada um dos cenários.
n = 30 n = 200
n = 30
n = 200
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
15 of 20 28/11/2022 20:02
Fonte: elaborada pelo autor. Dados �ctícios.
Essas convergências observadas tanto para as médias amostrais, quanto para os
desvios padrão nos permitem abordar um importante conceito para a Estatística e
Probabilidade: o Teorema do Limite Central (TLC). De modo geral, o TLC enuncia
que a média ou soma de variáveis aleatórias e independentes tendem a uma
distribuição normal, independente do tipo de distribuição que essas variáveis
possuem. E, como vimos nas �guras anteriores, isso faz todo sentido. Assim,
supondo  um conjunto de dados tal que  represente os valores
de amostras. Segundo o Teorema do Limite Central, o valor médio de tende a uma
distribuição normal, centrado na média populacional  e desvio padrão  . Este
comportamento pode ser expresso por:
Em que o símbolo  representa a palavra “tende” e a letra equivale ao nome
“distribuição normal”. 
Por essa razão, diversos modelos estatísticos utilizam a distribuição normal como
referência básica em suas estruturas. No Material Complementar, simulamos
algumas distribuições e observamos como as médias se comportam em cada um
dos casos. Você perceberá que, independentemente da distribuição (se é normal,
exponencial, binomial, uniforme), o comportamento das médias é bastante
{X1, X2, ⋯ , Xn}
μ σ/√n
X~N(μ, σ/√n)
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
16 of 20 28/11/2022 20:02
semelhante. 
Diante do conteúdo exposto, avançamos um pouco mais nos tópicos de
amostragem e de distribuição de dados, especialmente a amostral. Discutimos,
também, a questão do Teorema do Limite Central, um importante conceito na área
de Estatística e Probabilidade. Esta foi uma seção desa�adora e que, certamente,
está nos capacitando para avançar ainda mais nos próximos temas.
FAÇA VALER A PENA
O levantamento da Confederação Nacional da Indústria (CNI) ouviu 2 mil pessoas
entre os dias 5 e 8 de dezembro do ano passado. A margem de erro é de dois
pontos percentuais para mais ou para menos. O nível de con�ança é de 95% (G1
Economia, 2021).
A respeito do contexto apresentado, assinale a alternativa que apresente
corretamente a margem de erro utilizada para o levantamento.
a.  2%.
 Correto!
A questão passa pela análise de um contexto prático e a aplicação dos
conceitos de margem de erro. Segundo informado pela reportagem, a margem
de erro utilizada pela pesquisa foi de 2%, considerando tanto a variação acima,
quanto a variação abaixo. É importante destacar que, ainda que a amplitude da
margem de erro seja de quatro pontos percentuais, a margem, em si, equivale
a 2%.
b.  4%.
c.  5%. 
d.  6%. 
e.  10%.
Uma empresa está realizando uma pesquisa e deseja obter o tamanho amostral
necessário para atingir uma representatividade da população, considerando uma
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
17 of 20 28/11/2022 20:02
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-1
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-1
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-2
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-2https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-3
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-3
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-4
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-4
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-5
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-1%20.item-5
margem de erro de 20% e um nível de con�ança de 95%. A empresa não dispõe de
informações a respeito da proporção a ser utilizada no cálculo do tamanho
amostral. O que se sabe é que se trata de uma população in�nita e que a fórmula
de cálculo é dada por: 
Com base no contexto apresentado, assinale a alternativa que representa
corretamente o valor do tamanho amostral a ser obtido pela empresa. Obs.:
considere os valores de Z=1,96 e p=0,5. 
n =
p⋅(1−p)⋅Z 2γ
ε2
a.  18.
b.  24.
 Correto!
A questão aborda a aplicação dos conceitos de amostragem, especi�camente
para o caso de população in�nita e com proporção. O exercício apresenta
praticamente todos os valores necessários para o cálculo do tamanho
amostral, inclusive a fórmula. Desse modo, deve-se substituir os valores da
seguinte maneira:
n =
p⋅(1−p)⋅Z 2γ
ε2
=
0,5⋅(1−0,5)⋅1,962
20% 2
= 0,25⋅3,84160,04 =
0,9604
0,04 ≅24
c.  36. 
d.  48.
e.  128.
Um instituto de pesquisa está realizando um levantamento para avaliar o tamanho
amostral de um estudo. Para tanto, sabe-se que a população de interesse é
composta por 6.850 indivíduos, dos quais não se dispõe qualquer informação a
respeito. Nesse sentido, considerando uma margem de erro de 5% e um nível de
con�ança de 95%, a empresa está buscando o número de pessoas a serem
entrevistadas para se obter uma informação representativa da população. 
Com base nas informações apresentadas, assinale a alternativa que apresenta
corretamente o total de indivíduos a serem entrevistados pela empresa. Obs.:
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
18 of 20 28/11/2022 20:02
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-1
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-1
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-2
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-2
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-3
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-3
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-4
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-4
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-5
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-2%20.item-5
REFERÊNCIAS
BRITANNICA. : french scientist and
mathematician. French scientist and mathematician. 2021. Disponível em:
https://bit.ly/3z60XfL. Acesso em: 17 mar. 2021.
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. In: . p. xvi,
540-xvi, 540, 2010.
CASTANHEIRA, N. P. . Curitiba: Ibpex, 2005.
G1 Economia. Brasileiros dizem que país deve ter indústria forte e que setor
precisa de apoio, diz estudo. Online. 17/03/2021. Disponível em: https://glo.bo
/3xREUHW. Acesso em: 26 jun. 2021.
VINUTO, J. A amostragem em bola de neve na pesquisa qualitativa: um debate em
aberto. , v. 22, n. 44, 2014.
considere os valores de z=1,96 e p=0,5. 
a.  320.
b.  355.
c.  359.
d.  364.
 Correto!
A questão aborda a aplicação dos conceitos de amostragem. Como é
informado o tamanho da população, tem-se um cenário de população �nita,
com a utilização de proporção para o cálculo da amostra. No entanto, é
necessário relembrar a fórmula, dada por:
Substituindo-se os valores apresentados, é possível calcular o tamanho
amostral necessário:
.
n =
N ⋅p⋅(1−p)⋅Z 2γ
(N−1)⋅ε2+p⋅(1−p)⋅Z 2γ
n =
N ⋅p⋅(1−p)⋅Z 2γ
(N−1)⋅ε2+p⋅(1−p)⋅Z 2γ
=
6.850⋅0,5⋅(1−0,5)⋅1,962
6.849⋅0,052+0,5⋅(1−0,5)⋅1,962
= 6.578,7418,08 ≅364
e.  388. 
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
19 of 20 28/11/2022 20:02
https://bit.ly/3z60XfL
https://bit.ly/3z60XfL
https://glo.bo/3xREUHW
https://glo.bo/3xREUHW
https://glo.bo/3xREUHW
https://glo.bo/3xREUHW
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-1
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-1
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-2
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-2
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-3
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-3
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-4
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-4
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-5
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html#accordion-3%20.item-5
V
er
 a
n
o
ta
çõ
es
lddkls212_pro_est_ana_dad https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABIL...
20 of 20 28/11/2022 20:02

Continue navegando