8lddkls212_pro_est_ana_dad

•

UNIP

Faceinativo Naouso

27/10/2022

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.558 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 1/14
NÃO PODE FALTAR
AMOSTRAGEM
Gabriel Ferreira dos Santos Silva
Imprimir
CONVITE AO ESTUDO
Caro aluno
Nesta unidade, começaremos a aprofundar um pouco mais o conteúdo de
Probabilidade e Estatística para Análise de Dados. Você perceberá que diversos
conceitos abordados de forma super�cial anteriormente serão contemplados de
modo mais detalhado, permitindo desenvolver um conhecimento cada vez mais
sólido sobre o assunto. Esta unidade, denominada Amostragem e distribuição de
dados, está estruturada em três aulas: 1. Amostragem; 2. Distribuição de dados; e 3.
Análise de distribuição de dados em R.
Na primeira seção ou aula, retomaremos as discussões relacionadas à amostragem,
porém com maior profundidade do que aquela observada na segunda seção da
Unidade 1. Discutiremos acerca dos conceitos de amostragem aleatória simples,
seleção aleatória, tamanho e qualidade da amostra, além da distribuição de
amostragem, que nos permitirá entender um pouco mais sobre o Teorema do
Limite Central.
Na segunda seção ou aula, discutiremos os principais tipos de distribuição, bem
como suas distinções entre si, de modo a entender de que forma esses conceitos
são aplicados no dia a dia. Além dos tipos de distribuição, trabalharemos também
algumas questões relacionadas a dois tipos importantes de funções: a de
distribuição de dados e a de densidade de probabilidade.
Por �m, na seção 3, além de trabalharmos alguns aspectos teóricos primordiais,
como erros e intervalos de con�ança, reamostragem e análise dos tipos de
distribuição, aplicaremos os tópicos discutidos em exercícios com o R, o que nos
Fonte: Shutterstock.
Áudio disponível no material digital.
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 2/14
permitirá �xar a teoria por meio da atividade prática.
Os conceitos apresentados nesta unidade são de grande relevância para a análise
de dados, principalmente quando falamos de análises que envolvem maior
complexidade. Compreendê-los, portanto, é de suma importância, não só para esta
disciplina, mas também para as demais do curso.
Uma excelente unidade!
PRATICAR PARA APRENDER
Caro aluno
Na segunda seção da Unidade 1, trabalhamos alguns conceitos iniciais de
amostragem, apresentando, de forma introdutória, a importância em obter uma
amostra representativa de uma população, principalmente quando estamos diante
de grandes conjuntos de dados.
Nesta seção, exploraremos um pouco mais este conteúdo, de modo a nos
tornarmos aptos a proceder com alguns métodos de amostragem. Para tanto,
iniciaremos retomando brevemente a importância da amostragem, partindo para
os conceitos de amostragem aleatória simples, seleção aleatória, tamanho e
qualidade da amostra e distribuição amostral, com os quais discutiremos a respeito
do Teorema do Limite Central.
A amostragem é importante em diversos contextos. Se você trabalha em uma
empresa de grande porte e deseja identi�car alguma característica de seus
funcionários, por exemplo, não é necessário entrevistá-los integralmente. Além de
desnecessário, seria inviável operacionalmente. Se estamos considerando uma
empresa de 20, 30 ou até 100 funcionários, tudo bem. Mas já parou para pensar no
contexto de empresas com 1.000, 10.000 e 30.000 funcionários? Entrevistar cada
um deles já não parece ser a melhor alternativa.
É nesse contexto que se insere a amostragem. Com base na população de um
conjunto de dados, iremos obter uma amostra representativa, su�ciente para
entendermos, com uma margem de erro associada, qual é o comportamento
daquela população.
Imagine, por exemplo, realizar uma pesquisa com 20.000 pessoas, sendo que a
mesma pesquisa, com somente 400 delas poderia trazer resultados semelhantes.
Essa é a ideia por trás da amostragem, uma importante ferramenta que nos
permite economizar tempo, esforço e custo.
Nesse sentido, para que se tenha um completo entendimento dos tópicos
abordados na seção, é fortemente recomendado, além da leitura completa do
conteúdo, que se realizem as situações-problema e as questões, como forma de
exercitar e �xar o conteúdo abordado. Explore todos os recursos disponibilizados.
Caro aluno, a atividade de análise de dados apresenta diversos desa�os em seu dia
a dia, o que a faz ainda mais interessante. Frequentemente, deparamo-nos com
situações que nos tiram de uma zona de conforto e nos levam a buscar formas de
resolver problemas. Algo comum, por exemplo, é a limitação operacional em
situações que envolvem populações com muitas observações. Como proceder uma
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 3/14
análise de dados de uma empresa com 20.000, 30.000 ou até 100.000 funcionários?
Ou, então, como realizar uma pesquisa eleitoral que indique as intenções de voto
dos habitantes de um país? É preciso entrevistar cada um deles para que se
obtenha um número representativo? A resposta é não! E é nesse sentido que se
encaixa o importante conceito na análise de dados: a amostragem.
Outro tópico de grande relevância na análise de dados é análise de distribuição. O
que faz, por exemplo, um conjunto de dados possuir um comportamento
semelhante a um sino, na denominada distribuição normal? Ou, em que contexto
utilizamos uma distribuição t de Student? A compreensão desses conceitos é
fundamental para que se avance em análises ainda mais interessantes, como o
cálculo dos intervalos de con�ança, a comparação estatística de médias, entre
outras. Dessa forma, dominar tanto o processo de amostragem, quanto a análise de
distribuição é de suma importância para a resolução de problemas práticos da
atividade de análise de dados.
Você é analista de dados de uma empresa e está oferecendo um suporte para a
área de inteligência de negócios, que realizará uma pesquisa de mercado com os
clientes registrados nas carteiras de cinco estados distintos. A relação dos clientes
está registrada na Tabela 3.1:
Tabela 3.1 | Total de clientes por estado
Estado Total de Clientes
SP
RJ
MG
PR
BA
12.350
6.345
7.120
5.145
8.920
Total 39.880
Fonte: elaborada pelo autor. Dados �ctícios.
A ideia é avaliar a satisfação média da população em cada estado. Você deverá
simular o tamanho amostral mínimo necessário para que o total de clientes
entrevistados representem o comportamento geral em cada estado. Faça duas
simulações, uma com uma margem de erro de 5% e outra de 10%. Utilize um nível
de con�ança de 95%.
CONCEITO-CHAVE
Na primeira unidade deste livro, foi discutido brevemente sobre três importantes
conceitos para a análise: amostra, amostragem e população.
A amostragem é um processo criterioso que deve considerar uma série de
requisitos para que seja bem-sucedido. Suponha, por exemplo, que uma empresa
da área do ramo alimentício deseja obter algumas informações a respeito dos
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 4/14
hábitos alimentares dos brasileiros. Para tanto, a organização, localizada no estado
do Paraná, realizou um levantamento com uma amostra da população,
considerando, no entanto, somente indivíduos paranaenses. Claramente, neste
caso, a amostra selecionada pela empresa não será representativa de toda a
população brasileira, ao passo que estamos com um público residente no estado do
Paraná. Neste caso, existe um viés de seleção, ou seja, os hábitos alimentares
paranaenses estãosendo bene�ciados devido à seleção realizada pela empresa.
Situações como essas, por mais que claramente equivocadas, ocorrem com
frequência em diversos contextos. Por essa razão, é fundamental estarmos bem
amparados conceitualmente para que o trabalho não abra brechas para oferecer
informações inconsistentes a respeito de determinado comportamento de
interesse.
De modo geral, quando se fala em amostragem, é preciso ter claro que existem dois
grandes grupos: a probabilística e a não-probabilística. A amostragem probabilística
é uma situação na qual todas as unidades amostrais possuem a mesma chance de
serem sorteadas, sendo a Amostragem Aleatória Simples (AAS) um dos métodos
mais utilizados. Por outro lado, a amostragem não-probabilística geralmente está
associada a situações em que o responsável pode interferir diretamente na seleção
das observações. Os tipos mais comuns de amostragem não-probabilística são:
amostragem por conveniência, amostragem por cotas, amostragem consecutiva e
amostragem por julgamento.
Nesta aula, o foco é à amostragem aleatória simples (AAS), possivelmente o método
mais utilizado, tanto no mercado quanto na área acadêmica. A AAS opera em um
processo semelhante a um sorteio. Para tanto, após o conhecimento de todos os
elementos populacionais, é associado um número ou outra característica única e
individual, realizando um sorteio com base nesses critérios estabelecidos. Se o
Governo Federal desejasse, por exemplo, realizar uma AAS dos indivíduos do país,
um bom índice para sorteio seria o respectivo número de documento, como o
Cadastro de Pessoa Física (CPF) ou o Registro Geral (RG).
Existem dois tipos gerais de AAS: com reposição e sem reposição (BUSSAB;
MORETTIN, 2010). Na amostragem com reposição, é possível sortear uma mesma
pessoa mais de uma vez, o que pode não ser interessante, a depender do interesse
por trás da amostragem. Basicamente, após selecionada como unidade amostral, o
indivíduo retorna ao sorteio, podendo ser amostrado novamente. Por outro lado,
quando diante de uma amostragem sem repetição, cada indivíduo, uma vez
sorteado, não poderá ser incluído na amostra novamente.
Suponha, por exemplo, que se deseja fazer um estudo sobre o estado de humor
dos colaboradores de uma empresa ao longo de cinco dias. Existem diversos
caminhos metodológicos a serem seguidos, mas serão apresentados somente dois:
no primeiro deles, a empresa sorteia, a cada dia, um conjunto de 30 funcionários,
com reposição, o que possivelmente traria cinco grupos distintos, mas não
impediria que um mesmo colaborador sorteado na segunda-feira também pudesse
compor o estudo em algum outro dia. No segundo, a empresa também sorteia 30
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 5/14
colaboradores a cada dia, mas sem reposição. Essa estratégia impediria que um
mesmo colaborador sorteado compusesse novamente as amostras de estudo dos
outros dias.
Nesse sentido, a Amostragem Aleatória Simples não envolve conceitos complexos.
De modo geral, a ideia é obter, por meio da seleção aleatória, um conjunto de dados
amostrais que representem uma população geral.
Existem diversas formas de se obter uma seleção aleatória. A tradicional brincadeira
de amigo secreto, geralmente realizada nas festividades de �nal de ano, é um
exemplo que, apesar de simples, re�ete o conceito de seleção aleatória. Os nomes
dos participantes são escritos em um papel e sorteados aleatoriamente por cada
um dos integrantes da brincadeira. Esse, inclusive, foi um método de seleção
aleatória bastante utilizado nos séculos passados, mas que, graças aos avanços
tecnológicos da informática, passou a ser pouco empregado.
Nesse sentido, com o auxílio da informática, é possível realizar processos aleatórios,
tanto com reposição, quanto sem reposição, por meio de softwares e programas,
como o Excel, Python, R, entre outros. Com esses processos relativamente
automatizados, ganha-se em tempo e em redução de erros e vieses.
ASSIMILE
Em Estatística e Probabilidade, dois importantes conceitos, frequentemente
confundidos, são a margem de erro e a margem (ou nível) de con�ança. Para
facilitar o entendimento, pense em uma pesquisa eleitoral. Quando se diz
que determinado candidato possui 40% das intenções de voto, com margem
de 5% para baixo ou 5% para cima, estamos falando da margem de erro. Por
outro lado, a margem de con�ança re�ete a replicabilidade desse resultado.
Portanto, quando é trabalhado, por exemplo, com um nível de con�ança de
95%, a ideia é que, se replicássemos a pesquisa 100 vezes, em 95 deles os
resultados estariam dentro de uma mesma faixa de valor, denominada
intervalo de con�ança.
Para auxiliar a �xação do conceito, a Figura 3.1 apresenta um exemplo de
amostragem aleatória simples, tanto para o caso com reposição quanto para sem. À
esquerda, temos a população do estudo, com um total de quinze observações. Os
dados foram submetidos a um processo de amostragem, um com reposição das
observações e outro sem. Para ambos, foram selecionadas amostras com n=7. No
caso sem reposição, cada observação pode ser amostrada somente uma vez, ao
passo que é “retirada” do universo populacional, após ter sido sorteada. Por outro
lado, no caso com reposição, é possível que uma mesma observação seja
selecionada para a amostra mais de uma vez, como é o caso da observação n° 15.
Figura 3.1 | Exemplo de amostragem com e sem reposição
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 6/14
Fonte: elaborada pelo autor.
No exemplo acima, realizamos uma amostragem com 7 elementos a partir de uma
população com 15 observações. Nesse caso, o tamanho amostral foi de�nido ao
acaso, considerando que se trata de um exercício de �xação. No entanto, em um
contexto prático, devemos calcular o tamanho amostral utilizando critérios
probabilísticos.
ASSIMILE
A distribuição normal, que possui o formato semelhante a um sino, é uma
das mais importantes distribuições da Estatística e Probabilidade. Os valores
de seus parâmetros, como média e desvio padrão, variam de acordo com o
conjunto de dados. Nesse sentido, a Estatística dispõe de uma distribuição
normal padronizada, denominada distribuição Z, e que possui média
centrada 0 e desvio padrão equivalente a 1. Por essa razão, trata-se de uma
distribuição utilizada em diversos modelos estatísticos e que permite, por
exemplo, trabalhar com ferramentas para obtenção do tamanho amostral.
Por se tratar de valores padrão, a distribuição Z possui uma tabela de
referência. No entanto, não se preocupe! Traremos mais detalhes a respeito
deste conteúdo nas próximas seções.
Nesse sentido, o cálculo do tamanho amostral passa pela estrutura apresentada no
Quadro 3.1.
Quadro 3.1 | Fórmulas para cálculo do tamanho amostral
Componente
População
in� nita População � nita
Variância estimada
(geralmente variáveis quantitativas,
com possibilidade de se obter o
valor da variância)
Proporção
(geralmente variáveis qualitativas)
n =
σ2⋅Z 2γ
ε2
n =
N ⋅σ2⋅Z 2γ
(N−1)⋅ε2+σ2⋅Z 2γ
n =
p⋅(1−p)⋅Z 2γ
ε2
n =
N ⋅p⋅(1−p)⋅Z 2γ
(N−1)⋅ε2+p⋅(1−p)⋅Z 2γ
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 7/14
Fonte: elaborado pelo autor.
refere-se ao erro amostral, ou seja, até qual valor está disposto a aceitar um
desvio em relação à população. Quanto maior o erro amostral, menor será o
valor de .
é obtido através da tabela de Distribuição Normal Padrão, ou somente
Distribuição Z. O símbolo refere-se à margem de con�ança que está sendo
utilizada,conceito que também será desenvolvido nas próximas seções.
Geralmente, utiliza-se uma margem de 95%. Por meio de uma consulta na
tabela Z, é possível obter que .
equivale ao tamanho populacional.
O termo refere-se à variância populacional. No entanto, di�cilmente possui a
variância populacional disponível. Nesse caso, há duas saídas: obter uma
aproximação de um estudo prévio ou utilizar o valor da proporção .
equivale à proporção de prevalência de determinada característica de
interesse. Geralmente é utilizada quando desconhecemos .
ASSIMILE
Um conceito importante no estudo populacional é a �nitude. De modo
geral, uma população, do ponto de vista estatístico, pode ser �nita ou
in�nita. Segundo Castanheira (2005), uma população �nita é aquela que
possui limites facilmente de�nidos, como, por exemplo, a população
residente no Estado de São Paulo em determinado ano, ou o total de
colaboradores contratados por uma empresa em um mês. Por outro lado, a
população in�nita é aquela que não possui parâmetros limitantes bem
de�nidos, impossibilitando que se obtenha facilmente o tamanho
populacional. É o caso, por exemplo, do número de clientes em um
supermercado em um período indeterminado. Ou, então, o número de
estrelas do universo.
Por mais que as fórmulas apresentadas pareçam complexas, o mais crucial é
entendermos em quais contextos devemos utilizá-las, o que varia em relação ao
tipo da população e a disponibilidade da variância amostral. Na maioria dos casos,
trabalhamos com populações �nitas e com proporções, ao passo que obter a
variância populacional geralmente é algo inviável, e as variáveis precisam ser
quantitativas. Para melhor compreendermos as aplicações de cada uma das
fórmulas, apresentamos os quatro exemplos a seguir.
POPULAÇÃO INFINITA – VARIÂNCIA POPULACIONAL CONHECIDA
Uma empresa de telemarketing está avaliando o tempo de ligações realizadas por
seus colaboradores. No entanto, sem especi�car um período de análise, a
companhia deseja saber quantas ligações devem ser analisadas para se obter uma
margem de erro amostral equivalente a 30% e uma margem de con�ança de 95%.
Segundo informado por um órgão externo regulador do setor, as ligações realizadas
pelos colaboradores, considerando todas as empresas cadastradas, duram, em
ε
n
Zγ
γ
Z0,95 = 1,96
N
σ2
p
p
σ2
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 8/14
média, 20 minutos, com um desvio-padrão de 14. Como parâmetro, a empresa
utilizou esse valor para o cálculo do tamanho amostral. Considerando o contexto
apresentado, tem-se uma situação de população in�nita, ao passo que não foi
de�nido um intervalo de tempo especí�co, e uma variância populacional
aproximada, oriunda de informação externa. Assim, o cálculo do tamanho amostral
é dado por:
Nesse sentido, por se tratar de uma amostra in�nita e considerando as margens de
erro e con�ança apresentadas, a empresa deveria analisar 598 ligações para obter
uma amostra representativa. Apesar de conceitualmente de�nida, amostragens
com populações in�nitas não são tão comuns.
POPULAÇÃO INFINITA - PROPORÇÃO
Uma empresa localizada no bairro de Pinheiros, na cidade de São Paulo, deseja
avaliar a proporção de clientes vindos do bairro Butantã, localizado do outro lado
do Rio Pinheiros. Considerando uma margem de erro de 10% e uma margem de
con�ança de 95%, a empresa deseja saber a quantidade de clientes que deverá
entrevistar para obter informações representativas. Não se sabe ao certo qual é o
comportamento da proporção amostral. Desse modo, foi utilizada a aproximação
de . Assim, o cálculo do tamanho amostral é dado por:
Considerando o cenário apresentado pela empresa, serão necessárias 96
entrevistas para se obter uma amostra representativa. Lembrando que, para tanto,
deve-se proceder de forma aleatória a escolha dos indivíduos para a amostragem.
REFLITA
Na prática, situações de cálculo com populações in�nitas não são tão
comuns, ao passo que normalmente se trabalha com aspectos
populacionais bem de�nidos, considerando um período especí�co ou outra
característica que delimite a população de estudo. No seu dia a dia, você se
recorda de alguma possível situação com população in�nita? Em caso
positivo, como delimitar esse conjunto de modo a conferir �nitude à
população?
POPULAÇÃO FINITA – VARIÂNCIA POPULACIONAL CONHECIDA
Uma consultoria da área de dados criou um software de gestão que, atualmente, é
utilizado por 1.350 empresas. Por meio de uma amostra de teste, a consultoria
obteve que a média de faturamento é de R$ 118 mil, com uma variância de 15.
Nesse sentido, para realizar um estudo de todas as empresas clientes, a consultoria
estabeleceu uma margem de erro de 20% e uma margem de con�ança de 95%,
desejando, a partir disso, obter um tamanho amostral que seja representativo da
população. Para tanto, é comum utilizar a variância da amostra de teste como uma
aproximação para a amostra populacional. Assim, tem-se que o cálculo do tamanho
amostral é dado por:
n =
σ2⋅Z 2γ
ε2
= 25⋅(1,96)
2
30% 2
= 14⋅3,84160,09 ≅598
n =
p⋅(1−p)⋅Z 2γ
ε2
=
0,5⋅(1−0,5)⋅1,962
10% 2 =
0,5⋅0,5⋅1,962
0,1⋅0,1 =
0,25⋅3,8416
0,01 ≅96
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 9/14
POPULAÇÃO FINITA - PROPORÇÃO
Em outra situação, uma empresa da área de computadores deseja avaliar quais são
as marcas de processadores utilizadas pelos brasileiros: processador A ou
processador B. No entanto, não se sabe qual é a real proporção das pessoas que
utilizam cada um dos processadores, o que fez com que a empresa utilizasse a
aproximação de . Estima-se que 105 milhões de brasileiros possuam
computadores em suas residências. Portanto, considerando uma margem de erro
de 10% e uma margem de con�ança de 95%, a empresa estimou um tamanho
amostral para que se tenha um valor representativo da população. Considerando a
população em questão, o cálculo foi dado por:
Entrevistando aleatoriamente 96 pessoas que possuem computador em casa, a
empresa obterá uma amostra representativa da população. Aqui, no entanto, estão
sendo desconsiderados diversos outros fatores, como distribuição populacional,
percentuais de indivíduos que possuem computadores distintos entre os estados
(ex: SP 70%, RJ: 68%, PR: 67%), entre outras.
Os exemplos apresentados permitem diferenciar as situações de cálculo. No geral,
utiliza-se com mais frequência a fórmula para obtenção do tamanho amostral com
base em proporção e população �nita. Geralmente, é atribuído o valor de 0,5 ao
parâmetro .
Em relação à qualidade amostral, alguns itens devem ser levados em consideração.
Com base no método que estamos explorando, Amostragem Aleatória Simples, o
erro amostral, a margem de con�ança e a aleatorização são fatores determinantes
na qualidade dos dados. Quanto menor a margem de erro e maior a margem de
con�ança, maior será a representatividade da amostra em relação à população. No
entanto, para que se tenha uma maior con�abilidade e uma menor margem de
erro, é comum que o tamanho amostral seja demasiadamente grande, o que pode
impedir a viabilidade operacional do estudo em questão. Dessa forma, muitas vezes
é desejável trabalhar com uma amostra de maior erro ou menor con�abilidade,
mas que seja viável operacionalmente.
EXEMPLIFICANDO
Suponha que você é responsável por desenhar o cálculo do tamanho
amostral de uma pesquisa que sua empresa realizará com seus clientes. A
população total a ser avaliada é de 5.342 pessoas. O custo de cada
entrevista é de R$ 23,00 e sua empresa já deixou claro que o custo total
deve ser de no máximo R$ 2.300,00. Ciente disso, você começa a realizar
algumas simulações, considerando umamargem de con�ança de 95%. Para
o cálculo do tamanho amostral sobre a população in�nita e proporção
desconhecida, em que se utiliza , você realizou uma simulação inicial
com margem de erro de 5%.O tamanho amostral necessário para atender as
n =
N ⋅σ2⋅Z 2γ
(N−1)⋅ε2+σ2⋅Z 2γ
= 1.350⋅15⋅1,96
2
(1.350−1)⋅30% 2+15⋅1,962
= 77.792,40179,03 = 435
p = 0,5
n =
N ⋅p⋅(1−p)⋅Z 2γ
(N−1)⋅ε2+p⋅(1−p)⋅Z 2γ
=
105.000.000⋅50%⋅(1−50%)⋅(1,96)2
104.999.999⋅10% 2+50%⋅(1−50%)⋅(1,96)2
=
= 100.842.0001.050.001 = 96
p
p = 0,5
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 10/14
condições propostas seria de 359 clientes, o que implicaria um custo de R$
8.257. No entanto, para os mesmos parâmetros estabelecidos e uma
margem de erro de 10%, o tamanho amostral cairia para 95 entrevistas,
gerando um custo de R$ 2.185, valor dentro do limite estabelecido pela
empresa. Nesse sentido, devido a uma limitação operacional e �nanceira, a
viabilidade de trabalho está em se utilizar uma margem de erro de 10%, em
detrimento de 5%.
No contexto da amostragem, um importante conceito é a distribuição amostral.
Suponha que o processo de obtenção de uma amostra seja repetido diversas vezes.
Cada uma dessas amostras possuirá uma média, representada por . Para a
população, o valor da média é dado por . Por mais que busquemos, por meio de
uma amostragem, encontrar valores que representem o comportamento
populacional, os valores das médias amostrais serão diferentes entre si e distintos
do valor da média populacional. Se extrairmos dez amostras de uma população,
teremos dez médias amostrais. A média populacional, no entanto, não se altera. O
comportamento da distribuição das médias segue o padrão apresentado na Figura
3.2.
Figura 3.2 | Distribuição das médias amostrais e populacional
Fonte: elaborada pelo autor.
Dessa forma, notamos que algumas amostras terão uma média abaixo daquela
observada para a população, enquanto outras amostras possuem valores acima.
Se aumentarmos o número da amostra, perceberemos que os valores tendem cada
vez mais para um valor central. Na Figura 3.3, é apresentado um histograma, a
partir de uma simulação realizada com auxílio do R. De um conjunto de dados com
10.000 observações, extraímos 1.000 amostras aleatórias, cada uma com 30
observações. Os dados foram simulados com uma média populacional equivalente
a 15. Nesse sentido, com o auxílio do histograma, é possível observar que, por mais
que algumas médias amostrais tenham �cado próximas a 13, no limite inferior, ou
17, no limite superior, a maior parte das médias concentrou-se nos valores ao redor
de 15, ou seja, próximo à média populacional, indicando, novamente, uma
tendência a um valor central.
Figura 3.3 | Histograma das Médias Amostrais. Simulação considerando média populacional
equivalente a 15, desvio padrão de 3 e n=30.
X̄
μ
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 11/14
Fonte: elaborada pelo autor. Dados �ctícios.
O mesmo acontece quando trabalhamos com o desvio padrão dos conjuntos de
dados. Com base na simulação realizada, o desvio padrão populacional é
equivalente a 3. A Figura 3.4 apresenta o histograma dos desvios amostrais. Da
mesma forma do observado para as médias, existem desvios padrão relativamente
altos, próximos de 4,5, e existem desvios relativamente baixos, em torno de 2. No
entanto, a grande massa se concentra ao redor do valor 3 que, como vimos,
equivale ao desvio populacional.
Figura 3.4 | Histograma dos Desvios Padrão Amostrais. Simulação considerando média populacional
equivalente a 15, desvio padrão de 3 e n=30.
Fonte: elaborada pelo autor. Dados �ctícios.
Ao aumentarmos ainda mais os tamanhos amostrais, podemos perceber que, tanto
as médias quanto os desvios padrão amostrais, convergem para os respectivos
valores populacionais. Na Figura 3.5, foram utilizados dois tamanhos amostrais: um
para , como �zemos anteriormente, e outro para . Observamos,
portanto, que quanto maior o tamanho amostral, maior é a convergência em
relação aos valores da média e do desvio padrão.
Figura 3.5 | Histograma das Médias e Desvios Padrão Amostrais. Simulação considerando média
populacional equivalente a 15 e desvio padrão de 3. Tamanhos amostrais variantes: na
primeira linha e na segunda. 1.000 amostras simuladas em cada um dos cenários.
n = 30 n = 200
n = 30
n = 200
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 12/14
Fonte: elaborada pelo autor. Dados �ctícios.
Essas convergências observadas tanto para as médias amostrais, quanto para os
desvios padrão nos permitem abordar um importante conceito para a Estatística e
Probabilidade: o Teorema do Limite Central (TLC). De modo geral, o TLC enuncia
que a média ou soma de variáveis aleatórias e independentes tendem a uma
distribuição normal, independente do tipo de distribuição que essas variáveis
possuem. E, como vimos nas �guras anteriores, isso faz todo sentido. Assim,
supondo um conjunto de dados tal que represente os valores
de amostras. Segundo o Teorema do Limite Central, o valor médio de tende a uma
distribuição normal, centrado na média populacional e desvio padrão . Este
comportamento pode ser expresso por:
Em que o símbolo representa a palavra “tende” e a letra equivale ao nome
“distribuição normal”.
Por essa razão, diversos modelos estatísticos utilizam a distribuição normal como
referência básica em suas estruturas. No Material Complementar, simulamos
algumas distribuições e observamos como as médias se comportam em cada um
dos casos. Você perceberá que, independentemente da distribuição (se é normal,
exponencial, binomial, uniforme), o comportamento das médias é bastante
semelhante.
Diante do conteúdo exposto, avançamos um pouco mais nos tópicos de
amostragem e de distribuição de dados, especialmente a amostral. Discutimos,
também, a questão do Teorema do Limite Central, um importante conceito na área
de Estatística e Probabilidade. Esta foi uma seção desa�adora e que, certamente,
está nos capacitando para avançar ainda mais nos próximos temas.
FAÇA VALER A PENA
{X1, X2, ⋯ , Xn}
μ σ/√n
X~N(μ, σ/√n)
Questão 1
O levantamento da Confederação Nacional da Indústria (CNI) ouviu 2 mil pessoas
entre os dias 5 e 8 de dezembro do ano passado. A margem de erro é de dois
pontos percentuais para mais ou para menos. O nível de con�ança é de 95% (G1
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 13/14
Economia, 2021).
A respeito do contexto apresentado, assinale a alternativa que apresente
corretamente a margem de erro utilizada para o levantamento.
a. 2%.
b. 4%.
c. 5%.
d. 6%.
e. 10%.
Questão 2
Uma empresa está realizando uma pesquisa e deseja obter o tamanho amostral
necessário para atingir uma representatividade da população, considerando uma
margem de erro de 20% e um nível de con�ança de 95%. A empresa não dispõe de
informações a respeito da proporção a ser utilizada no cálculo do tamanho
amostral. O que se sabe é que se trata de uma população in�nita e que a fórmula
de cálculo é dada por:
Com base no contexto apresentado, assinale a alternativa que representa
corretamente o valor do tamanho amostral a ser obtido pela empresa. Obs.:
considere os valores de Z=1,96 e p=0,5.
n =
p⋅(1−p)⋅Z 2γ
ε2
a. 18.
b. 24.
c. 36.
d. 48.
e. 128.
Questão 3
Um instituto de pesquisa está realizandoum levantamento para avaliar o tamanho
amostral de um estudo. Para tanto, sabe-se que a população de interesse é
composta por 6.850 indivíduos, dos quais não se dispõe qualquer informação a
respeito. Nesse sentido, considerando uma margem de erro de 5% e um nível de
con�ança de 95%, a empresa está buscando o número de pessoas a serem
entrevistadas para se obter uma informação representativa da população.
Com base nas informações apresentadas, assinale a alternativa que apresenta
corretamente o total de indivíduos a serem entrevistados pela empresa. Obs.:
considere os valores de z=1,96 e p=0,5.
a. 320.
b. 355.
c. 359.
d. 364.
e. 388.
0
V
e
r
a
n
o
ta
ç
õ
e
s
26/10/2022 20:00 lddkls212_pro_est_ana_dad
https://conteudo.colaboraread.com.br/202102/DISCIPLINAS_EAD/PROBABILIDADE_E_ESTATISTICA_PARA_ANALISE_DE_DADOS/LIVRO_DIGITAL/npf_u3s1.html 14/14
REFERÊNCIAS
BRITANNICA. Pierre-Simon, Marquis de Laplace: french scientist and
mathematician. French scientist and mathematician. 2021. Disponível em:
https://bit.ly/3z60XfL. Acesso em: 17 mar. 2021.
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. In: Estatística básica . p. xvi,
540-xvi, 540, 2010.
CASTANHEIRA, N. P. Estatística aplicada a todos níveis. Curitiba: Ibpex, 2005.
G1 Economia. Brasileiros dizem que país deve ter indústria forte e que setor precisa
de apoio, diz estudo. Online. 17/03/2021. Disponível em: https://glo.bo/3xREUHW.
Acesso em: 26 jun. 2021.
VINUTO, J. A amostragem em bola de neve na pesquisa qualitativa: um debate em
aberto. Temáticas, v. 22, n. 44, 2014.
0
V
e
r
a
n
o
ta
ç
õ
e
s
https://bit.ly/3z60XfL
https://glo.bo/3xREUHW