ESTATÍSTICA uni1

•

UNISUAM

Mary Suzana Andre da Silva Emidio

19/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

56.970 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTATÍSTICA
Juliane Silveira
Freire da Silva
Níveis de confiança
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Diferenciar estimadores pontuais e por intervalo.
� Calcular intervalos de confiança.
� Comparar diferentes níveis de confiança.
Introdução
Neste capítulo, você entenderá a diferença entre estimativas pontuais
e por intervalo, por que tomamos a decisão de utilizar uma ou outra
estimativa. Além disso, aprenderá a calcular intervalos de confiança para
média e proporção e compreenderá o que são os níveis de confiança
desses intervalos.
Estimadores pontuais e por intervalo
Inicialmente, relembraremos alguns conceitos básicos de estatística. Um
estimador, ou também conhecido como estimativa ou estatística, refere-se a
uma medida numérica de uma amostra.
Um parâmetro é uma medida numérica da população. Podemos, com base
em uma amostra, estimar valores da população, ou seja, baseados em uma
estimativa, podemos inferir o verdadeiro parâmetro populacional.
Por exemplo, coletamos uma amostra de clientes de um banco e calculamos
o valor médio em saldo na conta corrente. Calculamos a média amostral do
saldo em conta corrente para estimar a média populacional do saldo em conta
corrente.
Quando estamos calculando uma média ou uma proporção, com base
em uma amostra, com esses levantamentos amostrais obtemos um valor.
Chamamos isso de estimador pontual, ou seja, a estimação por ponto. Essa
medida é chamada assim porque temos um único valor para representar a
medida numérica da amostra, uma média ou uma proporção, por exemplo.
A Figura 1, a seguir, mostra os parâmetros e os estimadores.
Figura 1. Parâmetros e estimadores.
População
Amostra
Parâmetros
Média – μ
Proporção – π
Desvio-padrão – σ
Estimadores
Média – x
Proporção – p
Desvio-padrão – s
Mais útil do que a estimativa pontual é o que chamamos de estimativa
por intervalo, ou simplesmente intervalo de confiança. Nos intervalos de
confiança, ao invés de um único valor pontual, calculamos um intervalo
com uma probabilidade de que, nele, encontraremos o verdadeiro valor do
parâmetro populacional.
No exemplo da média do saldo bancário, ao invés de termos um único valor,
teremos um intervalo de valores com margem de erro conhecida em que podemos
ter a verdadeira média da população de clientes desse banco pesquisado.
Estudaremos, aqui, os intervalos de confiança para a média e a proporção.
Primeiramente, relembraremos a forma de calcular essas estimativas de forma
pontual.
A média amostral é calculada por meio da soma de todos os valores da
amostra e divisão pelo número de elementos.
x– =
∑ xi
n
Níveis de confiança2
onde:
x– é a média amostral;
xi é cada um dos elementos da amostra;
n é o número de elementos (tamanho) da amostra.
A proporção amostral é calculada pela divisão dos casos favoráveis ao que
se está estudando pelo total de elementos da amostra.
p =
x
n
onde:
p é a proporção amostral;
x é a quantidade de casos favoráveis;
n é o tamanho da amostra.
Já, quando estamos calculando uma estimativa por intervalo, além de
considerarmos a estimativa pontual, consideramos uma margem de erro para
encontrar o verdadeiro valor do parâmetro populacional.
Para esse cálculo, consideramos o coeficiente de confiança ou o nível de
confiança, um valor percentual. Para encontrarmos os valores do coeficiente
de confiança, necessitamos de tabelas de probabilidade adequadas.
A Figura 2 mostra o intervalo de confiança para a média.
Figura 2. Intervalo de confiança para a média.
Fonte: Doane e Seward (2015, p. 302).
3Níveis de confiança
Para calcularmos os intervalos de confiança, utilizaremos a estimativa
pontual e a confiança para gerar esse intervalo.
A fim de chegarmos a uma boa estimativa, precisamos obter estimadores
não viciados e não tendenciosos. Precisamos de amostras probabilísticas para
podermos utilizar da estatística inferencial, ou seja, os estimadores somente
são válidos para estimar os parâmetros populacionais quando forem calculados
de amostras extraídas de forma probabilística ou com tamanho da amostra
tendendo ao infinito.
Cálculo de intervalos de confiança
Neste capítulo, focaremos nos intervalos de confiança para estimar a média
e a proporção.
Para calcularmos um intervalo de confiança, precisamos da estimativa
pontual do parâmetro estudado, e da tabela de distribuição normal (ou a tabela
t-student) para podermos encontrar os valores padronizados do coeficiente
de confiança escolhido.
Deseja-se que as amostras tenham sido retiradas de populações que sigam
a distribuição normal ou uma amostra suficientemente grande para podermos
utilizar do teorema do limite central para a utilização dos coeficientes de
confiança.
O intervalo de confiança para a média populacional, considerando desvio-
-padrão populacional (𝜎) conhecido é:
x– ± zα/2 ∙
σ
√n
Ou seja:
x– – zα/2 ∙ ≤ μ ≤ x
– + zα/2 ∙
σ
√n
σ
√n
x– é a média amostral;
zα/2 é o coeficiente de confiança associado à normal padrão;
𝜎 é o desvio-padrão populacional;
n é o número de elementos (tamanho) da amostra.
Níveis de confiança4
Frequentemente, não temos o valor do desvio-padrão populacional e calcula-
mos somente o desvio-padrão amostral. Temos, então, o intervalo de confiança
para a média, quando não conhecemos o valor do desvio-padrão populacional.
Segundo Doane e Seward (2015), em situações em que a população é
normal, mas o desvio-padrão populacional é desconhecido, a distribuição
t-student deve ser usada no lugar da distribuição normal padrão, conforme
Figura 3. Isso é particularmente interessante quando a amostra é pequena.
x– ± tα/2 ∙
s
√n
Ou seja:
x– – tα/2 ∙ ≤ μ ≤ x
– + tα/2 ∙
s
√n
s
√n
x– é a média amostral;
tα/2 é o coeficiente de confiança associado à distribuição t-student;
s é o desvio-padrão populacional;
n é o número de elementos (tamanho) da amostra.
Figura 3. Intervalo de confiança para a média.
Fonte: Doane e Seward (2015, p. 306).
Segundo Doane e Seward (2015), o teorema do limite central também se
aplica a uma proporção amostral, uma vez que a proporção é apenas uma
média de dados cujos únicos valores são 0 ou 1. Para uma proporção, o teorema
5Níveis de confiança
diz que a distribuição de uma proporção amostral (p) tende à normalidade,
conforme o valor de aumenta.
O intervalo de confiança para estimar a proporção populacional, consi-
derando que podemos aproximar a proporção amostral de uma distribuição
normal, é:
p ± zα/2 ∙
p ∙ (1 – p)
n
Ou seja,
p – zα/2 ∙
p ∙ (1 – p)
n p + zα/2 ∙
p ∙ (1 – p)
n≤ � ≤
onde:
p é a proporção amostral;
zα/2 é o coeficiente de confiança associado à norma padrão;
n é o número de elementos (tamanho) da amostra.
Níveis de confiança
Segundo Navidi (2012), o nível de confiança é a proporção de todas as amostras
possíveis para as quais o intervalo de confiança abrange o valor real.
Então, quando estabelecemos o coeficiente de confiança, estamos determi-
nando a probabilidade de estarmos calculando um intervalo que contenha o ver-
dadeiro valor do parâmetro com uma probabilidade conhecida de acertarmos.
Os valores mais comuns de níveis de confiança utilizados para as estimativas
por intervalo são os de 90%, 95% e 99%. Quanto maior for o nível de confiança,
maior será o intervalo, conforme pode ser visto no Quadro 1, a seguir.
Níveis de confiança α 1 – α α/2 zα/2
90% 0,10 0,90 0,05 1,645
95% 0,05 0,95 0,025 1,960
99% 0,01 0,99 0,005 2,576
Quadro 1. Valores mais utilizados da normal padrão
Níveis de confiança6
Utilizamos esses valores tanto para a distribuição normal padrão, quanto
para a distribuição t-student. Porém, na distribuição t, precisamos calcular os
graus de liberdade para podermos encontrar o valor correspondente.
GL = n – 1
onde:
GL = graus de liberdade;
n é o tamanho da amostra.
Quanto maior for o tamanho da amostra (n,) mais os valores da distribuição
t-student aproximam-se dos valores da distribuição normal padrão.Observe, na última linha da tabela t da Figura 4, quando n tende ao infinito,
que temos os mesmos valores da tabela normal padrão.
Podemos observar que, quanto maior for o coeficiente de confiança, maio-
res serão os valores tabelados. Logo, as estimativas por intervalo aumentam
conforme aumenta o nível de confiança. Quanto maior o intervalo, maior é a
chance de acertarmos o valor do verdadeiro parâmetro populacional.
Por exemplo, podemos calcular o intervalo de confiança para o exemplo
fictício da média do saldo bancário dos clientes de um banco. Suponha que
a média de saldo seja de R$ 1.958,00, com desvio-padrão amostral de R$
697,00. Essas estimativas pontuais foram extraídas de uma amostra de 90
clientes desse banco. Calcularemos as estimativas por intervalo, considerando
os níveis de confiança de 90%, 95% e 99%.
x– = 1958
s = 697
n = 90
t0,05 = 1,645
t0,025 = 1,960
t0,005 = 2,576
Intervalo de confiança de 90%:
x– ± tα/2 ∙
s
√n
1958 – 1,645 ∙ ≤ μ ≤697
√90
1958 + 1,645 ∙ 697
√90
[1837,14; 2078,86]
7Níveis de confiança
Figura 4. Tabela distribuição t-student.
Intervalo de confiança de 95%:
1958 – 1,960 ∙ ≤ μ ≤697
√90
1958 + 1,960 ∙ 697
√90
[1813,00; 2102,00]
Níveis de confiança8
Intervalo de confiança de 99%:
1958 – 2,576 ∙ ≤ μ ≤697
√90
1958 + 2,576 ∙ 697
√90
[1768,74; 2147,26]
Observe que, quanto maior o nível de confiança, maior é o intervalo do
parâmetro estudado.
DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto
Alegre: AMGH, 2015.
NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre: AMGH, 2012
9Níveis de confiança
Conteúdo:
ESTATÍSTICA
Juliane Silveira
Freire da Silva
Estimação de parâmetros
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Expressar parâmetros populacionais.
� Diferenciar estimativas tendenciosas de não tendenciosas.
� Identificar as consequências dos estimadores.
Introdução
Neste capítulo, você identificará o que são parâmetros e estimadores.
Além disso, aprenderá a identificar o que são estimadores tendenciosos e
estimadores eficientes. Também, desenvolverá estratégias para identificar
quais deles utilizar.
Como aplicação da teoria de probabilidade aos estimadores, você
aprenderá a calcular intervalos de confiança para a média e a proporção
que possibilitam estimar um intervalo de valores em que esteja contido
o verdadeiro parâmetro populacional, com base em uma amostra.
Parâmetros populacionais
Parâmetros são medidas numéricas calculadas com base nos dados de uma
população. Podemos calcular alguns parâmetros, como a média populacional
(μ), o desvio-padrão populacional (𝜎) e a proporção populacional (π). Observe
que os parâmetros são representados por letras gregas.
μ =
∑ Xi
N média populacional
onde:
Xi: cada um dos N elementos da população;
N: tamanho da população.
σ =
∑(Xi – μ)
2
N
desvio-padrão populacional
onde:
Xi: cada um dos N elementos da população;
μ: média populacional;
N: tamanho da população.
Parâmetros nem sempre são fáceis de serem calculados — seja porque nem
sempre temos acesso a todos os elementos de uma população, seja porque
pode ser muito oneroso coletar dados de uma população inteira, ou, ainda,
porque não temos tempo para investigar todos os dados de uma população.
Por esses e outros motivos, acabamos, muitas vezes, optando por coletar
dados relativos às amostras derivadas de uma população de interesse. Quando
calculamos as medidas numéricas de uma amostra, teremos estimativas,
também chamadas de estatísticas, para os parâmetros populacionais. Na
Figura 1, a seguir, há uma representação desses estimadores amostrais de
parâmetros populacionais.
Figura 1. Estimadores amostrais de parâmetros populacionais.
Fonte: Doane e Seward (2014, p. 293).
Amostra
Inferência
Parâmetros
populacionais
μ
σ
π
Estimadores
amostrais
x–
s
p
Estimação de parâmetros2
Cada estimativa será o valor particular daquela amostra para estimar o
verdadeiro valor do parâmetro. Se coletarmos amostras diferentes de uma
mesma população, os valores do estimador poderão mudar aleatoriamente a
cada amostra coletada. Então, a distribuição dessa variável (estimador amostral)
é o que chamamos de distribuição de probabilidades amostral.
O valor da estimativa da média, por exemplo, será específico para cada
amostra, mas a distribuição de probabilidade que descreve essa aleatoriedade
com os resultados das diferentes amostras é a distribuição amostral da média
da amostra. Nessa distribuição, teremos todos os resultados prováveis da
estimativa da média em um intervalo de valores que a estimativa ocorre e
onde estará o verdadeiro parâmetro populacional. A distribuição amostral
seguirá a mesma distribuição dos dados populacionais. Se estes seguem uma
distribuição normal, consequentemente, os dados amostrais provenientes dessa
população também seguirão uma distribuição de probabilidades normais.
A partir dessa distribuição de probabilidades amostrais (podendo ser
diferente para cada um dos parâmetros) é que podermos tomar decisões sobre
os parâmetros populacionais com base em estimativas amostrais.
Segundo Doane e Seward (2014), um estimador é uma estatística derivada
de uma amostra para inferir o valor de um parâmetro populacional. Já uma
estimativa é o valor do estimador em uma amostra particular.
Quando calculamos o valor de apenas uma amostra e estimamos os valores
dos parâmetros por essa medida amostral, teremos uma estimativa por ponto.
Claramente, nem sempre o valor calculado para a média dessa determi-
nada amostra (ou qualquer outro estimador) acertará no alvo o valor real da
população. Sendo assim, para estimativas de parâmetros, podemos calcular
intervalos com alta probabilidade de conter o verdadeiro valor do parâmetro
populacional.
Podemos, também, calcular o erro cometido com esse estimador e, ainda,
o tamanho mínimo para a amostra dessa estimativa.
Vale lembrar que o erro e a confiança fixados no cálculo para o tamanho de amostra
só serão válidos se a amostra for probabilística.
Qualquer amostra só poderá resultar em um bom estimador caso ela seja coletada
de forma aleatória. Jamais podemos fazer uso de amostras não probabilísticas e ten-
denciosas para estimarmos parâmetros.
3Estimação de parâmetros
Estimativas tendenciosas e não tendenciosas
Mas o que é uma estimativa tendenciosa? Chamamos uma estimativa de ten-
denciosa, ou estimador viciado e estimador enviesado, quando esta subestimar
ou superestimar o valor do parâmetro.
Vício é a diferença entre a média da estatística (estimador) e o verdadeiro
valor do parâmetro populacional. A Figura 2 ilustra a diferença entre um
estimador tendencioso e não tendencioso.
Figura 2. Ilustração de estimadores tendenciosos e não tendenciosos.
Estimador não tendencioso Estimador tendencioso
Segundo Doane e Seward (2014), a média amostral (x–) e a proporção
amostral (p) são estimadores não viciados da μ e da π, respectivamente. Mas
podemos encontrar estimadores viciados quando consideramos o desvio-padrão
amostral e o desvio-padrão populacional.
μ =
∑Xi
N média populacional
x– =
∑xi
n média amostral
� = XN proporção populacional
p = xn proporção amostral
Estimação de parâmetros4
σ =
∑(Xi – μ)
2
N
desvio-padrão populacional
s =
∑(xi – x
–)2
n – 1
desvio-padrão amostral
Estimativas eficientes
Um estimador é dito eficiente frente aos demais possíveis dentre as amostras
oriundas da mesma população. Será aquele que tiver a menor variabilidade.
Ou seja, se dois estimadores tiverem a mesma média, o estimador mais efi-
ciente será aquele com a maior variância. O outro estimador será considerado
ineficiente, conforme ilustrado na Figura 3.
Figura 3. Ilustração de estimadores eficientes e não eficientes, ambos não viciados.
Estimador e�ciente Estimador não e�ciente
Como existe essa variabilidade, podemos, então, estimar o erro que estamos
cometendo com essa estimativa.Quando estamos estimando a média popula-
cional (μ) pela média amostral (x–), cometemos o erro amostral: a probabilidade
é de 1 – α de que a estimativa vá diferir para mais ou para menos do valor
populacional por, no máximo, um erro de:
E = zα/2 ∙
σ
√n
5Estimação de parâmetros
onde:
E: erro máximo de estimativa;
𝜎: desvio-padrão populacional;
n: tamanho da amostra;
zα/2: valor da tabela normal padrão.
Na Figura 4, pode ser visualizada a distribuição amostral da média.
Figura 4. Distribuição amostral da média.
Fonte: Freund (2006, p. 272).
1 – α
α/2 α/2
x–
μ zα/2 ∙
σ
√n
No Quadro 1, a seguir, apresentamos os valores para os principais níveis de significância.
1 – α α/2 zα/2
1 – 0,1 = 0,90 = 90% 0,05 1,645
1 – 0,05 = 0,95 = 95% 0,025 1,960
1 – 0,01 = 0,99 = 99% 0,005 2,575
Quadro 1. Valores da tabela normal para os principais níveis de significância
Estimação de parâmetros6
Uma financeira coletou uma amostra aleatória de 100 pessoas para estimar o valor
médio de endividamento de seus clientes. Com base em pesquisas anteriores, sabe-se
que o desvio-padrão populacional é de R$ 630,00 (σ = 630,00). Com uma probabilidade
de 95%, qual seria o erro máximo para a estimativa?
E = 1,960 · = 123,48630
√100
Com uma confiança de 95%, podemos afirmar que o erro máximo dessa estimativa
é de 123,48.
Precisamos observar que nem sempre sabemos o verdadeiro valor do desvio-padrão
populacional. Aliás, muito raramente teremos esse valor, pois, se tivéssemos facilmente
o desvio-padrão populacional, já saberíamos o valor da média populacional.
Assim sendo, é admissível utilizarmos o desvio-padrão amostral como estimativa
do desvio-padrão populacional, sempre que tivermos um tamanho da amostra igual
ou superior a 30.
Consequências dos estimadores
Como consequências das propriedades dos estimadores, quando temos uma
distribuição de probabilidades para os possíveis resultados de amostras alea-
tórias, podemos calcular intervalos de confiança que contenham o verdadeiro
valor do parâmetro populacional e uma confiança associada a esse intervalo.
Podemos, também, calcular tamanhos mínimos de amostras para que os dados
amostrais sejam representativos de toda uma população.
A distribuição de probabilidades associada aos dados da nossa população
é que nos dará a confiança necessária tanto para os intervalos de confiança
quanto para o tamanho mínimo de amostras. Leva-se em consideração o
teorema do limite central.
Intervalos de confiança
Podemos calcular um intervalo de variação para a média amostral, que terá uma
probabilidade definida de conter o verdadeiro valor do parâmetro populacional.
Isso é possível porque temos uma distribuição associada aos dados po-
pulacionais e amostrais. Utilizaremos a distribuição normal para esses in-
tervalos e teremos uma confiança fixada de acordo com essa distribuição de
probabilidades.
7Estimação de parâmetros
Existem valores que são mais comuns para o cálculo dos intervalos de
confiança: 90%, 95% e 99%. Os valores das probabilidades associadas a esses
níveis de confiança são os seguintes:
90% de confiança → z0,05 = 1,645
95% de confiança → z0,025 = 1,960
99% de confiança → z0,005 = 2,575
O intervalo de confiança para estimar uma média é descrito a seguir:
x– ± zα/2 ∙
σ
√n
com o desvio-padrão populacional conhecido
x– ± tα/2; n – 1 ∙
s
√n
com o desvio-padrão populacional desconhecido
Observe que, ao invés de utilizarmos a distribuição normal para o intervalo
de confiança com o desvio-padrão desconhecido, tomamos a distribuição t-stu-
dent, observando o α/2 e n–1 graus de liberdade. Vale ressaltar que, para n ≥ 30,
os valores da distribuição t e da distribuição normal igualam-se. Observe a
Figura 5, a seguir.
Figura 5. Comparação distribuição t e distribuição normal.
Fonte: Doane e Seward (2014, p. 306).
A distribuição t tem o mesmo formato da distribuição normal, mas, para n
menor do que 30, existe uma pequena diferença no formato, ocasionada pelo
tamanho da amostra. Veja a tabela da Figura 6.
Estimação de parâmetros8
Figura 6. Distribuição t-student.
Para encontrar o valor tabelado, cruzamos a coluna de alfa escolhido com
a linha dos graus de liberdade. Nesse caso do número de graus de liberdade,
precisamos fazer n–1.
9Estimação de parâmetros
Suponha que a financeira coletou uma amostra de 100 clientes e questionou sobre o
valor de endividamento deles, obtendo como resultado uma média amostral de R$
2.350,00 e um desvio-padrão amostral de R$ 590,00. Obtenha o intervalo de confiança
de 95% para a média.
x– = 2350,00
s = 590,00
n = 100
t0,025;99 = 1,960
x– ± tα/2
;n – 1 · = 2350 ± 1,960 ·
2350 ± 115,64
[2234,36; 2465,64]
s
√n
590
√100
Com 95% de confiança, a verdadeira média populacional para o valor médio de
endividamento estará entre R$ 2.234,36 e R$ 2.465,64.
De acordo com o intervalo, podemos calcular o tamanho mínimo de amostra
para quando queremos estimar a média populacional, isolando o n na equação
do erro máximo amostral. Esse valor nos fornecerá um tamanho de amostra
mínimo para que a amostra seja representativa da população, caso coletada
de forma aleatória.
n =
zα/2 ∙ σ
E( )
2
Por exemplo, qual seria o tamanho mínimo de amostra com uma confiança
de 95%, no caso de uma pesquisa com consumidores para investigar o valor
gasto com presentes no dia dos namorados. Sabe-se que o desvio-padrão
populacional da pesquisa no ano anterior foi de R$ 65,00. Os pesquisadores
querem errar, no máximo, em R$ 10,00.
Estimação de parâmetros10
z0,025 = 1,96
σ = 65,00
E = 10,00
n =
zα/2 ∙ σ
E( ) ( )
2 2
= = 162,3 = 1631,96 · 6510
Vale ressaltar que, no caso do tamanho mínimo de amostra, sempre se
arredonda para cima, independentemente de regras de arredondamento.
Podemos calcular, também, um intervalo de variação para a proporção
amostral. A teoria é semelhante à empregada no intervalo de confiança para
a média. Os cálculos são realizados de acordo com a equação a seguir.
p ± zα/2 ·
p ∙ (1 – p)
n
onde:
p: proporção amostral
n: tamanho da amostra
Zα/2
: valor tabela normal padrão
Assim como podemos calcular o tamanho mínimo de amostra para estimar
uma média, também podemos calcular o tamanho mínimo de amostra para
estimar uma proporção. A fórmula do tamanho mínimo de amostra também
é derivada da fórmula do erro máximo amostral para a proporção.
Ainda temos o intervalo de variação para o desvio-padrão de uma amostra
retirada de uma população que segue uma distribuição normal.
n =
zα/2
2 ∙ p(1 – p)
E2
Quando não conhecemos o verdadeiro valor da proporção populacional,
utilizamos o p = 0,5. Assim, podemos superestimar o tamanho da amostra,
já que a proporção não é conhecida.
11Estimação de parâmetros
Suponha que você deseja estimar a proporção de clientes satisfeitos com determinado
produto da sua empresa. Deseja-se cometer um erro máximo de estimação de 3%,
com uma confiança de 90%. Qual seria o tamanho mínimo de amostra para estimar
essa proporção?
zα
/2
= 1,645
p = 0,5 pois o p é desconhecido
E = 0,03 precisamos tirar do percentual
n =
zα/2
2 · p(1 – p)
E2
=
1,6452 · 0,5 · (1 – 0,5)
0,032
= 752

DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto
Alegre: AMGH; Bookman, 2014. 840 p.
FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed.
Porto Alegre: Bookman, 2006. 536 p.
Leitura recomendada
SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2009. 600 p.
(Coleção Schaum).
Estimação de parâmetros12
Conteúdo:
ESTATÍSTICA
Juliane Silveira Freire da Silva
Amostragem aleatória
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Diferenciar amostra aleatória de amostra não aleatória.
� Identificar os tipos de amostragem aleatória.
� Escolher as amostragens aleatórias adequadas.
Introdução
Neste capítulo, você vai conhecer mais sobre amostragem probabilística,
tambémchamada de amostragem aleatória. Vai aprender mais sobre
os tipos dessa amostragem e saber escolher qual tipo é mais adequado
para cada situação.
Diferenças entre amostragem aleatória e
amostragem não aleatória
Quando queremos realizar um levantamento de dados não temos como inves-
tigar toda a população, precisamos, na maioria das vezes, avaliar apenas os
dados referentes a uma amostra do objeto de interesse (Figura 1).
População é o conjunto de pessoas, seres ou objetos que tenham pelo menos uma
característica comum a todos os seus elementos.
A amostra será um subconjunto dessa população e terá as mesmas características
comuns à população da qual foram retiradas.
Figura 1. População-alvo e amostra.
Fonte: Adaptada de Bakhtiar Zein/Shutterstock.com.
População-alvo
Amostra
É preferível fazer o levantamento de uma amostra em vez de uma popula-
ção, pois é menos custoso e mais rápido, sem contar que, em geral, é inviável
obter dados de toda a população. O alcance de dados de todos os habitantes é
chamada de censo e o de uma amostra é chamada de amostragem.
Na maioria das vezes, a amostragem é suficiente para que possamos ter
uma ideia do real resultado do levantamento. Isso vai depender das técnicas
utilizadas para a escolha das unidades amostrais, que são as pessoas, os seres
ou os objetos coletados na amostragem.
Sempre que coletarmos as unidades amostrais de forma aleatória, po-
deremos extrapolar o resultado para toda a população, a isso chamamos de
inferência; já quando a amostra for coletada de forma não aleatória, não
poderemos generalizar os dados amostrais para toda a população, ou seja,
não podemos fazer inferências.
Mas e como diferenciar uma amostragem aleatória de uma amostragem
não aleatória? (Quadro 1) A diferença entre elas está somente na forma como
são escolhidas as unidades amostrais.
Amostragem aleatória2
Amostragem não aleatória
Por quotas
Cliente oculto
Grupos focalizados
Bola de neve
Por conveniência
Amostragem aleatória
Aleatória simples
Sistemática
Estratificada
Por conglomerados
Quadro 1. Tipos de amostragem
Na amostragem aleatória, cada um dos elementos tem uma probabilidade
de compor a amostra conhecida e diferente de zero. Na amostragem não
aleatória ocorre justamente o contrário, não se conhece a chance de uma
unidade amostral compor a amostra e, às vezes, algumas unidades amostrais
têm probabilidade zero de compor a amostra. Nesse tipo de amostragem, a
decisão da escolha das unidades amostrais depende, pelo menos em partes,
do julgamento do pesquisador.
Imagine uma pesquisa sobre a satisfação com a qualidade de sinal de
internet oferecida por determinada empresa na cidade do Rio de Janeiro. A
população são os assinantes de internet dessa empresa. O pesquisador decide
mandar um e-mail para todos os seus amigos que são clientes dessa operadora
de internet. Perceba que, se a população são todos os assinantes da empresa e o
entrevistador se limita a pesquisar apenas os seus amigos que são clientes, ele
acaba deixando um grande número de unidades amostrais sem chance alguma
de compor a amostra. Neste caso a amostragem não é aleatória. Porém, se o
pesquisador coletasse na empresa uma listagem de todos os clientes, fizesse um
sorteio e entrevistasse os clientes sorteados, teria uma amostragem aleatória,
pois todos os elementos da população têm probabilidade igual e diferente de
zero de compor a amostra.
3Amostragem aleatória
Mas então por que escolher entre amostra aleatória e amostra não aleatória?
Qual delas é melhor? Quando usar uma ou outra?
Se a diferença entre elas é a forma de selecionar as unidades amostrais,
ou seja, a forma de coleta, esse é o motivo para escolher um método ou outro.
Sempre que quisermos obter informações e extrapolar, inferir para toda a
população, precisamos obrigatoriamente utilizar uma amostragem aleatória.
Somente ela nos permite extrapolar para toda a população, pois os elementos são
coletados de forma aleatória e a escolha não tem a influência do pesquisador,
que pode, de alguma forma, tornar a amostragem tendenciosa.
A amostra aleatória pode nos fornecer a margem de erro e a probabilidade de estarmos
acertando o verdadeiro resultado da população. Por exemplo, nas pesquisas eleitorais,
presume-se que as unidades amostrais sejam coletadas de forma aleatória. Infelizmente,
nem todos os institutos de pesquisa coletam as unidades amostrais de forma aleatória
e, assim, as pesquisas eleitorais ficam desacreditadas muitas vezes. Essa pesquisa
não pode ser feita por telefone, pois limitaria a população apenas aos eleitores que
possuem telefone, ou seja, seriam excluídos alguns elementos da população com
probabilidade zero, o que deixaria de configurar uma amostra probabilística. A forma
correta de realizar uma pesquisa eleitoral é fazer entrevistas pessoais e selecionar as
unidades amostrais de forma aleatória. Somente dessa maneira é que a margem de
erro e a confiança informadas na pesquisa terão validade.
Caso a escolha da unidade amostral depender pelo menos em algum ponto
do julgamento do pesquisador, a amostra deixará de ser aleatória. Na amostra
aleatória, as unidades amostrais devem ser selecionadas por sorteio, e assim,
não sofrem influência do julgamento do pesquisador.
Tipos de amostragem aleatória
Dentro da amostragem aleatória há métodos de seleção diferentes. Todos eles
são realizados por sorteio de forma aleatória, mas podem ser combinadas
metodologias diferentes para a seleção das unidades amostrais.
Amostragem aleatória4
Amostragem aleatória simples
Esse é o método de amostragem aleatória mais importante, ele estará mesclado
nos demais métodos que serão apresentados. A amostragem aleatória simples
consiste em um sorteio para cada uma das unidades amostrais. Um exemplo
desse método é a urna de um bingo. Nela, há o número total de elementos
que vai corresponder a cada uma das bolas numeradas, e a cada elemento
sorteamos uma bola referente à unidade amostral que possui aquele número.
Assim, cada uma das unidades amostrais tem probabilidade igual, conhecida
e diferente de zero de compor a amostra.
Outro exemplo de amostragem aleatória é o levantamento do perfil de
alunos de uma determinada instituição de ensino, a partir da seleção de alguns
deles de uma lista com todos os estudantes. Os pesquisadores numeram todos
os alunos da lista, após, utilizam o Excel e geram números aleatórios. Os
números sorteados pelo programa posteriormente são os números escolhidos
na lista de alunos que havia sido organizada. Essa amostra será aleatória e,
se a quantidade de elementos selecionados for representativa da população,
o resultado dessa amostra poderá ser extrapolado para todos os alunos da
instituição, fixando a margem de erro e a confiança dos dados (probabilidade
de acertar o verdadeiro resultado da população).
Amostragem aleatória sistemática
A amostragem aleatória sistemática consiste em selecionar um elemento a
cada k unidades da população. Para esse método precisamos ter uma listagem
da nossa população disposta de forma aleatória.
k =
N
n
Onde
k — intervalo com o qual selecionaremos a unidade amostral;
N — tamanho da população;
n — tamanho da amostra.
A amostragem sistemática é muito útil quando temos alguma listagem dos
elementos da população ou quando as unidades amostrais estão dispostas em
uma fila, pois não precisamos fazer um sorteio para a seleção de cada unidade
amostral, podemos calcular o valor de k e, dentro do valor de k, sortear um número.
5Amostragem aleatória
Por exemplo, queremos investigar sobre a satisfação de uma loja de e-commerce,
para isso pegamos a listagem dos consumidores no último mês na ordem em que a
compra foi efetuada. Suponhamos que a loja tenha tido um total de 10 mil clientes e
que queremos investigar uma amostra de 385 clientes. Dividindo 10 mil por 385 temos
k — 26, então, a cada 26 clientes selecionamos um. Para iniciarmos, sorteamos um
valor entre 1 e 26; supondo queo número 10 tenha sido sorteado, selecionamos o 10º
cliente, o 36º, o 62º, o 88º e assim sucessivamente a cada 26 unidades, até selecionarmos
os 385 cientes.
Amostragem estratificada
A amostragem estratificada é uma amostragem aleatória, mas esse tipo de
amostragem não é exatamente um método de coleta, ou seja, de escolha das
unidades amostrais. Ele é mais uma forma de agrupamento em que as unidades
amostrais também devem ser selecionadas de forma aleatória.
A amostragem estratificada divide a população em estratos, em que seja
interessante uma divisão por grupos. Esses grupos devem ter comportamento
homogêneo dentro dos estratos e ter alguma variabilidade entre os grupos,
que seja conveniente ao objetivo do estudo. A seleção das unidades amostrais
dentro dos extratos pode ser feita pela amostragem aleatória simples ou pela
amostragem sistemática.
Esse tipo de amostragem é útil quando queremos verificar os cruzamentos
dos estratos. Podemos, então, comparar dois ou mais grupos nas estatísticas
descritivas. Por exemplo, estamos fazendo uma pesquisa sobre hábitos de
consumo de perfumaria entre os colegas de trabalho. Faz sentido separar em
estratos de homens e de mulheres, pois os hábitos de consumo de perfumaria
são diferentes para os dois gêneros. Assim, dividimos a amostra de forma
proporcional entre homens e mulheres e para a escolha de cada uma das
unidades amostrais podemos fazer um sorteio com números aleatórios.
Amostragem por conglomerados
A amostragem por conglomerados, assim como a amostragem estratificada,
é uma forma de agrupamento e não de seleção das unidades amostrais. A
Amostragem aleatória6
amostragem por conglomerados também será utilizada em conjunto com a
amostragem aleatória simples e/ou com a amostragem sistemática.
Assim como na amostragem sistemática, dividimos a população em grupos.
Porém, esses grupos serão formados normalmente por regiões geográficas.
Faz sentido utilizar esse tipo de agrupamento quando esses conglomerados
tiverem um comportamento com variabilidade dentro dos grupos e uma ho-
mogeneidade entre eles.
Por exemplo, agora quero fazer uma pesquisa com os colegas de trabalho
em uma grande empresa sobre hábitos de consumo de vinho. Inicialmente,
não existe nenhuma distinção de sexo, idade ou região para esses hábitos,
então presume-se que a questão a ser investigada não tem um perfil que
possa ser separado em grupos (o que seria conveniente apenas na amostragem
estratificada). Assim, posso dividir meus conglomerados por setores dentro da
empresa. Cada um dos setores representa um conglomerado, então seleciono
de maneira aleatória alguns conglomerados e, dentro de cada um deles, posso
entrevistar a totalidade dos funcionários daquele setor ou fazer um sorteio
dentro do conglomerado selecionado de alguns colegas.
A amostragem aleatória possui quatro tipos de amostragem. Os dois primei-
ros são especificamente técnicas de seleção de unidades amostrais de forma
aleatória; os outros dois são agrupamentos que fazem mais sentido de acordo
com o problema de pesquisa. As unidades amostrais podem ser selecionadas de
acordo com a amostragem aleatória simples e/ou com a amostragem sistemática.
Quando utilizamos a amostragem aleatória, podemos usar fórmulas para poder cal-
cular o tamanho da amostra. Essas fórmulas servem para estimar proporções ou para
estimar médias. Esses cálculos são feitos com base na margem de erro que estamos
dispostos a cometer e a probabilidade que queremos fixar para acertar o verdadeiro
valor da população estudada.
Quanto menor for a margem de erro que a pesquisa puder cometer, maior será o
tamanho da amostra, e quanto maior for a probabilidade de acertar o verdadeiro valor
da população considerando a margem de erro, maior será o tamanho da amostra. A
margem de erro é inversamente proporcional ao tamanho da amostra e a confiança
(probabilidade de acertar) é diretamente proporcional ao tamanho da amostra.
Podemos afirmar erro e confiança para os dados coletados somente para a amos-
tragem aleatória.
7Amostragem aleatória
Escolha do tipo de amostragem aleatória
Segundo Sampieri, Collado e Lucio (2013), inicialmente é preciso determinar
quais são os objetivos da pesquisa. Algumas pesquisas buscam contribuir para
resolver um determinado problema; nesse caso, devemos mencionar qual é
esse problema e de que maneira achamos que o estudo irá ajudar a resolvê-lo.
Outras, têm como objetivo principal comprovar uma teoria ou trazer evidência
empírica a seu favor.
A decisão sobre qual tipo de amostragem escolher depende de algumas
questões. É preciso definir a população-alvo e o problema de pesquisa. De-
finido isso, tomamos a decisão de inferir ou não para a população, isso nos
guiará para a escolha de uma amostragem aleatória ou uma amostragem não
aleatória. Porém, vale ressaltar que, muitas vezes, mesmo que queiramos ex-
trapolar para a população como um todo, a indisponibilidade de informações
da população-alvo nos impede de optar por uma amostragem aleatória e nos
deixa apenas com a opção de uma amostragem não aleatória.
Quando nos referimos à falta de informação de uma população queremos
dizer que podemos não saber onde encontrar as unidades amostrais dessa
população, que não as conhecemos direito, que não conseguimos nenhuma
listagem dessa população, etc.
Com a escolha do problema de pesquisa, a posterior definição da população-
-alvo e a decisão de fazer extrapolação com base na amostra para toda a popula-
ção, é que precisamos decidir qual tipo de amostragem aleatória será utilizada.
Lembramos que, algumas vezes, com a definição da população, esbarramos
em falta de informação e somos impedidos de utilizar a amostragem aleatória.
Precisamos saber qual tipo de informação temos da população, se teremos
uma listagem dela para poder fazer um sorteio, ou se elas estão dispostas
em algum tipo de fila, por exemplo, ou, ainda, se estamos pesquisando um
determinado bairro e as entrevistas serão feitas nas residências. Às vezes,
se faz necessário restringir a população com mais características que sejam
comuns para uma maior precisão na hora da coleta das unidades amostrais.
Não existe um método melhor do que outro, o que existe é o método de
amostragem mais adequado à população-alvo e aos objetivos da pesquisa.
Ou seja, não quer dizer que escolher um tipo ou outro de amostragem possa
ser mais vantajoso, pois muitas vezes a amostragem não aleatória satisfaz as
exigências que o pesquisador necessita e pode ser a única maneira de coletar
os dados. Não quer dizer que a amostragem não aleatória não seja boa, ela
muitas vezes é a única opção.
Amostragem aleatória8
Assim também acontece com a escolha da técnica dentro da amostragem
aleatória. Não quer dizer que uma ou outra técnica de amostragem seja me-
lhor do que a outra, o que precisamos garantir em todas é a aleatoriedade. O
restante é o que melhor se adequar aos objetivos da pesquisa e à população a
ser investigada, e ao acesso disponível com relação à população.
Para relembrar, na amostragem aleatória simples, realizamos um sorteio
para a escolha da unidade amostral. Na amostragem aleatória sistemática,
escolhemos a unidade amostral a cada k unidades.
A amostragem aleatória estratificada separa em grupos semelhantes dentro
de cada grupo e os seleciona por sorteio ou de forma sistemática. A amostragem
aleatória por conglomerados separa em grupos heterogêneos dentro de cada
grupo e escolhe os grupos de forma aleatória ou sistemática.
Acesse o link ou o código a seguir para assistir a um vídeo
sobre amostragem aleatória simples.
https://goo.gl/ba4s8R
Depois da definição da técnica de escolha das unidades amostrais, pre-
cisamos pensar no instrumento de coleta. Para as pesquisas quantitativas,
normalmente se utiliza um questionário estruturado e fechado. Isso é o que
irá facilitar a análise e a inferência posterior.
Para a construção das perguntas do questionário, segundo Flick (2012)
existem trêspontos importantes:
� formulação da pergunta;
� tipos de perguntas e possíveis respostas apropriadas;
� propósito na formulação das perguntas.
9Amostragem aleatória
As perguntas do questionário devem ser em sua maioria objetivas, então
devemos pensar nas opções de resposta também. Podemos deixar algumas
perguntas abertas, caso queiramos investigar alguma coisa que não temos
conhecimento para dar as opções, ou então, se for uma questão que queremos
investigar de forma detalhada.
Suponhamos que desejamos realizar uma pesquisa dentro de uma sala de aula para
verificar se o novo professor está atendendo às expectativas da turma. A turma tem
60 alunos e temos apenas o horário do intervalo para fazer essa pesquisa.
Definida a população, que será a referida turma do novo professor, e o problema de
pesquisa, que é verificar se os alunos aprovam o novo professor em alguns quesitos,
o que podemos fazer para obter os dados?
Como temos um curto espaço de tempo, realizaremos uma amostragem. Como
todos os alunos estão na chamada, podemos sortear de forma prévia alguns deles (um
número representativo) e, quando chegar o horário do intervalo, faremos as entrevistas
com um questionário já estruturado e fechado.
Após essa ação, teremos a coleta de dados dessa amostra e, posteriormente, podemos
fazer a análise descritiva desses dados. Os resultados obtidos refletirão a opinião de
toda a turma.
FLICK, U. Introdução à metodologia de pesquisa: um guia para iniciantes. Porto Alegre:
Penso, 2012. 256 p.
SAMPIERI, R. H.; COLLADO, C. F.; LUCIO, M. P. B. Metodologia de pesquisa. 5. ed. Porto
Alegre: AMGH; Penso, 2013. 624 p.
Amostragem aleatória10
ESTATÍSTICA
Juliane Silveira
Freire da Silva
Propriedades dos
estimadores
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
� Expressar as propriedades dos estimadores.
� Identificar estimador não enviesado.
� Diferenciar estimadores eficientes de consistentes.
Introdução
Neste capítulo, você identificará o que são estimadores e estimativas e
aprenderá sobre as suas propriedades. Saberá diferenciar estimadores não
enviesados, eficientes e consistentes. E, ao final, verificará os melhores
estimadores para alguns parâmetros populacionais.
Propriedades dos estimadores
Quando estamos lidando com dados estatísticos, na maioria das vezes, uti-
lizamos amostras ao invés de populações. Isso ocorre porque a coleta de
dados de uma população normalmente é onerosa e demorada , nem sempre
necessária e possível.
Utilizamos, então, dados coletados de amostras provenientes das popu-
lações. Existem técnicas de coletas de dados amostrais probabilísticas, que
traduzem muito bem os dados da população. Essa amostragem nos fornece
dados aleatórios e não tendenciosos da população.
Não é qualquer tipo de amostragem que é interessante para retratar os
dados de uma população. Muitas vezes, amostras coletadas são tendenciosas
e só podem retratar a amostra coletada, mas não a população como um todo,
de onde essa amostra foi retirada.
Então, para que possamos coletar dados numéricos de uma amostra, pre-
cisamos, antes de tudo, coletar essa amostra de forma correta, de acordo com
os objetivos da pesquisa.
Se uma pesquisa busca retratar apenas o momento e aquelas pessoas que
fizeram parte da amostra, será indiferente se coletarmos a amostra de forma
probabilística ou não probabilística. Porém, se quisermos extrapolar os dados
coletados na amostra para os dados da população, precisamos obrigatoriamente
coletar a amostra de forma probabilística. Somente desta maneira pode-se
assegurar o erro e a confiança que se pode cometer com essa extrapolação.
Claro que, toda a vez que coletamos dados referentes de uma amostra,
teremos dados numéricos — como médias, proporções e variabilidade — que
serão o resumo da amostra coletada.
São esses resumos numéricos que trataremos neste capítulo. O objetivo
mais comum de coletarmos uma amostra é calcularmos esses resumos nu-
méricos para podermos extrapolar para a população como um todo, inferindo
que os dados da população tenham aproximadamente os mesmos resultados
da amostra.
Quando coletamos dados referentes a uma população e calculamos seus
resumos numéricos, temos os parâmetros populacionais ou apenas parâmetros.
Podemos exemplificar o parâmetro da média populacional que é representado
por μ, o parâmetro do desvio padrão populacional que é representado por 𝜎
e a proporção populacional representada por π.
Quando coletamos dados referentes a uma amostra oriunda de uma popula-
ção e calculamos os resumos numéricos dela, teremos os estimadores (também
chamados de estatísticas). Podemos exemplificar o estimador da média, que
é representado por x–, o estimador do desvio padrão, representado por s, e o
estimador para a proporção, representado por p.
Na Figura 1, a seguir, há uma representação de população e amostra.
Observe que os parâmetros são normalmente representados por letras
gregas, e os estimadores, por letras do alfabeto latino.
Os parâmetros são os valores corretos, não havendo o que contestar, afinal,
eles foram coletados diretamente da população. Já os valores dos estimadores
variarão de uma amostra para outra, pois existe uma variabilidade nos dados
coletados de uma mostra para amostra.
Propriedades dos estimadores2
Figura 1. Representação de população e amostra.
População
Amostragem Amostra
Estimadores
InferênciaParâmetros
Como existe essa variabilidade entre as possíveis amostras (que, a priori,
precisam ser amostras probabilísticas), existirão estimadores que represen-
tarão melhor os dados do que outros, como os que podem apresentar um
viés quando comparados com o parâmetro populacional. Há parâmetros que
podem ser tendenciosos, ao serem comparados com o parâmetro populacional,
e estimadores que são eficientes, se comparados ao parâmetro populacional.
Podemos, também, ter estimadores pontuais ou intervalares. Os pontuais
são a própria medida numérica obtida na amostra. O estimador intervalar,
como o nome sugere, fornece um intervalo que conterá o verdadeiro valor
populacional com uma probabilidade fixada.
Quando estamos extrapolando os valores obtidos em uma amostra para
toda a população de onde essa foi extraída, estamos entrando na área de
estatística inferencial.
Podemos ter vários parâmetros populacionais para estimarmos com base
em uma amostra. Então, generalizaremos um parâmetro qualquer da população
como sendo o de interesse representado por θ, e a estimativa amostral desse
parâmetro de interesse, representada por θ̂ . O sinal de acento circunflexo
representa o estimador.
Então, o parâmetro de interesse θ pode representar os parâmetros μ, 𝜎, π
(média populacional, desvio padrão populacional, proporção populacional),
assim como o estimador θ̂ do parâmetro pode representar os estimadores x–,
s, p (média amostral, desvio padrão amostral, proporção amostral).
3Propriedades dos estimadores
A estatística tem duas grandes divisões. A estatística descritiva e a inferencial. Quando
coletamos uma amostra, primeiramente, obtemos a análise descritiva desses dados.
Dependendo de como os dados amostrais foram coletados, podemos realizar infe-
rências para a população como um todo — chamamos isso de estatística inferencial.
Estimador não enviesado
Quando calculamos uma estimativa de um parâmetro populacional, comete-
mos um erro na estimativa pontual. Pois, se coletamos amostras aleatórias,
teremos amostras diferentes e aleatórias que fornecerão valores diferentes
do valor do parâmetro — chamamos isso de erro amostral. Para a média, por
exemplo, temos:
Erro amostral = x– – μ
Segundo Doane e Seward (2014), geralmente, o parâmetro que estimamos
é desconhecido, e, portanto, não podemos calcular o erro amostral. O que
sabemos é que a média da amostra x– é uma variável aleatória que, em média,
estima corretamente μ, porque as medidas amostrais que superestimam μ
tendem a ser compensadaspor aquelas que o subestimam.
O erro amostral é calculado com base em uma estimativa pontual e um
parâmetro populacional de interesse.
Outro conceito importante para as definições a seguir é o conceito de
valor esperado — ou expectância ou esperança matemática de uma variável.
No caso de uma variável contínua, essa esperança é calculada como sendo a
integral da função distribuição de probabilidade (FDP) da variável x. No caso
de uma variável discreta, é calculada com o somatório das probabilidades.
E(X) = ∫+∞ xf(x)dx para uma variável quantitativa contínua
E(X) = ∑i = 1 xiP(X = xi) para uma variável quantitativa discreta
–∞
n
Dizemos que um estimador é não enviesado, ou não viesado ou não ten-
dencioso, sem viés quando esse estimador tem o seu valor esperado igual ao
do parâmetro de interesse que se pretende estimar.
Propriedades dos estimadores4
E(θ ) = θ^
Observe que, em uma amostra, pode haver um erro amostral pontual, mas
um estimador não enviesado é aquele que tem o seu valor esperado igual ao
parâmetro populacional estimado. O estimador não enviesado não superesti-
mará ou subestimar em média o parâmetro.
Em contrapartida, um estimador enviesado é aquele que erra em média
o valor do parâmetro. A diferença entre o valor esperado do estimador e o
parâmetro é o que chamamos de viés.
Viés = E(θ ) – θ^
Segundo Doane e Seward (2014), o erro amostral é aleatório, enquanto o
vício é sistemático. Algumas amostras podem aparentar estarem mais próximas
do centro do alvo do que outras, mas ao menos um estimador não viciado
evita o erro sistemático. Você não pode observar o vício em uma amostra
porque não conhece o verdadeiro parâmetro populacional, mas o vício pode
ser estudado matematicamente ou por experimentos simulados.
A Figura 2 ilustra a diferença entre um estimador viciado e um não viciado.
Figura 2. Ilustração de vício, comparando um atirador com um alvo.
Fonte: Doane e Seward (2014, p. 294).
Estimador não viciado Estimador viciado
5Propriedades dos estimadores
Temos, como exemplos de estimadores não enviesados, a média amostral
representada por x–, bem como a proporção amostra, representada por p.
μ =
∑Xi
N média populacional
x– =
∑Xi
n média amostral
� = proporção populacionalXN
p =
x
n proporção amostral
Como exemplos de estimadores enviesados, temos a variância amostral,
representada por s2, e o desvio padrão amostral, representado por s.
σ2 =
∑(Xi – μ)
2
N variância populacional
s2 =
∑(xi – x–)
2
n – 1 variância padrão amostral
σ = desvio padrão populacional
∑(xi – μ)
2
N
s = desvio padrão amostral
∑(xi – x–)
2
n – 1
onde:
xi cada um dos n elementos da amostral;
Xi cada um dos N elementos da populacional;
n tamanho da amostra;
N tamanho da população.
Propriedades dos estimadores6
Estimadores eficientes e consistentes
A definição de um estimador eficiente consiste em determinar qual dos esti-
madores tem a menor variabilidade. Na comparação entre estimadores obtidos
dentro de uma mesma população com médias iguais ou valores esperados
para a média iguais, o mais eficiente será aquele que tiver a menor variância.
VAR(θ1) < VAR(θ2)
^ ^
Quanto menor for a variância da distribuição amostral da estimativa,
mais eficiente será o estimador. Diz-se, então, que θ1
^ é um estimador mais
eficiente do que θ2
^ .
Utilizamos o estimador não viciado de variância mínima. Segundo Doane
(2014), embora um estimador não viciado de variância mínima nem sempre
exista para todo o parâmetro de todo o tipo de distribuição, os estatísticos
provaram que, para uma distribuição normal, x– e s2 são estimadores de vari-
ância mínima de μ e 𝜎², respectivamente. O mesmo se aplica para a proporção.
A Figura 3, a seguir, ilustra um estimador mais eficiente e um menos
eficiente.
Figura 3. Ilustração de eficiência, comparando um atirador com um alvo.
Fonte: Doane e Seward (2014, p. 294).
Estimador mais e�ciente Estimador menos e�ciente
7Propriedades dos estimadores
Observe, na figura, que ambos estimadores são não enviesados, porém o
da esquerda é mais eficiente, pois apresenta uma variabilidade menor do que
o alvo da direita.
Podemos, ainda, calcular o erro quadrático médio de um estimador, distin-
guindo, assim, a qualidade dos diferentes estimadores que podem ser obtidos
de uma mesma população.
EQM(θ) = E(θ – θ)2^^
Sobre o conceito de consistência de um estimador, representado na Figura 4,
dizemos que, quanto maior for o tamanho da amostra, mais consistente será o
estimador. Ou seja, quando temos n → ∞, existe uma tendência de que o valor
esperado do estimador seja igual ao do parâmetro populacional (E(θ ) = θ)^ .
Assim sendo, conforme o tamanho da amostra aumenta, o estimador para
a média amostral (x–) aproxima-se do parâmetro da média populacional (μ).
E a estimativa para a proporção (p) aproxima-se do parâmetro populacional
(π), conforme o tamanho da amostra aumenta.
Figura 4. Ilustração de consistência.
Fonte: Doane e Seward (2014, p. 295).
n = 5
n = 20
n = 80
Propriedades dos estimadores8
Observe que, na representação das distribuições da Figura 4, quanto maior
for o tamanho da amostra, mais consistente será o estimador.
Os pressupostos de estimadores consistentes, eficientes e não viciados
são muito importantes para estimativas intervalares, testes de hipóteses e
estatística inferencial como um todo.
Vimos, neste capítulo, a teoria para estimadores pontuais, da qual po-
demos estimar intervalos de confiança que contenham o verdadeiro valor
do parâmetro de acordo com a probabilidade da distribuição que os dados
populacionais seguem.
DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto
Alegre: AMGH; Bookman, 2014. 840 p.
Leituras recomendadas
BECKER, J. L. Estatística básica: transformando dados em informação. Porto Alegre:
Bookman, 2015. 504 p. (Métodos de Pesquisa).
SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2009. 600 p.
(Coleção Schaum).
Referência
9Propriedades dos estimadores
Conteúdo: