Amostragem por conglomerado

•

UFJF

Isadora Lupchinski

28/11/2015

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 40 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Amostragem II

20 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 1 
 
 
Amostragem 
 
Parte 2 
 
Amostragem por Conglomerados 
Teoria e Prática 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 2 
 
Amostragem por Conglomerados (I) 
o A unidade amostral (conglomerado) contém mais de um 
elemento populacional. 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 3 
 
Amostragem por Conglomerados (II) 
 
o Problemas: 
� dentro de um mesmo conglomerado, unidades tendem a 
ter valores para as variáveis pesquisadas parecidos; 
� este fenômeno tende a fazer com que planos amostrais 
deste tipo sejam menos eficientes. 
o Quanto maior for a correlação intra-conglomerado menor a 
eficiência do procedimento. 
o Quanto maior a heterogeneidade dentro dos conglomerados, 
maior é a eficiência do procedimento amostral. Isto é o 
oposto do exigido na construção dos estratos! 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 4 
 
Amostragem por Conglomerados em Um Estágio 
• Uma amostra de conglomerados é selecionada de acordo 
com um plano amostral qualquer e todos os elementos 
pertencentes aos conglomerados selecionados compõem a 
amostra. 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 5 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 6 
 
Amostragem em Múltiplos Estágios 
o quando os conglomerados são homogêneos se torna menos 
aconselhável a seleção de todos os seus elementos; 
o solução: sub-sorteio de elementos dos conglomerados 
selecionados; 
o procedimento (2 estágios): 
� selecionar no primeiro estágio, conglomerados (unidades 
primárias de amostragem - UPAs), segundo algum plano 
amostral; 
� de cada conglomerado selecionado, sortear elementos 
(unidades secundárias de amostragem - USAs) através do 
mesmo ou de outro plano amostral. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 7 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 8 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 9 
 
Exemplos 
1) conglomerados = áreas num mapa 
unidades elementares = fazendas 
2) conglomerados = hospitais 
unidades elementares = enfermeiras 
3) UPAs = escolas 
USAs = turmas 
unidades elementares = crianças 
4) conglomerados = carros cruzando pedágio 
unidades elementares = passageiros nos carros 
5) UPAs = empresas industriais 
unidades elementares = unidades locais 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 10 
 
Amostragem em Três Estágios 
→ Unidades primárias de amostragem 
→ Unidades secundárias de amostragem 
→ Unidades elementares 
 
• Etapa 1 – amostra de UPAs selecionada; 
 
• Etapa 2 – amostra de USAs selecionada de cada uma das UPAs 
selecionadas na primeira etapa; 
 
• Etapa 3 – amostra de unidades elementares selecionada de cada uma 
das USAs selecionadas. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 11 
 
 
 
 
 
 
Atividade 2 
 
 
 
 
 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 12 
 
Amostragem por Conglomerados em Um Estágio (I) 
Estimação e Notação 
Conjunto 
Tamanho 
População Amostra 
Conglomerados 
 
N N 
Unidades no conglomerado i Mi Mi 
Todas as unidades ∑
=
=
N
1i
i0 MM ∑
=
=
n
1i
i0 Mm 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 13 
 
Amostragem por Conglomerados em Um Estágio (II) 
Parâmetros Populacionais (I) 
 
Valor da variável de pesquisa para unidade 
j do conglomerado i 
yij 
Total no conglomerado i 
∑
=
=
iM
1j
iji yy 
Média no conglomerado i iij
M
1j i
i
i My = M
y
 = Y /
i
∑
=
 
Total populacional ∑
=
=
N
1i
iyY 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 14 
 
Parâmetros Populacionais (II) 
 
Média por conglomerado 
 
 
N/y
N
YY
N
1i
iC ∑
=
== 
Média por unidade 0
N
1i
i
0
M/y
M
YY ∑
=
== 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 15 
 
Amostragem Conglomerada Simples (ACS) (I) 
• Selecionar n conglomerados por AAS, dentre os N existentes, e 
pesquisar todas uma das unidades nos conglomerados selecionados. 
 
Valores amostrais 
 n , 1, = i 
, M , 1, = j y iij
K
K∀
 
Total no conglomerado i da 
amostra 
n , 1, = i , y = y
iM
1j
iji K∑
= 
Média no conglomerado i da 
amostra 
iij
M
1j i
i
i My = M
y
 = Y /
i
∑
= 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 16 
 
Amostragem Conglomerada Simples (ACS) (II) 
Total amostral 
∑
=
=
n
1i
iyt
 
Média por conglomerado 
n/y
n
ty
n
1i
iC ∑
=
==
 
Média por unidade 
 
∑∑
==
==
n
1i
i
n
1i
i
0
M/y
m
ty
 
Probabilidade de inclusão dos 
conglomerados N
n
 
Probabilidade de inclusão das 
unidades N
n
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 17 
 
Amostragem Conglomerada Simples (ACS) (III) 
 
• Estimação da Média por Unidade Elementar: Y - Estimador Natural 
M
y
 = 
n
C
y
M
N
 = 
M
Yˆ
 = y
i
n
1i
00
N
∑
=
 (não viciado) 
 
• Variância do estimador natural 
 
S 
n
f - 1
 
M
1
=S 
n
f - 1
 
M
N
=) y (V 2e22e2
0
2
NACS
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 18 
 
Amostragem Conglomerada Simples (ACS) (IV) 
• Estimador da variância do estimador natural 
 
s 
n
f - 1
 
M
1
=) y (Vˆ 2e2NACS
 
 
Estimação do Total Populacional - Estimador “Natural” 
 
 
∑∑
∑
= =
=
×=
==
n
1i
M
1j
ijij
n
1i
Ci
i
yw
yNy
n
NYˆ
 
 
onde wij = N/n são os pesos individuais. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 19 
 
Amostragem Conglomerada Simples (ACS) (V) 
• Variância do estimador 
 ( ) n/S)f1(N=YˆV 2e2ACS ×− , onde f = n/N, e 
o ) 1 - N (/ )Y - y( = S
N
1i
2
Ci
2
e ∑
=
 é a variância entre os totais dos 
conglomerados. 
 
 
• Estimador da variância 
 
 ( ) n/s)f1(N=YˆVˆ 2e2ACS ×− 
o onde 2eS é estimado por ) 1 -n (/ )y - y( = s
n
1i
2
Ci
2
e ∑
=
. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 20 
 
 
 
 
 
 
 
Atividade 3 
 
 
 
 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 21 
 
ACS – Exemplo Usando Software R (I) 
 
• Voltaremos a utilizar a população fictícia de alunos, matriculados 
em escolas das redes Municipal (=1), Estadual (=2) e Federal (=3), 
utilizada anteriormente neste curso. 
 
População “Alunos” 
Var Descrição 
aluno Código identificador do aluno. 
rede Código identificador da rede de ensino. 
escola Código identificador da escola. 
turma Código identificador da turma 
port Proficiência em Língua Portuguesa. 
sexo Sexo do aluno (masculino=1; feminino=2) 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 22 
 
ACS – Exemplo Usando Software R (II)• Carregar o arquivo “Alunos.txt” digitando na janela Source: 
 
# Mudar diretório de trabalho 
setwd(“DRIVE:/DIRETÓRIO/SUBDIRETÓRIO”) 
 
# Abrir arquivo “Alunos.txt” 
Alunos=read.table(“Alunos.txt”, header=T) 
 
• Novamente, consideraremos como variável de interesse ‘port’, ou 
seja, a proficiência em Língua Portuguesa e como parâmetro de 
interesse a média desta variável. 
 
• Voltaremos a utilizar o pacote Sampling, que deverá estar instalado e 
depois carregado a partir do seguinte comando: 
 
# Carrega o pacote sampling 
library(sampling) 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 23 
 
ACS – Exemplo Usando Software R (III) 
 
• Que tal se agora selecionarmos uma amostra por conglomerados 
simples sem reposição em um estágio, onde os conglomerados são 
definidos como a variável ‘escola’ em nossa população de alunos? 
 
• Nesta população os alunos estão divididos em 191 escolas 
(conglomerados) e que cada escola possui em média 31,41 alunos. 
 
• Assim se queremos que nossa amostra conglomerada tenha um 
número de alunos aproximadamente igual a 500 podemos selecionar 
16 escolas. 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 24 
 
ACS – Exemplo Usando Software R (IV) 
 
• Para isso podemos utilizar a função cluster do pacote sampling 
digitando (em uma única linha): 
 
# Selecionar uma Amostra Conglomerada Simples 
IACSs=cluster(Alunos, clustername=c("escola"), size=16, 
method=c("srswor")) 
 
• A função cluster produz um objeto, que contém os conglomerados 
selecionados, o identificador dos alunos pertencentes a cada uma das 
escolas e as probabilidades de seleção dos mesmos. 
 
• Para produzirmos um objeto com dados amostrais para a amostra 
selecionada digite: 
 
ACSs=getdata(Alunos,IACSs$ID_unit) 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 25 
 
ACS – Exemplo Usando Software R (V) 
 
• Após selecionarmos a amostra, podemos estimar novamente o 
parâmetro média da variável ‘port’ e o erro padrão utilizando 
novamente o pacote Survey. 
 
• Precisamos mais uma vez especificar o plano amostral adotado na 
seleção da amostra. Para isto, depois de carregar o pacote Survey, 
digite: 
 
fpc2=rep(191,dim(IACSs)[1]) 
PlanoC=svydesign(id=~escola, data = ACSs, probs=~IACSs$Prob, 
fpc=~fpc2) 
 
• Agora podemos estimar a média e o seu erro padrão, considerando o 
plano amostral, usando novamente o comando svymean: 
 
svymean(~port,PlanoC) 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 26 
 
ACS – Exemplo Usando Software R (VI) 
 
• Compare estas estimativas com aquelas produzidas a partir das 
amostras selecionadas anteriormente. 
 
• Aparentemente, houve alguma melhora e/ou ganho de eficiência? 
 
• Os seus resultados estão de acordo com o que você esperava? 
 
• Se não for possível resgatar os resultados anteriores, selecione 
novamente um AAS e uma AES para fins de comparação com os 
resultados da ACS. 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 27 
 
 
 
 
 
 
Atividade 4 
 
 
 
 
 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 28 
 
Amostragem por Conglomerados em 2 Estágios (AC2) (I) 
 
• Estágio 1 – selecione amostra de n UPAs. 
 
• Estágio 2 – para cada UPA i da amostra de primeiro estágio, selecione 
mi unidades secundárias das Mi unidades existentes. 
 
• O tamanho total da amostra é 
 
∑
=
n
1i
i0 m = m
. 
 
 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 29 
 
Porque Amostragem em 2 Estágios? 
 
1) Geralmente não é prático pesquisar todas as unidades nos 
conglomerados selecionados: conglomerados muito grandes, carga de 
trabalho variável por entrevistador, etc. 
 
2) Se a variância dentro dos conglomerados for pequena, as médias por 
conglomerados ( iY ) podem ser bem estimadas por amostragem. 
 
3) Amostragem em dois estágios é mais complexa, porém mais flexível. 
 
 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 30 
 
AC2 – AAS em Cada Estágio (I) 
 
Estágio 1 – selecione amostra de n UPAs usando AAS. 
 
Estágio 2 – para cada UPA i da amostra de primeiro estágio, selecione 
mi unidades secundárias das Mi unidades existentes usando AAS. 
 
• Para esse plano, a probabilidade de inclusão da unidade j da UPA i é 
dada por: 
i
i
ij M
m
 
N
n
 = s) i | s P(j s) P(i = s) j , s P(i = ×∈∈×∈∈∈pi
 
 
• Planos amostrais são mais simples quando as probabilidades de 
inclusão são constantes. 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 31 
 
AC2 – AAS em Cada Estágio (II) 
• Neste plano, isto pode ser conseguido tomando mi ∝ Mi. Neste caso, 
o plano seria autoponderado. 
 
• Uma desvantagem importante desse tipo de plano seria a geração de 
cargas de trabalho desiguais por entrevistador, caso cada 
entrevistador receba uma UPA para pesquisar. 
 
• Uma opção seria estratificar os conglomerados por tamanho. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 32 
 
AC2 - Estimação Não Viciada do Total (I) 
 
∑∑
==
n
1i
i
n
1i
iiHT yˆ 
n
NyM 
n
N
 =Yˆ =
 
 
• Variância do estimador não viciado 
 
( ) ( )
∑
∑
=
=
−
N
1i
i
2
i2i2
2
i
N
1i
2
Ci
1
2
HTp
m/)Sf - (1 M 
n
N
 + 
Yy ) 1 - N (
) f - 1 (
 
n
N
=YˆV
 
• Onde 
- f1=n/N é a fração amostral do primeiro estágio; 
- f2i=mi/Mi é a fração amostral do segundo estágio no conglomerado i; 
- 
∑
=
−
iM
1j
2
iij
i
2
2i )Y - y( 1M
1
 = S
 é a variância dentro da UPA i. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 33 
 
AC2 - Estimação Não Viciada do Total (I) 
 
• Estimador não viciado de variância: 
( ) ( )
∑
∑
=
=
−
n
1i
i
2
i2i2
2
i
n
1i
2
Ci
1
2
HTp
m/)sf - (1 M 
n
N
 + 
yyˆ ) 1 -n (
) f - 1 (
 
n
N
=YˆVˆ
 
 
• Onde 
- 
∑
=
n
1i
iC yˆ n
1
 = y
 estima a média por conglomerado CY ; e 
- 
∑
=
−
im
1j
2
iij
i
2
2i )y - y( 1m
1
 = s
 estima a variância dentro da UPA i. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 34 
 
AC2 – Exemplo Usando Software R (I) 
• Carregar o arquivo “Alunos.txt” digitando na janela Source: 
 
# Mudar diretório de trabalho 
setwd(“DRIVE:/DIRETÓRIO/SUBDIRETÓRIO”) 
 
# Abrir arquivo “Alunos.txt” 
Alunos=read.table(“Alunos.txt”, header=T) 
 
• Novamente, consideraremos como variável de interesse ‘port’, ou 
seja, a proficiência em Língua Portuguesa e como parâmetro de 
interesse a média desta variável. 
 
• Voltaremos a utilizar o pacote Sampling, que deverá estar instalado e 
depois carregado a partir do seguinte comando: 
 
# Carrega o pacote sampling 
library(sampling) 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 35 
 
AC2 – Exemplo Usando Software R (II) 
• Que tal se agora selecionarmos uma amostra por conglomerados 
simples sem reposição em dois estágios, onde as UPAs são definidos 
como a variável ‘escola’ e as USAs como a variável ‘turma’ em nossa 
população de alunos? 
 
• Nesta população os alunos estão divididos em 380 turmas (USAs) e 
que cada turma possui em média 15,8 alunos.Assim se queremos que nossa amostra conglomerada tenha um 
número de alunos aproximadamente igual a 500, uma alternativa seria 
selecionarmos 32 escolas e 1 turma de cada escola. 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 36 
 
AC2 – Exemplo Usando Software R (III) 
• Para isso podemos utilizar a função cluster do pacote sampling 
digitando (em uma única linha): 
 
# Selecionar uma Amostra Conglomerada em 2 estágios 
n2=rep(1,32[1]) 
IAC2=mstage(Alunos, stage=list(“cluster”,“cluster”), 
varnames=list(“escolar”, “turma”), size=list(32,n2), 
method=list(“srswor”, “srswor”)) 
 
• A função mstage produz um objeto do tipo lista com informações 
sobre as unidades selecionadas em cada um dos estágios 
considerados. 
 
 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 37 
 
AC2 – Exemplo Usando Software R (III) 
 
• Para verificarmos quais foram as escolas selecionadas no primeiro 
estágio e quais foram as turmas selecionadas no segundo estágio 
digite, respectivamente: 
 
unique(IAC2[[1]]$escola) 
unique(IAC2[[2]]$turma) 
 
• O comando a seguir irá extrair da base populacional os dados 
amostrais para a amostra de alunos selecionada. 
 
AC2=getdata(Alunos,IAC2)[[2]] 
 
• Note que as duas últimas variáveis do objeto AC2 incluem as 
probabilidades de seleção das turmas e as probabilidades de seleção 
dos alunos. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 38 
 
AC2 – Exemplo Usando Software R (IV) 
 
• Após selecionarmos a amostra, podemos estimar novamente o 
parâmetro média da variável ‘port’ e o erro padrão utilizando 
novamente o pacote Survey. 
 
• Precisamos mais uma vez especificar o plano amostral adotado na 
seleção da amostra. Para isto, depois de carregar o pacote Survey, 
digite: 
 
PlanoC2=svydesign(data=AC2,ids=~escola+turma, nest=TRUE, 
probs=AC2$Prob) 
 
• Agora podemos estimar a média e o seu erro padrão, considerando o 
plano amostral, usando novamente o comando svymean: 
 
svymean(~port,PlanoC2) 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 39 
 
AC2 – Exemplo Usando Software R (V) 
 
• Compare estas estimativas com aquelas produzidas a partir das 
amostras selecionadas anteriormente. 
 
• Aparentemente, houve alguma melhora e/ou ganho de eficiência? 
 
• Os seus resultados estão de acordo com o que você esperava? 
 
• Se não for possível resgatar os resultados anteriores, selecione 
novamente uma AAS, uma AES e uma ACS para fins de comparação 
com os resultados da AC2. 
 
 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 40 
 
 
 
 
 
 
 
 
Atividade 5