Buscar

Amostragem Estratificada

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 1 
 
 
Amostragem 
 
Parte 1 
 
Amostragem Estratificada – Teoria e Prática 
+ 
Pacotes Sampling e Survey do R 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 2 
 
Amostragem Estratificada (I) 
Princípios Gerais 
• Envolve a divisão da população em estratos (mutuamente 
exclusivos e exaustivos) de acordo com características 
conhecidas. 
• De cada estrato são selecionadas unidades (normalmente de 
forma independente). 
• Subgrupos geralmente internamente mais homogêneos que a 
população como um todo, o que proporciona a redução do erro 
amostral como um todo. 
• Quanto mais homogêneos os subgrupos maior a eficiência do 
plano amostral. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 3 
 
Amostragem Estratificada (II) 
Características (I) 
• Vantagens: (I) 
o Normalmente produz um aumento da precisão das 
estimativas ou permite a redução do tamanho da amostra 
para um nível de precisão fixo. 
o Permite estimação tanto para a população como um todo 
quanto para subgrupos. 
� Muitas vezes, antes da pesquisa ir a campo, é possível 
identificar subpopulações para as quais se desejam 
estimativas com precisões pré-especificadas. Neste 
caso, cada subpopulação corresponderia a um estrato. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 4 
 
Amostragem Estratificada (II) 
• Vantagens: (II) 
o Solução de problemas administrativos (custos). 
� Por exemplo, imagine um levantamento de âmbito 
geográfico, em que o órgão responsável pela pesquisa 
tenha escritórios em várias regiões, cobrindo a área total a 
ser investigada. Seria natural que cada região fosse um 
estrato. O levantamento de campo em cada estrato seria 
de responsabilidade do escritório regional correspondente. 
 
o Permite que, para algumas subpopulações específicas a 
adoção de procedimentos alternativos de estimação. Nestes 
casos, cada subpopulação específica seria considerada como 
um estrato. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 5 
 
Amostragem Estratificada (III) 
Características (III) 
• Desafios 
o Requer conhecimento das variáveis de estratificação para 
todas as unidades do cadastro antes da amostragem; 
o Requer re-estruturação do cadastro antes da amostragem. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 6 
 
Motivos para Estratificar 
• Estratos formam grupos naturais de interesse (por 
exemplo, regiões geográficas). 
• Estratos formam grupos substantivos de interesse (por 
exemplo, redes de ensino, farmácias e lojas de 
departamentos, ramos de atividade econômica, etc). 
• Para ‘espalhar’ mais a amostra sobre toda a população. 
• Para melhorar a eficiência amostral, isto é, para reduzir a 
variância amostral. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 7 
 
Amostragem Estratificada (3) 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 8 
 
O que Pode Influenciar a Eficiência? 
• Escolha da(s) variável(is) de estratificação. 
• Número de estratos. 
• Determinação dos limites dos estratos. 
• Alocação da amostra nos estratos. 
• Método de seleção em cada estrato. 
• Critério de eficiência: tornar os valores da(s) variável(is) de estudo 
dentro de cada estrato o mais semelhantes quanto for possível, ou 
seja, minimizar a variância dentro dos estratos. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 9 
 
Amostragem Estratificada (I) 
• Selecionar uma amostra sh de tamanho nh, com nh>0, segundo um 
plano amostral ph(sh) independentemente dentro de cada estrato h, 
onde h=1,2,...,H, e: 
 
• Assim, cada estrato é representado na amostra completa: 
s = s1 ∪ s2 ∪ ... ∪ sH 
• Devido à independência da seleção nos estratos: 
. 
• A independência da amostragem nos estratos nos permite tratar 
cada estrato como se fosse uma população separada. 
n = nh
L
1 =h 
∑
)s(p )s(p )s(p = p(s) HH2211 K
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 10 
 
Amostragem Estratificada (II) 
• Planos amostrais alternativos podem ser adotados nos diferentes 
estratos (embora essa ideia seja pouco comum). 
 
• Por exemplo, AAS poderia ser usada no estrato 1, enquanto no 
estrato 2 a amostragem poderia ser AS. 
 
• Amostragem Estratificada Simples (AES): caso especial em que AAS é 
empregada em todos os estratos (neste caso, assume-se que o 
tamanho Nh de cada estrato Uh seja conhecido). 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 11 
 
AES - Esquema de Seleção 
 
• Extrair uma AAS de tamanho nh das Nh unidades do estrato Uh, 
h=1,2,...,H. 
 e . 
 
• Podemos re-identificar as unidades populacionais usando 2 rótulos: 
→ um rótulo h (h=1,...,H) para indicar o estrato a que pertence 
→ um rótulo i (i=1,...,Nh) para indicar a unidade dentro do estrato 
→ valor típico da variável de pesquisa é yhi, para i=1,...,Nh e h=1,...,H. 
→ tamanhos populacionais: 
→ tamanhos amostrais: . 
H , 1, =h , 
n
N
 / 1 = )s(p
h
h
hh K















∏
n
N
 = p(s)
h
h
1-
L
1 =h 
N = NNN H21 +++ K
n = nnn H21 +++ K
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 12 
 
Parâmetros nos Estratos 
 
• Total: 
 
 
• Média 
 
 
• Variância 
 
 
hi
N
1 = i
h y = Y
h
∑
hhh N/ Y =Y
) 1 - N ( / ) Y - y( = S h2hhi
N
1 = i
2
h
h
∑
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 13 
 
Parâmetros Populacionais (I) 
 
• Total 
 
 
• Média 
 
 
 
hh
H
1 =h 
h
H
1 =h 
YN = Y = Y ∑∑
N / YN = N / Y = Y
H
1h
hh∑
=
. N / N = W, YW = hhh
H
1h
h∑
=
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 14 
 
Parâmetros Populacionais (II) 
 
• Variância 
 
 
 
(Variância Total = Variância Dentro + Variância Entre) 
 
[ ] ) 1 - N ( / ) Y - Y ( N + )S 1 - N ( = 
) 1 - N ( / ) Y - Y + Y - y (= 
) 1 - N ( / ) Y - y ( =S
2
hh
2
hh
H
1 =h 
2
hhhi
N
1 = i
H
1 =h 
hi
N
1 = i
H
1 =h 
2
h
h
∑
∑∑
∑∑
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 15 
 
Estimação (I) 
 
• Como a amostragem é feita independentemente por estrato, 
podemos estimar separadamente os parâmetros de cada estrato. 
 
• Sob AES: 
 
o Total 
 
 
 
(peso wh=Nh/nh: inverso da probabilidade de inclusão em cada estrato) 
 
 
∑∑
==
hh n
1i
h hihh
n
1i
hi
h
h
h yw = yN = y 
n
N
 =Yˆ
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 16 
 
Estimação (II) 
 
o Média 
 
 e 
 
o Variância 
 
 e 
 
∑
=
hn
1i
hhih n / y = y
hhAAS Y = ) y ( E
∑
=
hn
1i
h
2
hhi
2
h ) 1 - n ( / ) y - y ( = s 2
h
2
hAAS S = ) s ( E
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 17 
 
Estimação de Parâmetros Populacionais (I) 
 
• Total 
 
 
• Média 
 onde 
 
• Propriedades de : (I) 
 
 (não viciado) 
 
 yN = Yˆ =Yˆ
h
1h
hh
h
1h
hAES ∑∑
==
∑
=
H
1h
hhAES yW = y N/ N = W hh
AESy
Y =) y (E AESAES
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do NascimentoSilva 18 
 
Estimação de Parâmetros Populacionais (II) 
 
• Propriedades de : (II) 
 
 e 
 
. 
 
AESy
S 
N
1
 - 
n
1
 W = 
n
S
 
N
n
 - 1 W=) y ( V
2
h
hh
H
1h
2
h
H
1h h
2
h
h
h2
hAESAES






∑






=
∑
=
∑ 





=
∑
=
H
1h
2
h
hh
2
h
H
1h
hAAS
2
hAESAES
s 
N
1
 - 
n
1
 W = 
)y ( Vˆ W= ) y ( Vˆ 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 19 
 
Alocação (I) 
 
o Alocação da amostra nos estratos (importante para a 
eficiência do plano): 
 
� Alocação proporcional: amostra é distribuída 
proporcionalmente ao tamanho dos estratos (na população), 
ou seja: 
 
N
N
nn hh ⋅= . 
 
� Alocação uniforme: mesmo tamanho da amostra para cada 
estrato: 
 
H
n
=nh . 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 20 
 
Alocação (II) 
 
� Alocação ótima de Neyman: considerando o custo em cada 
um dos estratos como fixos, isto é, cch = , para h = 1, ..., H, 
a alocação ótima sob um plano AES é dada por 
 
 
� Alocação ótima em relação a uma variável auxiliar (x): 
 
.
SN
SN
nn H
1h
yUh
yUh
h
h
h
∑
=
⋅=
.
SN
SN
nn H
1h
xUh
xUh
h
h
h
∑
=
⋅=
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 21 
 
Exemplo (I): Pesquisa Proalfa de Minas Gerais 
• O Programa de Avaliação do Ciclo Básico de Alfabetização (Proalfa) é 
uma das pesquisas que integram o Sistema Mineiro de Avaliação 
(Simave) e tem como objetivo principal medir o desempenho em 
Língua Portuguesa de crianças em fase de alfabetização no estado de 
Minas Gerais. 
Plano amostral (Proalfas de 2006 a 2010): (I) 
• A população alvo de alunos é dividida em dois grandes estratos, 
definidos segundo a série/fase na qual os alunos estão matriculados. 
• “Ausência” de um cadastro de alunos de onde a amostra de alunos 
pudesse ser selecionada diretamente. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 22 
 
Plano amostral (Proalfas de 2006 a 2010): (II) 
• Atenção: um esquema amostral que envolvesse a seleção direta de 
alunos em um único estágio não seria o mais indicado, tanto sob o 
ponto de vista de eficiência estatística quando logística e 
orçamentária. 
• Adoção de um plano amostral por conglomerados, em dois estágios, 
para a seleção dos alunos (este método de amostragem será 
abordado em detalhes ainda neste curso!). 
� Primeiro estágio: selecionadas escolas, de maneira independente em 
cada um dos grandes estratos, isto é, para cada série/fase. 
� Segundo estágio: selecionadas turmas para cada uma das séries/fases 
de interesse. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 23 
 
Plano amostral (Proalfas de 2006 a 2010): (III) 
 
� Em cada turma selecionada, todos os alunos presentes no dia da 
avaliação deverão ser avaliados. 
• Para cada grande estrato inicial os estratos de interesse foram 
definidos em função 
(a) da Superintendência Regional de Ensino (SRE) a qual a escola 
pertence e 
(b) da rede de ensino. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 24 
 
Plano amostral (Proalfas de 2006 a 2010): (IV) 
 
• Além disso, por solicitação da SEE-MG, o plano amostral para o 
Proalfa 2010 permitiu a produção de estimativas para todos os 
municípios com população (estimada em 2006) acima de 200 mil 
habitantes e garantiu ainda pelo menos dois municípios investigados 
por pólo. 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 25 
 
Plano amostral (Proalfas de 2006 a 2010): (V) 
• Para cada grande estrato, a população de escolas foi dividida em um 
total de 130 estratos de interesse. 
• O tamanho da amostra de alunos foi definido pela SEE-MG em 
conjunto com de amostragem e foi fixado em 50.000 alunos para 
cada um dos dois grandes estratos definidos pelas fases/séries a 
serem avaliadas por amostragem, totalizando então 100.000 alunos a 
serem avaliados. 
• Alocação da amostra: para cada estrato de interesse foi feita 
buscando alcançar um nível de precisão mínimo semelhante para a 
estimação de uma medida de proficiência média em Língua 
Portuguesa para estrato. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 26 
 
Plano amostral (Proalfas de 2006 a 2010): (VI) 
• Alocação da amostra: em 2010, por exemplo, teve como base a 
estimação de medidas de variância para cada um dos estratos de 
interesse, tendo como base as amostras de 2007, 2008 e 2009. 
• Sub-estratificação por tamanho da escola: 
o (i) escolas com até três turmas da fase/série; e 
o (ii) escolas com quatro ou mais turmas da fase/série de 
interesse. 
o Em cada escola do grupo (i) foi selecionada apenas uma turma e 
que nas escolas pertencentes ao grupo (ii) foram selecionadas 
duas turmas. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 27 
 
Plano amostral (Proalfas de 2006 a 2010): (VII) 
• Proalfa 2010: 2386 escolas na Fase I e 2210 escolas na Fase III. 
• A seleção de escolas para cada um dos sub-estratos de tamanho foi 
realizada a partir de um procedimento de seleção com 
probabilidades proporcionais ao seu número de turmas na fase/série 
de interesse, que foi considerado como uma medida de tamanho da 
escola. 
• Procedimentos de seleção como este que adotamos podem 
ocasionar, em geral, ganhos de eficiência com uma redução nos erros 
padrões dos estimadores mantendo fixo o tamanho da amostra, ou 
seja, sem aumento nos custos de coleta (trataremos destes métodos 
ainda neste curso!). 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 28 
 
Exemplo (II): Pesquisas Econômicas Anuais do IBGE 
Plano amostral: 
Amostragem estratificada por corte de empresas, com 2 
estratos de tamanho em cada estrato natural (UF × classe 
de atividade econômica). 
 
- Estrato certo (PO≥20) = todas as empresas são pesquisadas; 
- Estrato amostrado = amostra selecionada. 
 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 29 
 
Exemplo (II): Continuação 
Pesquisa Econômica Cadastro do IBGE 
 
Variável 
Estimativas do Total (EP) 
Sem Plano Com Plano 
PO (mil) 14,3 (8,9) 65,9 (3,2) 
Salário (milhões) 58,7 (45,9) 265,6 (20,8) 
 
N = 5.374 n = 749 
 
• Note a subestimação dos totais e a superestimação dos EPs quando 
se ignora o plano amostral efetivamente utilizado. 
 
• O que estes resultados sugerem em relação à eficiência da 
amostragem estratificada? 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 30 
 
AESs – Exemplo Usando Software R (I) 
 
• Voltaremos a utilizar a população fictícia de alunos, matriculados 
em escolas das redes Municipal (=1), Estadual (=2) e Federal (=3), 
utilizada Amostragem I. 
 
 
População “Alunos” 
Var Descrição 
aluno Código identificador do aluno. 
rede Código identificador da rede de ensino. 
escola Código identificador da escola. 
port Proficiência em Língua Portuguesa. 
sexo Sexo do aluno (masculino=1; feminino=2) 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 31 
 
AESs – Exemplo Usando Software R (II) 
 
• Carregar o arquivo “Alunos.txt” digitando na janela Source: 
 
# Mudar diretório de trabalho 
setwd(“DRIVE:/DIRETÓRIO/SUBDIRETÓRIO”) 
 
# Abrir arquivo“Alunos.txt” 
Alunos=read.table(“Alunos.txt”, header=T) 
 
• Novamente, consideraremos como variável de interesse ‘port’, ou 
seja, a proficiência em Língua Portuguesa e como parâmetro de 
interesse a média desta variável. 
• Voltaremos a utilizar o pacote Sampling, que estar instalado e depois 
carregado a partir do seguinte comando: 
# Carrega o pacote sampling 
library(sampling) 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 32 
 
AESs – Exemplo Usando Software R (III) 
Procuraremos selecionar uma AESs de n = 500 alunos e consideraremos 
‘rede’ como variável de estratificação. 
A amostra será alocada de maneira proporcional ao tamanho de cada 
estrato na população, ou seja, iremos fazer uso dos seguintes 
resultados produzidos a partir do comando prop.table: 
 
# Calcula proporção de alunos por estrato 
prop.table(table(Alunos$rede)) 
 1 2 3 
0.3246667 0.5666667 0.1086667 
 
A partir destas informações podemos calcular o tamanho da amostra 
em cada estrato. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 33 
 
AESs – Exemplo Usando Software R (IV) 
 
É importante arredondar o tamanho da amostra em cada estrato para 
o inteiro superior mais próximo. 
 
O tamanho final da amostra poderá ser um pouco maior do que o 
planejado inicialmente. 
 
# Calcula o tamanho da amostra de alunos por estrato 
 
ceiling(500*(prop.table(table(Alunos$rede)))) 
 1 2 3 
163 284 55 
 
Assim o tamanho final total da amostra será 502. 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 34 
 
AESs – Exemplo Usando Software R (V) 
 
Para selecionar a amostra estratificada podemos adotar a função strata 
digitando: 
 
IAESs=strata(Alunos, stratanames=c("rede"), c(163,284,55), method=c("srswor")) 
 
A função strata produz um objeto, que contém os municípios 
selecionados em cada estrato, o identificador dos mesmos e as suas 
probabilidades de seleção. 
 
Para produzirmos um objeto com dados amostrais para a amostra 
selecionada digite: 
 
AESs=getdata(Alunos,IAESs$ID_unit) 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 35 
 
AESs – Exemplo Usando Software R (VI) 
 
Tendo selecionado a amostra, podemos estimar novamente o 
parâmetro média da variável ‘port’, ou seja, da proficiência em Língua 
Portuguesa cujo valor verdadeiro é 511,7, e o erro padrão. 
 
Voltaremos a utilizar o pacote survey que possui rotinas que permitem 
que a estimação seja feita considerando o plano amostral. 
 
Primeiramente precisamos especificar o plano amostral adotado na 
seleção da amostra, utilizando o comando svydesign. Para isto digite: 
 
fpc=rep(c(1948,3400,652),c(163,284,55)) 
Plano=svydesign(~1, strata=~rede, data = AESs, probs=~IAESs$Prob, fpc=~fpc) 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 36 
 
AESs – Exemplo Usando Software R (VII) 
 
Agora podemos estimar a média e o seu erro padrão, usando o 
comando svymean: 
 
svymean(~port,Plano) 
 mean SE 
port 517.9 4.0187 
 
O resultado teste comando produz estimativas para a média e para o 
erro padrão (SE). 
 
Compare estas estimativas com aquelas produzidas a partir de uma 
AASs, usando um estudo de simulação (sendo instruções dadas). 
 
Aparentemente, houve alguma melhora e/ou ganho de eficiência? 
 
Os seus resultados estão de acordo com o que você esperava? 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 37 
 
 
 
 
 
 
Atividade 1 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 38 
 
Maiores Informações sobre o Pacote Survey do R 
Pacote (‘library’) elaborado e mantido por Thomas Lumley, 
da Universidade de Auckland (Nova Zelândia). 
 
Livro publicado (Lumley, 2011) pelo autor apresenta: 
• Teoria ‘clássica’ para análise de dados amostrais 
complexos; 
• Recursos do pacote survey para análise de dados 
amostrais; 
• Inúmeros exemplos com dados reais. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 39 
 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 40 
 
Princípios Condutores do Desenho do Pacote Survey 
• Facilidade de manutenção e depuração mediante 
reutilização de código. 
 
• Velocidade e memória não são prioridade: só otimiza 
rotinas quando há um ‘caso real de uso’ demandando 
solução. 
 
• Rápida liberação de novas versões, de modo que erros e 
outras infelicidades sejam descobertas e reparadas. 
 
• Ênfase em recursos úteis para bioestatísticos (p.ex. 
calibração, regressão, gráficos exploratórios, análise de 
sobrevivência). 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 41 
 
‘Mercado’ Pretendido 
• Pesquisa em métodos (devido às características de 
programação do R). 
 
• Ensino (facilita integração com ensino de outros métodos 
estatísticos, onde R também é usado). 
 
• Análise secundária de dados de pesquisas nacionais (R é 
familiar a estatísticos não ligados à área de amostragem). 
 
• Planos de duas fases em epidemiologia, avaliação 
educacional e em pesquisas para avaliação de políticas 
públicas em geral. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 42 
 
Características e Funcionalidade 
• Descrição de planos amostrais: svydesign(). 
• Estatísticas descritivas: médias, totais, quantis, etc. 
• svymean(), svytotal(), svyratio(), etc. 
• Estimação para domínios. 
• Tabelas de contingência: svychisq(), svyloglin(). 
• Gráficos: histogramas, diagramas de dispersão, 
suavizadores. 
• Modelos de regressão: svyglm(), svyolr(). 
• Calibração e pós-estratificação. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 43 
 
Objetos e Fórmulas 
Coleções de informações relacionadas devem ser 
armazenadas juntas num objeto. 
 
Para dados amostrais, isto significa armazenar os metadados 
relevantes junto dos dados. 
 
A maneira de especificar variáveis num ‘data frame’ ou 
outro objeto do R é através de uma ‘formula’: 
 
~a + b + I(c < 5*d) 
 
O pacote survey sempre usa fórmulas para especificar 
variáveis num arquivo de dados de pesquisa. 
 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 44 
 
Ideias Básicas de Estimação (1) 
Unidades são amostradas com probabilidades iπ conhecidas 
de uma população de tamanho N, para obter uma amostra 
de tamanho n. 
 
Definimos um ‘indicador de inclusão na amostra’ iR , 
tomando valor 1 se a unidade i está na amostra e 0 caso 
contrário. 
 
O problema ‘usual’ de inferência considerando o plano 
amostral é estimar quantidades populacionais definidas caso 
toda a população fosse observada. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 45 
 
Ideias Básicas de Estimação (2) 
A estimação de um total populacional é simples. Um 
estimador não viciado do total ∑∈Ui iyY = é dado por: 
HTsi
i
i Y
π
y
Y ˆˆ ==∑∈ � Estimador de Horvitz-Thompson 
Estimação da precisão (erro padrão) segue diretamente da 
variância de uma soma de variáveis aleatórias: 
( ) ( )∑ ∑∈ ∈ 






−=
Ui Uj
j
j
i
i
jiijHTp
π
y
π
y
πππYV ˆ 
O problema é conhecer as probabilidades de inclusão 
conjuntas ijπ . 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 46 
 
Ideias Básicas de Estimação 
A estimação de outras estatísticas segue da estimação detotais. 
Se uma quantidade populacional de interesse θ é solução da 
equação de estimação: 
 
( ) 0θu
Ui i
=∑∈ 
então um estimador amostral θˆ vai ser a solução de 
 
( ) ( ) 0θu wπθu
si iiisi i
==∑∑ ∈∈ / com ii 1/πw = . 
Erros padrão são obtidos mediante Linearização de Taylor 
(método delta) ou por métodos de re-amostragem. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 47 
 
Exemplo 5.1: Estimação da Média Populacional 
Defina Ui θy) θ (u ii ∈∀-= . Então: 
Yy
N
1
θ 0θ)(y) θ (u
Ui iUi iUi i
==== ∑∑∑ ∈∈∈ ⇔- . 
 
Consequentemente, o estimador amostral para a média 
populacional é dado por: 
 
H
i i
i ii y
π1
πy
θ ==∑
∑
∈
∈
s
s
/
/
ˆ 
 
isto é, o estimador de Hàjek para a média. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 48 
 
Descrevendo um Plano Amostral no Survey 
 
• A função svydesign() é a que permite descrever a 
estrutura de um plano amostral para o pacote survey. 
 
• Possui recursos para especificar: 
o estratificação, 
o conglomeração, 
o observações com pesos desiguais, para lidar com 
probabilidades desiguais de seleção, e ajustes para 
compensar não resposta e outros ajustes, e 
o métodos a serem empregados para estimar erro padrão. 
 
• Depois de aplicada, os metadados sobre o plano amostral 
são armazenados junto dos dados da pesquisa. 
 
 
 
 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 49 
 
Passos para Usar Pacote Survey 
1. Especificar a estrutura do plano amostral usado para 
obter os dados que vai analisar � função svydesign(). 
 
2. Especificar análise de interesse – no exemplo, função que 
permite estimar totais populacionais �função svymean(). 
 
3. Interpretar e apresentar resultados de interesse obtidos. 
 
• Comentários: 
 
o Especificação da estrutura do plano amostral pode ser feita 
uma única vez para cada pesquisa ou conjunto de dados. 
 
o Análises incorporando plano amostral são tão simples de 
obter quanto análises ignorando o plano amostral.

Outros materiais