Baixe o app para aproveitar ainda mais
Prévia do material em texto
2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 1 Amostragem Parte 2 Amostragem por Conglomerados Teoria e Prática 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 2 Amostragem por Conglomerados (I) o A unidade amostral (conglomerado) contém mais de um elemento populacional. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 3 Amostragem por Conglomerados (II) o Problemas: � dentro de um mesmo conglomerado, unidades tendem a ter valores para as variáveis pesquisadas parecidos; � este fenômeno tende a fazer com que planos amostrais deste tipo sejam menos eficientes. o Quanto maior for a correlação intra-conglomerado menor a eficiência do procedimento. o Quanto maior a heterogeneidade dentro dos conglomerados, maior é a eficiência do procedimento amostral. Isto é o oposto do exigido na construção dos estratos! 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 4 Amostragem por Conglomerados em Um Estágio • Uma amostra de conglomerados é selecionada de acordo com um plano amostral qualquer e todos os elementos pertencentes aos conglomerados selecionados compõem a amostra. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 5 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 6 Amostragem em Múltiplos Estágios o quando os conglomerados são homogêneos se torna menos aconselhável a seleção de todos os seus elementos; o solução: sub-sorteio de elementos dos conglomerados selecionados; o procedimento (2 estágios): � selecionar no primeiro estágio, conglomerados (unidades primárias de amostragem - UPAs), segundo algum plano amostral; � de cada conglomerado selecionado, sortear elementos (unidades secundárias de amostragem - USAs) através do mesmo ou de outro plano amostral. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 7 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 8 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 9 Exemplos 1) conglomerados = áreas num mapa unidades elementares = fazendas 2) conglomerados = hospitais unidades elementares = enfermeiras 3) UPAs = escolas USAs = turmas unidades elementares = crianças 4) conglomerados = carros cruzando pedágio unidades elementares = passageiros nos carros 5) UPAs = empresas industriais unidades elementares = unidades locais 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 10 Amostragem em Três Estágios → Unidades primárias de amostragem → Unidades secundárias de amostragem → Unidades elementares • Etapa 1 – amostra de UPAs selecionada; • Etapa 2 – amostra de USAs selecionada de cada uma das UPAs selecionadas na primeira etapa; • Etapa 3 – amostra de unidades elementares selecionada de cada uma das USAs selecionadas. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 11 Atividade 2 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 12 Amostragem por Conglomerados em Um Estágio (I) Estimação e Notação Conjunto Tamanho População Amostra Conglomerados N N Unidades no conglomerado i Mi Mi Todas as unidades ∑ = = N 1i i0 MM ∑ = = n 1i i0 Mm 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 13 Amostragem por Conglomerados em Um Estágio (II) Parâmetros Populacionais (I) Valor da variável de pesquisa para unidade j do conglomerado i yij Total no conglomerado i ∑ = = iM 1j iji yy Média no conglomerado i iij M 1j i i i My = M y = Y / i ∑ = Total populacional ∑ = = N 1i iyY 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 14 Parâmetros Populacionais (II) Média por conglomerado N/y N YY N 1i iC ∑ = == Média por unidade 0 N 1i i 0 M/y M YY ∑ = == 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 15 Amostragem Conglomerada Simples (ACS) (I) • Selecionar n conglomerados por AAS, dentre os N existentes, e pesquisar todas uma das unidades nos conglomerados selecionados. Valores amostrais n , 1, = i , M , 1, = j y iij K K∀ Total no conglomerado i da amostra n , 1, = i , y = y iM 1j iji K∑ = Média no conglomerado i da amostra iij M 1j i i i My = M y = Y / i ∑ = 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 16 Amostragem Conglomerada Simples (ACS) (II) Total amostral ∑ = = n 1i iyt Média por conglomerado n/y n ty n 1i iC ∑ = == Média por unidade ∑∑ == == n 1i i n 1i i 0 M/y m ty Probabilidade de inclusão dos conglomerados N n Probabilidade de inclusão das unidades N n 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 17 Amostragem Conglomerada Simples (ACS) (III) • Estimação da Média por Unidade Elementar: Y - Estimador Natural M y = n C y M N = M Yˆ = y i n 1i 00 N ∑ = (não viciado) • Variância do estimador natural S n f - 1 M 1 =S n f - 1 M N =) y (V 2e22e2 0 2 NACS 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 18 Amostragem Conglomerada Simples (ACS) (IV) • Estimador da variância do estimador natural s n f - 1 M 1 =) y (Vˆ 2e2NACS Estimação do Total Populacional - Estimador “Natural” ∑∑ ∑ = = = ×= == n 1i M 1j ijij n 1i Ci i yw yNy n NYˆ onde wij = N/n são os pesos individuais. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 19 Amostragem Conglomerada Simples (ACS) (V) • Variância do estimador ( ) n/S)f1(N=YˆV 2e2ACS ×− , onde f = n/N, e o ) 1 - N (/ )Y - y( = S N 1i 2 Ci 2 e ∑ = é a variância entre os totais dos conglomerados. • Estimador da variância ( ) n/s)f1(N=YˆVˆ 2e2ACS ×− o onde 2eS é estimado por ) 1 -n (/ )y - y( = s n 1i 2 Ci 2 e ∑ = . 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 20 Atividade 3 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 21 ACS – Exemplo Usando Software R (I) • Voltaremos a utilizar a população fictícia de alunos, matriculados em escolas das redes Municipal (=1), Estadual (=2) e Federal (=3), utilizada anteriormente neste curso. População “Alunos” Var Descrição aluno Código identificador do aluno. rede Código identificador da rede de ensino. escola Código identificador da escola. turma Código identificador da turma port Proficiência em Língua Portuguesa. sexo Sexo do aluno (masculino=1; feminino=2) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 22 ACS – Exemplo Usando Software R (II)• Carregar o arquivo “Alunos.txt” digitando na janela Source: # Mudar diretório de trabalho setwd(“DRIVE:/DIRETÓRIO/SUBDIRETÓRIO”) # Abrir arquivo “Alunos.txt” Alunos=read.table(“Alunos.txt”, header=T) • Novamente, consideraremos como variável de interesse ‘port’, ou seja, a proficiência em Língua Portuguesa e como parâmetro de interesse a média desta variável. • Voltaremos a utilizar o pacote Sampling, que deverá estar instalado e depois carregado a partir do seguinte comando: # Carrega o pacote sampling library(sampling) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 23 ACS – Exemplo Usando Software R (III) • Que tal se agora selecionarmos uma amostra por conglomerados simples sem reposição em um estágio, onde os conglomerados são definidos como a variável ‘escola’ em nossa população de alunos? • Nesta população os alunos estão divididos em 191 escolas (conglomerados) e que cada escola possui em média 31,41 alunos. • Assim se queremos que nossa amostra conglomerada tenha um número de alunos aproximadamente igual a 500 podemos selecionar 16 escolas. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 24 ACS – Exemplo Usando Software R (IV) • Para isso podemos utilizar a função cluster do pacote sampling digitando (em uma única linha): # Selecionar uma Amostra Conglomerada Simples IACSs=cluster(Alunos, clustername=c("escola"), size=16, method=c("srswor")) • A função cluster produz um objeto, que contém os conglomerados selecionados, o identificador dos alunos pertencentes a cada uma das escolas e as probabilidades de seleção dos mesmos. • Para produzirmos um objeto com dados amostrais para a amostra selecionada digite: ACSs=getdata(Alunos,IACSs$ID_unit) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 25 ACS – Exemplo Usando Software R (V) • Após selecionarmos a amostra, podemos estimar novamente o parâmetro média da variável ‘port’ e o erro padrão utilizando novamente o pacote Survey. • Precisamos mais uma vez especificar o plano amostral adotado na seleção da amostra. Para isto, depois de carregar o pacote Survey, digite: fpc2=rep(191,dim(IACSs)[1]) PlanoC=svydesign(id=~escola, data = ACSs, probs=~IACSs$Prob, fpc=~fpc2) • Agora podemos estimar a média e o seu erro padrão, considerando o plano amostral, usando novamente o comando svymean: svymean(~port,PlanoC) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 26 ACS – Exemplo Usando Software R (VI) • Compare estas estimativas com aquelas produzidas a partir das amostras selecionadas anteriormente. • Aparentemente, houve alguma melhora e/ou ganho de eficiência? • Os seus resultados estão de acordo com o que você esperava? • Se não for possível resgatar os resultados anteriores, selecione novamente um AAS e uma AES para fins de comparação com os resultados da ACS. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 27 Atividade 4 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 28 Amostragem por Conglomerados em 2 Estágios (AC2) (I) • Estágio 1 – selecione amostra de n UPAs. • Estágio 2 – para cada UPA i da amostra de primeiro estágio, selecione mi unidades secundárias das Mi unidades existentes. • O tamanho total da amostra é ∑ = n 1i i0 m = m . 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 29 Porque Amostragem em 2 Estágios? 1) Geralmente não é prático pesquisar todas as unidades nos conglomerados selecionados: conglomerados muito grandes, carga de trabalho variável por entrevistador, etc. 2) Se a variância dentro dos conglomerados for pequena, as médias por conglomerados ( iY ) podem ser bem estimadas por amostragem. 3) Amostragem em dois estágios é mais complexa, porém mais flexível. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 30 AC2 – AAS em Cada Estágio (I) Estágio 1 – selecione amostra de n UPAs usando AAS. Estágio 2 – para cada UPA i da amostra de primeiro estágio, selecione mi unidades secundárias das Mi unidades existentes usando AAS. • Para esse plano, a probabilidade de inclusão da unidade j da UPA i é dada por: i i ij M m N n = s) i | s P(j s) P(i = s) j , s P(i = ×∈∈×∈∈∈pi • Planos amostrais são mais simples quando as probabilidades de inclusão são constantes. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 31 AC2 – AAS em Cada Estágio (II) • Neste plano, isto pode ser conseguido tomando mi ∝ Mi. Neste caso, o plano seria autoponderado. • Uma desvantagem importante desse tipo de plano seria a geração de cargas de trabalho desiguais por entrevistador, caso cada entrevistador receba uma UPA para pesquisar. • Uma opção seria estratificar os conglomerados por tamanho. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 32 AC2 - Estimação Não Viciada do Total (I) ∑∑ == n 1i i n 1i iiHT yˆ n NyM n N =Yˆ = • Variância do estimador não viciado ( ) ( ) ∑ ∑ = = − N 1i i 2 i2i2 2 i N 1i 2 Ci 1 2 HTp m/)Sf - (1 M n N + Yy ) 1 - N ( ) f - 1 ( n N =YˆV • Onde - f1=n/N é a fração amostral do primeiro estágio; - f2i=mi/Mi é a fração amostral do segundo estágio no conglomerado i; - ∑ = − iM 1j 2 iij i 2 2i )Y - y( 1M 1 = S é a variância dentro da UPA i. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 33 AC2 - Estimação Não Viciada do Total (I) • Estimador não viciado de variância: ( ) ( ) ∑ ∑ = = − n 1i i 2 i2i2 2 i n 1i 2 Ci 1 2 HTp m/)sf - (1 M n N + yyˆ ) 1 -n ( ) f - 1 ( n N =YˆVˆ • Onde - ∑ = n 1i iC yˆ n 1 = y estima a média por conglomerado CY ; e - ∑ = − im 1j 2 iij i 2 2i )y - y( 1m 1 = s estima a variância dentro da UPA i. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 34 AC2 – Exemplo Usando Software R (I) • Carregar o arquivo “Alunos.txt” digitando na janela Source: # Mudar diretório de trabalho setwd(“DRIVE:/DIRETÓRIO/SUBDIRETÓRIO”) # Abrir arquivo “Alunos.txt” Alunos=read.table(“Alunos.txt”, header=T) • Novamente, consideraremos como variável de interesse ‘port’, ou seja, a proficiência em Língua Portuguesa e como parâmetro de interesse a média desta variável. • Voltaremos a utilizar o pacote Sampling, que deverá estar instalado e depois carregado a partir do seguinte comando: # Carrega o pacote sampling library(sampling) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 35 AC2 – Exemplo Usando Software R (II) • Que tal se agora selecionarmos uma amostra por conglomerados simples sem reposição em dois estágios, onde as UPAs são definidos como a variável ‘escola’ e as USAs como a variável ‘turma’ em nossa população de alunos? • Nesta população os alunos estão divididos em 380 turmas (USAs) e que cada turma possui em média 15,8 alunos.Assim se queremos que nossa amostra conglomerada tenha um número de alunos aproximadamente igual a 500, uma alternativa seria selecionarmos 32 escolas e 1 turma de cada escola. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 36 AC2 – Exemplo Usando Software R (III) • Para isso podemos utilizar a função cluster do pacote sampling digitando (em uma única linha): # Selecionar uma Amostra Conglomerada em 2 estágios n2=rep(1,32[1]) IAC2=mstage(Alunos, stage=list(“cluster”,“cluster”), varnames=list(“escolar”, “turma”), size=list(32,n2), method=list(“srswor”, “srswor”)) • A função mstage produz um objeto do tipo lista com informações sobre as unidades selecionadas em cada um dos estágios considerados. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 37 AC2 – Exemplo Usando Software R (III) • Para verificarmos quais foram as escolas selecionadas no primeiro estágio e quais foram as turmas selecionadas no segundo estágio digite, respectivamente: unique(IAC2[[1]]$escola) unique(IAC2[[2]]$turma) • O comando a seguir irá extrair da base populacional os dados amostrais para a amostra de alunos selecionada. AC2=getdata(Alunos,IAC2)[[2]] • Note que as duas últimas variáveis do objeto AC2 incluem as probabilidades de seleção das turmas e as probabilidades de seleção dos alunos. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 38 AC2 – Exemplo Usando Software R (IV) • Após selecionarmos a amostra, podemos estimar novamente o parâmetro média da variável ‘port’ e o erro padrão utilizando novamente o pacote Survey. • Precisamos mais uma vez especificar o plano amostral adotado na seleção da amostra. Para isto, depois de carregar o pacote Survey, digite: PlanoC2=svydesign(data=AC2,ids=~escola+turma, nest=TRUE, probs=AC2$Prob) • Agora podemos estimar a média e o seu erro padrão, considerando o plano amostral, usando novamente o comando svymean: svymean(~port,PlanoC2) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 39 AC2 – Exemplo Usando Software R (V) • Compare estas estimativas com aquelas produzidas a partir das amostras selecionadas anteriormente. • Aparentemente, houve alguma melhora e/ou ganho de eficiência? • Os seus resultados estão de acordo com o que você esperava? • Se não for possível resgatar os resultados anteriores, selecione novamente uma AAS, uma AES e uma ACS para fins de comparação com os resultados da AC2. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 40 Atividade 5
Compartilhar