Baixe o app para aproveitar ainda mais
Prévia do material em texto
2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 1 Amostragem Parte 1 Amostragem Estratificada – Teoria e Prática + Pacotes Sampling e Survey do R 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 2 Amostragem Estratificada (I) Princípios Gerais • Envolve a divisão da população em estratos (mutuamente exclusivos e exaustivos) de acordo com características conhecidas. • De cada estrato são selecionadas unidades (normalmente de forma independente). • Subgrupos geralmente internamente mais homogêneos que a população como um todo, o que proporciona a redução do erro amostral como um todo. • Quanto mais homogêneos os subgrupos maior a eficiência do plano amostral. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 3 Amostragem Estratificada (II) Características (I) • Vantagens: (I) o Normalmente produz um aumento da precisão das estimativas ou permite a redução do tamanho da amostra para um nível de precisão fixo. o Permite estimação tanto para a população como um todo quanto para subgrupos. � Muitas vezes, antes da pesquisa ir a campo, é possível identificar subpopulações para as quais se desejam estimativas com precisões pré-especificadas. Neste caso, cada subpopulação corresponderia a um estrato. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 4 Amostragem Estratificada (II) • Vantagens: (II) o Solução de problemas administrativos (custos). � Por exemplo, imagine um levantamento de âmbito geográfico, em que o órgão responsável pela pesquisa tenha escritórios em várias regiões, cobrindo a área total a ser investigada. Seria natural que cada região fosse um estrato. O levantamento de campo em cada estrato seria de responsabilidade do escritório regional correspondente. o Permite que, para algumas subpopulações específicas a adoção de procedimentos alternativos de estimação. Nestes casos, cada subpopulação específica seria considerada como um estrato. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 5 Amostragem Estratificada (III) Características (III) • Desafios o Requer conhecimento das variáveis de estratificação para todas as unidades do cadastro antes da amostragem; o Requer re-estruturação do cadastro antes da amostragem. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 6 Motivos para Estratificar • Estratos formam grupos naturais de interesse (por exemplo, regiões geográficas). • Estratos formam grupos substantivos de interesse (por exemplo, redes de ensino, farmácias e lojas de departamentos, ramos de atividade econômica, etc). • Para ‘espalhar’ mais a amostra sobre toda a população. • Para melhorar a eficiência amostral, isto é, para reduzir a variância amostral. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 7 Amostragem Estratificada (3) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 8 O que Pode Influenciar a Eficiência? • Escolha da(s) variável(is) de estratificação. • Número de estratos. • Determinação dos limites dos estratos. • Alocação da amostra nos estratos. • Método de seleção em cada estrato. • Critério de eficiência: tornar os valores da(s) variável(is) de estudo dentro de cada estrato o mais semelhantes quanto for possível, ou seja, minimizar a variância dentro dos estratos. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 9 Amostragem Estratificada (I) • Selecionar uma amostra sh de tamanho nh, com nh>0, segundo um plano amostral ph(sh) independentemente dentro de cada estrato h, onde h=1,2,...,H, e: • Assim, cada estrato é representado na amostra completa: s = s1 ∪ s2 ∪ ... ∪ sH • Devido à independência da seleção nos estratos: . • A independência da amostragem nos estratos nos permite tratar cada estrato como se fosse uma população separada. n = nh L 1 =h ∑ )s(p )s(p )s(p = p(s) HH2211 K 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 10 Amostragem Estratificada (II) • Planos amostrais alternativos podem ser adotados nos diferentes estratos (embora essa ideia seja pouco comum). • Por exemplo, AAS poderia ser usada no estrato 1, enquanto no estrato 2 a amostragem poderia ser AS. • Amostragem Estratificada Simples (AES): caso especial em que AAS é empregada em todos os estratos (neste caso, assume-se que o tamanho Nh de cada estrato Uh seja conhecido). 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 11 AES - Esquema de Seleção • Extrair uma AAS de tamanho nh das Nh unidades do estrato Uh, h=1,2,...,H. e . • Podemos re-identificar as unidades populacionais usando 2 rótulos: → um rótulo h (h=1,...,H) para indicar o estrato a que pertence → um rótulo i (i=1,...,Nh) para indicar a unidade dentro do estrato → valor típico da variável de pesquisa é yhi, para i=1,...,Nh e h=1,...,H. → tamanhos populacionais: → tamanhos amostrais: . H , 1, =h , n N / 1 = )s(p h h hh K ∏ n N = p(s) h h 1- L 1 =h N = NNN H21 +++ K n = nnn H21 +++ K 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 12 Parâmetros nos Estratos • Total: • Média • Variância hi N 1 = i h y = Y h ∑ hhh N/ Y =Y ) 1 - N ( / ) Y - y( = S h2hhi N 1 = i 2 h h ∑ 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 13 Parâmetros Populacionais (I) • Total • Média hh H 1 =h h H 1 =h YN = Y = Y ∑∑ N / YN = N / Y = Y H 1h hh∑ = . N / N = W, YW = hhh H 1h h∑ = 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 14 Parâmetros Populacionais (II) • Variância (Variância Total = Variância Dentro + Variância Entre) [ ] ) 1 - N ( / ) Y - Y ( N + )S 1 - N ( = ) 1 - N ( / ) Y - Y + Y - y (= ) 1 - N ( / ) Y - y ( =S 2 hh 2 hh H 1 =h 2 hhhi N 1 = i H 1 =h hi N 1 = i H 1 =h 2 h h ∑ ∑∑ ∑∑ 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 15 Estimação (I) • Como a amostragem é feita independentemente por estrato, podemos estimar separadamente os parâmetros de cada estrato. • Sob AES: o Total (peso wh=Nh/nh: inverso da probabilidade de inclusão em cada estrato) ∑∑ == hh n 1i h hihh n 1i hi h h h yw = yN = y n N =Yˆ 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 16 Estimação (II) o Média e o Variância e ∑ = hn 1i hhih n / y = y hhAAS Y = ) y ( E ∑ = hn 1i h 2 hhi 2 h ) 1 - n ( / ) y - y ( = s 2 h 2 hAAS S = ) s ( E 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 17 Estimação de Parâmetros Populacionais (I) • Total • Média onde • Propriedades de : (I) (não viciado) yN = Yˆ =Yˆ h 1h hh h 1h hAES ∑∑ == ∑ = H 1h hhAES yW = y N/ N = W hh AESy Y =) y (E AESAES 2015 Marcel de Toledo Vieira & Pedro Luis do NascimentoSilva 18 Estimação de Parâmetros Populacionais (II) • Propriedades de : (II) e . AESy S N 1 - n 1 W = n S N n - 1 W=) y ( V 2 h hh H 1h 2 h H 1h h 2 h h h2 hAESAES ∑ = ∑ = ∑ = ∑ = H 1h 2 h hh 2 h H 1h hAAS 2 hAESAES s N 1 - n 1 W = )y ( Vˆ W= ) y ( Vˆ 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 19 Alocação (I) o Alocação da amostra nos estratos (importante para a eficiência do plano): � Alocação proporcional: amostra é distribuída proporcionalmente ao tamanho dos estratos (na população), ou seja: N N nn hh ⋅= . � Alocação uniforme: mesmo tamanho da amostra para cada estrato: H n =nh . 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 20 Alocação (II) � Alocação ótima de Neyman: considerando o custo em cada um dos estratos como fixos, isto é, cch = , para h = 1, ..., H, a alocação ótima sob um plano AES é dada por � Alocação ótima em relação a uma variável auxiliar (x): . SN SN nn H 1h yUh yUh h h h ∑ = ⋅= . SN SN nn H 1h xUh xUh h h h ∑ = ⋅= 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 21 Exemplo (I): Pesquisa Proalfa de Minas Gerais • O Programa de Avaliação do Ciclo Básico de Alfabetização (Proalfa) é uma das pesquisas que integram o Sistema Mineiro de Avaliação (Simave) e tem como objetivo principal medir o desempenho em Língua Portuguesa de crianças em fase de alfabetização no estado de Minas Gerais. Plano amostral (Proalfas de 2006 a 2010): (I) • A população alvo de alunos é dividida em dois grandes estratos, definidos segundo a série/fase na qual os alunos estão matriculados. • “Ausência” de um cadastro de alunos de onde a amostra de alunos pudesse ser selecionada diretamente. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 22 Plano amostral (Proalfas de 2006 a 2010): (II) • Atenção: um esquema amostral que envolvesse a seleção direta de alunos em um único estágio não seria o mais indicado, tanto sob o ponto de vista de eficiência estatística quando logística e orçamentária. • Adoção de um plano amostral por conglomerados, em dois estágios, para a seleção dos alunos (este método de amostragem será abordado em detalhes ainda neste curso!). � Primeiro estágio: selecionadas escolas, de maneira independente em cada um dos grandes estratos, isto é, para cada série/fase. � Segundo estágio: selecionadas turmas para cada uma das séries/fases de interesse. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 23 Plano amostral (Proalfas de 2006 a 2010): (III) � Em cada turma selecionada, todos os alunos presentes no dia da avaliação deverão ser avaliados. • Para cada grande estrato inicial os estratos de interesse foram definidos em função (a) da Superintendência Regional de Ensino (SRE) a qual a escola pertence e (b) da rede de ensino. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 24 Plano amostral (Proalfas de 2006 a 2010): (IV) • Além disso, por solicitação da SEE-MG, o plano amostral para o Proalfa 2010 permitiu a produção de estimativas para todos os municípios com população (estimada em 2006) acima de 200 mil habitantes e garantiu ainda pelo menos dois municípios investigados por pólo. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 25 Plano amostral (Proalfas de 2006 a 2010): (V) • Para cada grande estrato, a população de escolas foi dividida em um total de 130 estratos de interesse. • O tamanho da amostra de alunos foi definido pela SEE-MG em conjunto com de amostragem e foi fixado em 50.000 alunos para cada um dos dois grandes estratos definidos pelas fases/séries a serem avaliadas por amostragem, totalizando então 100.000 alunos a serem avaliados. • Alocação da amostra: para cada estrato de interesse foi feita buscando alcançar um nível de precisão mínimo semelhante para a estimação de uma medida de proficiência média em Língua Portuguesa para estrato. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 26 Plano amostral (Proalfas de 2006 a 2010): (VI) • Alocação da amostra: em 2010, por exemplo, teve como base a estimação de medidas de variância para cada um dos estratos de interesse, tendo como base as amostras de 2007, 2008 e 2009. • Sub-estratificação por tamanho da escola: o (i) escolas com até três turmas da fase/série; e o (ii) escolas com quatro ou mais turmas da fase/série de interesse. o Em cada escola do grupo (i) foi selecionada apenas uma turma e que nas escolas pertencentes ao grupo (ii) foram selecionadas duas turmas. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 27 Plano amostral (Proalfas de 2006 a 2010): (VII) • Proalfa 2010: 2386 escolas na Fase I e 2210 escolas na Fase III. • A seleção de escolas para cada um dos sub-estratos de tamanho foi realizada a partir de um procedimento de seleção com probabilidades proporcionais ao seu número de turmas na fase/série de interesse, que foi considerado como uma medida de tamanho da escola. • Procedimentos de seleção como este que adotamos podem ocasionar, em geral, ganhos de eficiência com uma redução nos erros padrões dos estimadores mantendo fixo o tamanho da amostra, ou seja, sem aumento nos custos de coleta (trataremos destes métodos ainda neste curso!). 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 28 Exemplo (II): Pesquisas Econômicas Anuais do IBGE Plano amostral: Amostragem estratificada por corte de empresas, com 2 estratos de tamanho em cada estrato natural (UF × classe de atividade econômica). - Estrato certo (PO≥20) = todas as empresas são pesquisadas; - Estrato amostrado = amostra selecionada. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 29 Exemplo (II): Continuação Pesquisa Econômica Cadastro do IBGE Variável Estimativas do Total (EP) Sem Plano Com Plano PO (mil) 14,3 (8,9) 65,9 (3,2) Salário (milhões) 58,7 (45,9) 265,6 (20,8) N = 5.374 n = 749 • Note a subestimação dos totais e a superestimação dos EPs quando se ignora o plano amostral efetivamente utilizado. • O que estes resultados sugerem em relação à eficiência da amostragem estratificada? 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 30 AESs – Exemplo Usando Software R (I) • Voltaremos a utilizar a população fictícia de alunos, matriculados em escolas das redes Municipal (=1), Estadual (=2) e Federal (=3), utilizada Amostragem I. População “Alunos” Var Descrição aluno Código identificador do aluno. rede Código identificador da rede de ensino. escola Código identificador da escola. port Proficiência em Língua Portuguesa. sexo Sexo do aluno (masculino=1; feminino=2) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 31 AESs – Exemplo Usando Software R (II) • Carregar o arquivo “Alunos.txt” digitando na janela Source: # Mudar diretório de trabalho setwd(“DRIVE:/DIRETÓRIO/SUBDIRETÓRIO”) # Abrir arquivo“Alunos.txt” Alunos=read.table(“Alunos.txt”, header=T) • Novamente, consideraremos como variável de interesse ‘port’, ou seja, a proficiência em Língua Portuguesa e como parâmetro de interesse a média desta variável. • Voltaremos a utilizar o pacote Sampling, que estar instalado e depois carregado a partir do seguinte comando: # Carrega o pacote sampling library(sampling) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 32 AESs – Exemplo Usando Software R (III) Procuraremos selecionar uma AESs de n = 500 alunos e consideraremos ‘rede’ como variável de estratificação. A amostra será alocada de maneira proporcional ao tamanho de cada estrato na população, ou seja, iremos fazer uso dos seguintes resultados produzidos a partir do comando prop.table: # Calcula proporção de alunos por estrato prop.table(table(Alunos$rede)) 1 2 3 0.3246667 0.5666667 0.1086667 A partir destas informações podemos calcular o tamanho da amostra em cada estrato. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 33 AESs – Exemplo Usando Software R (IV) É importante arredondar o tamanho da amostra em cada estrato para o inteiro superior mais próximo. O tamanho final da amostra poderá ser um pouco maior do que o planejado inicialmente. # Calcula o tamanho da amostra de alunos por estrato ceiling(500*(prop.table(table(Alunos$rede)))) 1 2 3 163 284 55 Assim o tamanho final total da amostra será 502. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 34 AESs – Exemplo Usando Software R (V) Para selecionar a amostra estratificada podemos adotar a função strata digitando: IAESs=strata(Alunos, stratanames=c("rede"), c(163,284,55), method=c("srswor")) A função strata produz um objeto, que contém os municípios selecionados em cada estrato, o identificador dos mesmos e as suas probabilidades de seleção. Para produzirmos um objeto com dados amostrais para a amostra selecionada digite: AESs=getdata(Alunos,IAESs$ID_unit) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 35 AESs – Exemplo Usando Software R (VI) Tendo selecionado a amostra, podemos estimar novamente o parâmetro média da variável ‘port’, ou seja, da proficiência em Língua Portuguesa cujo valor verdadeiro é 511,7, e o erro padrão. Voltaremos a utilizar o pacote survey que possui rotinas que permitem que a estimação seja feita considerando o plano amostral. Primeiramente precisamos especificar o plano amostral adotado na seleção da amostra, utilizando o comando svydesign. Para isto digite: fpc=rep(c(1948,3400,652),c(163,284,55)) Plano=svydesign(~1, strata=~rede, data = AESs, probs=~IAESs$Prob, fpc=~fpc) 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 36 AESs – Exemplo Usando Software R (VII) Agora podemos estimar a média e o seu erro padrão, usando o comando svymean: svymean(~port,Plano) mean SE port 517.9 4.0187 O resultado teste comando produz estimativas para a média e para o erro padrão (SE). Compare estas estimativas com aquelas produzidas a partir de uma AASs, usando um estudo de simulação (sendo instruções dadas). Aparentemente, houve alguma melhora e/ou ganho de eficiência? Os seus resultados estão de acordo com o que você esperava? 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 37 Atividade 1 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 38 Maiores Informações sobre o Pacote Survey do R Pacote (‘library’) elaborado e mantido por Thomas Lumley, da Universidade de Auckland (Nova Zelândia). Livro publicado (Lumley, 2011) pelo autor apresenta: • Teoria ‘clássica’ para análise de dados amostrais complexos; • Recursos do pacote survey para análise de dados amostrais; • Inúmeros exemplos com dados reais. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 39 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 40 Princípios Condutores do Desenho do Pacote Survey • Facilidade de manutenção e depuração mediante reutilização de código. • Velocidade e memória não são prioridade: só otimiza rotinas quando há um ‘caso real de uso’ demandando solução. • Rápida liberação de novas versões, de modo que erros e outras infelicidades sejam descobertas e reparadas. • Ênfase em recursos úteis para bioestatísticos (p.ex. calibração, regressão, gráficos exploratórios, análise de sobrevivência). 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 41 ‘Mercado’ Pretendido • Pesquisa em métodos (devido às características de programação do R). • Ensino (facilita integração com ensino de outros métodos estatísticos, onde R também é usado). • Análise secundária de dados de pesquisas nacionais (R é familiar a estatísticos não ligados à área de amostragem). • Planos de duas fases em epidemiologia, avaliação educacional e em pesquisas para avaliação de políticas públicas em geral. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 42 Características e Funcionalidade • Descrição de planos amostrais: svydesign(). • Estatísticas descritivas: médias, totais, quantis, etc. • svymean(), svytotal(), svyratio(), etc. • Estimação para domínios. • Tabelas de contingência: svychisq(), svyloglin(). • Gráficos: histogramas, diagramas de dispersão, suavizadores. • Modelos de regressão: svyglm(), svyolr(). • Calibração e pós-estratificação. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 43 Objetos e Fórmulas Coleções de informações relacionadas devem ser armazenadas juntas num objeto. Para dados amostrais, isto significa armazenar os metadados relevantes junto dos dados. A maneira de especificar variáveis num ‘data frame’ ou outro objeto do R é através de uma ‘formula’: ~a + b + I(c < 5*d) O pacote survey sempre usa fórmulas para especificar variáveis num arquivo de dados de pesquisa. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 44 Ideias Básicas de Estimação (1) Unidades são amostradas com probabilidades iπ conhecidas de uma população de tamanho N, para obter uma amostra de tamanho n. Definimos um ‘indicador de inclusão na amostra’ iR , tomando valor 1 se a unidade i está na amostra e 0 caso contrário. O problema ‘usual’ de inferência considerando o plano amostral é estimar quantidades populacionais definidas caso toda a população fosse observada. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 45 Ideias Básicas de Estimação (2) A estimação de um total populacional é simples. Um estimador não viciado do total ∑∈Ui iyY = é dado por: HTsi i i Y π y Y ˆˆ ==∑∈ � Estimador de Horvitz-Thompson Estimação da precisão (erro padrão) segue diretamente da variância de uma soma de variáveis aleatórias: ( ) ( )∑ ∑∈ ∈ −= Ui Uj j j i i jiijHTp π y π y πππYV ˆ O problema é conhecer as probabilidades de inclusão conjuntas ijπ . 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 46 Ideias Básicas de Estimação A estimação de outras estatísticas segue da estimação detotais. Se uma quantidade populacional de interesse θ é solução da equação de estimação: ( ) 0θu Ui i =∑∈ então um estimador amostral θˆ vai ser a solução de ( ) ( ) 0θu wπθu si iiisi i ==∑∑ ∈∈ / com ii 1/πw = . Erros padrão são obtidos mediante Linearização de Taylor (método delta) ou por métodos de re-amostragem. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 47 Exemplo 5.1: Estimação da Média Populacional Defina Ui θy) θ (u ii ∈∀-= . Então: Yy N 1 θ 0θ)(y) θ (u Ui iUi iUi i ==== ∑∑∑ ∈∈∈ ⇔- . Consequentemente, o estimador amostral para a média populacional é dado por: H i i i ii y π1 πy θ ==∑ ∑ ∈ ∈ s s / / ˆ isto é, o estimador de Hàjek para a média. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 48 Descrevendo um Plano Amostral no Survey • A função svydesign() é a que permite descrever a estrutura de um plano amostral para o pacote survey. • Possui recursos para especificar: o estratificação, o conglomeração, o observações com pesos desiguais, para lidar com probabilidades desiguais de seleção, e ajustes para compensar não resposta e outros ajustes, e o métodos a serem empregados para estimar erro padrão. • Depois de aplicada, os metadados sobre o plano amostral são armazenados junto dos dados da pesquisa. 2015 Marcel de Toledo Vieira & Pedro Luis do Nascimento Silva 49 Passos para Usar Pacote Survey 1. Especificar a estrutura do plano amostral usado para obter os dados que vai analisar � função svydesign(). 2. Especificar análise de interesse – no exemplo, função que permite estimar totais populacionais �função svymean(). 3. Interpretar e apresentar resultados de interesse obtidos. • Comentários: o Especificação da estrutura do plano amostral pode ser feita uma única vez para cada pesquisa ou conjunto de dados. o Análises incorporando plano amostral são tão simples de obter quanto análises ignorando o plano amostral.
Compartilhar