Prévia do material em texto
Amostragem na prática com a utilização do software R Utilização do software R na especificação e estimação de planos amostrais por amostragem aleatória simples, sistemática, estratificada e por conglomerados. Prof. Leandro Vitral Andraos 1. Itens iniciais Propósito Apresentar o software estatístico e gratuito R na seleção amostral e estimação de diferentes planos amostrais, como a amostragem aleatória simples, amostragem estratificada, amostragem por conglomerados e amostragem sistemática. Preparação Antes de iniciar o conteúdo atual, instale o software estatístico R em seu computador ou dispositivo móvel para realizar aplicações práticas da teoria da amostragem. Você pode baixar também o RStudio. Objetivos Descrever conceitos gerais sobre o software estatístico R e o pacote sampling nas estimações segundo a amostragem aleatória simples Descrever o pacote survey para estimações a partir da amostragem estratificada Selecionar amostras a partir da amostragem sistemática e conglomerada com estimações para esses planos no Software R • • • 1. Software estatístico R e o pacote sampling Introdução Ao se construir uma pesquisa e desenhar uma amostra mais complexa, a análise de dados no papel pode se tornar inviável. Além disso, programar todas as vezes as mesmas fórmulas desperdiça muito tempo, que poderia ser aplicado em outras etapas do processo. Por isso, aprenderemos a fazer seleções amostrais e estimações para vários planos amostrais via software estatístico. No caso, aprenderemos como utilizar o programa R dentro da teoria da amostragem. Este módulo descreverá como instalar o software R e quais as principais características que fazem dele um programa cada vez mais versátil e difundido dentro do meio acadêmico e profissional. Utilizaremos uma série de bibliotecas dentro do software para selecionarmos amostras aleatórias simples e fazermos estimações segundo esse plano amostral. Software R O R é um software estatístico que atua como alternativa aos programas estatísticos tradicionais, como o SPSS, SAS e Stata, sendo uma linguagem de código aberto extensível. Ou seja, o software, além de livre, pode ser atualizado pelos próprios usuários. Imagine um software extremamente robusto, simples de utilizar, avançado e ainda de graça? É isso que temos no R. Ele não possui versão demo e depois outra versão mais completa paga. Ele é inteiramente gratuito. E cada pessoa pode simplesmente alimentá-lo com suas próprias programações. Isto é realmente interessante, porque alguém do outro lado do mundo pode adicionar algo dentro do programa e você simplesmente pode utilizar aquele código também. Como o interesse na utilização do R veio aumentando nos últimos anos, é bem provável que algo que você precise fazer já possa ter sido implementado por outra pessoa e esteja disponível de forma gratuita. Além disso, esse ambiente de programação está disponível nas mais diversas plataformas (Windows, Macintosh, UNIX e Linux). Curiosidade O software vem sempre passando por atualizações e o usuário pode simplesmente fazer o download da nova versão. Antigamente, existia apenas o R clássico, original, com uma plataforma mais antiga, porém, nos dias de hoje, você consegue uma interface superamistosa e simples para utilizá-lo. Na verdade, você primeiro instala o R clássico e depois instala essa interface com diversas melhorias. Sinta-se livre para escolher a melhor maneira de começar. O funcionamento do R é feito através de pacotes, também chamados de bibliotecas. Quando você instala o R, ele vem com diversos packages já instalados em sua memória, o que permite que você já possa utilizar uma série de funções interessantes. Isso é feito para que o R consiga economizar espaço de memória e não fique tão sobrecarregado. Em outros softwares, quando você clica para abri-los, tudo que ele pode fazer já é carregado automaticamente, o que muitas vezes deixa aquele ambiente pesado, com muitos travamentos. O R já trabalha de forma diferente, pois você só instala ou carrega aquilo que realmente vai precisar usar. Para instalar o software R você simplesmente pode baixá-lo em https://cran.r-project.org/. Na Figura 1, temos a tela de abertura do software R clássico. O número foi adicionado à figura somente para identificar que esse é o único espaço onde você pode digitar algo no programa. Ali, você digita a programação e os resultados aparecem. Figura 1: Tela inicial do software R. Saiba mais Caso queira instalar a interface um pouco mais amistosa, você pode baixar também o RStudio na página RStudio. Lembre-se de primeiro instalar o R clássico e depois este. Como o RStudio é uma plataforma mais amigável, usaremos sempre a partir de agora. Além disso, se qualquer uma das programações abaixo não funcionar ou o software travar, por favor, feche-o e inicialize-o novamente. Figura 2: Tela inicial do software RStudio Na Figura 2, temos a tela inicial do RStudio. Perceba como temos muito mais opções do que na Figura 1. Neste caso, temos em 1 o local onde você pode fazer suas programações, sendo um local de backup. Caso o programa trave e/ou o computador desligue, você perderia tudo se estivesse usando o R clássico, porém no RStudio isso fica salvo. Esta é uma enorme vantagem do segundo em relação ao primeiro. Em 2, conseguimos ver facilmente também as bases de dados e variáveis que estão sendo utilizadas no momento. Basta clicar em cima de alguma base e, rapidamente, você conseguirá ver quantas variáveis ela possui e qual o tipo de cada variável. Automaticamente, ao criar ou ler um arquivo de dados, ele será adicionado nessa janela. Em 3, temos a janela de execução dos comandos. Ou seja, essa janela é equivalente ao R clássico. Podemos dizer que o RStudio contém o R e mais outras 3 janelas. Tudo que você precisará executar será feito nessa parte da tela. Por fim, temos em 4 uma parte com saídas de resultados gráficos, menu de ajuda, instalação e carregamento das bibliotecas, entre outras coisas. Assim, se você precisar instalar um pacote, pode vir em 4, clicar em packages e instalar à vontade quantos pacotes quiser. Mas lembre-se de que instalar um pacote não é suficiente para que ele funcione, é preciso carregá-lo. Toda vez que fechar e abrir o R, ele mantém apenas os pacotes default (básicos). Os demais precisam ser carregados todas as vezes. Primeiro acesso Ao abrir o RStudio, você está com o "mundo em suas mãos". Você pode ler um arquivo de dados, construir sua própria base, instalar um pacote, criar um pacote, carregar um pacote ou simplesmente programar. Você pode fazer uma tabela, um gráfico simples, um gráfico tridimensional, um esquema, há uma infinidade de opções. Vamos sempre utilizar o RStudio para fazer nossas análises. Para executar a programação no software, você pode digitá-la na janela correspondente ao número 2 da Figura 2 e depois apertar o RUN ainda nessa janela. Ou você pode digitar diretamente em 3 e apertar enter. Vejamos um exemplo de alguns gráficos que o R pode te oferecer. Para isso, vamos utilizar um pacote que já vem instalado e carregado no R. É o pacote graphics. A partir de agora, todo comando que você deverá digitar no software será escrito em itálico para diferenciar entre texto e conteúdo. Vamos começar vendo a demonstração de um pacote gráfico em 2 dimensões com o comando demo. Você pode simplesmente copiar o código e colar diretamente no programa ou então digitar no R: Depois de digitar o comando acima, pressione o comando enter repetidas vezes. Isso mostrará diversos gráficos que o R é capaz de fazer. Muito Legal, não é mesmo? Saiba mais Esse pacote já estava previamente instalado e carregado no R, logo não precisamos fazer nada além de digitar seu código. Muitas bibliotecas precisam ser instaladas e carregadas, como veremos nos tópicos abaixo. No momento da instalação, dependendo da versão do R, pode ser que ele te mostre uma lista de locais onde você poderá baixar esse pacote. Você poderá escolher qualquer local da lista, mas é sempre indicadobaixar em cidades listadas no Brasil. Esse procedimento torna o download mais rápido. Como mencionado anteriormente, dentro do R há uma infinidade de pacotes que podem ser utilizados. Para realizarmos nossa amostragem, usaremos as funções pré-carregadas no R e basicamente dois pacotes: Sampling e o Survey. Função sample Uma das funções muito utilizadas para se selecionar amostras no R é através da sample(). Essa função já está pré-carregada na memória do R, assim não precisaremos instalar nenhum pacote para sua execução. Para fazer isso, basta utilizar sample() que recebe um vetor como entrada e então você diz quantas amostras tirar dessa lista. Digamos que você queira simular jogadas de um dado comum de 6 faces e deseja obter dez resultados. Como o resultado para uma jogada do dado é um número entre um e seis, nosso código seria: Ou seja, estamos utilizando a função sample() com três parâmetros. O primeiro se refere ao intervalo de valores utilizados (o dado varia de 1 a 6), o segundo diz o tamanho de amostra que se deseja (nesse caso, o número de repetições) e o replace diz se aquela retirada é com ou sem reposição. Dessa forma, você diz para a função sample retornar 10 valores, mas todos eles dentro do intervalo de 1 a 6. Assim, estamos fazendo uma seleção pelo método de amostragem aleatória simples com reposição. Você pode utilizar a sample() para fazer amostragem aleatória simples sem reposição também. Nesse caso, basta substituir o TRUE por FALSE no replace ou simplesmente deixar em branco essa parte, pois o default da função é sem reposição. Imagine que você tenha feito uma compra numa loja e recebeu um cupom numerado. A loja vai realizar o sorteio de duas televisões. Provavelmente farão sem reposição, para que uma mesma pessoa não possa ganhar duas vezes. Sabendo o total de cupons utilizados, basta colocar no sample() e obter o resultado. O levantamento da loja avaliou que foram disponibilizados 9780 cupons. Assim, poderemos fazer: ou simplesmente Se você rodou as duas formas acima, deve ter percebido que os resultados foram diferentes. Como o valor do retorno da função sample() é um número determinado aleatoriamente, se você rodar esse código várias vezes, obterá resultados diferentes a cada vez. Este é o comportamento correto na maioria dos casos, mas, às vezes, você pode desejar obter resultados repetíveis sempre que executar a função. Comentário Normalmente, isso ocorrerá apenas quando você deseja desenvolver e testar seu código, ou se quiser que outra pessoa consiga replicar seus resultados e obter exatamente os mesmos valores. Nesse caso, é comum especificar um certo valor de referência inicial, denominado semente. Se você fornecer um valor de semente, a sequência de números aleatórios será redefinida para um estado conhecido. Isso ocorre porque o R não cria números verdadeiramente aleatórios, mas apenas números pseudoaleatórios. Uma sequência pseudoaleatória é um conjunto de números que, para todos os efeitos práticos, parecem ser aleatórios, mas foram gerados por um algoritmo. Quando você define uma semente inicial para um processo pseudoaleatório, o R sempre retorna a mesma sequência pseudoaleatória. No R você usa a função set.seed() para especificar o valor inicial da semente. O argumento para set.seed() é qualquer valor inteiro. Vamos utilizar uma semente igual, assim conseguiremos os mesmos resultados sempre. ou simplesmente O resultado da sua programação deve ter fornecido os ganhadores das duas televisões como os cupons de número 2255 e 6859, correto? Lembre-se de que estamos utilizando o RStudio. Se você rodar no R clássico, o resultado pode ser diferente. Pacote sampling O pacote chamado sampling é outra forma de se selecionar amostras, principalmente se utilizarmos planos amostrais mais complexos. Ele contém muitas funções e opções internas, mas seu grande objetivo é selecionar amostras utilizando métodos probabilísticos. Obter amostras no R é muito fácil, porque o software trata essas seleções simplesmente como um novo subconjunto de dados. Vamos também selecionar amostras aleatórias simples com e sem reposição por meio de desse pacote. Vamos instalar e carregar o pacote por: No método com reposição temos que usar a função srswr(n,N). Basta definirmos o tamanho da amostra n e o tamanho populacional N. A função retorna um vetor com o número de vezes que a unidade caiu na amostra. Primeiro, carregamos o pacote sampling e depois utilizamos suas funções. Como exemplo, vamos selecionar uma amostra de tamanho 20 de uma população de tamanho 100. Sempre usaremos uma semente para nossos resultados ficarem alinhados. Assim, temos: Srswr(n,N) Do inglês, srswr é a abreviação de sample random sampling with replacement. Traduzindo isso temos “amostra aleatória simples com reposição”. Após rodar os comandos acima, teremos os seguintes resultados: Este resultado, que pela semente é igual para todos, diz quais as unidades da população de 1 a 100 foram selecionadas. Os valores iguais a 1 foram os elementos selecionados uma única vez e como é com reposição, os valores iguais a 2, significa que aquela unidade foi selecionada duas vezes. Para vermos as unidades, podemos simplesmente fazer: As unidades selecionadas foram: E para vermos quem foi selecionado duas vezes, podemos utilizar o seguinte comando: Tivemos três unidades selecionadas mais de uma vez: Para a amostragem aleatória simples sem reposição, utilizaremos a função srswor(n,N). É uma abreviação para sample random sampling withOut replacement, ou seja, “amostra aleatória simples sem reposição”. Assim, faremos a mesma coisa que fizemos no caso anterior: Os resultados encontrados foram: Estimação por amostragem aleatória simples Utilizaremos o software R para a estimação dos dados aplicando a amostragem aleatória simples. É muito importante que você faça uma revisão das expressões utilizadas para estimação da média, total e variância para a AAS. O R já possui uma série de bases de dados internamente carregadas em sua memória. Outras bases são adicionadas no momento de se carregar um pacote. Faça o seguinte comando para ver todas as bases disponíveis: Utilizaremos uma base referente ao pacote sampling chamada de MU284. Essa base de dados é uma base real datada de 1.992. São dados sobre 284 municípios da Suécia. Diversas informações são levantadas, mas vamos nos ater à informação de P85. Essa variável diz a quantidade de população (em mil unidades) de cada um dos 284 municípios. Para carregar a base e ver as variáveis, fazemos: Observe que o comando fix abre outra janela para que você possa visualizar a base. Mas lembre-se de fechar a janela aberta antes de prosseguir. Se você não fechar, o R não irá executar os próximos comandos. Nossa população é composta por N = 284 municípios, você pode observar isso ao visualizar a quantidade de linhas do arquivo com: Vamos agora selecionar uma AAS sem reposição composta por 80 municípios com a função sample. Usaremos também uma semente para obtermos os mesmos resultados: Vamos fazer estimações de totais, médias, variâncias para essa AAS. Faremos na "mão" a programação para cada uma das estimações abaixo. Estimação de variáveis populacionais Estimação da média populacional A partir dessa amostra de 80 municípios, temos que a estimativa da média populacional para todos os municípios foi de aproximadamente 28.688 pessoas (lembrando que os dados estão em milhares) Estimação da variância da estimativa da média populacional A estimativa da variância da estimativa da média é de 6.26 pessoas². Erro padrão da estimativa da média populacional Após tirar a raiz quadrada com a função sqrt, temos o erro padrão da estimativa da média em cerca de 2.503 pessoas. Assim, o erro da estimativa da média foi de cerca de 2.503 indivíduos (lembre-se sempre da unidade em milhares ao dar o resultado final). Estimação do total populacional Temos então que a estimativa do total populacional de todos os municípios é de aproximadamente 8147.25, ou seja,8.147.250 pessoas em todos esses municípios. Estimação da variância da estimativa do total populacional A estimativa da variância da estimativa do total populacional é de 505.685,8 pessoas². Erro padrão da estimação do total populacional Após tirar a raiz quadrada, temos o erro padrão da estimativa do total em aproximadamente 711.1159 pessoas. Assim, o erro da estimativa do total foi de cerca de 711.115 indivíduos (lembre-se sempre da unidade em milhares ao dar o resultado final). Você pode estar se perguntando: Toda vez que eu precisar estimar alguma coisa eu preciso programar? É uma pergunta válida. A resposta é: Depende. Se você precisar utilizar algo muito específico, pode ser que sim. Ou pode ser que tenha que procurar na internet sobre algum pacote que faça isso no R. Mas costumamos dizer que não é que não exista aquela programação, você que não achou ainda. Para nossa sorte, existe um pacote chamado survey que faz todas essas estimações sem que precisemos lembrar das fórmulas de estimadores de média ou variância, por exemplo. Precisamos apenas especificar os parâmetros do plano amostral e teremos nossas estimações. Para esse exemplo que fizemos juntos, faremos: O parâmetro id serve para dizer se há algum tipo de cluster nos dados, como não temos, deixamos como 0 ou 1, depois entramos com nossa amostra e com o fator fpc. Esse fator é chamado de fator de correção para população finita. Nada mais é que o total da população, no caso da AAS. Por isso, antes de fazer o svydesign, adicionamos uma nova coluna com o total populacional. Para fazer as estimações usando o pacote survey, faremos: Estimação da média populacional (svymean) Estimação do total populacional (svytotal) Compare os resultados obtidos pelo survey com os resultados onde havíamos feito a programação. Veja como chegamos aos mesmos resultados. Dessa forma, não precisamos fazer nenhum tipo de programação, basta entrarmos com a base de dados, dizermos qual plano amostral gostaríamos de adotar e o pacote se encarrega do restante. O software R e seus pacotes na seleção e estimação sob AAS Para entender mais o assunto, assista ao vídeo a seguir. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Verificando o aprendizado Questão 1 Um sorteio de 5 viagens internacionais vai ser realizado para todos os compradores de uma determinada loja em um shopping. Após um ano de cupons adicionados na urna, o último cupom distribuído foi o 45.965. Supondo que todos os papéis estejam na urna, faça uma seleção por AAS sem reposição e indique os cupons vencedores, se você utilizar a função sample ou o pacote sampling (utilize uma semente com valor 7 em ambos os casos). A Sample ={26067 4572 30088 15171 6312} e Sampling = { 4572 6312 15171 26067 30088} B Sample={26067 4572 30088 15171 6312} e Sampling = {3432 12155 27135 30404 45557} C Sample={7895 10640 35521 4427 20841} e Sampling = {4810 9203 13072 31496 42143} D Sample={7895 10640 35521 4427 20841} e Sampling={19838 21012 27612 32174 34088} E Sample={7895 10640 35521 4427 20841} e Sampling={7895 4427 10640 20841 35521 } A alternativa A está correta. Parabéns, você acertou! Bom trabalho! A primeira coisa que devemos nos atentar é em utilizar a semente com valor igual a 7 no RStudio. Para fazer essa seleção por AAS sem reposição com a função sample(), basta fazermos: ou ainda O resultado encontrado são as amostras de valor 26067 4572 30088 15171 6312. Já com a utilização do pacote sampling, usaremos a função srswor (sample random sampling withOut replacement) com os seguintes comandos: Assim, encontramos as seguintes amostras 4572 6312 15171 26067 30088. Portanto, a alternativa A está correta. Questão 2 O software R apresenta uma série de bases de dados internos em sua memória. Outras bases são adicionadas no momento de se carregar alguns pacotes. Faça a leitura de uma base denominada belgianmunicipalities. Ela contém uma série de informações de diversos municípios da Bélgica. Uma das variáveis é a renda per capita, na base chamada de averageincome. Qual a estimativa da média dessa variável e de seu erro padrão para uma amostra de tamanho 200? (use a semente com valor 2). Assinale a opção correta. A A estimativa da renda média populacional é de aproximadamente 14973205 euros e seu erro padrão é de cerca de 228 euros. B A estimativa da renda média populacional é de aproximadamente 14973205 euros e seu erro padrão é de cerca de 134228 euros. C A estimativa da renda média populacional é de aproximadamente 24888 euros e seu erro padrão é de cerca de 260 euros. D A estimativa da renda média populacional é de aproximadamente 24888 euros e seu erro padrão é de cerca de 211 euros. E A estimativa da renda média populacional é de aproximadamente 24888 euros e seu erro padrão é de cerca de 228 euros. A alternativa D está correta. Parabéns, você acertou! Bom trabalho! Primeiro, temos que carregar o pacote sampling, fazer a leitura da base dados e deixar claro o tamanho da população N e o tamanho da amostra n. Logo: Feito isso, precisamos selecionar nossa amostra de tamanho 200 com a semente de valor 2. Com a amostra selecionada, vamos utilizar o pacote survey para fazer a estimação dos dados: Agora podemos estimar a média e seu erro padrão: O resultado encontrado foi de 24.888 para a média e de cerca de 211 para o erro padrão. Logo, a alternativa correta é a letra D. 2. Pacote survey Introdução No módulo anterior, vimos as principais características na utilização do software R, principalmente relacionado à amostragem. Vimos que o software é construído a partir de pacotes, os quais cada pessoa pode criar o seu próprio e compartilhar com os demais usuários da comunidade. A partir deste módulo, vamos explorar um pouco mais sobre o pacote survey para fazer a estimação dos dados. Além disso, veremos como realizar uma amostragem estratificada no software R e como fazer corretamente alguns tipos de alocação da amostra existente. Pacote survey Vimos rapidamente no módulo anterior a utilização do pacote survey para fazer estimações das nossas variáveis de interesse. Veremos agora maiores detalhes sobre a utilização deste pacote. Saiba mais O survey foi criado em 2004 por Thomas Lumley, da Universidade de Auckland, na Nova Zelândia. Ele contém uma série de funções internas com muitos parâmetros disponíveis e permite analisar dados sob amostragem complexa. Para usar o pacote, são necessários alguns passos: Etapa 1 O primeiro é selecionar a amostra a ser utilizada, a qual pode ser feita com o pacote sampling. Etapa 2 Em seguida, é preciso especificar o plano amostral utilizado, através da função svydesign(). Etapa 3 Com o desenho amostral construído, podemos utilizar as funções do survey para fazer as estimações considerando esse plano. Todas essas funções especiais começam com svy, por exemplo, a svymean() e a svytotal(). No caso da amostragem estratificada (AE), a primeira coisa que faremos é verificar se há na base alguma variável referente ao estrato. Lembre-se de que na AE todos os estratos deverão ter amostras selecionadas. Para fazer a seleção, utilizaremos novamente o pacote sampling. A ideia será sempre utilizar as funções da biblioteca sampling para selecionar as amostras e a biblioteca survey para fazer as estimações. Alguns parâmetros da função são: svydesign(id=~, strata=~ , data= , weights = , fpc= , method= ) Vamos entender cada um desses parâmetros da função svydesign do package survey: ID - Indica se as unidades amostradas são agrupadas em cluster. Como a amostragem por conglomerados não foi usada aqui, só temos que colocar ~ 1 ou como marcador de posição. STRATA - Argumento para dizer qual a variável utilizada para fazer a estratificação. DATA - Parâmetro referente ao nome da base de dados da amostra. WEIGHTS - Indica o peso amostral daquela unidade. Nesse caso, será influenciando pelo fator do tamanho do estrato h pelo tamanho da população .Se não quiser usar o peso, pode usar a probabilidadede seleção também, pois o peso e a probabilidade de seleção são grandezas inversas. Pense no seguinte exemplo: Você vai selecionar 4 empresas em um total de 1000 para análise. Qual a probabilidade de seleção dessas empresas? Simplesmente fazemos . Assim, cada empresa tem uma chance de em ser selecionada. Agora, pense na seguinte pergunta: Quantas empresas cada uma dessas 4 vai ter que representar? Etapa 1 Ao selecionar 4 de 1000, essas 4 empresas selecionadas têm que responder por elas e pelas outras empresas que não foram selecionadas. Esta é a ideia do peso, dar maior representatividade a quem foi selecionado, já que nem todos serão. Etapa 2 Assim, fazendo , ou seja, a informação de cada empresa vai ter um peso de 250, porque ela precisa representar as outras que não foram selecionadas. Nesse exemplo, o peso amostral de cada uma dessas unidades vale 250. Se você reparar bem, há uma relação entre o valor 0,004 da probabilidade de seleção e o valor 250 dos pesos. Etapa 3 Um é o inverso do outro: Se multiplicarmos 250*0,004, o resultado vai ser igual a 1. Portanto, se tivermos a probabilidade de seleção, basta fazer 1 dividido por ela e encontraremos o peso. Obtendo uma das duas grandezas, você automaticamente consegue a outra. Para a função svydesign, você pode optar por informar tanto a probabilidade quanto o peso. Caso prefira deixar em branco, o software vai entender que está fazendo uma seleção estratificada com ponderação igual entre os estratos. fpc ‒ Argumento utilizado para fazer uma correção devido a população ser finita (finite population correction). É um vetor adicionado à base da amostra em que, para cada registro, será adicionado o total da população. Se estamos fazendo uma amostra estratificada, o fpc vai ser o total populacional de cada um dos estratos. A importância da sua utilização é que, sabendo o valor total da população, é possível reduzir a variância quando uma fração substancial da população total for amostrada na estimação dos dados. Após criado o objeto do plano amostral, podemos simplesmente utilizar o svymean e o svytotal para fazer as estimações de média e total com suas respectivas medidas de erro padrão. Base de dados MU284 Para construirmos nosso plano amostral estratificado e depois fazermos estimações a partir dessa amostra, usaremos novamente a base MU284. Como nosso plano agora é mais complexo, pois envolve a estratificação, vamos dar mais detalhes sobre os dados. A base contém então 11 variáveis diferentes descritas para 284 municípios na Suécia. As variáveis são: id Identificador de cada município, com valores entre 1 a 284. CS82 Número de políticos conservadores no conselho municipal. REV84 Valores imobiliários de acordo com a avaliação de 1984 (em milhões de coroas suecas). P85 População de 1985 (em milhares). SS82 Número de políticos sociais-democratas no conselho municipal. REG Indicador de região geográfica. P75 População de 1975 (em milhares). S82 Número total de políticos no conselho municipal. CL Indicador de cluster (um cluster consiste em um conjunto de municípios vizinhos). RMT85 Receitas da tributação municipal de 1985 (em milhões de coroas suecas). ME84 Número de funcionários municipais em 1984. Para fazermos nossa amostragem estratificada com essa base, usaremos a variável REG, que é o indicador da região geográfica como variável de estratificação. Amostragem estratificada no R Selecionemos uma amostra estratificada simples sem reposição de tamanho 80 com alocação proporcional ao tamanho dos estratos. Vamos entender por partes cada etapa desse plano amostral. Primeiro, investigaremos na população quantos estratos existem. Feito isso, faremos de forma proporcional ao tamanho de cada estrato a alocação da amostra, assim estratos maiores receberão maiores amostras do que estratos menores. Desse modo, indicaremos a quantidade de unidades que serão selecionadas em cada um dos estratos por meio da AAS sem reposição. Por último, depois que a estratificação for realizada, poderemos criar nosso objeto do plano amostral e fazer nossas estimativas. O primeiro passo para fazermos uma AE é verificarmos a quantidade de estratos que temos no nosso cadastro, ou seja, na nossa população. Lembre-se de que é preciso que o cadastro seja criticado na busca por erros e possíveis inconsistências e, além disso, que esteja sempre atualizado. Primeiramente, precisamos ler nossos dados e descobrir quantas regiões temos na base, ou seja, quantos estratos iremos criar. Faremos a utilização novamente da base MU284 da seguinte forma: O resultado encontrado após rodar os códigos acima foi: Figura 3: Tabela com a quantidade de municípios em cada região gerada no software R. Pelo resultado obtido na figura 3 , temos 8 regiões possíveis para fazermos a estratificação. Além disso, temos o total de cada região, por exemplo, 25 municípios na região 1,28 municípios na região 2 , e assim, sucessivamente. Para encontrarmos o fator de ponderação dos estratos , faremos , ou seja, a proporção de cada região em relação ao total. Através do R, fazemos: Logo, temos o peso de cada estrato em relação ao total: Figura 4: Peso de cada estrato gerado no software R Se você somar todos os valores acima, vai encontrar o valor 1, pois o total tem que dar 100\%. Como usaremos a alocação proporcional, a distribuição mantém a fração da amostragem em cada estrato h igual à fração populacional. Ou seja, nesse tipo de alocação, a amostra previamente definida de tamanho é distribuída proporcionalmente ao tamanho dos estratos. A alocação é dada por e no R faremos simplesmente: Figura 5: Alocação proporcional em cada estrato gerada no software R. A partir dessas informações, poderemos calcular o tamanho da amostra em cada estrato. É importante sempre arredondar o tamanho da amostral para o inteiro superior mais próximo. Atenção Dessa forma, você conseguirá obter o mínimo exigido por estrato, porém, pode acontecer do tamanho amostral final ser ligeiramente maior do que o planejado previamente. Com isso, o tamanho de amostra em cada estrato será de 8, 14, 10, 11, 16, 12, 5 e 9 e o tamanho passa então de 80 para 85 unidades. Para selecionarmos nossa amostra estratificada, usaremos a função strata, que também faz parte do pacote sampling, da seguinte forma: Com a utilização da semente, encontraremos as mesmas unidades selecionadas. Ao rodar o comando selec, você verá impresso na tela a amostra selecionada. Vamos usar um comando para ver somente as primeiras 10 unidades da amostra. Você pode substituir o 10 abaixo por qualquer valor: O resultado encontrado foi: Figura 6: As 10 primeiras unidades selecionadas pela amostragem estratificada no R. Perceba pela figura acima que temos 4 colunas, a de região REG; a Id_unit, que identifica a unidade que foi selecionada; a variável Prob, que é a probabilidade de seleção; e a stratum, que é igual a REG, porém criada pela própria função. Vamos entender como foram obtidas as probabilidades de seleção para esses dois estratos. Para o , temos um total de 25 empresas no estrato e como queremos selecionar apenas 8 , basta fazermos . Para o estrato 2, temos , e assim, sucessivamente, para os outros. Para filtrar somente alguma variável de um arquivo, utilizamos o símbolo \$ separando o nome da base e o nome da variável. Podemos, então, obter somente as probabilidades de seleção da seguinte forma: Já temos as unidades selecionadas, precisamos agora utilizar o banco de dados original para criar um novo objeto com todas as variáveis para aquelas unidades amostrais. Assim, faremos: A função getdata vai completar os dados amostrais com as informações da população MU284. A base chamada amostra vai conter todas as informações possíveis somente para as unidades selecionadas. Com nossa amostra bem estabelecida, poderemos construir nosso plano amostral e depois realizar a estimação dos dados. Vamos criar um vetor de fpc com os totais populacionais. Por exemplo, os 8 primeiros registrossão do estrato 1 que tem 25 unidades na população, então temos que repetir o 25 nas 8 primeiras linhas, e assim, sucessivamente, para os demais estratos. Nosso vetor será feito com o comando de repetição rep abaixo: Para especificarmos o plano amostral, usaremos o comando svydesign, em que diremos a variável de estratificação, as probabilidades de seleção e o fpc. Assim: Com o plano amostral especificado, podemos utilizar a função svymean para fazer nossas estimativas, assim: Estimativa da média e de seu erro padrão para a variável P85 considerando o plano amostral estratificado Com o resultado acima, nossa estimação da média populacional é de 20.068 pessoas e seu erro padrão, aproximadamente, 1.271 pessoas (lembre-se de que os dados estão em milhares). Estimativa do total e de seu erro padrão para a variável P85 considerando o plano amostral estratificado Para a estimação do total populacional, obtemos aproximadamente 5.700.000 pessoas com um erro padrão de, aproximadamente, 361.100 pessoas. Dessa forma, conseguimos obter estimativas para a média e total populacional da nossa variável P85. Você pode repetir todo o processo para outra variável do banco e comparar os resultados. Outra forma de obter os mesmos resultados Fizemos a estimação das nossas quantidades de interesse utilizando nosso plano amostral criado com a função svydesign. Um dos parâmetros informados foi a probabilidade de seleção. Podemos obter os mesmos resultados indicando na função quais são os pesos amostrais ao invés das probabilidades de seleção. Como vimos que as probabilidades e os pesos são grandezas inversas, podemos usar isso no software e indicar o vetor de pesos no momento da criação do desenho amostral. Para isso, basta adicionar uma coluna na nossa base de amostra com os valores dos pesos da seguinte forma: O que estamos fazendo é acessando a base amostra e adicionando uma nova coluna chamada PESO, com valores de 1 dividido pelas respectivas probabilidades de seleção de cada linha. Agora, faremos a especificação do plano amostral novamente. Vamos chamar de plano_est2 e depois poderemos estimar novamente nossas médias e variâncias. Repare no código acima que o parâmetro das probabilidades de seleção foi substituído pelo parâmetro do peso. Fazendo as estimações para este segundo plano, temos: Compare os resultados, perceba que encontramos os mesmos valores. Assim, podemos indicar para a função tanto as probabilidades de seleção, quanto os pesos amostrais. E caso não indiquemos nada, estamos assumindo que os estratos têm o mesmo tamanho. Resultados sem o fpc Vamos agora fazer nossas estimativas ignorando o fator de correção de população finita. Esse fator é importante, pois indica qual o tamanho da população de cada estrato. Assim, o software não precisa assumir que a população é infinita e, com isso, os erros de estimação diminuem. Nesse caso, basta eliminar o parâmetro e fazer novamente as estimações, vamos chamar esse desenho de plano_est3. Assim, temos: Ou utilizando os pesos ao invés das probabilidades de seleção: As estimações são feitas por: A tabela abaixo faz a comparação entre as estimações do plano 1 ou 2 com o fator fpc e do plano 3 sem o fator. Estimativa\ Plano amostral Plano 1 ou 2 (com FPC) Plano 3 (sem FPC) Média (milhar) 20.068 20.068 Erro padrão da média (milhar) 1.2715 1.5237 Total (milhar) 5699.4 5699.4 Erro padrão do total (milhar) 361.1 432.73 Tabela 1: Comparação dos resultados dos planos amostrais com e sem o fator FPC. Fonte: O Autor. Observe que interessantes os resultados da Tabela 1, pois ao comparar os mesmos planos amostrais, com as mesmas amostras, a utilização do fpc faz com que seja possível diminuir o erro da estimação. Estamos sempre na busca das melhores estimações com os menores erros possíveis. Ao comparar as estimativas de média ou de total, os resultados foram exatamente os mesmos, porém o erro padrão das medidas com o fpc diminuiu. Portanto, sempre que você tiver essa informação, utilize nas especificações do seu plano amostral. Estimação por estrato Uma das grandes vantagens de se utilizar a AE é a possibilidade de fazer estimações gerais e particulares por estrato. Dessa forma, podemos acompanhar uma média ou um total específico para alguma região, como é o caso do nosso exemplo. Para isso, usaremos a função svyby e especificaremos dentro do parâmetro FUN o svymean, para estimarmos a média ou o svytotal, para estimarmos o total. Usaremos os seguintes comandos: E o resultado apresentado pelo R para a média foi de: E o resultado apresentado pelo R para o total foi de: É interessante essa estimação por estrato, pois podemos ver que no estrato 1 a estimação do total e da média populacional são muito maiores que dos outros. Também é possível a partir das estimativas das médias e totais encontrarmos os valores de forma geral. Para o total, basta somarmos, por exemplo, para cada estrato. Assim, temos, YAE=1.128,1250+939,4286+604,8000+663,2727+997,5000+536,4167+411,0000+418,8889=5.699,4 E esse valor foi exatamente o valor encontrado quando fizemos a estimação do total geral. Seleção amostral e estimação sob amostragem estratificada no R Para entender mais o assunto, assista ao vídeo a seguir. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Verificando o aprendizado Questão 1 A partir da base MU284, faça a estimação da média e de seu erro padrão para a variável RMT85 ‒ Receitas da Tributação Municipal de 1985 (em milhões de coroas suecas) para um plano estratificado com alocação proporcional ao tamanho dos estratos. Utilize o pacote sampling para selecionar a amostra e o pacote survey para fazer as estimações. Além disso, utilize a semente igual a 3 e uma amostra de tamanho 50 no RStudio. Dessa forma, assinale a opção correta. A A estimativa da média populacional é de aproximadamente 147.440 euros, com erro padrão de cerca de 11.941 euros. B A estimativa da média populacional é de aproximadamente 175.040 pessoas, com erro padrão de cerca de 21.509 pessoas. C A estimativa da média populacional é de aproximadamente 49.711 euros, com erro padrão de cerca de 3.394.000 euros. D A estimativa da média populacional é de aproximadamente 49.711 euros, com erro padrão de cerca de 21.509 euros. E A estimativa da média populacional é de aproximadamente 175.040 pessoas, com erro padrão de cerca de 11.941 pessoas. A alternativa B está correta. Parabéns, você acertou! Bom trabalho! Primeiro, temos que carregar o pacote sampling, fazer a leitura da base dados e deixar claro o tamanho da população N e do tamanho da amostra n. Logo: Agora, temos de fazer a alocação proporcional do tamanho de amostra n = 50, logo: Com as quantidades obtidas (lembrando sempre de arredondar para cima) para cada estrato, podemos selecionar nossa amostra estratificada: Temos de indicar também nosso parâmetro fpc com os totais populacionais para cada linha da base da amostra: A partir de agora, podemos especificar nosso plano amostral: Finalmente, podemos estimar a média e seu erro padrão: Portanto, o resultado encontrado foi de 175.040 indivíduos para a média e de 21.509 para o erro padrão. Logo, a alternativa correta é a letra B. Questão 2 A partir do pacote sampling, podemos trabalhar com uma base de dados de municípios da Bélgica. Faça a leitura de uma base denominada belgianmunicipalities. Ela contém uma série de informações de diversos municípios da Bélgica. Uma das variáveis é a renda per capita, na base chamada de averageincome. Qual a estimativa do erro padrão da média para uma amostra de tamanho 300 para a região 1? Faça as estimativas e encontre resultados com o fpc e sem o fpc (use a semente com valor 5). A O erro padrão da média com o FPC é de 282.973 euros e sem o FPC é de 406.026 euros. B O erro padrão da média com o FPC é de 207.973 euros e sem o FPC é de 282.973 euros. C O erro padrão da média com o FPC é de 406.026 euros e sem o FPC é de 282.973 euros. D O erro padrão da média com o FPC é de 297.973euros e sem o FPC é de 406.026 euros. E O erro padrão da média com o FPC é de 272.433 euros e sem o FPC é de 322.102 euros. A alternativa A está correta. Parabéns, você acertou! Bom trabalho! Primeiro, temos que carregar o pacote sampling, fazer a leitura da base de dados e deixar claro o tamanho da população N e o tamanho da amostra n. Logo: Temos também de fazer a alocação proporcional do tamanho de amostra n=300, logo: Com as quantidades obtidas (lembrando sempre de arredondar para cima) para cada estrato, podemos selecionar nossa amostra estratificada: Temos de indicar também nosso parâmetro fpc com os totais populacionais para cada linha da base da amostra: A partir de agora, podemos especificar nosso plano amostral: Agora, podemos estimar a média e seu erro padrão por estrato: Como queremos somente o estrato 1, obtemos um erro de 282 973. Os resultados sem o fpc são dados por: Os resultados para o estrato 1 sem o fpc é de 406 026. Percebemos como o erro padrão é maior ao não informar os totais populacionais através do parâmetro fpc. 3. Amostragem sistemática e conglomerada Introdução No módulo anterior, vimos as principais características do pacote survey para fazer as especificações e estimações da amostragem estratificada no software R. A partir deste módulo, vamos explorar um pouco mais o pacote survey, agora na amostragem por conglomerado. Veremos as diferenças existentes nas funções decorrente de se utilizar a amostra dividida em cluster. Além disso, vamos fazer algumas comparações entre os planos amostrais e veremos também a amostragem sistemática para se fazer seleções amostrais. Amostragem por conglomerados no R Outra abordagem muito utilizada no momento de elaboração do plano amostral é a amostragem por conglomerados (AC). A grande vantagem desse plano diz respeito à parte operacional, no sentido de diminuir o custo de toda operação. Selecionar um conglomerado e investigar a população ali dentro é, em geral, mais barato do que fazer os outros métodos de amostragem que discutimos acima. Comentário A AC pode ser feita em vários estágios, porém precisamos que nossa população esteja totalmente distribuída dentro de algum cluster. Lembrando que na AC em 1 estágio, primeiro vamos selecionar os conglomerados e depois investigar todas as unidades ali dentro. Voltemos a utilizar nossa base de dados MU284, com os 284 municípios da Suécia. Diferentemente dos casos anteriores, usaremos a variável CL, que delimita o cluster para cada registro da base. Vamos, então, selecionar uma amostra por conglomerados simples sem reposição em um estágio, onde os conglomerados são definidos com a variável CL em nossa população de municípios. Para fazer comparações com os planos anteriores (estratificação, por exemplo), utilizaremos o mesmo tamanho de amostra, n = 80 municípios. Faremos uma tabela exploratória para descobrirmos em quantos clusters nossa população está dividida: Figura 7: Distribuição dos municípios dentro dos clusters. Perceba na Figura 7 que a população de municípios está dividida em 50 conglomerados com uma distribuição bastante semelhante entre eles. Para encontrarmos a média geral de municípios dentro dos conglomerados, basta calcularmos: Assim, cada conglomerado possui, em média, 5,68 municípios e se quisermos que nossa amostragem tenha um tamanho de amostra de aproximadamente 80 municípios, teremos que selecionar cerca de 14 conglomerados (pois em média 14* 5,68 = 79.52). Agora, podemos utilizar o pacote sampling com a função cluster para construir nossa amostra. A função cluster produz um objeto que contém os conglomerados selecionados, o identificador dos municípios pertencentes a cada um dos conglomerados e as probabilidades de seleção dos mesmos. Utilizando a semente com um valor igual a 5, fazemos no R: Perceba como simplesmente entramos com o nome da base, o nome da variável que define os conglomerados, o tamanho de conglomerados que queremos selecionar e o método de seleção dessas unidades, no caso a amostra aleatória simples sem reposição (srswor). Para vermos alguns conglomerados selecionados, podemos utilizar novamente o comando head() como: Figura 8: Primeiras 10 unidades selecionadas e seus respectivos conglomerados. Pela Figura 8, temos as respectivas identificações das unidades e de seus clusters. Repare que a probabilidade de seleção é a mesma para todos os elementos, independente de qual cluster ele está. Lembre- se de que estamos fazendo um plano amostral conglomerado em 1 estágio, assim, dado que o cluster foi selecionado, todas as suas unidades serão investigadas. Logo, o que importa é a seleção dos conglomerados, e não das unidades lá dentro. Essa probabilidade é fixa e dada pela quantidade de clusters que iremos selecionar dividida pelo total existente, assim: Agora que já temos nossos conglomerados selecionados, vamos cruzar essa informação com nosso banco original e obter as outras variáveis referentes a essas respectivas unidades amostrais. Utilizaremos novamente a função getdata, logo: Para visualizarmos as informações das unidades de cada cluster selecionado, podemos fazer: Lembre-se de fechar a janela antes de continuar. Outro ponto importante que devemos construir é o fator fpc. Dessa forma, adicionaremos um vetor com o tamanho total dos conglomerados, que no caso vale 50. Assim, replicaremos o 50 de acordo com a dimensão do objeto ACSs. Podemos agora fazer a especificação do nosso plano amostral a partir do pacote survey e da função svydesign. Diferentemente das especificações anteriores, agora nosso id não fica com o valor 0 ou 1, ele vai receber exatamente a variável de cluster, na base é representada por CL. Podemos verificar a definição do plano amostral conglomerado construído pelo R, simplesmente rodando o comando abaixo: O resultado é dado por: Perceba como o R descreve perfeitamente o plano que foi construído. Temos um plano conglomerado em 1 estágio com seleção de 14 clusters. Por fim, o último passo é fazer as estimativas para nossa variável de interesse P85. Assim, temos: Estimativa da média e de seu erro padrão para a variável P85 considerando o plano amostral conglomerado em 1 estágio Com o resultado acima, nossa estimação da média populacional é de 28.354 pessoas e seu erro padrão é de, aproximadamente, 2.500 pessoas (lembre-se de que os dados estão em milhares). Estimativa do total e de seu erro padrão para a variável P85 considerando o plano amostral conglomerado em 1 estágio Para a estimação do total populacional, obtemos aproximadamente 8.800.000 pessoas com um erro padrão de aproximadamente 791.400 indivíduos. Dessa forma, conseguimos obter estimativas para a média e total populacional da nossa variável P85. Você pode repetir todo o processo para outra variável do banco e comparar os resultados. Outra forma de obter os mesmos resultados Da mesma forma que fizemos na AE, podemos obter os mesmos resultados trocando a variável das probabilidades de seleção pela variável peso. Como o peso e as probabilidades de seleção são grandezas inversas, podemos simplesmente fazer: Com isso, construímos nosso vetor de pesos e podemos utilizá-lo dentro da função svydesign para fazermos a especificação do plano amostral. Assim, temos: Compare os resultados, veja como são exatamente os mesmos, tanto para a estimativa da média quanto para o total. Resultados sem o fpc Vamos agora, novamente, fazer nossas estimativas ignorando o fator de correção de população finita. Nesse caso, basta eliminar o parâmetro e fazer novamente as estimações. Vamos chamar esse desenho de planoC_sem_fpc. Assim, temos: Ou utilizando os pesos ao invés das probabilidades de seleção: As estimações são feitas por: A tabela abaixo faz a comparação entre as estimações do plano 1 ou 2 com o fator fpc e do plano 3 sem o fator: Estimativa\ Plano amostral Plano 1 ou 2 (com FPC) Plano 3 (sem FPC) Média (milhar) 28.354 28.354 Erro padrão da média (milhar) 2.5005 2.9468 Total (milhar) 8000 8000 Erro padrão dototal (milhar) 791.4 932.68 Tabela 2: Comparação dos resultados dos planos amostrais com e sem o fator FPC. Fonte: Autor. Observe que as conclusões feitas a partir dos resultados na Tabela 2 são exatamente iguais aos resultados da Tabela 1, pois, ao comparar os mesmos planos amostrais com as mesmas amostras, a utilização do fpc faz com que seja possível diminuir o erro da estimação. Ao comparar as estimativas de média ou de total, os resultados foram exatamente os mesmos, porém o erro padrão das medidas com o fpc diminuiu. Portanto, sempre que você tiver essa informação, utilize nas especificações do seu plano amostral. Comparação entre as estimações dos planos amostrais Após obter os resultados das estimativas da média, total e de seus respectivos erros padrões para amostras de tamanho aproximadamente iguais sob planos amostrais diferentes, podemos reunir os valores obtidos na Tabela 3 abaixo: Estimativa\ Plano amostral AAS (com FPC) AES (com FPC) ACS (com FPC) Média (milhar) 28.688 20.068 28.354 Erro padrão da média (milhar) 2.5039 1.2715 2.5005 Total (milhar) 8147.2 5699.4 8000 Erro padrão do total (milhar) 711.12 361.1 791.4 Tabela 3: Comparação dos resultados para a variável P85 para os planos amostrais utilizados. Fonte: Autor. Perceba como o valor do erro padrão da amostragem estratificada é inferior aos outros dois métodos. Isso sugere que a AES tem uma eficiência superior a AAS e a ACS. É interessante esse resultado do ponto de vista do tamanho da amostra, pois a estratificação consegue obter resultados muito eficientes com um tamanho de amostra menor que a AAS, por exemplo. Já a ACS é um método, em geral, menos eficiente que os demais, porém o custo de se fazer uma amostragem por ele costuma ser menor do que nos outros casos. Amostragem sistemática no R Nesse tipo de amostragem, selecionamos um ponto de partida da população e coletamos nossos elementos a partir de um intervalo de retirada k. Os elementos devem estar dispostos de maneira organizada, como, por exemplo, uma fila ou uma lista, e isso feito de forma aleatória. Se estivermos fazendo um levantamento de dados em uma fábrica de lâmpadas, podemos retirar uma lâmpada para teste a cada 100 peças produzidas. Podemos também definir a amostra de acordo uma porcentagem P% da população que pode fazer parte da amostra. A partir daí, encontramos o valor k por: Depois, sorteamos um número r inteiro entre 1 e k e a amostra será composta pelos elementos de ordem r; r + k; r + 2k; r + 3k; e assim, sucessivamente. Vejamos um exemplo de como fazer essa seleção no software R: Um restaurante deseja conhecer melhor o perfil de seus clientes e tem condições de entrevistar aproximadamente 20% dos mesmos. Em média, 30 clientes passam pelo restaurante ao longo do dia num processo de fila bastante ordenada. Como fazer a seleção dessas amostras? Etapa 1 Para fazermos essa seleção no R, utilizaremos funções bastante simples. Primeiro, encontraremos nosso K: Etapa 2 Com nosso intervalo estabelecido, vamos sortear nosso ponto de partida r: Etapa 3 Com o intervalo de seleção e o ponto de partida, podemos indicar quais serão as amostras que deverão ser selecionadas para esse caso. É possível também criar funções mais complexas que façam isso automaticamente ou apenas adicionar r+nk na função abaixo. Nesse caso, as unidades que farão parte da nossa amostra são: 3 8 13 18 23 28. Um problema real na AS ocorre na estimação de medidas de precisão. De acordo com Bolfarine (2005), no caso em que a população está em ordem aleatória, não existem muitos problemas em se estimar a variância da AS pelas expressões dos estimadores da AAS. Assim, você pode usar as mesmas expressões e funções de estimação no R utilizados para a AAS. Amostragem sistemática e por conglomerado no software R Para entender mais o assunto, assista ao vídeo a seguir. Conteúdo interativo Acesse a versão digital para assistir ao vídeo. Verificando o aprendizado Questão 1 Uma pesquisa encomendada por uma empresa de show será realizada por meio da amostragem sistemática. Pela estimativa de ingressos vendidos, 7.900 pessoas (enumeradas de 1 a 7.900) passarão pela fila do espetáculo. Uma amostra sistemática será feita com 10% desse total. Qual é a numeração das 3 primeiras e das 3 últimas pessoas entrevistadas (utilize uma semente igual a 5)? A Os três primeiros são: 1, 11, 21. Os três últimos são: 7.874, 7.884, 7.894. B Os três primeiros são: 2, 12, 22. Os três últimos são: 7.874, 7.884, 7.894. C Os três primeiros são: 1, 11, 21. Os três últimos são: 7.872, 7.882, 7.892. D Os três primeiros são: 2, 12, 22. Os três últimos são: 7.872, 7.882, 7.892. E Os três primeiros são: 2, 12, 22. Os três últimos são: 7.876, 7.886, 7.896. A alternativa D está correta. Parabéns, você acertou! Bom trabalho! Primeiro, temos que encontrar o tamanho da amostra que será selecionada. Pelo enunciado, temos 10% de 7900, logo 790 entrevistas. Agora, encontramos nosso intervalo de retirada k, assim: O valor de k é igual a 10. Selecionando aleatoriamente nosso ponto de partida temos o valor igual a 2 a partir do comando abaixo: O passo final é descobrir quais as unidades serão selecionadas, logo fazemos: Lembrando que, como a sequência começa em r, o último valor é o tamanho da amostra menos 1, ou seja (n -1). Portanto, os valores obtidos foram 2, 12, 22, 7.872, 7.882, 7.892 e a resposta certa é a letra D. Questão 2 Faça novamente a leitura da base belgianmunicipalities a partir do pacote sampling que contém informações de diversos municípios da Bélgica. Vamos continuar trabalhando com a variável renda per capita, na base chamada de averageincome. Qual a estimativa da média e de seu erro padrão para uma amostra por conglomerados de tamanho 200? Faça as estimativas utilizando o fpc (use a semente com valor 10). A A média é 26.794 euros e o erro padrão da média é de 2.873 euros. B A média é 34.353 euros e o erro padrão da média é de 2.073 euros. C A média é 26.794 euros e o erro padrão da média é de 1.146,4 euros. D A média é 34.353 euros e o erro padrão da média é de 2.973 euros. E A média é 34.353 euros e o erro padrão da média é de 2.873 euros. A alternativa C está correta. Parabéns, você acertou! Bom trabalho! Primeiro, temos que carregar o pacote sampling, fazer a leitura da base de dados e ver quantos clusters existem na população. Logo: Percebemos que temos 9 conglomerados nessa população, logo, dividindo o total N=589 por 9, temos, em média, 65,4 unidades por cluster. Como queremos uma amostra de tamanho 200, precisaremos selecionar 3 clusters. Assim, fazemos: Temos de indicar também nosso parâmetro fpc com os totais populacionais para cada linha da base da amostra: A partir de agora, podemos especificar nosso plano amostral: Agora, podemos estimar a média e seu erro padrão: A partir dos resultados obtidos no R, temos uma estimação de 26.974 para a média e 1.146,4 para o erro padrão da média, supondo uma amostragem conglomerada simples. 4. Conclusão Considerações finais Ao longo dos módulos, foi possível entender mais sobre a importância da utilização do software R na amostragem e na análise de dados amostrais. O software, por ser livre e poder ser alimentado com bibliotecas do mundo inteiro, vem crescendo cada vez mais em termos de usuários. Inicialmente, discutimos alguns aspectos sobre o programa, como fazer a instalação do RStudio e alguns pacotes introdutórios de estatística. Vimos, em seguida, a utilização do pacote sampling e como fazer seleções e estimações por meio da amostragem aleatória simples. No segundo módulo, apresentamos características mais específicas sobre a biblioteca survey, utilizada para fazer estimações nos mais diversos planos amostrais. Aprendemos como fazer uma amostragem estratificada no R e como usar o survey para fazer essas estimativas. Comparamos algumas formas diferentes de obter os dados e aprendemos a fazer estimações específicas por estratificação. Por fim, investigamos também a amostragemconglomerada e sistemática no R. Fizemos uma comparação dessas com as estimativas obtidas por aleatórias simples, estratificada e conglomerada. Ficou claro como a eficiência da estratificação pode ser substancial no cálculo das medidas de precisão. Assim, temos certeza de que, ao chegar ao fim deste tema, o estudante aprendeu um pouco sobre o software R, ferramenta tão utilizada na Estatística e na Ciência de Dados, e como utilizá-lo no contexto da amostragem. Podcast Para encerrar, ouça o áudio sobre os aspectos mais importantes abordados no tema. Conteúdo interativo Acesse a versão digital para ouvir o áudio. Explore+ Para saber mais sobre os assuntos tratados neste tema, leia: PDF Pacote sampling, Cran PDF Pacote survey, Cran Referências BOLFARINE, H.; BUSSAB, W. O. Elementos de Amostragem. São Paulo: Blucher, 2005. BONAFINI, C. F. Probabilidade e Estatística. São Paulo: Pearson Education do Brasil, 2015. • • COCHRAN, W. G. Sampling Techniques. 3rd. edition. New York: John Wiley & Sons, 1977. LOHR, S. Sampling: Design and Analysis. 2nd. edition. USA: Duxbury Press, 2010. MORETTIN, P. A.; BUSSAB, W. de O. Estatística Básica: Probabilidade e Inferência, Volume Único. São Paulo: Pearson Prentice Hall, 2010. R-PROJECT. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, 2019, Vienna, Austria. Consultado em meio eletrônico em: 28 out. 2020. SÄRNDAL, C. E.; SWENSSON, B.; WRETMAN, J. Model assisted survey sampling. New York: Springer-Verlag, 1992. Amostragem na prática com a utilização do software R 1. Itens iniciais Propósito Preparação Objetivos 1. Software estatístico R e o pacote sampling Introdução Software R Curiosidade Saiba mais Primeiro acesso Saiba mais Função sample Comentário Pacote sampling Estimação por amostragem aleatória simples Estimação de variáveis populacionais Estimação da média populacional Estimação da variância da estimativa da média populacional Erro padrão da estimativa da média populacional Estimação do total populacional Estimação da variância da estimativa do total populacional Erro padrão da estimação do total populacional Estimação da média populacional (svymean) Estimação do total populacional (svytotal) O software R e seus pacotes na seleção e estimação sob AAS Conteúdo interativo Verificando o aprendizado Um sorteio de 5 viagens internacionais vai ser realizado para todos os compradores de uma determinada loja em um shopping. Após um ano de cupons adicionados na urna, o último cupom distribuído foi o 45.965. Supondo que todos os papéis estejam na urna, faça uma seleção por AAS sem reposição e indique os cupons vencedores, se você utilizar a função sample ou o pacote sampling (utilize uma semente com valor 7 em ambos os casos). 2. Pacote survey Introdução Pacote survey Saiba mais Etapa 1 Etapa 2 Etapa 3 Etapa 1 Etapa 2 Etapa 3 Base de dados MU284 id CS82 REV84 P85 SS82 REG P75 S82 CL RMT85 ME84 Amostragem estratificada no R Atenção Estimativa da média e de seu erro padrão para a variável P85 considerando o plano amostral estratificado Estimativa do total e de seu erro padrão para a variável P85 considerando o plano amostral estratificado Outra forma de obter os mesmos resultados Resultados sem o fpc Estimação por estrato Seleção amostral e estimação sob amostragem estratificada no R Conteúdo interativo Verificando o aprendizado A partir da base MU284, faça a estimação da média e de seu erro padrão para a variável RMT85 ‒ Receitas da Tributação Municipal de 1985 (em milhões de coroas suecas) para um plano estratificado com alocação proporcional ao tamanho dos estratos. Utilize o pacote sampling para selecionar a amostra e o pacote survey para fazer as estimações. Além disso, utilize a semente igual a 3 e uma amostra de tamanho 50 no RStudio. Dessa forma, assinale a opção correta. A partir do pacote sampling, podemos trabalhar com uma base de dados de municípios da Bélgica. Faça a leitura de uma base denominada belgianmunicipalities. Ela contém uma série de informações de diversos municípios da Bélgica. Uma das variáveis é a renda per capita, na base chamada de averageincome. Qual a estimativa do erro padrão da média para uma amostra de tamanho 300 para a região 1? Faça as estimativas e encontre resultados com o fpc e sem o fpc (use a semente com valor 5). 3. Amostragem sistemática e conglomerada Introdução Amostragem por conglomerados no R Comentário Estimativa da média e de seu erro padrão para a variável P85 considerando o plano amostral conglomerado em 1 estágio Estimativa do total e de seu erro padrão para a variável P85 considerando o plano amostral conglomerado em 1 estágio Outra forma de obter os mesmos resultados Resultados sem o fpc Comparação entre as estimações dos planos amostrais Amostragem sistemática no R Etapa 1 Etapa 2 Etapa 3 Amostragem sistemática e por conglomerado no software R Conteúdo interativo Verificando o aprendizado Uma pesquisa encomendada por uma empresa de show será realizada por meio da amostragem sistemática. Pela estimativa de ingressos vendidos, 7.900 pessoas (enumeradas de 1 a 7.900) passarão pela fila do espetáculo. Uma amostra sistemática será feita com 10% desse total. Qual é a numeração das 3 primeiras e das 3 últimas pessoas entrevistadas (utilize uma semente igual a 5)? Faça novamente a leitura da base belgianmunicipalities a partir do pacote sampling que contém informações de diversos municípios da Bélgica. Vamos continuar trabalhando com a variável renda per capita, na base chamada de averageincome. Qual a estimativa da média e de seu erro padrão para uma amostra por conglomerados de tamanho 200? Faça as estimativas utilizando o fpc (use a semente com valor 10). 4. Conclusão Considerações finais Podcast Conteúdo interativo Explore+ Referências