Buscar

tema 3 Amostragem na prática com a utilização do software R

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 57 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

DESCRIÇÃO
Utilização do software R na especificação e estimação de planos amostrais por amostragem aleatória
simples, sistemática, estratificada e por conglomerados.
PROPÓSITO
Apresentar o software estatístico e gratuito R na seleção amostral e estimação de diferentes planos
amostrais, como a amostragem aleatória simples, amostragem estratificada, amostragem por
conglomerados e amostragem sistemática.
PREPARAÇÃO
Antes de iniciar o conteúdo atual, instale o software estatístico R em seu computador ou dispositivo
móvel para realizar aplicações práticas da teoria da amostragem. Você pode baixar também o RStudio.
OBJETIVOS
MÓDULO 1
Descrever conceitos gerais sobre o software estatístico R e o pacote sampling nas estimações segundo a
amostragem aleatória simples
MÓDULO 2
Descrever o pacote survey para estimações a partir da amostragem estratificada
MÓDULO 3
Selecionar amostras a partir da amostragem sistemática e conglomerada com estimações para esses
planos no Software R
MÓDULO 1
 Descrever conceitos gerais sobre o software estatístico R e o pacote sampling nas estimações
segundo a amostragem aleatória simples
LIGANDO OS PONTOS
Você conhece a linguagem de programação R? Diante da necessidade de realizar amostragem aleatória,
como o R poderia ser útil? Para respondermos a estas perguntas, vamos analisar algumas situações
práticas.
Shutterstock.com
Vamos analisar o caso de uma empresa de vendas de livros online que deseja aumentar a sua oferta de
títulos. Por onde a empresa deve começar a realizar a sua pesquisa? Que tipo de ferramenta ela pode
utilizar para analisar os dados?
Nesse caso, o objetivo já está bem definido: aumentar a oferta de títulos de livros para venda. Pelo fato
de ser uma empresa que trabalha com vendas online, a coleta dos dados históricos é facilitada, pois tudo
é feito online e, portanto, deveria ficar registrado em um banco de dados, de modo que seja fácil
consultar os dados a qualquer momento. Em seguida, vem o processo de análise. Para executar esse
processo, o conhecimento dos fundamentos teóricos da estatística e probabilidade são essenciais para
produzir resultados sustentados em conexões não triviais e lógicas sendo que a teoria ganha um
poderoso aliado para realizar testes sistematizados com a utilização de ferramentas computacionais,
como a linguagem R.
O R é uma linguagem de programação muito popular para aplicações de ciência de dados. E o que torna
o R tão especial? São muitos os fatores que contribuíram para a popularidade dele, como a
disponibilidade de muitas funcionalidades em bibliotecas, conjuntos de dados prontos para serem usados
e uma sintaxe simplificada bastante adequada à realização de testes e análises.
Então, uma das formas práticas que a empresa de venda de livros online pode usar o R na prática é para
realizar amostragem aleatória. O R disponibiliza funcionalidades que permitem realizar sorteios sem e
com reposição, de modo que possamos fazer testes interessantes para criação de análises consistentes
e viáveis sob os pontos de vista de tempo e confiabilidade.
O contexto de utilização do R ocorre principalmente para ciência de dados que é uma área que ganhou
muita relevância nos últimos anos. Ela, em si, não é uma área nova, mas a disponibilidade de programas
que contêm diversas funcionalidades em bibliotecas e a linguagem de sintaxe objetiva ajudaram a
popularizar a aplicação de conceitos para resolver problemas reais.
Outro ponto relevante a respeito do R é que ele possui licença de software livre. Realmente, fazer a
instalação do R e de suas bibliotecas é muito simples. Somado a tudo isso, ainda está o fato de que o R
pode se integrar a outras ferramentas de análise, como o Power BI, que é um software da Microsoft
muito útil para produção de relatórios de altíssima qualidade. Então, de fato, empresas como a do nosso
exemplo, podem ter muitos benefícios ao realizar análises com R.
Após a leitura do caso, é hora de aplicar seus conhecimentos! Vamos ligar esses pontos?
1. COMO VOCÊ VIU, O SOFTWARE R OCUPA UM LUGAR DE DESTAQUE NAS
APLICAÇÕES DE CIÊNCIA DE DADOS. PENSANDO NA QUALIDADE DE UMA
ANÁLISE, POR QUE DEVEMOS USAR O R?
A) Suas bibliotecas disponibilizam funcionalidades que permitem ao analista focar no processo
investigativo.
B) Ele pode se integrar a diversos outros programas.
C) O R é uma linguagem de programação com sintaxe simplificada.
D) Ele possui licença de software livre.
E) Porque o R é muito popular para trabalhar com aplicações de ciência de dados.
2. UM DOS RECURSOS MAIS INTERESSANTES DE UMA ANÁLISE SÃO AS
FERRAMENTAS DE VISUALIZAÇÃO. A LINGUAGEM DE PROGRAMAÇÃO R
POSSUI ESSE TIPO DE RECURSO. NO ENTANTO, É COMUM UTILIZAR O R
INTEGRADO A UM PROGRAMA COMO POWER BI PARA PRODUZIR GRÁFICOS.
NESSE SENTIDO, SELECIONE A OPÇÃO QUE JUSTIFICA O USO DO R COM
OUTRAS FERRAMENTAS DE VISUALIZAÇÃO.
A) Os gráficos do R não são de boa qualidade.
B) O Power BI possui recursos de estatística e probabilidade que complementam o R.
C) É uma boa estratégia a utilização conjunta de programas de licença comercial, como o Power BI, e de
software livre, como o R.
D) Programas como o Power BI não exigem o conhecimento de estatística e probabilidade.
E) O objetivo é utilizar o melhor de cada ferramenta para produzir análises de alta qualidade.
GABARITO
1. Como você viu, o software R ocupa um lugar de destaque nas aplicações de ciência de dados.
Pensando na qualidade de uma análise, por que devemos usar o R?
A alternativa "A " está correta.
O sucesso da linguagem de programação R para ciência de dados se deve a um conjunto de fatores,
mas o principal é que ela possui muitas funcionalidades que tornam o trabalho do analista mais objetivo,
uma vez que ele não precisa implementar detalhes de um método. Dessa forma, o R auxilia para que o
analista possa focar sua energia para investigar os dados e as relações deles.
2. Um dos recursos mais interessantes de uma análise são as ferramentas de visualização. A
linguagem de programação R possui esse tipo de recurso. No entanto, é comum utilizar o R
integrado a um programa como Power BI para produzir gráficos. Nesse sentido, selecione a opção
que justifica o uso do R com outras ferramentas de visualização.
A alternativa "E " está correta.
Todos os programas computacionais possuem seus pontos fortes. Apesar do R possuir bibliotecas que
geram gráficos de alta qualidade, há ferramentas que os produzem com excelência e que, além disso,
integram-se com outras aplicações de modo muito prático, como é o caso do Power BI. O R é excelente
para a análise de dados com a aplicação de métodos de estatística e probabilidade, enquanto outras
ferramentas têm foco no usuário que consumirá o resultado da análise.
GABARITO
3. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ ESTÁ
PROCURANDO OPORTUNIDADES DE TRABALHO NA ÁREA
DE CIÊNCIA DE DADOS. VOCÊ SABE QUE NESSA ÁREA A
APRESENTAÇÃO DE UM PORTFÓLIO DE APLICAÇÕES É
MUITO SIGNIFICATIVA PARA DEMONSTRAR A SUA
CAPACIDADE DE RESOLVER PROBLEMAS REAIS. NESSE
CONTEXTO, QUAIS SERIAM OS MOTIVOS PARA VOCÊ
INVESTIR NO APRENDIZADO DO R?
RESPOSTA
A capacidade de resolver problemas reais é muito valorizada pelo mercado de trabalho. No caso de ciência
de dados, essa capacidade é medida pelos resultados de análises mediante ferramentas computacionais
como a linguagem de programação R, que ocupa uma posição de destaque. Portanto, investir no
desenvolvimento de soluções usando o R é uma forma de demonstrar para o mercado que somos capazes
de resolver problemas reais aplicando conceitos que têm bases sólidas no conhecimento das áreas de
estatística e probabilidade.
INTRODUÇÃO
Ao se construir uma pesquisa e desenhar uma amostra mais complexa, a análise de dados no papel
pode se tornar inviável. Além disso, programar todas as vezes as mesmas fórmulas desperdiça muito
tempo, que poderia ser aplicado em outras etapas do processo. Por isso, aprenderemos a fazer seleções
amostrais e estimações para vários planos amostrais viasoftware estatístico. No caso, aprenderemos
como utilizar o programa R dentro da teoria da amostragem.
Este módulo descreverá como instalar o software R e quais as principais características que fazem dele
um programa cada vez mais versátil e difundido dentro do meio acadêmico e profissional. Utilizaremos
uma série de bibliotecas dentro do software para selecionarmos amostras aleatórias simples e fazermos
estimações segundo esse plano amostral.
javascript:void(0)
Fonte: Rawpixel.com/Shutterstock
SOFTWARE R
O R é um software estatístico que atua como alternativa aos programas estatísticos tradicionais, como o
SPSS, SAS e Stata, sendo uma linguagem de código aberto extensível. Ou seja, o software, além de
livre, pode ser atualizado pelos próprios usuários. Imagine um software extremamente robusto, simples
de utilizar, avançado e ainda de graça?
É isso que temos no R. Ele não possui versão demo e depois outra versão mais completa paga. Ele é
inteiramente gratuito. E cada pessoa pode simplesmente alimentá-lo com suas próprias programações.
Isso é realmente interessante, porque alguém do outro lado do mundo pode adicionar algo dentro do
programa e você simplesmente pode utilizar aquele código também.
Como o interesse na utilização do R veio aumentando nos últimos anos, é bem provável que algo que
você precise fazer já possa ter sido implementado por outra pessoa e esteja disponível de forma gratuita.
Além disso, esse ambiente de programação está disponível nas mais diversas plataformas (Windows,
Macintosh, UNIX e Linux).
 VOCÊ SABIA
O software vem sempre passando por atualizações e o usuário pode simplesmente fazer o download da
nova versão. Antigamente, existia apenas o R clássico, original, com uma plataforma mais antiga, porém,
nos dias de hoje, você consegue uma interface superamistosa e simples para utilizá-lo. Na verdade, você
primeiro instala o R clássico e depois instala essa interface com diversas melhorias. Sinta-se livre para
escolher a melhor maneira de começar.
O funcionamento do R é feito através de pacotes, também chamados de bibliotecas. Quando você instala
o R, ele vem com diversos packages já instalados em sua memória, o que permite que você já possa
utilizar uma série de funções interessantes. Isso é feito para que o R consiga economizar espaço de
memória e não fique tão sobrecarregado. Em outros softwares, quando você clica para abri-los, tudo que
ele pode fazer já é carregado automaticamente, o que muitas vezes deixa aquele ambiente pesado, com
muitos travamentos. O R já trabalha de forma diferente, pois você só instala ou carrega aquilo que
realmente vai precisar usar.
 SAIBA MAIS
Para instalar o software R você simplesmente pode baixá-lo em https://cran.r-project.org/. (https://cran.r-
project.org/)
Na Figura 1, temos a tela de abertura do software R clássico. O número foi adicionado à figura somente
para identificar que esse é o único espaço onde você pode digitar algo no programa. Ali, você digita a
programação e os resultados aparecem.
 Figura 1: Tela inicial do software R. Fonte: The Comprehensive R Archive Network.
javascript:void(0);
 SAIBA MAIS
Caso queira instalar a interface um pouco mais amistosa, você pode baixar também o RStudio na página
RStudio. Lembre-se de primeiro instalar o R clássico e depois este. Como o RStudio é uma plataforma
mais amigável, usaremos sempre a partir de agora. Além disso, se qualquer uma das programações
abaixo não funcionar ou o software travar, por favor, feche-o e inicialize-o novamente.
(https://rstudio.com/products/rstudio/download/#download)
 Figura 2: Tela inicial do software RStudio. Fonte: RStudio.
Na Figura 2, temos a tela inicial do RStudio. Perceba como temos muito mais opções do que na Figura
1. Neste caso, temos em 1 o local onde você pode fazer suas programações, sendo um local de backup.
Caso o programa trave e/ou o computador desligue, você perderia tudo se estivesse usando o R
clássico, porém no RStudio isso fica salvo. Esta é uma enorme vantagem do segundo em relação ao
primeiro.
Em 2, conseguimos ver facilmente também as bases de dados e variáveis que estão sendo utilizadas no
momento. Basta clicar em cima de alguma base e, rapidamente, você conseguirá ver quantas variáveis
ela possui e qual o tipo de cada variável. Automaticamente, ao criar ou ler um arquivo de dados, ele será
adicionado nessa janela.
Em 3, temos a janela de execução dos comandos. Ou seja, essa janela é equivalente ao R clássico.
Podemos dizer que o RStudio contém o R e mais outras 3 janelas. Tudo que você precisará executar
será feito nessa parte da tela.
Por fim, temos em 4 uma parte com saídas de resultados gráficos, menu de ajuda, instalação e
carregamento das bibliotecas, entre outras coisas. Assim, se você precisar instalar um pacote, pode vir
em 4, clicar em packages e instalar à vontade quantos pacotes quiser. Mas lembre-se de que instalar um
pacote não é suficiente para que ele funcione, é preciso carregá-lo. Toda vez que fechar e abrir o R, ele
mantém apenas os pacotes default (básicos). Os demais precisam ser carregados todas as vezes.
javascript:void(0);
PRIMEIRO ACESSO
Ao abrir o RStudio, você está com o "mundo em suas mãos". Você pode ler um arquivo de dados,
construir sua própria base, instalar um pacote, criar um pacote, carregar um pacote ou simplesmente
programar. Você pode fazer uma tabela, um gráfico simples, um gráfico tridimensional, um esquema, há
uma infinidade de opções.
Vamos sempre utilizar o RStudio para fazer nossas análises. Para executar a programação no software,
você pode digitá-la na janela correspondente ao número 2 da Figura 2 e depois apertar o RUN ainda
nessa janela. Ou você pode digitar diretamente em 3 e apertar enter. Vejamos um exemplo de alguns
gráficos que o R pode te oferecer. Para isso, vamos utilizar um pacote que já vem instalado e carregado
no R. É o pacote graphics. A partir de agora, todo comando que você deverá digitar no software será
escrito em itálico para diferenciar entre texto e conteúdo. Vamos começar vendo a demonstração de um
pacote gráfico em 2 dimensões com o comando demo. Você pode simplesmente copiar o código e colar
diretamente no programa ou então digitar no R:
demo(graphics)
Depois de digitar o comando acima, pressione o comando enter repetidas vezes. Isso mostrará diversos
gráficos que o R é capaz de fazer. Muito Legal, não é mesmo?
 SAIBA MAIS
Esse pacote já estava previamente instalado e carregado no R, logo não precisamos fazer nada além de
digitar seu código. Muitas bibliotecas precisam ser instaladas e carregadas, como veremos nos tópicos
abaixo. No momento da instalação, dependendo da versão do R, pode ser que ele te mostre uma lista de
locais onde você poderá baixar esse pacote. Você poderá escolher qualquer local da lista, mas é sempre
indicado baixar em cidades listadas no Brasil. Esse procedimento torna o download mais rápido.
Como mencionado anteriormente, dentro do R há uma infinidade de pacotes que podem ser utilizados.
Para realizarmos nossa amostragem, usaremos as funções pré-carregadas no R e basicamente dois
pacotes: Sampling e o Survey.
FUNÇÃO SAMPLE
Uma das funções muito utilizadas para selecionar amostras no R é a sample(). Essa função já está pré-
carregada na memória do R, assim não precisaremos instalar nenhum pacote para sua execução. Para
fazer isso, basta utilizar sample() que recebe um vetor como entrada e então você diz quantas amostras
tirar dessa lista.
Digamos que você queira simular jogadas de um dado comum de seis faces e deseje obter dez
resultados. Como o resultado para uma jogada do dado é um número entre um e seis, nosso código
seria:
sample(1:6, 10, replace=TRUE)
Ou seja, estamos utilizando a função sample() com três parâmetros. O primeiro se refere ao intervalo de
valores utilizados (o dado varia de 1 a 6), o segundo diz o tamanho de amostra que se deseja (nesse
caso, o número de repetições) e o replace diz se aquela retirada é comou sem reposição. Dessa forma,
você diz para a função sample retornar 10 valores, mas todos eles dentro do intervalo de 1 a 6. Assim,
estamos fazendo uma seleção pelo método de amostragem aleatória simples com reposição.
Você pode utilizar a sample() para fazer amostragem aleatória simples sem reposição também. Nesse
caso, basta substituir o TRUE por FALSE no replace ou simplesmente deixar em branco essa parte, pois
o default da função é sem reposição. Imagine que você tenha feito uma compra numa loja e recebido um
cupom numerado. A loja vai realizar o sorteio de duas televisões. Provavelmente farão sem reposição,
para que uma mesma pessoa não possa ganhar duas vezes. Sabendo o total de cupons utilizados, basta
colocar no sample() e obter o resultado. O levantamento da loja avaliou que foram disponibilizados 9780
cupons. Assim, poderemos fazer:
sample(1:9780, 2, replace=FALSE)
ou simplesmente
sample(1:9780, 2)
Se você rodou as duas formas acima, deve ter percebido que os resultados foram diferentes. Como o
valor do retorno da função sample() é um número determinado aleatoriamente, se você rodar esse
código várias vezes, obterá resultados diferentes a cada vez. Esse é o comportamento correto na maioria
dos casos, mas, às vezes, você pode desejar obter resultados repetíveis sempre que executar a função.
 COMENTÁRIO
Normalmente, isso ocorrerá apenas quando você desejar desenvolver e testar seu código, ou se quiser
que outra pessoa consiga replicar seus resultados e obter exatamente os mesmos valores. Nesse caso,
é comum especificar um valor de referência inicial, denominado semente.
Se você fornecer um valor de semente, a sequência de números aleatórios será redefinida para um
estado conhecido. Isso ocorre porque o R não cria números verdadeiramente aleatórios, mas apenas
números pseudoaleatórios. Uma sequência pseudoaleatória é um conjunto de números que, para todos
os efeitos práticos, parecem ser aleatórios, mas foram gerados por um algoritmo. Quando você define
uma semente inicial para um processo pseudoaleatório, o R sempre retorna a mesma sequência
pseudoaleatória.
No R você usa a função set.seed() para especificar o valor inicial da semente. O argumento para
set.seed() é qualquer valor inteiro. Vamos utilizar uma semente igual, assim conseguiremos os mesmos
resultados sempre.
set.seed(5)
sample(1:9780, 2, replace=FALSE)
ou simplesmente
set.seed(5)
sample(1:9780, 2)
O resultado da sua programação deve ter fornecido os ganhadores das duas televisões como os cupons
de número 2255 e 6859, correto? Lembre-se de que estamos utilizando o RStudio. Se você rodar no R
clássico, o resultado pode ser diferente.
PACOTE SAMPLING
O pacote chamado sampling é outra forma de selecionar amostras, principalmente se utilizarmos planos
amostrais mais complexos. Ele contém muitas funções e opções internas, mas seu grande objetivo é
selecionar amostras utilizando métodos probabilísticos. Obter amostras no R é muito fácil, porque o
software trata essas seleções simplesmente como um novo subconjunto de dados.
Vamos também selecionar amostras aleatórias simples com e sem reposição por meio de desse pacote.
Vamos instalar e carregar o pacote por:
install.packages("sampling")
library(sampling)
No método com reposição temos que usar a função srswr(n,N). Basta definirmos o tamanho da amostra
n e o tamanho populacional N. A função retorna um vetor com o número de vezes que a unidade caiu na
amostra. Primeiro, carregamos o pacote sampling e depois utilizamos suas funções. Como exemplo,
vamos selecionar uma amostra de tamanho 20 de uma população de tamanho 100. Sempre usaremos
uma semente para nossos resultados ficarem alinhados. Assim, temos:
javascript:void(0)
SRSWR(N,N)
Do inglês, srswr é a abreviação de sample random sampling with replacement. Traduzindo isso
temos “amostra aleatória simples com reposição”.
set.seed(9)
s=srswr(20,100)
s
Após rodar os comandos acima, teremos os seguintes resultados:
[1] 0 0 0 0 0 0 0 0 0 2 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 1 0 1 0 1 0 1 0 1 0 0 1 0
[43] 0 0 0 0 0 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0
[85] 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0
Este resultado, que pela semente é igual para todos, diz quais as unidades da população de 1 a 100
foram selecionadas. Os valores iguais a 1 foram os elementos selecionados uma única vez, e, como é
com reposição, os valores iguais a 2 significam que aquela unidade foi selecionada duas vezes.
Para vermos as unidades, podemos simplesmente fazer:
(1:100)[s!=0]
As unidades selecionadas foram:
[1] 10 13 18 21 26 29 30 32 34 36 38 41 50 51 78 89 94
E para vermos quem foi selecionado duas vezes, podemos utilizar o seguinte comando:
(1:100)[s==2]
Tivemos três unidades selecionadas mais de uma vez:
[1] 10 51 78
Para a amostragem aleatória simples sem reposição, utilizaremos a função srswor(n,N). É uma
abreviação para sample random sampling withOut replacement, ou seja, “amostra aleatória simples
sem reposição”. Assim, faremos a mesma coisa que fizemos no caso anterior:
set.seed(10)
s=srswor(20,100)
(1:100)[s!=0]
Os resultados encontrados foram:
[1] 7 8 9 13 15 24 27 34 39 42 54 55 71 72 74 76 83 88 91 99
ESTIMAÇÃO POR AMOSTRAGEM ALEATÓRIA
SIMPLES
Utilizaremos o software R para a estimação dos dados aplicando a amostragem aleatória simples. É
muito importante que você faça uma revisão das expressões utilizadas para estimação da média, total e
variância para a AAS.
O R já possui uma série de bases de dados internamente carregadas em sua memória. Outras bases são
adicionadas no momento de se carregar um pacote. Faça o seguinte comando para ver todas as bases
disponíveis:
data()
Utilizaremos uma base referente ao pacote sampling chamada de MU284. Essa base de dados é uma
base real datada de 1.992. São dados sobre 284 municípios da Suécia. Diversas informações são
levantadas, mas vamos nos ater à informação de P85. Essa variável diz a quantidade de população (em
mil unidades) de cada um dos 284 municípios. Para carregar a base e ver as variáveis, fazemos:
data(MU284)
fix(MU284)
Observe que o comando fix abre outra janela para que você possa visualizar a base. Mas lembre-se de
fechar a janela aberta antes de prosseguir. Se você não fechar, o R não irá executar os próximos
comandos. Nossa população é composta por N = 284 municípios, você pode observar isso ao visualizar
a quantidade de linhas do arquivo com:
N = nrow(MU284)
N
Vamos agora selecionar uma AAS sem reposição composta por 80 municípios com a função sample.
Usaremos também uma semente para obtermos os mesmos resultados:
n = 80
set.seed(8)
selec = sample(1:N, n)
amostra = MU284[selec,]
amostra
Vamos fazer estimações de totais, médias, variâncias para essa AAS. Faremos na "mão" a programação
para cada uma das estimações a seguir.
ESTIMAÇÃO DE VARIÁVEIS POPULACIONAIS
Estimação da média populacional
sum(amostra$P85)/n
A partir dessa amostra de 80 municípios, temos que a estimativa da média populacional para todos os
municípios foi de aproximadamente 28.688 pessoas (lembrando que os dados estão em milhares)
Estimação da variância da estimativa da média populacional
(1-n/N)*var(amostra$P85)/n
A estimativa da variância da estimativa da média é de 6.26 pessoas².
Erro padrão da estimativa da média populacional
sqrt((1-n/N)*var(amostra$P85)/n)
Após tirar a raiz quadrada com a função sqrt, temos o erro padrão da estimativa da média em cerca de
2.503 pessoas. Assim, o erro da estimativa da média foi de cerca de 2.503 indivíduos (lembre-se sempre
da unidade em milhares ao dar o resultado final).
Estimação do total populacional
N*sum(amostra$P85)/n
Temos então que a estimativa do total populacional de todos os municípios é de aproximadamente
8147.25, ou seja, 8.147.250 pessoas em todos esses municípios.
Estimação da variância da estimativa do total populacional
N^2*(1/n-1/N)*var(amostra$P85)
A estimativa da variância da estimativa do total populacionalé de 505.685,8 pessoas.
Erro padrão da estimação do total populacional
sqrt(N^2*(1/n-1/N)*var(amostra$P85))
Após tirar a raiz quadrada, temos o erro padrão da estimativa do total em aproximadamente 711.1159
pessoas. Assim, o erro da estimativa do total foi de cerca de 711.115 indivíduos (lembre-se sempre da
unidade em milhares ao dar o resultado final).
Você pode estar se perguntando: Toda vez que eu precisar estimar alguma coisa eu preciso programar?
É uma pergunta válida. A resposta é: Depende. Se você precisar utilizar algo muito específico, pode ser
que sim. Ou pode ser que tenha que procurar na internet sobre algum pacote que faça isso no R. Mas
costumamos dizer que não é que não exista aquela programação, você que não achou ainda.
Para nossa sorte, existe um pacote chamado survey que faz todas essas estimações sem que
precisemos lembrar das fórmulas de estimadores de média ou variância, por exemplo. Precisamos
apenas especificar os parâmetros do plano amostral e teremos nossas estimações. Para esse exemplo
que fizemos juntos, faremos:
install.packages("survey")
library(survey)
amostra$N = N
AAS = svydesign(id = ~0, data = amostra, fpc = ~N)
AAS
O parâmetro id serve para dizer se há algum tipo de cluster nos dados, como não temos, deixamos como
0 ou 1, depois entramos com nossa amostra e com o fator fpc. Esse fator é chamado de fator de
correção para população finita. Nada mais é que o total da população, no caso da AAS. Por isso, antes
de fazer o svydesign, adicionamos uma nova coluna com o total populacional. Para fazer as estimações
usando o pacote survey, faremos:
Estimação da média populacional (svymean)
svymean(~P85, AAS)
Estimação do total populacional (svytotal)
svytotal(~P85, AAS)
Compare os resultados obtidos pelo survey com os resultados de onde havíamos feito a programação.
Veja como chegamos aos mesmos resultados. Dessa forma, não precisamos fazer nenhum tipo de
programação, basta entrarmos com a base de dados, dizermos qual plano amostral gostaríamos de
adotar e o pacote se encarrega do restante.
O SOFTWARE R E SEUS PACOTES NA
SELEÇÃO E ESTIMAÇÃO SOB AAS
VERIFICANDO O APRENDIZADO
1. UM SORTEIO DE 5 VIAGENS INTERNACIONAIS VAI SER REALIZADO PARA
TODOS OS COMPRADORES DE UMA DETERMINADA LOJA EM UM SHOPPING.
APÓS UM ANO DE CUPONS ADICIONADOS NA URNA, O ÚLTIMO CUPOM
DISTRIBUÍDO FOI O 45.965. SUPONDO QUE TODOS OS PAPÉIS ESTEJAM NA
URNA, FAÇA UMA SELEÇÃO POR AAS SEM REPOSIÇÃO E INDIQUE OS CUPONS
VENCEDORES SE VOCÊ UTILIZAR A FUNÇÃO SAMPLE OU O PACOTE
SAMPLING (UTILIZE UMA SEMENTE COM VALOR 7 EM AMBOS OS CASOS).
A) Sample ={26067 4572 30088 15171 6312} e Sampling = { 4572 6312 15171 26067 30088}
B) Sample={26067 4572 30088 15171 6312} e Sampling = {3432 12155 27135 30404 45557}
C) Sample={7895 10640 35521 4427 20841} e Sampling = {4810 9203 13072 31496 42143}
D) Sample={7895 10640 35521 4427 20841} e Sampling={19838 21012 27612 32174 34088}
E) Sample={7895 10640 35521 4427 20841} e Sampling={7895 4427 10640 20841 35521 }
2. O SOFTWARE R APRESENTA UMA SÉRIE DE BASES DE DADOS INTERNOS
EM SUA MEMÓRIA. OUTRAS BASES SÃO ADICIONADAS NO MOMENTO DE SE
CARREGAR ALGUNS PACOTES. FAÇA A LEITURA DE UMA BASE DENOMINADA
BELGIANMUNICIPALITIES. ELA CONTÉM UMA SÉRIE DE INFORMAÇÕES DE
DIVERSOS MUNICÍPIOS DA BÉLGICA. UMA DAS VARIÁVEIS É A RENDA PER
CAPITA, NA BASE CHAMADA DE AVERAGEINCOME. QUAL A ESTIMATIVA DA
MÉDIA DESSA VARIÁVEL E DE SEU ERRO PADRÃO PARA UMA AMOSTRA DE
TAMANHO 200? (USE A SEMENTE COM VALOR 2).
A) A estimativa da renda média populacional é de aproximadamente 14973205 euros e seu erro padrão é
de cerca de 228 euros.
B) A estimativa da renda média populacional é de aproximadamente 14973205 euros e seu erro padrão é
de cerca de 134228 euros.
C) A estimativa da renda média populacional é de aproximadamente 24888 euros e seu erro padrão é de
cerca de 260 euros.
D) A estimativa da renda média populacional é de aproximadamente 24888 euros e seu erro padrão é de
cerca de 211 euros.
E) A estimativa da renda média populacional é de aproximadamente 24888 euros e seu erro padrão é de
cerca de 228 euros.
GABARITO
1. Um sorteio de 5 viagens internacionais vai ser realizado para todos os compradores de uma
determinada loja em um shopping. Após um ano de cupons adicionados na urna, o último cupom
distribuído foi o 45.965. Supondo que todos os papéis estejam na urna, faça uma seleção por AAS
sem reposição e indique os cupons vencedores se você utilizar a função sample ou o pacote
sampling (utilize uma semente com valor 7 em ambos os casos).
A alternativa "A " está correta.
Parabéns, você acertou! Bom trabalho! A primeira coisa que devemos nos atentar é em utilizar a semente
com valor igual a 7 no RStudio. Para fazer essa seleção por AAS sem reposição com a função sample(),
basta fazermos:
set.seed(7)
sample(45965,5)
ou ainda
set.seed(7)
sample(45965,5,rep=F)
O resultado encontrado são as amostras de valor 26067 4572 30088 15171 6312.
Já com a utilização do pacote sampling, usaremos a função srswor (sample random sampling withOut
replacement) com os seguintes comandos:
library(sampling)
set.seed(7)
s=srswor(5,45965)
(1:45965)[s!=0]
Assim, encontramos as seguintes amostras 4572 6312 15171 26067 30088. Portanto, a alternativa A
está correta.
2. O software R apresenta uma série de bases de dados internos em sua memória. Outras bases
são adicionadas no momento de se carregar alguns pacotes. Faça a leitura de uma base
denominada belgianmunicipalities. Ela contém uma série de informações de diversos municípios
da Bélgica. Uma das variáveis é a renda per capita, na base chamada de averageincome. Qual a
estimativa da média dessa variável e de seu erro padrão para uma amostra de tamanho 200? (use
a semente com valor 2).
A alternativa "D " está correta.
Parabéns, você acertou! Bom trabalho! Primeiro, temos que carregar o pacote sampling, fazer a leitura
da base dados e deixar claro o tamanho da população N e o tamanho da amostra n. Logo:
library(sampling)
data(belgianmunicipalities)
fix(belgianmunicipalities)
N=nrow(belgianmunicipalities)
n=200
Feito isso, precisamos selecionar nossa amostra de tamanho 200 com a semente de valor 2.
set.seed(2)
selec = sample(1:N, n)
amostra = belgianmunicipalities[selec,]
Com a amostra selecionada, vamos utilizar o pacote survey para fazer a estimação dos dados:
library(survey)
amostra$N = N
AAS = svydesign(id = ~1, data = amostra, fpc = ~N)
AAS
Agora podemos estimar a média e seu erro padrão:
svymean(~averageincome, AAS)
O resultado encontrado foi de 24.888 para a média e de cerca de 211 para o erro padrão. Logo, a
alternativa correta é a letra D.
MÓDULO 2
 Descrever o pacote survey para estimações a partir da amostragem estratificada
LIGANDO OS PONTOS
Você conhece o pacote survey do R? Como poderíamos utilizá-lo para fazer estimativas a partir de uma
amostragem estratificada? Para respondermos a estas perguntas, vamos analisar algumas situações
práticas.
Shutterstock.com
Constantemente, deparamo-nos com a necessidade de conhecer mais sobre características,
comportamentos e intenções de grupos da sociedade. Esse conhecimento nos ajuda a traçar estratégias
para lançamento de produtos e serviços. No caso dos governos, é um importante apoio para gerenciar
recursos limitados com maior efetividade. Vamos pensar em um exemplo prático: a prefeitura de um
munícipio de médio porte pretende obter melhores resultados na qualidade de ensino fundamental.
Existem sete indicadores da Unicef que podem ser utilizados para medir essa qualidade que são: (1)
planejamento institucional, (2) multiplicidade de experiências e linguagens, (3) interações, (4) promoção
de saúde, (5) espaços, materiais e mobiliários, (6) formação e condições de trabalho dos (as) professores
(as) e demais profissionais e (7) cooperação e troca com as famílias e participação na rede de proteção
social.
Imediatamente, percebemos que há muitas questões a serem observadas e que tratá-las é um grandedesafio. Então, é fundamental que todas as decisões sejam extremamente eficientes. E aqui, a palavra
extremamente representa a necessidade de alocação de pessoas, gerenciamento de recursos escassos
e produção de resultados em um tempo viável. Por isso, é fundamental a aplicação de uma metodologia
de pesquisa científica para atingir esses objetivos de eficiência. Dependendo da dimensão do que
estamos analisando, não é possível entrevistar todas as pessoas de uma população. Então, utilizamos
dos métodos de amostragem que nos auxiliam na etapa de coleta de dados. Em seguida, precisamos
analisar esses dados e verificar o quão representativos eles são da população. Nesse momento, é
fundamental o uso de ferramentas computacionais que possuam recursos com funções e outras
facilidades para estudarmos esses dados, como o software R e, mais especificamente, o pacote Survey.
O Survey é um pacote de pesquisa que tem dois objetivos principais. São eles:
relacionar os metadados de uma pesquisa aos dados, de modo que possamos fazer análises de
forma confiável e automática, ou seja, permite a criação de objetos contendo um data frame e
informações do projeto.
fornecer estimativas de variância válidas para estatísticas computadas nesses objetos, o que
permite gerar as estimações média e total amostrais.
Ao mesmo tempo em que é necessário esforço para dominar os conceitos e desenvolver habilidade para
programar no R, também é bem compensador realizar uma análise de muita qualidade e com altíssimo
valor agregado. No caso da prefeitura do nosso exemplo, as chances de obter resultados mais fidedignos
do que realmente acontece com a sua população vai direcionar esforços para a utilização eficiente de
recursos humanos e financeiros para melhorar a qualidade do ensino fundamental.
Após a leitura do caso, é hora de aplicar seus conhecimentos! Vamos ligar esses pontos?
1. COMO VOCÊ VIU, O SOFTWARE R É UMA IMPORTANTE FERRAMENTA NO
PROCESSO DE ANÁLISE DOS DADOS DE UMA PESQUISA. PARA UTILIZAR AS
FUNÇÕES DELE, NO ENTANTO, É PRECISO PREENCHER SEUS PARÂMETROS.
PENSANDO NA QUALIDADE DE UMA AMOSTRAGEM, QUAL ESTRATÉGIA VOCÊ
ADOTARIA PARA USAR EFICIENTEMENTE AS FUNÇÕES DO R?
A) Usar apenas os valores de parâmetros padrões.
B) Consultar a documentação do R e fóruns especializados.
C) Testar o máximo possível de funções até encontrar a que melhor se adapte.
D) Usar o R apenas para gerar visualizações.
E) Utilizar apenas as funções do pacote Survey.
2. COMO VOCÊ VIU, O SURVEY É UM PACOTE DO R UTILIZADO PARA ANÁLISE
DE DADOS OBTIDOS POR MÉTODOS DE AMOSTRAGENS. NO ENTANTO, É
POSSÍVEL IMPLEMENTAR ESSAS FUNÇÕES TAMBÉM. NESSE SENTIDO, QUAL A
VANTAGEM DE UTILIZAR O SURVEY?
A) Ele possui funções prontas para lidar com qualquer tipo de situação e fazer análise dos dados.
B) As funções podem corrigir automaticamente erros de parametrização.
C) O Survey pode analisar os dados sem a necessidade de interferência do analista.
D) Ele pode aumentar a confiança no resultado da análise e evitar perdas de tempo desnecessárias.
E) Por um pacote comercial adquirido à parte do R, suas funções são confiáveis.
GABARITO
1. Como você viu, o software R é uma importante ferramenta no processo de análise dos dados de
uma pesquisa. Para utilizar as funções dele, no entanto, é preciso preencher seus parâmetros.
Pensando na qualidade de uma amostragem, qual estratégia você adotaria para usar
eficientemente as funções do R?
A alternativa "B " está correta.
O R é uma linguagem de programação que possui muitos pacotes para as mais diversas finalidades. Um
desses pacotes é o Survey, que é muito útil para realizar análises de amostragens, mas é natural que
precisemos utilizar outras funcionalidades além desse pacote. A forma mais eficiente de parametrizar as
funções do R é investir em aprendizado, como a leitura deste material que você está estudando, manuais
técnicos e fóruns na Internet.
2. Como você viu, o Survey é um pacote do R utilizado para análise de dados obtidos por métodos
de amostragens. No entanto, é possível implementar essas funções também. Nesse sentido, qual
a vantagem de utilizar o Survey?
A alternativa "D " está correta.
O Survey é um pacote do R que também possui licença de software livre. Ele dispõe de diversas funções
voltadas para análise de dados que poupam o analista de se preocupar em desenvolvê-las. Dessa forma,
ele pode utilizar melhor seu tempo investigando os dados e aprendendo como parametrizar as funções
da melhor maneira.
GABARITO
3. CONSIDERE O SEGUINTE CENÁRIO: VOCÊ É O
RESPONSÁVEL POR TREINAR UM GRUPO DE ANALISTAS
NO SOFTWARE R. O OBJETIVO É CAPACITÁ-LOS PARA
REALIZAR ANÁLISE DE DADOS SOB MÉTODOS DE
AMOSTRAGEM. NESSE CENÁRIO, QUAL SERIA SUA
ESTRATÉGIA PARA POTENCIALIZAR O APRENDIZADO DA
SUA TURMA DE ALUNOS?
RESPOSTA
O R é uma das linguagens de programação mais importantes para aplicações de estatística e probabilidade.
No entanto, é verdade que a sintaxe da linguagem exige bastante atenção. Além disso, o R não substitui o
analista, ele apenas potencializa os resultados do trabalho. Portanto, a melhor forma de aprender a
programar com R é estudá-lo com exemplos de aplicações de estatística e probabilidade. O alinhamento
entre conceitos e prática ajudará bastante no aprendizado da turma. Em especial, é importante focar na
sintaxe do R, no uso da estrutura de dados dataframe e nas funções do pacote Survey.
INTRODUÇÃO
No módulo anterior, vimos as principais características na utilização do software R, principalmente
relacionado à amostragem. Vimos que o software é construído a partir de pacotes, os quais cada pessoa
pode criar o seu próprio e compartilhar com os demais usuários da comunidade.
A partir deste módulo, vamos explorar um pouco mais sobre o pacote Survey para fazer a estimação dos
dados. Além disso, veremos como realizar uma amostragem estratificada no software R e como fazer
corretamente alguns tipos de alocação da amostra existente.
javascript:void(0)
Fonte: SeventyFour/Shutterstock
PACOTE SURVEY
Vimos rapidamente no módulo anterior a utilização do pacote Survey para fazer estimações das nossas
variáveis de interesse. Veremos agora maiores detalhes sobre a utilização deste pacote.
 SAIBA MAIS
O Survey foi criado em 2004 por Thomas Lumley, da Universidade de Auckland, na Nova Zelândia. Ele
contém uma série de funções internas com muitos parâmetros disponíveis e permite analisar dados sob
amostragem complexa.
Para usar o pacote, são necessários alguns passos:
ETAPA 1
ETAPA 2
ETAPA 3
ETAPA 1
O primeiro é selecionar a amostra a ser utilizada, a qual pode ser feita com o pacote sampling.
ETAPA 2
Em seguida, é preciso especificar o plano amostral utilizado, através da função svydesign().
ETAPA 3
Com o desenho amostral construído, podemos utilizar as funções do survey para fazer as estimações
considerando esse plano. Todas essas funções especiais começam com svy, por exemplo, a svymean()
e a svytotal().
No caso da amostragem estratificada (AE), a primeira coisa que faremos é verificar se há na base
alguma variável referente ao estrato. Lembre-se de que na AE todos os estratos deverão ter amostras
selecionadas. Para fazer a seleção, utilizaremos novamente o pacote sampling. A ideia será sempre
utilizar as funções da biblioteca sampling para selecionar as amostras e a biblioteca survey para fazer as
estimações. Alguns parâmetros da função são:
svydesign(id=~, strata=~ , data= , weights = , fpc= , method= )
Vamos entender cada um desses parâmetros da função svydesign do package survey:
ID
Indica se as unidades amostradas são agrupadas em cluster. Como a
amostragem por conglomerados não foi usada aqui, só temos que colocar ~
1 ou ~ 0 como marcador de posição.
STRATA Argumento para dizer qual a variável utilizada para fazer a estratificação.
DATA Parâmetro referente ao nome da base de dados da amostra.
WEIGHTS
Indica o peso amostral daquela unidade. Nesse caso, será influenciando pelo
fator do tamanho do estrato h pelo tamanhoda população wh =
nh
Nh . Se não
quiser usar o peso, pode usar a probabilidade de seleção também, pois o
peso e a probabilidade de seleção são grandezas inversas.
 Atenção! Para visualizaçãocompleta da tabela utilize a rolagem horizontal
( )
Pense no seguinte exemplo: Você vai selecionar 4 empresas em um total de 1000 para análise. Qual a
probabilidade de seleção dessas empresas? Simplesmente fazemos P=
4
1000 = 0 , 004. Assim, cada
empresa tem uma chance de 0,4% em ser selecionada. Agora, pense na seguinte pergunta: Quantas
empresas cada uma dessas 4 vai ter que representar?
ETAPA 1
ETAPA 2
ETAPA 3
ETAPA 1
Ao selecionar 4 de 1000, essas 4 empresas selecionadas têm que responder por elas e pelas outras
empresas que não foram selecionadas. Esta é a ideia do peso, dar maior representatividade a quem foi
selecionado, já que nem todos serão.
ETAPA 2
Assim, fazendo w=
1000
4 = 250, ou seja, a informação de cada empresa vai ter um peso de 250, porque
ela precisa representar as outras que não foram selecionadas. Nesse exemplo, o peso amostral de cada
uma dessas unidades vale 250. Se você reparar bem, há uma relação entre o valor 0,004 da
probabilidade de seleção e o valor 250 dos pesos.
ETAPA 3
Um é o inverso do outro: Se multiplicarmos 250*0,004, o resultado vai ser igual a 1. Portanto, se tivermos
a probabilidade de seleção, basta fazer 1 dividido por ela e encontraremos o peso. Obtendo uma das
duas grandezas, você automaticamente consegue a outra.
Para a função svydesign, você pode optar por informar tanto a probabilidade quanto o peso. Caso
prefira deixar em branco, o software vai entender que está fazendo uma seleção estratificada com
ponderação igual entre os estratos.
fpc ‒ Argumento utilizado para fazer uma correção devido a população ser finita (finite population
correction). É um vetor adicionado à base da amostra em que, para cada registro, será adicionado o total
da população. Se estamos fazendo uma amostra estratificada, o fpc vai ser o total populacional de cada
um dos estratos. A importância da sua utilização é que, sabendo o valor total da população, é possível
reduzir a variância quando uma fração substancial da população total for amostrada na estimação dos
dados.
Após criado o objeto do plano amostral, podemos simplesmente utilizar o svymean e o svytotal para
fazer as estimações de média e total com suas respectivas medidas de erro padrão.
BASE DE DADOS MU284
Para construirmos nosso plano amostral estratificado e depois fazermos estimações a partir dessa
amostra, usaremos novamente a base MU284. Como nosso plano agora é mais complexo, pois envolve
a estratificação, vamos dar mais detalhes sobre os dados.
A base contém então 11 variáveis diferentes descritas para 284 municípios na Suécia. As variáveis são:
id CS82 REV84
P85 SS82 REG
P75 S82 CL
RMT85 ME84
ID
Identificador de cada município, com valores entre 1 a 284.
P85
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
População de 1985 (em milhares).
P75
População de 1975 (em milhares).
RMT85
Receitas da tributação municipal de 1985 (em milhões de coroas suecas).
CS82
Número de políticos conservadores no conselho municipal.
SS82
Número de políticos sociais-democratas no conselho municipal.
S82
Número total de políticos no conselho municipal.
ME84
Número de funcionários municipais em 1984.
REV84
Valores imobiliários de acordo com a avaliação de 1984 (em milhões de coroas suecas).
REG
Indicador de região geográfica.
CL
Indicador de cluster (um cluster consiste em um conjunto de municípios vizinhos).
Para fazermos nossa amostragem estratificada com essa base, usaremos a variável REG, que é o
indicador da região geográfica como variável de estratificação.
AMOSTRAGEM ESTRATIFICADA NO R
Selecionemos uma amostra estratificada simples sem reposição de tamanho 80 com alocação
proporcional ao tamanho dos estratos. Vamos entender por partes cada etapa desse plano amostral.
Primeiro, investigaremos na população quantos estratos existem.
Feito isso, faremos de forma proporcional ao tamanho de cada estrato a alocação da amostra, assim
estratos maiores receberão maiores amostras do que estratos menores. Desse modo, indicaremos a
quantidade de unidades que serão selecionadas em cada um dos estratos por meio da AAS sem
reposição. Por último, depois que a estratificação for realizada, poderemos criar nosso objeto do plano
amostral e fazer nossas estimativas.
O primeiro passo para fazermos uma AE é verificarmos a quantidade de estratos que temos no nosso
cadastro, ou seja, na nossa população. Lembre-se de que é preciso que o cadastro seja criticado na
busca por erros e possíveis inconsistências e, além disso, que esteja sempre atualizado. Primeiramente,
precisamos ler nossos dados e descobrir quantas regiões temos na base, ou seja, quantos estratos
iremos criar. Faremos a utilização novamente da base MU284 da seguinte forma:
library(sampling)
data(MU284)
table(MU284$REG)
O resultado encontrado após rodar os códigos acima foi:
 Figura 3: Tabela com a quantidade de municípios em cada região gerada no software R.
Pelo resultado obtido na figura 3, temos 8 regiões possíveis para fazermos a estratificação. Além disso,
temos o total de cada região, por exemplo, 25 municípios na região 1,28 municípios na região 2, e assim,
sucessivamente.
Para encontrarmos o fator de ponderação dos estratos Wh, faremos Wh=
Nh
N , ou seja, a proporção de
cada região em relação ao total. Por meio do R, fazemos:
prop.table(table(MU284$REG))
Logo, temos o peso de cada estrato em relação ao total:
 Figura 4: Peso de cada estrato gerado no software R
Se você somar todos os valores acima, vai encontrar o valor 1, pois o total tem que dar 100%. Como
usaremos a alocação proporcional, a distribuição mantém a fração da amostragem em cada estrato h
igual à fração populacional. Ou seja, nesse tipo de alocação, a amostra previamente definida de tamanho
n é distribuída proporcionalmente ao tamanho dos estratos. A alocação é dada por nh=n
Nh
N e no R
faremos simplesmente:
 Figura 5: Alocação proporcional em cada estrato gerada no software R.
A partir dessas informações, poderemos calcular o tamanho da amostra em cada estrato. É importante
sempre arredondar o tamanho da amostral para o inteiro superior mais próximo.
 ATENÇÃO
Dessa forma, você conseguirá obter o mínimo exigido por estrato, porém, pode acontecer do tamanho
amostral final ser ligeiramente maior do que o planejado previamente. Com isso, o tamanho de amostra
em cada estrato será de 8, 14, 10, 11, 16, 12, 5 e 9 e o tamanho passa então de 80 para 85 unidades.
Para selecionarmos nossa amostra estratificada, usaremos a função strata, que também faz parte do
pacote sampling, da seguinte forma:
set.seed(3)
selec = strata(MU284, stratanames = "REG", size = c(8,14,10,11,16,12,5,9), method = "srswor")
selec
Com a utilização da semente, encontraremos as mesmas unidades selecionadas. Ao rodar o comando
selec, você verá impresso na tela a amostra selecionada. Vamos usar um comando para ver somente as
primeiras 10 unidades da amostra. Você pode substituir o 10 abaixo por qualquer valor:
head(selec,10)
O resultado encontrado foi:
 Figura 6: As 10 primeiras unidades selecionadas pela amostragem estratificada no R.
Perceba pela figura acima que temos 4 colunas, a de região REG; a Id_unit, que identifica a unidade que
foi selecionada; a variável Prob, que é a probabilidade de seleção; e a stratum, que é igual a REG,
porém criada pela própria função.
Vamos entender como foram obtidas as probabilidades de seleção para esses dois estratos. Para o 1°,
temos um total de 25 empresas no estrato e como queremos selecionar apenas 8, basta fazermos
P1 =
8
25 = 0 , 32. Para o estrato 2, temos P2 =
14
48 = 0 , 2916667, e assim, sucessivamente, para os outros.Para filtrar somente alguma variável de um arquivo, utilizamos o símbolo $ separando o nome da base e
o nome da variável. Podemos, então, obter somente as probabilidades de seleção da seguinte forma:
selec$Prob
Já temos as unidades selecionadas, precisamos agora utilizar o banco de dados original para criar um
novo objeto com todas as variáveis para aquelas unidades amostrais. Assim, faremos:
amostra = getdata(MU284, selec)
head(amostra,8)
A função getdata vai completar os dados amostrais com as informações da população MU284. A base
chamada amostra vai conter todas as informações possíveis somente para as unidades selecionadas.
Com nossa amostra bem estabelecida, poderemos construir nosso plano amostral e depois realizar a
estimação dos dados. Vamos criar um vetor de fpc com os totais populacionais. Por exemplo, os 8
primeiros registros são do estrato 1 que tem 25 unidades na população, então temos que repetir o 25 nas
8 primeiras linhas, e assim, sucessivamente, para os demais estratos. Nosso vetor será feito com o
comando de repetição rep abaixo:
fpc=rep(c(25,48,32,38,56,41,15,29),c(8,14,10,11,16,12,5,9))
fpc
Para especificarmos o plano amostral, usaremos o comando svydesign, em que diremos a variável de
estratificação, as probabilidades de seleção e o fpc. Assim:
library(survey)
plano_est = svydesign(id = ~1, strata = ~Stratum, probs = ~selec$Prob, data = amostra, fpc=~fpc)
Com o plano amostral especificado, podemos utilizar a função svymean para fazer nossas estimativas,
assim:
Estimativa da média e de seu erro padrão para a variável P85 considerando o plano amostral
estratificado
svymean(~P85, plano_est)
Com o resultado acima, nossa estimação da média populacional é de 20.068 pessoas e seu erro padrão,
aproximadamente, 1.271 pessoas (lembre-se de que os dados estão em milhares).
Estimativa do total e de seu erro padrão para a variável P85 considerando o plano amostral
estratificado
svytotal(~P85, plano_est)
Para a estimação do total populacional, obtemos aproximadamente 5.700.000 pessoas com um erro
padrão de, aproximadamente, 361.100 pessoas.
Dessa forma, conseguimos obter estimativas para a média e total populacional da nossa variável P85.
Você pode repetir todo o processo para outra variável do banco e comparar os resultados.
OUTRA FORMA DE OBTER OS MESMOS
RESULTADOS
Fizemos a estimação das nossas quantidades de interesse utilizando nosso plano amostral criado com a
função svydesign. Um dos parâmetros informados foi a probabilidade de seleção. Podemos obter os
mesmos resultados indicando na função quais são os pesos amostrais em vez das probabilidades de
seleção. Como vimos que as probabilidades e os pesos são grandezas inversas, podemos usar isso no
software e indicar o vetor de pesos no momento da criação do desenho amostral. Para isso, basta
adicionar uma coluna na nossa base de amostra com os valores dos pesos da seguinte forma:
amostra$PESO = 1/amostra$Prob
O que estamos fazendo é acessando a base amostra e adicionando uma nova coluna chamada PESO,
com valores de 1 dividido pelas respectivas probabilidades de seleção de cada linha. Agora, faremos a
especificação do plano amostral novamente. Vamos chamar de plano_est2 e depois poderemos estimar
novamente nossas médias e variâncias.
plano_est2 = svydesign(id = ~1, strata = ~Stratum, weights = ~PESO, data = amostra, fpc=~fpc)
Repare no código acima que o parâmetro das probabilidades de seleção foi substituído pelo parâmetro
do peso. Fazendo as estimações para este segundo plano, temos:
svymean(~P85, plano_est2)
svytotal(~P85, plano_est2)
Compare os resultados, perceba que encontramos os mesmos valores. Assim, podemos indicar para a
função tanto as probabilidades de seleção, quanto os pesos amostrais. E caso não indiquemos nada,
estamos assumindo que os estratos têm o mesmo tamanho.
RESULTADOS SEM O FPC
Vamos agora fazer nossas estimativas ignorando o fator de correção de população finita. Esse fator é
importante, pois indica qual o tamanho da população de cada estrato. Assim, o software não precisa
assumir que a população é infinita e, com isso, os erros de estimação diminuem.
Nesse caso, basta eliminar o parâmetro e fazer novamente as estimações, vamos chamar esse desenho
de plano_est3. Assim, temos:
plano_est3 = svydesign(id = ~1, strata = ~Stratum, probs = ~selec$Prob, data = amostra)
Ou utilizando os pesos em vez das probabilidades de seleção:
plano_est3 = svydesign(id = ~1, strata = ~Stratum, weights = ~PESO, data = amostra)
As estimações são feitas por:
svymean(~P85, plano_est3)
svytotal(~P85, plano_est3)
A tabela abaixo faz a comparação entre as estimações do plano 1 ou 2 com o fator fpc e do plano 3 sem
o fator.
Estimativa\ Plano amostral Plano 1 ou 2 (com FPC) Plano 3 (sem FPC)
Média (milhar) 20.068 20.068
Erro padrão da média (milhar) 1.2715 1.5237
Total (milhar) 5699.4 5699.4
Erro padrão do total (milhar) 361.1 432.73
 Atenção! Para visualizaçãocompleta da tabela utilize a rolagem horizontal
Tabela 1: Comparação dos resultados dos planos amostrais com e sem o fator FPC. Fonte: O Autor.
Observe que interessantes os resultados da Tabela 1, pois ao comparar os mesmos planos amostrais,
com as mesmas amostras, a utilização do fpc faz com que seja possível diminuir o erro da estimação.
Estamos sempre na busca das melhores estimações com os menores erros possíveis. Ao comparar as
estimativas de média ou de total, os resultados foram exatamente os mesmos, porém o erro padrão das
medidas com o fpc diminuiu. Portanto, sempre que você tiver essa informação, utilize nas especificações
do seu plano amostral.
ESTIMAÇÃO POR ESTRATO
Uma das grandes vantagens de se utilizar a AE é a possibilidade de fazer estimações gerais e
particulares por estrato. Dessa forma, podemos acompanhar uma média ou um total específico para
alguma região, como é o caso do nosso exemplo. Para isso, usaremos a função svyby e
especificaremos dentro do parâmetro FUN o svymean, para estimarmos a média ou o svytotal, para
estimarmos o total. Usaremos os seguintes comandos:
svyby(~P85, by = ~Stratum, design = plano_est, FUN = svymean)
E o resultado apresentado pelo R para a média foi de:
svyby(~P85, by = ~Stratum, design = plano_est, FUN = svytotal)
E o resultado apresentado pelo R para o total foi de:
É interessante essa estimação por estrato, pois podemos ver que no estrato 1 a estimação do total e da
média populacional são muito maiores que dos outros. Também é possível a partir das estimativas das
médias e totais encontrarmos os valores de forma geral. Para o total, basta somarmos, por exemplo, para
cada estrato. Assim, temos,
YAE= 1 . 128 , 1250 + 939 , 4286 + 604 , 8000 + 663 , 2727 + 997 , 5000 + 536 , 4167 + 411 , 0000 + 418 , 8889 = 5 . 699 , 4
. E esse valor foi exatamente o valor encontrado quando fizemos a estimação do total geral.
SELEÇÃO AMOSTRAL E ESTIMAÇÃO SOB
AMOSTRAGEM ESTRATIFICADA NO R
VERIFICANDO O APRENDIZADO
1. A PARTIR DA BASE MU284, FAÇA A ESTIMAÇÃO DA MÉDIA E DE SEU ERRO
PADRÃO PARA A VARIÁVEL RMT85 ‒ RECEITAS DA TRIBUTAÇÃO MUNICIPAL DE
1985 (EM MILHÕES DE COROAS SUECAS) PARA UM PLANO ESTRATIFICADO
COM ALOCAÇÃO PROPORCIONAL AO TAMANHO DOS ESTRATOS. UTILIZE O
PACOTE SAMPLING PARA SELECIONAR A AMOSTRA E O PACOTE SURVEY
PARA FAZER AS ESTIMAÇÕES. ALÉM DISSO, UTILIZE A SEMENTE IGUAL A 3 E
UMA AMOSTRA DE TAMANHO 50 NO RSTUDIO. DESSA FORMA, ASSINALE A
OPÇÃO CORRETA.
A) A estimativa da média populacional é de aproximadamente 147.440 euros, com erro padrão de cerca
de 11.941 euros.
B) A estimativa da média populacional é de aproximadamente 175.040 pessoas, com erro padrão de
cerca de 21.509 pessoas.
C) A estimativa da média populacional é de aproximadamente 49.711 euros, com erro padrão de cerca
de 3.394.000 euros.
D) A estimativa da média populacional é de aproximadamente 49.711 euros, com erro padrão de cerca
de 21.509 euros.
E) A estimativa da média populacional é de aproximadamente 175.040 pessoas, com erro padrão de
cerca de 11.941pessoas.
2. A PARTIR DO PACOTE SAMPLING, PODEMOS TRABALHAR COM UMA BASE
DE DADOS DE MUNICÍPIOS DA BÉLGICA. FAÇA A LEITURA DE UMA BASE
DENOMINADA BELGIANMUNICIPALITIES. ELA CONTÉM UMA SÉRIE DE
INFORMAÇÕES DE DIVERSOS MUNICÍPIOS DA BÉLGICA. UMA DAS VARIÁVEIS É
A RENDA PER CAPITA, NA BASE CHAMADA DE AVERAGEINCOME. QUAL A
ESTIMATIVA DO ERRO PADRÃO DA MÉDIA PARA UMA AMOSTRA DE TAMANHO
300 PARA A REGIÃO 1? FAÇA AS ESTIMATIVAS E ENCONTRE RESULTADOS
COM O FPC E SEM O FPC (USE A SEMENTE COM VALOR 5).
A) O erro padrão da média com o FPC é de 282.973 euros e sem o FPC é de 406.026 euros.
B) O erro padrão da média com o FPC é de 207.973 euros e sem o FPC é de 282.973 euros.
C) O erro padrão da média com o FPC é de 406.026 euros e sem o FPC é de 282.973 euros.
D) O erro padrão da média com o FPC é de 297.973 euros e sem o FPC é de 406.026 euros.
E) O erro padrão da média com o FPC é de 272.433 euros e sem o FPC é de 322.102 euros.
GABARITO
1. A partir da base MU284, faça a estimação da média e de seu erro padrão para a variável RMT85
‒ Receitas da Tributação Municipal de 1985 (em milhões de coroas suecas) para um plano
estratificado com alocação proporcional ao tamanho dos estratos. Utilize o pacote sampling para
selecionar a amostra e o pacote survey para fazer as estimações. Além disso, utilize a semente
igual a 3 e uma amostra de tamanho 50 no RStudio. Dessa forma, assinale a opção correta.
A alternativa "B " está correta.
Parabéns, você acertou! Bom trabalho! Primeiro, temos que carregar o pacote sampling, fazer a leitura
da base dados e deixar claro o tamanho da população N e do tamanho da amostra n. Logo:
library(sampling)
data(MU284)
N=nrow(MU284)
n=50
Agora, temos de fazer a alocação proporcional do tamanho de amostra n = 50, logo:
table(MU284$REG)
50*prop.table(table(MU284$REG))
Com as quantidades obtidas (lembrando sempre de arredondar para cima) para cada estrato, podemos
selecionar nossa amostra estratificada:
set.seed(3)
selec = strata(MU284, stratanames = "REG", size = c(5,9,6,7,10,8,3,6), method = "srswor")
amostra = getdata(MU284, selec)
Temos de indicar também nosso parâmetro fpc com os totais populacionais para cada linha da base da
amostra:
fpc=rep(c(25,48,32,38,56,41,15,29),c(5,9,6,7,10,8,3,6))
A partir de agora, podemos especificar nosso plano amostral:
library(survey)
plano_est = svydesign(id = ~1, strata = ~Stratum, probs = ~selec$Prob, data = amostra,fpc=~fpc)
Finalmente, podemos estimar a média e seu erro padrão:
svymean(~RMT85, plano_est)
Portanto, o resultado encontrado foi de 175.040 indivíduos para a média e de 21.509 para o erro padrão.
Logo, a alternativa correta é a letra B.
2. A partir do pacote sampling, podemos trabalhar com uma base de dados de municípios da
Bélgica. Faça a leitura de uma base denominada belgianmunicipalities. Ela contém uma série de
informações de diversos municípios da Bélgica. Uma das variáveis é a renda per capita, na base
chamada de averageincome. Qual a estimativa do erro padrão da média para uma amostra de
tamanho 300 para a região 1? Faça as estimativas e encontre resultados com o fpc e sem o fpc
(use a semente com valor 5).
A alternativa "A " está correta.
Parabéns, você acertou! Bom trabalho! Primeiro, temos que carregar o pacote sampling, fazer a leitura
da base de dados e deixar claro o tamanho da população N e o tamanho da amostra n. Logo:
library(sampling)
data(belgianmunicipalities)
N=nrow(belgianmunicipalities)
n=300
Temos também de fazer a alocação proporcional do tamanho de amostra n=300, logo:
table(belgianmunicipalities$Province)
300*prop.table(table(belgianmunicipalities$Province))
Com as quantidades obtidas (lembrando sempre de arredondar para cima) para cada estrato, podemos
selecionar nossa amostra estratificada:
set.seed(5)
selec = strata(belgianmunicipalities, stratanames = "Province", size = c(36,57,33,34,36,43,23,23,20),
method = "srswor")
amostra = getdata(belgianmunicipalities, selec)
Temos de indicar também nosso parâmetro fpc com os totais populacionais para cada linha da base da
amostra:
fpc=rep(c(70,111,64,65,69,84,44,44,38),c(36,57,33,34,36,43,23,23,20))
A partir de agora, podemos especificar nosso plano amostral:
library(survey)
plano_est = svydesign(id = ~1, strata = ~Province, probs = ~selec$Prob, data = amostra,fpc=~fpc)
Agora, podemos estimar a média e seu erro padrão por estrato:
svyby(~averageincome, by = ~Province, design = plano_est, FUN = svymean)
Como queremos somente o estrato 1, obtemos um erro de 282 973. Os resultados sem o fpc são dados
por:
plano_est2 = svydesign(id = ~1, strata = ~Province, probs = ~selec$Prob, data = amostra)
svyby(~averageincome, by = ~Province, design = plano_est2, FUN = svymean)
Os resultados para o estrato 1 sem o fpc é de 406 026. Percebemos como o erro padrão é maior ao não
informar os totais populacionais através do parâmetro fpc.
MÓDULO 3
 Selecionar amostras a partir da amostragem sistemática e conglomerada com estimações para
esses planos no software R
LIGANDO OS PONTOS
Existem diversas técnicas para realizar uma amostragem. Todas têm vantagens e desvantagens. Os
critérios que utilizamos para selecionar uma técnica no lugar de outra leva em consideração informações
que temos a respeito dos dados.
Independentemente do método que vamos escolher, o uso de programas como o R e de pacotes
especializados como o Survey nos ajuda a realizar testes, análises e visualizações de forma muito eficaz.
Nesse contexto, estão as amostragens sistemática e conglomerada. Você as conhece? O que você faria
diante da necessidade de fazer estimativas para esse tipo de amostragem usando o R?
Vamos entender esses conceitos na prática.
Shutterstock.com
A necessidade de reconhecer padrões em uma população faz com que entidades dos setores público e
privado invistam na realização de pesquisas. Devido às limitações de recursos de tempo e financeiros, a
realização de uma pesquisa é feita por um processo de amostragem.
Quando definimos o tipo de amostragem que vamos utilizar, estamos definindo o plano amostral. Há dois
tipos possíveis de planos amostrais: probabilísticos e não probabilísticos. Sempre que possível, é melhor
utilizar o primeiro do que o segundo, pois ele nos fornece informações mais precisas.
Agora, mais especificamente sobre o método de amostragem, há muitas opções. Vamos focar apenas
em algumas delas: aleatória simples, aleatória sistemática, estratificada e por conglomerados.
Na amostragem aleatória simples, escolhemos elementos da população com chances iguais de serem
selecionados.
Na amostragem aleatória sistemática, selecionamos elementos da população a partir da definição de um
critério. Por exemplo, fornecemos uma identificação para cada elemento da população e vamos sortear
apenas os elementos cujos identificadores sejam números ímpares.
Já na amostragem estratificada, dividimos os elementos de uma população por suas semelhanças, o que
é conhecido como estrato. Em seguida, realizamos sorteios nesses estratos, e, a partir disso, obtemos a
amostra.
Na amostragem por conglomerados, os elementos da população já estão naturalmente agrupados. Um
exemplo disso são as pessoas que residem no mesmo bairro, ou seja, na mesma conglomeração. Ainda
assim, pessoas do mesmo grupo têm características heterogêneas. Então, a ideia é sortear elementos
dos conglomerados para formar a amostra.
O R nos fornece funções que permitem realizar esses tipos de amostragens e muitas outras. Mas,
novamente, cabe enfatizarmos que o software é apenas uma ferramenta para potencializar os resultados
de nosso trabalho. Portanto, é muito importante investirmos tempo para o aprendizado dos conceitos da
estatística e da probabilidade.
Após a leitura do caso, é hora de aplicar seus conhecimentos! Vamos ligar esses pontos?
1. COMO VOCÊ LEU NO TEXTO, O R É UMA PODEROSA FERRAMENTA PARA
REALIZAR ANÁLISE DE DADOS SOB AMOSTRAGEM. UMA DESSAS TÉCNICAS
DE AMOSTRAGEM É A DE ESTRATIFICAÇÃO. NESSE CONTEXTO, SELECIONEA
OPÇÃO COM UM EXEMPLO PRÁTICO DE ESTRATIFICAÇÃO.
A) Sortear pessoas do mesmo bairro para realizar uma pesquisa.
B) Escolher indivíduos com a mesma formação para compor uma amostragem.
C) Garantir que os elementos de uma amostra sejam heterogêneos.
D) Realizar sorteios separados nos alunos das turmas do primário e secundário de uma escola.
E) Realizar sorteios para formar amostras homogêneas.
2. COMO VOCÊ LEU NO TEXTO, EXISTEM DIVERSOS MÉTODOS DE
AMOSTRAGEM. PENSANDO NOS ASPECTOS PRÁTICOS, QUE CRITÉRIOS
DEVEMOS USAR PARA SELECIONAR UM MÉTODO EM RELAÇÃO A OUTRO?
A) O método que for mais barato.
B) A escolha deve ser baseada na velocidade com que a pesquisa possa produzir resultados.
C) A escolha deve ser aleatória, pois todos os métodos possuem pontos fortes e fracos.
D) Deve-se levar em consideração o método mais preciso.
E) Conhecimento prévio dos dados.
GABARITO
1. Como você leu no texto, o R é uma poderosa ferramenta para realizar análise de dados sob
amostragem. Uma dessas técnicas de amostragem é a de estratificação. Nesse contexto,
selecione a opção com um exemplo prático de estratificação.
A alternativa "D " está correta.
A estratificação é caracterizada pelo sorteio de indivíduos que tenham características no mesmo grupo,
como o que ocorre com os alunos de uma turma do primário e alunos da turma do secundário.
2. Como você leu no texto, existem diversos métodos de amostragem. Pensando nos aspectos
práticos, que critérios devemos usar para selecionar um método em relação a outro?
A alternativa "E " está correta.
Todos os métodos possuem vantagens e desvantagens, mas com certeza é melhor aplicar um método do
que nenhum. O principal critério que deve ser levado em consideração para a escolha de um tipo de
amostragem é o nosso conhecimento prévio dos dados, pois aumenta as chances de termos resultados
de análise mais efetivos.
GABARITO
3. NO TEXTO, É ENFATIZADA A IMPORTÂNCIA DO
CONHECIMENTO TEÓRICO. EM ESPECIAL, COM A
POPULARIZAÇÃO DA CIÊNCIA DE DADOS, O USO DE
FERRAMENTAS COMPUTACIONAIS SE INTENSIFICOU
MUITO. COM BASE EM SUA EXPERIÊNCIA, QUAIS AS
VANTAGENS DE ALIAR CONHECIMENTO TEÓRICO E
PRÁTICO? A POPULARIDADE DA CIÊNCIA DE DADOS É
UMA TENDÊNCIA PASSAGEIRA?
RESPOSTA
Analisar dados é algo muito sério. Uma análise malfeita pode causar enormes prejuízos financeiros, além de
outras questões como prejuízos à saúde, ao meio ambiente e à imagem de pessoas e entidades. Por isso, é
muito importante aliar o conhecimento teórico – que dá fundamentação para as análises – com a capacidade
de colocar esse conhecimento na prática por meio de ferramentas como o R.
A ciência de dados, apesar de sua grande popularização nos últimos anos, não é uma área nova e nem é
uma mera tendência passageira. Ao contrário disso, pois o avanço da tecnologia tem nos permitido trabalhar
com volumes gigantescos de dados para atender a demandas cada vez mais crescentes dos diversos
setores da sociedade.
INTRODUÇÃO
No módulo anterior, vimos as principais características do pacote Survey para fazer as especificações e
estimações da amostragem estratificada no software R.
A partir deste módulo, vamos explorar um pouco mais o pacote Survey, agora na amostragem por
conglomerado. Veremos as diferenças existentes nas funções decorrente de se utilizar a amostra dividida
em cluster. Além disso, vamos fazer algumas comparações entre os planos amostrais e veremos também
a amostragem sistemática para se fazer seleções amostrais.
javascript:void(0)
Fonte: Bakhtiar Zein/Shutterstock
AMOSTRAGEM POR CONGLOMERADOS NO R
Outra abordagem muito utilizada no momento de elaboração do plano amostral é a amostragem por
conglomerados (AC). A grande vantagem desse plano diz respeito à parte operacional, no sentido de
diminuir o custo de toda operação. Selecionar um conglomerado e investigar a população ali dentro é,
em geral, mais barato do que fazer os outros métodos de amostragem que discutimos acima.
 COMENTÁRIO
A AC pode ser feita em vários estágios, porém precisamos que nossa população esteja totalmente
distribuída dentro de algum cluster. Lembrando que na AC em 1 estágio, primeiro vamos selecionar os
conglomerados e depois investigar todas as unidades ali dentro.
Voltemos a utilizar nossa base de dados MU284, com os 284 municípios da Suécia. Diferentemente dos
casos anteriores, usaremos a variável CL, que delimita o cluster para cada registro da base. Vamos,
então, selecionar uma amostra por conglomerados simples sem reposição em um estágio, onde os
conglomerados são definidos com a variável CL em nossa população de municípios. Para fazer
comparações com os planos anteriores (estratificação, por exemplo), utilizaremos o mesmo tamanho de
amostra, n = 80 municípios.
Faremos uma tabela exploratória para descobrirmos em quantos clusters nossa população está dividida:
library(sampling)
data(MU284)
dados=MU284
table(MU284$CL)
 Figura 7: Distribuição dos municípios dentro dos clusters.
Perceba na Figura 7 que a população de municípios está dividida em 50 conglomerados com uma
distribuição bastante semelhante entre eles. Para encontrarmos a média geral de municípios dentro dos
conglomerados, basta calcularmos:
ˉ
M0 =
284
50 = 5 , 68
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Assim, cada conglomerado possui, em média, 5,68 municípios e se quisermos que nossa amostragem
tenha um tamanho de amostra de aproximadamente 80 municípios, teremos que selecionar cerca de 14
conglomerados (pois em média 14* 5,68 = 79.52).
Agora, podemos utilizar o pacote sampling com a função cluster para construir nossa amostra. A função
cluster produz um objeto que contém os conglomerados selecionados, o identificador dos municípios
pertencentes a cada um dos conglomerados e as probabilidades de seleção deles. Utilizando a semente
com um valor igual a 5, fazemos no R:
set.seed(5)
ACS=cluster(MU284,clustername=c("CL"),size=14,method=c("srswor"))
Perceba como simplesmente entramos com o nome da base, o nome da variável que define os
conglomerados, o tamanho de conglomerados que queremos selecionar e o método de seleção dessas
unidades, no caso a amostra aleatória simples sem reposição (srswor).
Para vermos alguns conglomerados selecionados, podemos utilizar novamente o comando head() como:
head(ACS,10)
 Figura 8: Primeiras 10 unidades selecionadas e seus respectivos conglomerados.
Pela Figura 8, temos as respectivas identificações das unidades e de seus clusters. Repare que a
probabilidade de seleção é a mesma para todos os elementos, independente de qual cluster ele está.
Lembre-se de que estamos fazendo um plano amostral conglomerado em 1 estágio, assim, dado que o
cluster foi selecionado, todas as suas unidades serão investigadas. Logo, o que importa é a seleção dos
conglomerados, e não das unidades lá dentro. Essa probabilidade é fixa e dada pela quantidade de
clusters que iremos selecionar dividida pelo total existente, assim:
P ( S ) =
14
50 = 0 . 28
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Agora que já temos nossos conglomerados selecionados, vamos cruzar essa informação com nosso
banco original e obter as outras variáveis referentes a essas respectivas unidades amostrais.
Utilizaremos novamente a função getdata, logo:
ACSs=getdata(MU284,ACS)
Para visualizarmos as informações das unidades de cada cluster selecionado, podemos fazer:
fix(ACSs)
Lembre-se de fechar a janela antes de continuar. Outro ponto importante que devemos construir é o fator
fpc. Dessa forma, adicionaremos um vetor com o tamanho total dos conglomerados, que no caso vale
50. Assim, replicaremos o 50 de acordo com a dimensão do objeto ACSs.
fpc2=rep(50,dim(ACSs)[1])
fpc2
Podemos agora fazer a especificação do nosso plano amostral a partir do pacote survey e da função
svydesign.
library(survey)
PlanoC=svydesign(id=~CL,data=ACSs,probs=~ACS$Prob,fpc=~fpc2)
Diferentemente das especificações anteriores, agora nosso idnão fica com o valor 0 ou 1, ele vai receber
exatamente a variável de cluster, na base é representada por CL. Podemos verificar a definição do plano
amostral conglomerado construído pelo R, simplesmente rodando o comando abaixo:
PlanoC
O resultado é dado por:
Fonte:Shutterstock
Perceba como o R descreve perfeitamente o plano que foi construído. Temos um plano conglomerado
em 1 estágio com seleção de 14 clusters. Por fim, o último passo é fazer as estimativas para nossa
variável de interesse P85. Assim, temos:
Estimativa da média e de seu erro padrão para a variável P85 considerando o plano amostral
conglomerado em 1 estágio
svymean(~P85,PlanoC)
Com o resultado acima, nossa estimação da média populacional é de 28.354 pessoas e seu erro padrão
é de, aproximadamente, 2.500 pessoas (lembre-se de que os dados estão em milhares).
Estimativa do total e de seu erro padrão para a variável P85 considerando o plano amostral
conglomerado em 1 estágio
svytotal(~P85,PlanoC)
Para a estimação do total populacional, obtemos aproximadamente 8.800.000 pessoas com um erro
padrão de aproximadamente 791.400 indivíduos.
Dessa forma, conseguimos obter estimativas para a média e total populacional da nossa variável P85.
Você pode repetir todo o processo para outra variável do banco e comparar os resultados.
OUTRA FORMA DE OBTER OS MESMOS
RESULTADOS
Da mesma forma que fizemos na AE, podemos obter os mesmos resultados trocando a variável das
probabilidades de seleção pela variável peso. Como o peso e as probabilidades de seleção são
grandezas inversas, podemos simplesmente fazer:
peso=1/ACS$Prob
ACS$Prob
peso
Com isso, construímos nosso vetor de pesos e podemos utilizá-lo dentro da função svydesign para
fazermos a especificação do plano amostral. Assim, temos:
PlanoC2=svydesign(id=~CL,data=ACSs,weights = peso,fpc=~fpc2)
svymean(~P85,PlanoC2)
svytotal(~P85,PlanoC2)
Compare os resultados, veja como são exatamente os mesmos, tanto para a estimativa da média quanto
para o total.
RESULTADOS SEM O FPC
Vamos agora, novamente, fazer nossas estimativas ignorando o fator de correção de população finita.
Nesse caso, basta eliminar o parâmetro e fazer novamente as estimações. Vamos chamar esse desenho
de planoC_sem_fpc. Assim, temos:
planoC_sem_fpc = svydesign(id=~CL,data=ACSs,probs=~ACS$Prob)
Ou utilizando os pesos em vez das probabilidades de seleção:
planoC_sem_fpc = svydesign(id=~CL,data=ACSs,weights = peso)
As estimações são feitas por:
svymean(~P85, planoC_sem_fpc)
svytotal(~P85, planoC_sem_fpc)
A tabela abaixo faz a comparação entre as estimações do plano 1 ou 2 com o fator fpc e do plano 3 sem
o fator:
Estimativa\ Plano amostral Plano 1 ou 2 (com FPC) Plano 3 (sem FPC)
Média (milhar) 28.354 28.354
Erro padrão da média (milhar) 2.5005 2.9468
Total (milhar) 8000 8000
Erro padrão do total (milhar) 791.4 932.68
 Atenção! Para visualizaçãocompleta da tabela utilize a rolagem horizontal
Tabela 2: Comparação dos resultados dos planos amostrais com e sem o fator FPC. Fonte: Autor.
Observe que as conclusões feitas a partir dos resultados na Tabela 2 são exatamente iguais aos
resultados da Tabela 1, pois, ao comparar os mesmos planos amostrais com as mesmas amostras, a
utilização do fpc faz com que seja possível diminuir o erro da estimação. Ao comparar as estimativas de
média ou de total, os resultados foram exatamente os mesmos, porém o erro padrão das medidas com o
fpc diminuiu. Portanto, sempre que você tiver essa informação, utilize nas especificações do seu plano
amostral.
COMPARAÇÃO ENTRE AS ESTIMAÇÕES DOS
PLANOS AMOSTRAIS
Após obter os resultados das estimativas da média, total e de seus respectivos erros padrões para
amostras de tamanho aproximadamente iguais sob planos amostrais diferentes, podemos reunir os
valores obtidos na Tabela 3 abaixo:
Estimativa\ Plano amostral
AAS (com
FPC)
AES (com
FPC)
ACS (com
FPC)
Média (milhar) 28.688 20.068 28.354
Erro padrão da média
(milhar)
2.5039 1.2715 2.5005
Total (milhar) 8147.2 5699.4 8000
Erro padrão do total (milhar) 711.12 361.1 791.4
 Atenção! Para visualizaçãocompleta da tabela utilize a rolagem horizontal
Tabela 3: Comparação dos resultados para a variável P85 para os planos amostrais utilizados. Fonte:
Autor.
Perceba como o valor do erro padrão da amostragem estratificada é inferior aos outros dois métodos.
Isso sugere que a AES tem uma eficiência superior à AAS e à ACS. É interessante esse resultado do
ponto de vista do tamanho da amostra, pois a estratificação consegue obter resultados muito eficientes
com um tamanho de amostra menor que a AAS, por exemplo. Já a ACS é um método, em geral, menos
eficiente que os demais, porém o custo de se fazer uma amostragem por ele costuma ser menor do que
nos outros casos.
AMOSTRAGEM SISTEMÁTICA NO R
Nesse tipo de amostragem, selecionamos um ponto de partida da população e coletamos nossos
elementos a partir de um intervalo de retirada k. Os elementos devem estar dispostos de maneira
organizada, como, por exemplo, uma fila ou uma lista, e isso feito de forma aleatória. Se estivermos
fazendo um levantamento de dados em uma fábrica de lâmpadas, podemos retirar uma lâmpada para
teste a cada 100 peças produzidas.
Podemos também definir a amostra de acordo uma porcentagem P% da população que pode fazer parte
da amostra. A partir daí, encontramos o valor k por:
K≅
1
P * 100
 Atenção! Para visualização completa da equação utilize a rolagem horizontal
Depois, sorteamos um número r inteiro entre 1 e k e a amostra será composta pelos elementos de ordem
r; r + k; r + 2k; r + 3k; e assim, sucessivamente. Vejamos um exemplo de como fazer essa seleção no
software R:
Um restaurante deseja conhecer melhor o perfil de seus clientes e tem condições de entrevistar
aproximadamente 20% dos mesmos. Em média, 30 clientes passam pelo restaurante ao longo do dia
num processo de fila bastante ordenada. Como fazer a seleção dessas amostras?
ETAPA 1
ESTAPA 2
ESTAPA 3
ETAPA 1
Para fazermos essa seleção no R, utilizaremos funções bastante simples. Primeiro, encontraremos nosso
K:
set.seed(10)
(k<- round((1/20)*100))
ETAPA 2
Com nosso intervalo estabelecido, vamos sortear nosso ponto de partida r:
(r<- sample(seq(1,k,1),1))
ETAPA 3
Com o intervalo de seleção e o ponto de partida, podemos indicar quais serão as amostras que deverão
ser selecionadas para esse caso. É possível também criar funções mais complexas que façam isso
automaticamente ou apenas adicionar r+nk na função abaixo.
c(r,r+k,r+2*k, r+3*k, r+4*k, r+5*k)
Nesse caso, as unidades que farão parte da nossa amostra são: 3 8 13 18 23 28.
Um problema real na AS ocorre na estimação de medidas de precisão. De acordo com Bolfarine (2005),
no caso em que a população está em ordem aleatória, não existem muitos problemas em se estimar a
variância da AS pelas expressões dos estimadores da AAS. Assim, você pode usar as mesmas
expressões e funções de estimação no R utilizados para a AAS.
AMOSTRAGEM SISTEMÁTICA E POR
CONGLOMERADO NO SOFTWARE R
VERIFICANDO O APRENDIZADO
1. UMA PESQUISA ENCOMENDADA POR UMA EMPRESA DE SHOW SERÁ
REALIZADA POR MEIO DA AMOSTRAGEM SISTEMÁTICA. PELA ESTIMATIVA DE
INGRESSOS VENDIDOS, 7.900 PESSOAS (ENUMERADAS DE 1 A 7.900)
PASSARÃO PELA FILA DO ESPETÁCULO. UMA AMOSTRA SISTEMÁTICA SERÁ
FEITA COM 10% DESSE TOTAL. QUAL É A NUMERAÇÃO DAS 3 PRIMEIRAS E
DAS 3 ÚLTIMAS PESSOAS ENTREVISTADAS (UTILIZE UMA SEMENTE IGUAL A
5)?
A) Os três primeiros são: 1, 11, 21. Os três últimos são: 7.874, 7.884, 7.894.
B) Os três primeiros são: 2, 12, 22. Os três últimos são: 7.874, 7.884, 7.894.
C) Os três primeiros são: 1, 11, 21. Os três últimos são: 7.872, 7.882, 7.892.
D) Os três primeiros são: 2, 12, 22. Os três últimos são: 7.872, 7.882, 7.892.
E) Os três primeiros são: 2, 12, 22. Os três últimos são: 7.876, 7.886, 7.896.
2. FAÇA NOVAMENTE A LEITURA DA BASE BELGIANMUNICIPALITIES A PARTIR
DO PACOTE SAMPLING QUE CONTÉM INFORMAÇÕES DE DIVERSOS
MUNICÍPIOS DA BÉLGICA. VAMOS CONTINUAR TRABALHANDO

Outros materiais