Baixe o app para aproveitar ainda mais
Prévia do material em texto
Capítulo 2 Amostragem de Conglomerados 2.1 Conceituação Básica O objetivo pretendido com a aplicação da técnica de amostragem é a obtenção de estimativas para certos parâmetros da população a partir de uma amostra de unidades dessa população, cuja precisão seja conhecida e satisfatória. As unidades dessa amostra podem ser obtidas selecionando-se direta- mente unidades na população com probabilidades conhecidas. Elas podem ainda ser obtidas por um outro esquema de amostragem onde grupos de unidades são selecionados com probabilidades conhecidas. A amostragem de conglomerados (cluster sampling) consiste num es- quema de amostragem em estágios, sendo que em cada estágio a unidade amostral, para a qual é atribuída a probabilidade de seleção, é grupada em um subconjunto (CONGLOMERADO) de unidades populacionais. O termo unidade populacional é usado para denotar um membro de uma particular população para a qual as análises dos resultados do levantamento são feitas.1 A formação dos conglomerados pode ser: - natural (exemplos: um cacho de uvas, uma turma de alunos, um edifício, um quarteirão, um município); ou - artiÞcial, construído pelo estatístico de acordo com o objetivo da pesquisa (exemplos: conglomerados de seis pessoas, de dez peças industriais do mesmo tipo, de cinco domicílios do mesmo edifício). 1Nos esquemas de amostragem até então apresentados (amostragem aleatória simp- ples, amostragem estratiÞcada e amostragem sistemática) a unidade amostral era igual a unidade de análise. 53 54CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS A unidade populacional depende da análise que está sendo feita e é de- terminada pelo propósito do levantamento e não pelo plano amostral. Pode acontecer de mais de uma unidade populacional estar envolvida no levanta- mento, quando por exemplo, características de domicílios e de pessoas são investigadas no mesmo levantamento. Não há uma única deÞnição possível para os conglomerados. Por exemplo, a turma tanto pode ser uma unidade populacional (se estivermos interessados em investigar o número de alunos por turma), como pode ser um conglom- erado de alunos (se estivermos interessados em investigar o aproveitamento dos alunos). A Þm de exempliÞcar, seguem-se algumas ilustrações de possíveis con- glomerados associados com a população, a variável de interesse e a unidade de referência para análise. População Variáveis de Unidade de Conglome- Interesse Referência rados Turmas de Alunos por turma Turma Escolas alunos Estudantes de Aproveitamento Estudante Turmas escolas de 2r grau dos estudantes Visitantes de Facilidades do Visitante de Veículos que parques parque parque entram no nacionais nacional parque Passageiros Propósito da Passageiro de Lotações de de avião Viagem avião passageiros Domicílios Características Domicílio Setores de domicílios Moradores Características Morador de Domicílios em favelas de pessoas favela em favelas do Rio do Rio do Rio Cabe lembrar que os vários esquemas de amostragem: amostragem aleató- ria simples (AAS), amostragem estratiÞcada e amostragem sistemática dis- cutidos anteriormente podem ser aplicados a amostragem de conglomerados, onde os conglomerados são as unidades amostrais. 2.2. AMOSTRAGEM DE ÁREAS 55 2.2 Amostragem de Áreas O cadastro ou marco de referência é a fonte de materiais que serve de guia e permite identiÞcar a população a ser coberta para a seleção de amostras. Os esquemas probabilísticos propostos para seleção de amostras pres- supõem a existência de uma lista completa das unidades da população a ser pesquisada. Porém, uma lista pode não estar disponível, ou estar desatual- izada, ou o custo de preparar uma lista atualizada pode ser proibitivo. Além disso, uma amostra selecionada de uma população dispersa geograÞcamente provavelmente será muito dispersa também. Para reduzir custos é muito freqüente o uso de amostragem de conglom- erados deÞnidos por áreas geográÞcas com limites naturais ou artiÞciais bem deÞnidos, Neste caso a amostra resultante pode ser concentrada dentro de um número de áreas geográÞcas. Portanto, a utilização de amostras de áreas se dá quando não existe um cadastro de boa qualidade disponível e/ou quando a população for muito dispersa e o fator custo de deslocamento for preponderante. Neste caso a necessidade de uma lista atualizada das unidades para as quais se requer a informação é restrita às áreas que forem selecionadas para a amostra. A grande vantagem da amostra de conglomerados é a sua conveniência operacional vinculada a possíveis reduções no custo. Num levantamento de população, por exemplo, é operacionalmente mais conveniente pesquisar todas as pessoas numa amostra de domicílios do que selecionar o mesmo número de pessoas espalhadas por toda a população ou mesmo pesquisar todos os domicílios de uma amostra de áreas (por exemplo, setores) do que selecionar uma amostra do mesmo número de domicílios selecionados aleatoriamente de uma lista de todos os domicílios. Tal lista nem sempre é disponível e o seu preparo torna a pesquisa bem mais cara. Suponha-se que uma AAS de n=400 domicílios deva ser selecionada de uma população de N=10.000 domicílios de uma cidade. Como não dispomos de uma lista atualizada com todos os domicílios, optamos por uma amostra de domicílios localizados dentro de uma amostra de quarteirões. Isto pode ser feito dividindo a área toda da cidade em quarteirões e selecionando 1/25 quarteirões. A probabilidade de selecionar um domicílio na cidade é a prob- abilidade de selecionar um quarteirão, ou seja, 1/25=400/10.000. Portanto, as unidades amostrais são quarteirões selecionados de uma lista completa. A seleção da amostra de quarteirões determina a seleção dos domicílios que estão localizados nos quarteirões. Mesmo se a lista de todos os domicílios fosse disponível, considerações na redução do custo pode ser observada na amostra de conglomerados. Pois a 56CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS localização e identiÞcação dos 400 domicílios espalhados aumentaria o custo com gastos com transporte, bem como um maior tempo para a coleta em comparação com a localização dos quarteirões e visita a todos os domicílios nestes quarteirões. Mas para um dado tamanho de amostra, uma unidade menor em geral dá resultados mais precisos do que uma unidade maior. Portanto, se compararmos uma amostra de conglomerados com uma amostra de unidades elementares compreendida do mesmo número de elementos, em geral na amostra de conglomerados tem-se: - o custo por unidade elementar é mais baixo, devido ao mais baixo custo da listagem ou da localização, ou de ambos; - a variância amostral é mais alta dependendo da homogeneidade dos elementos nos conglomerados. Entretanto, levando em conta os aspectos operacionais e a redução de custos (devido ao possível ganho no tempo de coleta, identiÞcação, contato, etc.) que a amostragem de conglomerados proporciona, em muitas situações práticas a perda na eÞciência amostral é balanceada com essas vantagens. 2.3 Conglomerados em 1 estágio 2.3.1 Probabilidades iguais de seleção DeÞnições básicas e notação Seja �Q a população, com suas Q unidades grupadas em P conglomerados disjuntos. Seleciona-se uma amostra aleatória simples sem reposição de p desses P conglomerados. As unidades de �Q pertencentes aos p conglom- erados selecionados formam a amostra de conglomerados em 1 estágio de �Q (Df1). Se a característica | observada nas unidades da amostra, tem-se uma amostra de conglomerados em 1 estágio de y. Pode-se representar esquematicamente a população por: F1 F2 FP X11 $ \11 X21 $ \21 = = = XP1 $ \P1 X12 $ \12 X22 $ \22 = = = XP2 $ \P2 ... ... ... ... ... ... X1Q1 $ \1Q1 X2Q2 $ \2Q2 = = = XPQP $ \PQP onde: 2.3. CONGLOMERADOS EM 1 ESTÁGIO 57 Xlm é a j-ésima unidade de �Q no i-ésimo conglomerado Fl; l 5 {1> 2> ===> P}e m 5 {1> 2> ===> Ql} ; \lm é o valor da característica | associada a Xlm; Ql é o tamanho do conglomerado Fl; PP l=1 Ql = Q Selecionando-se através de amostragem aleatória simples sem reposição p conglomerados dentre os P existentes, pode-se representar esquematica- mente a amostra por: F 01 F 02 F 0p X 011 $ \ 011 X 021 $ \ 021 = = = X 0p1 $ \ 0p1 X 012 $ \ 012 X 022 $ \ 022 = = = X 0p2 $ \ 0p2 ... ... ... ... ... ... X 0 1Q 0 1 $ \ 0 1Q 0 1 X 0 2Q 0 2 $ \ 0 2Q 0 2 = = = X 0pQ 0p $ \ 0 pQ 0p Note-se que como os conglomerados são selecionados por amostragem aleatória simples: F 0l pode ser qualquer um dos conglomerados F1> F2> · · · > FP . Q 0l é o tamanho do conglomerado selecionado F 0l e pode ser qualquer um dos valores Q1> Q2> · · · > QP . Consequentemente os \ 0lm (l = 1> 2> ===> p e m = 1> 2> ===> Q 0l) e os Q 0l (l = 1> 2> ===> p) são variáveis aleatórias. A amostra é constituída pelas unidades:n X 011> ===> X 01Q 0 1 ; ===;X 0p1> ===> X 0pQ 0p o e os valores da característica | associados às unidades da amostra são:n \ 011> ===> \ 01Q 0 1 ; ===;\ 0p1> ===> \ 0pQ 0p o O tamanho total da amostra é: q = pP l=1 Q 0l que é uma variável aleatória, cujos valores dependem dos conglomerados selecionados. Pode-se calcular o valor esperado de q> q que será dado por: q = H à pX l=1 Q 0l ! = pX l=1 H(Q 0l) = p PP l=1 Ql P = p QP = p P Q = i1Q 58CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS sendo: i1 = p P , a fração de amostragem do primeiro estágio. A Þgura 2.1 apresenta uma ilustração da seleção das unidades de uma amostra de conglomerados em 1 estágio. Figura 2.1: Ilustração da seleção das unidades de uma Ac1 A amostragem de conglomerados em 1 estágio é caracterizada pelos seguintes fatos: • Pertencem à amostra todas as unidades dos conglomerados seleciona- dos. • Só é necessário listar as unidades da população nos p conglomera- dos selecionados para a amostra. Isto acarreta evicente economia de tempo e custo quando comparado à amostragem aleatória simples ou à amostragem estratiÞcada, nas quais são listadas todas as unidades da população. • O tamanho da amostra não pode ser exatamente preÞxado, pois de- penderá dos conglomerados selecionados. • Cada unidade da população tem a mesma probabilidade de participar da amostra, e esta probabilidade é igual à fração de amostragem no primeiro estágio p P . • Mais adiante se verá que em muitas ocasiões, a precisão da amostragem de conglomerados é inferior à precisão da amostragem aleatória simples. 2.3. CONGLOMERADOS EM 1 ESTÁGIO 59 Entretanto, a vantagem do menor custo e tempo pode compensar a perda de precisão. Parâmetros da característica | Total da característica | no conglomerado Fl : \l = QlX m=1 \lm Média da característica | no conglomerado Fl : \ l = \l Ql Variância da característica | em Fl : V2l = 1 Ql � 1 QlX m=1 (\lm � \ l)2 Total da característica | em toda população: \ = PX l=1 \l Média da característica | por unidade da população: \ = \Q Média da característica | por conglomerado: \ = \P Variância da característica | em toda população: V2 = 1Q � 1 PX l=1 QlX m=1 (\lm � \ )2 60CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS Estatísticas da amostra em cada conglomerado selecionado Como resultado da amostragem de conglomerados tem-se as seguintes es- tatísticas: Total da característica | no l-ésimo conglomerado selecionado F 0l : \ 0l = Q 0lX m=1 \ 0lm Média da característica | no conglomerado F 0l : \ 0l = \ 0l Q 0l Variância da característica | em F 0l : V 02l = 1 Q 0l � 1 Q 0lX m=1 (\ 0lm � \ 0 l) 2 Estimadores do total e da média na Ac1 Quando os conglomerados são selecionados por amostragem aleatória simples sem reposição, um estimador não viciado do total \ é dado por: b\Df1 = Pp pX l=1 \ 0l Prova: H(b\Df1) = Pp pX l=1 H(\ 0l ) = P p pX l=1 H(\ 0l ) = P p pX l=1 1 P à PX n=1 \n ! = P p p P à PX n=1 \n ! = PX n=1 \n = \ Conseqüentemente, um estimador não viciado de \ , média por unidade da população, é dado por: |Df1 = b\Df1 Q = 1 Q P p pX l=1 \ 0l = 1 p Q pX l=1 \ 0l 2.3. CONGLOMERADOS EM 1 ESTÁGIO 61 onde: Q = QP é o tamanho médio por conglomerado. H ¡ |Df1 ¢ = H à b\Df1 Q ! = 1 Q H ³b\Df1´ = 1Q \ = \ E um estimador não viciado de \ , média por conglomerado é dado por: |Df1 = b\Df1 P = 1 p pX l=1 \ 0l H (|Df1) = H à b\Df1 P ! = 1 P H ³b\Df1´ = \P = \ 62CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS Variâncias dos estimadores do total e da média na Ac1 Y (b\Df1) = Y ÃPp pX l=1 \ 0l ! = H à P p pX l=1 \ 0l � \ !2 = H 5 997 3 EEC P pP l=1 \ 0l �p\ p 4 FFD 6 ::8 2 = H 5 7P 2 p2 à pX l=1 \ 0l �p\ !26 8 = P2 p2 H 5 7 à pX l=1 \ 0l �p\ !26 8 = P 2 p2 H 5 7 à pX l=1 ¡ \ 0l � \ ¢!268 = P2 p2 H 5 997 pX l=1 ¡ \ 0l � \ ¢2 + pX l=1 pX n=1 l6=n ¡ \ 0l � \ ¢ ¡ \ 0n � \ ¢6::8 = P2 p2 5 997 pX l=1 H ¡ \ 0l � \ ¢2 + pX l=1 pX n=1 l6=n H £¡ \ 0l � \ ¢ ¡ \ 0n � \ ¢¤6::8 = P2 p2 5 997 p P PX l=1 ¡ \l � \ ¢2 + p(p� 1) P(P � 1) PX l=1 PX n=1 l6=n £¡ \ 0l � \ ¢ ¡ \ 0n � \ ¢¤6::8 = P p 5 997 PX l=1 ¡ \l � \ ¢2 + (p� 1) (P � 1) PX l=1 PX n=1 l6=n £¡ \ 0l � \ ¢ ¡ \ 0n � \ ¢¤6::8 fazendo: V2h = 1 P � 1 PX l=1 ¡ \l � \ ¢2 2.3. CONGLOMERADOS EM 1 ESTÁGIO 63 e notando que: 0 = PX l=1 ¡ \l � \ ¢ = à PX l=1 ¡ \l � \ ¢!2 = PX l=1 ¡ \l � \ ¢2 + PX l=1 PX n=1 l6=n ¡ \l � \ ¢ ¡ \n � \ ¢ =, PX l=1 PX n=1 l6=n ¡ \l � \ ¢ ¡ \n � \ ¢ = � PX l=1 ¡ \l � \ ¢2 Segue-se que: Y (b\Df1) = Pp " (P � 1)V2h � (p� 1) (P � 1) PX l=1 ¡ \l � \ ¢2# = P p £ (P � 1)V2h � (p� 1)V2h ¤ = P(P �p) p V 2 h = P2(P �p) P V2h p Observe que a variância do estimador b\Df1 depende somente da fração de amostragem do primeiro estágio e da variabilidade entre os totais dos conglomerados. Em termos de expressão, a variância de b\Df1 é idêntica à variância do estimador de total com amostragem aleatória simples. Estimador da variância do estimador de total na Ac1 Agora que se conhece a expressão da variância do estimador b\Df1, trata-se da obtenção de um estimador para essa variância. Isto é feito usando a teoria já conhecida da amostragem aleatória simples e supondo que os conglomerados são as unidades investigadas. Assim, v2h = 1 p� 1 pX l=1 (\ 0l � |Df1)2 deve ser um estimador não viciado de V2h . 64CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS Para veriÞcar este fato, note-se que: v2h = 1 p� 1 pX l=1 (\ 0l � |Df1)2 = 1 p� 1 pX l=1 £¡ \ 0l � \ )� (|Df1 � \ ¢¤2 = 1 p� 1 pX l=1 £¡ \ 0l � \ )2 � 2(|Df1 � \ ¢ (\ 0l � \ ) + (|Df1 � \ )2 ¤ = 1 p� 1 " pX l=1 (\ 0l � \ )2 + pX l=1 (|Df1 � \ )2 � 2(|Df1 � \ ) pX l=1 (\ 0l � \ ) # v2h = 1 p� 1 " pX l=1 (\ 0l � \ )2 + p(|Df1 � \ )2 � 2p(|Df1 � \ )2 # = 1 p� 1 " pX l=1 (\ 0l � \ )2 �p(|Df1 � \ )2 # daí pode-se obter: H(v2h) = H ( 1 p� 1 " pX l=1 (\ 0l � \ )2 �p(|Df1 � \ )2 #) = 1 p� 1 ( pX l=1 H(\ 0l � \ )2 �pH(|Df1 � \ )2 ) = 1 p� 1 ( p P PX l=1 (\l � \ )2 �pY (|Df1) ) = 1 p� 1 ½p P (P � 1)V 2 h �p (P �p) P V2h p ¾ = p P 1 p� 1 ½ P V2h � V2h � (P �p) V2h p ¾= p P 1 p� 1P(1� 1 p )V 2 h = p P 1 p� 1P( p� 1 p )V 2 h = V2h Conseqüentemente, um estimador não viciado para Y (b\Df1) é dado por: y(b\Df1) = P2(P �p)P v2hp 2.3. CONGLOMERADOS EM 1 ESTÁGIO 65 2.3.2 Estimação de proporções na Ac1 Considere-se a população dividida em 2 classes D e eD (não D), de acordo com algum atributo associado às unidades da população �Q . Então, se a população é grupada em P conglomerados disjuntos, cada conglomerado pode ser dividido nas classes D e eD. DeÞnindo uma característica | tal que: \lm = ; ? = 1 se Xlm 5 D 0 se Xlm 5 D l = 1> 2> · · · > P e m = 1> 2> · · · > Ql Sejam Dl e eDl o número de unidades de �Q em D e eD, respectivamente, no conglomerado l= Dl pode assumir os valores 0> 1> 2> · · · > Ql e se tem: Dl + eDl = Ql Segue-se que: Dl = \l = QlP m=1 \lm é o número de unidades em D, do conglomerado l; SDl = Dl Ql = \l Ql = \ l é a proporção de unidades em D, do conglomerado l. Assim, a proporção global de unidades em D na população �Q é dada por: SD = PP l=1 Dl PP l=1 Ql = PP l=1 \l PP l=1 Ql = \ Q = \ ou ainda, SD = PP l=1 Dl Q = PX l=1 Ql Q SDl Em vista dessas expressões, e considerando a teoria já apresentada para obtenção dos parâmetros de �Q , é imediata a obtenção de estimadores não viciados para a proporção SD: sDf1 = P p pX l=1 Q 0l Q S 0 Dl = 1 pQ pX l=1 Q 0lS 0Dl = 1 pQ pX l=1 D0l 66CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS onde: D0l = \ 0l = Q 0lP l=1 \ 0lm é o número de unidades em D, do l-ésimo conglomerado selecionado; S 0Dl = D0l Q 0l = \ 0l Q 0l = \ 0l é a proporção de unidades em D, do l-ésimo conglomerado selecionado. Além disto, a variância de sDf1 é dada por: Y (sDf1) = P �p P V2h p = 1 Q2 P �p P V2h p onde: V2h = 1 P � 1 PX l=1 µ\l Q � SD ¶2 = 1 P � 1 PX l=1 1 Q2 ¡ QlSDl �QSD ¢2 = 1 P � 1 1 Q2 PX l=1 ³ Q2l S 2Dl � 2QQlSDlSD + Q 2S 2D ´ = 1 Q2 1 P � 1 ( PX l=1 Q2l S 2Dl � 2QSD PX l=1 QlSDl + PX l=1 Q2S 2D ) = 1 Q2 1 P � 1 ( PX l=1 Q2l S 2Dl � 2QSDQSD + PQ 2S 2D ) = 1 Q2 1 P � 1 ( PX l=1 Q2l S 2Dl �PQ 2S 2D ) = 1 Q2 1 P � 1 ( PX l=1 \ 2l �P Q2 P2S 2 D ) = 1 Q2 1 P � 1 ( PX l=1 \ 2l �P \ 2 P2 ) = 1 Q2 1 P � 1 ( PX l=1 \ 2l �P\ 2 ) = 1 Q2 1 P � 1 PX l=1 ¡ \l � \ ¢2 = 1 Q2 V2h Esta variância pode ser estimada por: y(sDf1) = P �p P v2h p = 1 Q2 P �p P v2h p com: v2h = 1 p� 1 pX l=1 µ\ 0l Q � sDf1 ¶2 2.3. CONGLOMERADOS EM 1 ESTÁGIO 67 e v2h = 1 p� 1 pX l=1 à \ 0l � 1 p pX l=1 \ 0l !2 mas: v2h = 1 Q2(p� 1) pX l=1 ¡ \ 0l �Q sDf1 ¢2 = 1 Q2(p� 1) pX l=1 à \ 0l � Q pQ pX l=1 \ 0l !2 = 1 Q2(p� 1) pX l=1 à \ 0l � 1 p pX l=1 \ 0l !2 = 1 Q2(p� 1) 5 7 pX l=1 \ 02l � 1 p à pX l=1 \ 0l !26 8 = 1 Q2 v2h conseqüentemente: y(sDf1) = 1 Q2 P �p P 1 p 1 (p� 1) 5 7 pX l=1 \ 02l � 1 p à pX l=1 \ 0l !26 8 Exemplo 2.1 Com o objetivo de avaliar a proporção de fumantes, entre os alunos da 3d série do 2r grau da rede de ensino publico de certa localidade, foram formados conglomerados a partir de uma relação de 3500 turmas existentes, grupando- se cada 5 turmas em aproximadamente 150 alunos, supondo uma base de 30 alunos por turma. Uma amostra de 10 conglomerados foi selecionada, observando-se: 68CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS Conglomerados Número de Número de alunos da amostra alunos (Q 0l) fumantes (D0l) 1 162 50 2 170 63 3 145 47 4 151 48 5 166 68 6 162 59 7 145 36 8 148 45 9 171 71 10 178 75 Soma 1592 562 P = 700> Q = 150 e p = 10 Uma estimativa da proporção de alunos fumantes é dada por: sDf1 = 1 pQ pX l=1 D0l = 1 10 (150) 562 = 0> 375 ou 37> 5% Uma estimativa da variância é dada por: y(sDf1) = 1 Q2 P �p P v2h p sendo: v2h = 1 p� 1 3 C pX l=1 D02l � 1 p à pX l=1 D0l !24 D = 1 9 à 33074� (562) 2 10 ! = 165> 51 então: y(sDf1) = 1 Q2 P �p P v2h p = 1 (150)2 700� 10 700 165> 51 10 = 0> 000725 Uma estimativa do erro padrão é dada por:p y(sDf1) = p 0> 000725 = 0> 0269 = 2> 69% 2.3. CONGLOMERADOS EM 1 ESTÁGIO 69 e uma estimativa do coeÞciente de variação pode ser obtida através da ex- pressão: fy(sDf1) = p y(sDf1) sDf1 fy(sDf1) = s 0> 000725 0> 375 = 0> 0717 = 7> 17% 2.3.3 CoeÞciente de Correlação Intraclasse O objetivo neste item é comparar a eÞciência da amostragem por conglo- merados com a da amostragem aleatória simples. Inicialmente, será estudado o caso em que os conglomerados são de tamanhos iguais. Ocorre que para comparar a precisão da amostragem de conglomerados em 1 estágio com a amostrgem aleatória simples é muito útil a introdução do coeÞciente de correlação intraclasse. Seja a população �Q distribuída em P conglomerados de tamanho Q = Q P cada um. Imagine o seguinte experimento aleatório: • Seleciona-se aleatoriamente 1 entre os P conglomerados. • Seleciona-se aleatoriamente sem reposição 2 unidades dentro deste con- glomerado. Sejam \ 0lm e \ 0ln as variáveis aleatórias resultantes da observação nas 2 unidades selecionadas da característica |. É possível calcular a correlação entre essas 2 variáveis aleatórias: �(\ 0lm> \ 0ln) = H £¡ \ 0lm �H(\ 0lm) ¢ (\ 0ln �H(\ 0ln)) ¤r H h¡ \ 0lm �H(\ 0lm) ¢2iH £(\ 0ln �H(\ 0ln))2¤ Agora, notando que: H(\ 0lm) = PX l=1 1 P QX m=1 1 Q \lm = 1 P Q PX l=1 QX m=1 \lm = \ H(\ 0ln) = \ H h¡ \ 0lm �H(\ 0lm) ¢2i = PX l=1 QX m=1 1 P Q ³ \lm � \ ´2 = PQ � 1 P Q V2 70CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS V2 = 1 PQ � 1 PX l=1 QX m=1 ³ \lm � \ ´2 Donde também: H h (\ 0ln �H(\ 0ln))2 i = PQ � 1 P Q V2 Finalmente: H £¡ \ 0lm �H(\ 0lm) ¢ (\ 0ln �H(\ 0ln)) ¤ = PX l=1 QX m=1 QX n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ P Q ¡ Q � 1 ¢ Logo, esta correlação será: �(\ 0lm> \ 0ln) = 1 P Q ¡ Q � 1 ¢ PP l=1 QP m=1 QP n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ PQ � 1 P Q V2 Esta correlação expressa uma medida de homogeneidade dentro dos con- glomerados da população, e será denominada coeÞciente de correlação intraclasse e é denotada por �: � = �(\ 0lm> \ 0ln) = 1 P Q ¡ Q � 1 ¢ PP l=1 QP m=1 QP n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ PQ � 1 P Q V2 Agora será tratado o problema de obter uma expressão adequada para o coeÞciente de correlação intraclasse, que permita visualizar este coeÞciente como uma medida de homogeneidade dentro dos conglomerasdos. Note-se que: � = 1 P Q ¡ Q � 1 ¢ PP l=1 QP m=1 QP n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ PQ � 1 P Q V2 2.3. CONGLOMERADOS EM 1 ESTÁGIO 71 Então pode-se escrever: PX l=1 QX m=1 QX n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ = = PX l=1 QX m=1 QX n=1 m 6=n ³ \lm � \ l + \ l � \ ´³ \ln � \ l + \ l � \ ´ = PX l=1 QX m=1 QX n=1 m 6=n µ¡ \lm � \ l ¢ (\ ln � \ l) + ³ \ l � \ ´2¶ = PX l=1 QX m=1 QX n=1 m 6=n ¡ \lm � \ l ¢ (\ ln � \ l) + Q(Q � 1) PX l=1 ³ \ l � \ ´2 = PX l=1 3 C QX m=1 ¡ \lm � \ l ¢4D2 � PX l=1 QX m=1 ¡ \lm � \ l ¢2 + Q(Q � 1) PX l=1 ³ \ l � \ ´2 Note que: QX m=1¡ \lm � \ l ¢ = 0 Lembrando que: V2l = 1 Q � 1 QX m=1 ¡ \lm � \ l ¢2 e fazendo: V2g = 1 P PX l=1 V2l Segue-se que: PX l=1 QX m=1 QX n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ = � PX l=1 ¡ Q � 1 ¢ V2l +Q(Q�1) PX l=1 ³ \ l � \ ´2 72CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS Como também: V2h = 1 P � 1 PX l=1 ³ \ l � \ ´2 vem: PX l=1 QX m=1 QX n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ = � ¡ Q � 1 ¢ P V2g +Q(Q�1) (P � 1) V 2 h Assim pode-se escrever: � = 1 P Q ¡ Q � 1 ¢ hQ(Q � 1) (P � 1) V2h � ¡Q � 1¢ P V2gi PQ � 1 P Q V2 � = (P � 1) V2h P � 1 Q V2g PQ � 1 P Q V2 Se o número de conglomerados P for grande, vem: � �= V2h � 1 Q V2g V2 Para compreender melhor o signiÞcado desta expressão, deve-se notar que: ¡ PQ � 1 ¢ V2 = PX l=1 QX m=1 ³ \lm � \ ´2 = PX l=1 QX m=1 ³ \lm � \ l + \ l � \ ´2 ¡ PQ � 1 ¢ V2 = PX l=1 QX m=1 h (\lm � \ l)2 + 2(\lm � \ l)(\ l � \ ) + (\ l � \ )2 i = PX l=1 QX m=1 (\lm � \ l)2 + 2 PX l=1 (\ l � \ ) QX m=1 (\lm � \ l) + Q PX l=1 (\ l � \ )2 = PX l=1 (Q � 1)V2l + Q PX l=1 (\ l � \ )2 = (Q � 1)P V2g + Q (P � 1)V 2 h 2.3. CONGLOMERADOS EM 1 ESTÁGIO 73 ou seja: V2 = (Q � 1)P V 2 g + Q (P � 1)V 2 h¡ PQ � 1 ¢ Assim estamos agora em posição para analisar melhor a inßuência na variação de � da maior homogeneidade dos conglomerados. Supondo que os conglomerados fossem homogêneos devemos ter: V2g = 0 portanto: � = (P � 1) V2h P � 1 Q V2g PQ � 1 P Q V2 = (P � 1) V2h P Q (P � 1)V2h P Q = 1 Logo, quando há homogeneidade máxima dentro dos conglomerados =, � = 1. Por outro lado, se há heterogeneidade dentro dos conglomerados com homogeneidade entre eles, o valor de � deve diminuir. Se admitirmos que V2h = 0 vem: ¡ PQ � 1 ¢ V2 = (Q � 1)P V2g donde: � = � 1 Q V2g (Q � 1)P V2g P Q = � 1 (Q � 1) Logo, conclui-se que: � 5 · � 1 (Q � 1); 1 ¸ Assim � é uma medida de homogeneidade ou heterogeneidade dentro dos conglomerados. Exemplo 2.2 74CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS Seja uma população com exatamente 6 unidades. X1 X2 X3 X4 X5 X6 & & & & & & \1 \2 \3 \4 \5 \6 q q q q q q 3 5 3 7 2 8 Essas unidades serão grupadas em 2 conglomerados para o cálculo do co- eÞciente de correlação intraclasse. A conglomeração será feita de de 2 modos diferentes a Þm de medir a variação do coeÞciente de correlação intraclasse em função da maior ou menor homogeneidade dos conglomerados. 1d tentativa: conglomerados homogêneos F1 F2 X1 $ 3 X2 $ 5 X3 $ 3 X4 $ 7 X5 $ 2 X6 $ 8 P = 2 Q = 3 \ 1 = 2> 66667 \ 2 = 6> 66667 \ = 4> 66667 V2g = 1 2 (0> 3333 + 2> 3333) = 1> 3333 V2h = 4 + 4 = 8 � = (P � 1) V2h P � 1 Q V2g P(Q � 1)V2g + Q (P � 1)V 2 h P Q = 3> 5556 4> 8889 = 0> 7273 2d tentativa: conglomerados heterogêneos F1 F2 X2 $ 5 X1 $ 3 X5 $ 2 X3 $ 3 X6 $ 8 X4 $ 7 P = 2 Q = 3 \ 1 = 5> 0000 \ 2 = 4> 3333 \ = 4> 66667 V2g = 1 2 (9+5> 3333) = 7> 16667 V2h = 0> 1111+0> 1111 = 0> 2222 � = (P � 1) V2h P � 1 Q V2g P(Q � 1)V2g + Q (P � 1)V 2 h P Q = �2> 2778 4> 8889 = �0> 4659 2.3. CONGLOMERADOS EM 1 ESTÁGIO 75 Note-se que: � 1 Q � 1 = � 1 2 = �0> 50 Portanto, � está bem próximo do valor mínimo que pode assumir, indi- cando alto grau de heterogeneidade. 2.3.4 Estimação do coeÞciente de correlação intraclasse Um problema que falta solucionar é o da estimação do coeÞciente de corre- lação intraclasse através de uma amostra de conglomerados. Para tanto, basta considerar a expressão de �: � = (P � 1) V2h P � 1 Q V2g P(Q � 1)V2g + Q (P � 1)V 2 h P Q Agora, lembrando que: v2h = 1 p� 1 pX l=1 ³ \ 0l � |Df1 ´2 é um estimador não viciado para V2h, e notando que: v2g = 1 p pX l=1 V 02l é um estimador não viciado para V2g, basta substituir estes estimadores na expressão de � para obter um estimador consistente para �. b� = (P � 1) v 2 h P � 1 Q v2g P(Q � 1) v2g + Q (P � 1) v2h P Q Além disso, notando-se que: PQ � 1 P Q V2 = P(Q � 1)V 2 g + Q (P � 1)V 2 h P Q Segue-se que um estimador não viciado para V2 é dado por: v2 = P(Q � 1) v 2 g + Q (P � 1) v2h PQ � 1 76CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS e conseqüentemente, que b� pode ser escrito: b� = (P � 1) v 2 h P � 1 Q v2g PQ � 1 P Q v2 ou ainda, para P muito grande: b� �= v2h � 1 Q v2g v2 Exemplo 2.3 (Nascimento (1981), pág.32) Tem-se um Þchário de 20.000 segurados de uma Companhia de Seguros, em um plano D. As 20.000 Þchas estão dispostas em 400 gavetas, com 50 Þchas cada. Considerando as gavetas como conglomerados, tem-se: P = 400 e Q = 50 Selecionou-se uma amostra aleatória sem reposição de 10 gavetas, correspon- dendo a 500 Þchas. Nas gavetas selecionadas foram calculadas as reservas técnicas de todas as Þchas, obtendo-se: Gavetas da Reserva Variância das amostra total (\ 0l ) reservas (V02l ) 1 321 25 2 170 17 3 610 30 4 405 32 5 350 35 6 155 20 7 254 40 8 328 18 9 652 25 10 269 35 Soma 3.514 277 O objetivo é estimar a média por Þcha da reserva técnica do plano D e o coeÞciente de correlação intraclasse. Estimativa de \ |Df1 = 1 pQ pX l=1 \ 0l = 3=514 10 (50) = 7> 028 2.3. CONGLOMERADOS EM 1 ESTÁGIO 77 Estimativa de V2g v2g = 1 p pX l=1 V02l = 277 10 = 27> 7 Estimativa de V2h v2h = 1 p� 1 1 Q2 pX l=1 (\ 0l � |Df1)2 = 1 p� 1 1 Q2 5 9997 pX l=1 \ 02l � µ pP l=1 \ 0l ¶2 p 6 :::8 = 1 9 (50)2 " 1=484=156� (3=514) 2 10 # = 11> 082 Estimativa de V2 v2 = P(Q � 1) v 2 g + Q (P � 1) v2h P Q � 1 = 400(50� 1) (27> 7) + 50 (399) (11> 082) 20=000� 1 = 38> 20 Estimativa do coeÞciente de correlação intraclasse b� �= v2h � 1 Q v2g v2 = 11> 0832� 0> 554 38> 20 = 0> 276 2.3.5 EÞciência da Ac1 em relação à AAS com con- glomerados de tamanhos iguais Para comparar a precisão de um estimador, obtido através de um plano amostral proveniente de uma amostra de conglomerados em 1 estágio (Ac1), com a de outro estimador, obtido através de uma amostra aleatória simples (AAS), vamos deÞnir uma medida de eÞciência baseada nas variâncias dos estimadores de \ com os dois desenhos. Assim: Hi = Y (|DDV)Y (|Df1) 78CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS onde: | é o estimador de \ na AAS; e |Df1 é o estimador de \ na Ac1. A eÞciência Hi A 1 se Y (|Df1) ? Y (|DDV). Mas: Y (|Df1) = P �p P 1 Q2 V2h p e: Y (|DDV) = Q � q Q V2 q aqui Q = PQ onde: V2h = 1 P � 1 PX l=1 ¡ \l � \ ¢2 V2 = 1 P Q � 1 PX l=1 QX m=1 ³ \lm � \ ´2 sob a hipótese de conglomerados de tamanhos iguais. Supondo que todos os conglomerados tenham o mesmo tamanho Q , o tamanho q da AAS equivalente à Ac1 com p conglomerados na amostra é dado por : q = pQ . Assim, pode-se escrever: Y (|DDV) = PQ �pQ PQ V2 pQ = P �p P V2 pQ logo, tem-se: Hi = P �p P V2 pQ P �p P 1 Q2 V2h p = Q V2 V2h Agora, notando que: 2.3. CONGLOMERADOS EM 1 ESTÁGIO 79 PX l=1 ¡ \l � \ ¢2 = PX l=1 3 C QX m=1 \lm �Q \ 4 D 2 = PX l=1 QX m=1 ³ \lm � \ ´2 + PX l=1 QX m=1 QX n=1 m 6=n ³ \lm � \ ´³ \ln � \ ´ = ¡ P Q � 1 ¢ V2 + ¡ Q � 1 ¢ ¡ PQ � 1 ¢ V2 � como: PX l=1 ¡ \l � \ ¢2 = (P � 1)V2h vem: V2h = P Q � 1 P � 1 V 2 + P Q � 1 P � 1 ¡ Q � 1 ¢ V2 � = P Q � 1 P � 1 V 2 £ 1 + ¡ Q � 1 ¢ � ¤ Daí segue-seque: Hi = Q V 2 P Q � 1 P � 1 V 2 £ 1 + ¡ Q � 1 ¢ � ¤ supondo: P � 1 �= P e PQ � 1 �= PQ vem: Hi �= 1 1 + ¡ Q � 1 ¢ � Hi A 1+, 1 + ¡ Q � 1 ¢ � ? 1+, ¡ Q � 1 ¢ � ? 0+, � ? 0 O termo £ 1 + ¡ Q � 1 ¢ � ¤ mostra quanto a variância é afetada pelo uso de conglomerado ao invés de um elemento como unidade amostral. Kish (1965) deÞne este fator como o efeito de desenho de uma amostra de conglomerados de tamanho Q ou efeito de conglomeração. Este fator mede a inßuência da conglomeração na precisão do estimador. Portanto: Se � A 0, Hi ? 1 então Y (|Df1) A Y (|DDV), a amostra de conglomerados é menos eÞciente que a AAS. 80CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS Se � = 0, Hi = 1 então Y (|Df1) = Y (|DDV), a amostra de conglomerados é equivalente a AAS. Se � ? 0, Hi A 1 então Y (|Df1) ? Y (|DDV), a amostra de conglomerados é mais eÞciente que a AAS. Como � 5 · � 1 (Q � 1); 1 ¸ , isto indica que os valores negativos de � são raros, uma vez que limQ3<+" µ � 1 (Q � 1) ¶ = 0, isto é, à medida que o tamanho Q cresce, diminui a eÞciência da Ac1 em relação à AAS. Lembrando que: Hi = Y (|DDV)Y (|Df1) �= 1 1 + ¡ Q � 1 ¢ � vem: Hi 5 · 1 Q ; +4 ¸ e Y (|Df1) �= Y (|DDV) £ 1 + ¡ Q � 1 ¢ � ¤ isto é, a variância do estimador da média na Ac1 é a variância do estimador da média na AAS vezes o fator £ 1 + ¡ Q � 1 ¢ � ¤ . Para o caso de conglomerados de mesmo tamanho, se estivermos inte- ressados na mesma precisão, qual deverá ser o tamanho da amostra de con- glomerados? Y (|Df1) equivale a Y (|DDV) quando: Y (|Df1)£ 1 + ¡ Q � 1 ¢ � ¤ �= Y (|DDV) ou seja, quando: 1 Q2 V2h p £ 1 + ¡ Q � 1 ¢ � ¤ = V2 pQ V2h p £ 1 + ¡ Q � 1 ¢ � ¤ = V2 pQ o que implica que o número de conglomerados na amostra equivale a p £ 1 + ¡ Q � 1 ¢ � ¤ 2.3. CONGLOMERADOS EM 1 ESTÁGIO 81 e, portanto, haverá um acréscimo de £ p ¡ Q � 1 ¢ � ¤ conglomerados na amostra. Conseqüentemente, o número de unidades populacionais na amostra equivale a: p £ 1 + ¡ Q � 1 ¢ � ¤ Q = pQ + pQ ¡ Q � 1 ¢ � ou seja, haverá um acréscimo de £ pQ ¡ Q � 1 ¢ � ¤ unidades em relação a AAS sem reposição. Exemplo 2.4 (Nascimento (1981), pág. 34) Considere as informações do exemplo 2.3 e calcule o número de conglom- erados necessários na amostra, para dar a mesma precisão de uma amostra aleatória simples ao estimar a média por Þcha da reserva técnica do plano D= Nesste caso, o efeito de conglomeração é: 1 + ¡ Q � 1 ¢ � = 1 + 49 (0> 276) = 14> 524 O tamanho da amostra de conglomerados para dar a mesma precisão de uma amostra aleatória simples é: p £ 1 + ¡ Q � 1 ¢ � ¤ = 10 (14> 524) �= 145 conglomerados O elevado efeito de conglomeração, mostra que o desenho amostral de conglomerados em 1 estágio que considera a gaveta com 50 Þchas como con- glomerado é pouco eÞciente. Ilustrações A seguir, são apresentadas algumas ilustrações para mostrar que � mede homogeneidade e como afeta a variância por unidades amostrais elementares ou por conglomerados. a) Suponha que se deseja analisar a composição da população em relação a renda e que o conglomerado seja o setor censitário. Suponha que a maioria das pessoas em certos setores têm uma renda alta e a maioria das pessoas em outros setores têm renda baixa. Neste caso a variância entre as médias dos setores será relativamente grande e a correlação en- tre as pessoas dentro do setor será alta e positiva. Assim uma amostra aleatória simples de setores consistindo de todas pessoas dos setores dará pouca informação com relação à composição da renda da popu- lação. b) Agora, um caso extremo onde a composição da renda é exatamente a mesma em cada setor. Neste caso, a variância entre as médias dos setores será zero e a correlação entre as pessoas de mesmo setor será negativa. Neste caso, uma amostra aleatoria simples de setores con- sistindo de todas as pessoas no setor daria uma completa informação com relação à composição da renda da população. 82CAPÍTULO 2. AMOSTRAGEM DE CONGLOMERADOS c) Finalmente, suponha que a composição da renda diÞra de setor para setor e que a variância entre as médias dos setores seja aproximada- mente a variância entre as médias amostrais baseada numa amostra aleatória simples. A correlação entre as pessoas de um mesmo setor será nula. Uma amostra aleatória de setores consistindo de todas as pessoas no setor daria informações com respeito à composição da renda da população da mesma forma que uma amostra aleatória simples de mesmo tamanho selecionada sem considerar o conglomerado setor. Em geral, os conglomerados são deÞnidos por populações geográÞcas con- tiguas. O coeÞciente de correlação em geral é positivo e diminui com o aumento do tamanho do conglomerado, pois se as unidades incluídas na amostra são poucas e imediatamente contiguas, haverá uma correlação mais alta entre as unidades dentro de um conglomerado do que quando os conglomerados são maiores e há portanto, um maior espalhamento entre as unidades dentro do conglomerado. 2.4 Controle na variação de tamanho Observe que a Y (b\Df1) = P2(P �p)P V2hp aumenta e a Hi = Q V2V2h diminui quando V2h aumenta. Mas de acordo com a expressão: V2h = 1 P � 1 PX l=1 ¡ \l � \ ¢2 o aumento de V2h é tanto maior quanto mais diferentes forem os totais dos conglomerados. Em geral, os totais de uma característica | tendem a crescer quando os tamanhos dos conglomerados crescem. Então, é usual controlar a variação de tamanho dos conglomerados na expectativa de redução da variân- cia e de aumento da eÞciência com o uso da amostragem de conglomerados. Os processos usuais de controle do tamanho dos conglomerados são: a) selecionar os conglomerados com probabilidades proporcionais ao tamanho dos conglomerados; b) estratiÞcar os conglomerados, de modo que a característica de estrati- Þcação seja o tamanho; e c) usar um estimador de razão, com característica auxiliar deÞnida pelo tamanho do conglomerado.
Compartilhar