Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE MATEMÁTICA CADERNOS DE MATEMÁTICA E ESTATÍSTICA SÉRIE B: TRABALHO DE APOIO DIDÁTICO AMOSTRAGEM I Elsa Cristina de Mundstock SÉRIE B, No 45 Porto Alegre, março de 2005 AMOSTRAGEM I 2 ÍNDICE 1. NOÇÕES BÁSICAS............................................................................................................................. 4 1.1 CONCEITOS ................................................................................................................................ 4 a) POPULAÇÃO, AMOSTRA, AMOSTRAGEM................................................................................... 4 b) ESTATÍSTICA ................................................................................................................................ 6 c) ESTIMADOR.................................................................................................................................. 6 d) ESTIMATIVA ................................................................................................................................. 7 e) ESTIMAÇÃO POR PONTO E POR INTERVALO............................................................................ 7 1.2 DISTRIBUIÇÃO DA MÉDIA AMOSTRAL.................................................................................... 7 1.3 TEOREMA CENTRAL DO LIMITE............................................................................................. 10 1.4 INTERVALOS DE CONFIANÇA................................................................................................. 10 1.5 DISTRIBUIÇÃO t DE STUDENT................................................................................................ 12 1.6 AMOSTRAGEM PROBABILÍSTICA E NÃO PROBABILÍSTICA ................................................. 13 1.7 ERROS AMOSTRAIS E NÃO AMOSTRAIS.................................................................................. 14 1.8 PLANEJAMENTOS AMOSTRAIS PROBABILÍSTICOS ............................................................... 15 FÓRMULAS 1.1. DISTRIBUIÇÃO DA MÉDIA AMOSTRAL ............................................................. 15 2. AMOSTRAGEM ALEATÓRIA SIMPLES ...................................................................................... 16 2.1 DEFINIÇÃO............................................................................................................................... 16 2.2 TIPOS DE SELEÇÃO ................................................................................................................. 16 2.3 PROBABILIDADES ASSOCIADAS AO ESQUEMA DE AMOSTRAGEM ALEATÓRIA SIMPLES 16 2.4 PARÂMETROS E SEUS CORRESPONDENTES ESTIMADORES POR PONTO.......................... 17 a) MÉDIA POPULACIONAL............................................................................................................ 17 b) TOTAL POPULACIONAL ............................................................................................................ 18 c) VARIÂNCIA POPULACIONAL: ................................................................................................... 18 d) VARIÂNCIA DA MÉDIA AMOSTRAL........................................................................................... 20 e) VARIÂNCIA DE Tˆ ...................................................................................................................... 22 2.5 ESTIMADORES POR INTERVALO (INTERVALOS DE CONFIANÇA) ....................................... 22 a) ESTIMADOR DA MÉDIA POPULACIONAL, m. ........................................................................... 23 b) INTERVALOS DE CONFIANÇA PARA T ..................................................................................... 23 2.6 TAMANHO DA AMOSTRA PARA ESTIMAR m............................................................................ 23 2.7. ESTIMAÇÃO DA PROPORÇÃO P NA AMOSTRAGEM ALEATÓRIA SIMPLES ........................ 25 a) SELEÇÃO SEM REPOSIÇÃO. DISTRIBUIÇÃO HIPERGEOMÉTRICA: ...................................... 25 b) SELEÇÃO COM REPOSIÇÃO. DISTRIBUIÇÃO BINOMIAL: ...................................................... 25 c) APROXIMAÇÃO NORMAL:......................................................................................................... 26 d) TAMANHO DA AMOSTRA NECESSÁRIO PARA ESTIMAR P:..................................................... 30 e) EFEITO DO VALOR DE P NO ERRO PADRÃO........................................................................... 31 2.8. TAMANHO DE AMOSTRA PARA OBTER UMA PRECISÃO RELATIVA PRÉ-FIXADA (ERRO RELATIVO)...................................................................................................................................... 32 2.9. CONSIDERAÇÕES GERAIS NA AMOSTRAGEM ALEATÓRIA SIMPLES.................................. 34 2.10 REGRAS PRÁTICAS SOBRE O TAMANHO DA AMOSTRA ...................................................... 35 FÓRMULAS 2.1: ESTIMADOR DA VARIÂNCIA DA POPULAÇÃO ................................................. 38 FÓRMULAS 2.2: VARIÂNCIA DA MÉDIA E SEUS ESTIMADORES ................................................ 38 FÓRMULAS 2.3: VARIÂNCIA DO TOTAL E SEUS ESTIMADORES ................................................ 38 FÓRMULAS 2.4: INTERVALOS DE CONFIANÇA PARA μ e T......................................................... 38 FÓRMULAS 2.5: CÁLCULO DO TAMANHO DA AMOSTRA PARA ESTIMAR m, UTILIZANDO ERRO ABSOLUTO...................................................................................................................................... 39 FÓRMULAS 2.6: VARIÂNCIA DA PROPORÇÃO E SEUS ESTIMADORES...................................... 39 FÓRMULAS 2. 7: CÁLCULO DO TAMANHO DA AMOSTRA PARA ESTIMAR P, UTILIZANDO ERRO ABSOLUTO........................................................................................................................... 39 FÓRMULAS 2.8: CÁLCULO DO TAMANHO DA AMOSTRA PARA ESTIMAR m, T ou P, UTILIZANDO ERRO RELATIVO...................................................................................................... 39 3. AMOSTRAGEM ESTRATIFICADA................................................................................................ 40 3.1. CONCEITOS................................................................................................................................. 40 3.2 PARÂMETROS E ESTIMADORES............................................................................................... 41 a) MÉDIA E TOTAL......................................................................................................................... 41 b) VARIÂNCIA DA POPULAÇÃO ESTRATIFICADA........................................................................ 42 AMOSTRAGEM I 3 c) ESTIMADOR DE m .................................................................................................................... 45 d) ESTIMADOR DO TOTAL............................................................................................................. 46 e) VARIÂNCIA DA MÉDIA............................................................................................................... 47 f) VARIÂNCIA DO ESTIMADOR DO TOTAL ................................................................................... 47 g) ESTIMADOR DE 2_ x s .................................................................................................................. 48 h) INTERVALOS DE CONFIANÇA................................................................................................... 48 3.3 MÉTODOS DE DISTRIBUIÇÃO (REPARTIÇÃO) DA AMOSTRA NOS ESTRATOS .................. 50 a) REPARTIÇÃO IGUAL..................................................................................................................50 b) REPARTIÇÃO PROPORCIONAL................................................................................................. 50 c) REPARTIÇÃO ÓTIMA.................................................................................................................. 53 d) REPARTIÇÃO DE NEYMAN........................................................................................................ 55 3.4 CÁLCULO DO TAMANHO DE AMOSTRA ................................................................................. 56 a) REPARTIÇÃO IGUAL................................................................................................................. 56 b) REPARTIÇÃO PROPORCIONAL................................................................................................. 56 c) REPARTIÇÃO ÓTIMA.................................................................................................................. 57 d) REPARTIÇÃO DE NEYMAN........................................................................................................ 57 3.5 AMOSTRAGEM ESTRATIFICADA PARA A PROPORÇÃO........................................................ 60 a) PARÂMETRO............................................................................................................................... 60 b) ESTIMADOR DE P ..................................................................................................................... 60 c) VARIÂNCIA DE :Pˆ .................................................................................................................... 61 d) ESTIMADOR DE :2pˆs ................................................................................................................ 61 e) REPARTIÇÃO DA AMOSTRA PARA ESTIMAR A PROPORÇÃO ................................................. 62 f) DETERMINAÇÃO DO TAMANHO DE AMOSTRA........................................................................ 63 3.6 PRECISÃO DA AMOSTRAGEM ESTRATIFICADA EM RELAÇÃO À AMOSTRAGEM ALEATÓRIA SIMPLES ...................................................................................................................... 63 3.7 CONSTRUÇÃO DOS ESTRATOS................................................................................................. 65 FÓRMULAS 3.1. PARÂMETROS E ESTIMADORES NA AMOSTRAGEM ESTRATIFICADA SEM REPOSIÇÃO ....................................................................................................................................... 67 FÓRMULAS 3.2. DISTRIBUIÇÃO DA AMOSTRA NOS ESTRATOS, POR TIPO DE REPARTIÇÃO 67 FÓRMULAS 3.3. TAMANHO DA AMOSTRA NECESSÁRIO PARA ESTIMAR A MÉDIA COM UMA PRECISÃO PRE-FIXADA (*).............................................................................................................. 68 FÓRMULAS 3.4. AMOSTRAGEM ESTRATIFICADA PARA PROPORÇÕES ................................... 68 4. ESTIMAÇÃO PELO MÉTODO DA RAZÃO .................................................................................. 69 4.1 DESCRIÇÃO ................................................................................................................................. 69 a) ESTIMADOR DO TOTAL............................................................................................................. 70 b) ESTIMADOR DA MÉDIA............................................................................................................. 70 4.2 ESTIMADOR DA RAZÃO NO CASO DE AMOSTRAGEM ALEATÓRIA SIMPLES ................... 71 a) PARÂMETRO E ESTIMADOR...................................................................................................... 71 b) ESPERANÇA DE r ...................................................................................................................... 71 c) VARIÂNCIA DE r ......................................................................................................................... 74 d) ESTIMADOR DE 2 rs ................................................................................................................. 75 e) INTERVALO DE CONFIANÇA PARA R ....................................................................................... 76 f) DETERMINAÇÃO DO TAMANHO DA AMOSTRA PARA ESTIMAR R.......................................... 76 4.2 ESTIMADOR DA RAZÃO PARA AMOSTRAGEM ESTRATIFICADA........................................ 78 a) ESTIMADOR COMBINADO ........................................................................................................ 78 b) ESTIMADOR SEPARADO............................................................................................................ 79 c) COMPARAÇÃO DOS MÉTODOS COMBINADO E SEPARADO.................................................. 80 FÓRMULAS 4.1: ESTIMAÇÃO PELO MÉTODO DA RAZÃO ........................................................... 81 FÓRMULAS 4.2: ESTIMADOR DA RAZÃO NA AMOSTRAGEM ALEATÓRIA SIMPLES ............. 81 FÓRMULAS 4.3: ESTIMADOR DA RAZÃO NA AMOSTRAGEM ESTRATIFICADA...................... 82 BIBLIOGRAFIA.................................................................................................................................. 83 AMOSTRAGEM I 4 1. NOÇÕES BÁSICAS 1.1 CONCEITOS a) POPULAÇÃO, AMOSTRA, AMOSTRAGEM Chama-se população (ou universo) ao conjunto U de todas as unidades elementares de interesse, indicado por U ={1,2,....,N}, onde N é o tamanho fixo e algumas vezes desconhecido da população. A população pode ser constituída pelos habitantes de um país, pelas árvores de um bosque, os estabelecimentos comerciais de uma cidade, as letras de um livro. Chama-se população objetivo a totalidade de elementos em estudo a respeito dos quais deseja-se obter informação. Às vezes não é possível extrair uma amostra da população objetivo e sim de uma população relacionada. População amostrada é a população da qual a amostra é extraída. Podem ser feitas afirmações probabilísticas relacionadas com uma população amostrada na base de amostras aleatórias mas não sobre a população objetivo, a menos que as duas populações sejam a mesma. Por exemplo, suponha que um sociólogo deseja estudar os hábitos religiosos dos homens de 20 anos de idade no país. Ele seleciona uma amostra aleatória dos homens de 20 anos na cidade de São Paulo. Neste caso, a população objetivo são os homens de 20 anos no país e a população amostrada são os homens de 20 anos na cidade de São Paulo. Ele pode fazer conclusões probabilísticas relacionadas com a cidade de São Paulo (população amostrada) mas precisa usar seu julgamento pessoal para extrapolar ao país e a confiabilidade da extrapolação não pode ser medida em termos probabilísticos. Chama-se censo à enumeração e anotação de certas características de todos os elementos de uma população. Uma seqüência qualquer de n unidades de U é denominada uma amostra ordenada de U, isto é, s’ = (k1,......kn), tal que ki є U, sendo ki o iésimo componente de s. Algumas vezes é interessante trabalhar com amostras não ordenadas, por exemplo, as amostras (1,2) e (2,1) são consideradas a mesma. Uma amostra é obtida com a finalidade de investigar certas características da população da qual foi obtida. A amostra deve ser representativa da população. Chama-se amostragem o procedimento pelo qual obtemos uma ou mais amostras. Na amostragem seleciona-se uma parte de uma população para observá-la com a finalidade de estimar “alguma coisa” da população total. Por exemplo, para estimar a quantidade de liquens disponível como alimento para certo tipo de animais, um biólogo coleta liquens de pequenos setores selecionados de uma área de pesquisa; com base no peso dos liquens dos setores coletados é estimada a biomassa de toda a região. De maneira similar, para estimar a quantidade de petróleo de uma região são perfurados alguns poços pequenos como amostra. A situaçãoé semelhante em uma amostra nacional de opinião na qual é contatada uma amostra de pessoas da população e as opiniões das pessoas da amostra são usadas para estimar as proporções das diferentes opiniões na população. Para estimar a prevalência (%) de uma doença rara, a amostra pode consistir de algumas instituições que possuem registros de pacientes tratados. Para estimar a abundância de uma espécie de aves pode ser usada uma amostra de locais na região em estudo. A teoria da amostragem ocupa-se dos métodos de selecionar amostras e do uso dos dados amostrais para estimar características da população (tais como média, total ou proporção). Os diferentes procedimentos amostrais que são utilizados procuram satisfazer os seguintes critérios: AMOSTRAGEM I 5 1) a amostra deve representar a população, 2) as estimativas das características da população, obtidas a partir da amostra, devem ser precisas e podemos medir sua confiabilidade e, 3) o custo de selecionar a amostra é pequeno. A obtenção dos dados amostrais envolve questões relacionadas com: o tamanho da amostra, a maneira de selecionar a amostra, a definição dos métodos a utilizar para obter os dados e a escolha dos tipos de dados registrar. A obtenção de boas estimativas com os dados observados significa escolher os aspectos relevantes desses dados e escolher adequadamente a forma do estimador. Em amostragem, o ideal é descobrir como é a população sem perturbá-la. Então, em uma pesquisa com pessoas, espera-se que a redação das questões não influencie a opinião do entrevistado ou que a observação dos animais em uma população não afete relevantemente a distribuição ou o comportamento dessa população. Em uma pesquisa por amostragem as unidades observadas com a finalidade de fazer estimativas são chamadas unidades amostrais. Em muitas populações de pessoas ou institutições é fácil identificar o tipo de unidades que poderão vir a serem observadas e construir um cadastro das unidades da população, mesmo que seja difícil obter esse cadastro ou observar a amostra selecionada. As unidades podem ser pessoas, residências, hospitais ou empresas. Em muitos casos não é claro quais deveriam ser as unidades amostrais. Em uma pesquisa sobre recursos naturais ou sobre cultivo de um produto em uma região, a região pode ser dividida em unidades geográficas (parcelas ou segmentos) e uma amostra de unidades pode ser selecionada usando um mapa. O pesquisador tem a liberdade de escolher o tamanho e forma das unidades e essa escolha pode afetar o custo da pesquisa e a precisão dos estimadores. Vantagens da amostragem - No caso de população infinita ou tão grande que ultrapasse as possibilidades do pesquisador vir a realizar um censo. - Geralmente resulta mais barato obter informações de uma amostra que de toda a população. Os resultados podem ter uma boa precisão quando baseados em uma amostra corretamente selecionada, observada e processada. - A informação é coletada e resumida mais rapidamente, principalmente quando trata-se de populações grandes. - Podem ser obtidos dados mais abrangentes. Uma amostra pequena pode ser pesquisada integralmente, enquanto que pode ser impossível investigar a população inteira, ou muito custoso. - Pode ser utilizado pessoal melhor treinado, podem ser usados melhores instrumentos e podem ser feitos uma maior supervisão e controle de dados. - Permite obter dados que de outra maneira seriam impossíveis de obter. Por exemplo, para testar a vida útil de lâmpadas o fabricante certamente não vai queimar todas as lâmpadas, um médico não vai tirar todo o sangue de um paciente para analisar o grupo sanguíneo. - Em amostras probabilísticas podemos obter uma medida da confiabilidade dos resultados amostrais. Limitações da amostragem - Quando for necessário obter informações sobre todos os elementos da população, ou quando a informação deva-se estender a grupos ou áreas muito pequenas da população. Por exemplo: estimar o número de estabelecimentos comerciais em uma cidade. É fácil a comprovação de diferenças e pode originar desconfianças. - É necessário um bom conhecimento da teoria por parte dos planejadores, bem como um bom treinamento dos entrevistadores e supervisores. AMOSTRAGEM I 6 - Nos casos de amostra muito pequena pode ser mais conveniente utilizar amostragem não probabilística. Com o aumento do tamanho da amostra, a precisão da amostragem intencional permanece constante em quanto que a precisão da amostragem probabilística aumenta segundo o modelo matemático de uma rama hiperbólica. - Nem sempre é fácil cumprir, na prática, as pressuposições da amostragem probabilística e, frequentemente, as amostras resultam ‘mistas’ com certa componente intencional ou circunstancial. b) ESTATÍSTICA E uma função de variáveis aleatórias observáveis (sendo ela mesma uma variável aleatória) que não contém parâmetros desconhecidos. A anotação “observáveis” significa que é possível observar seus valores. Uma estatística é utilizada para fazer inferências sobre a densidade de variáveis aleatórias. Exemplo 1.1 Seja n21 x, ... , x,x uma amostra aleatória de uma densidade f (X, q ), onde X é a variável aleatória e q o parâmetro desconheciedo. n x x n i iå == 1 e t = ( ) ( )[ ]ii xMaxxMin +2 1 i = 1, 2, ..., n são estatísticas. Se q é desconhecido, então q-= xd não é uma estatística, já que depende de q . c) ESTIMADOR É qualquer estatística cujos valores são utilizados para estimar .q Identifica-se por ^ q . Exemplo 1.2 Se os valores de x são utilizados para estimar m , então x é um estimador de m . Similarmente, se ( ) ( )[ ]ii xMaxxMint += 2 1 i = 1, 2, ..., n é utilizado para estimar m então t é também estimador de m . Neste caso, ^ m = ( ) ( )[ ]ii xMaxxMin +2 1 . Estimador não viesado (não tendencioso, não viciado): Seja uma população com média m . Consideramos a média amostral como um estimador de m , isto é, mˆ=x . Tomando a esperança do estimador: ( ) ( ) m==E= ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ E=E å å å = = = N xn n x nn x x N i in i i n i i 1 1 1 11 Consideremos agora outro estimador: 1mˆ=+ ax ( ) aaxE +=+ m 1mˆ distribui-se ao redor de .a+m Intuitivamente dá para perceber que x é melhor estimador que ax + . AMOSTRAGEM I 7 Em termos gerais, quando o valor esperado (esperança matemática) da estatística utilizada como estimador é igual ao parâmetro, se diz que o estimador é não viciado. No exemplo 1.2, para estimar m , x é um estimador não viciado em quanto que ax +=q é viciado. d) ESTIMATIVA É o valor numérico que toma um estimador para uma determinada amostra. Exemplo 1.3 Uma amostra aleatória de 4 elementos forneceu os seguintes valores da variável X: 5, 7, 8, 4. Para estimar ,m n x x n i iå == 1 pode ser o estimador e 6 4 24 ==x a estimativa de m com base na amostra selecionada. Note-se que, para um determinado estimador, haverá diferentes estimativas dependendo da amostra selecionada. e) ESTIMAÇÃO POR PONTO E POR INTERVALO Considere-se que certa característica dos elementos de uma população pode ser representada por uma variável aleatória X cuja densidade é f (X, q ). Considere-se que é conhecida a forma da densidade, mas ela contém um parâmetro desconhecido ,q e que pode ser observada uma amostra aleatória n21 x, ... , x,x dessa distribuição. Utilizando os valores da amostra observada deseja-se estimar o valor do parâmetro desconhecido .q Esta estimação pode ser feita de duas maneiras: A primeira, chamada estimação por ponto consiste em utilizar o valor de uma estatística para estimar .q A segunda, chamada estimação por intervalo,consiste em definir duas estatísticas, 21 tt < de maneira que ( )21 t; t constituem um intervalo. Para esse intervalo pode ser determinada uma probabilidade dele conter o valor do parâmetro .q 1.2 DISTRIBUIÇÃO DA MÉDIA AMOSTRAL Se considerarmos todas as amostras possíveis, de tamanho n que podem ser extraídas de uma população de tamanho N, teremos uma população de médias amostrais. Essas médias são os valores de uma variável aleatória a qual tem uma determinada distribuição de probabilidades, com parâmetros xm e 2 xs . Média e variância de x Vejamos o seguinte exemplo: uma população consiste dos números 2,3,6,8,11. Consideremos todas as amostras possíveis de tamanho 2, que podem ser extraídas dessa população. Queremos determinar: (a) a média da população (μ), (b) o desvio padrão da população (σ), (c) a média da distribuição amostral das médias ( xm ) (d) o desvio padrão da distribuição amostral de médias, isto é, o erro padrão das médias ( x s ). AMOSTRAGEM I 8 Procederemos aos cálculos considerando, primeiro, amostragem com reposição: (a) m = 6 5 30 5 118632 == ++++ (b) 2s = ( ) ( ) ( ) ( ) ( ) 5 61168666362 22222 -+-+-+-+- = 8,10 5 2540916 = ++++ e s = 3,29 (c) a média da distribuição amostral das médias: Há 5(5) = 25 amostras de tamanho dois, com reposição. Essas amostras são: ( 2 , 2 ) ( 2 , 3 ) ( 2 , 6 ) ( 2 , 8 ) ( 2 , 11 ) ( 3 , 2 ) ( 3 , 3 ) ( 3 , 6 ) ( 3 , 8 ) ( 3 , 11 ) ( 6 , 2 ) ( 6 , 3 ) ( 6 , 6 ) ( 6 , 8 ) ( 6 , 11 ) ( 8 , 2 ) ( 8 , 3 ) ( 8 , 6 ) ( 8 , 8 ) ( 8 , 11 ) ( 11 , 2 ) ( 11 , 3 ) ( 11 , 6 ) ( 11 , 8 ) (11,11) As médias amostrais correspondentes são: 2,0 2,5 4,0 5,0 6,5 2,5 3,0 4,0 5,5 7,0 4,0 4,5 6,0 7,0 8,5 5,0 5,5 7,0 8,0 9,5 6,5 7,0 8,5 9,5 11,0 A média da distribuição amostral das médias é E( x ) = 25 25 1 å == i i x x m xm = 0,625 150 = que é igual a μ observe-se que mm =x na amostragem com reposição (d) o desvio padrão da distribuição amostral de médias: Var ( x ) = 2xs Variância de todas as médias amostrais. 25 )611(......)62( 25 22 25 1 2_ 2 -++-= ÷ ø ö ç è æ - = å =i x x x m s 40,5 25 1352 ==xs 3238,240,5 ==xs Observe que a mesma variância pode ser obtida por n 2s = 40,5 2 8,10 = AMOSTRAGEM I 9 então, para populações finitas envolvendo amostragem com reposição (ou populações infinitas), 2 xs = n 2s na amostragem com reposição, e n x /ss = é o erro padrão da média Resolveremos, agora, para o caso de amostragem sem reposição. Tal como em (a) e (b), a) 6=m b) 8,102 =s 29,3=s (c) Há 5C2=10 amostras de tamanho 2, sem reposição, que podem ser extraídas da população (isto significa que podemos extrair um número e em segiuda outro número diferente do primeiro), a saber: (2,3) (2,6) (2,8) (2,11) (3,6) (3,8) (3,11) (6,8) (6,11) (8,11) As médias amostrais correspondentes são: 2,5 4,0 5,0 6,5 4,5 5,5 7,0 7,0 8,5 9,5 e a média da distribuição amostral de médias é 10 5,95,80,70,75,55,45,60,50,45,2 +++++++++ =xm = 6,0 ou seja, m=mX na amostragem sem reposição. d) A variância da distribuição amostral de médias é 05,4 10 )0,65,9(...)0,60,5()0,60,4()0,65,2( 22222 _ = -++-+-+- = x s xs =2,01 . Podemos obter a variância da média utilizando uma fórmula, vejamos: nN nN x 2 2 1 s s - - = = 05,4 8 4,32 2 8,10 4 3 2 8,10 15 25 === - - , Então, nN nN x 2 2 1 s s - - = na amostragem sem reposição. Exemplo 1.4: Suponhamos que as alturas de 3.000 estudantes de sexo masculino em uma universidade têm média 68" e desvio padrão 3". Extraindo-se amostras de 25 estudantes cada uma, quais seriam a média e o desvio padrão da distribuição amostral de médias no caso de (a) amostragem com reposição, (b) amostragem sem reposição? A quantidade de amostras com reposição e sem reposição, de tamanho 25, de um grupo de 3.000 são, respectivamente, (3.000)25 e 3.000C25 , ambos muito grandes. Neste caso, não há condições de listar todas as amostras possíveis. A média e o desvio padrão esperados podem ser calculados pela distribuição teórica. Temos, então, AMOSTRAGEM I 10 a) Amostragem com reposição: 0,68X =m=m polegadas e xs 6,025 3 === n s polegadas b) Amostragem sem reposição: 0,68==C mm polegadas e 5976,0 13000 253000 25 3 1 = - - = - - = N nN nx s s polegadas que difere apenas por muito pouco de 0,6" podendo, para fins práticos, ser considerado como o mesmo valor obtido por amostragem com reposição. Podemos, então, afirmar que a distribuição das médias tem distribuição aproximadamente normal com média 68" e desvio padrão 0,6". 1.3 TEOREMA CENTRAL DO LIMITE. Seja X uma variável aleatória com média μ e variância finita σ2 e x a média de uma amostra aleatória de tamanho n. Seja a variável n x xVar xExZ s m- = - = ___ )( )( A distribuição de Z aproxima-se da distribuição N(0,1) à medida que n tende a ¥ . Este teorema diz que a distribuição limite de Z (distribuição de x padronizada) é uma Normal padrão e, portanto, x é aproximadamente, ou assintoticamente, distribuída como uma normal com média μ e variância σ2/n. Este teorema torna-se uma ferramenta muito poderosa pelo fato de que não é feita nenhuma suposição a respeito da forma da distribuição de X. Independentemente da distribuição de X, a média amostral tem uma distribuição Normal para amostras grandes. No caso em que X tem distribuição normal, a distribuição exata da média amostral também é Normal. Na prática, muitas populações que são observadas em diferentes campos de aplicação possuem uma distribuição aproximadamente normal 1.4 INTERVALOS DE CONFIANÇA Suponha-se que X tenha distribuição ( ),,N 2sm 2s conhecido, enquanto m é o parâmetro desconhecido. Seja x1, ... ,xn uma amostra aleatória simples com reposição de X e seja x a média amostral. Sabemos que x tem distribuição N( n , 2s m ); portanto n xZ s m- = tem distribuição N(0,1). AMOSTRAGEM I 11 Observe-se que, muito embora Z dependa de m , sua distribuição de probabilidade não depende. Empregaremos este fato da seguinte maneira: Considere-se ÷÷ ø ö çç è æ £ - £-=- 2/2/1 aa s m a znxzP ÷÷ ø ö çç è æ +££-= ÷÷ ø ö çç è æ -+£-£--= n z x n z xP x n zx n zP s m s s m s aa aa 2/2/ 2/2/ Esta expressão mostra o intervalo de confiança do parâmetro m em amostragem com reposição (populações infinitas), sendo ÷÷ ø ö çç è æ +- n z x n z x ss aa 2/2/ ; os limites desse intervalo. Suponha, por exemplo, que X represente a duração da vida de um determinado tipo de peça de equipamento. Admita-se que 100 peças, selecionadas com reposição, sejam testadas, fornecendo uma duração de vida média x = 501,2 horas. Suponha-se que s seja conhecido e igual a 4 horas, e que se deseje obter um intervalo de confiança de 95% para a duração média de vida desse tipo de peça, m . Nesse caso, encontraremos o seguinte intervalo de confiança para m : n=100 x = 501,2 horas s = 4 horas α = 0,05 zα/2=1,96 IC 95% = ( ) ( ) 784,0,784,096,1 10 4;96,1 10 4 ____ +-=+- xxxx , que torna-se (500,4 ; 501,98) horas, ou, aproximadamente, (500 ; 502) horas. Deve-se observar que o intervalo( x -0,784, x +0,784) e o intervalo (500,4 ; 501,98) são chamados, ambos, intervalos de confiança ou, mais precisamente, intervalos com 95% de confiança. O intervalo (500,4;501,98) é o valor do intervalo aleatório ( x -0,784, x +0,784) para a amostra observada. A interpretação é a seguinte: a probabilidade de que o intervalo aleatório ( x -0,784; x +0,784) contenha a média verdadeira, m , é 0,95. Isto é, se forem retiradas repetidamente amostras de tamanho 100 dessa população de lâmpadas e, para cada amostra for calculado o intervalo ( x -0,784; x +0,784), a proporção de intervalos que iriam conter o verdadeiro valor do parâmetro seria 0,95. Portanto, temos confiança de 95% de que o intervalo (500,4 ; 501,98) horas contém a média verdadeira. A medida da confiança é 95% por que, antes de ser selecionada a amostra, 0,95 era a probabilidade de que o intervalo que iríamos construir contivesse a média. 0,95 é chamado o coeficiente de confiança. Da mesma maneira podem ser obtidos intervalos com qualquer coeficiente de confiança desejado, por exemplo, sabendo que, para uma confiança de 0,99, zα/2=2,58, é obtido o intervalo )032,1;032,1( __ +- xx com 99% de confiança e, substituíndo o valor da média amostral, chegamos ao intervalo (500,168 ; 502,232) horas. AMOSTRAGEM I 12 1.5 DISTRIBUIÇÃO t DE STUDENT A análise do exemplo 1.5 dependeu inteiramente do fato de que a variância 2s era conhecida. Como deverá ser modificado nosso procedimento, se não conhecermos o valor de 2s ? Suponha-se que estimemos 2s empregando o estimador não-tendencioso ( )å = - - == n i i xxn s 1 222 . 1 1 sˆ Consideraremos a variável aleatória t = ( ) s nx m- Esta variável tem uma distribuição conhecida como distribuição de t de Student, com n-1 graus de liberdade, cuja representação é a seguinte:. Propriedades da distribuição t: 1) Tem média 0; 2) Simétrica ao redor de 0; 3) Definida no intervalo ( ¥¥- , ); 4) A curva da distribuição t é definida pelos graus de liberdade (parâmetro da distribuição). Os graus de liberdade correspondem ao denominador de s2, ou seja, para amostras aleatórias simples a distribuição t tem n-1 g.l. Por tanto, cada valor de g.l. origina uma curva t diferente; 5) A curva da distribuição t é semelhante à curva normal, um pouco mais achatada e com caudas mais altas; 6) A distribuição t se aproxima à distribuição normal padrão à medida que aumentam os graus de liberdade. Para g.l.=30 já existe pouca diferença entre as duas curvas. A curva t coincide com a normal quando g.l.= ¥ . A distribuição t foi publicada pela primeira vez em 1908 por W.S. Gosset. Na época, Gosset era empregado em uma cervejaria da Irlanda que proibia seus pesquisadores de fazer publicações. Então, o Gosset publicava com o pseudónimo de ‘Student’. Consequentemente, a distribuição t ficou conhecida como ‘distribuição t de Student’ ou, simplesmente, distribuição t. AMOSTRAGEM I 13 Voltaremos, agora, ao problema apresentado no início desta seção: Como obteremos um intervalo de confiança para a média de uma variável aleatória normalmente distribuída, se a variância for desconhecida? De maneira inteiramente análoga àquela empregada na secão anterior, obteremos o seguinte intervalo de confiança para m , com coeficiente de confiança (1-a ): ÷÷ ø ö çç è æ +- ---- )21,1()21,1( , aa nn tn sxt n sx Desse modo, o intervalo de confiança acima apresenta a mesma estrutura que o anterior, com a importante diferença de que o valor conhecido de s foi substituído pela sua estimativa s e a constante z1- a /2, que anteriormente era obtida das tábuas da distribuição normal, foi substituída por t n )2/1,1( a-- , esta obtida das tábuas da distribuição t. Exemplo 1.5 Dez mensurações foram feitas para a resistência de um certo tipo de fio, fornecendo os valores x1,...,x10. Suponha-se que x =10,48 ohms e ( )å = -= 10 1 2 9 1 i i xxs =1,36 ohms. Vamos supor que X tenha distribuição N( 2,sm ) e que desejamos obter um intervalo de confiança para m , com coeficiente de confiança 0,90. Portanto, .10,0=a Das tábuas da distribuição t encontraremos que t9; 0,95=1,83. consequentemente, o intervalo de confiança procurado será ( )( ) ( )( ) =ú û ù ê ë é +- 83,136,1 10 148,10;83,136,1 10 148,10 (9,69; 11,27) ohms. 1.6 AMOSTRAGEM PROBABILÍSTICA E NÃO PROBABILÍSTICA A amostragem é probabilística quando é possível calcular com antecedência a probabilidade de se obter cada uma das amostras possíveis de selecionar. Para isto é necessário que a seleção possa ser considerada como um experimento aleátorio de acordo com a teoria da probabilidade. Todas as unidades da população devem ter p>0 de entrar na amostra. É importante observar que a aleatoriedade não é uma característica de uma determinada amostra mas sim do processo pelo qual foi obtida. A seleção probabilística de amostras retira fontes humanas de erro, tais como tendências conscientes ou inconscientes de selecionar unidades com valores maiores (ou menores) que a média na variável de interesse. Na amostra probabilística é possível quantificar os erros de amostragem, ou discrepâncias entre as estimativas amostrais e os valores populacionais que seriam obtidos observando todas as unidades da população. Estes erros amostrais são inevitáveis. O uso de amostragem probabilística permite que sejam feitas estimativas da magnitude média desses erros; permite támbem pré-fixar certos detalhes como o tamanho de amostra, de maneira que a magnitude média dos erros de amostragem não ultrapasse um valor pré-determinado com uma probabilidade pré-determinada. Ou seja, os métodos probabilísticos permitem o controle da precisão das estimativas amostrais dentro de determinados limites fixados com antecedência (intervalos de confiança). AMOSTRAGEM I 14 Os procedimentos de amostragem probabilística possuem as seguintes características: 1. Ë possível definir o conjunto de amostras diferentes, S1, S2,........,Sυ, a serem obtidas quando o procedimento é aplicado a uma população específica. 2. Cada amostra possível tem uma probabilidade de seleção πi. 3. Ë selecionada uma das Si por um processo aleatório no qual cada Si recebe sua probabilidade πi de seleção. 4. O método para computar a estimativa a partir da amostra deve ser definido e cada amostra deve produzir uma estimativa única. Um procedimento que satisfaz estas propriedades permite calcular a distribuição de freqüências das estimativas geradas se for aplicado repetidamente à mesma população. Na prática, aplicar um procedimento probabilístico listando todas as amostras possíveis e suas probabilidades correspondentes não é prático, para uma população grande, um procedimento amostral pode produzir bilhões de amostras possíveis. A seleção é feita na prática especificando probabilidades de inclusão para as unidades individuais selecionando-as uma a uma ou em grupos até que se tenha a amostra do tamanho desejado. Para fins teóricos é suficiente saber que é possível listar as Si e as πi. Amostragem não probabilística é um procedimento pelo qual não podem ser associadas probabilidades de seleção às unidades e por tanto, não é possível determinar a confiabilidade dos resultados da amostra em termos probabilísticos. Exemplos de amostragem não probabilística são amostragem intencional, amostragem sem norma, amostragem por cotas, etc. Nesses tipos de amostragem não há maneira de avaliar os resultados, já que estes não dependem de critérios objetivos, tal como a teoria de probabilidade. Os métodos não probabilísticos não são, necessariamente, métodos ruinsde amostragem. Em alguns casos há necessidade de utilizá-los, os resultados podem ser bons e o procedimento pode ser económico. Por exemplo, um agrónomo pode selecionar uma amostra de grãos de trigo do topo de um monte para estudar sua qualidade, por ser fisicamente impossível selecionar uma amostra aleatória de algum lugar no centro do monte. No entanto, de larga experiência, o agrónomo pode saber que o trigo está distribuído de maneira uniforme. Neste caso, uma pequena amostra intencional do topo do monte pode ser suficiente. A amostragem por cotas é amplamente utilizada, especificamente em pesquisas de opinião e, se bem selecionada, pode oferecer resultados bastante precisos. Existem casos, no entanto, em que métodos não probabilísticos podem levar a estimativa com erros muito grandes. 1.7 ERROS AMOSTRAIS E NÃO AMOSTRAIS Nas amostras probabilísticas supõe-se que o valor observado na unidade xi é o valor correto. O erro de estimação acontece pela variação aleatória de n unidades de uma população de N unidades. Este erro é quantificado pela teoria de estimação, através dos intervalos de confiança. Existem outras fontes de erro, os erros não amostrais, que podem estar presentes em uma pesquisa por amostragem, tais como: a) a não observação de todas as unidades da amostra selecionadas (por exemplo, não localizar algumas pessoas, recusa em responder, etc), b) erros na medida de uma unidade. A ferramenta de medida pode ser imprecisa (exemplo: uma balança para pesar objetos), pessoas que não lembram as respostas precisas ou dão informações erradas, AMOSTRAGEM I 15 c) Erros introduzidos no processamento dos dados (digitação, etc). Os erros não amostrais podem e devem ser evitados utilizando métodos de controle adequados, já que, pela falta de métodos adequados para quantificá-los, podem comprometer a qualidade de uma pesquisa. 1.8 PLANEJAMENTOS AMOSTRAIS PROBABILÍSTICOS Os tipos de planejamentos amostrais mais utilizados são os seguintes: 1. AMOSTRAGEM ALEATÓRIA SIMPLES. Consiste na seleção de n unidades amostrais de tal forma que cada amostra tenha a mesma chance de ser escolhida. A seleção pode ser feita com ou sem reposição. 2. AMOSTRAGEM ESTRATIFICADA. A população é dividida em estratos (exemplo: sexo, renda, bairro) e uma amostra aleatória simples é selecionada em cada estrato. 3. AMOSTRAGEM POR CONGLOMERADOS. A população é dividida em subpopulações distintas, chamadas conglomerados (exemplo: quarteirões, residências, famílias, bairros). Alguns dos conglomerados são selecionados por amostragem aleatória simples e todos os indivíduos desses conglomerados são observados. 4. AMOSTRAGEM EM DOIS ESTÁGIOS (BI-ETÁPICA). A população é dividida em conglomerados. Num primeiro estágio, são selecionados alguns conglomerados e depois, num segundo estágio, uma amostra de unidades é selecionada de cada um dos conglomerados selecionados no primeiro estágio. O processo pode ser estendido a mais de duas etapas. 5. AMOSTRAGEM SISTEMÁTICA. Quando existe disponível uma listagem de indivíduos da população pode-se sortear, por exemplo, um nome entre os primeiros 10 indivíduos e então observar todo décimo indivíduo a partir do primeiro selecionado. A seleção do primeiro indivíduo pode ser feita usando amostragem aleatória simples, os demais indivíduos são selecionados sistematicamente. FÓRMULAS 1.1. DISTRIBUIÇÃO DA MÉDIA AMOSTRAL Tipo de seleção Média Variância Com reposição x m = m nx 2 2 ss = Sem reposição x m = m nN nN x 2 2 1 s s - - = AMOSTRAGEM I 16 2. AMOSTRAGEM ALEATÓRIA SIMPLES 2.1 DEFINIÇÃO Amostragem aleatória simples é um método de selecionar n unidades de uma população de tamanho N, de maneira que cada uma das amostras possíveis tenha a mesma probabilidade de ser selecionada. Na prática, uma amostra aleatória simples é selecionada extraindo-se uma unidade cada vez, as unidades da população são numeradas de 1 a N e depois são obtidos números aleatórios obtidos da tabela ou gerados no computador. Em cada estração, o processo utilizado deve garantir igual chance de seleção a todos os números da população que ainda não foram selecionados. As unidades correspondentes aos n números sorteados constituem a amostra. Duas amostras são consideradas diferentes quando têm pelo menos um elemento diferente. Exemplo: na população A B C D E F G as amostras ABCD e ABED são diferentes. A seleção na amostragem aleatória simples pode ser feita de duas maneiras: sem reposição e com reposição. 2.2 TIPOS DE SELEÇÃO a) Sem reposição - Um elemento selecionado em uma extração é excluído da população para as extrações subseqüentes. Neste esquema, todos os elementos da mesma amostra devem ser diferentes. Há )!nN(!n !N n N - =÷÷ ø ö çç è æ amostras possíveis na seleção sem reposição. b) Com reposição - Neste caso, todos os N elementos da população permanecem em todas as extrações, isto é, uma unidade selecionada em uma extração é reposta e pode ser extraída novamente. Assim, um elemento pode-se repetir na mesma amostra. Há Nn amostras possíveis na seleção com reposição. 2.3 PROBABILIDADES ASSOCIADAS AO ESQUEMA DE AMOSTRAGEM ALEATÓRIA SIMPLES a) Probabilidade de seleção das amostras possíveis de tamanho n de uma população de tamanho N. Pela definição de amostragem aleatória simples, todas as amostras possíveis possuem igual chance de serem selecionadas. Vejamos: Amostragem sem reposição: Seja, por exemplo, a população A,B,C,D,E (N = 5) e queremos achar a probabilidade de selecionar uma amostra de tamanho n = 2 sem reposição. A probabilidade de selecionar um elemento (por exemplo, A) na 1a extração é 1/N. A probabilidade de selecionar um segundo elemento (por exemplo, B) na 2a extração é 1 1 -N . Sendo as extrações independentes, a probabilidade de selecionar a amostra AB, nessa ordem é 1N 1 N 1 - , a amostra AUB pode ser obtida de 2! = n! maneiras possíveis na amostragem sem reposição. AMOSTRAGEM I 17 Então, P(Amostra de tamanho 2) = ÷÷ ø ö çç è æ = - = - 2 N 1 !2 )1N(N 1!2 1N 1 N 1 Em geral, P(amostra de tamanho n) ÷÷ ø ö çç è æ = n N 1 Amostragem com reposição: Na amostragem com reposição, as probabilidades de seleção permanecem constantes. Portanto, a probabilidade de selecionar a amostra AB é N 1 N 1 e P (amostra de tamanho n) = N 1..... N 1 = nN 1 b) Probabilidade de um elemento ser selecionado na extração i: Vejamos que, na amostragem aleatória simples, a probabilidade de seleção é igual para todas as unidades, razão que justifica a seleção de cada unidade individualmente. Amostragem sem reposição: P(A na 1a extração) = 1/N P(A na 2a ) = P(≠ A na 1a) X P(A na 2a/≠ A na 1a) = N 1 1N 1 N 1N = - - P(A na 3a)=P( ¹ A na 1a) X P( ¹ A na 2a/ ¹ A na 1a) X P(A na 3a/ ¹ A na 1a e ¹ A na 2a) N 1 2N 1 1N 2N N 1N = -- -- = Então, na amostragem sem reposição, a probabilidade de um elemento A ser selecionado na extração i é 1/N para i=1,2,...,n. Amostragem com reposição: A probabilidade de um elemento ser selecionado na extração i na amostragem com reposição é N 1 para qualquer i = 1, 2, ..., n. 2.4 PARÂMETROS E SEUS CORRESPONDENTES ESTIMADORES POR PONTO a) MÉDIA POPULACIONAL DEFINIÇÃO: A média populacional é definida por: N x N i iå == 1m AMOSTRAGEM I 18 ESTIMADOR DA MÉDIA Seja n x x n i iå === 1mˆ o estimador de m Prova-seque E ( ) m=x , isto é, a média amostral é um estimador não viciado da média populacional. Prova-se, também que a média amostral é um estimador com outras propriedades matemáticas que fazem dela o melhor estimador de m . b) TOTAL POPULACIONAL DEFINIÇÃO O total da variável X na população é definido por: å = = N i ixT 1 ESTIMADOR DO TOTAL Sendo mNx N i i ==T å =1 uma função algébrica de μ, o seu estimador é xN=Tˆ Da mesma maneira que x é um estimador não viciado para μ, xN=Tˆ é um estimador não viciado para T. Suponha-se que uma amostra de tamanho n=50 de uma população de tamanho N=1000 teve uma média 12=x 12000121000ˆ =´=T Tˆ é um estimador não viciado de T ( ) ( ) T==E=TE mNxNˆ c) VARIÂNCIA POPULACIONAL: DEFINIÇÃO Em teoria de amostragem são utilizadas duas definições alternativas da variância da população: ( ) 2 1 2 1 å = -= N i ixN ms VARIÂNCIA ( ) 2 1 2 1 1 å = - - = N i ixN S m VARIÂNCIA CORRIGIDA. ESTIMADOR DA VARIÂNCIA DA POPULAÇÃO Para estimar a variância da população utiliza-se a variância da amostra, levando em conta o tipo de seleção (sem reposição ou com reposição) e a variância a ser estimada (σ2 ou S2) AMOSTRAGEM I 19 Amostragem sem reposição: A variância amostral ( ) 1 1 2 2 - - = å = n xx s n i i é um estimador não viciado de S2 na amostragem sem reposição, ou seja, E(s2) = S2. Demonstração O numerador de s2 pode ser transformado algebricamente da seguinte maneira: ( ) =-å = n i i xx 1 2 ( ) ( )[ ]å = --- n i i xx 1 2 mm 2 1 2 1 22 1 )()( )()()(2)( mm mmmm ---= -+----= å åå = == xnx xnxxx n i i n i i n i i Calculando agora a esperança dessa expressão temos: ( ) ( ) ( ) ( ) 2 1 2 1 2 11 2 11 SN N nx N nx N xE N i i N i i n i n i i -=-=-=ú û ù ê ë é - åååå ==== mmm ( )[ ] ( ) 22222 S N nN n S N nNnnxnExnE X - = - ==-=- smm Então, ( ) ( ) ( ) ( ) 2 2 22 2 2 1 )1( 1 1 1 SnNnnN nN SS N nNS N Nn nn xxs i =+-- - -=úû ù êë é -- - - = - - E=E Portanto fica demonstrado que E(s2) = S2 na amostragem sem reposição. Se queremos expressar E(s2) em função de 2s podemos utilizar a relação: 22 1N NS s - = ( ) 22 1N NsE s - = e, portanto, 2s N 1N - é um estimador não viciado de 2s na amostragem sem reposição. Amostragem com reposição: ( ) 1 1 2 2 - - = å = n xx s n i i é um estimador não viciado de 2s na amostragem com reposição, isto é, E (s2) = s2 AMOSTRAGEM I 20 Da mesma maneira; ( ) 22 S N 1NsE -= e 2s 1N N - é um estimador não viciado de S2 na amostragem com reposição. d) VARIÂNCIA DA MÉDIA AMOSTRAL DEFINIÇÃO: Amostragem sem reposição (populações finitas). Na amostragem sem reposição a variância de x é: n S N n n S N nN nN nN x 222 2 1 1 ÷ ø ö ç è æ -= - = - - = s s Demonstração ( ) 2 1 2 122 ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ - = ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ -=-= åå == n nx E n x ExE n i i n i i x m mms 2 1 2 1 1 )( ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ - = ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ - = åå å == = n x E n x E n i i n i n i i mm ( ) ( )( )ú û ù ê ë é --+-= å å = =¹ n i n ji jii xxxEn 1 1 2 2 1 mmm xs ( ) ( )( )mmm --+-= å å = ¹ ji n i n ji i xxEn xE n 1 2 2 2 11 Aplicando Esperança a cada um dos termos do lado direito da equação temos: ( ) 2 1 22 )(1 smm å = =-=- N i ii xN xE ( )( ) ( ) ( )( )mmmm ---=-- å=¹ j N ji iji xxNN xxE 11 1 , já que a probabilidade de selecionar ix e jx na i-ésima e j-ésima extração é ( )1NN 1 - na amostragem sem reposição. AMOSTRAGEM I 21 ( )( ) ( )( ) ( ) ( )å ååå åå = ===¹ =¹¹ -=--=--ú û ù ê ë é -=-- -- - += N i N i ii N i i N ji ji j N ji i n ji x Nxxxxx Mas xx NNn n n 1 1 222 2 11 1 2 2 2 2 )(0 , 1 1111 smmmmm mmss então: ÷÷ ø ö çç è æ - - += å ¹ n ji x NNNnn 2 2 22 1 1111 sss ( ) 222 1nNn1N 1 N 1 n 1 n 1 s- - -s= ( ) nN nN N nN nN n n 222 11 11 1 11 sss - - =÷ ø ö ç è æ - +-- =÷ ø ö ç è æ - - -= Os fatores 1- - N nN e N nN - são chamados fatores de correção para populações finitas. O fator de correção N nN - é freqüentemente apresentado como N n -1 N n é chamada fração de amostragem. Quando o tamanho de população é grande em relação ao tamanho da amostra, pode acontecer que a fração de amostragem, N n tende a zero. Isto é levado em conta para considerar a aplicação das fórmulas referentes a amostragem com e sem reposição. Quando 05,0< N n a fração de amostragem tem um valor muito pequeno e pode ser omitida do cálculo de .2xs Uma fração de amostragem de 0,05 significa uma taxa de seleção de 1 em 20. Então, quando a taxa de amostragem é de 1 em 20, 1 em 30, 1 em 40, etc, omite-se a fração de amostragem e considera-se n S x 2 2 »s xs é o desvio padrão da média amostral, chamado também erro padrão da média amostral. Então, na amostragem sem reposição: ( ) ÷ ø ö ç è æ -= - =ER= N n n S n S N nNxx 1 22 s AMOSTRAGEM I 22 Amostragem com reposição (ou populações infinitas). Pode-se mostrar que, na amostragem com reposição, a variância da média é: n S N N nx 22 2 1-== ss ( ) ( ) n S N Nxx 21- =ER=s ESTIMADOR DA VARIÂNCIA DA MÉDIA AMOSTRAL n sˆ 2 2 x =s amostragem aleatória simples com reposição. n s N n n s N nN x 22 2 1ˆ ÷ ø ö ç è æ -= - =s amostragem aleatória simples sem reposição Em ambos os casos, 2xsˆ é estimador não viciado de 2 xs mas xsˆ é um estimador viciado de xs . e) VARIÂNCIA DE Tˆ Sendo xN=Tˆ Var ( Tˆ ) = ( ) 222ˆ var xNxN ss ==T n N 2 22 ˆ s =s T com reposição n S N nNN 2 22 ˆ - =s T sem reposição ESTIMADOR DE 2 Tˆ s n sNˆ 2 22 Tˆ =s com reposição ( ) n snNNˆ 2 2 ˆ -=sT sem reposição 2.5 ESTIMADORES POR INTERVALO (INTERVALOS DE CONFIANÇA) O intervalo de confiança utiliza, como base, o estimador por ponto. Utilizaremos o estimador por ponto como centro do intervalo. Os limites do intervalo são definidos em função da distribuição do estimador (t ou Z nos parâmetros que estamos estimando) e do desvio padrão desse estimador ( xs quando s é conhecido ou n grande ou xsˆ no caso de s desconhecido e n pequeno). AMOSTRAGEM I 23 a) ESTIMADOR DA MÉDIA POPULACIONAL, m. Na definição dos intervalos de confiança serão consideradas várias situações: a) s conhecido: IC (1 - a) 100% param = ( )xzx sa 2/± b) s desconhecido, n grande: IC (1 - a) 100% para m = ( )xzx sa ˆ2/± c) s desconhecido, n pequeno: IC (1 - a) 100% para m = ( )xntx sa ˆ)1(2/ -± xs ou xsˆ serão substituídas pelas expressões correspondentes ao tipo de seleção utilizada (sem reposição ou com reposição), originando, desta maneira uma fórmula para o Intervalo de Confiança em cada caso. b) INTERVALOS DE CONFIANÇA PARA T Os intervalos de confiança para T serão definidos seguindo o mesmo procedimento que no caso dos intervalos para m. a) s conhecido ÷÷ ø ö çç è æ +T-T ^^ 22 ˆ;ˆ TT zz ss aa b) s desconhecido, n grande ÷÷ ø ö çç è æ +T-T ÙÙ ^^ 22 ˆ;ˆ TT zz ss aa c) s desconhecido, n < 30 ( ) ( ) ÷ ÷ ø ö çç è æ ss- - a - a Tˆ1n 2 Tˆ1n 2 ˆt+Tˆ ; ˆtTˆ 2.6 TAMANHO DA AMOSTRA PARA ESTIMAR m. Pretende-se determinar o tamanho da amostra, n, de tal maneira que o estimador obtido para m tenha um erro máximo absoluto de estimação (erro amostral) que chamaremos e, com uma confiança (probabilidade) determinada. O erro de estimação, e, será obtido da definição de intervalo de confiança xze sa 2/= ou xze sa ˆ2/= . Com base nessa definição, será calculado o tamanho de amostra mínimo, substituindo-se o desvio padrão da média pela expressão correspondente ao tipo de seleção utilizado. a) Populações infinitas. Chamaremos n0 o tamanho da amostra para populações infinitas (amostragem com reposição) AMOSTRAGEM I 24 0 2/ n sze a= 2 22 0 2/ e sz n a= b) Populações finitas. Seja n o tamanho de amostra para populações finitas (amostragem sem reposição): n s N nNze -= n e 2 22 s N n-N z = 1 - n N = n n-N = 22 2 sz Ne 222 22 22 222 22 2 Nz = e N = 1e N = szNe s sz szN sz N n ++ + Ne sz e sz n 2 22 2 22 1+ = 0 0 0 0 1 nN nNn N n nn + = + = Exemplo 2.1 Seja uma população com s2 = 600. Achar o tamanho de amostra necessário para estimar m com erro máximo absoluto de 5 unidades, para uma população infinita (Z=3). 216 25 6009n 0 = ´ = Suponha agora população finita. N = 2000 195 2162000 2162000n = + ´ = Se N fosse 20000, n = 214, ou seja, o tamanho da população teria pouco efeito sobre o tamanho da amostra se comparado com n0 = 216. AMOSTRAGEM I 25 2.7. ESTIMAÇÃO DA PROPORÇÃO P NA AMOSTRAGEM ALEATÓRIA SIMPLES Vamos supor que cada unidade da população pode ser classificada em uma de duas possíveis categorias (classes): C e C’. Considere-se sucesso se a unidade pertence à classe C e insucesso se pertence à clase C’ Em geral, usaremos a seguinte notação: População Amostra Unidades em C A a Unidades em C’ N-A n-a Proporção de unidades em C . N A = P . n apPˆ == Parâmetro Estimador Proporção P . n apPˆ == Número total de unidades A PˆNAˆ = ou n NaAˆ = a) SELEÇÃO SEM REPOSIÇÃO. DISTRIBUIÇÃO HIPERGEOMÉTRICA: Definição: O número de unidades da população em C e C’ é A e N - A respectivamente. A probabilidade de selecionar uma amostra sem reposição com “a” unidades em C e “n-a” unidades em C’ é dada pela distribuição hipergeométrica ( ) ÷÷ ø ö çç è æ ÷÷ ø ö çç è æ - - ÷÷ ø ö çç è æ = n N an AN a A naP a-, O cálculo de probabilidades da distribuição hipergeométrica torna-se complexo quando a população é grande. b) Limites de Confiança: Para a aplicação dos limites de confiança usando a distribuição hipergeométrica existem tabelas que dão valores de IC 90, 95 e 99% para P, para valores de N = 500, 2500 e 10.000 (Chung and De Lury). Outras tabelas por Lieberman and Owen dão IC para valores N até 100. b) SELEÇÃO COM REPOSIÇÃO. DISTRIBUIÇÃO BINOMIAL: A população contém A unidades em C e N - A unidades em C’. Assim, se a unidade selecionada na primeira extração é de C, a proporção de unidades em C muda AMOSTRAGEM I 26 para . 1 1 - - N A Alternativamente, se a 1º unidade amostrada foi de C’, a proporção de unidades em C varia para . 1-N A Em amostragem sem reposição a proporção continua mudando de uma extração para outra. Se A e N-A são grandes em relação ao tamanho da amostra n, podemos ignorar essas variações e considerar P constante, utilizando a distribuição binomial. A probabilidade da amostra conter “a” unidades do grupo C é ( ) ( ) a-na Q P !an!a !naP - = a = 0, 1, ...., n c) APROXIMAÇÃO NORMAL: Pode ser utilizada quando n .30³ Para qualquer unidade da amostra, ou na população, podemos definir a variável X como: xi=1 se a unidade pertence a C e 0 se pertence a C’. Então, uma proporção pode ser considerada como um caso especial da média onde a variável xi toma somente os valores 0 e 1. Por exemplo, queremos achar a proporção de pessoas que utilizam a marca S de sabão, definimos a variável xi = 0 quando a pessoa não usa sabão S xi = 1 quando a pessoa usa sabão S Então, Ax N i i ==T å =1 é o número de pessoas que usam o sabão S, e P N A N x n i i === å =1m é a proporção correspondente. 1- P = Q O problema de estimar A e P pode ser visualizado como o de estimar o total e a média de uma população na qual cada ix é 1 ou 0. Neste caso, NPAxx N i i N i i === åå == 11 2 e na amostra, å = = n i i ax 1 Pnax n i i ˆ 1 2 ==å = pP n a n x x n i i ==== å = ˆ1 AMOSTRAGEM I 27 Portanto, a variância corrigida da população é: ( ) ( )P N - P 1 1 1 1 21 22 1 2 2 N NN Nx N x S n i i n i i - = - - = - - = åå == mm Q P 1N NS2 - = e Q P2 =s Similarmente, a variância amostral: ( ) 1 Pˆn -Pˆ 11 2 2 1 2 1 2 2 - = - - = - - = åå == n n n xnx n xx s n i i n i i 1-n Qˆ Pˆ ns2 = Aplicando os conceitos dos estimadores da média e do total, teremos as seguintes expressões para a população: Proporção Amostral. A proporção amostral n aPˆ = é um estimador não viciado da proporção populacional P. VARIÂNCIA DE Pˆ : a) Definição: A variância de Pˆ na amostragem sem reposição (população finita) é ( ) n Q P 1-N N N nN n S N nNPˆPE 222 Pˆ - = - =-=s n Q P 1N nN2 Pˆ - - =s Similarmente, n Q P2 Pˆ =s na amostragem com reposição (população infinita). A variância de Pˆ ˆ NA = , o número estimado de unidades na classe C, na amostragem sem reposição é n Q P 1-N n-N N N 22 Aˆ 2 Pˆ 22 Aˆ =s s=s b) Estimador da variância de Pˆ e de Aˆ : Um estimador não viciado da variância de ,Pˆ obtido da amostra, é baseado no estimador da variância de x : nN nN x 2 2 s ˆ -=s amostragem sem reposição e, AMOSTRAGEM I 28 nx 2 2 s ˆ =s amostragem com reposição Sabendo que 1-n Qˆ Pˆ ns 2 = substituímos nas expressões anteriores e obtemos: 1-n Qˆ Pˆ ˆ 2ˆ N nN P - =s na amostragem sem reposição (pop. finita) e 1-n Qˆ Pˆˆ 2 Pˆ =s na amostragem com reposição (pop. infinita). Procedendo similarmente partimos de: n sNˆ 2 22 Tˆ =s amostragem com reposição( ) n snNNˆ 2 2 ˆ -=sT amostragem sem reposição e obtemos: Qˆ Pˆ 1 ˆ 2 2 ˆ - = n N As com reposição ( ) Qˆ Pˆ 1n nNNˆ 2 Aˆ - - =s sem reposição Exemplo 2.2: De uma lista de 3042 nomes e endereços, uma amostra aleatória simples sem reposição de 200 nomes tem 38 endereços errados. Estime o número total de endereços errados e o erro padão do estimador. Temos N = 3042, n = 200, a = 38, 0,19=Pˆ O número de endereços errados é estimado em ( ) ( ) 57819,0 3042=Pˆ NAˆ == . 1-n QˆPˆ N nNˆ pˆ - =s ( )( ) ( )( ) ( )199 3042 0,81 0,19 2842ˆ Pˆ =s = 0,0268797 ( ) 768,810,02687973042ˆNˆ pˆAˆ ==s=s A fração de amostragem, n / N, é menor que 7%. Se fizermos a aproximação N - n = N e n - 1 = n, fica ( )( ) 0277,0 200 0,81 0,19 n Qˆ ˆˆ ˆ === P ps que não difere muito do valor anterior e ( ) 3,842634,840277,03042ˆˆ ˆˆ »=== pA Nss AMOSTRAGEM I 29 LIMITES DE CONFIANÇA PARA P: Sabe-se que: 1-n Qˆ Pˆ N nNˆ Pˆ - =s na amostragem sem reposição e 1-n Qˆ ˆˆ ˆ P P =s na amostragem com reposição (pop. infinita). Os limites de confiança de P utilizando a aproximação normal são obtidos pela expressão: ú ú û ù ê ê ë é + - ±=÷ ø ö ç è æ +± nN nNzP n P 2 1 1-n Qˆ Pˆ ˆ 2 1ˆz ˆ 2/Pˆ/2 aa s na amostragem sem reposição e ú ú û ù ê ê ë é +±= n zP 2 1 1-n Qˆ Pˆ ˆ 2/a na amostragem com reposição (pop. infinita). O termo 1/2n é um termo chamado correção de continuidade, que produz uma leve melhora na aproximação. Sem a correção, a aproximação normal geralmente resulta em um IC mais estreito. O erro na aproximação normal depende dos valores de n, ,Pˆ N, LI (limite inferior) e LS (limite superior). QUANDO USAR A APROXIMAÇÃO NORMAL: O valor ao qual o erro é mais sensível é nP, mais especialmente, o número observado na classe menor. Cochram dá uma tabela para decidir quando pode ser utilizada a aproximação normal. Pˆ n Pˆ = Nº observado na classe menor n = tamanho de amostra mínimo necessário para usar a aproximação normal 0,5 15 30 0,4 20 50 0,3 24 80 0,2 40 200 0,1 60 600 0,05 70 1400 » 0* 80 ¥ * Pˆ extremamente pequeno, n Pˆ seguindo a distribuição de Poisson. Exemplo 2.3: Suponhamos uma amostra aleatória simples de n = 100 selecionada de uma população N = 2.000 estudantes. A proporção de estudantes que gostam de música erudita foi Pˆ = 0,30. Queremos achar um IC 95% para P, a verdadeira proporção de estudantes na AMOSTRAGEM I 30 população que gostam de música erudita. Segundo a tabela, a amostra deveria ser de tamanho igual ou maior que 80 para usar a aproximação normal. No nosso caso é de 100 e satisfaz os requerimentos. O IC 95% para populações infinitas é: ( )( ) ( )0,395 ; 204,0 200 1 1100 7,03,096,13,0 =÷÷ ø ö çç è æ + - ± % Usando correção de continuidade e correção para populações finitas temos: ÷ ÷ ø ö ç ç è æ + - ±=÷ ø ö ç è æ +± n P N nNzP n zP 2 1 1-n Qˆ ˆ 2 1ˆ ˆ 2/Pˆ2/ aa s ( ) ( ) ÷÷ ø ö çç è æ + - ±= 200 1 99 0,7 3,0 2000 100200096,13,0 ( )0,393 ; 207,0= % Usando intervalo reduzido, sem correção de continuidade: ( )( ) 99 0,7 0,31,96 3,0 1-n Qˆ ˆˆ 2/ ±=± PzP a ( )0,39027 ; 0,2097= ≈(0,21;0,39)% d) TAMANHO DA AMOSTRA NECESSÁRIO PARA ESTIMAR P: Quando se utiliza a aproximação normal, se quisermos estimar P com uma diferença não maior do que um valor fixado “e” em termos absolutos e uma confiança ,1 a- utilizar-se-á a expressão: 2ˆ 22 ˆ Pze s= 1-n Qˆ Pˆ 22 N nNze -= amostragem sem reposição (pop. fin.). Para facilitar as fórmulas podemos substituir n - 1 por n, então: n Qˆ Pˆ 22 N nNze -@ em amostragem sem reposição e, n Qˆ ˆ22 Pze @ amostragem com reposição. O tamanho de amostra necessário é obtido, partindo da fórmula de amostragem com reposição, 2 2 e Qˆ Pˆ zno = e, sem reposição: o o 2 2 2 2 22 2 n+N n e Qˆ Pˆ Qˆ Pˆ z Qˆ ˆz+e N Qˆ Pˆ z N zN e N P Nn = + == AMOSTRAGEM I 31 Exemplo 2.5: De uma amostra piloto de n = 50 estudantes, tomada de uma população de N=4000, encontraram-se a=30 fumantes. Qual deve ser o tamanho de amostra necessário para estimar P com uma diferença não maior que 5%, e uma confiança de 99%? Z = 2,575 e = 0,05 ( ) ( ) ( ) fumantesn fumantesno 550 637 + 4000 637 4000= 637 05,0 0,4 6,0575,2 2 2 = ´ = ´´ = Então, precisamos de 550 - 50 = 500 estudantes adicionais na amostra. Quando não existir uma estimativa prévia do valor de P utiliza-se o máximo valor que pode tomar o produto P Q = 0,25 e a fórmula fica: 2 2 4e zno = ( )( ) N z zN N n 2 2 2 22 2 22 2 e 4z + e N 4 z 0,25 z + e 0,25 z N= + == e) EFEITO DO VALOR DE P NO ERRO PADRÃO O valor de P tem efeito no tamanho da amostra através de 2pˆs . Vejamos isto de duas maneiras: a) Comportamento de 2Pˆs . Sabemos que n Q P2 Pˆ =s (amostragem com reposição, pop. infinita). Suponha n = 1, então, Q P2pˆ =s . Tomando P em %, observe a seguinte tabela: P (%) 0 10 20 30 40 50 60 70 80 90 100 PQ 0 900 1600 2100 2400 2500 2400 2100 1622 900 0 PQ 0 30 40 46 49 50 49 46 40 30 0 Observe que as funções PQ e PQ têm o maior valor em P = 50%, sendo simétricas ao redor dele. Observe, também, que PQ varia pouco quando P está entre 30 e 70%. Para ver o efeito de PQ no tamanho da amostra, suponha que queremos fixar o erro padrão do estimador em 5% ( )%5ˆ =Ps e que P=50% n PQ2 Pˆ =s 1000025,0 25,0 )05,0)(05,0( )5,0)(5,0( 2 Pˆ ==== s QPn , isto é, precisamos uma amostra de tamanho n=100. Já para atingir um erro padrão de 1% precisamos uma amostra de 2500. Então, a diminuição (ou aumento) de Pˆs ocasiona um aumento considerável no tamanho da amostra. b) Comportamento de PNCV ˆ . Considere a fração: AMOSTRAGEM I 32 1 1 1NP Q ˆ - - = - - == N nN P Q nN nN n PN NPA PNA ss ) NP PˆNs = PNCV ˆ é o coeficiente de variação do estimador de A Se desconsiderarmos o fator de correção e se tomarmos n=1, podemos analisar PNCV ˆ = PQ / P 0 0,1 0,5 1 5 10 20 40 60 80 90 PQ / ¥ 31,16 14,1 9,9 4,4 3,0 2,0 1,2 0,8 0,5 0,3 Ou seja, para um tamanho amostral fixo, PˆNCV diminui à medida que a verdadeira porcentagem na classe C aumenta. Até P = 5% o coeficiente de variação permanece alto. Suponha que P = 1%, e queremos fixar PNCV ˆ em 10%, PˆNCV = 0,1 P = 0,01 Q = 0,99 n 01,0 99,01,0 = 9900 01,0 99 ==n Isto indica que, em termos de tamanho de amostra, a amostragem aleatória simples é um método muito caro para estimar o número total de unidades na população quando P é muito pequeno. 2.8. TAMANHO DE AMOSTRA PARA OBTER UMA PRECISÃO RELATIVA PRÉ-FIXADA (ERRO RELATIVO) Em algums casos, podemos querer estimar um parâmetro com determinado grau de certeza de que o erro cometido seja não maior que uma determinada proporção do valor estimado. Quer dizer, queremos fixar o coeficiente de variação, o qual significa que queremos fixar o erro máximo admitido em termos relativos. O coeficiente de variação da população é: m SCV = e 2 2 2 SCV m = a variância relativa. O coeficiente de variação de um estimador é definido como: (erro padrão do estimador)/(parâmetroestimado), e pode ser visto na tabela a seguir para amostragem sem reposição: Parâmetro Coeficiente de Variação (CV) do estimador m 2 2S mm s nN nNCV xx - == T 2 2 22 2 2Tˆ Tˆ n S N nN n N S N nNN T CV m - = m - = s = P Pn Q N nN Pn Q P 1N nN P CV 2 Pˆ Pˆ - » - - = s = AMOSTRAGEM I 33 Ignorando os fatores de correção, a variância relativa (CV2) dos estimadores é: 2 2 2 ˆ 2 2 2 2 m m n SCV n CV n SCV T X » =» No caso da proporção, sabemos que Q P 1N NS2 - = e P=m , então, 2 2 2 Pˆ n S nP QCV m »» Estas expressões aproximadas podem ser utilizadas em amostragem sem reposição quando a proporção de unidades da população incluidas na amostra é menor que 5%. Fixando o valor de CV, temos que o erro relativo máximo a ser esperado é: z e ez r r = = x x CV CV Por outro lado, 2222 2 2 CVSSCV m m =Þ= n CV N nN n CV N nNCV x 2 2 22 2 )( _ - = - = m m Então: 2 22 2 2 2 2 2 r 2 2 2 2 r 2 z 1z e CV z = z e = CV N n - CV N e CVz CVN Nn n N r + = + onde m = SCV para estimar m e T e P QCV = para estimar P. No caso geral em que a população é grande em relação a qualquer tamanho de amostra que possa ser considerado, o cálculo de n é mais simples, porque, sendo n CVCVCVCV PTx 2 2 ˆ 2 ˆ 2 === temos: n zer 22 2 CV = O tamanho da amostra para populações infinitas é: 2 22 0 CV re zn = então, n para populações finitas fica: 0 0 n + N n Nn = AMOSTRAGEM I 34 O valor de z determina a probabilidade do resultado amostral ter um erro relativo não maior que re . A fórmula obtida para n é aplicável em amostragem aleatória simples, seja a característica estimada a média, o total, a proporção. Exemplo 2.4: Queremos estimar um dos parâmetros antes estudados (média, total ou proporções) com um erro não maior que 4% do valor verdadeiro desse parâmetro, com uma confiança de 99% e sabemos que CV = 0,5. Utilizando Z = 2,54, o tamanho de amostra necessária é: ( ) ( ) ( ) 1008 04,0 0,5 54,2n 2 22 0 == Agora, se estivemos satisfeitos com er = 8% em vez de 4%, n fica: ( ) ( ) ( ) 252 08,0 0,5 54,2n 2 22 0 == uma amostra 4 1 do tamanho da amostra anterior. 2.9. CONSIDERAÇÕES GERAIS NA AMOSTRAGEM ALEATÓRIA SIMPLES ESTIMAÇÃO DE VÁRIAS VARIÁVEIS COM A MESMA AMOSTRA: É importante mencionar que, geralmente, queremos estimar várias características (variáveis) com a mesma amostra, e o tamanho de amostra necessário para atingir uma determinada precisão numa variável pode ser diferente do tamanho de amostra necessário para atingir a mesma precisão para outras variáveis. Este problema geralmente é resolvido tomando um tamanho de amostra suficientemente grande para estimar as variáveis principais com a precisão desejada. Para as variáveis de importância secundária aceitamos a precisão que for obtida. Algumas das variáveis secundárias serão estimadas com maior precisão que a desejada e outras com menor. Qualquer que seja o caso, os resultados da amostra devem ser interpretados de acordo com a precisão realmente obtida para cada variável. ESTIMATIVAS CONFIÁVEIS DE S2 E CV2: O coeficiente de variação CV, sendo geralmente desconhecido, pode ser estimado a partir da amostra. Sendo x estimador não viciado de m e, sendo s2 estimador não viciado de S2, podemos utilizar ambos para obter ,2 22 x sCV = Ù estimador de CV2 2Ù CV é consistente, embora viciado. Para amostras grandes o vicío pode ser desconsiderado. Podemos nos formular a seguinte questão: qual o tamanho de amostra a ser considerado suficientemente grande para os estimadores da variância, coeficiente de AMOSTRAGEM I 35 variação, etc, serem considerados confiáveis, quando estimados a partir de uma amostra? A resposta a esta questão é diferente para diferentes problemas. Sabemos que: a) A variância estimada a partir da amostra varia de uma amostra para outra; b) A variância estimada também tem um erro padrão quando consideradas todas as amostras possíveis, o mesmo acontecendo com a média e o coeficiente de variação; c) O coeficiente de variação fornece uma medida da precisão relativa da estimação feita apartir de uma amostra particular. Cochran afirma que, com base em longas experiências, considera-se que a estimativa de um desvio padrão é suficientemente confiável se seu coeficiente de variação é não superior a 10 ou 15%. O TAMANHO DA AMOSTRA PARA ESTIMAR P: Sabemos que o coeficiente de variação de Pˆ é nP QCVPˆ @ ignorando o fator de correção. Para amostras de tamanho n = 1 temos: P 0 0,001 0,005 0,01 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 Q P ¥ 31,6 14,1 9,9 4,4 3,0 2,0 1,5 1,2 1,0 0,8 0,7 0,5 0,3 Quer dizer, para tamanho fixo de amostra, o CV do estimador da proporção na classe C diminui gradualmente à medida que a verdadeira porcentagem em C aumenta. O coeficiente é alto quando P é menor que 0,05. Se P = 0,01 e queremos reduzir o CV do estimador para 0,1 (ou 10%) devemos ter: 9900n 01,0 99,0 1,0 1 P Q CV 1n === Podemos deduzir, então, que a amostragem aleatória simples, ou qualquer método de amostragem adaptado a propósitos gerais é um método muito caro para estimar o número total de unidades de tipo escasso (raro) na população. Em comparação, se P = 0,5, 100=n 50,0 50,0 1,0 1n = para ter o mesmo coeficiente de variação de 0,1. 2.10 REGRAS PRÁTICAS SOBRE O TAMANHO DA AMOSTRA Para se obter uma boa estimação do erro padrão da média ou do total, existem algumas regras práticas, sugeridas na literatura: a) Se formos selecionar uma amostra aleatória simples de uma população que se aproxima bastante de uma distribuição normal, 50 observações são suficientes para estimar um parâmetro. b) No caso de selecionar amostras de populações não normais e a população não tiver valores extremamente grandes ou extremamente pequenos, uma amostra de n = 100 será suficiente para fornecer uma estimação confiável do desvio padrão. Por outro lado, para populações com valores muito extremos (em proporção maior que o esperado pela distribuição normal), serão necessários tamanhos de amostra maiores para obter estimações confiáveis. Nestes casos, pode ser mais apropriado utilizar outros métodos de amostragem ao invés de aleatória simples. AMOSTRAGEM I 36 c) Para estimar a proporção: c.1) Se ,Pˆ a proporção amostral, estiver entre 30 e 70% e, se o tamanho de amostra no qual está baseada a porcentagem é de 60 ou mais, então o coeficiente de variação do erro padrão estimado é menor que 10%. c.2) Independente do valor de Pˆ , se ambos, Qˆn e Pˆn forem maiores que 35, também o coeficiente de variação mencionado é menor que 10%. As regras c.1 e c.2 são válidas para qualquer que seja a distribuição da população e para amostragem aleatória simples, sempre que a unidade observada seja a mesma unidade de amostragem. Exemplo 2.5: Suponhamos que queremos estimar a proporção de famílias em cada uma das faixas de renda seguintes, e se têm os resultados de uma amostra aleatória de 200 famílias de uma população de 2000. Renda (s.m.) ( )Pˆn Amostra % 1) Menos de 1 68 34 2) 1 a 1,99 72 36 3) 2 a 2,99 40 20 4) 3 e mais 20 10 Total 200 100 Para estimar a proporção de famílias da
Compartilhar