Baixe o app para aproveitar ainda mais
Prévia do material em texto
Intervalo de confi ança O conceito de intervalo de confiança é diretamente relacionado com a exatidão da média amostral como representação da média da população μ. A média amostral é uma estatística, estimada de uma amostra com o número de elementos muito menor que a população e, necessariamente, existe certo grau de incerteza sobre a confiabilidade. A média da população é um parâmetro existen- te, mas por causa de alguma razão, por exemplo, o alto custo de examinar todos os elementos da população, o seu valor não é conhecido. O cálculo do intervalo de confiança é um método para quantificar o nível de incerteza envolvido na amostragem. Na cervejaria, um lote de produção de cerveja em lata tem 100 mil unidades, e o conteúdo nominal da lata é 350 ml. Para verificar se o valor de 350 ml prossegue, uma vez por semana uma amostra de 1.000 latas é inspecionada e a média amostral calculada. Não é para esperar que a média amostral das latas seja exatamente igual ao parâmetro populacional, mas podemos esperar sim um intervalo de confiança ao redor da média amostral que contenha a média da população com certa probabilidade (confiança). A informação sobre a média das latas e os limites de confiança com a res- pectiva probabilidade é suficiente para o gerente julgar se o lote está dentro dos conformes ou não. Book 1.indb 61 3/6/2009 16:19:20 Margem de erro (ME) A média amostral estimada, como estatística, deve representar a média desconhecida da população, mas, desde que a amostragem não é perfeita, existe um conceito para medir quanto a estatística erra em medir o parâmetro da po- pulação. É conhecido como a margem de erro (ME). É o limite de erro tolerável pelos propósitos da pesquisa. ESTATÍSTICA (estimada) - PARÂMETRO (real, mas desconhecido) ≤ MARGEM DE ERRO (ME) MÉDIA AMOSTRAL MÉDIA POPULACIONAL O valor da margem de erro pode ser escolhido pelo pesquisador, mas como vai ficar claro embaixo, não sem decisões difíceis sobre gastos em tempo e recur- sos. A margem de erro depende rigorosamente de dois aspectos, o tamanho da amostra e a confiança que é desejada na busca da representatividade da estatís- tica. Amostras grandes representam melhor a população; amostras menores não representam tão bem a população. Consequentemente, amostras maiores dimi- nuem a margem de erro ou aumentam o nível de confiança sobre os resultados. Em termos práticos, gastar um pouco mais para levantar uma amostra maior é justificável quando estimativas de algum fenômeno merecem maior exatidão. Para alcançar altos níveis de confiança no valor das estimativas, a margem de erro precisa ser grande. Limites da margem de erro muito afastados da média permitem que o pesquisador tenha muita confiança na localização da média po- pulacional dentro desses limites. De limites apertados, por outro lado, não brota confiança de que a média populacional se situe entre eles. A questão de nível de confiança é diretamente ligada ao desvio-padrão e a variabilidade dos dados. Quando a variabilidade dos dados da população é gran- de, qual a confiança que temos da representatividade da amostra? Na prática, nada garante que as observações na amostra vêm dos valores próximos à média. Na presença de muita variabilidade nos dados, a média amostral poderia se dife- renciar em muito da média populacional, resultando em margem de erro maior para dado valor de confiança. Na figura 1, para determinado valor de margem de erro, traçamos a rela- ção inversa entre o nível de confiança e a variabilidade para três níveis de amos- tragem: C representa pequenas amostras, A grandes amostras e B amostras de tamanho médio. Fixando o valor da variabilidade, o nível de confiança aumenta quando o tamanho da amostra aumenta. Book 1.indb 62 3/6/2009 16:19:20 Figura 1 – Para determinado valor de margem de erro, existe a relação entre a variabilidade, o tama- nho da amostra e o nível de confiança A margem de erro é a peça-chave no cálculo do intervalo de confiança. No meio do intervalo de confiança fica a média amostral. A distância entre a média e o limite do intervalo de confiança é exatamen- te igual à margem de erro. O nível de confiança pré-selecionado pelo pesquisador é a probabilidade que a média populacional fica dentro do intervalo de confiança. Para calcular o limite superior XLS e inferior XLI do intervalo de confiança, para nível de confiança igual a (1 – α), usa-se a seguinte expressão oriunda da discus- são sobre as áreas embaixo da curva normal e a distribuição normal padronizada: Book 1.indb 63 3/6/2009 16:19:20 A expressão aparece em livros-textos mais modernos de esta- tística.1 A expressão P(...) = 1 – α é muito comum em textos mais tradicionais. O símbolo S é o desvio-padrão amostral, n o tamanho da amostra e o valor da distribuição normal padronizada para cauda de tamanho α/2. A expressão é a margem de erro (ME) para determinado nível de confiança (1 – α). 5.3. Exemplo com a distribuição normal padronizada Z αα/2 Vamos calcular o intervalo de confiança da média populacional para o exemplo do tempo gasto na resolução das reclamações no capítulo 2. Escolhemos o nível de confiança a 90% (= 1 – α) que significa α = 10% e α/2 = 5%. O valor de é 1,64 (veja tabela 3.1). Os dados necessários para construir o intervalo de confiança são: O valor da margem de erro (ME) é igual a . O intervalo de confiança então é igual a Concluindo, existe uma probabilidade de 90% de que a média populacional fi- que entre 154,45 e 211,33 minutos. Na figura 5.2, podemos ver os limites do intervalo de confiança e a probabilidade de 90% de que a média populacional está entre eles. probabilidade de 1 – α = 90% que a média da população está entre esses limites. intervalo Z intervalo t de Gosset 154,45 182,89 211,33 Figura 2 – Intervalo de confiança – tempo gasto na resolução das reclamações 1 Book 1.indb 64 3/6/2009 16:19:21 A figura 3 é uma repetição prática da figura 1, uma representação teórica, com dados observados, baseada no exemplo das reclamações. Na figura, a margem de erro é fixa em 28,44 minutos. O desvio-padrão S varia entre 58 e 106, e enquanto S diminui, a confiança (representada por Z) de que a média da população esteja dentro do intervalo de confiança aumenta (assim a inclinação negativa das três linhas na figura). As três linhas representam três tamanhos de amostras diferentes: a linha mais baixa representa uma amostra pequena de 10 elementos enquanto as demais linhas representam amostras de tamanho 30 e 50 elementos respectivamente. Concluindo, como foi constatado anteriormente, o tamanho do intervalo de confiança e, portanto, a probabilidade (confiança) da localização da média populacional dentro do intervalo dependem de vários fatores. Amostras maiores ou populações com menos variabilidade (desvio-padrão menor) proporcionam confiança maior ou intervalos de confiança menores. Figura 3 – Para margem de erro igual a 28,44, a relação entre a variabilidade, o tamanho da amostra e o nível de confiança no exemplo das reclamações Tamanho da amostra É através da margem de erro do intervalo de confiança que podemos analisar a questão de tamanho da amostra. O tamanho da amostra deve ser compatível com os dados levantados e as características estatísticas da amostra. Já foi discutida na seção anterior a relação entre o nível de confiança e o tamanho da amostra (veja fi- gura 1), a relação sendo direta, quando a amostra é maior, a confiança do resulta- do também o é. Relembrando que a margem de erro é a distância máxima permitida pelo pesquisador entre a média da população e a da amostra, podemos escrever Book 1.indb 65 3/6/2009 16:19:21 Margem de erro = Pela equação vemos que aumentando n diminui a margem de erro. Iso- lando n no lado esquerdo da equação, a expressão para calcular o tamanho da amostra resulta. Para simplificar a expressão e a sua utilização prática, define-se a margem de erro padronizada como MEP = ME/S. Esse últimovalor é diretamente con- trolado pelo pesquisador que é quem escolhe o valor de ME, representando a sua vontade para estimar a média com mais ou menos exatidão. Assim, a última equação pode ser simplificada, No exemplo anterior, foi utilizado um valor de = 1,64 denotando um nível de confiança de 90% e exigindo uma amostra de tamanho 30. Se o pesquisa- dor for mudar a confiabilidade desejada do intervalo de confiança para um nível de confiança de 95%, o valor de se torna 1,96 e aplicando a fórmula o tamanho da amostra fica em 43 unidades, confirmando que níveis de confiança mais altos exigem amostras maiores. Na figura 5.4, o comportamento do tamanho da amostra relacionado com a margem de erro é mostrado para vários níveis de confiança. Figure 4 – Tamanho da amostra (n = 1 a 900), margem de erro padronizada (MEP = 0,0 a 0,6) e níveis de confiança (1- α = 90% a 99,73%) Book 1.indb 66 3/6/2009 16:19:22 Quando MEP aproxima-se ao valor 1 (margem de erro e desvio-padrão iguais), o tamanho da amostra é pequeno, e quando o desvio-padrão aumenta em relação à ME, MEP diminuindo, surge a necessidade de obter amostras cada vez maiores. Em outras palavras, desvios-padrão grandes possuem baixa quali- dade de informação, não conseguindo explicitar bem o valor da média e, conse- quentemente, amostras maiores são necessárias para definir o valor da média da população. Completando o raciocínio, quando o pesquisador requer a margem de erro menor, como já foi visto, amostras maiores são exigidas. ME pequena é sempre uma vantagem nas pesquisas, mas o custo de levantar amostras grandes e, no caso de querer altos níveis de confiança, amostras extremamente grandes pode ser proibitivo. É notável que o papel do número de elementos da população no cálculo do tamanho da amostra parece irrelevante e assim ignorado. Tamanho da população não afeta o tamanho da amostra! Essa constatação é aplicável no caso de popu- lações relativamente grandes com milhares de itens, no entanto com populações muito menores pode existir sim um impacto considerável. Existe um fator de cor- reção que deve ser levado em conta. O cálculo do tamanho da amostra ajustado (naj) para populações pequenas segue a fórmula em seguida com o tamanho da população igual a N, e n é o tamanho da amostra calculada da equação apresen- tada anteriormente: Tabela 1 – O efeito do tamanho da população no cálculo do tamanho da amostra → n = 20 n = 50 n = 150 N naj naj naj 100 16,8 33,56 ??? 250 18,6 41,81 93,98 500 19,3 45,54 115,56 1.000 19,6 47,66 130,55 3.000 19,9 49,20 142,90 5.000 19,9 49,51 145,66 7.000 19,9 49,65 146,87 9.000 20,0 49,73 147,56 11.000 20,0 49,78 148,00 13.000 20,0 49,81 148,30 15.000 20,0 49,84 148,52 17.000 20,0 49,86 148,70 continua Book 1.indb 67 3/6/2009 16:19:22 19.000 20,0 49,87 148,83 21.000 20,0 49,88 148,94 23.000 20,0 49,89 149,03 25.000 20,0 49,90 149,11 27.000 20,0 49,91 149,18 29.000 20,0 49,92 149,23 31.000 20,0 49,92 149,28 33.000 20,0 49,93 149,33 35.000 20,0 49,93 149,36 37.000 20,0 49,93 149,40 39.000 20,0 49,94 149,43 41.000 20,0 49,94 149,46 43.000 20,0 49,94 149,48 45.000 20,0 49,95 149,50 47.000 20,0 49,95 149,53 Na tabela 1, a série do tamanho populacional N da primeira coluna varia entre 100 e 47 mil itens. Na segunda coluna chamada n = 20, o tamanho da amostra calculada sem considerar o tamanho da população (N) é de 20 itens, mas quando N é levado em conta, o tamanho da amostra ajustado naj é menos que 20, e isso ocorre até N igual a 1.000.2 Para populações maiores que 1.000, o tamanho da amostra segue o valor 20. Em outras palavras, nesse caso, N = 1.000 já é considerada como uma população grande e significa que a aplicação da equação de ajuste não é necessária. Esse comportamento para o tamanho da amostra continua na terceira coluna onde n = 50. Se N for igual a 5.000 ou mais, então não há necessidade de ajustar n para naj. Até mesmo no caso extremo de n=150, uma população de 45 mil já permite que o ajuste no tamanho da amostra seja desnecessário. Em engenharia, populações são lotes, e é comum tamanho de lotes igual a 50 mil ou mais. Assim, é raramente usada a equação do ajuste amostral para a situação de produção em massa. Observamos, contudo, o reconhecimento na in- dústria do foco de gestão da qualidade centrado nas exigências do cliente, e com isso a obrigação na parte do fabricante de diminuir o tamanho dos lotes, perso- 2 A prática de arredondar o tamanho da amostra para número inteiro é arbitrária ou sensível ao caso específico. Em alguns casos será necessário arredondar qualquer valor de casas decimais para o próximo maior número inteiro. Por exemplo, na tabela 3.2, naj de 19,3 poderia ser arredondado para 20, se o caso for apropriado. Book 1.indb 68 3/6/2009 16:19:23 nalizando as características do produto para o mercado restrito a peculiaridades. Assim, se o ajuste do tamanho da amostra não tiver hoje o seu papel no controle de qualidade, certamente no futuro próximo terá. Exemplo com distribuição t Podemos recalcular o intervalo de confiança para as reclamações do exem- plo anterior e ver a diferença que o uso da distribuição t faz nos limites. Nas equações para o cálculo dos limites de confiança, Z α/2 é substituído pelo t α/2; n-1. A distribuição t tem um termo a mais representando os graus de liberdade. Como esperado, há uma pequena diferença entre os dois conjuntos de li- mites de confiança; usando a distribuição t, reconhecendo que a amostra de 30 elementos é pequena e não tão representativa da população obrigando a um afas- tamento dos limites de confiança para manter o mesmo nível de confiança de 90%. A figura 5.5 apresenta essa diferença, e admitimos que o ganho na acurácia do intervalo é muito pouco. probabilidade de 1 – α = 90% que a média da população está entre esses limites. intervalo Z 154,45 182,89 211,33 intervalo t de Gosset 153,47 212,37 Figura 5 – Intervalo de confiança – tempo gasto na resolução das reclamações com destaque para t de Gosset Consequentemente, nesse caso para a análise de processos administrativos, o uso da distribuição de t de Gosset não se mostra tão necessário e a distribuição normal padronizada Z pela sua simplicidade seria mais apropriada. Book 1.indb 69 3/6/2009 16:19:23 Exemplo do conteúdo das latas de cerveja Na introdução deste capítulo apresentamos uma situação comum em cer- vejaria ou qualquer fábrica que se preocupa com características de qualidade em termos de volumes ou pesos. Qual a confiança que o gerente pode ter em saber a média da população das latas de cerveja da mensuração do conteúdo de uma amostra? A amostra de latas a ser mensurada tem apenas 1.000 unidades, muito menos que o tamanho do lote que é 100.000 unidades. Para responder a essa questão, vamos calcular o intervalo de confiança. Os resultados da amostra são: =350,4 ml S=3,07 n=1.000 A média da amostra ficou em 350,4 ml, acima do valor nominal de 350, satisfazendo aparentemente as normas de qualidade da fábrica. Mas o valor da amostra de 350,4 representa o valor do lote? O intervalo de confiança para o nível de confiança de 99% fica em O gerente pode ter 99% de confiança de que o valor do lote fica entre 350,15 e 350,65 ml. Todo o intervalo está acima do valor nominal garantindo o conteúdo da lata de cerveja, e a empresa com muita tradição no mercado sente orgulho diante dos clientes. No entanto, por lei a especificação legal do volume do produto permite um limite mínimo até 5% abaixo do valor nominal exposto na lata. Isso significa que a fábrica precisa garantir volume de 332,88 ml (= 350*0,95) para satisfazer os fiscais do estado. O gerente muito atento para a redução de custos pensa em diminuir a média do volume da lata em algum valor que garantiria a especificação legal. Ele avalia que se produzir apenas uma lata em cada 1.000 abaixo da espe- cificação (0,1% da produção) não deve ser descoberto esse “deslize” pelos fiscais.Esse cálculo é feito usando as fórmulas do capítulo 3 da distribuição normal pa- dronizada Z. O valor de P(Z) e 0,001 é o valor correspondente do Z é 3,09 (veja tabela 3.1 ou rodapé 4 do capítulo 3). P(Z) = 0,1% → Zi = 3,09 = Book 1.indb 70 3/6/2009 16:19:23 Com essa expressão, o gerente calcula que a nova média seria 342,37 ml. Esse novo valor propiciaria uma economia para a fábrica de mais que 8 ml (350,40 – 342,37 ) por lata produzida. Essa tomada de decisão não é fácil. Colocar menos volume na lata do que o nominal pode acabar ofendendo a clientela e causar a fuga para os concorrentes. Por outro lado, as economias de 8 ml por lata são uma quantia grande e não deve ser desprezada. Coloque você mesmo na situação da fábrica; o que faria? Intervalos de confiança para atributos: a distribuição binomial O intervalo de confiança montado na base da distribuição binomial é uti- lizado no dia a dia das campanhas políticas e publicitárias. Em épocas eleitorais, o eleitor cansa de ver e escutar notícias sobre as últimas pesquisas de opinião sobre qual candidato está na frente da corrida para algum cargo no governo, às vezes até mesmo meses antes das eleições. O noticiário divulga percentagens de aceitação e rejeição entre candidatos (44% favorecia um candidato e 56% o ou- tro, por exemplo) em amostras de eleitores de tamanho 1.000, 2.000 ou 3.000, e sempre comenta a margem de erro das pesquisas em torno de 2% ou 3% de cada lado. As conclusões em termos de percentagens vêm da utilização da distribuição binomial, e o cálculo, dos limites de confiança e margens de erro. Exemplo eleitoral – intervalo de confi ança Em pesquisa eleitoral levantada um mês antes das eleições, com amostra de tamanho 1.000, o candidato BO recebe 51% das intenções de voto. Trabalhando com nível de confiança de 95%, podemos calcular o intervalo de confiança: A margem de erro fica em aproximadamente 3%. A percentagem de pre- ferência eleitoral pelo candidato é 51%, suficiente para ganhar a eleição, mas considerando que a média da população pode ficar entre 48% e 54%, existe um espaço no intervalo menor que 50% abrindo a possibilidade de derrota. Para di- minuir a margem de erro há duas alternativas, ou diminuir o nível de confiança Book 1.indb 71 3/6/2009 16:19:23 ou aumentar o tamanho da amostra. A última alternativa parece mais adequada, mas levanta a questão de como calcular quanto deve ser aumentado o esforço da amostragem para estreitar o intervalo de confiança? Tamanho da amostra para atributos Para calcular o tamanho da amostra (n), é necessário determinar o valor da margem de erro tolerável pelo pesquisador, o nível de confiança desejado e o valor do desvio-padrão. Margem de erro (ME) = Rearrumando a expressão para colocar n em evidência: Voltando para o exemplo da eleição, o nível de confiança é valor tradicio- nal de 95%, e então Zα/2 = Z0,05/2 = 1,96. O valor da percentagem de preferência eleitoral para o candidato BO é p = 0,51. O pesquisador, no entanto, não ficou satisfeito com a margem de erro anterior (0,03), achando a (ME) grande e impre- cisa e, consequentemente, argumentou que a eleição tão disputada com resultado tão acirrado merecia maior esforço na coleta da amostragem para que a margem de erro fosse apenas 0,01. Então, fazendo as substituições apropriadas, temos: Infelizmente para o pesquisador buscando resultados mais precisos, uma amostra de tamanho quase 10.000 foi considerada grande demais pelo candidato em termos de tempo e recursos exigidos para seu levantamento e, portanto, foi definida como adequada uma margem de erro intermediária de 2%. Com isso, então, novo tamanho de amostra foi calculado em 2.400. Assim, as pesquisas prosseguiram. Esse tamanho da amostra em 2.400 é um número tradicional e universalmente utilizado para pesquisas eleitorais e empresariais. Na prática, a fórmula sofre uma simplificação que facilita o uso para mar- gem de erro de 2% arredondando Zα/2 para 2,00 e p para 0,50 resultando em 3 n = 2,02*(0,25)/0,022 = 1/0,0004 = 2.500 A pequena diferença de 2.400 para 2.500 satisfaz o conservadorismo do estatístico errando para valores maiores e, portanto mais seguros. Book 1.indb 72 3/6/2009 16:19:23 As desvantagens do censo universal e as vantagens de pesquisas amostrais Na tabela 5.2, temos tamanhos de amostra para várias combinações de nível de confiança e margem de erro. Nível de confiança (1-α) 0,8 0,9 0,95 0,954 0,99 0,995 0,9973 Margem de erro Zα/2 1,282 1,645 1,960 2,000 2,576 2,807 3,000 0,005 16.424 27.055 38.415 40.000 66.349 78.794 89.999 0,01 4.106 6.764 9.604 10.000 16.587 19.699 22.500 0,02 1.026 1.691 2.401 2.500 4.147 4.925 5.625 0,03 456 752 1.067 1.111 1.843 2.189 2.500 0,04 257 423 600 625 1.037 1.231 1.406 0,05 164 271 384 400 663 788 900 Tabela 5.2 – Tamanho da amostra para valores de margem de erro e níveis de confiança, com p = 0,5 É interessante reparar o tamanho amostral para o caso mais exigente na tabe- la 5.2 com nível de confiança de 99,73% e margem de erro de 0,5% (no canto superior à direita). Com 90 mil elementos na amostra, a confiança nos resultados da pesquisa é quase perfeita. Essa consequência levanta uma dúvida sobre a necessidade de ela- borar uma enorme estrutura burocrática para o censo brasileiro em cada 10 anos. Em primeiro lugar, é muito mais cômodo e econômico entrevistar 90 mil pessoas do que os milhões de pessoas que é o alvo do censo. Em segundo lugar é a questão da con- fiabilidade da informação arrecadada pelo censo cujo monitoramento se torna pra- ticamente impossível considerando o tamanho da população. Não seria muito mais consistente tirar uma amostra de tamanho 90 mil da população brasileira todo ano e desta amostra produzir análises anuais demográficas mais atuais e mais confiáveis com uma equipe permanente de profissionais altamente qualificados do que aquelas proporcionadas pelo censo com estruturas precárias remontadas cada 10 anos? 5.11. Exercícios 1. Com os dados das reclamações, da seção 5.3, calcular os limites de confi ança com nível de confi ança de 95%: a. utilizando a distribuição normal padronizada (Z); b. utilizando a distribuição t de Gosset; c. comentar a insignifi cância da diferença entre as duas distribuições. Book 1.indb 73 3/6/2009 16:19:23 Resposta: a. IC(μ, 95%) = (216,88; 148,9) b. IC(μ, 95%) = (218,36; 147,42) c. A diferença é muito pequena. Se o pesquisador busca cálculos mais rápi- dos e tolera menor precisão, a distribuição normal parece adequada. 2. Muitos pesquisadores na área de mercadologia e pesquisas políticas sim- plifi cam os cálculos do intervalo de confi ança utilizando o valor 2,0 como aproximação ao valor correto de 1,96 de Z. a. recalcular o intervalo de confi ança para o candidato BO na seção 5.7 utilizando o valor aproximado 2,0 com n = 1.000; b. repetir a questão a com n = 2.000; c. comentar a perda de precisão resultante do uso da aproximação. Resposta: a. IC(p, 95,45%) = (0,478; 0,541) b. IC(p, 95,45%) = (0,487; 0,532) c. Aparentemente usar o valor 2 em vez de 1,96 não leva muita perda de precisão. 3. Na tabela 5.1, uma das primeiras células para n = 150 e N = 100 tem a en- trada “???”. Explicar a lógica atrás dessa entrada. Resposta: O tamanho da amostra não pode ser maior que o tamanho da população. 4. Na fi gura 5.3, o eixo vertical representa os valores Z da distribuição normal padronizada. O valor mínimo de Z no gráfi co fi ca em torno de 0,85, asso- ciado à linha mais baixa de tamanho amostral igual a 10. Qual é o valor correspondente para o nível de confi ança. Resposta: Nível de confiança = 60%. Book 1.indb 74 3/6/2009 16:19:24
Compartilhar