Baixe o app para aproveitar ainda mais
Prévia do material em texto
CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 1 Aula 4 – Estimadores I ESTIMADORES PONTUAIS .................................................................................................................... 2 II INTERVALO DE CONFIANÇA PARA A MÉDIA ................................................................................. 5 1 A média amostral como variável aleatória ................................................................................................ 5 2 Intervalo de confiança para a média ........................................................................................................ 14 3 Distribuição T de Student: intervalo de confiança para a média quando a variância da população é desconhecida ........................................................................................................................................................ 19 III INTERVALO DE CONFIANÇA PARA PROPORÇÕES. .................................................................... 26 IV INTERVALO DE CONFIANÇA E TAMANHO DA AMOSTRA ........................................................ 29 V CARACTERÍSTICAS DOS ESTIMADORES ....................................................................................... 38 1 Estimador não tendencioso (ou não viciado) ........................................................................................... 38 2 Estimador de variância mínima. ............................................................................................................... 40 3 Estimador de mínimos quadrados ............................................................................................................ 42 4 Estimador de máxima verossimilhança ................................................................................................... 42 VI FATOR DE CORREÇÃO PARA POPULAÇÕES FINITAS ............................................................... 51 VII LISTA DAS QUESTÕES DE CONCURSO ....................................................................................... 54 VIII GABARITO DAS QUESTÕES DE CONCURSO ............................................................................. 64 CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 2 Para resolver diversas questões desta aula, poderá ser necessário consultar alguma tabela colocada ao final da aula. As tabelas foram extraídas de provas da FGV. I ESTIMADORES PONTUAIS EC 1. SEFAZ RJ 2008 [FGV] Considere uma Amostra Aleatória Simples de n unidades extraídas de uma população na qual a característica, X, estudada tem distribuição Normal com média μ e variância 2σ , ambas desconhecidas, mas finitas. Considere, ainda, as estatísticas média da amostra, X = ∑ = n i iXn 1 1 , e variância da amostra ( )∑ = −= n i i XXn s 1 22 1 . Então, é correto afirmar que: (A) X e 2S são, ambos, não tendenciosos para a estimação da média e da variância da população, respectivamente. (B) X é não-tendencioso, mas é 2S tendencioso para a estimação da média e da variância da população, respectivamente. (C) X é tendencioso, mas 2S é não-tendencioso para a estimação da média e da variância da população, respectivamente. (D) X e 2S são, ambos, tendenciosos para a estimação da média e da variância da população, respectivamente. (E) X e 2S são, ambos, não-tendenciosos para a estimação da média e da variância da população, mas apenas X é consistente. Resolução: Utilizamos medidas amostrais (estatísticas) para estimar características populacionais (parâmetros). A média aritmética da amostra é um estimador da média populacional. Daqui pra frente estas duas médias vão aparecer num mesmo problema. Para diferenciá-las, são usados símbolos distintos. O símbolo para a média amostral é X . O símbolo para média populacional é μ . Para a variância, também há símbolos distintos, conforme a referência seja à estatística ou ao parâmetro. Quando quisermos nos referir à variância populacional, vamos usar o símbolo 2σ . Ou então, podemos usar o símbolo V(X). Outro símbolo possível nos exercícios é Var(X). Quando quisermos nos referir à variância de uma amostra, usamos 2s . Para estimar a variância populacional, podemos utilizar: ( ) 1 2 2 − − = ∑ n XX s i , Este é o chamado estimador não tendencioso (ou não viciado) da variância populacional. É o mais utilizado. Contudo, no caso da variável normal (que é a mais cobrada em provas), ele não é o estimador de máxima verossimilhança. O estimador de máxima verossimilhança é: CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 3 ( ) n XX s i∑ −= 2 2 Se por acaso o exercício der uma amostra de uma variável normal e pedir para calcular o estimador de máxima verossimilhança da variância utilizamos n no denominador (em vez de 1−n ). “Não tendencioso” e “de máxima verossimilhança” são duas características desejáveis para um bom estimador. Falamos mais sobre elas posteriormente. Nesta questão, temos: - a média aritmética da amostra como um estimador da média populacional: vimos que a média da amostra é um estimador não-tendencioso - a variância da amostra como um estimador da variância populacional: vimos que, quando se usa n no denominador, o estimador é tendencioso. Gabarito: B Resumindo: há diversos tipos de estimadores. Por hora, ainda não sabemos exatamente o que eles significam. Só sabemos que, no caso de estimarmos a variância da população a partir de uma amostra, o denominador pode ser “ 1−n ” ou “n”. Se o exercício não falar nada, utilize “ 1−n ”. Este é o estimador mais utilizado. Ele é não tendencioso. Se o exercício pedir o estimador de máxima verossimilhança e a distribuição for normal, utilize “n”. EC 2. CGU - 2008 [ESAF] Qual o estimador de máxima verossimilhança da variância de uma variável X normalmente distribuída obtido a partir de uma amostra aleatória simples X1, X2, X3, ..., Xn, desta variável, sendo nXm i /∑= o estimador de máxima verossimilhança da média? a) 1 )( 2 − −∑ n mX i b) 2 )( 2 − −∑ n mX i c) 5,02 1 )( ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − −∑ n mX i d) ∑ − 2)( mX i e) n mX i∑ − 2)( CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 4 Resolução: O enunciado está usando a letra “m” para indicar a média amostral. Vimos que o estimador de máxima verossimilhança da variância para a distribuição normal é aquele que apresenta “n” no denominador. Gabarito: E. EC 3. PM Manaus 2004 [CESGRANRIO] Com base em uma amostra aleatória simples (X1, X2, ..., Xn), de média n XXXX n+++= ...21 , um estimador não viciado da variância da população é: a) 1 )(...)()( 222 2 1 + −++−+− n XXXXXX n b) n XXXXXX n 22 2 2 1 )(...)()( −++−+− c) 1 )(...)()( 222 2 1 − −++−+− n XXXXXX n d) 2 22 2 2 1 ... X n XXX n −+++ e) 2 22 2 2 1 1 ... X n XXX n − − +++ Resolução: Quando queremos o estimador não-viciado, o denominador é igual a 1−n . Gabarito: C EC 4. Basa/2007 [CESPE] Um programa de controle de qualidade foi implementado em uma agência bancária. A cada 10 clientes que entram na fila para solicitar um certo tipo de serviço S, um atendente entrega um pequeno questionário, que deve ser preenchido pelo cliente e devolvido ao caixa do banco. Um dos quesitos monitorados diariamente é a proporção de clientes que estão satisfeitos com o atendimento de um modo geral. Em determinada semana, foram observados os resultados mostrados na tabela a seguir. Dia da semana 2ª 3ª 4ª 5ª 6ª Número de clientes observados 30 40 20 50 70 proporção de clientes satisfeitos 0,9 0,8 0,9 0,8 0,6 Com base nesses dados, julgueo item que se segue. 1. A estimativa da proporção média de clientes satisfeitos com o atendimento de um modo geral ao longo dessa semana é superior a 0,8. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 5 Resolução: Utilizamos a proporção amostral para estimar a proporção da população. O símbolo que vamos empregar para a proporção populacional é p. O símbolo para a proporção amostral é p̂ . O número de clientes satisfeitos foi de: 1596,0708,0509,0208,0409,030 =×+×+×+×+× O número total de clientes entrevistados foi: 2107050204030 =++++ A proporção de clientes satisfeitos na amostra é: 7571,0 210 159ˆ ==p . Portanto, o item está errado. A estimativa é de 75,71%. É inferior a 80%. Gabarito: errado. II INTERVALO DE CONFIANÇA PARA A MÉDIA 1 A média amostral como variável aleatória EC 5. INEP 2008 [CESGRANRIO] Denotando-se a média e a variância amostral, respectivamente, por X e 2s , o erro padrão da estimativa da média populacional (M) é definido como a) MX − b) MX ± c) n s d) n s e) n s 2 Resolução: Quando se pensa em uma única amostra, X é um número, fixo, constante. É a média aritmética daquela amostra específica. Quando se pensa em todas as possíveis amostras de tamanho n¸ X passa a ser uma variável aleatória. Se é uma variável aleatória, então possui uma média e um desvio padrão. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 6 É possível demonstrar que a variável aleatória X possui média μ (ou seja, sua média é igual à média da população). É possível também demonstrar que X possui desvio-padrão dado por n σ (é igual ao desvio padrão da população, dividido por raiz de n). Tais resultados não são difíceis de obter. Basta lembrar que: n X X n i i∑ == 1 Quando pensamos em todas as amostras de tamanho n, cada iX é uma variável aleatória de média μ e variância 2σ . Aplicando as propriedades da esperança, concluímos que a média de X também é igual a μ . Ainda utilizando as propriedades da esperança, e supondo que os diversos iX são independentes entre si, conclui-se que a variância de X é igual a n σ . A questão da Cesgranrio apresenta cobrança direta da fórmula estudada. Vimos que X é uma estimativa para a média populacional. O erro-padrão (ou ainda, desvio-padrão) de X é dado por: n σ . Quando não conhecemos o desvio-padrão da população (σ ), a fórmula é alterada. Substituímos σ pelo desvio-padrão amostral (s), pois s é um estimador para σ . A fórmula fica: n s Gabarito: D Interessante comentar que, pelo teorema do limite central, a variável aleatória X é aproximadamente normal. A aproximação é tanto melhor quanto maior o tamanho da amostra. Quando a população de onde é extraída a amostra é normal, X também será normal (aí já não é aproximação). → X pode ser vista como uma variável aleatória normal (ou aproximadamente normal), com média μ , variância n 2σ e desvio padrão n σ . A aproximação vale mesmo que X não seja normal. Quanto maior o tamanho das amostras, melhor a aproximação. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 7 EC 6. TRF 1ª Região/2001 [FCC] Para responder à questão seguinte, considere a tabela abaixo, referente à distribuição normal padrão. z )(zF 1,20 0,885 1,60 0,945 1,64 0,950 Uma máquina de empacotar leite em pó o faz segundo uma normal com média μ e desvio padrão 10 g. O peso médio μ deve ser regulado para que apenas 5,5% dos pacotes tenham menos do que 1000 g. Com a máquina assim regulada, a probabilidade de que o peso total de 4 pacotes escolhidos ao acaso seja inferior a 4.040 g é: a) 0,485 b) 0,385 c) 0,195 d) 0,157 e) 0,115 Resolução: A tabela fornecida nos deu a FDP da distribuição normal. Ou seja, nos deu as probabilidades de Z assumir valores menores ou iguais a 1,20, a 1,60 e a 1,64. Da tabela acima, concluímos que a área verde da figura abaixo é igual a 0,945%. Uma vez que a área total é igual a 1, concluímos que a área vermelha é igual a 5,5%. Como o gráfico é simétrico, sabemos que a área amarela abaixo também é igual a 5,5%. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 8 Seja X a variável aleatória que indica o peso dos pacotes de leite em pó. A transformação para encontrar a variável reduzida é: σ μ− = XZ Sabemos que 5,5% dos valores de Z são menores ou iguais a -1,6. Sabemos que 5,5% dos valores de X são menores ou iguais a 1.000 g. Logo, quando Z vale -1,6, X vale 1.000. 1016100016 10 10006,1 =⇒−=−⇒−=− μμμ Encontramos o peso médio dos pacotes. Os pesos dos pacotes se comportam como uma variável normal de média 1016 e desvio padrão de 10 gramas. A pergunta é: qual a probabilidade de o peso total de uma amostra de 4 pacotes ser inferior a 4040g? Lembrando que 1010 4 4040 = , temos que essa pergunta equivale a: Qual a probabilidade de o peso médio de uma amostra de 4 pacotes ser inferior a 1010 g? Seja X a variável aleatória que designa o peso médio em amostras de 4 pacotes. X tem distribuição normal. Sua média é dada por: 1016][ == μXE Sua média é igual à média da população. Seu desvio padrão é dado por: 5 2 10][ ==== n XV X σσ CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 9 X é uma variável aleatória com média 1016 e desvio padrão igual a 5. Queremos saber a probabilidade de X ser inferior a 1010g. Precisamos consultar a tabela de áreas fornecida na prova. Para tanto, precisamos achar o valor da variável normal reduzida Z que corresponde a 1010. E agora cuidado! A variável aleatória de estudo é X . Na hora de obter a variável Z, temos que fazer uma subtração e uma divisão. Subtraímos a média da variável X (no caso, 1016). E dividimos pelo desvio padrão de X (no caso, 5). X XZ σ μ− = Quando X vale 1010, Z vale: 2,1 5 10161010 −= − =Z Vamos achar a probabilidade de Z ser menor que -1,2. A tabela fornecida nos diz que a área verde da figura abaixo é de 0,885. Como a área total é igual a 1, a área vermelha é igual a 0,115 (=1-0,885). Uma vez que o gráfico é simétrico, a área amarela da figura abaixo também é de 0,115. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 10 A probabilidade de Z ser menor que -1,2 é de 0,115. Consequentemente, a probabilidade de X ser menor que 1010 também é de 0,115. Gabarito: E. EC 7. MPU/2007 [FCC] [Considere que você já sabe que X tem variância igual a 12] Se retirarmos uma amostra aleatória de 1200 observações de uma população com distribuição uniforme no intervalo [17; 29], a distribuição da média amostral X será, aproximadamente, a) uniforme com média 23 e variância 12 b) normal com média 23 e desvio padrão 0,1 c) uniforme com média 23 e variância 1 d) normal com média 23 e desvio padrão 12. e) normal com média 23 e desvio padrão 1. Resolução: Quando a população tem distribuição normal, X também é uma variável aleatória normal. Quando a população não for normal, X será aproximadamente normal. A aproximação será tanto melhor quanto maior for a amostra. Nesse caso, em que X é uniforme, X é aproximadamente normal. Note que a amostra é bem grande (n = 1200). Estudamos na aula passada que, para calcular a média de uma variável aleatória uniforme, basta pegar o ponto médio do intervalo em que ela é diferente de zero. Neste caso, a esperança de X fica: 23 2 1729][ =+=XE CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJPROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 11 A média de X coincide com a média populacional. 23][ == μXE Para terminar a questão, ainda falta achar o desvio padrão da média amostral. Para tanto, precisamos da variância da população (não informada). E nós não estudamos como calculá-la. Então, acho que entender a questão até aqui já está ótimo. Mais que isso, para um concurso aberto a candidatos de todas as áreas, acho que já não seria razoável. Foi por isso que adaptei a questão. No enunciado eu disse para considerarmos que já sabemos qual a variância de X. Supondo que já sabemos que X tem variância 12, temos: 01,0 1200 1222 === nX σσ 1,0= X σ Portanto, X tem distribuição aproximadamente normal, com média 23 e desvio padrão 0,1. Gabarito: B. Para resolver o enunciado original, sem a adaptação, ficaríamos com: 29 17 329 17 222 312 1 1729 1)(][ xdxxdxxfxXE ×=× − ×=××= ∫∫ ∞ ∞− 541 3 1729 12 1 312 1][ 3329 17 3 2 = − ×=×= xXE 1223541][][ 222 =−=−= μXEXV E, por fim: 01,0 1200 1222 === nX σσ 1,0= X σ Portanto, X tem distribuição aproximadamente normal, com média 23 e desvio padrão 0,1. Nunca é demais lembrar: esta questão foi tirada de uma prova da área de estatística. Não é razoável a cobrança do enunciado original em uma prova aberta a candidatos de todas as áreas. EC 8. Ministério da Saúde/2007 [FCC] Para responder à questão seguinte, considere, dentre os dados abaixo, aqueles que julgar apropriados. Se Z tem distribuição normal padrão, então: 023,0)2( =>ZP ; 445,0)6,10( =<< ZP ; 84,0)1( =<ZP ; 49,0)33,20( =<< ZP CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 12 Suponha que o peso de crianças de 10 anos, numa determinada população, tenha distribuição normal com média μ desconhecida e desvio padrão 4 kg. A probabilidade de que o peso médio de uma amostra aleatória simples de 100 crianças, selecionadas desta população, difira por mais de 400 gramas de μ é, aproximadamente, igual a: a) 0,10 b) 0,16 c) 0,20 d) 0,27 e) 0,32 Resolução: X é uma variável aleatória de média μ e desvio padrão: 4,0 10 4 === nX σσ Vamos achar a probabilidade de X distar menos de 0,4 kg da média populacional. Isso ocorre quando X assume valores entre 4,0−μ e 4,0+μ . Vamos achar os valores de Z correspondentes. Quando X é igual a 4,0−μ , Z é igual a: 1 4,0 4,0 −= −− = − = μμ σ μ X XZ Quando X é igual a 4,0+μ , Z é igual a: 1 4,0 4,0 = −+ = − = μμ σ μ X XZ Fomos informados que: 84,0)1( =<ZP Desta forma, a área verde da figura abaixo é igual a 0,84. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 13 Logo, a probabilidade de Z ser maior que 1 é de: 16,084,01)1( =−=>ZP Esta probabilidade corresponde à área amarela da figura abaixo: Como a fdp da normal reduzida é simétrica em torno de zero: 16,0)1( =−<ZP . Ou seja, a área vermelha abaixo é igual à amarela e cada uma delas vale 0,16. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 14 Deste modo, a probabilidade de Z estar entre -1 e 1 é de: 68,016,016,01)11( =−−=<<− ZP Esta probabilidade corresponde à área verde abaixo: A probabilidade de Z assumir valores entre -1 e 1 é de 68%. Portanto, a probabilidade de X assumir valores entre 4,0−μ e 4,0+μ também é de 68%. Ou seja, a probabilidade de X distar menos de 0,4 kg da média populacional é de 68%. Consequentemente, a probabilidade de X distar mais de 0,4 kg da média populacional é de 32%. Gabarito: E 2 Intervalo de confiança para a média EC 9. Sefaz/MS 2006 [FGV] – Questão adaptada Uma amostra aleatória simples de tamanho 25 foi selecionada para estimar a média desconhecida de uma população normal. A média amostral encontrada foi 4,2. A variância da população é 1,44. O intervalo de 96,06% de confiança para a média populacional é: CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 15 (A) 4,2 ± 0,49 (B) 4,2 ± 0,64 (C) 4,2 ± 0,71 (D) 4,2 ± 0,75 (E) 4,2 ± 0,81 Resolução: Para determinação do intervalo de confiança, seguimos 4 passos. Primeiro passo: precisamos determinar o intervalo, para a variável normal reduzida (Z) que contém 96,06% dos valores (pois este é o nível de confiança solicitado no enunciado). Chamamos este valor de Z0 associado a 96,06% de confiança. Consultando a tabela que estava disponível nesta prova da FGV, temos que 96,05% dos valores de Z estão entre -2,06 e 2,06 06,20 =Z Segundo passo: determinar o valor específico de X para a amostragem feita. 2,4=X (fornecido no enunciado) Terceiro passo: determinar o desvio padrão de X . A amostra tem tamanho 25. (n = 25) O desvio padrão de X fica: 24,0 5 2,1 25 44,1 25 44,1)( 2 === == X n XV σ σ Quarto passo: determinar o intervalo de confiança. Para tanto, sabemos que em 96,06% dos casos o valor de Z estará entre -2,06 e 2,06. 00 ZZZ ≤≤− Vamos substituir Z: 00 Z XZ X ≤ − ≤− σ μ Isolando a média populacional: XX ZXZX σμσ ×+≤≤×− 00 O que isto significa? Significa que a probabilidade de a média populacional estar no intervalo acima definido é de 96,06%. Adotando a abordagem frequentista da probabilidade, temos o seguinte. Se fosse possível realizar, inúmeras vezes, uma amostragem de tamanho n, em 96,06% das vezes o intervalo acima definido conteria a média populacional. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 16 Muito bem. Aí a gente pega e faz uma única amostra, obtendo um único valor para a média amostral. Aí, obtemos: 49,02,449,02,4 +≤≤− μ Agora não falamos mais em probabilidade. É errado dizer que a probabilidade de a média populacional estar no intervalo acima é de 96,06%. Isto porque, acima, não temos mais nenhuma variável. 4,2 é um número, 0,49 é outro número, μ é um número (desconhecido, mas é constante, fixo). Quando substituímos a variável X pelo seu valor específico obtido para a amostra feita, falamos em confiança. Dizemos que, com 96,06% de confiança, a média populacional está contida no intervalo entre 4,2 – 0,49 e 4,2 + 0,49 Gabarito: A Vocês podem guardar que o intervalo de confiança será sempre da forma XX ZXZX σμσ 00 +≤≤− E, para memorizar, é só pensar assim. Nós obtemos a média da amostra (no caso 4,2). Nós queremos achar um intervalo que contenha a média da população. É razoável supor que a média da população seja próxima de 4,2. Então, para achar esse intervalo, nós andamos um pouco para esquerda e um pouco para a direita, ao longo da reta real. Ou seja, a média populacional deve estar no seguinte intervalo: ?2,4 ± Nós partimos de 4,2 (média amostral). A partir deste número, nós vamos andar um pouquinho para esquerda (vamos subtrair alguma coisa) e um pouquinho para direita (vamos somar alguma coisa). E que coisa é essa? Nós vamos andar um certo número de desvios-padrão para um lado e para o outro. ?2,4 ×± X σ ?24,02,4 ×± E quantos desvios-padrão nós vamos andar? O exercício é que vai dizer o quanto vamos andar para um lado e para o outro. Isto será dito pelo nível de confiança. Nós vamos andar Z0 desvios-padrão. 06,224,02,4 ×± O intervalo de confiança nos permite determinar uma faixa de valores em que pode estar a média populacional. É uma estimativa “por intervalo”, pois não atribui à média populacional um valor único, e sim um intervalo real. EC 10. CGU 2008 [ESAF] Construa um intervalo de 95% de confiança para a média de uma população normal a partir dos dados de uma amostra aleatória simples de tamanho 64 desta população, queforneceu CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 17 uma média de 48 e um desvio-padrão amostral de 16, considerando que F(1,96) = 0,975, onde F(z) é a função de distribuição de uma variável aleatória normal padrão Z. a) 44,08 a 51,92. b) 41,78 a 54,22. c) 38,2 a 57,8. d) 35,67 a 60,43. e) 32,15 a 63,85. Resolução: Repare que não conhecemos a variância da população. Sempre que isso acontece, nós devemos adotar os seguintes procedimentos: - utilizamos a variância da amostra no lugar da variância da população - consultamos a tabela da distribuição T, em vez da tabela da distribuição normal. Nós falaremos um pouco mais sobre isso no próximo tópico que vamos estudar. Dito isso, concluímos que o certo seria utilizar a distribuição T. Contudo, o exercício não forneceu a tabela da distribuição T. Forneceu apenas alguns valores da função distribuição de probabilidade da variável normal reduzida (= variável normal padrão). Não temos saída, teremos que utilizar os valores da variável reduzida. O mais exato seria resolver o exercício considerando a distribuição T. Mas não vamos “brigar” com o enunciado. Se o enunciado só deu informações sobre a variável normal, vamos usar a variável normal. Vamos considerar que essa amostra já é razoavelmente grande, de forma que a diferença entre usar a distribuição normal no lugar da distribuição T não é tão grande. Primeiro passo: determinando o valor de Z0 associado a 95% de confiança. Vimos que a função distribuição de probabilidade (FDP) também serve para cálculos de probabilidade. Se F(1,96) = 0,975, isto significa que a probabilidade de Z assumir valores menores ou iguais a 1,96 é de 97,5%. Ou seja, a área verde da figura abaixo é de 97,5%. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 18 Sabemos que a área inteira da figura acima é igual a 1 (a probabilidade de Z assumir um valor qualquer é de 100%). Portanto, a área amarela é de 2,5%. Como o gráfico é simétrico, a área à esquerda de -1,96 também é de 2,5%. Deste modo, a área verde da figura abaixo é de 95%. Os valores -1,96 e 1,96 delimitam o intervalo de confiança de 95% para a variável reduzida Z. Ou seja, o valor de Z0 associado a 95% é 1,96. 96,10 =Z Segundo passo: determinar o valor de X específico para a amostra feita. 48=X Terceiro passo: determinar o desvio padrão de X . A amostra tem tamanho 64 (n = 64). O desvio padrão de X é dado pela fórmula: nX σσ = CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 19 Não conhecemos o desvio padrão da população. Estamos considerando que a amostra é muito grande a tal ponto que a sua variância seja um excelente estimador da população. Vamos considerar que a variância amostral é igual à variância da população. Portanto, o desvio padrão da população também é igual ao desvio padrão da amostra (=16). 16=σ 2 64 16 == X σ Quarto: determinar o intervalo de confiança. O intervalo de confiança é da forma: XX ZXZX σμσ ×+≤≤×− 00 Substituindo os valores: XX ZXZX σμσ ×+≤≤×− 00 296,148296,148 ×+≤≤×− μ 92,34892,348 +≤≤− μ 92,5108,44 ≤≤ μ Gabarito: A. 3 Distribuição T de Student: intervalo de confiança para a média quando a variância da população é desconhecida EC 11. Fiscal de Rendas/MS 2006 [FGV] Uma amostra aleatória simples de tamanho 25 foi selecionada para estimar a média desconhecida de uma população normal. A média amostral encontrada foi 4,2, e a variância amostral foi 1,44. O intervalo de 95% de confiança para a média populacional é: (A) 4,2 ± 0,49 (B) 4,2 ± 0,64 (C) 4,2 ± 0,71 (D) 4,2 ± 0,75 (E) 4,2 ± 0,81 Resolução: Quando não conhecemos a variância da população, ficamos impedidos de achar o intervalo de confiança da maneira estudada na questão anterior. Neste caso, substituímos a variância da população pela variância amostral. Com isso, podemos obter um estimador para a variância da média amostral. Quando isso ocorre, na verdade, estamos estimando duas coisas ao mesmo tempo: a média e a variância da população. Por conta disso, é interessante que os intervalos de confiança sejam maiores (mais conservadores). Isso é possibilitado pelo uso da distribuição T de Student, que CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 20 é muito semelhante à distribuição normal, só que fornece intervalos maiores, para o mesmo nível de confiança fixado. No resto, é basicamente o mesmo procedimento estudado anteriormente, quando conhecíamos a variância populacional. A única diferença é que, em vez de consultarmos a tabela de áreas para a variável normal, iremos consultar a tabela para a distribuição T. Primeiro passo: determinando 0t associado a 95% de confiança. Note que agora não é mais o valor de Z0. Z0 era quando consultávamos a tabela de áreas para a variável normal reduzida. Só que, neste exercício, por não conhecermos o valor da variância da população, precisaremos utilizar a variância da amostra. Nestes casos, consultamos a tabela da distribuição T. Para encontramos 0t associado a 95% de confiança, precisamos de uma tabela para a distribuição T. Ao final da aula, anexamos a tabela que estava disponível nesta prova da FGV. Esta tabela é um pouco diferente da tabela para a variável normal. Para consultá-la, precisamos de saber: · O nível de confiança desejado. · O número de graus de liberdade O número de graus de liberdade é igual ao tamanho da amostra menos 1. 1__ −= nliberdadedegraus Neste caso, o número de graus de liberdade é 24. Ou seja, vamos ter que consultar a linha para 24 graus de liberdade. O nível de confiança desejado foi informado no enunciado: 95%. E agora? Qual coluna devemos olhar? Agora é muito importante saber como é que a tabela está estruturada. A figura desenhada no topo da tabela é muito útil, pois ajuda a entender o que é que a tabela fornece. A área hachurada é designada por p. É a área a esquerda de t0. E nós estamos querendo o valor de t0 que delimita uma área de 95% (nível de confiança dado no enunciado). CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 21 Estamos querendo achar valores de t0 que delimitem a área verde acima, de 95%. Se a área verde é de 95%, então cada uma das áreas brancas é de 2,5% (pois a área total é igual a 100%). Com isso, a área laranja da figura abaixo é de 97,5%: Obtivemos uma área exatamente no formato daquela que a tabela da FGV indica. Assim, o valor de t0 que estamos procurando é aquele tal que a área a sua esquerda é de 97,5%. Portanto, a coluna que devemos consultar nesta tabela fornecida na prova da FGV é a coluna de 97,5%. Consultando a tabela para 24 graus de liberdade e para 95% de confiança (coluna de área igual a 97,5%), temos: 06,20 =t Ou seja, 95% dos valores de t estão entre -2,06 e 2,06. Segundo passo: determinar o valor específico de X para a amostragem feita. 2,4=X (fornecido no enunciado) CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 22 Terceiro passo: determinar o desvio padrão de X . A amostra tem tamanho 25. (n = 25) n XV 2 )( σ= Só que não sabemos a variância da população ( 2σ ). Portanto, não temos como calcular a variância de X . Neste caso, vamos substituir a variância da população ( 2σ ) pela variância da amostra fornecida no exercício. Isto porque vimos nesta aula que a variância da amostra é um estimador da variância da população. Estimador da variância da população: 44,12 =Xs E o estimador davariância de X fica: 25 44,144,12 == n s X Agora podemos calcular a estimativa do desvio padrão de X : 24,0 5 2,1 25 44,1 === X s Quarto passo: determinar o intervalo de confiança. Para tanto, sabemos que em 95% dos casos o valor de t estará entre -2,064 e 2,064. 06,206,2 ≤≤− t Mas quem é t? A variável t é quem está substituindo a variável Z. Para obter a variável t, o procedimento é análogo ao procedimento para a variável Z. X s Xt μ−= A única diferença é que não sabemos o desvio padrão de X . Por isto utilizamos a sua estimativa ( X s ). Ok, continuando o problema. Sabemos que em 95% dos casos o valor de t estará entre -2,06 e 2,06. 06,206,2 ≤≤− t CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 23 06,206,2 ≤−≤− X s X μ 06,2 24,0 2,406,2 ≤−≤− μ 24,006,22,424,006,2 ×≤−≤×− μ 24,006,22,42,424,006,2 ×+−≤−≤−×− μ 24,006,22,424,006,22,4 ×+≤≤×− μ 49,02,449,02,4 +≤≤− μ Gabarito: A Outra forma de fazer é lembrar que o intervalo de confiança da média é da forma: XX stXstX 00 +≤≤− μ Substituindo os valores, chegamos a: 49,02,449,02,4 +≤≤− μ . EC 12. Senado 2008 [FGV] Uma amostra aleatória simples X1, X2, ..., X16, de tamanho 16, de uma distribuição normal foi observada e indicou as seguintes estatísticas: 4,70 16 1 =∑ =i iX e ∑ − =− 16 1 2 60)( i i XX O intervalo usual de 95% de confiança para a média populacional, com duas casas decimais, é: (A) (3,58 , 5,22). (B) (3,47 , 5,33). (C) (3,33 , 5,47). (D) (3,19 , 5,61). (E) (3,01 , 5,81). Resolução: Como não foi dada a variância da população, precisamos usar a distribuição T para determinação do intervalo de confiança. Primeiro passo: determinando t0 associado a 95% de confiança. O número de graus de liberdade é: CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 24 graus de liberdade: 151161 =−=−n Observem que a tabela disponibilizada pela FGV nesta prova do Senado é totalmente diferente daquela disponibilizada na prova da Sefaz MS. É por isso que não podemos simplesmente decorar a forma como deve ser consultada a tabela. Não dá para fazer isso. Devemos sempre interpretar cada tabela, entender o que ela fornece. Neste caso, as colunas da tabela fornecem a área fora dos limites entre 0t− e t0. Se nós queremos que a área entre 0t− e 0t seja de 95%, então a área fora de tais limites será de 5%. Logo, devemos consultar a coluna de 5%. Perceberam a diferença? No exercício anterior, quando queríamos um nível de 95% de confiança, consultávamos a coluna de 97,5%. Agora, para o mesmo nível de confiança de 95%, consultamos a coluna de 5%. Tudo isso por conta da forma como cada tabela é estruturada. Ok, consultando a tabela para um nível de 95% de confiança (coluna de área 5%) e 15 graus de liberdade, temos: 131,20 =t Segundo passo: determinar o valor específico de X para a amostragem feita. === ∑ = 16 4,70 16 16 1i Xi X 4,4 Terceiro passo: determinar o desvio padrão de X . A amostra tem tamanho 16. (n = 16) n XV 2 )( σ= Só que não sabemos a variância da população ( 2σ ). Portanto, não temos como calcular a variância de X . Neste caso, vamos substituir a variância da população ( 2σ ) pela variância da amostra fornecida no exercício. Isto porque vimos nesta aula que a variância da amostra é um estimador da variância da população. Estimador da variância da população: CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 25 4 15 60 116 )( 16 1 2 2 == − − = ∑ =i X XXi s E o estimador da variância de X fica: 16 422 == n ss X X Agora podemos calcular a estimativa do desvio padrão de X : 5,0 4 2 16 4 === X s Quarto passo: determinar o intervalo de confiança. O intervalo de confiança da média é da forma: XX stXstX 00 +≤≤− μ 5,0131,24,45,0131,24,4 ×+≤≤×− μ 47,533,3 ≤≤ μ Gabarito: C EC 13. MP RO 2005 [CESGRANRIO] Uma amostra aleatória simples de tamanho 25 foi selecionada para estimar a média e a variância desconhecidas de uma população normal. A média amostral encontrada foi 5,2 e a variância amostral foi 1,44. O intervalo de 95% de confiança para a média populacional é: (A) 5,2 ± 0,32 (B) 5,2 ± 0,41 (C) 5,2 ± 0,47 (D) 5,2 ± 0,50 (E) 5,2 ± 0,75 Resolução: Primeiro passo: obter o valor de t0 associado a 95% de confiança. A amostra tem tamanho 25. Logo, o número de graus de liberdade é igual a 24. Vamos consultar a tabela disponibilizada na prova do Senado, da FGV. Consultando a tabela, temos que a soma das duas áreas amarelas abaixo é igual a 5%: CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 26 Se a área amarela é igual a 5%, então a área verde é igual a 95%. Logo, os valores procurados são -2,064 e 2,064. 064,20 =t Segundo passo: obter o valor específico de X . 2,5=X (fornecido no enunciado). Terceiro passo: obter o desvio padrão de X . Como não temos a variância da população, na verdade vamos obter a estimativa do desvio padrão de X : 24,0 25 2,1 === n ss X Quarto passo: obter o intervalo de confiança. O intervalo de confiança é da forma: XX stXstX ×+≤≤×− 00 μ 24,020642,524,0064,22,5 ×+≤≤×− μ 495,02,5495,02,5 +≤≤− μ Gabarito: D III INTERVALO DE CONFIANÇA PARA PROPORÇÕES. EC 14. Fiscal de Rendas/MS – 2006 [FGV] Uma amostra aleatória de tamanho 400 revelou que 64% dos torcedores brasileiros acham que conquistaremos o hexacampeonato mundial de futebol. O intervalo de 95% de confiança para a proporção de torcedores na população que acreditam no hexacampeonato é: (A) 64% ± 3,9% (B) 64% ± 4,2% CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 27 (C) 64% ± 4,7% (D) 64% ± 5,1% (E) 64% ± 5,6% Resolução: Quando pensamos em todas as amostra possíveis de tamanho n, a proporção amostral também pode ser vista como uma variável aleatória. → PROPORÇÃO DE CASOS FAVORÁVEIS NA AMOSTRA ( p̂ ) Pode ser vista como uma variável com média e desvio padrão dados por: pp =ˆμ n pq p =ˆσ Onde ‘p’ é a proporção de casos favoráveis na população e ‘q’ é a proporção de casos desfavoráveis na população. A proporção amostral tem distribuição aproximadamente normal. Assim, podemos consultar a tabela de áreas da variável normal. Visto isso, vamos à determinação do intervalo de confiança. Primeiro passo: determinar o valor de Z0 correspondente a 95% de confiança. Consultando a tabela que estava disponível na prova da FGV, este valor é de 1,96. Segundo passo: determinar os valores específicos de p̂ e q̂ . 64,0ˆ =p 36,0ˆ =q Terceiro passo: determinar o desvio padrão de p̂ n pq p =ˆσ Como não sabemos o valor da proporção populacional (p), substituímos pelo seu estimador (proporção amostral). Com isso, obtemos um estimador para o desvio padrão de p̂ . n qps p ˆˆ ˆ = 024,0 20 6,08,0 400 36,064,0 ˆ = × = × =ps Quarto passo: determinar o intervalo de confiança. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 28 pp sZppsZp ˆ0ˆ0 ˆˆ ×+≤≤×− 047,064,0047,064,0 +≤≤− p Gabarito: C. → LEMBRETE DE INTERVALO DE CONFIANÇA: Se for intervalo de confiança para uma média e conhecermos a variância da população, utilizamos a tabela da variável normal. Se for intervalo de confiança para uma média e não conhecermos a variância da população, utilizamos a tabela da distribuição T (a menos que o exercício diga para utilizar a tabela da variável normal). Se for intervalo de confiança parauma proporção, utilizamos a tabela da variável normal. EC 15. MP RO 2005 [CESGRANRIO] Uma amostra aleatória de 400 eleitores revelou 64% de preferências pelo candidato X. O intervalo de 95% de confiança para a proporção de eleitores que preferem X é: (A) 0,64 ± 0,047 (B) 0,64 ± 0,052 (C) 0,64 ± 0,056 (D) 0,64 ± 0,064 (E) 0,64 ± 0,085 Resolução: Primeiro passo: obtendo o valor de Z0 associado a 95% de confiança (podemos consultar a tabela disponível na prova da Sefaz MS, da FGV). 96,10 =Z Segundo passo: determinar os valores específicos de p̂ e q̂ . 64,0ˆ =p 36,0ˆ =q Terceiro passo: determinar o desvio padrão de p̂ n qps p ˆˆ ˆ = 024,0 20 6,08,0 400 36,064,0 ˆ = × = × =ps Quarto passo: determinar o intervalo de confiança. pp sZppsZp ˆ0ˆ0 ˆˆ ×+≤≤×− 024,096,164,0024,096,164,0 ×+≤≤×− p CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 29 047,064,0047,064,0 +≤≤− p Gabarito: A IV INTERVALO DE CONFIANÇA E TAMANHO DA AMOSTRA EC 16. Prefeitura de São Paulo – 2007 [FCC] Para responder à questão seguinte, utilize, dentre as informações abaixo, as que julgar adequadas. Se Z tem distribuição normal padrão, então: 341,0)10( =<< ZP 445,0)6,10( =<< ZP 477,0)20( =<< ZP Uma variável aleatória X tem distribuição normal com média μ e desvio padrão 100. O tamanho da amostra para que a diferença, em valor absoluto, entre a média amostral e μ seja menor do que 2, com coeficiente de confiança de 89% é: a) 1.000 b) 2.200 c) 2.800 d) 3.600 e) 6.400 Resolução: A diferença entre a média da população e a média da amostra é chamada de erro. Para um dado nível de significância, o maior erro ocorre quando a média da população está justamente em um dos extremos do intervalo de confiança. Assim, o erro máximo cometido vai corresponder justamente à metade da amplitude do intervalo de confiança. → Erro máximo cometido (para um determinado nível de confiança): Corresponde à metade da amplitude do intervalo de confiança. Desta forma, o erro máximo cometido é igual a: X Zerro σ0max_ = Para aplicar a fórmula, temos que encontrar Z0 associado a 89% e o desvio padrão de X . Sabemos que 445,0)6,10( =<< ZP . Logo, a área verde da figura abaixo é igual a 0,445: CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 30 Como o gráfico é simétrico, então a área verde da figura abaixo é igual a 0,89: Desse modo, a probabilidade de Z estar entre -1,6 e 1,6 é igual a 89%. 6,10 =Z Vamos ao desvio padrão de X . nnX 100 == σσ Encontrados os valores de Z0 e de Xσ , podemos encontrar o erro máximo cometido. X Zerro σ0max_ = n erro 1006,1max_ ×= E o exercício disse que o erro máximo é igual a 2. n 1006,12 ×= CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 31 Isolando o ‘n’: 640080 2 1006,1 =⇒=×= nn Gabarito: E. Dizemos que, para que o erro máximo cometido seja igual a 2, a amostra deve ter tamanho 6400 (considerando um coeficiente de confiança de 89%). EC 17. Senado 2008 [FGV] Na estimação da média de uma população cujo desvio-padrão é 4, usando uma amostra aleatória de tamanho 120, obteve-se o seguinte intervalo de 95% de confiança para a média: 5 ± 2. O tamanho de amostra que deverá ser considerado para que o comprimento do intervalo de 95% seja reduzido à metade é: (A) 60. (B) 240. (C) 300. (D) 360. (E) 480. Resolução: A amplitude do intervalo de confiança é dada por: Amplitude: X Z σ×× 02 Substituindo o valor do desvio padrão da média amostral: Amplitude: n Z σ×× 02 O exercício pediu o seguinte. Devemos reduzir a amplitude acima para metade do seu tamanho original. Se o nível de confiança é mantido, então o valor de Z0 fica inalterado. O valor de σ é fixo, constante. Assim, só podemos mexer no tamanho da amostra, que está no denominador. Para que a amplitude seja dividida por 2, devemos dobrar o valor do denominador. Vamos chamar o tamanho da nova amostra de 'n , para diferenciar do tamanho anterior. Logo: nn ×= 2' Elevando os dois lados da igualdade ao quadrado: nn ×= 4' 480'=n CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 32 Gabarito: E EC 18. MPU/2007 [FCC] Uma nova marca de lâmpada está sendo estudada. Baseado em estudos anteriores com outras marcas similares, pode-se admitir que a vida média segue uma distribuição normal com desvio padrão de 8 meses. Tendo como base estes resultados, o tamanho da amostra necessário para que a amplitude do intervalo de 95% de confiança (utilize a aproximação 95,0)22( =≤≤− ZP , onde Z é a normal padrão) para a vida média seja de 4 meses é de: a) 8 b) 12 c) 16 d) 64 e) 128 Resolução: Se a amplitude do intervalo de confiança deve ser de 4, então o erro máximo a ser cometido fica: 2 2 4max_ ==erro O erro máximo é de 2 meses. Lembrando a fórmula do erro máximo: X Zerro σ0max_ = Precisamos do valor de Z0 e de Xσ . Z0 foi dado no enunciado: 20 =Z Sabemos que: nnX 8 == σσ Voltando na fórmula do erro máximo: X Zerro σ0max_ = n 822 ×= Isolando o ‘n’: 648 2 82 =⇒=×= nn Gabarito: D. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 33 Considerando um coeficiente de confiança de 95%, dizemos que a amostra deve ter tamanho 64 para que o erro máximo cometido seja de 2, o que implica em amplitude do intervalo de confiança igual a 4. EC 19. Ministério da Saúde/2007 [FCC] Para responder à questão seguinte considere, dentre os dados abaixo, aqueles que julgar apropriados. Se Z tem distribuição normal padrão, então: 023,0)2( =>ZP ; 445,0)6,10( =<< ZP ; 84,0)1( =<ZP ; 49,0)33,20( =<< ZP Para estimar a proporção de cura de um medicamento antiparasitário realizou-se um experimento clínico, aplicando-se o medicamento em ‘n’ doentes escolhidos ao acaso. Nesta amostra foi considerado que 80% dos doentes foram curados. Com base nestas informações e utilizando o Teorema Central do Limite, o valor de n, para que o erro cometido na estimação seja no máximo 0,08, com confiança de 89%, é de: a) 16 b) 25 c) 36 d) 49 e) 64 Resolução: Aqui, estamos querendo determinar o tamanho da amostra para que o erro máximo seja de 8%. Mas, diferentemente do exercício anterior, agora estamos trabalhando com a proporção amostral (não mais com média amostral). Quando isso acontece, um problema surge: é impossível calcular o tamanho da amostra com o mesmo procedimento estudado. Por quê? No caso do intervalo de confiança para a proporção amostral, a metade da amplitude do intervalo de confiança, que corresponde ao erro máximo, fica: psZerro ˆ0max_ = n qpZerro ˆˆ max_ 0 ×= Fixado o erro máximo, precisamos achar o valor de n. Mas, na equação acima, não dá para isolar o n porque ainda não sabemos o valor da proporção amostral. Aliás, é justamente para isso que faremos a amostragem: para descobrir o valor da proporção amostral. Estamos querendo determinar o tamanho da amostra, para só então fazer a amostragem, o que fornecerá um valor para p̂ . CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 34 Aí não dá. Para achar o tamanho da amostra precisamos da proporção amostral. E só saberemos a proporção amostral depois de determinarmos o tamanho da amostra e realizarmos a amostragem. Para contornar este problema, há duas possíveis soluções: 1) fazemos uma amostragem preliminar, que fornecerá um valor para p̂ ; com isso, achamos o valor de n e fazemos outra amostragem. 2)adotamos, para efeito de cálculo do tamanho da amostra, p̂ igual a 0,5; isso maximiza o tamanho de n (para um dado nível de confiança). Além disso, para um dado n, este valor também maximiza a variância da proporção amostral. No caso desta questão, foi adotada a primeira solução. Foi realizada uma amostragem preliminar, que resultou numa proporção amostral de 80%. Podemos interpretar que, na amostra preliminar, a proporção de cura verificada foi de 80%. A partir desse valor, podemos calcular o valor de ‘n’ para uma segunda amostragem, de tal forma que o erro máximo seja de 0,08. A fórmula do erro máximo é: psZerro ˆ0max_ = Primeiro, vamos encontrar Z0. Sabemos que 445,0)6,10( =<< ZP . Logo, a área verde da figura abaixo é igual a 0,445: Como o gráfico é simétrico, então a área verde da figura abaixo é igual a 0,89: CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 35 Desse modo, a probabilidade de Z estar entre -1,6 e 1,6 é igual a 89%. 6,10 =Z Agora vamos achar ps ˆ n qps p ˆˆ ˆ = Substituindo os valores da amostra preliminar: nn s p 4,02,08,0 ˆ = × = Voltando na fórmula do erro máximo: psZerro ˆ0max_ = n 4,06,108,0 ×= Isolando n: 64 8 64 =⇒= nn Gabarito: E. EC 20. SEFAZ RJ 2007 [FGV] Uma pesquisa recente foi realizada para avaliar o percentual da população favorável à eleição de um determinado ponto turístico para constar no selo comemorativo de aniversário da cidade. Para isso, selecionou-se uma amostra aleatória simples extraída de uma população infinita. O resultado apurou 50% de intenção de votos para esse ponto turístico. Considerando que a margem de erro foi de 2 pontos percentuais, para mais ou para menos, e que o nível de confiança utilizado foi de 95%, foram ouvidas, aproximadamente: (A) 50 pessoas. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 36 (B) 100 pessoas. (C) 1.200 pessoas. (D) 2.400 pessoas. (E) 4.800 pessoas. Resolução: O erro máximo é dado por: n qpZerro ˆˆ max_ 0 ×= Podemos fazer a consulta de Z0 na tabela da distribuição normal colocada ao final da aula. Mas, de tanto aparecer este percentual de 95%, já sabemos que Z0 é igual a 1,96. Substituindo os valores: n 5,05,096,102,0 ××= n 5,096,102,0 ×= =×= 02,0 5,096,1n 49 =n 2401 Foram ouvidas 2401 pessoas. Aproximando, temos 2.400. Gabarito: D EC 21. Senado 2008 [FGV] Um estatístico de uma companhia telefônica deseja estimar a proporção p de clientes satisfeitos com a introdução de um novo tipo de serviço. Suponha que o número de clientes da companhia seja grande. Sabe-se, com base em experiências anteriores, que p deve estar próxima de 0,50. O menor tamanho de amostra que ele deve considerar de modo a garantir com probabilidade de 95% um erro absoluto de estimação de no máximo 0,02 é: (A) 800. (B) 1082. (C) 1530. (D) 1681. (E) 2401. Resolução: Exercício idêntico ao anterior. O tamanho da amostra será de 2401. Gabarito: E CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 37 EC 22. POTIGAS 2006 [FGV] O tamanho mínimo que deve ter uma amostra aleatória simples para estimar, com 95% de confiança e erro de 1 ponto porcentual, a preferência do eleitorado por determinado candidato é: (A) 912. (B) 1 200. (C) 2 401. (D) 4 800. (E) 9 604. Resolução: O erro máximo é dado por: n qpZerro ˆˆ max_ 0 ×= Como a questão não forneceu qualquer informação sobre uma eventual amostragem preliminar, só nos resta adotar 5,0ˆˆ == qp . Como vimos no EC 19, é o modo mais conservador, pois maximiza o tamanho da amostra. Substituindo os valores: n 5,05,096,101,0 ××= n 5,096,101,0 ×= =×= 01,0 5,096,1n 98 =n 9604 Gabarito: E EC 23. SEFAZ RJ 2009 [FGV] Para examinar a opinião de uma população sobre uma proposta, foi montada uma pesquisa de opinião em que foram ouvidas 1680 pessoas, das quais 51,3% se declararam favoráveis à proposta. Os analistas responsáveis determinaram que a margem de erro desse resultado, em um determinado nível de confiança, era de 2 pontos percentuais, para mais ou para menos. Considerando que fosse desejada uma margem de erro de 1 ponto percentual, para mais ou para menos, no mesmo nível de confiança, assinale a alternativa que indique o número de pessoas que deveriam ser ouvidas. (A) 840 (B) 2520 CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 38 (C) 3360 (D) 5040 (E) 6720 Resolução: Exercício muito semelhante ao EC 17. A margem de erro é igual à metade da amplitude do intervalo de confiança. n qpZerro ˆˆ max_ 0 ×= Novamente, a única coisa que poderemos alterar é o denominador (valor de n ). Temos que dobrar o denominador, para que o erro máximo seja dividido por 2. Já vimos no EC 17 que, para que isso aconteça, o tamanho da amostra deve ser quadruplicado. == nn 4' 6720 Gabarito: E V CARACTERÍSTICAS DOS ESTIMADORES Este é um tópico que é pouco abordado em cursos preparatórios, porque não é muito cobrado em provas abertas a candidatos de todas as áreas. Por este motivo, creio que a maior parte de vocês nunca estudou as características dos estimadores. Assim, antes de entrarmos nos exercícios, vamos ver um pouquinho de teoria, bem rapidamente. Algumas características dos estimadores são: · Não tendenciosos (ou não viciados) · De variância mínima · De mínimos quadrados · De máxima verossimilhança 1 Estimador não tendencioso (ou não viciado) Seja a um estimador para o parâmetro α . Dizemos que a é um estimador não tendencioso se: α=)(aE A média amostral ( X ) é um estimador não-tendencioso para a média populacional. Para melhor visualização, vamos considerar um experimento que consiste em lançar um tetraedro homogêneo, com faces 1, 2, 3 e 4. Vamos lançá-lo 2 vezes, obtendo uma amostra de tamanho 2. O quadro abaixo traz todas as possíveis amostras. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 39 1 e 1 1 e 2 1 e 3 1 e 4 2 e 1 2 e 2 2 e 3 2 e 4 3 e 1 3 e 2 3 e 3 3 e 4 4 e 1 4 e 2 4 e 3 4 e 4 Seriam 16 amostras possíveis, todas elas com a mesma probabilidade de ocorrer. O valor da média amostral em cada uma dessas amostras seria: Valores da amostra X 1 e 1 1 1 e 2 1,5 1 e 3 2 1 e 4 2,5 2 e 1 1,5 2 e 2 2 2 e 3 2,5 2 e 4 3 3 e 1 2 3 e 2 2,5 3 e 3 3 3 e 4 3,5 4 e 1 2,5 4 e 2 3 4 e 3 3,5 4 e 4 4 Repare que X pode ser visto como uma variável aleatória que assume diversos valores. A média de todos os possíveis valores de X fica: )45,335,25,335,2235,225,15,225,11( 16 1)( +++++++++++++++×=XE 5,2)( =XE Vamos agora calcular a média da variável aleatória X. A variável aleatória X assume os valores 1, 2, 3, 4, cada um com probabilidade 1/4. Portanto: 4 4 13 4 12 4 11 4 1)( ×+×+×+×== μXE 5,2=μ Concluindo: a esperança da média amostral é igual à esperança da população. Isto significa que, se fosse possível fazer um número muito grande de amostras, a média de todas as médias amostrais seria igual à média da população. Vamos aproveitar este exemplo do tetraedro e vamos calcular a variância das amostras. Para tanto, vamos fazer dois cálculos: um com o denominador n e outro com o denominador 1−n . Para diferenciar, quando utilizarmos o denominador n, vamos adotar o símbolo *s . CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 40 Valores da amostra 12 )( 2 1 2 2 − − = ∑ =i i xx s 2 )( * 2 1 2 2 ∑ = − = i i xx s 1 e 1 0 0 1 e 2 0,5 0,25 1 e 3 2 1 1 e 4 4,5 2,25 2e 1 0,5 0,25 2 e 2 0 0 2 e 3 0,5 0,25 2 e 4 2 1 3 e 1 2 1 3 e 2 0,5 0,25 3 e 3 0 0 3 e 4 0,5 0,25 4 e 1 4,5 2,25 4 e 2 2 1 4 e 3 0,5 0,25 4 e 4 0 0 total 20 10 Note que: 25,1 16 20)( 2 ==sE 625,0 16 10)*( 2 ==sE Vamos agora calcular a variância da variável aleatória X. 5,2 4 4321)( =+++=XE 5,7 4 16941)( 2 =+++=XE 22 )()()( XEXEXV −= 25,15,25,7)( 2 =−=XV O parâmetro é igual a 1,25. Os estimadores foram 1,25 (s2 , com o denominador 1−n ) e 0,625 ( 2*s , com o denominador n). Por isso dizemos que o estimador variância amostral deve ter 1−n no denominador. Isto garante um estimador não-viciado. 2 Estimador de variância mínima. Vamos continuar com o exemplo do tetraedro com faces 1, 2, 3, 4 e as possíveis amostras de tamanho 2. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 41 Queremos estimar a variância da população. Quem tem acesso a todas as faces do tetraedro, sabe que: 5,2 4 4321 = +++ =μ Já quem desconhece as faces do tetraedro, poderá apenas estimar a média da população, com base no resultado de uma amostra de tamanho 2. Durante toda a aula, nós trabalhamos com o estimador X (média aritmética da amostra). Pois bem, vamos criar um outro estimador para a média populacional. Vou chama-lo de *X , para diferenciar do símbolo anterior. Esse nosso novo estimador será uma média ponderada dos valores da amostra, em que o primeiro valor da amostra tem peso 2 e o segundo valor da amostra tem peso 1. Exemplificando: se a amostra for: (2,3), nosso estimador será: 333,2 3 1322* =×+×=X A tabela abaixo traz todas as amostras possíveis, bem como os valores dos estimadores. Valores da amostra X *X 1 e 1 1 1 1 e 2 1,5 1,333333 1 e 3 2 1,666667 1 e 4 2,5 2 2 e 1 1,5 1,666667 2 e 2 2 2 2 e 3 2,5 2,333333 2 e 4 3 2,666667 3 e 1 2 2,333333 3 e 2 2,5 2,666667 3 e 3 3 3 3 e 4 3,5 3,333333 4 e 1 2,5 3 4 e 2 3 3,333333 4 e 3 3,5 3,666667 4 e 4 4 4 total 40 40 Interessante observar que: 5,2 16 40)*()( === XEXE Ou seja, o estimador *X também é não-tendencioso. Qualquer média ponderada dos valores da amostra será um estimador não-tendencioso da média populacional. Ah, então qualquer média ponderada será um bom estimador? Não necessariamente. Depende das características que você quer para o seu estimador. Uma característica interessante é que o estimador tenha variância mínima. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 42 Se você calcular a variância dos estimadores *X e X , verá que eles têm variâncias diferentes. Não vou reproduzir os cálculos aqui, vou apenas dar o resultado: 625,0)( =XV 6944,0)*( =XV Note que X tem uma variância menor que *X . Isto pode ser interessante. Se fizéssemos inúmeras amostras, em média, acertaríamos o valor do parâmetro nos dois casos (com qualquer um destes dois estimadores). Só que o estimador *X tem maior dispersão. Ele apresenta, com maior freqüência, valores afastados da média populacional. Por isso, o estimador X é melhor. Assim, uma característica que se costuma buscar é que o estimador tenha variância mínima. Ou seja, que a variância do estimador escolhido seja menor que a variância de qualquer outro estimador. Dentre os estimadores lineares (ou seja, aqueles que são obtidos a partir de uma média ponderada com os valores da amostra), é possível demonstrar que a média aritmética simples ( X ) apresenta variância mínima. É possível comparar a eficiência entre dois estimadores diferentes. Basta dividir suas variâncias. Assim, a eficiência relativa de *X , em comparação com X , é dada por: %90 6944,0 625,0 = 3 Estimador de mínimos quadrados Um outro tipo de estimador é aquele que minimiza a soma dos quadrados dos desvios. Por enquanto, não veremos este tipo de estimador com mais detalhes. Falaremos mais a respeito na aula de regressão linear, em que será muito freqüente realizarmos a operação que minimiza a soma dos quadrados dos desvios. Interessante observar que X e p̂ são estimadores de mínimos quadrados. Ou seja, a média amostral e a proporção amostral estimam a média e a proporção populacionais, obedecendo ao critério de mínimos quadrados. 4 Estimador de máxima verossimilhança Um estimador de máxima verossimilhança maximiza a probabilidade (se a variável aleatória for discreta) ou a densidade de probabilidade (se a variável aleatória for contínua) de a amostra observada ter sido obtida. Para explicar, vou adaptar um exemplo extraído do livro Estatística para Economistas, do Rodolfo Hoffmann. Considere um tetraedro que possui faces azuis e brancas. Lançamos o tetraedro. O resultado obtido corresponde à face que fica em contato com o solo. Caso saia uma face azul, temos um caso favorável. Caso saia uma face branca, temos um caso desfavorável. O tetraedro é lançado 3 vezes, resultado em 1 caso favorável (1 resultado azul e 2 brancos). CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 43 Nós só temos acesso ao resultado desta amostra e temos que estimar a proporção populacional, ou seja, a proporção de faces azuis no tetraedro. Para achar o estimador de máxima verossimilhança, nós temos que ver qual a proporção que maximiza a probabilidade de esta amostra ter sido obtida. O quadro abaixo resume os cálculos. Número de faces azuis probabilidade de sucesso em 1 experimento Probabilidade de, em 3 lançamentos, termos 1 caso favorável 0 0 0 1 0,25 0,421875 2 0,5 0,375 3 0,75 0,140625 4 1 0 A maior probabilidade (0,421875) ocorre quando temos 1 face azul. Logo, o estimador de máxima verossimilhança é 0,25. Neste exemplo, a proporção populacional só poderia assumir alguns valores (0; 0,25; 0,5; 0,75; 1,0). É uma variável discreta. Caso a proporção populacional p possa assumir qualquer valor no intervalo entre 0 e 1, então é possível demonstrar que a proporção amostral é um estimador de mínimos quadrados e de máxima verossimilhança. Se a variável aleatória for normal, o estimador de máxima verossimilhança para a variância é dado por: n xx s n i i∑ = − = 1 2 2 )( * Se a variável aleatória for normal, a média aritmética da amostra ( X ) é um estimador de máxima verossimilhança para a média populacional. Texto para questões EC 24 e EC 25. Para responder às questões seguintes, considere as distribuições amostrais de cinco estimadores propostos para estimar o parâmetro T de uma população, ilustradas na figura apresentada a seguir. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 44 EC 24. INEP 2008 [CESGRANRIO] Se o interesse for um estimador não viesado, deve-se utilizar apenas (A) T1 (B) T4 (C) T1 ou T4 (D) T2 ou T5 (E) T1 ou T2 ou T3 Resolução: Estimador não viesado é sinônimo de estimador não tendencioso. Queremos que a média do estimador seja igual a T. Os únicos estimadores que apresentam esta característica são T1, T2 e T3. Gabarito: E EC 25. INEP 2008 [CESGRANRIO] Levando-se em conta as propriedades de um bom estimador, o melhor dentre os estimadores propostos é (A) T1 (B) T2 (C) T3 (D) T4 CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 45 (E) T5 Resolução: Entre os estimadores T1, T2 e T3, o que apresenta variância mínima é T2, pois apresenta uma curva mais afilada, o que indica que a proporção de valores próximos à média é maior. Gabarito: B EC 26. MPE PE/2006 [FCC] Com relação à teoria geral da amostragem, é incorreto afirmar que: a) Quanto menor o erro padrão da estimativa, menor será a confiabilidade e a precisão da estimativa.b) Em uma amostra por conglomerados a população é dividida em sub-populações distintas. c) A realização de uma amostragem aleatória simples só é possível se o pesquisador possuir uma lista completa de cada unidade amostral. d) Um estimador é considerado não viciado quando sua esperança é igual ao valor populacional que está sendo pesquisado. e) Amostragem estratificada consiste na divisão de uma população em grupos segundo alguma característica conhecida. Os estratos da população devem ser mutuamente exclusivos. Letra A. Erro padrão é sinônimo de desvio padrão. Se a estimativa tem erro padrão pequeno, isso significa que ela pouco varia. Para exemplificar, vamos trabalhar com a estimativa que já estudamos: X . Se X tem um desvio padrão pequeno, então a média amostral pouco varia de uma amostra para outra. Isso significa que cada média amostral também é bem próxima da média da população. Quanto menor o erro padrão de X , mais precisa é a nossa estimativa. Mais confiável ela é. Nossa estimativa deve estar bem próxima do verdadeiro valor do parâmetro. Alternativa errada. Letra B. Alternativa correta. Realmente, na amostragem por conglomerados, busca-se dividir a população em sub-populações, em conjuntos heterogêneos que representem bem a população inteira. Como vimos na aula passada, isso nem sempre se verifica. Como o intuito desse tipo de amostragem é reduzir custos e tempo, os conglomerados são escolhidos de forma que seus elementos estejam próximos/ligados, o que muitas vezes faz com que um conglomerado não abranja itens tão heterogêneos assim. Letra C. Em geral, realmente a amostragem aleatória é feita quando se tem uma listagem de todos os elementos. Assim, para escolher aleatoriamente um grupo de funcionários que participará de CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 46 uma pesquisa sobre o clima organizacional da empresa, parte-se de uma listagem de todos os empregados. Dessa lista, extraem-se, aleatoriamente, algumas pessoas. O processo de escolha pode se dar de diversas formas. Podemos escrever o nome de todos eles em pedaços de papel de mesmo tamanho, dobrar, colocar num saco, misturar bem, e sortear. Podemos atribuir a cada um deles um número e usar uma tabela de números aleatórios para escolher os números. Podemos colocar seus nomes em planilhas, executar um programa que gere números aleatórios, atribuindo um número a cada pessoa, e depois ordenar de forma crescente. Enfim, há inúmeras formas que, geralmente, partem de uma listagem de todos os elementos, como foi dito no enunciado. Contudo, há formas de se fazer uma amostragem aleatória sem que exista uma listagem prévia. A banca considerou esse item correto. Ao meu ver, caberia recurso. Cito na seqüência um trecho do livro “Estatística aplicada à administração” do autor William Stevenson: “Se a população alvo é finita, há essencialmente duas maneiras de escolher uma amostra aleatória. Um método envolve a compilação de uma lista de todos os elementos da população [...]. O segundo método é usado quando os elementos da população não são claramente identificáveis, o que torna impossível a listagem. Por exemplo, no processamento de alimentos, ou na eliminação de resíduos, ou no controle da poluição, em geral, não há o conceito de itens que possam constituir uma amostra. A alternativa seria então selecionar locações em lugar de itens, como, por exemplo, ‘4 polegadas acima e 7 abaixo’. Consegue-se isto encarando a população como se fosse composta de cubos, e selecionando cubos para a amostra. Outra alternativa seria o emprego de um processo de mistura [...]” Podemos pensar naqueles sorteios de promoções. Você manda uma carta contendo três códigos de barras do produto, respondendo à pergunta: qual a marca de cotonete que leva você para a copa do mundo de 2014??? Domingo, durante o programa do Faustão, é feito o sorteio. Aparecerão um monte de modelos seminuas jogando os envelopes para cima. Em tese (eu disse: em tese), supondo que as modelos joguem muito bem os inúmeros envelopes, misturando bem todos eles, quando uma delas pegar o envelope ganhador, a escolha terá sido aleatória. E nenhuma das modelos tinha uma listagem dos concorrentes ao prêmio. Outro exemplo. Você está preparando uma sopa. Você está em dúvida se colocou muito sal ou não. Para avaliar a quantidade de sal, você mistura bem a sopa, enche uma colher e experimenta. Você está fazendo uma amostragem da sopa. Está avaliando apenas um pequeno pedaço da sua população, para decidir algo sobre a sopa inteira. Antes de experimentar você não tinha uma listagem de todas as partículas que estavam dentro da sopa (ou seja, uma lista de todos os pedacinhos de batata, cenoura, abobrinha, etc). Aliás, nesse caso, acho que nem dá para falar em lista de todos os elementos. Supondo que você tenha misturado bem a sopa, quando você encher a colher, você estará fazendo uma amostragem aleatória. Numa situação como a desta questão da FCC, lá, durante a prova, marque a alternativa “mais correta” (ou “mais errada”, conforme o caso). Costumo dizer que não é pra sair brigando com a prova. A letra “A” está claramente errada. Ela está praticamente “pedindo” para ser marcada como item errado. Já a letra C, apesar de errada, não é tão absurda. A amostragem aleatória, na maioria das vezes, é mesmo feita a partir de uma listagem. Na letra C estamos diante de CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 47 um caso de imprecisão na escrita do enunciado. Não custa nada deixar essa imprecisão pra lá, marcar a letra A e pronto. Letra D. Alternativa correta. Foi exatamente isto que vimos sobre os estimadores não tendenciosos. Vimos que X pode ser considerada uma variável aleatória e que o fato de a esperança de X ser igual à média da população faz deste um estimador não viciado. Isso vale para qualquer estimador. Se sua esperança for igual ao parâmetro pesquisado, então o estimador é não tendencioso (ou não viciado). Letra E. Alternativa correta. Basta lembrar do exemplo dado na aula passada. Dividimos a população em extratos, conforme a idade (jovens, adultos e idosos). A divisão se deu conforme uma característica conhecida (idade). Os extratos são mutuamente exclusivos. Gabarito: A. EC 27. MPU/2007 [FCC] Com relação à teoria geral da amostragem, é correto afirmar que: a) na amostragem aleatória simples, a seleção das unidades amostrais só pode ser realizada sem reposição. b) a amostragem por conglomerados em geral é mais eficiente e menos econômica quando comparada com o método de amostragem aleatória simples. c) na amostragem estratificada, os estratos da população não necessitam ser mutuamente exclusivos. d) o aumento do tamanho da amostra tem como conseqüência o aumento do erro padrão das estimativas e) o viés ou vício de um estimador de um parâmetro é a diferença entre o seu valor esperado e o valor do parâmetro. Letra A. Uma amostra aleatória pode sim ser feita com reposição. Podemos pensar no sorteio da mega- sena. No primeiro sorteio, temos o número 26 (2 retirado do globo das dezenas e 6 retirado do globo das unidades). Para o segundo sorteio, os globos continuam contendo todas as dezenas (inclusive o 2) e todas as unidades (inclusive o 6). Os números são aleatoriamente escolhidos e há reposição. Em tese, é possível que o número 26 seja novamente sorteado. Um outro exemplo são as promoções em que você manda um SMS para um certo número e concorre a inúmeros prêmios. A cada semana é sorteado um prêmio (exemplo: na primeira semana são dez TV’s, na segunda, 10 motos, na terceira, 2 carros e na última é sorteada uma casa). Em muitas premiações, quem manda o SMS logo nos primeiros dias está concorrendo a todos os prêmios. Mesmo que ele seja sorteado na primeirasemana (ganhando uma TV), seu nome volta para o bolo de concorrentes, tendo chances de ganhar em qualquer outro sorteio. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 48 Supondo que a escolha, em cada sorteio, seja aleatória, temos uma amostragem aleatória com reposição. Letra B. Em geral, a amostragem por conglomerados é mais econômica que a aleatória simples. Basta pensar no caso da pesquisa com os chefes de família de uma dada cidade, usado como exemplo na aula passada. Se usássemos uma amostragem aleatória, poderíamos ter que nos dirigir a pontos muito distantes um dos outros, o que encarece a pesquisa. Usando a amostragem por conglomerados (considerando cada bairro/cada quarteirão/cada conjunto de 8 quarteirões/etc) como um conglomerado, muitos dos chefes de família selecionados morarão próximos uns dos outros, o que reduz os custos. Alternativa errada. Letra C. Errado. Na amostragem estratificada os estratos são sim mutuamente exclusivos. No exemplo da aula passada, dividimos a população em jovens, adultos e idosos. Um idoso não pode ser também jovem. Letra D. Alternativa errada. Quanto maior a amostra, melhor ela representa a população. Como conseqüência, melhoram nossas estimativas (o que implica em menor erro padrão). Também dá para visualizar isso por meio da fórmula que vimos. Vamos trabalhar com a média amostral. Seu desvio padrão é dado por: n XV X σσ ==][ O “n” está no denominador. Quanto maior o valor de n (ou seja, quanto maior o tamanho da amostra), menor o desvio padrão da estimativa. Letra E. Alternativa correta. Não comentei isso durante a parte teórica. Aproveitando a oportunidade, falemos um pouco sobre o viés do estimador. Vamos trabalhar, novamente, com o estimador para a média ( X ). O fato da média de X ser igual à média da população nos permite classificar a média aritmética da amostra como estimador não tendencioso (ou não viciado). Usando esse estimador, na média (considerando as inúmeras amostras que poderiam ser feitas), nós estamos realmente acertando o valor do parâmetro desconhecido. E se, em vez da média amostral, nós usássemos, por exemplo, a mediana da amostra para estimar a média da população? Vamos voltar para o tetraedro de faces 1, 2, 3, 4. Seja X a variável que designa o resultado do lançamento do tetraedro. Sabemos que a esperança de X é igual a 2,5. Lançamos o tetraedro três vezes. Vamos ver quais são os possíveis resultados. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 49 Conjuntos de 3 lançamentos Conjuntos de 3 lançamentos Conjuntos de 3 lançamentos Conjuntos de 3 lançamentos 1 1 1 2 1 1 3 1 1 4 1 1 1 1 2 2 1 2 3 1 2 4 1 2 1 1 3 2 1 3 3 1 3 4 1 3 1 1 4 2 1 4 3 1 4 4 1 4 1 2 1 2 2 1 3 2 1 4 2 1 1 2 2 2 2 2 3 2 2 4 2 2 1 2 3 2 2 3 3 2 3 4 2 3 1 2 4 2 2 4 3 2 4 4 2 4 1 3 1 2 3 1 3 3 1 4 3 1 1 3 2 2 3 2 3 3 2 4 3 2 1 3 3 2 3 3 3 3 3 4 3 3 1 3 4 2 3 4 3 3 4 4 3 4 1 4 1 2 4 1 3 4 1 4 4 1 1 4 2 2 4 2 3 4 2 4 4 2 1 4 3 2 4 3 3 4 3 4 4 3 1 4 4 2 4 4 3 4 4 4 4 4 Vamos usar a mediana amostral como estimador da média populacional. Cada conjunto de três lançamentos, ou seja, cada amostra possui uma mediana. A mediana amostral assume os seguintes valores: 1; 1; 1; 1; 1; 2; 2; 2; 1; 2; 3; 3; 1; 2; 3; 4; 1; 2; 2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 2; 2; 3; 4; 1; 2; 3; 3; 2; 2; 3; 3; 3; 3; 3; 3; 3; 2; 3; 4; 1; 2; 3; 4; 2; 2; 3; 4; 3; 3; 3; 4; 4; 4; 4; 4. A média da mediana amostral é: 484,2][ ≅DE Se fosse possível efetuar infinitas vezes os três lançamentos, a média obtida para o nosso estimador seria de cerca de 2,484. É um estimador que, em média, difere da média populacional (=2,5). Concluímos que é um estimador viesado (ou tendencioso, ou ainda, viciado). O seu viés é dado pela diferença entre sua média e o parâmetro estudado (qual seja, a média da população). Nesse exemplo, o viés fica: 016,05,2484,2][ −=−=⇒−= viesDEvies μ Gabarito: E EC 28. CGU - 2008. [ESAF] Seja T um estimador de um parâmetro θ de uma população. Se θ=)(TE , diz-se que T é um estimador de θ : a) eficiente b) não enviesado c) consistente CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 50 d) de mínimos quadrados e) de máxima verossimilhança Resolução: Vimos que o fato da esperança do estimador ser igual ao parâmetro permite classificar o estimador como não viciado (ou não tendencioso, ou não enviesado). Todas essas expressões são sinônimas. Gabarito: B. Quanto às características dos estimadores, creio que a prova deve se limitar a cobrar questões conceituais. Ou então, se restringir aos estimadores usuais (média amostral, proporção amostral, variância amostral para estimar, respectivamente, a média populacional, a proporção populacional e a variância populacional). É que, se for para passar disso, é bastante provável que a questão exija ferramentas de cálculo. Como exemplo, segue questão abaixo. EC 29. PETROBRAS 2005 [CESGRANRIO] Com base em uma amostra aleatória ( nxxx ,...,, 21 ) o estimador de máxima verossimilhança do parâmetro λ na distribuição de Poisson, ! )( x exXP xλλ− == para ,...2,1,0=x é a: (A) média quadrática da amostra. (B) média geométrica da amostra. (C) média harmônica da amostra. (D) média aritmética da amostra. (E) mediana da amostra. Resolução: Seja ),...,,( 21 nxxx a amostra obtida. A probabilidade de obtermos esta amostra é dada por: )...( 2211 nn xXxXxXP =∩∩=∩= Supondo que os valores da amostra são independentes entre si, a probabilidade da intersecção é o produto das probabilidades: )...( 332211 xXxXxXP =∩∩=∩= = )(...)()( 2211 nn xXPxXPxXP =××=×= = ! ... !! 21 21 n xxx x e x e x e nλλλ λλλ −−− ××× = nxxx n n xxx e +++− × ××× 21 21 !...!! λ λ Queremos maximizar esta probabilidade, que é uma função de λ . Como a função logarítmica é crescente, se maximizarmos a função acima, também maximizamos seu logaritmo. CURSO ON‐LINE – MATEMÁTICA FINANCEIRA E ESTATÍSTICA – ICMS/RJ PROFESSORES: VÍTOR MENEZES E JUCI MELI www.pontodosconcursos.com.br 51 Aplicando o logaritmo neperiano: )!...!!ln()ln()...( !...!! ln 2121 21 21 nn xxx n n xxxxxxn xxx e n ×××−×++++−=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ × ××× +++ − λλλ λ Para achar o valor de λ que maximiza esta função, derivamos em relação a λ e igualamos a zero. 01)...( 21 =++++− λn xxxn nxxx n =+++ λ 1)...( 21 λ=+++ n xxx n 1)...( 21 Ou seja, o valor de λ que maximiza a probabilidade de obtermos uma dada amostra (estimador de máxima verossimilhança) é a média aritmética da amostra. Gabarito: D VI FATOR DE CORREÇÃO PARA POPULAÇÕES FINITAS Quando a amostragem é feita sem reposição, a partir de uma população finita, cada extração não é independente das demais. Quando isso acontece, as coisas complicam um pouco. Na obtenção da fórmula da variância da média amostral, precisamos supor que as observações eram todas independentes entre si. Isso permite que se substitua a variância da soma por uma soma de variâncias. Na obtenção da fórmula da variância da proporção amostral, também é importante supor que as observações são independentes. Isso garante que o número de sucessos na amostra seja uma variável binomial. A partir da variância da variável binomial obtém-se a variância de p̂ . Resumindo: se as observações não forem mais independentes, as fórmulas mudam. Caso a amostragem seja sem reposição, mas a população seja bem grande, é razoável aproximarmos. É razoável considerar que cada extração é independente das demais. Contudo, quando o tamanho da população (em relação ao tamanho da amostra) não for tão grande, a aproximação fica ruim. Segundo o autor William J Stevenson, se a amostra for superior a 5% da população,
Compartilhar