Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 1 Raciocínio Lógico-Quantitativo para Traumatizados Aula 19 Estimação de Parâmetros 19. Estimação de Parâmetros . ................................................................................................ 3 19.1 Introdução . ..................................................................................................................... 3 19.2 Estimador e Estimativa . ............................................................................................ 4 19.2.1 Propriedades dos Estimadores ....................................................................................... 4 19.2.2 Critérios para Escolha dos Estimadores ....................................................................... 13 19.3 Estimação por Ponto . ............................................................................................... 19 19.3.1 Estimação por Ponto da Média .................................................................................... 19 19.3.2 Estimação por Ponto da Variância ............................................................................... 19 19.3.3 Estimação por Ponto do Desvio Padrão ....................................................................... 20 19.3.4 Estimação por Ponto de uma Proporção Populacional ................................................ 20 19.3.4 Estimação por Ponto com Base em Diversas Amostras .............................................. 20 19.4 Estimação por Intervalo . ........................................................................................ 21 19.4.1 Intervalo de Confiança para a média quando o desvio-padrão é conhecido ................ 22 19.4.2 Intervalo de confiança para a média quando o desvio-padrão é desconhecido ........... 24 19.4.3 Intervalo de confiança para a variância . ..................................................................... 25 19.4.4 Intervalo de confiança para o desvio-padrão . ............................................................. 27 19.4.5 Intervalo de Confiança para uma proporção populacional . ........................................ 27 19.5 Tamanho das Amostras . ......................................................................................... 29 19.6 Memorize para a prova ............................................................................................ 32 19.7 Exercícios de Fixação ................................................................................................ 35 19.7 Gabarito . ....................................................................................................................... 41 19.8 Resolução dos Exercícios de Fixação . ................................................................ 42 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 2 Erratas – Aula 15 Resolução da Questão 09: Corrigir a última fórmula: Px|y (1 |1) = Py|x (1 |1)Px (1) Py|x (1 |1)Px (1) + Py|x (1 | 0)Px (0) = 1× 2 3 1× 2 3 + 1 5 × 1 3 = 10 11 . Resolução da Questão 10: Corrigir a última fórmula: Px|y (1 |1) = Py|x (1 |1)Px (1) Py|x (1 |1)Px (1) + Py|x (1 | 0)Px (0) = 5 10 × 4 10 5 10 × 4 10 + 1 10 × 6 10 = 20 26 = 10 13 . Resolução da Questão 14: “(...) Há quatro casos possíveis: 1) escolha de uma bola branca no 1º sorteio e de uma bola preta no 2º sorteio quando a urna escolhida é a que tem 3 bolas brancas e 1 preta (caso 1) ou 2) caso 2: escolha de uma bola preta no 1º sorteio e de uma branca no 2º sorteio quando a urna escolhida é a que tem 3 bolas brancas e 1 preta (caso 2) ou 3) escolha de uma bola branca no 1º sorteio e de uma bola preta no 2º sorteio quando a urna escolhida é a que tem 3 bolas brancas e 3 pretas (caso 3) ou 4) escolha de uma bola preta no 1º sorteio e de uma branca no 2º sorteio quando a urna escolhida é a que tem 3 bolas brancas e 3 pretas (caso 4). (...)” Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 3 19. Estimação de Parâmetros 19.1 Introdução A partir desta aula, focaremos o estudo da Inferência Estatística. Vimos que o seu objetivo é inferir propriedades da população a partir de uma amostra. A Inferência Estatística pode ser dividida em duas partes: estimação de parâmetros e testes de hipóteses. Nesta aula abordaremos a estimação, mas apenas no que diz respeito à estimação dos parâmetros de uma distribuição populacional (você já aprendeu um pouco sobre estimação na aula 17, quando estudamos a regressão linear). A teoria da Probabilidade fornece vários modelos probabilísticos (distribuições de probabilidades), tais como binomial, Poisson, normal, etc. Tais modelos representam famílias de distribuições que dependem de um ou mais parâmetros. Por exemplo, uma distribuição normal é caracterizada pela média e desvio-padrão σ. Quando descrevemos uma população, fazemos isso por meio de algum modelo probabilístico, cujos parâmetros, portanto, devem ser estimados da melhor forma possível com base na amostra obtida. Há duas técnicas de estimação de parâmetros: por ponto e por intervalo. Na estimação por ponto, a estimativa do parâmetro populacional corresponde a um único valor estimado. Na segunda técnica, constrói-se um intervalo, o qual deverá, com probabilidade conhecida, conter o parâmetro. Neste texto admitiremos, salvo menção em contrário, que a amostragem sempre será aleatória. A próxima figura é um plot dos resíduos de uma regressão linear. Vimos na aula 17 que a média dos resíduos é zero (linha horizontal azul). As estimativas pontuais dos resíduos são os pontos circulares. Note que cada estimativa por ponto está situada no ponto médio de um intervalo de estimação (são as barras verticais), o qual contém o parâmetro com uma probabilidade conhecida (geralmente utiliza-se 95% na prática). Observe que a estimativa mais à esquerda do gráfico (a de cor vermelha) não cruza a linha azul; desta forma, podemos concluir que trata-se de um provável outlier. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 4 2 4 6 8 10 12 14 16 18 20 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 re s íd u o s x 19.2 Estimador e Estimativa Apresentamos os conceitos de estimador e de estimativa na aula passada. Vamos relembrar estes conceitos rapidamente? Um estimador (ou estatística) é qualquer função das observações de uma amostra, que será usado no processo de estimação do parâmetro populacional desejado. A média amostral X , por exemplo, é um estimador da média µ de uma população. Um estimador é uma variável aleatória caracterizada por uma distribuição de probabilidades. Chamamos de estimativa um particular valor assumido por um estimador. A estimação por ponto consiste em adotar a melhor estimativa possível como sendo o valor do parâmetro. A qualidade da estimação irá depender fundamentalmente da escolha do estimador. Assim, dentre os possíveis estimadores que podem ser especificados para um determinado parâmetro populacional, devemos ter a preocupação de escolher aquele que melhor satisfaça as propriedades estatísticas de um bom estimador. 19.2.1 Propriedades dos Estimadores Justeza ou Não Tendenciosidade Um estimador Θˆ é justo (ou não viesado, ou não viciado, ou não tendencioso)se o seu valor esperado (ou média) for igual ao valor do parâmetro θ que se pretende estimar, isto é, se (1) .)ˆ( θ=ΘE Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 5 A Eq. (1) afirma que os valores aleatórios de um estimador justo ocorrerão em torno do valor do parâmetro, o que é desejável (veja a figura abaixo). Um estimador não viesado é aquele que, na média, acerta o valor correto do parâmetro populacional. Se o estimador for tendencioso, então a diferença −(2) θΘ)ˆ(E é o viés (tendência ou vício) do estimador Θˆ , conforme ilustrado pela próxima figura. Deste modo, a adoção de um estimador que não seja justo implica um vício de estimação. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 6 Exemplo (Média Amostral). Seja uma população com média µ. A média X da amostra aleatória ),...,,( 21 nXXX extraída dessa população é dada por n XXX X n +++ = ...21 . Então, o valor esperado de X é = +++= n XXX EXE n ... )( 21 ( ) ( ) ( ) µ=×=+++= n n XE n XE n XE n n 1 ... 11 21 Portanto, a média amostral é um estimador justo da média populacional (memorize para a prova!). Exemplo (Média Ponderada). Seja a média ponderada de uma amostra aleatória ),...,,( 21 nXXX definida como n XwXwXw W nn +++ = ...2211 em que as constantes nwww ,...,, 21 ( nwww n =+++ ...21 ), são os pesos usados na ponderação. Então, o valor esperado de W é = +++= n XwXwXw EXE nn ... )( 2211 ( ) ( ) ( )[ ] [ ] ....1...1 212211 µ=×=+++=+++= n n www n XEwXEwXEw n nnn Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 7 Portanto, a média ponderada de uma amostra é um estimador justo da média populacional µµµ, apesar da ponderação. Exemplo. Seja um estimador M da média populacional µ dado pela equação . 1 1 + = ∑ = n X M n i i Espera-se que o viés de M seja negativo, uma vez que a divisão de ∑ = n i iX 1 por n+1 tende a subestimar o valor de µ. Calculemos o valor esperado de M: = + +++ = 1 ... )( 21 n XXX EME n ( ) ( ) ( )[ ] . 1 ... 1 1 21 µ≠+ =+++ + = n n XEXEXE n n Portanto, M é um estimador viesado da média populacional µ. Observe que viés(M) = E(M) - µ, viés(M) = 1n + n - µ = 1+ − n ⇒ negativo, como antecipado. Exemplo. Seja uma população com média µ e variância σ2. Verifique que o estimador da variância populacional definido por ˆ σ 2 = (Xi − X ) 2 i=1 n ∑ n é viesado. Nota: o entendimento da demonstração que se segue não é essencial para a prova. Mas é importante memorizar que o estimador da variância populacional considerado neste exemplo é viesado. Demonstração: Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 8 Calculemos a esperança de 2σˆ : E( ˆ σ 2) = 1 n E (Xi − X ) 2 i=1 n ∑ = 1 n E (Xi − µ + µ − X ) 2 i=1 n ∑ = 1 n E [(Xi − µ) + (µ − X )] 2 i=1 n ∑ E( ˆ σ 2) = 1 n E [(Xi − µ) 2 + 2(Xi − µ)(µ − X ) + (µ − X ) 2] i=1 n ∑ E( ˆ σ 2) = 1 n E (Xi − µ) 2 + 2 i=1 n ∑ (Xi − µ)(µ − X ) + (µ − X )2 i=1 n ∑ i=1 n ∑ E( ˆ σ 2) = 1 n E (Xi − µ) 2 + 2 i=1 n ∑ (µ − X ) (Xi − µ) + n(µ − X )2 i=1 n ∑ como Xi = nX i=1 n ∑ , temos que E( ˆ σ 2) = 1 n E (Xi − µ) 2 + 2 i=1 n ∑ n(µ − X )(X − µ) + n(µ − X )2 E( ˆ σ 2) = 1 n E (Xi − µ) 2 − 2 i=1 n ∑ n(µ − X )(µ − X ) + n(µ − X )2 E( ˆ σ 2) = 1 n E (Xi − µ) 2 − 2 i=1 n ∑ n(µ − X )2 + n(µ − X )2 E( ˆ σ 2) = 1 n E (Xi − µ) 2 − i=1 n ∑ n(µ − X )2 levando em conta que 22 )()( µ−=− XX , obtemos E( ˆ σ 2) = 1 n E (Xi − µ) 2 − i=1 n ∑ n(X − µ)2 aplicando a expectância, obtemos σ E( ˆ 2) = 1 n E (Xi − µ) 2 i=1 n ∑ − nE[(X − µ)2] . Como a esperança da soma é igual à soma das esperanças, tem-se que σ E( ˆ 2) = 1 n E(Xi − µ) 2 i=1 n ∑ − nE[(X − µ)2] . Mas E(Xi − µ) 2 = var(Xi) =σ 2 e E[( X − µ)2] = var(X ) =σ2 /n. Logo, Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 9 E( ˆ σ 2) = 1 n σ2 i=1 n ∑ − nσ 2 n = 1 n × (nσ2 −σ2) = n −1 n σ2 ≠σ2. Conclui-se que 2σˆ é um estimador viesado da variância populacional σ2 (memorize para a prova!). Esse defeito do estimador pode ser corrigido se multiplicarmos 2σˆ pelo fator )1/( −nn , o que nos leva à definição do estimador S2 = n n −1 ˆ σ 2 = (Xi − X ) 2 i=1 n ∑ n −1 , o qual, não por acaso, corresponde à variância amostral definida na aula anterior. Não é difícil mostrar que S2 é um estimador justo da variância populacional (memorize para a prova!): E(S2) = n n −1 E ( ˆ σ 2) = n n −1 × n −1 n ×σ2 =σ2. _______________________________________________________ Há estimadores que, embora viesados, tem seu viés diminuído quando o tamanho da amostra aumenta, ou seja, o viés vai desaparecendo à medida que o tamanho da amostra aumenta. Um estimador é dito assintoticamente não viesado se (3) .)ˆ(lim θ=Θ →∞ E n Exemplo. Verifique que o estimador da média populacional µ dado por ∑ = −+= n i iXnM 1 1)1( é assintoticamente não viesado. E(M) = n n +1 ⇒ lim n→∞ E(M) = µ lim n→∞ n n +1 = µ ⇒ Logo, M é um estimador assintoticamente não viesado da média populacional µ. _______________________________________________________ Eficiência Não basta que um estimador acerte na média. Além disso, é desejável que tenha a menor variância possível (maior precisão possível). Um estimador é dito Eficiente ou Estimador Não Tendencioso de Variância Mínima (ENTVM), se Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 10 • for não viesado; • entre os estimadores não viesados, apresentar a menor variância. Teorema (ENTVM). Se ),...,,( 21 nX XX for uma amostra aleatória proveniente de uma população normalmente distribuída com média µ e variância σ2, então a média amostral X será o ENTVM (ou eficiente) de µ. Entre dois estimadores não viesados, diz-se que é relativamente mais eficiente aquele que apresenta a menor variância. Exemplo. Considere uma amostra aleatória de 2 elementos oriunda de uma população com média µ e variância σ2. Determine a variância do estimador da média populacional dado por 5 23 21 XXW + = e compare esse estimador com a média amostral. Vimos anteriormente que a média ponderada W é um estimador nãoviesado de µ. Neste exemplo, sua variância é dada por =+= += )23var( 25 1 5 23 var)var( 21 21 XX X X W ( ) ( ) 2 2 21 52,0 25 13 ]var49var[ 25 1 σ σ ==+= XX . Por outro lado, a variância de X é 0,5σ2 (menor que a variância da média ponderada). Neste caso, a média amostral é um estimador relativamente mais eficiente (melhor) do que W, pois possui uma variância menor. Como o enunciado não especificou a distribuição de probabilidades da população X, não se pode afirmar que X seja o estimador eficiente da média populacional µ. _______________________________________________________ Entre dois estimadores justos, vimos que é relativamente mais eficiente aquele que apresenta a menor variância. Mas e se quisermos comparar dois estimadores quaisquer? Qual será a métrica de comparação? A métrica mais usada é o Erro Quadrático Médio (EQM) de estimação. Define-se o EQM como a média da diferença quadrática (diferença ao quadrado) entre o estimador e o valor do parâmetro: (4) ].)ˆ[()ˆ( 2θ−Θ=Θ EEQM Desenvolvendo (4), demonstra-se que Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 11 (5) +Θ=Θ )ˆvar()ˆ(EQM [viés )ˆ(Θ ]2. Ou seja, EQM de estimação = variância do estimador + (viés do estimador)2 Daremos a prova de que (4) e (5) são equivalentes a seguir. O entendimento da demonstração não é fundamental para a prova; mas é desejável que você se esforce um pouco para entendê-la. Desvio a sua leitura para o texto após a prova, se preferir. Prova: Desenvolvendo (4), obtemos 2222 )ˆ(2)ˆ()ˆ2ˆ()ˆ( θθθθ +Θ−Θ=+Θ−Θ=Θ EEEEQM , pois θ é um valor constante (E(θ) = θ). Somando e subtraindo 2ˆ )]([ ΘE , chegamos a: 2222 )ˆ(2)]ˆ([)]ˆ([)ˆ()ˆ( θθ +Θ−Θ+Θ−Θ=Θ EEEEEQM em que )ˆvar()]ˆ([)ˆ( 22 Θ=Θ−Θ EE e 222 ])ˆ([)ˆ(2)]ˆ([ θθθ −Θ=+Θ−Θ EEE . Logo, podemos reescrever a expressão acima na forma 2])ˆ([)ˆvar()ˆ( θ−Θ+Θ=Θ EEQM em que ])ˆ([ θ−ΘE representa o viés do estimador. Logo, +Θ=Θ )ˆvar()ˆ(EQM [viés )ˆ(Θ ]2. A Eq. (5) mostra que o EQM tem dois componentes: o estimador erra o valor do parâmetro em função da sua dispersão (variância) e ainda, quando for o caso, pelo fato de não acertar na média (ser viesado). Para dois estimadores quaisquer 1Θˆ e 2Θˆ , se 1Θˆ tem menor EQM do que 2Θˆ , então 1Θˆ é relativamente mais eficiente do que 2Θˆ . Observe que, para dois estimadores justos, dizer que EQM é menor equivale a dizer que a variância é menor (pois o viés é nulo). Melhor Estimador Linear Não Viesado Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 12 Uma terceira propriedade desejável de um estimador é que ele seja o Melhor Estimador Linear Não Viesado (MELNV). Para tal, o estimador tem que: • ser não viesado; • ser linear; • entre os estimadores lineares e não viesados, apresentar a menor variância. Um estimador é linear se for obtido por meio de uma combinação linear das observações nXXX ,...,, 21 da amostra, ou seja, se é dado por (6) ,...ˆ 2211 nnXaXaXa +++=Θ em que os pesos ia , ni ,...,2,1= , são constantes. A média amostral nXXXX n /)...( 21 +++= é um estimador linear pois n aaa n 1 ...21 ==== . Consistência Um estimador é consistente, se, à medida que a amostra cresce, converge para o verdadeiro valor do parâmetro. Ou seja, quando o tamanho da amostra vai aumentando, o viés (se existir) vai diminuindo e a variância também. Um estimador consistente é aquele que converge para o valor do parâmetro quando o tamanho da amostra tende a infinito. Tendo em vista o que foi dito acima, temos que um estimador será consistente se: (7) θ=Θ ∞→ )ˆ(lim E n (8) 0)ˆvar(lim =Θ ∞→n A média amostral é um estimador consistente da média, pois é um estimador justo e para o qual vale 0) limvar(lim 2 = = ∞→∞→ n X nn σ . Como Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 13 +Θ=Θ )ˆvar()ˆ(EQM [viés )ˆ(Θ ]2, um estimador consistente possui 0)ˆ(lim =Θ →∞ EQM n . 19.2.2 Critérios para Escolha dos Estimadores Alguns critérios têm sido propostos com o objetivo de resolver o problema da escolha do estimador adequado. Dentre eles, podemos citar os métodos da máxima verossimilhança, dos momentos e de Bayes. Destacamos a importância, para a prova (e também na prática), do método da máxima verossimilhança, que será apresentado a seguir. Estimação por Máxima Verossimilhança Os dicionários definem o termo verossímil como aquilo que parece ser verdadeiro ou o que tem probabilidade de ser verdadeiro ou aquilo que se assemelha com a realidade. Neste sentido, qual seria a idéia fundamental da estimação por verossimilhança de um parâmetro populacional? A resposta é a seguinte: a estimação por verossimilhança fornece a estimativa que corresponde ao valor mais provável do parâmetro. Vejamos a seguir como a Estatística define o conceito de estimação por máxima verossimilhança. O método da máxima verossimilhança consiste em adotar para o parâmetro o valor que maximize a função de verossimilhança associada ao resultado obtido na amostra. Mas o que é a função de verossimilhança? Definição (Método da Máxima Verossimilhança). Seja uma população com função densidade de probabilidade caracterizada pelo parâmetro populacional desconhecido θ. Então a distribuição de probabilidades dessa população pode ser denotada por );( θxf . Sejam n observações independentes nXXX ,...,, 21 (ou seja, uma amostra aleatória com n elementos provenientes da população em questão). Então a função densidade conjunta para estas observações, também conhecida como função de verossimilhança da amostra, é dada por );(...);();()( 21 θθθθ nxfxfxfL ×××= . Note que )(θL é função somente do parâmetro desconhecido θ. A Estimativa de Máxima Verossimilhança (EMV) de θ é o valor θˆ que maximiza a função )(θL . A raiz da equação 0/)( =θθ ddL é o ponto de máximo de )(θL . Em muitos casos, é mais conveniente tomar a primeira derivada da função de log- Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 14 verossimilhança )(ln θL (logaritmo natural de )(θL ), a qual possui um máximo no mesmo ponto θˆ que maximiza )(θL . Deste modo, 0 );( );( 1 ... );( );( 1);( );( 1 2 2 1 1 =+++ θ θ θθ θ θθ θ θ d xdf xfd xdf xfd xdf xf n n A solução para a equação acima (θ em termos dos xk) é a estimativa de máxima verossimilhança de θ. Nota: no caso de uma variável aleatória discreta, a função de verossimilhança )(θL é a probabilidade ),...,,( 2211 nn xXxXxXP ===θ . Ou seja, )(θL é apenas a probabilidade de obter os valores amostrais nxxx ,...,, 21 . Logo, no caso discreto, a estimativa de máxima verossimilhança é aquela que maximiza a probabilidade de ocorrência dos valores da amostra. Exemplo. Um jogador de cassino trocou o seu dinheiro por dez fichas, das quais θ são pretas e 10 – θ são brancas. Uma amostra de quatro fichas com reposição é retirada do seu bolso e verifica-se que ela contém três fichas brancas e uma ficha preta. Estime o parâmetro θ pelo método da máxima verossimilhança. Solução: Devemos determinar a função de verossimilhança correspondente ao resultado amostral obtido, a qual será dada pela probabilidade de, em uma amostrade n = 4, obter-se exatamente uma ficha preta, dada em função do parâmetro desconhecido θ. Tal probabilidade pode ser obtida pela aplicação da distribuição binomial, em que a probabilidade de sucesso será 10/θ=p , n = 4 e x = 1. Designando por )(θL a função de verossimilhança, temos .5002 )10( 10 1 101 4 )1()( 331 θθθθ θ − = − = − = −xnx pp x n L A Tabela a seguir mostra que o valor de máxima verossimilhança é 3=θ . Logo, a estimativa de máxima verossimilhança é 3ˆ =θ . θθθ L(θθθ) θθθ L(θθθ) 0 0 6 384/2.500 1 729/2.500 7 189/2.500 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 15 2 1.024/2.500 8 64/2.500 3 1.029/2.500 9 9/2.500 4 864/2.500 10 0 5 625/2.500 _______________________________________________________ O método da máxima verossimilhança pode ser usado em situações em que haja vários parâmetros populacionais desconhecidos kθθθ ,...,, 21 . Em tais casos, a função de verossimilhança é uma função dos k parâmetros desconhecidos kθθθ ,...,, 21 e os estimadores }ˆ{ iΘ de máxima verossimilhança são encontrados igualando as k derivadas parciais ikL θθθθ ∂∂ /),...,,( 21 , ki ,...,2,1= , a zero e resolvendo o sistema resultante de equações. Exemplo. Seja X uma variável aleatória normal com média µ e variância σ2 desconhecidas. A função de verossimilhança de uma amostra aleatória ), ,...,( 21 nXXX é L(µ,σ2) = 1 σ 2π e − 1 2 x1 −µ σ 2 × ...× 1 σ 2π e − 1 2 xn −µ σ 2 = 1 σ 2πi=1 n ∏ e − 1 2 xi −µ σ 2 L(µ,σ2) = 1 2πσ2( )n / 2 e − 1 2σ2 (xi − µ ) 2 i=1 n ∑ Tomando o logaritmo natural lnL(µ,σ2) = − n 2 ln(2πσ2) − 1 2σ2 (xi − µ) 2 i=1 n ∑ Para encontrar o ponto de máximo dessa função, devemos obter as derivadas de ),(ln 2σL em relação a µ e σ2. Derivando em relação a µ, obtemos: ∂lnL(µ, σ2) ∂µ = 1 2σ2 2 (xi − µ) i=1 n ∑ = 1 σ2 (xi − µ) i=1 n ∑ e igualando esse último resultado a zero e resolvendo para µ, tem-se (σ2)−1 (xi − ˆ µ ) i=1 n ∑ = 0 ⇒ (xi − ˆ µ ) i=1 n ∑ = 0 ⇒ xi − n ˆ µ i=1 n ∑ = 0 ⇒ ˆ µ = xi i=1 n ∑ n = X . Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 16 O resultado obtido mostra que a média amostral de uma população normal é o estimador de máxima verossimilhança da média populacional µµµ. Derivando em relação a σ2 e já incluindo o resultado acima, obtemos: ∂lnL(µ,σ2) ∂σ2 = − n 2 1 ˆ σ 2 + 1 4 ˆ σ 2 (xi − ˆ µ ) 2 i=1 n ∑ = 0 0)ˆ(ˆ 1 22 =−+− ∑ = n i in µxσ ⇒ ˆ σ 2 = (xi − ˆ µ ) 2 i=1 n ∑ n Portanto, o estimador de máxima verossimilhança para σσσ2 é viesado. Exemplo. Suponha uma população com distribuição uniforme entre 0 e θ. Retirou-se uma amostra aleatória de n valores dessa população com o objetivo de estimar-se θ. Admita que maxx seja o maior valor obtido nessa amostra. Calcule a EMV de θ. Solução 1 (“intuitiva”): Evidentemente que maxx≥θ . Logo, a estimativa “mais verossímil” (ou a EMV) é adotar maxˆ x=θ . Solução 2 (“detalhada”): Sabe-se que maxx≥θ . A função densidade de probabilidade da distribuição uniforme é θ/1)( =xf para θ≤≤ x0 e 0)( =xf caso contrário. A função de verossimilhança de uma amostra aleatória com n observações é L(θ) = 1 θ i=1 n ∏ = 1 θn , Cujo domínio é maxx≥θ , ou seja, o menor valor possível para o parâmetro θ é maxx=θ . A figura abaixo mostra que o maior valor (máximo absoluto) de )(θL ocorre em maxx=θ . Portanto, a EMV é maxˆ x=θ . Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 17 Este exemplo indica que nem sempre é possível usar diretamente métodos de cálculo para determinar o máximo de )(θL . Já caiu em prova! (Analista da SUSEP/2002/ESAF) A função de verossimilhança para uma amostra aleatória de tamanho n de uma distribuição de probabilidades dependente de um parâmetro real θ vem dada por < ≥+− = b bnmn l θ θθ θ 0 }exp{ )( onde m > 0 é a média das observações amostrais e b é a menor observação amostral. Assinale a opção que corresponde a estimativa de máxima verossimilhança de θ. A) nm B) b C) m D) nb E) m/b Resolução A Estimativa de Máxima Verossimilhança (EMV) do parâmetro populacional desconhecido θ é o valor θˆ que maximiza a função de verossimilhança )(θl . Podemos reescrever a função de verossimilhança )(θl como: < ≥ = − b bee l nmn θ θ θ θ 0 . )( Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 18 Note que 1 1 0 <=< − mn mn e e pois m (média amostral) e n (tamanho da amostra) nsão grandezas positivas. Além disso, θe é uma função exponencial crescente, pois n >0. Portanto, o gráfico de )(θl é crescente para b≥θ , como ilustrado pela Fig. a seguir. O gráfico da função de verossimilhança não possui um máximo absoluto, pois ∞= →∞ )(lim θ θ l (a função é crescente para b≥θ ). O gabarito inicial era a alternativa (B) ( b=θˆ ), o que é um flagrante absurdo. A questão foi anulada. b l GABARITO: ANULADA Propriedades dos Estimadores de Máxima Verossimilhança O método da máxima verossimilhança é frequentemente o método de estimação preferido pelos matemáticos e engenheiros, por ser geralmente fácil de usar e produzir estimadores com boas propriedades estatísticas. Estas propriedades estão resumidas a seguir. Ressaltamos que essa lista de propriedades não é exaustiva. Citamos aquelas que são importantes para a prova. Propriedades: 1. Consistência; 2. Distribuição assintótica (*) normal. (*) Assintótica significa “quando n é grande”. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 19 A propriedade (1) pode ser interpretada como se segue. Quando uma amostra de tamanho n for grande e se Θˆ for um estimador de máxima verossimilhança do parâmetro θ, então: - (i) Θˆ é um estimador aproximadamente não tendencioso para θ ( θ≈Θ]ˆ[E ) e - (ii) a variância de Θˆ é aproximadamente tão pequena quanto a variância que se poderia obter com qualquer outro estimador. Sendo assim, (i) e (ii) estabelecem que o estimador de máxima verossimilhança é aproximadamente um ENTVM. Esse é um resultado desejável. Além disso, ele é razoavelmente fácil de se obter em muitas situações e possui distribuição assintótica normal. Isso explica porque o método de máxima verossimilhança é largamente utilizado na prática. Para usar a estimação de máxima verossimilhança, observe que a distribuição da população deve ser conhecida (ou suposta). 19.3 Estimação por Ponto 19.3.1 Estimação por Ponto da Média O melhor estimador de que dispomos para a média µ da população é a média da amostra X é um estimador consistente de µ. X . Vimos que 19.3.2 Estimação por Ponto da Variância Quando conhecemos a média µ da população, devemos estimar sua variância σ2 por meio da estatística (9) S2 = (Xi − µ) 2 i=1 n ∑ n = Xi2 i=1 n ∑ n − µ2 que será um estimador não viesado (pois acerta na média) e consistente (sua variância decresce com o aumento do tamanho da amostra). Quando a média µ é desconhecida, o que, em geral, ocorre na prática, a variância populacional σ2 é estimada por meio de (10) S2 = (Xi − X ) 2 i=1 n ∑ n −1 que é um estimador justo de σσσ2. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 20 Foi visto na aula passada que )1/(2)var( 42 −= nS σ . Logo, S2 é um estimador consistente de σσσ2, pois .0 1 2 lim)var(lim 4 2 = − = ∞→∞→ n S nn σ 19.3.3 Estimação por Ponto do Desvio Padrão Embora S2, conforme definido em (10), seja um estimador justo da variância populacional σ2, sua raiz quadrada S não é um estimador justo do desvio padrão populacional σσσ. Isto pode ser demonstrado por absurdo, pois se E(S) = σσσ, resultaria que var(S) = E(S2) – [E(S)]2 = σσσ2 – σσσ2 = 0, o que não tem sentido. O viés de S como estimador de σσσ, entretanto, tende assintoticamente a zero. Logo, para amostras grandes, podemos, por simplificação, adotar como estimativa o próprio desvio padrão da amostra, calculado pela raiz quadrada da variância amostral. 19.3.4 Estimação por Ponto de uma Proporção Populacional Se desejarmos estimar a proporção p dos elementos da população com uma dada característica, usaremos como estimador a proporção ou freqüência relativa pˆ com que essa característica foi observada na amostra. Tal procedimento, além de intuitivo, corresponde a adotar um estimador justo e consistente, pois, conforme visto na aula passada: p n np fE nn f EpE === = )( 1 )ˆ( n pp p )1( )ˆvar( − = ⇒ .0 )1( lim)ˆvar(lim = − = ∞→∞→ n pp p nn 19.3.4 Estimação por Ponto com Base em Diversas Amostras Sejam k amostras e um parâmetro populacional a ser estimado. Cada amostra fornecerá uma estimativa para o parâmetro que está sendo estimado e essas estimativas irão diferir entre si, pois correspondem a observações de variáveis aleatórias. Entretanto, pode-se, em geral, combinar esses resultados, obtendo- se uma estimativa única para o parâmetro em questão. No caso de estimação da média µ ou de uma proporção p, pode-se combinar as estimativas se todas as amostras forem provenientes de uma mesma Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 21 população ou de populações infinitas com mesma média µ e mesma proporção p. Ou seja, pode-se calcular a média ponderada das diversas médias e freqüências relativas amostrais tomando como pesos de ponderação os tamanhos das respectivas amostras. Isso equivale a fundir as diversas amostras em uma única amostra maior, usando a média X e a freqüência pˆ fornecidas por essa amostra. No caso da variância populacional σσσ2, deve-se realizar a ponderação usando como pesos os graus de liberdade de cada amostra. Seja n1 o tamanho da amostra 1, n2 o tamanho da amostra 2, ..., nk o tamanho da amostra k (as amostras i, i = 1,2,...,k, possuem desvio padrão Si). Então a estimativa combinada de σ2 será dada pela estatística (11) knnn SnSnSn S k kk p −+++ −++−+− = ... )1(...)1()1( 21 22 22 2 112 , que possui knnn k −+++ ...21 graus de liberdade. Note-se que a estimativa (11) não será idêntica à que se obteria pela reunião dos dados em uma amostra única, embora ambos os processos sejam válidos nas condições acima mencionadas. A estimativa (11) tem a vantagem de poder ser usada se as diversas amostras forem provenientes de populações com médias diferentes, porém de mesma variância σ2. Se as amostras forem razoavelmente grandes, poderemos adotar pS como uma boa estimativa para o desvio padrão σ. 19.4 Estimação por Intervalo Até aqui, aprendemos como obter “boas” estimativas (isto é, justas e consistentes) por ponto dos parâmetros populacionais. Contudo, se a determinação do parâmetro for o principal objetivo, então a estimação por ponto será insuficiente, uma vez que a probabilidade de a estimativa adotada vir a coincidir com o verdadeiro valor do parâmetro é nula ou praticamente nula. Assim, uma questão relevante aparece: quão próxima está a estimativa do verdadeiro valor de um parâmetro? Uma outra abordagem é usar um intervalo de confiança para expressar o grau de incerteza associado a uma estimativa. Uma estimativa do intervalo de confiança de um parâmetro desconhecido θ é um intervalo da forma l ≤ θ ≤ u, em que os limites inferior l e superior u dependem do valor numérico do estimador Θˆ para uma amostra particular. Como amostras distintas produzirão valores diferentes de Θˆ e, por Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 22 conseguinte, valores diferentes para os limites l e u, esses limites são valores de variáveis aleatórias, como L e U, respectivamente. Somos capazes de determinar valores de L e U, a partir da distribuição amostral de Θˆ , de tal forma que a seguinte afirmação probabilística seja verdadeira: αθ −=≤≤ 1)( ULP , sendo 10 <<α . Assim, temos uma probabilidade igual a α−1 de selecionar uma amostra que produzirá um intervalo contendo o valor verdadeiro do parâmetro θθθ. O intervalo observado ul ≤≤θ é chamado de intervalo com )%1(100 α− de confiança para o parâmetro θθθ. A interpretação de um intervalo de confiança é que se um número infinito de amostras aleatórias for coletado e um intervalo com )%1(100 α− de confiança para θ for calculado a partir de cada amostra, então )%1(100 α− desses intervalos conterão o valor verdadeiro de θ. Na prática, obtemos somente uma amostra aleatória e calculamos uma estimativa do intervalo de confiança. Uma vez que esse intervalo conterá ou não o valor verdadeiro de θθθ, não é razoável fixar um nível de probabilidade para essa realização. A afirmação apropriada é: o intervalo observado [l, u] contém o valor verdadeiro de θθθ, com 1 )%(100 α− de confiança. Essa afirmação tem uma interpretação de freqüência; ou seja, não sabemos se a afirmação é verdadeira para essa amostra específica, mas o método usado para obter o intervalo [l, u] resulta em afirmações corretas em )%1(100 α− do tempo. 19.4.1 Intervalo de Confiança para a média quando o desvio- padrão é conhecido Suponha que o estimador X tenha distribuição amostral normal (*). Conforme já visto neste curso, isso ocorrerá se a população for normalmente distribuída ou, com boa aproximação, se a amostra for suficientemente grande. (*) A hipótese de normalidade é comumente adotada na prática. Se não a adotássemos, o estudo ficaria tremendamente complicado. Deve-se construir um intervalo em torno de X de forma tal que esse intervalo contenha o valor do parâmetro com confiança 1-α. Esse intervalo é simétrico em probabilidade, pois a distribuição amostral é normal. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 23 O intervalo que pretendemos construir será da forma ε±X , em que 0= eε denota a semi-amplitude do intervalo de confiança, conforme representado pela figura a seguir (distribuição amostral de X ). Necessitamos apenas determinar ε de modo tal que esse intervalo tenha nível de confiança 1-α. Para tanto, imagine, na distribuição de X , dois pontos, ε− e ε+ , simétricos em relação à média µ da distribuição, de tal modo que a probabilidadede X situar-se entre esses dois pontos seja igual a 1-α. Logo, (12) .1)( αεε −=+≤≤− XP A desigualdade (12) implica X≤− ε e ε+≤X ⇒ ε+≤ X e µε ≤−X ⇒ .1)( αεε −=+≤≤− XXP Portanto, ε−X e ε+X são os limites do intervalo de confiança simétrico em probabilidade desejado. A determinação da semi-amplitude ε do intervalo de confiança envolve a utilização da variável normal padronizada. Observe que , / )( 2/ασ ε z n = −+ (13) ./ n 2z σ ε α= Portanto, a expressão do intervalo de confiança para a média µ da população, ao nível de confiança 1-α, é dada por (14) ./ n z 2X σ α± Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 24 Finalmente, tem-se que (15) .1)( 2/2/ α σσ αα −=+≤≤− n zX n zXP Exemplo. Considere uma amostra de 41 observações provenientes de uma população normal com variância igual a 4,0, cuja média amostral é 40. Construa um intervalo de 95% de confiança para a média dessa população. Solução: ,9501 =−α 0,⇒ 0252/ =α . A tabela da normal indica que o valor z = 1,96 corresponde à probabilidade (0,5 – 0,025) = 0,4750. Logo, ,61220 41 ,02 96,12/ === n z σ ε α e o intervalo de confiança será 6122,040 ± , indicando que 6122,3878 40,39 ≤≤ com 95% de confiança. 19.4.2 Intervalo de confiança para a média quando o desvio- padrão é desconhecido Quando desconhecemos o desvio padrão populacional σ, devemos estimar seu valor por meio de S = (Xi − X ) 2 i=1 n ∑ n −1 . Não é correto obter o intervalo de confiança para µ, ao nível de confiança 1-α, substituindo-se σ por S na expressão (13). Observe que o uso de S em (13) aumenta a incerteza da estimativa por intervalo, diminuindo, deste modo, o valor do nível de confiança, que já não seria (1-α), mas sim (1-α’) < (1-α). Como podemos resolver este problema? Vimos que as distribuições t de Student e normal padrão estão relacionadas pela fórmula .2/2/,1 S ztn σ αα =− Sendo assim, podemos reescrever (14) como Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 25 (16) n S tX n S S zX n 2/,12/ αα σ −= ±± A Eq. (16) mostra que o uso do desvio padrão amostral S na expressão do intervalo de confiança da média populacional impõe o uso de 2/,1α−nt no lugar de 2/αz . Observe que 1)/( 2/2/,1 >− α zαtn (por exemplo, 96,1,04232 %5,2%5,2,30 =>= zt ). Desta maneira, 2/,1α−nt funciona como um fator de correção para maior da amplitude do intervalo de confiança, quando usamos S em vez de σ. Exemplo. Considere uma amostra de 41 observações, provenientes de uma população normal com média e variância desconhecidas, em que 40=X e S = 2,0. Construa um intervalo de 95% de confiança para a média dessa população. Solução: ,02112%5,2,402/,1 ==− ttn α (vide tabela auxiliar). Logo, ,63130 41 2 0211,22/,1 =×== − n S tn αε (maior que o obtido no exemplo anterior!) e o intervalo de confiança será 6313,040 ± , indicando que 6313,3687 40,39 ≤≤ com 95% de confiança. 19.4.3 Intervalo de confiança para a variância Considere, na distribuição 2−1nχ , os dois particulares valores 2 2/,11 αχ −−n (qui- quadrado inferior) e 2 / 2,1αχ −n (qui-quadrado superior), conforme ilustrado pela figura abaixo. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 26 Sabemos que os valores 2 2/,11 αχ −−n e 2 / 2,1αχ −n são tais que (17) .1)( 2 2/,1 2 1 2 2/,11 αχχχ αα −=≤≤ −−−− nnnP Na aula anterior, vimos que 2 1 2 2 1 −− = n n S χ σ o que nos permite escrever as desigualdades entre parênteses de (17) como 2 2/,12 2 2 2/,11 )1( αα χσ χ −−− ≤ − ≤ nn Sn . Vamos dividir todos os membros da expressão acima por 2)1( Sn − , e, após, tomar os inversos. Invertendo as desigualdades, obtemos (18) 2 2/,11 2 2 2 2/,1 2 )1()1( αα χ σ χ −−− − ≤≤ − nn SnSn que é o intervalo de confiança para σσσ2, ao nível de 1 - α. A Eq. (18) pode ser reescrita na forma Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 27 (19) 2 2/,11 1 2 2 2 2/,1 1 2 )()( αα χ σ χ −− = − = ∑∑ − ≤≤ − n n i i n n i i XXXX Exemplo. Uma amostra de onze elementos, extraída de uma população normal, forneceu variância S2 = 7,08. Determine o intervalo de 90% de confiança para a variância da população. Solução: Entrando na tabela da distribuição χ2 com 10 graus de liberdade, obtemos: 94,,32 %95,10 2 2/,11 ==− χ−χ αn 3.,182 %5,10 2 2/,1 ==− χχ αn Logo, 2 2/,11 2 2 2 2/,1 2 )1()1( αα χ σ χ −−− − ≤≤ − nn SnSn ⇒ 94,3 08,710 ,318 08,710 2 ×≤≤ × σ ⇒ 9695,8689 173, 2 ≤≤σ Logo, 9695,8689 173, 2 ≤≤ σ com 90% de confiança. 19.4.4 Intervalo de confiança para o desvio-padrão De (18) decorre, com confiança 1-α, que (20) 2 2/,11 2 2 2/,1 2 )1()1( αα χ σ χ −−− − ≤≤ − nn SnSn 19.4.5 Intervalo de Confiança para uma proporção populacional Vimos na aula passada que uma freqüência relativa amostral pˆ apresenta uma distribuição binomial, cuja média é o próprio parâmetro populacional p e cuja variância é dada por npp /)1( − . Sendo 5≥np e 5)1( ≥− pn , aprendemos que é possível aproximar a binomial pela normal. Como p é desconhecido, adotaremos como condições de aproximação 5ˆ ≥pn e 5)ˆ1( ≥− pn . Sendo a amostra suficientemente grande, o intervalo de confiança para p será da forma ε±pˆ e, por um raciocínio análogo àquele desenvolvido para a estimação de µ, chega-se a (21) n pp z )1( 2/ − = αε . Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 28 A expressão (21) tem um problema: não conhecemos o valor de p. Para amostras suficientemente grandes, pode-se aproximar (21) por (22) n pp z )ˆ1(ˆ 2/ − = αε . Então o intervalo de confiança para p, ao nível de confiança α−1 , é dado por (23) n pp zp )ˆ1(ˆ ˆ 2/ − ± α . Exemplo. Retirou-se uma amostra de 1.000 peças de uma linha de produção e verificou-se que 35 eram defeituosas. Estime o intervalo de confiança ao nível de 95% da proporção de peças defeituosas fornecidas pela linha de produção. Solução: n = 1.000 035,000 01.35 //ˆ === nfp 96,1%5,22/ == zzα Logo, ,01140 .0001 )035,0(1,0350 ,961 )ˆ1(ˆ 2/ = − ×= − = n pp zαε ,0114035 0,0,0114035 0,0 +≤≤− p ⇒ 0464,0,02360 ≤≤ p com 95% de confiança. Já caiu em prova! (ICMS-RJ/2010/FGV). Para estimar a proporção p de pessoas acometidas por uma certa gripe numa população, uma amostra aleatória simples de 1600 pessoas foi observada e constatou-se que, dessas pessoas, 160 estavam com a gripe. Um intervalo aproximado de 95% de confiança para p será dado por: A) (0,066, 0,134). B) (0,085, 0,115). C) (0,058, 0,142). D) (0,091, 0,109). E) (0,034, 0,166). Resolução Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 29 A freqüência relativa amostral pˆ apresenta uma distribuição binomial, cujamédia p e variância npp /)1( − . Sendo 5≥np e 5)1( ≥− pn , é possível aproximar a binomial pela normal. Como p é desconhecido, adotamos como condições de aproximação np'=1600 × 0,1 =160 > 5 e n(1− p') =1600 × 0,9 =1440 > 5. Como a amostra é suficientemente grande, o intervalo de confiança para p será da forma ε±pˆ , em que ε é dado por ,0150 1600 ,901,0 ,961 )ˆ1(ˆ %5,20 ≈ × ×= − = n pp ze . Logo, 115,0015,0,10ˆ ≈+=+ εp e 085,015 0,0,10ˆ ≈−=− εp . ⇒ IC = (0,085, 0,115). GABARITO: B 19.5 Tamanho das Amostras Vimos que nz /2/ σε α= (semi-amplitude do intervalo de confiança para a média populacional quando o desvio padrão populacional é conhecido). Segue- se que (24) 2 2/ = ε σαzn . A Eq. (24) será usada para determinar o tamanho da amostra necessária para estimar a média populacional quando σσσ for conhecido. Se não conhecemos o desvio padrão da população, devemos primeiramente coletar uma amostra piloto de n’ elementos para, com base nela, obtermos uma estimativa do desvio padrão amostral S. Em seguida, empregamos a expressão (25) 2 2/,1' = − ε t α S n n obtida por meio das substituições de 2/αz por 2/1,' α−nt e de σ por S em (24). Se n’ ≤ n, a amostra piloto já terá sido suficiente para a estimação. Caso contrário, devemos retirar, ainda, da população, os elementos necessários à complementação do tamanho mínimo da amostra. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 30 Já caiu em prova! (ICMS-RJ/2010/FGV). Suponha que os salários dos trabalhadores numa certa região sejam descritos por uma variável populacional com média desconhecida e desvio padrão igual a R$200,00. Para se garantir, com 95% de probabilidade, que o valor da média amostral dos salários não diferirá do valor da média populacional por mais de R$10,00, a amostra aleatória simples deverá ter no mínimo, aproximadamente, o seguinte tamanho: A) 3.568. B) 3.402. C) 2.489. D) 2.356. E) 1.537. Resolução Dados: X − =10, 1−α = 95% e σ = 200. X − σ / n = zα / 2∴ X − σ / n = z2,5%∴ 10 200 / n =1,96∴ 10 200 / n ≈ 2∴n ≈1.600 O valor mais próximo é o da opção E. Nota: não é correto dizer que o valor da média amostral dos salários não diferirá do valor da média populacional por mais de R$10,00 com 95% de probabilidade, dado que a amostra tenha um tamanho mínimo de 1.537 elementos. A afirmação correta seria: o valor da média amostral dos salários não diferirá do valor da média populacional por mais de R$10,00 com 95% de confiança, dado que a amostra tenha um tamanho mínimo de 1.537 elementos. Na prática, obtemos somente uma amostra aleatória e calculamos uma estimativa do intervalo de confiança. Uma vez que esse intervalo conterá ou não o valor verdadeiro do parâmetro populacional µ, não é razoável fixar um nível de probabilidade para essa realização. A afirmação apropriada é: o intervalo observado [l, u] contém o valor verdadeiro do parâmetro µ, com 1 )%(100 α− de confiança. Essa afirmação tem uma interpretação de freqüência; ou seja, não sabemos se a afirmação é verdadeira para essa amostra específica, mas o método usado para obter o intervalo [l, u] resulta em afirmações corretas em )%1(100 α− do tempo. GABARITO: E O tamanho da amostra necessária para estimar uma proporção populacional p vem da expressão (22) e é dado por Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 31 (26) )1( 2 2/ pp z n − = ε α . Não temos como calcular n por meio de (26), pois p é desconhecido. Como podemos resolver este problema? Se pararmos para refletir um pouco sobre o assunto, veremos que existem pelo menos duas saídas. A primeira é a seguinte: para amostras suficientemente grandes, sabemos que pp ≈ˆ , haja vista que pˆ é um estimador justo de p, e podemos utilizar a aproximação (27) )ˆ1(ˆ 2 2/ pp z n − ≈ ε α . Também podemos obter um valor limitante superior para n a partir de (26), e esta seria a segunda solução para o problema da estimação do n. Note que a função quadrática (parábola) p(1-p) que aparece em (26) tem o seu ponto de máximo em p =1/2. Se substituirmos p(1-p) pelo seu valor máximo, que é 1/4, o tamanho da amostra obtido será suficiente para a estimação, qualquer que seja o p. Sendo assim, obtemos 2 2 2/ 2 2/ 44 1 εε αα zzn = ≤ ou (28) 2 2 2/ max 4ε αzn = , em que nmax denota o valor limitante superior de n. Já caiu em prova! (Analista da SUSEP/Atuária/2010/ESAF). Deseja-se estimar a proporção p de pessoas com determinada característica em uma população. Um levantamento preliminar forneceu ˆ p = 2 /7. Usando essa estimativa, obtenha o menor tamanho de amostra aleatória simples necessária para estimar p com um intervalo de 95% de confiança e um erro de amostragem z ˆ p ˆ q /n ≤ 2% , onde ˆ p . q =1− ˆ A) 7840 B) 2500 C) 1960 D) 9604 E) 2401 Resolução Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 32 Aprendemos na exposição teórica que a semi-amplitude do intervalo de confiança para a proporção é dada por q npz /ˆˆ/ 2αε = . O examinador especificou que a relação %2/ˆˆ ≤nqpz deve ser obedecida, a fim de que p seja estimado com um intervalo de 95% de confiança e um erro de amostragem ε menor ou igual a 0,02. “Moral da história”: a banca forneceu a fórmula a ser utilizada na solução da questão! De vez em quando isso acontece. Isolemos a incógnita n na fórmula dada: 100 2ˆˆ 2/1 ≤ n qp z ⇒ 2 2 2 2/1 10 2ˆˆ ≤ n qp z ⇒ ≤ 4 2 10 4ˆ ˆ n qp z ⇒ nqpz 4ˆˆ10 24 ≤ ⇒ n qpz ≤ 4 ˆˆ10 24 ⇒ 4 ˆˆ10 24 qpz n ≥ Então o valor limitante inferior para n, denotado por nmin, é dado por 4 ˆˆ10 24 min qpz n = . Substituindo os valores ˆ p = 2 /7, 7/5ˆ1ˆ =−= pq e z = 1,96 (pois α=5%) na expressão acima, obtemos 7 5 7 2 4 96,110 24 min ×× × =n , utilizando as aproximações 1,96 ≅ 2 e 49 ≅ 50, chegamos ao valor aproximado .0002 5 000.10 50 52104 min == ×× ≈n . A opção C nos dá o valor mais próximo (1.960). Se você fizer as contas com a calculadora obterá o valor exato de 1.960. GABARITO: C 19.6 Memorize para a prova - Um estimador (ou estatística) é qualquer função das observações de uma amostra. - Uma estimativa corresponde a um valor numérico assumido por um estimador. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 33 - Um estimador Θˆ é justo ou não viesado se o seu valor esperado for igual ao valor do parâmetro θθθ que se pretende estimar, isto é, se .ˆ )( θ=ΘE - Um estimador é consistente, se, à medida que a amostra cresce, converge para o verdadeiro valor do parâmetro: θ=Θ ∞→ )ˆ(lim E n e 0)ˆvar(lim =Θ ∞→n - O melhor estimador para a média µµµ da população é a média da amostra X , pois X é um estimador justo e consistente de µµµ. - Se a média µµµ da população for conhecida, devemos estimar sua variância σ2 por meio da estatística S2 = (Xi − µ) 2 i=1 n ∑ n = Xi 2 i=1 n ∑ n− µ2, que será um estimador justo e consistente. - Se a média µµµ for desconhecida, a variância populacional σ2 deverá ser estimada por meio de S2 = (Xi − X ) 2 i=1 n ∑ n −1 , que é um estimador justo e consistente de σ2. - O estimador da variância populacional definido por ˆ σ 2 = (Xi − X ) 2 i=1 n ∑ n é viesado. - O EQM é a média do quadrado da diferença entre o estimador e o valor do parâmetro: ])ˆ[()ˆ( 2θ−Θ=Θ EEQM = +Θ)ˆvar( [viés )ˆ(Θ ]2. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 34 A relação acima mostra que o EQM tem dois componentes: o estimador erra o valor do parâmetro em função da sua dispersão (variância) e ainda, quando for o caso, pelo fato de não acertar na média (ser viesado). - Seja a amostra aleatória nXXX ,...,, 21 . Então a função densidade conjunta para estas observações, também conhecida como função de verossimilhança da amostra, é dada por );(...);();()( 21 θθθθ nxfxfxfL ×××= . - A função de verossimilhança para nXXX ,...,, 21 discretas é a probabilidade ),...,,( 2211 nn xXxXxXP ===θ . - A Estimativa de Máxima Verossimilhança (EMV) de θ é o valor θˆ que maximiza a função )(θL . - A média amostral de uma população normal é o estimador de máxima verossimilhança da média populacional µ. - A estatística S não é um estimador justo do desvio padrão populacional σσσ. O viés de S, entretanto, tende assintoticamente a zero. - A freqüência relativa pˆ é um estimador justo e consistente da proporção p dos elementos da população com uma dada característica. - Um intervalo de confiança expressa o grau de incerteza associado a uma estimativa. - O intervalo de confiança para a média quando o desvio-padrão populacional é conhecido, no nível de confiança 1-α, é dado por n zX n zX σσ αα 2/2/ +≤≤− . Obs.: z = 1,96 para (1-α) = 0,95 = 95%. - - O intervalo de confiança para a média quando o desvio-padrão populacional é desconhecido, no nível de confiança 1-α, é dado por n S tX n S tX nn 2/,12/,1 αα µ −− +≤≤− . - O intervalo de confiança para σσσ2, ao nível de 1-α, é dado por Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 35 2 2/,11 2 2 2 2/,1 2 )1()1( αα χ σ χ −−− − ≤≤ − nn SnSn , ou pela fórmula equivalente 2 2/,11 1 2 2 2 2/,1 1 2 )()( αα χ σ χ −− = − = ∑∑ − ≤≤ − n n i i n n i i XXXX . - O intervalo de confiança para p, ao nível de confiança α−1 , é dado por n pp zpp n pp zp )ˆ1(ˆ ˆ )ˆ1(ˆ ˆ 2/2/ − +≤≤ − − αα . - Tamanho da amostra para estimar a média populacional µ quando σ é conhecido: 2 2/ = ε σαzn . - Tamanho da amostra para estimar a proporção populacional p: 2 2 2/ 4ε αzn ≈ . 19.7 Exercícios de Fixação 1. (ICMS-RJ/2009/FGV) Para examinar a opinião de uma população sobre uma proposta, foi montada uma pesquisa de opinião em que foram ouvidas 1680 pessoas, das quais 51,3% se declararam favoráveis à proposta. Os analistas responsáveis determinaram que a margem de erro desse resultado, em um determinado nível de confiança, era de 2 pontos percentuais, para mais ou para menos. Considerando que fosse desejada uma margem de erro de 1 ponto percentual, para mais ou para menos, no mesmo nível de confiança, assinale a alternativa que indique o número de pessoas que deveriam ser ouvidas. A) 840 B) 2520 C) 3360 D) 5040 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 36 E) 6720 2. (ICMS-RJ/2008/FGV) Considere uma Amostra Aleatória Simples de n unidades extraídas de uma população na qual a característica, X, estudada tem distribuição Normal com média µ e variância σ2, ambas desconhecidas, mas finitas. Considere, ainda, as estatísticas média da amostra, ∑ = = n i iX n X 1 1 , e variância da amostra ∑ = −= n i i XX n S 1 22 )( 1 . Então, é correto afirmar que: A) X e 2S são, ambos, não tendenciosos para a estimação da média e da variância da população, respectivamente. B) X é não tendencioso, mas 2S é tendencioso para a estimação da média e da variância da população, respectivamente. C) X é tendencioso, mas 2S é não tendencioso para a estimação da média e da variância da população, respectivamente D) X e 2S são, ambos, tendenciosos para a estimação da média e da variância da população, respectivamente. E) X e 2S são, ambos, não tendenciosos para a estimação da média e da variância da população, mas apenas X é consistente. 3. (ICMS-RJ/2007/FGV) Uma pesquisa recente foi realizada para avaliar o percentual da população favorável à eleição de um determinado ponto turístico para constar no selo comemorativo de aniversário da cidade. Para isso, selecionou-se uma amostra aleatória simples extraída de uma população infinita. O resultado apurou 50% de intenção de votos para esse ponto turístico. Considerando que a margem de erro foi de 2 pontos percentuais, para mais ou para menos, e que o nível de confiança utilizado foi de 95%, foram ouvidas, aproximadamente: A) 50 pessoas B) 2.400 pessoas C) 1.200 pessoas D) 100 pessoas E) 4.800 pessoas 4. (Estatística/IBGE/2010/CESGRANRIO) Para que o erro padrão da média amostral X seja reduzido à metade, deve-se A) multiplicar o tamanho da amostra por 2. B) multiplicar o tamanho da amostra por 4. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 37 C) multiplicar o tamanho da amostra por 16. D) dividir o tamanho da amostra por 2. E) dividir o tamanho da amostra por 4. 5. (Analista Técnico/SUSEP/2001/ESAF) Os itens 2,30; 4,11; 5,20; 6,30; 7,20 formam uma ordenação de uma amostra aleatória de tamanho 5 da distribuição uniforme no intervalo [0,θ] sendo θ>0. Assinale a opção que corresponde à estimativa de máxima verossimilhança de θ. A) 5,20 B) 5,02 C) 7,20 D) 5,00 E) 8,00 6. (Analista Técnico/SUSEP/2001/ESAF) Tem-se duas amostras independentes ambas de tamanho 21 de duas populações normais com a mesma variância σ2 > 0. Deseja-se construir um intervalo de confiança para σ2, no nível de 95%, com base numa estimativa combinada das variâncias amostrais 4,021 =s e 6,0 2 2 =s . Se 0< a < b são duas constantes tais que P{X<a} = 0,025 e P{X>b} = 0,025, onde X tem distribuição qui-quadrado, assinale a resposta que corresponde ao intervalo procurado e ao número de graus de liberdade da distribuição de X. A) [17/b; 17/a] e 20 graus de liberdade B) [5/3b; 5/2a] e 40 graus de liberdade C) [17/b; 17/a] e 41 graus de liberdade D) [20/b; 20/a] e 40 graus de liberdade E) [5/3b; 5/2a] e 20 graus de liberdade 7. (Analista Técnico/SUSEP/2002/ESAF) Seja X uma variável aleatória com valor esperado µ e desvio padrão σ>0. Pode-se afirmar que A) pelo menos 75% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] B) pelo menos 80% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] C) pelo menos 90% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] D) pelo menos 95% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] E) apenas com o conhecimento de µ e σ não é possível fazer afirmação sobre o percentual de realizações de X que cairão no intervalo [µ-2σ;µ+2σ].Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 38 8. (Analista/Área 3/BACEN/2006/FCC) Os preços de um determinado produto vendido no mercado têm uma distribuição normal com desvio padrão populacional de R$ 20,00. Por meio de pesquisa realizada com uma amostra aleatória de tamanho 100, com um determinado nível de confiança, apurou-se, para a média destes preços, um intervalo de confiança sendo [R$ 61,08 ; R$ 68,92]. A mesma média amostral foi obtida quadruplicando o tamanho da amostra anterior e utilizando também o mesmo nível de confiança. Nos dois casos considerou-se infinito o tamanho da população. O novo intervalo de confiança encontrado no segundo caso foi A) [R$ 63,04 ; R$ 66,96] B) [R$ 62,06 ; R$ 67,94] C) [R$ 61,57 ; R$ 68,43] D) [R$ 61,33 ; R$ 68,67] E) [R$ 61,20 ; R$ 68,80] 9. (Estat./IBGE/2010/CESGRANRIO) Sejam );(~,...,, 221 σNXXX iid n e considerados dois estimadores para σ2 T1= 1 n −1 (Xi − X ) 2 i=1 n ∑ e T 2= 1 n (Xi − X ) 2 i=1 n ∑ . Observe as afirmativas a seguir a respeito desses estimadores. I – T1 é não tendencioso. II – O erro médio quadrático de T1 é 4 1 2 σ −n , enquanto que o de T2 é 42 )1(2 σ n n − . III – A tendência de −= n T 2 2 σ . É (São) correta(s) a(s) afirmativa(s) A) I apenas. B) I e II, apenas. C) I e III, apenas. D) II e III, apenas. E) I, II e III. 10. (Estatística/IBGE/2010/CESGRANRIO) Considere uma amostragem aleatória simples, sem reposição, de uma população de tamanho muito grande. Qual o tamanho aproximado de amostra que permite estimar a média Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 39 de uma variável y, cujo desvio padrão populacional é igual a 5, com margem de erro 0,1, a um nível de confiança 95%? A) 100 B) 400 C) 1.000 D) 4.000 E) 10.000 11. (Estatística/IBGE/2010/CESGRANRIO) Para avaliar a taxa de desemprego em uma determinada localidade, selecionou-se uma amostra aleatória de 900 indivíduos em idade produtiva. O resultado dessa amostra revelou que o número de desempregados era de 36%. O intervalo de 95% de confiança para a proporção de desempregados, nessa localidade, é A) 36% ± 0,1% B) 36% ± 2,6% C) 36% ± 3,1% D) 36% ± 3,7% E) 36% ± 4,1% 12. (Analista/Área 2/BACEN/2010/CESGRANRIO) Em um estudo sobre a economia informal de uma cidade, deseja-se determinar uma amostra para estimar o rendimento médio dessa população, com um grau de confiança de 95% de que a média da amostra aleatória extraída não difira de mais de R$ 50,00 da média do rendimento dessa população, cujo desvio padrão é R$ 400,00. Sabendo-se que z ~ N[0,1] e que ∫ = ,961 0 4750,) 0( dzzf , onde f(z) é a função de densidade de probabilidade de z, pode-se concluir que o número de pessoas da amostra será A) 321 B) 308 C) 296 D) 271 E) 246 (Analista Ministerial/Estatística/MPE-PE/2006/FCC) Instruções (adaptadas): Para responder às questões de números 13 e 14, considere as tabelas a seguir. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 40 Elas fornecem alguns valores da função de distribuição F(x). A tabela 1 refere- se à variável normal padrão, as tabelas 2 e 3 referem-se à variável t de Student com 15 e 16 graus de liberdade, respectivamente: Tabela 1 Tabela 2 Tabela 3 x F(x) x F(x) x F(x) 1,60 0,945 1,753 0,95 1,746 0,95 1,64 0,950 2,248 0,98 2,235 0,98 2,00 0,977 2,583 0,99 2,567 0,99 13. Um engenheiro encarregado do controle de qualidade deseja estimar a proporção p de lâmpadas defeituosas de um lote, com base numa amostra de tamanho 400. Sabe-se, com base em experiâncias anteriores, que p deve estar próximo de 0,5. Usando o teorema central do limite para estimar a amplitude do intervalo de confiança de 90% para p, podemos afirmar que tal amplitude é, aproximadamente, igual a A) 0,041 B) 0,045 C) 0,058 D) 0,070 E) 0,082 14. Supondo-se que a porcentagem da receita investida em educação, dos 600 municípios de uma região, tem distribuição normal com média µ, deseja-se estimar essa média. Para tanto se sorteou dentre esses 600, aleatoriamente e com reposição, 16 municípios e se observou os porcentuais investidos por eles em educação. Os resultados indicaram uma média amostral de 8% e desvio padrão amostral igual a 2%. Um intervalo de confiança para µ, com coeficiente de confiança de 96%, é dado por A) (8 ± 1,124)% B) (8 ± 1,117)% C) (8 ± 0,877)% D) (8 ± 0,870)% E) (8 ± 0,755)% 15. (Analista Ministerial/Estatística/MPE-PE/2006/FCC) Seja X uma variável aleatória assumindo os valores -2 e 2, com probabilidade 1/4 e 3/4, respectivamente. Seja µ a média de X. Então o limite superior de P[|X - µ| ≥ 12 ], obtido pela desigualdade de Tchebysheff, é dado por A) 0,40 B) 0,25 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 41 C) 0,20 D) 0,12 E) 0,10 (ANPEC/2009/Adaptada) Verifique se as afirmativas 16 a 20 são verdadeiras: 16. Em uma pesquisa de opinião a proporção de pessoas favoráveis a uma determinada medida governamental é dada por ∑= nXp i /ˆ . O menor valor de n para o qual a desigualdade de Chebyshev resultará em uma garantia de que 01,) 0,010|ˆ(| ≤≥− ppP é 200.000. 17. Quando o número de graus de liberdade δ cresce, a distribuição 2δχ aproxima-se de uma distribuição normal com média δ e desvio padrão 2δ. 18. Um intervalo de confiança de 99% para a média µ de uma população, calculado para uma amostra aleatória, como [2,75; 8,25], pode ser interpretado como: a probabilidade de µ estar no intervalo calculado é de 99%. 19. Seja nXXX ,...,, 21 uma amostra aleatória simples proveniente de uma população com distribuição de Pareto cuja função densidade é dada por )1()1()( +−+= θθ xxf , ∞<< x0 , 1>θ . Então o estimador de máxima verossimilhança para θ é ∑ + )1log( ix n . 20. Se existe, todo estimador de máxima verossimilhança calculado para uma amostra aleatória possui distribuição Normal em grandes amostras. 19.7 Gabarito 1 – E 2 – B 3 - B 4 - B 5 – C 6 - D 7 - A 8 - A 9 – E 10 – E 11 – C 12 - E 13 - E 14 – A 15 – B Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 42 16 – FALSA 17 – FALSA 18 – FALSA 19 – VERDADEIRA 20 - VERDADEIRA 19.8 Resolução dos Exercícios de Fixação 1. (ICMS-RJ/2009/FGV) Para examinar a opinião de uma população sobre uma proposta, foi montada uma pesquisa de opinião em que foram ouvidas 1680 pessoas, das quais 51,3% se declararam favoráveis à proposta. Os analistas responsáveis determinaram que a margem de erro desse resultado, em um determinado nível de confiança, era de 2 pontos percentuais, para mais ou para menos. Considerando que fosse desejada uma margem de erro de 1 ponto percentual, para mais ou para menos, no mesmo nível de confiança, assinale a alternativa que indique o número de pessoas que deveriam ser ouvidas. A) 840 B) 2520 C) 3360 D) 5040 E) 6720 Resolução Dados: 513,0'=p , n = 1.680, 02,00 =e e 01,0'0 =e . Qual é o valor de n’ (novo número de pessoas que deveriam ser ouvidas) correspondente a 01,0'0 =e ? Sabemos que npp ze )'1(' 2/0 − = α . Conhecendo 2/αz (não foi fornecido) é possível calcular n’ por meio de )'1(' ' ' 2 0 2/ pp e z n − = α . Cálculo de 2/αz : Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 43 1680 513),0(1,5130 ,020 2/ − = αz ,6401⇒ .12/ =αz Cálculo de n’: ,22) 6720,51301513(,0 ,010 ,64011 ' 2 ≈− =n ⇒ alternativa (E) Nota: como a estimativa p’ = 0,513 indica que p está próxima de 50%, temos a alternativa de usar a fórmula aproximada .7256 010,2 ,64011 '2 ' 22 0 2/ ≈ × = = e z n α ⇒ valor mais próximo é a alternativa (E). GABARITO: E 2. (ICMS-RJ/2008/FGV) Considere uma Amostra Aleatória Simples de n unidades extraídas de uma população na qual a característica, X, estudada tem distribuição Normal com média µ e variância σ2, ambas desconhecidas, mas finitas. Considere, ainda, as estatísticas média da amostra, ∑ = = n i iX n X 1 1 , e variância da amostra ∑ = −= n i i XX n S 1 22 )( 1 . Então, é correto afirmar que: A) X e 2S são, ambos, não tendenciosos para a estimação da média e da variância da população, respectivamente. B) X é não tendencioso, mas 2S é tendencioso para a estimação da média e da variância da população, respectivamente. C) X é tendencioso, mas 2S é não tendencioso para a estimação da média e da variância da população, respectivamente D) X e 2S são, ambos, tendenciosos para a estimação da média e da variância da população, respectivamente. E) X e 2S são, ambos, não tendenciosos para a estimação da média e da variância da população, mas apenas X é consistente. Resolução Antes de analisarmos as alternativas lembre que • X é um estimador justo (não tendencioso) e consistente da média populacional µ; Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 44 • se definirmos o estimador da variância populacional σ2 por meio da fórmula ∑ = − n i i XX n 1 2)( 1 , então esse estimador é tendencioso, porém consistente (vide resolução do exercício 7) e • se definirmos o estimador da variância populacional σ2 por meio da fórmula ∑ = − − n i i XX n 1 2)( 1 1 , então esse estimador é não tendencioso e consistente (vide resolução do exercício 7). Atenção: o estimador 2S do enunciado desta questão corresponde ao estimador viesado 2σˆ da exposição teórica. Eu usei na exposição teórica o símbolo 2S para denotar o estimador justo da variância populacional. Não se confunda! Análise das alternativas: (A) Somente X é não tendencioso ⇒ INCORRETA. (B) X é não tendencioso e 2S é tendencioso ⇒ CORRETA. (C) X é não tendencioso e 2S é tendencioso ⇒ INCORRETA. (D) Somente 2S é tendencioso ⇒ INCORRETA. (E) Somente X é não tendencioso. Além disso, 2S também é consistente ⇒ INCORRETA. GABARITO: B 3. (ICMS-RJ/2007/FGV) Uma pesquisa recente foi realizada para avaliar o percentual da população favorável à eleição de um determinado ponto turístico para constar no selo comemorativo de aniversário da cidade. Para isso, selecionou-se uma amostra aleatória simples extraída de uma população infinita. O resultado apurou 50% de intenção de votos para esse ponto turístico. Considerando que a margem de erro foi de 2 pontos percentuais, para mais ou para menos, e que o nível de confiança utilizado foi de 95%, foram ouvidas, aproximadamente: A) 50 pessoas B) 2.400 pessoas C) 1.200 pessoas D) 100 pessoas Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 45 E) 4.800 pessoas Resolução Como a estimativa p’ = 50%, podemos usar a fórmula aproximada .400401 22. ,0202 ,961 2 22 0 2/ ≈= × = = e z n α . GABARITO: B 4. (Estatística/IBGE/2010/CESGRANRIO) Para que o erro padrão da média amostral X seja reduzido à metade, deve-se A) multiplicar o tamanho da amostra por 2. B) multiplicar o tamanho da amostra por 4. C) multiplicar o tamanho da amostra por 16. D) dividir o tamanho da amostra por 2. E) dividir o tamanho da amostra por 4. Resolução O erro padrão da média X de uma amostra de n observações proveniente de uma população de média µ e variância σ2 é dado por n X σ σ =)( . Seja o novo erro padrão de X denotado por )(X∗σ . Então ∗ ∗ ==== nnn X X σσσσ σ 422 )( )( ⇒ nn 4=∗ (deve-se multiplicar o tamanho da amostra por 4). GABARITO: B 5. (Analista Técnico/SUSEP/2001/ESAF) Os itens 2,30; 4,11; 5,20; 6,30; 7,20 formam uma ordenação de uma amostra aleatória de tamanho 5 da distribuição uniforme no intervalo [0,θ] sendo θ>0. Assinale a opção que corresponde à estimativa de máxima verossimilhança de θ. A) 5,20 B) 5,02 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 46 C) 7,20 D) 5,00 E) 8,00 Resolução O enunciado fornece uma amostra aleatória com cinco elementos extraídos de uma distribuição uniforme: 20}7,30;6,20;5,11;4,30;2,{ 54321 ===== xxxxx . O valor máximo da amostra é 20,75max == xx . Logo, pelo que aprendemos na exposição teórica, a EMV de θ é 20,7ˆ max == xθ (alternativa C). Detalhamento da resolução: Sabemos que maxx≥θ . A função densidade de probabilidade da distribuição uniforme é θ/1)( =xf para θ≤≤ x0 e 0)( =xf caso contrário. A função de verossimilhança de uma amostra aleatória com n observações é n n i L θθ θ 11 )( 1 ==∏ = , Cujo domínio é maxx≥θ , ou seja, o menor valor possível do parâmetro θ é maxx=θ . A Fig. abaixo indica que o maior valor (máximo absoluto) de )(θL ocorre em maxx=θ . Portanto, a EMV é 20,7ˆ max == xθ . Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 47 Esta questão mostra que nem sempre é possível usar diretamente métodos de cálculo para determinar o máximo de )(θL . GABARITO: C 6. (Analista Técnico/SUSEP/2001/ESAF) Tem-se duas amostras independentes ambas de tamanho 21 de duas populações normais com a mesma variância σ2 > 0. Deseja-se construir um intervalo de confiança para σ2, no nível de 95%, com base numa estimativa combinada das variâncias amostrais 4,021 =s e 6,0 2 2 =s . Se 0< a < b são duas constantes tais que P{X<a} = 0,025 e P{X>b} = 0,025, onde X tem distribuição qui-quadrado, assinale a resposta que corresponde ao intervalo procurado e ao número de graus de liberdade da distribuição de X. A) [17/b; 17/a] e 20 graus de liberdade B) [5/3b; 5/2a] e 40 graus de liberdade C) [17/b; 17/a] e 41 graus de liberdade D) [20/b; 20/a] e 40 graus de liberdade E) [5/3b; 5/2a] e 20 graus de liberdade Resolução Esta questão pede que o candidato determine: i) o intervalo de confiança ao nível de 95% da variável aleatória X que possui distribuição qui-quadrado e ii) o número de graus de liberdade de X. Do enunciado, depreende-se que X é resultante da combinação das estatísticas 2 1S e 2 2S . A estimativa combinada das variâncias amostrais 4,021 =s e 6,0 2 2 =s é dada por ,50 40 ,6020,4020 2 )1()1( 21 2 22 2 112 = ×+× =
Compartilhar