Prévia do material em texto
Inferência Estatística 2012 2 Problemas de inferência Inferir significa fazer afirmações sobre algo desconhecido. A inferência estatística tem como objetivo fazer afirmações sobre uma característica de uma população a partir do conhecimento de dados de uma parte desta população (isto é, uma amostra de n observações). A população é representada por uma distribuição de probabilidade com parâmetro(s) cujo(s) valor(es) é (são) desconhecido(s). Fazemos inferências sobre o(s) parâmetro(s). 3 Problemas de inferência Se θ é o parâmetro da distribuição de uma v. a. X e X1,...,Xn é uma amostra desta distribuição, temos três problemas típicos: 1. Estimação pontual Apresentar um valor para θ, que é uma função da amostra X1,...,Xn (“cálculo” de θ), chamada de estimador de θ. Espera-se que o estimador tenha boas propriedades: (i) em média esteja próximo de θ, (ii) o estimador se aproxima de θ quando n aumenta. 4 Propriedades dos estimadores Não –viciado Um estimador =H(X1,...,Xn) é um estimador não viciado de θ se:θˆ ( ) Θ∈∀= θθθ ;ˆE Exemplo 1 : Se X1,..., Xn é uma amostra aleatória de tamanho n de X~N(µ;4). Mostrar que a média amostral é um estimador não-viciado de µ. Consistência Um estimador =H(X1,...,Xn) é um estimador consistente de θ se, para todo ε >0. nθˆ ( ) 0|ˆ|lim =>− ∞→ εθθP n 5 ( ) ( ) 0ˆlim)( ˆlim)( = = ∞→ ∞→ nn nn Varii Ei θ θθ É equivalente Exemplo 2: Considere o exemplo 1, mostre que a média amostral é um estimador consistente de µ. Eficiência Dois estimadores 1ˆθ e 2θˆ , não viciados de θ. Dizemos que 1ˆθ é mais eficiente que 2θˆ se: )ˆ()ˆ( 21 θθ VarVar < 6 Exemplo 3: Considere o exemplo 1. Sejam X=1ˆθ 12 ˆ X=θ , dois estimadores não viciados Demonstrar que 1ˆθ é mais eficiente que 2θˆ . 4)ˆ( 4)ˆ( 2 1 = = θ θ Var n Var 1),ˆ()ˆ( 21 >∀< nVarVar θθ 7 Problemas de inferência 2. Estimação intervalar Apresentar um intervalo de possíveis valores para θ, chamado de intervalo de confiança. Os limites do intervalo são funções da amostra X1,...,Xn (são aleatórios). A probabilidade de que o intervalo contenha θ deve ser alta. A amplitude do intervalo deve ser tão pequena quanto possível (intervalo mais preciso). 8 Definição[Intervalo de Confiança] Seja X1,...,Xn uma amostra aleatória de uma população com a característica X~f(x,θ). Seja T1=L(X1,...,Xn) e T2=U(X1,...,Xn) duas estatísticas tais que T1< T2 e que .1)( 21 αθ −=<< TTP O intervalo (T1, T2) é chamado de intervalo de 100(1-α)% de confiança para θ. Notação: IC(θ,1-α)= (T1, T2), onde T1 e T2 são os limite inferior superior respectivamente e 1-α é o coeficiente (ou nível) de confiança 9 2. Intervalo de confiança para uma média populacional Suponha que nXX ,1 é uma amostra aleatória de tamanho n, de uma população normal com média µ (desconhecida) e variância σ2 (conhecida). Vimos que a média amostral X , tem distribuição normal com média µ e variância σ2/n. Isto é )1,0(~ N n XZ σ µ− = Logo, fixando um nível de confiança (1-α), pode-se determinar zα/2 de tal forma:. ααα −=≤≤− 1)( 22 zZzP Ou que é equivalente α σ µ αα −=≤ − ≤− 1) / ( 22 z n XzP 10 EE n zX n zXz n Xz σµσ σ µ αααα 2222 / +≤≤−⇔≤ − ≤− ( )EXEX n zX n zXIC +−= ×+×−=− ;;)1,( 22 σσαµ αα Logo,O intervalo de 100 (1-α)% de confiança para µ é dado por:. ασµσ αα −= ×+≤≤×− 1 22 n zX n zXP 11 Exemplo 1: Em uma industria de cerveja, a quantidade de cerveja inserida em latas tem-se comportado como uma distribuição normal com média 350 ml e desvio padrão 3 ml. Após alguns problemas na linha de produção, suspeita-se que houve alteração na média. Uma amostra de 20 latas acusou uma média 346 ml. Obtenha um intervalo de 95% para a quantidade média µ de cerveja inserida em latas, supondo que não tenha ocorrido alteração na variabilidade. Seja X: quantidade de cerveja inserida em latas após alguns problemas )9,(~)9,(~ n NXNX µµ ⇒ .95,0-1346;,20 === αxn Do problema temos: 12 Já que 1-α=0,95, temos da tabela normal padrão z0,025.=1,96. ×+×−= n X n XIC σσµ 96,1;96,1)95,0,( ( ) ( )31,347;69,344 31,1346;31,1346 20 396,1346; 20 396,1346)95,0,( = +−= ×+×−=µIC 13 3. Intervalo de confiança para uma média populacional para amostras grandes Suponha que nXX ,1 é uma amostra aleatória de tamanho n, de uma população com média µ (desconhecida) e variância σ2 (conhecida). Vimos que a média amostral X , tem distribuição aproximadamente normal com média µ e variância σ2/n, quando n é suficientemente grande. Isto é .),1,0(~ / . ∞→ − = nN n XZ aproxσ µ Um intervalo de 100 (1-α)% de confiança para µ é dado por:. ×+×−=− n zX n zXIC σσαµ αα 22 ;)1,( 14 Exemplo 3: A associação dos proprietários de indústrias metalúrgicas está muito preocupado com o tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos, tem sido de ordem de 60 horas/homem por ano e desvio padrão de 10 horas/homem. Testou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de 36 industrias e medido o número de horas/homem perdidas por acidente, que foi de 50 horas em média. Obtenha um intervalo de 95% de confiança para o tempo médio perdido em acidentes de trabalho após o novo programa de prevenção, supondo que não houve mudança na variabilidade. Do problema temos: .95,0-1;20;05;36 ==== ασxn Seja X: tempo perdido em acidentes de trabalho após o novo programa de prevenção 15 Um intervalo de 95% de confiança para µ é dado por:. ×+×−= n zX n zXIC σσµ αα 22 ;)95,0,( Já que 1-α=0,95, temos da tabela normal padrão z0,025.=1,96. ×+×−= n X n XIC σσµ 96,1;96,1)95,0,( ( ) ( )27,53;46,73 27,350;3,2750 36 1096,150; 36 1096,150)95,0,( = +−= ×+×−=µIC 16 4. Intervalo de confiança para uma média populacional quando σ é desconhecido A distribuição t-Student Supondo que a característica de interesse da população é normal, a variável aleatória )1( n S XT µ−= tem distribuição de probabilidade conhecida com distribuição t de Student com n-1 graus de liberdade. ( ) 1 ;1 2 1 1 − − == ∑ ∑ = = n XX SX n XOnde n i in i i 17 Notação; T~t(k), indica que v.a tem distribuição t-Student com k graus de liberdade. Propriedades: se T~t(k) )1,0(~)( 2, 2 )(;0)()( NTkii k k kTVarTEi ⇒∞→ > − == Uso Da Tabela Distribuição t-Student αα =≥ )( , ktTP 18 Considerando a variável dada em (1), pode-se mostrar que um intervalo de 100(1-α)% de confiança para µ é dado por: ( )EXEX n StX n StXIC E n E n +−= ×+×−=− −− ;;)1,( 1,2/1,2/ αααµ Exemplo 4: Um administrador de uma cadeia de supermercados deseja estimar as vendas médias semanais (µ) da cadeia de supermercado, para isto selecionou uma amostra aleatória de 10 supermercados entre todos que formam a cadeia, que produziu os seguintes resultados, em milhares de dólares: 36,4 35,7 37,2 36,5 34,9 35,2 36,3 35,8 36,6 36,9 Construir um intervalo de confiança para µ, com nível de confiança de 95%, assumindo que as vendas tem distribuição normal 19 ( ) 2325,0;7352,0 1 ;5,36 10 1 210 1 10 1 == − ∑ − ==∑= = = n S n XX SXX i i i i Já que, n=10 (1-α)=0,95,→ α=0,05, temos: t0,025, 9=2,262 53,0)2325,0)(262,2( ==E ( ) ( )03,37;97,3553,05,36;53,05,36)95,0,( =+−==µIC ( )EXEXIC +−== ;)95,0,(µ ( )EXEX n StX n StXIC E n E n +−= ×+×−= −− ;;)95,0,( 1,2/1,2/ ααµ 20 Foram coletados dados de viscosidade de um líquido produzido em batelada. Resultados de 40 amostras encontram-se abaixo. Apresente um IC de 95% para a viscosidade média. Exemplo (p. 28 em Montgomery et al., 2004) Dados: 13,3 14,5 15,3 15,3 14,3 14,8 15,2 14,5 14,6 14,1 14,3 16,1 13,1 15,5 12,6 14,6 14,3 15,4 15,2 16,8 14,9 13,7 15,2 14,5 15,3 15,6 15,8 13,3 14,1 15,4 15,2 15,2 15,9 16,5 14,8 15,1 17,0 14,9 14,8 14,0. ( ) .948,0875,14 140 1 e875,14 40 1 40 1 2 40 1 =− − === ∑∑ = = i i i i XsXX Solução. Inicialmente calculamos Pelo enunciado, n = 40 e 1 - α = 0,95, de modo que α = 0,05. Da tabela (Tábua III) com 40 g.l. (39 g.l. não estão na Tábua III) e p = 5%, obtemos tα/2 = 2,021. 21 Exemplo (p. 28 em Montgomery et al., 2004) Logo, o erro máximo é igual 303,0 40 948,0021,21,2/ === − n stE nα e o IC de 95% para a média da população é dado por 15,18]. ;57,14[]303,0875,14 ;303,0875,14[];[];[ =+−=+−= EXEXUL 22 Exemplo (p. 28 em Montgomery et al., 2004) Solução em R. Leitura dos dados: (visc = scan("Ex02_47.txt")) Estatística descritiva: summary(visc) Min. 1st Qu. Median Mean 3rd Qu. Max. 12.60 14.30 14.90 14.88 15.33 17.00 Análise exploratória: par(mfrow = c(2,2)) stripchart(visc, pch = 20, cex = 1.5, method = "stack", xlab = "Viscosidade") hist(visc, xlab = "Viscosidade", ylab = "Densidade", main = "", freq = FALSE) lines(density(visc), col = "blue") boxplot(visc, xlab = "Viscosidade", pch = "*", horizontal = TRUE) qqnorm(visc, main = "", pch = 20, xlab = "Quantis teóricos", ylab = "Quantis amostrais") qqline(visc) 23 Determinação do tamanho da amostra para estimação de µ Erro máximo na estimação de µ: .2/ n zE σα= .2 2 2/ 2 E zn σα ×= zα/2 é obtido da tabela normal após a escolha do coeficiente de confiança (1 - α). Se o desvio padrão (σ) for conhecido, podemos especificar o erro máximo (E) e em seguida calcular n: Se o desvio padrão (σ) não for conhecido, podemos utilizar o desvio padrão obtido de uma amostra piloto com n0 observações: ,2 2 02/ 2 E szn ×≅ α sendo que s02 é a variância amostral da amostra piloto. 24 Em uma siderúrgica estuda-se a resistência média das barras de aço utilizadas na construção civil. Qual o tamanho amostral necessário para garantir que um erro máximo de 8 kg seja superado com probabilidade igual a 0,01? O desvio padrão da resistência para este tipo de barra é de 25 kg. Solução.Do enunciado tem-se σ = 25 kg, E = 8 kg e Exemplo ,01,01)(P01,0)(P1 −=+≤≤−⇒=+≤≤−− EXEXEXEX µµ ou seja, α = 0,01 (o coeficiente de confiança do IC é 1 - α = 99%). Consultando a tabela normal encontramos zα/2 = 2,575. .65 8 25575,2 Portanto, 2 22 2 2 2/ 2 = × = × = E zn σα 25 5. Intervalo de confiança para uma proporção populacional Suponha que tem-se uma população dicotômica, constituída apenas por elementos de dois tipos , isto é, cada elemento pode ser classificado com sucesso ou fracasso, suponha que probabilidade de sucesso é p e de fracasso é q=1-p, e desta população se retira uma amostra aleatória, X1…, Xn de n observações. Vimos )1,0(~ )1( ˆ N n pp ppZ − − = Para um nível de confiança fixado em 100(1-α)%,um intervalo para p, para uma amostra suficientemente grande. − ×+ − ×−=− n ppzp n ppzppIC )1(ˆ;)1(ˆ)1,( 2/2/ ααα 26 Abordagem otimista )porsubstituir p-(p-p)p( ˆ1ˆ1 Abordagem conservativa 1/4 porsubstituir -p)p(1 )1() ˆ1(ˆˆ;) ˆ1(ˆˆ)1,( 2/2/ an ppzp n ppzppIC − ×+ − ×−=− ααα )1( 4 1ˆ; 4 1ˆ)1,( 2/2/2/ bn zzp n zppIC ××+×−=− αααα 27 Um estudo foi realizado para determinar a proporção de componentes de um certo tipo que resistem durante um certo período a condições de uso mais rigorosas do que as especificadas. Em uma amostra de 200 componentes selecionados ao acaso, 160 resistiram. Apresente um intervalo de 95% de confiança para a proporção de componentes que resistem. Como 1-α = 0,95, obtemos da tabela normal padrão z0,025 = 1,96. [ ].855,0;745,0 200 )8,01(8,096,18,0; 200 )8,01(8,096,18,0IC = − ×+ − ×−≅ [ ].869,0;731,0 2004 196,18,0 ; 2004 196,18,0IC = × ×+ × ×−≅ Abordagem conservativa: Exemplo Solução. Estimativa pontual de p: %).80(8,0 200 160 ==p Abordagem otimista: 28 Determinação do tamanho da amostra para estimação de p Erro máximo de estimação de p é dado por : n ppzE )1( 2 − ×= α ( ) 2 2/ 2 )1( E ppzn −=⇒ α Quando não se tem informação de p: ( ) 2 2/ 2 25,0 E zn α=⇒ 29 Exemplo 6: Suponha que a fábrica de papel no Brasil, deseja estimar a proporção de funcionários com uma renda inferior a R$ 200,00. Estudos anteriores indicam que esta proporção é de 20%. (a) Que tamanho de amostra se requer para assegurar uma confiança de 95% e o erro máximo de estimação desta proporção seja de 5%? (b) Em quanto variara o tamanho da amostra se o erro máximo permissível é reduzido a 1%.? Dos dados temos p=0,20 e 1-α=0,95. Da tabela normal padrão z0,025.=1,96. ( ) 24686,245 05,0 8,02,0)96,1( 2 2 ≈= × =⇒ n (a) O erro máximo de estimação E=0,05. 30 Uma equipe pretende estimar a proporção de avarias ocorridas no transporte de um produto. Estudos anteriores indicam que esta proporção não ultrapassa 20%. Que tamanho de amostra é necessário para assegurar com uma confiança de 99% que o erro de estimação desta proporção seja no máximo igual a 0,05? Solução. Do enunciado obtemos p ≤ 0,20, 1 – α = 0,99 e E = 0,05. Da tabela normal padrão, z0,005 = 2,575. Exemplo Proteção em relação à situação mais desfavorável: p* = 0,20. Finalmente, .4254,424 05,0 )2,01(2,0575,2 )1( 2 2 2 **2 2/ =⇒= −×× = −× = n E ppzn α 31 Problemas de inferência 3. Teste de hipóteses Uma hipótese estatística (H) é uma afirmação sobre o valor de θ. Pode ser verdadeira ou falsa. Se θ é a probabilidade de sucesso no modelo binomial, H: θ = ½, H: θ ≠ ½ e H: θ > ¾ são exemplos de hipóteses. Com base na amostra X1,...,Xn, formulamos uma regra de decisão que permita concluir pela rejeição ou não rejeição (aceitação) de H. A decisão pode ser correta ou errada. 32 H0: µ = 60 e H1: µ ≠ 60 Exemplo. Uma indústria adquire de um certo fabricante pinos cuja resistência média à ruptura é especificada em 60 unid. (valor nominal da especificação). Em um determinado dia a indústria recebeu um grande lote de pinos e a equipe técnica da indústria deseja verificar se o lote atende às especificações. Teste de hipóteses H0: O lote atende às especificações H1: O lote não atende às especificações A v. a. X (resistência à ruptura) é tal que X ~ N (µ, 25). O problema pode ser resolvido testando as hipóteses (hipótese simples: um único valor) (hipótese composta: mais de um valor) (Hipótese nula) (Hipótese alternativa) 33 Definição. Uma hipótese estatística é uma afirmação sobre o(s) parâmetro(s) da distribuição de probabilidade de uma característica (v. a. X) da população. Definição. Um teste de uma hipótese estatística é um procedimento ou regra de decisão que nos possibilita decidir por H0 ou H1 com base na amostra X1,...,Xn. Exemplo. A equipe técnica da indústria decidiu retirar uma amostra aleatória de tamanho n = 16 do lote recebido. A resistência de cada pino foi medida e foi calculada a a resistência média X (estimador de µ), que será utilizada para realizar o teste (estatística de teste). Podemos afirmar que . 16 25,~ µNX Para quais valores de X a equipe técnica deve rejeitar H0 e portanto rejeitar o lote? Teste de hipóteses 34 Definição. Região crítica (Rc) ou região de rejeição é o conjunto de valores assumidos pela estatística de teste para os quais a hipótese nula é rejeitada. Seu complementar é a região de aceitação (Ra). Exemplo. Se o lote está fora de especificação , isto é, se H1: µ ≠ 60 for verdadeira, espera-se que a média amostral seja inferior ou superior a 60 unid. A equipe técnica decidiu adotar a seguinte regra: rejeitar Ho se X for maior do que 62,5 unid. ou menor do que 57,5 unid. As duas regiões são { }5,57ou5,62 <>= XXRc { }5,625,57 ≤≤= XRa : região de aceitação de H0. : região de rejeição de H0 e 35 Procedimento (teste): .H se)-(aceita rejeita se não,Se ;H se-ejeita,Se 0 0 c c Rx rRx ∉ ∈ 36 Tipos de erros Erro tipo I: rejeitar H0 quando H0 é verdadeira. Erro tipo II: não rejeitar H0 quando H0 é falsa. Exemplo. As hipóteses são H0: O lote atende às especificações; H1: O lote nãoatende às especificações. Erro tipo I: rejeitar o lote sendo que ele está de acordo com as especificações. Erro tipo II: não rejeitar o lote sendo que ele não está de acordo com as especificações. Situação real e desconhecida Decisão Ho verdadeira Ho falsa Não rejeitar Ho Decisão correta Erro tipo II Rejeitar Ho Erro tipo I Decisão correta Quadro resumo: 37 P(Erro tipo I) = α (nível de significância). ).verdadeiraH ;HRejeitar (P 00=α ).a verdadeirH ;Hrejeitar Não(P )falsa H ;Hrejeitar Não(P)IItipoErro(P 10 00 = == β )falsa é H ;HRejeitar (P1 00=− β : poder do teste. Nível de significância e poder 38 Exemplo. As hipóteses são H0: µ = 60 e H1: µ ≠ 60. Logo, ).60:H ;5,57ou5,62( 0 =<>= µα XXP ).16/25 ,60(~então,eirafor verdad HSe 0 NX .0455,002275,002275,0)00,2P()00,2P( 16/25 605,57 16/25 60P 16/25 605,62 16/25 60P )60:H ;5,57P()60:H ;5,62P( 00 =+=−<+>= − < − + − > − = =<+=>= ZZ XX XX µµα Obs. Se X1, X2, ..., Xn é uma amostra de uma distribuição N(µ, σ2), então a média amostral tem distribuição N(µ, σ2/n). Calculamos o nível de significância: 39 Cálculo de α: 40 ).60:H ;5,625,57P()a verdadeirH ;H rejeitar Não(P 110 ≠≤≤== µβ X ).5,63:H;5,625,57P( 1 =≤≤= µβ X Como exemplo de cálculo de β, selecionamos H1: µ = 63,5. Logo, 16 25;5,63~ NX e Cálculo de β: 41 .2119,0 0000,02119,0 )80,4P()80,0P( )5,63;5,57P()5,63;5,62P( )5,63:H;5,625,57P( 1 = −= −≤−−≤= =≤−=≤= =≤≤= ZZ XX X µµ µβ Efetuando o cálculo obtemos Cálculo de β: Logo, se µ = 63,5, o poder do teste é igual a 1 – 0,2119 = 0,7881. 42 Função poder 43 Testes bilaterais e unilaterais Se as hipóteses nula e alternativa são ,:H ;:H 01 00 µµ µµ ≠ = em que µo é uma constante conhecida (valor de teste), o teste é chamado de bilateral. Podemos ter também as hipóteses .:H ;:H 01 00 µµ µµ < = teste unilateral à esquerda. .:H ;:H 01 00 µµ µµ > = teste unilateral à direita. Sugestão. Expressar H0 em forma de igualdade. 44 Um fabricante de um certo componente afirma que o tempo médio de vida dos componentes produzidos é de 1000 horas. Engenheiros de produto têm interesse em verificar se uma modificação do processo de fabricação aumenta a duração dos componentes. Hipóteses: horas, 1000:H horas; 1000:H 1 0 > = µ µ sendo µ o tempo médio de duração dos componentes. Exemplo 45 Procedimento básico de testes de hipóteses O procedimento de teste de hipóteses relativo ao parâmetro θ de uma população é decomposto em quatro passos: (i) Formulação das hipóteses: .ouou:H ;:H 0001 00 θθθθθθ θθ ≠>< = (ii) Identificação da estatística de teste e caracterização da sua distribuição. (iii) Escolha do nível de significância do teste (α = 5%, 1% ou 0,5% são comuns) e obtenção da região crítica. (iv) Cálculo da estatística de teste e tomada de decisão (H0 deve ser rejeitada ou não?). 46 Considere uma amostra aleatória de tamanho n de uma população normal com média µ (desconhecida) e variância σ2 (conhecida). Iniciamos pelo teste unilateral à esquerda: Teste de hipóteses para uma média populacional .:H ;:H (i) 01 00 µµ µµ < = (ii) A estatística de teste é a média amostral X (estimador pontual de µ). Se a distribuição da população é normal ou se amostra é grande (n ≥ 30, mesmo que a distribuição da população não seja normal) a distribuição de X é ( )nN /, 2σµ , aproximadamente. Se H0 for verdadeira, então ).1,0(~)( 0 NXnZ σ µ− = 47 (iii) Rejeitamos H0 em favor de H1 se a média amostral X é “pequena” em relação µ0. A região crítica é obtida selecionando um k tal que Rc = { X < k }, sendo que ):;( 00 µµ =< HkXP = α. Ou seja, sob H0 α σ µ σ µ σ µ = − <= − < − n kZP n k n XP /// 000 .0 0 0 ×+<=⇒ ×+=⇒= − ⇒ n zXR n zkz n k c σµ σµ σ µ α αα (iv) Conclusão: se ×+<=∈ n zXRx c σµ α0 , rejeita-se H0 ; caso contrário não se rejeita H0. Obs. zα < 0. Teste de hipóteses para uma média populacional 48 Exemplo Um comprador de tijolos suspeita de uma diminuição na resistência. De experiências anteriores, sabe-se que a resistência média ao desmoronamento de tais tijolos é igual a 200 kg, com um desvio padrão de 10 kg. Uma amostra de 100 tijolos, escolhidos ao acaso, forneceu uma média de 195 kg. Ao nível de significância de 5%, pode- se afirmar que a resistência média ao desmoronamento diminuiu? .kg200:H ;kg200:H são interesse de hipóteses As (i) 1 0 < = µ µ (ii) A estatística de teste é a média amostral X . Já que n = 100 ≥ 30, tem-se que sob H0, X ~ 100 100,200N , aproximadamente. (iii) A região crítica pode ser obtida selecionando k de maneira que Rc = { X < k }, sendo que ):;( 00 µµ =< HkXP = α = 0,05. Ou seja, sob H0, 49 36,19864,120005,0 1 200 100/10 200 100/10 200 =⇒−=−⇒== −<= − ≤ − kkkZPkXP α { }.36,198<=⇒ XRc (iv) Do enunciado a média amostral vale 195. Logo, { }36,198195 <=∈= XRx c . Rejeita-se H0 ao nível de 5% de significância. Conclusão. De acordo com os dados coletados e adotando um nível de significância de 5%, concluímos que resistência média ao desmoronamento diminuiu. Exemplo 50 Método alternativo Um método alternativo prático: trabalhar diretamente na escala Z. .:Hcontra :H)( 0100 µµµµ <=i (ii) Estatística de teste: ).1,0()( ~ 0sob 0 NXnZ Hσ µ− = (iii) Região crítica para um nível de significância α escolhido: { }.αzZRc <= (iv) se { }αzZRz c <=∈ , rejeita- se H0; caso contrário, não se rejeita H0. 51 .200:Hcontra 200:H(i) 10 <= µµ (ii) Estatística de teste: ).1,0()200( ~ 0 NXnZ Hsobσ − = (iii) Região crítica para um nível de significância α = 0,05: { }.64,1−<= zRc (iv) Calculamos cRz ∈−=−= 510 )200195(100 . Rejeita-se H0 a um nível de significância de 5%. Exemplo 52 Procedimento geral Hipóteses: Bilateral 01 direita À 01 esquerda À 01 000000 :H:H:H :H:H:H (i) µµµµµµ µµµµµµ ≠>< === (ii) Estatística de teste: (a) Variância da população é conhecida: ).1,0()( ~ 0 0 NXnZ Hsobσ µ− = (b) Variância da população é desconhecida (s é o desvio padrão amostral): ).1()( ~ 0 0 − − = nt s XnT Hsob µ Distribuição t de Student com n-1 graus de liberdade (g.l.). 53 Distribuições normal e t de Student 54 (iii) Região crítica para um nível de significância α escolhido: { }cZR Zc −<=)( { }cTR Tc −<=)( { }cZR Zc >=)( { }cTR Tc >=)( { }cZR Zc >=)( { }cTR Tc >=)( (iv) Se Z ∈ RC ou T ∈ RC , rejeita-se Ho; caso contrário, não se rejeita H0. H1: µ < µ0 H1: µ > µ0 H1: µ ≠ µ0 Procedimento geral Obs. Nas regiões críticas com Z e T o valor de c não é o mesmo. 55 Dados históricos coletados em uma linha de produção de um certo item indicam 115 kg como massa média. A fim de testar a hipótese de que a média de itens recentemente produzidos se manteve, retirou-se, ao acaso, uma amostra de 20 itens, obtendo-se média igual a 118 kg e desvio padrão 20 kg. Utilize α = 0,05. .kg115:H ;kg115:H são interesse de hipóteses As (i) 1 0 ≠ = µ µ ).1()115( ~ 0 − − = nt S XnT Hsob (ii) Estatística de teste: Aproximamos a distribuição da média das 20 notas por uma distribuição normal com média µ e variância σ2 / n. Exemplo 56 (iii) Região crítica para um nível de significância α = 0,05 e com n – 1 = 19 g.l.: { }.093,2>= TRc (iv) Calculamos cRT ∉=−= 67,020 )115118(20 . Não se rejeita H0 a um nível de de significância de 5%. A diferença não é significativa. Conclusão. De acordo com os dados coletados, a um nível de significância de 5% concluímos que a massa média dos itens produzidos se manteve. Exemplo 57 Teste de hipóteses para uma proporção populacional O procedimento para testes de hipóteses sobre a proporção populacional (p) semelhante ao utilizado para testes sobre uma média populacional. Bilateral :H direita À :H esquerda À :H :H:H:H (i) 010101 000000 pppppp pppppp ≠>< ===Problema. Testar a hipótese que a proporção de sucessos de um ensaio de Bernoulli é igual a um valor especificado p0. Isto é, testar um dos seguintes pares de hipóteses: 58 (ii) Estatística de teste: mente,aproximada ),1,0( )1( )( ~ 000 0 N pp ppnZ Hsob− − = sendo que n X n p n i i∑ === 1 sucessos de Número é a proporção amostral de sucessos e Xi = 1, se o resultado for sucesso; Xi = 0, se o resultado for insucesso. :estimador pontual de p. Teste de hipóteses para uma proporção populacional 59 Um estudo é realizado para determinar a presença de pequenas anomalias em chapas metálicas de uma certa dimensão. Segundo o fabricante, a proporção de chapas com anomalias é inferior a 25%. Foram inspecionadas 50 chapas escolhidas ao acaso e sete delas apresentaram algum tipo de anomalia. Estes dados justificam a afirmação do fabricante? Adote um nível de significância igual a 0,05. Exemplo .25,0:H ;25,0:H :Hipóteses )( 1 0 < = p p i (ii) Estatística de teste: mente.aproximada ),1,0( )25,01(25,0 )25,0(50 ~ 0 NpZ Hsob− − = 60 (iii) Região crítica para um nível de significância α = 0,05: { }.64,1−<= zRc (iv) Temos n = 50. Calculamos 14,050 7 ==p e cRz ∈−=−× − = 796,1 )25,01(025 )25,014,0(50 . Rejeita-se H0 ao nível de 5% de significância. Exemplo Conclusão. Adotando um nível de significância de 5% concluímos a partir dos dados que a proporção de chapas produzidas com anomalias é inferior a 25%. 61 Suponha se tenha uma amostral aleatória de tamanho n de uma população normal com média µ e variância σ2 (ambas desconhecidas), e tem-se interesse em verificar as seguintes hipóteses estatísticas: Teste de hipóteses para uma variância populacional BilateralDireitoUEsquerdoU HHH HouHouH i 0 22 1 . 0 22 1 . 0 22 1 0 22 00 2 0 22 00 2 0 22 0 ::: :)(:)(: )( σσσσσσ σσσσσσσσ ≠>< =≤=≥= (ii) A estatística de teste )1( 2 2 0 2 ~ )1( 0 − − = n Hsob SnW χ σ 62 (iii) A região crítica para um nível de significância fixado { }2 1,12 1 −−− ≤= nnRc αχχ { }2 1,2 1 −− ≥= nnRc αχχ { }2 1,2/2 1 2 1,2/1 2 1 −− −−− ≥ ≤= nn nn ouRc α α χχ χχ (iv) Se a ETobs∈ RC., rejeita-se Ho em caso contrário não se rejeita H0. 63 Uma amostra aleatória de 25 observações foi sorteada de uma população normal forneceu variância igual 18,3. Esse resultado é suficiente para podermos concluir, ao nível de 10% de significância, que a variância dessa população é inferior a 25.. Exemplo 25: 25: :são interesse de hipóteses As )( 2 1 2 0 < = σ σ H H i (ii) A estatística de teste )1( 2 2 ~25 )1( 0 − − = n Hsob SnW χ 64 (iii) A região crítica para um nível de significância fixado α=0,10, n=25. { }7,15225 ≤= χRc RcSnWobs ∉= − = − = 56,17 25 )4,18)(125( 25 )1( 2 Ao nível de 10% de significância, não se pode rejeitar Ho 65 Nível descritivo De acordo com o procedimento descrito anteriormente para o teste de hipóteses, no final toma-se uma decisão de rejeição ou de não-rejeição da hipótese nula. Esta dicotomia é, na realidade, artificial. De fato • a fixação de um nível de significância é arbitrária e • os dados amostrais podem contradizer a hipótese nula em maior ou menor grau. O nível descritivo denotado por α*( ou P-value) constitui uma medida do grau com que os dados amostrais contradizem a hipótese nula. Sua definição é a seguinte: o nível descritivo corresponde à probabilidade da estatística de teste tomar um valor igual ou mais extremo do que aquela que, de fato, é observado. Alternativamente, pode-se definir o nível descritivo como o menor nível de significância para o qual a estatística de teste determina a rejeição da hipótese nula H0. 66 Exemplo No exemplo da lámina 34, a estatística de teste observada é, Zobs= -1,7963 (recorde-se que o nível de significância do teste era α=0,05 e o correspondente valor crítico z0,05=-1,64). Da definição do nível descritivo temos: ( ) 0362,0|7963,1 0* =−≤= HZPα Nesse exemplo, se o nível de significância fosse fixado em qualquer valor igual ou superior a 3,62%, a conclusão seria pela rejeição de H0 ao passo que valores inferiores a 3,62% conduziriam à aceitação da hipótese nula. 0 0 H se-rejeita H se-rejeita se Não ⇒< ⇒≥ αα αα * * Se Se 67 68 Para os testes de hipóteses na qual a distribuição normal é a estatística do teste, o nível descritivo nesta caso é dado por: Φ− Φ Φ− = direito l UnilateraTeste)(1 esquerdo l UnilateraTeste)( bilateral teste|))(|1(2 * obs obs obs z z z α Número do slide 1 Número do slide 2 Número do slide 3 Número do slide 4 Número do slide 5 Número do slide 6 Número do slide 7 Número do slide 8 Número do slide 9 Número do slide 10 Número do slide 11 Número do slide 12 Número do slide 13 Número do slide 14 Número do slide 15 Número do slide 16 Número do slide 17 Número do slide 18 Número do slide 19 Número do slide 20 Número do slide 21 Número do slide 22 Número do slide 23 Número do slide 24 Número do slide 25 Número do slide 26 Número do slide 27 Número do slide 28 Número do slide 29 Número do slide 30 Número do slide 31 Número do slide 32 Número do slide 33 Número do slide 34 Número do slide 35 Número do slide 36 Número do slide 37 Número do slide 38 Número do slide 39 Número do slide 40 Número do slide 41 Número do slide 42 Número do slide 43 Número do slide 44 Número do slide 45 Número do slide 46 Número do slide 47 Número do slide 48 Número do slide 49 Número do slide 50 Número do slide 51 Número do slide 52 Número do slide 53 Número do slide 54 Número do slide 55 Número do slide 56 Número do slide 57 Número do slide 58 Número do slide 59 Número do slide 60 Número do slide 61 Número do slide 62 Número do slide 63 Número do slide 64 Número do slide 65 Número do slide 66 Número do slide 67 Número do slide 68