Baixe o app para aproveitar ainda mais
Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original
Introdução à Inferência Estatística 1. Conceitos básicos em inferência 1.1. População: conjunto de indivduos, ou itens, com pelo menos uma característica em comum. Tambm ser denotada por população objetivo, que sobre a qual desejamos obter informações e/ou fazer inferências. Pode, ainda, ser chamada de Universo. Ser denotada por: Nu,,u,u,uU 321 iu unidades elementares, i = 1, 2, . . . , N. N = no de elementos, ou tamanho, da populao. Exemplos: a) Residentes da cidade de So Carlos; b) Lote de peas produzido numa linha de produo de uma ind stria; c) Eleitores do municpio de So Paulo, aptos a votar na eleio; d) Indivduos do sexo masculino que sofrem de diabetes; etc, etc, etc ... 1.2. Amostra: subconjunto, necessariamente finito, de uma populao. selecionada de forma que todos os elementos da populao tenham a mesma chance de serem escolhidos. 1.2.1. Planejamentos amostrais: so esquemas para coletas de dados numa pesquisa amostral. Existem vrios tipos de planejamentos dos quais destacaremos: Amostra Aleatria Simples – AAS Amostra Aleatria Estratificada – AAE Amostra Aleatria por Conglomerados – AAC 1.3. Estudo experimental Experimento no qual um tratamento é deliberadamente aplicado aos indivíduos (ou itens) a fim de observar a sua resposta. Exemplos: a) ensaios para se verificar a dureza de materiais; b) estudos caso-controle em epidemiologia; c) pesos de cobaias submetidas à diferentes dietas; “Requer um planejamento experimental.” No estudo experimental é muito importante determinar o número de elementos necessários, ou seja, o tamanho da amostra; É importante, também, planejar adequadamente a amostra de maneira a não interferir nos resultados. 1.4. Levantamentos de dados A seguir, serão apresentadas algumas situações envolvendo levantamentos de dados. 1.4.1. Uma amostra: sortear ao acaso n elementos de uma população para participar da amostra. Exemplos: a) dentre os eleitores de um município, sortear uma amostra para participar de uma pesquisa de intenção de votos; b) produzir uma amostra de peças de espuma, segundo uma específica formulação, para serem colocadas num teste de resistência à tração. Normalmente compara-se a amostra com um padrão já conhecido; Espera-se que a população seja homogênea (pouca variabilidade). 1 2 1 3 2 n N População Amostra 1.4.2. Duas amostras: amostras são retiradas de uma ou duas populações. quando dispomos de duas amostras, geralmente queremos realizar uma comparação entre as mesmas. i) Amostras independentes: nenhum elemento da primeira amostra interfere nos da segunda. a) Dois tratamentos: tomar n elementos de uma única população e dividí- los em dois grupos, de preferência de mesmo tamanho. (ou sortear, independentemente, duas amostras de uma mesma população) 1 1 2 2 3 n1 n1 + n2 = n 1 2 N n2 População Amostras b) Duas populações: sortear n1 elementos da primeira população e n2 da segunda e aplicar o mesmo tratamento em ambas. 1 1 2 2 3 n1 N1 n1 + n2 = n 1 1 2 2 3 n2 N2 Populações Amostras ii) Amostras pareadas ou emparelhadas (dependentes): uma amostra observada em dois instantes diferentes: (antes/depois), (tempo 1, tempo 2). 1 1 Fazer as diferenças: 2 t 2 di = yi2 – yi1 n n t1 t2 Amostras 1.4.3. k amostras: quando se tem k ≥ 3 amostras para comparar. a) k grupos independentes: classificar, ao acaso, n elementos em k grupos tal que n = n1 + n2 + . . . + nk. O ideal é que todos os grupos sejam de mesmo tamanho: n1 = n2 = . . . = nk A1 : 1, 2, . . . , n1 k gruposindependentes A2 : 1, 2, . . . , n2 Ak : 1, 2, . . . , nk A variável A é chamada de fator e os grupos A1, A2, . . . , Ak são os tratamentos ou níveis do fator A. b) Medidas repetidas: o mesmo grupo, de tamanho n, é observado em k instantes diferentes. 1 1 1 1 2 2 2 . . . 2 n n n n t1 t2 t3 tk c) k grupos independentes com duas classificações: classificação de vários grupos quando se tem dois critérios (ou fatores) para a divisão dos mesmos. Considere, por exemplo, um fator com três níveis (A1, A2, A3) e um segundo fator com dois níveis (B1, B2), terem-se k = 23 = 6 grupos para serem comparados. A1 B1 A1 B1 B2 A1 B2 A2 B1 A2 B1 6 grupos B2 A2 B2 A3 B1 A3 B1 B2 A3 B2 RESUMO 1 amostra 1 população 2 amostras Independentes 2 tratamentos (1 pop)1 tratamento (2 pop) Dependentes dados pareados k amostras ( k ≥ 3 ) Independentes 1 fator2 fatores Dependentes medidas repetidas 2. Estimação 2.1. Parâmetro populacional Geralmente denotado por , é uma característica populacional de interesse que pode ser expressa através de uma quantidade numérica. É desconhecido e fixo. Exemplos: no de desempregados, salário médio de uma categoria ou população, opinião a respeito de uma dada atitude, casos de dengue, tempo gasto com filhotes, tamanho da população tempo de vida no de votos para um determinado candidato, produção agrícola, etc... 2.2. Espaço paramétrico Denotado por , é o conjunto dos possíveis valores de . Exemplos: = { | –∞ < < ∞ }; = { | 0 < < ∞ }; = { | 0 ≤ ≤ 1 }; = { (1, 2 ) | –∞ < 1 < ∞ e 0 < 2 < ∞ }. 2.3. Amostra aleatória: representada pelas iniciais aa, é formada pela observação de n variáveis aleatórias X1, X2, . . . , Xn, independentes e identicamente distribuídas, iid. nXXX ,,, 21 )(xF 2.4. Variável aleatória: uma variável aleatória ou va, é uma característica desconhecida, que pode variar de um indivíduo para outro da população e que, ao ser observada ou mensurada, deve gerar uma única resposta. Tipos de variáveis: a) Variáveis qualitativas: variáveis cujos possíveis resultados são atributos ou qualidades. São NÃO NUMÉRICAS. Podem ser classificadas em: ORDINAIS, quando obedecem a uma ordem natural ou NOMINAIS, quando não seguem nenhuma ordem. b) Variáveis quantitativas: variáveis cujos possíveis resultados são valores NUMÉRICOS, resultantes de mensuração ou contagem. Podem ser classificadas em: DISCRETAS, quando assumem valores num espaço finito ou infinito enumerável ou CONTÍNUAS, quando assumem valores num conjunto não enuméral (conjunto dos números reais). iid 2.5. Estatística: uma medida numrica, S(X), que descreve uma caracterstica da amostra e que no depende de parmetros desconhecidos. A estatstica uma funo da amostra: S(X) = f (X1, X2, . . . , Xn) toda estatstica S(X) uma va Exemplos: n X X n i i 1 – mdia amostral, 1 1 2 2 n XX s n i i – varincia amostral, X(1) = mínimo 1 estatística de ordem, X(n) = máximo n-ésima estatística de ordem. PARÂMETROS E ESTATÍSTICAS Nome ESTATÍSTICAAmostra PARÂMETRO População Média X Variância s2 2 Correlação rX,Y X,Y Proporção pˆ p 2.6. Estimador: uma quantidade, obtida a partir de uma amostra, que “estima” o valor de um parmetro populacional. Ser denotado por T(X). { T(X) } { S(X) }, ou seja, todo estimador uma funo da amostra e, portanto, é uma estatística, porm, nem toda estatística é um estimador. todo estimador T(X) é uma va Notação: Como T(X) estima o parmetro , uma notao simplificada para o estimador dada por: ˆ)(XT 2.6.1. Estimativa: estimativa o valor de T(X) obtido de uma aa. 2.7. A inferência estatística: “A Inferência Estatística busca obter informações de parâmetros populacionais por intermédio das características de uma amostra e de suas distribuições de probabilidade”. Amostra aleatória = parmetro ˆ = estimador Inferência: Intervalos de Confiança Testes de Hipótese ESQUEMATICAMENTE 2.7.1. Questões que surgem: Quantos estimadores existem para um parâmetro populacional? Quais as qualidades que se deseja de um estimador? Como escolher o melhor estimador? Resposta: Teoria da Otimalidade. 2.8. Estimador ótimo A teoria da Otimalidade estuda as propriedades dos estimadores e define critérios para a escolha do estimador ótimo. Segundo essa teoria um estimador timo basicamente se for: não viesado e de mínima variância. 2.8.1. Estimador não viesado (não viciado): o viés, do ingls bias, definido pela diferena entre o valor esperado do estimador e o parâmetro o qual este est estimando. Seja ˆ , estimador de , ento o vis de ˆ definido por: B( ˆ) = E( ˆ) – em que o espaço paramétrico. Se E( ˆ) = , ˆ dito não viesado (ou não viciado) e B(ˆ) = 0 2.8.2. Precisão: uma propriedade importante para um estimador que seja preciso, em outras palavras, que tenha baixa variabilidade ˆ deve ser escolhido tal que sua variância seja a menor possível )ˆ(|ˆ Var seja mínima 2.8.3. Consistência: alm de ser no viesado e de varincia mnima deseja-se que o estimador ˆ seja consistente. Um estimador ˆ dito ser consistente para se )ˆ(lim E n e 0)ˆ(lim Var n Conforme aumenta o tamanho da amostra, mais ˆ se aproxima de . 2.8.4. Erro quadrático médio (EQM): o erro quadrático médio de um estimador ˆ definido por EQM( ˆ)= E[(ˆ– )2 ] Prova-se facilmente que EQM(ˆ) = Var(ˆ) + [B()]2 Logo, se o estimador ˆ no viesado, ento, seu EQM mnimo e EQM( ˆ) = Var( ˆ) Assim, a teoria da otimalidade procura, dentre os estimadores não viesados, aquele de menor variância. Exemplo: estimadores para a média populacional - . 1) Estimar a média das alturas dos alunos da turma B de Estatística 2. Quais os estimadores possíveis? Vamos propor 4 estimadores: a) a média amostral: n XX iA ˆ b) o ponto médio entre os valores máximo e o mínimo da amostra: 2 ˆ )1()( XX n B c) a mediana da amostra: XC ~ˆ d) a 5ª observação: 5ˆ XD 3. Estimadores para a média A maioria das aplicações em estatística envolvem a estimação da média populacional . Quais os possíveis estimadores e qual deles é o melhor (estimador ótimo). Média aritmética ou média amostral ( X ); Média geométrica; Média harmônica; Média aparada; Média ponderada; Mediana amostral ( X~ ); Extimadores do tipo Bˆ e Dˆ (ver exemplo). Qual desses estimadores é o melhor para estimar ? 1º - escolher os não viesados; 2º - dentre os não viesados, encontrar o de menor variância. A teoria estatística (otimalidade) resolve esse problema e mostra qual o estimador ótimo para . Segundo essa teoria, o estimador ótimo para é a média amostral (aritmética) X . Estudo das propriedades dos estimadores: média amostral, média harmônica, média geométrica e média ponderada ( X1/3 + 2X2/3 ) para amostras de tamanho n = 2, com reposição. População 2 3 5 6 8 Parâmetros Populacionais Média = 4.8 Variância 2 = 4.56 Tamanho N = 5 n 2 = 2.28 Amostras Estimadores X1 X2 X M. Harm. M. Geom. M. Pond. 2 2 2 2.000 2.000 2.000 2 3 2.5 2.400 2.449 2.667 2 5 3.5 2.857 3.162 4.000 2 6 4 3.000 3.464 4.667 2 8 5 3.200 4.000 6.000 3 2 2.5 2.400 2.449 2.333 3 3 3 3.000 3.000 3.000 3 5 4 3.750 3.873 4.333 3 6 4.5 4.000 4.243 5.000 3 8 5.5 4.364 4.899 6.333 5 2 3.5 2.857 3.162 3.000 5 3 4 3.750 3.873 3.667 5 5 5 5.000 5.000 5.000 5 6 5.5 5.455 5.477 5.667 5 8 6.5 6.154 6.325 7.000 6 2 4 3.000 3.464 3.333 6 3 4.5 4.000 4.243 4.000 6 5 5.5 5.455 5.477 5.333 6 6 6 6.000 6.000 6.000 6 8 7 6.857 6.928 7.333 8 2 5 3.200 4.000 4.000 8 3 5.5 4.364 4.899 4.667 8 5 6.5 6.154 6.325 6.000 8 6 7 6.857 6.928 6.667 8 8 8 8.000 8.000 8.000 Médias 4.8 4.323 4.546 4.80 Variâncias 2.28 2.5852 2.3772 2.5333 Tabela resumo dos estimadores para a Média Populacional. Estimadores X M. Harm. M. Geom. M. Pond. Média do Estimador 4.8 4.3229 4.5456 4.8 Vício 0 -0.4771 -0.2544 0 Vício ao quadrado 0 0.2277 0.0647 0 Variância do Estimador 2.28 2.5852 2.3772 2.5333 EQM 2.28 2.8129 2.4419 2.5333 Relação da variância de X com as demais 1 1.1339 1.0426 1.1111 Figura 1: Gráfico de pontos da média amostral X . 3.1. Métodos de estimação: A teoria estatística define diversos métodos de estimação, dentre os quais destacamos: 3.2. Método da máxima verossimilhança: o estimador de máxima verossimilhança (emv) é dado pelo valor que maximiza a distribuição conjunta da amostra, também chamada de função de verossimilhança. n i ixfdadosL 1 )()|( )]([maxˆ LMV 3.3. Métodos dos momentos: o estimador é obtido igualando os momentos amostrais com os momentos populacionais. Depende da distribuição de probabilidade da população O momento de ordem k de uma va é definido como )( kk XE , k ≥ 1. Se k = 1 )(1 XE O momento amostral de ordem k de uma va é definido como n Xm k i k . Se k = 1 Xm 1 Para estimar a média populacional , faz-se: 11ˆˆ m ou seja, Xˆ Para um parâmetro qualquer, se )()( fXE kk )ˆ(ˆ 1 kMM f . Se k = 1, 1)( f e o estimador dos momentos para é )(ˆ 1 XfMM 3.4. Método mínimos quadrados: o estimador é aquele que minimiza uma soma de quadrados de erros entre os valores da amostra e uma função do parâmetro )(g . Se queremos estimar a média , então )()( XEg . Nesse caso, o erro e para cada observação é calculado por )]([ iii gxe , i = 1, 2, . . . n, e n i ii gxSQE 1 2)]([)( . O estimador de mínimos quadrados é dado pelo valor de que minimiza SQE(): )]([minˆ SQEMQ O estimador de mínimos quadrados é mais utilizado no ajuste de modelos de regressão linear. 3.5. Estimador Bayesiano: o estimador Bayesiano é obtido a partir da ponderação da função de verossimilhança por uma distribuição de probabilidade para . Seja uma distribuição de probabilidade (), denominada de distribuição a priori de , então (|dados) ()L(|dados), (|dados) é a distribuição a posteriori de , dada a amostra. Um estimador Bayesiano muito utilizado é dado pelo valor que maximiza a posteriori, ou seja, pela moda de (|dados): )]|([maxˆ dadosBay 4. Propriedades do estimador para a média . 4.1. Mostrar que a média amostral X atende às propriedades de estimador ótimo para . 4.2. A distribuição da média amostral X . 4.2.1. O Teorema do Limite Central (TLC). 4.3. O estimador para a proporção p. 4.3.1. A distribuição da proporção amostral pˆ . 4.3.2. O Estimador conservador para a proporção amostral pˆ . 4.4. Determinação do tamanho da amostra na estimação da média Exemplos: 1) Um elevador de capacidade 500kg serve um edifício. Se a distribuição do peso dos usuários for N(70, 100), determine: a) A probabilidade de que 7 passageiros ultrapassem esse limite. b) E 6 passageiros? 2) Um produto da marca XIS é comercializado em pacotes de 1kg, sendo que a distribuição do peso dos pacotes, em gramas, é N(1000, 51.2). A fiscalização inspeciona o produto por amostras de 5 pacotes e aplica uma multa se a média for menor do que 4g a menos do peso especificado. a) Qual a probabilidade de que o produto XIS seja multado? Os produtores de XIS pretendem diminuir essa probabilidade. Para isso o Estatístico da empresa deu duas sugestões: deslocar a média, aumentando o peso dos pacotes ou aplicar ações visando reduzir a variabilidade do processo de empacotamento. b) Para quanto deve ser regulada a nova média de tal forma que a probabilidade em (a) seja de no máximo 0.03? c) Caso se escolha a segunda opção, de quanto deve ser a nova variância para se obter o mesmo resultado? Considere, agora, que a produtora tenha um custo adicional de 25 centavos por cada pacote com peso acima de 1008g. Qual a alteração no custo em cada um dos casos para um produção de 5 toneladas? 3) Para estimar o nível de dureza de peças de espuma injetada com boa precisão o técnico responsável decide selecionar uma amostra da produção para medição. Como os ensaios de medição são destrutivos, o número de peças para análise deve ser bem determinado para evitar gastos desnecessários. (dados históricos registram a variância do processo de produção como 2 = 2.96). Inicialmente fixou-se como precisão = 0.5ud. a) Determinar o número de peças tal que a probabilidade de que a precisão seja alcançada seja de 0.99. b) A gerência achou esse número muito elevado e decidiu reduzir a precisão para 0.75ud. Que o número de peças deve ser inspecionado com esse novo valor? 4) Numa pesquisa eleitoral foi realizada uma pré-amostra de tamanho 40 obtendo-se 24.0ˆ p de eleitores que votam no candidato do partido PX. a) Qual deve ser o tamanho da amostra para que, com probabilidade 0.95, a estimativa pˆ não se distancie de p mais do que 0.02? b) Refazer o cálculo do tamanho da amostra pelo método conservativo. 5) Seja uma população com 20 e 567.22 . a) Numa amostra de tamanho n = 9, qual a probabilidade de que a variância amostral seja superior a 4.3? b) Determine um limite inferior k para o qual a probabilidade de que 2s ser menor do que k seja de 0.025. Exercícios de revisão 6) Um produto pesa em mdia 10g com desvio-padro de 3g. Este embalado em caixas de 150 unidades. A caixa vazia pesa, em mdia, 200g com desvio-padro de 9g. Admitindo que as variveis em questo tenham distribuies normais e que as 150 unidades que so colocadas em uma caixa so tomadas ao acaso, determine a probabilidade de uma caixa cheia pesar mais de 1610g. Resoluo: Sejam as va’s XP : peso do produto N( 10 ; 9 ) XC : peso da caixa N( 200 ; 81 ) XT : peso total da caixa cheia ? Resultados: i) Se X1 N( 1 ; 12 ) e X2 N( 2 ; 22 ), independentes, então X1 ± X2 N(1 ± 2 ; 12 + 22 ) ii) Se X1, X2, . . . , Xn N( ; 2 ), iid X1 + X2 + . . . + Xn N(n ; n2 ) De (i) e (ii), temos que XT = XP1 + XP2 + . . . + XP150 + XC e, XT N( T ; 2T ), em que: T = 15010 + 200 = 1700g 2 T = 1509 + 81 = 1431g 2 ou seja, XT N( 1700 ; 1431 ). 9913.0)38.2()1610( ZPXP T . 7) Uma mquina automtica enche latas, baseada no peso bruto das mesmas. O peso bruto tem distribuio normal com mdia 1.000g e desvio padro 20g. As latas tm pesos distribudos normalmente com mdia 90g e desvio padro 10g. Qual a probabilidade de que uma lata escolhida ao acaso tenha de peso lquido: a) menor do que 830g? b) maior do que 870 g? c) entre 860 e 930g? Resoluo: Sejam as va’s XB : peso do produto N( 1000 ; 400 ) XL : peso da caixa N( 90 ; 100 ) XQ : peso total da caixa cheia N( Q ; 2Q ), De (i) temos que XQ = XB – XL e, Q = 1000 – 90 = 910g 2 Q = 400 + 100 = 500g 2 ou seja, XQ N( 910 ; 500 ). a) 0.0001718)58.3()830( ZPXP Q b) 0.96330367.01)79.1()870( ZPXP Q c) 0.01250.8133)89.024.2()930860( ZPXP Q 0.80)930860( QXP 8) Seja X uma única observação de uma va com distribuição Bernoulli(). Sejam 1ˆ = X e 2ˆ = 1/2, dois estimadores para : a) verifique se os estimadores são não viesados para ; b) compare os EQM´s construa um gráfico como função de . X Bernoulli( ), 0 ≤ ≤ 1, tal que )(XE e )1()( XVar a) )()ˆ( 1 XEE 1ˆ não é viesado para 2 1)2/1()ˆ( 2 EE 2ˆ é viesado para , sendo 2 2 ]2/1[)ˆ( B b) 22111 )]ˆ([)ˆ()ˆ( BVarEQM 22 22 25.0)]ˆ([)2/1()ˆ( BVarEQM Os EQM’s podem ser comparados obtendo-se os valores de tal que )ˆ()ˆ( 21 EQMEQM , ou seja,: 22 25.0 Desta forma, se : melhor1b ˆou a0 1 melhor ˆba 2 fazb tantoou a 9) Sejam X1, X2, . . . , Xn uma aa de tamanho n da distribuição uniforme no intervalo (0, ). Considere os estimadores Xc11ˆ e 2 ˆ 122 n XXc . a) Ache c1 e c2 tais que 1ˆ e 2ˆ sejam não viesados para ; b) encontre os EQM´s dos dois estimadores X U( 0, ), 2 )(XE e 2 2 12 )( XVar a) 2 )()ˆ( 111 cXcEE para 21 c , 1ˆ não é viesado para 22 )()( 2 )ˆ( 2212122 cXEXEcXXcEE n para 22 c , 2ˆ não é viesado para Logo, X2ˆ1 e 2 2ˆ 212 XX não são viesados para . b) 2)]ˆ([)ˆ()ˆ( BVarEQM 12 )/(4)2()ˆ()ˆ( 2 11 nXVarVarEQM n EQM 3 )ˆ( 2 1 12 2)()( 2 4)ˆ( 2 21 1 2 XVarXVarXXVarEQM n 6 )ˆ( 2 2 EQM 5. O estimador da variância populacional 2. 5.1. A distribuição da variância amostral s2. Resultados: 1) Função gama: ( ) ∫ ( ) ( ) ( ) se a é inteiro, ( ) ( ) ( ) √ 2) Se ( ), então, tem distribuição quiquadrado com 1 grau de liberdade, ou seja 3) Se são iid ( ), então: ( ) Prova do item (2): Sejam ( ) e , então: ( ) ( ) ( ) ( ) (| | √ ) ( ) ( √ √ ) ( ) (√ ) ( √ ) Derivando ambos os lados da expressão (regra da cadeia): ( ) (√ ) ( √ ) ( √ ) ( √ ) ( ) ( √ ) (√ ) ( ) √ (√ ) Mas ( ) é a fdp normal padronizada, logo ( ) √ √ (√ ) ( ) √ √ ( ) ( ) ( ) , , que é a função densidade quiquadrado com 1 grau de liberdade. 5.1.1. Encontrando a distribuição associada a s2 Sejam X1, X2, . . . , Xn va’s normalmente distribuídas com média e variância 2, então ( ) Do resultado (2), temos que ( ) Ainda, a variância amostral é dada por ∑ ( ̅) de onde se obtém ( ) ∑ ( ̅) Desenvolvendo a soma de quadrados ∑ ( ̅) , ∑ ( ̅) ∑ ( ̅) ∑ [( ) ( ̅ )] ∑ ( ) ( ̅ )∑ ( ) ∑ ( ̅ ) ∑ ( ) ( ̅ ) ( ̅ ) ( ̅ ) ∑ ( ) ( ̅ ) Ou seja: ( ) ∑ ( ) ( ̅ ) , Dividindo a soma de quadrados ∑ ( ̅) por 2 temos ( ) ∑ ( ) ( ̅ ) ∑ ( ) ( ̅ √ ) Reescrevendo a expressão temos que ∑ ( ) ( ) ( ̅ √ ) Do resultado (3), temos que o lado esquerdo da igualdade tem distribuição e ( ̅ √ ) , portanto ( ) Exemplo: 1) Seja uma população normal com média e variância . a) Numa amostra de tamanho dessa população, qual a probabilidade de que seja maior ou iguial a 4.3? b) Determine um limite k para o qual, a probabilidade de que seja inferior a k seja de 0.025. a) [ ] [ ( ) ( ) ] [ ] b) [ ] [ ] [ ] Distribuição 2 para diversos valores de graus de liberdade Distribuição 2 1 Distribuição 2 2 (exponencial) Distribuição 2 5 Distribuição 2 10 Distribuição 2 30 Distribuição 2 50 6. Intervalos de Confiança 6.1. A estimação por intervalo Normalmente, no processo de investigação de um parâmetro , necessitamos ir além da sua estimativa pontual ˆ . O fato de não se conhecer o valor de pode causar uma “insegurança” e levar a um questionamento: Quão próximo estamos do valor real de quando obtemos sua estimativa? A resposta depende da precisão (ou variância) do estimador e, também, do valor real do parâmetro. Uma maneira de contornar esse problema consiste em se encontrar um intervalo em torno de ˆ que tenha alta probabilidade de englobar . P( do intervalo ],[ ba englobar ) = O intervalo ],[ ba , na prática, será construído com a amostra, ou seja, a partir dos dados e da distribuição amostral associada a ˆ . Logo, os valores a e b serão aleatórios, variando de uma amostra para outra. 6.2. Intervalo de Confiança para a média 6.2.1. Intervalo de confiança para a média com variância conhecida Seja uma aa X1, X2, . . . , Xn, com média e variância 2 conhecida. Para construir um intervalo de confiança para a média deve-se considerar a distribuição da média amostral X , X n N 2 , n X / )1,0(N Intervalo de confiança (1 – )100% para Para construir um I.C. para a temos que obter constantes a e b tal que )1( baP . A probabilidade (1 – ) é chamada de nível de confiança do intervalo e de nível de significância. Então, da distribuição de n X / , temos: )1( / 2/12/ z n X zP )1(2/12/ n zX n zP )1(2/2/1 n zX n zXP Como 2/2/1 zz , teremos: )1(2/2/1 n zX n zXP a b n zXa 2/ e n zXb 2/ . Nota: observe que, nessa notação, 02/ z . Portanto, um intervalo de confiança (1 – )100% para , com 2 conhecido, é dado por: n zX 2/ ; n zX 2/ . Se = 0.05, 025.02/ e 96.1025.0 z , logo, um I.C. 95% para , com 2 conhecido, é dado por: n X 96.1 ; n X 96.1 . Exemplo 1: Testes de compressão foram aplicados na marca A de cimento para avaliar sua resistência em concretos. Foram produzidos 13 corpos de prova e os testes foram aplicados no Laboratório de testes do Departamento de Engenharia Civil da UFSCar. (O corpo de prova padrão brasileiro, normatizado pela ABNT, é o cilíndrico, com 15 cm de diâmetro, 30 cm de altura e a idade de referência é 28 dias) Foi registrada a resistência à compressão simples (fc), para cada corpo de prova com o intuito de calcular a resistência característica do concreto à compressão (fck). Um concreto concreto classe C30, por exemplo, corresponde a um concreto com fck = 30 Mpa (Mpa = 106Pa). Pascal (unidade) O Pascal (símbolo: Pa) é a unidade padrão de pressão e tensão no SI. Equivale a força de 1N aplicada uniformemente sobre uma superfície de 1m2 (fonte: Wikipédia). Dados (MPa): 31.04 31.11 39.56 24.83 36.97 34.86 29.44 Ax = 33.76 39.15 27.82 34.96 35.19 39.68 34.27 sA = 4.665 A empresa afirma que o processo tem variabilidade de 2 = 25MPa2, construir um intervalo de confiança 95% (nível de significância = 0.05) para a resistência à compressão média. Estatística: 1;0~ / N n X A AA Encontrar a e b tais que: 95.0 baP A 95.096.1 / 96.1 A AA n X P 95.096.196.1 A AA A n X n P 95.096.196.1 A AA A A n X n XP Substituindo os valores da média amostral e tamanho da amostra 95.0 13 5 96.176.33 13 5 96.176.33 AP 95.048.3604.31 AP Ou seja: 04.31 13 5 96.176.33 a MPa 48.36 13 5 96.176.33 b MPa Logo, ( 31.04, 36.48 ) é um I.C. 95% para A. Interpretação: o intervalo (31.04 ; 36.48) tem probabilidade 0.95 (95%) de englobar o real valor da média A. 6.2.2. Intervalo de confiança para a média com variância desconhecida Seja uma aa X1, X2, . . . , Xn, com média e variância 2 desconhecida. No caso da variância ser desconhecida devemos utilizar sua estimativa dada pela variância amostral s2, porém, nesse caso a distribuição associada à média amostral X não será mais a normal. Resultado: a estatística ns X / tem distribuição t – Student com )1( n graus de liberdade, ou seja 1~ / nt ns X Notas: 1) A razão ns X / pode ser escrita como: sn X ns X // 1 )1,0( 1 /)1( / 2 1 22 n N n sn n X n Ou seja, a distribuição t-Student é dada pela razão de uma )1,0(N por 2 uma dividida pelos seus graus de liberdade. 2) Assim com a normal padronizada a distribuição t – Student tem formato de sino, ou seja, é simétrica em torno do zero, porém, para graus de liberdade pequenos a moderados suas caudas são mais “pesadas”. 3) Se uma va T tem distribuição t – Student com k graus de liberdade, então: 0)( TE e 2 )( k k TVar 4) Quando os graus de liberdade crescem, a distribuição t – Student se aproxima da )1,0(N . 5) A distribuição t – Student com 1 grau de liberdade é conhecida como distribuição de Cauchy. Para construir um I.C. para a quando é desconhecida, devemos proceder como nos casos anteriores, porém substituindo a distribuição normal padrão pela t-Student, ou seja: )1( / 2/1);1(2/);1( nn t ns X tP )1(2/1);1(2/);1( n s tX n s tP nn )1(2/);1(2/1);1( n s tX n s tXP nn Como 2/);1(2/1);1( nn tt , temos: )1(2/);1(2/);1( n s tX n s tXP nn Logo, um intervalo de confiança (1 – )100% para , com 2 desconhecido, é dado por n s tX n s tX nn 2/);1(2/);1( ; Exemplo 2: No caso dos testes de compressão em amostras de concreto, o gerente da companhia, desconfiando de que a informação a respeito da variância não seja verdadeira, refez os cálculos estimando a variância do processo por s2. Como o procedimento de cálculo é o mesmo, basta substituir o valor do quantil da normal (Z0.025 = 1.96) pelo quantil das distribuição t – Student com (n – 1) = 12 graus de liberdade. Como 13An , então 1788.2025.0;122/);1( tt n Com Ax = 33.76 e sA = 4.665 refazendo os cálculos temos que 94.30 13 665.4 1788.276.33025.0);1( A A AA n s tx n MPa 58.36 13 665.4 1788.276.33025.0);1( A A AA n s tx n MPa Portanto, ( 30.94 , 36.58 ) é um IC 95% para A para o caso em que a variância é desconhecida Interpretação: é mesma do caso anterior, porém, agora a variância é desconhecida. 6.2.3. Intervalo de confiança (1 – )100% para a proporção Como a proporção p é de fato a média amostral de uma aa cuja va tem distribuição de Bernoulli(p), para se construir intervalos de confiança para p devemos seguir os mesmos procedimentos anteriores. Considerando que o estimador da proporção pˆ tem valor esperado p e variância n pp )1( , dada a distribuição n pp pp )1( ˆ )1;0(N , um I.C. (1 – )100% para a proporção é dado por: n pp zp )1( ˆ 2/ ; n pp zp )1( ˆ 2/ . Exemplo 3: Nos testes de compressão em amostras de concreto, se a empresa afirma que 90% da produção atende ao valor do fck = 30Mpa, construir um I.C. de 95% ( = 0.05) para a proporção de corpos de provas com fc abaixo de fck. Dos 13 corpos de prova os valores 24.83, 29.44 e 27.82 são menores do que o fck de 30Mpa. Então, 231.0 13 3 ˆ p Considerando que p = 0.10: 0679.0 13 90.010.0 96.1231.0 )1( ˆ 2/ n pp zp 3941.0 13 90.010.0 96.1231.0 )1( ˆ 2/ n pp zp Ou seja: 95.03941.00679.0 pP Portanto, ( 0.0679 ; 0.3941 ) é um I.C. 95% para p. Interpretação: o intervalo (0.0679 ; 0.3941) tem probabilidade 0.95 (95%) de englobar o real valor do parâmetro p. Nota: Como normalmente não conhecemos p, podemos construir intervalos de confiança para a proporção substituindo p e (1 – p) por pˆ e )ˆ1( p , respectivamente. Neste caso o intervalo fica: n pp zp )ˆ1(ˆ ˆ 2/ ; n pp zp )ˆ1(ˆ ˆ 2/ . Outra possibilidade seria considerar o fato de 4/1)1( pp e construir um intervalo conservador para p assumindo p = ½. Neste caso: nn pp 4 1)1( Logo, o intervalo de confiança conservador para p será n z p 4 ˆ 2/ ; n z p 4 ˆ 2/ . Considerando = 0.05, então, I.C.’s 95% para p, nos casos acima serão dados por: i) utilizando pˆ : n pp p )ˆ1(ˆ 96.1ˆ ; n pp p )ˆ1(ˆ 96.1ˆ ii) conservador p ½: n p 4 96.1 ˆ ; n p 4 96.1 ˆ O procedimento em (ii) fornece intervalos de confiança excessivamente grandes quando p se distancia de ½ ( 0p ou 1p ) (Bussab & Moretin, 2002). Para a utilização do intervalo conservador, portanto, devemos ter algum conhecimento do valor p, garantindo que seu valor esteja próximo de ½. Exemplo: No exemplo do teste de compressão em concretos temos 231.0 13 3 ˆ p , logo i) utilizando pˆ : 0019.0 13 769.0231.0 96.1231.0 )ˆ1(ˆ ˆ 2/ n pp zp 4601.0 13 769.0231.0 96.1231.0 )ˆ1(ˆ ˆ 2/ n pp zp Portanto, ( 0.0019 ; 0.4601 ) é um I.C. 95% para p. ii) conservador p ½: 0408.0 52 96.1 231.0 4 ˆ 2/ n z p (< 0 !!) 5028.0 52 96.1 231.0 4 ˆ 2/ n z p Portanto, ( – 0.0408 ; 0.5028 ) é um I.C. 95% conservador para p. Note que no intervalo acima o limite inferior é negativo, consequência da utilização da máxima variância de p e do fato de que a proporção a ser estimada está longe do valor ½. Nota: usualmente, nestes casos, arredondamos o limite inferior para 0 (zero), porém, o mais indicado é a utilização da estimativa pˆ . Forma simplificada de representação: i) Média com variância conhecida: n zX 2/ ii) Média com variância desconhecida: n s tX n 2/);1( iii) Proporção: n pp zp )ˆ1(ˆ ˆ 2/ Exemplos: 1) Um provedor de acesso à internet deseja implantar um plano sem limite de horas. Para isso, verificou numa amostra de n = 25 usuários os tempos de utilização mensal, obtendo: média amostral 826.x horas. Sabendo que 2 = 6.25 horas 2 : a) Encontre um intervalo de confiança 90% para a média. b) De quanto deve ser aumentado o tamanho da amostra para que, mantidas as demais medidas, o comprimento do intervalo caia pela metade? 2) Observou-se a estatura de 20 recém-nascidos num hospital conforme dados abaixo. Pesquisas anteriores indicam que a estatura média das crianças nascidas neste hospital é de µ = 51 cm. Dados: x = 987 e x 2 = 48845.25 a) Qual a probabilidade de que a estatura média da amostra não ultrapasse 50.20 cm? b) Construa um I.C. 99% para a média. 3) 10 corpos de provas foram submetidos a um teste de corrosão onde foram submersos em água salgada durante 60 segundos/dia. A corrosão foi medida pela perda de peso em miligramas/decímetro quadrado/dia (MDD). Os dados obtidos foram: 130.1 124.2 122.0 110.8 113.1 103.9 101.5 92.3 91.4 83.7 a) Encontre estimativas para a média e variância para a perda de peso em MDD. b) Construa um intervalo de 95% de confiança para a média. c) Supondo que a verdadeira média seja = 110, calcule a probabilidade de que X seja superior ao máximo valor da amostra considerando: i) desvio padrão conhecido = 16; ii) desvio padrão desconhecido. 6.3. Intervalo de Confiança para a diferença entre as médias de duas populações independentes com variâncias desconhecidas Sejam duas populações A e B cujas médias são A e B e variâncias 2 A e 2 B , respectivamente. Um estimador não viciado para )( BA é dado pela estatística BA XX e sua distribuição amostral é obtida conforme três diferentes situações: i) Populações independentes com variâncias conhecidas; ii) Populações independentes com variâncias desconhecidas, porém, iguais; iii) Populações independentes com variâncias diferentes e desconhecidas. Figura: Populações normais. 6.3.1. Intervalo de confiança para a diferença entre as médias de duas populações independentes com variâncias iguais e conhecidas Seja uma aa de tamanho An , retirada da população A e uma aa de tamanho Bn retirada da população B, independentes. Considerando que as variâncias 2 A e 2 B sejam ambas conhecidas, temos que: AA AA n X / e BB BB n X / são )1,0(N Da teoria da probabilidade temos que BABA XXE e B B A A BA nn XXVar 22 Logo, para o caso em que as variâncias 2 A e 2 B são conhecidas, a distribuição amostral associada à estatística BA XX é dada por: B B A A BABA nn XX 22 )1,0(N Observe que a variável padronizada tem expressão similar aos casos anteriores, ou seja, a diferença entre a va e sua média, dividida pelo seu desvio padrão. Podemos, assim, construir um I.C. para BA a partir de )1(2/1222/ z nn XX zP B B A A BABA . Ou seja, um I.C. (1 – )100% para BA considerando amostras independentes e variâncias conhecidas é dado por: B B A A BA nn zXX 22 2/ ; B B A A BA nn zXX 22 2/ . Nota: para simplificar a notação pode-se escrever: BAd : diferença entre as médias das populações A e B; BAd XXX : diferença entre as médias amostrais de A e B; B B A A d nn 22 2 : variância da diferença entre AX e BX . Desta forma: d dd X )1,0(N . E o I.C. fica: dd 2/zX . Exemplo 4: Considere que no exemplo com os testes de compressão em amostras de concretos, além da A uma segunda marca B tenha sido avaliada com o intuito de que fossem comparadas. Dados (MPa): A 31.04 31.11 39.56 24.83 36.97 34.86 29.44 39.15 Ax = 33.76 27.82 34.96 35.19 39.68 34.27 As = 4.665 B 27.91 40.94 39.25 37.42 32.16 34.29 38.69 21.21 Bx = 33.08 29.30 29.21 33.76 32.71 31.91 34.10 33.34 Bs = 5.017 a) Sabendo que as empresas afirmam que ambos os processos têm variabilidade 2 = 25MPa2, construir um I.C. para a diferença entre as médias das duas marcas. Solução: a) Como 222 BA então: BA BABA BA BABA nn XX nn XX 11 Logo, um I.C. 95% para BA é dado por: BA BA nn zXX 11 2/ ; BA BA nn zXX 11 2/ . Ou seja: BA BA nn zXX 11 2/ 15 1 13 1 596.108.3376.33 Portanto ( –3.034 , 4.394 ) é um I.C. 95% para BA . 6.4. Intervalo de Confiança para a diferença entre as médias de duas populações independentes com variâncias iguais e desconhecidas Sejam duas populações A e B cujas médias são A e B e variâncias desconhecidas, porém iguais, ou seja, 222 BA Nesse caso, contudo, tanto 2 As como 2 Bs estimam 2 , logo, podemos utilizar as informações de ambas as amostras para estimar a variância populacional. O que se faz, na prática, é combinar as somas de quadrados das duas variâncias amostrais e dividir pelos graus de liberdade total, ou seja 22 1 )1()( AAAA A snxx n i i )1( An = g.l. de 2 As 22 1 )1()( BBBB B snxx n i i )1( Bn = g.l. de 2 Bs que combinadas, resultam em 2 )1()1( )1()1( )()( 22 2 1 2 12 BA BBAA BA BBAA BA nn snsn nn xxxx s n i i n i i p A variância combinada 2 ps (ou pooled), nada mais é do que uma variância ponderada pelos graus de liberdade das duas amostras: 2 )1()1( 222 BA BBAA nn snsn sp . Assim como 2 As e 2 Bs , 2 ps é um estimador não viesado para 2 . Prova: 2 )1()1( 222 BA BBAA nn sEnsEn sE p 2 )1()1( 22 BA BA nn nn 2 2 )11( BA BA nn nn 2 Pelo fato de 2 ser desconhecida, temos que AA AA ns X / 1An t e BB BB ns X / 1Bn t . Como temos um estimador comum para a variância populacional, podemos derivar uma distribuição de probabilidade para BA XX . Padronizando a diferença entre as médias amostrais teremos: BA BABA BA BABA nn s XX n s n s XX p pp 1122 Resultado: BA BABA nn s XX p 11 2 BA nn t Um I.C. (1 – )100% para BA , quando as variâncias são iguais e desconhecidas, é dado por: BA BA BA nn stXX pnn 11 2/);2( Exemplo 5: Construir um I.C. 95% para a diferença entre as resistências médias à compressão em concretos feitos com cimentos das marcas A e B, considerando variâncias iguais e desconhecidas. (você acha válida a suposição de variâncias iguais?) Ax = 33.76 Bx = 33.08 As = 4.665 Bs = 5.017 An = 13 Bn = 15 597.26 26 5307.613 21513 )017.5(14)665.4(12 222 ps 8577.4ps 2.0555 025.0;262/);2( tt nn BA Logo, um I.C. 95% para BA é dado por: BA BA nn stXX p 11 025.0;26 15 1 13 1 8577.40555.208.3376.33 Portanto ( –3.105 , 4.465 ) é um I.C. 95% para BA considerando variâncias iguais e desconhecidas. 6.5. Intervalo de Confiança para a diferença entre as médias de duas populações independentes com variâncias diferentes e desconhecidas Sejam duas populações A e B cujas médias são A e B e variâncias diferentes e desconhecidas, 2 A e 2 B . Com 2 A e 2 B diferentes e desconhecidas, devemos utilizar suas estimativas 2 As e 2 Bs individualmente e, nesse caso, a distribuição da estatística utilizada, apesar de continuar sendo a t-Student, não tem mais os graus de liberdade obtidos diretamente, como nos casos anteriores, isto é t n s n s XX ~ 22 B B A A BABA , em que os graus de liberdade são dados por: 1 / 1 / 2222 2 22 B BB A AA B B A A n ns n ns n s n s Logo, um I.C. (1 – )100% para BA , quando as variâncias são diferentes e desconhecidas, é dado por: B B A A BA n s n s tXX 22 2/; . Exemplo 6: Com os dados de resistências à compressão em concretos com cimentos das marcas A e B, considerando variâncias iguais e desconhecidas. Ax = 33.76 Bx = 33.08 As = 4.665 2 As = 21.759 Bs = 5.017 2 Bs = 25.174 An = 13 Bn = 15 43464.0 23614.11 115 15/174.25 113 13/759.21 15 174.25 13 759.21 22 2 2686.25 Nota: Os graus de liberdade não precisam ser valores inteiros. De fato, 2.056071 025.0;86.25 t (pelo R). Enfim, um I.C. 95% para BA é dado por: B B A A BA n s n s tXX 22 025.0;26 15 174.25 13 759.21 0555.208.3376.33 Portanto ( –3.084 , 4.444 ) é um I.C. 95% para BA considerando variâncias diferentes e desconhecidas. Resumindo: Variâncias Estatística I.C. 95% p/ BA Variâncias conhecidas B B A A BABA nn XX 22 )1,0(N (–3.034 , 4.394) Variâncias desconhecidas e iguais BA ABA B nn s XX p 11 2 BA nn t (–3.105 , 4.465) Variâncias desconhecidas e diferentes t n s n s XX ~ 22 B B A A BABA (–3.084 , 4.444) 6.6. Intervalo de Confiança para a diferença entre duas proporções em populações independentes Considere que se queira estimar a diferença entre duas proporções 1p e 2p , associadas a duas populações independentes. Então, um estimador não viesado para a diferença )( 21 pp é dado por )ˆˆ( 21 pp . Sabendo que 1pˆ 1 11 1 )1( , n pp pN e 2pˆ 2 22 2 )1( , n pp pN Então: )ˆˆ( 21 pp 2 22 1 11 21 )1()1( ,)( n pp n pp ppN Desta forma, um I.C. (1 – )100% para )( 21 pp é dado por 2 22 1 11 2/21 )ˆ1(ˆ)ˆ1(ˆ )ˆˆ( n pp n pp zpp Exemplo 7: Um grupo de biólogos interessados em estudar populações de animais em regiões isoladas por longas distâncias estão avaliando o desenvolvimento de peixes de uma determinada espécie em duas lagoas separadas por uma grande distância geográfica. Numa amostra de 116 peixes da primeira lagoa, 84 são da espécie em questão, enquanto que, de uma amostra de 80 peixes da outra lagoa, 45 são da espécie estudada. Estimar a diferença entre as proporções de peixes das duas lagoas e construir um I.C. 90% para a diferença. As estimativas individuais para 1p e 2p são: 724.0 116 84 ˆ1 p 575.0 80 46 ˆ2 p Então, uma estimativa para a diferença entre 1p e 2p é dada por 149.0575.0724.0ˆˆ 21 pp e, a estimativa do desvio padrão da diferença 04777.0 80 425.0575.0 116 276.0724.0 . Logo, um I.C. 90% para a diferença entre as proporções é dado por 04777.0645.1149.0 , ou seja, ( 0.0353 , 0.2627 ) é o I.C. 90% para )( 21 pp . O que se pode concluir? 6.7. Intervalo de Confiança para a variância 2 de uma população normal Considere uma população normal com média e variância 2 , ambas desconhecidas. Em muitas aplicações práticas temos o interesse em avaliar a variabilidade dos fenômenos em estudo. Nessa situação, devemos estimar e, também, construir intervalos de confiança para a variância populacional. Considerando que a população seja normal, temos que 2 2)1( sn 2 1n Desta forma, a partir da distribuição 2 1n podemos construir I.C.’s para 2 a partir de seus quantis: )1( )1( 2 2/1);1(2 2 2 2/);1( nn sn P )1( )1( 1 )1( 2 2 2/1);1( 22 2 2/);1( snsn P nn )1( )1()1( 2 2/);1( 2 2 2 2/1);1( 2 nn snsn P a b 2 2/1);1( 2)1( n sn a e 2 2/);1( 2)1( n sn b . Desta forma, um I.C. (1 – )100% para 2 é dado por: 2 2/1);1( 2)1( n sn ; 2 2/);1( 2)1( n sn . Exemplo 8: O peso de um componente mecânico é uma va com distribuição normal com média e variância 2 , desconhecidos. Pretende- se estudar a variabilidade do processo de produção e, para isso, uma amostra com n = 11 componentes foi avaliada. Os pesos (g) são dados 98 97 102 100 98 101 102 105 95 102 100 1100 x e 1100802 x . Portanto: 100 11 1100 x g 8 10 )100(11110080 22 s g 2. Construir um I.C. 95% para a variância populacional ( = 0.05). 25.32 025.0;10 e 48.202 975.0;10 906.3 48.20 810)1( 2 2/1);1( 2 n sn a 615.24 25.3 810)1( 2 2/);1( 2 n sn b Um I.C. 95% para 2 é dado por ( 3.906 , 24.615 ). 6.8. Intervalo de Confiança para razão entre duas vriâncias de populações normais É muito comum, em aplicações estatísticas, precisarmos comparar as variâncias de duas populações, como, por exemplo, quando comparamos a média dessas populações. A comparação de duas variâncias não é feita pela diferença entre elas, mas sim pela razão das mesmas. Resultado: Seja 1W 2 1k e 2W 2 2k , prova-se facilmente que a razão 2 2 1 1 k W k W F 21;kk F A razão de duas va independentes, com distribuição quiquadrado, divididas pelos seus respectivos graus de liberdade (k1 e k2), tem distribuição F de Snedecor, em que k1 são os graus de liberdade do numerados e k2 os graus de liberdade do denominador. Notas: i) Se X kt , então 2X kF ,1 . Prova: Sai direto do resultado (1) da distribuição t-Student. ii) Existe uma relação entre os quantis das distribuições F, de forma que 1;; ;; 12 21 1 kk kk F F Sejam duas populações normais com variâncias 2 1 e 2 2 e sejam 2 1s e 2 2s seus estimadores a partir de amostras de tamanho 1n e 2n , então )1( /)1( )1( /)1( 2 2 2 2 22 1 2 1 2 11 n sn n sn F 1;1 21 nn F Mas a razão F acima pode ser simplificada por: 2 2 2 1 2 1 2 2 2 2 2 2 2 1 2 1 s s s s F 1;1 21 nn F Logo, um I.C. para razão entre duas variâncias é construído a partir de: )1(22 2 2 1 2 1 2 2 1 f s s fP em que: 2/);1();1(1 21 nnFf e 2/1);1();1(2 21 nnFf . )1( 2 1 2 2 22 1 2 2 2 1 2 2 1 s s f s s fP Portanto, escrevendo o resultado para 2 2 2 1 , um I.C. (1 – )100% para a razão de variâncias é dado por: )1( 2 21 2 1 2 2 2 1 2 22 2 1 sf s sf s P Ou seja, o intervalo para a razão entre duas variâncias de populações normais é definido por: 2/1);1();1( 2 2 2 1 21 nn Fs s ; 2/);1();1( 2 2 2 1 21 nn Fs s . Nota: O intervalo é construído de forma que 2 2 2 1 s s seja maior do que 1. Exemplo 9: Construir um I.C. 95% para a razão entre as variâncias da resistência à compressão em concretos dos cimentos das marcas A e B. 2 As = 21.759 2 Bs = 25.174 An = 13 Bn = 15 Com 1 2 2 A B s s , 3279.0025.0;12;14 F e 2062.3975.0;12;14 F . 3608.0 2062.3759.21 174.25 975.0;12;14 2 2 Fs s A B 5284.3 3279.0759.21 174.25 025.0;12;14 2 2 Fs s A B Assim, um I.C. 95% para 2 2 A B é dado por ( 0.3608 , 3.5284 ). Estatística 2 Exercícios – Intervalos de Confiança 1. Deseja-se comparar a qualidade de um produto produzido por duas indústrias. Essa qualidade será definida pela uniformidade com que o produto é produzido. Tomaram-se duas amostras, uma de cada indústria, medindo-se o tamanho dos produtos (cm). a) A qualidade das duas fábricas é a mesma? Caso a sua resposta seja negativa, dê um intervalo de confiança para indicar a intensidade dessa desigualdade. b) Construir um I.C. 99% para a diferença entre as médias, ( BA ) Estatísticas Indústria A Indústria B Tamanho da Amostra 21 17 Médias 21.15 21.12 Variâncias 0.0412 0.1734 2. Num estudo comparativo do tempo médio de adaptação dos empregados de um grande complexo bancário, uma amostra aleatória, de 50 homens e 50 mulheres, produziu os seguintes resultados: Estatísticas Homens Mulheres Tamanho da Amostra 50 50 Médias 3.2 anos 3.7 anos Desvios-padrões 0.8 anos 0.9 anos Que conclusões você pode tirar para a população de homens e mulheres desse banco? (Indique quais as suposições feitas) 3. Suponha que uma associação de defesa de consumidores deseja estimar o consumo médio um novo modelo de automóvel que será lançado no mercado. Para fazer esta verificação, a associação observa uma amostra de 10 veículos, conduzidos por motoristas treinados, num percurso de 100 milhas. O consumo, em galões, foi registrado com os seguintes resultados: 28.43 x e 4886.1882 x Assumindo que estes valores representam uma amostra aleatória de uma variável normalmente distribuída com média e variância 2 . a) Calcule estimativas pontuais para e 2 . b) Calcule um intervalo de 75 % de confiança para 2 . 4. Os dados abaixo são uma amostra aleatória para estimar a proporção estudantes de uma universidade que possuem automóvel. Foi construído o intervalo conservador de 90% de confiança para p : ( 0.5555 ; 0.8845 ) Um segundo intervalo foi construído considerando a normalidade de pˆ : ( 0.4887 ; 0.9513 ) a) Qual é a estimativa pontual para pˆ ? b) Qual é o tamanho da amostra? c) Qual o nível de confiança do segundo intervalo 5. Da população X Normal(50; 100) retirou-se uma aa de n = 10 elementos e da população Y Normal(60; 100) retirou-se uma aa de m = 6 elementos, independente da primeira, obtendo-se as variâncias amostrais 2 1s e 2 2s , respectivamente. a) Encontre o valor de a, tal que 95.02221 assP b) Encontre o valor de b, tal que 95.02221 bssP 6. Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto à política salarial é por meio do desvio padrão de seus salários. A Fábrica A diz ser mais coerente na política salarial do que a Fábrica B. Para verificar essa afirmação, sorteou-se uma amostra de 10 funcionários não especializados de A, e 15 de B, obtendo-se os desvios padrões 1000As reais e 1600Bs reais. Qual seria a sua conclusão? Resolução: 1. Deseja-se comparar a qualidade de um produto produzido por duas indústrias. Essa qualidade será definida pela uniformidade com que o produto é produzido. Tomaram-se duas amostras, uma de cada indústria, medindo-se o tamanho dos produtos (cm). a) A qualidade das duas fábricas é a mesma? Caso a sua resposta seja negativa, dê um intervalo de confiança para indicar a intensidade dessa desigualdade. 21An 17Bn 15.21Ax 12.21Bx 0412.02 As 1734.02 Bs I.C. 95% para 2 2 A B : Limite inferior: 652.1 547.20412.0 1734.0 0412.0 1734.0 975.0;20;16 F Como 3731.0 68.2 11 975.0;16;20 025.0;20;16 F F Limite superior: 280.11 3731.00412.0 1734.0 0412.0 1734.0 025.0;20;16 F O intervalo ( 1.652 ; 11.283 ) é um intervalo de confiança 95% para 2 2 A B . Como o intervalo não engloba o valor 1, então, temos evidências suficientes para afirmar que 22 BA . Logo, a qualidade das duas indústrias não é a mesma. A indústria A, com menor variabilidade, tem melhor qualidade. b) I.C. 99% para ( BA ) considerando variâncias diferentes. 1 / 1 / 2222 2 22 B BB A AA B B A A n ns n ns n s n s 221.22 16 17/1734.0 20 21/0412.0 17 1734.0 21 0412.0 22 2 gl 005.02/ 8188.2005.0;22 t B B A A BA n s n s txx 22 005.0;22)( 17 1734.0 21 0412.0 8188.203.0 ( –0.281 ; 0.341 ) é o I.C. 99% para a diferença entre as médias de tamanhos dos produtos das indústrias A e B. 2. Num estudo comparativo do tempo médio de adaptação dos empregados de um grande complexo bancário, uma amostra aleatória, de 50 homens e 50 mulheres, produziu os seguintes resultados: Que conclusões você pode tirar para a população de homens e mulheres desse banco? (Indique quais as suposições feitas) A qualidade das duas fábricas é a mesma? (comparar as variâncias) 50Hn 50Mn anosxH 2.3 anosxM 7.3 anossH 8.0 anossM 9.0 I.C. 95% para 2 2 H M : Limite inferior: 7182.0 7622.164.0 81.0 )8.0( )9.0( 975.0;49;49 2 2 F Limite superior: 2302.2 5675.064.0 81.0 )8.0( )9.0( 025.0;49;49 2 2 F O intervalo ( 0.7182 ; 2.2302 ) é um intervalo 95% para 2 2 H M . Como o intervalo engloba o valor 1, então, não temos evidências suficientes para afirmar que as variâncias são diferentes. I.C. 90% para a diferença entre os tempos médios de adaptação entre homens e mulheres, com variâncias iguais. 2 )1()1( 222 HM HHMM p nn snsn s 725.0 98 81.04964.0492 ps 05.02/ 6606.105.0;98 t H p M p HM n s n s txx 22 05.0;98)( 50 725.0 50 725.0 6606.1)2.37.3( ( 0.2172 ; 0.7828 ) é o I.C. 90% para a diferença entre os tempos médios de adaptação de entre mulheres e homens. O intervalo não engloba o zero, portanto, temos evidências suficientes para afirmar que os homens têm um tempo de adaptação menor do que as mulheres. Suposições: Normalidade dos tempos de adaptação de homens e mulheres 3. Suponha que uma associação de defesa de consumidores deseja estimar o consumo médio um novo modelo de automóvel que será lançado no mercado. Para fazer esta verificação, a associação observa uma amostra de 10 veículos, conduzidos por motoristas treinados, num percurso de 100 milhas. O consumo, em galões, foi registrado com os seguintes resultados: 28.43 x e 4886.1882 x Assumindo que estes valores representam uma amostra aleatória de uma variável normalmente distribuída com média e variância 2 . a) Calcule estimativas pontuais para e 2 . 328.4 10 28.43 ˆ x 13031.0 9 17276.1 )110( )328.4(104886.188 ˆ 2 22 s b) Calcule um intervalo de 75% de confiança para 2 . )25.0( 507.4125.0;9 e 926.13875.0;9 Limite inferior: 0842.0 926.13 17276.1)1( 875.0;9 2 sn Limite superior: 2602.0 507.4 17276.1)1( 125.0;9 2 sn I.C. 75% para a variância 2 é dado por: ( 0.0842 ; 0.2602 ) 4. Os dados abaixo são uma amostra aleatória para estimar a proporção estudantes de uma universidade que possuem automóvel. Intervalo conservador de 90% de confiança para p : ( 0.5555 ; 0.8845 ) Intervalo considerando a normalidade de pˆ : ( 0.4887 ; 0.9513 ) a) E pontual para pˆ ? (ponto médio dos intervalos) 72.0 2 9513.04887.0 2 8845.05555.0 ˆ p b) Qual é o tamanho da amostra? Sabe-se que o tamanho do I.C. 90% conservador é dado por: 72.05555.0 4 1 05.0 n Z 1645.0 4 645.1 n 104 n 25n c) Qual o nível de confiança do segundo intervalo 9513.0 25 )ˆ1(ˆ 72.0 2/ pp Z 575.2 28.072.0 )72.09513.0(5 2/ Z O nível de confiança do I.C. é 99.0)1( ou 99%. 5. Da população X Normal(50;100) retirou-se uma aa de n = 10 elementos e da população Y Normal(60;100) retirou-se uma aa de m = 6 elementos, independente da primeira, obtendo-se as variâncias amostrais 2 1s e 2 2s , respectivamente. a) Encontre o valor de a, tal que 95.02221 assP Obs: 10022 2 1 2 2 2 2 2 1 2 1 s s 1;1 mnF 2 2 2 1 s s 5;9F 95.02221 assP 772.495.0;5;9 Fa b) Encontre o valor de b, tal que 95.02221 bssP Da relação entre as distribuições F’s 2872.0 482.3 11 95.0;9;5 05.0;5;9 F F 95.02221 bssP 2872.005.0;5;9 Fb 6. Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto à política salarial é por meio do desvio padrão de seus salários. A Fábrica A diz ser mais coerente na política salarial do que a Fábrica B. Para verificar essa afirmação, sorteou-se uma amostra de 10 funcionários não especializados de A, e 15 de B, obtendo-se os desvios padrões 1000As reais e 1600Bs reais. Qual seria a sua conclusão? O grau de satisfação com o salário é o mesmo nas duas fábricas? (comparar as variâncias) 10An 15Bn 1000As 1600Bs 62 101As 62 1056.2 Bs Construir um I.C. 95% para 2 2 A B e verificar se engloba o valor 1: Limite inferior: 6740.0 7980.3101 1056.2 6 6 975.0;9;14 2 2 Fs s A B Como 3116.0 209.3 11 975.0;14;9 025.0;9;14 F F Limite superior: 2157.8 3116.0101 1056.2 6 6 025.0;9;14 2 2 Fs s A B I.C. 95% para 2 2 A B : ( 0.6740 ; 8.2157 ) O I.C. engloba o valor 1, portanto, não há evidências para sustentar a afirmação da Fábrica A. 7. Testes de Hipótese Muitas vezes, em problemas práticos, o objetivo principal do pesquisador não é a estimação em si, mas sim, fazer afirmações a respeito do(s) parâmetro(s). Exemplos: a) Pesquisadores afirmam que a temperatura média do corpo é 98.6F (37C). Uma amostra de n = 106 indivíduos foi escolhida aleatoriamente e foram observadas 20.98x F e s = 0.62F. Pergunta: A amostra constitui evidência suficiente para rejeitar a crença de que = 98.6F ? b) Um operador de uma máquina de empacotar cereais, monitora o peso das caixas pesando um determinado número de caixas periodicamente. A norma diz que a máquina deve continuar operando a menos que a amostra indique que a máquina não esteja funcionando normalmente. Neste caso, a máquina deve ser desligada e ajustada. A condição requerida para a máquina continuar funcionando é que = 453 g. Nota: O operador, neste caso, não está interessado em estimar , mas sim determinar se há evidência suficiente na amostra para concluir que 453 g. c) Um grande pomar de maçãs deve ser pulverizado toda primavera contra certa doença que ataca as folhas. No ano anterior, o administrador do pomar pulverizou todas as árvores com o herbicida padrão utilizado na indústria frutífera. O administrador irá utilizar o mesmo herbicida, a menos que ele tenha evidência de que a proporção p de árvores infectadas seja inferior a 10%. Se ele estiver convencido de que p < 0.10, então irá utilizar um herbicida mais barato, mas que é sabido ser menos eficiente. Para auxiliar na sua decisão, o administrador selecionou aleatoriamente uma amostra de árvores do pomar. Se a amostra trouxer evidência suficiente para o administrador de que p < 0.10, então ele irá utilizar o herbicida mais barato, caso contrário, se não houver evidência suficiente para concluir que p < 0.10, ele utilizará o herbicida padrão. Nota: O administrador está basicamente interessado em determinar se a proporção de árvores infectadas é menor do que 10% (p < 0.10). Definição: Um teste de hipótese (ou teste estatístico) é um procedimento para se determinar se a evidência que uma amostra fornece é suficiente para concluirmos se o parâmetro populacional está num intervalo específico (GRAYBILL, IVER & BURDICK, 1998)1 (determinado pelo pesquisador). 7.1. Componentes de um Teste de Hipótese. i) Hipótese Nula e Hipótese Alternativa: para conduzir um teste de hipótese, vamos considerar duas afirmações a respeito do parâmetro as quais chamaremos de hipótese nula e hipótese alternativa. A hipótese nula, denotada por H0, é uma afirmação sobre o valor do parâmetro (p.ex. a média), e que deve sempre conter a condição de igualdade. Por exemplo, em testes de hipótese para a média tem-se: H0: = 0 H0: 0 H0: 0 “Testamos a hipótese nula, no sentido em que, supondo-a verdadeira, procuramos chegar a uma conclusão que nos leve à sua rejeição.” 1 GRAYBILL, F.; IVER, H.K. & BURDICK, R.K. - Applied Statistics, a first course in Inference, Prentice Hall, 1998. A hipótese alternativa, denotada por HA (ou H1), é a afirmação que deve ser verdadeira se a hipótese nula for falsa. Por exemplo: HA: 0 HA: < 0 HA: > 0 No exemplo da temperatura corporal podemos ter as hipóteses: Hipótese Nula: Hipótese Aternativa: H0: 6.98 HA: 6.98 teste unicaudal ou unilateral ou Hipótese Nula: Hipótese Aternativa: H0: 6.98 HA: 6.98 teste bicaudal ou bilateral A questão agora consiste em: como definir H0 e HA? Para se conduzir um teste de hipótese é importante que as hipóteses nula e alternativa sejam escolhidas corretamente. Esta escolha é de responsabilidade do pesquisador. Para a correta escolha de H0 e HA, apresentaremos duas situações em que testes de hipótese são realizados: a) Suponha que o pesquisador deseja testar uma situação pré- estabelecida ou uma afirmação alheia, então, este conhecimento (ou afirmação) deverá ser escolhido como a hipótese nula. Ex: temperatura corporal, controle do peso de caixas de cereais. b) Se o pesquisador deseja obter evidência para dar suporte a uma argumentação ou para apoiar uma afirmação sua, então, essa afirmação deve ser formulada de modo que se torne a hipótese alternativa. Ex: aplicação do herbicida na plantação de maçãs. ii) Erro Tipo I e Erro Tipo II: Ao testarmos uma hipótese chegamos a uma decisão (de rejeitar ou não H0) que pode ser correta ou incorreta. Ao concluirmos a favor, ou contra H0, estamos sujeitos a dois tipos de erros. Situação real H0 é verdadeira H0 é falsa Nossa Decisão Rejeitar H0 Erro Tipo I (Rejeitar H0, quando H0 é verdadeira) Decisão correta Não Rejeitar H0 Decisão correta Erro Tipo II (Não Rejeitar H0, quando H0 é falsa) Exemplo de erro do tipo I: Baseado no resultado Fx 2.98 , rejeitar a hipótese de que a temperatura média do corpo humano é = 98.6F, quando a média é de fato 98.6F. iii) Nível de significância do teste: a probabilidade de se rejeitar H0, quando H0 é verdadeira, é chamada de nível de significância do teste e será denotada por . verdadeiraéHHRejeitarPITipoErroP 00 | Nota: A probabilidade do Erro Tipo II será denotada por , isto é = falsaéHHrejeitarNãoPIITipoErroP 00 | iv) Estatística Teste: é a estatística amostral, cujo valor baseado nos dados será utilizado para a tomada de decisão a respeito da hipótese nula. Está associada à distribuição de probabilidade do estimador do parâmetro que se deseja testar. No teste para uma média utilizam-se as estatísticas Z ou t n X Z / )( , se a variância populacional é conhecida ns X t / )( , se a variância populacional não é conhecida v) Região de Rejeição: ou região crítica, é formada pelo conjunto de valores que levam à rejeição de H0. É subconjunto do espaço paramétrico . A região que não leva à rejeição de H0 será chamada de região de não rejeição. O valor que delimita a região de rejeição e a região de não rejeição será chamado de valor crítico. Região de rejeição para o teste unicaudal para a média (cauda inferior) Região de rejeição para o teste unicaudal para a média (cauda superior) Região de rejeição para o teste bicaudal para a média Nota: O teste de hipótese consiste em encontrar a região de rejeição de H0, o que equivale a construir intervalos de confiança. Concluindo: Um teste estatístico é conduzido para se determinar se a amostra traz evidência suficiente para se rejeitar H0 e, assim, concluir que HA é verdadeira. Ou seja, o teste estatístico é usado para se concluir a favor de HA ao se concluir que H0 pode ser rejeitada. Neste sentido, testar uma hipótese pode ser visto como “testar a hipótese nula”. Nós ilustraremos esse processo com o exemplo a seguir: Exemplo: Suponha que temos 1000 caixotes idênticos e que cada caixote tem 1000 bolas que são indistinguíveis exceto pela cor. O primeiro caixote fica numa prateleira e tem 1 bola branca e 999 pretas. Os demais caixotes ficam todos no chão e têm, respectivamente, 2 bolas brancas e 998 pretas; 3 brancas e 997 pretas, até o último que tem 1000 bolas brancas e nenhuma preta (ver figura) Um caixote foi danificado e levado a um inspetor, sendo informado que era um caixote que estava no chão. Decidindo investigar, o inspetor irá conduzir um teste estatístico para determinar se há evidência suficiente para concluir que a informação é verdadeira. Hipóteses: H0: O caixote danificado veio da prateleira HA: O caixote danificado veio do chão A evidência amostral para o teste será dada pela cor de uma bola selecionada aleatória do caixote danificado. Há duas possibilidades: a bola selecionada é branca ou a bola selecionada é preta 1ª. Possibilidade: a bola selecionada é branca Se o caixote danificado for da prateleira, a probabilidade da bola ser branca é de 1/1000 = 0.001. Essa probabilidade é muito pequena, portanto, a bola sendo branca indica que é improvável que o caixote danificado seja o da prateleira. No entanto, não seria improvável que a bola branca tenha sido selecionada de um dos caixotes do chão. Logo, tendo sido observada uma bola branca: “a evidência da amostra nos leva a rejeitar H0” 2ª. Possibilidade: A bola selecionada é preta: Se o caixote danificado for o da prateleira, a probabilidade da bola selecionada ser preta é 0.999. Essa probabilidade não é suficientemente pequena a ponto de tornar improvável que o caixote seja o da prateleira, não havendo razão para se rejeitar H0. No entanto, isso não significa que H0 seja verdadeira, uma vez que é também provável que a bola preta tenha vindo de uma das caixas do chão. Logo, tendo sido observada uma bola preta: “não há evidência suficiente na amostra para se rejeitar H0” Concluindo: a) Em um teste de Hipótese, se a evidência contida na amostra é suficiente para convencer o pesquisador de que a hipótese H0 é falsa, então, a hipótese alternativa HA será considerada verdadeira. Neste caso, o resultado do teste será “rejeita-se H0”. b) Por outro lado, se a evidência da amostra não é suficiente para convencer o pesquisador de que a hipótese H0 é falsa, o resultado do teste será “não se rejeita H0”. Importante: A decisão de “não se rejeitar H0” não significa que a evidência da amostra seja suficiente para concluirmos que H0 seja verdadeira. 7.2. Teste de Hipótese para uma média, com 2 conhecido 7.2.1. Teste unicaudal na cauda inferior: Hipóteses: 0A 00 μ μ :H μ μ :H A região de rejeição para o teste é dada pelo intervalo k; , ou seja, se o valor da média amostral X for inferior a constante k, então rejeitamos H0. Por outro lado, se o valor de X for superior a constante k, então não rejeitamos H0. Procedimento para o teste: fixa-se o nível de significância e calcula-se verdadeiraéHHRejeitarP 00 | verdadeiraéHRRXP 0|.. 0| kXP n k ZP n k n X P 000 A estatística teste será definida por: n X Z 0 que, pelo T.L.C., tem distribuição Normal com média 0 e variância 1. Desta forma, aZ n k 0 n Zk a 0 Assim sendo, se 0 0 H Rejeita seNãokX H seRejeitakX Uma forma mais apropriada para o teste de hipótese para a média consiste em calcular o valor observado da estatística teste, denotado por Z0, e compará-lo com o respectivo valor na escala padronizada. n x Z / )( 0 0 Desta forma, para o teste unilateral na cauda inferior, compara-se o valor observado da estatística teste com o percentil Z da distribuição normal padronizada. Se 0 0 H Rejeita seNãoZZ H seRejeitaZZ 0 0 Exemplo 1) Uma empresa imobiliária fez um levantamento do valor de mercado de 16 residências do vilarejo Águas Claras com a intenção de estabelecer negócios na nova região. Na sua região de origem, os valores dos imóveis
Compartilhar