Baixe o app para aproveitar ainda mais
Prévia do material em texto
Probabilidade Estatística - Professor: Hiron Pereira Farias 1 Inferência Estatística Seja X uma variável aleatória com função de densidade( ou de probabilidade) que abreviaremos por f.d.p. (f.p.) e que denotaremos por f(x|θ). Chamaremos de inferência estatística o problema que consiste em especificar um ou mais valores para θ , baseado em um conjunto de valores obser- vados de X. No caso de um problema de estimação, o objetivo é procurar, segundo algum critério especificado, valores que representem adequadamente os parâmetros desconhecidos. No caso de testes de hipóteses, o objetivo é verificar a validade de afirmações sobre o valor do parâmetro de- sconhecido. Por exemplo, quando o interesse é verificar se a proporção θ de eleitores de determindo candidato é igual a 50%, as hipóteses a serem testadas são H0 : θ = 0,5 versus H1 : θ 6= 0,5. 1.1 Definições importantes 1) O conjunto de valores de uma característica (observável) associada a uma coleção de indivíduos ou objetos de interesse é dito ser uma população. 2) Uma amostra aleatória simples (AAS) de tamanho n de uma variável aleatória X, com dada distribuição, é o conjunto de n variáveis independentes X1, X2, . . . , Xn, cada uma com a mesma distribuição de X. 3) As quantidades da população, em geral desconhecidas e sobre as quais temos interesse, são de- nominados parâmetros e geralmente denotados por letras gregas tais como θ, µ, σ2 entre outros. 4) O conjunto Θ em que θ toma valores é denominado espaço paramétrico. 5) Qualquer estatística que assuma valores em Θ é um estimador para θ. 6) Qualquer estatística que assuma valores somente no conjunto dos possíveis valores de g(θ) é um estimador para g(θ). 7) Qualquer função da amostra que não depende de parâmetros desconhecidos é denominada uma estatística. 8) À combinação dos elementos da amostra, construídos com a finalidade de representar, ou esti- mar, um parâmetro de interesse na população, denominamos estimador. Em geral, denotamos os estimadores por símbolos com acento circunflexo: θ̂, µ̂, σ̂2 e P̂ . Aos valores númericos assumi- dos pelos estimadores denominamos estimativas pontuais ou simplesmente estimativas. Notamos que um estimador, digamos θ, é uma função das variáveis aleatórias constituinte da amostra, isto é, θ̂ = f(X1, X2, . . . , Xn). Logo, um estimador também é uma variável aleatória. a correspondente distribuição de probabilidade formará a base das argumentações probabilísticas utilizadas na extrapolação da informação da amostra para os parâmetros da população. Os estimadores mais comuns são: X = X1 +X2 + . . .+Xn n = 1 n n∑ i=1 xi “ média amostra ”; S2 = 1 n− 1 n−1∑ i=1 (Xi −X)2 “ variância amostral ”. P̂ = Y n “ proporção amostral ”. em que, Y é uma variável aleatória que determina o número de elementos na amostra com a característica de interesse. 1.2 Propriedades dos Estimadores Uma propriedade desejável de um estimador é que ele esteja “ próximo", de alguma maneira do verdadeiro valor do parâmetro desconhecido. Formalmente, dizemos que θ̂ é um estimador não-viciado do parâmetro θ se E(θ̂) = θ. Isto é, θ̂ é um estimador não-viciado de θ se, "na média", seus valores forem iguais a θ. Note que isso é equivalente a se exigir que a média da distribuição amostral de θ̂ seja igual a θ. Se o estimador for viesado, então a diferença E(θ̂)− θ é denominada de Viés do estimador θ̂ . Muito embora seja desejável que uma estimativa seja não-viesada (ou tendenciosa), haverá ocasiões em que poderemos preferir estimativa tendênciosa. È possível encontrar mais de uma estimativa não tendenciosa para o parâmetro desconhecido. a fim de realizar a escolha plausível em tais situações, introduziremos o conceito. Definição: Seja θ̂ uma estimativa não tendenciosa de θ. Diremos que θ̂ é uma estimativa não- tendenciosa de variância mínima (ENTVM) de θ, se para todas as estimativas θ∗ tais queE(θ∗) = θ, tivermos V (θ̂) ≤ V (θ∗) para todo θ. Isto é, dentre todas as estimativas não-tendenciosas de θ, θ̂ tem a variância menor de todas. È possível obter um limite inferior para a variância de todos os estimadores não-viesados do parâmetro θ. Seja θ̂ um estimador não viciado do parâmetro θ, com base em uma amostra aleatória de n observações, e denote por f(x, θ) a distribuição de probabilidade da variável aleatória X. Então, o limite inferior da variância dos estimadores não viciados de θ é: LI(θ) = 1 nE [( ∂lnf(X|θ) ∂θ )2] Definição: SeX1, X2, . . . , Xn for uma amostra de tamanho n, proviniente de uma distribuição com média µ e variância σ2 , então a média da amostra, X , será o ENTVM para µ. Definição: O erro-padrão de um estimador θ̂ é o seu desvio-padrão, dado por σ̂θ̂ = √ V (θ̂). Se o erro-padrão envolver parâmetros desconhecidos que possam ser estimados, então a substituição daquele(s) valor(es) em σ̂θ̂ produzirá um erro padrão estimado, denotado por Sθ̂ ou e.p.(θ̂). Definição: O erro quadrático médio (EQM) de um estimador θ̂ do parâmetro θ é dado por EQM [θ̂] = E [ (θ̂ − θ)2] = E[θ̂ − E(θ̂) + E(θ̂)− θ]2 = E[(θ̂ − E(θ̂)) + (E(θ̂)− θ))]2 = E [ θ̂ − E(θ̂)]2 + E[E(θ̂)− θ)]2 − 2E(θ̂ − E(θ̂))(E(θ̂)− θ)) = V ar[θ̂] +B2(θ̂), em que B(θ̂) = E[θ̂]− θ é denominado o vício do estimador θ̂. Dizemos que um estimador θ̂ é não viciado para θ se E[θ̂] = θ, para todo θ ∈ Θ, ou seja B(θ̂)= 0, para todo θ ∈ Θ. No caso em que θ̂ é um estimador não viciado para θ, temos que EQM[ θ̂] = Var[ θ̂], ou seja, o erro quadrático médio de θ̂ reduz à sua variância. Definição: Chamamos de eficiência de um estimador θ̂, não viciado para o parâmetro θ, o quo- ciente e(θ̂) = LI(θ) V ar(θ̂) , onde LI(θ) é o limite inferior da variância dos estimadores não viciados de θ. e(θ)= 1 quando LI(θ)= Var(θ̂), ou seja, quando a variância de θ̂ coincide com o limite inferior da variância dos estimadores não viciados de θ. Nesse caso, θ̂ é dito ser eficiente. 1.3 O Método de Máxima Verossimilhança Definição: Sejam X1, X2, . . . , Xn uma amostra aleatória de tamanho n da variável aleatória X com função de densidade ( ou de probabilidade) f(x| θ), com θ ∈ Θ , onde Θ é o espaço paramétrico. A função de verossimilhança de θ correspondente à amostra aleatória observada é dada por L(θ;x) = m∏ j=1 f(xi|θ). Definição: O estimador de máxima verossimilhança de θ é o valor θ ∈ Θ que maximiza a função de verossimilhança L(θ; x). O logaritmo natural da função de verossimilhança de θ é denotado por l(θ; x)=ln L(θ; x). Não é dificil verificar que o valor de θ que maximiza a função de verossimilhança L(θ; x), também maximiza l(θ; x). 1.4 Verossimilhança para Amostras Independentes Existem situações em que temos duas ou mais amostras independentes de distribuições que dependem de um parâmetro θ de interesse. No caso de duas amostras aleatórias independentes, X1, X2, . . . , Xn e Y1, Y2, . . . , Yn, podemos escrever L(θ; x, y) = L(θ; x) L(θ; y), devido à independência entre as amostras. Portanto a verossimilhança conjunta é igual ao produto da verossimilhança correspondente à amostraX1, X2, . . . , Xn pela verossimilhança correspondente à amostra Y1, Y2, . . . , Yn. De modo que podemos escrever l(θ; x, y) = l(θ; x) + l(θ; y), de modo que o logaritmo da verossimilhança conjunta é igual ao produto da verossimilhanças correspondentes a cada uma das amostras. 1.5 Teorema Limite Central No que foi estudado até o presente momento, consideramos a distribuição amostral da média X , calculada em uma amostra cuja elementos são constituídos por variáveis aleatórias indepen- dentes e com distribuição normal. Na prática, muitas vezes não temos informações a respeito da distribuição das variáveis constituintes da amostra, o que nos impede de utilizar o resultado ap- resentado. Felizmente satisfeitas certas condições, pode ser mostrado que, para um tamanho de amostra suficientemente grande, a distribuição de probabilidade da média amostral pode ser aprox- imada por uma distribuição normal. Esse resultado, fundamental na teoria da Inferência Estatística,é conhecido como Teorema Limite Central. definição: Para amostras aleatórias simples (X1, X2, . . . , Xn), retiradas de uma população com média µ e variância σ2 finita, a distribuição amostral da média X aproxima-se, para n grande, de uma distribuição normal, com média µ e variância σ2 n . Esse resultado sugere que, quando o tamanho da amostra aumenta, independentemente da forma da distribuição da população, a distribuição amostral de X aproxima-se cada vez mais de uma distribuição normal. 1.6 Determinação do tamanho de uma amostra Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra, n, era conhecido e fixo. Podemos, em certas ocasiões, querer determinar o tamanho da amostra a ser escolhida de uma população, de modo a obter um erro de estimação previamente estipulado, com determinado grau de confiança. Suponha que estejamos estimando a média µ populacional e para tanto usaremos a média amostral, X , baseada numa amostra de tamanho n. Suponha que se queira determinar o valor de n de modo que P (|X − µ| ≤ ε) ≥ γ, com 0 < γ < 1 e ε é o erro amostral máximo que podemos suportar, ambos valores fixados. Sabemos que X ∼ N(µ; σ 2 n ) , logo X − µ ∼ N(0; σ 2 n ) e portanto P (−ε ≤ X − µ ≤ ε) = P ( − √ nε σ ≤ √ n(X − µ) σ ≤ √ nε σ ) de modo que √ nε σ = zγ do que obtemos finalmente n = σ2z2γ ε2 1.7 Estimação por Intervalos Até aqui, somente estimadores pontuais foram considerados, pois fornecem como estimativa um único valor numérico para o parâmetro de interesse. Em muitos problemas de estimação, entretanto, prefere-se um intervalo que expresse a precisão do estimador. Por serem variáveis aleatórias, os estimadores possuem uma distribuição d probabilidade e, levando este fato em con- sideração, podemos apresentar uma estimativa mais informativa para o parâmetro de interesse que inclua uma medida de precisão do valor obtido. Esse método de estimação, denominado intervalo de confiânça, incorpora, à estimativa pontual do parâmetro, informações a respeito de sua varia- bilidade. Intervalos de confiânça são obtidos atráves da distribuição amostral dos estimadores. A interpretação de um intervalo de confiânça é de que se muitas amostras forem coletadas e se for calculado um intervalo de confiânça de 100(1 − α)% de confiança para o parâmetro θ a partir de cada amostra, então 100(1 − α)% desses intervalos conterão o verdadeiro valor de θ. Na prática, obtemos apenas uma amostra aleatória e calculamos um intervalo de confiânça. Como esse inter- valo conterá, ou não, o verdadeiro valor de θ , não é razoavel atribuir um nível de probabilidade a esse evento específico. O comprimento do intervalo de confiânça bilateral é uma medida importante da qualidade da infor- mação obtida da amostra. O comprimento do semi-intervalo, é chamado de precisão do estimador. Quanto maior o intervalo de confiânça, mais confiantes estaremos de que o intervalo contenha real- mente o verdadeiro valor de θ. Por outro lado, quanto maior o intervalo, menos informação temos sobre o verdadeiro valor de θ. Em uma situação ideal, obtemos um intervalo relativemente pequeno com alta confiânça. como o comprimento do intervalo de confiânça mede a precisão da estimação, vemos que a precisão está inversamente relacionada ao nível de confiânça. È altamente desejável obter um intervalo de confiânça que seja pequeno o bastante para o proposito de tomada de decisão, mas que tenha, também, a confiânça adequada. Uma maneira de conseguir isso é escolhendo-se o tamanho n da amostra grande o suficiente para resultar em um intervalo de tamanho especificado com a confiânça prescrita. 1.7.1 Intervalo de Confiânça para Populações Normais Suponha-se que X tenha distribuição N(µ;σ2), onde se supõe σ2 conhecido, enquanto µ é o parâmetro desconhecido. Seja X1, X2, . . . , Xn uma amostra aleatória de X e seja X a média amostral. Sabemos que X tem distribuição N(µ; σ 2 n ), portanto, Z = √ n(X − µ) σ tem distribuição N(0;1). Observa-se que, muito embora Z depende de µ , sua distribuição de probabilidade não depende. Empregamos este fato a nosso favor da seguinte maneira: Fixado um valor γ tal que 0 < γ < 1, podemos encontrar um valor tal que : P (|Z| < z γ 2 ) = P (−z γ 2 < Z < z γ 2 ) = γ. Para γ fixo o valor z γ 2 pode ser obtido da tabela normal padrão. P (−z ≤ Z ≤ z) = P (−z ≤ √ n(X − µ) σ ≤ z) = P (−z σ√ n ≤ X − µ ≤ z σ√ n ) = P (X − z σ√ n ≤ µ ≤ X + z σ√ n ) = 2Φ(z)− 1 Assim o intervalo de confiança para µ , com coeficiente de confiança γ , é dadao por IC(µ; γ) = [X − z γ 2 σ√ n ;X + z γ 2 σ√ n ]. A amplitude do intervalo de confiança é dada pela diferença entre o extremo superior e inferior, isto é, X + z γ 2 σ√ n −X + z γ 2 σ√ n = 2z γ 2 σ√ n , o que claramente indica que ela depende da confiança γ , do desvio-padrão σ e do tamanho da amostra n. É usual se referir à semi-amplitude, como o erro envolvido na estimação. De modo geral o intervalo de confiança para um parâmetro θ é dado por IC(θ; γ)= [θ̂ − vt ep(θ̂); θ̂ + vt ep(θ̂)] em que vt é um valor tabelado da distribuição de θ̂ e ep(θ̂) o erro-padrão do estimador θ̂. Sabemos que sabemos que a proporção amostral, P̂ , tem distribuição normal com média P e vari- ância P (1− p) n , isto é, P̂ ∼ N(P, P (1− p) n ) e que P̂ − P√ p(1−p) n ∼ N(0; 1). Assim o intervalo de confiança para P , com coeficiente de confiança γ , é dado por IC(P ; γ) = [ P̂ − z γ 2 √ p(1−p) n ; P̂ + z γ 2 √ p(1−p) n ] . Como não conhecemos P, que o parâmetro a ser estimado, primeiro ao fazermos P = P̂ , temos IC(P ; γ) = [ P̂ − z γ 2 √ P̂ (1−P̂ ) n ; P̂ + z γ 2 √ P̂ (1−P̂ ) n ] . e para P = 1 2 , obtemos IC(P ; γ) = [ P̂ − z γ 2 √ 1 4n ; P̂ + z γ 2 √ 1 4n ] . Consideremos o caso em que temos X1, X2, . . . , Xn , uma amostra aleatória da variável aleatória X ∼ N(µ1;σ21) e Y1, Y2, . . . , Ym , uma amostra aleatória da variável aleatória Y ∼ N(µ2;σ22), onde X e Y são independentes. Sabemos que (X − Y ) ∼ N(µ1 − µ2; σ21n + σ22m ) de modo que , sendo θ = µ1 − µ2 , consideremos a quantidade (X − Y )− (µ1 − µ2)√ σ21 n + σ22 m ∼ N(0; 1) Sendo σ21 e σ 2 2 conhecidas, temos , como no caso anterior, o intervalo IC(µ1 − µ2; γ) = [ (X − Y )− z γ 2 √ σ21 n + σ22 m ; (X − Y ) + z γ 2 √ σ21 n + σ22 m ] Se as variâncias σ21 e σ 2 2 são conhecidas, e se os tamanhos amostrais n e m são iguais, então para determinar o tamanho amostral necessário tal que o erro na estimativa de µ1−µ2 usando X1−X2 seja menor do que ε com γ% de confiânça. O tamanho de cada amostra é n = (z γ 2 ε )2 (σ21 + σ 2 2). Suponha que X seja normalmente distribuída, com média µ e variância desconhecidas. Seja X1, X2, . . . , Xn uma amostra aleatória de tamanho n, e seja S2 a variância amostral. Já demostrou- se que a distribuição amostral de (n− 1)S2 σ2 ∼ χ2(n−1). Portanto dado γ , podemos determinar q1 e q2 de modo que P [ q1 ≤ (n− 1)S 2 σ2 ≤ q2 ] = γ. Considerando o intervalo simétrico, ou seja, P [χ2n−1 ≥ q2] = P [χ2n−1 ≤ q1] = 1−γ2 , temos o intervalo de confiança para σ2, dado por IC(σ2; γ) = [(n− 1)S2 q2 ; (n− 1)S2 q1 ] 1.8 Distribuição t de Student Sejam Z ∼ N(0, 1) e V ∼ χ2n variáveis aleatórias independentes. A variável aleatória T = Z√ V n ∼ tn tem distribuição t com n graus de liberdade, denotado por T ∼ tn. Teorema: Se (X1, X2, . . . , Xn) é uma amostra aleatória de tamanho n da distribuição N(0,1), então √ n(X − µ) s ∼ t(n−1). Prova: Notemos que podemos escrever √ n(X − µ) s = √ n(X − µ) σ s σ = X−µ σ√ n√ (n−1)S2 (n−1)σ2 ∼ t(n−1) 1.8.1 Intervalo de confiança para µ com variância desconhecida Quando a variância é desconhecida, construímos intervalos de confiânça para a média popula- cional utilizando a distribuição t-Student. Supondo uma amostra aleatória (X1, X2, . . . , Xn) obtida de uma população com distribuição Normal com média e varância desconhecidas, temos que √ n(X − µ) s ∼ t(n−1). Desta forma, fixando-se o coeficiente de confiança γ(0 < γ < 1) e utilizandoa tabela da dis- tribuição t-Student com n-1 graus de liberdade, obteremos o valor de t γ 2 tal que P ( −t γ 2 ≤ √ n(X − µ) S ≤ t γ 2 ) . Logo, o intervalo com coeficiente de confiança γ para µ , com varância desconhecida, será dado por IC(µ; γ) = [ X − t γ 2 S√ n ;X + t γ 2 S√ n ] . 1.8.2 Intervalo de confiança para diferença entre médias Seja (X1, X2, . . . , Xn) uma amostra aleatória de tamanho n de uma distribuição normal com média µ1 e variância σ21 desconhecida, e seja (Y1, Y2, . . . , Ym) uma amostra aleatória de tamanho m de uma distribuição normal com média µ2 e variância σ22 desconhecida. Assumiremos que as duas amostras são independentes uma da outra e que há homogeneidade das variâncias, isto é, σ21 = σ 2 2 = σ 2. Queremos uma estimação intervalar da diferença das médias populacionais µ2−µ1. Sabemos que (Y −X) é normalmente distribuída com média µ2 − µ1 e variância σ2n + σ 2 m , isto é (X − Y ) ∼ N(µ1 − µ2; σ21n + σ22m ) e (X − Y )− (µ1 − µ2)√ σ2 n + σ 2 m ∼ N(0; 1) Sabemos também que ∑ (Xi −X)2 σ2 = (n− 1)S2 σ2 tem distribuição qui-quadrado com n-1 graus de liberdade, e ∑ (Yi − Y )2 σ2 = (m− 1)S2 σ2 tem distribuição qui-quadrado com m-1 graus de liberdade, então V = ∑ (Xi −X)2 σ2 + ∑ (Yi − Y )2 σ2 = (n− 1)S2 σ2 + (m− 1)S2 σ2 ∼ t(m+n−2) . Finalmente, temos que a variável aleatória T = Z√ V m+n−2 ∼ t(m+n−2) tem distribuição t com (m+n-2) graus de liberdade. Fazendo S2p = (m− 1)S2 + (n− 1)S2 m+ n− 2 , temos que a estatística T = (X − Y )− (µ1 − µ2) SP √ 1 n + 1 m , tem distribuição t com m+n-2 graus de liberdade. Dai IC(µ1 − µ2; γ) = [ (X − Y )− t γ 2 SP √ 1 n + 1 m ; (X − Y ) + t γ 2 SP √ 1 n + 1 m ] O estimador combinado de σ2, denotado por S2P e definido por S2p = (m− 1)S2 + (n− 1)S2 m+ n− 2 , pode ser escrito como S2p = (m− 1)S2 m+ n− 2 + S 2 p = (n− 1)S2 m+ n− 2 = wS 2 1 + (1− w)S22 , sendo 0 < w ≤ 1. Logo, S2P é uma média ponderada das duas variâncias das amostras S21 e S22 , em que os pesos w e 1-w dependeram dos tamanhos das amostras n1 e n2. Obviamente, se n1 = n2 = n , então w = 0,5 e S2P será exatamente igual à média aritmética entre S 2 1 e S 2 2 . 1.9 Distribuição F de Snedecor Sejam U e V variáveis aleatórias independentes com m e n graus de liberdade respectivamente. Então a variável aleatória X = U m V n tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador, denotaremos por X ∼ F(m, n). Se X1, X2, . . . , Xm é uma amostra aleatória de tamanho m de uma população normal com média µX e variância σ2X , e seja também Y1, Y2, . . . , Yn uma amostra aleatória de tamanho n de uma população Normal com média µY e variância σ2Y , e se as duas amostras são independentes, então isto resulta que 1 σ2 m∑ i=1 (Xi −X)2 tem distribuição qui-quadrado com m-1 graus de liberdade, e 1 σ2 n∑ j=1 (Yi − Y )2 tem distribuição qui-quadrado com n-1 graus de liberdade, assim a estatística F = 1 (m− 1)σ2X m∑ i=1 (Xi −X)2 1 (n− 1)σ2Y n∑ j=1 (Yi − Y )2 = S2X σ2X S2Y σ2Y tem uma distribuição F com m-1 e n-1 graus de liberdade. Um procedimento de teste de hipóteses para a igualdade de duas variâncias é baseado no seguinte resultado. Sujeita a hipótese nula H0 : σ2X = σ 2 Y , a estatística F = S2X S2Y , distribuição F com m-1 e n-1 graus de liberdade. EXERCÍCIOS Professor: Hiron Pereira Farias Disciplina: Probabilidade e Estatística Questão 1: Uma amostra de 25 observações de uma Normal (µ; 16) foi coletada e forneceu uma média amostral de 8. Construa intervalos com confiança 80%, 85%, 90% e 95% Resp. a) [6,97; 9,03] ; b) [6,85; 9,15] ; c) [6,69; 9,31] d) [6,43; 9,57]. Questão 2: Por analogia a produtos similares, o tempo de reação de um novo medicamento pode ser considerado como tendo distribuição Normal com desvio padrão igual a 2 minutos. Vinte pacientes foram sorteados, receberam o medicamento e tiveram seu tempo de reação anotado. Os dados foram os seguintes ( em minutos ): 2,9; 3,4; 3,5; 4,1; 4,6; 4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8; 5; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de confiança para o tempo médio de reação. Use γ = 96% Resp. IC(µ; 96%) = [3,83 ; 5,67] Questão 3: Será coletada uma amostra de uma população Normal com desvio-padrão igual a 9. Para uma confiança de γ = 90%, determine a amplitude do intervalo de confiança para a média populacional nos casos em que o tamanho da amostra é 30, 50 ou 100. Resp. para n = 30 A = 5,42; para n = 50 A = 4,2; para n = 100 A = 2,97; Questão 4: Para uma Normal (5; 10) coletou-se uma amostra de tamanho 25. Calcule: a) P(X ≤ 4,8); ( Resp. 0,3745 ) b) P(4,5 ≤ X ≤ 5,3); ( Resp. 0,466 ) c) P(X ≤ 4,7 ou X ≥ 5,1) ( Resp. 0,7556 ). Questão 5: Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da população, em valor absoluto, seja menor que 1. com coefi- ciente de confiança igual a: (a) 95% (Resp. n = 385 ) (b) 99% (Resp. n = 666 ) Questão 6: Uma população tem desvio padrão igual a 10. (a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em estimar a média seja superior a uma unidade?( Resp. n = 307) (b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confiança, se X = 5? Resp. [49 ; 51] Questão 7: A vida de um componente usado em um motor de uma turbina de um avião a jato é uma variável aleatória, com média de 5.000 h e desvio-padrão de 40h. A distribuição da vida efetiva é razoavelmente próxima da distribuição Normal. O fabricante do motor introduz uma melhoria no processo de fabricação para esse componente, que aumenta a vida média para 5.050 h e diminui o desvio-padrão para 30h. Suponha que uma amostra aleatória de n1 = 16 componentes seja se- lecionada do processo antigo e uma amostra aleatória de n2 = 25 componentes seja selecionada do processo melhorado. Considere que o processo antigo e o melhorado possam ser considerados como populações independentes. i) Qual a probabilidade de que a diferença nas duas médias amostrais X2 −X1 seja no mínimo de 25h? ii) Construir um intervalo de confiança para a diferença entre as médias populacionais dos dois processos? Questão 8: Suponha que amostras de tamanho n = 25 sejam selecionadas, ao acaso, de uma po- pulação normal, com média igual a 100 e desvio-padrão igual a 10. Qual a probabilidade de que a média amostral caia no intervalo de µX − 1,8σX a µX + 1,0σX? Questão 9: Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto, colheu-se uma amostra aleatória de 300 indivíduos, dos quais 180 preferiam esse produto. (a) Determine o intervalo de confiança para a proporção da população que prefere o produto em estudo; tome γ = 0,90. (Resp. [0,553 ; 0,647] ) (b) Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0,001. (Resp. 2,7%) Questão 10: Antes de uma eleição em que existam dois candidatos, A e B, foi feita uma pesquisa com 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no candidato a. Construa um intervalo de confiança, com c.c. γ = 0,95, para a porcentagem de eleitores fa- voráveis ao candidato A na época das eleições. (Resp. [0,471 ; 0,569]) Questão 11: Uma amostra aleatória de 625 donas de casa revela que 70% delas preferem a marca A de detergente. Construir um intervalo de confiança para p = proporção das donas de casa que preferem A. Utilize (γ = 90%). Questão 12: Numa pesquisa com 50 eleitores o candidato José João obteve 35% da preferência dos eleitores. Construa, para a confiança de 94%, os intervalos otmista e conservador de confiança para a proporção de votos a serem recebidos pelo candidato mencionado, supondo que a eleição fosse nesse momento. Questão 13: Antes de uma eleição, um determinado partido está interessado em estimar a pro- porção p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho 100revelou que 60% dos eleitores eram favoráveis ao candidato em questão. a) Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de , no máximo, 0,01 com probabilidade de 80%; (Resp. n = 3.994) b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55% dos eleitores eram favoráveis ao candidato em questão, construa um intervalo de confiança para a proporção p. Utilize (γ = 95%). Questão 14: Suponha que estejamos interessados em estimar a porcentagem de consumidores de um certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto, determine: a) o intervalo de confiança de p, com coeficiente de confiança de 95%; (Resp. [0,280 ; 0,386]) b) o tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabili- dade de 95%. (Resp. n = 2.133 ou n = 2.401) Questão 15: Com auxílio da tabela t-Student calcule: a) P(−3,365 ≤ t5 ≤ 3,365); (Resp. 0,98) b) P(|t8| < 1,4); (Resp. 0,80) c) O valor de b tal que P(t16 ≤ b) = 0,05; (Resp. -1,746) d) O valor de c tal que P(|t11| ≤ c) = 0,10; (Resp. 0,129) Questão 16: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi- ança γ = 95% Questão 17: Admitindo que a pressão sanguínea arterial em homens siga o mdelo Normal, 7 pa- cientes foram sorteados e tiveram sua pressão medida com os seguintes resultados: 84, 81, 77, 85, 69, 80 e 79. Determine o intervalo de confiança para µ com coeficiente de confiança γ = 98% Questão 18: Uma amostra com 10 observações de uma variável aleatória Normal forneceu média de 5,5 e variância amostral 4. Determine o intervalo de confiança para µ com coeficiente de confi- ança γ = 95% Questão 19: Encontre o c.c. de um intervalo de confiança para p, se n = 100, p̂= 0,6 e a amplitude do intervalo deve ser igual a 0,090. (Resp. γ = 0,64) Questão 20: Estão sendo estudados dois processos para conservar alimentos, cuja principal va- riável de interesse é o tempo de duração destes. No processo A, o tempo X de duração segue a distribuição N(µA; 100), e processo B o tempo Y obedece à distribuição N(µB; 100). Sorteiam-se duas amostras independentes: a de A, com 16 latas, apresentou tempo médio de duração igual a 50, e a de B, com 25 latas, duração média igual a 60. (a) Construa um IC para µA e µB , separadamente. (b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC para a diferença µA− µB. Caso o zero pertença ao intervalo, pode-se concluir que existe evidência de igualdade dos processos. Qual seria sua resposta? Questão 21: O tempo de reação de uma pessoa a certa droga é uma variável aleatória com média 5 minutos e desvio padrão 3 minutos. Esse tempo foi medido em uma amostra de 80 pessoas esco- lhidas, sem reposição, na cidade de São Paulo. Pergunta-se a probabilidade: (a) O tempo médio amostral ser inferior a 5,5? (Resp. 0,9319) (b) O tempo médio na amostra não diferir da verdadeira média por mais de 0,4? (Resp. 0,7660) Questão 22: Numa pesquisa de mercado desejamos estimar a proporção de pessoas que compram o sabonete Bom-cheiro. (a) Que tamanho de amostra devemos colher para que, com probabilidade 0,9; a estimativa não se desvie do verdadeiro valor por mais de 0,05? (Resp. n ' 269) (b) Se tivermos a informação adicional de que a aceitação do sabonete Bom-cheiro é no mínimo 0,8, qual deve ser então o tamanho da amostra? (Resp. n ' 173) (c) Decidimos colher uma amostra de tamanho 81. Qual o erro máximo cometemos com probabi- lidade 0,9? (Resp. 0,09 ) (d) Para uma amostra de tamanho 81, qual a probabilidade de que o erro máximo seja 0,08? (Resp. 0,8502 ) Questão 23: Um pesquisador está estudando a resistência de um determinado material sob de- terminadas condições. Ele sabe que essa variável é normalmente distribuída com desvio padrão de duas unidades. (a) Utilizando os valores 4,9; 7; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o intervalo de confiança para a resistência média com um coeficiente γ = 0,90. (Resp. [5,13 ; 7,32]) (b) Qual o tamanho da amostra necessário para que o erro cometido, ao estimarmos a resistência média, não seja superior a 0,01 unidade com probabilidade 0,90? (Resp. n = 108.900) (c) Suponha que no item (a) não fosse conhecido o desvio padrão, determine o intervalo de confi- ança para a resistência média com um coeficiente γ = 0,90. Questão 24: Uma amostra aleatória de n1 = 49 é selecionada de uma população µ1 normal com uma média de 75 e um desvio -padrão igual a 8. Uma segunda amostra aleatória de tamanho n2 = 9 é retirada de uma outra população µ2 normal com média 70 e desvio-padrão 12. Faça X1 e X2 serem duas médias amostrais. Encontre: a) a probabilidade de X1 −X2 exceder 4; b) a probabilidade de 3,5 6 X1 −X2 6 5,5; c) construir um intervalo de confiança para a diferença µ1 − µ2 2 Teste de Hipóteses Em muitas situações temos interesse em tomar a decisão de aceitar ou rejeitar determinda afir- mação baseando-se em um conjunto de evidências. A construção de um teste de hipóteses, para um parâmetro populacional, pode ser colocado do seguinte modo. Existe uma variável X associada a dada população e tem-se uma hipótese sobre determinado parâmetro θ dessa população. Por exemplo, afirmamos que o verdadeiro valor de θ é θ0 . Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se comprovar ou não tal hipótese. Qualquer que seja a decisão tomada, estamos sujeitos a cometer erros. São dois os erros que podem ser cometidos ao se realizar um teste de hipótese, são eles: Erro tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamaremos de α a probabilidade de cometer esse erro, isto é, α = P(erro tipo I) = P(rejeitar H0|H0 é verdadeira). Erro tipo II: não rejeitar H0 quando H0 é falsa. A probabilidade de cometer esse erro é denotado por β, logo β = P(erro tipo II) = P(não rejeitar H0|H0 é falsa). O objetivo do teste de hipótese é dizer, usando uma estatística θ̂, se a hipótese H0 é ou não aceitável. Essa decisão é tomada através da consideração de uma região crítica RC. Caso o valor observado da estatística pertença a essa região, rejeitamos H0; caso contrário, não rejeitamos H0. Esta região é construída de modo que P(θ̂ ∈ RC|H0 é verdadeira) seja igual a α, fixado a priori. A probabilidade α de cometer um erro de tipo I é um valor arbitrário e recebe o nome de nível de significância ou tamanho do teste. O resultado da amostra é tanto mais significante para re- jeitar H0 quanto menor for esse nível α, ou seja, quanto menor α menor é a probabilidade de se obter uma amostra com estatística (estimativa) pertencente à região crítica, sendo pouco provável a obtenção de uma amostra da população para a qual H0 seja verdadeira. Geralmente, o valor de α é fixado em 10%, 5% ou 1%. Passos para construção de um teste de hipóteses: I) Estabelecer as hipóteses nula e alternativa; II) Fixar α; III) Definir a forma da região crítica, com base na hipótese alternativa; IV) Identificar a distribuição do estimador e obter sua estimativa; V) Concluir o teste com base na estimativa e na região crítica. 2.1 P-valor Ao realizarmos um teste de hipóteses, partimos de um valor de α , pré-fixado, para construir a regra de decisão uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste a escolha do valor para a probabilidade α , que não precisará ser fixado à priori. A idéia consiste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se obter estimativas mais desfavoráveis ou extremas (à luz da hipótese alternativa) do que a que está sendo fornecida pela amostra. Esta probabilidade será o P-valor, denotado por P. Valores pequenos de P evidenciam que a hipótese nula é falsa, pois, sendo a amostra nossa ferramenta de inferência sobre a população, ela fornece umaestimativa que teria probabilidade muito pequena de acontecer, se H0 fosse ver- dadeira. O conceito do que é “pequeno"fica a cargo do pesquisador, que assim decide qual α usar para comparar com o valor P. Daremos agora uma definição formal de um valor P. definição: O P-valor é o menor nível de significância que conduz à rejeição da hipótese nula H0 com dados fornecidos pela amostra. Assim, um valor P carrega informação sobre o peso da evidên- cia contra H0. 2.2 Distribuição F de Snedecor Sejam U e V variáveis aleatórias independentes tendo ambas distribuição qui-quadrado com m e n graus de liberdade respectivamente. Então a variável aleatória X = U m V n tem distribuição F com m graus de liberdade no numerador e n graus de liberdade no denominador, denotaremos por X ∼ F(m, n). Se X1, X2, . . . , Xm é uma amostra aleatória de tamanho m de uma população normal com média µX e variância σ2X , e seja também Y1, Y2, . . . , Yn uma amostra aleatória de tamanho n de uma população Normal com média µY e variância σ2Y , e se as duas amostras são independentes, então isto resulta que 1 σ2 m∑ i=1 (Xi −X)2 tem distribuição qui-quadrado com m-1 graus de liberdade, e 1 σ2 n∑ j=1 (Yi − Y )2 tem distribuição qui-quadrado com n-1 graus de liberdade, assim a estatística F = 1 (m− 1)σ2X m∑ i=1 (Xi −X)2 1 (n− 1)σ2Y n∑ j=1 (Yi − Y )2 = S2X σ2X S2Y σ2Y tem uma distribuição F com m-1 e n-1 graus de liberdade. Um procedimento de teste de hipóteses para a igualdade de duas variâncias é baseado no seguinte resultado. Sujeita a hipótese nula H0 : σ2X = σ 2 Y , a estatística F = S2X S2Y , distribuição F com m-1 e n-1 graus de liberdade. EXERCÍCIOS Questão 1: Uma máquina automática para encher pacotes de café enche-os segundo uma dis- tribuição normal, com média µ e variância sempre igual a 400 g2. A máquina foi regulada para µ = 500g. Desejamos, periodicamente, escolher uma amostra de 16 pacotes e verificar se a pro- dução está sob controle, isto é, se µ = 500g ou não. Se uma dessas amostras apresentasse uma média x= 492 g, você pararia ou não a produção para regular a máquina? Questão 2: Um relatório de uma companhia afirma que 40% de toda a água obtida, através de poços artesianos no nordeste, é salobra. Há muitas controvérsias sobre essa informação, alguns dizem que a proporção é maior, outros que é menor. Para dirimir as dúvidas, 400 poços foram sorteados e observou-se, em 120 deles, água salobra. Qual a conclusão ao nível de 3%. Questão 3: Deseja-se investigar se uma certa moléstia que ataca o rim altera o consumo de ox- igênio desse órgão. Para indivíduos sadios, admite-se que esse consumo tem distribuição Normal com média 12cm3/min. Os valores medidos em cinco pacientes com a moléstia foram: 14,4; 12,9; 15; 13,7 e 13,5. Qual seria a conclusão, ao nível de 1% de significância? Questão 4: Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu pro- grama especial da última segunda-feira. Uma rede competidora deseja contestar essa afirmação e decide usar uma amostra de 200 famílias para um teste. Admitindo que, da pesquisa realizada com as 200 famílias, obtivemos 104 pessoas que estavam assistindo ao programa. Qual a conclusão ao nível de 5% de significância? Questão 5: Um pesquisador deseja estudar o efeito de certa substância no tempo de reação de seres vivos a um certo tipo de estímulo. Um experimento é desenvolvido com cobaias, que são inoculadas com a substância e submetidas a um estimulo elétrico, com seus tempos de reação (em segundos) anotados. Os seguintes valores foram obtidos: 9,1; 9,3; 7,2; 7,5; 13,3; 10,9; 7,2; 9,9; 8; 8,6. Admite-se que o tempo de reação segue, em geral, o modelo Normal com média 8 e desvio- padrão σ = 2 segundos. O pesquisador desconfia, entretanto, que o tempo médio sofre alteração por influência da substância. Qual a conclusão ao nível de 6% de significância? Questão 6: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma amostra de 25 cigarros forneceu média de 31,5 mg e desvio padrão de 3 mg. No nível de 5%, os dados refutam ou não a afirmação do fabricante? Questão 7: Para verificar se duas populações têm a mesma média,amostras independêntes foram retiradas. Sabendo que a população I é Normal (µ1, 25) e a população II Normal (µ2, 40), que con- clusão pode ser retirada, ao nível 2% ? Os valores obtidos foram: População Dados I 12 14 15 14 13 17 14 13 II 13 17 14 13 16 17 18 16 Questão 8: As variáveis X e Y seguem a distribuição Normal com mesma variância. Deseja-se testar se, também, têm a mesma média. Doze observações de cada variável foram escolhidas e os resultados foram os seguintes: 12∑ i=1 xi = 48 ; 12∑ i=1 yi = 56 ; 12∑ i=1 x2i = 4.900 ; 12∑ i=1 y2i = 5.650. Qual é a conclusão ao nível de significância de 5% ? Questão 9: Para comparar as médias de duas populações Normais, amostras aleatórias foram obti- das. Sabe-se que as variâncias populacionais são diferentes, sendo seus valores desconhecidos. Amostra I 7 9 3 8 11 5 9 Amostra II 2 7 5 15 9 16 8 O que pode ser dito a respeito das médias das populações, com α = 0,05 ? Questão 10: Dois medicamentos para tratamento de infecções bucais estão sendo sendo estudados e o melhor desempenho é definido pela rapidez em eliminar a infecção. Pacientes escolhidos ao acaso receberam um dos medicamentos e tiveram a sua cura classificada em rápida ou não. Deseja- se testar, ao nível 10% , se os medicamentos são equivalentes. os dados obtidos são apresentados a seguir. Amostra Pacientes com cura rápida Medicamento A 50 32 Medicamento B 100 48 Qual é sua conclusão? Indique as hipóteses do teste e as suposições necessárias. Questão 11: Para comparar o grau de diversidade de duas populações primitivas, uma medida antropométrica foi obtida em fósseis coletados em sítios arqueológicos, fornecendo a tabela a seguir. característica Sítio A (n = 17) Sítio B (n = 23) Média (cm ) 15,12 12,21 Variância (cm2) 0,124 0,184 O que pode ser concluído a respeito das variâncias? E das médias populacionais? Questão 12: Um fabricante de esferas para rolamentos desenvolveu um novo método de produção, mais barato. Entretanto, ele desconfia que os novos lotes apresentam variabilidade diferente daque- les produzidos pelo método, ele selecionou aleatoriamente 15 esferas que forneceram os seguintes diâmetros ( em mm): X 29,9 29,8 29,8 29,7 29,9 29,8 29,9 29,9 30,1 29,9 30,0 30,0 29,6 30,4 29,9 Y 29,8 29,8 30,4 29,8 30,5 29,6 29,3 29,4 30,3 29,9 29,7 30,3 30,4 29,1 30,0 Questão 13: Uma linha de montagem produz peças cujos pesos, em gramas, obedecem ao modelo Normal com variância 30 g2. Os equipamentos foram modernizados e, para verificar se o processo continua sob controle, foi tomada uma amostra de 23 peças, forneceu s2obs = 40g 2. Existem ev- idências indicando que a variância mudou, considerando α = 10% ? Questão 14: Para avaliar o nível de tensão ocasionada por exames escolares, doze alunos foram escolhidos e sua pulsação medida antes e depois do exame. Estudante 1 2 3 4 5 6 7 8 9 10 11 12 Antes 87 78 85 93 76 80 82 77 91 74 76 79 Depois 83 84 79 88 75 81 74 71 78 73 76 71 Faça um teste, com nível de significância de 1% , para verificar se existe maior tensão (isto é, maior pulsação) antes da realização dos exames. Indique as suposições necessárias.
Compartilhar