Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Comparação entre duas populações AMOSTRAS INDEPENDENTES 2 Comparação entre duas médias 3 Na comparação de duas populações, dispomos de duas amostras, em que são possíveis as seguintes situações: Em aplicações práticas é comum que o interesse seja comparar as médias de duas diferentes populações (ambas as médias são desconhecidas). variâncias pop. conhecidas variâncias pop. desconhecidas iguais diferentes 2 amostras dependentes independentes Discutiremos apenas os testes conhecidos como paramétricos, que assumem que as variáveis se comportam segundo um modelo Normal. Introdução 4 Exemplo 1: Um pesquisador deseja comparar o salário de profissionais da saúde de ambos os sexos. Para isso, selecionou uma amostra aleatória de 50 profissionais, sendo 22 do sexo feminino e 28 do sexo masculino. Sabe-se, de estudos anteriores, que o salário de profissionais da saúde segue uma distribuição normal. Masculino Feminino 4708 4412 4010 3768 4603 3868 4122 3939 4017 4252 4344 4459 4534 4265 4446 3827 4402 4377 3938 4197 4526 4000 4514 4306 4584 3441 3400 3935 4594 4172 4264 3748 4236 4203 3850 3838 4817 4001 3676 4016 4008 4464 3604 4274 4083 4706 3788 4681 4009 4729 5 Exemplo 1 As duas populações, de onde as amostras são provenientes, são independentes e normalmente distribuídas; - a população dos salários de profissionais da saúde do sexo feminino tem média X e variância X 2 X ~ N(X, X 2) - a população dos salários de profissionais da saúde do sexo masculino tem média Y e variância Y 2 Y ~ N(Y, Y 2) Interesse: Comparar as médias das duas populações. 6 • Hipóteses estatísticas: da pop. normal com média X e desvio padrão X extrai-se uma a.a. de tamanho n H0: X = Y H1: X Y ou X > Y ou X < Y H0: X - Y = 0 H1: X - Y 0 ou X - Y > 0 ou X - Y < 0 ou, equivalentemente, usando diferenças X X Xs x de amostra da padrão desvio de amostra da média : : da pop. normal com média Y e desvio padrão Y extrai-se uma a.a. de tamanho m Ys Yy Y : de amostra da padrão desvio : de amostra da média Obs.: note que os números de observações nas 2 amostras, n e m, não precisam ser iguais. 7 grupo 1 grupo 2 população média X Y desvio padrão X Y m n tamanho sY sX desvio padrão média amostra x y Situações possíveis com respeito às variâncias X 2 e Y 2: 1. conhecidas: teste Z 2. desconhecidas: - iguais: teste-t de duas amostras - diferentes: teste-t modificado Obs.: O teste de comparação de variâncias pode ser utilizado como um procedimento preliminar em teste de comparação de médias, auxiliando a escolha da técnica adequada. 8 CASO 1: variâncias conhecidas (1) Hipóteses estatísticas: H0: X = Y H1: X < Y H0: X - Y = 0 H1: X - Y < 0 ou, equivalentemente, usando diferenças (2) Estatística de teste Considere o Exemplo 1, dos salários de profissionais da saúde. Queremos verificar se o salário das mulheres é menor do que o dos homens. Como X e Y são independentes com distribuição normal, com médias X e Y e desvio padrão X 2 e Y 2, respectivamente, então • Estimador de X - Y : YX - • Distribuição amostral do estimador: , m σ n σ μμNYX YXYX 22 ,~ 9 Se as variâncias são conhecidas, a estatística de teste é dada por m σ n σ YX Z YX 22 )( (2) Estatística de teste Sob H0, Z ~ N(0,1). (3) Nível de significância: = 5% (4) Calcular medidas necessárias: Média Masculino 4302,87 Feminino 4021,68 Informação dada: X= 280 e Y= 300 10 (5A) Região crítica (6A) Decidir e Concluir A região crítica deve ter a forma: RC = { Z ≤ ztab } ztab = ? Da tabela da N(0,1), com = 5%, ztab= -1,64 RC = { Z ≤ -1,64} (4) Calcular medidas necessárias: 415,3 28 300 22 280 87,430268,4021 22 )( obsz zobsRC rejeita-se H0 (5B) Nível descritivo P P = P(Z ≤ -3,415) = 0,0003. (6B) Decidir e Concluir P < rejeita-se H0 11 As médias do salários das mulheres é menor do que a dos homens. Quão menor? • Intervalo de confiança para a diferença X-Y: mn zYX mn zYXP z mn YX zPzZzP YX tabYX YX tab tab YX YX tabtabtab 2222 22 )()( )( No exemplo: IC(X-Y;10%) = (-281,19-1,6482,33; -281,19+1,6482,33;) = (-416,21;-146,17) 12 CASO 2: variâncias desconhecidas, iguais (1) Hipóteses estatísticas: H0: X = Y H1: X < Y H0: X - Y = 0 H1: X - Y < 0 ou, equivalentemente, usando diferenças (2) Estatística de teste Exemplo 1: salário de profissionais da saúde. Queremos verificar se o salário das mulheres é menor do que o dos homens. Suponha agora: NÃO conhecemos as variâncias. Temos apenas a informação de que são iguais (x= Y= ), mas não sabemos o valor. Temos que , 11 mn σμμN m σ n σ μμNYX YX YX YX 2 22 ,~ ,~ 13 Assim, )( 1 0, 11 )()( 2 N mn σ μμYX Z YX ~ . 2 1)(1)( 222 mn smsn s YXp Não conhecemos , precisamos estimar por: - A estimativa sp 2 combina informação de ambas amostras para se produzir uma estimativa mais confiável de 2; - Na verdade, sp 2 é média ponderada das duas variâncias amostrais sX 2 e sY 2, onde cada variância é ponderada pelos seus graus de liberdade associados; - Se n é igual a m, sp 2 é a média aritmética simples; caso contrário, maior peso é dado à variância da maior amostra. 14 (2) Estatística de teste ) mn S YX T p 11 ( )( 2 (3) Nível de significância: = 5% (4) Calcular medidas necessárias: Média Desvio padrão Masculino 4302,87 335,74 Feminino 4021,68 301,08 s2p= [(22-1)301,08 2+(28-1)335,742] / (22+28-2) = 103065 sp = 321,037 Sob H0, T ~ t (n+m-2). 15 (4) Calcular medidas necessárias: , 3,074- ) 28 1 22 1 (321,037 4302,87)021,68( 4 obsT (5A) Região crítica (6A) Decidir e Concluir A região crítica deve ter a forma: RC = { T ≤ ttab } ttab = ? Da tabela da t(48 g.l.), com = 5%, ttab= -1,68 RC = {T ≤ -1,68} tobs RC rejeita-se H0 (5B) Nível descritivo P P= P(T ≤ -3,074) = 0,0017 (6B) Decidir e Concluir P < rejeita-se H0 16 • Intervalo de confiança para a diferença X-Y: No exemplo: IC(X-Y; 10%) = = (-281,19-1,68321,0370,285; -281,19+1,68321,0370,285) = (-434,85;-127,53). em que ttab é obtido da tabela t com (n+m-2) graus de liberdade. 17 CASO 3: variâncias desconhecidas, diferentes (1) Hipóteses estatísticas: H0: X = YH1: X < Y H0: X - Y = 0 H1: X - Y < 0 ou, equivalentemente, usando diferenças (2) Estatística de teste Exemplo 1: salário de profissionais da saúde. Queremos verificar se o salário das mulheres é menor do que o dos homens. Suponha agora: NÃO conhecemos as variâncias e sabemos que são diferentes (x Y ). Temos que m σ n σ μμN~YX YXYX 22 , 18 Assim, )( 22 1 0, )()( N m σ n σ μμYX Z YX YX ~ Não conhecemos X 2 e Y 2 estimamos por sx 2 e sY 2. Finalmente, a estatística de teste, sob H0, é . )( )( 22 m S n S YX T YX . / 1)]()(1)()[( )]()[( 22 222 mmsnns msns YX YX /// // 22 Sob H0, T ~ t(), em que é o número de graus de liberdade dado por 19 (3) Nível de significância: = 5% (4) Calcular medidas necessárias: Média Desvio padrão Masculino 4302,87 335,74 Feminino 4021,68 301,08 , - ,, ,, tobs 123 28 74335 22 08301 874302684021 22 .147 1)]/(28/28)(335,741)/(22/22)[(301,08 /28)](335,74/22)[(301,08 2222 222 , Assim, usamos 47. 20 (5A) Região crítica (6A) Decidir e Concluir A região crítica deve ter a forma: RC = {T ≤ ttab} ttab = ? Da tabela da t(47 g.l.), com = 5%, ttab= -1,68 RC = { T ≤ -1,68} tobs RC rejeita-se H0 (5B) Nível descritivo P P = P(T ≤ -3,12) = 0,0015 (6B) Decidir e Concluir P < rejeita-se H0 21 • Intervalo de confiança para a diferença X - Y: No exemplo: IC(X-Y;10%) = (-281,19-1,6890,26; -281,19+1,6890,26) = (-432,82; -129,56). em que ttab é obtido da tabela t com graus de liberdade. 22 Comparação entre duas variâncias 23 Um teste de hipóteses importante consiste em verificar se duas populações têm a mesma variância. Considere uma amostra X1, ...,Xn de uma população com distribuição N(X, X 2) e uma amostra Y1, ...,Ym de uma população com distribuição N(Y, Y 2). Suponha que as duas amostras sejam independentes. (1) Hipóteses estatísticas: (2) Estatística de teste Se SX 2 e SY 2 são as variâncias amostrais respectivas, então a estatística do teste é 2 2 Y X S S F H0: 2 X = 2 Y H1: X 2 Y 2 ou X 2 > Y 2 ou X 2 < Y 2 24 Qual é a distribuição de probabilidade de F ? Se a hipótese nula H0 é verdadeira (X 2 = Y 2), a estatística F possui distribuição de probabilidade F de Snedecor com n-1 graus de liberdade no numerador e m-1 graus de liberdade no denominador. 2 )1(~ n X X σ Sn U 2 2 1 Resultado: Sejam X ~ N(X, X 2) e Y ~ N(Y, Y 2) independentes. Para amostras aleatórias X1, X2, ..., Xn, de X e Y1, Y2, ..., Ym, de Y, temos 2 )1(~ m Y Y σ Sm V 2 2 1 )1;1(~ 1 1 mnF mV nU S S F Y X 2 2 Se X 2 = Y 2, então 25 Obtenção dos valores críticos: Teste bilateral • Para fixado, encontre na tabela F(n-1; m-1) um valor f2 tal que P(F (n-1; m-1) > f2) = /2 e • Para fixado, encontre na tabela F(m-1; n-1) (observe que os g.l. foram trocados) um valor g1 tal que P(F (m-1; n-1) > g1) = /2 e calculamos f1=1/g1. (3) Nível de significância: (4) Calcular medidas necessárias: Obter SX 2 e SY 2,as variâncias amostrais, e calcular F. (5A) Região crítica Se H1: X 2 > Y 2 , Se H1: X 2 < Y 2 , Se H1: X 2 Y 2 , RC = {F: F < f } RC = {F: F < f1 ou F > f2 } RC = {F: F > f } 26 tabela (5B) Nível Descritivo P = P(F(n-1; m-1) < Fobs) P = 2 P(F(n-1; m-1) > Fobs) ou P = 2 P(F(n-1; m-1) < Fobs) P = P(F(n-1; m-1) > Fobs) (6) Decidir e concluir (A) Se Fobs RC, rejeita-se H0 Se Fobs RC, não se rejeita H0 (B) Se P rejeita-se H0 Se P > não se rejeita H0 27 Se H1: X 2 Y 2 , Se H1: X 2 > Y 2 , Se H1: X 2 < Y 2 , 28 Intervalo de confiança para o quociente Y 2/X 2 com coeficiente de confiança 2 2 22 2 2 2 1222 22 1 2121 1 1 )1;1( X Y X Y X Y YY XX S S f S S fPf S S fP f mV nU fPfmnFfP 29 Considere o Exemplo 1, dos salários de profissionais da saúde. Queremos verificar se a variabilidade do salário das mulheres é igual à dos homens. (1) Hipóteses estatísticas: H0: M 2 F 2 H1: M 2 F 2 (2) Estatística de teste Se SM 2 e SF 2 são as variâncias amostrais respectivas, então a estatística do teste é 27) ;21( ~ 2 2 F S S F M F (3) Nível de significância = 5%. (4) Calcular as medidas necessárias SM = 335,74 e SF = 301,08 804,0 74,335 08,301 2 2 obsF (5A) Região crítica RC = {F : F < f1 ou F > f2 }, sendo f1 e f2 obtidos por f2 : encontre na tabela F(21; 27) o valor f2 tal que P(F(21;27) > f2) = 0,025 f2 = 2,25 (aprox.) e f1 : encontre na tabela F(27; 21) um valor g1 tal que P(F (27; 21) > g1) = 0,025 e calculamos f1=1/g1=1/2,34 = 0,427 RC = {F : F < 0,427 ou F > 2,25 }, (6) Decidir e concluir Fobs = 0,804 RC não se rejeita H0 (5B) Nível descritivo P = 2 P(F(21; 27) < 0,804) = 2 (1- 0,69) = 0,62 > não se rejeita H0 30 Dist F 31 Intervalo de confiança de 95% para o quociente Y 2/X 2 : O valor “1” IC, como esperado. Comparação entre duas proporções 32 Como vimos para a média, muito frequentemente, podemos estar interessados na comparação de duas proporções de duas populações independentes. (1) Hipóteses estatísticas: H0: p1 = p2 H1: p1 p2 ou p1 > p2 ou p1 < p2 extraímos uma uma a.a. de tamanho n1 de uma população com proporção p1; se observamos x1 sucessos na amostra, então ).ˆ 1 1 1 1 de pontual (estimador p n X p Analogamente, selecionamos uma amostra de tamanho n2 da população com proporção p2 e se observamos x2 sucessos, então ).ˆ 2 2 2 2 de pontual (estimador p n X p (2) Estatística de teste 33 21 2211 nn pnpn p ˆˆ ˆ A quantidade é uma média ponderada das duas proporções das amostras, e . pˆ 21 pp ˆ ˆ . 21 2 1 nn XX 21 ˆ - ˆ pp 2 2 1 11 21 2121 )) )ˆˆ )ˆˆ n pp n pp ppVar ppppE (1(1 ( ( 2 Se a hipótese nula é verdadeira, temos que p1 = p2 = p, os dados de ambas as amostras podem ser combinados para estimar esse parâmetro comum, por 34 ) 11 )( - (1 21 nn pp ˆˆ Sob a hipótese nula H, o estimador do erro padrão da diferença é dado por: 21 p- p ˆ ˆ • Estatística do teste: ) 11 )((1 )( 21 21 nn pp pp Z ˆˆ ˆˆ Se n1 e n2 são suficientemente grandes, essa estatística, sob H, tem uma distribuição normal com média 0 e desvio padrão 1. 35 (3) Nível de significância: (4) Calcular medidas necessárias (5A) Regiãocrítica (5B) Nível Descritivo (6) Decidir e concluir (A) Se Zobs RC, rejeita-se H0 Se Zobs RC, não se rejeita H0 (B) Se P rejeita-se H0 Se P > não se rejeita H0 36 Exemplo 2 : Para investigar a lealdade de consumidores a um determinado produto, sorteou-se uma amostra de 200 homens e 200 mulheres. Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres. Os dados trazem evidências de diferença de grau de fidelidade entre os sexos? Em caso afirmativo, construa um intervalo de confiança para a diferença. 37 Sejam: pH: proporção de homens com alto grau de fidelidade pM: proporção de mulheres com alto grau de fidelidade H0: pH = pM H1: pH pM , (1) Hipóteses estatísticas: (2) Estatística do teste (3) Fixar o nível de significância do teste : = 5% ) 11 )((1 )( MH MH nn pp pp Z ˆˆ ˆˆ MH MMHH nn pnpn p ˆˆ ˆ 38 nH = 200 100 com alto grau de fidelidade 0,5 200 100 ˆ Hp 0,6 200 120 ˆ Mp nM = 200 120 com alto grau de fidelidade (4) Calcular as medidas necessárias • Valor da estatística do teste: 01,2 200200 55,055,0 6,050 11 )(1 )( , zobs 0,55 200200 6,02005,0200 pˆ 39 P = 2 P(Z -2,01) = 0,044 (5A) Região crítica (5B) Nível Descritivo = 5% RC = {Z : Z < -1,96 ou Z > 1,96 } (6) Decidir e concluir (A) zobs RC, rejeita-se H0 (B) Se P rejeita-se H0 40 MH pp ˆ ˆ - fornece uma estimativa por ponto para a verdadeira diferença pH – pM das proporções populacionais. ˆˆˆˆ ˆˆ M MM H HH MH n pp n pp pp )(1)(1 1,96 - Um intervalo de confiança de 95% para a diferença pH - pM, usando a aproximação normal, é Note que o erro padrão da diferença das proporções amostrais não é o mesmo que aquele usado no teste; no teste de hipóteses, o erro padrão empregado foi baseado na suposição de que a hipótese nula era verdadeira; essa suposição não é necessária no cálculo de um intervalo de confiança. 41 0,5Hpˆ No exemplo, como e , um intervalo de confiança aproximado de 95% para pH – pM é 0,6Mpˆ )03,0 ;197,0( )097,01,0 ;097,01,0( 200 )6,01(6,0 200 )5,01(5,0 96,1 )6,05,0( Note que, como esperado, o intervalo não contém o valor zero. 42 AMOSTRAS DEPENDENTES (teste t-pareado) 43 característica das amostras dependentes (pareadas): para cada unidade amostral realizamos duas medições. As medidas são tomadas em um único “indivíduo” em dois pontos distintos no tempo. Em geral, observações pareadas correspondem a medidas tomadas antes e depois de uma dada intervenção -- cada indivíduo é examinado antes que um certo tratamento seja aplicado e novamente depois que o tratamento foi completado. Outro tipo de emparelhamento: o pesquisador “casa” os indivíduos de um grupo com aqueles de um segundo grupo, de modo que os membros de um par sejam parecidos (em relação a características, tais como, a idade e o gênero). 44 Planejamento empregado na tentativa de se controlar fontes de variação que poderiam influenciar os resultados da comparação. Se as medidas são feitas no mesmo sujeito uma certa variabilidade biológica é eliminada -- não temos que nos preocupar com o fato de um sujeito ser mais velho do que outro ou se um é homem e o outro é mulher. A intenção do emparelhamento é, portanto, fazer uma comparação mais precisa. 45 Exemplo 3: Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho sobre a produtividade de seus trabalhadores. Para isso, sorteou seis operários, e contou o número de peças produzidas durante uma semana sem intervalo e uma semana com intervalo. Os resultados sugerem se há ou não melhora na produtividade? Caso haja melhora, qual deve ser o acréscimo médio de produção para todos os trabalhadores da fábrica? Xi : número de peças produzidas pelo operário i na semana sem intervalo Operário 1 2 3 4 5 6 Sem intervalo 23 35 29 33 43 32 Com intervalo 28 38 29 37 42 30 Yi : número de peças produzidas pelo operário i na semana com intervalo 46 Efeito do emparelhamento: eliminar quaisquer distorções que poderiam ser introduzidas ao se comparar indivíduos que diferem com relação a outras variáveis, como idade, sexo, peso, etc. Suponha que os dois grupos de observações possam ser dispostos como a seguir: Variável de interesse: D = Y – X e uma amostra de D é d1, d2, ...dn Amostra 1 Amostra 2 x1 y1 x2 y2 ... ... xn yn di = yi - xi d1 = y1 - x1 d2 = y2 - x 2 ... dn = yn - xn 47 H0: D = 0 H1: D 0 ou D < 0 ou D > 0 O efeito produzido para o i-ésimo indivíduo pode ser representado pela variável diferença Di = Yi - Xi (“com”–“sem”) Supondo Di N(D, D 2), para i = 1, ..., n, numa situação geral, queremos testar as hipóteses: a pausa para o café não produz efeito A pausa aumenta a produtividade a pausa para o café produz algum efeito 48 O parâmetro D é estimado pela média amostral das diferenças: Como não temos informação sobre a variância das diferenças, estimamos seu valor por SD 2, dado por: n i iD n D 1 1 2 1 2 )( 1 1 DD n S i n i D Estatística do teste: nS D T D Sob H0, T tem distribuição t-Student com n-1 graus de liberdade. 49 • A média da amostra fornece uma estimativa por ponto para a verdadeira diferença das médias das populações D Y - X. • Em geral supomos que X e Y têm distribuição normal e, consequentemente, podemos considerar que a distribuição das diferenças tem distribuição normal. Obs.: no caso geral, é necessário uma verificação da suposição de normalidade da diferença Y-X pela análise gráfica e/ou testes de hipóteses. Comentários 50 Voltando ao exemplo, gostaríamos de saber se há alguma evidência estatística de que a pausa para o café aumenta a produtividade. (1) Hipóteses: H0: D = 0 H1: D > 0 que equivale a H0: X = Y H1: X < Y (2) Estatística de teste: . ,~ 0)1( Ht nS D T n D sob (3) Nível de significância: = 5%. 51 Amostra de pares di = yi - xi: 5, 3, 0, 4, -1, -2 (média amostral das diferenças) (desvio padrão das diferenças) 51 6 9 6 6 1 , d d i i 88,2 )( 6 1 2 1-6 i i D dd s (4) Calcular medidas necessárias 2761 6882 51 , , , tobs Sob a hipótese nula H0, T tem distribuição t-Student com 6 -1 = 5 graus de liberdade. (5A) Região Crítica = 5% RC = {T : T 2,015 } 52 (5B) Nível descritivo: P(T 1,276) 0,15 (valor exato: 0,129) não há evidência experimental para concluirmos que a a pausa para um cafezinho melhora a produtividade média. (6) Decidir e concluir (A) tobs RC não se rejeita H0 (B) P > não se rejeita H0 53 Se a hipótesenula H0 é rejeitada: Interesse: Encontrar um intervalo de confiança para D esperado. como ,zero"" o contem caso, neste que, ), 3,87 0,87; - ( ) 2,371,5 ; 2,371,5 ( ) 6 2,88 2,0151,5 ; 6 2,88 2,0151,5 (90%) ;( DμIC )(%)( n s td n s tdμIC Dn D nD 1- 1- ; ; 54 55 volta 56 volta 57
Compartilhar