Baixe o app para aproveitar ainda mais
Prévia do material em texto
Inferência sobre duas populações INFERÊNCIA SOBRE DUAS POPULAÇÕES Comparação de duas médias Vimos anteriormente alguns procedimentos de testes de hipóteses que se relacionam a uma amostra de dados extraída de uma única população. Porém, há estudos em que o objetivo é comparar amostras de dados extraídas de duas populações. Neste caso, é preciso verificar se estas estão ou não relacionadas: • Amostras independentes: a amostra retirada de uma população não tem qualquer ligação com a amostra retirada da outra população. � Ex.: verificar se há diferença no teor de nicotina de cigarros com e sem filtros. • Amostras dependentes ou pareadas: a amostra de uma população tem alguma ligação com a amostra da outra população. � Ex.: observações tomadas na mesma unidade amostral, antes e depois de alguma intervenção.. 2 amostras Amostras dependentes teste t Amostras independentes Variâncias conhecidas teste Z Variâncias desconhecidas Variâncias iguais teste t Variâncias diferentes teste t 1 Inferência sobre duas populações 1 Amostras dependentes (pareadas) Os testes são construídos sob as suposições de que as duas amostras são aleatoriamente selecionadas e as populações são normalmente distribuídas. Parâmetros: µ1 = média da população 1; µ2 = média da população 2 ou µd = µ1 − µ2 = diferença das médias das duas populações. Estrutura dos dados: Amostra constituída de n pares: X1 e X2 correspondem a duas características de uma mesma unidade amostral. Calculam-se então as diferenças entre as medidas das duas caracterís- ticas, para cada par. Unidade amostral (par) X1 X2 Diferenças (d) 1 x11 x21 d1 = x11 − x21 2 x12 x22 d2 = x12 − x22 . . . . . . . . . . . . n x1n x2n dn = x1n − x2n E a partir dos dados da tabela é possível obter: d¯ = média das diferenças e sd = desvio-padrão das diferenças. Hipóteses: Para construir as hipóteses, verifiquemos que µ1 = µ2 → µd = 0. Assim, as estruturas possíveis de hipóteses são: H0 : µd = 0 H0 : µd ≥ 0 H0 : µd ≤ 0 H1 : µd 6= 0 H1 : µd < 0 H1 : µd > 0 Estatística de teste: Tobs = d¯sd/ √ n ∼ tn−1 Região crítica: Ao nível de significância α: Primeiro caso: Hipóteses: H0 : µd ≥ 0 vs H1 : µd < 0 RC= {Tobs : Tobs < −tα} −− tαα µµ 2 Inferência sobre duas populações Segundo caso: Hipóteses: H0 : µd ≤ 0 vs H1 : µd > 0 RC= {Tobs : Tobs > tα} µµ tαα Terceiro caso: Hipóteses: H0 : µd = 0 vs H1 : µd 6= 0 RC= { Tobs : Tobs < −tα/2 ou Tobs > tα/2 } −− tαα 2 µµ tαα 2 Exemplo 1.1: Uma firma de pesquisa de mercado usou uma amostra aleatória de indivíduos para avaliar o potencial de compra de determinado produto antes e depois de as pessoas virem um novo comercial de televisão a respeito do produto em questão. As avaliações do potencial de compra basearam-se em uma escala de 0 a 10, e os valores mais altos indicavam maior potencial de compra. A partir de estudos anteriores, sabe-se que as avaliações do potencial de compra antes e depois de as pessoas virem comerciais são normalmente distribuídas. A hipótese nula declarava que a avaliação média 'depois' seria menor ou igual à avaliação média 'antes'. A rejeição dessa hipótese demonstraria que o comercial melhorou a avaliação do potencial médio de compra. Use α = 0, 05 e os dados apresentados a seguir para testar a hipótese. Indivíduo Depois Antes 1 6 5 2 6 4 3 7 7 4 4 3 5 3 5 6 9 8 7 7 5 8 6 6 Solução: Trata-se de um teste em que as amostras são pareadas, porque as informações foram colhidas do mesmo indi- víduo antes de depois de verem um comercial de televisão a respeito de um produto. Parâmetros: µ1 : Avaliação média antes de assistir ao comercial sobre o produto; µ2 : Avaliação média depois de assistir ao comercial sobre o produto; µd = µ2 − µ1 : Médias das diferenças entre as avaliações depois e antes de assistir ao comercial sobre o produto. Hipóteses: H0 : µ2 ≤ µ1 → µd ≤ 0 vs H1 : µ2 > µ1 → µd > 0 3 1.1 Construção de intervalo de confiança para a média das diferenças Inferência sobre duas populações Cálculo das diferenças: Avaliação de compra Diferenças Indivíduo Depois Antes Depois - Antes 1 6 5 1 2 6 4 2 3 7 7 0 4 4 3 1 5 3 5 -2 6 9 8 1 7 7 5 2 8 6 6 0 Diferença média: 0,625 Desvio-padrão das diferenças: 1,302 Estatística de teste: Tobs = d¯ sd/ √ n = 0,625 1,302/ √ 8 = 1, 357 Região crítica: Como H1 : µd > 0 e α = 0, 05, precisamos encontrar o valor crítico da distribuição t-Student com 7 graus de liberdade (n - 1 = 8 - 1 = 7) que deixe 0,05 de área à sua direita. Este valor crítico é 1,8946. A região crítica então é: RC = {Tobs : Tobs > 1, 8946}. Decisão: Como Tobs = 1, 357 < 1, 8946 → Tobs /∈ RC → Não se rejeita H0. Conclusão: A 5% de significância, não há evidências amostrais de que o comercial de televisão aumente o potencial de compra do produto. 1.1 Construção de intervalo de confiança para a média das diferenças O IC de (1− α)100% de confiança para µd é dado por: IC(1−α)100%(µd) = [ d¯− tα/2 sd√ n ; d¯+ tα/2 sd√ n ] (1) onde tα/2 deve ser obtido na tabela t-Student com n − 1 graus de liberdade tal que P(t > tα/2) = α/2. A quantidade E = tα/2 sd√n é chamada de margem de erro, de modo que o intervalo pode ser obtido, equivalentemente, por: d¯− E < µd < d¯+ E (2) 4 1.2 Decisão via p-valor Inferência sobre duas populações Interpretação: Com (1− α)100% de confiança, o valor de µd está entre d¯− E e d¯+ E. Observação: Construir um intervalo de (1− α)100% de confiança para µd corresponde a realizar o teste bilateral para µd ao nível de significância α. A regra de decisão, neste caso, é: Se µd ∈ [ d¯− tα/2 sd√n ; d¯+ tα/2 sd√n ] → Não se rejeita H0 Se µd /∈ [ d¯− tα/2 sd√n ; d¯+ tα/2 sd√n ] → Rejeita-se H0 No exemplo 1.1: O teste é unilateral, não poderemos conclui-lo pelo intervalo de confiança. Mas podemos construir o intervalo para interpretá-lo, usando α = 0, 05: IC95%(µd) = [ d¯− tα/2 sd√ n ; d¯+ tα/2 sd√ n ] = [ 0, 625− 2, 3646 1, 302√ 8 ; 0, 625 + 2, 3646 1, 302√ 8 ] = [−0, 463; 1, 713] Assim, podemos dizer que, com 95% de confiança, o valor de µd está entre -0,463 e 1,713. 1.2 Decisão via p-valor O p-valor é a probabilidade de ser obtido um valor para a estatística de teste igual ou mais extremo do que o observado na amostra, considerando verdadeira a hipótese nula. Regra de decisão: • Se p-valor < α → H0 deve ser rejeitada, ao nível de significância α. • Se p-valor ≥ α → H0 não deve ser rejeitada, ao nível de significância α. Como calcular o p-valor? H0 : µd ≥ 0 vs H1 : µd < 0 p− valor = P(tn−1 < Tobs) H0 : µd ≤ 0 vs H1 : µd > 0 p− valor = P(tn−1 > Tobs) H0 : µd = 0 vs H1 : µd 6= 0 p− valor = 2P(tn−1 > |Tobs|) Cálculo do p-valor no exemplo 1: Como n=8 e a estatística de teste Tobs = 1, 357, para um teste de comparação de duas médias a partir de amostras pareadas cuja hipótese alternativa é H1 : µd > 0: p-valor = P(tn−1 > Tobs) = P(t7 > 1, 357) > 0, 10 → Não se rejeita H0. 2 Amostras independentes Os testes são construídos sob as seguintes suposições: as duas populações são independentes; as amostras foram aleatoriamente selecionadas em cada população e as populações das quais foram extraídas as amostras X1 e X2 são normalmente distribuídas: X1 ∼ N(µ1, σ21) e X2 ∼ N(µ2, σ22). 5 2.1 Caso 1: Variâncias conhecidas Inferência sobre duas populações Estrutura dos dados: No caso de amostras independentes, teremos estatísticas descritivas para as duas amostras e não mais trabalharemos com as diferenças entre as duas amostras. Outro detalhe impor- tante é que as amostras podem ser de tamanhos diferentes. Amostras X1 X2 Tamanho n1 n2 Média x¯1 x¯2 Desvio-padrão s1 s2 Hipóteses: Estruturas possíveis: H0 : µ1 = µ2 H0 : µ1 ≥ µ2 H0 : µ1 ≤ µ2 H1 : µ1 6= µ2 H1 : µ1 < µ2 H1 : µ1 > µ2 2.1 Caso 1: Variâncias conhecidas Parâmetros: µ1: média da população da qual foi extraída a amostra X1 e µ2: média da população da qual foi extraída a amostra X2. Estatística de teste: Zobs = x¯1−x¯2√ σ21 n1 + σ22 n2 ∼ N(0, 1). Região crítica: Primeiro caso: Hipóteses: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 RC= {Zobs: Zobs < −zα} −− zαα µµ Segundo caso: Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 RC= {Zobs : Zobs > zα} µµ zαα 6 2.1 Caso 1: Variâncias conhecidas Inferência sobre duas populações Terceiro caso: Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2 RC= { Zobs : Zobs < −zα/2 ou Zobs > zα/2 } −− zαα 2 µµ zαα 2 Exemplo 2.1 : Um estudo realizado pela Cornell University dos diferenciais de salário entre homens e mulheres relatou que uma das razões pelas quais os salários dos homens são mais altos que os das mulheres é o fato de os homens tenderem a ter mais anos de experiência no trabalho que as mulheres. Supondo que os resumos amostrais abaixo apresentem os anos de experiência correspondente a cada grupo e que os anos de experiência de homens e mulheres tenham distribuição normal, pode-se dizer, a 5% de significância, que a afirmação do estudo é verdadeira? Homens Mulheres n1 = 100 n2 = 85 x¯1 = 14, 9 anos x¯2 = 10, 3 anos σ1 = 5, 2 anos σ2 = 3, 8 anos Solução: Trata-se de um caso de amostras independentes com variâncias conhecidas. Parâmetros: µ1: tempo médio de experiência (em anos) dos homens e µ2: tempo médio de experiência (em anos) das mulheres. Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2. Estatística de teste: Zobs = x¯1−x¯2√ σ21 n1 + σ22 n2 = 14,9−10,3√ 5,22 100 + 3,82 85 = 6, 933. Região crítica: Como H1 : µ1 > µ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição normal padrão que deixe 0,05 de área à sua direita. O valor crítico é 1,64 e a região crítica é: RC = {Zobs : Zobs > 1, 64}. Decisão: Como Zobs = 6, 933 > 1, 64 → Zobs ∈ RC → Rejeita-se H0. Conclusão: Há evidências amostrais suficientes para apoiar a informação de que o tempo médio de experiência em anos dos homens é maior que o das mulheres, a 5% de significância. 7 2.1 Caso 1: Variâncias conhecidas Inferência sobre duas populações 2.1.1 Construção de intervalo de confiança para µ1 − µ2 O IC de (1− α)100% de confiança para µ1 − µ2 é dado por: IC(1−α)100%(µ1 − µ2) = (x¯1 − x¯2)− zα/2 √ σ21 n1 + σ22 n2 ; (x¯1 − x¯2) + zα/2 √ σ21 n1 + σ22 n2 (3) onde zα/2 deve ser obtido na tabela Normal tal que P(Z > zα/2) = α/2. A margem de erro nesse caso é: E = zα/2 √ σ21 n1 + σ 2 2 n2 e podemos construir o intervalo como (x¯1 − x¯2)− E < µ1 − µ2 < (x¯1 − x¯2) + E. Interpretação: Com (1−α)100% de confiança, o valor de µ1−µ2 está entre (x¯1− x¯2)−E e (x¯1− x¯2)+E. Observação: Construir um intervalo de (1 − α)100% de confiança para µ1 − µ2 corresponde a realizar o teste bilateral para µ1 − µ2 ao nível de significância α. A regra de decisão, neste caso, é: Se 0 ∈ [ (x¯1 − x¯2)− zα/2 √ σ21 n1 + σ 2 2 n2 ; (x¯1 − x¯2) + zα/2 √ σ21 n1 + σ 2 2 n2 ] → Não se rejeita H0 Se 0 /∈ [ (x¯1 − x¯2)− zα/2 √ σ21 n1 + σ 2 2 n2 ; (x¯1 − x¯2) + zα/2 √ σ21 n1 + σ 2 2 n2 ] → Rejeita-se H0 No exemplo 2.1: O teste é unilateral, não poderemos conclui-lo pelo intervalo de confiança. Mas podemos construir o intervalo para interpretá-lo, usando α = 0, 05: IC95%(µ1 − µ2) = (x¯1 − x¯2)− zα/2 √ σ21 n1 + σ22 n2 ; (x¯1 − x¯2) + zα/2 √ σ21 n1 + σ22 n2 = (14, 9− 10, 3)− 1, 96 √ 5, 22 100 + 3, 82 85 ; (14, 9− 10, 3) + 1, 96 √ 5, 22 100 + 3, 82 85 = [3, 299; 5, 901] Assim, podemos dizer que, com 95% de confiança, o valor de µ1 − µ2 está entre 3,299 e 5,901. 2.1.2 Decisão via p-valor A regra de decisão é a mesma apresentada na seção 1.1. Neste caso, o cálculo do p-valor será feito da seguinte forma: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 p− valor = P(Z < Zobs) H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 p− valor = P(Z > Zobs) H0 : µ1 = µ2 vs H1 : µ1 6= µ2 p− valor = 2P(Z > |Zobs|) Cálculo do p-valor no exemplo 2: Como a estatística de teste Zobs = 6, 933, para um teste de comparação de duas médias a partir de amostras independentes com variâncias conhecidas cuja hipótese alternativa é H1 : µ1 > µ2: p-valor = P(Z > Zobs) = P(Z > 6, 933) < 0, 001 → Rejeita-se H0. 8 2.2 Comparação de duas variâncias Inferência sobre duas populações 2.2 Comparação de duas variâncias Em alguns estudos é necessário testar se duas populações independentes possuem variâncias iguais. Este teste é usado, por exemplo, no caso em que se deseja comparar médias de populações independentes com variâncias desconhecidas, para determinar se deve ser usado o teste t para variâncias iguais ou o teste t para variâncias diferentes. Estrutura dos dados: Por se tratar de amostras independentes, segue a mesma estrutura apresentada na seção 2. Para este teste, porém, deve-se adotar s1 obrigatoriamente como a maior das duas variâncias amostrais. Consequentemente, n1 e σ 2 1 serão, respectivamente, o tamanho da amostra e a variância da população da qual foi extraída a amostra que apresentou maior variância. Amostras X1 X2 Tamanho n1 n2 Média x¯1 x¯2 Desvio-padrão s1 s2 Parâmetros: σ21 : variância da população da qual foi extraída a amostra com maior variância e σ 2 2 : var- iância da outra população. Hipóteses: Estudaremos apenas o teste bilateral para variâncias, porque nos interessa saber apenas se são iguais ou diferentes para aplicarmos o teste t para comparação de médias. Observemos que as duas estruturas de hipóteses apresentadas abaixo são equivalentes: H0 : σ21 = σ 2 2 H0 : σ1 = σ2 H1 : σ21 6= σ22 H1 : σ1 6= σ2 Estatística de teste: Fobs = s21 s22 ∼ F(n1−1;n2−1) A distribuição F tem as seguintes características: É assimétrica, os valores da distribuição F não podem ser negativos, a forma da distribuição F depende de dois graus de liberdade diferentes. Região crítica: Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2 RC= { Fobs : Fobs > f1−α/2 } f1−−αα 2 Observemos que, assim como no teste de comparação de médias do tipo bilateral, no teste bilateral de variâncias também dividimos o nível de significância α em dois e determinamos os valores críticos como sendo os valores tabelados que deixam α/2 de área acima e α/2 de área abaixo deles. Porém, a estatística de teste foi definida de forma assumir apenas valores maiores que 1, de modo que a evidência contra H0 9 2.2 Comparação de duas variâncias Inferência sobre duas populações será encontrada apenas para valores 'grandes' de Fobs. Por isso, apesar de ser um teste bilateral, precisamos encontrar apenas um valor crítico, o que deixa α/2 de área acima dele. O valor f(1−α/2) pode ser encontrado na tabela da distribuição F com (n1 − 1) graus de liberdade no numerador e (n2 − 1) graus de liberdade no denominador, tal que P(F > f(1−α/2)) = α/2. Exemplo 2.2 : Em um estudo sobre salários de comissários de bordo, selecionaram-se aleatoriamente salários pagos por duas companhias diferentes. Para 40 comissários de bordo da American Airlines, a média é de $23.870 e o desvio-padrão $2.960. Para 35 comissários de bordo da TWA, a média é $22.025 e o desvio- padrão $3.065. No nível de significância de 10%, teste a afirmação de que os salários da American Airlines e da TWA têm o mesmo desvio-padrão. TWA American Airlines n1 = 35 n2 = 40 x¯1 = $22.025 x¯2 = $23.870 s1 = $3.065 s2 = $2.960 Solução: Seja X1 : salários dos comissários da TWA (população da qual se extraiu a amostra com maior variância) e X2 : salários dos comissários da American Airlines. Parâmetros: σ1: desvio-padrão dos salários dos comissários da TWA e σ2: desvio-padrão dos salários dos comissários da American Airlines. Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2. Estatística de teste: Fobs = s21 s22 = 3.065 2 2.9602 = 1, 072. Região crítica: Como H1 : σ1 6= σ2 e α = 0, 10, é preciso encontrar o valor crítico da distribuição F com n1 − 1 = 34 graus de liberdade no numerador e n2 − 1 = 39 graus de liberdade no denominador que deixe 0,05 de área à sua direita. O valor crítico é 1,7444 e a região crítica é: RC = {Fobs : Fobs > 1, 7444}. Decisão: Como Fobs = 1, 072 < 1, 7444 → Fobs /∈ RC → Não se rejeita H0. Conclusão: Há evidências amostrais suficientes para apoiar a informação de que o desvio-padrão dos salários dos comissários da TWA e da American Airlines são iguais, a 10% de significância. 10 2.3 Caso 2: Variânciasdesconhecidas e iguais Inferência sobre duas populações 2.3 Caso 2: Variâncias desconhecidas e iguais Este teste se aplica quando a hipótese nula H0 : σ1 = σ2 do teste das variâncias não é rejeitada, e é construído sob as seguintes suposições: as duas populações são independentes e normalmente distribuídas e as amostras foram aleatoriamente selecionadas em cada população. Parâmetros: µ1: média da população da qual foi extraída a amostra X1 e µ2: média da população da qual foi extraída a amostra X2. Estatística de teste: Tobs = x¯1−x¯2√ S2p n1 + S2p n2 ∼ tn1+n2−2, onde S2p = (n1−1)S 2 1+(n2−1)S22 n1+n2−2 . Região crítica: Primeiro caso: Hipóteses: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 RC= {Tobs : Tobs < −tα} −− tαα µµ Segundo caso: Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 RC= {Tobs : Tobs > tα} µµ tαα Terceiro caso: Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2 RC= { Tobs : Tobs < −tα/2 ou Tobs > tα/2 } −− tαα 2 µµ tαα 2 11 2.3 Caso 2: Variâncias desconhecidas e iguais Inferência sobre duas populações Exemplo 2.3 : Pesquisadores estão testando sistemas comerciais de filtragem de ar fabricados pela Winston e pela Barrington. Testam-se amostras aleatórias de cada companhia, registrando-se a eficiência da filtragem em uma escala padrão, onde os escores mais altos correspondem a melhor filtragem, com os seguintes resultados: Winston Barrington n1 = 18 n2 = 24 x¯1 = 85, 7 x¯2 = 80, 6 s1 = 2, 8 s2 = 4, 1 Ao nível de significância de 0,05 teste a afirmação de que ambos os sistemas têm a mesma eficiência média. Solução: Estamos em um caso de comparação de duas médias de populações com variâncias desconhecidas. Precisaremos primeiro testar as variâncias para saber se podemos assumí-las iguais ou diferentes. TESTE DAS VARIÂNCIAS Parâmetros: σ1 = Desvio-padrão dos escores de eficiência na filtragem da Barrington (maior desvio-padrão amostral) e σ2 = Desvio-padrão dos escores de eficiência na filtragem da Winston. Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2. Estatística de teste: Fobs = s21 s22 = 4,1 2 2,82 = 2, 144. Região crítica: Como H1 : σ1 6= σ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição F com n1 − 1 = 23 graus de liberdade no numerador e n2 − 1 = 17 graus de liberdade no denominador que deixe 0,025 de área à sua direita. O valor crítico é 2,5598 e a região crítica é: RC = {Fobs : Fobs > 2, 5598}. Decisão: Como Fobs = 2, 144 < 2, 5598 → Fobs /∈ RC → Não se rejeita H0. Conclusão: A 5% de significância, há evidências de que os desvios-padrão dos escores de eficiência da Barrington e da Winston sejam iguais. Podemos então aplicar o teste para comparação de médias, no caso de variâncias desconhecidas e iguais. 12 2.3 Caso 2: Variâncias desconhecidas e iguais Inferência sobre duas populações TESTE DAS MÉDIAS Parâmetros: µ1 = Escore médio de eficiência da Winston e µ2 = Escore médio de eficiência da Barrington. Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2. Estatística de teste: Precisamos calcular o valor da variância combinada S2p , para substituirmos na estatística de teste. S2p = (n1−1)S21+(n2−1)S22 n1+n2−2 = 17×2,82+23×4,12 18+24−2 = 12, 998. Tobs = x¯1−x¯2√ S2p n1 + S2p n2 = 85,7−80,6√ 12,998 18 + 12,998 24 = 4, 537 Região crítica: Como H1 : µ1 6= µ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição t-Student com n1 +n2−2 = 18 + 24− 2 = 40 graus de liberdade que deixe 0,025 de área à sua direita. O valor crítico é 2,0211 porque o teste é bilateral, e a região crítica é: RC = {Tobs : Tobs < −2, 0211 ou Tobs > 2, 0211}. Decisão: Como Tobs = 4, 537 > 2, 0211 → Tobs ∈ RC → Rejeita-se H0. Conclusão: A 5% de significância existem evidências amostrais de que os escores médios de eficiência das empresas Win- ston e Barrington sejam diferentes. 2.3.1 Construção de intervalo de confiança para a diferença das médias O IC de (1− α)100% de confiança para µ1 − µ2 é dado por: IC(1−α)100%(µ1 − µ2) = [ (x¯1 − x¯2)− tα/2 √ S2p ( 1 n1 + 1 n2 ) ; (x¯1 − x¯2) + tα/2 √ S2p ( 1 n1 + 1 n2 )] (4) onde tα/2 deve ser obtido na tabela t-Student com n1 +n2−2 graus de liberdade tal que P(t > tα/2) = α/2. A margem de erro neste caso é E = tα/2 √ S2p ( 1 n1 + 1n2 ) e o IC pode ser obtido também por (x¯1− x¯2)−E < µ1 − µ2 < (x¯1 − x¯2) + E. Interpretação: Com (1−α)100% de confiança, o valor de µ1−µ2 está entre (x¯1− x¯2)−E e (x¯1− x¯2)+E. Observação: Construir um intervalo de (1 − α)100% de confiança para µ1 − µ2 corresponde a realizar o teste bilateral para µ1 − µ2 ao nível de significância α. A regra de decisão, neste caso, é: Se 0 ∈ [ (x¯1 − x¯2)− tα/2 √ S2p ( 1 n1 + 1n2 ) ; (x¯1 − x¯2) + tα/2 √ S2p ( 1 n1 + 1n2 )] → Não se rejeita H0 13 2.4 Caso 3: Variâncias desconhecidas e diferentes Inferência sobre duas populações Se 0 /∈ [ (x¯1 − x¯2)− tα/2 √ S2p ( 1 n1 + 1n2 ) ; (x¯1 − x¯2) + tα/2 √ S2p ( 1 n1 + 1n2 )] → Rejeita-se H0 No exemplo 2.3: Como desejamos realizar um teste bilateral (hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2), podemos realizar o teste, a 5% de significância, construindo um intervalo de 95% de confiança. Calculemos primeiro a margem de erro: E = tα/2 √ S2p ( 1 n1 + 1 n2 ) = 2, 0211 √ 12, 998 ( 1 18 + 1 24 ) = 2, 272 E então o IC será: IC95%(µ1 − µ2) = [(x¯1 − x¯2)− E; (x¯1 − x¯2) + E] = [(85, 7− 80, 6)− 2, 272; (85, 7− 80, 6) + 2, 272] = [2, 828; 7, 372] Como 0 /∈ IC → Rejeita-se H0. A interpretação do IC é: com 95% de confiança podemos inferir que a diferença da eficiência média das duas companhias esteja entre 2,828 e 7,372. 2.4 Caso 3: Variâncias desconhecidas e diferentes Este teste se aplica quando a hipótese nula H0 : σ1 = σ2 do teste das variâncias é rejeitada, e é construído sob as seguintes suposições: as duas populações são independentes e normalmente distribuídas e as amostras foram aleatoriamente selecionadas em cada população. Parâmetros: µ1: média da população da qual foi extraída a amostra X1 e µ2: média da população da qual foi extraída a amostra X2. Estatística de teste: Tobs = x¯1−x¯2√ S21 n1 + S21 n2 ∼ tn∗ , onde n∗ = min {n1 − 1, n2 − 1}. Região crítica: Primeiro caso: Hipóteses: H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 RC= {Tobs : Tobs < −tα} −− tαα µµ Segundo caso: Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 RC= {Tobs : Tobs > tα} µµ tαα 14 2.4 Caso 3: Variâncias desconhecidas e diferentes Inferência sobre duas populações Terceiro caso: Hipóteses: H0 : µ1 = µ2 vs H1 : µ1 6= µ2 RC= { Tobs : Tobs < −tα/2 ou Tobs > tα/2 } −− tαα 2 µµ tαα 2 Exemplo 2.4 : Periodicamente, os clientes da Merrill Lynch são convidados a avaliar os consultores e os serviços financeiros dessa empresa. Avaliações mais elevadas sobre a satisfação do cliente indicam um atendimento melhor, sendo 7 nota máxima. Amostras independentes de avaliações do serviço prestado por dois consultores financeiros estão resumidas aqui. O consultor A tem dez anos de experiência, enquanto que o consultor B tem um ano de experiência. Use α = 0,05 e teste a afirmação de que o consultor com mais experiência possui avaliação melhor que o consultor com menos experiência. Consultor A Consultor B n1 = 16 n2 = 10 x¯1 = 6, 82 x¯2 = 6, 25 s1 = 0, 32 s2 = 0, 75 Solução: Estamos em um caso de comparação de duas médias de populações com variâncias desconhecidas. Precisaremos primeiro testar as variâncias para saber se podemos assumí-las iguais ou diferentes. TESTE DAS VARIÂNCIAS Parâmetros: σ1 : Desvio-padrão da avaliação do consultor B (maior desvio-padrão amostral) e σ2 : = Desvio-padrão da avaliação do consultor A. Hipóteses: H0 : σ1 = σ2 vs H1 : σ1 6= σ2. Estatística de teste: Fobs = s21 s22 = 0,75 2 0,322 = 5, 493. Região crítica: Como H1 : σ1 6= σ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição F com n1 − 1 = 9 graus de liberdade no numerador e n2 − 1 = 15 graus de liberdade no denominador que deixe 0,025 de área à sua direita. O valor crítico é 3,1227 e a região crítica é: RC = {Fobs : Fobs > 3, 1227}. Decisão: Como Fobs = 5, 493 > 3, 1227 → Fobs ∈ RC → Rejeita-se H0. 15 2.4 Caso 3: Variânciasdesconhecidas e diferentes Inferência sobre duas populações Conclusão: A 5% de significância, há evidências de que os desvios-padrão das avaliações dos consultores A e B sejam diferentes. Podemos então aplicar o teste para comparação de médias, no caso de variâncias desconhecidas e diferentes. TESTE DAS MÉDIAS Parâmetros: µ1 : avaliação média do Consultor A e µ2 : = avaliação média do Consultor B. Hipóteses: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2. Estatística de teste: Tobs = x¯1−x¯2√ S21 n1 + S21 n2 = 6,82−6,25√ 0,322 16 + 0,752 10 = 2, 277 Região crítica: Como H1 : µ1 > µ2 e α = 0, 05, é preciso encontrar o valor crítico da distribuição t-Student com n∗ = min {n1 − 1, n2 − 1} = min {16− 1, 10− 1} = 9 graus de liberdade que deixe 0,05 de área à sua direita. O valor crítico é 1,8331, e a região crítica é: RC = {Tobs > 1, 8331}. Decisão: Como Tobs = 2, 277 > 1, 8331 → Tobs ∈ RC → Rejeita-se H0. Conclusão: Há evidências amostrais suficientes para apoiar a informação de que o consultor com mais experiência possui avaliação melhor que o consultor com menos experiência, a 5% de significância. 2.4.1 Construção de intervalo de confiança para a diferença das médias O IC de (1− α)100% de confiança para µ1 − µ2 é dado por: IC(1−α)100%(µ1 − µ2) = (x¯1 − x¯2)− tα/2 √ s21 n1 + s22 n2 ; (x¯1 − x¯2) + tα/2 √ s21 n1 + s22 n2 (5) onde tα/2 deve ser obtido na tabela t-Student com n ∗ graus de liberdade tal que P(t > tα/2) = α/2. A margem de erro neste caso é E = tα/2 √ s21 n1 + s 2 2 n2 e o IC pode ser obtido também por (x¯1 − x¯2) − E < µ1 − µ2 < (x¯1 − x¯2) + E. Interpretação: Com (1−α)100% de confiança, o valor de µ1−µ2 está entre (x¯1− x¯2)−E e (x¯1− x¯2)+E. Observação: Construir um intervalo de (1 − α)100% de confiança para µ1 − µ2 corresponde a realizar o teste bilateral para µ1 − µ2 ao nível de significância α. A regra de decisão, neste caso, é: Se 0 ∈ [ (x¯1 − x¯2)− tα/2 √ s21 n1 + s 2 2 n2 ; (x¯1 − x¯2) + tα/2 √ s21 n1 + s 2 2 n2 ] → Não se rejeita H0 16 Inferência sobre duas populações Se 0 /∈ [ (x¯1 − x¯2)− tα/2 √ s21 n1 + s 2 2 n2 ; (x¯1 − x¯2) + tα/2 √ s21 n1 + s 2 2 n2 ] → Rejeita-se H0 No exemplo 2.4: O teste é unilateral, não poderemos conclui-lo pelo intervalo de confiança. Mas podemos construir o intervalo para interpretá-lo, usando α = 0,05: E = tα/2 √( s21 n1 + s22 n2 ) = 2, 2622 √( 0, 322 16 + 0, 752 10 ) = 0, 566. E então o IC será: IC95%(µ1 − µ2) = [(x¯1 − x¯2)− E; (x¯1 − x¯2) + E] = [(6, 82− 6, 25)− 0, 566; (6, 82− 6, 25) + 0, 566] = [0, 004; 1, 136] Com 95% de confiança podemos inferir que a diferença da avaliação média dos dois consultores está entre 0,004 a 1,136. 3 Comparação de duas proporções Vimos anteriormente testes para comparação de duas populações quando os parâmetros de interesse eram médias ou variâncias. Veremos agora o procedimento para comparar duas populações em relação ao parâmetro proporção, para duas amostras independentes. Parâmetros: p1: Proporção da população da qual foi extraída a amostra 1 e p2: Proporção da população da qual foi extraída a amostra 2. Estrutura dos dados: Amostra 1 Amostra 2 Tamanho n1 n2 N o sucessos m1 m2 Proporção amostral de sucessos pˆ1 = m1 n1 pˆ2 = m2 n2 Hipóteses: Estruturas possíveis: H0 : p1 = p2 H0 : p1 ≥ p2 H0 : p1 ≤ p2 H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2 Estatística de teste: Zobs = pˆ1−pˆ2√ p¯(1−p¯) ( 1 n1 + 1n2 ) ∼ N(0, 1), onde p¯ = m1+m2n1+n2 . Região crítica: 17 Inferência sobre duas populações Primeiro caso: Hipóteses: H0 : p1 ≥ p2 vs H1 : p1 < p2 RC= {Zobs : Zobs < −zα} −− zαα µµ Segundo caso: Hipóteses: H0 : p1 ≤ p2 vs H1 : p1 > p2 RC= {Zobs : Zobs > zα} µµ zαα Terceiro caso: Hipóteses: H0 : p1 = p2 vs H1 : p1 6= p2 RC= { Zobs : Zobs < −zα/2 ou Zobs > zα/2 } −− zαα 2 µµ zαα 2 Exemplo 3.1 : Karl Pearson coletou dados sobre crimes em 1909. Dos indivíduos condenados por incêndio criminoso, 50 faziam uso de bebidas alcoólicas e 43 eram abstêmios. Dos condenados por crimes de fraude, 63 eram usuários de bebidas alcoólicas e 144 eram abstêmios. Com o nível de 0,01 de significância, teste a afirmação de que a proporção dos alcoólatras entre os condendados por incêndio é maior do que entre os condenados por fraude. Solução: Parâmetros: p1: = proporção dos indivíduos que bebem entre os condenados por incêndio criminoso e p2: proporção dos indivíduos que bebem entre os condenados por fraude. Hipóteses: H0 : p1 ≤ p2 vs H1 : p1 > p2. Amostras Condenados por incêndio criminoso Condenados por fraude Tamanho n1 = 93 n2 = 207 N o sucessos m1 = 50 m2 = 63 Proporção de sucessos pˆ1 = m1 n1 = 50 93 = 0, 538 pˆ2 = 63 207 = 0, 304 Estatística de teste: Precisamos calcular primeiro o p¯ = m1+m2 n1+n2 = 50+63 93+207 = 0, 377. Zobs = pˆ1−pˆ2√ p¯(1−p¯) ( 1 n1 + 1 n2 ) = 0,538−0,304√ 0,377(1−0,377)( 193+ 1207 ) = 3, 868. Região crítica: Como H1 : µ1 > µ2 e α = 0, 01, é preciso encontrar o valor crítico da distribuição normal padrão que 18 3.1 Construção de intervalo de confiança para p1 − p2 Inferência sobre duas populações deixe 0,01 de área à sua direita. O valor crítico é 2,33 e a região crítica é: RC = {Zobs : Zobs > 2, 33}. Decisão: Como Zobs = 3, 868 > 2, 33 → Zobs ∈ RC → Rejeita-se H0. Conclusão: A 1% de significância, há evidências amostrais de que a proporção de consumidores de bebida alcoólica entre os condenados por incêndio criminoso é maior que a proporção de consumidores de bebida alcoólica entre os condenados por fraude. 3.1 Construção de intervalo de confiança para p1 − p2 O IC de (1− α)100% de confiança para p1 − p2 é dado por: IC(1−α)100%(p1 − p2) = [ (pˆ1 − pˆ2)− zα/2 √ p¯(1− p¯) ( 1 n1 + 2 n2 ) ; (pˆ1 − pˆ2) + zα/2 √ p¯(1− p¯) ( 1 n1 + 1 n2 )] (6) onde zα/2 deve ser obtido na tabela Normal tal que P(Z > zα/2) = α/2. A margem de erro nesse caso é: E = zα/2 √ p¯(1− p¯) ( 1 n1 + 1n2 ) e podemos construir o intervalo como (pˆ1− pˆ2)−E < p1−p2 < (pˆ1− pˆ2)+E. Interpretação: Com (1−α)100% de confiança, o valor de p1− p2 está entre (pˆ1− pˆ2)−E e (pˆ1− pˆ2) +E. Observação: Construir um intervalo de (1 − α)100% de confiança para p1 − p2 corresponde a realizar o teste bilateral para p1 − p2 ao nível de significância α. A regra de decisão, neste caso, é: Se 0 ∈ [ (pˆ1 − pˆ2)− zα/2 √ p¯(1− p¯) ( 1 n1 + 2n2 ) ; (pˆ1 − pˆ2) + zα/2 √ p¯(1− p¯) ( 1 n1 + 1n2 )] → Não se rejeita H0 Se 0 /∈ [ (pˆ1 − pˆ2)− zα/2 √ p¯(1− p¯) ( 1 n1 + 2n2 ) ; (pˆ1 − pˆ2) + zα/2 √ p¯(1− p¯) ( 1 n1 + 1n2 )] → Rejeita-se H0 No exemplo 3.1: O teste é unilateral, não poderemos conclui-lo pelo intervalo de confiança. Mas podemos construir o intervalo para interpretá-lo, usando α = 0,01, a margem de erro será: E = zα/2 √ p¯(1− p¯) ( 1 n1 + 2 n2 ) = 2, 58 √ 0, 377(1− 0, 377) ( 1 93 + 2 207 ) = 0, 156. E então o IC será: IC99%(p1−p2) = [ (pˆ1 − pˆ2)∓ zα/2 √ p¯(1− p¯) ( 1 n1 + 2 n2 )] = [(0, 538− 0, 304)− 0, 156; (0, 538− 0, 304) + 0, 156] = [0, 078; 0, 390] Com 99% de confiança podemos inferir que p1 − p2 está entre 0,078 a 0,390. 19
Compartilhar