Baixe o app para aproveitar ainda mais
Prévia do material em texto
INFERÊNCIA ESTATÍSTICA PARA DUAS POPULAÇÕES 2 nXX ,,1 mYY ,,1 n NX 2 1 1 ,~ m NY 2 2 2 ,~ População 1 População 2 mn NYX 2 2 2 1 21 ,~ 1. Populações independentes com distribuição normal Obs. Se a distribuição de X e/ou Y não for normal, os resultados são válidos aproximadamente. 3 Bilateral ,:H direita À :H esquerda À :H :H :H :H 021102110211 021002100210 sendo que 0 é uma constante conhecida (valor de teste). 0 = 0 corresponde à igualdade das duas médias. Testes de hipóteses sobre 1 – 2 X1,,Xn é uma amostra aleatória de tamanho n de uma população com distribuição normal com média 1 e variância 1 2. Y1,,Ym é uma amostra aleatória de tamanho m de uma população com distribuição normal com média 2 e variância 2 2. As duas populações são independentes. (i) Formulação das hipóteses: 4 (ii) Estatística de teste (a) 2 2 2 1 e conhecidas: ).1,0( ~ 0 Hsob 2 2 2 1 0 N mn YX Z (b) 22 2 2 1 desconhecida: , 11 2 2 0 ~ 0 Hsob mn p t mn S YX T 2 )1()1( que em 2 2 2 12 mn SmSn S p é a variância combinada (pooled variance), m i i n i i YY m SXX n S 1 22 2 1 22 1 .)( 1 1 e )( 1 1 Testes de hipóteses sobre 1 – 2 (c) 2 2 2 1 , ambas desconhecidas: mente,aproximada ,~ 0 Hsob 2 2 2 1 0 gt m S n S YX T . 1 )/( 1 )/( que em 22 2 22 1 2 2 2 2 1 m mS n nS m S n S g (distribuição t de Student com n + m – 2 g.l.) 5 (iii) Região crítica para um nível de significância escolhido: cZR Zc )( cTR Tc )( cZR Zc )( cTR Tc )( cZR Zc )( cTR Tc )( (iv) Se Z RC ou T RC , rejeita-se Ho; caso contrário, não se rejeita H0. H1: 1 – 2 < 0 H1: 1 – 2 > 0 H1: 1 – 2 0 Testes de hipóteses sobre 1 – 2 Obs. Nas regiões críticas com Z e T o valor de c não é o mesmo. 6 ).,(,),,(),,( :Pares 2211 nn YXYXYX .,~ 2 n ND DD População 1 População 2 2. Populações dependentes com distribuição normal Obs. Se a distribuição de D não for normal, o resultado é válido aproximadamente. Diferença: D = X – Y com D = E(X – Y) = E(X) – E(Y) = 1 – 2 e var(D) = D 2. Calculamos D1 = X1 – Y1,..., Dn = Xn – Yn, .)( 1 1 e 1 2 1 2 1 DD n sYXD n D i n i D n i i Distribuição: 7 Bilateral ,:H direita À :H esquerda À :H :H :H :H 010101 000000 DDD DDD sendo que 0 é uma constante conhecida (valor de teste). 0 = 0 corresponde à igualdade das duas médias (D = 1 – 2). Testes de hipóteses sobre 1 – 2 D1,,Dn é uma amostra aleatória de tamanho n de uma população com distribuição normal com média D e variância D 2. (i) Formulação das hipóteses: (ii) Estatística de teste: . )( 1 0 ~ 0 Hsob n D t s Dn T (distribuição t de Student com n – 1 g.l.) 8 (iii) Região crítica para um nível de significância escolhido: cTRc cTRc cTRc (iv) Se T RC , rejeita-se Ho; caso contrário, não se rejeita H0. H1: D < 0 H1: D > 0 H1: D 0 Testes de hipóteses sobre 1 – 2 Obs. Conhecido como teste t pareado ou emparelhado (paired t test). 9 nXX ,,1 mYY ,,1 mente.aproximada , )1( ,~ 1111 n pp pNp mente,aproximada , )1()1( ,~ 22112121 m pp n pp ppNpp 3. Populações independentes com distribuição Bernoulli mente.aproximada , )1( ,~ 2222 m pp pNp m i i n i i Y m pX n p 1 2 1 1 sucesso. de amostrais proporções as são 1 e 1 que em 10 .:H:H:H :H :H :H Bilateraldireita Àesquerda À 211211211 210210210 pppppp pppppp (ii) Estatística de teste: mente,aproximada ),1,0( 11 )1( 0 Hsob ~21 N mn pp pp Z Testes de hipóteses sobre p1 – p2 X1,,Xn é uma amostra aleatória de tamanho n de uma população com distribuição Bernoulli com probabilidade de sucesso p1. Y1,,Ym é uma amostra aleatória de tamanho m de uma população com distribuição Bernoulli com probabilidade de sucesso p2. As duas populações são independentes. (i) Formulação das hipóteses: . que em 2111 mn pmpn mn YX p m i i n i i 11 Exemplo 1 Calculamos A região crítica para = 0,05 é obtida consultando a tabela da distribuição t de Student com g = 16 g.l.: Rc = { |T| > 2,120}. Como |T| = 2,972 Rc, rejeitamos H0. ., m S n S YX T 9722 10 0290,0 12 0142,0 63,3082,300 2 2 2 1 Conclusão. De acordo com os dados coletados e com um nível de significância de 5%, verificamos que há diferença entre os volumes médios envasados pelas duas máquinas. 12 (iii) Região crítica para um nível de significância escolhido: cZRc cZRc cZRc (iv) Se Z RC, rejeita-se Ho; caso contrário, não se rejeita H0. H1: p1 < p2 H1: p1 > p2 H1: p1 p2 Testes de hipóteses sobre p1 – p2 13 De forma análoga ao Cap. 7, um intervalo de confiança (IC) aproximado de 100(1 – )% para p1 – p2 é dado por ],;[];[IC 2121 EppEppUL . )1()1( 2211 2/ m pp n pp zE IC para p1 – p2 . 21 pp Estimador pontual para p1 – p2: sendo que E é o erro máximo do IC: 14 IC para p1 – p2 e testes de hipóteses O teste da hipótese H0: p1 = p2 contra H1: p1 p2 a um nível de significância pode ser efetuado utilizando um IC com coeficiente de confiança igual a 1 – . Se 0 IC, rejeitamos H0; caso contrário, não rejeitamos H0. Construímos o IC de 100(1-)% para p1 – p2 , dado por ],;[];[ EYXEYXUL sendo que no cálculo do erro máximo (E) utilizamos a lâmina 16. 15 Duas máquinas são utilizadas para envasar um líquido em frascos de plástico. Com o objetivo de verificar se há diferença entre os volumes médios envasados, duas amostras de 12 e 10 frascos foram selecionadas. Os volumes (em ml) foram medidos resultando nos seguintes valores : Exemplo 1 Solução. Problema envolve duas médias de variáveis contínuas. Definimos X e Y como sendo os volumes envasados pelas máquinas 1 e 2, tais que E(X) = 1, var(X) = 1 2, E(Y) = 2 e var(Y) = 2 2. Hipóteses: H0: 1 = 2 contra H1: 1 2 (ou seja, 0 = 0). Utilizando os dados coletados, qual o resultado da verificação. Adote = 5%. Máquina 1:30,9, 30,9, 30,8, 30,7, 30,9, 30,6, 30,8, 30,9, 30,7, 30,9, 30,7 e 31,0; Máquina 2: 30,8, 30,9, 30,7, 30,5, 30,5, 30,6, 30,7, 30,3, 30,6 e 30,7. 16 Exemplo 1 Análise exploratória: 17 Exemplo 1 Estatística de teste (variâncias diferentes e desconhecidas): Utilizando os dados coletados calculamos . 0 2 2 2 1 m S n S YX T ml, 63,30 10 306,3 10 ml, 82,30 12 369,8 12 10 11 12 11 i i m i ii i n i i Y m Y Y X n X X m i i ii n i i ii YYY m S XXX n S 1 2 10 1 222 2 1 2 12 1 222 1 e ml 0,0290 )63,30( 110 1 )( 1 1 ,ml 0,0142 )82,30( 112 1 )( 1 1 .16 110 )10/0290,0( 112 )12/0142,0( 10 0290,0 12 0142,0 1 )/( 1 )/( 22 2 22 2 22 1 2 2 2 2 1 m mS n nS m S n S g 18 Dois tipos de solução de polimento estão sendo avaliados para possível uso na fabricação de lentes intra-oculares. Trezentas lentes foram polidas usando a primeira solução de polimento e, desse número 217 não apresentaram defeitos causados pelo polimento. Outras 250 lentes foram polidas usando a segunda solução de polimento, sendo que 162 lentes foram consideradas satisfatórias. Há motivo para acreditar que as duas soluções diferem quanto aos defeitos causados quando usadas em polimentos? Adote = 0,01. Exemplo 2 Solução. Problema envolve duas proporções. Uma peça não apresentar defeitos causados pelo polimento é o evento sucesso. Definimos Xi = 1 se ocorre sucesso quando a solução 1 é usada; Xi = 0, caso contrário, com P(Xi = 1) = p1, i = 1,..., n (n = 300). Definimos Yi = 1 se ocorre sucesso quando a solução 2 é usada; Yi = 0, caso contrário, com P(Yi = 1) = p2, i = 1,..., m (m = 250). Hipóteses: H0: p1 = p2 contra H1: p1 p2. 19 .90,1 250 1 300 1 )689,01(689,0 648,0723,0 Z Exemplo 2 Estatística de teste: Pelo enunciado, ,689,0 250300 162217 e 648,0 250 162 ,723,0 300 217 111 2 1 1 mn YX p m Y p n X p m i i n i i m i i n i i de modo que . 11 )1( 21 mn pp pp Z A região crítica para = 0,01 é obtida consultando a tabela da distribuição normal padrão: Rc = {|Z| > 2,58}. Como |Z| = 1,90 Rc, não rejeitamos H0. Conclusão. De acordo com os dados coletados e com um nível de significância de 1%, não há motivo para acreditar que as duas soluções diferem quanto aos defeitos causados quando usadas em polimentos. 20 4. Nível descritivo ou p-valor No exemplo 1 (lâmina 18) a região crítica é da forma Rc = {|T| > c}, sendo que, se H0 for verdadeira, T tem distribuição t de Student com 16 g.l. Com os dados coletados calculamos Se adotarmos c = |T| = 2,972 obtemos Rc = {|T| > 2,972} e a probabilidade do erro tipo I é P(|T| > 2,972; H0 verdadeira) = P(|T| > 2,972; 1 = 2) = 0,0090 = 0,9%. 0,0090 é chamado de probabilidade de significância, nível descritivo, p-valor (p- value) ou p. Em Excel: =DISTT(2,972; 16; 2). ., m S n S YX T 9722 2 2 2 1 21 4. Nível descritivo ou p-valor Como o nível de significância é a probabilidade de um erro tipo I (rejeição de H0 verdadeira), quanto menor for p-valor, mais fortemente rejeitamos H0. Quanto menor for p-valor, mais evidência contra H0 (e vice-versa). No exemplo 2 (lâmina 22) a região crítica é da forma Rc = {|Z| > c}, sendo que Z tem distribuição N(0,1), se H0 for verdadeira. Com os dados coletados calculamos |Z| = 1,90. Neste caso, valor-p = P(|Z| > 1,90) = 2 P(Z < – 1,90) = 2 0,0287 = 0,0574. Escolhemos o nível de significância (). Calculamos o valor-p. Se p-valor < , rejeitamos H0; se p-valor , não rejeitamos H0. No exemplo 2, se = 5% o resultado do teste seria inconclusivo. 22 Exemplo 3 Em um teste de dureza uma esfera de aço é pressionada contra a superfície de um bloco de material a uma carga padrão. Mede-se o diâmetro (em mm) da cavidade produzida, que está relacionado à dureza do material da superfície. Na realização do teste duas esferas (A e B) estão disponíveis. Suspeita-que a esfera A gera cavidades com diâmetro médio com diferença superior a 0,2 mm em relação à esfera B. As duas esferas foram utilizadas em 10 blocos (n = 10) obtendo-se os dados abaixo: 1 2 3 4 5 6 7 8 9 10 A 7,5 4,6 5,7 4,3 5,8 3,2 6,1 5,6 3,4 6,5 B 5,2 4,1 4,3 4,7 3,2 4,9 5,2 4,4 5,7 6,0 Bloco Esfera Diâmetro das cavidades (mm) Diferença 2,3 0,5 1,4 -0,4 2,6 -1,7 0,9 1,2 -2,3 0,5 O que os dados permitem concluir sobre a suspeita formulada? Adote = 5%. 23 Exemplo 3 Como os dados são pareados, utilizamos D = X – Y com D = E(X – Y) = E(X) – E(Y) = 1 – 2 e var(D) = D 2. Solução. Problema envolve duas médias de variáveis contínuas. Definimos X e Y como sendo os diâmetros das crateras produzidas pelas esferas A e B, tais que E(X) = 1 e E(Y) = 2. Hipóteses: H0: D = 0,2 contra H1: D > 0,2 (ou seja, 0 = 0,2). Estatística de teste: . )( 0 Ds Dn T A região crítica para = 0,05 é obtida consultando a tabela da distribuição t de Student com 9 g.l. (= n – 1) e p = 10%: Rc = { T > 1,833}. 24 Exemplo 3 Calculamos 10 1 22 1 22 10 11 mm 51,2)5,0( 110 1 )( 1 1 mm, 5,0 10 5,0 10 i i n i iD i i n i i DDD n S D n D D .599,0 51,2 )2,05,0(10)( e 0 Ds Dn T Como T = 0,599 Rc, não rejeitamos H0. Conclusão. De acordo com os dados coletados e com um nível de significância de 5%, não se confirma a suspeita de que a esfera A gera cavidades com diâmetro médio superior a 0,2 mm em relação à esfera B. Obs. Rc = { T > c}, sendo que, se H0 for verdadeira, T tem distribuição t de Student com 9 g.l.. Neste caso, valor-p = P(T > 0,599) = 0,282. Não rejeitamos H0, pois p-valor . Em Excel: =DISTT(0,599; 9; 1). 25 Exemplo 4 Estudos anteriores indicam que a vida (em horas) de um termopar produzido em uma indústria é uma variável aleatória com distribuição aproximadamente normal. Um grande comprador suspeita que o tempo de vida médio é inferior a 560 h. O que os dados permitem concluir sobre a suspeita do comprador? Adote = 5%. Em uma amostra aleatória de 15 termopares adquiridos foram medidos os tempos de vida (em h) 553, 552, 567, 579, 550, 541, 537, 553, 552, 546, 538, 553, 581, 539 e 529. Solução. Problema envolve uma população com distribuição normal. Definimos X como sendo o tempo de vida (em h) de um termopar, com E(X) = e var(X) = 2. Pelo enunciado, X ~ N(, 2), 2 desconhecida. Hipóteses: H0: = 560 contra H1: < 560 (ou seja, 0 = 560). Estatística de teste: . )( 0 s Xn T 26 Exemplo 4 A região crítica para = 0,05 é obtida consultando a tabela da distribuição t de Student com 14 g.l. (= n – 1) e p = 10%: Rc = { T < –1,761}. Calculamos h 8,14)3,551( 115 1 )( 1 1 h, 3,551 15 8270 15 15 1 2 1 2 15 11 i i n i i i i n i i XXX n S X n X X .266,2 8,14 )5603,551(15)( e 0 s Xn T Como T = –2,266 Rc, rejeitamos H0. Conclusão. De acordo com os dados coletados e com um nível de significância de 5%, concluímos que a vida média dos termopares é inferior a 560 h. 27 Exemplo 4 Obs. Rc = { T < –c }, sendo que T tem distribuição t de Student com 14 g.l., se H0 for verdadeira. Neste caso, valor-p = P(T< –2,266) = 0,0199. Rejeitamos H0, pois valor-p < . Em Excel: =DISTT(2,266; 14; 1). 28 Exemplo 5 Heim & Peng (2010), The impact of information technology use on plant structure, practices, and performance: An exploratory study, Journal of Operations Management 26, 144 – 162. This study examines the impact of information technology (IT) use on the structure, practices, and performance of manufacturing plants. O impacto de uma variável sobre outra é quantificado por um coeficiente (b). É de interesse verificar a significância do coeficiente (H0: b = 0 versus H1: b 0). Em um primeiro momento não é necessário saber que teste foi utilizado. Resultados. SPC has a marginally positive association with the total number of plant employees (b = 0.126, p = 0.080) and with plant sales ... (b = 0.161, p = 0.074). The SPC variable is not significantly related to any of the productivity measures at the 0.10 level. SPC is negatively related to willingness to introduce new products (b = −0.393, p = 0.000) . Integration intelligence only exhibits a weak positive relationship with developing unique practices (b = 0.012, p = 0.077). Ou seja, = 10% (estudo exploratório). Se o problema envolvesse a comparação de dois métodos de medição em que se pretende substituir um dos métodos por outro melhor, o nível de significância seria menor. p-valor 29 30 31 32 33 34 35 36 37 38 39
Compartilhar