Baixe o app para aproveitar ainda mais
Prévia do material em texto
Testes de Hipóteses Henrique Dantas Neder I Vimos no capítulo anterior como construir intervalos de confiança para parâmetros da população. Um outro procedimento muito utilizado em inferência é o estabelecimento de um teste de hipóteses referente ao valor de um dado parâmetro. I Da mesma forma como quando contruimos um intervalo de confiança para o valor do parâmetro, quando fazemos um teste de hipóteses a respeito do valor do parâmetro, jamais saberemos o valor verdadeiro deste parâmetro. I Um teste de hipóteses refere-se a uma determinada afirmativa (hipótese) a respeito do parâmetro. Por exemplo, queremos testar a hipótese de que o valor do parâmetro média populacional µ é igual a 50 (µ = 50). I Quando testamos o valor deste parâmetro, podemos aceitar uma hipótese central ou rejeitá-la. Desta forma um teste de hipóteses será realizado com base em uma regra de decisão. I O primeiro passo em um teste de hipóteses é o da formulação das hipóteses. Sempre trabalhamos com uma hipótese central (ou hipótese nula) e uma hipótese alternativa. I Quando aceitamos a hipótese nula (de acordo com a nossa regra de decisão) automaticamente rejeitamos a hipótese alternativa e vice-versa (as duas hipóteses são excludentes e opostas). I Vejamos um exemplo: suponhamos que queiramos testar (para uma dada população) a hipótese de que sua média é igual a 50. I A hipótese nula será: H 0 {µ X = 50 I A hipótese alternativa será H a {µ X 6= 50 I Para testar estas hipóteses selecionamos aleatoriamente (amostra aleatória simples) uma amostra da população e calculamos sua média amostral e seu desvio padrão amostral: X = ∑ n i=1 Xi/n e s = √∑ n i=1(Xi−X 2 ) n−1 I Suponhamos que após os cálculos (baseados nos valores amostrais de X) uma amostra de tamanho n = 40 produziu os seguintes resultados: X = 53 e s = 10 I Sabemos que X−µ 0 s/ √ n tem distribuição normal padrão (z) onde µ 0 é o valor considerado na hipótese nula (no caso deste exemplo 50). I Devemos definir um nível de significância para o nosso teste de hipóteses. Por exemplo, definimos α = 0.05 (um nível de significância de 5%). I Estabelecemos uma regra decisão: se z > −1, 96 e z < 1, 96 aceitamos a hipótese nula e em caso contrário rejeitamos a hipótese nula e aceitamos a hipótese alternativa. I Calculamos o valor da estatística de teste: z = X−µ0 s/ √ n = 53−50 10/ √ 40 = 1.8973 I Neste caso, como z cai dentro da região de aceitação da hipótese nula (−1.96 < z < 1.96) aceitamos esta hipótese ou seja aformamos que µ = 50. I Desta forma para realizar um teste de hipóteses temos que seguir os seguintes passos: 1. Primeiro etapa: Definir as hipóteses 2. Segunda etapa: Escolher uma estatística de teste (no caso do exemplo, a estatística de teste é X que através da padronização se transforma na estatística z . 3. Definir uma regra de decisão: criar as regiões de aceitação de H 0 (ou rejeição de H a ) e de rejeição de H 0 (ou de aceitação de H a ). 4. Selecionar uma amostra e calcular o valor da estatística de teste (no exemplo anterior X ). 5. Comparar o valor da estatística de teste com as regiões de aceitação e de rejeição de H o e tomar uma decisão (aceitar ou rejeitar H 0 ). I Um teste de hipóteses é semelhante a decisão de um juri em um tribunal: o juri pode condenar ou inocentar o reu. Suponhamos que a hipótese nula do julgamento (H 0 ) seja {o reu é inocente}. Então rejeitar a hipótese nula significa declar o reu inocente e a hipótese alternativa significa que o juri toma a decisão de declarar o reu culpado. I O juri pode cometer dois tipos de erro: decidir que o reu é culpado quando na verdade o reu é inocente ou decidir que o reu é inocente quando na verdade o reu é culpado. I Da mesma forma em um teste de hipóteses estatístico podemos também cometer dois tipos de erro: rejeitar H 0 quando H 0 é verdadeira (chamado de erro tipo I) ou aceitar H 0 quando H 0 é falsa. I A probabilidade de cometer um erro tipo I é chamada de nível de significância (α) do teste de hipóteses. I No exemplo anterior aceitamos a hipótese nula ao nível de significância (α) de 5 % (ou 0.05). Isto porque determinamos as regiões de aceitação e de rejeição de H 0 com base neste valor de significância. I Mas se definíssemos um nível de significância α = 0.10 para o teste decidiriamos aceitar H 0 caso −1.6448 < z < 1.6448. Como o valor de z calculado =1.8963 caimos fora da região de aceitação de H 0 . Isto quer dizer que ao nível de significância α = 0.10 rejeitamos a hipótese nula. I Neste caso poderíamos estar cometendo o erro tipo I (ao rejeitar H 0 quando na verdade H 0 é verdadeira). Qual seria a probabilidade exata de estarmos cometendo erro tipo I quando rejeitamos a hipótese nula? I Esta probabilidade seria igual a P(z < −1.8973 ∪ z > 1.8973) = 2× φ(−1.8973) = .057788. Esta seria a probabilidade exata de estarmos cometendo um erro tipo I ao rejeitarmos H 0 quando o valor de z calculado = 1.8963 ou (o que é o mesmo) quando o valor de X = 53. I Exemplo: Os empregados de uma determinada empresa deveriam trabalhar, em média, 8h diárias. De forma a investigar se os empregados estão a trabalhar mais do que as horas previstas, o sindicato registou o número de horas que 150 trabalhadores (escolhidos ao acaso) trabalharam num dia qualquer, tendo obtido os seguintes resultados:∑ 150 i=1 Xi = 1260 e ∑ 150 i=1(Xi − X )2 = 1000 a) Teste ao nível de significância de 5%, se a empresa deverá ser punida por exigir que os seus empregados trabalhem mais do que deviam. b) Qual o tipo de erro que pode cometer relativamente à decisão que tomou? Solução: H 0 {µ X = 8 H a {µ X > 8 Este é um caso de teste unilateral porque estamos considerando como hipótese alternativa apenas uma das caudas (a cauda direita) da distribuição. Caso a hipótese alternativa fosse H a {µ X 6= 8 teriamos uma situação de teste bilateral. Isto influencia a determinação das regiões de aceitação e de rejeição de H 0 : no caso do teste unilateral consideramos todo o valor do nível de significância em uma das caudas somente e assim definimos a seguinte regra de decisão: Se z < z cr ı´tico = φ −1 (.95) = 1.6448 aceitamos H 0 e em caso contrário z > 1.6448 rejeitamos H 0 De acordo com os valores dados temos: z calculado = X−µ0 s X = X−µ0 s x / √ n = (1260/150)−8√ 1000/149/ √ 150 = 1.8910 Neste caso rejeitamos H 0 ao nível de significância de 5% pois o valor de z calculado cai na região de rejeição de H 0 . Mas podemos estar cometendo um erro tipo I. Qual é a probabilidade exata de estarmos cometendo este tipo de erro? Podemos calcular esta probabilidade como: P(erro tipo I ) = P(z > 1.8910|H 0 e´ verdadeiro) = P(z > 1.8910) = 1− φ(1.8910) = .02931 A conclusão é que devemos tomar a decisão de rejeitar H 0 mas estando cientes de que podemos estar cometendo um erro tipo I (rejeitar H 0 quando H 0 é verdadeira) com uma probabilidade exata de 2,93%. Como esta probabilidade é relativamente baixa, podemos rejeitar H 0 . Esta probabilidade exata é chamada de p − value do teste. É o valor do menor nível de significância para o qual podemos rejeitar H 0 . Exemplo: Numa determinada empresa pensa-se importar um grande lote de instrumentos de precisão, para os quais o fabricante garante um peso médio igual a 100 gr. Sendo o peso uma característica importante para a qualidade do produto, resolveu-se testar a veracidade da afirmaçãodo fabricante. Para tal, o departamento técnico da empresa importadora obteve uma amostra de 15 instrumentos, através da qual se obtiveram os seguintes valores:∑ 15 i=1 Xi = 1407 e ∑ 15 i=1(Xi − X )2 = 1674 Admitindo a normalidade dos pesos, qual a sua opinião, ao nível de significância de 1%, relativamente à afirmação do fabricante. Solução: Definição das hipóteses: H 0 {µ X = 100 contra H a {µ X 6= 100 Como a amostra é pequena (n < 30) não podemos utilizar a distribuição normal padrão z . Temos que usar a distribuição t de Student porque sabemos que a distribuição de X na população é normal. O valor crítico de t ao nível de significância de 0.01 e para um número de graus de liberdade n− 1 = 14 é igual a 2.9768. Este valor pode ser obtido através do comando Stata disp invttail(14,.005) ou por uma tabela para a t de Student. Colocamos 0.005 no argumento da probabilidade porque devemos considerar que as duas caudas da distribuição somam 1%. As regiões de aceitação e de rejeição de H 0 são definidas como: Aceitar H 0 se −2.9768 < t calculado < 2.9768 Rejeitar H 0 se t calculado ≤ −2.9768 ou t calculado ≥ 2.9768 O valor de t calculado, de acordo com os resultados da amostra, pode ser obtido como: t calculado = X−µ0 s X = (1407/15)−100√ 1674 14 / √ 15 = −2.1959 Caimos na região de aceitação de H 0 . Exemplo:Suponha que determinado canal de televisão deseja saber qual tinha sido a percentagem de pessoas que viram determinado programa. Para tal, realizou uma sondagem tendo sido inquiridas 220 pessoas, das quais 132 disseram ter visto o referido programa. a) Determine um intervalo de confiança de nível 95% para percentagem de pessoas em toda a população que viu esse programa. b) Qual deveria ser o número de pessoas inquiridas para se obter um intervalo de confiança de nível 95% com metade da amplitude do anterior? (Admita que a proporção das pessoas que viram o programa se mantém.) c) Poder-se-á afirmar, ao nível de 5%, que mais de metade das pessoas viram o programa? Solução: a) P(pˆ − z 1−.05/2 × σpˆ < p <pˆ + z1−.05/2 × σpˆ) = 0.95 P(132 220 − 1.96× √ 132 220 ×(1− 132 220 ) 220 < p <132 220 + z 1−.05/2 × √ 132 220 ×(1− 132 220 ) 220 ) = 0.95 P(.5352 < p < .6647) = 0.95 b) amplitude = (.6647− .5352)/2 = .06475 erro de amostragem = amplitude/2 = .032375 Utilizamos a expressão: e = z 1−α/2 × σpˆ = z1−α/2 × √ pˆ×(1−pˆ) n Para isolar n, temos: e 2 = (z 1−α/2)2 × pˆ×(1−pˆ) n n = (z 1−α/2)2×pˆ×(1−pˆ) e 2 = 1.962× 132 220 ×(1− 132 220 ) .0323752 = 879.8 ≈ 880 c) Formulação das hipóteses: H 0 {p = 0.50 contra H a {p > .50 (o teste é unilateral ou unicaudal) Definição da região de aceitaçao e de rejeição de H 0 : Aceita-se H 0 se z calculado for menor do que z cr ı´tico = φ −1(0.95) = 1.6448 Observe que jogamos todo o valor do nível de significância do teste em apenas uma das caudas da distribuição porque o teste é unilateral. Se o teste fosse bilateral teriamos que calcular φ−1(.975): teriamos que distribuir igualmente o nível de significância nas duas caudas da distribuição. Cálculo do valor de z calculado : z calculado = pˆ−p0σ pˆ = 132 220 −0.5√ 132 220 ×(1− 132 220 ) 220 = 3.0276 Rejeitamos H 0 ao nível de significância de 5%. Exemplo: Admita que a direcção comercial de uma determinada empresa pretende lançar um novo serviço de telecomunicações. De acordo com critérios empresariais, o serviço só deverá ser lançado no mercado se houver mais de 80% de potenciais compradores. Assim, para averiguar o eventual lançamento do serviço, a empresa decidiu efectuar um inquérito a 400 grandes clientes, tendo 340 sido favoráveis à aquisição do novo serviço. a) Para um nível significância de 5%, poder-se-á concluir que a empresa opta pelo lançamento do serviço? E para um nível de significância de 1%? b) Determine o valor p do teste e interprete-o. Solução: a) Definição das hipóteses: H 0 {p ≤ 0.8 contra H a {p > 0.8 Determinação das regiões de aceitação e de rejeição de H 0 : Como o teste é unilateral z cr ı´tico para um nível de significância de 5% é calculado como φ−1(.95) = 1.6448 Aceita-se H 0 se z calculado < z cr ı´tico = 1.6448 z calculado = 340 400 −0.8√ 340 400 ×(1− 340 400 ) 400 = 2.800 Rejeitamos H 0 ao nível de significância de 5% Ao nível de 1% de significância o valor de z cr ı´ticoé φ−1(.99) = 2.3263. Neste caso também rejeitamos H 0 ao nível de significância de 1% pois z calculado > z cr ı´tico . b) O valor p do teste é calculado como:p = 1− φ(2.8) = .00255. Existe uma chance exata de 0.255% de cometermos o chamado erro tipo I, ao rejeitarmos H 0 . Exemplo: Admita que uma amostra aleatória de 400 domicílios de uma determinada cidade revelou que 8% destes são casas de aluguel, enquanto que, numa outra cidade, uma amostra de 270 domicílios revelou que 37 eram casas de aluguel. a) Construa um intervalo de confiança de nível 99% para a percentagem de casas de aluguel em cada cidade. b) Suponha que os intervalos de confiança, obtidos na alínea anterior, sejam considerados pouco precisos. Qual deverá ser o tamanho das amostras para que o erro de estimativa não exceda 2%? c) Poderá afirmar estatisticamente, ao nível de 5%, que há maior percentagem de casas de aluguel em alguma das duas cidades? Justifique. Solução: a) primeira cidade: pˆ − z 1−.01/2 × σpˆ < p < pˆ + z1−.01/2 × σpˆ 0.08−2.5758× √ 0.08×(1−0.08) 400 < p < 0.08−2.5758× √ 0.08×(1−0.08) 400 0.0451 < p < 0.1149 segunda cidade: pˆ − z 1−.01/2 × σpˆ < p < pˆ + z1−.01/2 × σpˆ 37 270 − 2.5758× √ 37 270 ×(1− 37 270 ) 270 < p < 37 270 + 2.5758× √ 37 270 ×(1− 37 270 ) 270 0.0831 < p < 0.1909 b) primeira cidade n = (z 1−α/2)2×pˆ×(1−pˆ) e 2 = 1.5758 2×0.08×(1−.08) .022 = 456.89 ≈ 457 n = (z 1−α/2)2×pˆ×(1−pˆ) e 2 = 1.57582× 37 270 ×(1− 37 270 ) .022 = 734.12 ≈ 734 c) esta pergunta se refere a um teste de diferença de proporções. H a {p A = p B contra H a {p a 6= p b ou H a {p A − p B = 0 contra H a {p a − p b 6= 0 A estatística de teste é a diferença de proporções das duas amostras pˆ a − pˆ b = .08− 37 270 = −.0570 A variância de pˆ a − pˆ b será dado por pˆ a (1−pˆ a ) n a + pˆb(1−pˆb) n b = .08×(1−.08) 400 + 37 270 ×(1− 37 270 ) 270 = .00062199 O erro padrão de pˆ a − pˆ b é igual a √ .00062199 = .0249 Então o valor de z calculado será z calculado = pˆa−pˆb−0σ pˆ a −pˆ b = .08− 37 270 .0249 = −2.2906 Para um nível de significância a região de aceitação de H 0 é −1.96 < z calculado < 1.96 Portanto rejeitamos H 0 ao nível de significância de 5 %. O p-value deste teste pode ser calculado ocmo sendo igual a φ(−2.2906)× 2 = .02198. Multiplicamos por 2 porque o teste é bilateral e temos que considerar a área das duas caudas da distribuição. Interpretação do p-value: 2,20% é o nível de siginificância exato do teste - ao rejeitarmos H 0 existe uma probabilidade exata de estarmos rejeitando quando na verdade H 0 é verdadeira.
Compartilhar