Baixe o app para aproveitar ainda mais
Prévia do material em texto
ENGENHARIA DE PRODUÇÃO MATERIAL DE ESTUDO ESTATÍSTICA APLICADA Professora Lúcia Helena Sagrillo Pimassoni Figura retirada da internet. Agosto, 2013. 1 SUMÁRIO UNIDADE I – ESTIMAÇÃO DE PARÂMETROS ..................................................... 2 I. 1 Introdução à inferência estatística ...................................................................... 2 I. 2 Noções de amostragem ...................................................................................... 2 I.3 Distribuições Amostrais ...................................................................................... 5 I.4 Intervalo de confiança para média e proporção .................................................. 9 UNIDADE II – INFERÊNCIA ESTATÍSTICA PARA UMA ÚNICA AMOSTRA . 19 II. 1 As Hipóteses Nula e Alternativa .................................................................... 20 II.2 Áreas de Aceitação e de Rejeição .................................................................... 21 II.3 Os testes unilateral e bilateral .......................................................................... 22 II.4 Os Erros do tipo I e de tipo II .......................................................................... 25 II.5 Roteiro para um Teste de Hipóteses ................................................................ 27 II.6 Teste Hipótese para Média de uma População com Variância Conhecida ...... 28 II.7 Teste Hipótese para Média de uma População com Variância Desconhecida e Tamanho da Amostra Grande (n ≥ 30) ................................................................... 29 II.8 Teste Hipótese para Média de uma População com Variância Desconhecida e Tamanho da Amostra Pequeno (n < 30) ................................................................. 30 II.9 Teste de Hipótese para Proporção de uma População ..................................... 31 II.10 Teste de Hipótese para a Variância de uma População Normal .................... 34 II.11 Valores-p nos testes de hipóteses .................................................................. 37 II.12 Teste de Aderência e Tabela de Contingência ............................................... 40 UNIDADE III – INFERÊNCIA ESTATÍSTICA PARA UMA DUAS AMOSTRAS 48 III.1 Teste de hipótese para duas médias ............................................................... 48 III.2 Teste de hipótese para duas proporções ........................................................ 55 III.2 Comparação de duas variâncias ..................................................................... 57 UNIDADE IV – PLANEJAMENTO DE EXPERIMENTOS E ANÁLISE DE EXPERIMENTOS COM UM ÚNICO FATOR: ANÁLISE DE VARIÂNCIA ......... 63 IV.1 Introdução ....................................................................................................... 63 IV. 2 Experimento completamente aleatorizado com um único fator .................... 66 IV. 3 Análise de Variância (ANOVA) ................................................................... 67 UNIDADE V – ANÁLISE DE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES .................................................................................................................................... 73 V. 1 Análise de Correlação ..................................................................................... 73 V.2 Análise de Regressão ....................................................................................... 77 2 UNIDADE I – ESTIMAÇÃO DE PARÂMETROS I. 1 Introdução à inferência estatística A estatística inferencial diz respeito à análise e interpretação de dados amostrais. É um processo pelo qual podemos conhecer uma população a partir de uma amostra desta mesma população (“não preciso comer um bolo inteiro para saber se é bom”). A idéia básica é efetuar determinada mensuração sobre uma parcela pequena, mas típica, de determinada “população” e utilizar essa informação para fazer inferência sobre a população toda. Essa parte da estatística é o objeto de estudo da disciplina estatística aplicada. A inferência estatística pode ser dividida em duas grandes áreas: estimação de parâmetros e teste de hipóteses. I. 2 Noções de amostragem Experimentos aleatórios são procedimentos estímulo-resposta a que submete- se um objeto em estudo que, ao serem repetidos sob as mesmas condições, não produzem as mesmas respostas. Por essa razão, o planejamento de experimentos aleatórios é uma atividade necessária para se descobrir informações fidedignas, apesar das respostas diferentes a cada repetição sobre um processo ou sistema em particular. A principal vantagem do planejamento é a economia de tempo, custos e a redução da variabilidade nos resultados, o que permite conhecer melhor o objeto estudado (Montgomery, 2001). Para a perfeita execução de um planejamento de experimentos é essencial definir a unidade experimental (elemento do qual serão extraídas as informações) e o que será observado (variáveis). Além disso, se forem realizadas comparações entre grupos ou métodos, deve-se defini-los claramente. 3 Etapas de um Planejamento do Experimento: Definição do problema e objetivo da pesquisa. Organização da pesquisa Coleta dos dados Análise estatística do problema Conclusões A determinação do número de elementos a serem estudados e a escolha dos mesmos é uma etapa de grande importância para um bom trabalho de pesquisa. População: é o conjunto de elementos com uma característica comum observável. Amostra: é uma parte representativa da população; Muitas das vezes, por restrições de custo, tempo, material, etc...adotamos apenas uma parte da população para estudo – a amostra. Unidades amostrais: são elementos a partir dos quais são levantadas as informações. Por exemplo, municípios, indústria, um manancial, águas subterrâneas, anemômetro, etc. Amostragem e Inferência Estatística Inferência Estatística 4 A AMOSTRA DEVE SER REPRESENTATIVA DA POPULAÇÃO Tipos de Amostragem Amostragem Intencional (não probabilística): Seleciona elementos ou amostras que consideramos serem típicas ou representativas da população. Amostras de água poluída e não poluída. Amostragem Probabilística: Associa a cada elemento da população uma chance (probabilidade) de fazer parte da amostra. Os resultados podem ser estendidos para a população com um determinado grau de confiança. Tipos de amostragem probabilística Amostragem Aleatória Simples: todo elemento tem a mesma chance de ser escolhido. Faz-se uma lista dos elementos da população e sorteiam-se os elementos que farão parte da amostra. Pode-se utilizar a tabela de números aleatórios. Amostragem Sistemática: os elementos da população apresentam-se ordenados e são retirados periodicamente, ou seja, de cada k elementos, um é escolhido. Amostragem Estratificada: consiste em dividir a população em grupos homogêneos e proceder a retirada de uma amostra aleatória simples ou sistemática dentro de cada estrato. População Amostra Plano de Amostragem Sim Não Sim Não 5 Amostragem por Conglomerados: É aquela na qual as unidades de amostragem estão geograficamente reunidas em grupos e seleciona-se amostras aleatórias dentro do cluster. I.3 Distribuições Amostrais Uma das realidades da amostragem aleatória é que, quando se extraem repetidasamostras da mesma população, há tendência da estatística amostral variar de uma amostra para outra, e também em relação ao verdadeiro valor do parâmetro, simplesmente em razão de fatores casuais relacionados com amostragem. Essa tendência é conhecida com variabilidade amostral. Assim quando fazemos inferências sobre uma população devemos considerar a variabilidade amostral. 6 I.3.1 Distribuição Amostral da Média As distribuições de probabilidade das estatísticas amostrais são chamadas de distribuições amostrais. A média, bem como todas as demais estatísticas de uma amostra, são variáveis aleatórias. Dessa forma, possuem distribuições de probabilidade como qualquer outra variável aleatória. Uma distribuição amostral de médias é uma distribuição de probabilidade que mostra a variabilidade das médias amostrais. A média de uma distribuição amostral é sempre igual à média populacional Quando a população é infinita, o desvio padrão da distribuição amostral da média é: EXEMPLO: Uma amostra aleatória de 100 observações dos valores das vendas realizadas em determinada loja apresentou uma média igual a $ 328,40 e um desvio padrão de $ 87,43. Qual o valor estimado da média, da variância e do desvio padrão amostrais? A média amostral será igual a: a $ 328,40 O desvio padrão amostral será igual a: 87,43/10 = 8,743 Teorema do Limite Central Informações 1. A variável aleatória x tem distribuição (que pode ser normal ou não), com média µ e desvio padrão σ . 2. Amostras de tamanho n são extraídas aleatoriamente dessa população. x n x 7 Conclusão 1. Na medida em que o tamanho da amostra aumenta a distribuição das médias amostrais , tende para uma distribuição normal. 2. A média das médias amostrais será a média populacional µ. 3. O desvio padrão das médias amostrais será Regras práticas de uso comum 1. Para amostras de tamanho n>30, a distribuição das médias amostrais pode ser aproximada satisfatoriamente por uma distribuição normal. A aproximação melhora na medida em que aumenta o tamanho da amostra n. 2. Se a própria distribuição original tem distribuição normal, então as médias amostrais terão distribuição normal para qualquer tamanho amostral n. EXEMPLO: Considere uma população com altura média de 170 cm de altura e desvio padrão de 9 cm. A. Selecionada uma mulher aleatoriamente, determine a probabilidade de sua altura estar entre 170 cm e 175 cm: B. Selecionada aleatoriamente 75 mulheres, determine a probabilidade de suas alturas terem média entre 170 cm e 175 cm: I.3.2 Distribuição Amostral da Proporção A média (proporção ou percentagem média) da distribuição amostral p é sempre igual à proporção populacional. Isto é, Onde: p = proporção populacional = média da distribuição amostral das proporções. Quando a população é muito grande ou infinita, o desvio padrão da distribuição amostral se calcula pela fórmula: x n pp p 8 Exemplo: Um varejista compra copos diretamente da fábrica em grandes lotes. Periodicamente o varejista inspeciona os lotes para determinar a proporção dos quebrados. Se um grande lote contém 10% de quebrados, qual a probabilidade do varejista obter uma amostra de 100 copos com 17% ou mais defeituosos? Solução: O primeiro passo é calcular o desvio padrão da população: Usando a padronização temos: Olhando na tabela normal padrão temos que a probabilidade procurada é 0,0099. PRIMEIRA LISTA DE EXERCÍCIOS 1) A população das importâncias das compras em certo supermercado 24 horas tem média de R$ 6,00 e desvio de R$ 3,50. Qual a probabilidade de um total de 100 compras o valor médio exceder R$ 7,00? 2) A distribuição do peso de homens que viajam de avião de Vitória para São Paulo tem média de 160 libras e desvio padrão de 20 libras, qual é a probabilidade do peso médio de 36 homens tomados aleatoriamente ser maior que 165 libras. 3) Se vamos extrair amostras de n = 100 observações de uma população muito grande, em que a proporção populacional é 20%, qual a probabilidade das proporções amostrais podemos esperar nos intervalos abaixo? (Stevenson, pag, 188) a) maior que 24% n pp p )1( 03,0 100 )90,0(10,0)1( n pp p 33,2 03,0 10,017,0 ?)17,0ˆ( z pP 9 b) 16% a 24% c) 12% a 28% d) menos de 12% ou mais de 28% I.4 Intervalo de confiança para média e proporção Em muitas situações, uma estimativa de um parâmetro não fornece informação completa para um engenheiro. Por exemplo, considere um problema de condutibilidade térmica. A estimativa da condutibilidade térmica para um material em particular é x = 41,924 BTU/h. ft. ºF. É improvável que a média verdadeira da condutibilidade térmica (μ) seja exatamente igual a esse valor; assim uma questão relevante aparece: quão próximo está x da média verdadeira? I.4.1 Alguns conceitos a) Estimação O uso da amostra nos permite inferir os parâmetros da população a partir da amostra através da estimação que pode ser: Estimação pontual ou Estimação intervalar. b) Confiança X Risco Sempre que se faz uma estimação de uma variável aleatória, existe uma probabilidade de se errar essa estimação quando comparamos o valor estimado com o valor que realmente foi observado. À probabilidade de se errar a estimação dá-se o nome de “RISCO”. O “RISCO” é o complemento da “CONFIANÇA”. A “CONFIANÇA” vem a ser, então, a probabilidade de se acertar a estimação. Então, resumindo: Confiança (1 - ) = Probabilidade de acerto na estimação; Risco () = Probabilidade de erro na estimação. c) Estimação Intervalar X Estimação Pontual 10 Estimação pontual Estimação intervalar Maior precisão, mas menor confiança. A média amostral é um estimador pontual, não tendencioso, da média populacional. A variância amostral é um estimador pontual, não tendencioso, da variância populacional. O mesmo acontece com o desvio padrão amostral em relação ao desvio padrão populacional. ESTIMATIVAS PONTUAIS: Menor precisão, mas maior confiança. A estimação intervalar é obtida através a construção de intervalos de confiança. A amplitude do intervalo de confiança depende da: 1. Confiança desejada: Quanto maior a confiança, maior o intervalo. Uma confiança de 0% nos leva a um ponto. Uma confiança de 100% nos leva a um intervalo de a . 2. Variabilidade do processo: Quanto mais variável o processo aleatório do qual está se fazendo a estimação, maior o intervalo de estimação, para uma mesma confiança. 3. Quantidade de informação (tamanho da amostra): Quantidade de informação: Quanto maior a amostra, mais informação teremos a respeito do processo aleatório em estudo. Dessa forma, para uma mesma confiança, quanto maior a amostra, menor será o intervalo de estimação necessário. amostralmédia n x x i amostralpadrãodesvio n xx s 1 2 amostraliância n xx sx var 1 2 2 11 I.4.2 Estimação Intervalar da Média Um intervalo de confiança para a média populacional é, construído em torno da média amostral, e a sua amplitude será determinada pela quantidadede desvios padrão e conforme a confiança desejada. A quantidade de desvios padrão a ser usada é representada pela variável “Z” (valor da distribuição normal padrão) ou “t” (valor da tabela t-Student). A quantidade de desvios padrão somada/subtraída da média amostral é chamada de erro de estimação. 1. Desvio padrão da população conhecido Quando a população é aproximadamente normal e o seu desvio padrão da população é conhecido usa-se da distribuição normal para determinação do intervalo de confiança independente do tamanho da amostra: n Zx x ou Na qual “Z” é obtido na tabela da distribuição Normal para /2 e o erro de estimação é: Exemplo: Uma loja realizou um estudo a respeito dos valores das compras realizadas pelos clientes. Sabe-se de levantamentos anteriores que o valor de uma compra realizada por um cliente é uma variável aleatória normalmente distribuída, com um desvio padrão de R$ 42,00. Estime valor de compra com 95% de confiança considerando que foi utilizada uma amostra aleatória de 15 clientes e o valor da média amostral foi de R$ 120,00. n Zx n Zx xx n Z x 12 Nesse caso, o desvio padrão da população é conhecido e é igual a $ 42,00. Por outro lado, também se garante que a variável “valor da compra” é normalmente distribuída. Então o intervalo será: Sendo que o valor de Z é encontrado da seguinte forma: Como a confiança requerida é de 95%, então /2=2,5%, ou 0,025. Entrando no miolo da Tabela da distribuição Normal com 0,475 (0,475 = 0,5 – 0,025), obtém-se Z = 1,96. A representação gráfica do intervalo de confiança determinado é a seguinte: 2. Desvio padrão da população desconhecido 2.1 Amostra Grande, n 30 ou Na qual “Z” é obtido na tabela da distribuição Normal para /2. O erro de estimação é: 15 42 96,1120 26,21120 26,141a74,98 n s Zx x n s Zx n s Zx xx n s Z x 13 Exemplo: O administrador de uma empresa ambiental está estudando o ganho com a venda de óleo lubrificante usado e para tal tomou o preço ofertado por 40 empresas escolhidas aleatoriamente. O resultado obtido foi uma média de $ 165,00 por quinhentos litros e um desvio padrão de $ 45,00. Estime, com 90% de confiança, o ganho médio com a venda do óleo usado. Como a amostra é de tamanho igual a 40, poderá ser usada a Distribuição Normal como distribuição das médias amostrais. Como a confiança requerida é de 90%, então /2=5%, ou 0,05. Entrando no miolo da Tabela da distribuição Normal com 0,45 (0,45 = 0,5 – 0,05), obtém-se Z = 1,645. Então, a estimação intervalar para o ganho médio será: 153,30 a 176,70 A representação gráfica do intervalo de confiança é a seguinte: 2.2 Amostra Pequena, n < 30 No caso de uma população normal ou aproximadamente normal, mas com desvio padrão populacional desconhecido, será usada a Distribuição de Student para a determinação do coeficiente de confiança, que neste caso passa a ser “t”: n s tx x ou n s tx n s tx xx na qual “t” é obtido na tabela da Student para /2 e n-1 graus de liberdade. 14 Características da Distribuição de Student: É “parecida” com a distribuição Normal; É mais achatada (maior dispersão) do que a normal; Varia com os graus de liberdade, isto é, com o tamanho da amostra. Abaixo é apresentada uma parte da Tabela da Distribuição de Student (ou distribuição “t”) existente no ANEXO. Exemplo: Uma loja realizou um estudo a respeito dos valores das compras realizadas pelos clientes. Estime valor de compra com 95% de confiança considerando que foi utilizada uma amostra aleatória de 15 clientes, o valor da média amostral foi de R$ 120,00 e desvio padrão de R$ 42,00. Nesse caso, como a amostra é pequena, a população é normalmente distribuída, mas não se conhece o desvio padrão da população; será usada a distribuição de Student para a distribuição das médias amostrais. Como a confiança requerida é de 95%, entraremos na tabela da Student com /2 = 0,025. Como o tamanho da amostra é igual a 15, entraremos na tabela da Student com 15 – 1 = 14 graus de liberdade. O valor para “t” encontrado foi de 2,145. Então a estimação é: 15 42 145,2120 26,23120 26,143 a 74,96 15 Erro de estimação = 23,26. A representação gráfica do intervalo de confiança construído será a seguinte: 3. Correção para População Finita A correção do desvio padrão é feita através da multiplicação do seu valor pela seguinte expressão: Na qual “N” é o tamanho da população e “n” é o tamanho da amostra. Exemplo: Uma empresa filantrópica possui 1200 animais e a sua administração coleta dados diários sobre custo para manter os animais. Foi tomada uma amostra de 199 animais, obtendo-se uma média de $ 32,00 e um desvio padrão de $ 8,00. Estime com 95% de confiança o custo médio para manter os animais. 1 N nN 11200 1991200 199 8 96,132 02,132 02,33 a 98,30 16 I.4.3 Estimação Intervalar Proporção Considerando “P” a proporção populacional e a proporção amostral, então a estimação da proporção populacional é obtida da seguinte maneira: n pp Zp )ˆ1(ˆ ˆ ou n pp ZpP n pp Zp )ˆ1(ˆ ˆ )ˆ1(ˆ ˆ Exemplo: O departamento de marketing de uma empresa que produz cosméticos naturais promoveu uma pesquisa para conhecer a aceitação pelo público feminino do seu novo creme para as mãos. O resultado da pesquisa foi o seguinte: Gostaram e comprariam o produto: 2870 Não gostaram e não comprariam o produto: 628 Estime com 99% de confiança a proporção de aceitação do novo produto. A proporção amostral pˆ é igual a: 82,0 3498 2870 ˆ p O valor de “Z” para /2 = 0,005 é 2,575 Então, a estimação intervalar de P é igual a: 3498 82,0182,0 575,282,0 O intervalo será igual, então a: I.4.4 Cálculo do Tamanho da Amostra para Amostragem Aleatória Simples O cálculo do tamanho da amostra para a estimação da média será: 2 2 0 E z n 017,082,0 837,0 P 803,0 17 No caso do desvio padrão populacional desconhecido deve-se fazer uma amostragem piloto, e se for de tamanho amostral pequeno deve-se usar: 2 2 0 E t n tn-1 g.l; α/2 Exemplo: A quantidade de chumbo em certo tipo de solo, medida por um método padrão, acusa em um desvio padrão de 10 ppm. Qual o tamanho da amostra necessário para se estimar a média de chumbo no solo com um erro de 0,5 ppm e um nível de confiança de 95%? 15410. 5,0 96,1 2 0 n O cálculo do tamanho da amostra para a estimação da proporção será: Observe que para calcular o tamanho da amostra teremos que conhecer o valor estimado da proporção populacional pˆ . Isso, na prática, pode ser conseguido através uma amostragem piloto. No entanto, essa prática pode custar mais tempo e mais dinheiro. Caso não seja possível uma amostragem piloto, deve-se usar: pˆ = 0,5 que é o valor que fornece os maioresintervalos de confiança. Exemplo: Suponha que um editor deseja fazer uma pesquisa a respeito da aceitação de uma determinada revista sobre meio ambiente. Determine o tamanho da amostra a ser utilizada nessa pesquisa, considerando que a confiança desejada seja de 97% e o erro máximo suportado seja de 1%. O valor de “Z” para /2 = 0,015 é igual a 2,17 Como não se tem a estimação de pˆ , usaremos 0,5 Então, o tamanho da amostra necessário será igual a: 2 2 01,0 5,015,017,2 n 1177325,11772 n pp E z n ˆ1ˆ 2 0 18 Tamanho da Amostra para População Finita Para o caso de População Finita deve-se usar o seguinte fator de correção: Na qual “N” é o tamanho da População. SEGUNDA LISTA DE EXERCÍCIOS 1. Considere que uma empresa queira utilizar escória de aciaria, produzida em uma usina siderúrgica, para pavimentação. Será necessário realizar um procedimento de amostragem para caracterização física da escória, onde serão analisados parâmetros físicos como umidade ótima. Suponha que tenha sido realizada uma amostragem piloto onde o desvio padrão foi de 2,1 para umidade ótima. Qual o tamanho de amostra aleatória para estimar a média com um erro de 0,5 e com uma confiança de 95% ? 2. Para uma amostra de 100 empresas no setor de mármore e granito, o número médio de empregados é 600 com um desvio padrão de 50. Considere que no ES há um total de 1800 empresas neste setor. Determinar o intervalo de confiança de 90% para estimar o número médio de trabalhadores por empresa no ES. 3. Em certa cidade, o peso do lixo produzido por semana em residências de classe social C foi obtido através de uma amostra de 15 residências, obtendo- se 20 kg como média e 5,5 kg como desvio padrão. Estimar o peso médio produzido por famílias de classe C desta cidade, usando um intervalo de confiança de 95%. 4. Para uma amostra de 25 lâmpadas fluorescentes, obteve-se uma vida média útil de 6000 horas com um desvio padrão de 700 horas. Construir um intervalo de confiança de 99% para a média da população. N n n n o 1 0 19 5. Uma empresa de pesquisa de mercado faz contato com uma amostra de 300 empresas de uma comunidade e verifica que uma proporção de 0,60 na amostra prefere usar biodisel em vez de qualquer outro combustível. Construa um intervalo de 95% para a proporção de todas as empresas que preferem usar biodisel nesta comunidade. 6. Para o exercício anterior, suponha que, antes dos dados serem coletados, foi especificado uma confiança de 95% e um erro máximo de 0,05. Qual tamanho de amostra deveria ser coletado sem conhecimento de nenhuma estimativa a priori? 7. Em um Simpósio de Engenharia organizado pela FAESA foi coletado dados sobre de 350 alunos que cursam engenharia e encontrado que 90 de tais estudantes fazem estágios. Usando um intervalo de confiança de 96%, estimarmos a proporção de todos os estudantes que fazem estágio. 8. Para estimar a porcentagem de alunos de um curso favoráveis à implantação de um novo currículo escolar, tomou-se uma amostra de 1000 alunos, dos quais 300 foram favoráveis. a) Fazer um intervalo de confiança para a proporção de todos os alunos do curso favoráveis à modificação com uma confiança de 97%. b) Qual o erro de estimação cometido em a? c) Sabendo-se que a faculdade possui 4000 alunos, quantos alunos deveriam ser selecionados considerando um erro amostral de no máximo 2,5% e confiança de 95% e considerando como estimativa a priori a estimação pontual utilizado na letra (a). UNIDADE II – INFERÊNCIA ESTATÍSTICA PARA UMA ÚNICA AMOSTRA Teste de hipótese Em estatística uma hipótese é uma alegação, ou afirmação, sobre uma propriedade de uma população. O objetivo do teste de hipótese é decidir se 20 determinada afirmação sobre um parâmetro populacional é verdadeira. Sabe- se que em razão da variabilidade inerente a amostragem as estatísticas amostrais tendem a se aproximar, ao invés de se igualar, aos parâmetros da população. Em um teste de hipótese é verificado se a diferença entre o valor alegado de um parâmetro populacional e o valor da estatística amostral pode ser atribuída ao acaso ou se a discrepância é grande o suficiente para ser encarada assim. Testes de hipóteses são largamente utilizados para reportar os resultados de pesquisas em muitos campos da ciência aplicada e da indústria, por exemplo, produtos farmacêuticos exigem evidências significativas de eficácia e segurança. Os comerciantes desejam saber se uma nova campanha de publicidade supera significativamente a anterior. Em meio ambiente é importante saber se a concentração de contaminantes atmosféricos é diferente em ambientes fechados. II. 1 As Hipóteses Nula e Alternativa O primeiro passo em teste de hipótese consiste em formular duas hipóteses sobre a afirmação: A hipótese nula, H0, é uma afirmação sobre o valor de um parâmetro populacional, ou seja, é uma afirmação que diz que o parâmetro populacional é tal como especificado. Deve conter a condição de igualdade. Para o caso de teste para uma média tem-se: valorumaH lg:0 O complemento da Hipótese Nula é a Hipótese Alternativa (H1). É uma afirmação alternativa a alegação a qual existe indícios dela ser verdadeira se a hipótese nula é falsa. Para o caso citado anteriormente tem-se: valorumaH lg:1 valorumaH lg:1 valorumaH lg:1 Observação: 21 1. Mesmo quando é utilizado os símbolos ≤ ou ≥ na hipótese nula o teste é realizado supondo a igualdade. Devemos ter um valor fixo único para μ, de modo que possamos trabalhar com uma única distribuição com média especifica. 2. Se o leitor está fazendo uma pesquisa a sua afirmação deve ser formulada de maneira que se torne a hipótese alternativa. Exemplo: A direção de um Banco deve decidir se oferece certo produto em uma determinada cidade. A implantação desse produto na agência dessa cidade somente será viável se a capacidade de poupança dos seus clientes for maior que R$ 500,00 mensais. Para verificar esse fato será realizada uma pesquisa de mercado para testar se esse valor é alcançado. Formule as hipóteses para esse teste: 500:0 igualémédiaAH 500:1 quedomaiorémédiaAH Assim tem-se: 500:0 H 500:1 H II.2 Áreas de Aceitação e de Rejeição À medida que amostras diferentes são tomadas, os valores dos parâmetros amostrais variam entre si e em relação ao valor populacional. Essas variações podem ser devidas à própria aleatoriedade do processo, isto é, são casuais, ou devido ao fato das amostras terem sido tiradas de populações com parâmetros diferentes. Um teste de hipóteses avalia até aonde essas variações são frutos do próprio processo aleatório e a partir de que ponto as variações são reais. Teremos então que determinar os pontos limites até os quais concordaremos com a hipótese de que as variações são casuais e a partir dos quais as variações são reais. Esses pontos são chamados de “pontos críticos”. 22 O intervalo ao longo do qual, as variações são consideradas casuais é chamada de área de aceitação de H0. O complemento da área de aceitação é a área de rejeição de H0. A visualização gráfica de uma área de aceitação é a seguinte: A visualização gráfica de uma Área de Rejeição é a seguinte: II.3 Os testes unilateral e bilateral O interesse em detectar desvios significativos de certo parâmetro podeenvolver desvios em ambas as direções ou apenas numa direção. A hipótese alternativa é usada para indicar qual o aspecto da variação que nos interessa. Há três casos possíveis: concentrar em ambas as direções, concentrar os Área de Aceitação da Hipótese Nula Valor Populacional Pontos Críticos Área de Rejeição da Hipótese Nula Valor Populacional Pontos Críticos 23 desvios abaixo do valor esperado ou concentrar nos desvios acima do valor esperado, assim os testes podem ser bilaterais ou unilaterais. Teste bilateral é aquele em que a região de rejeição da Hipótese Nula está localizada nas duas caudas da distribuição amostral. Teste unilateral é aquele em que a região de rejeição da Hipótese Nula está localizada apenas em uma das caudas da distribuição amostral. Um teste bilateral apresenta as seguintes Hipóteses Nula e Alternativa: Exemplo: Uma amostra dos saldos em conta corrente de 100 clientes de uma agência bancária indicou uma média de R$ 986,30 e um desvio padrão de R$ 254,80. Pode-se aceitar, a um risco de 5%, que o saldo médio em conta corrente dos clientes desta agência seja igual a R$ 1000,00? Nesse exemplo, as Hipóteses Nula e Alternativa serão as seguintes: 1000:0 H 1000:1 H A representação gráfica das áreas de aceitação e de rejeição da Hipótese Nula para esse exemplo é a seguinte: Pode-se ter teste unilateral com a região de rejeição da Hipótese Nula na cauda da direita ou na cauda da esquerda. Área de Aceitação da Hipótese Nula Área de Rejeição da Hipótese Nula 025,0 2 025,0 2 =1000 Pontos Críticos 95,0)1( 00 : H 01 : H 24 Teste unilateral com a região de rejeição da Hipótese Nula na cauda da esquerda: 00 : H 01 : H Vamos usar o mesmo exemplo anterior, mas alterando a pergunta para: “Pode- se aceitar a um risco de 5% que o saldo médio em conta corrente dos clientes dessa agência seja menor que R$ 1000,00?” Agora, as Hipóteses Nula e Alternativa são as seguintes: 1000:0 H 1000:1 H A representação gráfica das áreas de aceitação e de rejeição da Hipótese Nula desse exemplo é a seguinte: Teste unilateral com a região de rejeição da Hipótese Nula na cauda da direita: 00 : H 01 : H Continuamos a usar o exemplo anterior, mas alterando a pergunta para: “Pode- se aceitar, a um risco de 5%, que o saldo médio em conta corrente dos clientes dessa agência seja maior que $ 1000,00?” Área de Aceitação da Hipótese Nula 05,0 95,0)1( =1000 Ponto Crítico Área de Rejeição da Hipótese Nula 25 Agora as Hipóteses Nula e Alternativa são as seguintes: 1000:0 H 1000:1 H A representação gráfica das áreas de aceitação e de rejeição da Hipótese Nula deste exemplo será a seguinte: II.4 Os Erros do tipo I e de tipo II Ao realizarmos um teste de hipóteses, estamos sujeitos a cometer erros. Existem dois tipos de erros que podem ser cometidos, “Erro tipo I” e “Erro tipo II”. 1. Erro Tipo I Quando conclui-se sobre uma hipótese, pode-se decidir erroneamente e rejeitar a hipótese nula, mesmo que ela seja verdadeira, porém se ela for verdadeira, queremos que a probabilidade de vir a cometer esse erro (erro do tipo I) seja pequena. Essa probabilidade chama-se nível de significância. Exemplo: Suponha que um consumidor tenha procurado o órgão competente para reclamar que havia comprado um produto em cuja embalagem constava conter 500 gramas, e ao chegar em casa constatou haver menos do que 500 Área de Aceitação da Hipótese Nula Área de Rejeição da Hipótese Nula =1000 Ponto Crítico 95,0)1( 05,0 26 gramas dentro do invólucro. O órgão mandou então recolher, uma amostra para analisar a queixa do consumidor. As hipóteses a serem testadas nesse caso são as seguintes: 500:0 H 500:1 H Suponha que a amostra desse produto coletada, por obra do acaso, contenha somente embalagens com menos de 500 gramas, mas que na realidade a máquina empacotadora introduz 500 gramas em cada embalagem. Nesse caso, rejeitaremos a Hipótese Nula, mas na verdade os produtos contêm, em média, 500 gramas. Teremos, assim, cometido um erro tipo I. 2. Erro Tipo II Ocorre quando aceitamos a hipótese nula como verdadeira, sendo ela falsa. Exemplo: Utilizando o mesmo exemplo anterior, suponha que a máquina empacotadora estivesse realmente com problemas e aleatoriamente introduzindo menos de 500 gramas em muitas embalagens. Mas ao tomar a amostra, por obra do acaso, todas as embalagens coletadas possuíam 500 gramas. Desta forma, a Hipótese Nula será aceita e assim, teremos cometido um erro tipo II. Resumidamente tem-se: O verdadeiro estado da natureza H0 é verdadeira H0 é falsa Decisão Decidimos rejeitar a hipótese nula Erro tipo I (): significância Decisão correta (1-β): poder do teste Não rejeitamos a hipótese nula Decisão correta (1-): confiança Erro tipo II (β) 27 Assim, quando cometemos um erro do Tipo I, aceitamos uma diferença que de fato não existe. No erro do Tipo II, aceitamos que grupos são iguais enquanto que a diferença existe, ou seja, significa que existe uma diferença que não foi reconhecida. O erro do tipo I ocorre principalmente quando as amostras são pequenas, Já o erro do tipo II ocorre em função de amostras pequenas e a grande variabilidade, o que pode eliminar as chances matemáticas de aparecer uma significância estatística. A Confiança, Risco e Poder do Teste A probabilidade de se aceitar a hipótese nula, sendo ela verdadeira, é a confiança do teste. A notação para a confiança é: (1 - ). O complemento da confiança, isto é, a probabilidade de se rejeitar a Hipótese Nula sendo ela verdadeira, é o risco. A notação para o risco é: (). Então, sendo o risco a probabilidade de se rejeitar a hipótese nula sendo ela verdadeira, então o risco é a probabilidade de se cometer um erro do tipo I. Dessa forma, temos que: confiança + risco = 1 O poder ou potencia de um teste estatístico (1 - β) é a probabilidade de rejeitar a hipótese nula, quando no estado da natureza ela é falsa, pode ser interpretado como a probabilidade de rejeitar corretamente uma hipótese nula falsa, ou a sensibilidade do teste de detectar diferenças. II.5 Roteiro para um Teste de Hipóteses A seguir serão apresentados os passos a serem seguidos para a execução de um Teste de Hipóteses, quaisquer que seja o parâmetro a ser testado. 28 1. Determinar de H0 e H1. 2. Determinar a distribuição a ser usada (serão usadas para o teste de médias a distribuições Normal. As regras para a utilização da distribuição são as mesmas utilizadas para a construção do intervalo de estimação). 3. Determinar as regiões de aceitação e de rejeição. 4. Calcular a estatística de teste. 5. Para o teste de média e para o de proporções, a estatística de teste será assim calculada: 6. Determinar o valor crítico. Observar que o valor crítico delimita a região de aceitação e, conseqüentemente, a de rejeição. 7. A decisão consiste em comparar a estatística de teste, calculada a partir da amostra, com o valor crítico, e concluir pela aceitação ou não da hipótese nula. Se a estatística de teste cair dentro da região de aceitação da Hipótese Nula, esta não poderá ser rejeitada. Se cair dentro da região derejeição, a Hipótese Nula deverá ser rejeitada. II.6 Teste Hipótese para Média de uma População com Variância Conhecida No teste de uma Média, onde a variância populacional (ou o desvio padrão populacional) é conhecida, a determinação da estatística de teste é obtida da seguinte maneira: n X Z x 0 Na qual é o valor a ser testado, “n” é o tamanho da amostra, é a média amostral e x é o desvio padrão da população. padrãodesvio testeemvaloramostralvalor testedeaestatístic padrãodesvio testeemvaloramostralvalor testedeaestatístic 0 X 29 Determinação do valor crítico usando a Normal: Entrar no miolo da tabela da Normal com o valor de (0,5 - /2) para testes bilaterais, ou com o valor de (0,5 - ) para testes unilaterais, e ler nas bordas da tabela o valor de Z. Suponha que se queira o valor crítico para um teste bilateral para uma confiança de 95% (ou um risco de 5%, ou uma significância de 5%). Entraremos no miolo da tabela da Normal com o valor de 0,475 (0,50 – 0,025) e leremos nas bordas o valor do Z crítico (1,96). Se for para um teste unilateral, entraremos no miolo da tabela com 0,45 (0,50 – 0,05) e leremos nas bordas o valor de 1,65 para Z crítico. II.7 Teste Hipótese para Média de uma População com Variância Desconhecida e Tamanho da Amostra Grande (n ≥ 30) No teste de uma média com a variância conhecida e tamanho de amostra grande, a determinação da estatística de teste é obtida da seguinte maneira: n s X Z 0 Na qual é o valor a ser testado, “n” é o tamanho da amostra, é a média amostral e xs é o desvio padrão da amostra. Exemplo: Uma amostra aleatória de 40 faturamentos semanais de uma determinada loja apresentou uma média amostral de $ 48.400,00 e um desvio padrão amostral de $ 9.870,00. Pode-se considerar que o faturamento semanal dessa loja é uma variável normalmente distribuída. Pode-se aceitar a um risco de 1% que o faturamento semanal médio desta loja seja igual a $ 50.000,00? Nesse exemplo, as hipóteses são as seguintes: 0 X 000.50:0 H 000.50:1 H 000.50:0 H 000.50:1 H 30 A distribuição a ser usada será a Normal, uma vez que a amostra é maior do que 30. Nesse caso, não precisaríamos fazer a suposição de que a variável seja normalmente distribuída, uma vez que a amostra é grande (mais de 30 observações). O valor da estatística de teste será o seguinte: 03,1 40 9870 5000048400 Z Entrando no miolo da tabela da distribuição Normal com o valor de 0,495 (0,5 – 0,005), encontraremos o valor de Z crítico, que é igual a 2,575 (interpolando entre 0,4949 e 0,4951).Como o valor de Z de teste (1,03) caiu entre os valores - 2,575 e + 2,575, não poderemos rejeitar a hipótese nula de que o faturamento semanal médio seja igual a $ 50.000,00 II.8 Teste Hipótese para Média de uma População com Variância Desconhecida e Tamanho da Amostra Pequeno (n < 30) No teste de uma média para amostra pequena, a determinação da estatística de teste é obtida da seguinte maneira: n s X t 0 Na qual é o valor a ser testado, “n” é o tamanho da amostra, é a média amostral e xs é o desvio padrão da amostra. Determinação do valor crítico usando a distribuição t-Student: Entrar na margem horizontal superior com /2, se o teste for bilateral, ou com , se o teste for unilateral, e na margem vertical à esquerda com o nº. de graus de liberdade (n – 1). Ler no miolo da tabela o valor do t ( t crítico ). Com uma amostra de 20 observações e 5% de significância: Para um teste bilateral, entraremos na borda superior da tabela com /2 = 0,025, e na borda vertical da esquerda com gl (graus de liberdade ) = 20 – 1 = 0 X 31 19. No cruzamento, no miolo da tabela, encontraremos o valor de 2,093 para o valor de t crítico. Para um teste unilateral entraremos com = 0,05 e o mesmo nº de graus de liberdade (19) e, no miolo, no cruzamento, encontramos o valor de t crítico = 1,729. Exemplo: Um engenheiro estuda o tempo médio de vida das lâmpadas elétricas fluorescentes. A indústria afirma que a vida média desse tipo de lâmpada é de 1120 horas. Uma amostra de 8 lâmpadas extraída recentemente apresentou a vida média de 1070 horas, com desvio padrão de 125 horas. Testar a hipótese de que a vida média das lâmpadas não se alterou ao nível de 1%. Resposta: As hipóteses a serem testadas são as seguintes: 1120:0 H 1120:1 H O valor da estatística de teste é dado por: 13,1 8 125 112010700 n s X t Olhando na tabela de distribuição t-student o valor da estatística do ponto critico é t7,0,005 = 3,4995. Conclusão: Como o valor da estatística de teste pertence à região de aceitação da hipótese, então não rejeita-se Ho considerando um nível de significância de 1%. II.9 Teste de Hipótese para Proporção de uma População No teste para proporções usaremos somente a distribuição Normal. O valor crítico será calculado do mesmo modo que para a média. Determinação da estatística de teste: 32 n PP Pp Z )1.( ˆ 00 0 onde pˆ = proporção amostral e 0P = valor em teste. Exercício: Uma pesquisa de marketing a respeito da aceitação de um determinado produto realizada em uma cidade, A, mostrando os seguintes resultados: gostaram do produto: 1230 não gostaram do produto: 270 Pode-se concluir que, a 5%, a aceitação na cidade “A” é menor do 85%? EXEMPLO CALCULO DO ERRO TIPO I E TIPO II Exemplo: suponha que estejamos interessados na taxa de queima de um propelente sólido, usado para fornecer energia aos sistemas de escapamentos de aeronaves. A taxa de queima é uma variável aleatória que pode ser descrita por uma distribuição de probabilidades. Suponha que o foco seja analisar taxa média de queima. Especificadamente, estamos interessados em decidir se a taxa média de queima é ou não 50 cm/s. Uma amostra de 10 espécimes foi testada e que a taxa média de queima da amostra seja observada. Um valor da média amostral róximo ao valor da hipótese (média populacional = 50 cm/s) é uma evidência de que a média verdadeira é realmente 50 cm/s. Se a média amostral é consideravelmente diferente de 50 cm/s é evidência de que H1 é válida. Suponha que não rejeitamos se ou se, rejeitamos Ho em favor da hipótese . 48,5 51,5 50 Rejeita Ho Não rejeita-se Ho Rejeita-se Ho scmH scmH /50: /50: 1 0 50:0 H 5,515,48 x 5,48x 5,51x scmH /50:1 33 No exemplo, o erro do tipo I ocorrerá quando ou , para a taxa média de queima igual a 50 cm/s. Suponha que o desvio padrão de queima igual a 2,5 cm/s e tenha uma distribuição normal. A probabilidade de cometer o erro do tipo I é igual a soma das áreas sombreadas. Assim, Os valores de Z que correspondem aos valores críticos 48,5 e 51,5 são Para calcular o β é necessária uma hipótese alternativa específica, ou seja, temos que ter um valor particular para µ. Suponha que o verdadeiro valor de µ seja µ = 52 cm/s, então: Os valores de Z correspondentes a 48,5 e 51, 5 quando µ=52 são: 5048,5 51,55048,5 51,5)/()( verdadeiraHoHorejeitarPItipoerroP 5,51x 5,48x )505,51()505,48( quandoxPquandoxP 90,1 10 5,2 505,48 1 Z 90,1 10 5,2 505,51 2 Z 057434,0 028716,0028716,0)90,1()90,1( ZPZP )/()( falsaforHoHorejeitarnãoPIItipoerroP )525,515,48( quandoxP 43,4 79,0 525,48 1 Z 63,0 79,0 525,51 2 Z 34 264347,0)63,043,4( ZP A potência do teste é 1-β = 0,735653 II.10 Teste de Hipótese para a Variância de uma População Normal Será considerado agora o problema de testar se um desvio padrão populacional é igual a uma determinada constante, σ0, ou se a variância populacional é igual a σ20. Este tipo de teste pode ser necessário quando estudamos a uniformidade de um produto, de um processo ou mesmo de uma operação. Pode-se, por exemplo, querer testar se certo tipo de vidro é suficientemente homogêneo para ser usado na fabricação de um equipamento óptico, se o grau de conhecimento prévio de um grupo de estudantes é uniforme para incluí-los em uma única turma, se a falta de uniformidade no desempenho de certos operários pode exigir uma supervisão mais restrita, etc. Suponha que se deseja testar a hipótese de que a variância de uma população normal (σ2) com média populacional (µ) desconhecida seja igual a um valor especifico, σ20 o teste de hipótese será dado por: 2 0 2 0 : H 2 0 2 1 : H Na hipótese alternativa pode ser testado se a variância é maior ou menor do que determinado valor. E a estatística de teste será: 2 0 2 2 1 sn A distribuição amostral da estatística é a distribuição qui-quadrado com n-1 graus de liberdade (k). 35 A distribuição qui-quadrado não é negativa e é desviada para a direita, sendo que à medida que o número de graus de liberdade aumenta, a distribuição se torna mais simétrica e quando k , a distribuição qui-quadrado tende para uma distribuição normal, veja figura abaixo: Funções densidade de probabilidade de várias distribuições 2 . Os pontos percentuais da distribuição qui-quadrado são tabelados sendo que as áreas α estão na primeira linha e os graus de liberdade são dados na coluna esquerda. Por exemplo, o valor com 10 graus de liberdade tendo uma área de 0,05 para a direita é 31,182 10;05,0 , sendo que esse valor é o ponto superior 5% da variável qui-quadrado, veja abaixo: 36 Na Figura abaixo (Freund, 2000) são apresentados, dependendo da hipótese alternativa, os pontos críticos: Critério para testes de variância. 37 Exemplo: Para avaliar certas características de segurança de um carro, um engenheiro precisa saber se o tempo de reação dos motoristas de uma determinada situação de emergência tem desvio padrão de 0,010 segundo, ou se é superior a 0,010 segundo. Se o engenheiro obtém s = 0,014 para uma amostra de tamanho n = 15, qual é a sua conclusão ao nível de 0,05 de significância? Admitindo que a população que originou a amostra tenha uma distribuição normal, podemos proceder como segue. 010,0:0 H 010,0:1 H A estatística de teste é dada por: 44,27 010,0 )014,0.(1151 2 2 2 0 2 2 sn Como 44,272 excede 68,232 14;05,0 (valor da tabela), a hipótese nula deve se rejeitada. , ou seja, o engenheiro pode concluir que o desvio padrão dos tempos de reação de motoristas a determinada situação de emergência é superior a 0,010 segundo. II.11 Valores-p nos testes de hipóteses A abordagem do valor-p tem sido amplamente utilizada na prática. O valor – p é a probabilidade de que a estatística de teste assuma um valor que é, no mínimo, tão extremo quanto o valor observado da estatística quando a hipótese nula for verdadeira. Assim, o valor-p carrega muita informação sobre o peso da evidencia contra H0. Resumindo: valor-p é a probabilidade da estatística de teste assumir um valor quando a hipótese nula é verdadeira. Interpretação: a decisão sobre a hipótese nula é tomada comparando-se o valor-p com um valor pré-fixado (nível de significância), usualmente 0,05. Quando o valor-p é menor que este ponto de corte, o resultado é 38 estatisticamente significante (rejeita-se Ho) e, caso contrário, ele é dito não significante (não rejeita-se Ho). Não é sempre fácil calcular o valor-p para um teste. No entanto, a maioria dos programas computacionais, já apresenta este valor calculado para que você possa tomar a decisão em relação à hipótese sem que haja a necessidade de olhar na tabela de distribuição de probabilidade. TERCEIRA LISTA DE EXERCÍCIOS 1) Uma agência de empregos alega que os candidatos por ela colocados nos últimos seis meses têm salários maiores que $9000 anuais, em média. Um órgão governamental extraiu uma amostra de aleatória daquele grupo, encontrando um salário médio de $9300 com um desvio de $1000, com base em 49 empregados. Teste a afirmação da agência ao nível de 0,05 de significância. 2) O salário dos empregados das indústrias siderúrgicas no ES tem distribuição normal, com média de 4 salários mínimos, com desvio padrão de 0,5 salários mínimos. Uma indústria emprega 25 empregados, com salário médio de 3,8 s.m. Ao nível de 5% podemos afirmar que essa indústria paga salários inferiores à média? 3) Uma máquina automática que empacota o alimento A é programada para colocar 200g de peso. Para verificar a precisão da máquina, uma amostra de 36 pacotes do referido alimento fornece um peso médio de 198g e desvio padrão de 6g. O que se pode concluir ao nível de 5%? 4) Uma fábrica de cerveja distribui um tipo de cerveja sem álcool em garrafas que indicam 300 ml. O instituto de peso e medidas seleciona aleatoriamente 25 garrafas e obtém uma média de 295 ml com o desvio padrão de 9 ml. Ao nível de 0,01de significância, pode-se concluir que a fábrica coloca menos cerveja nas garrafas? 39 5) Sabe-se que por experiência que 5% da produção de um determinado artigo é defeituosa. Um novo empregado é contratado. Ele produz 600 peças do artigo com 82 defeituosas. Ao nível de 10%, verificar se o novo empregado produz peças com maior índice de defeitos que o existente. 6) Um fabricante de droga medicinal afirma que a eficiência da droga é igual a 90% na cura de uma alergia. Em uma amostra de 200 pacientes, a droga curou 135 pessoas. Testar ao nível de 1% se a pretensão do fabricante é legítima. 7) A quantidade de chumbo em certo tipo de solo, medida por um método padrão, acusa em média 85 partes por milhão (ppm). Experimenta-se um novo método em 40 espécimes de solo, obtendo-se uma média de 80 ppm de chumbo e um desvio padrão de 10 ppm. Há evidência significativa, ao nível de 1% de significância, de que o novo método libere menos chumbo do solo? 8) Avaliou-se em 250 kg o desvio padrão das tensões de ruptura de certos cabos produzidos por uma fábrica. Depois de ter sido introduzida uma mudança no processo de fabricação desses cabos, as tensões de ruptura de uma amostra de 10 cabos apresentaram o desvio padrão de 305 kg. Investigar a significância do aumento aparente da variância, ao nível de 5%. 9) De uma população normal com média desconhecida, levantou-se uma amostra casual de 21 elementos: 1, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 7 ao nível de 10% testar se a variância populacional é menor do que 4. 10) De umapopulação normal com média desconhecida, levantaram-se 24 observações, obtendo-se 480 ix e 100602 ix . Ao nível de 5% testar se a variância populacional seja diferente de 16. 11) Um fabricante de fibra têxtil está investigando um novo fio, que a companhia afirma ter um alongamento médio de 12 kg, com um desvio-padrão de 0,5 Kg. A companhia deseja testar a hipótese contra 12:0 H 12:1 H 40 usando uma amostra aleatória de quatro espécimes. a) Qual será a probabilidade do erro do tipo I se a região crítica for definida como kgx 5,11 ? b) Encontre beta para o caso em que o alongamento verdadeiro seja 11,25 Kg. 12) Considere que foram coletados dados amostrais para se estimar o número de acidentes de trabalho em função da quantidade de horas trabalhadas e salário de funcionários de uma indústria siderúrgica. a) Construa uma estimativa intervalar para a taxa de acidentes. b) Elabore as hipóteses para verificar se a taxa de acidentes difere de 2,5. II.12 Teste de Aderência e Tabela de Contingência A estatística 2 foi criada por Karl Pearson para medir o grau de discrepância entre um conjunto de freqüências observadas (O) e o conjunto de freqüências esperada segundo determinada hipótese. Com essa técnica podem se resolvidos vários problemas, entre eles os seguintes: 1) Verificar se uma distribuição observada de dados ajusta-se a uma distribuição esperada (teórica): o teste é chamado de aderência ou de ajustamento; 2) Comparar duas ou mais populações com relação a uma variável categórica: o teste denomina-se teste 2 de comparação de proporções. 3) Verificar se existe associação entre duas variáveis quazlitativas: teste é chamado de teste 2 de associação. OBS.: O nosso estudo ocorrerá nos itens 1 e 3 citados anteriormente. Taxas de acidentes Frequência observada 1,8 a 2,0 3 2,0 a 2,2 8 2,2 a 2,4 10 2,4 a 2,6 5 41 II.12.1 Teste de Aderência ou adequação do Ajuste Este teste é utilizado quando não conhecemos a distribuição de probabilidade da população estudada e desejamos testar a hipótese de que uma distribuição particular é satisfatória como um modelo para a população. O procedimento do teste requer uma amostra aleatória de tamanho n, proveniente da população com distribuição de probabilidade desconhecida. Essas n observações arranjadas em um histograma de freqüência (contínua), tendo K intervalos de classe. Seja Oi a freqüência observada no i-ésimo intervalo de classe. A partir da distribuição de probabilidades utilizada na hipótese, calculamos a freqüência esperada no i-ésimo intervalo de classe denotada por Ei. A hipótese será: H0: A distribuição de freqüências observadas é igual à distribuição de freqüências esperadas segundo a hipótese que se está testando. H1: A distribuição de freqüências observadas não é igual à distribuição de freqüências esperadas segundo a hipótese que se está testando. A estatística de teste é dada por: i ii E EO 2 2 , sendo Ei = n.p => n é o tamanho da amostra e p é a probabilidade de acordo com a distribuição da hipótese nula. Região de rejeição: A região de rejeição será somente a direita da curva qui-quadrado, pois quanto mais próximo for o Oi de Ei, mais próximo de zero (à esquerda do 2 ), mais perfeita será a aderência testada. Assim o ponto critico será 2 ;1 pk , onde p = número de parâmetros na distribuição utilizada na hipótese que foram estimados pela amostra. k = número de classes. 42 Procedimento para o ajuste: 1. Realiza-se um levantamento da amostra. 2. Observa-se o tipo de distribuição e propõe o modelo. 3. Estimam-se os parâmetros de que dependem esta distribuição proposta. 4. Com estas estimativas, executa-se o ajustamento verificando quais os valores esperados, com base nessa estimativa, isto é, testa-se a aderência, verificando-se se é possível admitir que os valores observados seguem a distribuição proposta. Exemplo 1: O número de defeitos por placas de circuito impresso é suposto seguir uma distribuição de Poisson. Uma amostra de 60 placas foi coletada e o numero de defeitos observados: Número de defeitos freqüência observada 0 32 1 15 2 9 3 (ou mais) 4 A média deve ser estimada pela amostra: 75,0 60 3429115032 n fx x ii H0: O número de defeitos segue uma distribuição de Poisson. H1: O número de defeitos não segue uma distribuição de Poisson. ! . )( x e xXP x 472,0 !0 .75,0 )0( 75,00 e XP 354,0 !1 .75,0 )1( 75,01 e XP 354,0 !2 .752,0 )2( 75,0 e XP 43 041,0)2()1()0(1)3( XPXPXPXP Número de defeitos Freqüência observada Probabilidade Freqüência esperada 0 32 0,472 28,32 1 15 0,354 21,24 2 9 0,133 7,98 3 ou mais 4 0,041 2,48 OBS.: A freqüência esperada da ultima casela é menor do que 5 (2,48), neste caso é aconselhável combinar as duas ultimas freqüências esperadas. A estatística de teste será: 94,2 44,10 44,1013 24,21 24,2115 32,28 32,2832 2222 2 i ii E EO O ponto crítico será (ao nível de 5%): 84,32 05,0;113 2 ;1 pk , assim não rejeita-se Ho, ou seja, a distribuição de defeitos nas placas de circuito impresso é uma distribuição de Poisson. Exemplo 2: Levantou-se uma amostra de tamanho 100 em que se observava a altura das pessoas. Realizar um ajustamento desses dados a uma distribuição conveniente e testar aderência, ao nível de 2,5%. Classes fi 150|--155 1 155|--160 2 160|--165 5 165|--170 13 170|--175 20 175|--180 23 180|--185 19 185|--190 11 190|--195 4 44 195|--200 2 Soma 100 Analisando o histograma acima, concluímos que tipo de função se ajusta aos dados. Ajustaremos uma distribuição normal. H0: Os dados seguem uma distribuição normal. H1: Os dados não possuem uma distribuição normal. Como não especifica quais são os parâmetros ų e é necessário estimá- los. . 152,5 1 152,5 23256,25 157,5 2 315 49612,5 162,5 5 812,5 132031,25 167,5 13 2177,5 364731,25 172,5 20 3450 595125 177,5 23 4082,5 724643,75 182,5 19 3467,5 632818,75 187,5 11 2062,5 386718,75 192,5 4 770 148225 197,5 2 395 78012,5 Total 100 17685 3135175 A média será igual a 176,85 cm e o desvio padrão será de 8,75 cm. Verificaremos se os dados têm aproximadamente uma distribuição normal com média 176,85 cm e desvio 8,75 cm. Verificaremos quais são as freqüências sob , X: N ( 176,85; (8,75)² ). 45 O valor do qui-quadrado será de 1,01 e o ponto crítico será 01,162 025,0;2110 2 ;1 pk não rejeita-se Ho, os dados seguem uma distribuição normal. Valores Z = (x-µ)/σ Z P(0 < Z < x) 150 (150-176,5)/8,75 -3,07 0,4989 155 (155-176,5)/8,75 -2,50 0,4938 160 (160-176,5)/8,75 -1,93 0,4732 165 (165-176,5)/8,75 -1,35 0,4115 170 (170-176,5)/8,75 -0,78 0,2823 175 (175-176,5)/8,75 -0,21 0,0832 180 (180-176,5)/8,75 0,36 0,1406 185 (185-176,5)/8,75 0,93 0,3238 190 (190-176,5)/8,75 1,50 0,4332 195 (195-176,5)/8,75 2,07 0,4808 200 (200-176,5)/8,752,65 0,4960 Classes Prob. oi Qui-quadrado 150|--155 0,4989 – 0,4938 = 0,0051 1 0,51 (1-0,51) 2 /0,51 = 0,470784 155|--160 0,4938 - 0,4732 = 0,0206 2 2,06 (2-2,06) 2 /2,06 = 0,001748 160|--165 0,4732 - 0,4115 = 0,0617 5 6,17 (5-6,17) 2 /6,17 = 0,221864 165|--170 0,4115 - 0,2823 = 0,1292 13 12,92 (13-12,92) 2 /12,92 = 0,000495 170|--175 0,2823 - 0,0832 = 0,1991 20 19,91 (20-19,91) 2 /19,91 = 0,000407 175|--180 0,0832 + 0,1406 = 0,2238 23 22,38 (23-22,38) 2 /2,38 = 0,017176 180|--185 0,3238 - 0,1406 = 0,1832 19 18,32 (19-18,32) 2 /18,32 = 0,02524 185|--190 0,4332 - 0,3238 = 0,1094 11 10,94 (11-10,94) 2 /10,94 = 0,000329 190|--195 0,4808 - 0,4332 = 0,0476 4 4,76 (4-4,76) 2 /4,76 = 0,121345 195|--200 0,4960 - 0,4808 = 0,0152 2 1,52 (2-1,52) 2 /1,52 = 0,151579 Σ 100 99,49 1,010967 46 II.12.2 Tabelas de Contingência São tabelas de dupla entrada ou cruzadas construídas com o propósito de estudar a relação entre as duas variáveis de classificação. Por meio do teste 2 , é possível verificar se duas variáveis são independentes. O número de graus de liberdade é dado por g.l. = (r-1).(c-1), sendo r o número de linhas e c o número de colunas da tabela de contingência. A hipótese a ser testada é: H0: As variáveis são independentes (não existe associação entre as variáveis). H1: As variáveis não são independentes (existe associação entre as variáveis). O valor esperado é calculado como E = n.p, sendo que a probabilidade, p, é calculada considerando H0 como verdadeiro, ou seja, )()()( BPAPBAP . Exemplo: No congresso Americano, grupos de Democratas e Republicanos votaram a em um projeto de interesse nacional está na tabela abaixo. Ao nível de 5%, testar a hipótese de não existe associação entre os dois partidos, com relação a esse projeto. Votos Partido A favor (F) Contra (C) Indecisos (I) Total Democratas (D) 85 78 37 200 Republicanos (R) 118 61 25 204 Total 203 139 62 404 Para calcular as probabilidades e os valores esperados tem-se: )()()( BPAPBAP e E = n.p 0,2488 404 203 404 200 )()()( FPDPFDP → E = 404 x 0,2488 = 100,495 1729,0 404 139 404 200 )()()( CPDPCDP → E = 404 x 0,1729 = 69,8516 0,0771 404 62 404 200 )()()( IPDPIDP → E = 404 x 0,0771 = 31,154 47 0,2537 404 203 404 204 )()()( FPRPFRP → E = 404 x 0,2537 = 102,4948 0,1737 404 139 404 204 )()()( CPRPCRP → E = 404 x 0,1737 = 70,1748 0,0775 404 62 404 204 )()()( IPRPIRP → E = 404 x 0,0775 = 31,31 A estatística de teste é dada por: 0881,9 31 3125 70 7061 103 103118 31 3137 69 6978 100 10085 2222222 2 i ii E EO g.l = (2-1) x (3-1) = 2 99915,52 05,0;2 Rejeita-se Ho, ou seja, ao nível de 5%, podemos afirmar que os políticos não votaram independentemente da orientação política de seus partidos. QUARTA LISTA DE EXERCÍCIOS 1. Na tabela abaixo, testar a hipótese de que não há relação entre o nível educacional de um individuo e êxito no seu casamento, isto é, ao nível de 5% testar a hipótese da independência entre as classificações. Ajustamento do casal Nível universitário Muito baixo Baixo Alto Muito Alto Universitário 18 29 70 115 Secundário 17 28 30 41 Ginasial 11 10 11 20 2. A tabela abaixo mostra a relação entre o aproveitamento dos alunos em física e matemática. Testar a hipótese de que o aproveitamento em física é independente ao de matemática, ao nível de 5%. Matemática Física Grau alto Grau médio Grau baixo Grau alto 56 71 12 Grau médio 47 163 38 Grau baixo 14 42 85 48 3. A tabela a seguir mostra a distribuição em toneladas das cargas máximas suportadas por certos cabos produzidos por uma empresa. Ajustar uma distribuição teórica conveniente e testar, ao nível de 5%, a aderência do ajustamento. Carga máxima (toneladas) Freqüência observada (Oi) 9,2 a 9,7 2 9,7 a 10,2 5 10,2 a 10,7 12 10,7 a 11,2 17 11,2 a 11,7 14 11,7 a 12,2 6 12,2 a 12,7 3 12,7 a 13,2 1 UNIDADE III – INFERÊNCIA ESTATÍSTICA PARA UMA DUAS AMOSTRAS III.1 Teste de hipótese para duas médias O teste de duas médias é realizado para se comparar as médias de duas populações a partir da análise das médias de suas amostras. Duas amostras são independentes se a amostra extraída de uma das populações não tem qualquer relação com a amostra extraída da outra população. Se uma das amostras tem alguma relação com a outra, as amostras são ditas dependentes ou pareadas. O teste para duas médias pode usar a distribuição Normal ou a “T” de Student. As Hipóteses Nula e Alternativa do teste são as seguintes: Teste bilateral: baH :0 baH :1 49 Teste unilateral a direita: Teste unilateal a esquerda: III.1.1 Teste para duas Médias - Uso da distribuição Normal Em duas situações será usada a distribuição Normal: Se a soma dos tamanhos das duas amostras for maior ou igual a 30, quaisquer que sejam as populações; Se for garantido que as populações são normalmente distribuídas e que os desvios padrões das populações sejam conhecidos. III.1.2 Teste para duas Médias - Uso da distribuição “t de Student” A distribuição de Student deverá ser usada quando a soma dos tamanhos das amostras for menor do que 30 observações e não se conhecer o desvio padrão das populações, devendo-se assumir obrigatoriamente que as populações são normais ou aproximadamente normalmente distribuídas. Caso não haja possibilidade de se assumir a normalidade das populações, o tamanho da amostra deverá ser aumentado para 30 ou mais. III.1.3 Cálculo da estatística de teste A) Se as amostras forem pareadas: baH :0 baH :1 baH :0 baH :1 30 ba nn 30 ba nn 50 Sendo d a média das diferenças entre as amostras e sd é o desvio padrão dessas diferenças. Será considerado gl (graus de liberdade) = n-1. Exemplo: Um grupo de 10 pessoas é submetido a um tipo de dieta por 10 dias, estando o peso antes do inicio (xi) da dieta e no final da dieta (yi) marcados na tabela abaixo. Ao nível de 5%, podemos concluir que houve diminuição do peso médio pela aplicação da dieta? yxH :0 yxH :1 6,2 10 26 n d d i 71,6 11 )( 222 2 n dnd n dd s ii d 59,271,6 ds 17,3 1059,2 06,2 ns d t d d PESSOA Xi Yi PESSOA di di 2 A 120 116 A 2 16 B 104 102 B 4 4 C 93 90 C 3 9 D 87 83 D 4 16 E 85 86 E -1 1 F 98 97 F 1 1 G 102 98 G 4 16 H 106 108 H -2 4 I 88 82 I 6 36 J 90 85 J 5 25 Soma 26 128 ns d t d d 51 Na tabela tem-se que: n-1 = 9; α = 0,05, assim t = 1,833. Como a estatística de teste > que o valor de t na tabela conclui-se que rejeita- se Ho, ou seja, a queda de peso e significativa pelo uso da dieta no grupo. Exercício: Utilizando um cronometrador de reação, os indivíduos são submetidos a testes de reaçãocom as mãos esquerdas e direitas. Os resultados (em milésimos de segundo) constam na tabela a seguir. No nível de 0,05 de significância, teste a afirmação de que há uma diferença entre a media dos tempos de reação da mão direita e da mão esquerda. Se um engenheiro esta projetando a cabine de um jato de combate e deve colocar o ativador de ejeção do assento de modo a ser acessível tanto a mão direita como a não esquerda, faz alguma diferença entre a mão que escolhe? Pessoa A B C D E F G H I J K L M N Direita 191 97 116 165 116 129 171 155 112 102 188 158 121 133 Esquerda 224 171 191 207 196 165 177 165 140 188 155 219 177 174 B) Se as amostras forem independentes: B1) Se na + nb é maior ou igual a 30: b b a a baba n s n s XX Z 22 Observe que se o desvio padrão populacional é conhecido ele deve ser substituído por “s” na expressão acima. Exemplo: De duas populações normais X1 e X2 com variâncias 25, levantaram-se duas amostras de tamanho n1 = 49 e n2 = 36, obtendo-se: 147 49 1 1 i ix 72 36 1 2 i ix Ao nível de 10% teste a hipótese de que as medias das duas populações são iguais. 52 31 x 22 x Variância =25 O valor de Z tabelado e de 1,64, assim não se rejeita Ho, ou seja, ao nível de 10% não é significativa a diferença entre as médias das duas populações. B2) Se na + nb é menor do que 30: Caso 1: As variâncias populacionais são consideradas iguais: ba ba ba bbaa baba nn nn nn nsns XX t 2 11 22 Sendo gl = na + nb - 2 Exemplo: Foram tomados amostras de água em dois poços, um em região de reflorestamento (A) e o outro próximo a um posto de gasolina (B). Foram analisados diversos parâmetros de potabilidade entre eles a condutividade. No posto A foi coletada 5 amostras de água, registrando uma média de 80 (mS/m) com um desvio de 5(mS/m). No posto B, foram coletas 6 amostras com uma média de 83 (mS/m) e um desvio padrão de 4. Adotando um nível de significância de 0,05 testar a hipótese de que a condutividade é igual nos dois postos. OBS.: As variâncias populacionais foram consideradas iguais e independentes. 91,0 36 25 49 25 0)23( 22 b b a a baba n s n s XX Z 0: 210 H 0: 211 H 53 Hipótese ou Estatística de teste ba ba ba bbaa baba nn nn nn nsns XX t 2 11 22 1,1 61,047,4 3 65 65 265 164155 08380 22 t Ponto crítico Nível de significância de 0,05 e a t com 5+6-2 = 9 graus de liberdade, assim o ponto critico é de 2,2622. Conclusão: Como a estatística de teste 2622,22622,2 tt não de pode rejeitar Ho com esse nível de significância. Caso 2: As variâncias populacionais são consideradas diferentes: b b a a ba n s n s XX t 22 Sendo: 2 2 2 2 2 22 1 1 1 1 b b ba a a b b a a n s nn s n n s n s gl Aproximando-se para o inteiro mais próximo. 0: 0: 1 0 BA BA H H BA BA H H : : 1 0 54 Exemplo: Foi realizado um estudo para avaliar os níveis de água subterrânea em dois aterros industriais A e B de uma empresa de Celulose. No aterro A foram coletas amostras em 10 pontos obtendo-se uma média de 12 m e um desvio de 8,743. No aterro B foram tomadas 11 amostras obtendo-se uma média de 8,7 m e um desvio padrão de 5,901. Considerando que as variâncias são diferentes teste a hipótese, com significância de 5%, de que a média do nível de água é igual nos dois aterros. Hipótese BA BA H H : : 1 0 ou 0: 0: 1 0 BA BA H H Estatística de teste 00,1 11 901,5 10 743,8 7,812 2222 b b a a ba n s n s XX t Ponto crítico: Nível de significância de 0,05 e a t com graus de liberdade igual a: 59,15 11 901,5 111 1 10 8743 110 1 11 901,5 10 8743 1 1 1 1 2 2 2 2 2 22 2 2 2 2 2 22 b b ba a a b b a a n s nn s n n s n s gl Aproximando para o inteiro mais próximo tem-se que graus de liberdade = 16 tem-se que o ponto crítico é de 2,120. Conclusão: Como a estatística de teste é menor que o ponto crítico não se pode rejeitar Ho com o nível de significância de 5%. 55 III.2 Teste de hipótese para duas proporções Usaremos a distribuição Normal para o teste de comparação entre duas proporções populacionais. As Hipóteses são as seguintes: Teste bilateral: Teste unilateral à direita: Teste unilateral à esquerda: Considerando que: 1pˆ = proporção amostral da amostra 1 2pˆ = proporção amostral da amostra 2 1n = tamanho da amostra 1 2n = tamanho da amostra 2 A estatística de teste Z de teste é igual a: ) 11 ()ˆ1(ˆ ˆˆ 21 21 nn pp pp Zt Na qual pˆ é assim calculado: 21 2211 ˆˆ ˆ nn pnpn p ba PPH :0 ba PPH :1 ba PPH :0 ba PPH :1 ba PPH :0 ba PPH :1 56 Exemplo: Foi realizada uma pesquisa sobre a aceitação da coleta seletiva em duas cidades diferentes, cidades “A” e “B”. Na cidade “A” foram consultados 300 moradores e na cidade “B” 500 moradores. Na cidade “A” 186 moradores aprovaram a coleta, enquanto que na cidade “B” este número foi de 320 moradores. Pode-se aceitar a 5% que a aprovação da coleta seletiva foi a mesma nas duas cidades? As hipótese envolvidas no teste são as seguintes: Os valores das proporções amostrais são as seguintes: 62,0 300 186 ˆ p 64,0 500 320 ˆ p O valor de pˆ é igual a: 6325,0 500300 64,0.50062,0.300 ˆ p O valor de Z teste é igual a: 57,0 ) 500 1 300 1 ()6325,01(6325,0 64,062,0 tZ Entrando-se no miolo da tabela da distribuição Normal com 0,475 (0,5 – 0,025), encontraremos para o valor de Z crítico 1,96. Como o Z de teste está dentro do intervalo de – 1,96 a + 1,96, não se pode rejeitar a Hipótese Nula, ou seja, a aprovação do produto é a mesma nas duas cidades. A representação gráfica da solução deste problema é a seguinte: ba PPH :0 ba PPH :1 57 III.2 Comparação de duas variâncias Como a variação entre dados é uma característica de extrema importância, assim, vamos apresentar um método que
Compartilhar