Baixe o app para aproveitar ainda mais
Prévia do material em texto
Fernanda Karine Ruiz Colenghi Joaquim Osvaldo Pereira de Gouvêa Wilton Rezende de Freitas Estatística inferencial Catalogação elaborada pelo Setor de Referência da Biblioteca Central Uniube © 2017 by Universidade de Uberaba Todos os direitos reservados. Nenhuma parte desta publicação poderá ser reproduzida ou transmitida de qualquer modo ou por qualquer outro meio, eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de sistema de armazenamento e transmissão de informação, sem prévia autorização, por escrito, da Universidade de Uberaba. Universidade de Uberaba Reitor Marcelo Palmério Pró-Reitor de Educação a Distância Fernando César Marra e Silva Coordenação de Graduação a Distância Sílvia Denise dos Santos Bisinotto Projeto da capa Agência Experimental Portfólio Edição Universidade de Uberaba Av. Nenê Sabino, 1801 – Bairro Universitário Colenghi, Fernanda Karine Ruiz. C677e Estatística inferencial / Fernanda Karine Ruiz Colenghi, Joaquim Osvaldo Pereira de Gouvêa, Wilton Rezende de Freitas. – Uberaba : Universidade de Uberaba, 2017. 117 p. : il. Programa de Educação a Distância – Universidade de Uberaba. Inclui bibliografia. ISBN 978-85-7777-759-4 1. Estatística matemática. 2. Estatística. 3. Amostragem (Estatística). I. Gouvêa, Joaquim Osvaldo Pereira de. II. Freitas, Wilton Rezende de. III. Universidade de Uberaba. Programa de Educação a Distância. IV. Título. CDD 519.5 Fernanda Karine Ruiz Colenghi Graduada em estatística pela Universidade Federal de Minas Gerais (UFMG). Joaquim Osvaldo Pereira de Gouvêa Especialização em avaliação no ensino superior, pela Universidade de Brasília – UnB (1998). Graduado em ciências econômicas pela Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo – USP (1973). Professor de economia, finanças e estatística dos cursos de graduação em administração e ciências contábeis e em cursos de pós-graduação da Univer- sidade de Uberaba – Uniube. Wilton Rezende de Freitas Graduado em administração pela Universidade de Uberaba, pós-graduado em finanças e controladoria pela Faculdade de Ciências Econômicas do Triângulo Mineiro (parceria com a FEA-USP/RP). Professor de administração e ciências contábeis. Preceptor dos cursos de administração e ciências contábeis da Uni- versidade de Uberaba – Uniube. Sobre os autores Sumário Apresentação ................................................................................................ VII Capítulo 1 A importância da inferência para a tomada de decisões: intervalos de confiança e testes de hipóteses ...............................1 1.1 Conceitos iniciais: parâmetros, estimadores e estimativas ...........................................6 1.1.1. Parâmetro ............................................................................................................6 1.1.2. Estimador e estimativa ........................................................................................6 1.1.3. Estimador não viciado .........................................................................................7 1.1.4. Teorema Central do Limite ..................................................................................8 1.2 Estimação da média populacional m: intervalos de confiança .....................................10 1.2.1 Caso 1: a variância populacional 2σ é conhecida .............................................10 1.2.2 Caso 2: a variância populacional 2σ é desconhecida e a amostra é grande (n ≥ 30)..................................................................................................14 1.2.3 Caso 3: a variância populacional 2σ é desconhecida e a amostra é pequena (n < 30) ................................................................................................15 1.2.4 Determinação do tamanho da amostra ..............................................................18 1.3 Estimação da proporção populacional ........................................................................19 1.3.1 Expressão do intervalo de confiança .................................................................19 1.3.2 Determinação do tamanho da amostra ..............................................................21 1.4 Testes de hipótese para média populacional ..............................................................23 1.4.1 Formulação das hipóteses para teste ................................................................23 1.4.2 Erros em testes de hipóteses .............................................................................25 1.4.3 Estatística de teste .............................................................................................27 1.4.4 Tipos de testes: bilateral e unilateral ..................................................................28 1.4.5 Valor p (nível descritivo) .....................................................................................41 1.5 Teste para proporção ...................................................................................................45 1.5.1 Caso unilateral ...................................................................................................46 VI UNIUBE 1.5.2 Caso bilateral .....................................................................................................47 1.5.3 Critério do valor p no teste de proporção ...........................................................47 1.6 Usando intervalos de confiança para tomada de decisões .........................................50 Capítulo 2 Aplicações do teste qui-quadrado em tabelas de contingência ...............................................................61 2.1 Tipos de teste qui-quadrado ........................................................................................64 2.2 Conceitos iniciais .........................................................................................................65 2.3 Características da distribuição qui-quadrado (x2) .......................................................66 2.4 Teste de independência ...............................................................................................68 2.5 Teste de homogeneidade ............................................................................................71 Capítulo 3 Correlação, regressão linear simples e múltipla ..........................81 3.1 Coeficiente de correlação de Pearson ........................................................................84 3.1.1 Propriedades interessantes do coeficiente de correlação ..................................85 3.1.2 Teste da significância da correlação ..................................................................87 3.2 Regressão linear simples ............................................................................................89 3.2.1 Estimação dos parâmetros 0b e 1b .................................................................91 3.2.2 Avaliação da qualidade de um modelo de regressão .........................................93 3.3 Verificação das suposições do modelo .......................................................................97 3.3.1 Verificação da normalidade dos resíduos ..........................................................98 3.3.2 Independência (não autocorrelação) e aleatoriedade dos resíduos ................100 3.3.3 Teste F para verificar se 1b é significativo ......................................................102 3.3.4 Verificação se o coeficiente do modelo 1 b é significativo utilizando o teste t-Student ...............................................................................1043.4 Um pouco mais sobre o modelo de regressão ..........................................................106 3.4.1 Intervalo de confiança de parâmetros estimados .............................................106 3.4.2 Intervalo de confiança das previsões ...............................................................108 3.5 Regressão múltipla ....................................................................................................109 Apresentação Este livro trata da inferência estatística. Inferir significa deduzir uma coisa de outra. Na estatística inferencial usamos os métodos estatísticos para fazer con- clusões, estimações, predições e generalizações a respeito de uma população, a partir de uma amostra. Ou seja, com base nas informações amostrais deduzimos que uma população apresenta determinada característica. O propósito deste volume é apresentar os métodos estatísticos que permitem fazer inferências sobre a média ou sobre a proporção de uma população. A inferência estatística envolve, basicamente, intervalos de confiança e testes de hipóteses, assuntos que você estudará neste livro. O capítulo 1 aborda a estimação da média populacional mediante a construção de intervalos de confiança e a formulação de testes de hipóteses sobre a média da população. No capítulo 2 são apresentados os testes de independência e de homogeneidade. Já no capítulo 3, são abordados os fundamentos básicos dos modelos de re- gressão linear e múltipla. Todos os estudos aqui propostos enfatizam o uso de métodos computacionais para resolver os problemas de inferência estatística. Esperamos que eles con- tribuam para a sua formação profissional, desencadeando, gradativamente, um interesse maior nessa área do conhecimento. Bons estudos! Newton Gonçalves Garcia / Renata de Oliveira Introdução Iniciamos, aqui, parte fundamental da sua formação como professor de língua inglesa: a fonética. Porém, além de se dedicar ao estudo dessa importante faceta da língua, você deve se preparar para ensiná-la ao seu grupo de alunos. Você que já iniciou ou inicia agora seus estudos da língua inglesa certamente já teve dificuldades com a pronúncia desse idioma. Isso é algo esperado de ocorrer já que se trata de um idioma com origens na língua anglo-saxã, portanto, com características distintas de nosso idioma de origem latina. Apesar desse aspecto, por meio do estudo da fonética, é possível con- seguir uma pronúncia inteligível aos falantes nativos e não nativos do idioma, como frisa Underhill (200?, p.92) em: The aim of pronunciation teaching can no longer be to get stu- dents to sound [...] like native speakers, or more like the teacher […]. The primary aim must be to help learners to communicate successfully when they listen or speak in English, often with other non-native speakers. O objetivo do ensino da pronúncia não pode ser mais fazer com que os alunos soem como falantes nativos ou como seu professor. O ob- jetivo primário deve ser ajudar os aprendizes a se comunicar com Fonética: a sonoridade da língua inglesa Capítulo 1 Fernanda Karine Ruiz Colenghi / Joaquim Osvaldo Pereira de Gouvêa Introdução Este capítulo aborda o ramo da estatística conhecido por estatística inferencial. Esta compreende as técnicas por meio das quais são tomadas decisões sobre uma população esta- tística, as decisões são baseadas unicamente na observação de uma amostra ou na elaboração de um juízo. Começaremos nosso estudo com uma situação hipotética. Você é o gerente de marketing da empresa fabricante do sabão em pó Lave Bem e pretende realizar uma pesquisa de opinião na ci- dade de Araxá, Minas Gerais, com a finalidade de verificar o grau de satisfação dos consumidores com o produto. Especificamente, seu problema é saber a proporção de consumidores do município que preferem a marca Lave Bem. Como dispõe de um tempo muito curto e de um orçamento limitado para executar o projeto, você não poderá entrevistar todos os habitantes de Araxá para obter os dados de que necessita: terá de consegui-los consultando apenas uma parte dos consumidores. Em outras palavras, coletará os dados a partir de uma amostra de consumidores. A importância da inferência para a tomada de decisões: intervalos de confiança e testes de hipóteses Capítulo 1 População É o conjunto de todos os elementos que interessam ao estudo. Por exemplo, o conjunto de todos os eleitores do município de Uberlândia constitui a população de eleitores do município. Amostra É um subconjunto da população. 2 UNIUBE Assim, com base nos dados da amostra, você fará suas estimativas e testará as hipóteses que deseja verificar. Como seria obtida uma amostra dos consumidores? Dentre os vários procedimentos possíveis, você poderia usar o seguinte. De acordo com o Instituto Brasileiro de Geografia e Estatística ― IBGE, o número de famílias residentes em Araxá, em 2006, é 23.832. Admita que exista uma dona de casa em cada família, então o número de donas de casa em Araxá é 23.832. Suponha que a amostra selecionada de donas de casa seja de mil consumidoras. Você escolheria ao acaso mil consumidoras numa praça central da cidade, ou escolheria ao acaso uma quantidade em cada um dos bairros da cidade até completar mil entrevistadas. Uma outra maneira de obter uma amostra é associar um número a cada uma das 23.832 famílias, colocar todos esses números numa lista e sortear mil números. As moradoras correspondentes aos números sorteados formariam a amostra. Suponha que você realize o sorteio dessa forma e o gerente de marke- ting de uma empresa concorrente, desconhecendo sua iniciativa, repita o mesmo procedimento. Você acha que as amostras sorteadas por você e por seu concorrente serão as mesmas? UNIUBE 3 Se você respondeu que as amostras sorteadas não serão as mesmas, parabéns, você acertou a resposta. Se realizarmos várias vezes a amostragem descrita, provavelmente obteremos amostras compostas por consumidoras diferentes. Apesar de diferentes, podemos ter respostas próximas ou iguais nas diversas amostras? A resposta é afirmativa e estará subjacente às ideias desenvolvidas neste capítulo. Resumindo a discussão, podemos dizer que, devido à natureza aleatória envolvida no procedimento amostral, não temos a certeza de que repetições de amostras produzam sempre resultados idênticos. Ou seja, ao coletarmos uma amostra, não podemos prever antecipadamente seu resultado. Toda- via, a amostragem e os resumos estatísticos dos dados de uma amostra, combinados, fornecem as informações essenciais para a condução de uma pesquisa. Naturalmente, o uso de dados amostrais para tirar conclusões a respeito de uma característica da população conduz a um erro. Conforme você estudará adiante, esse erro é previsto e pode ser calculado. Assim, você neste capítulo conhecerá os conceitos básicos de estima- ção, aprenderá a construir intervalos de confiança para média e pro- porção de uma população e a calcular o tamanho de amostra. Também aprenderá a realizar testes de hipóteses para a média e proporção, bem como aprenderá outros critérios de decisão baseados em intervalos de confiança e valor p. Objetivos Esperamos que, ao terminar o estudo deste capítulo, você seja ca- paz de: • diferenciar estimação pontual de estimação por intervalo; • definir parâmetro, estimador e estimativa; 4 UNIUBE • enunciar as propriedades de um estimador; • usar a distribuição de probabilidades adequada aos diferentes casos de intervalos de confiança e de testes de hipóteses; • calcular margens de erro fixados os graus de confiança; • construir intervalos de confiança para a média populacional; • construir intervalos de confiança para a proporção de uma po- pulação; • interpretar os resultados de intervalos de confiança construídos; • calcular o tamanho da amostra necessário para atender a especificações fixadas, tais como margem de erro e grau de confiança; • elaborar as hipóteses para a tomada de decisõesem diferentes cenários de testes de hipóteses; • realizar testes de hipóteses para a média e proporção popula- cionais; • tomar decisões em testes de hipóteses; • aplicar os conhecimentos adquiridos em projetos de pesquisa científica e na solução de problemas de sua área de atuação. Esquema 1.1 Conceitos iniciais: parâmetros, estimadores e estimativas. 1.1.1 Parâmetro, 1.1.2 Estimador e estimativa 1.1.3 Estimador não viciado 1.1.4 Teorema Central do Limite 1.2 Estimação da média populacional m : intervalos de confiança 1.2.1 Caso 1: a variância populacional 2σ é conhecida 1.2.2 Caso 2: a variância populacional 2σ é desconhecida e a amostra é grande (n ≥ 30) 1.2.3 Caso 3: a variância populacional 2σ é desconhecida e a amostra é pequena (n < 30) 1.2.4 Determinação do tamanho da amostra UNIUBE 5 1.3 Estimação da proporção populacional 1.3.1 Expressão do intervalo de confiança 1.3.2 Determinação do tamanho da amostra 1.4 Testes de hipótese para a média populacional 1.4.1 Formulação das hipóteses para teste 1.4.2 Erros em testes de hipóteses 1.4.3 Estatística de teste 1.4.4 Tipos de testes: bilateral e unilateral 1.4.4.1 Caso 1: teste unilateral quando a variância populacional 2σ é conhecida ou a amostra é grande (n > 30) 1.4.4.2 Caso 2: teste bilateral quando a variância populacional 2σ é conhecida ou amostra é grande (n > 30) 1.4.4.3 Caso 3: teste unilateral quando a variância populacional 2σ é desconhecida e a amostra pequena (n < 30) 1.4.4.4 Caso 4: teste bilateral quando a variância populacional 2σ é desconhecida e a amostra é pequena (n < 30) 1.4.5 Valor p (nível descritivo) 1.4.5.1 Caso unilateral 1.4.5.2 Caso bilateral 1.5 Teste para proporção 1.5.1 Caso unilateral 1.5.2 Caso bilateral 1.5.3 Critério do valor p no teste de proporção 1.6 Usando intervalos de confiança para tomada de decisões 6 UNIUBE 1.1 Conceitos iniciais: parâmetros, estimadores e estimativas Para formalizar as ideias apresentadas neste capítulo, precisamos conceituar parâmetros, estimadores e estimativas. 1.1.1. Parâmetro As características numéricas de uma população, em geral desconhecidas e so- bre as quais temos interesse, são denominadas parâmetros e usualmente são representadas por letras gregas tais como θ, m e σ, entre outras. Para efeito de nossos estudos, os parâmetros populacionais que nos interessam são a média m e o desvio padrão σ . 1.1.2 Estimador e estimativa À combinação dos elementos da amostra, construída com a finalidade de re- presentar, ou estimar, um parâmetro de interesse na população, denominamos estimador. Em geral, denotamos os estimadores por símbolos com o acento circunflexo: θ̂ , m̂ , σ̂ etc. Aos valores numéricos assumidos pelos estimadores, denominamos estimativas pontuais ou simplesmente estimativas. Um estimador, digamos θ̂ , é uma função das variáveis aleatórias constituintes da amostra. Logo, um estimador também é uma variável aleatória e, como tal, possui uma distribuição de probabilidades. A correspondente distribuição de probabilidade formará a base das argumentações probabilísticas utilizadas na extrapolação da informação da amostra para os parâmetros da população. Para que fiquem bem entendidos os conceitos de estimador e estimativa, vere- mos como se faz o cálculo da média e desvio padrão amostrais; o que precisa- remos para as estimativas? Suponha que uma amostra de tamanho n é retirada da população e apresente os valores pertencentes ao conjunto de variáveis aleatórias ( )nXXX ,,, 21 . Sejam os parâmetros média, variância e proporção de certa característica na UNIUBE 7 população indicados por m , σ e p, respectivamente. Os estimadores “naturais” para esses parâmetros são as correspondentes média, variância e proporção calculadas na amostra. Representando-os, respectivamente, por X , σ̂ e p̂ , temos: Note que cada um dos estimadores apresentados depende dos valores per- tencentes à amostra aleatória ( )nXXX ,,, 21 ; essa estimação é denominada estimação pontual. Numerosos têm sido os critérios utilizados por estatísticos matemáticos para es- colher os estimadores apropriados para estimar, com base em dados de amostra, os parâmetros populacionais. Uma das características mais importantes de um estimador é que seja não viciado (não tendencioso). 1.1.3 Estimador não viciado Um estimador não viciado é uma estatística amostral cujo valor esperado é igual ao parâmetro que está sendo estimado. Magalhães (2002) mostra que os estimadores X e p̂ têm boas propriedades e, além disso, são não viciados. No entanto, o estimador 2σ̂ é viciado, portanto não é adequado para estimação. Para eliminar esse vício, define-se o seguinte estimador: ( ) 2 1 2 1 1 ∑ = − − = n i i XXn S ; ; .número de itens com a característica na amostra n ^p = 8 UNIUBE 2S é um estimador não viciado para estimar 2σ . O estimador 2S recebe o nome de variância amostral e será sempre denotado por 2S para distinguir de outros estimadores denotados genericamente por 2σ̂ . exemplificando! 1.1 O número de faltas, por ano, de funcionários de determinada empresa foi anotado a partir de uma amostra de 25 funcionários escolhidos ao acaso. Deseja-se saber qual é o número médio de faltas por funcionário em um ano. Os dados obtidos são: 2, 2, 3, 1, 4, 5, 3, 4, 5, 6, 5, 3, 4, 3, 4, 2, 4, 3, 5, 2, 1, 6, 2, 3 e 4. Solução A estimativa da média populacional é: 44,3 25 4322 =++++= X faltas Logo o número médio de faltas por funcionário em cada ano é aproximadamente 4. A estimativa da variância amostral é: ( ) ( ) ( ) 006,2 24 44,3444,3244,32 2222 =−++−+−= S faltas2. Antes de introduzirmos o conceito de intervalo de confiança, vamos estudar um assunto importante que é o Teorema central do limite. 1.1.4 Teorema Central do Limite Suponha uma amostra aleatória simples de tamanho n retirada de uma po- pulação com média m e variância 2σ (note que o modelo de probabilidades da variável aleatória não é especificado). Representando tal amostra por n UNIUBE 9 variáveis aleatórias independentes ( )nXXX ,,, 21 e, denotando sua média por X , temos que: ( )1,0~ NZ n X n →− ∞→ σ m Em palavras, o teorema central do limite garante que para n grande a distribui- ção da média amostral, devidamente padronizada, se comporta segundo uma distribuição normal de probabilidades com média 0 e variância 1. Pelo teorema central do limite, temos que quanto maior o tamanho da amostra, melhor é a aproximação à distribuição normal. Estudos envolvendo simulações mostram que em muitos casos, valores de n ao redor de 30 fornecem boas aproximações para aplicações práticas. Uma aplicação importante relaciona-se com a distribuição da proporção amostral. Recorde que definimos a proporção amostral ( )p̂ como a fração de indivíduos com uma dada característica em uma amostra de tamanho n. Se construirmos para o i -ésimo indivíduo uma variável aleatória iY ,tal que: 1, se o indivíduo apresenta a característica; 0, caso contrário. Yi = Podemos escrever a proporção amostral como: Y n Y n YYY p n i in == +++ = ∑ =1 21ˆ A proporção amostral é a média de variáveis aleatórias convenientemente definidas. Assumindo que a proporção de indivíduos com a característica na população é p e que os indivíduos são selecionados aleatoriamente, temos que nYY ,,1 formam uma sequência de variáveis aleatórias do modelo Ber- 10 UNIUBE noulli. Assim, a média e a variância do modelo Bernoulli são dadas por p e ( ) npp −1 , respectivamente. A partir do Teorema Central do Limite temos que: ( ) ( )1,0 1 ˆ N npp pp n → − − ∞→ Conhecido o Teorema Central do Limite, estudaremos a seguir os diversos casos de estimação intervalar. 1.2 Estimação da média populacional m: intervalos de confiança Os estimadores vistos até o momento são pontuais, pois fornecem estimativa numérica para o parâmetro de interesse. O método que veremos agora, denomi- nado de estimação intervalar ou estimação por intervalo, incorporaà estimativa pontual uma margem de erro. Estudaremos os seguintes casos de estimação intervalar: • Intervalo de confiança para a média populacional m quando a variância po- pulacional 2σ é conhecida; • Intervalo de confiança para a média populacional m quando a variância po- pulacional 2σ é desconhecida e a amostra é grande ( 30n ≥ elementos); • Intervalo de confiança para a média populacional m quando a variância po- pulacional 2σ é desconhecida e a amostra é pequena ( 30n < elementos). 1.2.1 Caso 1: a variância populacional 2σ é conhecida Quando a variância populacional 2σ é conhecida e supondo uma amostra de tamanho n, temos, pelo Teorema Central do Limite, que a média amostral tem distribuição normal com a mesma média m e a variância 2 n σ . Para um valor UNIUBE 11 a fixado, tal que 10 <<a , podemos obter na tabela da distribuição normal Z padronizada um valor 2az tal que: 16 Administração podemos, então, escrever a proporção amostral como: A proporção amostral é a média de variáveis aleatórias convenientemente defi nidas. Assumindo que a proporção de indivíduos com a característica na população é p e que os indivíduos são selecionados aleatoriamente, temos que formam uma seqüência de variáveis aleatórias do modelo Bernoulli (visto no curso de Estatística Básica). Assim, a média e a variância do modelo Bernoulli são dadas por p e , respectivamente. A partir do Teorema Central do Limite, temos que: Vejamos, agora, a parte A, onde você estudará a estimação intervalar, para diversos casos. Logo em seguida, na parte B, você conhecerá os diferentes cenários de testes de hipóteses para média e proporção. Parte A: Estimação por Intervalo Os estimadores vistos até o momento são pontuais, pois fornecem estimativa numérica para o parâmetro de interesse. O método que veremos agora, denominado de estimação intervalar, incorpora a estimativa pontual e informações a respeito de sua variabilidade. Veremos, a seguir, diferentes casos: conhecida; desconhecida e amostra grande; desconhecida e amostra pequena. • • • 1º Caso: conhecida Quando a variância populacional é conhecida, e supondo uma amostra de tamanho n, vimos que a média amostral tem distribuição Normal com a mesma média e variância . Para um valor fi xado, tal que , podemos obter um valor tal que: Lembre-se que a distribuição normal é simétrica, portanto a área a deve ser igualmente distribuída em torno de 0, conforme mostra a Figura 1. Interlocução importante: ( )1 %a− é o coeficiente de confiança e 2az é o valor de z que fornece uma área de 2a na extremidade superior da distribuição normal padrão, assim temos o intervalo: n zX n zXz n Xz σµσ σ µ αααα 2222 +<<−⇒< −<− O intervalo de confiança para m , com coeficiente de confiança ( )1 %a− é dado por: ( ) +−=− n zX n zX σσαµ αα 22 ;1,IC Figura 1: Gráfico da distribuição normal padronizada Z. 12 UNIUBE Nessa altura de seus estudos, você deve estar se perguntando: afinal, o que significa coeficiente de confiança? O coeficiente de confiança é interpretado do seguinte modo: se obtivermos várias amostras de mesmo tamanho e para cada uma calcularmos os correspondentes intervalos de confiança com coeficiente de confiança (1 )%a− , esperamos que a proporção de intervalos que contenham o valor de m seja igual a (1 )%a− . Dessa forma, se construirmos cem intervalos para a média m com 90% de confiança, é de se esperar que 90 desses intervalos contenham a verdadeira média m . Um conceito importante é o conceito de erro de estimação. Ao estimarmos a média populacional por intervalo, incorporamos à estimativa pontual um erro e esse erro é dado pela expressão: n zE σα 2= parada para reflexão A fórmula do erro, também chamada margem de erro, revela que há efetivamente três fatores determinantes do tamanho ou quantidade do erro. Quais são esses fatores? Como eles afetam o erro? Você, que é um observador atento, deve ter notado que os fatores que determi- nam a margem de erro são: • a confiança desejada, representada pelo valor de 2az ; • a dispersão (ou desvio padrão) da população σ ; • o tamanho da amostra n. UNIUBE 13 Também deve ter inferido que: • quanto maior o coeficiente de confiança ou a dispersão da população, maior o erro; • quanto maior o tamanho da amostra menor o erro. Encontramos o valor de 2az na tabela de distribuição normal padronizada. parada obrigatória Não continue a leitura deste capítulo se tiver dúvida sobre como consultar a tabela da distribuição normal. Recorra, se necessário, aos textos que tratam das distribuições de probabilidades. Vejamos, a seguir, os exemplos sobre a construção de intervalos de con- fiança. exemplificando! 1.2 Um consultor toma uma amostra aleatória de tamanho n =16 de um conjunto de contas a pagar. Sabe-se que o desvio padrão das contas a pagar é =σ R$57,00. A partir da amostra, observou-se que a média amostral foi =X R$250,00. Construa um intervalo de 95% para o valor médio das contas. Solução O intervalo de confiança para a média m é dado pela expressão: ( ) +−=− n zX n zX σσαµ αα 22 ;1,IC Temos: 1 0,95a− = , logo 0,05a = =X R$250,00 14 UNIUBE 0,05 0,025 2 2 Z Z Za = = . Consultando a tabela da distribuição normal padronizada, encontramos 025,0z =1,96, pois ( ) 475,096,10 =≤≤ zP , logo ( ) 025,096,1 =≥zP . =σ R$57,00 n =16 Substituindo os valores na expressão do intervalo de confiança, obtemos: ( ) +−⇒ +−= 16 5796,1250; 16 5796,1250 16 57250; 16 57250%59 ,IC 22 ααµ zz Assim, o intervalo de confiança para o valor médio das contas a pagar, com 95% de confiança é [ ]93,277;07,222 . Em outras palavras, com 95% de confiança, o valor médio das contas a pagar situa-se de R$ 222,07 a R$ 277,93. 1.2.2 Caso 2: a variância populacional 2σ é desconhecida e a amostra é grande (n ≥ 30) Na maioria das aplicações, a variância populacional 2σ é desconhecida. Quando isso acontece, o estimador não viciado, 2S , pode ser usado para estimar 2σ . Nos casos em que a amostra é grande, n ≥ 30, o Teorema Central do Limite fornece boa aproximação para a distribuição da média amostral. Então o intervalo de confiança de ( )a−1 % é expresso da forma: ( ) +−=− n SzX n SzX 22 ;1,IC αααµ tal que 2SS = . Portanto, a construção do intervalo de confiança é semelhante à que foi feita no 1o caso, a única diferença é que no lugar de σ usa-se o desvio padrão amostral S . UNIUBE 15 exemplificando! 1.3 Para ilustrar esse caso, consideremos o exemplo de Anderson, Sweeney e Williams (2002), relativo a um estudo de amostragem conduzido pela Statewide Insurance Com‑ pany. Como parte de uma revisão anual das apólices de seguro de vida, a Statewide selecionou uma amostra aleatória simples de 36 proprietários de apólices de seguro de vida Statewide. As correspondentes apólices de seguro de vida são revistas em termos de garantia de cobertura. Para o estudo, um gerente solicitou uma estimativa do intervalo de confiança de 90% da idade média para a população dos proprietários da apólice de seguro de vida. A idade média da amostra é 5,39=X anos. O desvio padrão da amostra é 77,7=S . O valor de 05,0z é 1,645. Portanto o intervalo de 90% é dado por: [ ]2,1339,5 ;13,25,39 36 77,7645,15,39 ; 36 77,7645,15,39 +−⇒ +− A margem de erro é 2,13 e a estimativa da idade média da população de proprietários de apólices de seguros, com 90% de confiança, é 37,37 a 41,63 anos. 1.2.3 Caso 3: a variância populacional 2σ é desconhecida e a amostra é pequena (n < 30) Se tivermos uma amostra pequena ( )30<n e pretendemos construir um intervalo de confiança, mas não conhecemos 2σ , podemos utilizar a distribuição t‑Student, ou simplesmente, distribuição t, para construir o intervalo de confiança. A distribuição t é utilizada na determinaçãode valores críticos denotados por 2at . Observe na tabela da distribuição t que nas linhas aparece o número de graus de liberdade, que é dado por 1−n . Os graus de liberdade, (gl) correspondem ao número de valores que podem variar após terem sido impostas certas restrições a todos os valores. 16 UNIUBE A distribuição t‑Student exibe algumas propriedades interessantes: • É diferente conforme o tamanho da amostra, ou seja, ela muda dependendo dos graus de liberdade; • Apresenta a mesma forma geral simétrica (forma de sino) que a distribuição normal, mas com maior variabilidade, o que é esperado em amostras peque- nas, logo ( ) 5,00 =≥tP e ( ) 5,00 =≤tP ; • O desvio padrão da distribuição t varia com o tamanho da amostra, mas é superior a 1; • Na medida em que aumenta o tamanho n da amostra, a distribuição t se aproxima mais e mais da distribuição normal padronizada. Podemos agora determinar os valores para a margem de erro para construir intervalos de confiança: n StE n 1,2 −= a , tal que 1,2 −nta é o valor de t que fornece uma área de 2a na extremidade su- perior da distribuição t com 1−n graus de liberdade. E o intervalo de ( )a−1 % de confiança é dado por: n StX n StXEXEX nn 1,21,2 −− +<<−⇒+<<− αα µµ O intervalo de confiança para m , com coeficiente de confiança ( a−1 )% também pode ser expresso por: ( ) +−=− −− n StX n StX nn 1,21,2 ;1,IC αααµ exemplificando! 1.4 Voltemos ao exemplo 1.1, do quadro Exemplificando, da seção 1.1.3, referente ao número de faltas de funcionários de determinada empresa por ano, em que os UNIUBE 17 valores estimados de X e 2S foram 3,44 faltas e 2,006 faltas2, respectivamente, sendo 4163,1006,22 === SS falta. Calculemos um intervalo de 95% de con- fiança para o número médio de faltas por funcionário. Solução Temos: 1 0,95a− = , logo 0,05a = e 0,05 0,025 2 2 a = = 3,44X = 1,4163S = 25n = , logo: 25 1 24gl = − = Para encontrar o valor de 24;025,0t , consultamos a Tabela 1, da distribuição t. Como a amostra é de tamanho 25, temos 24 graus de liberdade. Na tabela da distribuição t, o valor crítico que deixa área de 2,5% acima da curva, com 24 graus de liberdade é 24;025,0t = 2,064. Tabela 1: Distribuição t. Graus de liberdade 0,005 (unilateral) 0,01 (bilateral) 0,01 (unilateral) 0,02 (bilateral) 0,025 (unilateral) 0,05 (bilateral) 0,05 (unilateral) 0,10 (bilateral) 21 2,831 2,518 2,080 1,721 22 2,819 2,508 2,074 1,717 23 2,807 2,500 2,069 1,714 24 2,797 2,492 2,064 1,711 25 2,787 2,485 2,060 1,708 ( ) 95,0064,2064,2 =≤≤− tP Fonte: Adaptado de Morettin (2009, p. 347). 18 UNIUBE Assim o intervalo de 95% de confiança para a média será dado por ( ) [ ] [ ]025,4;855,2585,044,3 25 4163,1064,244,3%95,IC ⇒±⇒ ±=µ , sendo a margem de erro igual a 0,585 faltas. 1.2.4 Determinação do tamanho da amostra Suponha que os dados ainda não foram coletados. Como saber quantos elemen- tos da população devem ser escolhidos? Suponha, por exemplo, que queiramos estimar a renda média de professores da rede pública do ensino fundamental em Minas Gerais. Quantas rendas devemos incluir em nossa amostra? A determinação do tamanho da amostra é um problema de grande importância, porque amostras desnecessariamente grandes acarretam desperdício de tempo e de dinheiro; e amostras demasiadamente pequenas podem levar a resultados não confiáveis. Em muitos casos, é possível determinar o tamanho mínimo de uma amostra para estimar determinado parâmetro. A fórmula a seguir permite calcular o tamanho da amostra: 2 2 = E z n σα O tamanho da amostra deve ser um número inteiro, quando o resultado não for inteiro, como regra, deve-se arredondar para o próximo inteiro maior. Com essa fórmula, pode-se determinar o tamanho da amostra necessária para dar resultados precisos, fixados o grau de confiança e a margem de erro. A fórmula deve ser usada quando conhecemos o valor do desvio padrão popu- lacional σ e queremos determinar o tamanho da amostra necessário para estabelecer, com um nível de confiança de a−1 , o valor de m com um erro a menos de E± . A existência dessa fórmula implica que o tamanho da amostra não depende do tamanho da população. UNIUBE 19 exemplificando! 1.5 Um analista de salários deseja estimar a renda média para o primeiro ano de trabalho de engenheiros civis. Quantos valores de renda devem ser tomados, se o analista deseja ter 95% de confiança de que a média amostral esteja a menos de R$ 300,00 da verdadeira média populacional? Suponha que saibamos, por um estudo prévio, que para tais rendas, =σ R$ 2.050,00. Solução Queremos determinar n , dado que 05,0=α , 300=E , 2050=σ . Aplicando a fórmula: 18038,179 300 2050.96,1 2 ≅= =n Portanto, devemos obter uma amostra de pelo menos 180 rendas de engenheiros civis com um ano de formatura, selecionadas aleatoriamente. Com essa amostra teremos 95% de confiança em que a média amostral X difira em menos de R$ 300,00 da média populacional m . 1.3 Estimação da proporção populacional 1.3.1 Expressão do intervalo de confiança Vimos na seção 1.1.3 que o melhor estimador para estimar a proporção p de uma população é p̂ (MAGALHÃES, 2002). O raciocínio para a construção do intervalo de confiança é semelhante ao da média. O estimador usado para o desvio padrão da proporção p é dado por: ( )pp ˆ1ˆ −=σ 20 UNIUBE A margem de erro para a proporção populacional e o intervalo de confiança são calculados respectivamente por: ( ) n pp zE ˆ1ˆ 2/ − = α ; ( ) ( ) −±=− n ppzpp ˆ1ˆˆ)%1( ;ˆIC 2/αα Este é um intervalo de confiança de ( )%1 a− . Para encontrar o nível crítico 2/az consultemos a tabela da distribuição normal. exemplificando! 1.6 Com o intuito de melhorar a qualidade dos serviços de um hospital, a adminis- tração fez uma pesquisa para avaliar a satisfação dos funcionários. Como o quadro era muito grande e fazer uma entrevista com cada funcionário demandaria tempo e dinheiro, uma amostra de dois funcionários por setor foi aleatoriamente extraída, totalizando 36 entrevistados. A última pergunta do questionário era saber se o fun- cionário estava satisfeito com o emprego ou não. Para não prejudicar o funcionário e não ocorrer respostas mentirosas, o sigilo foi mantido de forma que o entrevistado não seria identificado. Dos 36, apenas 23 afirmaram que estavam satisfeitos com o emprego. Apresente uma estimativa de 95% de confiança da proporção da satisfação dos funcionários do hospital. Solução A estimativa pontual de p é: 64,06389,0 36 23ˆ ≈==p O intervalo de 95% de confiança é dado por: ( ) [ ] [ ]797,0;483,0157,064,0 36 64,0164,096,164,0 ⇒±⇒ −± Com 95% de confiança, podemos dizer que a proporção de funcionários satisfeitos está entre 0,483 e 0,797. Ou, em outras palavras, podemos afirmar que a proporção de funcionários satisfeitos é 64%, com margem de erro de 15,7%. UNIUBE 21 agora é a sua vez Vamos praticar? Resolva a atividade 2a e 2b. 1.3.2 Determinação do tamanho da amostra No caso de proporção populacional, a determinação do tamanho da amostra se procede de forma similar à que foi feita para a média. Resolvendo a equação de erro para n, encontramos: ( ) ( ) 2 2 2/ ˆ1ˆ E ppz n − = α Observe que para aplicar a fórmula, podemos fixar a margem de erro E e o grau de confiança ( )%1 a− . Mas qual valor atribuir à proporção p̂ ? Na prática, para atribuir um valor a p̂ você pode adotar um dos seguintes cri- térios: • Usar a proporção amostral p̂ estimada em um estudo piloto; • Usar 5,0ˆ =p , pois este é o valor que maximiza da variância de p; • Usar um valor fornecido por especialista da área de estudo; • Usar a proporção da amostra a partir de unidade similar. Quando n não for inteiro, arredonda-se para o inteiro superior. 22 UNIUBE exemplificando! 1.7 Uma montadora de automóveis deseja saber a proporção de motoristas clientes da sua marca que fazem revisão mecânica em sua autorizada. Eladeseja estimar, com uma margem de erro de três pontos percentuais, a percentagem de motoristas que se dirigem ao seu serviço autorizado quando os automóveis apresentam problemas mecânicos ou desejam outro serviço. Supondo que se pretenda um nível de confiança de 95% nos resultados, quantos motoristas devem ser pesquisados? a) Suponha que tenhamos uma estimativa p̂ com base em estudo anterior, que mostrou que 18% dos motoristas utilizavam o serviço da autorizada. b) Suponha que não tenhamos qualquer informação que possa sugerir um valor de p . Solução a) 18,0ˆ =p ; ao nível de 95% de confiança, 05,0=α e 96,12/ =αz . A margem de erro é de três pontos percentuais, logo: 03,0=E . ( )( ) 6310224,630 03,0 82,018,096,1 2 2 ≈==n Devemos pesquisar ao menos 631 motoristas selecionados aleatoriamente. b) Assim como na parte (a), utiliza-se 96,12/ =αz e 03,0=E , mas sem qualquer conhecimento prévio de p , temos que utilizar o valor de 5,0ˆ =p que maximiza a variância. ( ) 10681111,1067 03,0 5,096,1 2 22 ≈==n Para termos 95% de confiança de que nossa percentagem amostral está a menos de três pontos percentuais da verdadeira percentagem de todos os motoristas, de- vemos selecionar aleatoriamente e pesquisar 1.068 motoristas. Comparando esse resultado com o tamanho amostral de 631, obtido na parte (a), podemos ver que, na ausência de conhecimento de um estudo prévio, é necessária uma amostra maior para obtermos os mesmos resultados que obteríamos se pudéssemos estimar o valor de p . UNIUBE 23 1.4 Testes de hipótese para média populacional Estudaremos agora os testes de hipóteses (ou afirmações) sobre parâmetros de uma população. Vejamos inicialmente como formular hipóteses, a partir de três exemplos. 1.4.1 Formulação das hipóteses para teste exemplificando! 1.8 Uma indústria farmacêutica deseja testar um novo medicamento no combate à dor de cabeça. A ideia é verificar se o novo medicamento, Sem dor, é mais rápido para atuação no organismo de uma pessoa que os analgésicos comuns. Sabe-se que o tempo de alívio de dor dos analgésicos comuns é 15 minutos. Logo, a indús- tria deseja testar se o medicamento Sem dor age no organismo em menos de 15 minutos. Admite-se que o tempo de alívio do medicamento no organismo segue uma distribuição normal. 1.9 O gerente de um importante hotel estabeleceu que a quantia média gasta por hóspedes em um fim de semana é de R$ 500,00 ou menos. Um funcionário do setor de contabilidade observou que as despesas totais dos hóspedes têm aumentado nos últimos meses. O contador do hotel irá avaliar se essa afirmativa é verdadeira ou não. Admite-se que o gasto dos hóspedes segue uma distribuição normal. 1.10 Uma empresa de telefonia fixa afirma que o consumo mensal de ligações de longa distância foi 3 horas e 35 minutos por residência no último ano. Deseja-se avaliar se o consumo por residência deste ano é o mesmo. Admite-se que o consumo mensal de ligações à longa distância segue uma distribuição normal. Existem testes de hipóteses para média e para proporção de uma população. Uma suposição que precisa ser feita é que os dados da população provêm de uma distri- buição normal com a média ou proporção desconhecidas; a variância pode ser co- nhecida ou não. Vamos agora definir as componentes de um teste de hipóteses: 24 UNIUBE • Hipótese nula (denotada por H0): é uma afirmação sobre o valor de um parâ- metro populacional (como a média ou proporção), deve conter a condição de igualdade e deve escrever-se como =, ≤ ou ≥ . (Ao fazermos efetivamente o teste, trabalhamos com a hipótese de que o parâmetro é igual a um valor es- pecificado.) Para a média, temos as três formas possíveis para a hipótese nula: H0: m = algum valor H0: ≥m algum valor H0: ≤m algum valor • Hipótese alternativa (denotada por Ha): é uma afirmação que deve ser ver- dadeira se a hipótese alternativa comporta apenas uma das três formas: Ha: ≠m algum valor Ha: m < algum valor Ha: m > algum valor importante! Se você está fazendo uma pesquisa e deseja usar um teste de hipótese para apoiar sua afirmação, essa afirmação deve ser formulada de maneira que se torne a hipótese alternativa, não podendo conter a condição de igualdade (TRIOLA, 1999). No exemplo 1.8, as hipóteses a serem testadas são: • Hipótese nula H0: 15≥µ minutos; • Hipótese alternativa Ha: 15<µ minutos. No exemplo 1.9, as hipóteses a serem testadas são: • a hipótese nula é H0: 500≤m reais; • a alternativa é Ha: 500>m reais. UNIUBE 25 No exemplo 1.10, as hipóteses a serem testadas são: • a hipótese nula é H0: 215=m minutos (3 horas e 35 minutos) • a alternativa é Ha: 215≠m minutos. 1.4.2 Erros em testes de hipóteses Ao testarmos hipóteses podemos tomar duas decisões: rejeitar H0 ou não re- jeitá-la. As decisões podem estar corretas ou incorretas, mesmo quando se faz o planejamento do teste corretamente. Na condução de um teste de hipótese, podemos cometer dois erros: • Erro tipo I: consiste em rejeitar a hipótese nula quando ela é verdadeira. • No exemplo 1.8 seria dizer que o tempo de reação do medicamento Sem dor é menor que 15 minutos, quando, na verdade, é igual ou superior a 15 minutos. • No exemplo 1.9 seria dizer que o consumo dos hóspedes é superior a R$ 500,00, quando, na verdade, é igual ou inferior a R$ 500,00. • No exemplo 1.10 seria dizer que o consumo mensal de ligações por re- sidência é diferente de 3 horas e 35 minutos, quando, na verdade, esse consumo é igual a 3 horas e 35 minutos. A probabilidade de rejeitar Ho quando ela é verdadeira é chamada de nível de significância (denotada por a ), geralmente é fixada antes de se realizar o teste. • Erro tipo II: consiste em não rejeitar a hipótese nula quando ela é falsa. 26 UNIUBE • No exemplo 1.8 seria dizer que o tempo de reação do novo medicamento é igual ou superior a 15 minutos, quando, na verdade, é inferior a 15 minutos. • No exemplo 1.9 seria dizer que o consumo dos hóspedes é igual ou inferior a R$ 500,00, quando, na verdade, é superior a R$ 500,00. • No exemplo 1.10 seria dizer que o consumo mensal de ligações por resi- dência é igual a 3 horas e 35 minutos, quando, na verdade, é diferente de 3 horas e 35 minutos. A probabilidade de não rejeitar Ho quando ela é falsa é representada pelo sím- bolo b . O Quadro 1 resume os erros que podemos cometer quando realizamos um teste de hipóteses. importante! No teste de hipóteses devemos escolher a probabilidade do erro tipo I (a), mas não selecionamos a probabilidade do erro tipo II (b). O ideal seria se 0== ba , mas como isso não é possível; devemos controlar as probabilidades de erro a e b . Pode-se mostrar matematicamente que a, b e o tamanho da amostra n estão todos inter-relaciona- dos, de forma que, escolhidos quaisquer dois deles, o terceiro está automaticamente determinado. Na prática, o comum é determinar os valores de a e n , de modo que o valor de b fica determinado. Além das definições de erro tipo I e erro tipo II, existem outros componentes que precisam ser definidos: • Estatística de teste: é um valor baseado nos dados amostrais para tomar uma decisão sobre a rejeição da hipótese nula. No caso de teste para média ela será formada pela média amostral e pelo desvio padrão. Veremos mais a frente como se constrói a estatística de teste. UNIUBE 27 • Região crítica: é o conjunto de todos os valores da estatística de teste que levam à rejeição da hipótese nula. • Valor crítico: é o valor ou os valores que separa(m) a região crítica dos valores da estatística de teste que não levam à rejeição da hipótese nula. Os valores críticos dependem da natureza da hipótese nula, da distribuição amostral da estatística de teste do nível de significância a. 1.4.3 Estatística de teste A estatística de teste, que chamaremos Z calculado e denotaremos Zcalc, utilizada no teste de hipóteses é construída a partir do Teorema Central do Limite. Para a média, a estatística de teste é dada por: 0 /calc Xz n mσ − = , considerando que o valor de 0m é o valor extremo dado pela hipótese nula. Também podemos definir a estatística de teste para a proporção: 0 0 0 ˆ (1 )calc p pz p p n − = − , sendo 0p o valor extremo fornecido pela hipótese nula. Quadro 1: Erros em testes de hipóteses. H0 é verdadeira H0 é falsa Decisão Rejeitar H0 Erro tipo I Decisão correta Não rejeitar H0 Decisão correta Erro tipo II Fonte: Elaborado por Fernanda Karine Ruiz Colenghi. 28 UNIUBE 1.4.4 Tipos de testes: bilateral e unilateral As caudas em uma distribuição de probabilidades são as regiões extremas deli- mitadas por valores críticos. A partir de H0, dá para saber qual é o tipo de teste. A cauda corresponderá à região crítica que contém os valores conflitantes com a H0. As figuras 1.3, 1.4 e 1.5 mostram como se verificam os tipos de testes. Na figura 1.3, o teste é unilateral esquerdo. Na figura 1.4, o teste é unilateral direito. Na figura 1.5, o teste é bilateral. As expressões unilateral e bilateral em alguns livros são denominadas unicaudal e bicaudal. Mais adiante você entenderá melhor como se faz o teste para proporção. Vamos enfocar primeiramente o teste para a média. Figura 3: Região de rejeição para o teste unilateral esquerdo. Sinal de Ha: < teste unilateral esquerdo. Figura 4: Região de rejeição para o teste unilateral direito. Sinal de Ha: > teste unilateral direito. Figura 5: Região de rejeição para o teste bilateral. Sinal de Ha: ≠ teste bilateral. Figura 2: Região crítica ou de rejeição da hipótese nula. UNIUBE 29 importante! Quando o teste é unilateral definimos as hipóteses assim: • H0: 0mm ≤ contra Ha: 0mm > para o teste unilateral direito; ou • H0: 0mm ≥ contra Ha: 0mm < para o teste unilateral esquerdo. Contudo, alguns autores usam as mesmas hipóteses definidas de forma diferente: • H0: 0mm = contra Ha: 0mm > para o teste unilateral direito; ou • H0: 0mm = contra Ha: 0mm < para o teste unilateral esquerdo. A diferença está no sinal de igualdade para a hipótese nula no teste unilateral. Essa diferença de notação não altera a construção do teste. exemplificando! 1.11 Uma entidade de defesa do consumidor afirma que os consumidores dos postos Compre Barato estão sendo prejudicados em virtude de que quando o marcador indica 1 litro, a quantidade média de combustível fornecida é realmente inferior a 1 litro. a) Expresse, de forma simbólica, a afirmação de que os postos Compre Barato estão prejudicando os consumidores. Solução A afirmação de que os consumidores estão sendo prejudicados é equivalente a afir- mar que a média é inferior a 1 litro, o que, em forma simbólica, se expressa como 1<m litro. b) Identifique a hipótese nula H0. Solução A afirmação original 1<m litro não contém a igualdade conforme exigida pela hipótese nula. A afirmação original é, pois, a hipótese alternativa; a hipótese nula é H0: 1≥m . 30 UNIUBE c) Identifique a hipótese alternativa Ha. Solução A hipótese alternativa é Ha: 1<m . d) Identifique esse teste como bilateral, unilateral direito ou unilateral esquerdo. Solução Esse teste é unilateral esquerdo, porque a hipótese nula é rejeitada se a média amos- tral é significativamente inferior a 1 (está à esquerda de 1). (Com uma dupla verificação, note que a hipótese alternativa 1<m contém o sinal <, que aponta para a esquerda.) e) Identifique o erro tipo I para esse teste. Solução O erro tipo I (rejeição de uma hipótese nula verdadeira) consiste em rejeitar H0: 1≥m quando a média populacional é realmente igual ou superior a 1. Trata-se de um erro sério, porque os postos Compre Barato serão acusados de prejudicar os consumidores quando, na realidade, não há tal prejuízo. f) Identifique o erro tipo II para esse teste. Solução O erro tipo II (não rejeitar a hipótese nula falsa) consiste em não rejeitar H0: 1≥m litro, quando a média populacional é realmente inferior a 1. Isto é, concluímos que não há evidência suficiente para comprovar o prejuízo, quando esse prejuízo está efetivamente ocorrendo. g) Suponha que a conclusão seria rejeitar a hipótese nula. Enuncie a conclusão em termos não técnicos; certifique-se de que está abordando a afirmação original. Solução UNIUBE 31 Conclui-se que há evidência suficiente para apoiar a afirmação de que a quantidade média de combustível fornecida é inferior a 1 litro. h) Suponha que a conclusão seja não rejeitar a hipótese nula. Enuncie a conclusão em termos não técnicos; certifique-se de que está abordando a afirmação original. Solução Concluir que não há evidência suficiente para apoiar a afirmação de que a quantidade média de combustível fornecida é inferior a 1 litro. importante! Para realizar os testes, temos que levar em consideração o tipo de teste (bilateral ou unilateral) e se a variância dos dados é conhecida ou não. Se esta for desconhecida, devemos observar se a amostra é grande (n > 30) ou não. Isso é importante, pois a partir dessa análise é que as estatísticas de teste e a região crítica são construídas. Vamos estudar todos os quatro casos. 1.4.4.1 Caso 1: teste unilateral quando a variância populacional 2σ é conhecida ou a amostra é grande (n > 30) Quando se realiza um teste unilateral, a hipótese alternativa é Ha: m < 0m , no caso do teste unilateral esquerdo ou Ha: m > 0m , no caso de um teste unilateral direito. A partir de uma amostra dos dados calcula-se a média amostral X . No caso em que a variância populacional 2σ é conhecida, a estatística de teste será: 0 /calc Xz n µ σ −= 32 UNIUBE Figura 6: Região de rejeição da hipótese nula no teste unilateral esquerdo. Figura 7: Região de rejeição da hipótese nula no teste unilateral direito. No caso em que a variância 2σ é desconhecida, mas a amostra é grande (n > 30) utiliza-se o valor do desvio padrão S dos dados da amostra como uma estimativa de σ . Portanto a estatística de teste será: 0 /calc Xz S n µ−= Assim, é construída a regra de rejeição, conforme ilustram as figuras 6 e 7. UNIUBE 33 Quando se observa o valor da estatística calcZ (estatística de teste) na região crítica, deve-se rejeitar H0. Caso contrário, não se deve rejeitar H0. Denotando RC de região crítica, podemos escrever: • { }, tal que RC z z za= ∈ℜ < − para teste unilateral esquerdo; • { }αzzzRC >ℜ∈= . que tal, para teste unilateral direito. exemplificando! 1.12 Retomemos o exemplo 1.8, visto na seção 1.4.1. Suponha que se tenha uma amostra dos tempos no qual os pacientes acusaram para o alívio de dor de cabeça do medicamento Sem Dor. A média dos tempos de atuação para os 40 pacientes foi 2,14=X minutos, o desvio padrão calculado a partir das observações foi 73,2=S minutos. Vamos testar a hipótese de que o tempo de reação do medicamento é menor que 15 minutos, usando um nível de significância 05,0=α . Hipóteses: H0: 15≥µ minutos contra Ha: 15<µ minutos Região crítica: { }64,1 que tal, −<ℜ∈= zzRC 34 UNIUBE Estatística de teste: Pelas observações coletadas temos: 14,2 15 0,8 1,85 0,432,73 / 40calc z − −= = = − Decisão: Como -1,85 está na RC, rejeita-se H0 a 5% de significância. Conclusão: Há evidência suficiente para apoiar a afirmação de que o novo medicamento alivia a dor de cabeça em menos de 15 minutos. agora é a sua vez Vamos praticar? Resolva as atividades 3a e 3b. 1.4.4.2 Caso 2: teste bilateral quando a variância populacional 2σ é conhecida ou a amostra é grande (n > 30) Quando se realiza um teste bilateral, a hipótese alternativa é Ha: 0mm ≠ ( 0m é o valor especificado por H0). A partir de uma amostra dos dados calcula-se a média amostral X . Assim, quando a variância é conhecida, a estatística de teste será: 0 /calc Xz n µ σ −= Quando a variância é desconhecida, mas a amostra é grande (n > 30), utiliza-se o valor de S dos dados como uma estimativa de σ, igual ao caso unilateral. Portanto, a estatística de teste será: 0 /calc Xz S n µ−= UNIUBE 35 Assim, é construída a regra de rejeição, conformemostra a Figura 8. Quando se observa o valor da estatística calcZ na região crítica, deve-se rejeitar H0. Caso contrário, não se deve rejeitar H0. Podemos escrever a região crítica da forma: { }2/2/ ou que tal, αα zzzzzRC >−<ℜ∈= exemplificando! 1.13 O dono de um grande supermercado afirma que o consumo mensal de ener- gia elétrica de seu estabelecimento é 40.000 kWh. Um engenheiro contratado pelo supermercado deseja avaliar se essa afirmação é verdadeira. Após coletar 36 da- dos de consumo dos meses anteriores, o engenheiro observa: 42000=X kWh e 3500=S kWh. O teste será realizado considerando a probabilidade de o erro tipo I ser igual a 0,05. Suponha que o consumo de energia do supermercado siga uma distribuição normal. Solução Hipóteses: H0: 40000=m e Ha: 40000≠m Figura 8: Região de rejeição da hipótese nula no teste bilateral. 36 UNIUBE Estatística de teste: Pelas observações temos: 42000 40000 3,43 3500 / 36calc z −= = Região crítica: 32 Administração Exemplo 5 O dono de um grande supermercado afi rma que o gasto mensal de seu estabelecimento com energia elétrica é 40000 kWh. O contador contratado pelo supermercado deseja avaliar se essa afi rmação é verdadeira. Após 36 dados terem sido coletados, referentes a consumo dos meses anteriores, ele observa: kWh e kWh. O teste será realizado considerando a probabilidade do erro tipo I sendo 0,05. Suponha que o consumo de energia do supermercado segue uma distribuição normal. Hipóteses: H 0 : e H a : Estatística de Teste: Pelas observações, temos: Região Crítica: Decisão: Como , decidese pela rejeição de H 0 , a 5% de signifi cância. Conclusão: Há evidências de que o consumo de energia desse supermercado não é 40000 kWh. Caso 3: Teste unilateral para desconhecida e amostra pequena Nos casos vistos até o momento, a amostra era grande e, portanto, era possível utilizar o Teorema Central do Limite e usar a aproximação normal para a estatística de teste. Contudo, não podemos utilizar esse teorema para amostras pequenas. Para realizar testes com pequenas amostras, vamos seguir o mesmo z = 0 { }96,1ou 96,1 que tal, >−<ℜ∈= zzzRC Decisão: Como RC 43,3 ∈ , decide-se pela rejeição de H0, a 5% de significância. Conclusão: Há evidências de que o consumo de energia desse supermercado não seja de 40000 kWh. 1.4.4.3 Caso 3: teste unilateral quando a variância populacional 2σ é desconhecida e a amostra é pequena (n < 30) Nos casos vistos até o momento, a amostra era grande e, portanto, era pos- sível utilizar o Teorema Central do Limite e usar a aproximação normal para a UNIUBE 37 Figura 9: Região de rejeição em testes t bilaterais. estatística de teste. Contudo, não podemos utilizar esse teorema para amostras pequenas. Para realizar testes com pequenas amostras, vamos seguir o mesmo raciocínio que foi utilizado na estimação intervalar. Em vez de utilizar a aproxi- mação normal, iremos recorrer à distribuição t de Student. A estatística de teste, que chamaremos t calculado e denotaremos tcalc, neste caso é: 0 /calc X t S n µ− = A região crítica é construída utilizando a distribuição t com 1−n graus de liber- dade. No caso em que a hipótese é unilateral temos: Quando se observa o valor da estatística calct na região crítica, deve-se rejeitar H0. Caso contrário, não se deve rejeitar H0. Podemos escrever: • { }1 , que tal, −−<ℜ∈= ntttRC α para teste unilateral esquerdo e; • { }1 ,. que tal, −>ℜ∈= ntttRC α para teste unilateral direito.RC = {t } }RC = {t O valor crítico 1 , −nta é o valor de t da tabela t Student que fornece uma área de a na extremidade superior da distribuição t com 1−n graus de liberdade, conforme se vê no gráfico da Figura 10. 38 UNIUBE exemplificando! 1.14 Voltemos ao exemplo 1.9, da seção 1.4.1, em que o contador do hotel pretende avaliar se a média de gastos de hóspedes no fim de semana é superior a R$ 500,00. Para isso ele selecionou aleatoriamente gastos de 22 hóspedes que estiveram no hotel em fins de semana de determinado mês. Os dados observados em reais foram: 475, 612, 382, 520, 600, 580, 490, 615, 475, 530, 470, 700, 385, 580, 645, 430, 450, 555, 527, 410, 585, 620. O teste será realizado considerando 01,0=α . Hipóteses: H0: 500≤m reais contra Ha: 500>m reais. Estatística de teste: Primeiramente calculam-se os estimadores da média e do desvio padrão populacionais: 9,528 22 620585612475 ≈++++= X ( ) ( ) 0,88 21 9,5286209,528475 22 =−++−= S Figura 10: Área a da distribuição t-Student. UNIUBE 39 A estatística de teste será: 528,9 500 1,54 88 / 22calc t −= = Região crítica: Pela tabela da distribuição t, o valor crítico é 518,221;01,0 =t . A região crítica do teste é { }158,2. que tal, >ℜ∈= ttRC Decisão: Como 1,54 < 2,158, decide-se pela não rejeição de H0: 500≤m reais. Portanto, a 1% de significância não há evidências de que o gasto dos hóspedes seja superior a R$ 500,00. agora é a sua vez Vamos praticar? Faça a atividade 4. 1.4.4.4 Caso 4: teste bilateral quando a variância populacional 2σ é desconhecida e a amostra é pequena (n < 30) Seguindo o mesmo raciocínio do Caso 3, o teste bilateral também segue à dis- tribuição t-Student. A estatística de teste será: 40 UNIUBE 0 /calc X t S n µ− = A região crítica é construída utilizando a distribuição t com 1−n graus de liber- dade. No caso em que a hipótese é bilateral temos: Quando se observa o valor da estatística calct na região crítica, deve-se rejeitar H0. Caso contrário não se deve rejeitar H0. Podemos escrever a região crítica no teste bilateral { }1 ,2/1 ,2/ ou que tal, −− >−<ℜ∈= nn tttttRC αα . O valor crítico 1 ,2/ −nta é o valor de t da tabela t‑Student que fornece uma área de 2/a na extremidade superior da distribuição t com 1−n graus de liberdade. exemplificando! 1.15 Um consultor de marketing deseja avaliar o preço de um produto comestível no mercado. Para tanto, ele seleciona aleatoriamente os preços do produto em 16 lojas e acha o valor médio X = 7,50 com um desvio padrão de 1,00 $R=S . Supõe-se que os preços do produto sejam normalmente distribuídos. Deseja-se testar a hipótese nula H0: 8,00 $R=m usando um nível de significância de 10%. Solução Observe que a hipótese alternativa nesse caso é Ha: 8,00 $R≠m . Como o desvio foi estimado a partir dos dados e a amostra é pequena, devemos utilizar a estatística t: 7,50 8,00 2 1,00 / 16calc t −= = − Figura 11: Região de rejeição do teste bilateral com a distribuição t-Student. }RC = {t UNIUBE 41 Região crítica: Pela tabela da distribuição t, o valor crítico é 753,115;05,0 =t . Esse é o valor de t da tabela t de Student que fornece uma área de 0,05 na extremidade superior da distri- buição t com 15 graus de liberdade. A região crítica do teste é { }753,1ou 1,753 que tal, >−<ℜ∈= tttRC . Decisão: Como 2calct = − < 753,1=críticot decidimos pela rejeição de H0: 8,00 $=m a 10% de significância. Portanto, há evidências de que o valor do produto não é R$ 8,00. 1.4.5 Valor p (nível descritivo) Ao realizarmos um teste de hipóteses, partimos de um dado valor de a pre- fixado, para construir a regra de decisão. Uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste a escolha do valor para a probabilidade a , que não precisará ser fixado a priori (antes de realizar o teste). A ideia con- siste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade (usando a distribuição t ou a normal padronizada) de se obter estimativas mais desfavoráveis ou extremas do que está sendo fornecida pela amostra (pelas estatísticas calct ou calcz ). Uma outra maneira é o valor p, denotado por *a . Ele funciona em todos os quatro casos vistos anteriormente. Valores pequenos de *a evidenciam que a 42 UNIUBE hipótese nula é falsa. Sendo a amostra nossa ferramenta de inferência sobre a população, ela fornece uma estimativaque teria probabilidade muito pequena de acontecer, se H0 fosse verdadeira. O conceito do que é “pequeno” fica a cargo do responsável pelo teste, que, assim, decide qual a usar para comparar com o valor obtido *a . Quando não é definido o valor de a para se fazer a compa- ração recomenda-se usar o nível 0,05. 1.4.5.1 Caso unilateral Para amostras grandes ou variância populacional conhecida, o valor p será: • 0* ( | H verdadeira)calcP z za = < para H0: 0mm ≥ e Ha: 0mm < ; • 0* ( | H verdadeira)calcP z za = > para H0: 0mm ≤ e Ha: 0mm > . No caso de amostras pequenas, o valor p será : • 0* ( | H verdadeira)calcP t ta = < para H0: 0mm ≥ e Ha: 0mm < ; • 0* ( | H verdadeira)calcP t ta = > para H0: 0mm ≤ e Ha: 0mm > . importante! Alguns valores de nível descritivo não estão acessíveis nas tabelas das distribuições normal padronizada e t. Quando não há um software disponível para fazer o cálculo, mas somente as tabelas, você pode fazer uma aproximação para o valor p, dizendo entre quais valores ele se situa. No Excel 2003, você obtém o valor p na função DIST. NORMP, para a normal padronizada e DISTT para a distribuição t. Veja na ajuda do Excel que a função disponibiliza a distribuição acumulada até o ponto calcz ou calct . UNIUBE 43 exemplificando! 1.16 Voltando ao exemplo do medicamento Sem Dor, visto na seção 1.4.1, a estatís- tica de teste foi calcz = -1,85. O valor p é: ==−<= )15|85,1(* µα zP 0,0322 Isso significa que a probabilidade de se dizer que o tempo de reação do medicamento é 15<µ minutos, quando na verdade é 15≥µ é 0,0322, que é bem pequena. O erro que estaria cometido seria pequeno. Por isso é que se decide pela rejeição de H0: 15≥µ . No exemplo 2, da seção 4.1, o valor p é dado por 07,0)500|54,1(* =≤>= µα tP . Se o nível de significância adotado fosse 0,05, decidiríamos por não rejeitar H0 e se fosse 0,1 decide-se por rejeitar H0. A decisão final será de acordo com a vontade de quem realiza o teste. Ele irá avaliar se o erro é grande e decidirá pela não rejeição de H0 ou se é tolerável, podendo rejeitar H0. 44 UNIUBE 1.4.5.2 Caso bilateral Ao calcularmos o nível descritivo (valor p), precisamos considerar que forma da região crítica envolve os valores de calcz e calct que se distanciam muito (para mais ou para menos) daquele previsto pela hipótese nula. Dessa forma, o proce- dimento usual é multiplicar por dois a probabilidade obtida em uma das caudas, de modo a preservar a ideia de afastamento bilateral. Assim, ao testarmos H0: 0mm = contra Ha: 0mm ≠ , a definição do valor p depende da relação entre X e 0m que é o mesmo que avaliar se calcz e calct são maiores que zero: 1) Se 0calcz < para o caso de amostra grande ou variância conhecida, ou 0calct < para o caso de amostra pequena e variância desconhecida, • 0* 2 ( | H verdadeira)calcP z za = × < ; • 0* 2 ( | H verdadeira)calcP t ta = × < respectivamente. 2) Se 0calcz > para o caso de amostra grande ou variância conhecida, ou 0calct > para o caso de amostra pequena e variância desconhecida, • 0* 2 ( | H verdadeira)calcP z za = × > ; • 0* 2 ( | H verdadeira)calcP t ta = × > respectivamente. Vejamos na Figura 12 como é encontrado o valor p no caso em que 0calcz > e 0calct > são maiores que zero. Figura 12: Região de rejeição dado *a em testes bilaterais.38 Administração Caso bilateral Ao calcularmos o nível descritivo (valor p), precisamos considerar que forma da região crítica envolve os valores de e que se distanciam muito (para mais ou para menos) daquele previsto pela hipótese nula. Dessa forma, o procedimento usual é multiplicar por dois a probabilidade obtida em uma das caudas, de modo a preservar a idéia de afastamento bilateral. Assim, ao testarmos H 0 : contra H a : , a defi nição do valor p depende da relação entre e , que é o mesmo que avaliar se e são maiores do que zero: se para o caso de amostra grande ou variância conhecida, ou para o caso de amostra pequena e variância desconhecida, ; , respectivamente. se para o caso de amostra grande ou variância conhecida, ou para o caso de amostra pequena e variância desconhecida, ; , respectivamente. 1. • • 2. • • Vejamos, por exemplo, como é encontrado o valor p no caso em que e são maiores do que zero. UNIUBE 45 exemplificando! 1.17 Voltando ao exemplo 1.13, da seção 1.4.4.2, relativo ao consumo de energia em um supermercado, tínhamos as hipóteses H0: 40000=m kWh contra Ha: 40000≠m kWh. Se formos tomar a decisão a partir do valor p, temos que calcular: • 0* 2 ( | H verdadeira)calcP z za = × > , porque 0calcz > . • 0,01)40000|43,3 (2* <=>×= µα zP Como nesse caso, o valor p é muito pequeno, decide-se pela rejeição de H0, levando à mesma conclusão que no procedimento de teste de hipóteses. agora é a sua vez Vamos praticar? Faça as atividades 5.a e 5.b. 1.5 Teste para proporção Vamos agora mostrar como podemos testar uma afirmação sobre uma pro- porção, probabilidade ou porcentagem. O raciocínio é semelhante ao que foi desenvolvido no teste para a média. Todavia, trabalhando com a proporção, as observações se originam de um modelo Binomial, e de acordo com Triola (1999), a distribuição amostral das proporções amostrais pode ser aproximada por uma distribuição normal. As hipóteses no teste para proporção são: H0: 0pp = H0: 0pp ≤ H0: 0pp ≥ Ha: 0pp ≠ Ha: 0pp > Ha: 0pp < 46 UNIUBE E a estatística de teste é: 0 0 0 ˆ (1 )calc p pz p p n − = − ; tal que p̂ é a proporção observada na amostra e n é o número de observações da amostra. Observe que o desvio utilizado no teste é ( )0 01p p n σ − = fornecido pela hipótese nula, ele não é estimado pelos dados. Por isso a aproximação da estatística de teste é feita pela distribuição normal padronizada. A Figura 13 mostra a região crítica nos casos de testes unilaterais esquerdo e direito. 1.5.1 Caso unilateral Quando se observa o valor da estatística calcz na região crítica, deve-se rejeitar H0. Caso contrário não se deve rejeitar H0. Podemos escrever: • { }αzzzRC −<ℜ∈= que tal, para teste unilateral esquerdo; • { }αzzzRC >ℜ∈= . que tal, para teste unilateral direito. Figura 13: Região de rejeição para o teste da proporção p nos casos unilaterais. UNIUBE 47 1.5.2 Caso bilateral A região de rejeição no caso de um teste bilateral é ilustrada na Figura 14. Quando se observa o valor da estatística calcz na região crítica, deve-se rejeitar H0. Caso contrário não se deve rejeitar H0. Podemos escrever a região crítica da forma: { }2/2/ ou que tal, αα zzzzzRC >−<ℜ∈= 1.5.3 Critério do valor p no teste de proporção Seguindo o mesmo raciocínio que foi mostrado para o valor p para o teste para média, temos: • 0* ( | H verdadeira)calcP z za = < para H0: 0pp ≥ e Ha: 0pp < ; • 0* ( | H verdadeira)calcP z za = > para H0: 0pp ≤ e Ha: 0pp > ; Ao testarmos H0: 0pp = contra Ha: 0pp ≠ , a definição do valor p depende da relação entre p̂ e 0p , que é o mesmo que avaliar se calcz é maior ou menor do que zero: • Se 0calcz < , 0* 2 ( | H verdadeira)calcP z za = × < ; • Se 0calcz > , 0* 2 ( | H verdadeira)calcP z za = × > . Figura 14: Região de rejeição para o teste da proporção p nos caso bilateral. 48 UNIUBE exemplificando! 1.18 O departamento de recursos humanos de uma grande multinacional, preocu- pado com a qualidade de vida de seus funcionários, deseja saber se a proporção de fumantes em sua empresa é superior a 30%. Para tanto, o administrador responsável pelo estudo selecionou aleatoriamente 40 funcionários, e verificou que nove fumavam. Qual foi a conclusão do administrador a um nível de significância de 5%? Solução A proporção de fumantes estimada é: p̂ = 8 40 = 0,2 Hipóteses: H0: 3,0≤p contra Ha: 3,0>p Região crítica: Como o teste é unilateral direito, a região crítica é dada por: { }64,1 que tal, >ℜ∈= zzRC , sendo que( ) 05,064,1 =>zP . 42 Administração Região Crítica: Como o teste é unilateral direito, a região crítica é dada por: , sendo que Estatística de teste: Decisão: Como 1,38 não pertence à região crítica, decidese pela não rejeição de H 0 com 5% de signifi cância. Logo, há evidências de que a proporção de fumantes não é superior a 30%. Critério de decisão pelo valor p O valor p é , comparandoo com o nível 0,05, decidese, também, pela não rejeição de H 0 : . Uma empresa de telefonia celular deseja saber se a proporção de consumidores que utilizam seu serviço é de 50% da população do estado. Para isso, ela selecionou aleatoriamente 100 consumidores, dos quais 48 informaram que utilizam seus serviços. Tire conclusões a 5% de signifi cância. A proporção amostral observada é: Exemplo 9 Hipóteses: H 0 : e H a : Estatística de Teste: Estatística de teste: ( ) 0,2 0,3 1,38 0,3 0,7 / 40 calcz − = = − × UNIUBE 49 Decisão: Como -1,38 não pertence à região crítica, decide-se pela não rejeição de H0 com 5% de significância. Logo, há evidências que a proporção de fumantes não é superior a 30%. Critério de decisão pelo valor p O valor p é 916,0)3,0|38,1(* =≤−>= pzPα , comparando-o com o nível 0,05, decide-se também pela não rejeição de H0: 3,0≤p . 1.19 Uma empresa de telefonia celular deseja saber se a proporção de consumidores que utilizam seu serviço é 50% da população do estado. Para isso ela selecionou aleatoriamente cem consumidores, dois quais 48 informaram que utilizam seus ser- viços. Tire conclusões a 5% de significância. Solução A proporção amostral observada é: 48,0 100 48ˆ ==p Hipóteses: H0: 5,0=p e Ha: 5,0≠p Estatística de teste: 0,48 0,5 0,40 (0,5 0,5) /100calc z −= = − × 43 Etapa IV Volume 2 Região Crítica: Como > 1,96 e < 1,96, tomase por decisão não rejeitar H 0 , isso signifi ca que não há evidência sufi ciente para rejeitar a afi rmação de que 50% dos consumidores utilizam o serviço da empresa de telefonia celular. Ao tomar a decisão usando o valor p, considerandose que o teste é bilateral e , temos: Como o valor p supera o nível de signifi cância de 0,05, não rejeitamos a hipótese nula e, novamente, concluímos que não há evidência sufi ciente para rejeitar a afi rmação de que 50% dos consumidores utilizam os serviços da operadora de telefone celular. Usando intervalos de confi ança para tomada de decisões O intervalo de confi ança pode ser utilizado para tomada de decisões no caso de teste de hipóteses bilateral. Sejam as hipóteses H 0 : contra H a : , a decisão tomada será: Rejeitase H 0 , se não pertence ao intervalo de confi ança; Não se rejeita H 0 , se pertence ao intervalo de confi ança. O nível de confi ança considerado no intervalo, em termos do teste de hipóteses, será o nível de signifi cância . A tomada de decisões ,por meio do intervalo, serve para teste de média com 50 UNIUBE Região crítica: { }96,1ou 96,1 que tal, >−<ℜ∈= zzzRC Como 0,40calcz = − > –1,96 e < 1,96, decide-se não rejeitar H0, isso significa que não há evidência suficiente para rejeitar a afirmação de que 50% dos consumidores utilizam o serviço da empresa de telefonia celular. Ao tomar a decisão usando o valor p, considerando que o teste é bilateral e 0calcz < , temos: 0,68920,34462)5,0|40,0(2* =×==−<×= pzPα Como o valor p supera o nível de significância de 0,05 não rejeitamos a hipótese nula e novamente concluímos que não há evidência suficiente para rejeitar a afirmação de que 50% dos consumidores utilizam os serviços da operadora de telefone celular. 1.6 Usando intervalos de confiança para tomada de decisões O intervalo de confiança pode ser utilizado para tomada de decisões no caso de teste de hipóteses bilateral. Sendo as hipóteses H0: 0mm = contra Ha: 0mm ≠ , a decisão a ser tomada será: • Rejeitar H0 se m não pertencer ao intervalo de confiança; • Não se rejeita H0 se m pertencer ao intervalo de confiança. O nível de confiança ( )1 %a− considerado no intervalo, em termos do teste de hipóteses, será o nível de significância a . A tomada de decisões por meio UNIUBE 51 do intervalo serve para teste de média com variância conhecida e desconhecida (amostra grande e pequena) e para teste de proporção. Para entendermos a mecânica do teste, retomemos os exemplos 1.3 e 1.4, estudados na seção 1.2.2 e 1.2.3, respectivamente. No exemplo 1.3, do quadro Exemplificando, a Statewide Insurance Company deseja testar se a idade média dos proprietários de apólices de seguro de vida Statewide é 40 anos, com 10% de significância. O teste é H0; 40=µ contra Ha: 40≠µ . O intervalo de 90% construído foi [37, 37; 41, 63]. Como 40=µ pertence ao intervalo não se deve rejeitar H0. Portanto, a 10% de significância, há evidên- cias de que a idade média dos proprietários de apólices de seguro de vida Statewide é 40 anos. Para o exemplo 1.4, deseja-se testar se o número médio de faltas dos fun- cionários por ano é 2,5, com 5% de significância. O teste é H0; 5,2=m contra Ha: 5,2≠m . O intervalo de 95% de confiança construído para o número médio de faltas por funcionário foi [ ]025,4;855,2 . Como 5,2=m não pertence ao intervalo deve-se rejeitar H0. Portanto, a 5% de significância, há evidências de que o número médio de faltas para cada funcionário, por ano, não é 2,5. agora é a sua vez Vamos praticar? Faça as atividades 1.d, 2.c e 5.c. 52 UNIUBE Resumo Neste capítulo você estudou como construir intervalos de confiança para a média m e para a proporção p de uma população. O objetivo de se determi- nar um intervalo de confiança é estabelecer a precisão de uma estimativa, construindo um intervalo que, com certa probabilidade, inclua o verdadeiro parâmetro da população. A expressão do intervalo de confiança depende se o tamanho da amostra n é grande ( 30n ≥ ) ou pequeno ( 30n < ), se o desvio padrão σ da população é conhecido ou não e se a população de onde é extraída a amostra apresenta uma distribuição normal de probabilidades ou aproximadamente normal. Caso o tamanho da amostra seja grande ( 30n ≥ ) e o desvio padrão σ da população, conhecido, usamos a distribuição normal z para calcular a margem de erro. Se o tamanho da amostra é grande ( 30n ≥ ) e o desvio padrão σ da população é desconhecido, usamos a distribuição normal z, substituindo, na fórmula de cálculo da margem de erro σ, pelo desvio padrão amostral S. Se o desvio padrão σ da população é desconhecido e a amostra é pequena ( 30n < ), é necessário que a população tenha uma distribuição normal ou aproximadamente normal: nesse caso, usamos a distribuição t. Se a amostra é pequena e não pudermos fazer a hipótese de que a população é normal, aumentamos o tamanho da amostra para 30n ≥ . Vimos também os testes de hipóteses para a média m populacional e para a proporção p de uma população. O teste de hipóteses é um procedimento estatístico para decidir se uma afirmação a respeito da média ou da proporção da população deve ser rejeitada a partir de dados obtidos de uma amostra. Para conduzir um teste, estabelecemos duas hipóteses: a hipótese nula H0 e hipótese alternativa Ha. Os testes podem ser bilaterais ou unilaterais. Em seguida, construímos a estatística de teste z ou t. Vimos que a estatística de teste depende do tamanho da amostra, de o desvio padrão σ da popula- UNIUBE 53 ção ser ou não conhecido e de a população de onde provém a amostra ser normal ou aproximadamente normal. A regra de rejeição consiste em comparar a estatística de teste z ou a esta- tística de teste t com um valor crítico fornecido pela tabela normal z ou pela tabela t, respectivamente. Para um teste unilateral esquerdo, rejeitamos a hipótese nula H0 se o valor da estatística de teste for menor que o valor crítico. Para um teste unilateral direito,
Compartilhar