Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DE OURO PRETO Noções de Inferência Estatística Professor: Ricardo Tavares 1. Introdução A Estatística envolve métodos para o planejamento e condução de um estudo, descrição dos dados coletados e para tomada de decisões, predições ou inferências sobre os fenômenos representados pelos dados. Os métodos estatísticos para análise de dados podem ser classificados como métodos descritivos - Estatística Descritiva - já vistos no início do curso e métodos inferenciais - Inferência Estatística. A Inferência Estatística consiste de procedimentos para fazer generalizações sobre as características de uma população a partir da informação contida na amostra. Em linhas gerais, a inferência estatística objetiva estudar a população através de evidências fornecidas pela amostra. Abaixo aparecem alguns trechos ilustrados por Magalhães & Lima (2004) ao iniciar o seu capítulo de Inferência Estatística. “Considere que é de interesse estudar a proporção de alunos, em uma escola do ensino médio, que pretendem fazer vestibular. Para tanto, selecionamos uma amostra de alunos e perguntamos a eles sobre suas intenções futuras de estudo. Com o intuito de obter alguma indicação do valor da proporção na escola como um todo, podemos usar a proporção dos que pretendem prosseguir os estudos no grupo selecionado. Suponha que a escola tenha 1000 alunos e escolhemos 20 para a amostra. Essa escolha pode ser em uma mesma classe ou espalhada entre os alunos das três séries ou, ainda, realizada de tal modo a garantir igual presença de meninos e meninos no grupo, independentemente da série cursada. Uma forma simples de escolher é associar um número a cada um dos 1000 alunos, colocar todos esses números numa lista e sortear 20 deles. Os alunos correspondentes aos números sorteados formariam a amostra. Suponha que você realize o sorteio dessa forma e um amigo seu, desconhecendo sua iniciativa, repita o mesmo procedimento. Você acha que as amostras sorteadas por você e por seu amigo serão a mesma? Parece intuitivo assumir que não. Queremos enfatizar que, se realizarmos várias vezes a amostragem descrita, provavelmente obteremos amostras compostas por alunos diferentes. Uma questão que surge agora é: apesar de diferentes, podemos ter respostas próximas ou iguais nas diversas amostras? A resposta é afirmativa e estará subjacente às idéias que serão apresentadas em Inferência Estatística.” “Resumindo, devido à natureza aleatória, geralmente envolvida no procedimento amostral, não podemos garantir que repetições de amostras produzam sempre resultados idênticos. Assim, ao coletarmos uma amostra, não podemos prever antecipadamente seu resultado.” “Em outras palavras, todas as quantidades associadas à amostra terão caráter aleatório e, portanto, devem receber tratamento probabilístico.” “Se a população inteira entrar na amostra, temos na prática, toda a informação possível e não há surpresas na amostragem, ou seja, não há aleatoriedade envolvida. Por exemplo, se os 1000 alunos da escola mencionada acima forem entrevistados, teremos o valor exato da proporção dos que desejam continuar os estudos na universidade. Nesse caso, toda a população faz parte da amostra e o resultado obtido irá ser sempre o mesmo, não importando quantas vezes repetimos a coleta da amostra. É claro que estamos supondo que os alunos não trocam de opinião entre as coletas e, portanto, como todos os alunos sempre entram na amostra, a proporção obtida se mantém.” 1 Um ponto crucial em Inferência é a estimação, que é responsável por estudar combinações dos valores de amostras aleatórias, com a finalidade de obter informações a respeito de características de interesse na população. Alguns conceitos e situações nesse ramo serão apresentadas na próxima seção. 2. Estimação Nesta seção, estaremos interessados em estimar uma quantidade (desconhecida) em uma população, a partir da informação fornecida por uma amostra. Por exemplo: a proporção p de elementos em uma população, apresentando certa característica de interesse. Ou em outras palavras, a proporção de brasileiros que aprovam o Governo Federal. Definição 1: Uma população se refere a todas as observações as quais o pesquisador quer fazer inferências ou estimativas. Definição 2: Uma amostra é um subconjunto de observações selecionadas a partir de uma população. Definição 3: Seja X uma variável populacional que se deseja estudar. Uma amostra aleatória de X é um conjunto de n variáveis aleatórias (X1, X2, ..., Xn), se, para i=1,2, ..., n: (a) Os Xi’s forem variáveis aleatórias independentes; (b) Cada Xi tiver a mesma distribuição de probabilidade. Através de amostras aleatórias, escolhemos uma forma para a distribuição dos dados: o modelo estatístico. Obtemos então aproximações para os valores que caracterizam esse modelo (os parâmetros). Definição 4: Os parâmetros são as quantidades da população (números fixos), em geral desconhecidas, sobre as quais temos interesse em estudar. Os parâmetros, geralmente, são representados por letras gregas tais como θλσµ e,, , entre outras. Exemplo: O peso médio (θ ) dos alunos da UFOP. Definição 5: Dada uma amostra aleatória (X1, X2, ..., Xn), estimador ou estatística é qualquer combinação dos elementos amostrais, construída com o objetivo de representar, ou estimar, um parâmetro de interesse na população. Em geral, denotamos os estimadores por símbolos com o acento circunflexo: θλσµ ˆ,ˆ,ˆ,ˆ , etc. Por exemplo, nxxxxf n i in == ∑ = 1 21 ),,,(ˆ θ é um estimador de θ . Como o estimador é função das variáveis aleatórias constituintes da amostra, então ele também é uma variável aleatória e desta forma poderemos pensar numa distribuição de probabilidade para estudar o comportamento dele (próximas seções). Observe que a definição 5 é muito ampla, permitindo que qualquer combinação da amostra aleatória seja um estimador. Em particular, as medidas de posição, dispersão e forma são exemplos de estimadores. Por exemplo, se estamos interessados na média das alturas de jovens com idade entre 15 e 18 anos, nascidos na região sudeste do país. Vamos coletar uma amostra e usá-la para tirar conclusões. Lembrando que a população é composta por todos os jovens com idade entre 15 e 18 anos, nascidos na região sudeste. O parâmetro de interesse é a altura média desses jovens, representada por µ . A amostra (X1, X2, ..., X10) será obtida de forma aleatória e, com base nela, 2 vamos dizer algo a respeito de µ . O que precisamos resolver é que função dos valores amostrais utilizaremos para essa tarefa (estimação de µ ), ou seja, qual será o estimador. Existem diversas opções, como por exemplo: 2 )()...,,,(ˆ 102111 máximomínimoxxxf +==µ (a média aritmética dos valores mínimo e máximo da amostra) 1102122 )...,,,(ˆ xxxxf ==µ (o primeiro valor sorteado na amostra) 10 ...)...,,,(ˆ 1021102133 xxxxxxf +++==µ (a média dos valores da amostra) Suponha que uma amostra aleatória foi selecionada e os valores de altura (em metros) observados nesta amostra foram: 1,65 1,57 1,72 1,66 1,71 1,74 1,81 1,68, 1,60 e 1,77. Então, as estimativas dos três estimadores apresentados são: 69,1 2 )81,157,1(ˆ1 = + =µ 65,1ˆ2 =µ 69,1 10 91,16 10 77,1...57,165,1ˆ3 == +++ =µ Apesar desses números, calculados para uma amostra particular, não serem muito distintos uns dos outros, não devemos escolher o estimador olhando apenas, se a estimativa correspondente é razoável. Como decidir qual deles usar? Esta questão será respondida mais adiante quando estudarmos as propriedadesdos diversos estimadores. É sempre bom lembrar que nenhum de nós sabe o verdadeiro valor da média na população, pois se ele fosse conhecido, que sentido teria coletar a amostra? [ Magalhães & Lima (2004) ]. Definição 6: Estimativa é o valor numérico que o estimador assume. Exemplo: Kg68ˆ =θ . Uma estimativa pode ser pontual ou intervalar. A) Estimativa Pontual: Quando procuramos encontrar uma estimativa única que esteja satisfatoriamente próxima do verdadeiro valor do parâmetro. Exemplo: Kg68ˆ =θ . B) Estimativa Intervalar: Quando procuramos determinar intervalos que abranjam o valor do parâmetro populacional, com uma margem de segurança ou confiança pré-fixada. Exemplo: IC[θ , 95%] = [ 55 ; 81 ]. Como foi visto, mais de uma função da amostra pode ser proposta para estimar o parâmetro de interesse. Para facilitar a escolha entre tais estimadores, torna-se importante verificar se possuem algumas propriedades que serão definidas a seguir: Definição 7: Vício – um estimador θˆ é não viciado ou não viesado para um parâmetro θ se θθ =)ˆ(E . Em outras palavras, um estimador é não viciado se o seu valor esperado coincide com o parâmetro de interesse. 3 Definição 8: Consistência – um estimador θˆ é consistente, se, à medida que o tamanho da amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero. Ou seja, θˆ é consistente se as duas condições seguintes são satisfeitas: i) θθ = ∞→ )ˆ(lim E n ; ii) .0)ˆ(lim = ∞→ θVar n Definição 9: Eficiência – Dados dois estimadores 1ˆθ e 2ˆθ , não viciados para um parâmetro θ , dizemos que 1ˆθ é mais eficiente do que 2ˆθ se ( ) ( )21 ˆˆ θθ VarVar < . Fazer um exemplo em sala de aula. Como a disciplina MTM602 – Estatística II tem um caráter mais superficial, então não serão abordados aprofundamentos com tais propriedades (definições 7, 8 e 9). Na disciplina de Inferência Estatística tal conteúdo será formalmente explorado. No momento, a escolha do estimador não levará em conta as suas propriedades e acontecerá da seguinte maneira: (a) a média amostral é um estimador para a média populacional; (b) a variância amostral é um estimador para a variância populacional; (c) o desvio-padrão amostral é um estimador para o desvio-padrão populacional; (d) a freqüência relativa de um evento na amostra é um estimador para a proporção, ou probabilidade do evento na população; (e) a soma (ou diferença) entre duas médias amostrais é um estimador para a soma (ou diferença) entre duas médias populacionais; (f) a soma (ou diferença) entre duas freqüências relativas amostrais é um estimador para a soma (ou diferença) entre duas proporções populacionais; (g) o quociente entre duas variâncias amostrais é um estimador para o quociente entre duas variâncias populacionais. E assim por diante. 3. Distribuições Amostrais A distribuição de probabilidade de uma estatística (estimador) é chamada de uma distribuição amostral. Vimos que estimadores são funções de variáveis aleatórias e, portanto, eles também são variáveis aleatórias. Nesta etapa do curso vamos estudar a distribuição de probabilidade de dois estimadores mais utilizados (média amostral e proporção amostral). 3.1. Distribuição da Média Amostral Considere uma população de 100 alunos cuja variável aleatória medida em cada um deles seja o peso. A média e o desvio padrão do peso desta população são: µ = 75,4 Kg e σ = 19,7 Kg. Observe que diferentes amostras de tamanho n podem ser retiradas desta população. A seguir, têm-se as médias e os desvios-padrão correspondentes a 15 amostras de tamanho n=10, 20, 30, 50 selecionadas desta população. Tabela: Medidas de resumo para o peso médio dos alunos em 15 amostras. Tamanho das Amostras Média ( X ) Desvio Padrão ( X ) n=10 71,14 23,56 n=20 72,75 21,23 n=30 73,20 17,87 4 n=50 74,95 15,64 Observe que para todos os tamanhos da amostra, a distribuição da média amostral se concentra em torno da média populacional µ = 75,4 Kg e que a dispersão em torno da média diminui à medida que aumentamos o tamanho da amostra. Isto acontece, porque quando aumentamos o tamanho da amostra estamos utilizando mais informações e, portanto temos mais precisão ao estimarmos µ. A média e o desvio padrão amostral, X e s, são variáveis aleatórias. Interessa-nos conhecer a distribuição de probabilidade de X para uma amostra de tamanho n. Definição: Considere uma população Normal e a amostra aleatória (X1, X2, ... , Xn) cujos elementos são independentes e identicamente distribuídos, com densidade Normal de média µ e desvio padrão σ, a) Xi ~ Normal(µ ; σ), i= 1, ..., n; b) Xi é independente de Xj, para todo i diferente de j. Então, a média amostral ( X ) também terá distribuição Normal com média µ e desvio padrão n/σ . Na prática muitas vezes, não temos informações a respeito da distribuição das variáveis constituintes da amostra, o que nos impede de utilizar o resultado apresentado acima. Felizmente, é possível mostrar que, para um tamanho de amostra suficientemente grande, a distribuição da média amostral pode ser aproximada por uma distribuição Normal. Este é um dos teoremas mais importante da estatística: Teorema Central do Limite. Teorema Central do Limite Suponha uma amostra aleatória simples de tamanho n retirada de uma população com média µ e desvio padrão σ (note que o modelo da v.a. não é especificado). Representando tal amostra por variáveis aleatórias independentes e, denotando sua média por X , temos: N(0,1)ãodistribuiçmenteaproximada tem / , n XcrescenQuando σ µ− . A distribuição da média amostral X é aproximadamente Normal com média µ e desvio padrão n/σ . O teorema garante que para grandes amostras, a distribuição da média amostral, devidamente padronizada, se comporta segundo um modelo Normal com média 0 e desvio padrão 1. Em situações práticas em que não se conhece a distribuição dos dados, e que o interesse esteja em estudar a média amostral, o teorema permite que se utilize a distribuição Normal para estudar probabilisticamente a média. 5 Quando não se conhece o desvio padrão populacional (σ ), usa-se a estimativa amostral (s). A nova variável aleatória ns XT / µ− = , quando X é uma variável aleatória Normal ( µ , σ2 ), tem distribuição t de Student com n-1 graus de liberdade. Quando X não segue uma Normal, T não terá distribuição t de Student. Mas para grandes amostras, o TCL assegura (quando n > 30) uma aproximação para a distribuição N(0,1). 3.2. Distribuição da Proporção Amostral Uma aplicação importante do Teorema Central do Limite relaciona-se com a distribuição da proporção amostral. Define-se a proporção amostral como a fração dos indivíduos com uma dada característica em uma amostra de tamanho n, isto é, n interesse de ticacaracterís certa uma com amostra na indivíduos de nº ˆ =p Se construirmos para o i-ésimo indivíduo uma variável aleatória Yi, tal que Yi =1, se o indivíduo apresenta a característica; e 0 caso contrário; podemos reescrever a proporção amostral como: Yp =+++= n Y...YY ˆ n21 Como pˆ é uma média, a distribuição aproximada de pˆ é dada pelo Teorema Central do Limite. Assumindo que os Yi são independentes e que cada Yi tem distribuição binomial.com média µ = p e o desvio padrão de Yi é )1( pp −=σ . Então, pelo Teorema Central do Limite: N(0,1) ãodistribuiç aprox. uma tem )1( ˆ n pp pp − − 4. Estimação por Intervalos Diferentes amostras aleatórias podem ser retiradas de uma mesma população, e amostras diferentes podem resultar em estimativas diferentes. Ou seja, um estimador é uma variável aleatória e pode assumirvalores diferentes (variar) para cada amostra. Então, ao invés de estimar o parâmetro de interesse por um único valor, é muito mais informativo estimá-lo por um intervalo de valores que considere a variação presente na amostra e que contenha o seu verdadeiro valor com determinada confiança. Este intervalo é chamado de intervalo de confiança. 6 A idéia é construir intervalos de confiança que incorporem à estimativa pontual informações a respeito de sua variabilidade. Os intervalos de confiança são obtidos por meio da distribuição amostral do estimador pontual. O intervalo de confiança está associado a um grau de confiança que é uma medida de nossa certeza de que o intervalo contém o parâmetro populacional. É a probabilidade 1-α. A construção do intervalo para μ é baseada na distribuição amostral da média amostral e no grau de confiança. Não é necessário que a suposição de normalidade para os dados seja adequada. A variância pode ou não ser conhecida. Para cada caso, usam-se diferentes distribuições. i) Estimativa Intervalar para variância conhecida; ii) Para variância desconhecida. A margem de erro E é a diferença máxima provável (com probabilidade 1-α) entre a média observada (a média amostral) e a verdadeira média (média populacional). A margem de erro é dada por n zE σα 2/= e desta forma temos o intervalo de confiança como EXEX +≤≤− µ . Devemos ser cuidadosos para interpretar corretamente os intervalos de confiança. Considere como ilustração o intervalo para 95% de confiança dado por 0,476 ≤ μ ≤ 0,544. Interpretação Correta: “Estamos 95% confiantes de que o intervalo de 0,476 a 0,544 realmente contém o verdadeiro valor de μ”. Interpretação Errada: “Há uma chance de 95% de que o verdadeiro valor de μ estará entre 0,476 e 0,544” ou “95% de todos os valores amostrais estão entre 0,476 e 0,544”. Justificativa: μ é uma constante fixa (embora desconhecida), não uma variável aleatória. E o intervalo de confiança não descreve o comportamento de médias amostrais individuais. Intervalos de confiança de 95% para uma média Na seção anterior vimos que para uma amostra suficientemente grande a distribuição das médias amostrais em torno da média populacional é Normal com desvio padrão n σ . Definição 10: Erro Padrão – É o desvio padrão de um estimador, e geralmente é denotado por EP (em português) e SE (em inglês). Desta forma, n σ é o erro padrão (SE) da média, uma vez que quanto menor seu valor tanto mais próximas estarão às médias amostrais da média populacional µ (ou seja, tanto menor será o erro). 7 Isto significa que 68.3% de todas as médias amostrais cairão dentro de SE1± da média populacional µ . Similarmente 95% de todas as médias amostrais cairão dentro de SE96.1± de µ . Então intervalos da forma +− n X n X σσ 96.1;96.1 conterão a verdadeira média populacional µ 95% das vezes. Outra forma: Sabe-se que: )1,0(~ / N n X σ µ− Usando a notação anterior, temos: α σ µ αα −= +< − <− 1 / 2/2/ z n XzP ou seja, a expressão nos dá o intervalo de confiança para a media µ: +<<− n zX n zX σµσ αα 2/2/ ou ainda +−=− n zX n zXIC σσαµ αα 2/2/ ;])%1(100;[ Exemplo: As medidas dos pesos de uma amostra aleatória de 100 caminhões que foram medidos pela Polícia Rodoviária têm média de 3,2 toneladas e desvio padrão de 0,8 toneladas. Qual o intervalo de confiança para um grau de confiança de 95%? E se fosse 90% de confiança? Como E = 1,96 . (0,8/10) = 0,157 , então 3,2 – 0,157 ≤ μ ≤ 3,2 + 0,157 Intervalo: 3,043 ≤ μ ≤ 3,357, ou ainda, IC[μ, 95%]=[3,043 ; 3,357]. Interpretação: Estamos 95% confiantes que o verdadeiro peso médio dos caminhões que trafegam nesta jurisdição está entre 3,043 e 3,357. Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio padrão populacional σ . Para grandes tamanhos amostrais, contudo, o desvio padrão amostral s será uma boa estimativa de σ . Portanto, podemos substituir σ por s de modo que podemos calcular o erro padrão como n sSE = . E um intervalo de confiança de aproximadamente 95% para µ é: 8 +− n sX n sX 96.1;96.1 Este tipo de intervalo de confiança para a média pode ser usado para grandes amostras, independentemente da distribuição da variável original. Quando o desvio padrão é desconhecido e amostra não é grande, usamos a distribuição t de Student e o intervalo passa a ser este n stX n stX nn 1;2/1;2/ −− +<<− αα µ . O termo 1;2/ −ntα é o fator da tabela t-Student com n-1 graus de liberdade e que deixa 100(1-alfa)% de confiança entre 1;2/ −− ntα e 1;2/ −ntα . O número de graus de liberdade para uma coleção de dados amostrais é o número de valores amostrais que podem variar depois que certas restrições tiverem sido impostas aos dados amostrais. Intervalos de confiança para uma proporção Similarmente, podemos mostrar que o intervalo de confiança de aproximadamente 95% para uma proporção é dado por )96.1ˆ;96.1ˆ( SEpSEp +− em que n ppSE ) ˆ1(ˆ − = . Exemplo: Um ensaio clínico foi realizado para determinar a preferência entre dois analgésicos, A e B, contra dor de cabeça. 100 pacientes que sofrem de dor de cabeça crônica receberam em dois tempos diferentes o analgésico A e o analgésico B. A ordem na qual os pacientes receberam os analgésicos foi determinada ao acaso. Os pacientes desconheciam esta ordem. Ao final do estudo foi perguntado a cada paciente qual analgésico lhe proporcionou maior alívio: o primeiro ou o segundo. Dos 100 pacientes, 45 preferiram A e 55 preferiram B. Baseado nestas informações podemos dizer que há preferência por algum dos analgésicos? Dizemos que não há preferência por um dos analgésicos quando a proporção dos que preferem A ( Ap ), é igual a proporção dos que preferem B ( Bp ). Como temos dois resultados possíveis, Ap e Bp são iguais quando Ap = Bp =0.5. Um intervalo de 95% de confiança para a verdadeira proporção de pacientes que preferem o analgésico A é: 9 )55,0;35,0( 100 )45,01(45,0.96,145,0 = −± Então, com 95% de confiança, a verdadeira proporção de pacientes que preferem o analgésico A está entre 0,35 e 0,55. Observe que este intervalo contém o valor 0,5 então concluímos que não existem evidências amostrais de preferência por um dos analgésicos. Cálculo do Tamanho da Amostra: População: uma coleção de todos os possíveis elementos, objetos ou medidas de interesse. Amostra: Uma porção ou parte de uma população de interesse. Amostragem: É o processo de escolha de uma amostra da população. Amostra probabilística: É uma amostra em que todos os elementos da população tiverem probabilidade conhecida e não nula de pertencer a ela. Numa amostragem aleatória simples, todos os elementos da população têm a mesma chance de ser selecionado para a amostra. Neste caso, o número de amostras possíveis de tamanho n que pode ser selecionadas de uma população de tamanho N é dado por: i) com reposição: nN Exemplo: Quantas amostras de tamanho 2, com reposição, podem ser retiradas de uma população de tamanho 4, por exemplo, uma população formada pelos elementos A, B, C, D. Resposta: 42 = 16 amostras possíveis. São elas: DDDCDBDA CDCCCBCA BDBCBBBA ADACABAA . ii) sem reposição: nNC , Exemplo: Quantas amostras de tamanho 2, sem reposição, podem ser retiradas de uma população de tamanho 4, por exemplo, uma população formada pelos elementos A, B, C, D. Resposta: 6)!24(!2 !4 2,4 = − =C amostras possíveis. São elas: ×××××××× ×××××× ×××× ××DDDCDBDA CCCBCA BBBA AA CD BDBC ADACAB . Desta forma, a probabilidade da amostra {AB} ser selecionada é 1/16 se a amostragem for realizada com reposição e 1/6 se for extraída sem reposição. 10 A razão N nf = é chamada de fração amostral. Na prática, a amostragem com reposição não é atrativa, pois não desejamos intervir os mesmos indivíduos mais que uma vez. Mas, em termos matemáticos ela se torna mais simples de relacionar- se com a população. A amostragem sem reposição fornece duas vantagens adicionais: (i) os elementos não são repetidos; (ii) a estimação da variância é menor que a gerada pela amostragem com reposição, para o mesmo tamanho de amostra. Conforme já discutido, a média amostral é não viciada para estimar a média populacional, ou seja, µ=)(XE . Em termos de variância da média amostral, temos dois casos: i) com reposição: n XVar 2 )( σ= ; ii) sem reposição: − − = 1 )( 2 N nN n XVar σ , e quando N é muito grande, diminuir de 1 não faz diferença e teríamos − = N nN n XVar 2 )( σ , ou seja, )1()( 2 f n XVar −= σ . O termo (1 – f) é chamado de fator de correção para população finita. Agora, vamos analisar a margem de erro do intervalo de confiança para a média de uma população normal com variância conhecida. Ela é dada por n zE σα 2/= . Para o cálculo do tamanho da amostral basta isolar a incógnita n e temos que: 2 2/ . = E zn σα . Exemplo: De uma população normal com variância 25 extrai-se uma amostra aleatória simples de tamanho n com o objetivo de se estimar a média populacional μ com um nível de confiança de 90% e margem de erro de 2. Qual deve ser o tamanho da amostra? No caso da amostragem ser realizada sem reposição, temos algo similar, porém corrigido pelo fator de população finita: − − = 12/ N nN n zE σα , e consequentemente, 22 2/ 2 22 2/ )1( .. σ σ α α ZEN ZNn +− = . Exemplo: Um prefeito de certa cidade turística deseja estimar a média de gastos para os turistas que visitam a cidade. Com este propósito, deseja-se selecionar uma amostra aleatória de uma listagem que contabiliza um universo de 1850 turistas presentes na cidade no período da pesquisa. Com base em pesquisas anteriores, sabe-se que em média eles gastam em torno de 800 u.m.(unidades de medidas) com desvio padrão de 200 u.m. Calcule o tamanho de amostra necessários para que o erro máximo admitido seja de 20 u.m. e um grau de confiança de 95%. 11 Testes de Hipóteses Em geral, intervalos de confiança é a forma mais informativa de apresentar os achados mais relevantes de um estudo. Contudo, algumas vezes, existe um particular interesse em decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o parâmetro populacional tem um valor em particular ou não). Os Testes de hipóteses fornecem-nos uma estrutura para que façamos isto. Intervalos de confiança e testes de hipóteses estão intimamente relacionados. Exemplo (Profa. Edna, UFMG): A ProCare Industries LTDA lançou, certa vez, um produto chamado “Gender Choice” que, de acordo com a propaganda, permitia que os casais aumentassem em • 85% a chance de terem um filho • 80% a chance de terem uma menina. Sabe-se que a probabilidade “natural” de ter uma menina é igual a 50%. Em um experimento para verificar a eficácia do “Gender Choice”, suponha que 100 casais que querem uma menina façam uso da embalagem rosa. Número de meninas esperadas, caso os casais não usassem nenhum método: 50 meninas. Utilizando somente o bom senso, o que deveríamos pensar se, das 100 crianças nascidas, a) 52 fossem meninas? b) 97 fossem meninas? Discussão: a) O número de 52 meninas é muito próximo daquele que esperamos sem o uso de nenhum método (50) e poderia ter ocorrido por mero acaso. Aqui, não há evidências suficientes para concluir que o “Gender Choice” tenha eficácia. b) A ocorrência de 97 meninas em 100 nascimentos é muito pouco provável e poderia ser explicada de duas maneiras : i) ocorreu um evento extremamente raro; ii) o “Gender Choice” é realmente eficaz. Diante da probabilidade extremamente baixa de ocorrer 97 meninas em 100 nascimentos de maneira “natural”, a explicação mais sensata é a de que o produto é eficaz. 12 Hipótese Estatística é uma afirmação sobre os parâmetros de uma ou mais características da população. Por exemplo, sobre a média de uma variável na população (μ) ou sobre uma proporção populacional (p). Teste de Hipóteses é o processo de decisão entre duas hipóteses sobre um parâmetro da população. - Hipótese Alternativa (HA): hipótese do pesquisador - Hipótese Nula (H0): negação da hipótese do pesquisador (expressa que não há mudança) Utilizando as informações sobre o parâmetro contidas na amostra, testa-se H0 versus HA. Exemplo 1: p = proporção de nascimento de meninas com o uso do Gender Choice. - Hipótese do pesquisador: o método funciona (p > 0.5) - Hipótese nula: o método não funciona (p = 0.5) Para realizar-se um teste de uma hipótese estatística retira-se uma amostra da população em estudo e com base na observação dos resultados dessa amostra toma-se a decisão de aceitar H0 ou de rejeitar H0. Usando as informações da amostra de 100 casais que usaram o método (e, destes, quantos tiveram menina), decide-se entre H0: p =0.5 e HA: p >0.5. Erros associados a Testes de Hipóteses Decisão baseada no teste Situação real (desconhecida)H0 é verdadeira H0 é falsa Rejeitar H0 Decisão Incorreta (Erro Tipo I) Decisão Correta Não rejeitar H0 Decisão Correta Decisão Incorreta (Erro Tipo II) Erro tipo I: Rejeitar H0 quando H0 é verdadeira. Erro tipo II: Não rejeitar H0 quando H0 é falsa. O Erro Tipo I é o mais grave. Assim pretende-se “controlá-lo”, pré-fixando sua probabilidade de ocorrência em um valor pequeno α : P(Erro tipo I) = P(Rejeitar H0 quando H0 é verdadeira) = α . Este valor pré-fixado para a probabilidade do Erro Tipo I é chamado nível de significância do teste. Usualmente tem-se: α = 0.10 ou α = 0.05 ou α = 0.01. Se for fixado o valor de α = 0.05, diz-se que “é um teste de hipóteses ao nível de significância de 5%”. O ideal seria minimizar tanto o erro do tipo I quanto o do tipo II. Mas, infelizmente, para qualquer tamanho de amostra dado, não é possível minimizar ambos os erros simultaneamente. A abordagem clássica deste problema considera que o erro tipo I é provavelmente mais grave que o erro tipo II. Tenta-se manter a probabilidade de cometer erro tipo I em um nível razoavelmente baixo, como 0,01, 0,05 ou 0,10 e em seguida minimizar o máximo possível a probabilidade do erro tipo II. Mais adiante definiremos a função poder e um comparativo com alguns tamanhos de amostrais. 13 P(Erro tipo II) = P(Não Rejeitar H0 quando H0 é falsa) = β . O poder de um teste de hipóteses é a probabilidade de rejeitar H0 quando H0 é falsa. Poder = P(Rejeitar H0|H0 falsa) = 1 - P(Não rejeitar H0|H0 falsa) = 1 - β . O poder de um teste de hipóteses pode ser interpretado como a probabilidade de rejeitar de maneira correta uma hipótese nula falsa, o que representa a decisão correta. Em muitos casos, dois diferentes testes de hipóteses são comparados por meio de comparação do poder de cada um deles. Componentes de um Teste de Hipóteses Hipótese nula: é a afirmação sobre o valor de um parâmetro populacional (média ou proporção, denotados por μ e p). Usualmente, H0 expressa a condição de igualdade. H0: μ = μ0 , H0: μ ≥ μ0 ou H0: μ ≤ μ0. Hipótese alternativa: é a afirmação verdadeira para o caso de a hipótese nula ser falsa. Comporta-se basicamente de três formas: HA: μ ≠ μ0 , HA:μ > μ0 ou HA: μ < μ0. Nível de significância do teste: Probabilidade máxima tolerada para o Erro Tipo I (rejeitar H0 se ela é verdadeira). A variável aleatória cujo valor é utilizado para determinação da decisão a ser tomada em um teste de hipóteses é denominada estatística de teste. Ou seja, é o valor baseado nos dados amostrais do qual tomaremos a decisão sobre a rejeição ou não da hipótese nula. De acordo com o tipo de teste de hipóteses feito, uma distribuição de probabilidade é associada a esta estatística. Região crítica: conjunto de valores da estatística de teste que levam à rejeição de H0. Valor crítico: é o valor ou os valores que separam a região crítica dos demais valores possíveis da estatística de teste. Métodos para Testar Hipóteses: I) Método Tradicional 1) Definir o parâmetro (média, proporção, variância, etc) sobre o qual é feito o teste. 2) Definir a hipótese do pesquisador. 3) Definir a hipótese nula (H0) e hipótese alternativa (HA). 4) Escolher um valor α para o nível de significância do teste. Nível de significância = valor máximo para P(Erro Tipo I) P(Erro Tipo I) = P(rejeitar H0 | H0 é verdadeira) Temos 0 < α < 1, usualmente valores pequenos como 1% ou 5%. 5) Definir a estatística de teste. 6) Definir a região de rejeição de H0. 7) Calcular o valor observado da estatística de teste na amostra supondo a hipótese nula verdadeira. Verificar se este valor observado pertence à região de rejeição: 14 • Se pertencer : a conclusão do teste é que a amostra contém evidências para rejeitar a afirmação sobre o parâmetro feita na hipótese nula (ficando com a afirmação feita na hipótese alternativa); • Se não pertencer : a conclusão do teste é que a amostra não contém evidências para rejeitar a afirmação sobre o parâmetro feita na hipótese nula (ficando com a afirmação feita na hipótese nula). 8) Estabelecer as conclusões e interpretações dos resultados para o problema. Exemplo: Sabe-se que o tempo cura até a cura de certo tipo de micose dos pés quando tratada por uma determinada pomada aplicada uma vez ao dia é de 10 dias, em média. Um dermatologista deseja verificar se a aplicação da mesma pomada duas vezes ao dia reduz o tempo médio até a cura. Para isso, selecionou 36 de seus pacientes atacados pela micose e prescreveu o tratamento com aplicação da pomada duas vezes ao dia. O tempo médio até a cura nos pacientes da amostra foi de 8.5 dias, com um desvio padrão de 1.5 dias. Os dados mostram evidências de que aplicar a pomada duas vezes ao dia acelera a cura da micose? Parâmetro: μ = tempo médio até a cura com aplicação da pomada duas vezes ao dia. H0: μ =10 HA: μ <10 Estatística de teste: Região de Rejeição (α = 0.01): Ao n.s. de 1%, rejeita-se H0 se: Zobs < -Z0.01 = -2.33 Como Zobs = -6 < -2.33, rejeita-se H0 ao nível de significância de 1%. Conclusão: Ao nível de significância de 1%, conclui-se que a amostra fornece evidências estatísticas para dizer que aplicar a pomada duas vezes ao dia reduz o tempo médio até a cura. Exemplo (continuação do Gender Choice): Parâmetro: p = proporção de nascimentos de meninas com o uso do método (em todos os nascimentos da população) H0: p = 0.50 (o método não funciona) HA: p > 0.50 (o método funciona) Estatística de teste: Região de Rejeição (α = 0.05): Ao n.s. de 5%, rejeita-se H0 se: Zobs > Z0.05 = 1.64 Situação 1: amostra de n =100 nascimentos com 52 meninas Proporção amostral: pˆ = 52 /100 = 0.52 15 Como Zobs = 0.4 < 1.64 , não se rejeita H0 ao n.s. de 5%. Conclusão: Ao nível de significância de 5%, conclui-se que a amostra não fornece evidências estatísticas para dizer o que método funciona. Situação 2: amostra de n =100 nascimentos com 97 meninas Proporção amostral: pˆ = 97 /100 = 0.97 Como Zobs = 9.4 > 1.64, rejeita-se H0 ao n.s. de 5%. Conclusão: Ao nível de significância de 5%, conclui-se que a amostra fornece evidências estatísticas para dizer o que método funciona. O Valor P de um Teste de Hipóteses Em um teste de hipóteses, lembre-se de que controlamos o Erro Tipo I (Rejeitar H0 quando H0 é verdadeira) fixando um valor máximo α para a probabilidade de cometê-lo: α = P[Erro Tipo I] = P[Rejeitar H0 quando H0 é verdadeira]. Este valor máximo pré-fixado para a probabilidade de Erro Tipo I é chamado nível de significância (α ) do teste. De posse dos dados amostrais, podemos nos perguntar: Qual é a probabilidade de errarmos ao rejeitar H0 com estes dados amostrais? Esta probabilidade é chamada Probabilidade de Significância ou valor p do teste. Valor p: probabilidade do Erro Tipo I observada na amostra. Quanto menor o valor p, menor será a probabilidade de estarmos tomando uma decisão incorreta ao rejeitar H0 com base nos dados observados. Ou seja, maior será a evidência estatística contra H0. Desse modo, a decisão do teste pode ser baseada no seguinte critério: II) Método do Valor p • Se valor p < α , então se rejeita H0 ao nível de significância α . Se o valor p é “pequeno”, a probabilidade de cometermos um erro ao rejeitarmos H0 é pequena. Então, devemos rejeitar H0. • Se valor p ≥ α , então não se rejeita H0 ao nível de significância α . Se o valor p é “grande”, a probabilidade de cometermos um erro ao rejeitarmos H0 é grande. Então, não devemos rejeitar H0. O valor p ou p-value é a probabilidade de observar dados tão extremos quanto os obtidos caso a hipótese nula seja verdadeira. Note as seguintes interpretações: Valor p ≥ 0,10 Não existe evidência contra H0 Valor p < 0,10 Fraca evidência contra H0 Valor p < 0,05 Evidência significativa ... Valor p < 0,01 Evidência altamente significativa ... Valor p < 0,001 Evidência muito altamente significativa ... 16 Esteja ciente da diferença entre significância estatística e significância prática. Um efeito pode ser estatisticamente significante mas não ter qualquer importância prática e vice- versa. Por exemplo, um estudo muito grande pode estimar a diferença entre a média de peso de plantas como sendo 0.0001 gramas e concluir que a diferença é estatísticamente significativa (p<0,05). Contudo, na prática, esta diferença é negligível e provavelmente de pouca importância prática. Como calcular o valor p? O cálculo do valor p depende do sinal de igualdade na HA (<, > ou ≠ ) e pode ser feito usando-se a seguinte definição: Valor p: probabilidade de que a estatística de teste assuma valores “mais extremos” do que o valor observado na amostra, supondo H0 verdadeira. Nota: “Mais extremos” --> na direção indicada por HA. Cálculo do Valor p: Teste: Região de rejeição de H0: Valor p: Unilateral Inferior (HA: < ) Obs < - Tab F (Obs) Unilateral Superior (HA: > ) Obs > Tab 1 - F (Obs) Bilateral (HA: ≠ ) Obs < - Tab ou Obs > Tab 2 . [1 - F (|Obs|)] Notas: (i) Obs significa estatística de teste observada na amostra; (ii) Tab significa o valor tabelado na distribuição de probabilidade da Estatística de teste; (iii) F representa a função de distribuição acumulada da variável aleatória da Estatística de teste (por exemplo: Normal, t-Student, etc). Exemplo: Gender Choice (Cálculo do Valor P) Parâmetro: p = proporção de nascimentos de meninas com o uso do método (em todos os nascimentos da população). H0: p = 0.50 (o método não funciona) HA: p > 0.50 (o método funciona) Situação 1: n =100 e pˆ = 0.52 e Zobs = 0.4 Valor P = P(Z > Zobs) = P(Z > 0.4) Valor P = 0.344578 Se α = 0.05, então Valor P > α e, portanto, não se rejeita H0 ao nível de significância de 5%. Se α = 0.01, então Valor P > α e, portanto, não se rejeita H0 ao nível de significância de 1%. Situação 2: n =100 e pˆ = 0.97 e Zobs = 9.4 Valor P = P(Z > Zobs) = P(Z > 9.4) Valor P << 0.0000968 Se α = 0.05, então Valor P < αe, portanto, rejeita-se H0 ao nível de significância de 5%. Se α = 0.01, então Valor P < α e, portanto, rejeita-se H0 ao nível de significância de 1%. 17 III) Método do Intervalo de Confiança Calcula-se o intervalo de confiança para o parâmetro e verifica se ele contém o valor da hipótese nula: (i) Se o IC contém o valor de H0: Não se rejeita H0 ao nível de significância α ; (ii) Se o IC não contém o valor de H0: Rejeita-se H0 ao nível de significância α . Veja os exemplos discutidos em sala de aula. Exemplo Extra (Livro do Magalhães): Para estudar o efeito de certa substância em seres vivos, um experimento é desenvolvido com cobaias que são inoculadas com a substância e submetidas a um estímulo elétrico e têm seus tempos de reação (em segundos) anotados. Obtivemos os valores: 9,1; 9,3; 7,2; 7,5; 13,3; 10,9; 7,2; 9,9; 8,0; 10,4. Admite-se que o tempo de reação segue o modelo Normal com média 8 e desvio padrão 2=σ segundos. O pesquisador desconfia que o tempo médio sofre alteração por influência da substância. Faça o que se pede: a) Para um erro tipo I de 6%, encontre a região crítica; b) Calcule o erro tipo II para um valor de igual a 9,0. c) Calcule o nível descritivo (valor p ou nível de significância observado) e tome suas decisões para um nível de significância de 6%. Resolução: Neste caso, as hipóteses de interesse são: H0: as cobaias apresentam tempo de reação padrão; HA: as cobaias apresentam tempo de reação alterado. Em termos estatísticos, tais hipóteses envolvem o parâmetro µ e podem ser escritas como: H0: 0,8=µ HA: 0,8≠µ Uma vez que o teste envolve a média populacional, consideramos a média amostral para construir a estatística de teste e usamos que ) 10 4,(~ µNX . Tendo em vista a especificação de HA, a região crítica será da forma }.:{ 21 cc xxouxxxRC ><ℜ∈= Observação: Não faltem as aulas, ok. A Função Poder As características probabilísticas de um teste podem ser descritas através de uma função que associa a cada valor de µ a probabilidade )(µpi de rejeitar H0. A função )(µpi é chamada função de poder (ou potência) do teste. Assim, denotando por RC a região crítica, a função de poder é definida como, )|()( µµpi RCXP ∈= , para todo µ definido no espaço paramétrico. A função de poder é a ferramenta utilizada para verificar a adequação de um teste ou para comparar dois ou mais testes. É claro que uma função de poder ideal seria tal que )(µpi = 0 para µ satisfazendo H0 e )(µpi = 1 para µ satisfazendo HA. Em um problema prático, no entanto, raramente existirá um teste com estas características. 18 Exemplo (Prof. Paulo, UFPR): Sejam X1, X2, ..., Xn uma amostra aleatória da distribuição ),( 2σµN com 252 =σ e suponha que queremos testar 17:0 ≤µH . Suponha que a regra de decisão consiste em rejeitar H0 se somente se n X σ+> 17 . Neste caso, para um dado valor de µ que torne a hipótese nula falsa, a função poder é dada por −+ >= +>== n nZP n XPHrejeitarP σ µσ µσµµpi 17 |17)|()( 0 Em que )1,0(~ NZ . Para n=5, 10, 20 e 50, calculando esta probabilidade para vários valores de µ podemos construir o gráfico da função poder representado na figura 01. Figura 01: Função Poder para tamanhos de amostras iguais a 5, 10, 20 e 50. O código R, do Prof. Paulo (UFPR), que faz este gráfico é apresentado abaixo: > poder.f = function(n, t.min, t.max, add = FALSE, ...){ + theta = seq(t.min, t.max, l=100) + q = (17 + (5/sqrt(n)) - theta)/(5/sqrt(n)) + poder = 1 - pnorm(q) + if(add) + lines(theta, poder, ...) + else + plot(theta, poder, ty="l", xlab=expression(mu), ylab=expression(pi(mu)), ...) + } > poder.f(5, 14, 24, col = "black",lty=1, lwd=1) > poder.f(10, 14, 24, add = T, col = "black",lty = 2, lwd=1) > poder.f(20, 14, 24, add = T, col = "black", lty=1, lwd=3) > poder.f(50, 14, 24, add = T, col = "black", lty=2, lwd=3) > legend(20, 0.3, c("n = 5","n = 10","n = 20","n = 50"), lty=c(1,2,1,2), +col=c("black","black","black","black"), lwd=c(1,1,3,3), bty="n") Observação: O material em que será discutido a Inferência Estatística para duas populações ficará disponível na copiadora do ICEB. 19 BIBLIOGRAFIA 1 – MARTINS, Gilberto de A. (2006). Estatística Geral e Aplicada. 3ed. São Paulo: Atlas. 2 – FARIAS, A.A., SOARES, J.F. e CÉSAR, C.C. (2003). Introdução à Estatística. 2ed. Belo Horizonte: Guanabara. 3 – BUSSAB, W. e MORETTIN, P. (2002). Estatística Básica. Editora Saraiva. 4 – MAGALHÃES, M.M. e PEDROSO DE LIMA, A.C. (2004). Noções de Probabilidade e Estatística. São Paulo: Editora da Universidade de São Paulo (EDUSP). 5 – SPIEGEL, MURRAY R. (1993). Estatística. 3ed. São Paulo: Pearson Makron Books. 6 – Relatórios Técnicos de Ensino. Departamento de Estatística, UFMG. 20 Intervalos de confiança de 95% para uma média Intervalos de confiança para uma proporção
Compartilhar