Prévia do material em texto
Renato Nogueirol Lobo Probabilidade e Estatística Sumário 03 CAPÍTULO 4 – Como Realizar Testes de Hipótese? .............................................................05 Introdução ....................................................................................................................05 4.1 Tipos de hipótese e tipos de erros ..............................................................................05 4.1.1 Hipótese estatística ..........................................................................................05 4.1.2 Teste de hipóteses ...........................................................................................06 4.1.3 Nível de Significância ......................................................................................07 4.2 Nível de significação e poder de um teste ...................................................................10 4.2.1 Analise de potência e nível de significância ........................................................10 4.2.2 P-valor ...........................................................................................................12 4.3 Procedimentos para testar hipóteses sobre média e proporção ......................................13 4.3.1 Teste de hipótese para uma proporção ..............................................................13 4.3.2 ANOVA e teste t para amostras independentes ...................................................15 4.4 Tabelas de contingência e teste de Qui-quadrado para independência ...........................16 4.4.1 Teste Qui-quadrado de independência ...............................................................16 4.4.2 Condição para o teste Qui-quadrado ................................................................17 4.4.3 Tabela 2x2: teste do qui-quadrado análogo ao Z-test de duas proposições independentes ...........................................................................18 4.4.4 Determinação e interpretação do Risco Relativo ..................................................19 4.4.5 Coeficiente de correlação da amostra ...............................................................19 Síntese ..........................................................................................................................20 Referências Bibliográficas ................................................................................................21 05 Capítulo 4 Introdução Você já formulou alguma hipótese hoje? Em nosso cotidiano, levantamos hipóteses constante- mente para explicar fenômenos, mesmo sem nos darmos conta. Um exemplo disso é a análise diária da previsão do tempo, na qual, baseando-se em fatos passados e projeções calculadas, os metereologistas criam hipóteses sobre o clima. Mas o que seria uma hipótese estatística? Como ela pode ser testada? Saiba, desde já, que uma hipótese estatística é aquela que pode ser testada com base na observação de um processo mo- delado por meio de um conjunto de variáveis aleatórias. Um teste de hipótese estatística é um método de inferência. Neste capítulo, abordaremos os tipos de hipóteses estatísticas e de erros, bem como o nível de significância e o poder de um teste. Você aprenderá os procedimentos para testar hipóteses com base na média e na proporção, além de conhecer as tabelas de contingência e o teste de Qui- -quadrado. Vamos lá? 4.1 Tipos de hipótese e tipos de erros Vamos começar falando da análise de regressão! Segundo Fabiana da Silva Lopes (2006), análise de regressão é um processo estatístico para estimar as relações entre as variáveis que estão sendo estudadas. Este processo inclui muitas técnicas para modelagem e análise das diversas variáveis, quando o foco é a relação entre uma variável dependente e uma ou mais variáveis independentes. Mais especificamente, a análise de regressão ajuda a entender como o valor típico da variável dependente muda quando uma das variáveis independentes é modificada e as outras são manti- das fixas. Aqui, o alvo a ser alcançado é estimar as variáveis independentes utilizando uma dis- tribuição de probabilidade. A linha de regressão é atraída para melhor se aproximar da relação entre as duas variáveis, ao passo que as técnicas para estimá-la podem prever uma relação que existiu no passado entre essas duas variáveis e que continuará a existir. 4.1.1 Hipótese estatística Saiba que a hipótese estatística é uma suposição sobre um parâmetro da população, que pode ser ou não verdadeira. Testes de hipóteses, portanto, se referem aos procedimentos formais que nos levam a aceitar ou rejeitar as hipóteses lançadas. A melhor maneira de determinar se uma hipótese estatística é verdadeira seria examinar toda a população, porém, na maioria das vezes, isto é impraticável. Examinamos, portanto, uma amostra aleatória dessa população, caso seus dados não sejam consistentes com a hipótese de estatística, a hipótese é rejeitada. Como Realizar Testes de Hipótese? 06 Laureate- International Universities Probabilidade e Estatística Segundo Lopes (2006) um teste de hipótese é um teste estatístico utilizado para determinar se existe evidência suficiente numa amostra de dados para inferir que uma determinada condição é verdadeira para a totalidade da população. Um teste de hipótese analisa duas hipóteses opostas sobre a população: a hipótese nula e hipótese alternativa. A hipótese nula é a declaração de que não existe nenhuma diferença entre o valor esperado e o valor real. A hipótese alternativa é a declaração de que encontramos, na prática, um valor diferente do que era esperado. Um equívoco comum é que os testes de hipóteses são projetados para selecionar a mais provável de duas hipóteses. Todo teste permanecerá com a hipótese nula até que haja provas suficientes para apoiar a hipótese alternativa como verdadeira. Por exemplo, imagine que precisamos de- terminar se uma moeda é justa e equilibrada. Segundo a hipótese nula, é provável que metade dos lançamentos resulte em cara e a outra metade em coroa. Já na hipótese alternativa, pode ser que o número de caras e coroas seja muito diferente. Simbolicamente, podemos expressar essas hipóteses como: H0: P = 0,5 Ha: P ≠ 0,5 Imagine agora que você lançou a moeda 50 vezes, obtendo um resultado de 40 caras e 10 co- roas. Tendo em conta este resultado, estaríamos inclinados a rejeitar a hipótese nula e concluir, com base nas provas, que a moeda provavelmente não era justa e equilibrada. A teoria das hi- póteses estatísticas diz que um teste de hipóteses leva a um desses dois resultados: você aceita ou rejeita a hipótese nula. Mas por que essa distinção entre aceitação e não aceitação? A aceitação implica que a hipótese nula é verdadeira, ao passo que a não aceitação implica que os dados são suficientemente convincentes para aceitarmos a hipótese alternativa sobre a hipótese nula. Que tal um guia para calcular a hipótese estatística? Acesse: <http://www.pucrs.br/fa- mat/sergio/Estatistica_Basica_T126/Teste_de_hipotese.pdf>. Neste texto da Pontifícia Universidade Católica do Rio Grande do Sul, você verá o passo-a-passo para a técnica de inferência estatística, isto é, a partir de um teste de hipóteses realizado com os dados amostrais pode-se inferir sobre a população. VOCÊ QUER LER? 4.1.2 Teste de hipóteses Chamamos de hipótese estatística, portanto, uma suposição sobre certas características de uma população, especificando valores para cada parâmetro. A prática estatística segue um processo formal para determinar se devemos rejeitar a hipótese nula, com base nos dados de amostra. Como você já deve saber, este processo chama-se teste de hipóteses, o qual consiste em quatro etapas. Acompanhe! • Estado das hipóteses: envolve a indicação das hipóteses nula e alternativa. As hipóteses são indicadas, de tal forma quesejam mutuamente exclusivas, isto é, se uma for verdadeira, a outra obrigatoriamente será falsa. • Plano de análise: descreve como utilizar dados para avaliar a hipótese nula. A avaliação muitas vezes se concentra em torno de uma única estatística de teste. • Análise dos dados da amostra: cálculo do valor da estatística do teste utilizando um dos métodos existentes, descrito previamente no plano de análise. 07 • Interpretação dos resultados: aplicar a regra de decisão descrita no plano de análise. Se o valor da estatística do teste é pouco provável, com base na hipótese de nulidade, rejeita-se a hipótese nula. Atente-se aos dois tipos de erros que podem resultar de um teste de hipótese: • Erro do tipo I: ocorre quando o pesquisador rejeita a hipótese nula e ela é verdadeira. A probabilidade de um erro tipo I é chamada de nível de significância. Esta probabilidade é também chamada alfa e frequentemente designada por α. • Erro do Tipo II: ocorre quando o pesquisador não rejeita uma hipótese nula e ela é falsa. A probabilidade de um erro Tipo II é chamada Beta, e muitas vezes denotada por β. A probabilidade de não cometer um erro tipo II é conhecida como poder do teste. O plano de análise inclui regras de decisão para rejeitar a hipótese nula. Na prática, os estatís- ticos descrevem estas regras de decisão de duas maneiras: com referência a um valor de p, ou com referência a uma região de aceitação. • P-valor: a força da evidência em apoio de uma hipótese nula é medida pelo P-valor. Imagine que a estatística de teste é igual a S, enquanto o P-valor é a probabilidade de se observar uma estatística de teste tão extrema como S, assumindo que a hipótese nula é verdadeira. Se o P-valor é menor que o nível de significância, rejeitamos a hipótese nula. • Região de aceitação: trata-se de uma gama de valores. Se o teste de estatística cai dentro da região de aceitação, a hipótese nula não é rejeitada. A região de aceitação será definida de modo que a possibilidade de se ter um erro do tipo I é igual ao nível de significância. Que tal saber um pouco mais sobre os modelos probabilísticos? Confira o texto de Maria Eugénia Graça Martins (2005) do Departamento de Estatística e Investigação Operacional da FCUL - Sociedade Portuguesa de Estatística. No capítulo 8, você terá acesso aos principais modelos de probabilidade. Disponível em: <http://arquivoesco- lar.org/bitstream/arquivo-e/97/1/IPE%202005.pdf>. VOCÊ QUER LER? VOCÊ QUER VER? O vídeo Margem de erro 1 da University Khan discute e exemplifica questões como média amostral e variância amostral, tomando como a base uma pesquisa eleitoral hi- potética. Disponível em: <https://www.youtube.com/watch?v=lV2iGwVp9VY&hd=1>. 4.1.3 Nível de Significância Entenda que o conjunto de valores fora da região de aceitação é chamado de região de rejeição. Se o teste de estatística cai na região de rejeição, a hipótese nula é rejeitada. Em tais casos, dizemos que a hipótese foi rejeitada ao nível de significância α. O nível de significância, também indicado como alfa ou α, é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira. Por exemplo, um nível de significância de 0,05 indica um risco de 5% de concluir que existe uma diferença, quando não há nenhuma diferença real. O nível de significância determina o quão distante do valor hipótese nula vamos marcar em nosso gráfico. Para representar graficamente 08 Laureate- International Universities Probabilidade e Estatística um nível de significância de 0,05, precisamos sombrear os últimos 5% da distribuição mostrando a distancia da hipótese nula. Segundo Lopes (2006), um teste de hipótese estatística no qual a região de rejeição é apenas num dos lados da distribuição de amostragem é chamado um teste unilateral. Por exemplo, imagine que a hipótese nula indica que a média é menor do que ou igual a 10. A hipótese alter- nativa seria que a média é superior a 10. A região de rejeição será constituída por uma série de números localizados no lado direito da amostragem distribuição; isto é, um conjunto de números superiores a 10. A probabilidade de não cometer um erro tipo II é chamado o poder de um teste de hipóteses. Para calcular o poder do teste é oferecida uma visão alternativa sobre o valor verdadeiro do pa- râmetro populacional, assumindo que a hipótese nula é falsa. O tamanho do efeito é a diferença entre o valor real e o valor especificado na hipótese nula. Tamanho do efeito = valor verdadeiro - a hipótese de valor Imagine que a hipótese nula afirma que uma média da população é igual a 100. Um pesquisador pode perguntar: “qual é a probabilidade de rejeitar a hipótese nula se a verdadeira média da po- pulação é igual a 90?”. Neste exemplo, o tamanho do efeito seria de 90 - 100, que é igual a -10. A potência de um teste de hipótese é afetada por três fatores. Saiba quais são eles adiante! 1. O tamanho da amostra (n): quanto maior o tamanho da amostra, maior a potência do teste. 2. O nível de significância (α): quanto maior for o nível de significância, maior a potência do teste. Se você aumentar o nível de significância, você reduz a região de aceitação. Como resultado, você ficará mais propenso a rejeitar a hipótese nula, isto é, ficará menos inclinado a aceitar a hipótese nula quando ela for falsa, evitando assim o erro tipo II. 3. O valor verdadeiro do parâmetro que está sendo testado: quanto maior for a diferença entre o valor verdadeiro de um parâmetro e o valor especificado na hipótese nula, maior a potência do teste. Isto é, quanto maior for o tamanho do efeito, maior será a energia do teste. Você já ouviu falar de William Gosset? Gosset foi um influente matemático, químico e estatístico britânico que ajudou a moldar a Estatística moderna com uma grande con- tribuição: a distribuição t-student. Gosset é conhecido como Student, pseudônimo que ele utilizava com frequência. Confira mais sobre Gosset em: <http://www.alea.pt/html/ nomesedatas/swf/biografias.asp?art=9>. VOCÊ O CONHECE? Você sabe o que é uma distribuição t-student? A distribuição t elaborada por Gosset é frequentemente utilizada na estatística, com aplicações que vão da modelagem estatís- tica aos testes de hipóteses. A função densidade da distribuição t tem a mesma forma em sino da distribuição normal, mas reflete a maior variabilidade (com curvas mais alargadas) esperada em amostras pequenas. VOCÊ SABIA? 09 Saiba que, muitas vezes, em problemas práticos, o objetivo principal do pesquisador não é a esti- mação em si, mas fazer afirmações a respeito do(s) parâmetro(s). Um operador de uma máquina de empacotar cereais, monitora o peso das caixas pesando um determinado número de caixas periodicamente. A norma diz que a máquina deve continuar operando a menos que a amostra indique que a máquina não esteja funcionando normalmente. Neste caso, a máquina deve ser desligada e ajustada. A condição requerida para a máquina continuar funcionando é m= 453 g. O operador, neste caso, não está interessado em estimar m, mas sim determinar se há evidência suficiente na amostra para concluir que m¹453 g. Entenda desta forma: se o pesquisador deseja testar uma situação pré-estabelecida ou uma afirma- ção alheia, então esse conhecimento (ou afirmação) deverá ser escolhido como a hipótese nula. Se o pesquisador deseja obter evidência para dar suporte a uma argumentação ou para apoiar uma afirmação, então, essa afirmação deve ser formulada de modo que se torne a hipótese alternativa. Todos os testes de hipóteses são realizados da mesma maneira: afirma-se uma hipóte- se a ser testada; formula-se um plano de análise; os dados de amostra são analisados de acordo com o plano; e a hipótese nula é aceita ou rejeitada com base nos resultados. Portanto, grave bem: cada teste de hipótese requer do analista a afirmação de uma hipótesenula e de uma hipótese alternativa, mutuamente exclusivas. Devemos utilizar dados de exemplo para aceitar ou rejeitar a hipótese nula, especificando os elementos elencados abaixo. • Nível de significância: em testes de hipóteses, o nível de significância é o critério usado para rejeitar a hipótese nula. É utilizado da seguinte maneira: em primeiro lugar, a diferença entre os resultados da experiência e a hipótese nula é determinada. Essa diferença é, então, comparada com o nível de significância: caso seja inferior ou igual a ele, a hipótese nula é rejeitada e o resultado é considerado estatisticamente significativo. Tradicionalmente, os experimentadores têm usado tanto o nível de 0,05 (às vezes chamado de nível de 5%) quanto o nível de 0,01 (nível de 1%), porém a escolha de níveis é, em grande, parte subjetiva. Quanto mais baixo o nível de significância, mais os dados devem afastar a hipótese nula de ser significativa. Portanto, o nível de 0,01 é mais conservador do que o nível de 0,05. A letra grega alfa (α) é por vezes usada para indicar o nível de significância com valor entre 0 e 1 (ou 0 ou 100%). • O método de teste: tipicamente, o método de ensaio envolve um teste estatístico e uma distribuição de amostragem calculada a partir dos dados da amostra. A estatística do teste pode ser uma pontuação média, uma proporção, diferença entre as médias, diferença entre proporções, z-score, t-score, Qui-quadrado, entre outros. Dada uma estatística de teste e sua distribuição de amostragem, um pesquisador pode avaliar as probabilidades associadas à situação. Se a probabilidade estatística do teste é menor que o nível de significância, a hipótese nula é rejeitada. • Análise dos dados de amostra: utiliza-se dados de exemplo para executar cálculos preconizados no plano de análise. Grave bem: quando a hipótese nula envolver uma média ou proporção, use uma das seguintes equações para calcular a estatística de teste: Estatística do teste = (Estatística - Parâmetro) / (desvio padrão de estatística) Estatística do teste = (Estatística - Parâmetro) / (erro padrão de estatística) Em que o parâmetro é o valor que aparece na hipótese nula, ao passo que estatística é a esti- mativa do ponto do parâmetro. Como parte da análise, pode ser necessário calcular o desvio padrão ou erro padrão da estatística. 10 Laureate- International Universities Probabilidade e Estatística 4.2 Nível de significação e poder de um teste A potência ou sensibilidade de um teste de hipótese binário é a probabilidade de que o teste rejeite corretamente a hipótese nula (H0) quando a hipótese alternativa (Ha) for verdadeira (LO- PES, 2006). Ele pode ser equivalentemente pensado como a probabilidade de aceitar a hipótese alternativa quando esta é verdadeira, o que ilustra a capacidade de um teste para detectar um efeito, se o efeito realmente existir. Saiba que a potência de um teste, por vezes, refere-se à probabilidade de rejeitar o nulo quan- do não é correto, embora isto não seja a definição formal indicada acima. Com o aumento do poder, há uma diminuição da possibilidade de erro do tipo II ou falso negativo, que também são referidos como a taxa de falsos negativos (β), uma vez que a potência é igual a 1-β. 4.2.1 Analise de potência e nível de significância Segundo Silva (1999), a análise de potência pode ser usada para calcular o tamanho mínimo de amostra necessária, de modo que seja razoavelmente provável detectarmos um efeito de um dado tamanho. Por exemplo: quantas vezes eu preciso jogar uma moeda para concluir que é manipulada? O nível de significância é um termo desafiador para muitos pesquisadores, que buscam compreendê-lo completamente. Nas próximas páginas, discutiremos o conceito de signi- ficância estatística e do significado dos números produzidos pelo sistema Survey. Entenda a significância estatística como um resultado que, em geral, não ocorre aleatoriamente, sendo atribuível a uma causa específica. A significância estatística pode ser forte ou fraca, e faz- -se presente em muitos campos científicos, incluindo a engenharia, medicina, sociologia, psico- logia e biologia. A significância estatística nem sempre possui um significado prático. Ela pode ser mal interpretada quando os pesquisadores não usam uma linguagem cuidadosa para relatar os resultados. Entenda que um resultado de pesquisa pode ser verdade sem ser importante. Em outras palavras, quando os estatísticos dizem que um resultado é altamente significativo eles querem dizer que muito provavelmente eleirá acontecer. Um exemplo é o quadro a seguir. Queremos saber se as unidades de uma indústria que produz diferentes tipos de veículos permitem respostas distintas à mesma pergunta. Além disso, quere- mos saber se essas diferenças ocorrem devido ao acaso ou se refletem diferenças reais em toda a população representada pela amostra. Para responder a esta pergunta, utiliazamos uma esta- tística chamada Qui-quadrado, mostrada na parte inferior do quadro. Os números 0,07 e 24,4 são as próprias estatísticas Qui-quadrados. A segunda linha contém valores de 0,795 e 0,001, que são os níveis de significância. PRODUÇÃO DE CONJUNTO DE BANCOS DE VEÍCULOS POR DIA LOCAL TIPO DE VEÍCULO TOTAL FÁBRICA I FÁBRICA II CARRO CAMINHÃO ÔNIBUS UTILITÁRIO QUANTIDADE 713 361 352 247 150 44 180 SIM 428 215 213 131 74 29 131 60% 60% 61% 53% 49% 66% 73% NÃO 285 285 139 139 76 15 49 40% 40% 40% 40% 51% 34% 27% CHI QUADRADO 0,07 24,4 0,795 0,001 Quadro 1 - Produção de veículos. Fonte: Elaborado pelo autor, 2015. 11 Entenda Qui-quadrado como a medida de como as expectativas de resultado podem ser com- paradas aos resultados estatísticos já existentes. Os dados utilizados no cálculo da estatística Qui-quadrado devem ser aleatórios e mutuamente exclusivos, elaborados a partir de variáveis independentes em uma amostra grande o suficiente (SILVA, 1999). Um exemplo simples de como calcular e utilizar a estatística Qui-quadrado seria: considere jogar uma moeda 100 vezes. O resultado esperado de jogar uma moeda 100 vezes é que o resultado será equilibrado entre caras e coroas (aproximadamente, 50 vezes de cada). No resultado real, pode ser que apareçam 45 caras e 55 coroas. A estatística Qui-quadrado irá mostrar quaisquer discrepâncias entre os resultados esperados e os resultados reais. Uma fórmula simples de calcular o Qui-quadrado: Qui-quadrado = (Valor Observado- Valor Esperado)² / (Valor Esperado). Os níveis de significância mostram como é provável que um padrão ocorra devido ao acaso. O nível mais comum, para garantir uma boa credibilidade é 0,95. Isto significa que o valor encon- trado tem uma possibilidade de 95% de ser verdadeiro, ou uma chance de 5% de não ser verda- deiro. No Quadro 1, não há diferença de produção das duas fábricas porque a probabilidade é 0,795, ou seja, há apenas uma chance de 20,5% de que a diferença seja verdadeira. Em contrapartida, o elevado nível de significância para o modelo do veículo (001 ou 99,9%) indica que é provável que exista uma verdadeira diferença na produção dos veículos por modelo. O sistema de levantamento utiliza níveis de significância com diversas estatísticas. Se um teste Qui-quadrado mostra probabilidade de 0,04, isso significa que há uma chance de 96% (1-0,04 = 0,96) de que as respostas dadas pelos diferentes grupos sejam diferentes. O nível de 95% vem de trabalhos acadêmicos, em que uma teoria estudada geralmente tem que ter pelo menos 95% de chance de ser verdadeira para ser considerada. Na indústria, se algo tem 90% de chance de ser verdadeiro (probabilidade = 0,1), não pode ser considerado perfeito, mas entende-se que provavelmente é melhor agir como se fosse verdade. Lembre-se de que 95% de chance de algo ser verdadeiro significa que há uma chance de 5% de que seja falso. Isto significa que, decada 100 testes que mostram resultados significativos ao nível de 95%, as chances são de 5 serem falsos. Quanto mais testes você faz, mais o problema de falso positivo aparece. Limitar o número de testes para um pequeno grupo escolhido é uma maneira de reduzir o problema. Se isso não for possível, existem outras maneiras de agir. Uma das melhores abordagens do ponto de vista es- tatístico é repetir o estudo e ver se você obtem os mesmos resultados. Se algo é estatisticamente significativo em dois estudos separados, é provavel que seja verdade. Na vida real geralmente não é prático repetir uma pesquisa, mas você pode usar o método das metades, técnica que consiste em dividir sua amostra aleatoriamente em duas metades e fazer os testes em cada uma. Se alguma coisa é significativa em ambas as partes, é provavel que seja verdade, mas o principal problema com esta técnica é que quando você reduz pela metade o tamanho da amostra, a diferença tem de ser maior para ser estatisticamente significativa. A maioria dos testes de significância supõe que você tem uma amostra verdadeiramente aleató- ria. Se a sua amostra não é verdadeiramente aleatória, um teste de significância pode superesti- mar a precisão dos resultados, porque ele só considera erro aleatório. Para ficarem solidificadas essas definições que acabamos de ver, lembre-se de que, em termos estatísticos, “significativa” não significa necessáriamente “importante”. Excesso de testes de sig- nificância podem resultar em relações falsas e, antes de qualquer teste de significância, devemos ter certeza de que nossas observações chegaram a eficiência necessária. 12 Laureate- International Universities Probabilidade e Estatística 4.2.2 P-valor Conforme mencionado anteriormente, o P-valor é uma função dos resultados das amostras ob- servadas utilizada para testar uma hipótese estatística. Mais especificamente, o valor de p é definido como a probabilidade de se obter um resultado igual ou mais próximo do que o que foi realmente observado, assumindo que a hipótese sob consideração é verdadeira. Se o P-valor for igual ou menor do que o nível de significância (α), temos que os dados observados são inconsistentes com a suposição de que a hipótese nula é verdadeira, portanto, deve ser rejei- tada. Isto, no entanto, não significa automaticamente que a hipótese alternativa seja verdadeira. Testes de hipóteses estatísticas que utilizam o P-valor são comumente aplicados em muitos cam- pos da ciência, apesar de sofrerem críticas quando mal conduzidos. No caso da Engenharia, ele constitui uma ferramenta de uso constante, pois quando você executa um teste de hipóteses, o P-valor ajuda a determinar o significado de seus resultados. Todos os testes de hipóteses, em última análise, usam um P-valor para avaliar a força da evi- dência que dá suporte à afirmação. O valor de p é um número que varia entre 0 e 1, sendo interpretado da seguinte forma: • Um valor de p pequeno (tipicamente ≤ 0,05) indica uma forte evidência contra a hipótese nula, então o mais correto seria rejeitá-la. • Um valor grande de p (> 0,05) indica uma fraca evidência contra a hipótese nula, caso no qual você deve aceitá-la. • Com valores do P-valor muito próximos do ponto de corte (0,05), você pode rejeitar ou aceitar a hipótese nula. Imagine que um fabricante de peças moldadas informou que o prazo de produção de uma peça é, em média, 30 segundos ou menos. Você, no entanto, acha que é mais do que isso. Você pode realizar um teste de hipótese, acreditando que a hipótese nula (H0) de que a peça é produzida em 30 segundos está incorreta. Sua hipótese alternativa (Ha) é que o tempo médio seja maior do que 30 segundos. Você observa algumas amostragens aleatórias de prazos de produção e verifica os dados através do teste de hipótese. Seu P-valor passa a ser de 0,001, o que é muito menos do que 0,05. Em termos reais, existe uma probabilidade de 0,001 de você erroneamente rejeitar a alegação de que o tempo de produção é 30 segundos. Assim, rejeitamos a hipótese nula quando esta proba- bilidade é menor que 0,05. Aqui, você conclui que o prazo de produção é, de fato, mais do que 30 segundos em média. Notas comuns sobre erro de tipo I: • é a rejeição incorreta da hipótese nula; • probabilidade máxima é definida com antecedência como alfa; • não é afetado pelo tamanho da amostra, uma vez que é definido com antecedência; • aumenta com o número de testes ou pontos finais. Notas comuns sobre erro Tipo II: • é a aceitação incorreta da hipótese nula; • probabilidade é beta; • beta depende do tamanho da amostra e alfa; • não pode ser calculada, exceto como uma função do efeito real da população; • quando beta fica menor o tamanho da amostra aumenta; 13 • quando beta fica menor o número de testes ou finais pontos são aumentos. 4.3 Procedimentos para testar hipóteses sobre média e proporção A respeito da hipótese estatística, caso ela especifique valores para cada parâmetro de uma população, será chamada de hipótese simples, se não, de hipótese composta. Se ela tenta anular a diferença entre duas médias amostrais, sugerindo que a diferença é de nenhuma signi- ficância estatística, então é chamada de hipótese de nulidade. 4.3.1 Teste de hipótese para uma proporção As condições necessárias para a condução de um teste de hipótese de uma proporção são: • o método é amostragem aleatória simples; • cada amostragem pode ter apenas dois resultados possíveis. Chamamos um desses resultados de sucesso e o outro de fracasso; • a amostra inclui, pelo menos, 10 êxitos e 10 falhas; • o tamanho da população é pelo menos 20 vezes maior que o tamanho da amostra. O plano de análise descreve como utilizar dados de exemplo para aceitar ou rejeitar a hipótese nula. Ele deve especificar os seguintes elementos: • Nível de significância: muitas vezes, os pesquisadores escolhem níveis de significância igual a 0,01, 0,05, ou 0,10; mas qualquer valor entre 0 e 1 pode ser utilizado. • Método de teste: use o teste z de uma amostragem para determinar se a proporção da população hipótese difere significativamente da proporção da amostra observada. Usando dados de exemplo, podemos encontrar a estatística de teste e seu P-valor associado. Calcula-se o desvio padrão (σ) de distribuição de amostras: σ = √[P * (1 - P) / n] Em que: P é o valor da proporção população hipotética na hipótese nula, n é o tamanho da amostra. A estatística de ensaio é um z-score (z) definida pela seguinte equação: z = (p - P) / σ Em que: P é o valor da proporção população hipotética na hipótese nula, p é a proporção da amostra, σ é o desvio padrão da distribuição de amostragem. O P-valor é a probabilidade de observar uma estatística por amostragem tão extrema como a estatística de teste. Uma vez que a estatística de teste é uma z-score, use a distribuição normal para avaliar a probabilidade associada com o z-score (SPIEGEL, 1972). Se os resultados da 14 Laureate- International Universities Probabilidade e Estatística amostra forem improváveis, o pesquisador rejeitará a hipótese nula. Tipicamente, isso envolve a comparação do valor de P com o nível de significância. Confira o exemplo a seguir! A Eletropaulo, concessionária de energia elétrica, afirma que 80% dos seus 1.000.000 de clien- tes estão muito satisfeitos com o serviço que recebem. Para testar essa afirmação, o jornal local entrevistou 100 clientes, utilizando amostragem aleatória simples. Entre os clientes da amostra, 73 por cento dizem que estão muito satisfeitos. Com base nestes resultados, podemos rejeitar a hipótese da Eletropaulo de que 80% dos clientes estão muito satisfeitos? Use aqui um nível de significância de 0,05. A solução para este problema leva quatro etapas: afirmar as hipóteses, formular um plano de análise, analisardados de exemplo e interpretar os resultados. • O primeiro passo é declarar uma hipótese nula e uma hipótese alternativa. Hipótese nula: P = 0,80 Hipótese alternativa: P ≠ 0,80 Note-se que essas hipóteses constituem um teste de duas caudas. A hipótese nula será rejeitada se a proporção da amostra for muito grande ou muito pequena. • Para esta análise, o nível de significância é de 0,05. O método de teste é um teste z de uma amostragem. • Usando dados de exemplo, calcula-se o desvio padrão (σ) e a estatística de teste z-score (z). σ = √ [P * (1 - P) / N] = √ [(0,8 * 0,2) / 100] = √ (0,0016) = 0,04 z = (p - P) / σ = (0,73 - 0,80) /0.04 = -1.75 Em que: P é o valor da proporção população hipotética na hipótese nula, p é a proporção da amostra, N é o tamanho da amostra. Como temos um teste bilateral, o P-valor tem a probabilidade de que o z-score seja inferior a -1.75 ou superior a 1,75. Nós usamos uma tabela de distribuição normal para encontrar P (z <-1,75) = 0,04, e P (z> 1,75) = 0,04. Assim, o valor de P = 0,04 + 0,04 = 0,08. • Uma vez que o P-valor (0,08) é maior do que o nível de significância (0,05), não é possível rejeitar a hipótese nula. Essa abordagem é adequada porque o método utilizado é a amostragem aleatória simples. A amostra incluiu pelo menos 10 êxitos e 10 falhas, e o tamanho da população foi, pelo menos, 10 vezes o tamanho da amostra. CASO Para assegurar que um grande número de lâmpadas tenha uma vida média de, pelo menos, 500 horas, um programa de teste é implementado. A hipótese nula, neste caso, é que o tempo de vida médio seja maior do que ou igual a 500 horas. A hipótese alternativa diz que a vida útil média é menor de 500 horas. O teste estatístico é comparado às hipóteses nula e alternativa: caso seja inferior ao de 500 horas, a hipótese nula é rejeitada. Assim, um teste estatístico requer um par de hipóteses, ou seja: H0: a hipótese nula, nesse caso maior ou igual a 500 horas Ha: uma hipótese alternativa, nesse caso menor que 500 horas. 15 4.3.2 ANOVA e teste t para amostras independentes Segundo Spiegel (1972), os testes t e análise de variância (ANOVA) são amplamente utilizados como métodos estatísticos para comparar médias de grupos. Ambos constituem técnicas estatísticas paramétricas que envolvem uma série de suposições, incluindo: população normalmente distribuída; variável dependente medida no intervalo contínuo ou nível de razão; e amostragem aleatória de dados. Entenda que as observações devem ser independentes umas das outras, mas devem possuir homogeneidade da variância, pois todas as populações devem ter o mesmo desvio padrão. Ambos os testes t e análise de variância (ANOVA) utilizam-se da hipótese nula e da hipótese alternativa. O pesquisador pergunta: “será que a variação observada representa uma diferença real entre as duas populações, ou apenas uma diferença momentânea das amostras?”. A hipóte- se nula afirma que não existe nenhuma diferença entre os grupos da população, e que qualquer variação observada ocorre por acaso. A hipótese alternativa afirma que um efeito observado é genuíno e constante. Assumindo que a hipótese nula é verdadeira, qual é a probabilidade de se obter o valor observado para a estatística de teste? A significância estatística (5%) é a mais usada e indica que é pouco provável que a amostra tenha ocorrido por acaso. Portanto, a hipótese nula seria rejeitada, e a hipótese alternativa suportada. O t-teste é usado para testar diferenças de médias entre dois grupos. É empregado quando a variável dependente é de intervalo contínuo e a variável independente é uma variável categórica de dois níveis. Este teste pode ser utilizado mesmo quando o tamanho das amostras for muito pequeno, desde que as variáveis dentro de cada grupo estejam normalmente distribuídas e a variação de pontuação dentro dos dois grupos seja igual, não havendo diferenças fiáveis. Com o teste t, o teste estatístico usado para gerar valores de p tem distribuição t de Student com n-1 graus de liberdade. O procedimento do teste t estatístico é usado para determinar um valor de p que indica a probabilidade de os resultados serem obtidos por acaso. Se houver 5% de chance de conseguir as diferenças observadas por acaso, a hipótese nula é rejeitada porque foi encontrada uma diferença estatisticamente significativa entre os dois grupos (SPIEGEL, 1972). O t-teste pode ser utilizado com dois grupos independentes ou quando as amostras são depen- dentes. Amostras independentes dizem respeito a dois grupos escolhidos por sorteio, ao pasos que as amostras dependentes são dois grupos combinados em alguma variável, como sexo ou idade, ou do mesmo grupo que está sendo testado por duas vezes. O teste t simplesmente testa duas populações independentes que tenham diferentes valores médios em alguma medida. Um exemplo de um teste t de amostras independentes é a avaliação das diferenças de pontua- ções entre um grupo de peças usinadas que receberam um tratamento térmico novo e um grupo controle que recebeu o tratamento térmico tradicional. Um exemplo de um teste t de amostras pareadas está nas diferenças de valores de dureza na mesma amostra, no pré-teste e pós-teste, como a medição pré-tratamento e pós-tratamento dos níveis de dureza. Quando um pesquisador relata os resultados de um teste t independente ou de amostras pare- adas, ele precisa incluir as seguintes informações: a verificação dos pressupostos paramétricos; os escores das variáveis dependentes; a variável independente. Além disso, devem constar os se- guines dados estatísticos: significado, t-scores, probabilidade, médias, desvios padrão do grupo, diferenças de médias, intervalos de confiança e tamanho do efeito. O artigo da Revista Eletrônica Nutritime sobre Testes Estatísticos para Comparação de Médias de Andréia Fróes Galuci Oliveira discute os testes: teste t, teste F, teste t de Student, teste de Tukey, teste de Scheffé, teste de Duncan, teste de Dunnett e teste de Bonferroni, além de realizar uma comparação entre eles. Disponível em: <http://www. nutritime.com.br/arquivos_internos/artigos/076V5N6P777_788_NOV2008_.pdf>. VOCÊ QUER LER? 16 Laureate- International Universities Probabilidade e Estatística 4.4 Tabelas de contingência e teste de Qui-quadrado para independência Saiba que os testes de hipóteses podem ser executados em tabelas de contingência, a fim de ve- rificar se os efeitos estão presentes ou não. Efeitos de uma tabela de contingência são definidos como as relações entre variáveis de linha e coluna, isto é, os níveis da variável de linha distribu- ídos sobre os níveis de variáveis de coluna. Esse teste de hipótese significa que a interpretação das frequências de células se justifica, ou ainda que quaisquer diferenças nas frequências de células poderiam ser explicadas por acaso. Os testes de hipóteses sobre tabelas de contingência são baseados no Qui-quadrado. 4.4.1 Teste Qui-quadrado de independência Como testar a independência de duas variáveis categóricas? Isso pode ser feito por meio do teste do Qui-quadrado de independência. Como em todos os testes estatísticos anteriores, precisamos definir as hipóteses nula e alternativa. Aqui, estamos interessados em descobrir se duas variáveis categóricas estão relacionadas ou associadas, ou seja, dependentes. Até que tenhamos evidên- cias que sugiram o contrário, portanto, devemos assumir que elas não são. Essa é a motivação por trás da hipótese para o teste do qui-quadrado de independência: H0: Na população, as duas variáveis categóricas são independentes. Ha: Na população, as duas variáveis categóricas são dependentes. Existem várias maneiras de titular essas hipóteses. Ao invés de usar as palavras independente e dependente, poderíamos dizer que existe ou não uma relação entre as duas variáveis categóri- cas. Gravebem: a hipótese nula refere-se às duas variáveis categóricas não sendo relacionadas, enquanto a alternativa tenta mostrar que elas estão relacionadas (SPIEGEL, 1972). Uma vez que reunimos os dados, devemos posicioná-los em uma tabela de contingência de duas vias. Esta tabela representa as contagens observadas, sendo chamada de tabela de contagens observadas ou simplesmente de tabela observada. Sob a hipótese nula de que as duas variáveis são independentes, o que esperamos encontrar em nossos dados? Precisamos encontrar o que é chamado de tabela de contagens esperadas ou simplesmente a tabela esperada, pois ela nos mostrará como seria a contagem para os dados da amostra se não houvesse associação entre as variáveis. Uma vez que tivermos as contagens observadas, precisamos calcular as contagens esperadas sob a hipótese nula de que as duas variáveis categóricas são independentes. Para encontrar a contagem esperada para cada célula na tabela, multiplicamos os totais da linha e da coluna e dividimos pelo total geral. Portanto, a fórmula seria: E = total da linha × total da coluna/ total das amostras MAIOR PADRÃO MENOR TOTAL PEÇA I 138 83 64 285 PEÇA II 64 67 84 215 TOTAL 202 150 148 500 Quadro 2 – Testes em peças usinadas em um torno CNC. Fonte: Elaborado pelo autor, 2015. 17 MAIOR PADRÃO MENOR TOTAL PEÇA I 285*202/500 = 115,14 285*150/500 = 85,5 285*148/500 = 84,36 285 PEÇA II 215*202/500 = 86,86 215*150/500 = 64,50 215*148/500 = 63,64 215 TOTAL 202 150 148 500 Quadro 3 – Calculando contagens esperadas a partir de contagens observadas. Fonte: Elaborado pelo autor, 2015. Para entender melhor o que essas contagens esperadas representam, temos que lembrar que a tabela é projetada para refletir o que as contagens seriam se as duas variáveis fossem indepen- dentes. Assim, estaríamos dizendo que as contagens de amostra devem mostrar uma semelhança em pareceres das medidas das peças. Se você calcular a proporção de cada célula, dividindo a contagem esperada de uma célula pelo total da linha, você vai descobrir que a proporção de cada valor é a mesma para os dois tipos de peça. Isto é: a partir das contagens esperadas, 0,404 da peça I e 0,404 da peça II são maiores; 0,3 da peça I e 0,3 da peça II são o padrão; e 0,296 da peça I e 0,296 da peça II são menores. A questão torna-se estatística, pois as contagens observadas são diferentes das contagens es- peradas. Como podemos concluir uma relação entre as duas variáveis? Para realizar este teste calculamos uma estatística de teste Qui-quadrado, em que comparamos a contagem observada de cada célula com sua respectiva contagem esperada. Esta estatística Qui-quadrado é calcu- lado da seguinte forma: χ² = Σ (observado-esperado)² / esperado Então o cálculo da estatística de teste será: χ²=(138−115.14)²/115.14+(83−85.50)²/85.50+(64−84.36)²/84.36+(64−86.86)²/86.86 + (67−64.50)²/ 64.50+(84−63.64)²/ 63.64 = 22.152 VOCÊ QUER VER? Um vídeo explicando como comparar grupos completamente diferentes de variáveis e a execução do teste Qui-quadrado? O vídeo da aula da disciplina d Métodos Quanti- tativos em Medicina (MPT0164) da Faculdade de Medicina da USP, gravado em 2012 e publicado em 2013 explica tudo isso e encontra-se disponível em: <https://www. youtube.com/watch?v=4uFD3eFFn74&hd=1>. 4.4.2 Condição para o teste Qui-quadrado Tenha cuidado quando há pequenas contagens esperadas. Alguns estatísticos hesitam em usar o teste do Qui-quadrado, se mais de 20% das células têm frequências esperadas abaixo de 5,00, especialmente se o P-valor for pequeno, essas células dão uma grande contribuição para o valor total do Qui-quadrado. Imagine a seguinte situação: o gerente de operações de uma empresa que fabrica pneus quer determinar se existem diferenças na qualidade da produção entre os três turnos diários. Ele se- leciona aleatoriamente 496 pneus e cuidadosamente os inspeciona. Cada pneu é classificado como perfeito, satisfatório, ou defeituoso, e o turno que o produziu também é gravado. As duas variáveis categóricas de interesse são: os turnos e condição do pneu produzido. Os dados podem 18 Laureate- International Universities Probabilidade e Estatística ser resumidos pela tabela de duas vias de acompanhamento. Será que esses dados fornecem evidências suficientes ao nível de significância de 5% para inferir que há diferenças de qualidade entre os três turnos? PERFEITO SATISFATÓRIO COM DEFEITO TOTAL TURNO I 106 124 1 231 TURNO II 67 85 1 153 TURNO III 37 72 3 112 TOTAL 210 281 5 496 Quadro 4 – Comparação entre os turnos e a condição de cada pneu produzido. Fonte: Elaborado pelo autor, 2015. Às vezes, os pesquisadores classificarão os dados quantitativos em categorias, como, por exem- plo, tomar medidas de altura e categorizar como abaixo da média ou acima da média. Entenda, porém, que fazer isso pode resultar em uma perda de informação. 4.4.3 Tabela 2x2: teste do qui-quadrado análogo ao Z-test de duas proposições independentes Digamos que temos um estudo de duas variáveis categóricas, cada uma com apenas dois níveis. Um dos níveis de resposta é considerado sucesso, enquantoo outro fracasso. SUCESSO FALHA TOTAL GRUPO I A B A+B GRUPO II C D C+D Quadro 5 – Tabela das contagens observadas. Fonte: Elaborado pelo autor, 2015. SUCESSO FALHA TOTAL GRUPO I A/A+B = p1 1-p1 A+B GRUPO II C/C+D = p2 1-p2 C+D Quadro 6 – As contagens observadas aqui representam as seguintes proporções: sucesso – falha - total. Fonte: Elaborado pelo autor, 2015. Quando executamos um teste qui-quadrado de independência em uma tabela 2 x 2, a estatística do teste resultante seria igual ao quadrado da estatística Z-teste das duas proporções indepen- dentes. O benefício do teste de duas proporções é que podemos calcular um intervalo de con- fiança para essa diferença e gerar uma estimativa tão grande quanto a diferença. Você já ouviu falar de um médico dizer algo como “Se você não perder peso ou manter seu co- lesterol sob controle, terá cinco vezes mais probabilidade de sofrer um ataque cardíaco”? 19 Em primeiro lugar, este “cinco vezes mais probabilidade” representa o que é chamado de risco relativo. Um risco relativo é a razão dos riscos de dois grupos. No exemplo acima descrito, te- mos o risco de ataque cardíaco para uma pessoa em sua condição atual em comparação com o risco de ataque cardíaco, se essa pessoa estivesse nas faixas de normalidade. No entanto, para interpretar verdadeiramente a gravidade de um risco relativo, temos de saber o risco de base. Mas o que seria risco de base? Bem, o risco de base é o risco do grupo a ser comparado. Em nosso exemplo, isso seria o risco de um ataque cardíaco para o intervalo normal, ou seja, um pessoa que mantém o colesterol sob controle. Se este risco de base é alto, então um risco relativo “5” seria alarmante, mas se o risco de base é pequeno, então um risco relativo de “5” pode não ser muito grave. 4.4.4 Determinação e interpretação do Risco Relativo Segundo Lopes (2006), em termos simples, um risco de grupo é o mesmo que a proporção de “sucesso” para esse grupo, ao passo que o risco relativo é a razão entre estes dois grupos para as proporções. Se voltar para os dados e levantamento conclusões das peças usinadas, demons- trados acima, podemos encontrar o risco para qualquer peça e usar esses riscos para encontrar e interpretar um risco relativo. A partir da tabela, o risco da peça I é 138/285 = 0,484, enquanto o risco da peça II é 64/215 = 0,298. O risco relativo da peça I em relação à peça II seria 0,484/0,298 = 1,62. Devemos interpretar este risco relativo como: a peça I será cerca de 1,6 vezes mais propensa do que a peça II de favorecer uma produção perfeita. Em geral, o risco relativo (RR) é dado por: RR = Risco do grupo 1/ Risco do grupo 24.4.5 Coeficiente de correlação da amostra Se quisermos fornecer uma medida da intensidade da relação entre duas variá- veis quantitativas, uma boa maneira é relatar o coeficiente de correlação entre eles. Podemos calcular o coeficiente de correlação de exemplo, r: r=∑(xi− x¯)(yi−y¯) / √∑(xi−x¯)²√∑(yi−y¯)² Podemos concluir, portanto, que um coeficiente de correlação ilustra uma medida quantitativa de algum tipo de correlação, ou seja, relações estatísticas entre duas ou mais variáveis aleatórias ou valores de dados observados. Você sabe a importancia da correlação linear para a engenharia da qualidade? Em fábricas modernas, as pessoas ainda raramente dão importância para o teste de hipó- teses, pois acreditam que seja apenas uma questão de teoria. No entanto, a aplicação de testes de hipóteses na gestão da qualidade deve ser utilizada com maior frequencia. O teste de hipóteses é fundamental na explicação dos fenômenos e infelizmente, em muitas instalações de fabricação os gestores tendem a se concentrar apenas em esta- tísticas descritivas, tais como média aritmética e dispersão. VOCÊ SABIA? 20 Laureate- International Universities Síntese Concluímos este capítulo sobre a teoria da hipótese estatística. Agora que você já conhece a im- portância do estudo de hipótese, de seus métodos e conceitos, poderá solucionar algumas casos práticos ligados a essa área de conhecimento. Neste capítulo, você teve a oportunidade de: • conhecer os tipos de hipóteses e tipos de erros; • aprender o que é nível de significância e qual o poder deste teste; • conhecer os procedimentos para testar as hipóteses sobre média e proporção; • utilizar as tabelas de contingência e teste de Qui-quadrado para independência. Síntese 21 Referências ACÇÃO LOCAL ESTATÍSTICA APLICADA – ALEA. Nomes e datas em estatística – William Gos- set. Disponível em: <http://www.alea.pt/html/nomesedatas/swf/biografias.asp?art=9>. Acesso em: 30 dez. 2015. CHAN, B. L.; SILVA, F. L. da; MARTINS, G. de A. Fundamentos da previdência privada com- plementar. São Paulo: Atlas, 2006. FONSECA, J.S. da; MARTINS, G. de A. Curso de Estatística. 6. ed. São Paulo: Atlas, 1996. FONSECA, J.S. da; MARTINS, G. de A.; TOLEDO, G.L. Estatística aplicada, São Paulo: Atlas, 2. ed., 1995. FREUND, J. E.; SIMON, G. A. Estatística Aplicada - Economia, Administração e Contabilida- de. São Paulo: Bookman, 2000. KATO, S. Teste de hipótese. Departamento de Estatística - PUCRS – FAMAT. Disponível em: <http://www.pucrs.br/famat/sergio/Estatistica_Basica_T126/Teste_de_hipotese.pdf>. Acesso em: 30 dez. 2015. KAZMIER, L. Estatística aplicada à Economia e Administração. São Paulo: McGraw-Hill, 1982. LEVINE, M.D.; BERENSON, M.L.; STEPHAN, D. Estatística: Teoria e Aplicações. Rio de Janeiro: Livro Técnico Científico, 2000. MARGEM de erro I. Produzido por Khan Academy em português. 12 nov. 2014. Disponível em: <https://www.youtube.com/watch?v=lV2iGwVp9VY&hd=1>. Acesso em: 30 dez. 2015. MARTINS, M. E. G. Introdução à probabilidade e à estatística. Departamento de Estatística e Investigação Operacional da FCUL - Sociedade Portuguesa de Estatística. Jun. 2005. Dispo- nível em: <http://arquivoescolar.org/bitstream/arquivo-e/97/1/IPE%202005.pdf>. Acesso em: 30 dez. 2015. OLIVEIRA, A. F. G. Testes Estatísticos para Comparação de Médias. Revista Eletrônica Nutriti- me. v.5, n. 6, p.777-788, Nov-Dez. 2008. SILVA, E. .M. da; GONÇALVES, V.; MUROLO, A. C. Estatística para os cursos de Economia, Administração e Ciências Contábeis. 3. ed. São Paulo: Atlas,1999. SOUZA, S. Seguros: contabilidade, atuária e auditoria. São Paulo: Saraiva, 2001. SPIEGEL, M.R. Estatística. São Paulo: McGraw-Hill, 1972. TESTE do Qui-quadrado. Puplicado por SisLAu FMUSP. 07 Mar. 2013. Disponível em: <https:// www.youtube.com/watch?v=4uFD3eFFn74&hd=1>. Acesso em: 30 dez. 2015. Bibliográficas