Baixe o app para aproveitar ainda mais
Prévia do material em texto
03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 1/43 INFERÊNCIA ESTATÍSTICAINFERÊNCIA ESTATÍSTICA TESTES DE HIPÓTESESTESTES DE HIPÓTESES PARA A MÉDIAPARA A MÉDIA Autor: Dr. Bruno Henrique Ol iveira Mul ina Reviso r : An to n io Go mes De M a tto s Neto INICIAR 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 2/43 introduçãoIntrodução Entre as aplicações da Inferência Estatística, a avaliação da população com base em dados amostrais pode ser realizada por meio de hipóteses. Essas hipóteses são suposições com relação aos valores dos parâmetros populacionais. Por exemplo, ao perguntar se a nota da turma é maior que 7, estamos levantando uma suposição. As suposições podem ser feitas com base em apenas uma amostra, validando se o parâmetro é igual, maior ou menor que uma constante, ou duas ou mais amostras, permitindo identi�car se o parâmetro avaliado é igual ou diferente nas diferentes amostras. Nesta unidade, veremos as ferramentas para responder sobre as suposições referentes à média populacional, para diferentes condições das amostras. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 3/43 Ao identi�car as principais aplicações da Inferência estatística, vemos que estão relacionadas a descrever, ou inferir, sobre o comportamento da população com base em dados amostrais. Essa descrição pode ser feita de duas formas. Uma delas se dá pela determinação dos valores dos parâmetros da população, como a média ou o desvio padrão por meio de estimadores. Esses estimadores podem ser pontuais, usualmente referidos como os parâmetros amostrais, e os estimadores intervalares, comumente chamados de intervalos de con�ança. Com relação aos estimadores, podemos dizer que eles não são completamente precisos. Isso acontece, pois, no processo de amostragem, é possível que alguns elementos com valores signi�cativos sejam omitidos. Para avaliar o quão exato é o estimador, é de�nida uma distribuição de probabilidade amostral. Em uma distribuição amostral, as amostras com valores próximos aos exatos é maior que casos extremos. Isso de�ne o teorema do limite central. Introdução aosIntrodução aos Testes de HipóteseTestes de Hipótese 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 4/43 Por meio do teorema do limite central, podemos dizer que existe uma faixa de valores que possuem uma certa probabilidade de estarem coerentes com os valores populacionais. Essa probabilidade é chamada de con�ança. A probabilidade dos valores não serem correntes, motivada pela existência de valores raros que possam não ter sido amostrados é chamada de signi�cância estatística. A segunda aplicação da inferência estatística são os testes de hipóteses. Um teste de hipótese é um conjunto de estatísticas aplicadas para de�nir, com certa con�ança, se uma hipótese levantada é verdadeira. Imagine que queremos avaliar se o valor médio da população é maior que uma constante. Como o valor amostral não é exatamente o valor populacional, não podemos responder à pergunta de forma exata. Para isso que existem os testes de hipóteses. De�inição das Hipóteses Um teste de hipótese, como já foi apresentado anteriormente, é um conjunto de ferramentas que tem por objetivo con�rmar uma suposição sobre a população com base em uma informação amostral. Para compreender o que é isso, veremos um exemplo comumente apresentado a nós. Durante as eleições, é comum a expressão “tecnicamente empatados”. Essa expressão diz que, com base na pesquisa amostral realizada, existe uma chance, por conta do erro amostral, dos valores populacionais serem iguais. Observando a Figura 3.1, podemos ver que existe uma faixa de valores em que os intervalos de con�ança dos votos dos candidatos A e B coincidem. Isso quer dizer que existe uma chance de que os valores exatos sejam iguais. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 5/43 Uma vez apresentamos os conceitos básicos, detalharemos as etapas para a realização dos testes de hipóteses. Devemos ter em mente que existem apenas duas possibilidades de resposta em um teste de hipótese: aceitar ou rejeitar a hipótese. Ao propor um teste de hipótese, devemos inicialmente levantar a suposição que se deseja avaliar como verdadeira, chamada de hipótese nula ou H0, e outra suposição com o intuito de rejeitar a hipótese nula, chamada de hipótese alternativa ou H1. Ao propor as hipóteses, elas nunca podem se sobrepor. Se a hipótese nula é de igualdade, a hipótese alternativa não poderá ser de maior ou igual, já que a igualdade aparece nas duas hipóteses. Por exemplo, se desejamos saber se a turma possui uma nota média igual a 6, será proposta a hipótese nula de que a média populacional é igual a 6, tendo em contrapartida a hipótese alternativa de que a média será diferente de 6. Matematicamente, podemos escrever as hipóteses como: H0 : μ = 6 H1 :μ ≠ 6 (1) Sabendo que as hipóteses nula e a alternativa são complementares, são exemplos possíveis de combinações de hipóteses: { 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 6/43 H0 : μ = 6 H1 :μ ≠ 6 H0 : μ ≥ 6 H1 :μ < 6 H0 : μ ≤ 6 H1 :μ > 6 Deve-se sempre buscar que as condições de igualdade estejam presentes na hipótese nula. Caso isso não seja respeitado, poderemos ter di�culdades em obter a solução conforme a técnica aplicada nos testes de hipóteses. De�nidas as hipóteses, devemos decidir se os testes serão realizados com base na avaliação da região crítica ou da função poder do teste, ou p-valor. { { { 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 7/43 Testes de Hipótese Baseados na Região Crítica reflitaRe�ita Ao realizar um teste de hipótese, o objetivo é responder com relação à hipótese nula. Então é comum, na literatura, a resposta ser dada de modo a aceitar ou rejeitar essa hipótese, sem referências à hipótese alternativa ser aceita ou não. Por esse motivo, não é muito comum os termos “certo” ou “errado” para a hipótese. Para ajudar na compreensão sobre as análises, adotaremos as respostas com relação às duas hipóteses. Então, caso a hipótese, sendo ela nula ou alternativa, seja aceita, estaremos também nos referindo a ela como correta. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 8/43 Os testes de hipótese baseados na análise da região crítica são realizados a partir da análise dos intervalos de con�ança dos valores amostrais, avaliando a posição de um valor normalizado dentro de uma região crítica, obtida por uma distribuição de probabilidade amostral compatível. A região crítica é uma faixa de valores que são admitidos como falsos para a hipótese nula. Essa faixa de valores, como mostra a Figura 3.2, é função da signi�cância, da distribuição amostral e da hipótese alternativa, e é chamada de região crítica. Em uma pesquisa, se o candidato possui 40% da intenção de votos, com margem de erro de 2 pontos percentuais, implica dizer que os valores compreendidos entre 42% e 38% são estaticamente iguais a 40%. Então a região crítica, que representa os valores diferentes de 40%, está localizada nos intervalos de�nidos para valores menores que 38% e maiores que 42%. Nos testes de hipótese, é muito importante identi�car corretamente a signi�cânciaa ser aplicada. Isso porque os valores “errados” à hipótese nula podem estar compreendidos em uma única faixa de valores, sendo um teste unicaudal ou unilateral, ou dividida em duas faixas, representando um teste bicaudal ou bilateral. De acordo com o teorema do limite central, as amostras que resultem em valores mais “iguais” ao da população apresentam maior frequência, e por Figura 3.2 - Relação entre região crítica e as hipóteses de igualdade dos votos Fonte: Elaborada pelo autor. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT_I… 9/43 isso representam o pico apresentado em uma distribuição amostral. Em contrapartida, os valores mais próximos à borda da distribuição são ditos diferentes (maiores ou menores). A compreensão sobre o teorema permite que a distribuição amostral seja dividida em três regiões diferentes: igual, maior ou menor. A Figura 3.3 mostra essa análise aplicada às distribuições normal e t de Student. Essa distinção ajudará na obtenção das regiões críticas a serem aplicadas nos testes de hipóteses. De�nidas essas regiões, basta identi�car, com base nas hipóteses levantadas e no valor observado para a estatística do teste, se elas serão referentes à hipótese nula ou à alternativa. Agora podemos compreender a motivação com relação à região crítica mostrada na Figura 3.2, já que na Figura 3.3 podemos ver que os valores considerados iguais à média estão dispostos em uma faixa que contém o valor amostral da média. Um teste de hipótese baseada na região crítica pode ser realizado, conforme o seguinte roteiro: a. De�nir as hipóteses nula e alternativa. b. De�nir a distribuição de probabilidade a ser usada. c. Obter os valores limites da região crítica conforme as hipóteses e a distribuição amostral. d. Normalizar o parâmetro desejado com base na estatística compatível. e. Posicionar o valor normalizado ao longo da distribuição. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 10/43 f. Avaliar se o valor normalizado está disposto na região crítica (hipótese nula rejeitada, ou hipótese alternativa aceita) ou fora dela (hipótese nula aceita e hipótese alternativa rejeitada). Testes de Hipótese Baseados na Função Poder Vimos o desenvolvimento dos testes de hipóteses usando a região crítica. Outro método a ser aplicado para a avaliação das hipóteses é o uso da função poder, também chamado de p-valor. Este método de�ne a probabilidade de se obter um valor normalizado da amostra, e a compara com a signi�cância desejada ao teste. Como a solução do teste de hipótese está relacionada diretamente à signi�cância, o p-valor também é chamado de probabilidade de signi�cância. O p-valor é apresentado como P(x), onde x é a distribuição buscada. Se desejamos saber o p-valor de um teste cujo valor normalizado é t = 1, 54, com grau de liberdade v = 3, o p-valor é representado por P(t(1, 54; 3). Utilizando um software ou consultando uma tabela de valores t de Student, seria obtida a probabilidade P(t(1, 54; 3) = 1, 666, representando um p-valor de 0,1666. Para o desenvolvimento deste teste, primeiro devemos ter em mente que a hipótese de igualdade deverá fazer parte da hipótese nula. Feito isso, basta que identi�quemos a probabilidade relacionada ao valor normalizado, considerando que este valor seja o limite para a hipótese alternativa. Se o valor é menor que a signi�cância, a hipótese nula é rejeitada; caso contrário, a hipótese nula não será rejeitada. Por esse motivo, é muito comum que p- valores muito pequenos sejam indícios de que a hipótese nula deverá ser rejeitada. Por exemplo, se um teste de hipótese, aplicando uma distribuição normal, tentar avaliar as suposições: H0 : μ ≤ 0 H1 :μ > 0 (2){ 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 11/43 As regiões referentes a cada hipótese são apresentadas na Figura 3.4, sendo a região destacada referente à probabilidade da signi�cância. Conforme visto na Figura 3.4, o teste é unicaudal, com a signi�cância α disposta à direita. O Zcr í tico se refere ao valor de z que forneça a probabilidade igual à signi�cância. Se a estatística aplicada resultasse em z1=2,20, o p-valor vale 0,014, e sua localização coincidiria com o ponto p1. Como o p-valor é menor que a signi�cância, a hipótese nula seria rejeitada. Agora, se a estatística resultasse em z2=1,20, o p-valor seria de 0,15 (ponto p2), e a hipótese nula não seria rejeitada. Um cuidado ao avaliar o p-valor é que ele não representa a chance de estarmos certos ou errados. Ele somente representa a chance de que possa ser verdadeira. Então, se o p-valor é pequeno, a chance de que H0 seja verdadeira é pequena, e então ela é rejeitada. Se o p-valor for grande, não existem indícios que tornem a hipótese nula falsa. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 12/43 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 13/43 Erros do Tipo I e II Como dito, os testes de hipóteses devem responder se a hipótese nula será aceita ou não. Como os resultados possuem uma margem de con�ança, eles devem ser analisados antes que se tenha certeza sobre a conclusão tomada. Ao concluir a análise com relação à hipótese H0, é possível que ocorram dois tipos de erros: o tipo I e o tipo II. Quando nos são apresentados os tipos de erros, devemos ter em mente que se refere à conclusão obtida se conhecêssemos o valor exato da população. Quando dissemos que a con�ança é a probabilidade de estarmos corretos com relação a uma suposição, devemos ter em mente que também existe uma chance de que essa conclusão esteja errada. O erro de tipo I está relacionado a rejeitar a hipótese nula H0 quando ela é verdadeira. Esse tipo de erro é conhecido como o falso positivo. A probabilidade de cometer um erro desse tipo está relacionada à signi�cância α do teste. Por exemplo, se aplicada uma signi�cância de 0,05, indica que existe uma chance de 5% de que esteja errado, caso a hipótese nula seja rejeitada. O erro de tipo II se refere a aceitar a hipótese nula H0 mesmo ela sendo falsa. Esse tipo de erro é conhecido como o falso negativo. A probabilidade que ocorra um erro tipo II, de�nida pela letra β, é função do p-valor. Este erro ocorre quando o teste de hipótese aceita a hipótese nula, porém o resultado obtido com base nos dados da população informa que na verdade essa hipótese é falsa. A Tabela 3.1 mostra as relações entre os tipos de erros. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 14/43 Tabela 3.1 - Combinações de decisões e erros associados Fonte: Elaborada pelo autor. Não é possível reduzir as chances de cometer os erros ao mesmo tempo. Essa informação é importante, pois deixa claro que, se reduzirmos a chance de que um erro ocorra, estaremos aumentando a chance do outro ocorrer. Como o erro mais grave é o do tipo I, ele deve então ser ajustado (mudança da signi�cância) para que se tenham resultados considerados válidos. praticarVamos Praticar Uma vez realizados os testes de hipóteses, pode-se cometer algum erro com relação à conclusão obtida pelas estatísticas do teste. Esses erros são denominados de erro tipo I e tipo II. De acordo com as condições referentes à existência desses erros, assinale a alternativa correta. a) O erro do tipo I se refere a aceitar a hipótese nula quando o valor obtido pela estatística está fora da região crítica. Decisão baseada na amostra Decisão baseada na população H verdadeira H falsa H aceita Correto (1-α) Erro tipo II (β) Hrejeitada Erro tipo I (α) Correto (1-β) 0 0 0 0 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 15/43 b) O erro do tipo I está relacionado a recusar ambas as hipóteses, pois o valor obtido na estatística não pode ser usado para avaliação de nenhuma delas. c) O erro tipo II se refere a rejeitar a hipótese alternativa quando o valor obtido pela estatística se localiza dentro da região crítica. d) O erro do tipo II é de�nido como o erro de falhar em rejeitar a hipótese nula quando ela é falsa. e) O erro do tipo I se refere a rejeitar a hipótese nula quando o valor obtido na estatística se localiza na região crítica. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 16/43 Quando estamos interessados na avaliação da média por meio de um teste de hipótese, devemos ter em mente que ela segue uma distribuição normal, e que sua variância populacional pode ou não ser conhecida. Quando a variância populacional é conhecida, a distribuição de probabilidade a ser usada será a distribuição normal. Ela é uma distribuição simétrica, centrada em z = 0, e que não depende dos graus de liberdade da amostra. A distribuição normal poderá ser usada também em casos que a variância populacional não seja conhecida, porém a amostra possui um tamanho maior ou igual a 30 elementos. Nesses casos, admitimos que as variâncias amostral e populacional são iguais, e os procedimentos a seguir serão aplicados de forma idêntica. Testes de HipótesesTestes de Hipóteses da Média Amostralda Média Amostral para umapara uma População NormalPopulação Normal com σ² Conhecidacom σ² Conhecida 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 17/43 Teste de Hipótese Aplicando a Região Crítica Conforme a hipótese levantada, é de�nida a região crítica. Ela é obtida por meio da análise dita anteriormente, de acordo com a Figura 3.3. De�nida a hipótese e a distribuição, a normalização a ser aplicada será: Zobs = x− − μ0 σ √n (3) A expressão da normalização envolve a média amostral x− , um valor populacional, ou uma constante μ0, a variância populacional σ2 e o número de elementos da amostra n. Para obtenção dos valores limites ou críticos, e delimitação da região crítica, podemos usar softwares ou tabelas. A Tabela 3.2 apresenta alguns valores para a distribuição para P(z) < 0, 3. Não será necessário apresentar valores maiores, pois às signi�câncias mais comuns vão valores menores que 10%. Se o teste possui uma signi�cância de 5%, buscamos na primeira linha o valor 0,00, e na primeira coluna o valor 0,05, já que 0, 00 + 0, 05 = 0, 05. O cruzamento das respectivas linhas e colunas nos fornece o valor de z = 1, 645. Tabela 3.2 - Valores de Z para P < 0, 3 Fonte: Elaborada pelo autor. Devido às diferentes hipóteses levantadas e valores críticos, é muito importante que, antes de realizar os cálculos, seja feita uma análise com ( ) 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 18/43 calma sobre todas as informações fornecidas, de modo que se evite, por exemplo, a avaliação de uma hipótese diferente da suposição levantada. Teste de Hipótese Aplicando P-valor Para aplicar o teste de hipótese baseado no p-valor, primeiro devemos expressar as hipóteses. Para a aplicação do p-valor, é importante que a suposição que inclua a igualdade dos valores esteja disposta na hipótese nula. Caso não esteja, deve-se manipular as hipóteses a �m de que isso seja verdadeiro. Essa etapa será importante para de�nir se o p-valor será aplicado unicaudal à direita (hipótese alternativa para valores maiores), unicaudal à esquerda (hipótese alternativa para valores menores) ou bicaudal (hipótese alternativa de diferente). Agora devemos obter o valor normalizado de modo idêntico ao aplicado na determinação da região crítica. Calculado o valor normalizado, devemos consultar qual a probabilidade relacionada àquele valor. Para obter o p-valor, podemos consultar a Tabela 3.1, e buscar, entre os valores internos, aquele que mais se aproxima do valor normalizado. Obtidas as coordenadas desse valor, basta somar o valor encontrado na primeira linha e na primeira coluna. Por exemplo, se encontrarmos o valor z = 2, 34, encontraremos como mais próximo o valor z = 2, 326, presente no cruzamento entre os valores a = 0,000 e b = 0,010, indicando que o p-valor vale 0,000+0,010=0,010. Para de�nir com relação à rejeição ou aceitação da hipótese nula, basta avaliar se o valor de p-valor é maior ou menor que a signi�cância. Se for menor, a hipótese nula é rejeitada; caso contrário (p-valor maior que a signi�cância), a hipótese nula não poderá ser rejeitada. praticar 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 19/43 praticarVamos Praticar Imagine que uma amostra com 10 sacos de arroz forneceu uma média de 4,8Kg e desvio padrão amostral de 0,5Kg. Porém, o desvio padrão populacional é conhecido, e vale 0,25Kg. Adotando uma signi�cância de 5%, deseja-se con�rmar que o lote do qual esses sacos foram retirados possuem um peso de 5Kg. Assinale a alternativa que apresenta o valor normalizado para a amostra, o p-valor obtido do teste. E qual conclusão foi obtida? a) Zobs=-2,529, p-valor = 0,0057 e existem indícios de que não pesam 5Kg. b) Zobs = 2,529, p-valor = 0,0057 e existem indícios de que pesam 5Kg. c) Zobs = 1,529, p-valor = 0,057 e existem indícios de que pesam 5Kg. d) Zobs = -2,529, p-valor = 0,0157 e existem indícios de que não pesam 5Kg. e) Zobs = -1,529, p-valor = -0,0057 e existem indícios de que não pesam 5Kg. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 20/43 Veremos agora como realizar os testes quando a variância é desconhecida, e o tamanho da amostra é menor que 30. O procedimento a ser aplicado no caso de amostras pequenas e variância populacional desconhecida é semelhante ao anterior, variando apenas em poucos detalhes. A diferença está na distribuição a ser usada. Enquanto no caso anterior era usada a distribuição normal, usaremos aqui a distribuição t de Student. Ela é uma distribuição que se comporta de modo semelhante à distribuição normal, com a diferença de ser dependente do tamanho da amostra, representado pelo grau de liberdade da amostra. Nesse caso, então, os valores limites da Testes de HipótesesTestes de Hipóteses da Média Amostralda Média Amostral para umapara uma População NormalPopulação Normal com σ²com σ² DesconhecidaDesconhecida 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 21/43 região crítica serão de�nidos pelos valores t0 = t(α ′ , n − 1), onde α ′ pode valer α ou α/2, dependendo das hipóteses levantadas. A Tabela 3.3 mostra os principais valores usados da distribuição para uma probabilidade menor que 15%. Caso o valor não esteja presente, deve-se selecionar o mais próximo. Como os valores de signi�cância são normalmente menores que 10%, se o valor procurado não estiver presente, é possível que ele represente uma probabilidade maior. Nesses casos, é possível dar uma resposta, mesmo sem conhecer o valor numérico (já que a signi�cância será menor). Outra diferença está na estatística a ser aplicada para a normalização da média: t = x− − μ 0 s √n (4) As demais etapas do teste de hipótese são idênticas às aplicadas quando a variância populacional é conhecida, apenas substituindo os valores obtidos a partir da distribuição normal por aqueles obtidos da distribuiçãot de Student. Então, para realizar o teste de hipótese aplicando a região crítica, de�nimos as hipóteses, obtemos os valores limites na distribuição t de Student, calculamos o valor normalizado, comparamos com os valores da região crítica e obtemos a conclusão com relação às hipóteses. No caso do teste de hipótese aplicando o p-valor, será aplicado o mesmo procedimento, distinguindo apenas na distribuição aplicada para se obter o p-valor. ( ) 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 22/43 Tabela 3.3 - Valores de t para P<0,15 e grau de liberdade menores que 30 Fonte: Elaborada pelo autor. praticarVamos Praticar Para saber se a média das notas obtidas na escola era de no mínimo 7,0, uma escola, composta por 200 alunos, selecionou uma amostra com 20 deles. A média das notas fornecida pela amostra foi de 6,8, com uma variância de 2, adotando uma signi�cância α = 1%. Assinale a alternativa correta que contenha o valor normalizado tobs para a amostra, o valor crítico ttab e o p-valor obtido do teste e a conclusão obtida. a) tobs = -0,516; ttab = 2,54, e p-valor = 0,001. Existem indícios para μ ≥ 7. b) tobs = -0,516; ttab = -2,54\), e p-valor = 0,11. Existem indícios para μ > 7. c) tobs = -0,516; ttab = -2,54\), e p-valor = 0,11. Existem indícios para μ ≥ 7. d) tobs = 0,516; ttab = -2,54\), e p-valor = 0,001. Existem indícios para μ < 7. e) tobs = -0,516; ttab = -2,54\), e p-valor = 0,11. Existem indícios para μ > 7. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 23/43 Anteriormente, aplicamos o teste de hipótese para avaliar uma suposição com relação a informações de uma amostra com relação a um valor exato, seja ele uma constante seja oriundo de uma população. Porém, existem casos nos quais a suposição é feita comparando as médias oriundas de duas ou mais amostras. Para esses casos, os dois valores a serem avaliados são representados por uma faixa de con�ança. Caso a comparação seja entre duas amostras, podemos aplicar um teste de hipótese que possibilite avaliar se as médias são iguais, maiores ou menores, com base nas distribuições normal ou t de Student. Porém, se a comparação for realizada entre mais de duas amostras, podemos aplicar os testes de hipóteses comparando as amostras aos pares, como citado anteriormente. Porém, ao aplicar essa técnica, a con�ança do Testes deTestes de Comparação entreComparação entre Médias AmostraisMédias Amostrais para Populaçõespara Populações NormaisNormais 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 24/43 teste diminui. Então, por esse motivo, aplicaremos um teste de hipótese que permita avaliar todas as amostras de forma simultânea, que permita fornecer resultados sem a redução da con�ança. Para isso, aplicaremos a análise da variância, ou ANOVA. Teste de Comparação entre Duas Amostras Se desejamos saber se a mudança no tipo de alimentação fornecida ao gado melhora a produtividade, é comum que sejam formados dois grupos, ou amostras, em que um recebe a alimentação tradicional, sendo normalmente chamado de grupo de controle, e outro grupo recebe a alimentação diferente. Como os resultados são amostrais, será necessário um teste de hipótese para con�rmar que houve ou não melhora na produção. Para aplicar o teste de hipótese envolvendo a comparação entre a média de duas amostras, o roteiro a ser seguido é semelhante ao aplicado para uma amostra. Então, devemos determinar a hipótese desejada, com base na suposição levantada. Para determinar os valores limites da região crítica, será aplicada a distribuição de probabilidade t de Student. Para determinar a estatística a ser aplicada, e o grau de liberdade utilizado, devemos saber sobre a igualdade das variâncias populacionais das duas amostras. Se a variância for conhecida, o grau de liberdade a ser usado na distribuição t de Student é obtido como v = n1 + n2 − 2. Agora, se a variância populacional não for conhecida, os graus de liberdade a serem aplicados na distribuição serão: v = ( a+b ) a2 n1 − 1 + b 2 − 1 em que a = s21 n 1 b = s22 n2 (5) ( ) 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 25/43 A signi�cância continua sendo de�nida conforme o tipo de teste (uni ou bicaudal). Caso a variância populacional seja conhecida, o valor normalizado será obtido por meio da estatística: t obs = x1 _ − x− 2 sp 1 n1 + 1 n2 em que sp = n1 − 1 s 2 1 + n2 − 1 s 2 2 n1 +n2 − 2 (6) Agora, caso a variância populacional não seja conhecida, a estatística será: t = x1 _ − x2 _ ( n1 n1 + s22 n2 (7) As demais etapas do teste de hipótese serão desenvolvidas de forma idêntica aos testes para a média aplicando uma amostra. Um detalhe muito importante: mantenha sempre a ordem das amostras aplicadas ao teste (amostra 1 primeiro, depois a amostra 2). Isso é de suma importância, pois a região crítica é função de quem vem primeiro. Então, entre as hipóteses μ1 > μ2 ou μ2 < μ1, escolhemos sempre a hipótese μ1 > μ2. Faremos um exemplo. Com base em um grupo de controle composto de 10 vacas, recebendo a alimentação tradicional, foi obtida uma média de 50 litros, e desvio padrão de 5 litros. Para testar se um novo alimento melhora a produção de leite, um grupo de 15 vacas recebeu a nova alimentação, fornecendo uma média de 60 litros e desvio padrão de 8 litros. Para uma signi�cância de 10%, é possível dizer que houve melhora na produção? Então, para a solução desse problema, vemos que a suposição a ser testada é a de que a média de produção com a nova alimentação (de�nida como amostra 1) seja maior que a com a alimentação original (de�nida como amostra 2), ou seja: √ √ ( ) ( ) √ 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 26/43 H0 : μ1 > μ2 H1 :μ1 ≤ μ2 A Figura 3.25 mostra a disposição da região crítica para a hipótese proposta. Da amostra com a alimentação nova, obtivemos os dados n1 = 15, x− 1 = 60 e s1 = 8, e da amostra 2, n2 = 10, x− 2 = 50 e s2 = 5. Como não conhecemos a variância populacional, precisamos calcular o grau de liberdade da amostra: a = s21 n1 = 82 15 = 4, 2 b = s22 n2 = 52 10 = 2, 5 v = (a + b)2 a2 n1 − 1 + b2 n2 − 1 = (4, 26 + 2, 5)2 4 , 262 15 − 1 + 2 , 52 10 − 1 = 22, 9 = 23 Então, com base na Figura 3.1, o valor limite da região crítica será t = t(0, 05; 23) = 1, 71. Logo, o valor limite da região crítica será: { Figura 3.25 - Disposição das hipóteses para o exemplo Fonte: Elaborada pelo autor. ( ) ( ) 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 27/43 = x− 1 − x− 2 s21 n1 + s22 n2 = 60 − 50 82 15 + 52 10 = 3, 844 Na Figura 3.26, podemos comparar os valores crítico (em azul) e o observado (em vermelho), e concluir que a hipótese nula é válida, já que tobs > 1, 71. Caso o grau de liberdade resultante for maior ou igual a 30, podemos aproximar a distribuição t de Student a uma distribuição normal com a mesma signi�cância. Se aplicarmos o teste de hipótese por meio do p-valor, devemos primeiramente manipular as hipóteses para que as condições de igualdade estejam na hipótese nula. Então, o problema do exemplo anterior será reescrito como: H0 : μ1 ≤ μ2 H1 :μ1 > μ2 (8) √ √ { 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 28/43 Com essa mudança, o valor normalizado será o mesmo, com diferença aparecendo apenas nas regiõescobertas pelas hipóteses, como na Figura 3.27. Com isso, podemos buscar o p-valor, conforme a expressão: P(t(3, 844; 23)) = 0, 000. Lembre-se de que o valor 3,844 foi obtido pela normalização da amostra. De acordo com a Figura 3.28, não existe indício de que a hipótese nula seja verdadeira. Se observarmos essa análise, teremos que a hipótese alternativa é aceita, ou seja, que a média da amostra 1 é maior que a da amostra 2, do mesmo modo que foi concluído com base no teste da região crítica. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 29/43 Teste ANOVA para a Média Populacional Considere que desejamos saber se as médias de três amostras são iguais. Para responder a essa questão, pode-se aplicar o teste entre duas amostras, avaliando a igualdade aos pares; porém esse procedimento resulta na redução da con�ança. No exemplo dado, caso a con�ança original seja de 90%, o resultado terá uma signi�cância de 81%. Para eliminar esse efeito, é aplicado o teste de análise de variância, ou ANOVA. Esse teste consiste em avaliar a variabilidade total das amostras em função da variância entre as amostras. Existem diferentes testes ANOVA, distintos conforme a quantidade de fatores e variáveis respostas, e se o comportamento desses fatores é constante ou aleatório. Veremos, então, como aplicar o teste ANOVA de um fator. Um fator é, por de�nição, uma variável que podemos controlar durante um ensaio ou experimento. Pode ser comparada à variável independente das funções matemáticas. Já uma variável resposta é a saída do experimento, a resposta que temos interesse em investigar. Figura 3.28 - Localização do p-valor conforme a signi�cância para o exemplo Fonte: Elaborada pelo autor. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 30/43 O teste ANOVA permite avaliar a hipótese nula de que as médias populacionais são iguais, contra a hipótese alternativa de que ao menos uma delas é diferente, ou seja: H0 : μ1 = μ2 = μ3 = … = μn H1 :ao menos uma média diferente Perceba que, pela de�nição, a hipótese alternativa diz que existe ao menos uma média diferente, mas não diz qual é. Para identi�car qual é a média diferente (ou as médias), será necessário aplicar os testes aos pares. Nesse caso, não haverá redução na con�ança do teste, já que a hipótese nula já foi avaliada. Para a realização do teste, é aplicada a distribuição F de Fisher. A distribuição f de Fisher é uma distribuição amostral baseada na razão entre duas variâncias. Por ser baseada na análise da variância, a distribuição é assimétrica, e possui apenas valores positivos, como mostra a Figura 3.9. Ela apresenta, além da signi�cância, dois graus de liberdade, um referente ao numerador e outro referente ao denominador. Por esse motivo, é comum que existam tabelas da distribuição distintas pela signi�cância. As Tabelas 3.4 e 3.5 mostram os valores para as signi�câncias de 5% e 1% para a distribuição F de Fisher, conforme a área destacada na Figura 3.29. { Figura 3.29 - Distribuição f de Fisher Fonte: Elaborada pelo autor. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 31/43 Tabela 3.4 - Valores de f para α=0,01 Fonte: Elaborada pelo autor. Tabela 3.5 - Valores de f para α=0,05 Fonte: Elaborada pelo autor. Para desenvolver o teste ANOVA de um fator, avaliando a igualdade de média para k amostras, podemos dizer que cada observação x (leitura) pode ser descrita em função da média total x− _ entre todas as leituras existentes e a média x− de cada amostra. A média total x− _ pode ser obtida normalmente com a média de todos os elementos, ou a partir das médias amostrais: x− _ = Σni × x− i Σni (9) Para o teste ANOVA, precisamos calcular a soma quadrática total, de�nida por: 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 32/43 = Σ x − x− _ 2 (10) Também devemos calcular a soma quadrática entre amostras: SQentre = Σni × xi _ − x− _ 2 (11) E �nalmente temos a soma quadrática dentro das amostras: SQdentro = Σ x − xi _ 2ouSQdentro = Σ(n − 1) × s 2 (12) Onde k é o número de amostras avaliadas e N o número de elementos total. O SQtotal também poderá ser obtido pela soma do SQentre e do SQdentro: SQtotal = SQentre + SQdentro (13) Para resolver o teste ANOVA de 1-fator, desenvolveremos a tabela ANOVA mostrada na Tabela 3.6. Os termos QM se referem aos erros quadráticos, também conhecidos como variância. ( ) ( ) ( ) 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 33/43 Tabela 3.6 - Tabela ANOVA de 1-fator Fonte: Elaborada pelo autor. De posse dos dados fornecidos pela Tabela 3.6, a estatística aplicada será: fobs = QMentre QMdentro (14) Com os graus de liberdade do numerador k-1 e do denominador N-k. Para responder sobre a suposição inicial (as médias iguais), basta avaliar se o valor f obtido pela estatística é maior que o valor tabelado ftab = f(α; v1; v2), onde v1 é o grau de liberdade do numerador, enquanto v2 é o grau de liberdade do denominador. Caso isso ocorra, a hipótese nula é rejeitada, ou seja, existe ao menos uma amostra com média diferente. O teste ANOVA também pode ser avaliado conforme seu p-valor. A análise é idêntica à realizada com a aplicação das distribuições normal e t de Student. Porém, devido ao número de parâmetros aplicados na distribuição f de Fisher, e as possíveis combinações, é mais comum a análise sobre o poder do teste por meio de softwares, que são capazes de calcular a in�nidade de p-valores possíveis. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 34/43 Para aplicar o p-valor, buscamos o valor de p = P(f(F; v1; v2)). Se o valor de p for menor que a signi�cância α, devemos rejeitar a hipótese nula. Caso contrário, não devemos rejeitar: se p − valor < α → rejeitar H0 se p − valor > α → não rejeitar H0 (15) praticarVamos Praticar Imagine que queremos saber se a produção de leite se mantém igual com a mudança da alimentação do gado. Para isso, são selecionadas três amostras, uma alimentada com a alimentação tradicional, e as outras duas com outros dois tipos diferentes de comida. A tabela a seguir mostra os resultados de produção para cada um dos animais envolvidos no teste. { 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 35/43 Tabela 3.7 - Produção de leite dos indivíduos avaliados Fonte: Elaborada pelo autor. Aplicando uma signi�cância de 5%, avalie se a produção se manteve independente da alimentação. Com base nas informações, assinale a alternativa correta que mostra a hipótese mais aceita; além disso, o valor do fobs e o valor crítico ftab. a) Existem indícios de que a média é igual; fobs = 0, 26 e ftab = 4, 46 b) Existem indícios de que a média é diferente; fobs = − 0, 26 e ftab = 4, 46. c) Existem indícios de que a média é diferente; fobs = 0, 26 e ftab = − 4, 02. d) Existem indícios de que a média é igual; fobs = 1, 26 e ftab = 2, 27 e) Existem indícios de que a média é diferente; fobs = 2, 84 e ftab = 6, 86. Indivíduos Alimentação tradicional Alimentação A Alimentação B 1 50 55 53 2 48 47 45 3 55 51 50 4 47 48 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 36/43 indicações Material Complementar F ILME A Incrível Mente dos Bebês Ano: 2015 Comentário: O vídeomostra, sob o ponto de vista da aprendizagem cognitiva dos bebês e de crianças, como a estatística é aplicada naturalmente para geração de padrões que permitem ao cérebro processar apenas as informações importantes, além de permitir análises lógicas sobre problemas que não conhecemos. TRAIL ER 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 37/43 L IVRO Como Mentir com Estatísticas Editora: Intrínseca Autor: Darrel Hu�, traduzido por Alda B.S. Campbell ISBN: 858057952X Comentário: Este livro mostra como é fácil promover uma análise tendenciosa a um conjunto de dados a partir da estatística. Observando as ferramentas mais empregadas na estatística, o autor mostra como elas podem ser usadas para manipular os resultados a favor de uma conclusão de interesse. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 38/43 conclusão Conclusão Sabemos como é difícil avaliar as populações com clareza, seja por conta de seu tamanho, seja pela complexidade em obter os dados de todos os elementos. Então, as análises são comumente realizadas com base em amostras. Quando se deseja validar uma suposição de comparação de parâmetros, são necessários os testes de hipótese. Uma vez que levantamos a hipótese a ser testada, devemos identi�car a estatística correta para avaliar o parâmetro desejado com base em uma con�ança. Além dos testes fundamentados na avaliação do intervalo de con�ança, as suposições podem ser validadas a partir da probabilidade amostral, resultando no teste do p- valor. Vimos também sobre o teste ANOVA, que avalia a média entre os elementos das amostras com base na variância entre os elementos. referências Referências Bibliográ�cas BONAFINI, Fernanda Cesar (Org.) Probabilidade e Estatística. São Paulo: Pearson Education do Brasil, 2015. (Col. Bibliogra�a Universitária Pearson). Disponível em: Biblioteca Virtual Universitária. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 39/43 LARSON, Ron; FARBER, Betsy. Estatística Aplicada. 6. ed. São Paulo: Pearson, 2016. Disponível em: Biblioteca Virtual Universitária. MORETTIM, Luiz Gonzaga. Estatística Básica: probabilidade e inferência. 1. ed. São Paulo: Pearson, 2010. Disponível em: Biblioteca Virtual Universitária WALPOLE, Ronald E. et al. Probabilidade e Estatística: para engenharia e ciências. 8. ed. São Paulo: Pearson, 2009. Disponível em: Biblioteca Virtual Universitária. 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 40/43 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 41/43 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 42/43 03/09/2021 03:49 Ead.br https://ibmr.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_743723_1&PARENT… 43/43
Compartilhar