Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA Juliane Silveira Freire da Silva Testes de hipóteses paramétricos Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Conhecer a estrutura dos testes de hipóteses. � Reconhecer as consequências dos tipos de erros. � Contrastar os tipos de erro de acordo com a empresa ou atividade envolvida. Introdução Neste capítulo, você conhecerá a estrutura dos testes de hipóteses paramétrico e não paramétrico. Além disso, saberá reconhecer as consequências de cada tipo de erros e contrastá-los, na prática, de acordo com a empresa ou atividade envolvida. Estrutura dos testes de hipóteses Os testes estatísticos são utilizados nas estatísticas inferenciais, utilizados para verificar estatisticamente hipóteses para médias, variâncias, proporções, dentre outros. Em estatística, há dois grupos de testes de hipóteses: paramétricos e não paramétricos. Os testes paramétricos são utilizados quando existem variáveis com nível de mensuração quantitativa e se pode calcular intervalos de confiança para os dados. Existe, também, a exigência de normalidade para os dados, o que costuma ocorrer com amostras maiores do que 30 elementos (devido à teoria do limite central) e se é necessário supor a homogeneidade dos dados. Os testes não paramétricos têm menos exigências, e o nível de mensuração das variáveis pode ser qualitativo. Não é necessário que se conheça a distri- buição de probabilidades que os dados seguem. Algumas vezes, quando os pressupostos dos testes paramétricos não são aceitos, pode-se utilizar testes não paramétricos para as variáveis quantitativas. O objeto de estudo deste capítulo serão os testes paramétricos, em que consideraremos normalidade e homogeneidade nas variáveis estudadas. Independentemente de o teste estatístico utilizado ser paramétrico ou não paramétrico, sempre teremos as mesmas etapas para a sua resolução. Em todos os testes de hipóteses, precisamos formular duas destas — uma o oposto da outra. Formulamos a H0 – hipótese nula — e a H1 – hipótese alternativa (que também pode ser representada por Ha). H0: hipótese nula H1: hipótese alternativa Em todos os testes de hipóteses, há uma estatística de teste que é composta por um ou mais cálculos matemáticos. A cada teste, teremos um cálculo diferente. Os testes paramétricos costumam ter fórmulas matemáticas menos complicadas para essa resolução. Para cada um dos testes, teremos uma tabela de distribuição de probabi- lidades associada, para que possamos definir a região crítica, e sempre con- cluiremos de acordo com o resultado do teste realizado nos passos anteriores (Quadro 1). 1. Formular hipóteses. 2. Calcular a estatística de teste. 3. Definir a região crítica. 4. Concluir a respeito do teste. Quadro 1. Passos para a resolução de um teste de hipóteses Os testes de hipóteses podem ser utilizados para comparar uma estimativa com um parâmetro (valor de referência) ou, então, comparar duas estimativas entre elas, ou mais de duas estimativas. Entre os testes paramétricos, veremos exemplos de teste para uma média, teste para duas médias e para mais de duas médias. Testes de hipóteses paramétricos2 Parâmetros são resumos numéricos referentes a uma população, e estimadores são resumos numéricos referentes a uma amostra. Consequências dos tipos de erros Precisamos ficar atentos, pois, sempre que realizamos um teste de hipóteses, estamos lidando com valores de médias, e não estamos analisando valores únicos e absolutos. Estamos, sim, comparando a média de uma amostra, ou de duas ou mais amostras. Sabemos que, ao compararmos os valores absolutos 2 e 3, por exemplo, estes obviamente são diferentes, pois estamos comparando valores absolutos. Todavia, no caso de uma amostra de tamanho n de uma variável que tenha uma média e uma variabilidade, será que esses valores podem ser considerados estatisticamente diferentes? Quando realizamos um teste de hipóteses, existe a possibilidade de come- termos um erro na nossa decisão. Podemos rejeitar uma hipótese quando, na realidade, ela seria a hipótese verdadeira. Quando aceitamos H0 e essa é a hipótese verdadeira, estamos tomando a decisão correta. Assim como também ocorre quando rejeitamos a hipótese nula, que é realmente a hipótese falsa. Porém, podemos cometer um erro ao rejeitar H0 quando, na realidade, esta é a hipótese verdadeira. Nesse caso, estamos cometendo o erro do tipo I quando rejeitamos a hipótese verdadeira. Simbolizamos esse tipo de erro pela letra α. Quando aceitamos H0 e essa é, na realidade, a hipótese falsa, estamos cometendo o erro do tipo II, cujo símbolo é a letra β. Veja o Quadro 2, a seguir. H0 verdadeira H0 falsa H0 aceita Decisão correta Erro tipo II (β) H0 rejeitada Erro tipo I (α) Decisão correta Quadro 2. Tipos de erros no teste de hipóteses 3Testes de hipóteses paramétricos Segundo Doane e Seward (2014), pelo fato de raramente contarmos com informações perfeitas sobre uma situação verdadeira, não conseguimos sempre saber se foi cometido o erro tipo I ou tipo II. Entretanto, ao utilizarmos a esta- tística, podemos calcular a probabilidade de tomarmos uma decisão incorreta, minimizando a chance de erro, ao reunirmos o maior número de evidências amostrais que nossos recursos permitam e selecionando procedimentos de testes adequados. Podem ser feitas analogias, normalmente utilizadas para exemplificar os tipos de erros que podemos cometer ao termos duas hipóteses a serem testadas. Uma das analogias utilizadas é a de um julgamento, considerando que a hipótese nula seja a de o réu ser inocente. Consequentemente, a hipótese alternativa será a de o réu ser culpado. Dessa forma, cometemos o erro do tipo I, quando condenamos o réu, mas, na realidade, ele é inocente. O erro do tipo II é cometido quando absolvemos o réu, sendo este, na verdade, culpado. Ao cometermos o erro tipo I, estamos prejudicando o réu, enquanto o erro do tipo II prejudica a sociedade, pelo fato de termos absolvido um criminoso. Outra analogia é o lançamento de um medicamento por uma indústria farmacêutica. A empresa só investirá nesse medicamento caso a eficácia seja comprovada. Consideramos a hipótese nula — o medicamento é eficiente — e a hipótese alternativa — o medicamento não é eficiente. Ao cometermos o erro do tipo I, não lançamos o medicamento, alegando que ele não é eficiente, mas, na realidade, ele é. Ao cometermos o erro do tipo II, lançamos o medicamento, alegando que ele é eficiente, quando, na realidade, ele não é. Podem ser feitas várias analogias para o dia a dia. Outro exemplo: em uma agência bancária, a gerente concede crédito para os clientes que ela julga serem bons pagadores, por escores de crédito. H0 representa o cliente bom pagador e H1, o cliente mau pagador. A gerente comete erro do tipo I quando não concede crédito a um cliente que, na verdade, seria um bom pagador e comete erro do tipo II quando concede crédito a um mau pagador. O erro considerado mais importante a ser evitado ou controlado é o erro do tipo I, representado por α e denominado como o nível de significância do teste estatístico aplicado. O seu complementar 1 – α é denominado nível de confiança. Os valores para o nível de significância são encontrados em tabelas de distribuição de probabilidades e determinarão a região crítica, se rejeitamos a hipótese nula ou se não temos evidências suficientes para rejeitar a hipótese nula (aceitar H0). Observe que, quando aceitamos H0, podemos estar cometendo o erro do tipo II, que não é fixado. Então, não podemos afirmar que aceitamos H0 ao nível de significância fixado, pois não é esse tipo de erro que está nessa sentença. Testes de hipóteses paramétricos4 Esse nível de significância determinará a região crítica de acordo com as hipóteses formuladas. Com testes unilaterais, existe a probabilidade em uma das caudas da distribuição de probabilidades, dependendo das hipóteses formuladas. Já com um teste bilateral,há α/2 nas duas caudas da distribuição. Veja as representações da Figura 1. Figura 1. Regiões críticas, considerando a distribuição normal. Fonte: Freund (2006, p. 307). Rejeitar a hipótese nula Rejeitar a hipótese nula Rejeitar a hipótese nula Rejeitar a hipótese nula α α/2 α/2 α –zα –zα/2 zα/2 zα z z z Hipótese alternativa μ < μ 0 Hipótese alternativa μ > μ 0 Hipótese alternativa μ ≠ μ 0 0 0 0 Identificar o tipo de erro faz parte do teste de hipóteses, quando definimos o nível de significância do teste — ele é definido juntamente com as hipóteses, antes mesmo de qualquer coleta de dados ser efetuada. 5Testes de hipóteses paramétricos O valor de nível de significância (α) mais utilizado é o de 5%. Isso dependerá de uma decisão do pesquisador, querendo ser mais rigoroso ou não. Com a teoria das probabilidades de erro tipo I e tipo II, podemos, também, determinar o poder do teste utilizado. O poder de um teste é definido pela probabilidade do complementar do erro do tipo II, ou seja, 1 – β. Logo, quanto menor a probabilidade de erro do tipo II, mais poder terá o teste aplicado. Para a diminuição da probabilidade de erro do tipo II, aumenta-se a amostra estudada. Então, costuma-se afirmar que, quanto maior for o tamanho da amostra pesquisada, mais poderoso será o teste utilizado. Tipos de erros na prática Quando estamos comparando hipóteses, podemos, na maioria das vezes, estar cometendo um erro na nossa decisão. Só podemos ter certeza se soubermos a verdade. Para uma melhor compreensão dessa situação, podemos fazer uma analogia com um ditado que diz: “para toda a situação existem três versões: a sua, a da outra parte e a verdade”. No caso da estatística, só sabemos se temos efetivamente a verdade quando tivermos o valor do parâmetro populacional. Fora isso, quando temos uma amostra da população, haverá sempre uma possibilidade de errar, o que seria a realidade da população em estudo. Além dos exemplos do caso jurídico, do lançamento do medicamento e da concessão de crédito, no dia a dia, existem outros dos mais variados na tomada de decisões. Por exemplo, muitos celulares atualmente desbloqueiam a tela por impressão digital, sendo assim: H0 desbloqueia a tela, as impressões conferem. H1 não desbloqueia a tela, as impressões não conferem. Cometemos o erro do tipo I quando rejeitamos H0, e, na realidade, as im- pressões eram verdadeiras. E cometemos o erro do tipo II quando aceitamos H0, mas, na verdade, as impressões não conferem. Assim como nos demais exemplos, o erro a ser controlado é do tipo I, “que seja culpado até que provem o contrário”. Isso ocorre no exemplo do réu, julgando que um dano ao réu (uma vez que será condenado sendo inocente) seja menos prejudicial à sociedade do que o erro do tipo II, que considera inocente um criminoso. Porém, de acordo com os direitos humanos, não podemos arcar com o dano de condenar uma pessoa Testes de hipóteses paramétricos6 inocente. Para controlar o erro do tipo II, as cortes refinam seus métodos de julgamento. No exemplo da indústria farmacêutica, quando não lançamos um medi- camento ao cometer o erro do tipo I, estamos de qualquer forma deixando os usuários desse medicamento sem a solução para a doença. Porém, se cometemos o erro do tipo II, lançamos um medicamento que não é eficaz, o que pode causar danos, mas a indústria farmacêutica refina a cada dia seus métodos para testes de novos medicamentos. Assim como no exemplo da gerente de banco, conceder crédito a um mau pagador, que configura erro do tipo II, é prejudicial apenas para a instituição de crédito. Já o erro do tipo I, de negar crédito a um bom pagador, acaba prejudicado o cliente e não o banco. Sendo assim, o erro tipo I seria o pior de ser aceito, sem contar que as instituições financeiras a cada dia melhoram seus escores de crédito, e o erro do tipo II é menos comum. Por esses motivos que o erro fixado é o do tipo I, chamado de nível de significância (α). Essa será sempre a probabilidade de erro fixada nos testes de hipóteses paramétricos e não paramétricos. Desejamos controlar, então, o falso positivo, erro do tipo I, quando rejeita- mos a hipótese nula e ela seria a verdadeira. Os falsos negativos, erros do tipo II, quando aceitamos a hipótese nula e ela seria falsa, podem ser controlados com o aumento da amostra estudada. Devemos, então, conseguir um equilíbrio por meio da redução de ambas as probabilidades de erro. Na prática, um teste estatístico será iniciado pela formulação das hipóteses nula e alternativa, depois calculada a estatística de teste, que atualmente é facilmente resolvida em planilhas eletrônicas e softwares estatísticos, então, a tomada de decisão de acordo com o nível de significância do teste realizado e, por último, a conclusão do teste. Queremos comparar as médias salariais de homens e mulheres que trabalham com cargos gerenciais. Foram coletados dados de 15 homens e 12 mulheres, considerando nível de significância de 5%. Como estamos lidando com duas amostras independentes, utilizaremos o teste t para duas delas. 7Testes de hipóteses paramétricos Primeiro, formulamos as hipóteses: H0: salário dos homens é igual ao salário das mulheres H1: salário dos homens é diferente do salário das mulheres Depois calculamos a estatística de teste: tcalc = (x–1 – x – 2) s21 n1 s22 n2 + = = (6640 – 6375) 174000 15 + 367500 12 265 205,49 = 1,2896 De acordo com a saída do Excel: Homem Mulher Média 6640 6375 Variância 174000 367500 Observações 15 12 Hipótese da diferença de média 0 gl 19 Stat t 1,289618 P(T<=t) unicaudal 0,106331 t crítico unicaudal 1,729133 P(T<=t) bicaudal 0,212661 t crítico bicaudal 2,060024 Teste-t: duas amostras presumindo variâncias diferentes O próximo passo é definir a região crítica. Nesse caso, o valor tabelado da distribuição é t-student com α/2 = 0,025 e com os graus de liberdade iguais a GL = n1 + n2 – 2 = 15 + 12 – 2 = 25. Testes de hipóteses paramétricos8 Nível de significância - alfa GL 0,250 0,100 0,050 0,025 0,010 0,005 1 1,000 3,078 6,314 12,706 31,821 63,657 2 0,816 1,886 2,920 4,303 6,965 9,925 3 0,765 1,638 2,353 3,182 4,541 5,841 4 0,741 1,533 2,132 2,776 3,747 4,604 5 0,727 1,476 2,015 2,571 3,365 4,032 6 0,718 1,440 1,943 2,447 3,143 3,707 7 0,711 1,415 1,895 2,365 2,998 3,499 8 0,706 1,397 1,860 2,306 2,896 3,355 9 0,703 1,383 1,833 2,262 2,821 3,250 10 0,700 1,372 1,812 2,228 2,764 3,169 11 0,697 1,363 1,796 2,201 2,718 3,106 12 0,695 1,356 1,782 2,179 2,681 3,055 13 0,694 1,350 1,771 2,160 2,650 3,012 14 0,692 1,345 1,761 2,145 2,624 2,977 15 0,691 1,341 1,753 2,131 2,602 2,947 16 0,690 1,337 1,746 2,120 2,583 2,921 17 0,689 1,333 1,740 2,110 2,567 2,898 18 0,688 1,330 1,734 2,101 2,552 2,878 19 0,688 1,328 1,729 2,093 2,539 2,861 20 0,687 1,325 1,725 2,086 2,528 2,845 21 0,686 1,323 1,721 2,080 2,518 2,831 22 0,686 1,321 1,717 2,074 2,508 2,819 23 0,685 1,319 1,714 2,069 2,500 2,807 24 0,685 1,318 1,711 2,064 2,492 2,797 25 0,684 1,316 1,708 2,060 2,485 2,787 9Testes de hipóteses paramétricos Na tabela, encontramos o valor tabelado de 2,06. Como a estatística de teste = 1,2896 < valor tabelado = 2,06, consequentemente fora da região crítica, aceitamos H0. Por fim, concluímos a respeito do teste: Não existem evidências suficientes para rejeitar H0. Logo, o salário médio de homens e mulheres pode ser considerado igual, ao nível de significância de 5%. Estamos estudando o valor do preço do combustível nos 3 estados da região Sul. Em cada uma das regiões, foi pesquisado o valor da gasolina comum. Tomaremos a decisão considerando o nível de significância de 5%. Como estamos querendo comparar três médias, utilizaremos o teste ANOVA (análise de variância). Primeiramente, formulamos as hipóteses: H0: o valor do preço médio da gasolina comum é igual nos três estados H1: o valor do preço médio da gasolina comum é diferente em pelo menos um dos três estados O segundopasso é o cálculo da estatística de teste. Para o teste ANOVA, os cálculos manuais são bastante extensos. Por isso, tomaremos por base apenas a saída do Excel. Resumo Grupo Contagem Soma Média Variância RS 10 48,63 4,863 0,001534 SC 12 55,65 4,6375 0,002039 PR 8 39,66 4,9575 0,001393 Testes de hipóteses paramétricos10 ANOVA Fonte da va- riação SQ gl MQ F valor-P F crítico Entre grupos 0,554895 2 0,277448 162,9027 8,54E-16 3,354131 Dentro dos grupos 0,045985 27 0,001703 Total 0,60088 29 Na terceira etapa, definimos a região crítica. Como o valor calculado na tabela F = 162,9027 > valor tabelado da distribuição Fcrítico = 3,354131, rejeitamos H0. Observe que podemos tomar a decisão do teste por meio da comparação do valor calculado da estatística de teste com o valor tabelado na distribuição de probabilidades referente ao teste utilizado. Esse valor tabelado é o que chamamos de crítico — é o valor tabelado considerando o nível de signifi- cância fixado. Se estatística de teste > valor tabelado (valor crítico) → rejeitamos H0 Se estatística de teste < valor tabelado (valor crítico) → não rejeitamos H0 Assim como também podemos tomar a decisão de acordo com a probabi- lidade da estatística de teste (valor p) comparada com a probabilidade fixada do nível de significância (por exemplo, 5%). valor de p (probabilidade da estatística de teste) > nível de significância → não rejeitamos H0 valor de p (probabilidade da estatística de teste) > nível de significância → rejeitamos H0 11Testes de hipóteses paramétricos M ét od o N ív el d e m en su ra çã o da v ar iá ve l Te st es d e hi pó te se s U m a am os tr a D ua s am os tr as Vá ri as a m os tr as Re la ci on ad as N ão re la ci on ad as Re la ci on ad as N ão re la ci on ad as N ão Pa ra m ét ric o N om in al Bi no m ia l Q ui q ua dr ad o um a am os tr a M ac N em ar Q ui q ua dr ad o du as a m os tr as Co ch ra n Q Q ui q ua dr ad o vá ria s a m os tr as in de pe nd en te s O rd in al Ko lm og or ov - -S m irn ov W ilc ox on M ed ia na , M an n- W hi tn ey U , Ko lm og or ov - -S m irn ov An ál ise d e va riâ nc ia e m du as d ire çõ es de F rie dm an M ed ia na - -v ár ia s a m os tr as in de pe nd en te s An ál ise d e va riâ nc ia nu m a di re çã o de Kr us ka l-W al lis Pa ra m ét ric o Q ua nt ita tiv a z pa ra u m a m éd ia , t p ar a um a m éd ia t p ar a am os tr as re la ci on ad as (p ar ea da s) D ife re nç a de m éd ia s z pa ra d ua s a m os - tr as in de pe nd en te s t p ar a du as a m os - tr as in de pe nd en te s Re gr es sã o An ál ise d e va riâ nc ia Q ua dr o 3. R es um o de ti po s d e te st es d e hi pó te se s Testes de hipóteses paramétricos12 DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto Alegre: AMGH, 2014. FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto Alegre: Bookman, 2006. 13Testes de hipóteses paramétricos Conteúdo: BIOESTATÍSTICA Juliane Silveira Freire da Silva Revisão técnica: Rute Henrique da Silva Ferreira Licenciada em Matemática Mestre em Educação Matemática Doutora em Sensoriamento Remoto Catalogação na publicação: Karin Lorien Menoncin CRB-10/2147 P228b Parenti, Tatiane. Bioestatística / Tatiane Parenti, Juliane Silveira Freire da Silva, Jamur Silveira; [revisão técnica : Rute Henrique da Silva Ferreira ]. – Porto Alegre: SAGAH, 2018. 207 p. il. ; 22,5 cm ISBN 978-85-9502-362-8 1. Bioestatística. I. Silva, Juliane Silveira Freire da. II. Silveira, Jamur. III.Título. CDU 311 Bioestatistica_LIVRO.indb 2 13/03/2018 09:16:30 Organização de dados: tabelas e gráficos Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Reconhecer por que os dados devem ser organizados em estatística. � Identificar os principais tipos de tabelas e gráficos. � Selecionar o tipo de gráfico mais adequado para cada tipo de situação. Introdução Neste capítulo, vamos calcular e aplicar métodos estatísticos à análise de dados. A partir daí, construir e analisar tabelas e gráficos utilizando as normas científicas. Por que organizamos os dados em estatística? Quando estamos coletando os dados, essa coleta ocorre de forma aleatória e, durante esse processo, não temos a capacidade de organizá-los e também não temos condições de tomar alguma decisão com base na coleta, sem o tratamento desses dados. Por esse motivo, precisamos começar a analisar os dados coletados e, de alguma forma, resumi-los para podermos visualizar os resultados de forma organizada, iniciando, assim, a análise descritiva dos dados. Primeiramente, resumimos em tabelas de distribuição de frequências e depois podemos fazer gráficos, o que visualmente é melhor para representar os dados (Figura 1). A análise descritiva dos dados ainda dispõe de outras técnicas além dessas, mas, neste capítulo, atentaremos para a análise de tabelas e gráficos. Bioestatistica_LIVRO.indb 99 13/03/2018 09:16:40 Figura 1. Exemplo de diferentes tipos de gráficos. Fonte: Araujo (2011). Título do grá�co Título do grá�co Título do grá�co Título do grá�co Série 1 (linha esquerda) Série 1 Série 2 Série 3 18 16 14 12 10 45 10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 40 35 30 25 20 15 10 5 7 6 5 4 3 2 1 0 8 6 4 2 Série 4 Série 1 Série 2 Série 3 Série 4 Série 2 (linha direita) Categoria E, 1 Categoria A, 5 Categoria D, 2 Categoria C, 3 Categoria B, 4 Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov DezJan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Sobre a coleta de dados, é importante estarmos sempre atentos à forma como coleta- mos os dados. Precisamos, antes de qualquer coleta, estabelecer a metodologia para a escolha das unidades amostrais. Muitas vezes, quando coletamos dados, estamos interessados em poder fazer inferência para o restante da população (extrapolar para toda a população). Somente quando temos uma amostra probabilística – ou seja, os elementos da população são escolhidos por sorteio aleatório – que poderemos realizar inferências. Caso a amostra não seja probabilística, poderemos apenas fazer uma análise descritiva dos dados e o resultado dessa análise dirá respeito somente à amostra pesquisada. Organização de dados: tabelas e gráficos100 Bioestatistica_LIVRO.indb 100 13/03/2018 09:16:40 Tipos de tabelas e gráficos Existem tabelas que são para dados qualitativos, que também chamamos de tabelas para dados categóricos (Tabela 1). São tabelas simples em que se anota a frequência que cada uma das opções de resposta aparece na amostra. Sexo F Fr Masculino 63 52,5 Feminino 57 47,5 Total 120 100,0 Tabela 1. Exemplo de tabela com dados qualitativos. Conforme verificado na Tabela 1, a coluna f (frequência simples absoluta) é resultado da contagem da frequência que cada uma das palavras apareceu na amostra. Ou seja, havia 63 pessoas do sexo masculino e 57 do sexo feminino na amostra. Para calcularmos a coluna fr, precisamos ver quanto cada uma das fre- quências tem de proporção no total da amostra. Podemos resolver isso por regra de três. 120 63 100% x 120 ∙ x = 63 ∙ 100 x = 63∙100 120 = 52,5% Podemos representar essa tabela com um gráfico de setores, também conhecido como gráfico de pizza, conforme a Figura 2. 101Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 101 13/03/2018 09:16:40 Figura 2. Gráfico de setores (pizza). 47,5 52,5 Masculino Feminino Observe que em tabelas para dados de uma variável qualitativa nominal, devemos ordenar do mais frequente para o menos frequente. Já quando temos uma variável qualitativaordinal, precisamos respeitar a ordem em que a variável é apresentada (Tabela 2). Satisfação F fr Muito satisfeito 12 13,3 Satisfeito 14 15,6 Indiferente 21 23,3 Insatisfeito 19 21,1 Muito insatisfeito 24 26,7 Total 90 100 Tabela 2. Exemplo de tabela com dados qualitativos ordinais sobre a satisfação com o atendimento recebido em uma Unidade de Pronto Atendimento (UPA) de Porto Alegre, RS. Para representarmos essa tabela, podemos fazer um gráfico de colunas, conforme a Figura 3. Organização de dados: tabelas e gráficos102 Bioestatistica_LIVRO.indb 102 13/03/2018 09:16:40 Figura 3. Exemplo de gráfico de colunas. 30,0 25,0 20,0 15,0 13,3 Muito satisfeito Muito insatisfeito Satisfeito InsatisfeitoIndiferente 15,6 23,3 26,7 21,1 10,0 5,0 0,0 Podemos também utilizar as tabelas para representar dados quantitativos. Nesse caso, podemos ter tabelas por ponto e tabelas por intervalos (também chamadas de tabelas por classes). Variáveis quantitativas discretas costumam gerar tabelas de distribuição de frequência por ponto (Tabela 3). Número de filhos F fr 0 12 15,0 1 11 13,8 2 23 28,8 3 19 23,8 4 9 11,3 5 6 7,5 Total 80 100 Tabela 3. Exemplo de tabela quantitativa sobre o número de filhos por família. 103Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 103 13/03/2018 09:16:40 Também podemos representar esses dados com um gráfico de colunas, conforme a Figura 4. Figura 4. Gráfico de colunas sobre o número de filhos por família. 30,0 35,0 25,0 20,0 15,0 15,0 13,8 28,8 23,8 11,3 7,5 543210 10,0 5,0 0,0 Já as variáveis quantitativas geram tabelas de distribuição de frequências por intervalos (Tabela 4). Faixa F Fr 15|---25 9 14,5 25|---35 12 19,4 35|---45 22 35,5 45|---55 11 17,7 55|---65 8 12,9 Total 62 100,0 Tabela 4. Exemplo de tabela com variáveis quantitativas sobre a faixa etária. Organização de dados: tabelas e gráficos104 Bioestatistica_LIVRO.indb 104 13/03/2018 09:16:40 Para representarmos essa tabela, precisamos nos dar conta de um fato: entre as faixas, não existe um intervalo numérico, pois chegamos ao limite de um número e na faixa seguinte já iniciamos com ele. Assim, não podemos representar nenhum espaço no eixo do gráfico quando temos um gráfico de colunas. Nesse caso, as colunas estão grudadas umas às outras, e chamamos esse gráfico de histograma (Figura 5). Figura 5. Exemplo de gráfico histograma. 30,0 35,0 25,0 20,0 15,0 14,5 15| ---25 25| ---35 35| ---45 45| ---55 55| ---65 19,4 35,5 17,7 12,9 10,0 5,0 0,0 Quando temos uma variável quantitativa discreta, pode ser que também precisemos fazer intervalos para melhor representar os dados. Caso existam mais de 10 opções de resposta, já podemos montar os intervalos para poder representar melhor esses dados. 105Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 105 13/03/2018 09:16:40 Podemos ainda acrescentar mais colunas a essas tabelas que representam dados quantitativos para utilizarmos para fins de análise (Tabela 5). As co- lunas que necessariamente precisam aparecer em uma tabela de distribuição de frequências, além da primeira coluna que representa as opções de resposta dos dados coletados, são: � f → frequência simples absoluta (resulta da contagem na amostra). � fr → frequência simples relativa (resulta da regra de três vista ante- riormente no capítulo). � F → frequência acumulada absoluta (resulta somando a coluna f). � Fr → frequência acumulada relativa (resulta somando a coluna fr). � x’ → ponto médio do intervalo, no caso da tabela de intervalos. Faixa f fr F Fr 15|---25 9 14,5 9 14,5 (15+25)/2=20 25|---35 12 19,4 9+12=21 33,9 (25+35)/2=30 35|---45 22 35,5 21+22=43 69,4 (35+45)/2=40 45|---55 11 17,7 43+11=54 87,1 (45+55)/2=50 55|---65 8 12,9 54+8=62 100,0 (55+65)/2=60 Total 62 100,0 - - - Tabela 5. Exemplo de tabela de faixa etária com demais colunas. Sobre a nomenclatura para a tabela de distribuição de frequências por intervalos, a barra na vertical (|) indica que o número ao seu lado está contido no intervalo. Quando temos o traço na horizontal, chegamos muito próximo ao número que está ao seu lado, mas não chegamos até ele. Por exemplo: 15|---25 → o número 15 está contido nesse intervalo, mas o número 25 não. 15---|25 → o número 15 não está contido nesse intervalo e o número 25 sim. 15---25 → o número 15 não está contido nesse intervalo e o número 25 também não. 15|---|25 → o número 15 está contido nesse intervalo e o número 25 também. Organização de dados: tabelas e gráficos106 Bioestatistica_LIVRO.indb 106 13/03/2018 09:16:41 Agora, qual gráfico escolher? Além dos gráficos apresentados aqui, temos uma grande quantidade de gráficos. Os mais básicos para a análise descritiva de dados são os de setores e os de barras ou colunas, mas não são somente esses que podemos utilizar. Quando tivermos uma variável qualitativa, tanto nominal quanto ordinal, podemos representar esses dados com um gráfico de setores, de colunas ou barras (Figura 6). Figura 6. Exemplo de dados representados em um gráfico de setores. Dois Irmãos 7% Campo Bom 10% São Leopoldo 15% Porto Alegre 32% Canoas 20% Novo Hamburgo 16% Para os mesmos dados, poderíamos representar em um gráfico de colunas e de barras (Figuras 7 e 8). 107Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 107 13/03/2018 09:16:41 Figura 7. Exemplo de gráfico de colunas utilizando os dados da Figura 6. 30,0 35,0 32,2 20,0 15,6 15,6 10,0 6,7 25,0 20,0 15,0 10,0 5,0 0,0 Dois Irmãos Campo Bom São Leopoldo Porto Alegre Canoas Novo Hamburgo Figura 8. Exemplo de gráfico de barras utilizando os dados da Figura 6. Porto Alegre Canoas Novo Hamburgo São Leopoldo Campo Bom Dois Irmãos 32,2 20,0 15,6 15,6 10,0 6,7 0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 Agora, para as variáveis quantitativas para tabelas de distribuição de fre- quências simples ou por intervalos, podemos ter gráficos de colunas para representar as variáveis quantitativas discretas, conforme mostra a Figura 9. Organização de dados: tabelas e gráficos108 Bioestatistica_LIVRO.indb 108 13/03/2018 09:16:41 Para os dados de variáveis quantitativas representadas em tabelas de distri- buição de frequências por intervalos, representamos graficamente com um histograma, conforme mostra a Figura 10. Figura 9. Exemplo de gráfico de colunas com variáveis quantitativas discretas. 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 0 1 2 3 4 15,0 13,8 28,8 23,8 11,3 Figura 10. Exemplo de histograma. 30,0 25,0 20,0 15,0 10,0 5,0 0,0 0|---10 10|---20 20|---30 30|---40 40|---50 25,6 24,4 17,4 22,1 10,5 109Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 109 13/03/2018 09:16:41 Além desses gráficos, podemos citar ainda o gráfico de dispersão, que é utilizado em análise de correlação e regressão, quando temos duas variáveis e verificamos a relação entre elas. Imaginemos duas variáveis, peso e altura. Podemos, com o gráfico de dispersão (Figura 11), verificar a relação entre elas. Cada um dos pontos representa um par de valores (peso no eixo y e altura no eixo x). Figura 11. Exemplo de diagrama de dispersão. Pe so Altura 110 100 90 80 70 60 50 40 150 160 170 180 190 200 O gráfico de linhas é utilizado quando desejamos representar uma variável quantitativa ao longo do tempo (Figura 12). O eixo x sempre será o tempo. Imaginemos acompanhar a evolução do número de nascidos vivos em uma pequena maternidade ao longo dos anos. Organização de dados: tabelas e gráficos110 Bioestatistica_LIVRO.indb 110 13/03/2018 09:16:41 Figura 12. Exemplo de gráfico de linhas. 12601250 1240 1230 1220 1210 1200 1190 1180 1170 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Nestes endereços eletrônicos, você pode aprender a fazer gráficos utilizando o Excel: https://goo.gl/4mQZ0m https://goo.gl/Ek3Ydy 111Organização de dados: tabelas e gráficos Bioestatistica_LIVRO.indb 111 13/03/2018 09:16:41 Considere os dados referentes a uma pesquisa com 20 famílias de um bairro pequeno, onde foi perguntado quantas vezes o chefe da família procurou o médico no ano anterior. As respostas da coleta são as seguintes: 1 4 2 0 2 2 2 3 0 4 5 0 1 1 3 3 1 4 2 5 Para representarmos esses dados, o primeiro passo é a montagem da tabela de distribuição de frequências. Precisamos contar quantas vezes cada um dos números apareceu e então fazer os seus percentuais. nº de visitas f fr 0 3 15 1 4 20 2 5 25 3 3 15 4 3 15 5 2 10 total 20 100 A segunda maneira de representarmos esses dados seria por meio de um gráfico. 30,0 25,0 25,0 20,0 20,0 15,0 15,0 15,015,0 10,0 10,0 5,0 0,0 0 1 2 3 4 5 Concluímos então que o número mais frequente de visitas é igual a 2, representando 25%. Ou seja, mais da metade dos chefes de família foi, no máximo, até duas vezes a uma consulta com um médico no último ano. Organização de dados: tabelas e gráficos112 Bioestatistica_LIVRO.indb 112 13/03/2018 09:16:41 ARAUJO, A. Gráficos: modelos prontos. 04 fev. 2011. Disponível em: <http://geomor- fologiacesc.blogspot.com.br/2011/02/graficos-modelos-prontos.html>. Acesso em: 26 out. 2017. Leituras recomendadas CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2007. FREUND, J. E. Estatística aplicada economicamente. 11. ed. Porto Alegre: Bookman, 2007. Referência Organização de dados: tabelas e gráficos113 Bioestatistica_LIVRO.indb 114 13/03/2018 09:16:42 Encerra aqui o trecho do livro disponibilizado para esta Unidade de Aprendizagem. Na Biblioteca Virtual da Instituição, você encontra a obra na íntegra. METODOLOGIA CIENTÍFICA Gisele Lozada Hipóteses de pesquisa Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Definir hipótese de pesquisa. � Desenvolver hipótese de pesquisa. � Identificar as variáveis de pesquisa. Introdução Após as primeiras definições de uma pesquisa, que incluem a escolha do tema, o desenvolvimento do problema e a elaboração dos objetivos (geral e específicos) e da justificativa, é chegada a hora de oferecer al- guma solução aceitável ao problema proposto, que será comprovada ou refutada com a realização do estudo. Essa demanda é atendida por meio da construção da chamada hipótese de pesquisa, que, além de propor uma solução para o problema em estudo, possibilita identificar os fatores envolvidos nele, ou seja, as variáveis de pesquisa. Neste capítulo, você estudará as hipóteses de pesquisa, verificando no que consistem e como podem ser desenvolvidas, além de observar como identificar as variáveis envolvidas na hipótese testada por meio da pesquisa. 1 Definição da hipótese de pesquisa Uma hipótese é uma suposição ou explicação provisória sobre um problema apresentado. Em sua forma mais simplista, consiste em uma expressão verbal que pode ser definida como verdadeira ou falsa. As hipóteses devem ser submetidas a testes e, se forem reconhecidas como verdadeiras, passam a ser aceitas como respostas ao problema proposto, ou seja, a hipótese compreende a proposição de uma resposta suposta, provável e provisória a um problema cientificamente válido. Desse modo, hipóteses consistem em tentativas de responder ao problema de pesquisa, constituindo-se como preposições antecipadoras ao levantamento da realidade que o pesquisador pretende demonstrar com seu estudo. Contudo, mesmo que problema e hipótese sejam enunciados que mantêm uma relação com as variáveis, os fatos e os fenômenos estudados, é importante identificar a diferença entre eles: o problema é uma sentença interrogativa, enquanto a hipótese representa uma sentença afirmativa mais detalhada (BARROS; LEHFELD, 2000; GIL, 2017; MARCONI; LAKATOS, 2005). Considere o seguinte problema: quais fatores contribuem para o consumo de cerveja por estudantes universitários? Diversas respostas poderiam ser obtidas, dando origem a afirmações como: � estudantes ansiosos tendem a consumir mais cerveja; � estudantes do sexo masculino são mais propensos ao consumo de cerveja; � a existência de bares próximos a instituições de ensino é um fator que estimula o consumo de cerveja; � estudantes de cursos noturnos tendem a consumir mais cerveja do que os dos cursos matutinos. Tais afirmações, que podem ser verdadeiras ou falsas, devem ser verificadas mediante procedimentos específicos. Desse modo, as afirmações podem ser consideradas hipóteses, tendo em vista que são supostas respostas ao problema proposto (GIL, 2017). No Quadro 1, há definições de hipótese de pesquisa elaboradas por dife- rentes autores, as quais, além de oferecerem subsídio para inúmeras conside- rações, demonstram que a hipótese de pesquisa é um elemento há muito tempo considerado no contexto da pesquisa científica, o que ratifica sua relevância e solidifica tais conceitos, que servem como base para diversas pesquisas. Hipóteses de pesquisa2 Autor Definição Pardinais (1969, p. 132) “Hipótese é uma proposição enunciada para responder a um problema.” Boudon e Lazarsfeld (1979, p. 48) “A hipótese de trabalho é a resposta hipotética a um problema para cuja solução se realiza toda investigação.” Rudio (1978, p. 97) “Chama-se de enunciado de hipótese a fase do método de pesquisa que vem depois da formulação do problema. Sob certo aspecto, podemos afirmar que toda a pesquisa científica consiste apenas em enunciar e verificar hipóteses; estas são suposições que se fazem na tentativa de explicar o que se desconhece. Esta suposição tem por característica o fato de ser provisória, devendo, portanto, ser testada para se verificar sua validade.” Trujillo (1974, p. 132) “A hipótese é uma proposição antecipadora à comprovação de uma realidade existencial. É uma espécie de pressuposição que antecede a constatação dos fatos. Por isso se diz também que as hipóteses de trabalho são formulações provisórias do que se procura conhecer e, em consequência, são supostas respostas para o problema ou assunto da pesquisa.” Ander-Egg (1978, p. 20) “A hipótese é uma tentativa de explicação mediante uma suposição ou conjectura verossímil, destinada a ser provada pela comprovação dos fatos.” Schrader (1974, p. 47) “Hipóteses são exteriorizações conjecturais sobre as relações entre dois fenômenos. Representam os verdadeiros fatores produtivos da pesquisa, com os quais podemos desencadear o processo científico. É válido o princípio de que uma investigação não pode produzir nada mais do que aquilo que as hipóteses anteriormente formuladas já afirmavam.” Galtung (1973, p. 371) “Hipóteses são o conjunto de variáveis inter-relacionadas.” Kerlinger (1980, p. 38) “Uma hipótese é um enunciado conjectural das relações entre duas ou mais variáveis. Hipóteses são sentenças declarativas e relacionam de alguma forma variáveis a variáveis. São enunciados de relações e, como os problemas, devem implicar a testagem das relações enunciadas.” Quadro 1. Definições de hipótese de pesquisa (Continua) 3Hipóteses de pesquisa Fonte: Adaptado de Marconi e Lakatos (2000). Autor Definição Selltiz et al. (1965, p. 48) “Uma hipótese é uma proposição, condição ou princípio, que é aceito (provisoriamente) para obter suas consequências lógicas e, por intermédio de um método, comprovar seu acordo com os fatos conhecidos ou com aqueles que podem ser determinados.” Goode e Hatt (1967, 1969) “Os vários fatos em uma teoria podem ser logicamente analisados e outras relações podem ser deduzidas além daquelas estabelecidas na teoria. Neste ponto não se sabe se essas deduções sãocorretas. A formulação da dedução, contudo, constitui a hipótese; se verificada, torna-se parte de uma construção teórica futura.” Quadro 1. Definições de hipótese de pesquisa (Continuação) Algumas das definições de hipótese apresentadas no Quadro 1 demonstram uma característica básica desse elemento da pesquisa: a hipótese é uma resposta suposta, provável e provisória ao problema. Isso deixa claro que, no desenvol- vimento de uma pesquisa, primeiro se deve formular o problema para, depois, criar a hipótese de pesquisa, conforme apontam Marconi e Lakatos (2000). Tomando como base tais características da hipótese de pesquisa, podemos identificar algumas convergências. Uma delas reside no fato de que a hipótese está inter-relacionada com fatos e fenômenos, o que explica a necessidade de relacionamento e ordenamento dentro da pesquisa. Outra é a limitação do campo da hipótese pelo próprio âmbito do que ela afirma, ou seja, a hipótese delimita a área de observação e de experimentação com a finalidade de iden- tificar o ordenamento entre os fatos. Além disso, as hipóteses se baseiam em variáveis e nas relações entre duas ou mais variações — por um lado, sua comprovação pode depender dos fatos (fenômenos ou variáveis) que serão determinados (verificados, analisados ou até mesmo desconhecidos), e, por outro, tais fatos poderão já ser conhecidos e baseados em teorias existentes. Hipóteses de pesquisa4 Essas noções nos levam a observar a existência de dois tipos de hipóteses: a hipótese explicativa, formulada sempre post-factum e que aparece como resultado das generalizações gradativas de proposições existentes na teoria de níveis inferiores; e a hipótese preditiva, formulada ante-factum, ou seja, precede a observação empírica na teoria de nível superior, por meio de pesquisas já existentes (MARCONI; LAKATOS, 2000). Por suas características e funções, as hipóteses cumprem um importante papel no contexto da pesquisa científica, com sua principal atuação no processo de investigação científica pela capacidade de, mediante o teste adequado, proporcionar a obtenção de respostas aos problemas propostos pelo estudo. Por isso, embora possam ser consideradas afirmações que muitas vezes derivam do senso comum, as hipóteses são muito mais do que simples suposições ou palpites, pois conduzem à verificação empírica da questão que o estudo se propõe a testar (GIL, 2017). Agora que você já viu algumas considerações relativas à definição das hipóteses, à sua importância e aos seus impactos sobre a pesquisa, você pre- cisa se familiarizar com o seu desenvolvimento. A seguir, você verá como desenvolver hipóteses para que elas sirvam adequadamente aos propósitos da pesquisa científica. 2 Desenvolvimento da hipótese de pesquisa O desenvolvimento de hipóteses é um procedimento largamente utilizado no contexto da pesquisa científica e que requer a criatividade do pesquisador. Embora não tenha regras rígidas, costuma utilizar algumas fontes básicas de informação, que são levadas em consideração no momento da elaboração das hipóteses, como observação, resultados de outras pesquisas, teorias e intuição, descritas a seguir (GIL, 2017; MARCONI; LAKATOS, 2005). A observação é o procedimento básico e fundamental no momento do desenvolvimento de uma hipótese, uma vez que permite verificar na prática as relações entre os fatos em seu cotidiano, fornecendo os subsídios para a solução de problemas propostos pela ciência. O desenvolvimento de hipóteses a partir de observações tem a função de comprovar (ou não) as relações per- cebidas nas próprias observações, e alguns estudos trabalham exclusivamente com hipóteses originárias de observações. Contudo, hipóteses desse tipo têm pouca probabilidade de conduzir a um conhecimento suficientemente geral e explicativo. 5Hipóteses de pesquisa Resultados de outras pesquisas possibilitam desenvolver hipóteses a partir de investigações conduzidas por outros estudos, geralmente levando a conhecimentos mais amplos do que aqueles decorrentes da simples observa- ção. Hipóteses desse tipo se baseiam nas averiguações de outro estudo que prevalecem no estudo presente, fazendo com que seus resultados tenham um significativo grau de confiabilidade. Afinal, quando uma hipótese se funda- menta em estudos anteriores, caso o estudo no qual está inserida se confirme, o resultado auxilia na demonstração de que a relação se repete regularmente. Hipóteses derivadas de teorias são as mais interessantes, no sentido de que proporcionam ligação clara com o conjunto mais amplo do conhecimento das ciências, ainda que nem sempre isso seja possível. Em muitos campos da ciência, as teorias desenvolvidas não são suficientemente esclarecedoras da realidade. Contudo, hipóteses desenvolvidas a partir de teorias podem apre- sentar uma proposição afirmativa, tendo em vista uma sucessão de eventos (fatos e fenômenos) ou a correlação entre eles em determinado contexto. Já as hipóteses desenvolvidas a partir da intuição foram registradas em vários momentos da história humana e conduziram a grandes e importantes descobertas. Porém, tendo em vista a natureza da intuição, não é possível identificar com clareza as razões capazes de determinar as hipóteses, o que dificulta avaliar a sua qualidade. Além disso, a intuição é derivada da expe- riência pessoal, o que faz cada indivíduo reagir de maneira particular a certos fatos, levando em consideração a cultura em que vive e a ciência que conhece. Em sua obra A origem das espécies, Darwin levantou a hipótese de que os seres vivos não eram imutáveis, mas que haviam se modificado. Para tanto, além de contar com as suas observações pessoais, Darwin reuniu vários fatos que eram conhecidos em sua época, dando-lhes uma interpretação pessoal, da qual se originou a sua hipótese. Hipóteses de pesquisa6 A partir da definição de hipóteses, o pesquisador especifica melhor o tema e os objetivos de sua pesquisa, assim como as variáveis observadas no estudo, já que hipóteses normalmente resultam da relação entre duas ou mais variá- veis. Como você pode notar, as hipóteses desempenham um papel relevante no cenário dos estudos científicos. Desse modo, a elaboração e a utilização de hipóteses na realização de uma pesquisa podem ser justificadas pelo fato de que as hipóteses têm o propósito de orientar o pesquisador na coleta e na análise de dados (BARROS; LEHFELD, 2000). Assim, o desenvolvimento e a utilização de hipóteses em pesquisas possi- bilitam ao pesquisador moldar e focar seu objeto de estudo, já que permitem investigar as relações existentes entre as variáveis integrantes do fenômeno que o pesquisador se propôs a conhecer. Por meio das hipóteses, o pesquisador faz previsões sobre as relações esperadas entre as variáveis, estimando, nume- ricamente, os valores da população estudada, com base em dados coletados de amostras. Nesse contexto, o pesquisador adota procedimentos estatísticos para fazer inferências sobre a população com base no estudo de uma amostra (CRESWELL, 2010). Uma população é o conjunto total de elementos que se pretende estudar e a respeito do qual se pretende concluir algo. Contudo, como muitas vezes é difícil ou até mesmo impossível analisar todo o conjunto, estabelece-se uma fração para representá-lo, que corresponde à amostra. Desse modo, estuda-se uma parte do conjunto e, a partir dele, tiram-se conclusões que são aplicadas ao todo. Contudo, para que a hipótese possa servir de fato ao seu propósito, devem ser tomados alguns cuidados em sua elaboração. Há atributos básicos que a hipótese necessita ter, como ser simples, clara, compreensível e passível de verificação, além de seu desenvolvimento apresentar lastro em um referencial empírico, ou seja, conceitos devem ser observados, verificados e registrados a partir da realidade empírica. Caso o pesquisador não siga esses preceitos no desenvolvimento de suas hipóteses, corre o sério risco de comprometer os resultados de seuestudo, visto que, se as hipóteses forem inadequadas, os resultados não serão satisfatórios (BARROS; LEHFELD, 2000). 7Hipóteses de pesquisa Ainda que haja várias maneiras de formular hipóteses, partindo da consi- deração de que estas se baseiam fundamentalmente na relação existente entre duas ou mais variáveis, uma sugestão básica e comum para a sua elaboração é a seguinte: considerando X e Y duas variáveis que se relacionam, elabora-se uma hipótese tendo em conta que “se X..., então Y...” (MARCONI; LAKA- TOS, 2005). Ainda, no momento de formular uma hipótese devemos nos atentar a certos princípios e critérios. A ideia é que a hipótese seja: � plausível — deve indicar uma situação passível de ser admitida cientificamente; � consistente — em seu enunciado, não deve entrar em contradição com conhecimentos científicos mais amplos, assim como não deve existir contradição interna no enunciado; � específica — deve se restringir a variáveis e componentes fundamentais ao problema de pesquisa; � verificável — deve ser passível de verificação por meio de processos científicos aceitáveis, atualmente empregados; � clara e simples — deve ser perfeitamente compreensível e sua formu- lação precisa evitar termos ambíguos, prolixos e/ou confusos; � explicativa — deve estar perfeitamente articulada com o problema de pesquisa, ou seja, servir como explicação a ele. Além de considerar recomendações e possibilidades de como desenvolver uma hipótese, você deve compreender os diferentes fatores capazes de in- fluenciar esse processo. Nesse sentido, recomendamos que verifique os mais diversos pontos que poderão lhe auxiliar na construção de sua hipótese, pois assim terá um embasamento consistente em sua pesquisa. Para tanto, outro elemento importante no contexto das hipóteses são as variáveis de pesquisa, que darão apoio e sustentação ao desenvolvimento de seu estudo. Hipóteses de pesquisa8 3 Identificação das variáveis de pesquisa Além de compreender como funciona a definição e o desenvolvimento de hipóteses, você deve considerar que, dentro da pesquisa, existe o que chamamos de variável, que pode ser definida como uma classificação ou medida, uma quantidade que varia ou um conceito operacional que contém ou apresenta valores, aspectos, propriedade ou fator, discernível em um objeto de estudo e passível de mensuração. Tais valores são adicionados ao conceito operacional para transformá-lo em uma variável, que pode ser uma quantidade, uma qualidade, uma característica, uma magnitude, um traço, etc. As variáveis se alteram conforme cada caso particular e são totalmente abrangentes e mutuamente exclusivas. Contudo, para fins de pesquisa, a definição mais apropriada é a de que uma variável é qualquer coisa passível de classificação em duas ou mais cate- gorias. Ainda, podemos considerar as variáveis elementos ou características que variam em determinado fenômeno, podendo ser observadas, registradas e mensuradas. Em outras palavras, constituem aspectos observáveis de um fenômeno, capazes de apresentar variações, mudanças e diferentes valores em um dado fenômeno e entre fenômenos (BARROS; LEHFELD, 2000; GIL, 2017; MARCONI; LAKATOS, 2005). De forma genérica, uma variável é tudo aquilo que pode assumir diferentes valores numéricos, como temperatura, idade, renda familiar e número de filhos de um casal. No contexto da pesquisa, a variável constitui qualquer coisa capaz de ser classificada em duas ou mais categorias e que pode ser observada, registrada e mensurada, como sexo (masculino e feminino) e classe social (alta, média e baixa). 9Hipóteses de pesquisa No universo da ciência, as variáveis podem integrar três níveis diferentes, detalhados a seguir e demonstrados na Figura 1 (MARCONI; LAKATOS, 2005). 1. Primeiro nível: observações dos fatos, fenômenos, comportamentos e atividades reais. 2. Segundo nível: hipóteses. 3. Terceiro nível: teorias, hipóteses válidas e sustentáveis. Figura 1. Variáveis de pesquisa. Fonte: Adaptada de Marconi e Lakatos (2005). Na pesquisa, partimos de um problema — a indagação que se pretende elucidar por meio do estudo —, para o qual elaboramos uma hipótese, que consiste em uma solução provável para esse problema, permitindo respondê-lo provisoriamente. Então, a hipótese é testada por meio da pesquisa, para que se possa confirmá-la ou refutá-la. Para tanto, é necessário observar as variáveis envolvidas na hipótese. Hipóteses de pesquisa10 Veja a seguir alguns exemplos de hipóteses e variáveis. � Hipótese: países economicamente desenvolvidos apresentam baixos níveis de analfabetismo. ■ Variáveis: desenvolvimento econômico e analfabetismo. � Hipótese: o índice de suicídios é maior entre os solteiros do que entre os casados. ■ Variáveis: estado civil e índice de suicídios. Perceba que, nos exemplos, as hipóteses estão apenas afirmando que existe uma relação entre as variáveis, mas nada informam acerca da possível influência de uma sobre a outra. Contudo, em outros casos, as hipóteses de pesquisa indicam algum tipo de influência entre as variáveis, estabelecendo uma relação de dependência entre elas. Assim, além de identificar as variáveis, você precisa considerar a existência de uma relação entre elas e a maneira como se comportam. Desse modo, um aspecto relevante no que diz respeito às variáveis é a sua classificação em duas categorias fundamentais ao contexto da pesquisa científica: as variáveis independentes e dependentes. Há uma hipótese quando se afirma que as variações de uma variável correspondem às variações de outra (GIL, 2017; MARCONI; LAKATOS, 2005), conforme a seguir. � Variável independente (X): é aquela que influencia, determina ou afeta outra variável. Trata-se do fator determinante, condição ou causa para determinado resultado, efeito ou consequência. É o fator manipulado (geralmente) pelo investigador, na sua tentativa de assegurar a relação do fator com um fenômeno observado ou a ser descoberto, para ver qual influência exerce sobre um possível resultado. Assim, a variável independente pode ser manipulada pelo pesquisador a fim de avaliar os efeitos causados sobre a outra variável, chamada de variável dependente (APPOLINÁRIO, 2011). � Variável dependente (Y): consiste naqueles valores (fenômenos e fatores) a serem explicados ou descobertos em virtude de serem influen- ciados, determinados ou afetados pela variável independente. É o fator que aparece, desaparece ou varia à medida que o investigador introduz, retira ou modifica a variável independente. Consiste na propriedade 11Hipóteses de pesquisa ou fator que é efeito, resultado, consequência ou resposta a algo que foi manipulado na variável independente, ou seja, trata-se do valor que se supõe que depende de outra variável. Nos estudos experimentais, constitui-se nos efeitos estudados. Por exemplo: em uma pesquisa, se deseja estudar a ação da bebida alcoólica sobre o desempenho aca- dêmico de alunos universitários. A variável “desempenho acadêmico” é a variável dependente (efeito), e a “quantidade de bebida alcoólica ingerida” refere-se à variável independente (causa) do estudo (APPO- LINÁRIO, 2011). Veja a hipótese e as variáveis a seguir. � Hipótese: a classe social da mãe influencia o tempo de amamentação dos filhos. � Variáveis: classe social e tempo de amamentação, sendo a classe social a variável independente (X) e o tempo de amamentação a variável dependente (Y). Em síntese, em uma pesquisa, a variável independente é a que antecede a variável dependente, sendo a segunda uma consequência da primeira (MAR- CONI; LAKATOS, 2005). Para entender melhor, veja alguns exemplos a seguir. Se você bater no tendão patelar do joelho dobrado de uma pessoa, a perna dela esticará. Assim: � X = batida dada no tendão patelar do joelho dobrado da pessoa; � Y = o esticar da perna. Os filhos de pais com debilidade mental têm inteligência inferior à dos indivíduos cujos pais que não a apresentam. Veja:� X = presença ou ausência de debilidade mental nos pais; � Y = grau de inteligência dos indivíduos. Hipóteses de pesquisa12 Podemos encontrar também hipóteses em que há apenas uma variável independente e mais de uma dependente (MARCONI; LAKATOS, 2005). Considere, por exemplo, um indivíduo que se assusta com um barulho forte e inesperado: o seu pulso acelera, ele transpira e as pupilas de seus olhos dilatam. Agora, veja as variáveis: � X = susto com barulho forte e inesperado; � Y = aceleração do pulso (Y1), transpiração (Y2) e dilatação das pupilas (Y3). O fato é que existem fatores determinantes que atuam no sentido da relação causal entre as variáveis independente (determinante) e dependente (determi- nada). Nesse contexto, parece se impor pela lógica o critério de suscetibilidade à influência, ou seja, será dependente a variável que puder ser alterada, in- fluenciada ou determinada pela outra, que passa a ser considerada a variável independente ou causal (MARCONI; LAKATOS, 2005). Considere uma relação entre a idade e o tipo de atitude política: os idosos são mais conservadores do que os jovens. Nesse contexto, a idade seria a variável independente e a atitude política seria a variável dependente. Afinal, só se pode supor que a idade, por algum motivo, seja responsável pela posição ou atitude política, uma vez que ser conservadora não torna a pessoa mais velha, nem o progressismo rejuvenesce o indivíduo. Ainda, devemos notar que a influência entre as variáveis independente e dependente deriva de dois pontos principais, listados a seguir. 1. Ordem temporal: partindo do raciocino lógico de que o acontecido depois não pode ter influência no que aconteceu antes, a sequência temporal apresenta uma universalidade importante, isto é, a variável anterior no tempo é a independente e a que se segue é a dependente. 13Hipóteses de pesquisa 2. Fixidez ou alterabilidade das variáveis: algumas variáveis, muito utilizadas nas ciências biológicas e sociais, são consideradas fixas ou não sujeitas a influências, como sexo, raça, idade, ordem de nascimento e nacionalidade. Há outras variáveis importantes que são relativamente fixas, mas não absolutamente, ou seja, em determinadas ocasiões, podem se tornar algum elemento de reciprocidade, como status, religião, classe social, residência no campo ou na cidade. As variáveis podem ainda ser classificadas em outras categorias, como: � moderadoras e de controle; � extrínsecas e componentes; � intervenientes e antecedentes. Para saber mais, consulte Marconi e Lakatos (2005). Mais do que simplesmente saber que as variáveis existem, você precisa compreendê-las e entender a relação entre elas, bem como os impactos que poderão causar nas suas hipóteses de pesquisa. Note que a definição e o desenvolvimento das hipóteses estão ligados diretamente às variáveis que podem ser aplicadas e que, de acordo com a relação entre as variáveis, elas podem dar um rumo diferente à sua pesquisa. Então, quando for construir a sua hipótese de pesquisa, considere para que serve a hipótese, como ela deve ser criada e suas possíveis relações com os mais diferentes aspectos que eventualmente variarão em seu estudo. Assim, você terá um embasamento coerente para desenvolver os seus estudos e, consequentemente, gerar melhores resultados por meio de seus trabalhos de pesquisa. Hipóteses de pesquisa14 APPOLINÁRIO, F. Dicionário de metodologia científica: um guia para a produção do co- nhecimento científico. 2. ed. São Paulo: Atlas, 2011. BARROS, A. J. S.; LEHFELD, N. A. S. Fundamentos de metodologia científica. 2. ed. São Paulo: Pearson Prentice Hall, 2000. CRESWELL, J. W. Projeto de pesquisa: métodos qualitativo, quantitativo e misto. 3. ed. Porto Alegre: Artmed, 2010. GIL, A. C. Como elaborar projetos de pesquisa. 6. ed. São Paulo: Atlas, 2017. MARCONI, M. A.; LAKATOS, E. M. Fundamentos de metodologia científica. 6. ed. São Paulo: Atlas, 2005. MARCONI, M. A.; LAKATOS, E. M. Metodologia científica. 3. ed. São Paulo: Atlas, 2000. Leituras recomendadas DARWIN, C. A origem das espécies. Tradução de Daniel Moreira Miranda. São Paulo: Edipro, 2018. ESPÍRITO SANTO, A. Delineamentos de metodologia científica. São Paulo: Loyola, 1992. RUDIO, F. V. Introdução ao projeto de pesquisa científica. 24. ed. Petrópolis: Vozes, 1999. 15Hipóteses de pesquisa ESTATÍSTICA Juliane Silveira Freire da Silva Testes relativos à média e a proporções (grandes e pequenas amostras) Objetivos de aprendizagem Ao final deste texto, você deve apresentar os seguintes aprendizados: � Diferenciar testes relativos à média de testes relativos a proporções. � Contrastar testes relativos à média de testes de grandes e de pequenas amostras. � Comparar testes relativos às proporções e testes de grandes e de pequenas amostras. Introdução Neste capítulo, você vai estudar os testes estatísticos, ou seja, os testes de hipóteses. Você irá aprender como aplicá-los e verificar em que situações eles são utilizados. Aqui você irá conhecer melhor dois deles: o teste de hipóteses relativo à média e o teste de hipóteses relativo à proporção. É importante saber que não existem apenas esses dois tipos de testes de hipóteses, mas especialmente os testes de hipóteses para médias e para proporções são os mais utilizados. Testes para médias e proporções Testes estatísticos fazem parte da estatística inferencial. Existem testes de hipóteses para vários parâmetros, aqui veremos os testes relativos às médias e testes relativos às proporções. Os testes relativos à média servem para testar médias de uma amostra com o parâmetro populacional. Para a média ainda temos testes para comparar duas ou mais médias de amostras diferentes. Além disso, com essa mesma teoria de testes estatísticos, também podemos calcular intervalos de confiança para a média. Os testes relativos à proporção servem para testar uma determinada pro- porção, um determinado percentual, verificar se esse percentual é diferente ou não da proporção populacional. Não são apenas esses os testes existentes em estatística, temos outros, por exemplo, o teste para a variância. Segundo Kazmier (2008), o propósito do teste de hipóteses é determinar se um valor suposto (hipotético) para um parâmetro da população, como a média populacional, deve ser aceitável como sendo plausível, baseado no indício da amostra. Independentemente do tipo de teste realizado e do parâmetro a ser testado, o procedimento para a aplicação de um teste de hipóteses será o mesmo. Hipóteses Quando falamos em testes estatísticos, estamos falando em testes de hipóteses, sendo assim, antes de iniciarmos qualquer um dos testes, precisamos formular as hipóteses. Sempre teremos duas hipóteses, uma oposta complementar à outra. São denominadas hipótese nula e hipótese alternativa: H0: hipótese nula H1: hipótese alternativa Na literatura, também é encontrada a hipótese alternativa representada por Ha, em vez de H1. A hipótese nula representa o valor que se tem como referência e sempre será a hi- pótese de igualdade (=, ≥, ≤). Já a hipótese alternativa representa o contraposto a essa referência. Testes relativos à média e a proporções (grandes e pequenas amostras)2 O teste de hipótese é realizado para aceitar ou rejeitar a hipótese nula, para verificar se existem evidências suficientes para rejeitar a hipótese nula ou se não existem evidências suficientes para não a rejeitar (ou seja, aceitar a hipótese nula). Essa decisão é tomada com base no nível de significância, representado por α, que é a probabilidade de erro do tipo I. Os testes podem aceitar ou rejeitar a hipótese nula. Quando aceitamos ou rejeitamos essa hipótese, podemos cometer dois tipos de erros (Quadro 1): � Erro do tipo I — é o erro cometemos ao rejeitar a hipótese nula, quando, na realidade, a hipótese nula é verdadeira. A probabilidade de cometer o erro do tipo I é o nível de significância. � Erro do tipo II — é o erro que cometemosao aceitar a hipótese nula quando, na realidade, a hipótese nula é falsa. A probabilidade de co- metermos o erro do tipo II é representada por β. H0 verdadeira H0 falsa H0 aceita Decisão correta Erro tipo II (β) H0 rejeitada Erro tipo I (α) Decisão correta Quadro 1. Tipos de erros no teste de hipóteses O funcionamento de quaisquer testes de hipóteses passa por etapas bem definidas. Sempre precisamos, de forma inicial, formular as hipóteses nula e alternativa para depois definir o nível de significância do teste. Cada um dos testes terá uma estatística de teste a ser comparada com o nível de significância (α). A partir da comparação do valor calculado com o nível de significância aceitamos ou rejeitamos a hipótese alternativa. Nível de significância Segundo Spiegel e Stephens (2009), ao testar uma hipótese estabelecida, a probabilidade máxima com a qual estaremos dispostos a correr o risco de erro do tipo I é denominada nível de significância do teste. 3Testes relativos à média e a proporções (grandes e pequenas amostras) O nível de significância do teste (α), é representado pelo valor de p ou também co- nhecido como p-value (termo em inglês). Quanto menor for o valor de p, menor é a consistência entre os dados da hipótese nula. Esse nível de significância deve ser estabelecido antes de realizarmos o teste, antes de coletarmos a amostra. Rejeitamos H0 se o valor da probabilidade da estatística de teste for inferior ao valor de p. Não podemos rejeitar H0 quando o valor da probabilidade da estatística de teste for maior do que o valor de p. Na Figura 1, vemos a representação da curva normal, utilizada para o teste de hipóteses para médias. A região crítica considera um nível de significância de 5%. A região de rejeição é representada nas duas caudas da curva, dividimos, então, 2,5% para cada uma das caudas. Valores da probabilidade da estatística de teste inferiores a 0,025 recaem dentro da região crítica, em que rejeitamos H0; valores superiores a 0,025 recaem na região de aceitação; então, valores da probabilidade da estatística de teste superiores a 0,025 não nos permitem rejeitar a hipótese nula. Figura 1. Curva normal reduzida com região crítica (0,05) e região de aceitação (0,95). Fonte: Spiegel e Stephens (2009, p. 267). Região crítica 0,025 Região crítica 0,025 Região de aceitação 0,95 z = –1,96 z = 1,96 Testes relativos à média e a proporções (grandes e pequenas amostras)4 Podemos utilizar a comparação do p-value com a probabilidade da estatística de teste ou, então, comparar o valor calculado na estatística de teste com o valor tabelado referente ao nível de significância. Os testes podem ser unilaterais ou bilaterais, essa escolha ocorre de acordo com a hipótese alternativa (Figura 2). � Se a hipótese for de o parâmetro estudado ser menor, a região crítica será unilateral e a região crítica estará na cauda da esquerda. � Se a hipótese for de o parâmetro estudado ser maior, a região crítica será unilateral e a região crítica estará na cauda da direita. � Se a hipótese for de o parâmetro estudado ser diferente, a região crítica será bilateral e a região crítica estará nas duas caudas e o nível de significância será dividido por dois. Figura 2. Regiões críticas dos testes de hipóteses. Fonte: Doane e Seward (2014, p. 345). Teste unilateral à esquerda Teste bilateral Teste unilateral à direita Rejeitar Rejeitar Rejeitar Rejeitar α α/2 α/2 α Não rejeitar Não rejeitar Não rejeitar 1 – α 1 – α 1 – α μ0 μ0 μ0 Valor crítico Valores críticos Valores críticos Valor crítico Podemos construir um roteiro para aplicação de um teste de hipóteses. Esse roteiro pode ser seguido, independentemente do tipo de teste de hipóteses aplicado, seja ele paramétrico ou não paramétrico (Figura 3). 5Testes relativos à média e a proporções (grandes e pequenas amostras) Figura 3. Passos para aplicação do teste de hipóteses. Formulação das hipóteses e de nição do nível de signi cância Cálculo da estatística de teste De acoro com o nível de signi cância estabelecer a regra de decisão Concluir a respeito, aceitar ou rejeitar o H0 Em resumo, os passos para a formulação de um teste de hipóteses seguem sempre a mesma rotina; porém, duas hipóteses e estatísticas de teste variam de teste para teste, assim como as distribuições de probabilidades aplicadas (tabelas utilizadas para a obtenção do nível de significância). Testes relativos à média e a proporções (grandes e pequenas amostras)6 Testes de hipóteses para a média Para os testes de médias, podemos ter testes para uma, duas ou mais de duas médias. Podemos querer comparar a média de um valor amostral com a média da população (valor de referência), ou podemos querer comparar duas médias oriundas de duas populações distintas. Também podemos querer comparar mais de duas médias de populações distintas. Teste para uma média com σ (desvio-padrão) conhecido Esse teste é realizado quando temos uma média amostral e a comparamos com um valor de referência. Nesse caso, sabemos o valor do desvio-padrão populacional por estudos anteriores. Coletamos uma amostra, calculamos a sua média e a comparamos com um valor de referência da média da população. Essa é a diferença dos testes para pequenas e grandes amostras. Se tiver- mos uma amostra maior do que 30 utilizamos a tabela de distribuição normal para o teste. Caso não conheçamos o desvio-padrão populacional, ou nossa amostra seja inferior a 30 elementos, utilizamos a tabela de distribuição de probabilidade t-student. Precisamos seguir uma espécie de roteiro para a realização de um teste de hipóteses, definimos as hipóteses e o nível de significância (é importante defini-lo antes da realização do teste para não sermos tendenciosos; após, calculamos a estatística de teste, estabelecemos a regra de decisão e concluí- mos a respeito). No caso do teste de hipóteses para uma média considerando o desvio populacional conhecido, teremos as etapas definidas. As hipóteses a serem formuladas podem ser as seguintes: H0: μ = μ0 H1: μ ≠ μ0 H0: μ ≥ μ0 H1: μ < μ0 H0: μ ≤ μ0 H1: μ > μ0 Teste bilateral Teste unilateral à esquerda Teste unilateral à direita 7Testes relativos à média e a proporções (grandes e pequenas amostras) Esse valor compara a média amostral com o valor de referência. Zcalculdo = x— – µ0 σ/√n Onde: x—é a média amostral; μ0 é o valor de referência; 𝜎 é o desvio-padrão populacional; n é o tamanho da amostra. Para que possamos tomar a decisão sobre o resultado do teste temos duas opções. Uma delas é comparar o valor calculado nessa estatística de teste (nessa fórmula), comparando com um valor tabelado referente ao nível de significância e teremos: Se |zcalculado| > |ztabelado| → rejeitamos H0 Se |zcalculado| < |ztabelado| → não rejeitamos H0 A outra opção é comparar a probabilidade do valor encontrado na estatís- tica de teste e compará-lo diretamente com o p-value (nível de significância). O valor da probabilidade da estatística de teste pode ser obtido com recursos computacionais ou, então, pela tabela da distribuição normal padrão (Figura 4). Os valores do nível de significância mais comumente utilizados são 1%, 5% e 10% (α = 0,01; α = 0,05; α = 0,10). Teremos: Se o nível de significância da estatística de teste < α → rejeitamos H0 Se o nível de significância da estatística de teste > α → não rejeitamos H0 Por fim, tomamos a decisão de aceitar ou rejeitar nossa hipótese nula. Obviamente, quando rejeitamos a hipótese nula, a hipótese que passa a valer é a hipótese alternativa. Testes relativos à média e a proporções (grandes e pequenas amostras)8 Fi gu ra 4 . T ab el a de d is tr ib ui çã o de p ro ba bi lid ad e no rm al p ad rã o, á re a so b a cu rv a. 9Testes relativos à média e a proporções (grandes e pequenas amostras) Uma empresa de envase de refrigerantes está recebendo reclamações a respeito da quantidade de líquido nas garrafas de 2 litros do produto.Sabe-se que, historicamente, a média dessas embalagens é de 2 litros com um desvio-padrão de 0,3 litros. Uma amostra de 50 garrafas retirada de um lote apresentou média de 1,8 litros. Verificaremos se existem evidências suficientes para afirmar que as garrafas possuem quantidade envasada inferior a 2 litros, com nível de significância de 5%. Formulando as hipóteses, o que queremos testar é a hipótese de termos menos de 2 litros em cada garrafa, então o teste será unilateral à esquerda: H0: μ ≥ 2 H1: μ < 2 Cálculo da estatística de teste: Zcalculado = x— – μ0 σ/√n = = –4,71 1,8 – 2 0,3/√50 Podemos estabelecer a regra de decisão de duas formas, conforme visto. De forma ini- cial, procuramos na tabela o valor para o nível de significância de 5%. Esse valor é encon- trado procurando no meio da tabela o valor de 0,0500; com a precisão dessa tabela encon- tramos o valor aproximado de 0,0505 e, cruzando a linha e a coluna em que esses valores se encontram, achamos o valor tabelado de -1,64. Observe que, se o teste fosse unilateral, à direita teríamos esse mesmo valor; porém com o sinal positivo, uma vez que a distribuição normal é simétrica em torno do eixo. Então: Se |4,71| > |1,64| → rejeitamos H0. Para exercitarmos, vamos verificar a regra de decisão utilizando a probabilidade da estatística de teste comparada com o nível de significância de 0,05. Em primeiro lugar, recorremos à tabela ou a algum software. Na tabela, procuramos o valor de -4,7 cruzando a primeira coluna com a coluna do 0,01 (que é a segunda casa decimal). A tabela inicia em -3,99 e, antes disso, temos probabilidade 0,0000. Qualquer valor antes disso também terá probabilidade 0,0000; assim sendo, a probabilidade da estatística de teste de -4,71 é de 0,0000. Se o nível de significância da estatística de teste = 0,0000 < α = 0,0500 → rejeitamos H0. Podemos tomar a decisão utilizando uma ou outra forma. Aqui foram utilizadas as duas formas para melhor explicação. Podemos concluir que existem evidências suficientes para afirmar que a quantidade envasada nas garrafas de 2 litros dessa empresa é inferior a esse conteúdo, com nível de significância de 5%. Testes relativos à média e a proporções (grandes e pequenas amostras)10 Teste para uma média com σ (desvio-padrão) desconhecido Esse teste também serve para comparar a média da amostra com o valor refe- rência da população; porém o utilizamos sempre que tivermos uma amostra pequena (n < 30) ou quando não conhecermos o verdadeiro valor do desvio- -padrão populacional. Para esse teste faremos uso de outra tabela, a t-student. Essa tabela é de uma distribuição de probabilidades t que tem formato muito semelhante ao da distribuição normal; no entanto, na distribuição t, o tamanho da amostra influencia na probabilidade abaixo da curva. Figura 5. Tabela de distribuição de probabilidade t-student, área sob a curva cauda da direita. 11Testes relativos à média e a proporções (grandes e pequenas amostras) As hipóteses a serem formuladas são as mesmas de quando se conhece o desvio-padrão populacional. Continuamos comparando uma média amostral com um valor de referência. H0: μ = μ0 H1: μ ≠ μ0 H0: μ ≥ μ0 H1: μ < μ0 H0: μ ≤ μ0 H1: μ > μ0 Teste bilateral Teste unilateral à esquerda Teste unilateral à direita Na estatística de teste de hipóteses para uma média, esse valor compara a média amostral com o valor de referência. tcalculdo = x— – µ0 s/√n Em que: x— é a média amostral; μ0 é o valor de referência; s é o desvio-padrão amostral; n é o tamanho da amostra. Também podemos comparar o valor calculado nessa estatística de teste, comparando com um valor tabelado referente ao nível de significância. Para localizarmos o valor de t tabelado, escolhemos, na primeira linha, o valor do nível de significância. Escolhemos na coluna desse o valor referente ao tamanho da amostra pesquisada e teremos: Se |tcalculado| > |ttabelado| → rejeitamos H0 Se |tcalculado| < |ttabelado| → não rejeitamos H0 Ou, ainda, podemos comparar a probabilidade do valor encontrado na estatística de teste e compará-lo diretamente com o p-value (nível de signifi- cância). Nesse caso, podemos conseguir o valor da probabilidade da estatística Testes relativos à média e a proporções (grandes e pequenas amostras)12 de teste apenas por recursos computacionais, pois a tabela possui apenas valores fixos de α. Teremos: Se o nível de significância da estatística de teste < α → rejeitamos H0 Se o nível de significância da estatística de teste > α → não rejeitamos H0 Ainda temos testes para comparação de duas médias, tanto para desvio- -padrão conhecido quanto para o desvio-padrão desconhecido ou amostras menores do que 30 elementos. Hipóteses: H0: μ1 = μ2 H1: μ1 ≠ μ2 H0: μ1 ≥ μ2 H1: μ1 < μ2 H0: μ1 ≤ μ2 H1: μ1 > μ2 Teste bilateral Teste unilateral à esquerda Teste unilateral à direita Estatística de teste Para desvio-padrão conhecido: zcalculado = x—1 – x — 2 σ2 n1 1 σ2 n2 2+ Onde: x—1 e x — 2 — médias amostrais; σ21 e σ22 — variâncias populacionais; n1 e n2 — tamanhos da amostra. 13Testes relativos à média e a proporções (grandes e pequenas amostras) Estatística de teste Para desvio-padrão desconhecido ou tamanho da amostra inferior a 30 elementos: zcalculado = x—1 – x — 2 s2 n1 1 s2 n2 2+ Onde: x—1 e x — 2 — médias amostrais; s21 e s22— variâncias amostrais; n1 e n2 — tamanhos da amostra. Além do teste para duas médias, ainda temos o teste para a comparação de mais de duas médias que se chama ANOVA (do inglês, analysis of variance) e o teste para amostras pareadas. O teste ANOVA utiliza a tabela de distribuição F. O cálculo da estatística de teste é bastante complexo, pois realizamos vários cálculos para montarmos a tabela ANOVA para podermos encontrar o valor calculado da estatística de teste. Testes de hipóteses para proporção Segundo Doane e Seward (2014), as proporções são usadas com frequência em situações de negócios porque a coleta de dados de proporção é simples. Também, porque muitos indicadores de desempenho em negócios, como a fatia de mercado, são expressos como proporção. Como vimos, independentemente do tipo de teste de hipóteses a ser uti- lizado, sempre teremos o mesmo roteiro de aplicação, que será a formulação das hipóteses e a escolha do nível de significância, o cálculo da estatística de teste, o estabelecimento da regra de decisão, ou seja, a rejeição ou não da hipótese nula e, finalmente, a tomada de decisão com base no teste. Testes relativos à média e a proporções (grandes e pequenas amostras)14 Um pressuposto que precisamos salientar com relação ao teste de hipóteses para a proporção é que, para uma amostra considerada grande, a proporção dessa amostra estudada segue uma distribuição normal. Assim sendo, a tabela utilizada para os níveis de significância e para a estatística de teste é a da distribuição normal quando temos grandes amostras. Passando por cada uma das etapas de um teste de hipóteses, no caso de compararmos uma proporção à um valor referência, teremos: As hipóteses para o teste de uma proporção: H0: � = �0 H1: � ≠ �0 H0: � ≥ �0 H1: � < �0 H0: � ≤ �0 H1: � > �0 Teste bilateral Teste unilateral à esquerda Teste unilateral à direita A estatística de teste para esse teste será: zcalculado = p – �0 �0(1 – �0) n Onde: p é a proporção amostral; π0 é a proporção referência; n é o tamanho da amostra. A regra de decisão estabelecida será de acordo com o nível de significância e o valor da estatística de teste. Assim como no teste da média podemos utilizar duas formas para a regra de decisão. Ambas resultam no mesmo resultado, na mesma escolha. Tomada de decisão com base no valor calculado comparando com um valor tabelado referente ao nível de significância: 15Testes relativos à média e a proporções (grandes e pequenas amostras) Se |Zcalculado| > |Ztabelado| → rejeitamos H0 Se |Zcalculado| < |Ztabelado| → não rejeitamos H0 E também comparando a probabilidade da
Compartilhar