Baixe o app para aproveitar ainda mais
Prévia do material em texto
Bioestatística Responsável pelo Conteúdo: Prof. Dr. Philippe Alexandre Divina Petersen Revisão Textual: Prof. Me. Luciano Vieira Francisco Testes de Hipótese para Dados Nominais Testes de Hipótese para Dados Nominais • Abordar os principais métodos estatísticos quando se deseja trabalhar com dados nominais. OBJETIVO DE APRENDIZADO • Generalidades sobre Testes de Hipóteses; • Tabelas de Contingência; • A Distribuição Qui-Quadrado (χ²); • Teste Exato de Fisher; • Entendendo o Significado Real do Resultado de um Teste de Hipótese. UNIDADE Testes de Hipótese para Dados Nominais Generalidades sobre Testes de Hipóteses Muitas vezes o estudante de Bioestatística se deparará com testes de hipóteses que utilizam variáveis não paramétricas do tipo nominal ou dicotômica. Podemos citar como exemplo a comparação entre variáveis qualitativas arranjadas em duas ou mais catego- rias bem definidas como uma doença ou cura, sobrevida ou morte. Cada indivíduo deste estudo será classificado em somente uma das categorias e podemos utilizar a distribui- ção qui-quadrado (χ²) para analisar as frequências relativas ou absolutas. Os testes do qui-quadrado, de probabilidade exata de Fisher e o teste do qui-quadrado de McNemar são os mais utilizados na análise dados não paramétricos na área das Ciências da Saúde. A aplicação dos testes que estudaremos nesta Unidade necessitam da utilização da chamada tabela de contingência, que serve para facilitar a interpretação dos resultados e cálculos obtidos pelos testes. Os valores observados das variáveis estudadas são distri- buídos na tabela de tal forma que se permite comparar os grupos em estudo e avaliar a existência de elementos que estabeleçam uma associação entre tais grupos. Tabelas de Contingência As tabelas de contingência são utilizadas principalmente para registrar e analisar a re- lação entre duas ou mais variáveis dicotômicas. Desta forma, os testes de hipóteses que trataremos nesta oportunidade podem ser avaliados através desta tabela além de outras análises de interesse em estatística – tais como análises de sensibilidade e especificidade para os testes de rastreamento de diagnóstico. Normalmente, uma tabela de contingência é constituída por duas linhas (l) e duas colunas (c), as quais formam, pelas suas intersecções, quatro células que, por convenção, são designadas pelas letras a, b, c, d. Na Tabela 1 é mostrado um exemplo de contin- gência padrão: Tabela 1 – Contingência 2 × 2 padrão Candidato A Candidato B Total Masculino 32 (a) 18 (c) 50 (a + c) Feminino 28 (b) 22 (d) 50 (b + d) Total 60 (a + b) 40 (c + d) 100 (a + b + c + d) Note que na Tabela 1 são apresentados os dados a respeito dos votos de dois can- didatos em uma eleição recente dentre uma amostragem de 100 eleitores. Podemos observar que a Tabela de contingência apresentada correlaciona as respostas por gênero e voto. Tradicionalmente, os valores dos grupos testados são distribuídos nas linhas da tabela e a ordem de alocação, seja na primeira ou segunda linha, não altera o valor do teste. Por outro lado, os valores para o desfecho esperado no estudo devem ser aloca- dos, tomando-se como referência as colunas da tabela. 8 9 Um exemplo de tabela de contingência para bioestatística é apresentado na Tabela 2. Neste estudo caso-controle, dois grupos de pacientes foram acompanhados quanto à incidência de câncer de pulmão associado ao tabagismo. No grupo de fumantes, cons- tituído por 100 indivíduos, a incidência de câncer ocorreu em 28 pacientes, enquanto no grupo controle (não fumantes), constituído por 200 pacientes, a incidência foi igual a 16 casos. Assim, a tabela de contingência para este estudo-caso ficaria desta forma: Tabela 2 – Contingência 2 × 2 padrão para um estudo do tipo caso-controle Câncer sim Câncer não Total Tabagismo sim 28 (28%) 72 (72%) 100 (100%) Tabagismo não 16 (8%) 184 (92%) 200 (100%) Total 44 (14,7%) 256 (85,3%) 300 (300%) Avaliando a Tabela 2, observa-se que além dos valores absolutos de cada célula, temos as porcentagens dos valores observados em cada um dos grupos no estudo. A ideia de inserir as porcentagens é facilitar o entendimento através da simplificação da compa- ração em relação às incidências nos diferentes grupos. Da mesma forma, a soma das porcentagens (100%) nos totais de cada categoria facilita para o leitor as relações em que o total da porcentagem foi calculada. Na margem inferior, colocam-se as porcentagens relacionadas ao desfecho que, igualmente, deve somar 100%. Observe também que, na Tabela, a incidência de câncer parece ter sido maior no grupo de pacientes sujeitos ao fator de risco tabagismo, porém, são necessários testes estatísticos para que essas conclusões iniciais possam ser confirmadas. A Distribuição Qui-Quadrado (χ²) A distribuição do qui-quadrado é o modelo de inferência estatística mais apropriado para comparar variáveis qualitativas distribuídas em duas ou mais categorias. A distri- buição qui-quadrado é normalmente empregada para verificar, mediante a aplicação do teste do qui-quadrado (χ²), a diferença estatisticamente significante entre os valores da frequência observada (O) de um determinado evento e a frequência com que ele é espe- rado (E). Esta distribuição fornece a probabilidade com que as diferenças entre os valores observados e esperados ocorreriam somente em razão do acaso. Essa distribuição corresponde a uma “família” de curvas cuja forma varia de acordo com o nível de significância (nível α) estipulado para o teste e com o número de grupos comparados. Porém, na prática, é geralmente representada por uma curva assimétrica, inclinada à direita, cuja assimetria diminui à medida que aumenta o número de catego- rias comparadas, as quais determinam os graus de liberdade (gl) do teste. A curva começa sempre no valor zero e apresenta somente valores positivos, sendo a média da distribuição igual ao número de graus de liberdade, o qual é calculado, para o teste do qui-quadrado da independência, pela equação 1gl n= − . A Figura 1 representa a forma geral da curva para o teste de qui-quadrado para α = 0,05 e gl = 1: 9 UNIDADE Testes de Hipótese para Dados Nominais Figura 1 – Representação típica para a distribuição em qui-quadrado para α = 0,05 e gl = 1 Fonte: FONTENELLES, 2012 Se aumentarmos o valor do grau de liberdade, o valor da média se deslocará para a direita, podendo-se dizer que valores elevados ao grau de liberdade tornarão a curva nor- mal, de modo que o teste de qui-quadrado com a região de rejeição será unilateral à direita. O cálculo do valor de qui-quadrado poderá ser definido como (FONTELLES, 2012): ( )22 O E E χ − =∑ Em que O corresponde às contagens observadas e E às contagens esperadas. No exemplo a seguir será fácil entender a utilização destas contagens, sendo a base para utilizar nos estudos dos testes: Tabela 3 – Contingência 2 × 2 padrão para um estudo do tipo caso-controle do Exemplo 2 Câncer sim Câncer não Total Tabagismo sim 28 72 100 Tabagismo não 16 184 200 Total 44 256 300 • Passo 1: calcular as contagens por linha e coluna, pela relação: , l c total da linhaE total da coluna total do estudo = × ,l c que estão juntos a E são as posições da linha e coluna utilizadas. Desta forma, tem-se: Linha 1, Coluna 1 Linha 1, Coluna 2 1,2 100 44 15 300 E = × = 1,2 100 256 85 300 E = × = Linha 2, Coluna 1 Linha 2, Coluna 2 2,1 200 44 29 300 E = × = 2,2 200 256 171 300 E = × = 10 11 • Passo 2: calcular o percentual de cada célula da Tabela da seguinte forma – para comparação com as frequências relativas: , 100 l c total da célulaP total da linha = × Assim: Linha 1, Coluna 1 Linha 1, Coluna 2 1,2 28 100 28% 100 P = × = 1,2 72 100 72% 100 P = × = Linha 2, Coluna 1 Linha 2, Coluna 2 2,1 16 100 8% 200 P = × = 2,2 184 100 92% 200 E = × = • Passo 3: calcular o qui-quadrado conforme a relação para cada célula: ( )22 O E E χ − =∑ Porém, a Tabela 4 se tornaráútil na sua construção, pois apresenta como colocar os dados e calcular os valores intermediários de modo a obter o valor final de qui-quadrado: Tabela 4 – Cálculos do Exemplo 3 Posição lilnha/coluna Observado (O) Esperado (E) O E− ( )2O E− ( ) 2O E E − 1,1 28 15 13 169 11,2 1,2 72 85 –13 169 2,0 2,1 16 29 –13 169 5,8 2,2 184 171 13 169 1,0 Soma 300 300 0 676 20,0 O valor em destaque é o qui-quadrado ( 2χ ), com o qual poderão ser aplicados três testes de hipótese (FONTELLES, 2012), ou seja, teste do qui-quadrado de: • Independência: se existe associação entre as variáveis qualitativas; • Homogeneidade: comparação de duas populações; • Aderência: se os dados apresentados estão de acordo com a distribuição proposta. O número de graus de liberdade a ser utilizado neste caso é: ( ) ( )1 1gl linhas colunas= − ⋅ − Utilizaremos o Exemplo anterior a fim de, aplicando os dois primeiros testes de qui- -quadrado, verificarmos a independência e homogeneidade. 11 UNIDADE Testes de Hipótese para Dados Nominais Para o teste de independência consideraremos que não há diferenças significativas da incidência de câncer com o tabagismo em um nível de significância 0,05α = . Calculando o número de graus de liberdade, temos que: ( ) ( )2 1 2 1 1gl = − ⋅ − = E consultando a seguinte Tabela (Figura 2), nota-se que: 2 3, 481χ = Figura 2 – Valor de qui-quadrado para α = 0,05 e gl = 1 Fonte: est.uff.br As condições de teste são as seguintes: 2 2 calculado tabeladoχ χ< : aceitação da hipótese. 2 2 calculado tabeladoχ χ≥ : rejeição. Para o exercício, o valor de qui-quadrado calculado foi 20, enquanto o da Tabela foi 3,841. Dessa forma, rejeita-se a hipótese nula, de modo que existem diferenças entre a incidência de câncer devido ao tabagismo. Para o teste de homogeneidade a ideia é que não haja diferença entre as populações, ou seja, a incidência de câncer entre pacientes expostos ao tabagismo e aqueles que não estão expostos é a mesma. Pelos cálculos apresentados, percebe-se que não existem di- ferenças significativas entre as populações, portanto, a exposição ao tabagismo aumenta a incidência de câncer. Teste Exato de Fisher O teste exato de Fisher é aplicado quando o número de observações esperadas (E) é menor que 5 e o número de indivíduos estudados é inferior a 20. A expressão para o cálculo do teste baseia-se na probabilidade das combinações possíveis de acordo com as observações. ( ) ( ) ( ) ( )! ! ! ! ! ! ! ! ! a b c d a c b d P n a b c d + + + + = Ademais, segue a Tabela 5 para lhe ajudar quanto à resolução dos exercícios: 12 13 Tabela 5 – Como utilizar o teste de Fisher Variável 1 Variável 2 Total Grupo 1 A b a + b Grupo 2 C d c + d Total a + c b + d a + b + c + d O Exemplo anterior foi repetido, porém, agora com 20 pacientes divididos da seguinte forma: Tabela 6 – Como utilizar o teste de Fisher Câncer sim Câncer não Total Tabagismo sim 3 7 10 Tabagismo não 1 9 10 Total 4 16 20 Ao resolver os exercícios, consideraremos as probabilidades de as respostas variarem, ou seja, de que os resultados vistos possam ser alterados – eis a sequência de cálculo, iniciando-se pelos resultados da Tabela e considerando α = 0,05. Tabela 7 Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! ! ! ! ! ! ! a b c d a c b d P n a b c d + + + + = ( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,2476 20!3!7!1!9! P = = 3 7 10 1 9 10 4 16 20 Em seguida, verificamos as alterações dos resultados, tais como: Tabela 8 Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! ! ! ! ! ! ! a b c d a c b d P n a b c d + + + + = ( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,4180 20!2!2!8!1!8! P = = 2 8 10 2 8 10 4 16 20 Tabela 9 Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! ! ! ! ! ! ! a b c d a c b d P n a b c d + + + + = ( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,2476 20!3!7!1!9! P = = 1 9 10 3 7 10 4 16 20 13 UNIDADE Testes de Hipótese para Dados Nominais Tabela 10 Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! ! ! ! ! ! ! a b c d a c b d P n a b c d + + + + = ( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,043 20!4!6!0!10! P = = 4 6 10 0 10 10 4 16 20 Perceba que as linhas e colunas que estão em amarelo são sugestões: assim, mante- nha a soma das linhas e colunas iguais e apenas realize as combinações dentro da Tabela. Neste caso, o teste de Fisher é monocaudal, ou seja: 1 2 3 4 0, 2476 0,4180 0,2476 0,043 0,9596 Fisher Fisher Fisher P P P P P P P = + + + = + + + = Comparando-se os dados do valor de P calculado e α, a hipótese nula será aceita se o valor de P calculado for maior ou igual que α; do contrário, (P < α), de modo que a hipótese nula é rejeitada. Para o Exemplo, percebe-se que 0,9596 é muito maior que α. Logo, a hipótese nula é aceita e a incidência de câncer em pessoas com e sem tabagismo não possui diferen- ças significativas. Note que a mudança dos dois exemplos das quantidades de pacientes influenciou diretamente os resultados. Portanto, além de escolher o teste, é igualmente importante verificar o tamanho amostral para que haja validade do que é aplicado. Entendendo o Significado Real do Resultado de um Teste de Hipótese Com a Estatística os resultados obtidos possuem conclusões sobre uma análise de dados e testes aplicados; de modo que as informações ali obtidas contribuem para a tomada de decisões, com base em níveis de significância e aceitação ou não da inexis- tência das variações entre processos comparados entre si. No entanto, a escolha dos testes, bem como a formulação das hipóteses contribuem em melhor assertividade na resposta e, consequentemente, na tomada de decisão. 14 15 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade: Vídeos Teste de Qui Quadrado – Resumo – Bioestatística https://youtu.be/qKQuCYkt3BI Inferência Estatística – Teste qui quadrado Teste qui-quadrado usando o Office Excel. https://youtu.be/VOqD1Vipex4 Leitura Tabela de teste qui-quadrado https://bit.ly/39jywAp Estatística descritiva e teste qui-quadrado aplicados à acidentes de trânsito ocorridos em rodovias federais na Paraíba em 2012 https://bit.ly/2YfEqfw 15 UNIDADE Testes de Hipótese para Dados Nominais Referências FONTELLES, M. J. Bioestatística aplicada à pesquisa experimental. v. 1. São Paulo: Livraria da Física, 2012. GLANTZ, S. A. Princípios de Bioestatística. 7. ed. Porto Alegre, RS: AMGH, 2014. HOGG, R. V. Statistical Education: improvements are badly needed. The American Statistician, v. 45, n. 4, p. 342-343, 1991. LARSON, R.; FARBER, B. Estatística aplicada. São Paulo: Pearson Education do Brasil, 2015. MARTINEZ, E. Z. Bioestatística para os cursos de Graduação da área da Saúde. São Paulo: Blucher, 2015. 16
Compartilhar