Buscar

BIOESTATISTICA 5

Prévia do material em texto

Bioestatística
Responsável pelo Conteúdo:
Prof. Dr. Philippe Alexandre Divina Petersen
Revisão Textual:
Prof. Me. Luciano Vieira Francisco
Testes de Hipótese para Dados Nominais
Testes de Hipótese 
para Dados Nominais
 
 
• Abordar os principais métodos estatísticos quando se deseja trabalhar com dados nominais.
OBJETIVO DE APRENDIZADO 
• Generalidades sobre Testes de Hipóteses;
• Tabelas de Contingência;
• A Distribuição Qui-Quadrado (χ²);
• Teste Exato de Fisher;
• Entendendo o Significado Real do Resultado de um Teste de Hipótese.
UNIDADE Testes de Hipótese para Dados Nominais
Generalidades sobre Testes de Hipóteses
Muitas vezes o estudante de Bioestatística se deparará com testes de hipóteses que 
utilizam variáveis não paramétricas do tipo nominal ou dicotômica. Podemos citar como 
exemplo a comparação entre variáveis qualitativas arranjadas em duas ou mais catego-
rias bem definidas como uma doença ou cura, sobrevida ou morte. Cada indivíduo deste 
estudo será classificado em somente uma das categorias e podemos utilizar a distribui-
ção qui-quadrado (χ²) para analisar as frequências relativas ou absolutas. Os testes do 
qui-quadrado, de probabilidade exata de Fisher e o teste do qui-quadrado de McNemar 
são os mais utilizados na análise dados não paramétricos na área das Ciências da Saúde. 
A aplicação dos testes que estudaremos nesta Unidade necessitam da utilização da 
chamada tabela de contingência, que serve para facilitar a interpretação dos resultados 
e cálculos obtidos pelos testes. Os valores observados das variáveis estudadas são distri-
buídos na tabela de tal forma que se permite comparar os grupos em estudo e avaliar a 
existência de elementos que estabeleçam uma associação entre tais grupos.
Tabelas de Contingência
As tabelas de contingência são utilizadas principalmente para registrar e analisar a re-
lação entre duas ou mais variáveis dicotômicas. Desta forma, os testes de hipóteses que 
trataremos nesta oportunidade podem ser avaliados através desta tabela além de outras 
análises de interesse em estatística – tais como análises de sensibilidade e especificidade 
para os testes de rastreamento de diagnóstico. 
Normalmente, uma tabela de contingência é constituída por duas linhas (l) e duas 
colunas (c), as quais formam, pelas suas intersecções, quatro células que, por convenção, 
são designadas pelas letras a, b, c, d. Na Tabela 1 é mostrado um exemplo de contin-
gência padrão: 
Tabela 1 – Contingência 2 × 2 padrão
Candidato A Candidato B Total
Masculino 32 (a) 18 (c) 50 (a + c)
Feminino 28 (b) 22 (d) 50 (b + d)
Total 60 (a + b) 40 (c + d) 100 (a + b + c + d)
Note que na Tabela 1 são apresentados os dados a respeito dos votos de dois can-
didatos em uma eleição recente dentre uma amostragem de 100 eleitores. Podemos 
observar que a Tabela de contingência apresentada correlaciona as respostas por gênero 
e voto. Tradicionalmente, os valores dos grupos testados são distribuídos nas linhas da 
tabela e a ordem de alocação, seja na primeira ou segunda linha, não altera o valor do 
teste. Por outro lado, os valores para o desfecho esperado no estudo devem ser aloca-
dos, tomando-se como referência as colunas da tabela. 
8
9
Um exemplo de tabela de contingência para bioestatística é apresentado na Tabela 2. 
Neste estudo caso-controle, dois grupos de pacientes foram acompanhados quanto à 
incidência de câncer de pulmão associado ao tabagismo. No grupo de fumantes, cons-
tituído por 100 indivíduos, a incidência de câncer ocorreu em 28 pacientes, enquanto 
no grupo controle (não fumantes), constituído por 200 pacientes, a incidência foi igual 
a 16 casos. Assim, a tabela de contingência para este estudo-caso ficaria desta forma:
Tabela 2 – Contingência 2 × 2 padrão para um estudo do tipo caso-controle
Câncer sim Câncer não Total
Tabagismo sim 28 (28%) 72 (72%) 100 (100%)
Tabagismo não 16 (8%) 184 (92%) 200 (100%)
Total 44 (14,7%) 256 (85,3%) 300 (300%)
Avaliando a Tabela 2, observa-se que além dos valores absolutos de cada célula, temos 
as porcentagens dos valores observados em cada um dos grupos no estudo. A ideia de 
inserir as porcentagens é facilitar o entendimento através da simplificação da compa-
ração em relação às incidências nos diferentes grupos. Da mesma forma, a soma das 
porcentagens (100%) nos totais de cada categoria facilita para o leitor as relações em que 
o total da porcentagem foi calculada. Na margem inferior, colocam-se as porcentagens 
relacionadas ao desfecho que, igualmente, deve somar 100%.
Observe também que, na Tabela, a incidência de câncer parece ter sido maior no 
grupo de pacientes sujeitos ao fator de risco tabagismo, porém, são necessários testes 
estatísticos para que essas conclusões iniciais possam ser confirmadas. 
A Distribuição Qui-Quadrado (χ²) 
 A distribuição do qui-quadrado é o modelo de inferência estatística mais apropriado 
para comparar variáveis qualitativas distribuídas em duas ou mais categorias. A distri-
buição qui-quadrado é normalmente empregada para verificar, mediante a aplicação do 
teste do qui-quadrado (χ²), a diferença estatisticamente significante entre os valores da 
frequência observada (O) de um determinado evento e a frequência com que ele é espe-
rado (E). Esta distribuição fornece a probabilidade com que as diferenças entre os valores 
observados e esperados ocorreriam somente em razão do acaso. 
Essa distribuição corresponde a uma “família” de curvas cuja forma varia de acordo 
com o nível de significância (nível α) estipulado para o teste e com o número de grupos 
comparados. Porém, na prática, é geralmente representada por uma curva assimétrica, 
inclinada à direita, cuja assimetria diminui à medida que aumenta o número de catego-
rias comparadas, as quais determinam os graus de liberdade (gl) do teste.
A curva começa sempre no valor zero e apresenta somente valores positivos, sendo a 
média da distribuição igual ao número de graus de liberdade, o qual é calculado, para o 
teste do qui-quadrado da independência, pela equação 1gl n= − . A Figura 1 representa 
a forma geral da curva para o teste de qui-quadrado para α = 0,05 e gl = 1:
9
UNIDADE Testes de Hipótese para Dados Nominais
Figura 1 – Representação típica para a distribuição em qui-quadrado para α = 0,05 e gl = 1
Fonte: FONTENELLES, 2012
Se aumentarmos o valor do grau de liberdade, o valor da média se deslocará para a 
direita, podendo-se dizer que valores elevados ao grau de liberdade tornarão a curva nor-
mal, de modo que o teste de qui-quadrado com a região de rejeição será unilateral à direita.
O cálculo do valor de qui-quadrado poderá ser definido como (FONTELLES, 2012):
( )22 O E
E
χ
−
=∑
Em que O corresponde às contagens observadas e E às contagens esperadas. No 
exemplo a seguir será fácil entender a utilização destas contagens, sendo a base para 
utilizar nos estudos dos testes:
Tabela 3 – Contingência 2 × 2 padrão para um estudo do tipo caso-controle do Exemplo 2
Câncer sim Câncer não Total
Tabagismo sim 28 72 100
Tabagismo não 16 184 200
Total 44 256 300
• Passo 1: calcular as contagens por linha e coluna, pela relação:
,
 
 l c
total da linhaE total da coluna
total do estudo
= ×
 
,l c que estão juntos a E são as posições da linha e coluna utilizadas. Desta forma, 
tem-se:
Linha 1, Coluna 1 Linha 1, Coluna 2
1,2
100 44 15
300
E = × = 1,2
100 256 85
300
E = × =
Linha 2, Coluna 1 Linha 2, Coluna 2
2,1
200 44 29
300
E = × =
 
2,2
200 256 171
300
E = × =
10
11
• Passo 2: calcular o percentual de cada célula da Tabela da seguinte forma – para 
comparação com as frequências relativas:
,
 100
 l c
total da célulaP
total da linha
= ×
Assim:
Linha 1, Coluna 1 Linha 1, Coluna 2
1,2
28 100 28%
100
P = × = 1,2
72 100 72%
100
P = × =
Linha 2, Coluna 1 Linha 2, Coluna 2
2,1
16 100 8%
200
P = × = 2,2
184 100 92%
200
E = × =
• Passo 3: calcular o qui-quadrado conforme a relação para cada célula:
( )22 O E
E
χ
−
=∑
Porém, a Tabela 4 se tornaráútil na sua construção, pois apresenta como colocar os 
dados e calcular os valores intermediários de modo a obter o valor final de qui-quadrado:
Tabela 4 – Cálculos do Exemplo 3
Posição 
lilnha/coluna
Observado 
(O)
Esperado
(E)
O E− ( )2O E− ( )
2O E
E
−
1,1 28 15 13 169 11,2
1,2 72 85 –13 169 2,0
2,1 16 29 –13 169 5,8
2,2 184 171 13 169 1,0
Soma 300 300 0 676 20,0
O valor em destaque é o qui-quadrado ( 2χ ), com o qual poderão ser aplicados três 
testes de hipótese (FONTELLES, 2012), ou seja, teste do qui-quadrado de:
• Independência: se existe associação entre as variáveis qualitativas;
• Homogeneidade: comparação de duas populações;
• Aderência: se os dados apresentados estão de acordo com a distribuição proposta.
O número de graus de liberdade a ser utilizado neste caso é:
( ) ( )1 1gl linhas colunas= − ⋅ −
Utilizaremos o Exemplo anterior a fim de, aplicando os dois primeiros testes de qui-
-quadrado, verificarmos a independência e homogeneidade. 
11
UNIDADE Testes de Hipótese para Dados Nominais
Para o teste de independência consideraremos que não há diferenças significativas da 
incidência de câncer com o tabagismo em um nível de significância 0,05α = . Calculando 
o número de graus de liberdade, temos que:
( ) ( )2 1 2 1 1gl = − ⋅ − =
E consultando a seguinte Tabela (Figura 2), nota-se que:
2 3, 481χ =
Figura 2 – Valor de qui-quadrado para α = 0,05 e gl = 1
Fonte: est.uff.br
As condições de teste são as seguintes:
2 2
calculado tabeladoχ χ< : aceitação da hipótese.
2 2
calculado tabeladoχ χ≥ : rejeição.
Para o exercício, o valor de qui-quadrado calculado foi 20, enquanto o da Tabela foi 
3,841. Dessa forma, rejeita-se a hipótese nula, de modo que existem diferenças entre a 
incidência de câncer devido ao tabagismo.
Para o teste de homogeneidade a ideia é que não haja diferença entre as populações, 
ou seja, a incidência de câncer entre pacientes expostos ao tabagismo e aqueles que não 
estão expostos é a mesma. Pelos cálculos apresentados, percebe-se que não existem di-
ferenças significativas entre as populações, portanto, a exposição ao tabagismo aumenta 
a incidência de câncer.
Teste Exato de Fisher
O teste exato de Fisher é aplicado quando o número de observações esperadas (E) é 
menor que 5 e o número de indivíduos estudados é inferior a 20. A expressão para o 
cálculo do teste baseia-se na probabilidade das combinações possíveis de acordo com 
as observações.
( ) ( ) ( ) ( )! ! ! !
! ! ! ! !
a b c d a c b d
P
n a b c d
+ + + +
=
Ademais, segue a Tabela 5 para lhe ajudar quanto à resolução dos exercícios:
12
13
Tabela 5 – Como utilizar o teste de Fisher
Variável 1 Variável 2 Total
Grupo 1 A b a + b
Grupo 2 C d c + d
Total a + c b + d a + b + c + d
O Exemplo anterior foi repetido, porém, agora com 20 pacientes divididos da 
seguinte forma:
Tabela 6 – Como utilizar o teste de Fisher
Câncer sim Câncer não Total
Tabagismo sim 3 7 10
Tabagismo não 1 9 10
Total 4 16 20
Ao resolver os exercícios, consideraremos as probabilidades de as respostas variarem, 
ou seja, de que os resultados vistos possam ser alterados – eis a sequência de cálculo, 
iniciando-se pelos resultados da Tabela e considerando α = 0,05.
Tabela 7
Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! !
! ! ! ! !
a b c d a c b d
P
n a b c d
+ + + +
=
( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,2476
20!3!7!1!9!
P = =
3 7 10
1 9 10
4 16 20
Em seguida, verificamos as alterações dos resultados, tais como:
Tabela 8
Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! !
! ! ! ! !
a b c d a c b d
P
n a b c d
+ + + +
=
( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,4180
20!2!2!8!1!8!
P = =
2 8 10
2 8 10
4 16 20
Tabela 9
Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! !
! ! ! ! !
a b c d a c b d
P
n a b c d
+ + + +
=
( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,2476
20!3!7!1!9!
P = =
1 9 10
3 7 10
4 16 20
13
UNIDADE Testes de Hipótese para Dados Nominais
Tabela 10
Câncer sim Câncer não Total ( ) ( ) ( ) ( )! ! ! !
! ! ! ! !
a b c d a c b d
P
n a b c d
+ + + +
=
( ) ( ) ( ) ( )10 ! 10 ! 4 ! 16 ! 0,043
20!4!6!0!10!
P = =
4 6 10
0 10 10
4 16 20
Perceba que as linhas e colunas que estão em amarelo são sugestões: assim, mante-
nha a soma das linhas e colunas iguais e apenas realize as combinações dentro da Tabela.
Neste caso, o teste de Fisher é monocaudal, ou seja:
1 2 3 4
0, 2476 0,4180 0,2476 0,043
0,9596
Fisher
Fisher
Fisher
P P P P P
P
P
= + + +
= + + +
=
 
Comparando-se os dados do valor de P calculado e α, a hipótese nula será aceita se 
o valor de P calculado for maior ou igual que α; do contrário, (P < α), de modo que a 
hipótese nula é rejeitada.
Para o Exemplo, percebe-se que 0,9596 é muito maior que α. Logo, a hipótese nula 
é aceita e a incidência de câncer em pessoas com e sem tabagismo não possui diferen-
ças significativas.
Note que a mudança dos dois exemplos das quantidades de pacientes influenciou 
diretamente os resultados. Portanto, além de escolher o teste, é igualmente importante 
verificar o tamanho amostral para que haja validade do que é aplicado.
Entendendo o Significado Real 
do Resultado de um Teste de Hipótese
Com a Estatística os resultados obtidos possuem conclusões sobre uma análise de 
dados e testes aplicados; de modo que as informações ali obtidas contribuem para a 
tomada de decisões, com base em níveis de significância e aceitação ou não da inexis-
tência das variações entre processos comparados entre si.
No entanto, a escolha dos testes, bem como a formulação das hipóteses contribuem 
em melhor assertividade na resposta e, consequentemente, na tomada de decisão. 
14
15
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Vídeos
 Teste de Qui Quadrado – Resumo – Bioestatística
https://youtu.be/qKQuCYkt3BI
 Inferência Estatística – Teste qui quadrado
Teste qui-quadrado usando o Office Excel.
https://youtu.be/VOqD1Vipex4
 Leitura
Tabela de teste qui-quadrado
https://bit.ly/39jywAp
Estatística descritiva e teste qui-quadrado aplicados à acidentes de trânsito ocorridos em rodovias 
federais na Paraíba em 2012
https://bit.ly/2YfEqfw
15
UNIDADE Testes de Hipótese para Dados Nominais
Referências
FONTELLES, M. J. Bioestatística aplicada à pesquisa experimental. v. 1. São Paulo: 
Livraria da Física, 2012.
GLANTZ, S. A. Princípios de Bioestatística. 7. ed. Porto Alegre, RS: AMGH, 2014.
HOGG, R. V. Statistical Education: improvements are badly needed. The American 
Statistician, v. 45, n. 4, p. 342-343, 1991.
LARSON, R.; FARBER, B. Estatística aplicada. São Paulo: Pearson Education do 
Brasil, 2015.
MARTINEZ, E. Z. Bioestatística para os cursos de Graduação da área da Saúde. 
São Paulo: Blucher, 2015.
16

Continue navegando