Unidade 2 - Estatística aplicada à saúde

Estatística Aplicada

•
UNINTER

Fernando Silva
16/04/2024
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 32 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 32 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 32 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística Aplicada

23.997 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
ESTATÍSTICA APLICADA À SAÚDEESTATÍSTICA APLICADA À SAÚDE
TESTE T E QUI-QUADRADOTESTE T E QUI-QUADRADO
Au to r ( a ) : M e . M a rc e l o Tava re s d e L i m a
R ev i s o r : R e n a t a C r i s t i n a d e S o u z a C h a t a l ov
Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos.
Introdução
Olá, estudante! Seja bem-vindo a mais uma leitura. Aqui, iremos apresentar a você os testes
estatísticos, em especial, os testes T e qui-quadrado. O teste T é um teste de hipóteses estatísticas
muito utilizado em pesquisas para comparar pares de médias. Essas médias podem ser oriundas
de grupos independentes ou dependentes. A intenção é testar medidas populacionais a partir do
uso de amostras aleatórias. Então, serão apresentados conceitos e fundamentos do teste T e,
também, exemplos nos quais serão descritos os cálculos matemáticos. Ainda, apresentaremos a
aplicação no programa computacional Statistical Package for Social Sciences (SPSS). Já o segundo
teste a ser desenvolvido será o qui-quadrado de associação, utilizado para avaliar a existência de
associação entre variáveis qualitativas, ou seja, atributos, medidas não numéricas. Serão expostos,
também, exemplos e aplicação no SPSS. Desejamos uma excelente leitura para você.
O objetivo da análise de conglomerados, também conhecida como análise de agrupamentos ou de
cluster, é particionar um conjunto de dados em grupos que são internamente homogêneos e
externamente distintos, ou seja, segmentar ou agrupar em grupos menores (subgrupos). A
classi�cação é realizada com base em uma medida de similaridade ou dissimilaridade dentro e
entre os grupos.
Ainda dentro da inferência estatística, podemos a�rmar que existem dois grandes procedimentos, a
estimação e o teste de hipóteses. Vamos considerar, aqui, o teste T, que faz parte do conjunto de
métodos de teste de hipóteses, o qual testa valores de parâmetros populacionais.
Segundo Siqueira e Tibúrcio (2011, p. 236), parâmetro “é um valor que descreve alguma
característica da população”. Por ser, geralmente, desconhecido, faz-se necessário estimar seu valor
a partir de dados amostrais. O método tem como �nalidade, basicamente, veri�car a�rmações
sobre valores numéricos dos parâmetros.
A metodologia de testes de hipóteses refere-se a um procedimento de tomada de
decisão. Por exemplo, é útil decidir se há ou não diferença entre tratamentos
comparados. É usado amplamente nas áreas do conhecimento humano em que as
variáveis envolvidas estão sujeitas à variabilidade. Abrange problemas especí�cos de
comparação de um novo tratamento com um convencional, da comparação entre dois
ou mais grupos, entre outros. (SIQUEIRA; TIBÚRCIO, 2011, p. 236)
Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são necessários
métodos com as seguintes características:
Teste T
Para confrontar com a hipótese nula H , foi de�nida outra hipótese, denominada hipótese
alternativa, representada por H ou H , que representará, por convenções estabelecidas,
principalmente, por revistas cientí�cas da área médica, “a inexistência de igualdade entre os
tratamentos. Em geral, esta é a hipótese de pesquisa, do problema a ser investigado” (SIQUEIRA;
TIBÚRCIO, 2011, p. 238).
Para formular as hipóteses de teste é necessário considerar o parâmetro que será investigado,
como, por exemplo, uma média, uma proporção ou a diferença entre eles. Vamos nos concentrar,
ao longo deste tópico, em testar hipóteses sobre médias para amostras independentes e, também,
dependentes.
Após de�nir o que se deseja testar, ou seja, qual(is) parâmetro(s) testar, e construir o par de
hipóteses para isso, devemos escolher um critério de decisão, ou melhor, devemos declarar o
critério de decisão para testar a hipótese nula H . Siqueira e Tibúrcio (2011, p. 239) a�rmam que
Os abusos cometidos em nome do Estado e da Ciência, apurados e denunciados
mundialmente em 1947 no Relatório �nal do Tribunal Internacional de Nuremberg,
levaram à elaboração do primeiro Código de conduta em pesquisas, internacionalmente
aceito – o Código de Nurembergue (1947) (PALÁCIOS; REGO, SCHRAMM, 2009, p. 607).
O que as autoras querem a�rmar é que, se o valor numérico da estatística de teste for “grande”, a
decisão a ser tomada deverá ser pela rejeição da hipótese nula H . Vale observar que é necessária a
utilização de distribuição de probabilidade para a execução do procedimento. Por exemplo, se for
para testar uma média ou um par de médias, podemos utilizar a distribuição normal ou t de
Student.
Então, a realização de um teste de hipóteses pode levar à ocorrência de dois tipos de erros,
conhecidos como erro tipo I e erro tipo II.
0
1 a
0
0
Fonte: Adaptado de karolinamadej / 123RF.
#PraCegoVer: temos um infográ�co estático apresentando os tipos de erros. O infográ�co apresenta um
círculo dividido entre duas cores, sendo vermelho à esquerda e azul à direita. No centro, temos um
segundo círculo cinza escuro com o título “Tipos de Erros” na cor branca. Mais à esquerda, temos o
seguinte texto: “Primeiro tipo de erro: é cometido na decisão de rejeitar a hipótese nula quando, na
realidade, ela é verdadeira. Para evitar a sua ocorrência, foi escolhido um critério de decisão com base em
uma distribuição de probabilidades e que o tornasse pouco provável. Siqueira e Tibúrcio (2011, p. 240,
grifo dos autores) a�rmam que na ‘literatura, a probabilidade de cometer esse erro recebe o nome de nível
de signi�cância do teste, sendo usualmente representado pela letra grega α (lê-se alfa)’”. À direita, temos o
seguinte texto: “Segundo tipo de erro: ocorre na decisão de não rejeitar a H quando, na verdade, ela tinha
que ter sido rejeitada. Para ser mensurado, é necessário conhecer o tamanho da amostra, pois, a partir
dessa informação, será possível determinar um valor que reduza a probabilidade de sua ocorrência. Sua
representação é feita com a letra grega β (lê-se beta)”.
É claro que não se deseja cometer erros na realização de estudos cientí�cos. No entanto, em certa
medida, eles estarão sempre presentes na realização de teste de hipóteses estatísticas. Sabendo
disso, podemos nos perguntar: então, qual será o erro mais grave a ser cometido? A literatura que
trata do assunto já a�rmou que o erro tipo I é o considerado mais grave. Por isso, ele deverá ser
determinado antes da realização do teste (SIQUEIRA; TIBÚRCIO, 2011).
De forma geral, o Código de Nuremberg estabeleceu que nenhum ser humano poderia ser
submetido a projetos de pesquisa sem o seu devido consentimento, sendo o primeiro documento a
ter alcance internacional, por conta, principalmente, do repúdio da comunidade internacional quanto
aos crimes cometidos no período nazi-fascista (PALÁCIOS; REGO; SCHRAMM, 2009).
A necessidade de regulamentação de pesquisas em seres humanos, para proteger seus
participantes, e o desejo do corpo médico ter sua própria regulamentação foram motivações para a
criação da Declaração de Helsinque, a qual foi aprovada pela Associação Médica Mundial, e cuja
primeira versão é de 1964 (PALÁCIOS; REGO; SCHRAMM, 2009).
0
A tomada de decisão a partir de um teste de hipóteses pode ser realizada considerando duas
abordagens. Uma, como dito, pode ser feita a partir da estatística do teste em comparação a uma
distribuição de probabilidades especí�cas e de um nível de signi�cância pré-determinado. Já a
segunda abordagem, mais usada em análises feitas por programas computacionais, considera o
conceito de probabilidade de signi�cância, nível descritivo ou, ainda, valor-p.
Em 1988, o Conselho Nacional de Saúde (CNS) do Brasil estabeleceu normas que tratam da ética
em pesquisa com seres humanos e, em 10 de outubro de 1996, aprovou as diretrizes/normas que
regulamentam pesquisas com seres humanos, denominada Resolução 196/96 (PALÁCIOS; REGO;
SCHRAMM, 2009).
A Resolução 196/96 estabeleceu princípios básicos para permitir apreciação da ética em
protocolos de pesquisa, criando os Comitês de Ética em Pesquisa (CEP) e a Comissão Nacional de
Ética em Pesquisa (Conep). O conteúdo da resoluçãoincorpora as experiências históricas da
regulamentação sobre ética em pesquisa, principalmente com base no Código de Nuremberg
(1947), na Declaração dos Direitos Humanos (1948), na Declaração de Helsinque (desde a primeira
versão de 1964), nas Diretrizes Internacionais para a Revisão Ética de Estudos Epidemiológicos e
nas Diretrizes Éticas Internacionais para Pesquisas Biomédicas Envolvendo Seres Humanos, assim
como em conteúdos de leis promulgadas após a aprovação da Constituição de 1988 (PALÁCIOS;
REGO; SCHRAMM, 2009; NOVOA, 2014).
A nova resolução divide-se em 13 partes e apresenta-se mais longa e �losó�ca, levando-
se em consideração referenciais básicos de bioética, como o reconhecimento e a
a�rmação da dignidade, a liberdade, a autonomia, a bene�cência, a não male�cência, a
justiça e a equidade, dentre outros que visam assegurar os direitos e deveres que dizem
respeito aos participantes da pesquisa, à comunidade cientí�ca e ao Estado (NOVOA,
2014, p. VII).
Samohyl (2009) estabelece que o grá�co de soma acumulada (CUSUM) é um aprimoramento do
grá�co de controle X de Shewhart, este, de�nido como sendo a forma de monitoramento da média
 de um processo especí�co cuja característica de qualidade de interesse X é uma grandeza
mensurável representada. Assim sendo, o CUSUM é o mais apropriado para se reconhecer o
histórico dos dados, característica ausente em grá�cos mais simples, e também para identi�car
pequenas alterações nos processos muito antes dos alarmes dos grá�cos X, considerados como
LSC e LIC.
Distribuição t de Student
Criada por William Sealy Gosset (1876-1937), químico e matemático inglês, a distribuição t de
Student foi desenvolvida por ele, no período em que era funcionário da destilaria Guinness, em
Dublin, na República da Irlanda. Ele usou o pseudônimo Student por questões de sigilo, para publicar
achados de sua pesquisa realizada no ano de 1908 (SIQUEIRA; TIBÚRCIO, 2011).
A variável aleatória associada a uma distribuição t de Student é do tipo quantitativa contínua, ou
seja, pertence ao conjunto dos números reais. A função densidade de probabilidade associada,
μμ
representada por f(x), é simétrica em torno do seu valor esperado (média), que é zero e tem forma
grá�ca semelhante à da curva normal padrão (SIQUEIRA; TIBÚRCIO, 2011).
Então, a distribuição t de Student é caracterizada por seus graus de liberdade (parâmetro da
distribuição), cujos valores numéricos são pertencentes ao conjunto dos números inteiros positivos,
que é uma medida relacionada com o tamanho da amostra. A Figura 2.1 apresenta a forma grá�ca
de uma distribuição t de Student para alguns graus de liberdade.
Figura 2.1 - Função densidade de probabilidade da distribuição t de Student para alguns valores de
graus de liberdade
Fonte: Skbkekas / Wikimedia Commons.
#PraCegoVer: a imagem apresenta curvas grá�cas produzidas em um plano cartesiano, as quais
representam grá�cos de uma distribuição t de Student, considerando alguns valores de graus de liberdade
(1, 2, 5 e in�nitos), uma curva para cada valor, sendo de cor amarela para 1 grau de liberdade, lilás para 2
graus de liberdade, azul para 5 graus de liberdade e preta para in�nitos graus de liberdade. O formato das
curvas é em forma de sino.
Apesar de a eticidade e a cienti�cidade da pesquisa cientí�ca, em especial, daquela realizada com
seres humanos, serem aspectos que caminham juntos, não cabe aos Comitês de Ética em Pesquisa
(CEP) a emissão de pareceres sobre a metodologia utilizada no desenvolvimento dos estudos
(NOVOA, 2014).
Teste T para Comparar Dois Grupos
A ciência realiza busca contínua e ininterrupta por novos métodos, novos procedimentos que
possam melhorar a qualidade de vida das pessoas. Na área da saúde e/ou da epidemiologia não é
diferente, pois se tem o objetivo de desenvolver fármacos mais seguros e mais e�cazes,
tratamentos menos invasivos, de resultados mais rápidos, de fácil implementação e de preços
acessíveis (SIQUEIRA; TIBÚRCIO, 2011).
Na comparação de um tratamento novo com um tratamento padrão, deve-se levar em
consideração vários fatores, por exemplo, o custo, a toxicidade ou, ainda, a facilidade de
implementação, além de sua e�cácia. Naturalmente, o ideal é a combinação de todas as
características desejáveis ou, pelo menos, a maior parte delas. O objetivo pode ser
veri�car a superioridade ou, no mínimo, a não inferioridade de um tratamento ou a
equivalência entre eles. (SIQUEIRA; TIBÚRCIO, 2011, p. 267)
Vamos considerar uma situação em que já tenha sido estabelecido o critério que considera um
tratamento mais adequado em relação a outro. Teremos, como uma próxima etapa, a escolha,
propriamente dita, do tratamento. Pode parecer uma decisão simples, mas, na prática, não é. O
grande desa�o está em não existir o melhor tratamento para todos aqueles que se submeterão a
ele, pois cada um poderá responder, em termos de reação, de forma diferente.
Ainda, considerando a situação hipotética descrita, não teremos um conhecimento prévio das
possíveis reações de cada paciente ao tratamento aplicado. Por isso, a análise é realizada com
base na média dos resultados. Siqueira e Tibúrcio (2011, p. 268) declaram que “a situação ideal da
escolha do melhor tratamento para cada indivíduo não é possível na prática. Consequentemente,
considera-se o melhor tratamento aquele que produz bons resultados para a maioria da população
em estudo”.
Dessa maneira, os dados amostrais que ajudarão a determinar qual tratamento é, em média, o mais
e�ciente são selecionados de forma aleatória por meio de técnicas de amostragem, de forma
independente ou dependente (pareada), de acordo com o planejamento de pesquisa.
Teste T para Amostras Independentes
O teste T pode ser aplicado para comparar grupos ou amostras independentes quando a variável
resposta ou desfecho for quantitativo contínuo e atender a alguns pressupostos para o seu uso
adequado, como, por exemplo, os dados das duas amostras ou grupos devem ter distribuição
normal. A notação matemática que iremos utilizar nesse caso será e
 para representar os dois grupos ou amostras e que atendem aos seguintes
pressupostos:
Não existem sistemas de medição que possam ser classi�cados como ideais. Dessa forma, é
atribuição direta dos engenheiros de�nir e implantar sistemas de medição que apresentem
propriedades estatísticas consideradas adequadas.
2) as variâncias dos dois grupos são iguais, ou seja, existe homocedasticidade nos dados.
Para veri�car se os dados aderem à distribuição normal, podemos utilizar programas
computacionais que realizam testes de aderência. No entanto, se as amostras forem “grandes”
(consideramos e ), podemos relaxar essa exigência, considerando os resultados
do Teorema Limite Central. É necessário, também, veri�car a homocedasticidade das variâncias.
∼ N ( , σ)X1 μ1
∼ N ( , σ)X2 μ2
≥ 30n1 ≥ 30n2
Estudos mostram que o teste t é robusto em relação à violação da normalidade, isto é, o
teste pode ser aplicado mesmo para variáveis que sejam um pouco assimétricas ou que
efetivamente não tenham distribuição normal (por exemplo, escalas). Entretanto, a
suposição de igualdade de variância, denominada homocedasticidade, é um importante
aspecto a ser avaliado, pois sua violação pode resultar em conclusões incorretas.
(SIQUEIRA; TIBÚRCIO, 2011, p. 307)
Devemos nos lembrar de que as médias μ e μ são parâmetros populacionais e, neste caso, são
constantes desconhecidas, devendo ser estimadas com os dados amostrais. Assim, as hipóteses
de teste podem ser de dois tipos, unilaterais e bilaterais, conforme mostra o Quadro 2.1.
Quadro 2.1 - Tipos de hipóteses de testes estatísticos
Fonte: Siqueira e Tibúrcio (2011, p. 285).
#PraCegoVer: o quadro possui três colunas e quatro linhas. A primeira linha tem os títulos de
cada coluna. O título da primeira coluna é “Tipo de hipótese”, o da segunda coluna é “Hipótese
nula” e o da terceira coluna é “Hipótese alternativa”. Em cada linha da primeira coluna, estão as
palavras “Unilateral”, “Unilateral” e “Bilateral”. A segunda, a terceira e aquarta linhas da
segunda coluna contêm os tipos de hipóteses nulas, respectivamente, “agá zero mi um menor
ou igual a mi dois”, “agá zero mi um maior ou igual a mi dois” e “agá zero mi um igual a mi
dois”. Nas linhas dois, três e quatro da terceira coluna, estão as hipóteses alternativas “agá um
mi um maior que mi dois”, “agá um mi um menor que mi dois” e “agá um mi um diferente de mi
dois”, respectivamente.
Agora, apresentaremos o procedimento para testar hipóteses bilaterais, no entanto, para testar
hipóteses unilaterais, basta apenas fazer uma adaptação no critério de decisão. Para continuar,
precisamos coletar uma amostra de tamanho n para o primeiro tratamento ou grupo e outra
amostra de tamanho n para o segundo grupo ou tratamento.
A pesquisa epidemiológica tem por base a coleta sistemática de dados sobre eventos associados,
principalmente, à saúde das pessoas pertencentes a populações de interesse. O tratamento
analítico dado aos fatores pesquisados tem base em três procedimentos, a saber, a mensuração de
variáveis aleatórias, a estimação de parâmetros populacionais e o uso de testes estatísticos
(BLOCH; COUTINHO, 2009).
Com o ajuste aplicado nas hipóteses de teste, poderemos construir a estatística do teste T como
sendo a razão entre a diferença das médias e o desvio padrão dessa diferença, de acordo com a
Equação (2.1).
A variância do estimador das diferenças amostrais depende, diretamente, dos
tamanhos das amostras envolvidas e da variância comum entre elas , que será dada pela
equação (2.2).
1 2
1
2
T =       (2.1)
−x̄1 x̄2
V ar ( − )X̄1 X̄2
− −−−−−−−−−−−
√
( − )X̄1 X̄2
σ2
Como dito, a variância é um parâmetro populacional e, portanto, é desconhecida e precisa ser
estimada a partir dos dados amostrais. Com os dados da primeira amostra, poderemos estimar a
variância, já que, supostamente, são iguais, conforme mostra a equação (2.3).
No entanto, também poderemos estimar a variância populacional pela variância amostral da
segunda amostra (estamos considerando a existência de homocedasticidade), dada por (2.4).
Porém, sem demonstrações matemáticas, vamos a�rmar que é melhor estimar a variância por
meio da média ponderada pelos pesos proporcionais aos tamanhos das amostras (SIQUEIRA;
TIBÚRCIO, 2011), conhecida como variância combinada e dada por (2.5).
Então, a estimativa do desvio padrão combinado é obtida pela raiz quadrada positiva de (2.5).
Considerando o que foi exposto até aqui, podemos, agora, considerar a estatística do teste T para
comparar duas amostras conforme (2.6).
Para o teste elaborado, o critério de decisão será de rejeição de em favor de
, no nível de signi�cância α pré-determinado, se
O termo representa o percentil de ordem da distribuição t de Student
com graus de liberdade. O seu valor pode ser facilmente encontrado em tabelas
disponíveis nos livros de estatística básica (BUSSAB; MORETTIN, 2017), na internet e, também, é
possível obtê-lo por um programa computacional.
Deveremos rejeitar a hipótese H se a estatística do teste T for “grande” em valor absoluto
(SIQUEIRA; TIBÚRCIO, 2011). Vale lembrar que, com o avanço das tecnologias computacionais,
tornou-se, cada vez mais, frequente o uso do valor-p para fazer a tomada de decisão.
Siqueira e Tibúrcio (2011) apresentam um estudo feito para avaliar o nível sérico de ferro em
crianças com �brose cística (F). Foram avaliadas 13 crianças com �brose cística e 9 crianças
sadias, consideradas grupo controle (C). As estimativas obtidas são apresentadas na Tabela 2.1.
V ar ( − ) = + = ( + )       (2.2)X̄1 X̄2
σ2
n1
σ2
n2
σ2 1
n1
1
n2
σ2
=       (2.3)s2
1
∑n1
i=1 ( − )x1i x̄1
2
− 1n1
=       (2.4)s2
2
∑n1
i=1 ( − )x2i x̄2
2
− 1n2
σ2
=       (2.5)s2
p
( − 1) . + ( − 1) .n1 s2
1 n2 s2
2
+ − 2n1 n2
T =       (2.6)
−x̄1 x̄2
( + )s2
p
1
n1
1
n2
− −−−−−−−−−−
√
: − = 0H0 μ1 μ2
: − ≠ 0H1 μ1 μ2
|T | > .       (2.7)t + −2;1−α/2n1 n2
t + −2;1−α/2n1 n2 (1 − α/2)
( + − 2)n1 n2
0
Tabela 2.1 - Dados amostrais por grupo de estudo
Fonte: Siqueira e Tibúrcio (2011, p. 287).
#PraCegoVer: a tabela apresenta informações sobre os dados amostrais para cada grupo. Ela
possui quatro colunas e três linhas. Na primeira linha, estão os títulos de cada coluna, sendo a
identi�cação de cada grupo, o tamanho da amostra, os valores das médias e os desvios padrão
de cada grupo, respectivamente. Na segunda coluna, constam os valores nove e treze,
correspondendo aos tamanhos dos grupos controle e �brose, respectivamente. Na terceira
coluna, constam os valores de médias amostrais dezoito vírgula nove e onze vírgula nove,
correspondendo às médias dos grupos controle e �brose. Na quarta coluna, constam os
valores de desvios padrão cinco vírgula nove e seis vírgula três, correspondendo aos grupos
controle e �brose, respectivamente.
Para simpli�car, iremos considerar que os pressupostos de distribuição normal para as amostras e
homocedasticidade estão atendidos. Então, iremos ponderar teste bilateral, portanto as hipóteses
serão versus . Os cálculos necessários para a tomada de
decisão são apresentados a seguir.
1. Estimativa da variância combinada.
2. Estatística do teste T.
3. Graus de liberdade.
4. Valor tabelado – percentil da distribuição t de Student para .
5. Tomada de decisão.
: − = 0H0 μC μF : − ≠ 0H1 μC μF
= = = 37, 74s2
p
( − 1) . + ( − 1) .nC s2
C
nF s2
F
+ − 2nC nF
(9 − 1) . + (13 − 1) .(5, 9)2 (6, 3)2
9 + 13 − 2
T = = = 2, 63
−x̄C x̄F
( + )s2
p
1
nC
1
nF
− −−−−−−−−−−
√
18, 9 − 11, 9
(37, 74) ( + )1
9
1
13
− −−−−−−−−−−−−
√
+ − 2 = 9 + 13 − 2 = 20nC nF
α = 0, 05
= = 2, 086t20;1−0,05/2 t20;0,975
|T | = 2, 63
= 2, 086t20;0,975
2, 63 > 2, 086
Portanto, rejeitamos ao nível de 5% de signi�cância.
Quando a condição de homocedasticidade não é atendida, a estimativa da variância da diferença
entre as médias é calculada de outra forma. Mais detalhes sobre esse caso podem ser encontrados
em Martinez (2015).
Teste T para Amostras Dependentes
Alguns desenhos de pesquisa utilizam a estratégia conhecida como pareamento para avaliar
mudanças no tempo ou na aplicação de intervenções. É muito utilizada na área de saúde na
avaliação de desfechos quantitativos contínuos.
Assim, de forma geral, o problema de comparação faz uso de médias e tem hipóteses de teste
semelhantes àquelas apresentadas para o caso de amostras independentes, com uma pequena
diferença de notação, mostrada em (2.8).
Concebendo uma situação de formação de pares de sujeitos na qual um recebe o tratamento e o
outro é o controle, poderemos utilizar a notação para n pares de valores como
. Considerando essa notação, poderemos tomar a
diferença entre cada par de valores como
 e, então, calcular a média e o desvio
padrão a partir dos dados amostrais, respectivamente, como em (2.9) e (2.10).
Já a estatística do teste de hipóteses será dada por (2.11).
O denominador de (2.11) é o desvio padrão da média amostral, também conhecido por erro padrão.
A distribuição de referência continua sendo a distribuição t de Student, com graus de
liberdade agora, considerando que a diferença entre os valores dos grupos comparados tem
distribuição normal.
Então, a regra de decisão é feita a partir de comparação entre a estatística do teste e a do percentil
de ordem da distribuição de referência . A rejeição da hipótese nula ocorrerá
se
: − = 0H0 μC μF
Fonte: Undrey / 123RF.
O pareamento pode ser realizado em pares de sujeitos com
alguma(s) característica(s) em comum mas também pode ser
aplicado no mesmo participante, em momentos distintos. A
ideia do seu uso é, também, controlar fatores de confusão
(SIQUEIRA; TIBÚRCIO, 2011). Nessa situação, “a ideia
fundamental é trabalhar com a diferença das medidas dentro
de cada par, já que ela re�ete o efeito do tratamento”
(SIQUEIRA; TIBÚRCIO, 2011, p. 293).
: − = 0  versus  : − ≠ 0 ⇔ : = 0 versus  : ≠ 0      (2.8)H0 μ1 μ2 H1 μ1 μ2 H0 μd H1 μd
( . ) , ( , ) , … , ( , )x11 x21 x12 x22 x1n x2n
= − ,   = − , … ,   = −d1 x11 x21 d2 x12 x22 dn x1n x2n
=       (2.9)d̄
∑n
i=1 di
n=       (2.10)sd
∑n
i=1 ( − )di d̄
2
n − 1
− −−−−−−−−−−−−
√
=       (2.11)td
d̄
/sd n−−√
(n − 1)
(1 − α/2) tn−1;1−α/2
Vale lembrar que o procedimento é válido, também, para testar hipóteses unilaterais, com pequena
diferença na elaboração das hipóteses e no percentil da distribuição de referência, que passará a
ser , que representa o percentil de ordem da distribuição t de Student com
 graus de liberdade.
Para exempli�car, consideremos o estudo descrito por Siqueira e Tibúrcio (2011) sobre um
programa para redução do nível de colesterol. O objetivo dessa pesquisa foi avaliar a efetividade de
uma dieta combinada com um programa de exercícios físicos na redução do nível de colesterol. A
Tabela 2.2 apresenta os dados do nível de colesterol de 12 participantes no início e no �m do
estudo.
| | ≥       (2.12)td tn−1;1−α/2
tn−1;1−α (1 − α)
(n − 1)
Tabela 2.2 - Níveis de colesterol no início e no �m do estudo
Fonte: Siqueira e Tibúrcio (2011, p. 294).
#PraCegoVer: a tabela contém cinco colunas com a primeira linha contendo os títulos de cada
uma delas. As duas primeiras colunas contêm os valores dos níveis de colesterol dos
participantes (valor inicial e �nal, respectivamente), a terceira coluna contém os valores das
diferenças, a quarta coluna contém os valores dos desvios em relação à média das diferenças
e a última coluna contém os quadrados dos desvios. Os níveis de colesterol antes do
tratamento são duzentos e um, duzentos e trinta e um, duzentos e vinte um, duzentos e
sessenta, duzentos e vinte e oito, duzentos e trinta e sete, trezentos e vinte e seis, duzentos e
trinta e cinco, duzentos e quarenta, duzentos e sessenta e sete, duzentos e oitenta e quatro e
duzentos e um. Os valores de colesterol depois do tratamento são duzentos, duzentos e trinta e
seis, duzentos e dezesseis, duzentos e trinta e três, duzentos e quarenta e quatro, duzentos e
dezesseis, duzentos e noventa e seis, cento e noventa e cinco, duzentos e sete, duzentos e
quarenta e sete, duzentos e dez e duzentos e nove. As diferenças entre os níveis de colesterol
são um, menos cinco, cinco, vinte e sete, quatro, vinte e um, trinta, quarenta, trinta e três, vinte,
setenta e quatro e menos oito. Os valores dos desvios são menos dezenove vírgula dezesseis,
menos vinte e cinco vírgula dezesseis, menos quinze vírgula dezesseis, seis vírgula oitenta e
três, menos dezesseis vírgula dezesseis, zero vírgula oitenta e três, nove vírgula oitenta e três,
dezenove vírgula oitenta e três, doze vírgula oitenta e três, menos zero vírgula dezesseis,
cinquenta e três vírgula oitenta e três, menos vinte e oito vírgula dezesseis. Os valores dos
quadrados dos desvios são trezentos e sessenta e sete vírgula trinta e seis, seiscentos e trinta
e três vírgula trinta e seis, duzentos e trinta vírgula zero três, quarenta e seis vírgula sessenta e
nove, duzentos e sessenta e um vírgula trinta e seis, zero vírgula sessenta e nove, noventa e
seis vírgula sessenta e nove, trezentos e noventa e três vírgula trinta e seis, cento e sessenta e
Dados do nível de colesterol
Nível de colesterol Diferença Desvio Desvio ao quadrado
Início ( ) Final ( )
201 200 1 -19,16 367,36
231 236 -5 -25,16 633,36
221 216 5 -15,16 230,03
260 233 27 6,83 46,69
228 244 4 -16,16 261,36
237 216 21 0,83 0,69
326 296 30 9,83 96,69
235 195 40 19,83 393,36
240 207 33 12,83 164,69
267 247 20 -0,16 0,03
284 210 74 53,83 2898,03
201 209 -8 -28,16 793,36
xa xd d = −xa xd d − d̄ (d − )d̄ 2
quatro vírgula sessenta e nove, zero vírgula zero três, dois mil oitocentos e noventa e oito
vírgula zero três, setecentos e noventa e três vírgula trinta e seis.
A média das diferenças é dada por . O desvio padrão será dado por (2.10), conforme já
visto anteriormente para o cálculo da variância de uma amostra (cálculo análogo), de acordo com
Estatística do teste , em substituição à estatística T, pois estamos, agora, tratando amostras
pareadas, então, ela será calculada por
3. Graus de liberdade.
4. Valor tabelado – percentil da distribuição t de Student para .
5. Tomada de decisão.
Portanto, rejeitamos ao nível de 5% de signi�cância.
Agora, faça a atividade a seguir para saber mais sobre o que estudamos até agora.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
O uso de testes estatísticos não pode ser aplicado em todas as situações. Por exemplo, para ser
utilizado, o teste T exige que condições sejam atendidas. Portanto, elas precisam ser veri�cadas
antes de sua aplicação, pois podem causar sérios problemas em estudos cientí�cos.
Considerando essa informação, avalie as alternativas a seguir e assinale a correta.
a) O teste T, para comparar grupos independentes, considera que as variâncias dos
grupos são heterocedásticas.
b) O desfecho considerado em um teste de hipóteses que utiliza o teste T pode ser um
atributo que permita o cálculo de proporções.
c) O tamanho das amostras utilizadas para compor os grupos pode ser obtido de forma
arbitrária, ou seja, a critério do pesquisador.
= 20, 16d̄
= = = 23, 13sd
∑n
i=1 ( − )di d̄
2
n − 1
− −−−−−−−−−−−−
√ 5885, 65
12 − 1
− −−−−−−
√
td
= = = 3, 02td
d̄
/sd n−−√
20, 16
23, 13/ 12
−−√
n − 1 = 12 − 1 = 11
α = 0, 05
= = 2, 201t11;1−0,05/2 t11;0,975
| | = 3, 02td
= 2, 201t11;0,975
3, 02 > 2, 201
: = 0H0 μd
d) O teste T, para comparar dois grupos independentes, considera que as variâncias
populacionais são homocedásticas.
e) Uma das condições necessárias para utilizar o teste T para comparar grupos é que as
médias populacionais sejam conhecidas.
O teste de qui-quadrado é apropriado para testar desfechos categóricos ou qualitativos. Ele tem a
distribuição qui-quadrado por base, supostamente apresentada pela primeira vez em 1875, pelo
matemático alemão Friedrich Robert Helmert (1843-1917) e, por volta de 1900, pelo estatístico
inglês Karl Pearson (1857-1936). É representada pela letra grega (lê-se qui quadrado). A
distribuição, semelhante à distribuição t de Student, tem os seus graus de liberdade como
parâmetro.
Teste Qui-quadrado de Associação
Para apresentar o teste, vamos considerar que desejamos investigar a associação entre duas
variáveis qualitativas, arbitrariamente denotadas por A e B (MARTINEZ, 2015). O teste qui-quadrado
tem, por hipóteses de teste, para veri�car associação, o seguinte:
.
.
Martinez (2015, p. 249) a�rma que é “importante lembrar que associação não signi�ca
causalidade”, ou seja, se a hipótese nula for rejeitada na realização de um teste, não podemos
a�rmar que existe relação de causa e efeito entre as variáveis testadas.
Fonte: Tolkachev / 123RF.
Teste de Qui-quadrado
χ2
: A e B s o independentes  (n o h  associaç o entre A e B)H0 a~ a~ á a~
: A e B n o s o independentes  (existe associaç o entre A e B)H1 a~ a~ a~
Vamos, inicialmente, considerar tabelas com duas linhas e duas colunas designadas como tabelas
2×2 e variáveis binárias, ou seja, variáveis com duas categorias. A Tabela 2.3 apresenta um
esquema geral de organização de dados e é conhecida como tabela de contingência.
Tabela 2.3 - Tabela de contingência 2×2 genérica
Fonte: Martinez (2015, p. 251).
#PraCegoVer: a tabela apresenta quatro colunas e cinco linhas. A primeira coluna contém o
título “Variável B” e suas linhas contêm os termos “Categoria 1”, “Categoria 2” e “Total”. A
segunda e a terceira colunas, correspondentes às categorias da variável A, contêm títulos
“Categoria 1” e “Categoria 2” e linhas com termos “a”, “c”, “a mais c”, “b”, “d” e “b mais d”,
respectivamente. A última coluna contém o título “Total” e suas linhas são “a mais b”, “c mais
d” e “n igual a mais b mais c mais d”.
As quantidades do corpo da Tabela 2.3, representadas genericamente por a, b, c e d, são as
frequências absolutas em que a quantidade “a” de sujeitos são classi�cados, simultaneamente, na
categoria 1 da variável A, na categoria 1 da variável B e, assim, sucessivamente.
A estatística do teste é dada pela equação (2.13).
A base teórica do teste qui-quadrado de Pearson diz que, se tomarmos um númerobastante grande de amostras tamanho n da população em questão, todas utilizando o
mesmo processo de amostragem, para cada uma dessas amostras podemos calcular
um valor de baseado nessa expressão. Se a hipótese nula for verdadeira, a
distribuição desses valores seguirá uma curva qui-quadrado com 1 grau de
liberdade. (MARTINEZ, 2015, p. 252)
Considerando o nível de signi�cância α, a hipótese nula será rejeitada se o valor da estatística do
teste for maior que o valor tabelado do percentil de ordem da distribuição qui-quadrado
com 1 grau de liberdade, ou seja, rejeita-se H se . O valor tabelado pode ser
encontrado em tabelas de livros de estatística, internet e programas computacionais que tenham
implementado rotinas de análises estatísticas.
Para exempli�car, consideraremos o estudo descrito por Martinez (2015) para avaliar a associação
entre queixa de zumbidos em idosos e participação em um programa de atividade física. As
hipóteses de teste consideradas são:
.
=       (2.13)X2 n(a × d − b × c)2
(a + b) × (c + d) × (a + c) × (b + d)
X2
X2
(1 − α)
0 ≥X2 χ2
1;1−α
: n o h  associaç o entre queixas de zumbidos e participaç  o no programaH0 a~ á a~ a~
.
Para isso, uma amostra de 150 idosos, obtida por técnica de amostragem, foi considerada, o que
gerou a Tabela 2.4.
Tabela 2.4 - Dados do estudo de associação
Fonte: Martinez (2015, p. 253).
#PraCegoVer: a tabela contém dados do estudo. A primeira coluna contém o título “Queixa de
zumbido” e os títulos das linhas “Presente”, “Ausente” e “Total”. A segunda e a terceira colunas
contêm títulos “Participou” e “Não participou”, além de valores para as classi�cações
encontradas nos dados. A quarta coluna contém o título de “Total” e os totais de cada linha da
tabela. A segunda coluna possui os valores cinquenta e cinco, quarenta e dois e noventa e sete
para presença de zumbido, ausência de zumbido e total de participantes em atividades físicas,
respectivamente. A terceira coluna possui os valores vinte e um, trinta e dois e cinquenta e três
para presença de zumbido, ausência de zumbido e total de sedentários, respectivamente. A
quarta coluna contém os valores setenta e seis, setenta e quatro e cento e cinquenta para total
de presença de zumbido, total de ausência de zumbido e total amostral, respectivamente.
Se considerarmos a notação genérica apresentada para a disposição de valores de uma tabela de
contingência de ordem 2×2, teremos que e . Concebendo isso,
teremos que a estatística do teste poderá ser calculada como
Então, o valor tabelado do percentil da distribuição qui-quadrado de ordem 
com 1 grau de liberdade é igual a 3,84. A regra de decisão diz que, se o valor da estatística do teste
for maior ou igual ao valor tabela, devemos rejeitar a hipótese nula, ou seja, existem evidências de
associação na participação de programa de atividade física e queixa de zumbidos nos idosos ao
nível de 5% de signi�cância.
[...] o roteiro para o planejamento de um estudo na área da saúde consiste basicamente
em: a) explicitar os objetivos e as hipóteses de pesquisa; b) especi�car claramente a
população-alvo; c) listar as variáveis a serem consideradas; d) determinar o tamanho da
amostra e esquematizar os métodos de coletar os dados, incluindo o tipo de
amostragem; e) preparar o questionário, a �cha de coleta de dados ou, de forma geral, o
instrumento que deve ser validado, caso isto não tenha sido feito em estudos anteriores;
f) especi�car o cronograma do estudo; g) submeter o projeto/protocolo do estudo a um
comitê de ética em pesquisa; h) selecionar a amostra e coletar os dados; i) editar,
codi�car e entrar os dados de forma eletrônica e fazer a consistência dos mesmos; j)
analisar os dado; k) relatar os achados.
: h  associaç o entre queixas de zumbidos e participaç o no programaH1 á a~ a~
Dados do estudo de associação
  Programa de atividade física  
Queixa de zumbido Participou Não participou Total
Presente 55 21 76
Ausente 42 32 74
Total 97 53 150
a = 55, b = 21, c = 42 d = 32
= = = 4, 0X2 n(a × d − b × c)2
(a + b) × (c + d) × (a + c) × (b + d)
150(55 × 32 − 21 × 42)2
76 × 74 × 97 × 53
(1 − 0, 05) = 0, 95
Ainda, o teste qui-quadrado pode ser aplicado, também, para dados tabelados de ordem superior a
2×2, ou seja, para tabelas com mais de duas linhas e/ou duas colunas. O procedimento de
realização do teste de hipóteses considera a comparação com valores esperados para a
distribuição sob a condição de H ser verdadeira. A obtenção do valor do percentil tabelado da
distribuição de probabilidades terá graus de liberdade maior que a unidade (1).
Para exempli�car, vejamos o estudo apresentado por Martinez (2015) sobre um estudo transversal
cujo objetivo foi descrever as condições de vida e saúde de idosos residentes no município de
Guaramiranga (CE). A Tabela 2.5 expõe a distribuição dos participantes do estudo de acordo com a
condição de tabagismo para um total amostral de 438 participantes.
Tabela 2.5 - Valores do estudo de associação
Fonte: Martinez (2015, p. 254).
#PraCegoVer: a tabela possui quatro colunas e cinco linhas. A primeira coluna contém a
condição quanto ao tabagismo: fumante, nunca fumou, ex-fumante e total. A segunda coluna
contém a condição quanto ao tabagismo para os que têm saúde excelente/boa, sessenta e
três, cinquenta e oito, oitenta e sete e duzentos e oito para fumante, nunca fumou, ex-fumante e
total, respectivamente. A terceira coluna contém a condição quanto ao tabagismo para os que
declararam saúde regular/ruim, quarenta e oito, setenta e três, cento e nove e duzentos e trinta
para fumante, nunca fumou, ex-fumante e total, respectivamente. A quarta coluna contém os
valores cento e onze, centro e trinta e um, cento e noventa e seis e quatrocentos e trinta e oito
para os totais de fumante, nunca fumou, ex-fumante e amostral, respectivamente.
Para desenvolver o procedimento de teste de hipóteses, iremos �xar os totais da Tabela 2.5 e
produzir uma tabela análoga com valores chamados “esperados”, ou seja, valores que seriam
observados se a hipótese nula fosse verdadeira. Para isso, consideraremos dois eventos X e Y, em
que X representará um participante do estudo que respondeu saúde como excelente/boa, e Y
corresponderá a um participante que respondeu ser fumante.
Com a de�nição desses eventos, poderemos obter probabilidades associadas a eles a partir da
Tabela 2.5. Por exemplo, a probabilidade do evento X ocorrer é P(X) = 208/438, e a do evento Y é
P(Y) = 111/438. Se os eventos X e Y forem independentes, teremos de propriedades da teoria de
probabilidades que P(X∩Y) = P(X).P(Y) e, para os dados do estudo, teremos P(X∩Y) = (208/438).
(111/438) = 1924/15987.
Desse modo, se multiplicarmos o resultado encontrado por 438 (total amostral do estudo), teremos
o valor esperado para o total de participantes que responderam ter saúde excelente/boa e, também,
fumantes. Portanto, (1924/15987)×438 = 52,71. Poderemos obter os demais valores esperados de
0
maneira análoga. Por exemplo, para fumantes que responderam ter saúde regular/ruim, teremos
que o valor esperado será igual a
E, assim, será para as demais caselas da tabela. A tabela completa com todos os valores esperados
será:
Tabela 2.6 - Valores esperados do estudo de associação
Fonte: Martinez (2015, p. 256).
#PraCegoVer: a tabela possui os valores esperados para a tabela de contingência entre
condição de tabagismo e saúde autorreferida. Ela contém quatro colunas e cinco linhas. A
primeira coluna possui a descrição das categorias da condição para o tabagismo: fumante,
nunca fumou, ex-fumante e total. A segunda coluna possui os valores esperados quanto à
condição de tabagismo para aqueles que declararam ter saúde excelente/boa: cinquenta e dois
vírgula setenta e um, quinhentos e sessenta e dois vírgula vinte e um, noventa e três vírgula
zero oito e duzentos e oito para fumante, nunca fumou, ex-fumante e total, respectivamente. A
terceira coluna contém valores esperados para os que declararam saúde regular/ruim quanto à
condição de tabagismo: cinquentae oito vírgula vinte e nove, sessenta e oito vírgula setenta e
nove, cento e dois vírgula noventa e dois e duzentos e trinta para fumante, nunca fumou, ex-
fumante e total, respectivamente. A quarta coluna possui os totais quanto à condição de
tabagismo: cento e onze, cento e trinta e um, cento e noventa e seis e quatrocentos e trinta e
oito para fumante, nunca fumou, ex-fumante e total amostral, respectivamente.
Por conseguinte, o teste qui-quadrado será construído considerando a comparação entre valores
observados da amostra e esperados da hipótese nula. A Tabela 2.7 apresenta os dois resultados
das Tabelas 2.5 e 2.6.
× × 438 = 58, 29
230
438
111
438
Tabela 2.7 - Valores observados e esperados do estudo de associação
Fonte: Martinez (2015, p. 256).
#PraCegoVer: a tabela é uma junção das tabelas dois ponto cinco e dois ponto 6 para facilitar a
comparação dos valores observados com os esperados. Ela possui sete colunas e seis linhas.
A primeira coluna contém a condição quanto ao tabagismo: fumante, nunca fumou, ex-fumante
e total. A segunda coluna contém a condição quanto ao tabagismo para os que têm saúde
excelente/boa: sessenta e três, cinquenta e oito, oitenta e sete e duzentos e oito de fumante,
nunca fumou, ex-fumante e total, respectivamente. A terceira coluna contém a condição quanto
ao tabagismo para os que declararam saúde regular/ruim: quarenta e oito, setenta e três, cento
e nove e duzentos e trinta para fumante, nunca fumou, ex-fumante e total, respectivamente. A
quarta coluna contém os valores cento e onze, centro e trinta e um, cento e noventa e seis e
quatrocentos e trinta e oito para os totais de fumante, nunca fumou, ex-fumante e amostral,
respectivamente. A quinta coluna possui os valores esperados quanto à condição de
tabagismo para aqueles que declararam ter saúde excelente/boa: cinquenta e dois vírgula
setenta e um, sessenta e dois vírgula vinte e um, noventa e três vírgula zero oito e duzentos e
oito para fumante, nunca fumou, ex-fumante e total, respectivamente. A sexta coluna contém
valores esperados para o que declararam saúde regular/ruim quanto à condição de tabagismo:
cinquenta e oito vírgula vinte e nove, sessenta e oito vírgula setenta e nove, cento e dois vírgula
noventa e dois e duzentos e trinta para fumante, nunca fumou, ex-fumante e total,
respectivamente. A sétima coluna possui os totais quanto à condição de tabagismo: cento e
onze, cento e trinta e um, cento e noventa e seis e quatrocentos e trinta e oito para fumante,
nunca fumou, ex-fumante e total amostral, respectivamente.
A estatística do teste qui-quadrado, então, será dada por
com graus de liberdade, em que (total de linhas da tabela) e (total
de colunas da tabela).
Para obter o seu valor correto, precisamos identi�car os elementos a partir da Tabela 2.7. Portanto,
teremos que o = 63, e 52,71, o = 48, e = 58,29, o = 58, e = 62,21, o = 73, e = 68,79, o
 = 87, e = 93,08, o = 109, e = 102,92. Assim, poderemos calcular a estatística do teste.
  Frequências observadas (o )   Frequências esperadas (e )
  Saúde autorreferida     Saúde autorreferida  
Tabagismo
Excelente/
boa
Regular/
ruim
Total  
Excelente/
boa
Regular/
ruim
Total
Fumante 63 48 111   52,71 58,29 111
Nunca
fumou
58 73 131   62,21 68,79 131
Ex-fumante 87 109 196   93,08 102,92 196
Total 208 230 438   208 230 438
ij ij
=       (2.14)X2 ∑
l
i=1
∑
c
j=1
( − )oij eij
2
eij
(l − 1) × (c − 1) l = 3 c = 2
11 11 12 12 21 21 22 22
31 31 32 32
= + + + + +X2 (63 − 52, 71)2
52, 71
(48 − 58, 29)2
58, 29
(58 − 62, 21)2
62, 21
(73 − 68, 79)2
68, 79
(87 − 93, 08)2
93, 08
(109 − 10
102,
O percentil de ordem com
 graus de liberdade é igual a 5,991. A regra de
decisão diz que, se , deveremos rejeitar a hipótese nula. Para o exemplo que
estamos avaliando, e , ou seja, 5,12 < 5,99. Portanto, não encontramos
evidências para rejeitar H , não veri�camos evidência de associação entre o nível de saúde
autorreferido e a condição quanto ao tabagismo no nível de 5% de signi�cância.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
O teste qui-quadrado de associação é útil para avaliar associação entre variáveis qualitativas. O
procedimento manual para executá-lo exige que sejam produzidos alguns valores de acordo com
a suposição de hipótese nula verdadeira.
Assinale a alternativa que apresenta, corretamente, como são conhecidos esses valores.
a) Valores observados.
b) Valores amostrais.
c) Estatísticas de teste.
d) Valores esperados.
e) Valores tabelados.
O Statistical Package for Social Sciences (SPSS) é um programa para análise de dados
desenvolvido pela empresa IBM®. É de fácil uso, pois não exige conhecimento de programação de
seus usuários, apesar de possuir módulo para inserção de linhas de comandos.
(1 − α) = 1 − 0, 05 = 0, 95
(l − 1) × (c − 1) = (3 − 1) × (2 − 1) = 2
≥X2 χ2
(l−1).(c−1);1−α
= 5, 12X2 = 5, 991χ2
2
0
Aula Prática no SPSS:
Teste T e Qui-quadrado
Apresentaremos, a partir de agora, exemplos de aplicação dos testes t para amostras
independentes e dependentes, assim como aplicações do teste qui-quadrado para avaliar
associação entre variáveis categóricas. Para isso, utilizaremos a versão 28.0.0.0 (190) para
Windows 64 bits.
Sendo assim, usaremos os dados disponibilizados por Martinez (2015, p. 25), que, segundo o autor,
trata-se de “um banco de dados obtido de uma pesquisa da qual participaram 40 mulheres”. São
dados de idade (em anos completos), estado civil, tabagismo, idade ao ter o primeiro �lho, número
de partos, peso (em quilogramas), altura (em metros) e autodeclaração de estado de saúde. A
Tabela 2.8 replica os dados.
Dados do estudo
Idade
Estado
civil
Tabagismo
Idade ao ter o
primeiro �lho
Partos Peso Altura
Estado de
saúde
51 Casada Não 26 3 74,6 1,59 Bom
48 Casada Não 20 2 53,3 1,51 Bom
57 Casada Não 20 3 64,0 1,63 Bom
48 Casada Sim 21 3 68,6 1,58 Regular
49 Casada Não 28 1 77,9 1,52 Bom
47 Casada Não 15 3 59,9 1,52 Bom
49 Casada Não 19 3 64,0 1,64 Regular
52 Casada Não 30 1 70,5 1,66 Regular
45 Casada Não 27 1 72,6 1,53 Bom
64 Casada Não 20 2 66,0 1,50 Bom
55 Casada Não 19 5 65,4 1,60 Bom
45 Solteira Não 29 1 55,0 1,56 Ruim
54 Casada Não 21 1 66,8 1,64 Regular
51 Casada Não 21 2 70,3 1,59 Regular
59 Viúva Sim   0 80,6 1,55 Bom
56 Viúva Sim 22 3 74,8 1,50 Bom
49 Divorciada Não 22 3 60,0 1,60 Regular
52 Casada Não 28 3 61,8 1,57 Bom
64 Casada Não 27 3 59,9 1,57 Bom
47 Divorciada Não 22 3 79,3 1,68 Regular
50 Casada Não 23 2 81,5 1,71 Bom
64 Casada Não 25 2 53,4 1,59 Regular
52 Casada Não 27 3 84,5 1,64 Regular
56 Casada Não 16 4 71,0 1,60 Regular
59 Viúva Sim 21 2 71,8 1,54 Bom
48 C d Nã 31 2 68 9 1 58 B
Tabela 2.8 - Dados do estudo com 40 mulheres
Fonte: Martinez (2015, p. 26).
#PraCegoVer: a tabela possui os dados do estudo. Nela, há uma variável por coluna e um valor
ou atributo por linha. A primeira coluna possui os valores de idade: cinquenta e um, quarenta e
oito, cinquenta e sete, quarenta e oito, quarenta e nove, quarenta e sete, quarenta e nove,
cinquenta e dois, quarenta e cinco, sessenta e quatro, cinquenta e cinco, quarenta e cinco,
cinquenta e quatro, cinquenta e um, cinquenta e nove, cinquenta e seis, quarenta e nove,
cinquenta e dois, sessenta e quatro, quarenta e sete, cinquenta, sessenta e quatro, cinquenta e
dois, cinquenta e seis, cinquenta e nove, quarenta e oito, cinquenta e um, cinquenta e um,
sessenta e três, cinquenta e oito, cinquenta e dois, quarenta e nove, cinquenta e oito, cinquenta,
cinquenta e três, cinquenta e quatro, sessenta e cinco, cinquenta e sete, cinquenta e oito e
cinquenta e quatro. A segunda coluna contém trinta linhas com a palavra casada, cinco linhas
com a palavra divorciada, uma linha com a palavra solteira e quatro linhas com a palavra viúva
para representar o estado civil das mulheres do estudo. A terceira coluna possui trinta e quatro
vezes a palavra não e seis vezes a palavra sim para tabagismo. A quarta coluna possui os
valores de idade em que tiveram o primeiro�lho, que vai de quinze até trinta e um anos. A
quinta coluna possui os números de partos que vão de zero a oito. A sexta coluna contém os
valores de pesos das mulheres que variaram de quarenta e sete vírgula nove até cento e onze
vírgula cinco. A sétima coluna possui os valores de alturas das mulheres que variaram de um
metro e quarenta e oito centímetros até um metro e setenta e um centímetros. A oitava coluna
48 Casada Não 31 2 68,9 1,58 Bom
Dados do estudo
Idade
Estado
civil
Tabagismo
Idade ao ter o
primeiro �lho
Partos Peso Altura
Estado de
saúde
51 Divorciada Não   0 111,5 1,48 Ruim
51 Casada Não 22 3 66,7 1,53 Bom
63 Casada Não 22 4 72,5 1,56 Bom
58 Divorciada Não 15 5 79,9 1,53 Ruim
52 Divorciada Sim   0 47,9 1,53 Bom
49 Casada Não 19 2 54,6 1,58 Bom
58 Viúva Não 26 3 72,8 1,57 Ruim
50 Casada Não 25 1 89,6 1,54 Bom
53 Casada Sim 21 4 68,5 1,57 Bom
54 Casada Não 20 6 73,5 1,53 Bom
65 Casada Não 28 2 73,6 1,59 Bom
57 Casada Não 16 8 69,7 1,61 Ruim
58 Casada Não 20 4 64,3 1,52 Regular
54 Casada Não 18 4 56,4 1,64 Bom
possui o estado de saúde das mulheres. Vinte e quatro delas responderam bom, onze
responderam regular e cinco responderam ruim.
Precisamos inserir os dados no SPSS de forma adequada para que ele reconheça os diferentes
tipos de variáveis que compõem o banco de dados do estudo e que estão sendo inseridos. Por
exemplo, para facilitar, codi�camos a variável tabagismo, em que valor 0 indica “não” e valor 1 indica
“sim”.
Para iniciar o uso dos testes estatísticos descritos, aplicaremos o teste T considerando a condição
de tabagismo e o peso da participante do estudo. Veri�que que, na parte superior do programa,
existe um menu de funções. Dentre elas, está a opção “Analisar”. É essa opção que selecionaremos
para dar início à execução do teste estatístico. Em seguida, escolheremos as subopções “Comparar
Médias” e “Teste-T de Amostras Independentes”.
Após a seleção dos menus, aparecerá uma caixa de diálogo na qual deveremos inserir as variáveis
que contêm os grupos e os dados que irão gerar as médias que serão comparadas. A Figura 2.2
mostra a caixa de diálogos com as variáveis selecionadas nas caixas apropriadas.
Figura 2.2 - Caixa de diálogos para a execução do teste T para amostras independentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a �gura mostra uma caixa de diálogos com espaços para seleção das variáveis que contêm
informações para a execução do teste T e botões que deverão ser clicados. No lado esquerdo, aparece a
lista de variáveis que estão na planilha de dados (idade, estado civil, idade ao primeiro �lho, número de
partos, altura e estado de saúde). No lado direito superior, está uma caixa chamada variável de teste, na
qual deverá ser inserida a variável peso. No lado direito, também, contém os botões de opções do teste e
bootstrap. No lado direito inferior, está uma caixa chamada variável de agrupamento, na qual está inserido
o nome da variável tabagismo e, também, contém botões de OK, Colar, Recon�gurar, Cancelar e Ajuda.
Então, precisamos selecionar as variáveis e, no campo “Variável de agrupamento:”, devemos clicar
no botão “De�nir grupos” para indicar os valores que indicam cada grupo. Depois, basta clicar no
botão “OK” para executar o teste. O resultado é mostrado em uma janela de saída. A Figura 2.3
apresenta os resultados.
Figura 2.3 - Resultados do teste T para amostras independentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a �gura apresenta a saída com tabelas de resultados da execução do teste T. É uma tabela
com quatro linhas e nove colunas. A primeira coluna contém, na terceira linha, o texto “Variâncias iguais
assumidas” e, na quarta linha, o texto “Variâncias iguais não assumidas”. A segunda coluna contém, na
primeira linha, o texto “Teste de Levene para igualdade de variâncias”; na segunda linha, o título “z” e, na
terceira linha, o valor zero vírgula um quatro quatro. A quarta linha está vazia. Na terceira coluna, na
segunda linha, contém o texto “Sig.”. E, na terceira linha, o valor zero vírgula sete zero seis. A quarta linha
está vazia. A quarta coluna contém o título “t” e, na terceira linha, o valor zero vírgula um sete um. Na
quarta linha, o valor zero um sete sete. A quinta coluna contém título “df” e, na terceira linha, o valor trinta e
oito. Na quarta linha, o valor sete vírgula zero oito dois. A sexta coluna contém título “Signi�cância”
dividido em “Unilateral p” e “Bilateral p”. Na terceira linha, logo abaixo de “Unilateral p”, há o valor zero
vírgula quatro três três. Na quarta linha, há o valor zero vírgula quatro três dois. A sétima coluna contém
título “Bilateral p” e, na terceira linha, há o valor zero vírgula oito meia cinco. Na quarta linha, o valor zero
vírgula oito meia cinco. A oitava coluna contém título “teste-t para igualdade de médias diferença média” e,
na terceira linha, há o valor zero vírgula oito sete nove quatro. Na quarta linha, há o valor zero vírgula oito
sete nove quatro. A nona coluna contém título “Erro de diferença padrão” e, na terceira linha, o valor cinco
vírgula um três oito um. Na quarta linha, o valor quatro vírgula nove sete um zero.
A tabela mostrada na Figura 2.3 mostra o resultado do teste T para duas possibilidades, variâncias
iguais e variâncias diferentes. Devemos olhar o valor da coluna “Sig.” do teste de Levene para
igualdade de variâncias. Se o valor-p for maior que 0,05, não rejeitamos a hipótese de variâncias
iguais e seguimos nessa mesma linha. É o que ocorre!
O teste T mostra dois resultados, considerando hipóteses unilaterais e bilaterais. Iremos considerar
as hipóteses bilaterais e avaliar o valor da coluna “Bilateral p”. Se maior que 0,05, consideramos que
as médias não diferem, caso contrário, consideramos existir evidências de diferença ao nível de 5%.
Observamos o valor “,865”, então não rejeitamos H : médias iguais.
Agora, utilizaremos o mesmo conjunto de dados para exempli�car o teste qui-quadrado para
associação. Consideremos avaliar a associação entre a variável tabagismo e a condição de saúde
da mulher. Com isso, desejamos investigar a existência de evidências de associação entre as duas
variáveis.
Para a realização do teste no SPSS, devemos selecionar os menus por meio das opções “Analisar” e
dos submenus “Estatística descritiva” e “Tabela de referência cruzada”.
Ao seguir a seleção de menu indicada no parágrafo anterior, uma caixa de diálogos será aberta.
Nela, as variáveis que serão testadas deverão ser indicadas e, também, o teste estatístico desejado
deverá ser selecionado. A Figura 2.4 mostra a caixa de diálogos com as variáveis já selecionadas
em seus respectivos espaços.
0
Figura 2.4 - Caixa de diálogos para a execução do teste qui-quadrado de associação para amostras
independentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a �gura mostra uma caixa de diálogos que contém espaços para a seleção das variáveis
que contêm valores para a execução do teste qui-quadrado de associação e botões que deverão ser
clicados. No lado esquerdo, aparece uma caixa com uma lista com os nomes das variáveis (idade, estado
civil, idade ao primeiro �lho, número de partos, peso e altura). No centro, aparecem dois botões com
desenho de setas para a direita. No centro superior, aparece uma caixa chamada linha, preenchida com o
nome da variável “estado de saúde”. Abaixo dela, aparece uma caixa denominada “Coluna”, preenchida
com o nome da variável tabagismo. Abaixo dela, aparece uma caixa vazia. No lado direito, aparecem
botões denominados Exato, Estatísticas, Células, Formato, Estilo e Bootstrap. Na parte inferior, aparecem
os textos “exibir grá�cos de barras agrupadas” e “suprimir tabelas”. Também, aparecem botões
denominados OK, Colar, Recon�gurar, Cancelar e Ajuda.
Devemos, agora, clicar no botão “Estatísticas” para selecionarmos o teste que queremos realizar. No
caso, o teste qui-quadrado de associação. Ao clicar, será aberta outra caixa de diálogos para
selecionar o teste qui-quadrado. Para continuar, basta clicar em “Continuar” e,depois, em “OK”.
A Figura 2.5 apresenta a saída fornecida pelo SPSS após a execução do teste de qui-quadrado.
Figura 2.5 - Caixa de diálogos para a execução do teste qui-quadrado de associação para amostras
independentes no SPSS
Fonte: Elaborada pelo autor.
#PraCegoVer: a �gura mostra a saída fornecida pelo SPSS com resultados da execução do teste qui-
quadrado de associação. É uma tabela com quatro linhas e quatro colunas que apresenta, na primeira
coluna, na segunda linha, o texto “Qui-quadrado de Pearson”, na terceira linha, o texto “Razão de
verossimilhança” e, na quarta linha, o texto “N de Casos válidos”. A segunda coluna apresenta o título
“Valor” e, na segunda linha, o valor um vírgula oito dois quatro e sobrescrito a. Na terceira linha, há o valor
dois vírgula cinco cinco um. Na quarta linha, há o valor quarenta. A terceira coluna apresenta título “df” e
valor dois na segunda linha. Na terceira linha, também há o valor dois. A quarta linha está vazia. A quarta
coluna apresenta título “Signi�cância Assintótica (Bilateral)” e, na segunda linha, o valor zero vírgula quatro
zero dois. Na terceira linha, o valor zero vírgula dois sete nove. A quarta linha está vazia.
Iremos, então, avaliar os resultados apresentados pela Figura 2.5 na tabela “Testes qui-quadrado”.
Na linha “Qui-quadrado de Pearson”, na coluna “Signi�cância Assintótica (Bilateral)”, temos o valor-p
do teste. Se ele for menor que 0,05, teremos evidências de associação entre as variáveis testadas,
caso contrário, não teremos e, portanto, não rejeitaremos a hipótese H . O valor-p é 0,402, o que
indica que não há evidência de associação entre tabagismo e condição de saúde das mulheres.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
A distribuição de probabilidades t de Student é uma dentre muitas distribuições de probabilidades
existentes. Ela tem especi�cidades e utilidade, ou seja, foi criada para ser utilizada em situações
especí�cas.
Considerando a informação acima, avalie as alternativas sobre a distribuição de probabilidades e
assinale a alternativa correta sobre a distribuição t de Student.
a) Tem, como parâmetro, a média amostral dos dados, o que corresponde ao uso de
amostras.
0
b) É utilizada para testar atributos como a proporção de indivíduos com alguma
característica de interesse.
c) Sua forma grá�ca é única, independentemente dos graus de liberdade que a
distribuição possuir, ou de outra característica.
d) Possui média igual a zero e tem forma grá�ca semelhante à forma grá�ca da
distribuição normal padrão.
e) Sua curva grá�ca apresenta descontinuidades, ou seja, não existe continuidade de
valores no domínio da função.
praticar
Vamos Praticar
Considere os dados apresentados na Tabela 2.8 deste texto. Ela contém muitas variáveis, tanto
quantitativas quanto qualitativas. Imagine que você faça parte da equipe de investigadores que
estão avaliando hipóteses de pesquisa. Você consegue sugerir variáveis para a realização de um
teste T para amostras independentes? Justi�que sua resposta.
Material
Complementar
W E B
“O melhor teste estatístico para comparação”.
Ano: 2019.
Comentário: Em uma live, o palestrante apresentou os diversos testes
estatísticos para uso em estudos diversos. Ele mostra diferentes exemplos e
aplicações, tornando a compreensão e a aplicabilidade dos testes fáceis.
ACESSAR
L I V R O
Controle estatístico de qualidade
Editora: Penso.
Autor: Christiane P. Dancey, John G. Reidy e Richard Rowe.
ISBN: 978-85-8429-100-7.
Comentário: O livro apresenta diversas técnicas estatísticas para a análise
de dados, inclusive o teste T e o qui-quadrado de associação. Também
expõe aplicações feitas no SPSS com a vantagem de mostrar as capturas de
telas que o programa apresenta quando executa alguma análise de dados.
Portanto, nessa leitura, você poderá aprofundar seus conhecimentos sobre
estatística e aprender mais sobre seu funcionamento para as ciências da
saúde.
https://www.youtube.com/watch?v=HXjdHU7J4v0
Conclusão
Prezado estudante! Estamos �nalizando nosso estudo, mas o mundo dos testes estatísticos não se
encerra por aqui, pois ele é vasto, amplo e muito diverso. Portanto, convido você a continuar a pesquisar
sobre o assunto. Apresentamos o teste T em duas versões existentes, para estudos com amostras
independentes e dependentes. Consideramos, de forma breve, apresentar os pressupostos para o seu
correto uso e, também, expor exemplos de aplicação. Da mesma forma, apresentamos o teste qui-
quadrado de associação e mostramos exemplos práticos e aplicados no programa computacional SPSS.
Desejamos que tenha tido uma boa leitura e continuamos a convidar você para continuar seus estudos
sobre os testes apresentados aqui. Até logo!
Referências
BUSSAB, W. de O.; MORETTIN, P. A. Estatística básica. São
Paulo: Editora Saraiva, 2017. Disponível em:
https://integrada.minhabiblioteca.com.br/#/books/9788547220228/.
Acesso em: 27 ago. 2021.
DANCEY, C. P.; REIDY, J. G.; ROWE, R. Estatística sem
matemática para as ciências da saúde. Porto Alegre: Penso,
2017.
MARTINEZ, E. Z. Bioestatística para os cursos de graduação da área da saúde. São Paulo: Editora Blucher,
2015. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788521209034/. Acesso em: 27
ago. 2021.
O MELHOR teste estatístico para comparação (parte 1 - variáveis qualitativas nominais). [S. l.: s. n.], 2019.
1 vídeo (11min.). Publicado pelo Canal Pesquise. Disponível em: https://www.youtube.com/watch?
v=HXjdHU7J4v0. Acesso em: 27 set. 2021.
Caro(a) estudante, a con�abilidade e a aceitação dos resultados obtidos pelos processos de medição são
muito relevantes no âmbito das questões metrológicas. Basicamente, nenhum tipo de medição que possa
ser realizada representa o verdadeiro valor mensurado. Essa variação normalmente é explicada pelas
limitações inerentes ao processo dimensional, as quais limitam as quantidades de medições que podem
ser realizadas, assim como está associada aos efeitos das demais variações que possam estar presentes.
SOFTWARE IBM SPSS. IBM, [2021]. Disponível em: https://www.ibm.com/br-pt/analytics/spss-statistics-
software. Acesso em: 30 ago. 2021.
TESTE T: não ignore esses segredos. Estatística Fácil, 2020. Disponível em:
https://estatisticafacil.org/2020/10/07/segredos-do-teste-t/. Acesso em: 18 set. 2021.
https://integrada.minhabiblioteca.com.br/#/books/9788547220228/
https://integrada.minhabiblioteca.com.br/#/books/9788521209034/
https://www.youtube.com/watch?v=HXjdHU7J4v0
https://www.youtube.com/watch?v=HXjdHU7J4v0
https://www.ibm.com/br-pt/analytics/spss-statistics-software
https://www.ibm.com/br-pt/analytics/spss-statistics-software
https://estatisticafacil.org/2020/10/07/segredos-do-teste-t/