Buscar

bioestatistica-4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 49 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Leandro Vinhas de Paula
Bioestatística
Unidade 4
Livro didático 
digital
Diretor Executivo 
DAVID LIRA STEPHEN BARROS
Diretora Editorial 
ANDRÉA CÉSAR PEDROSA
Projeto Gráfico 
MANUELA CÉSAR ARRUDA
Autor 
LEANDRO VINHAS DE PAULA
Desenvolvedor 
CAIO BENTO GOMES DOS SANTOS
Olá! Meu nome é Leandro Vinhas de Paula, sou bacharel 
e licenciado em Educação Física (Faculdade de Educação Física 
e Fisioterapia – Universidade Federal de Uberlândia), mestre em 
Ciências do Esporte (Escola de Educação Física, Fisioterapia e 
Terapia Ocupacional – Universidade Federal de Minas Gerais 
– EEFFTO/UFMG) e especialista em Estatística Aplicada 
(Departamento de Estatística – Instituto de Ciências Exatas – 
ICEX/UFMG) com uma experiência técnico-profissional na área 
de educação física e esportes por mais de 10 anos em atividades 
de ensino, pesquisa e extensão na Universidade Federal de Ouro 
Preto e no meio privado. Atualmente sou doutorando na área de 
Biomecânica (EEFFTO - UFMG). 
Autor 
LEANDRO VINHAS DE PAULA
INTRODUÇÃO: 
para o início do 
desenvolvimen-
to de uma nova 
competência;
DEFINIÇÃO: 
houver necessidade 
de se apresentar 
um novo conceito;
NOTA: 
quando forem 
necessários obser-
vações ou comple-
mentações para o 
seu conhecimento;
IMPORTANTE: 
as observações 
escritas tiveram 
que ser prioriza-
das para você;
EXPLICANDO 
MELHOR: 
algo precisa ser 
melhor explicado 
ou detalhado;
VOCÊ SABIA? 
curiosidades e 
indagações lúdicas 
sobre o tema em 
estudo, se forem 
necessárias;
SAIBA MAIS: 
textos, referências 
bibliográficas e 
links para aprofun-
damento do seu 
conhecimento;
REFLITA: 
se houver a neces-
sidade de chamar a 
atenção sobre algo 
a ser refletido ou 
discutido sobre;
ACESSE: 
se for preciso aces-
sar um ou mais sites 
para fazer download, 
assistir vídeos, ler 
textos, ouvir podcast;
RESUMINDO: 
quando for preciso 
se fazer um resumo 
acumulativo das 
últimas abordagens;
ATIVIDADES: 
quando alguma ativi-
dade de autoapren-
dizagem for aplicada;
TESTANDO: 
quando o desen-
volvimento de uma 
competência for 
concluído e questões 
forem explicadas;
Iconográficos
Olá. Meu nome é Manuela César de Arruda. Sou a responsável pelo pro-
jeto gráfico de seu material. Esses ícones irão aparecer em sua trilha de 
aprendizagem toda vez que:
SUMÁRIO
Introdução......................................................................................10
Competências................................................................................11
Coeficiente de correlação de pearson.................................12
Coeficiente de correlação de spearman e concordância 
de kendal.........................................................................................17
Análise de regressão linear.......................................................24
Estudo de dispersão de frequência.......................................33
Bibliografia.....................................................................................49
Bioestatística 9
UNIDADE
04
Bioestatística10
Nesta unidade você será apresentado à distribuição 
normal de probabilidade, aprenderá a utilizar a tabela “z” 
e aprenderá a tipificar respostas individuais para uma 
determinada variável aleatória, serão apresentados 
exemplos práticos para que possa entender com aplicar 
estes conceitos. Então vamos lá!
INTRODUÇÃO
Bioestatística 11
Olá. Seja muito bem-vindo à Unidade 4. Nosso 
objetivo é auxiliar você no desenvolvimento das seguintes 
competências profissionais até o término desta etapa de 
estudos:
1. Explorando o grau de associação entre variáveis 
(“Pearson”);
2. Explorando o grau de associação (“Spearman”) e 
concordância (“Kendall”) entre variáveis;
3. Estabelecendo o relacionamento entre variáveis 
contínuas;
4. Verificando a independência de variáveis discretas
Vamos começar? Está preparado? Então vamos ao 
trabalho!
COMPETÊNCIAS
Bioestatística12
Coeficiente de Correlação de Pearson
O coeficiente de correlação de Pearson é utilizado 
para quantificar a relação linear entre duas variáveis 
quantitativas. Seu valor é determinado pelos valores dos 
dados amostrais observados. Seja uma amostra aleatória 
constituída de n pares (x_i,y_i) de observações, i=1,2,…,n. O 
coeficiente de correlação amostral de Pearson é calculado 
através da fórmula 01:
Fórmula 1: Coeficiente de correlação de Pearson.
Sendo:
𝑟 =
(𝑆𝑥𝑦 )
𝑆𝑥𝑆𝑦
=
∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − 𝑦�)𝑛𝑖=1
∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1
1
2 ∑ 𝑦𝑖 − 𝑦� 2𝑛𝑖=1
1
2
𝑟 =
(∑ 𝑥𝑖𝑦𝑖 ) − 𝑛𝑥𝑦𝑛𝑖=1
∑ 𝑥𝑖2 − 𝑛�̅�
2𝑛
𝑖=1
1
2 ∑ 𝑦𝑖2 − 𝑛𝑦�
2𝑛
𝑖=1
1
2
𝑆𝑥𝑦 =
∑ (𝑥𝑖 − �̅�)(𝑦𝑖 − 𝑦�)𝑛𝑖=1
𝑛 − 1 ;
𝑆𝑥 =
∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1
𝑛 − 1
1
2 
;
𝑆𝑦 =
∑ 𝑦 − 𝑦� 2𝑛𝑖=1
𝑛 − 1
1
2 
Bioestatística 13
Pode ser mostrado que o coeficiente de correlação 
de Pearson está sempre entre -1 e 1. O exemplo a seguir 
ilustra o cálculo de r.
TESTANDO:
Em uma agência de correios de uma cidade, o 
gerente realizou um estudo para relacionar o peso 
(em kg) do total de correspondências recebidas 
por dia com o número efetivo de correspondências 
(x1000). Os dados obtidos da observação de 11 dias 
estão na tabela 1.
Tabela 1. Dados do exemplo 1
Fonte: autor.
Neste caso o valor do coeficiente de correlação de 
Pearson é dados por:
Dia Peso (𝒙𝒊) Número(𝒚𝒊) 𝒙𝒊𝒚𝒊
1 10 4,1 41
2 35 6,5 227,5
3 13 3,6 46,8
4 34 6,7 227,8
5 21 5,2 109,2
Média 22,60 5,220 652,3 
(Total)
Desvio 
Padrão
11,59 1,388
CV% 51,28 26,59
𝑆𝑥𝑦 =
(∑ 𝑥𝑖𝑦𝑖)− 𝑛𝑥𝑦𝑛𝑖=1
𝑛 − 1 =
652,3− 5 22,6 5,22
4 = 15,61
𝑟 =
15,61
(11,59)(1,388) = 0,9704
Bioestatística14
O valor de r indica que há uma forte relação 
linear entre os pesos total das correspondências 
recebidas e o número de correspondências 
recebidas diariamente, sendo que quanto maior o 
número de correspondências recebidas maior é o 
peso total. A correlação está bem próxima de 1. 
Teste de Hipóteses – Coeficiente de 
Correlação de Pearson
Seja 𝜌 o coeficiente de correlação populacional entre 
as variáveis aleatórias X e Y. Para testar a significância da 
correlação é necessário que as duas variáveis X e Y tenham 
distribuição normal. Caso isto aconteça podemos testar 
a hipótese: 𝐻0:𝜌 = 0 através da estatística t-Student dada 
pela fórmula 2:
Que sob a hipótese nula tem distribuição t-Student 
com (n-2) graus de liberdade. Seja 𝛼 o nível de significância 
do teste, 0 < 𝛼 < 1 . Se a hipótese alternativa for 𝐻1:𝜌 > 0 , 
então a hipótese nula será rejeitada para grandes valores 
de 𝑡 isto é, 𝑡 > 𝑡𝑐 , sendo o valor crítico obtido da tabela 
t-Student tal que 𝑃 𝑡𝑛−2 > 𝑡𝑐 = 𝛼 . 
Se a hipótese alternativa for 𝐻1:𝜌 < 0 , a hipótese 
nula será rejeitada para pequenos valores de 𝑡 isto é, 
𝑡 < 𝑡𝑐, e o valor crítico obtido da tabela t-Student é tal que 
𝑃 𝑡𝑛−2 < 𝑡𝑐 = 𝛼 .
𝑡 = 𝑟
𝑛 − 2
1− 𝑟2
�
Fórmula 2: Estatística t-Student.
Bioestatística 15
Se a hipótese alternativa for bilateral, 𝐻1:𝜌 ≠ 0 , então 
a hipótese nula será rejeitada para valores de 𝑡 , 𝑡 > 𝑡𝑐 , 
sendo o valor crítico obtido da tabela t-Student é tal que 
𝑃 𝑡𝑛−2 > 𝑡𝑐 =
𝛼
2
. No exemplo em questão temos que o 
valor de t observado é igual a: 
Seja 𝐻1:𝜌 > 0 e 𝛼 = 0,05 . Supondo normalidade para 
as variáveis peso total e número de correspondências 
recebidas diariamente podemos realizar o teste estatístico. 
Sob a hipótese nula a estatística de teste t tem distribuição 
t-Student com 3 graus de liberdade. Então, o valor 
crítico 𝑡𝑐 será igual a 𝑡3;0,05 = 2,35 e a hipótese nula será 
rejeitada, o que indica que a relação linear positiva entre 
o peso total de correspondências recebidas e o número 
de correspondências recebidas diariamente é significativa 
do teste que seria dada por 𝑃 𝑡3 ≥ 6,959 = 0,00304 , o que 
indica que sob a hipótese nula um valor de correlação da 
ordem 0,9704 é pouco provável. Na Figura 1 tem-se o gráfico 
de dispersão dos valores do peso de correspondências e 
do número de correspondências recebidas diariamente. A 
figura1 indica uma relação de crescimento positivo entre 
duas variáveis. 
𝑡 = 𝑟
𝑛 − 2
1 − 𝑟2
�
= 0,9704
5− 2
1− 0,9704 2
�
= 6,959
Bioestatística16
NOTA:
É importante observar que para 𝑛 = 5 e 𝛼 = 0,05 
a hipótese 𝐻0:𝜌 = 0 seria rejeitada para qualquer 
valor de r maior ou igual a 0,805. Basta buscar os 
valores de r que satisfazem a equação abaixo:
O coeficiente de correlação de Pearson é um 
coeficiente paramétrico. Nem sempre temos 
dados com distribuição normal. Neste caso 
é importante buscarmos uma alternativa não 
paramétrica para medir a relação linear entre as 
duas variáveis. No exemplo em questão, a variável 
número de correspondências recebidas é discreta 
e não tem distribuição normal. 
Figura 1: Gráfico de dispersão entre o peso total e o número de 
correspondências recebidas diariamente.
2,35 = 𝑟
3
1 − 𝑟2
�
Bioestatística 17
Coeficiente de Correlação de Spearman
Suponha que tenhamos uma amostra constituída de n 
pares do tipo (𝑥𝑖 , 𝑦𝑖) . Então, o coeficiente de correlação de 
Spearman é simplesmente o coeficiente de correlação de 
Pearson calculado com os postos das observações (𝑥𝑖 , 𝑦𝑖)
. Dados os n pares de observações deve-se inicialmente 
ordenar os valores de X do menor para o maior colocando 
os pontos correspondentes (em caso de empates usar 
posto médio). Denota-se o posto de observação 𝑥𝑖 por 
𝑅𝑖 . Posteriormente, ordena-se os valores de Y do menor 
para o maior colocando os postos correspondentes (em 
caso de empates usar posto médio). Denota-se o posto 
de observação 𝑦𝑖 por 𝑆𝑖 . O coeficiente de correlação de 
Spearman será dado pela fórmula 03. 
𝑟 =
∑ (𝑅𝑖 − 𝑅�)(𝑆𝑖 − 𝑆̅)𝑛𝑖=1
∑ 𝑅𝑖 − 𝑅� 2𝑛𝑖=1
1
2 ∑ 𝑆𝑖 − 𝑆̅ 2𝑛𝑖=1
1
2
=
(∑ 𝑅𝑖𝑆𝑖)− 𝑛𝑅𝑆𝑛𝑖=1
∑ 𝑅𝑖2 − 𝑛𝑅�
2𝑛
𝑖=1
1
2 ∑ 𝑆𝑖2 − 𝑛𝑆̅
2𝑛
𝑖=1
1
2
Sendo 𝑅� = 𝑆̅ =
𝑛 + 1
2 .
No caso de não haver empates entres as observações 
o coeficiente de Spearman se reduz a fórmula 3:
Coeficiente de correlação de Spearman (reduzida).
𝑟 = 1 −
6𝑇
𝑛(𝑛2 − 1)
onde 𝑇 = ∑ 𝑅𝑖 − 𝑆𝑖 2𝑛𝑖=1
No caso de empates os valores 𝑅𝑖 e 𝑆𝑖 são substituídos 
por postos 𝑅𝑖∗ e 𝑆𝑖∗ . 𝑇 por 𝑇∗ e 𝑟 por 𝑟∗, onde o * denota 
que há empates entre as observações e postos médios 
Fórmula 3: Coeficiente de correlação de Spearman.
Bioestatística18
estão sendo utilizados na atribuição de postos dessas 
observações. 
NOTA:
Voltando ao exemplo 1, primeiramente 
ordenaríamos os valores dos pesos das 
correspondências recebidas e atribuiríamos 
os postos correspondentes. Posteriormente o 
mesmo seria feito para os valores do número 
de correspondências recebidas diariamente. Os 
dados organizados dessa forma são apresentados 
no Tabela 2.
Tabela 2: Dados de pesos de correspondências.
Fonte: autor.
Nesse sentido, o coeficiente de Spearman seria 
calculado da seguinte forma:
𝑟 = 1−
6 4
5 25 − 1 = 1− 0,2 = 0,80
o que indica relação linear entre os postos das 
observações de X e Y.
Dia Peso (𝑥𝑖) Número (𝑦𝑖) 𝑅𝑖 − 𝑆𝑖 2
1 10(1) 4,1(2) 1
2 35(5) 6,5(4) 1
3 13(2) 3,6(1) 1
4 34(4) 6,7(5) 1
5 21(3) 5,2(3) 0
Bioestatística 19
Teste de Hipóteses- Coeficiente de 
Associação (Correlação de Spearman)
É possível testar a significância da correlação entre 
X e Y usando o coeficiente não paramétrico de Spearman. 
As seguintes hipóteses nula e alternativa podem ser 
consideradas: 
𝐼 𝐻0:𝜌 = 0 contra 𝐻𝑎:𝜌 > 0
𝐼𝐼 𝐻0:𝜌 = 0 contra 𝐻𝑎:𝜌 < 0
𝐼𝐼𝐼 𝐻0:𝜌 = 0 contra 𝐻𝑎:𝜌 ≠ 0
Onde 𝜌 é o coeficiente de correlação populacional 
entre X e Y.
A distribuição de probabilidades do coeficiente e 
correlação amostral de Spearman sob a hipótese nula é 
determinada pelas ordenações possíveis de serem obtidas 
quando se tem n pares de n observações de X e n de Y 
(pares). Essa distribuição não depende do conhecimento 
da distribuição de probabilidades das variáveis aleatórias X 
e Y, sendo o coeficiente de correlação de Spearman não- 
paramétrico. Existem tabelas com a distribuição exata de 
r sob a hipótese nula. No entanto, quando n é grande a 
distribuição de r sob a hipótese nula se aproxima de u 1
𝑛 − 1
ma distribuição normal com média zero e variância igual a 
no caso em que não há empates entre as observações de 
X ou de Y. 
No caso (I) a probabilidade de significância de teste 
é dada por 𝑝 = 𝑃[𝑟 ≥ 𝑟𝑜𝑏𝑠 ] . No caso (II) a probabilidade de 
significância é dada por: 𝑝 = 𝑃[𝑟 ≤ 𝑟𝑜𝑏𝑠 ]. No caso (III) seja 
𝑝 = 2𝑃[𝑟 ≥ 𝑟𝑜𝑏𝑠]sendo 𝑟𝑜𝑏𝑠 o valor observado do coeficiente 
de Spearman para a amostra avaliada. 
No exemplo da agência de correios suponha que 
tenhamos as hipóteses:
𝑯𝟎: 𝝆 = 𝟎 contra 𝑯𝒂 :𝝆 > 𝟎 . Então pela tabela da 
distribuição exata de r sob a hipótese nula obtemos: 
Bioestatística20
𝑝 = 𝑃 𝑟 ≥ 0,80 = 0,067 . Isto significa que a hipótese nula 
seria rejeitada para qualquer nível de significância maior ou 
igual a 0,067. É importante observar que não há exigência 
de normalidade das variáveis para se realizar o teste de 
hipóteses relacionado ao coeficiente de associação não 
paramétrico de Spearman.
TESTANDO:
Os dados a seguir referem-se a um experimento 
para verificar o efeito de uma droga (X) no 
crescimento de um determinado tumor. Foram 
usadas 7 doses diferentes de X e para casa dose 
observou-se a porcentagem (Y) de animais que 
desenvolveram o tumor. Os dados observados 
foram (tabela 3):
Tabela 3: Dados de efeito da droga e crescimento tumoral
Fonte: autor.
O valor observado do coeficiente de Spearman é:
Dose (X) 0,05 0,5 5,0 20 50 100 300
Posto(X) 1 2 3 4 5 6 7
% (Y) 1 0 4,9 44,2 30 86,5 56,9
Posto (Y) 2 1 3 5 4 7 6
𝑅𝑖 − 𝑆𝑖 2 1 1 0 1 1 1 1
𝑇 = � 𝑅𝑖 − 𝑆𝑖 2 = 6
𝑛
𝑖=1
𝑟 = 1 −
6 6
7 49 − 1 = 0,8928
Bioestatística 21
A probabilidade de significância para o teste 
unilateral (I) é 0,006 indicando que existe uma 
associação positiva significativa entre a dosagem 
da droga e o desenvolvimento do tumor. Quanto 
maior a dose espera-se que maior será o percentual 
de animais que desenvolvem o tumor. Para o teste 
bilateral (III) seria 0,012. Usando a aproximação 
normal tem-se que:
Figura 2: Gráfico de dispersão entre percentagem de animais 
que desenvolveram o tumor e dosagem da droga.
𝑝 = 𝑃 𝑟 ≥ 0,8928 = 𝑃 𝑁 0,1 ≥
0,8928
1
6
�
= 𝑝 𝑁 0,1 ≥ 2,19 = 0,014
Bioestatística22
A figura 2 apresenta os gráficos de dispersão da 
porcentagem de animais que desenvolveram 
o tumor (Y) e dosagem da droga (X). É possível 
observar que a relação entre Y e X aparentemente 
não é linear. O coeficiente de correlação de 
Spearman é na realidade um coeficiente de 
associação entre X e Y, não necessariamente essa 
associação é linear. Quando o valor é positivo há 
uma associação positiva entre as variáveis, ou seja, 
quando uma variável aumenta de valor a outra 
também tende a aumentar o valor (e vice-versa). 
TESTANDO:
Em competição de ginástica rítmica desportiva dez 
participantes foram classificados por dois juízes da 
seguinte forma (1 é 1° colocado; 2 é o 2° colocado, 
etc.).
Nesse exemplo o valor do coeficiente de 
correlação de Spearman é 𝑟 = 0,915 e a 
probabilidade de significância do teste (I) é igual 0 
0,00 (aproximadamente), rejeitando-se a hipótese 
nula. Deste modo, percebe-se que os juízes foram 
concordantes no julgamento dos candidatos.
Juiz A 2 5 6 4 1 7 9 10 3 8
Juiz B 1 4 5 6 2 7 10 8 3 9
𝑅𝐴 − 𝑅𝐵 2 1 1 1 4 1 0 1 4 0 1
Bioestatística 23
Caso de Empates entre observações X ou Y. 
No caso de haver empates entre as observações de X 
ou de Y, utiliza-se os postos médios quando da ordenação de 
valores e a distribuição normal para o cálculo da probabilidade 
de significância. No caso de empates tem-se que:
𝑉𝑎𝑟 𝑇∗ =
𝑛 − 1 𝑛2 𝑛 + 1 2
36 = 1−
∑ (𝑑𝑖𝑥3 − 𝑑𝑖𝑥)�𝑖
𝑛3 − 𝑛
= 1 −
∑ (𝑑𝑖𝑦3 − 𝑑𝑖𝑦)�𝑖
𝑛3 − 𝑛
Assim a variância do coeficiente de correlação de 
Spearman de 𝑟∗ será definida pela fórmula 4:
Fórmula 4: Variância do coeficiente de correlação de Spearman.
𝑉𝑎𝑟 𝑟∗ =
36
𝑛2 𝑛 + 1 2
𝑉𝑎𝑟 𝑇∗
E utiliza-sea aproximação normal para cálculo 
da probabilidade de significância, sendo 𝑑𝑖𝑥 e 𝑑𝑖𝑦 , as 
frequências observadas de cada valor da variável X e cada 
valor da variável Y. Para efeito da correção de empates 
apenas as frequências dos valores de X e Y que aparecem 
mais de uma vez são contabilizadas. 
Bioestatística24
Análise de Regressão Linear
A análise de regressão é uma técnica de modelagem 
utilizada para analisar a relação entre uma variável resposta 
(Y) e uma ou mais variáveis explicativas X1, X2, X3...Xn com 
objetivo de identificar (estimar) uma função que descreva, 
da melhor forma possível, a relação entre essas variáveis. 
Assim pode-se predizer o valor que a variável resposta 
(Y) irá assumir para determinados valores das variáveis 
explicativas. O objetivo de empregar esta técnica reside na 
interpretação da relação possivelmente existente entre as 
variáveis a fim de entender o fenômeno, predizer valores 
para variável resposta a partir das variáveis explicativas.
Antes de explorar a análise de regressão linear, 
devemos diferenciar os conceitos de modelagem estatística 
e modelagem matemática. A modelagem matemática 
envolve o componente determinístico e modelagem 
estatística envolve tanto o componente determinístico e o 
componente estocástico. A regressão simples é dada pela 
fórmula 5 a seguir:
Modelo de regressão linear.
𝑦𝑖� = 𝛽0 + 𝛽1 + 𝜖𝑖 , 𝑖 = 1,2,3, … ,𝑛
Onde:
 𝑦𝑖� e a variável resposta;
 xi e a variável explicativa; 
 β0 e o intercepto (termo constante); 
 β1 e o coeficiente relacionado a variável xi (fator 
multiplicador ou coeficiente de regressão); 
 ei e o erro aleatório, pertencente ao modelo.
Para ajustar um modelo de regressão linear, devem 
ser respeitados as seguintes suposições: 
Bioestatística 25
 ei N(0;σ
2);
 Cov(ei , ej) = 0 (Independência),
Para entender os coeficientes da análise de regressão 
sem se preocupar com as questões de estimação e 
incerteza, vamos iniciar com um exemplo que se trata de 
uma regressão para predizer o desempenho esportivo de 
equipes adultas femininas da modalidade esportiva de 
handebol entre os anos de 2007 e 2017 (1ª a 24ª posições), 
explicada pelo número médio de partidas internacionais 
disputadas pelo grupo de jogadoras de cada país 
participante de campeonatos mundiais.
𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 = 21,36 − 0,17𝑝𝑎𝑟𝑡𝑖𝑑𝑎𝑠 + 𝜖 (Modelagem estatística)
𝐷𝑒𝑠𝑒𝑚𝑝𝑒𝑛ℎ𝑜 = 21,36 − 0,17𝑝𝑎𝑟𝑡𝑖𝑑𝑎𝑠 (Modelagem matemática)
A variável resposta “Desempenho” denota o valor 
predito ou esperado para o desempenho dado o preditor 
número médio de partidas internacionais disputadas. Esse 
modelo busca explicar o desempenho em mundiais a partir 
da experiência internacional obtida através de jogos, onde 
-0,17 é o coeficiente de regressão. O intercepto “21,36” o valor 
esperado para o número médio de partidas internacionais 
disputadas. Os coeficientes em um modelo de regressão 
linear são geralmente estimados pelo método dos mínimos 
quadrados ordinários. A idéia do método de Minimos 
Quadrados é minimizar por meio das fórmulas abaixo:
Métodos dos mínimos quadrados para determinação 
dos coeficientes do modelo de regressão.
𝑄𝐸 𝛽0,𝛽1 = � 𝑦𝑖 − 𝛽0 + 𝛽1𝑥𝑖 2
𝑛
𝑖=1
Bioestatística26
SQE(β0,β1) pode ser minimizadas através de suas 
derivadas:
𝜕𝑆𝑄𝐸(𝛽0,𝛽1 )
𝜕𝛽0
= −2� 𝑦𝑖 − 𝛽0 + 𝛽1𝑥𝑖 = 0
𝑛
𝑖=1
𝜕𝑆𝑄𝐸(𝛽0,𝛽1 )
𝜕𝛽1
= −2� 𝑦𝑖 − 𝛽0 + 𝛽1𝑥𝑖 = 0
𝑛
𝑖=1
Resolvendo o sistema de equações temos:
 𝛽0 = 𝑦𝑚é𝑑𝑖𝑎 − 𝛽1𝑥𝑚é𝑑𝑖𝑎 ;
 𝛽1 =
∑ 𝑥𝑖𝑦𝑖 − ∑ 𝑦𝑖𝑛𝑖=1 ∑ 𝑥𝑖𝑛𝑖=1𝑛𝑖=1
∑ 𝑥𝑖2 −
∑ 𝑥𝑖2𝑛𝑖=1
2
𝑛
𝑛
𝑖=1
Assumindo a suposição válida, ei ~ N(0,σ
2), então:
 𝛽0~𝑁 𝛽0,𝜎2
1
𝑛 +
𝑥𝑚é𝑑𝑖𝑎2
∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1
 𝛽1 ~𝑁 𝛽1,𝜎2
1
∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1
 Hipótese para β0: 𝐻0:β0 = 0; 𝐻1:β0 ≠ 0 ;
 Estatística de teste: 𝑡𝑜𝑏𝑠 =
𝛽0 − 𝛽0
𝐻0
𝑠𝑒 𝛽0
=
𝛽0
𝑠𝑒 𝛽0
 ;
 Hipótese para β1: 𝐻0:β1 = 0; 𝐻1:β1 ≠ 0 ;
Bioestatística 27
 Estatística de teste: 𝑡𝑜𝑏𝑠 =
𝛽1 − 𝛽1
𝐻0
𝑠𝑒 𝛽1
=
𝛽1
𝑠𝑒 𝛽1
;
Podemos construir intervalos de confiança para os β’s 
(coeficientes) estimados:
𝛽0 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽0
𝛽1 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽1
Onde:
 𝑠𝑒 𝛽0 = 𝜎2
1
𝑛 +
𝑥𝑚é𝑑𝑖𝑎2
∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1
;
 𝑠𝑒 𝛽1 = 𝜎2
1
∑ 𝑥𝑖 − 𝑥𝑚é𝑑𝑖𝑎 2𝑛𝑖=1
;
 𝜎2 =
∑ 𝑦𝑁𝑖=1 − 𝛽0 + 𝛽1𝑥𝑖
𝑁 − 𝑝
, onde p é o número de 
parâmetros estimados pelo modelo;
 𝑡𝑐é o valor crítico da distribuição 𝑡𝑛−2 de acordo 
com o nível de confiança desejado;
 Com 95% de confiança o valor de 𝑡𝑐 é: 
O erro observado é chamado resíduo que é dado por:
𝛽0 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽0
𝛽1 ± 𝑡𝑐 ∗ 𝑠𝑒 𝛽1
Onde: 𝑒 = 𝑦𝑖 − 𝑦𝑖� ,𝑜𝑛𝑑𝑒 𝑦�𝑖 = 𝛽0 + 𝛽1𝑥𝑖 .
Bioestatística28
Figura 3: Determinação da soma dos quadrados das fontes de variação.
Fonte:http://www.portalaction.com.br/22-teste-qui-quadrado-para-
independência. 
Os resíduos pode ser uma medida útil de quão bem 
a reta estimada se ajusta aos dados. Uma boa equação 
de regressão é aquela que ajuda a explicar uma grande 
proporção da variância de 𝑦𝑖 . Podemos medir a variação 
de 𝑦𝑖 (𝑉𝑎𝑟𝑖𝑎çã𝑜 𝑦𝑖� = ∑ 𝑦𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� ) , após algumas 
equações chegamos ao seguinte resultado (fórmula 7):
Somas dos quadrados das fontes de variação.
𝑆𝑄𝑇 = 𝑆𝑄𝐸 + 𝑆𝑄𝑟𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜
∑ 𝑦𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� = ∑ 𝑦𝑖 − 𝑦�𝑖 2�� + ∑ 𝑦�𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2��
http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência
http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência
Bioestatística 29
Para analisar a adequação do ajuste, deve-se 
determinar o coeficiente de determinação (R2), resumindo 
a subdivisão da variação de 𝑦𝑖 em termos de uma análise 
de variância (Tabela 4). Uma medida importante para a 
qualidade de ajuste é dada por pela fórmula 8:
Coeficiente de Determinação.
𝑅2 = 1−
𝑆𝑄𝐸
𝑆𝑄𝑇 =
𝑆𝑄𝑟𝑒𝑔
𝑆𝑄𝑇
 O valor de R2 estará sempre entre 0 e 1;
 Um R2 = 0 (A regressão não ajuda em nada a explicar 
a variação de yi);
 Um R2 = 1 (Ajustamento perfeito); 
Tabela 4: Tabela de análise variância para regressão linear.
Fonte de 
Variação
Soma de quadrados Graus de 
Liberdade
Quadrados 
Médios
Teste F
Regressão 𝑆𝑄𝑟𝑒𝑔 = ∑ 𝑦�𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2�� 1 𝑄𝑀𝑟𝑒𝑔 =
𝑆𝑄𝑟𝑒𝑔
1 𝐹1,𝑁−2
=
𝑄𝑀𝑟𝑒𝑔
𝑄𝑀𝐸Resíduos 𝑆𝑄𝐸 = ∑ 𝑦𝑖 − 𝑦�𝑖 2�� N-2 𝑄𝑀𝐸 = 𝑆𝑄𝐸
𝑁 − 2
Total 𝑆𝑄𝑇 = ∑ 𝑦𝑖 − 𝑦�𝑚é𝑑𝑖𝑎 2��
N-1
Fonte: Autor.
Bioestatística30
Figura 4: Relação entre desempenho em mundiais femininos de handebol e 
número médio de partidas internacionais entre 2007 e 2017.
Fonte: Autor
A busca pela excelência no handebol induz (solicita 
demanda) treinadores e comissões técnicas a procurar 
meios e ferramentas para a análise do desempenho 
em competição para identificar as variáveis necessárias 
ao sucesso. Neste sentido, a escassez de informações 
oriundas de análises de desempenho sobre as variáveis que 
diferenciam equipes vencedoras das perdedoras, dificulta 
o planejamento de treinos e competições para melhora do 
desempenho em competições de alto nível, ou mesmo 
como referência para equipes, treinadores e jogadores em 
desenvolvimento. Dessa forma, o objetivo deste exemplo 
é estabelecer a relação entre desempenho classificatório 
em mundiais femininos de handebol e número médio de 
partidas internacionais entre 2007 e 2017. 
Bioestatística 31
Figura 5: Correlação de Spearman e análise de regressão linear: software “R”.
Fonte: Autor.
O número médio foi de 56±26 partidas internacionais 
disputadas pelas equipes. O número de partidas 
internacionais é fornecido por cada país participante, 
considerando amistosos internacionais, competições 
continentais, mundiais e jogos olímpicos. Ao todo, n=89 
dados foram disponibilizados via internet entre os anos de 
2007 a 2017. O grau de associação entre partidas e a posição 
em mundiais se testou por meio do teste de correlação 
de Spearman (β) e um modelo de regressão linear entre o 
desempenho obtido em função das partidas internacionaisfoi construído.
Bioestatística32
A relação estabelecida mostrou que o aumento 
médio de participação em um jogo internacional melhora 
em 0.17 vezes a posição obtida em mundiais (Desempenho 
= 21,36 - 0,17partidas, intercepto e coeficiente de regressão 
significativos, p<0,001, R2 = 0.45, observada na figura 5), com 
um coeficiente moderado e negativo de correlação entre 
as variáveis (β = -0.66; p<0,001), ou seja, um maior número 
de partidas está moderadamente associado às posições 
inicias do ranking de classificação (melhor desempenho) 
em mundiais.
Bioestatística 33
Estudo de Dispersão de Frequência
As respostas obtidas na experimentação em animais 
e humanos geralmente são quantitativas. Considerando 
fatores circunstanciais como o tempo, amostra e 
infraestrutura disponíveis, sempre um delineamento 
adequado pode ser definido para analisar este tipo de 
resposta. As respostas qualitativas exigem uma estratégia 
diferenciada de análise por sua natureza. Caso um ensaio é 
planejado para se obter resposta qualitativas de cada animal 
por efeito de tratamentos impostos pelo pesquisador, 
é preciso criar um critério de variabilidade de respostas 
observadas dentro de cada tratamento. Como as respostas 
são qualitativas, a abordagem de análise mais indicada 
envolveria métodos não – paramétricos. 
Existem situações entretanto nas quais as respostas 
qualitativas são julgadas pela frequência em que elas 
ocorrem dentro de um sub - universo estudado. Isto 
ocorrerá em basicamente dois grandes grupos de estudo 
de dispersão de frequência:
a. Variável estudada apresenta-se dicotomicamente 
(sim ou não, presença ou ausência, animais positivos ou 
negativos, etc.) indicará apenas um resultado percentual de 
ocorrência da resposta alvo. Como exemplo, podemos citar 
a ocorrência de brucelose em bovinos de um município 
(positivo ou negativo);
b. Variável estudada, ainda qualitativa, é pesquisada 
em grupos diferentes e se deseja conhecer se a dispersão 
das respostas observadas (dicotômicas ou não) se apresenta 
igualmente para todos os grupos, ou se a dispersão parece 
variar dependendo do grupo onde a resposta foi estudada 
(Figura 7). Esta situação está mais ligada à ação planejadora 
do pesquisador do que na situação anterior onde, pela 
operação de levantamento, não está implícita a imposição 
de grupos experimentais ou tratamentos. Por exemplo, em 
Bioestatística34
uma criação leiteira, estuda-se se a retenção de placenta 
está associada ou ocorre mais frequentemente em algum 
grau de sangue para vacas paridas, percebe-se que a 
resposta de retenção de placenta é dicotômica (sim ou não) 
e podem existir mais de dois graus de sangue discriminados 
pelo pesquisador para verificar se existe diferença no 
percentual de animais paridos com retenção entre aqueles 
graus de sangue, estes estudo são denominados de tabelas 
de contingência, apresentadas à seguir.
Figura 06: Estudo de dispersão de frequência: tabelas de contingência.
Estudo de 
Dispersão de 
Frequência
Tabela de
Contingência
Teste de Qui-
quadrado (x2) 
Limitações do
uso do x2
Fonte: Autor.
Tabelas de Contingência
Enquanto nos levantamentos estuda-se tão somente 
a frequência de evento dicotômico dentro de um universo 
amostral, as tabelas de contingência envolvem o estudo de 
frequência de eventos dicotômicos ou não, mas que trazem 
consigo, naturalmente ou pressuposta pelo pesquisador, 
uma distribuição esperada. 
Suponhamos que em uma fazenda de exploração 
leiteira tenha havido 180 nascimentos no último ano. Para 
este tipo de exploração o evento mais desejável é de 
produtoras do plantel. A segregação genética para sexos 
de 1:1 é bem conhecida, deverá prevalecer e portanto, 
estaremos esperando 90 fêmeas e 90 machos entre 
bezerros nascidos. Se observássemos que realmente 
nasceram 90 machos e 90 fêmeas, nada de novo teria 
acontecido que ameaçasse a esperada segregação de 
nascimentos na proporção 1 macho para 1 fêmea (1:1). 
Bioestatística 35
Caso o evento observado fosse, entretanto de 92 
fêmeas e 88 machos, consideraríamos a mesma segregação, 
já que os desvios ocorridos entre as frequências observadas 
e esperadas foram muito pequenos. Supostamente, se 120 
fêmeas e apenas 60 machos, esses desvios nos pareceriam 
mais substâncias, e alternativamente julgaríamos: ou algo 
muito difícil de acontecer está ocorrendo ou alguma coisa 
pode estar efetivamente alterando a proporção esperada de 
1:1. Nesse sentido, para julgarmos um evento como este, por 
meio da avaliação dos desvios observados é necessário:
a. Estabelecer as hipóteses de testagem e um índice 
para medir a magnitude de desvios (formula 09), por meio 
do índice afastamento de qui - quadrado (β2);
Hipóteses:
H0: Não existe associação entre as variáveis, não 
discrepância entre as frequências esperada e observada 
(𝜒𝑜𝑏𝑠2 ≤ 𝜒𝑡𝑎𝑏2 ). 
H1: Há associação entre as variáveis, há discrepância 
entre as frequências esperada e observada (𝜒𝑜𝑏𝑠2 > 𝜒𝑡𝑎𝑏2 ) .
Índice afastamento qui – quadrado (χ2).
𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜2 = � �
𝑛𝑖𝑗𝐸𝑖𝑗
2
𝐸𝑖𝑗
𝐶𝑜𝑙𝑢𝑛𝑎𝑠
𝑗=1
𝑙𝑖𝑛ℎ𝑎𝑠
𝑖=1
Onde 𝑛𝑖𝑗 é a frequência observada, 𝐸𝑖𝑗 =
𝑛𝑖+𝑛+𝑗
𝑛++
 a 
frequência esperada e 𝜒𝑜𝑏𝑠2 segue uma distribuição de 
qui – quadrado com k-1 graus de liberdade para um total 
k de grupos, ilustrados na tabela 5. A exemplo do cálculo 
do desvio padrão, os desvios foram elevados ao quadrado 
pois sua soma simples resultaria no valor 0, e relativizados 
pela frequência esperada pertinente, logo o índice obtido 
é adimensional.
Bioestatística36
TESTANDO:
Considerando a mesma fazenda de pecuária 
leiteira a primeira situação onde verifica-se 92 
fêmeas e 88 machos o índice de afastamento seria: 
𝜒12 =
92 − 90 2
90 +
88 − 90 2
90 = 0,088
Na segunda situação onde verifica-se 92 fêmeas e 
88 machos o índice de afastamento seria:
𝜒22 =
120 − 90 2
90 +
60 − 90 2
90 = 20,0
Tabela 05: Tabela de Contingência 2 x 2.
Fonte: Autor.
Logo, o valor do índice de afastamento qui – 
quadrado para o nascimento de bezerros da 
fazenda na primeira situação é menor que na 
segunda situação (𝜒12<𝜒22) . Parece claro que a 
primeira situação denuncia desvios meramente 
casuais e na segunda eles já parecem 
substancialmente grandes.
Variável 1
Variável 2
Nivel A Nivel B Total
Nivel A N
11
N
12
N
1+
Nivel B N
21
N
22
N
2+
Total N
+1
N
+2
N
++
Bioestatística 37
b. Analisar a distribuição desse índice de modo a 
identificar o valor em que os desvios seriam elevados 
demais para serem interpretados como casuais, tornando-
se discrepante da frequência esperada para determinada 
resposta.
Figura 07: Distribuição de qui – quadrado: Teste de β2 
(Aceitação e rejeição de uma hipótese nula).
Fonte: http://www.portalaction.com.br/22-teste-qui-quadrado-para-
independência.
O estudo da distribuição dos valores de 𝜒𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜2 
obtidos em vários levantamentos relacionados ao sexo, se 
a proporção for realmente 1:1, nos conduzirá ao encontro 
mais frequente de valores zero ou próximos de zero, a 
frequência diminuindo à medida que os valores de 𝜒𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜2 
aumentam. Além disso, essa distribuição irá depender do 
número de grupos estudados onde o valor mínimo do índice 
é zero (gl = k-1). As variações na proporção de nascimentos 
entre fêmeas e machos levarão diferentes e maiores valores 
de 𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜2 , mas cada vez menos frequentes. Os valores 
próximos a zero indicarão desvios meramente causais, 
http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência
http://www.portalaction.com.br/22-teste-qui-quadrado-para-independência
Bioestatística38
dentro do critério de tipificar sempre 95% das respostas 
possíveis (p<0,05). Logo, deve-se localizar o valor crítico de 
𝜒𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜2 como aquele que engloba sob a curva do gráfico 
uma área que corresponda a 95% da área total a partir do 
valor inicial zero (Figura 8). Em síntese, isto se traduz que 
estudos de proporções entre sexos que estiveremalém 
deste ponto, sugerirão um fenômeno muito improvável (5% 
dos casos) ou o colocando em dúvida a proporção inicial 
considerada.
Tabela 06: Tabela de qui – quadrado (χ2).
Fonte: www.ime.unicamp.br/~cnaber/Tabela%20da%20Qui-quadrado.pdf .
http://www.ime.unicamp.br/~cnaber/Tabela da Qui-quadrado.pdf
Bioestatística 39
O estudo de áreas pode ser feito com o domínio da 
função matemática da distribuição de probabilidade de 
β2 e do processo de integração. Os valores limites e áreas 
podem ser quantificadas para o nível de erro estipulado 
(5%) e tabeladas conforme o número de graus de 
liberdade envolvidos no estudo (tabela 6). Para “k” grupos 
independentes os graus de liberdade correspondem a 
k-1, logo o valor tabelado que congrega 95% dos eventos 
possíveis da proporção de nascimentos por sexo é da 
ordem de 3,84, 5% de erro, que corresponde obter valores 
superiores a este limite em cinco de 100 estudos realizados. 
Logo, na primeira situação proposta anteriormente o 
valor de qui – quadrado (𝜒12 = 0,088) revela que os desvios 
foram realmente casuais, não significativo, pelo que o índice 
é taxado de não significativo, confirmando a hipótese nula. 
Por outro lado, na segunda situação o índice é superior ao 
tabelado (𝜒22 = 20,0) , mostrando uma elevada discrepância 
entre as frequências observadas e esperadas. 
Bioestatística40
TESTANDO:
Em outro exemplo (tabela 7), para grupos 
independentes, a pelagem de coelhos de 
determinada raça possui 4 cores (branco, cinza, 
preto e malhado), onde a proporção esperada é 
respectivamente de 9:3:3:1. Em uma propriedade 
são estudados em torno de 480 filhotes registrados 
conforme a tabela 2. Tem-se o objetivo verificar 
a discrepância entre as frequências esperada e 
observada de filhotes da propriedade:
𝜒22 =
260 − 270 2
270 +
98 − 90 2
90 +
87 − 90 2
90 +
35 − 30 2
30 = 2,014
 
Tabela 07: Pelagem de filhotes de coelho.
Fonte: Autor. 
Como existem 4 tipos de pelagem, temos então 
3 graus de liberdade (k-1=3). O valor tabelado para 
5%, conforme a tabela 6, é de 7,815. Como o índice 
de afastamento qui – quadrado calculado é inferior 
ao valor tabelado, não há discrepância entre a 
frequência observada e esperada entre as cores de 
filhotes de coelhos, portanto quaisquer variações 
entre a frequência observada e esperada na 
propriedade criadora de coelhos ocorre ao acaso. 
Pelagem
Frequência
Observada Esperada
Branco 260 270
Cinza 98 90
Preto 87 90
Malhado 35 30
Total 480 480
Bioestatística 41
TESTANDO:
Em diferentes contextos esportivos, é comumente 
observada a organização das competições em 
categorias em que o critério adotado é o ano de 
nascimento. Apesar da intenção positiva de se 
promover uma forma de disputa justa entre os 
participantes, este critério de agrupamento pode 
induzir diferenças de idade, que podem alcançar 
quase 24 meses dentro da mesma categoria 
etária. Essa diferença relativa de idade pode 
levar a possíveis vantagens de desempenho e 
participação, favorecendo os atletas nascidos mais 
próximos ao início do ano de seleção, fenômeno 
denominado “Efeito da Idade Relativa” (EIR). Na 
prática, um indivíduo nascido em janeiro apresenta 
11 meses a mais de desenvolvimento psicofísico 
que outro nascido em dezembro, proporcionando 
uma vantagem em termos psicofísicos e de tempo 
de prática. Diante do exposto, o presente exemplo 
tem como objetivo mostrar e avaliar a presença do 
EIR de forma global nas categorias juvenil, júnior e 
adulta quando agrupados por trimestre (primeiro 
trimestre, T1 - nascidos(as) em janeiro, fevereiro e 
março; segundo trimestre, T2 – nascidos em abril, 
maio e junho; terceiro trimestre, T3 – nascidos em 
julho, agosto e setembro e quarto trimestre, T4 – 
outubro, novembro e dezembro) para ambos os 
sexos em campeonatos mundiais, com o uso do 
teste de qui - quadrado. Espera-se que a proporção 
de nascimentos seja igual para cada trimestre. 
As hipóteses estabelecidas para o estudo da 
dispersão de frequência por trimestres de 
nascimento na modalidade handebol são:
Bioestatística42
H0: Não há discrepância entre as 
frequências esperada e observada de 
trimestres de nascimento na modalidade 
handebol (𝜒𝑜𝑏𝑠2 ≤ 𝜒𝑡𝑎𝑏2 ); 
H1: Há discrepância entre as frequências 
esperada e observada de trimestres de 
nascimento na modalidade handebol 
(𝜒𝑜𝑏𝑠2 > 𝜒𝑡𝑎𝑏2 ).
Tabela 08 Estatística de teste qui – quadrado e p-valores para 
distribuições de trimestres de nascimento nas categorias 
juvenis, juniores e adultos (feminino e masculino) da 
modalidade esportiva de handebol (*Indica discrepâncias 
significativas com valor de p<0,001).
Categoria (Sexo)
Trimestre e Campeonato
T1 T2 T3 T4
Adulto (Masculino) 537 491 486 401
Adulto (Feminino) 572 548 465 406
Júnior (Masculino) 349 312 258 206
Júnior (Feminino) 385 288 259 212
Juvenil (Masculino) 300 247 243 157
Juvenil (Feminino) 353 299 242 188
𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝑀𝑎𝑠𝑐
2 =
537 − 478,75 2
478 ,75
+
491 − 478,75 2
478 ,75
+
486 − 478,75 2
478,75
+
401 − 478,75 2
478,75
𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝑀𝑎𝑠𝑐
2 = 20,13*
𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝐹𝑒𝑚
2 =
572 − 497,75 2
497 ,75
+
548 − 497,75 2
497 ,75
+
465 − 497,75 2
497,75
+
406 − 497,75 2
497,75
𝜒𝐴𝑑𝑢𝑙𝑡𝑜 𝐹𝑒𝑚
2 = 35,21 ∗
Bioestatística 43
𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐
2 =
349 − 497,75 2
497 ,75
+
312 − 497,75 2
497,75
+
258 − 497,75 2
497,75
+
206 − 497,75 2
497,75
𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐
2 = 41,73 ∗
𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐
2 =
349 − 281,25 2
281 ,25
+
312 − 281,25 2
281,25
+
258 − 281,25 2
281,25
+
206 − 281,25 2
281,25
𝜒𝐽ú𝑛𝑖𝑜𝑟 𝑀𝑎𝑠𝑐
2 = 41,73 ∗
𝜒𝐽ú𝑛𝑖𝑜𝑟 𝐹𝑒𝑚
2 =
385 − 286 2
286
+
288 − 286 2
286
+
259 − 286 2
286
+
212 − 286 2
286
𝜒𝐽ú𝑛𝑖𝑜𝑟 𝐹𝑒𝑚
2 = 55,97 ∗
𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝑀𝑎𝑠𝑐
2 =
300 − 236,75 2
236,75
+
247 − 236,75 2
236,75
+
243 − 2236 ,75 2
236,75
+
157 − 236,75 2
236 ,75
𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝑀𝑎𝑠𝑐
2 = 44,63 ∗
𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝐹𝑒𝑚
2 =
353 − 270,5 2
270,5
+
299 − 270,5 2
270,5
+
242 − 270,5 2
270,5
+
188 − 270,5 2
270 ,5
𝜒𝐽𝑢𝑣𝑒𝑛𝑖𝑙 𝐹𝑒𝑚
2 = 56,33 ∗
Bioestatística44
Figura 08: Teste de qui – quadrado: software “R”.
Fonte: Autor. 
Bioestatística 45
Os índices de afastamento indicam uma diferença 
entre as frequências esperada e observada na distribuição 
de trimestres de nascimento em todas as categorias. Para 
verificar se há diferentes entre trimestres, aplicam-se testes 
de proporções 2 a 2, que não são o foco desta unidade de 
estudo. A partir da aplicação destes testes verificamos se 
há a presença do EIR. 
Na categoria juvenil em ambos os sexos foi verificado 
uma maior proporção pelos menos às margens da 
significância decrescente do primeiro ao quarto trimestre 
(T1, T2, T3 e T4) (Feminino - T1 vs. T2, p = 0,049; T1 vs. T3, p = 
0,004; T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,061; T2 vs. T4, p < 
0,001; T3 vs. T4, p = 0,047; e Masculino - T1 vs. T2, p = 0,07; 
T1 vs. T3 e T1 vs. T4, p < 0,001; T2 vs. T3, p = 0,03; T2 vs. T4, p 
< 0,001; T3 vs. T4, p = 0,02). 
Para a categoria Junior, a análise de proporções 
revelou que em ambos os sexos o T1 foi significativamente 
superior à T3 e T4 (Feminino e Masculino – T1 vs. T3, T1 vs. 
T4, p < 0,001), T2 em relação à T4 (Feminino e Masculino - T2 
vs. T4, p < 0,001) e especificamente o T1 significativamente 
diferente ao T2 no masculino (T1 vs. T2, p < 0,001). Porém, 
na categoria júnior masculina foi verificada uma proporção 
maior de nascidos no T3 quando comparado ao T4 (p = 
0,047) e às margens da significância de T2 para com T4 (p 
= 0,06). 
Na categoria adulta do sexo feminino uma maior 
proporção significativa de nascidos nos três primeiros 
trimestres em relação ao último trimestre (T1 vs. T4, p < 0,001, 
T2 vs. T4. p = 0,004; T3 vs. T4, p = 0,007). Por outro lado, no sexo 
masculino foi verificada uma maior frequência de nascidos 
nos dois primeiros trimestres quando comparado aos dois 
últimos trimestres (T1 vs. T3, p < 0,001; T1 vs. T4, p < 0,001; 
T2 vs. T3, p = 0,017; e T2 vs. T4, p<0,001).Após as análises, 
de uma forma geral, nas análises gerais foi verificado uma 
forte presença do EIR em todas as categorias e em ambos 
Bioestatística46
os sexos. Na figura 09 é mostrado a aplicação do teste de 
qui – quadrado no software “R”.
Limitações do uso do χ2 
Nesta subseção são abordados aspectos relacionados 
com as limitações de uso do teste de qui – quadrado. O 
estudo de dispersão de frequências é realizado a partir de 
registros absolutos. Nesse sentido, podem ser verificadas 
algumas limitações:
a. O índice de afastamento qui – quadrado possui uma 
configuração que impede que qualquer frequência teórica 
assuma o valor zero, implicando em uma indeterminação, 
onde o divisor seria igual a zero. Por outro lado, as frequências 
esperadas muito próximas de zero superestimam o valor de 
β2 e podem ser um indicador para agrupamento de classes, 
compactamos classes vizinhas adotando um critério 
racional, até que a soma de frequência seja maior que 1.
b. As situações experimentais com frequências totais 
reduzidas, não poderão ter suas dispersões devidamente 
estudadas e comparadas. Caso as observações de um 
grupo forem distribuídas em k classes de respostas, o ideal 
seria obter 15*k indivíduos para este grupo. Assim, para o 
valor mínimo de k=2 deveríamos contar com 30 indivíduos 
por grupo.
c. Como a distribuição dos valores de β2 é contínua e 
as frequências estudadas são variáveis discretas, um ajuste 
para corrigir pequena diferença no cálculo da área sob a 
curva da distribuição pode ser efetuada, logo o teor de 
ajuste proposto é:
Bioestatística 47
A alteração proposta só diminui discretamente o 
valor final de χ2 e, portanto, quando sem o ajuste do valor 
de χ2 não tiver sido significativo ou então for muito maior 
que o tabelado, a correção de continuidade não afetará 
a conclusão inicialmente tomada. Por outro lado, o valor 
significativo de χ2 estiver próximo ao valor tabelado, seria 
interessante procedermos à correção, cujo valor ajustado 
de χ2 seria igual a:
=
17 − 21 − 0,5 2
21
+
25 − 21 − 0,5 2
21
+
13 − 9 − 0,5 2
9
+
5 − 9 − 0,5 2
9
𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜2 = 3,888
𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜
2 = � �
𝑛𝑖𝑗𝐸𝑖𝑗 − 0,5
2
𝐸𝑖𝑗
𝐶𝑜𝑙𝑢𝑛𝑎𝑠
𝑗=1
𝑙𝑖𝑛ℎ𝑎𝑠
𝑖=1
𝜒𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜
2 = � �
𝑛𝑖𝑗𝐸𝑖𝑗 − 0,5
2
𝐸𝑖𝑗
𝐶𝑜𝑙𝑢𝑛𝑎𝑠
𝑗=1
𝑙𝑖𝑛ℎ𝑎𝑠
𝑖=1
O valor anterior do índice de afastamento era de 5,079, 
mostrando a significância dos desvios observados, superior 
ao valor tabelado de 3,84 com 1 grau de liberdade. O valor 
ajustado é superior ao tabelado, confirmando a associação 
entre a fertilidade e diluente.
Bioestatística48
Nesta unidade IV, você teve acesso a conceitos sobre 
associação e relacionamento de variáveis e estudo de 
dispersão de frequência com o uso do software “R”, revise 
seus conceitos e explore novas bibliografias! Finalizamos 
nossas atividades neste curso, esperamos que você tenha 
gostado! Agora é com você! 
Bioestatística 49
BIBLIOGRAFIA
CRAWLEY, M.J. The R book. San Francisco: John Wiley 
& Sons. 942p.
SHAHBABA, B. Biostatistics with R. New York: Springer, 
2012. 352p.
SIQUEIRA, A. L.; TIBÚRCIO, J. D. Estatística na Área 
da Saúde: conceitos, metodologia, aplicações e prática 
computacional. Belo Horizonte: Coopmed, 2011. 520p. 
SAMPAIO, I.B. Estatística aplicada à experimentação 
animal: Belo Horizonte: FEPMZ, 2010. 264p.
PAGANO, M.; GAUVREAU, K. Princípios de Bioestatística. 
2. ed. São Paulo: Pioneira Thompson Learning, 2004. 522p.
ZAR, J.H. Biostatistical analysis. New Jersey: Prentice-
Hall.1984. 718p.

Continue navegando