BIOESTATÍSTICA MÓDULO

breadcrumb-separator

UNIFACS

em 16/11/2017

Conteúdos escolhidos para você

Bioestatista e estatistica vital

Bioestatista e estatistica vital

04_Estatistica

UFRJ

Estatística e indicadores ambientais_UNI1

Estatística e indicadores ambientais_UNI1

Uniasselvi

Probabilidade e Estatística

Probabilidade e Estatística

FAVENI

Resumo MEP II

UNIFIPMoc

Perguntas dessa disciplina

As relações entre grandezas presentesA Estatística Aplicada e a Probabilidade são fundamentais para a análise de dados em diferentes áreas do conhecim

Anhanguera

A Estatística Aplicada e a Probabilidade são fundamentais para a análise de dados em diferentes áreas do conhecimento, permitindo descrever conjuntos

IETEC

Em um conjunto de dados a medida de dispersão que calcula a diferença entre o maior e o menor valor denominamos de amplitude. Ela apresenta a dispersã

FACIC

Os registros Quando falamos de estatística, algo que precisa estar bem definido é o nosso desenho de estudo e, independentemente da área de atuação...

Em um mundo cada vez mais data-driven, a análise de dados se tornou fundamental para a tomada de decisões em diversas áreas, desde negócios até pesqui

FESP

Material

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

Bioestatista e estatistica vital

Bioestatista e estatistica vital

04_Estatistica

UFRJ

Estatística e indicadores ambientais_UNI1

Estatística e indicadores ambientais_UNI1

Uniasselvi

Probabilidade e Estatística

Probabilidade e Estatística

FAVENI

Resumo MEP II

UNIFIPMoc

Perguntas dessa disciplina

As relações entre grandezas presentesA Estatística Aplicada e a Probabilidade são fundamentais para a análise de dados em diferentes áreas do conhecim

Anhanguera

A Estatística Aplicada e a Probabilidade são fundamentais para a análise de dados em diferentes áreas do conhecimento, permitindo descrever conjuntos

IETEC

Em um conjunto de dados a medida de dispersão que calcula a diferença entre o maior e o menor valor denominamos de amplitude. Ela apresenta a dispersã

FACIC

Os registros Quando falamos de estatística, algo que precisa estar bem definido é o nosso desenho de estudo e, independentemente da área de atuação...

Em um mundo cada vez mais data-driven, a análise de dados se tornou fundamental para a tomada de decisões em diversas áreas, desde negócios até pesqui

FESP

Prévia do material em texto

Author or Company YOUR LOGOAuthor or Company
Bioestatística
Índice
Bioestatística2
3
3
3
8
8
9
9
11
11
12
13
17
21
21
24
37
Conceitos básicos........................................
Estatística e Bioestatística .......................................................
Variáveis, escalas de medida e dados .....................................
População ................................................................................
Amostra ……………………………………………………………………….………
Parâmetros e Estimativas ........................................................
Distribuição normal (Gaussiana) .................
Medidas descritivas .....................................
Medidas de tendência central .................................................
Medidas separatrizes ………………………………………......................
Medidas de dispersão e variabilidade .....................................
Representação gráfica ..............................................................
Teste de hipóteses ......................................
Teste de hipótese .....................................................................
Análise dos dados ....................................................................
Sugestões de Bibliografias Específicas ......
3Bioestatística
1. Conceitos básicos
1.1 Estatística e Bioestatística
Estatística – Ramo do conhecimento que consta de processos os quais têm por objeto a observação,
a classificação e a análise de fenômenos coletivos com a finalidade de obter inferências indutivas a
partir dos dados.
É uma metodologia científica para obtenção, organização e análise de dados.
É o conjunto de instrumentos que extrai informações de dados existentes com o objetivo de permitir a
tomada de decisões em presença de incerteza.
Bioestatística – É a aplicação da estatística nas ciências biológicas e da saúde. Ela é essencial ao
planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa. Os princípios
fundamentais são resumir a informação, resumir as relações e estimar a magnitude das relações.
Estatística Descritiva – Metodologia para descrever, coletar, organizar e resumir os dados. (p.ex.,
médias, frequências, desvio-padrão).
Estatística Indutiva/Inferencial –
Conjunto de métodos estatísticos que
visam caracterizar uma POPULAÇÃO
ou inferir sobre a mesma a partir de
uma parte dela (AMOSTRA) — por
exemplo, testes estatísticos
paramétricos e não paramétricos, teste-
T, ANOVA, qui-quadrado, Wilcoxon etc.
Variável é um atributo, mensurável ou não, sujeito a variação quantitativa ou qualitativa, dentro de um
conjunto. São características dos elementos que formam o conjunto de dados.
1.2 Variáveis, escalas de medida e dados
4Bioestatística
Alguns tipos de variáveis segundo 
critérios metodológicos:
Variável de Confundimento – Alheia ao experimento, mas que
pode ter influência nos resultados.
Variável de Exposição – É o fator que será estudado, o qual
precede o desfecho. É a causa de uma modificação; é
experimental e pode ser manipulada e controlada pelo
pesquisador. Sinônimo de variável preditora ou variável
independente.
Variável de Desfecho – Aquilo que vai acontecer durante uma
investigação na mensuração da condição de saúde-doença.
Sinônimo de Variável Dependente (é o efeito).
5Bioestatística
Segundo o critério de medição 
(aferição), as variáveis dividem-se em: 
Qualitativas e Quantitativas 
QUALITATIVAS – Também chamadas de categóricas, porque
expressam uma classificação em categorias (diferentes
categorias sem valores numéricos).
São essencialmente descritivas, têm a visão do processo e dão
importância ao ambiente e às relações com o sujeito
(fenômeno). A avaliação dos dados deve ser criativa e rigorosa;
geralmente gera um volume grande de dados. Busca padrões e
regularidades, corre o risco das distorções por parte do
observador.
Nominal – São nomeadoras, dividem os indivíduos iguais ou
não em relação a uma característica (p.ex., gênero, estado civil,
nacionalidade etc.). Variáveis expressas na escala nominal
podem ser apenas "iguais" ou "diferentes" entre si. Não é feito
qualquer ranking, ou seja, não são ordenadas. Os números
atribuídos servem apenas para identificar se pertencem ou não
pertencem a uma categoria ou identificação.
Exemplos: Raça, grupo sanguíneo, causa da morte.
5
6Bioestatística
Ordinal (ordenadas ou graduadas naturalmente) – Classificam os indivíduos segundo a ordem que
ocupam (p.ex., ordem de chegada, ordem de nascimento etc.). A variável utilizada para medir uma
determinada característica identifica que esta é pertencente a uma classe e pressupõe que as diferentes
classes estão ordenadas sob um determinado ranking. Nenhuma dessas variáveis é medida em uma escala
de medição exata. Cada observação faz a associação do indivíduo medido a uma determinada classe, sem,
no entanto, quantificar a magnitude da diferença em relação aos outros indivíduos.
Exemplos: Grau de instrução, aparência, estágio da doença, status social, grau de dor, escores.
Podem ser:
Dicotômicas ou binárias – Duas respostas (sim/não).
Politômicas – Várias respostas (ótimo/bom/regular/ruim ou leve/moderado/severo). 
6
Qualitativa ou 
categórica
Nominal
Dicotômica
Duas
Politômica
Mais de duas
Ordinal
Dicotômica
Duas
Politômica
Mais de duas
7
QUANTITATIVAS – Os dados são expressos por números, geralmente obtidos por meio de uma
escala métrica. O nível de informação é superior ao da qualitativa; pode ser transformada em qualquer
outro tipo de variável e aceita transformações matemáticas. Estudos com esse tipo de variável
necessitam tamanhos amostrais menores.
Além de ser possível ordenar os indivíduos, é também feita uma quantificação das diferenças
entre eles. As escalas métricas dividem-se em dois subtipos:
Escala intervalar – Um caso particular (e não muito frequente) das escalas métricas a partir do qual é
possível quantificar as distâncias entre as medições, mas em que não há um ponto nulo natural nem
uma unidade natural. Exemplo clássico são as escalas de temperatura, em que não se pode assumir
um ponto 0 (ponto de nulidade) ou dizer que a temperatura X é o dobro da temperatura Y.
Escala de razão ou rácio – Nesta escala, existe um verdadeiro ponto 0. Trata-se de uma escala em
que não só é possível quantificar as diferenças entre as medições como também estão garantidas
certas condições matemáticas vantajosas, como um ponto de nulidade. Isso permite o quociente de
duas medições, independentemente da unidade de medida. É possível fazer diferenças e quocientes
e, portanto, a conversão (de cm em m, por exemplo). Exemplos de escalas de razão são a idade,
salário, preço, volume de vendas e distâncias.
Bioestatística
Podem ser:
Discretas (associação entre valores e números
inteiros) – Idade em anos completos, número de
irmãos etc. (apenas números inteiros).
Contínuas (podem assumir qualquer valor no
subconjunto de números reais) – Peso,
glicemia, altura etc. Permitem inferências mais
detalhadas que os outros tipos de variáveis,
assumem números fracionários ou com vírgulas.
Quantitativa
Discreta
Números 
inteiros
Contínua
Números com 
vírgulas
8Bioestatística
1.3 População
População – É o conjunto de elementos com determinada característica (todo), ou seja, todos os
indivíduos com uma ou mais características em comum; todo o grupo de interesse para uma futura
inferência.
Segundo Callegari-Jacques (2004), “população” é um termo utilizado em estatística com um
sentido mais amplo do que na linguagem coloquial, ou seja, é utilizado para representar todo o
conjunto de unidades experimentais (ou observacionais) que apresenta uma ou mais características
em comum. A “abrangência” de uma população é determinada pelas características em comum,
escolhidas conforme o interesse do estudo a ser realizado e que definem claramenteas unidades
pertencentes à população-alvo. Como as populações são constituídas de um número muito grande de
elementos, são estudadas por intermédio de alguns desses elementos, os quais constituirão o que se
denomina amostra. Assim, a amostra é qualquer fração de uma população. Como sua finalidade é
representar a população, deseja-se que a amostra escolhida apresente as mesmas características da
população de origem, isto é, que seja uma amostra “representativa” ou “não-tendenciosa”.
Resumidamente, podemos dizer que a população são 100% das pessoas com uma característica em
comum, e a amostra é parte destes 100%.
Amostra: Subconjunto com número menor de elementos
(parte), ou seja, toda fração (independentemente de
tamanho) obtida de uma população.
Independentes: Grupos selecionados com tratamento
distinto.
Dependentes ou pareados: Para cada elemento do
grupo tratado existe um grupo-controle semelhante (sexo,
idade etc.).
1.4 Amostra
População
Amostra
População
Amostra 
1
Amostra 
2
9Bioestatística
1.5 Parâmetros e Estimativas
PARÂMETRO: É um valor que resume na população a informação relativa a uma variável. Os 
parâmetros são difíceis de serem obtidos, pois implicam o estudo de toda a população e costumam ser 
substituídos por estimativas do parâmetro.
ESTIMATIVA: É o valor numérico de uma estatística, usado para realizar inferências sobre o 
parâmetro; é o valor calculado em amostras representativas da população-alvo.
Estimativa do parâmetro é o dado obtido de uma amostra representativa da população-alvo.
Toda variável apresenta uma distribuição de frequências. Quando as frequências são demonstradas
por meio de gráficos, podemos identificar valores extremos e a forma de distribuição das frequências.
2. Distribuição normal 
(Gaussiana)
A distribuição de frequências reais é aquela obtida de
dados verdadeiros, e a distribuição de frequências teóricas
é calculada usando certas suposições.
Quando são utilizadas distribuições teóricas, supõem-se
que representem populações a partir das quais os dados
foram obtidos. A maioria dos dados contínuos em saúde
tendem a aproximar-se da distribuição teórica, que é
conhecida como distribuição normal ou distribuição
gaussiana. A distribuição normal ou gaussiana parece com
um sino visto de lado.
10Bioestatística
Assim, quando esse gráfico representa uma curva de Gauss, dizemos que a distribuição é “normal”,
gaussiana, simétrica ou tem homogeneidade de variâncias. A forma em que a distribuição se apresenta
determina a medida descritiva mais adequada a ser utilizada bem como os testes estatísticos ideais
(distribuição gaussiana/normal = paramétrico; e distribuição não-normal = não-paramétrico).
Geralmente, a distribuição de frequências possui uma tendência central (média, mediana e moda) e uma
dispersão (amplitude, variância e desvio-padrão).
Variáveis aleatórias: variam ao acaso e podem assumir qualquer valor.
Gráficos com dois extremos, um máximo e um mínimo; e, entre eles, uma distribuição gradativa (maioria
dos valores ao redor da média): Curva de Gauss – As medidas que originam esses gráficos são variáveis
com distribuição normal.
A variável pode assumir qualquer valor real.
O gráfico da distribuição normal é uma curva em forma de sino, simétrico em torno da média. A média,
mediana e a moda são coincidentes.
A curva tem dois pontos de inflexão, que correspondem a valores de x situados, respectivamente, à
distância de um desvio-padrão (s) acima e abaixo da média.
10
A área total da curva vale 1 (100%), significando que a
probabilidade de ocorrer qualquer valor real é 1. Pelo fato da
curva ser simétrica em torno da média, tanto os valores
maiores quanto os valores menores que a média ocorrem com
igual probabilidade.
• Aproximadamente 68% (≈2/3) dos valores de x situam-se 
entre os pontos (χ-s) e (χ+s).
• Aproximadamente 95% dos valores de x estão entre (χ-2s) 
e (χ+2s).
• Aproximadamente 99,7% dos valores de x estão entre (χ-
3s) e (χ+3s).
11Bioestatística
3. Medidas descritivas
3.1 Medidas de tendência central
3.1.1 Média
Média aritmética (χ): É a soma de todos os valores observados divididos pela quantidade de valores.
Geralmente, é o valor que melhor representa um conjunto de dados com distribuição simétrica. É
muito influenciada por valores extremos, entretanto é a medida mais rica, porque considera todos os
valores do conjunto de dados e possui o maior poder matemático.
Média = soma dos valores / número de valores
Na tabela de agrupamento simples, faz-se a média dividindo o total de fx pelo total de f:
3.1.2 Mediana
Mediana (Md): A mediana é a observação do meio quando os dados estão dispostos em uma ordem do
menor para o maior valor. É o número que assume a posição central no conjunto de valores. A mediana
é o valor que divide o conjunto de dados ordenados em duas partes com igual número de observações.
Não é afetada por valores extremos.
Existem duas possibilidades: 
•Se o n é par, a Md é n/2 e (n + 2)/2
•Se o n é ímpar, a Md é (n+ 1)/2
IMPORTANTE: Se o n é ímpar, a mediana é um valor do próprio conjunto de 
dados; quando n é par, a mediana é a média aritmética dos valores centrais.
A mediana é também chamada de percentil 50 ou quartil 2, pois 50% das 
observações ficam abaixo dela; geralmente, é utilizada para expressar dados sem 
distribuição normal (não-paramétricos). 
12Bioestatística
3.1.3 Moda
Moda (Mo) – É definida como o valor mais frequente de um conjunto de dados. É o número que mais
se repete no conjunto de valores, é o que aparece mais vezes. Pode ocorrer que o conjunto seja
Bimodal (duas modas) ou Multimodal (três ou mais modas). É a medida mais pobre, porque considera
apenas os valores mais frequentes.
OBS: No gráfico de colunas, é a coluna mais alta; e na tabela, o valor de f mais alto.
3.2 Medidas separatrizes
3.2.1 Quartis e percentis
São valores que separam o conjunto de dados ordenado em partes com igual número de observações.
Os percentis, também chamados de quartis, são as porcentagens das observações abaixo do ponto
indicado, quando todas as observações são ordenadas; muito utilizados em conjunto com a mediana
em séries assimétricas.
Os quartis dividem uma série em 4 grupos de igual tamanho.
Ex.: Q1 – 25%, Q2 – 50% e Q3 – 75% Q1 = P25, Q2 = P50 e Q3 = P75
Mín______________________Md________________________Máx
0__________25__________50__________75__________100
Q1 Q2 Q3
0__________25__________50__________75__________100
P25 P50 P75
Portanto, a mediana comentada anteriormente é uma separatriz, porque divide o conjunto de dados
em duas partes iguais.
Exemplo: o percentil 75 é o ponto abaixo do qual estão 75% das observações, ao passo que o 25 é o
ponto abaixo do qual estão 25% das observações.
13Bioestatística
3.3 Medidas de dispersão e variabilidade
3.3.1 Amplitude
Amplitude de variação (a): É a distância entre o valor mais baixo e o mais alto da observação. É muito
sensível a valores extremos, porque só considera estes e não faz nenhuma referência aos valores
dentro do conjunto. É a diferença entre o maior e o menor valor de um conjunto de dados.
3.3.3 Variância
Variância (s2): Por definição, variância é a média
dos quadrados dos desvios em torno da média.
Mede os desvios em relação à média (diferença
de cada dado e a média). Quanto maior a
variância, maior a heterogeneidade. Quanto maior
a variância, maior o desvio-padrão. A unidade é
expressa ao quadrado.
A variância, ao contrário da amplitude, considera
todos os elementos do conjunto de dados no seu
cálculo. Quanto maior for a variação dos valores
do conjunto de dados, maior será a variância.
Quanto maior a amplitude maior a varição
3.3.2 Amplitude interquartílica
Amplitude Interquartílica: É a distância entre os quartis.
Exemplo: Q3 – Q1
Quando se descreve um conjunto de dados de distribuição assimétrica,a distância entre quartis
representa melhor a variação do que a amplitude ou o desvio-padrão, porque não é afetada pelos
valores extremos.
14Bioestatística
3.3.4 Desvio-padrão
Desvio-padrão (s ou DP): Raiz quadrada da variância, sendo representada por s; tem a mesma
unidade de medida dos dados. Representa o padrão de oscilações dos valores da série em relação à
média. Muito utilizado em conjunto com a média (média [DP]).
O desvio-padrão expressa a variação media do conjunto de dados em torno da média, para mais ou
para menos.
Se o DP de uma série de dados for maior que a média, isso é indicativo de que a distribuição é
assimétrica.
3.3.5 Erro-padrão
Podemos definir erro-padrão (EP) como uma medida de precisão da média amostral calculada que
representa a precisão e a incerteza de uma única amostra como a estimativa da população e é definido
por:
Portanto, o DP é a medida da variabilidade individual, e EP é a medida de variabilidade associada à
média amostral. Assim, o erro-padrão não é mais do que o desvio-padrão da distribuição das médias
das amostras de uma população.
Segundo Lunel et al. (2006), quando extraímos uma amostra aleatória da população e calculamos o
valor médio de uma determinada variável, o objetivo é inferir sobre a média da população da qual a
amostra é originária, ou seja, a média na amostra avaliada é uma estimativa da média na população,
cuja precisão depende da dispersão da população e do tamanho da amostra.
15
Se várias amostras aleatórias forem obtidas de uma dada população, elas vão diferir relativamente do
valor médio da população em cada uma; e, à semelhança do que acontece com as observações de
cada amostra individualmente, a distribuição das médias amostrais tem também um desvio-padrão. O
erro-padrão da média de uma amostra é uma estimativa do desvio-padrão da distribuição das médias
de amostras com o mesmo tamanho obtidas da mesma população; dessa forma, ele é uma medida da
incerteza associada à estimativa da média na população.
O erro-padrão da estimativa diminui com o aumento do tamanho da amostra, refletindo o aumento de
precisão da estimativa com o tamanho da amostra.
Quando usar cada um deles?
Se o objetivo é descrever a variabilidade observada numa amostra, deve-se utilizar o desvio-padrão.
No entanto, o desvio-padrão, como medida de dispersão, não deve ser usado quando a população
não segue uma distribuição normal ou aproximadamente normal. Nesses casos, o desvio-padrão pode
não ser uma boa estimativa de dispersão, pelo fato da média, que é utilizada no seu cálculo, ser pouco
resistente a observações extremas.
Além disso, quando a distribuição da população é normal, podem ocorrer observações extremas se o
tamanho das amostras for pequeno. Nessas situações, poderá ser mais adequada a descrição da
dispersão com outras medidas (p.ex., distância interquartil) ou a indicação de percentis próximos dos
dois extremos da distribuição (p.ex., percentis 25 e 75 ou os percentis 10 e 90).
Se o objetivo for indicar a imprecisão associada à estimativa de um determinado parâmetro (p.ex.,
média), pode utilizar-se o erro-padrão. Contudo, de uma forma geral, os intervalos de confiança
podem ser interpretados de forma mais direta que os erros-padrão, sendo preferível a apresentação
dos primeiros. O erro-padrão é um passo intermédio no cálculo de intervalos de confiança. O fato do
erro-padrão ser quantitativamente menor do que o desvio-padrão pode contribuir para que alguns
autores optem por apresentar o erro-padrão quando pretendem quantificar a dispersão das
observações da amostra, transmitindo uma falsa ideia de precisão aos leitores menos atentos e com
poucos conhecimentos de estatística.
Bioestatística
16Bioestatística
Principais Fórmulas:
Tabelas
Exemplos de tabelas utilizadas em textos científicos. As tabelas de frequência não são utilizadas em
artigos, e sim na obtenção dos valores que vão ser expressos de outras formas nos artigos.
17Bioestatística
3.4 Representação gráfica
Nas publicações, os gráficos devem ser chamados de figuras.
Gráfico de setores (pizza ou torta): Variável 
qualitativa nominal (com poucas categorias). 
Raro em publicações científicas.
Gráfico de linhas: Ideal para ilustrar 
tempo.
Apresentação dos dados em tabelas exigem componentes específicos:
• Título: Explica o conteúdo.
• Corpo: Formado pelas linhas e colunas dos dados.
• Cabeçalho: Especifica o conteúdo das colunas.
• Coluna indicadora: Especifica o conteúdo das linhas.
• Chamadas: Legenda.
• “Opcional”: Fonte, notas.
0
200
400
600
800
Número de livros vendidos
Número de livros vendidos
18Bioestatística
Gráfico de barras: Variável 
qualitativa nominal (com muitas 
categorias) ou variável 
qualitativa ordinal. 
Gráfico de colunas: Variável 
quantitativa discreta.
36%
36%
12%
10%
7%
43%
39%
9%
4%
6%
0% 10% 20% 30% 40% 50%
Sim, sempre
Sim, mas só quando o médico
receita
Não, pois meu médico não receita
Não, pois não são tão bons
Não sei o que são remédios
genéricos
Masculino Feminino
Gráfico Histograma: Gráfico mais 
utilizado para variável contínua.
19Bioestatística
Gráfico Box Plot: Resume os dados de uma
distribuição.
Segundo Jekel (2005), um box plot (diagrama de
caixinha) fornece uma maneira mais abreviada de
resumir dados em uma distribuição do que o diagrama
de tronco (ramo) e folha. Em um box plot, o retângulo
descreve o limite interquartílico. A linha no centro
desse retângulo descreve a mediana. Fora do
retângulo, existem duas linhas verticais, chamadas de
whiskers do box plot. Os whiskers se estendem por
pe
so
grupo
grupo
1,5 vez o intervalo interquartílico acima do percentil 75 e por 1,5 vez o intervalo interquartílico abaixo
do percentil 25 (mas sem atingir valores abaixo de 0). Eles mostram a faixa dentro da qual a maioria
dos valores pode ser esperada, dados a mediana e o intervalo interquartílico da distribuição. Logo,
basta uma rápida olhada em um box plot para se ver quão dispersa é a distribuição, se ela está ou não
inclinada, onde caem os intervalos interquartílicos, quão perto a mediana está da média e quantas (se
houver alguma) observações podem razoavelmente ser consideradas extremas.
Em suma: É um gráfico que resume e apresenta a mediana; quartis superior e inferior; e os valores
mínimos e máximos.
Interpretando/compreendendo o box plot:
1. A caixa (box) propriamente dita contém a metade (50%) dos dados. O limite superior da caixa 
indica o percentil de 75% dos dados, e o limite inferior da caixa indica o percentil de 25% 
(respectivamente, quartis superior e inferior). A distância entre esses dois quartis é conhecida 
como interquartil.
2. A linha na caixa indica o valor de mediana dos dados.
3. Se a linha mediana dentro da caixa não é equidistante dos extremos, diz-se, então, que os dados 
são assimétricos. 
4. Os extremos do gráfico indicam o valor mínimo e máximo — a menos que valores outliers estejam 
presentes; nesse caso, o gráfico se estende ao máximo de 1,5 vez da distância interquartil.
5. Os pontos fora do gráfico são então outliers ou suspeitos de o serem.
20Bioestatística
O box plot possui as seguintes vantagens:
 Mostra graficamente a posição central dos dados (mediana) e a tendência.
 Provê algum indicativo de simetria ou assimetria dos dados. 
 Ao contrário de muitas outras formas de mostrar os dados, o box plot mostra os outliers. 
 Utilizando o box plot para cada variável categórica de lado a lado no mesmo gráfico, pode-se 
facilmente comparar os dados.
Um detalhe do box plot é que ele tende a enfatizar
as caudas da distribuição, que são os pontos ao
extremo nos dados. Também fornece detalhes da
distribuição dos dados. Mostrar o histograma em
conjunto com o box plot ajuda a entender a
distribuição dos dados, constituindo-se como um
gráficoimportante para a análise exploratória.
Valores externos
Quartil superior
Mediana
Quartil inferior
Valores externos
Whisker
Whisker
21
Afirmações provisórias Hipóteses
Amostras Probabilidade de erros 
Bioestatística
4. Teste de hipóteses
4.1 Teste de hipótese
É um procedimento estatístico pelo qual se rejeita ou não uma hipótese, associando à conclusão um
risco máximo de erro. A hipótese testada é sempre H0. Se for rejeitada, a alternativa é
automaticamente aceita e vice-versa.
Trabalhos científicos = Objetivos específicos = Afirmações a serem confirmadas valores
Delimitação 
Do Tema
Formulação 
da Hipótese
Verificação
da Hipótese
Aplicação 
Prática
Hipóteses
Científicas
Hipóteses
Estatísticas
22
Hipóteses Estatísticas são suposições sobre o valor dos parâmetros nas populações ou amostras.
Sempre comparam dois ou mais parâmetros, quer afirmando que são iguais quer que não o são.
Hipótese: Resposta presumida e provisória que, de acordo com critérios, será ou não rejeitada. São
de dois tipos:
1. Hipótese Nula ou de Nulidade (H0) – Estabelece a ausência de diferença entre os parâmetros. É
sempre a primeira a ser formulada.
Hipótese nula (H0): Não há diferença
2. Hipótese alternativa (HA ou H1) – É aquela contrária à hipótese nula. Geralmente, é a que o
pesquisador quer confirmar.
Hipótese alternativa (H1): Há diferença.
Processo para testar hipótese:
1. Estabelecer H0
2. Estabelecer H1
3. Determinar tamanho da amostra
4. Colher dados
5. Estudo estabelecido para verificar se a H0 é verdadeira
6. Rejeitar ou não a H0
Todo teste de hipóteses tem sua conclusão sujeita a erros:
O erro de afirmar que existe uma diferença quando ela efetivamente não existe (ou seja, rejeitar
incorretamente a H0) é chamado de erro tipo I e tem uma probabilidade de ocorrer igual a α (alfa).
Aceitar a H0 quando não se deveria, ou seja, afirmar uma igualdade quando seria correto haver uma
diferença, é um erro tipo II, e é muito difícil calcular sua probabilidade, pois deveria ser conhecido o
parâmetro μ da amostra (justamente o que se quer saber). Essa probabilidade é β.
Bioestatística
23
Como a probabilidade complementar de β é a probabilidade de afirmar corretamente que existe uma
diferença quando ela realmente existe, diz-se que (1-β) é o poder do teste estatístico de detectar uma
diferença real.
Segundo R. A. Fisher: Todo experimento existe somente com o propósito de dar aos fatos uma
oportunidade de afastar a H0.
Erro tipo I: Rejeitar a H0 sendo esta verdadeira (fato obtido pelo azar) — rara ocorrência estatística;
amostras pequenas.
Erro tipo II: Aceitar a H0 sendo esta falsa (erro mais frequente);
Significação estatística: Máxima probabilidade de tolerar um erro tipo I.
α = 5% (p ≤ 0,05): ≤ 5% de rejeitar a H0 (sendo verdadeira) e aceitar a H1
α = 1% (p ≤ 0,01): ≤ 1% de rejeitar a H0 (sendo verdadeira) e aceitar a H1
Bioestatística
α erro tipo I e erro tipo II
α erro tipo I e erro tipo II
β pode ser usado para
calcular o tamanho amostral
necessário para se atingir
determinado objetivo e para
determinar o poder que tem a
pesquisa de detectar uma
diferença estipulada pelo
pesquisador.
24
Potência = 1−β
Bioestatística
4.2 Análise dos dados
4.2.1 Potência
Potência: Probabilidade de rejeitar H0 quando esta é falsa.
Isto é, potência é o complemento do erro tipo II. Portanto, aumento de potência implica diminuição do 
erro tipo II.
Tendência no meio científico: α/β:1/4 ou 0,05/0,20
Então, uma potência razoável equivale a 1- 0,20 = 0,80 ou 80%.
Ciência pobre: “Desperdiça-se tempo, energia e recursos quando se faz um experimento que não
produz resultados significativos” (Keppel, 1991)
Controle do erro tipo II (= aumento da potência):
• Reduzir erro experimental
• Aumentar n
• Aumentar as diferenças entre os tratamentos
• Empregar um delineamento experimental mais sensível
• Aumentar o erro tipo I: α de 5% para 10%, por exemplo
Nível Alfa: Segundo Jekel (2005), antes de fazer qualquer cálculo para testar a hipótese nula, o
investigador deve estabelecer um critério chamado de nível alfa, o qual é a probabilidade máxima de
cometer um erro falso-positivo que o investigador está disposto a aceitar. Assim o alfa denota o nível
de significância e indica a probabilidade de cometer um erro tipo I. Geralmente, o nível alfa é
estabelecido em p=0,05. Isso quer dizer que o investigador está disposto a correr um risco de 5%
(mas não mais) de estar em erro quando afirmar que o grupo do tratamento e o controle diferem
realmente. Ao escolher um nível alfa, o investigador está inserindo um julgamento de valor dentro do
processo; entretanto, quando isso é realizado antes dos dados serem coletados, o viés de ficar tentado
a “predizer depois do fato”, para ajustar o nível de alfa no sentido de fazer com que os dados mostrem
uma diferença estatística, é evitado.
Potência baixa = ciência pobre
25
Valor de Beta (0,2): Segundo Callegari-Jaques (2004), todo teste de hipóteses tem sua conclusão
sujeita a erro. Os erros probabilísticos se referem ao erro tipo l e erro tipo II. O erro tipo I é aquele de
afirmar que existe uma diferença quando ela efetivamente não existe (i.e., rejeitar incorretamente a
hipótese nula e aceitar incorretamente a hipótese alternativa) e tem probabilidade de ocorrer igual a
alfa, que é definido a priori pelo pesquisador e geralmente adota-se um valor de 0,05, ou seja, de 5%.
Porém, quando aceitamos a hipótese nula e não deveríamos, afirmando uma igualdade que não
existe, cometemos o erro tipo II, e a probabilidade deste é muito difícil de calcular, pois, para tanto,
seria necessário conhecer o valor do parâmetro na população amostrada, e é justamente por não
saber esse valor que os pesquisadores realizam as pesquisas. Em outras palavras, segundo Jekel
(2005), ao decidir se os dados são coerentes ou incoerentes com as hipóteses, os investigadores
estão sujeitos a dois tipos de erros. Podem defender que os dados apoiam a hipótese alternativa,
quando de fato a hipótese é falsa: isso é um erro falso-positivo (erro alfa ou erro tipo I). Porém, podem
defender que os dados não apoiam a hipótese alternativa, quando de fato a hipótese alternativa é
verdadeira (nula é falsa): isso seria um erro falso-negativo (erro beta ou erro do tipo II = 0,02 - 20%).
Valor de p: O valor de p, obtido por um teste estatístico, fornece a probabilidade de que a diferença
observada possa ter sido obtida somente ao acaso, dada a variação aleatória e um único teste para a
hipótese nula. Geralmente, se o valor de p observado é ≤ 0,05, os membros da comunidade científica
que leem sobre a investigação aceitarão a diferença como sendo uma diferença
real/verdadeira/significativa. Embora o estabelecimento do alfa em ≤ 0,05 seja de alguma forma
arbitrário, esse nível tem se tornado tão costumeiro que é prudente dar explicações por ter escolhido
outro nível alfa ou por ter escolhido não realizar testes de significância, o que pode ser a melhor
abordagem em alguns estudos descritivos. Assim, o p corresponde ao menor nível de significância
que pode ser assumido para rejeitar a hipótese nula.
Homocedasticidade: É a homogeneidade de variâncias; os desvios-padrão são próximos e similares,
homogêneos entre si. A variação dos valores de x para cada valor fixo de y é sempre a mesma; os
desvios-padrão são sempre iguais. Os dados regredidos encontram-se mais homogeneamente e
menos dispersos (concentrados) em torno da reta de regressão do modelo.
Bioestatística
26Bioestatística
4.2.2 Curva Normal Padronizada ou Curva Normal Reduzida
Propriedades ou Características da curva normal:
Variáveis aleatórias: Variam ao acaso e podem assumir qualquer valor.
• Gráficos com dois extremos, um máximo e um mínimo; e, entre eles, uma distribuição gradativa
(maioria dos valoresao redor da média).
Curva de Gauss: As medidas que originam estes gráficos são variáveis com distribuição normal.
• A variável pode assumir qualquer valor real.
• O gráfico da distribuição normal é uma curva em forma de sino, simétrico em torno da média.
• A média, mediana e a moda são coincidentes.
• A curva tem dois pontos de inflexão, que correspondem a valores de x situados, respectivamente, à
distância de um desvio-padrão (s) acima e abaixo da média.
• A área total da curva vale 1 (100%), significando que a probabilidade de ocorrer qualquer valor real
é 1.
• Pelo fato da curva ser simétrica em torno da média, os valores maiores e menores do que a média
ocorrem com igual probabilidade.
• Aproximadamente 68% (≈2/3) dos valores de x situam-se entre os pontos (χ-s) e (χ+s).
• Aproximadamente 95% dos valores de x estão entre (χ-2s) e (χ+2s).
• Aproximadamente 99,7% dos valores de x estão entre (χ-3s) e (χ+3s).
27
As propriedades referentes a áreas sob a curva de Gauss foram obtidas de uma curva especial, que
tem média = 0 e desvio-padrão (s) = 1. Essa curva chama-se curva normal padronizada ou curva
normal reduzida. As áreas situadas abaixo dessa curva estão tabeladas. Para evitar confusão, a
variável tabelada é denominada z.
A tabela informa áreas entre a média (zero) e um valor de z qualquer.
Quando z for 1 (igual ao s), a área compreendida entre esse valor e a média é 0,3413 ou 34,13%. A
área z = -1 e z = 1 é 0,6826 ou 68,26%.
Para obtenção do valor entre áreas que não estão entre 0 e z, devem ser realizadas operações
simples de subtração ou soma com áreas.
Predição de um valor entre dois números quaisquer:
Bioestatística
Exemplo:
A probabilidade de ocorrência de um valor > 0 é 0,5,
mas qual é a probabilidade de ocorrer um valor entre 0 e
z = 1,25?
Para predição de um valor, deve-se usar a tabela de Distribuição Normal. Mas como usar essa
tabela?
• Localizar na 1a coluna o valor 1,2. Na 1a linha, localizar o valor 5.
• O número 1,2 compõe com o algarismo 5, o número z = 1,25.
• No cruzamento da linha 1,2 com a coluna 5 está o número 0,3944. Esta é a probabilidade
(39,44%) de ocorrer valor entre zero e z = 1,25.
1 - Qual é a probabilidade de ocorrer um valor maior do que z = 1,25?
2 - Qual a probabilidade de ocorrer um valor menor do que z = - 0,50?
3 - Qual a probabilidade de ocorrer um valor de z entre 1,23 e 2,17?
4 - Qual a probabilidade de ocorrer um valor de z entre -1,46 e 2,12?
28Bioestatística
z 0 1 2 3 4 5 6 7 8 9
0,0
0,1
0,2
0,3
0,4
0,0000
0398
0793
1179
1564
0,0040
0438
0832
1217
1591
0,0080
0478
0871
1255
1628
0,0120
0517
0910
1293
1664
0,0160
0557
0948
1331
1700
0,0199
0596
0987
1368
1736
0,0239
0636
1026
1406
1772
0,0279
0675
1064
1443
1808
0,0319
0714
1103
1480
1844
0,0359
0754
1141
1517
1879
0,5
0,6
0,7
0,8
0,9
1915
2258
2580
2881
3159
1950
2291
2612
2910
3186
1985
2324
2642
2939
3212
2019
2357
2673
2967
3238
2054
2389
2704
2996
3264
2088
2422
2734
3023
3289
2123
2454
2764
3051
3315
2157
2486
2794
3078
3340
2190
2518
2823
3106
3365
2224
2549
2852
3133
3389
1,0
1,1
1,2
1,3
1,4
3413
3643
3809
4032
4192
3438
3665
3869
4049
4207
3461
3686
3888
4066
4222
3485
3708
3947
4082
4236
3508
3729
3952
4099
4251
3531
3749
3944
4115
4265
3554
3880
3962
4131
4279
3557
3790
3980
4147
4292
3599
3810
3997
4162
4306
3621
3830
4015
4177
4319
1,5
1,6
1,7
1,8
1,9
4332
4452
4554
4641
4713
4345
4463
4564
4649
4719
4357
4474
4573
4656
4726
4370
4484
4582
4664
4732
4382
4495
4591
4671
4738
4394
4505
4599
4678
4744
4406
4515
4608
4686
4750
4418
4525
4616
4693
4756
4429
4535
4625
4699
4761
4441
4545
4633
4706
4767
2,0
2,1
2,2
2,3
2,4
4772
4821
4861
4893
4918
4778
4826
4864
4896
4920
4783
4830
4868
4898
4922
4788
4834
4871
4901
4927
4793
4838
4875
4904
4927
4798
4842
4878
4906
4929
4803
4846
4881
4909
4931
4808
4850
4884
4911
4932
4812
4854
4887
4913
4934
4817
4857
4800
4916
4936
2,5
2,6
2,7
2,8
2,9
4938
4953
4965
4974
4981
4940
4955
4966
4975
4982
4941
4956
4967
4976
4982
4943
4957
4968
4977
4983
4945
4959
4969
4977
4984
4946
4960
4970
4978
4984
4948
4961
4971
4979
4985
4949
4962
4972
4979
4985
4951
4963
4973
4980
4986
4952
4964
4974
4981
4986
3,0
3,1
3,2
3,3
3,4
4987
4990
4993
4995
4997
4987
4991
4993
4995
4997
4987
4991
4994
4995
4997
4988
4991
4994
4996
4997
4988
4992
4994
4996
4997
4989
4992
4994
4996
4997
4989
4992
4994
4996
4997
4989
4992
4995
4996
4997
4990
4993
4995
4996
4997
4990
4993
4995
4997
4998
3,5
3,6
3,7
3,8
3,9
4998
4998
4999
4999
0,5000
4998
4998
4999
4999
0,5000
4998
4999
4999
4999
0,5000
4998
4999
4999
4999
0,5000
4998
4999
4999
4999
0,5000
4998
4999
4999
4999
0,5000
4998
4999
4999
4999
0,5000
4998
4999
4999
4999
0,5000
4998
4999
4999
4999
0,5000
4998
4999
4999
4999
0,5000
29
Testes que 
comparam médias
2 grupos 
independentes
Distribuição 
normal
Test t de 
Student
Sem 
distribuição 
normal
Test U de 
Mann-
Whitney
2 grupos 
pareados
Distribuição 
normal
Teste t 
para 
amostras 
pareadas
Sem 
distribuição 
normal
Teste T de 
Wilcoxon
3 ou + grupos 
independentes
Distribuição 
normal
ANOVA
Sem 
distribuição 
normal
Teste H 
de 
Kruskal-
Wallis
3 ou + grupos 
pareados
Distribuição 
normal
ANOVA 
(medidas 
repetidas)
Sem 
distribuição 
normal
Cochram
Friedman
4.2.3 Testes que comparam médias
O fluxograma abaixo indica: 
• Os nomes dos testes com os quais se comparam médias;
• Quando se usa tal teste;
• Condições para usar tal teste; 
• E um teste substituto, caso não sejam satisfeitas as condições para realização desses testes.
Bioestatística
Te
st
es
 p
ar
a 
va
riá
ve
is
 q
ua
lit
at
iv
as Dois grupos independentes
χ2
Exato de Fisher
Dois grupos pareados McNemar
Três ou mais grupos 
independentes χ
2
Três ou mais grupos pareados Q de Cochran
30Bioestatística
Testes não-paramétricos (NP) são mais fáceis de fazer “à mão”, PORÉM, são menos “poderosos”.
A estatística dos testes NP é calculada com base nos seus “postos” ou “rankings”, na posição dos
números.
POSTOS: É a ordenação dos postos em ordem crescente. O número da posição de um determinado
dado é o “posto”. (Mediana)
Testes que comparam médias de dois grupos:
1 - Teste t de Student para amostras independentes ou não pareadas (PARAMÉTRICO)
• Duas amostras independentes são comparadas (p.ex., casos e controles). Observa-se uma
diferença ou não.
• Para amostras grandes, o desvio-padrão da amostra (s) é semelhante ao desvio da população (σ).
Ou seja, admite-se que a variação dos valores da amostra é semelhante ao da população.
• Para esse teste, espera-se que a variável tenha distribuição normal ou aproximadamente normal e
que as variâncias tenham homocedasticidade.
2 - Teste U de Mann-Whitney ou Wilcoxon-Mann-Whitney para amostras independentes ou não
pareadas (NÃO-PARAMÉTRICO)
• Desenvolvido por Frank Wilcoxon em 1945 (para amostras de tamanhos iguais) e aprimorado por
Henry Mann e Donald Ransom Whitney em 1947 (para amostras de tamanhos diferentes).
• É uma alternativa para comparar “médias” entre amostras quando a distribuição não é normal.
• Não exige homocedasticidade.
3 - Teste t para amostras pareadas (PARAMÉTRICO)
• Ao se comparar a média de dois grupos, outras variáveis podem influenciar os resultados;assim,
as variáveis que comprometem as comparações são frequentemente denominadas variáveis de
confundimento.
• São meios pelos quais podemos controlar a confusão no delineamento do estudo: randomização,
restrição (critérios de inclusão e exclusão) ou emparelhamento indivíduo a indivíduo.
31Bioestatística
Pareamento/Emparelhamento: Tornar o grupo-controle o mais parecido possível com o grupo de
casos, a não ser pela variável que se quer estudar.
Exemplo: Um médico que queira comparar duas dietas alimentares para diabéticos poderá organizar
o pareamento por sexo, idade e tempo de diagnóstico. Assim, se houver num grupo um homem de 67
anos, diabético há 12 anos, no outro grupo deverá haver um “par” semelhante nesses aspectos.
As “variáveis” intervenientes nos resultados tornam-se “constantes”. Elas aumentam a eficiência do
teste estatístico, tornando-o mais sensível a diferenças pequenas entre os tratamentos (torna o teste
mais poderoso).
• Amostras pareadas, emparelhadas ou “dependentes” (indivíduo a indivíduo).
• Emparelhamento máximo – Indivíduo é controle de si mesmo (p.ex., pré e pós do mesmo grupo).
4 - Teste T de Wilcoxon (NÃO-PARAMÉTRICO)
• Deve ser aplicado a dados pareados.
• Alternativa para o teste t pareado.
• A diferença entre as duas observações deve poder ser ordenada.
Testes que comparam médias de três grupos ou mais: Não importa se são pareados ou não
pareados, o teste será o mesmo:
1 - ANOVA (PARAMÉTRICO)
• Análise de variância (ANOVA) é um procedimento estatístico que tem como finalidade comparar
médias (apesar de seu nome).
• O nome “análise de variância” origina-se do modo como a técnica utiliza fontes de variabilidade
para determinar se existe diferença entre as médias.
• O cálculo é feito comparando-se a variância entre os grupos com aquela observada dentro dos
grupos.
Condições para realizar o teste:
• Grupos independentes
• Normalidade
• Homocedasticidade
Raciocínio do teste:
• Variabilidade total = variabilidade entre grupos + variabilidade dentro dos grupos
• Se a VARIABILIDADE ENTRE for maior do que a variabilidade DENTRO, há diferença entre os
grupos.
32Bioestatística
Se F da ANOVA for significativo, ele apenas refere que existe diferença entre os grupos, mas não fala
de qual grupo. Assim, é de interesse localizar o grupo que difere por meio de um teste post-hoc.
Praticamente todos os testes post-hoc trabalham da mesma forma: como se fosse um teste t com
correção no EP para evitar aumento no α.
2 - Teste H de Kruskal-Wallis (NÃO-PARAMÉTRICO)
• Serve para testar a hipótese de que várias populações têm a mesma distribuição.
• É uma alternativa para a ANOVA (conhecido como ANOVA by ranks test).
• Usar quando: amostra pequena (um dos grupos menor do que 15); exigências do teste t estiverem
seriamente comprometidas (não houver distribuição normal).
CORRELAÇÃO LINEAR SIMPLES
Para avaliar se existe associação linear entre duas variáveis quantitativas, é comum a utilização do
coeficiente de correlação (produto-momento) de Pearson (r). Esse coeficiente avalia o quanto duas
séries de dados numéricos repousam sobre uma linha reta, indicando assim o grau de sua associação
linear.
Objetivo: Mostrar associação entre duas variáveis quantitativas
33Bioestatística
Ex.: Peso × altura Pressão arterial × idade
34Bioestatística
Coeficiente de correlação: Coeficiente = R
Vantagens: 
• Independe da unidade de medida das variáveis.
• Mede intensidade de associação entre duas variáveis quantitativas.
• Proposto por Karl Pearson (1896)  também conhecido como coeficiente de correlação de 
Pearson (PARAMÉTRICO).
Variação do coeficiente de correlação:
• Coeficiente varia de -1 a +1
Correlação positiva Correlação Negativa
Coeficiente de Correlação de Pearson (r):
Varia entre -1 e +1, ou seja, -1 ≤ r ≤ +1.
• Se r = +1, então as duas variáveis têm
correlação perfeita positiva (↑↑) (++);
• Se r = -1, então as duas variáveis têm
correlação perfeita negativa (↑↓) (+-);
• Se r = 0, não existe correlação (correlação
nula).
|R| CORRELAÇÃO
0 NULA
0-0,3 FRACA
0,3 | -0,6 REGULAR
0,6 | -0,9 FORTE
0,9 | -1 MUITO FORTE
1 PERFEITA
35
Coeficiente de determinação = R2
O quadrado do coeficiente de correlação é conhecido como coeficiente de determinação e representa
a “variância explicada”, ou seja, qual a proporção da variabilidade de y que pode ser explicada pela
variabilidade de x. Informa a fração da variabilidade de uma característica que pode ser explicada
estatisticamente por outra variável.
Condições para utilizar correlação linear
• x e y devem apresentar distribuição normal.
• Variação dos valores de x para cada valor fixo de y é sempre a mesma e vice-versa
(homocedasticidade).
E se uma variável for categórica ou não tiver distribuição normal? Faz-se a correlação de Spearman
(NÃO-PARAMÉTRICO).
Regressão linear
Técnica de análise de dados que permite quantificar o efeito de x sobre y, partindo de um modelo
linear (reta). Com regressão linear, é possível estimar o valor de y (variável dependente) a partir de um
valor de x (variável independente).
Teste do χ2 (Qui-quadrado):
Qui-quadrado mede a probabilidade de as diferenças encontradas em dois grupos de uma amostra
serem resultantes do acaso, partindo do pressuposto de que, na verdade, não há diferenças entre os
dois grupos na população da qual provêm. Se a probabilidade for alta, pode-se concluir que não há
diferenças estatisticamente significativas. Se a probabilidade for baixa (particularmente menor que
5%), pode-se concluir que um grupo (A) é diferente do grupo B quanto ao fator estudado.
Mede o grau de discrepância entre um conjunto de frequências observadas (O) e o conjunto de
frequências esperadas (E), segundo uma determinada hipótese.
Bioestatística
36
• O χ2 será zero quando não houver diferença entre O e E.
• A forma da curva de distribuição do χ2 depende do número de categorias que compõem a variável
qualitativa. Via de regra, é assimétrica, mas essa assimetria diminui à medida que aumenta o
número de categorias.
• A região de significância é unilateral e está localizada na extremidade direita da curva, uma vez que
os valores próximos do zero, por indicarem pequenas diferenças, não interessam na rejeição da
hipótese nula.
1 - O investigador pode ter interesse em verificar se a distribuição dos elementos numa população está
de acordo com uma dada teoria: Teste de χ2 para aderência ou ajustamento.
2 - O investigador pode ter interesse em verificar se duas populações têm a mesma proporção de
indivíduos com determinada característica: Teste de χ2 para independência ou de
heterogeneidade/homogeneidade.
3 - O pesquisador quer saber se existe associação entre duas variáveis qualitativas: Teste de χ2 de
associação.
Restrições ao uso do qui-quadrado:
• Deve ser realizado com frequências observadas absolutas (número de casos).
• Só deve ser aplicado quando a amostra for maior do que 25 ou 30.
• No máximo, 20% dos valores esperados nas categorias (E) poderiam ser inferiores a 5 e nenhum
menor do que 1.
• Quando a amostra é maior do que 20 e menor do que 40, só se deve usá-lo se as frequências
esperadas forem maior do que 1.
• Em tabelas 2×2, deve-se proceder a uma correção, chamada de correção de continuidade ou de
Yates.
• Quando os critérios para o qui-quadrado não são satisfeitos nas tabelas 2×2, deve-se utilizar o
Teste Exato de Fisher.
Bioestatística
37Bioestatística
Sugestões de Bibliografias 
Específicas
1. CALLEGARI-JACQUES, S.M. Bioestatística. Princípios e 
aplicações. Porto Alegre: ArtMed, 2003.
2. MEDRONHO, R.A. Epidemiologia. São Paulo: Atheneu, 2002.
3. HULLEY, S.B.; CUMMINGS, S.R.; BROWNER, W.S.; GRADY, 
D.; HEARST, N.; NEWMAN, T.B. Delineando a pesquisa 
clínica. 2ª ed., Porto Alegre: Artes Médicas, 2003.
4. FLETCHER, R.H.; FLETCHER, S.W.;WAGNER, E.H. 
Epidemiologia clínica: Bases científicas da conduta 
médica. 3ª ed., Porto Alegre: Artes Médicas, 1996.
5. JEKEL, J.F.; KARTZ, D.L.; ELMORE, J.G. Epidemiologia, 
bioestatística e medicina preventiva. 2ª ed., Porto Alegre: 
Artmed, 2005.
	Slide Number 1
	Slide Number 2
	Slide Number 3
	Slide Number 4
	Slide Number 5
	Slide Number 6
	Slide Number 7
	Slide Number 8
	Slide Number 9
	Slide Number 10
	Slide Number 11
	Slide Number 12
	Slide Number 13
	Slide Number 14
	Slide Number 15
	Slide Number 16
	Slide Number 17
	Slide Number 18
	Slide Number 19
	Slide Number 20
	Slide Number 21
	Slide Number 22
	Slide Number 23
	Slide Number 24
	Slide Number 25
	Slide Number 26
	Slide Number 27
	Slide Number 28
	Slide Number 29
	Slide Number 30
	Slide Number 31
	Slide Number 32
	Slide Number 33
	Slide Number 34
	Slide Number 35
	Slide Number 36
	Slide Number 37