Buscar

Bioestatística - Freak Out

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

1 
 
 
 
 
Faculdade de Medicina de Lisboa 
Módulo III.II. - Bioestatística 
Leonor Caixeiro 
2 
 
 
 
 
 
 
De vez em quando surgem pessoas malucas que dizem sim quando são desafiadas a fazer uma 
sebenta. Aparentemente sou uma delas. Sorte a minha, não estou sozinha. Daí o nome deste protótipo 
de sebenta: Freak Out. Freak out, com aqueles que estão lá sempre para nos ajudar, Gabriela, Tiques, Bia, 
Pedro, Carla, Alexa, Kika, Catarina, Mafs, obrigado  
“Sometimes you will laugh because there’s nothing else to do. Sometimes 
you will cry because there’s nothing else to do.” 
Deixei de lado os formalismos estatísticos e tentei simplificar os conceitos, mesmo que muitas 
destas simplificações fizessem arrepiar alguns estatísticos. Atenção que é na sua essência apenas um 
“guia” de resolução de exercícios. Pensem nesta sebenta como uma tábua de salvação para a noite antes 
do exame e não como o guia completo e integral de bioestatística. 
Um grande obrigado ao David Gomes e à Carolina Alves que ajudaram à construção dessa sebenta 
e sobretudo, ao Vaz, pelo desafio. 
 
Qualquer erro, sugestão ou momento de Freak Out, por favor contactar: 
leonor.caixeiro@campus.ul.pt. 
 
 
Leonor Caixeiro 
 
 
 
 
 
 
3 
 
 Introdução à Estatística 
 
ESTATÍSTICA: ciência que recolhe, organiza, sumariza e analisa dados (Estatística Descritiva / Analise 
Exploratória de Dados) para depois inferir sobre a totalidade de um conjunto de dados partindo apenas 
de parte destes (Inferência Estatística/Indutiva). 
População: conjunto de elementos que se pretende estudar (finito ou 
infinito) 
Amostra: conjunto de elementos que são observados (finito) 
1. VARIÁVEL: característica que pode tomar diferentes valores para os vários elementos 
estudados 
1.1 Quantitativa: pode ser quantificada 
• Discreta: o conjunto de resultados é finito ou numerável ({1,2,3…}) 
• Contínua: pode tomar qualquer valor 
1.2 Qualitativa: não pode ser quantificada (tem de ser categorizada), mas podem ser contados 
os elementos de cada categoria 
• Nominal: não pode ser hierarquizada (“Sim”/”Não”) 
• Ordinal: podem ser colocados por ordem (“Mau”/”Bom”/”Muito bom”) 
 
2. 
- Média: é o valor que aponta onde mais se concentram os dados de uma distribuição. Calculase: 
 
- Mediana: valor numérico que separa a metade superior da metade inferior de dados 
organizados hierarquicamente. 
 Se n é ímpar, a mediana é igual ao dado que ocupa a posição , sendo n o número de 
elementos da distribuição. Se n é par, a mediana é igual ao dado que ocupa a posição 
1 
- Moda: valor mais registado numa distribuição 
- Quantis: pontos em intervalos regulares que determinam subconjuntos. São exemplos de 
quantis, os quartis. Os quantis podem ser percentis. O percentil é definido como o p-ésimo 
percentil de n valores ordenados correspondente ao valor que ocupa a posição , 
arredondada para o inteiro mais próximo. 
 
2.2 DE DISPERSÃO: 
 Amplitude Interquartil: diferença entre o valor de 2 quartis 𝐼𝑄𝑅 = 𝑄3 − 𝑄1 
 Amplitude: diferença entre o maior valor da amostra e o menor 𝑅 = 𝑥𝐿 − 𝑥𝑠 
 Assimetria: se o gráfico de uma distribuição é assimétrico, a distribuição diz-se assimétrica – 
se for assimétrica para a direita tem uma assimetria positiva, se o seu gráfico se estender mais 
para a esquerda é assimétrica para a esquerda, tendo assimetria negativa. 
Em baixo e à esquerda, temos um gráfico com assimetria negativa e à direita um gráfico 
com 
4 
 
assimetria positiva. 
 
 
 
Um histograma dá informação sobre assimetria do box plot,enquanto queo Box plot não dá 
informação sobre assimetria do gráfico 
 
 Variância (𝜎2) e Desvio Padrão(𝜎): mostra o quanto de variação ou "dispersão" existe em relação 
à média. Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um 
desvio padrão alto indica que os dados estão espalhados por uma gama de valores. 
 e 𝜎2 = 𝑠. 
 Coeficiente de Variação: expressa o desvio padrão em relação à média: 
 Curtose: medida de comparação do quão picada é uma curva em comparação com a da 
distribuição normal 
 
3 SÍMBOLOS ESTATÍSTICOS: 
AMOSTRA POPULAÇÃO 
Estatísticas Parâmetros 
Coeficientes empíricos ou amostrais Coeficientes Populacionais 
Média (𝑥 ) Valor Médio (𝜇) 
Variância (𝑠2) Variância (𝜎2) 
Desvio Padrão (𝑠) Desvio Padrão (𝜎) 
Quantil de Ordem p (𝐶𝑝) Quantil de Ordem p (𝜒𝑝) 
1º Quartil (𝑄1) 1ºQuartil (𝜒0.25) 
Frequência Probabilidade 
 
 
 
5 
 
 Análise Estatística 
 
4. DISTRIBUIÇÃO NORMAL: 
É uma distribuição de variável aleatória contínua cujo gráfico tem forma de sino e é simétrico, 
sendo que a média é igual à mediana e à moda. Nesta distribuição a área entre dois pontos debaixo do 
gráfico representa uma probabilidade. 
Está associada a um par de valores, um valor médio e um desvio padrão. Sendo que podemos 
definir uma variável X que segue uma distribuição normal com valor médio de 𝜇 e desvio padrão de 𝜎 
assim: 𝑋 ~ 𝑁(𝜇, 𝜎). 
Como a distribuição normal é uma distribuição contínua, a 
probabilidade de 𝑎 é nula, isto é 𝑃(𝑋 = 𝑎) = 0. Quando utilizamos 
uma distribuição normal, geralmente referimo-nos 
 a uma probabilidade entre dois pontos, isto é, 𝑃(𝑎 < 𝑋 < 𝑏) 
(que é igual a de 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏)). Esta probabilidade corresponde à 
área debaixo do gráfico compreendida entre os ponto a e b, 
representada na figura ao lado. 
A área debaixo de toda a curva é igual a 1 e quanto maior é o 𝜎, mais achatado é o gráfico e mais 
os valores estão afastados da média 
É necessário conhecer a área entre dois pontos da curva, pois vai ser usada nas várias distribuições 
que falaremos em seguida. O cálculo desta área é moroso (através de umas coisas muito giras chamadas 
de integrais), sendo necessário, por isso o uso de tabelas que nos dão a área diretamente. No entanto, 
não existem tabelas para cada par de valores médio e desvio padrão. Temos, assim, a necessidade de 
padronizar a distribuição. 
5. DISTRIBUIÇÃO NORMAL PADRÃO/STANDARD: 
Distribuição normal com desvio padrão 1 e valor médio de 0. 
É possível estandardizar uma distribuição normal através da seguinte fórmula 
, 
em que 𝜇 𝑒 𝜎 ~sãoé o valor médio e o desvio padrão, respectivamente, da distribuição que queremos 
padronizar. 
Imaginando que temos uma distribuição de variável X, com desvio padrão 𝜎 e média 𝜇 e queremos 
determinar 𝑃(𝑎 < 𝑋 < 𝑏). Substituímos na fórmula o valor médio e o desvio padrão pelos 
valores da distribuição quer queremos estandardizar, ficando com dois valores de Z, tal que: 
 
6 
 
De tal forma que, a probabilidade que queríamos encontrar no inicio, 𝑃(𝑎 < 𝑋 < 𝑏), é igual à 𝑃(𝑍𝑎 < 
𝑍 < 𝑍𝑏). Esta última probabilidade pode ser encontrada através das tabelas de distribuição normal padrão 
(que são distribuídas no exame). 
Essas tabelas dão normalmente a área desde -∞ até a. Assim, a tabela dá-nos o valor de P(−∞<X<a) 
directamente. 
Se queremos calcular P(a<X<∞), basta fazer 1- P(−∞<X<a) . 
Para calcularmos P(a<X <b) vamos ver à tabela os valores de P(−∞<X <a) e P(−∞<X<b) e fazemos: 
P(a<X<b) = P(−∞<X<b) − P(−∞<X<a). Em caso de dúvidas, é aconselhado desenhar uma curva de 
distribuição normal, marcar os pontos a e b e sombrear as áreas que queremos determinar. 
EXEMPLO 1: 
Sabe-se que para uma determinada população o IMC apresenta uma distribuição normal, com valor 
médio 28,1 kg/m2 e desvio padrão 4,3 kg/m2. Numa amostra de 200 indivíduos,qual o número esperado 
de pessoas com IMC dentro dos valores normais, isto é, entre 18,6 e 24,9 kg/m2? Temos então que 
𝜇 = 28.1 𝜎 = 4.3 𝑛 = 200 
E queremos saber P(18.6<X<24.9), e para isso temos de tornar X numa distribuição normal: 
 
 
Então P(18.6<X<24.9) = P(-2.21<Z<-0.74) 
 
 
Recorrendo à tabela de distribuição normal 
padrão, determinamos: P(-2.21<Z<-0.74) 
 P(-2.21<Z<-0.74) = 
0.9864-0.7704 
A probabilidade é de 0.216. 
O número esperado de pessoas é 0.216*200, o 
que corresponde a 44 pessoas. 
 
 
 
7 
 
 6. TEOREMA DO LIMITE CENTRAL 
Quando estamos na presença de uma distribuição sobre a qual sabemos o valor médio e o desvio 
padrão, mas não temos informação sobre a sua normalidade, podemos considerar a distribuição amostral 
da sua média aproximadamente normal quando a amostra é grande (geralmente, para n > 30). No 
entanto, é necessário “corrigir” apenas o valor do desvio padrão previamente conhecido. Então a nossa 
distribuição tomará valor médio de 𝜇, conhecido, e o desvio padrão, com “correcção”, ficando como . 
Temos, então, 
EXEMPLO 2: 
A tensão arterial (sistólica) numa população de homens saudáveis tem uma distribuição com 𝜇=120 
mmHg e 𝜎 =14 mmHg. Qual a probabilidade de uma amostra aleatória de 49 homens desta população 
apresentar uma média de TA superior ou igual a 124 mmHg? 
O valor médio da população é desconhecida, mas pelo Teorema do Limite Central podemos afirmar 
que a distribuição da média da amostra segue uma distribuição aproximadamente normal uma vez o 
número de elementos da amostra é superior a 30, tal que, 
 
Queremos saber: P(X ≥ 124) 
Temos então de transformar a distribuição X em Z para estandardizar: 
 
 
Temos então que P(X ≥ 124) = 
P(Z≥2). 
Consultando a tabela 
 de distribuição normal padrão, 
temos então que: 
 P(Z ≥ 2) = 1-0.9772 = 0.0228 
A probabilidade é de 0.0228 
 
 
 
 
 
 
 
8 
 
 7. DISTRIBUIÇÃO DA AMOSTRAGEM DE UMA PROPORÇÃO 
Uma proporção representa a razão entre o número de elementos que têm uma certa propriedade e 
a totalidade da amostra ou população. Numa amostra a proporção representa-se por 𝑝 e numa população 
por 𝑝. O desvio padrão irá corresponder a .Este teste só pode ser utilizada quando 𝑛 ∙ 𝑝 𝑒 𝑛 ∙ (1 − 
𝑝) são superiores a 5. 
Teremos então, 
EXEMPLO 3: 
Estudos históricos indicam que deixar de fumar é difícil e a probabilidade de um relapso é 𝑑𝑒 0,38. 
Num estudo de uma nova intervenção, numa amostra de 100 indivíduos, 27 voltaram a fumar. 
 Qual é a probabilidade de observarmos os 27 casos ou menos na amostra se a nova intervenção tiver 
uma probabilidade de relapso igual ao histórico de 0,38? 
𝑝 = 0.38 𝑝 = 0.27 𝑛 = 100 
𝑛 ∗ 𝑝 𝑒 𝑛 ∗ (1 − 𝑝) => 100 ∗ 0.38 𝑒 100 ∗ (1 − 0.38), são superiores a 5, logo podemos utilizar a 
distribuição da amostragem de uma proporção 
 
Transformar para distribuição standard: 
 
P(Z<-2.25)=P(Z>2.25)=1-P(Z<2.25)=1- 
0.9878=0.0122 
A probabilidade é de 0.0122 
 
 
 8. DISTRIBUIÇÃO T DE STUDENT 
É utilizado quando a variância ou desvio padrão da população é desconhecida e o número de 
elementos da amostra é reduzido (inferior a 30). 
O gráfico da distribuição é simétrico, campaniforme e semelhante à curva normal padrão, mas com 
caudas mais largas, ou seja, uma simulação da t de Student pode gerar valores mais extremos do que uma 
simulação da normal. O único parâmetro que a define e caracteriza a sua forma é o número de graus de 
liberdade. Quanto maior for esse parâmetro, mais próxima da normal ela será. O número de graus de 
liberdade (df) é igual a n-1 (recordo que n é o número de elementos da amostra). 
 
9 
 
 
 9. TESTE DE HIPÓTESES 
Vamos agora deixar as várias distribuições de lado para falar dos testes de hipóteses. 
Uma hipótese nula, 𝐻0, é uma afirmação que é apresentada sobre determinados factos estatísticos e 
cuja fiabilidade se tenta provar através de um adequado teste de hipóteses. Normalmente, afirma-se que 
dois fenómenos não estão relacionados. 
Na maioria dos casos, para além de uma Hipótese Nula, estabelece-se também uma Hipótese 
Alternativa, 𝐻1, contraditória à primeira. 
Para testar a veracidade das hipóteses, utiliza-se um Teste de Hipóteses que é um método de 
inferência estatística em que se tenta rejeitar uma Hipótese Nula de modo a elaborar uma conclusão sobre 
os dados recolhidos. 
Tomemos o exemplo de um gerente de uma fábrica de peças metálicas que está a estudar a 
possibilidade de comprar uma máquina que produza 𝜇 peças por hora. No entanto, só comprará a nova 
máquina se esta produzir mais peças do que a velha, que produz 𝜇𝑜peças por hora. 
A hipótese nula será que a máquina velha produz igual número de peças que a máquina nova, tal que 
𝐻𝑜: 𝜇 = 𝜇𝑜. Como hipótese alternativa, a que virá mais ao encontro do esperado será que a máquina nova 
produz mais peças que a máquina velha, tal que 𝐻1: 𝜇 > 𝜇𝑜. No entanto, podemos utilizar 3 Hipóteses 
alternativas. 
 
Quando realizamos um teste de hipóteses, temos 4 possibilidades diferentes: 
 
A probabilidade de cometer um erro tipo I representa-se por 𝛼, que corresponde ao valor do nível de 
significância (que é determinado pelo estatístico que elabora os testes). Normalmente, o valor de 𝛼 é de 
0.05 (5%). O nível de confiança será igual a 1 − 𝛼. 
Quanto menor o valor de 𝛼, mais significante é o testes estatístico, mas mais susceptível é de se 
cometer um erro tipo II, isto é, aumenta a probabilidade de 𝛽. A potência do teste será igual a 1 − 𝛽. 
• 1) Não se rejeita Ho - Correcto 
• 2) Rejeita - se Ho - Erro tipo I Ho verdadeiro 
• 3) Rejeita - se Ho - Correcto 
• 4) Não se rejeita Ho - Erro tipo II Ho Falso 
10 
 
A nossa hipótese é rejeitada, ou não, com base no gráfico de uma 
distribuição normal: o conjunto de valores assumidos pela estatística de 
teste para os quais a hipótese nula é rejeitada denomina-se região de 
rejeição 𝑅𝑐. Na figura ao lado temos um exemplo da área da região de 
rejeição. 
A área de rejeição toma o valor de 𝛼 e a área de aceitação 1 − 𝛼. 
Em 
cima, 
foram apresentadas 3 possibilidades de hipóteses alternativas no 
exemplo do gestor da fábrica de peças metálicas e que são 
representativas a maioria das hipóteses colocadas. 
(1) Representa um teste bilateral já que apenas se afirma que 𝜇 
≠ 𝜇 , tendo assim uma área de rejeição para ambos os lados 
(representado na figura…) 
(2) Representa um teste unilateral à esquerda, em que 𝜇 > 𝜇𝑜 
(3) Representa um teste unilateral à direita, em que 𝜇 < 𝜇𝑜 
. 
−𝑍𝛼 e 𝑍𝛼, nas duas últimas figuras (2) e (3), são tais que as áreas à esquerda e à direita, 
respectivamente, sob a curva Normal padrão, valem 𝛼 (Nível de significância, probabilidade de cometer 
um erro tipo I) e delimitam a área que corresponde à Zona de Rejeição. 
Já na primeira figura (1), os valores , também delimitam duas áreas de rejeição parciais, 
𝛼 
são tais que as áreas à esquerda e à direita, respectivamente, sob a curva Normal padrão, vale . 
2 
Como foi dito inicialmente, o objetivo do teste de hipótese é determinar, através de uma 
estatística, se a hipótese nula pode é rejeitável ou não. Essa decisão é tomada considerando a região de 
rejeição ou região crítica (𝑅𝑐). Caso o valor observado da estatística pertença à região de rejeição, 
rejeitamos 𝐻0; caso contrário, não rejeitamos 𝐻0. 
Podemos, para cada nível de significância, estabelecer valores críticos de 
rejeição consultando a Tabela de Distribuição Normal Padrão. Sendo𝛼 o nível de 
significância, queremos saber a partir de que valor de Z podemos rejeitar a hipótese 
nula. 
Se o nível de significância é 0.05, os valores críticos são -1.645 ou 1.645 para as alternativas 
unilaterais e -1.96 e 1.96 para a alternativa bilateral. 
𝑜 
11 
 
Explicando melhor para o caso unilateral: 
Ou seja, a probabilidade de a nossa hipótese nula se encontrar na área de rejeição corresponde a 
0.05. Então a área restante será de 0.95. Queremos então encontrar o valor a partir do qual a área de 
rejeição é de 0.05. Temos então de procurar na tabela o valor 0.95, que corresponde a um Z de 1.645 (ou- 
1.645). 
Para o caso bilateral o raciocínio é o mesmo, mas a área de aceitação é de 0.975. 
Já se o nível de significância é 0.01, os valores críticos são -2.33 ou 2.33 para as alternativas 
unilaterais e -2.575 e 2.575 para a alternativa bilateral (valores obtidos na Tabela da distribuição normal). 
A tabela a seguir apresenta alguns critérios para o teste de hipótese. 
 
Hipótese Alternativa Rejeita H0 se Não se H0 
 
 
 
 
 ou 
 
EXEMPLO 4: 
Um supervisor da qualidade quer testar, com base numa amostra aleatória de tamanho e para 
um nível de significância se a profundidade média de um furo numa determinada peça é de 
72.4 mm. O que podemos dizer se ele obteve mm e sabe, de informações anteriores, que 
 
1. Primeiro vamos estabelecer as hipóteses: 
, neste caso escolhemos uma distribuição BILATERAL 
2. Como , temos que (ver em cima no texto o porquê de ser 1.96) 
3. Critério: rejeitar em que 
 
 
 
4. Substituindo na equação acima, obtemos 
 
 se ou se 
, , , 
12 
 
 
 
5. Conclusão: Como , a hipótese nula deve ser rejeitada. Em outras palavras, não 
podemos assumir que a média populacional seja igual a 72.4 , isto é, a diferença entre 73.2 e 72.4 é 
significativa. 
 
 10. INTERVALOS DE CONFIANÇA 
Um intervalo de confiança é um intervalo estimado de um parâmetro de interesse de uma 
população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas 
prováveis. O quanto estas estimativas são prováveis será determinado pelo coeficiente de confiança 
, para . 
Os intervalos de confiança são usados para indicar a confiabilidade de uma estimativa. Por exemplo, 
um IC pode ser usado para descrever o quanto os resultados de uma pesquisa são confiáveis. Sendo todas 
as estimativas iguais, uma pesquisa que resulte num IC pequeno é mais confiável do que uma que resulte 
num IC maior. 
10.1 INTERVALO DE CONFIANÇA PARA A MÉDIA: 
Consideremos que a probabilidade da variável tomar valores 
entre . Os valores e são obtidos na tabela da 
distribuição normal. Temos então que: 
 
 
 
após algumas reduções temos então que: 
 
Loho, o intervalo de confiança da média é dado por 
 
Temos ainda 3 parâmetros muito importantes que avaliam um intervalo de confiança: 
 MARGEM DE ERRO: 
 LARGURA DO INTERVALO: margem de erro*2 
 ERRO PADRÃO DA MÉDIA: 
 e é 
13 
 
Caso os dados não sigam uma distribuição normal, podemos aplicar o teorema central do limite e 
construir um intervalo de confiança aproximado. 
Interpretação: Podemos afirmar que, se pudermos repetir muitas vezes uma experiência e 
recolhermos os dados, aproximadamente em das vezes a média populacional estará no 
intervalo encontrado. No entanto, NUNCA podemos afirmar que dos indivíduos da 
população estão inseridos dentro do IC ! 
EXEMPLO 5: 
O administrador de uma indústria recolheu uma amostra de 36 funcionários para verificar o tempo 
médio gasto para montar um determinado brinquedo. Lembrando que foi verificado que 
, construa um intervalo de confiança de nível para .. 
Como . 
Rejeitamos em que 
Para calcular o intervalo de confiança a 95%, efectuamos o seguinte: 
 
e, portanto, 
 
10.1. INTERVALO DE CONFIANÇA PARA PROPORÇÕES: 
O raciocínio é o mesmo, apenas muda o desvio padrão, tal que: 
 
 11. TESTE T 
O teste t é utilizado para comparar 2 médias de amostras diferentes ou de apenas 1. Atenção, vêm aí 
uma data de fórmulas, mas todos estes dados podem ser recolhidos no SPSS. Em princípio apenas deverá 
sair em exame para analisar outputs, mas sabe-se lá… 
Existe vários tipos de testes t para comparação de duas médias para: I. 
1 amostra: 
Aplica-se sempre que se desconhece a variância populacional e se pretende testar se a média 
da população assume um determinado valor, ou de outra forma, se uma dada amostra provém de 
um universo com uma dada média - exemplo: Nível de satisfação dos estudantes é igual ao do resto 
da população, cuja satisfação média é de 10 numa escala de 0 a 20. 
 e 
, temos que 
 se ou se 
14 
 
Consiste em medir a probabilidade da média da amostra em questão ter apresentado o valor 
observado ou algo mais extremo, dada a média da população . 
Para fazer isso, estipulamos, por exemplo, que a hipótese nula é 
e que, a hipótese . Usamos a seguinte fórmula para o cálculo da estatística 
t: 
 , onde: 
• : Média da amostra; 
• : Valor fixo usado para comparação com a média da amostra; 
: Desvio padrão amostral; : Tamanho da amostra. 
Quanto maior , mais confiança temos ao rejeitar a hipótese nula, ou seja, mais certeza temos ao 
afirmar que não é verdadeiro. 
Quanto maior , maior será . Ou seja, quanto maior a distância dos valores observados ao 
valor com que estamos a comparar, mais certeza teremos em afirmar que eles são diferentes. Do 
mesmo modo, aumenta quando o tamanho da amostra é maior ou quando o desvio padrão é 
menor. 
 
 II. 2 amostras: 
- independentes: a comparação pode ser feita entre dois grupos de sujeitos na mesma variável (teste 
t) ou num grupo de variáveis (testes simultâneos) - exemplo: O rendimento médio das mulheres é igual 
ao rendimento médio dos homens. 
- emparelhadas: Este teste t permite inferir sobre a igualdade de médias de duas amostras 
emparelhadas. Frequentemente cada caso é analisado duas vezes, antes e depois de um tratamento ou 
intervenção, formando pares de observações, cujas diferenças são testadas para ver se o resultado é ou 
não zero. 
Tamanhos iguais, variâncias iguais 
Este teste só deve ser usado quando: 
• o tamanho das amostras (n) dos dois grupos são iguais; 
• podemos assumir que as duas distribuições possuem a mesma variância. 
A estatística t é calculada conforme a fórmula: 
 
,onde 
alternativa é 
15 
 
 
A quantidade de graus de liberdade a ser usado nesse teste é . 
Tamanhos diferentes, variâncias iguais 
Este teste só deve ser usado quando podemos assumir que as duas distribuições 
possuem a mesma variância. 
A estatística t é calculada conforme a fórmula: 
 
,onde 
 
A quantidade de graus de liberdade a ser usado nesse teste é . 
Quando se opera com mais de um teste t, a probabilidade de se encontrar uma diferença 
significativa aumenta rapidamente com o número de variáveis analisadas em simultâneo. Pode-se então 
efectuar a Correcção de Bonferroni, que consiste em multiplicar o número de testes feitos pelo nível de 
confiança associado a cada uma deles. O resultado obtido é comparado com o nível de significância 
escolhido. 
EXEMPLO 6: 
Foi registado num grupo de 100 pessoas, com rapazes e raparigas, o seu Volume Expiratório 
Máximo (VEM). Foram inseridas no SPSS os dados refentes ao seu sexo e ao VEM, existerelação entre o 
VEM e o sexo? Assuma que as amostras são independentes e um nível de significância de 0.05. 
Em primeiro lugar, deve-se estabelecer uma hipótese nula e uma alternativa. Neste caso a 
hipótese nula será que a VEM dos rapazes é igual à VEM das raparigas. A hipótese alternativa é que são 
diferentes -> Bilateral. 
O teste adequado para se verificar a veracidade desta hipótese é o teste T. No entanto precisamos 
primeiro de verificar as condições de aplicabilidade deste teste: se a distribuição da população é normal 
(ou aproximadamente normal) e se as variâncias populacionais são iguais ou não. 
Para verificar a normalidade da 
população podem utilizar-se os 
testes de Kolmogorov-Smirnov e de 
Shapiro-Wilk. Quando se viola a 
normalidade usam-se 
 em alternativa aos testes 
 não paramétricos. 
Como o nível de significância (sig. ) para ambos os sexos é superior ao nível de significância dado 
no enunciado, então está garantida a normalidade da população. 
16 
 
Para verificar se existe homogeneidade das variâncias efectua-se o teste de Levene para a 
igualdade de variâncias. Este é o output do SPSS: 
 
 Como p-value (Sig. Do teste de Leneve) é de 0,858 e o nível de significância é de 0,05 concluímos que 
não se rejeita a hipótese nula de homogeneidade de variâncias. Assim, ignora-se a última linha da tabela 
já que as variâncias foram assumidas como homogéneas. 
É de salientar que o tamanho das duas amostras é diferente (15 e 22). 
Como o p-value (Sig. (2-tailed);0.920) é superior ao nível de significância imposto no enunciado, 
então são se rejeita a Hipótese Nula. 
Deste modo, consideramos que as médias podem ser são iguais nos dois grupos comparados, logo 
pode não existir a diferença entre a média do VEM dos rapazes e a média do VEM das raparigas. 
 12. ANOVA: 
Quando queremos comparar as médias de mais do que duas amostras, utilizamos um teste 
semelhante ao teste t, que é o ANOVA. As condições de aplicabilidade são: 
- a população segue uma distribuição normal (ou se n>30, dado que, a distribuição T de 
Student para populações grandes se assemelha à Normal) 
- existir homogeneidade das variâncias. (condição verificada no output do SPSS pelo teste 
de 
Levene) 
 
A nossa hipótese nula terá que representar mais do que uma igualdade: será H0 : μ1= μ2= μ3= μ4 
= μ…. e a nossa hipótese alternativa, H1 será: “Pelo menos um dos valores é diferente”. 
EXEMPLO 7: 
Voltemos ao caso apresentado no exemplo 6.Foram registados os VEM de 100 crianças e a sua 
idade. A hipótese nula será que a média do VEM das crianças com 11 anos é igual à das de 12, que é igual 
à das de 13 e à das de 14. A hipótese nula é que pelo menos um dos valores é diferente. 
Recorrendo ao SPSS, os dados foram organizados e foi realizado o teste ANOVA. O outcome foi o 
seguinte: 
17 
 
 
 
É importante, na segunda tabela o último valor, “Sig.”, que corresponde ao p-value para o teste de 
Levene. 
Como p-value é de 0,105 e α é de 0,05 (valor de significância arbitrariamente escolhido), concluímos 
que não se rejeita a hipótese nula de homogeneidade de variâncias, pelo que se pode utilizar a ANOVA. 
 
Na terceira tabela retiramos também o p-value (“Sig.”), que é de 0,000 (atenção: este valor vem 
arredondado, pelo que na realidade pode ser de 0,00001 ou 0,0000001…). Como p-value é de 0,00 e α é 
de 0,05, p-value é menor do que α, pelo que se rejeita a hipótese nula. No contexto, significa que existem 
variâncias significativas nas médias do VEM ente as crianças de 11,12,13 e 14 anos (que foram organizadas 
em grupos pela sua idade). 
No entanto, não sabemos se existe diferença entre o primeiro e segundo, entre o primeiro e o 
terceiro…, ou seja, não sabemos entre que grupos se verifica essa diferença. Por norma, podemos assumir 
que entre os dois grupos mais extremos existirá diferença, mas isto pode não ser verdade. Para sabermos 
exactamente entre que grupos existem diferenças significativas, utilizamos um teste Post-Hoc – teste de 
comparações múltiplas (semelhante a fazer vários testes t para cada par de amostras em análise) - e, de 
18 
 
seguida, corrigimos o erro associado aos testes múltiplos, fazendo, para isso, a Correção de Bonferroni. 
Obteremos então um output do SPSS semelhante a este: 
 
Com este teste podemos ver exactamente entre que grupos há diferenças. Caso haja p-values 
menores que α, rejeitamos H0 para esses casos. É o caso dos grupos 11 e 13, e 11 e 14. Significa então 
que as crianças de 11 e 13 possuem médias significativamente diferentes de VEM, tal como as de 11 
e 14. Já nas restantes não rejeitamos a hipótese nula, ou seja, estas possuem médias de VEM 
semelhantes. 
13. REGRESSÃO LINEAR 
y = ax + b 
Para determinar a equação da recta, utiliza-se o 
MÉTODO DOS MÍNIMOS QUADRADOS, isto é, minimiza-se 
a soma dos quadrados dos resíduos. 
R: coeficiente de correlação de pearson (varia 
entre -1 e 1, não dá nenhuma informação sobre o declive, 
apenas se é positivo ou negativo) 
R^2 -> coeficiente de determinação 
IMPORTANTE: só podemos utilizar a equação da recta de regressão para os intervalos de variação de X. 
Além isso, é sempre necessário observar o gráfico de dispersão para verificar se poderá ser avaliada 
a correlação linear ou se deveremos avaliar outro tipo de correlação mais adequado (mesmo que o 
coeficiente de correlação linear seja forte, pode não significar que a correlação é linear). 
19 
 
14. TESTES NÃO PARAMÉTRICOS 
São testes baseados na ordem dos valores observados (dados ordenados) e não nos valores 
efectivamente medidos. 
A hipótese nula refere-se à distribuição dos valores na população e à mediana. 
CONDIÇÕES DE APLICABILIDADE: 
• Os grupos são independentes, 
• Os itens de cada grupo são selecionados aleatoriamente, 
• As observações devem ser frequências ou contagens 
14.1 QUI-QUADRADO: 
A distribuição qui-quadrado é uma distribuição que pode ser derivada a partir da distribuição 
normal. 
O qui-quadrado de 𝛼 (com k graus de liberdade) representa-se por 𝒳𝑘2(𝛼). 
O teste do qui-quadrado é um teste de hipóteses unilateral direito (sempre) em que se joga com 
as frequências esperadas e com as frequências observadas (absolutas) - testa se as frequências observada 
são muito diferentes das frequências esperadas. 
 
Sendo 𝑂𝑖 a frequência observado para o grupo 𝑖, 𝐸𝑖 corresponde à frequência esperada para o 
grupo 𝑖 e 𝑘 o número de grupos para os quais temos frequências relativas e observadas. 
As frequências observadas são obtidas diretamente dos dados das amostras, enquanto que as 
frequências esperadas são calculadas a partir destas. 
𝒳2terá k − 1 − p graus de liberdade, sendo p o número de parâmetros estimados da amostra. 
Como em todos os testes estatísticos existe a necessidade de testar hipóteses: 
- Hipótese nula: As frequências observadas não são diferentes das frequências esperadas. 
- Hipótese alternativa: As frequências observadas são diferentes da frequência esperadas 
É necessário obter duas estatísticas denominadas 𝑋2 (calculado) e 𝒳2 (tabelado). 
O 𝑋2 é obtido a partir dos dados experimentais, levando-se em consideração os valores 
observados e os esperados, tendo em vista a hipótese. 
Já o 𝒳2 depende do número de graus de liberdade e do nível de significância adotado. 
Para deliberar sobre a veracidade da hipótese nula compara-se 𝒳2 e 𝑋2. 
20 
 
• Se 𝑋2 > ou = 𝒳2: Rejeita-se a Ho. 
• Se 𝑋2 < 𝒳2 : Não se rejeita a Ho. 
EXEMPLO 8: 
Se um dado não viciado for jogado 6 vezes, espera-se obter 1 vez cada face (1, 2, 3, 4, 5 e 6) já que a 
probabilidade de cair qualquer face é 1/6.Supondo que um dado foi lançado 186 vezes e que se obteve: 
Face 1 : 34 
Face 2 : 29 Face 
3 : 30 
Face 4 : 32 
Face 5 : 28 
Face 6: 33 
O dado segue a distribuição de probabilidades referida? Está viciado? 
A hipótese nula é que o dado não está viciado. 
As frequências esperadas em cada classe são: 
E(face 1) = E(face 2) = E(face 3) = E(face 4) = E(face 5) = E(face 6) = p .N = 1/6 * 186 = 31 
 
= 0,903 
O número de graus de liberdade, 
neste caso, é igual a k-1-p, como há há 6 
classes e p=0, existem 5 graus de liberdade. 
Verificando-se a tabela de 𝒳2 
(distribuída no exame) na linha em os graus 
de liberdade são 5 e para um grau de 
confiança de 95%, encontra-se 𝒳2 igual a 
11.1. 
21 
 
Como o valor de Qui Quadrado calculado (𝑋2: 0,903) foi menor que o esperado (𝒳2: 11,070) não 
se rejeita a Hipótese Nula. 
• 14.1.1. Teste de independência do qui-quadrado 
Testa a independência das variáveis de classificação na população, isto é, se estabelecermos 
critérios de classificação da população, se estes são independentes ou não. 
As condições de aplicabilidade do teste são; 
1. As observações devem ser independentes; 
2. Os itens de cada grupo são seleccionados aleatoriamente; 
3. As observações são frequências ou contagens; 
4. Cada observação pertence a uma e uma só categoria; 
5. Nenhuma frequência esperada pode ser inferior a 1; 
6. Não se aplica se 20% das observações ou valores esperados forem inferiores a 5; 
Vamos supor que temos uma amostra com n elementos e a classificamos de acordo com dois 
critérios: critério A e critério B. 
O critério A divide a população nas categorias 1 até l e o critério B divide a população em 
categorias de 1 até c. De seguida, deve-se elaborar uma tabela – tabela de contingência, em que estão 
distribuídos o número de elementos que pertencem simultaneamente mesma categoria. 
A hipótese nula é a de que os critérios de classificação são independentes. Para decidir se 
rejeitamos ou não a hipótese nula temos de calcular as frequências esperadas, isto é, as frequências que 
deveríamos estar a observar se os critérios de classificação fossem independentes. 
Vamos utilizar as frequências marginais, que são 
os totais assinalados na tabela ao lado. A frequência 
marginal para uma coluna é o número de indivíduos que 
foram colocados nessa coluna pelo critério B e a 
frequência marginal de uma linha é o número de 
indivíduos que o critério A colocou nessa linha. A 
frequência marginal da linha i é representada por O.ie a 
frequência marginal da coluna j é representada por O j. 
A probabilidade de um elemento estar na linha i e na coluna j (𝑃𝑖,𝑗) é a probabilidade de estar na 
linha i vezes a probabilidade de estar na coluna j. 
A probabilidade de um elemento estar na linha i é igual ao número de linhas (𝑛𝑙) sobre o número 
de elementos(N). 
A probabilidade de um elemento estar na coluna j é igual ao número de colunas (𝑛𝑐) sobre o 
número de elementos(N). 
22 
 
 
Então espera-se que a frequência absoluta da célula que pertence à linha i e à coluna j, ou seja, 
que tenham a característica i para o critério A e a característica j para o critério B seja igual ao produto 
entre a probabilidade de pertencer à coluna j e à linha i e o número de elementos da amostra: 
 
Deve-se, então, calcular o valor esperado para cada célula. Depois, basta aplicar a fórmula já que 
conhecemos o valor esperado e o valor observado para cada célula. 
 
Falta apenas conhecer qual é o número de graus de liberdade, para uma tabela com l linhas e c 
colunas, o número de graus de liberdade é (l−1)(c−1). Após isso, ver na tabela da distribuição do qui-
quadrado qual o valor de 𝒳2 com o grau de confiança calculado e o nível de confiança. 
E compara-se 𝒳2 e 𝑋2 para chegar a uma decisão sobre a rejeição ou não da Hipótese Nula. 
Este teste pode ser também feito com o auxílio do SPSS: 
EXEMPLO 9: 
Foi perguntado a um conjunto de estudante 
do ensino superior, do secundário e do básico sobre 
em que espaços se deveria restringir o fumo de 
tabaco. Foram registado as suas opiniões na tabela 
ao lado. Teste se o nível de estudo frequentado é 
independente da opinião do estudante. Considere 
um nível de significância de 0.05. 
Definimos então que: 
• H0: O grau de ensino obtido e a opinião sobre restrições ao fumo são independentes 
• H1: O grau de ensino obtido e a opinião sobre restrições ao fumo não são independentes 
Após inserir os dados no SPSS foi pedido o teste do qui-quadrado com o seguinte outcome: 
 
23 
 
Rejeitamos a hipótese nula de independência entre o grau de ensino alcançado e a opinião sobre 
restrições ao fumo a um nível de significância α =0,05, porque o p-value é de 0.008 (p-value< α). 
 
 Quando rejeitamos a hipótese nula não significa que uma variável dependa da outra, apenas 
que há uma associação entre elas. 
 
 14.1.2. Teste de homogeneidade do qui-quadrado 
Este teste é semelhante ao teste de independência do qui-quadrado e segue a mesma lógica de 
teste de hipóteses. No entanto a hipótese nula colocada difere: 
H0: As populações são homogéneas em relação à … 
H1: As populações não são homogéneas em relação à… 
EXEMPLO 10: 
Num ensaio de investigação clínica a uma nova vacina 
foram registados o número de pessoas que contraíram uma 
infecção e as que não contraíram, bem como que vacina 
tomaram (vacina A, B ou placebo). Foram estes os resultados 
registados. Teste se existe homogeneidade na distribuição da 
população. Considere o nível de significância de 0.05. 
 
Definimos que: 
H0: As três populações são homogéneas em relação à frequência de infecção 
H1: As três populações não são homogéneas em relação à frequência de infecção 
Inserindo os dados no SPSS e pedido o teste qui-quadrado temos que: 
 
24 
 
 Como o p-value é superior ao nível de significância, α, escolhido (0.05), então não se rejeita a hipótese 
nula de homogeneidade das frequências nos três grupos de tratamento. 
 
NOTA: Reparem que, no teste de independência, a amostra é classificada em duas variáveis, 
enquanto que no teste de homogeneidade, várias amostras são classificadas por uma variável. Esta é a 
principal característica diferenciador que permite escolher o teste mais acertado. 
 
• 14.1.4. Teste de Fisher: 
É um teste também de homogeneidade com tabelas de contingência 2x2 com frequências 
esperadas baixas. 
 
• 14.1.4. Teste de ajustamento do qui-quadrado 
Este teste é também semelhante ao da independência, mas responde a uma outra pergunta: 
– A distribuição de frequências observada é compatível com uma distribuição proposta? 
EXEMPLO 11: 
Num conjunto de pessoas foi registado a sua cor de cabelo e os seus dados organizados em 3 
categorias- Fenótipo A, B e C. 
 
Teste se existe uma distribuição de 1:2:1 na população, para um Fenótipo A, B e C, 
respectivamente. Considere o nível de significância de 0.05. 
Define-se então que: 
H0: A característica de interesse tem uma distribuição relativa 1:2:1 na população 
H1: A característica de interesse não tem uma distribuição relativa 1:2:1 na população 
 
Inserindo os dados no SPSS e pedido o teste 
qui-quadrado temos que: 
Como o p-value (Asymp. Sig.;0.01) é inferior 
ao nível de significância, α, então rejeita-se a 
hipótese nula.