Bioestatística - Freak Out

•

NOVA

Mónica Rodrigues

19/05/2019

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatisticas

3.872 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Faculdade de Medicina de Lisboa
Módulo III.II. - Bioestatística
Leonor Caixeiro
2

De vez em quando surgem pessoas malucas que dizem sim quando são desafiadas a fazer uma
sebenta. Aparentemente sou uma delas. Sorte a minha, não estou sozinha. Daí o nome deste protótipo
de sebenta: Freak Out. Freak out, com aqueles que estão lá sempre para nos ajudar, Gabriela, Tiques, Bia,
Pedro, Carla, Alexa, Kika, Catarina, Mafs, obrigado 
“Sometimes you will laugh because there’s nothing else to do. Sometimes
you will cry because there’s nothing else to do.”
Deixei de lado os formalismos estatísticos e tentei simplificar os conceitos, mesmo que muitas
destas simplificações fizessem arrepiar alguns estatísticos. Atenção que é na sua essência apenas um
“guia” de resolução de exercícios. Pensem nesta sebenta como uma tábua de salvação para a noite antes
do exame e não como o guia completo e integral de bioestatística.
Um grande obrigado ao David Gomes e à Carolina Alves que ajudaram à construção dessa sebenta
e sobretudo, ao Vaz, pelo desafio.

Qualquer erro, sugestão ou momento de Freak Out, por favor contactar:
leonor.caixeiro@campus.ul.pt.

Leonor Caixeiro

Introdução à Estatística

ESTATÍSTICA: ciência que recolhe, organiza, sumariza e analisa dados (Estatística Descritiva / Analise
Exploratória de Dados) para depois inferir sobre a totalidade de um conjunto de dados partindo apenas
de parte destes (Inferência Estatística/Indutiva).
População: conjunto de elementos que se pretende estudar (finito ou
infinito)
Amostra: conjunto de elementos que são observados (finito)
1. VARIÁVEL: característica que pode tomar diferentes valores para os vários elementos
estudados
1.1 Quantitativa: pode ser quantificada
• Discreta: o conjunto de resultados é finito ou numerável ({1,2,3…})
• Contínua: pode tomar qualquer valor
1.2 Qualitativa: não pode ser quantificada (tem de ser categorizada), mas podem ser contados
os elementos de cada categoria
• Nominal: não pode ser hierarquizada (“Sim”/”Não”)
• Ordinal: podem ser colocados por ordem (“Mau”/”Bom”/”Muito bom”)

2.
- Média: é o valor que aponta onde mais se concentram os dados de uma distribuição. Calculase:

- Mediana: valor numérico que separa a metade superior da metade inferior de dados
organizados hierarquicamente.
Se n é ímpar, a mediana é igual ao dado que ocupa a posição , sendo n o número de
elementos da distribuição. Se n é par, a mediana é igual ao dado que ocupa a posição
1
- Moda: valor mais registado numa distribuição
- Quantis: pontos em intervalos regulares que determinam subconjuntos. São exemplos de
quantis, os quartis. Os quantis podem ser percentis. O percentil é definido como o p-ésimo
percentil de n valores ordenados correspondente ao valor que ocupa a posição ,
arredondada para o inteiro mais próximo.

2.2 DE DISPERSÃO:
 Amplitude Interquartil: diferença entre o valor de 2 quartis 𝐼𝑄𝑅 = 𝑄3 − 𝑄1
 Amplitude: diferença entre o maior valor da amostra e o menor 𝑅 = 𝑥𝐿 − 𝑥𝑠
 Assimetria: se o gráfico de uma distribuição é assimétrico, a distribuição diz-se assimétrica –
se for assimétrica para a direita tem uma assimetria positiva, se o seu gráfico se estender mais
para a esquerda é assimétrica para a esquerda, tendo assimetria negativa.
Em baixo e à esquerda, temos um gráfico com assimetria negativa e à direita um gráfico
com
4

assimetria positiva.

Um histograma dá informação sobre assimetria do box plot,enquanto queo Box plot não dá
informação sobre assimetria do gráfico

 Variância (𝜎2) e Desvio Padrão(𝜎): mostra o quanto de variação ou "dispersão" existe em relação
à média. Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um
desvio padrão alto indica que os dados estão espalhados por uma gama de valores.
e 𝜎2 = 𝑠.
 Coeficiente de Variação: expressa o desvio padrão em relação à média:
 Curtose: medida de comparação do quão picada é uma curva em comparação com a da
distribuição normal

3 SÍMBOLOS ESTATÍSTICOS:
AMOSTRA POPULAÇÃO
Estatísticas Parâmetros
Coeficientes empíricos ou amostrais Coeficientes Populacionais
Média (𝑥 ) Valor Médio (𝜇)
Variância (𝑠2) Variância (𝜎2)
Desvio Padrão (𝑠) Desvio Padrão (𝜎)
Quantil de Ordem p (𝐶𝑝) Quantil de Ordem p (𝜒𝑝)
1º Quartil (𝑄1) 1ºQuartil (𝜒0.25)
Frequência Probabilidade

Análise Estatística

4. DISTRIBUIÇÃO NORMAL:
É uma distribuição de variável aleatória contínua cujo gráfico tem forma de sino e é simétrico,
sendo que a média é igual à mediana e à moda. Nesta distribuição a área entre dois pontos debaixo do
gráfico representa uma probabilidade.
Está associada a um par de valores, um valor médio e um desvio padrão. Sendo que podemos
definir uma variável X que segue uma distribuição normal com valor médio de 𝜇 e desvio padrão de 𝜎
assim: 𝑋 ~ 𝑁(𝜇, 𝜎).
Como a distribuição normal é uma distribuição contínua, a
probabilidade de 𝑎 é nula, isto é 𝑃(𝑋 = 𝑎) = 0. Quando utilizamos
uma distribuição normal, geralmente referimo-nos
a uma probabilidade entre dois pontos, isto é, 𝑃(𝑎 < 𝑋 < 𝑏)
(que é igual a de 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏)). Esta probabilidade corresponde à
área debaixo do gráfico compreendida entre os ponto a e b,
representada na figura ao lado.
A área debaixo de toda a curva é igual a 1 e quanto maior é o 𝜎, mais achatado é o gráfico e mais
os valores estão afastados da média
É necessário conhecer a área entre dois pontos da curva, pois vai ser usada nas várias distribuições
que falaremos em seguida. O cálculo desta área é moroso (através de umas coisas muito giras chamadas
de integrais), sendo necessário, por isso o uso de tabelas que nos dão a área diretamente. No entanto,
não existem tabelas para cada par de valores médio e desvio padrão. Temos, assim, a necessidade de
padronizar a distribuição.
5. DISTRIBUIÇÃO NORMAL PADRÃO/STANDARD:
Distribuição normal com desvio padrão 1 e valor médio de 0.
É possível estandardizar uma distribuição normal através da seguinte fórmula
,
em que 𝜇 𝑒 𝜎 ~sãoé o valor médio e o desvio padrão, respectivamente, da distribuição que queremos
padronizar.
Imaginando que temos uma distribuição de variável X, com desvio padrão 𝜎 e média 𝜇 e queremos
determinar 𝑃(𝑎 < 𝑋 < 𝑏). Substituímos na fórmula o valor médio e o desvio padrão pelos
valores da distribuição quer queremos estandardizar, ficando com dois valores de Z, tal que:

De tal forma que, a probabilidade que queríamos encontrar no inicio, 𝑃(𝑎 < 𝑋 < 𝑏), é igual à 𝑃(𝑍𝑎 <
𝑍 < 𝑍𝑏). Esta última probabilidade pode ser encontrada através das tabelas de distribuição normal padrão
(que são distribuídas no exame).
Essas tabelas dão normalmente a área desde -∞ até a. Assim, a tabela dá-nos o valor de P(−∞<X<a)
directamente.
Se queremos calcular P(a<X<∞), basta fazer 1- P(−∞<X<a) .
Para calcularmos P(a<X <b) vamos ver à tabela os valores de P(−∞<X <a) e P(−∞<X<b) e fazemos:
P(a<X<b) = P(−∞<X<b) − P(−∞<X<a). Em caso de dúvidas, é aconselhado desenhar uma curva de
distribuição normal, marcar os pontos a e b e sombrear as áreas que queremos determinar.
EXEMPLO 1:
Sabe-se que para uma determinada população o IMC apresenta uma distribuição normal, com valor
médio 28,1 kg/m2 e desvio padrão 4,3 kg/m2. Numa amostra de 200 indivíduos,qual o número esperado
de pessoas com IMC dentro dos valores normais, isto é, entre 18,6 e 24,9 kg/m2? Temos então que
𝜇 = 28.1 𝜎 = 4.3 𝑛 = 200
E queremos saber P(18.6<X<24.9), e para isso temos de tornar X numa distribuição normal:

Então P(18.6<X<24.9) = P(-2.21<Z<-0.74)

Recorrendo à tabela de distribuição normal
padrão, determinamos: P(-2.21<Z<-0.74)
P(-2.21<Z<-0.74) =
0.9864-0.7704
A probabilidade é de 0.216.
O número esperado de pessoas é 0.216*200, o
que corresponde a 44 pessoas.

6. TEOREMA DO LIMITE CENTRAL
Quando estamos na presença de uma distribuição sobre a qual sabemos o valor médio e o desvio
padrão, mas não temos informação sobre a sua normalidade, podemos considerar a distribuição amostral
da sua média aproximadamente normal quando a amostra é grande (geralmente, para n > 30). No
entanto, é necessário “corrigir” apenas o valor do desvio padrão previamente conhecido. Então a nossa
distribuição tomará valor médio de 𝜇, conhecido, e o desvio padrão, com “correcção”, ficando como .
Temos, então,
EXEMPLO 2:
A tensão arterial (sistólica) numa população de homens saudáveis tem uma distribuição com 𝜇=120
mmHg e 𝜎 =14 mmHg. Qual a probabilidade de uma amostra aleatória de 49 homens desta população
apresentar uma média de TA superior ou igual a 124 mmHg?
O valor médio da população é desconhecida, mas pelo Teorema do Limite Central podemos afirmar
que a distribuição da média da amostra segue uma distribuição aproximadamente normal uma vez o
número de elementos da amostra é superior a 30, tal que,

Queremos saber: P(X ≥ 124)
Temos então de transformar a distribuição X em Z para estandardizar:

Temos então que P(X ≥ 124) =
P(Z≥2).
Consultando a tabela
de distribuição normal padrão,
temos então que:
P(Z ≥ 2) = 1-0.9772 = 0.0228
A probabilidade é de 0.0228

7. DISTRIBUIÇÃO DA AMOSTRAGEM DE UMA PROPORÇÃO
Uma proporção representa a razão entre o número de elementos que têm uma certa propriedade e
a totalidade da amostra ou população. Numa amostra a proporção representa-se por 𝑝 e numa população
por 𝑝. O desvio padrão irá corresponder a .Este teste só pode ser utilizada quando 𝑛 ∙ 𝑝 𝑒 𝑛 ∙ (1 −
𝑝) são superiores a 5.
Teremos então,
EXEMPLO 3:
Estudos históricos indicam que deixar de fumar é difícil e a probabilidade de um relapso é 𝑑𝑒 0,38.
Num estudo de uma nova intervenção, numa amostra de 100 indivíduos, 27 voltaram a fumar.
Qual é a probabilidade de observarmos os 27 casos ou menos na amostra se a nova intervenção tiver
uma probabilidade de relapso igual ao histórico de 0,38?
𝑝 = 0.38 𝑝 = 0.27 𝑛 = 100
𝑛 ∗ 𝑝 𝑒 𝑛 ∗ (1 − 𝑝) => 100 ∗ 0.38 𝑒 100 ∗ (1 − 0.38), são superiores a 5, logo podemos utilizar a
distribuição da amostragem de uma proporção

Transformar para distribuição standard:

P(Z<-2.25)=P(Z>2.25)=1-P(Z<2.25)=1-
0.9878=0.0122
A probabilidade é de 0.0122

8. DISTRIBUIÇÃO T DE STUDENT
É utilizado quando a variância ou desvio padrão da população é desconhecida e o número de
elementos da amostra é reduzido (inferior a 30).
O gráfico da distribuição é simétrico, campaniforme e semelhante à curva normal padrão, mas com
caudas mais largas, ou seja, uma simulação da t de Student pode gerar valores mais extremos do que uma
simulação da normal. O único parâmetro que a define e caracteriza a sua forma é o número de graus de
liberdade. Quanto maior for esse parâmetro, mais próxima da normal ela será. O número de graus de
liberdade (df) é igual a n-1 (recordo que n é o número de elementos da amostra).

9. TESTE DE HIPÓTESES
Vamos agora deixar as várias distribuições de lado para falar dos testes de hipóteses.
Uma hipótese nula, 𝐻0, é uma afirmação que é apresentada sobre determinados factos estatísticos e
cuja fiabilidade se tenta provar através de um adequado teste de hipóteses. Normalmente, afirma-se que
dois fenómenos não estão relacionados.
Na maioria dos casos, para além de uma Hipótese Nula, estabelece-se também uma Hipótese
Alternativa, 𝐻1, contraditória à primeira.
Para testar a veracidade das hipóteses, utiliza-se um Teste de Hipóteses que é um método de
inferência estatística em que se tenta rejeitar uma Hipótese Nula de modo a elaborar uma conclusão sobre
os dados recolhidos.
Tomemos o exemplo de um gerente de uma fábrica de peças metálicas que está a estudar a
possibilidade de comprar uma máquina que produza 𝜇 peças por hora. No entanto, só comprará a nova
máquina se esta produzir mais peças do que a velha, que produz 𝜇𝑜peças por hora.
A hipótese nula será que a máquina velha produz igual número de peças que a máquina nova, tal que
𝐻𝑜: 𝜇 = 𝜇𝑜. Como hipótese alternativa, a que virá mais ao encontro do esperado será que a máquina nova
produz mais peças que a máquina velha, tal que 𝐻1: 𝜇 > 𝜇𝑜. No entanto, podemos utilizar 3 Hipóteses
alternativas.

Quando realizamos um teste de hipóteses, temos 4 possibilidades diferentes:

A probabilidade de cometer um erro tipo I representa-se por 𝛼, que corresponde ao valor do nível de
significância (que é determinado pelo estatístico que elabora os testes). Normalmente, o valor de 𝛼 é de
0.05 (5%). O nível de confiança será igual a 1 − 𝛼.
Quanto menor o valor de 𝛼, mais significante é o testes estatístico, mas mais susceptível é de se
cometer um erro tipo II, isto é, aumenta a probabilidade de 𝛽. A potência do teste será igual a 1 − 𝛽.
• 1) Não se rejeita Ho - Correcto
• 2) Rejeita - se Ho - Erro tipo I Ho verdadeiro
• 3) Rejeita - se Ho - Correcto
• 4) Não se rejeita Ho - Erro tipo II Ho Falso
10

A nossa hipótese é rejeitada, ou não, com base no gráfico de uma
distribuição normal: o conjunto de valores assumidos pela estatística de
teste para os quais a hipótese nula é rejeitada denomina-se região de
rejeição 𝑅𝑐. Na figura ao lado temos um exemplo da área da região de
rejeição.
A área de rejeição toma o valor de 𝛼 e a área de aceitação 1 − 𝛼.
Em
cima,
foram apresentadas 3 possibilidades de hipóteses alternativas no
exemplo do gestor da fábrica de peças metálicas e que são
representativas a maioria das hipóteses colocadas.
(1) Representa um teste bilateral já que apenas se afirma que 𝜇
≠ 𝜇 , tendo assim uma área de rejeição para ambos os lados
(representado na figura…)
(2) Representa um teste unilateral à esquerda, em que 𝜇 > 𝜇𝑜
(3) Representa um teste unilateral à direita, em que 𝜇 < 𝜇𝑜
.
−𝑍𝛼 e 𝑍𝛼, nas duas últimas figuras (2) e (3), são tais que as áreas à esquerda e à direita,
respectivamente, sob a curva Normal padrão, valem 𝛼 (Nível de significância, probabilidade de cometer
um erro tipo I) e delimitam a área que corresponde à Zona de Rejeição.
Já na primeira figura (1), os valores , também delimitam duas áreas de rejeição parciais,
𝛼
são tais que as áreas à esquerda e à direita, respectivamente, sob a curva Normal padrão, vale .
2
Como foi dito inicialmente, o objetivo do teste de hipótese é determinar, através de uma
estatística, se a hipótese nula pode é rejeitável ou não. Essa decisão é tomada considerando a região de
rejeição ou região crítica (𝑅𝑐). Caso o valor observado da estatística pertença à região de rejeição,
rejeitamos 𝐻0; caso contrário, não rejeitamos 𝐻0.
Podemos, para cada nível de significância, estabelecer valores críticos de
rejeição consultando a Tabela de Distribuição Normal Padrão. Sendo𝛼 o nível de
significância, queremos saber a partir de que valor de Z podemos rejeitar a hipótese
nula.
Se o nível de significância é 0.05, os valores críticos são -1.645 ou 1.645 para as alternativas
unilaterais e -1.96 e 1.96 para a alternativa bilateral.
𝑜
11

Explicando melhor para o caso unilateral:
Ou seja, a probabilidade de a nossa hipótese nula se encontrar na área de rejeição corresponde a
0.05. Então a área restante será de 0.95. Queremos então encontrar o valor a partir do qual a área de
rejeição é de 0.05. Temos então de procurar na tabela o valor 0.95, que corresponde a um Z de 1.645 (ou-
1.645).
Para o caso bilateral o raciocínio é o mesmo, mas a área de aceitação é de 0.975.
Já se o nível de significância é 0.01, os valores críticos são -2.33 ou 2.33 para as alternativas
unilaterais e -2.575 e 2.575 para a alternativa bilateral (valores obtidos na Tabela da distribuição normal).
A tabela a seguir apresenta alguns critérios para o teste de hipótese.

Hipótese Alternativa Rejeita H0 se Não se H0

EXEMPLO 4:
Um supervisor da qualidade quer testar, com base numa amostra aleatória de tamanho e para
um nível de significância se a profundidade média de um furo numa determinada peça é de
72.4 mm. O que podemos dizer se ele obteve mm e sabe, de informações anteriores, que

1. Primeiro vamos estabelecer as hipóteses:
, neste caso escolhemos uma distribuição BILATERAL
2. Como , temos que (ver em cima no texto o porquê de ser 1.96)
3. Critério: rejeitar em que

4. Substituindo na equação acima, obtemos

se ou se
, , ,
12

5. Conclusão: Como , a hipótese nula deve ser rejeitada. Em outras palavras, não
podemos assumir que a média populacional seja igual a 72.4 , isto é, a diferença entre 73.2 e 72.4 é
significativa.

10. INTERVALOS DE CONFIANÇA
Um intervalo de confiança é um intervalo estimado de um parâmetro de interesse de uma
população. Em vez de estimar o parâmetro por um único valor, é dado um intervalo de estimativas
prováveis. O quanto estas estimativas são prováveis será determinado pelo coeficiente de confiança
, para .
Os intervalos de confiança são usados para indicar a confiabilidade de uma estimativa. Por exemplo,
um IC pode ser usado para descrever o quanto os resultados de uma pesquisa são confiáveis. Sendo todas
as estimativas iguais, uma pesquisa que resulte num IC pequeno é mais confiável do que uma que resulte
num IC maior.
10.1 INTERVALO DE CONFIANÇA PARA A MÉDIA:
Consideremos que a probabilidade da variável tomar valores
entre . Os valores e são obtidos na tabela da
distribuição normal. Temos então que:

após algumas reduções temos então que:

Loho, o intervalo de confiança da média é dado por

Temos ainda 3 parâmetros muito importantes que avaliam um intervalo de confiança:
 MARGEM DE ERRO:
 LARGURA DO INTERVALO: margem de erro*2
 ERRO PADRÃO DA MÉDIA:
e é
13

Caso os dados não sigam uma distribuição normal, podemos aplicar o teorema central do limite e
construir um intervalo de confiança aproximado.
Interpretação: Podemos afirmar que, se pudermos repetir muitas vezes uma experiência e
recolhermos os dados, aproximadamente em das vezes a média populacional estará no
intervalo encontrado. No entanto, NUNCA podemos afirmar que dos indivíduos da
população estão inseridos dentro do IC !
EXEMPLO 5:
O administrador de uma indústria recolheu uma amostra de 36 funcionários para verificar o tempo
médio gasto para montar um determinado brinquedo. Lembrando que foi verificado que
, construa um intervalo de confiança de nível para ..
Como .
Rejeitamos em que
Para calcular o intervalo de confiança a 95%, efectuamos o seguinte:

e, portanto,

10.1. INTERVALO DE CONFIANÇA PARA PROPORÇÕES:
O raciocínio é o mesmo, apenas muda o desvio padrão, tal que:

11. TESTE T
O teste t é utilizado para comparar 2 médias de amostras diferentes ou de apenas 1. Atenção, vêm aí
uma data de fórmulas, mas todos estes dados podem ser recolhidos no SPSS. Em princípio apenas deverá
sair em exame para analisar outputs, mas sabe-se lá…
Existe vários tipos de testes t para comparação de duas médias para: I.
1 amostra:
Aplica-se sempre que se desconhece a variância populacional e se pretende testar se a média
da população assume um determinado valor, ou de outra forma, se uma dada amostra provém de
um universo com uma dada média - exemplo: Nível de satisfação dos estudantes é igual ao do resto
da população, cuja satisfação média é de 10 numa escala de 0 a 20.
e
, temos que
se ou se
14

Consiste em medir a probabilidade da média da amostra em questão ter apresentado o valor
observado ou algo mais extremo, dada a média da população .
Para fazer isso, estipulamos, por exemplo, que a hipótese nula é
e que, a hipótese . Usamos a seguinte fórmula para o cálculo da estatística
t:
, onde:
• : Média da amostra;
• : Valor fixo usado para comparação com a média da amostra;
: Desvio padrão amostral; : Tamanho da amostra.
Quanto maior , mais confiança temos ao rejeitar a hipótese nula, ou seja, mais certeza temos ao
afirmar que não é verdadeiro.
Quanto maior , maior será . Ou seja, quanto maior a distância dos valores observados ao
valor com que estamos a comparar, mais certeza teremos em afirmar que eles são diferentes. Do
mesmo modo, aumenta quando o tamanho da amostra é maior ou quando o desvio padrão é
menor.

II. 2 amostras:
- independentes: a comparação pode ser feita entre dois grupos de sujeitos na mesma variável (teste
t) ou num grupo de variáveis (testes simultâneos) - exemplo: O rendimento médio das mulheres é igual
ao rendimento médio dos homens.
- emparelhadas: Este teste t permite inferir sobre a igualdade de médias de duas amostras
emparelhadas. Frequentemente cada caso é analisado duas vezes, antes e depois de um tratamento ou
intervenção, formando pares de observações, cujas diferenças são testadas para ver se o resultado é ou
não zero.
Tamanhos iguais, variâncias iguais
Este teste só deve ser usado quando:
• o tamanho das amostras (n) dos dois grupos são iguais;
• podemos assumir que as duas distribuições possuem a mesma variância.
A estatística t é calculada conforme a fórmula:

,onde
alternativa é
15

A quantidade de graus de liberdade a ser usado nesse teste é .
Tamanhos diferentes, variâncias iguais
Este teste só deve ser usado quando podemos assumir que as duas distribuições
possuem a mesma variância.
A estatística t é calculada conforme a fórmula:

,onde

A quantidade de graus de liberdade a ser usado nesse teste é .
Quando se opera com mais de um teste t, a probabilidade de se encontrar uma diferença
significativa aumenta rapidamente com o número de variáveis analisadas em simultâneo. Pode-se então
efectuar a Correcção de Bonferroni, que consiste em multiplicar o número de testes feitos pelo nível de
confiança associado a cada uma deles. O resultado obtido é comparado com o nível de significância
escolhido.
EXEMPLO 6:
Foi registado num grupo de 100 pessoas, com rapazes e raparigas, o seu Volume Expiratório
Máximo (VEM). Foram inseridas no SPSS os dados refentes ao seu sexo e ao VEM, existerelação entre o
VEM e o sexo? Assuma que as amostras são independentes e um nível de significância de 0.05.
Em primeiro lugar, deve-se estabelecer uma hipótese nula e uma alternativa. Neste caso a
hipótese nula será que a VEM dos rapazes é igual à VEM das raparigas. A hipótese alternativa é que são
diferentes -> Bilateral.
O teste adequado para se verificar a veracidade desta hipótese é o teste T. No entanto precisamos
primeiro de verificar as condições de aplicabilidade deste teste: se a distribuição da população é normal
(ou aproximadamente normal) e se as variâncias populacionais são iguais ou não.
Para verificar a normalidade da
população podem utilizar-se os
testes de Kolmogorov-Smirnov e de
Shapiro-Wilk. Quando se viola a
normalidade usam-se
em alternativa aos testes
não paramétricos.
Como o nível de significância (sig. ) para ambos os sexos é superior ao nível de significância dado
no enunciado, então está garantida a normalidade da população.
16

Para verificar se existe homogeneidade das variâncias efectua-se o teste de Levene para a
igualdade de variâncias. Este é o output do SPSS:

Como p-value (Sig. Do teste de Leneve) é de 0,858 e o nível de significância é de 0,05 concluímos que
não se rejeita a hipótese nula de homogeneidade de variâncias. Assim, ignora-se a última linha da tabela
já que as variâncias foram assumidas como homogéneas.
É de salientar que o tamanho das duas amostras é diferente (15 e 22).
Como o p-value (Sig. (2-tailed);0.920) é superior ao nível de significância imposto no enunciado,
então são se rejeita a Hipótese Nula.
Deste modo, consideramos que as médias podem ser são iguais nos dois grupos comparados, logo
pode não existir a diferença entre a média do VEM dos rapazes e a média do VEM das raparigas.
12. ANOVA:
Quando queremos comparar as médias de mais do que duas amostras, utilizamos um teste
semelhante ao teste t, que é o ANOVA. As condições de aplicabilidade são:
- a população segue uma distribuição normal (ou se n>30, dado que, a distribuição T de
Student para populações grandes se assemelha à Normal)
- existir homogeneidade das variâncias. (condição verificada no output do SPSS pelo teste
de
Levene)

A nossa hipótese nula terá que representar mais do que uma igualdade: será H0 : μ1= μ2= μ3= μ4
= μ…. e a nossa hipótese alternativa, H1 será: “Pelo menos um dos valores é diferente”.
EXEMPLO 7:
Voltemos ao caso apresentado no exemplo 6.Foram registados os VEM de 100 crianças e a sua
idade. A hipótese nula será que a média do VEM das crianças com 11 anos é igual à das de 12, que é igual
à das de 13 e à das de 14. A hipótese nula é que pelo menos um dos valores é diferente.
Recorrendo ao SPSS, os dados foram organizados e foi realizado o teste ANOVA. O outcome foi o
seguinte:
17

É importante, na segunda tabela o último valor, “Sig.”, que corresponde ao p-value para o teste de
Levene.
Como p-value é de 0,105 e α é de 0,05 (valor de significância arbitrariamente escolhido), concluímos
que não se rejeita a hipótese nula de homogeneidade de variâncias, pelo que se pode utilizar a ANOVA.

Na terceira tabela retiramos também o p-value (“Sig.”), que é de 0,000 (atenção: este valor vem
arredondado, pelo que na realidade pode ser de 0,00001 ou 0,0000001…). Como p-value é de 0,00 e α é
de 0,05, p-value é menor do que α, pelo que se rejeita a hipótese nula. No contexto, significa que existem
variâncias significativas nas médias do VEM ente as crianças de 11,12,13 e 14 anos (que foram organizadas
em grupos pela sua idade).
No entanto, não sabemos se existe diferença entre o primeiro e segundo, entre o primeiro e o
terceiro…, ou seja, não sabemos entre que grupos se verifica essa diferença. Por norma, podemos assumir
que entre os dois grupos mais extremos existirá diferença, mas isto pode não ser verdade. Para sabermos
exactamente entre que grupos existem diferenças significativas, utilizamos um teste Post-Hoc – teste de
comparações múltiplas (semelhante a fazer vários testes t para cada par de amostras em análise) - e, de
18

seguida, corrigimos o erro associado aos testes múltiplos, fazendo, para isso, a Correção de Bonferroni.
Obteremos então um output do SPSS semelhante a este:

Com este teste podemos ver exactamente entre que grupos há diferenças. Caso haja p-values
menores que α, rejeitamos H0 para esses casos. É o caso dos grupos 11 e 13, e 11 e 14. Significa então
que as crianças de 11 e 13 possuem médias significativamente diferentes de VEM, tal como as de 11
e 14. Já nas restantes não rejeitamos a hipótese nula, ou seja, estas possuem médias de VEM
semelhantes.
13. REGRESSÃO LINEAR
y = ax + b
Para determinar a equação da recta, utiliza-se o
MÉTODO DOS MÍNIMOS QUADRADOS, isto é, minimiza-se
a soma dos quadrados dos resíduos.
R: coeficiente de correlação de pearson (varia
entre -1 e 1, não dá nenhuma informação sobre o declive,
apenas se é positivo ou negativo)
R^2 -> coeficiente de determinação
IMPORTANTE: só podemos utilizar a equação da recta de regressão para os intervalos de variação de X.
Além isso, é sempre necessário observar o gráfico de dispersão para verificar se poderá ser avaliada
a correlação linear ou se deveremos avaliar outro tipo de correlação mais adequado (mesmo que o
coeficiente de correlação linear seja forte, pode não significar que a correlação é linear).
19

14. TESTES NÃO PARAMÉTRICOS
São testes baseados na ordem dos valores observados (dados ordenados) e não nos valores
efectivamente medidos.
A hipótese nula refere-se à distribuição dos valores na população e à mediana.
CONDIÇÕES DE APLICABILIDADE:
• Os grupos são independentes,
• Os itens de cada grupo são selecionados aleatoriamente,
• As observações devem ser frequências ou contagens
14.1 QUI-QUADRADO:
A distribuição qui-quadrado é uma distribuição que pode ser derivada a partir da distribuição
normal.
O qui-quadrado de 𝛼 (com k graus de liberdade) representa-se por 𝒳𝑘2(𝛼).
O teste do qui-quadrado é um teste de hipóteses unilateral direito (sempre) em que se joga com
as frequências esperadas e com as frequências observadas (absolutas) - testa se as frequências observada
são muito diferentes das frequências esperadas.

Sendo 𝑂𝑖 a frequência observado para o grupo 𝑖, 𝐸𝑖 corresponde à frequência esperada para o
grupo 𝑖 e 𝑘 o número de grupos para os quais temos frequências relativas e observadas.
As frequências observadas são obtidas diretamente dos dados das amostras, enquanto que as
frequências esperadas são calculadas a partir destas.
𝒳2terá k − 1 − p graus de liberdade, sendo p o número de parâmetros estimados da amostra.
Como em todos os testes estatísticos existe a necessidade de testar hipóteses:
- Hipótese nula: As frequências observadas não são diferentes das frequências esperadas.
- Hipótese alternativa: As frequências observadas são diferentes da frequência esperadas
É necessário obter duas estatísticas denominadas 𝑋2 (calculado) e 𝒳2 (tabelado).
O 𝑋2 é obtido a partir dos dados experimentais, levando-se em consideração os valores
observados e os esperados, tendo em vista a hipótese.
Já o 𝒳2 depende do número de graus de liberdade e do nível de significância adotado.
Para deliberar sobre a veracidade da hipótese nula compara-se 𝒳2 e 𝑋2.
20

• Se 𝑋2 > ou = 𝒳2: Rejeita-se a Ho.
• Se 𝑋2 < 𝒳2 : Não se rejeita a Ho.
EXEMPLO 8:
Se um dado não viciado for jogado 6 vezes, espera-se obter 1 vez cada face (1, 2, 3, 4, 5 e 6) já que a
probabilidade de cair qualquer face é 1/6.Supondo que um dado foi lançado 186 vezes e que se obteve:
Face 1 : 34
Face 2 : 29 Face
3 : 30
Face 4 : 32
Face 5 : 28
Face 6: 33
O dado segue a distribuição de probabilidades referida? Está viciado?
A hipótese nula é que o dado não está viciado.
As frequências esperadas em cada classe são:
E(face 1) = E(face 2) = E(face 3) = E(face 4) = E(face 5) = E(face 6) = p .N = 1/6 * 186 = 31

= 0,903
O número de graus de liberdade,
neste caso, é igual a k-1-p, como há há 6
classes e p=0, existem 5 graus de liberdade.
Verificando-se a tabela de 𝒳2
(distribuída no exame) na linha em os graus
de liberdade são 5 e para um grau de
confiança de 95%, encontra-se 𝒳2 igual a
11.1.
21

Como o valor de Qui Quadrado calculado (𝑋2: 0,903) foi menor que o esperado (𝒳2: 11,070) não
se rejeita a Hipótese Nula.
• 14.1.1. Teste de independência do qui-quadrado
Testa a independência das variáveis de classificação na população, isto é, se estabelecermos
critérios de classificação da população, se estes são independentes ou não.
As condições de aplicabilidade do teste são;
1. As observações devem ser independentes;
2. Os itens de cada grupo são seleccionados aleatoriamente;
3. As observações são frequências ou contagens;
4. Cada observação pertence a uma e uma só categoria;
5. Nenhuma frequência esperada pode ser inferior a 1;
6. Não se aplica se 20% das observações ou valores esperados forem inferiores a 5;
Vamos supor que temos uma amostra com n elementos e a classificamos de acordo com dois
critérios: critério A e critério B.
O critério A divide a população nas categorias 1 até l e o critério B divide a população em
categorias de 1 até c. De seguida, deve-se elaborar uma tabela – tabela de contingência, em que estão
distribuídos o número de elementos que pertencem simultaneamente mesma categoria.
A hipótese nula é a de que os critérios de classificação são independentes. Para decidir se
rejeitamos ou não a hipótese nula temos de calcular as frequências esperadas, isto é, as frequências que
deveríamos estar a observar se os critérios de classificação fossem independentes.
Vamos utilizar as frequências marginais, que são
os totais assinalados na tabela ao lado. A frequência
marginal para uma coluna é o número de indivíduos que
foram colocados nessa coluna pelo critério B e a
frequência marginal de uma linha é o número de
indivíduos que o critério A colocou nessa linha. A
frequência marginal da linha i é representada por O.ie a
frequência marginal da coluna j é representada por O j.
A probabilidade de um elemento estar na linha i e na coluna j (𝑃𝑖,𝑗) é a probabilidade de estar na
linha i vezes a probabilidade de estar na coluna j.
A probabilidade de um elemento estar na linha i é igual ao número de linhas (𝑛𝑙) sobre o número
de elementos(N).
A probabilidade de um elemento estar na coluna j é igual ao número de colunas (𝑛𝑐) sobre o
número de elementos(N).
22

Então espera-se que a frequência absoluta da célula que pertence à linha i e à coluna j, ou seja,
que tenham a característica i para o critério A e a característica j para o critério B seja igual ao produto
entre a probabilidade de pertencer à coluna j e à linha i e o número de elementos da amostra:

Deve-se, então, calcular o valor esperado para cada célula. Depois, basta aplicar a fórmula já que
conhecemos o valor esperado e o valor observado para cada célula.

Falta apenas conhecer qual é o número de graus de liberdade, para uma tabela com l linhas e c
colunas, o número de graus de liberdade é (l−1)(c−1). Após isso, ver na tabela da distribuição do qui-
quadrado qual o valor de 𝒳2 com o grau de confiança calculado e o nível de confiança.
E compara-se 𝒳2 e 𝑋2 para chegar a uma decisão sobre a rejeição ou não da Hipótese Nula.
Este teste pode ser também feito com o auxílio do SPSS:
EXEMPLO 9:
Foi perguntado a um conjunto de estudante
do ensino superior, do secundário e do básico sobre
em que espaços se deveria restringir o fumo de
tabaco. Foram registado as suas opiniões na tabela
ao lado. Teste se o nível de estudo frequentado é
independente da opinião do estudante. Considere
um nível de significância de 0.05.
Definimos então que:
• H0: O grau de ensino obtido e a opinião sobre restrições ao fumo são independentes
• H1: O grau de ensino obtido e a opinião sobre restrições ao fumo não são independentes
Após inserir os dados no SPSS foi pedido o teste do qui-quadrado com o seguinte outcome:

Rejeitamos a hipótese nula de independência entre o grau de ensino alcançado e a opinião sobre
restrições ao fumo a um nível de significância α =0,05, porque o p-value é de 0.008 (p-value< α).

Quando rejeitamos a hipótese nula não significa que uma variável dependa da outra, apenas
que há uma associação entre elas.

 14.1.2. Teste de homogeneidade do qui-quadrado
Este teste é semelhante ao teste de independência do qui-quadrado e segue a mesma lógica de
teste de hipóteses. No entanto a hipótese nula colocada difere:
H0: As populações são homogéneas em relação à …
H1: As populações não são homogéneas em relação à…
EXEMPLO 10:
Num ensaio de investigação clínica a uma nova vacina
foram registados o número de pessoas que contraíram uma
infecção e as que não contraíram, bem como que vacina
tomaram (vacina A, B ou placebo). Foram estes os resultados
registados. Teste se existe homogeneidade na distribuição da
população. Considere o nível de significância de 0.05.

Definimos que:
H0: As três populações são homogéneas em relação à frequência de infecção
H1: As três populações não são homogéneas em relação à frequência de infecção
Inserindo os dados no SPSS e pedido o teste qui-quadrado temos que:

Como o p-value é superior ao nível de significância, α, escolhido (0.05), então não se rejeita a hipótese
nula de homogeneidade das frequências nos três grupos de tratamento.

NOTA: Reparem que, no teste de independência, a amostra é classificada em duas variáveis,
enquanto que no teste de homogeneidade, várias amostras são classificadas por uma variável. Esta é a
principal característica diferenciador que permite escolher o teste mais acertado.

• 14.1.4. Teste de Fisher:
É um teste também de homogeneidade com tabelas de contingência 2x2 com frequências
esperadas baixas.

• 14.1.4. Teste de ajustamento do qui-quadrado
Este teste é também semelhante ao da independência, mas responde a uma outra pergunta:
– A distribuição de frequências observada é compatível com uma distribuição proposta?
EXEMPLO 11:
Num conjunto de pessoas foi registado a sua cor de cabelo e os seus dados organizados em 3
categorias- Fenótipo A, B e C.

Teste se existe uma distribuição de 1:2:1 na população, para um Fenótipo A, B e C,
respectivamente. Considere o nível de significância de 0.05.
Define-se então que:
H0: A característica de interesse tem uma distribuição relativa 1:2:1 na população
H1: A característica de interesse não tem uma distribuição relativa 1:2:1 na população

Inserindo os dados no SPSS e pedido o teste
qui-quadrado temos que:
Como o p-value (Asymp. Sig.;0.01) é inferior
ao nível de significância, α, então rejeita-se a
hipótese nula.