Buscar

Introdução à Bioestatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

B I O E S T A T Í S C A
Introdução
Bioestatística, por definição, é a ciência responsável por coletar, organizar, analisar e interpretar dados visando a tomada da melhor decisão. Contudo, uma boa análise depende de uma boa coleta, que por sua vez depende de um planejamento. Sendo assim, para a realização de uma boa coleta é vital a definição da hipótese e, dentro dela, a divisão da população e da amostra.
↳ População: Conjunto que contém todos que serão analisados.
↳ Amostra: Uma parte da população, sendo proporcional a ela, a representando no estudo.
Classificação das variáveis
Uma variável é tudo aquilo que varia dentro de uma mesma população. Estas variáveis podem ser quantitativas e qualitativas.
↳ Quantitativas:Indicam quantidade.Esta variável é sempre numérica, contudo, nem todo número é quantitativo. Nesse contexto, ela pode se subdividir em dois tipos:
· Discreta: Quando faz parte dos números inteiros.
· Contínua: Quando faz parte dos números reais, podendo ter vírgula. Esta variável é utilizada para medição/contagem.
↳ Qualitativas: Também chamada de categórica, essa variável indica qualidade, ou seja, classificação. Nesse contexto, ela pode se subdividir em dois tipos:
· Ordinal:Estabelecem uma ordem entre as classificações.
· Nominal: Não estabelecem uma ordem entre as classificações.
Estudos descritivos
Por definição de Soares e Siqueira 2002, em um estudo descritivo o único objetivo é a pura descrição de um fato médico. Sua principal característica é a ausência de um grupo de comparação. Sendo assim, um estudo descritivo é considerado um estudo observacional, ou seja, não há qualquer influência do pesquisador na pesquisa, podendo se subdividir em: 
↳ Estudo de casos: Consiste na descrição, o mais detalhada possível, do diagnóstico e da evolução de um pequeno número de pacientes. Pode ser realizada por um ou mais pesquisadores de uma mesma área.
↳ Estudo de uma série de casos: São estudos clínicos que organizam os dados de diversos outros estudos, sobre o assunto em questão, para descrever os tratamentos e resultados obtidos.
↳ Estudos baseados em dados institucionais: São os estudos descritivos realizados com dados coletados por instituições públicas (Ministério da Saúde, IBGE, etc.).
Estudos de caso-controle
Por definição de Soares e Siqueira 2002,estudo caso-controle é uma forma de pesquisa que visa verificar se indivíduos, selecionados porque têm uma doença - os casos - diferem significativamente em relação a exposição a um dado fator de risco de um grupo de indivíduos comparáveis, mas que não possuem a doença - os controles. Nesse contexto, para a realização de um estudo de caso controle há quatro etapas:
· 1ª: Selecionar uma amostra da população de interesse e dividir os indivíduos entre doentes (os casos) e não doentes (os controles.
· 2ª: Realizar um levantamento da história clínica de todos os indivíduos selecionados.
· 3ª: Verificar se a exposição ao fator de risco é mais frequente nos casos do que nos controles.
· 4ª: Caso exista evidência estatística, concluir que existe associação entre o fator de risco e a doença.
Estudos de coorte Por definição de Soares e Siqueira 2002, estudo de coorte é uma forma de pesquisa que visa verificar se indivíduos, selecionados porque foram expostos ao fator de risco, desenvolvem a doença em questão, em maior ou menor proporção do que um grupo de indivíduos, comparáveis, mas não expostos ao fator de risco. Em comparação com um estudo caso-controle, um estudo de coorte avança no tempo e coloca ênfase no fator de risco. Nesse contexto, para a realização de um estudo coorte são necessárias três etapas:
· 1ª: Identificar um grupo exposto ao fator de risco e um grupo controle, com pessoas que não foram expostas. 
· 2ª: Acompanhar os dois grupos por um período de tempo e verificar as proporções de incidência da doença. 
· 3ª: Se as taxas de incidência da doença forem estatisticamente diferentes nos dois grupos, concluir que existe associação entre a doença e o fator de risco.
Ensaios clínicos aleatorizados
Por definição de Soares e Siqueira 2002,ensaio clínico aleatorizado é um experimento médico, realizado com o objetivo de verificar, entre dois ou mais tratamentos, qual é o mais efetivo.Sendo assim, eles são usados quando é incerto o valor de uma nova terapia ou os méritos da terapia existente estão em disputa. Ademais, em divergência com os demais estudos citados, neste caso o pesquisador interfere no estudo já que trata-se de um procedimento experimental.Nesse contexto,são necessárias 4 etapas para a realização de um ensaio clínico aleatorizado:
· 1ª: Definir um critério de admissão no estudo.
Exemplo, ser mulher em idade fértil.
· 2ª: À medida em que os pacientes entram no experimento, alocá-los de maneira aleatória ao grupo controle (terapia padrão) ou ao grupo tratamento (terapia a ser testada.
· 3ª: Oferecer os mesmos cuidados aos dois grupos, exceto pelo tipo de tratamento recebido.
· 4ª: Ao final do experimento, utilizar técnicas estatísticas para decidir se há diferença nas terapias utilizadas.
Síntese numérica de dados
Síntese numérica de dados é o nome dado à análise de dados realizada por meio de medidas chamadas estatísticas descritivas. Essas medidas são números que descrevem o conjunto de dados, sem realizar generalizações para a população, se subdividindo em medidas de tendência central (média,mediana e moda) e em medidas de dispersão (amplitude,variância, desvio padrão e coeficiente de variação).
↳ Média aritmética simples: A média aritmética simples de um conjunto de n observações (x1,x2,⋯,xn) é denotada por , sendo muito sensível à discrepância. Ela é calculada como a soma de todos os valores da variável, dividida pelo número de indivíduos, ou seja:
= , onde xi indica o valor da variável X para o indivíduo i.
Exemplo: Para descobrir a média de um perfil de dados de idade completa dos alunos
Aluno 1: 23, Aluno 2: 21, Aluno 3:21, Aluno 4: 19, Aluno 5: 70, Aluno 6: 20, Aluno 7: 21, Aluno 8: 23.
· Resolução
Variável em estudo: Idade.
Classificação: Quantitativa discreta.
= = 27,25 anos.
Interpretação matemática: A média dos alunos dessa turma é de 27, 25 anos.
Interpretação estatística: Depende do contexto.
↳ Mediana: Denotada por Md ou x~, mediana é o valor central de um conjunto de dados ordenados, ou seja, divide a distribuição ao meio (50% acima e 50% abaixo da mediana), sendo uma medida robusta.
Exemplo: Para descobrir a mediana de um perfil de dados de idade completa dos alunos.
Aluno 1: 23, Aluno 2: 21, Aluno 3:21, Aluno 4: 19, Aluno 5: 70, Aluno 6: 20, Aluno 7: 21, Aluno 8: 23.
· Resolução
1º: Ordenar o conjunto de dados
19 20 21 21 21 23 23 70
2º: 50% do total de valores
50% de 8= 4
19 20 21 21 21 23 23 70
 ↪ Md = = 21 anos
Interpretação: Pelo menos 50% dos alunos têm idade menor ou igual a 21 anos e pelo menos 50% dos alunos têm idade maior ou igual a 21 anos.
Exemplo 2: Para descobrir a mediana de um perfil de dados de idade completa dos alunos.
Aluno 1: 18, Aluno 2: 19, Aluno 3: 19, Aluno 4: 19, Aluno 5: 20, Aluno 6: 20, Aluno 7: 20, Aluno 8: 23 e Aluno 9: 31.
· Resolução
1º: Ordenar o conjunto de dados
18 19 19 19 20 20 20 23 31
2º: 50% do total de valores
50% de 9 = 4,5
18 19 19 19 /20/ 20 20 23 31
 ↪ Md = 20 anos.
Interpretação: Pelo menos 50% da turma tem idade menor ou igual a 20 anos.
obs- Se a média e a mediana estão muito próximas, não há valores discrepantes. Se está muito acima, há um valor muito discrepante para cima.
↳ Moda: Denotada por Mo, a moda representa o valor mais frequente de um conjunto de dados, ou seja, aquele que aparece mais vezes.Além disso, um conjunto de dados pode ser classificado quanto ao número de modas que ele apresenta:
- Conjunto de dados AMODAL: não tem moda;
- Conjunto de dados UNIMODAL: tem apenas uma moda;
- Conjunto de dados BIMODAL: tem duas modas;
- Conjunto de dados MULTIMODAL: tem mais de duas modas.
Exemplo: Para descobrir a moda de um perfil de dados de idade completa dos alunos.
Aluno 1: 23, Aluno 2: 21, Aluno 3:21,Aluno 4: 19, Aluno 5: 70, Aluno 6: 20, Aluno 7: 21, Aluno 8: 23.
 Md= 21 anos
· Resolução
1º Ver o fator que mais se repete
19 20 21 21 21 23 23 70
Logo, Mo= 21, sendo um conjunto unimodal.
Exemplo 2: 2-2-3-4-4-4-4-5-6-7
Logo, Mo= 4, sendo um conjunto unimodal. 
Exemplo 3: 1-2-4-6-7-9-10
Logo, não há moda no conjunto, sendo um conjunto amodal.
Exemplo 4: 1-1-2-3-3-4-5-5-6-7-7
Logo, Mo= 1,3,5,7, sendo um conjunto multimodal. 
Exemplo 5: 1-1-2-2-3-3-4-4-5-5
Logo, é um conjunto amodal já que todos os dados aparecem na mesma quantidade.
Medidas de dispersão
Amostras distintas podem apresentar a mesma média, mediana e moda. Por conta disso, é necessário medidas que indiquem a dispersão dos dados em torno da média. Essas medidas são chamadas de medidas de dispersão ou variabilidade, sendo as mais comuns a amplitude, variância, desvio padrão e coeficiente de variação. 
↳ Amplitude (a): Amplitude é a diferença entre o maior e o menor valor, ou seja:
a = max - min.
↳ Variância (): Mede a variabilidade dos dados através dos desvios em relação a média. Estes desvios em relação à média são calculados como a diferença entre cada valor observado e a média do conjunto de dados, ou seja:
obs - Seu resultado tem como unidade de medida a unidade dos reais.
Exemplo: Cálculo da variância de um grupo com as seguintes idades: 
3 3 3 4 4 4 21
= 6 anos
1º - Distância para a média:
Indivíduo 1: -3
Indivíduo 2: -3
Indivíduo 3: -3
Indivíduo 4: -2
Indivíduo 5: -2
Indivíduo 6: -2
Indivíduo 7: +15
2º- (xi - )
(-3) + (-3) + (-3)+ (-2)+(-2)+ = 264
3º - Ponderar pelo tamanho da amostra
= = 44 anos
↳ Desvio padrão (s): É a raiz quadrada do resultado da variância. Dessa maneira, o desvio padrão transforma a variância para a mesma unidade de medida dos dados da amostra.
s= 
Exemplo s = = 6,63 anos.
Logo, em média essas idades estão distantes da média em um valor de 6,63, sendo muito alto (110,5% da média)
obs- O desvio padrão deve ser menor que 25% para que haja um conjunto de dados mais homogêneos.
↳ Coeficiente de variação (CV): É uma medida relativa de dispersão que compara o desvio padrão com a média, fornecendo uma homogeneidade dos dados. Sendo assim, o coeficiente de variação pode ser usado para comparar a dispersão de grupos com médias diferentes e até de variáveis diferentes, sendo expresso em porcentagem.
CV = x 100
Exemplo: 6,63 --- x%
 6 ------ 100%
x = 110,5% de variação.
↳ Cálculo na calculadora científica: 
1º- Mode.
2º- Opção 2 (sd - desvio padrão.
3º- CLR + SCL + =
4º- Digitar valores e apertar dt.
5º- Shift + S VAR
6º- 1 para média e número 3 para desvio padrão.
Correlação linear simples
A correlação entre duas variáveis deve ser calculada quando se deseja saber se a variação de uma delas acompanha proporcional ou inversamente a variação da outra. O método de análise de correlação linear simples deve ser utilizado quando temos duas variáveis quantitativas. Nesse sentido, para a avaliação das variáveis é necessário a montagem do diagrama de dispersão.
↳ Diagrama de dispersão: O diagrama de dispersão é um gráfico de pontos bidimensional utilizado para avaliar o tipo de relação existente (linear, quadrática, exponencial, etc) entre duas variáveis quantitativas. Este gráfico apresenta os valores das duas variáveis que se deseja correlacionar, cada uma em um eixo (X ou Y), traçados em escalas adequadas para cada variável.
O primeiro passo para a construção de um diagrama de dispersão é determinar corretamente qual é a variável Y (variável dependente, ou resposta) e qual é a variável X (variável independente, ou explicativa). Então, os eixos devem ser traçados, de forma que tenham início o mais próximo possível do menor valor e terminem o mais próximo possível do maior valor da variável correspondente. Caso o diagrama de dispersão apresente uma tendência linear de associação entre as duas variáveis (todos os pontos agrupados em uma "nuvem" que parece uma reta), o próximo passo será quantificar a intensidade da relação entre essas variáveis.Para isso, é necessário a realização do Coeficiente de Correlação Linear de Pearson (r x,y).
↳ Coeficiente de correlação linear de Pearson: Também chamado de coeficiente de correlação amostral,esse coeficiente mede o sentido e a intensidade da relação linear entre elas. Ele pode ser calculado pela covariância entre Y e X dividida pelo produto dos desvios padrão de Y e X, ou seja:
COV (X,Y) = 
Sendo assim,O coeficiente de correlação linear de Pearson será sempre um número entre -1 e +1 (−1≤ rxy ≤1).
- Se Rx,y =−1 ,a relação linear entre X e Y é perfeita e inversa (os pontos estão todos sobre uma única reta, com inclinação negativa);
- Se Rx,y está próximo a -1, a associação linear entre X e Y é forte e inversa (ou negativa/decrescente).
- Se Rx,y = 0, não existe associação linear entre X e Y.
- Se Rx,y está próximo de + 1, a associação linear entre X e Y é forte e positiva (ou direta/crescente)
- Se Rx,y = +1, a associação linear entre X e Y é perfeita e positiva.
Exemplo: Estudo realizado para avaliar se o percentual de falta interfere na nota final de uma matéria. Para isso, uma amostra aleatória de 8 alunos foi selecionada.
	%Faltas
	0
	3
	6
	0
	1
	12
	6
	16
	Nota
	84
	78
	57
	90
	83
	40
	61
	11
 
· 1º: Montar diagrama
% faltas
notas
0 1 3 6 12 16
90
84
83
78
61
57
40
11
Logo, temos uma Correlação Linear decrescente, ou seja, conforme o percentual de notas aumenta, as notas diminuem.
· 2º: Cálculo do coeficiente linear
1º Média de X - 5,5
 Desvio padrão - 5,855
2º Média de Y - 63
 Desvio padrão - 26,907
3º Xi - 
 0 - 5,5 = -5,5
 3 - 5,5 = -2,5
 6 - 5,5 = 0,5
 0 - 5,5 = - 5,5
 1 - 5,5 = -4,5
 12 - 5,5 = 6,5
 6 - 5,5 = 0,5
 16 - 5,5 = 10,5
4º Yi - 
 84 - 63 = 21
 78 - 63 = 15
 57 - 63 = -6
 90 - 63 = 27
 83 - 63 = 20
 40 - 63 = - 23
61 - 63 = -2
11 - 63 = - 52
5º (Xi - ) x ( Yi - )
-5,5 x 21 = - 115,5
-2,5 x 15 = - 37,5
0,5 x -6 = - 3
-5,5 x 27 = -148,5
-4,5 x 20 = - 90
6,5 x - 23 = -149,5
0,5 x -2 = -1
10,5 x - 52 = - 546
6º Somatória de todos os valores
· 1091
7º Fórmula
= - 155, 86
= - 0,989
Logo, o coeficiente linear de pearson é - 0,989, sendo, portanto, uma correlação linear negativa forte entre o percentual de faltas e as notas, ou seja, o percentual de faltas influencia muito na nota, conforme o percentual aumenta, as notas diminuem.
Regressão linear simples
Após estabelecermos que existe uma correlação linear,é necessário a descrição em uma equação que descreva essa relação, a equação de regressão, ou seja:
= 
Onde:
 - estimativa da variável dependente (ou resposta);
x - valor da variável independente (ou preditora, ou explicativa);
 - representa o coeficiente linear (ou intercepto) da reta estimada;
- coeficiente angular (ou inclinação) da reta estimada.
Sendo que:
, = 
↳ Coeficiente de determinação(: Mede a proporção da variação em Y que é explicada pelo X escolhido. Quanto maior for o valor de , maior será a proporção da variação em Y explicada pela equação estimada. Dessa forma, esta medida é usada para verificar a adequação de uma equação de regressão, onde:
= x 100
Exemplo: Estudo realizado para avaliar se o percentual de falta interfere na nota final de uma matéria. Para isso, uma amostra aleatória de 8 alunos foi selecionada.
Sendo assim,estime a equação de regressão que melhor descreve a associação entre a nota final e o percentual de faltas.
	%Faltas
	0
	3
	6
	0
	1
	12
	6
	16
	Nota
	84
	78
	57
	90
	83
	40
	61
	11
- 1º: Cálculo B1: 
0 x 84 = 0
3 x 78 = 234
6 x 57 = 342
0 x 90 = 0
1 x 83 = 83
12 x 40 = 480
6 x 61 = 366
16 x 11 = 176
Somatório Xi =0+3+6+...+16 = 44
Somatório Yi= 84+78+58…+11= 504
= 0 + 9 +36++0+1+144+36+256 = 482
= -4,546
· 2º: Cálculo 
= -
= 63 - (-4,546 x 5,5)
 = 88,002
· 3º: Montando a equação
= 88,002 - 4,546x
Logo, a cada falta, a nota cai o valor do ( 4,546 pontos).
- Exercitando: Previsão da nota final para um aluno com 8% de faltas.
= 88,002 - 4,546 x 8
 = 51,634 pontos.
Logo, a nota estimada do aluno com 8% de faltas é 51,634 pontos.
obs: A estimativa só serve paravalores até ou próximos ao último valor, no caso, o 16.
· 4º: Coeficiente de determinação
x 100
= (x 100
= 97,812%
Logo, 97,812% da variação de notas dos alunos deve-se ao percentual de faltas. Os outros 2,188% são explicados por outros fatores.
obs: Dado que o coeficiente é alto, a estimativa é mais segura.
↳ Cálculo na calculadora científica: 
· 1º: Mode
· 2º: Teclar 3 e em seguida 1
· 3º: Limpar apertando shift clr 
· 4º: Teclar 1
· 5º: Coloco valores de X, vírgula de cima, depois de Y e aperta M+
· 6º: Aperto shift S Var
· 7º: Acionar tecla A, B e r é igual.
↪ r = = correlação de X e Y
↪ A/B = valores da equação linear, onde 
Teste de hipóteses
Os testes de hipóteses são utilizados para verificar se as diferenças entre populações é estatisticamente significativa.
↳ Inferência estatística: Nome dado ao conjunto de todos os procedimentos estatísticos utilizados para tirar conclusões sobre a população com base em uma amostra. Enquanto os métodos de amostragem são utilizados para retirar uma parte da população (a amostra) representativa dos indivíduos em estudo, a inferência utiliza essa amostra para obter informações sobre a população.
↳ Parâmetros: São as características populacionais de interesse do pesquisador. Contudo,o cálculo destes parâmetros é quase impossível, logo, estimamos os valores a partir de uma amostra e utilizamos os métodos de inferência estatística para tentar estimar os valores populacionais.
↳ Hipóteses: As hipóteses podem se subdividir em:
- Hipótese nula : É a hipótese de nulidade de diferença entre os tratamentos, ou seja, é a hipótese que considera que os dois tratamentos são iguais, que não há diferença entre eles.
- Hipótese alternativa : É a hipótese que nega a hipótese nula, ou seja, é a inexistência de igualdade entre os tratamentos, sendo, portanto, a hipótese que considera que os indivíduos são diferentes.
Erros de hipótese e nível de significância
Dado que em teste de hipótese é praticamente impossível coletar os dados de toda a população, alguns erros podem acontecer.
↳ Erro tipo 1: É o erro que ocorre quando um teste de hipóteses rejeita sendo que, na população, seria verdadeira. No caso das comparações de dois grupos, o erro tipo I seria concluir que os grupos são diferentes quando, na população, os grupos são iguais.
↳ Erro tipo 2: É o erro que ocorre quando um teste de hipóteses aceita sendo que, na população, seria falsa. No caso das comparações de dois grupos, o erro tipo II seria concluir que os grupos são iguais quando, na população, os grupos são diferentes. 
Nesse sentido, temos que a probabilidade de ocorrência do erro 1 é chamada de nível de significância, sendo denotada por alfa e, no erro 2, por beta. Sendo assim, é definido um valor máximo para o erro 1, sendo padronizado de 5% já que o erro 1 é extremamente grave e, por meio disso, estimamos o erro 2.
Estatística de teste
Valor calculado com base nos dados amostrais através da rejeição ou não de após comparação com a região de rejeição.
↳ Região de rejeição:Valor obtido através de tabelas de probabilidade, que será comparado com o valor da estatística de teste para que se decida sobre a rejeição ou não de . Este valor será obtido utilizando o nível de significância e a distribuição de probabilidade adequada para cada tipo de planejamento.
Probabilidade de significância 
A probabilidade de significância, também chamada de valor-p, é o cálculo que evidencia a probabilidade de estar acontecendo um tipo de erro 1, caso seja rejeitada. Se o valor-p for maior que o nível de significância (p > 𝛼), aceitamos ,ou seja, concluímos que os tratamentos são iguais. Entretanto, se o valor-p for menor que o nível de significância (p < 𝛼), rejeitamos ,e ou seja, concluímos que os tratamentos são diferentes. Quanto mais distante o valor-p estiver do 𝛼, mais certeza teremos da conclusão do teste, ou seja, menor a probabilidade de estarmos tirando uma conclusão errada sobre a população, com base em uma amostra.
Variável resposta dicotômica
Em primeiro lugar, variável dicotômica é qualquer variável qualitativa que assume apenas dois resultados possíveis. Assim, pesquisas com variáveis dicotômicas têm como interesse verificar a ocorrência ou não de uma doença, a presença ou não de determinada característica ou até mesmo de um fator de risco. 
Nesse contexto, para a avaliação da variável resposta devemos ter no mínimo dois grupos de amostra que, se coletadas sem relação uma com a outra, temos uma amostra independente. 
Exemplos: Masculino/feminino; sim/não; presente/ausente; tratamento/controle.
↳ Teste Qui- quadrado (x2): Esse teste visa a observação dos valores encontrados na amostra (valores observados ou Oi)em comparação com os criados pela hipótese de igualdade (chamados valores esperados ou Ei. Caso esses valores forem muito diferentes, teremos um forte indício de que existe diferença entre os dois grupos de comparação. Nesse contexto, a medida de discrepância entre os valores observados (Oi) e os valores esperados (Ei) é a estatística de teste do Qui-quadrado, dada pela fórmula:
𝜒2= 
No caso das tabelas 2x2 , ou seja, quando temos dois grupos de comparação e uma resposta dicotômica, a estatística de teste do Qui-Quadrado pode ser simplificada através da fórmula:
𝜒2 = Logo, para sabermos o grau de diferença entre as variáveis é estabelecido um valor de qui-quadrado de 3,841. 
Sendo assim, se o valor da estatística de teste padrão é dado por 𝜒2 = 3,841 (calculada através dos dados da amostra. Dessa maneira, se o valor for maior do que 3,841, rejeitamos 𝐻0 e concluímos que existe diferença entre os dois grupos quanto à proporção de ocorrência do evento de interesse.
Amostra Pareadas 
Nesse caso, é realizado um pareamento metodológico, ou seja, as características que podem influenciar na resposta são controladas e mantidas constantes para cada par de indivíduos.Além disso, pode também ser realizado o pareamento estático, ou seja, um mesmo indivíduo pode ser seu próprio pareamento, recebendo ambos os tratamentos em ocasiões diferentes, ou analisando uma resposta antes e depois do tratamento. Sendo assim, nesses casos é recomendado o teste de McNemar.
↳ Teste de McNemar: Se os valores encontrados na amostra forem muito diferentes daqueles que esperaríamos obter sob hipótese de igualdade, teremos um forte indício de que existe diferença entre os dois grupos de comparação. Nesse sentido, no caso das tabelas 2x2 podemos utilizar a seguinte fórmula:
Sendo assim, se o valor da estatística de teste padrão é dado por = 3,841 (calculada através dos dados da amostra. Dessa maneira, se o valor for maior do que 3,841,rejeitamos 𝐻0 e concluímos que existe diferença entre os dois grupos quanto à proporção de ocorrência do evento de interesse.
Amostras independentes
Amostras independentes são aquelas na qual as amostras dos dois grupos de comparação são coletadas sem relação uma com a outra. Nesse ínterim, usualmente essas amostras têm como base uma variável resposta contínua, ou seja, uma variável relacionada a contagens e medições. Sendo assim, para a avaliação de uma amostra independente com variável resposta contínua temos o teste t.
↳ Teste T: O teste t é adequado para as situações em que as variáveis respostas dos dois tratamentos são contínuas, com distribuição normal e mesmo desvio-padrão. Nesse sentido, para realizar esse teste temos:
onde sp =
Média do grupo 1.
Média do grupo 2.
= Variância.
N1/N2= Tamanho da amostra.
Dessa maneira, no teste t para amostras independentes a hipótese nula (H0:μ1=μ2) será rejeitada se o valor da estatística de teste - em módulo - for "grande", indicando evidência de diferença entre as médias dos dois grupos. Para saber se o módulo da estatística de teste é "grande" ou "pequeno", devemos compará-lo com um valor tabelado, que é dado por:
 t
= Valor do nível de significância dividido por 2.
n1+n2-2 = Grau de liberdade.
Logo, se o módulo do teste T tiver um valor maior do que o da tabela (t), ele será rejeitado.
Tabela T:
↳ Teste Z: O teste Z é recomendado paraa comparação de dois grupos grandes com desvio padrão iguais e distribuição normal. Isso ocorre pois esse teste não exige suposições a respeito da variabilidade dos grupos, podendo, portanto, pegar amostras maiores ou iguais a 30. Logo, para calcularmos o teste Z temos:
Z=
Média do grupo 1.
Média do grupo 2.
= Variância.
N1/N2= Tamanho da amostra.
Dessa maneira, no teste Z a hipótese nula (H0:μ1=μ2) será rejeitada se o valor da estatística de teste - em módulo - for "grande", indicando evidência de diferença entre as médias dos dois grupos. Para saber se o módulo da estatística de teste é "grande" ou "pequeno", devemos compará-lo com um valor tabelado. Este valor será obtido da tabela da distribuição Normal Padrão, também conhecida como distribuição Gaussiana ou distribuição Z. Como a distribuição Normal não depende dos graus de liberdade, os valores tabelados, denotados por , podem ser determinados previamente para os níveis de significância mais comuns:
- Para um nível de significância = 1 temos = 2,58.
- Para um nível de significância = 5% temos = 1,96.
- Para um nível de significância = 10% temos = 1,64.
Logo,se o módulo do teste z for maior que , a hipótese será rejeitada.

Outros materiais

Outros materiais