Buscar

Inferência Estatística na Pesquisa

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 38 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Bioestatística Isadora Furtado - XXIX 
BIOESTATÍSTICA: INFERÊNCIA ESTATÍSTICA 
Entender o por que usamos estatística para analisar os dados de uma determinada população. 
Julgamento 
 Inocente 
 Culpado 
 Então, vamos avaliar se as evidencias 
apresentadas são consistentes com a hipótese 
de sua inocência: 
1. Condenar o culpado 
2. Liberar o inocente 
3. Condenar o inocente 
4. Liberar culpado 
Teste de Hipótese: é uma inferência 
 Hipótese nula (Ho) 
 Hipótese alternativa (Há) 
 Calcular o valor de p 
1. Correta rejeição do Ho 
2. Correta aceitação do Ho 
3. Erro tipo I (α) 
4. Erro tipo II (β) 
INFERÊNCIAS ESTATÍSTICAS: 
 Quando, a partir de um planejamento 
experimental/amostral, tenho que recorrer 
às ferramentas de bioestatísticas em um 
projeto de pesquisa epidemiológico. 
 Inferir é usar a informação para reduzir a 
incerteza sobre um objeto de estudo. 
 Conjunto de técnicas que objetiva estudar 
uma população por meio de evidências 
fornecidas por uma amostra. 
 É fazer afirmações sobre características de 
uma população, baseando-se em resultados 
de uma amostra. O uso de informações da 
amostra para concluir sobre o todo faz parte 
da atividade diária da maioria das pessoas. 
 Objetivo obter conclusões sobre algumas características de um conjunto de interesse, denominado 
população (N), com base na informação oriunda de um conjunto de dados disponíveis, denominado 
amostra (n). 
 
 
Exemplo: população com 
indivíduos portadores de doença 
renal seleciona casualmente uma 
amostra n = 80 indivíduos, para 
realizar uma pesquisa clínica os n 
= 80 indivíduos selecionados serão 
aletoriamente alocados em dois 
grupos de n = 40 cada. 
 
 
Bioestatística Isadora Furtado - XXIX 
 
PROVAS ESTATÍSTICAS NA PESQUISA 
Na pesquisa científica, a metodologia adotada deve ser objetica, pública e possível de ser repetida por outros 
pesquisadores competentes. 
A inferência estatística está apoiada em probabilidade e portanto deve ser previamente definida e 
metodizada. 
O procedimento comum envolve vários passou ou estágios de execução: 
1. Escolha do modelo estatístico mais adequado para o tipo de variável 
2. Definição da hipótese de nulidade (Ho) 
3. Determinação do nível de significância (α) e a consequente região de rejeição 
4. Determinação do tamanho na amostra (N) 
5. Cálculo estatístico (valor p), de acordo com o modelo adequado escolhido 
O valor calculado determina uma de duas decisões possíveis: 
o O valor está na região de rejeição: a decisão é rejeitar Ho 
o O valor está fora da região de rejeição: a decisão é aceitar Ho 
6. Verificação do poder da prova aplicada 
 
TESTE DE HIPÓTESE: 
 Ideia básica: procurar condições que garantem que os resultados de experimentos possam ser 
generalizados além da situação experimental. 
 Hipótese estatística: consideração feita acerca de um parâmetro (ou característica) na população 
estudada. 
 
 
 
Bioestatística Isadora Furtado - XXIX 
Hipótese Nula (Ho): 
 Hipótese sobre a qual o teste é montado 
 Na maior parte dos casos é a hipótese de que “não há diferença”. Nada acontece de diferente de 
forma significativa 
 Em geral, não é a hipótese que se deseja comprovar. Formula-se com o propósito de ser rejeitada. 
Hipótese Alternativa: 
 É a definição operacional da pesquisa – hipótese da pesquisa – teoria que está comprovada! 
 Rejeita a Hipótese Nula (em favor da Hipótese alternativa considerada) ou 
 Não rejeita a Hipótese Nula (em relação à Hipótese Alternativa) 
 
 Teste de Hipótese – Tipo de Erro 
Planejamento amostral: a comparação de duas 
hipóteses é feita baseada em evidencias experimentais 
(amostras), sujeitas a erros amostrais e/ou erros não 
amostrais. 
Erros na conclusão do teste de hipóteses Por 
causa das flutuações amostrais, ao comparar duas 
hipóteses e tomar uma decisão, pode se tomar a 
decisão errada 
 Erro Tipo I (α): consiste em “rejeitar” a 
hipótese nula quando é verdadeira 
 Erro tipo II (β): consiste em “aceirar” a hipótese nula quando ela é falsa. 
 
 
 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
NÍVEL DE SIGNIFICÂNCIA E VALOR p 
 Qual é o nível de significância (alfa)? 
Nível de Significância ou Nível de Confiança: é o valor 
escolhido para a região de rejeição da hipótese de nulidade. 
 Em estudos médicos e biológicos é estabelecido, geralmente, 
em 5%, isto é, 5/100 = 0,05 = (α = 0,05) 95% 
 Eventualmente, outros valores podem ser adotados: 1%, 
1/100 = 0,01 ou 10%, 10/100 = 0,10 
 Se houver mais de 5% de possibilidades da diferença observada ser devido ao acaso, considera-se a 
hipótese nula e diz - se que a diferença não é significativa 
 Se houver 5% de possibilidades, ou menos, da diferença ser devida ao acaso, rejeita-se a hipótese 
nula e diz - se que esta diferença é: 
o Significativa (S) se a diferença observada tiver mais de 1% de possibilidades de ser devida ao 
acaso 
o Muito Significativa (M.S.) se a diferença observada tiver 1% de possibilidades ou menos de ser 
devida ao acaso 
 
 Poder de uma Prova: é a probabilidade de rejeitar Ho, quando Ho é falsa 
 Poder = (1 – probabilidade de um erro tipo II) = (1 – β) 
 A probabilidade de se cometer um erro tipo II (β) diminui quando o tamanho N da amostra cresce. 
Portanto o poder da prova aumento com o N. 
 
Bioestatística Isadora Furtado - XXIX 
 
 Em estatística, e especificamente no campo dos testes de hipóteses, o valor p, ou também p – 
valor, é a probabilidade de que a amostra podia ter sido tirada de uma população, assumindo que 
a hipótese nula seja verdadeira. 
 Quando o valor – p for menor ou igual ao valor adorado de α – cai na região de rejeição, será 
significativo 
 Quando for maior que α, não significativo, e o Ho torna-se verdadeira 
 Na região de rejeição, quanto menor o valor de p, maior é a significância do resultado da prova 
 Nossa média amostral (330,6) fica dentro da região crítica ou de rejeição, o que indica que é 
estatisticamente significativa no nível de 0,05. 
 
NÍVEL DE SIGNIFICÂNCIA E VALOR p 
 
 
Bioestatística Isadora Furtado - XXIX 
O que é valor p? 
O valor-p é definido como a probabilidade de se observar um valor da estatística de teste maior ou 
igual ao encontrado. Ele mede quão compatíveis os seus dados são com a Hipótese nula. Qual é a 
probabilidade do efeito observado nos seus dados amostrais se a hipótese nula for verdadeira? 
 Valores P altos: seus dados são prováveis com uma hipótese nula verdadeira 
 Valores P baixos: seus dados não são prováveis com uma hipótese nula verdadeira 
 Um valor-P baixo sugere que sua amostra fornece evidências suficientes de que você pode rejeitar a 
Hipótese nula para toda a população 
Nível de significância e Valor P 
 O valor-p é uma medida da força da evidência em seus 
dados contra H0.. Em geral, quanto menor for o valor-
p, a evidência da amostra é mais forte para rejeitar H0. 
O valor-p indica que é muito improvável que tenha 
ocorrido por acaso. 
 O caso: o estudo compara as médias, assumindo que os 
dados apresentam distribuição normal. Então utilizaram 
o Teste t de Student (t de 2,34) e um valor-p = 0,031. 
Como foi utilizado um valor de corte de 0,05 – rejeita-
se a hipótese nula. Ou seja,existe uma diferença estatística, pois o valor – p é menor que α 
 Então, o que p = 0,031 significa? Significa que a droga funciona como diurético e não é um produto 
do acaso. Pois p = 0,031 destaca a probabilidade de 3% de obter um efeito tão extremo aos valores 
observados em seus dados amostrais que assumiram que a H0 fosse verdadeira. 
 Este valor-p indica que se a droga não tivesse efeito, você obteria a diferença observada ou maior 
que isso em 3% dos estudos devido ao erro amostral aleatório. 
 
 EXERCÍCIO 1 
 
 Determinar se há associação entre as faixas etárias e o desenvolvimento de Diabetes melitus 
(sim ou não) após o transplante. 
 Ho: não existe associação – são independentes 
 H1: há associação 
 
 
 
Bioestatística Isadora Furtado - XXIX 
 EXERCÍCIO 2 
 
 Determinar se há associação entre o sedentarismo e a presença da HAS 
 Ho: não existe associação – são independentes 
 H1: há associação se o p for < 0,05 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
BIOESTATÍSTICA: TESTES DE HIPÓTESES 
Testes Paramétricos: 
 Com parâmetro? 
 Com caráter? 
 Caráter específico 
o Média 
o Desvio Padrão 
o Proporção 
Não Paramétricos: 
 Sem parâmetro? 
 Sem caráter? 
 Caráter específico 
o Teste de distribuições ou classes de 
amostras relacionadas ou não 
o Mediana 
o Erro padrão 
TESTES PARAMÉTRICOS E NÃO PARAMÉTRICOS 
Os testes estatísticos podem ser divididos em dois grandes grupos, conforme fundamentem ou não os 
seus cálculos na premissa de que a distribuição de frequências dos erros amostrais é normal, as variâncias 
são homogêneas, os efeitos dos fatores de variação são aditivos e os erros independentes 
Se tudo isso ocorrer, é muito provável que a amostra seja aceitavelmente simétrica, terá com certeza 
apenas um ponto máximo, centrado no intervalo de classe onde está a média da distribuição, e o seu 
histograma de frequências terá um contorno que seguirá aproximadamente o desenho em forma de sino da 
curva normal 
O cumprimento desses requisitos condiciona pois a primeira escolha do pesquisador, uma vez que, se 
forem preenchidos, ele poderá utilizar a estatística paramétrica, cujos testes são em geral mais poderosos do 
que os da estatística não-paramétrica e, consequentemente, devem ter a preferência do investigador, quando 
o seu emprego for permitido. 
DESVIO PADRÃO E TESTES NÃO PARAMÉTRICOS 
Quando um pesquisador utiliza testes não-paramétricos, supõe-se que a distribuição de seus dados 
experimentais não seja normal, ou que ele não tenha elementos suficientes para poder afirmar que seja. Na 
dúvida quanto a essa informação, nada impede que ele opte pelo uso da estatística não paramétrica. O que 
ele não pode fazer, de modo algum, é argumentar em termos de desvios padrões, embora possa, 
perfeitamente, fazê-lo pura e simplesmente em termos de médias. 
Em geral, a resposta está contida no próprio modelo experimental de cada pesquisa. Os detalhes 
adicionais que devem orientar a escolha do teste são: 
a) A existência ou não de vínculos entre dois ou mais fatores de variação 
b) O número de componentes da amostra, que vão ser comparadas 
 
Bioestatística Isadora Furtado - XXIX 
 
TESTES PARAMÉTRICOS – RAZÕES PARA UTILIZÁ-LOS 
Razão 1: Os testes paramétricos podem apresentar um bom desempenho com distribuições assimétricas e 
não normais 
 Isso pode ser uma surpresa, mas os testes paramétricos podem funcionar bem com dados contínuos 
que sejam não normais se você atender às orientações de tamanho amostral na tabela abaixo. 
 
Razão 2: Os testes paramétricos podem apresentar um bom desempenho quando a dispersão de cada grupo é 
diferente 
Razão 3: Poder estatístico Os testes paramétricos geralmente têm mais poder estatística que os testes não 
paramétricos. Assim, é mais provável que você detecte um efeito significativo quando ele realmente existir. 
 
 
 
Bioestatística Isadora Furtado - XXIX 
TESTES NÃO PARAMÉTRICOS – RAZÕES PARA UTILIZÁLOS 
Razão 1: Sua área de estudo é mais bem representada pela mediana 
 Por exemplo, o centro de uma distribuição assimétrica, como a renda, pode 
ser mais bem medido pela mediana, em que 50% estão acima da mediana e 
50% estão abaixo. Se você adicionar alguns bilionários a uma amostra, a 
média matemática aumenta muito, mesmo que a renda da pessoa típica não 
mude. 
 Quando sua distribuição é assimétrica o suficiente, a média é fortemente afetada por mudanças 
distantes na cauda da distribuição, enquanto a mediana continua a refletir mais proximamente o 
centro da distribuição. Para essas duas distribuições, uma amostra aleatória de 100 de cada 
distribuição produz médias significativamente diferentes, mas medianas que não são 
significativamente diferentes 
 
Razão 2: Você tem um tamanho amostral muito pequeno 
 Se você não atender às orientações de tamanho amostral para os testes 
paramétricos e não tiver certeza de que os dados seguem uma 
distribuição normal, deverá usar um teste não paramétrico. Quando 
você tem uma amostra muito pequena, pode não conseguir de 
determinar a distribuição de seus dados porque os testes de distribuição não terão poder suficiente 
para proporcionar resultados significativos. 
 
Razão 3: Você tem dados ordinais, dados ordenados ou outliers que não podem ser removidos 
 Os testes paramétricos típicos só podem avaliar dados contínuos e os resultados podem ser 
significativamente afetados por outliers. Em contrapartida, alguns testes não paramétricos podem 
manusear dados ordinais, dados ordenados e não serem seriamente afetados por outliers. Certifique-
se de verificar as suposições para o teste não paramétrico, porque cada um possui seus próprios 
requisitos de dados. 
A decisão geralmente depende se a média ou a mediana representa com mais 
precisão o centro da distribuição dos seus dados. 
 Se a média representar com precisão o centro de sua distribuição e o tamanho de 
sua amostra for grande o suficiente, considere a realização de um teste 
paramétrico, pois ele será mais eficiente. 
 Se a mediana representar melhor o centro da sua distribuição, considere o teste 
não paramétrico mesmo quando tiver uma amostra grande. 
 
TIPO DE ANÁLISE 
Quando a variável preditora (independente) é categórica e a variável 
resposta (dependente) também, analisamos os dados através de tabelas de contingência. 
Uma variável preditora temos: 
 X2 
 Teste G 
 Teste exato de Fisher 
 
 
Bioestatística Isadora Furtado - XXIX 
TESTE DE HIPÓTESE – RELEMBRANDO 
 Um teste de hipótese é um procedimento da estatística amostral para testar uma alegação sobre um 
valor de um parâmetro populacional 
 Uma alegação sobre um parâmetro populacional é chamada de hipótese estatística 
 Um par de hipóteses dever ser estabelecido: 
o Uma hipótese nula H0 que contém uma afirmativa de igualdade, tal como ≤ ou ≥ 
o Uma hipótese alternativa Há que é o complemento da hipótese nula 
Hipótese nula (Ho): Hipótese sobre a qual o teste é montado. Na maior parte dos casos é a hipótese 
de que "não há diferença". Nada acontece de diferente de forma significativa. Em geral não é a hipótese que 
se deseja comprovar. Formula-se com o propósito de ser rejeitada 
Hipótese alternativa (Ha): É a definição operacional da pesquisa –hipótese da pesquisa – teoria que 
está sendocomprovada! Rejeita a Hipótese nula (em favor da Hipótese alternativa considerada). OU Não 
rejeita a Hipótese nula (em relação à Hipótese alternativa). 
ESTABELECENDO HIPÓTESES 
Uma Universidade alega que a proporção de seus 
alunos no curso de medicina que se formaram em quatros 
anos é de 50%. 
 H0: p = 50% 
 Ha: p ≠ 50% 
 
Pacientes com Insuficiência respiratória hipoxêmica aguda de um hospital de São Paulo tem sido 
ventilados a uma taxa de fluxo médio de O2 inferior ou igual a 60 L/min. Existe 
 H0: μ ≤ 60 L/min 
 Ha: μ > 60 L/min 
CRITÉRIOS PARA ESCOLHA DE UM TESTE DE HIPÓTESES 
 N° de Amostras: O número de grupos distintos sendo analisados. 
 Escala Numérica: A forma que os dados foram registrados (escala qualitativa, quantitativa discreta e 
quantitativa contínua). 
 Distribuição: A densidade de probabilidade (distribuição de probabilidade) dos dados (Normal ou 
Não-Normal). 
 Dependência entre variáveis: o conhecimento de que uma variável pode contribuir ou não para o 
conhecimento 
TESTE DO QUI-QUADRADO OU DISTRIBUIÇÃO X2 
Muitas vezes o pesquisador toma decisão para toda população, tendo examinado apenas parte 
(amostra). Esse processo chama-se inferência, na pesquisa científica a inferência é feita com a ajuda de 
testes estatísticos. O (qui quadrado) é um teste de significância aplicado para comparar dados nominais 
Sejam duas variáveis qualitativas, A e B; o teste de qui-quadrado deve testar a seguintes hipóteses: 
 H0: A e B são independentes (não há associação entre A e B). 
 Ha: A e B não são independentes (há algum tipo de associação entre A e B). 
Bioestatística Isadora Furtado - XXIX 
É um dos testes não-paramétricos mais conhecidos e de larga aplicação nas ciências biomédicas, 
para estudos epidemiológicos. Destinado a comprovar se duas amostras independentes provêm da mesma 
população. Os escores devem ser mensurados a nível nominal ou ordinal, e as amostras podem apresentar 
duas ou mais categorias dispostas em tabelas de contingência l x c. 
 
NÍVEL DE SIGNIFICÂNCIA (α) 
Na realização de uma pesquisa, quando desejamos confirmar ou refutar alguma 
hipótese, é comum estabelecer, ainda na fase do planejamento da pesquisa, a 
probabilidade tolerável de ocorrer o erro de rejeitar Ho, quando Hoé verdadeira. 
Estabelecido o nível de significância, temos a 
seguinte regra geral de decisão de um teste estatístico: 
Os dados devem portanto ser grandezas 
discretas, isto é, alguma coisa que possa ser contada 
e reduzida a uma tabela de frequências, tabela essa denominada tabela de contingência. 
 O teste analisa as frequências observados (Oi) de um determinado evento 
acontecer, com as frequências esperadas (Ei) para aceitar ou não a Ho. 
 Então, quanto menores forem as diferenças entre Oi e Ei, menor será o valor do 
χ2. 
 Portanto, se o valor do χ2 for grande, o Ho deve ser rejeitado, ou seja, fixado um 
nível de significância. 
 
 
Bioestatística Isadora Furtado - XXIX 
TESTE X2 PARA INDEPENDÊNCIA 
Um pesquisador pode ter interesse em verificar se duas populações têm a 
mesma proporção de indivíduos com determinada característica (diferenças ou não) 
e para saber se essas diferenças, quando existirem, são suficientes para rejeitar a 
hipótese de nulidade. Calcula-se pela fórmula: 
Restrições ao uso do Teste de X2 
 Só deve ser aplicado quando a amostra tem mais de 20 elementos. 
 Para n entre 20 e 40, o teste só pode ser aplicado se todas as frequências esperadas forem maiores ou 
iguais a 5 (E1 = n*p) 
 Se a frequência for menor que 5, ou se n for menor que 20, será preferível usar o teste exato de 
Fisher. 
 E finalmente, o teste de χ2 é aproximado, a aproximação melhora bastante o p valor, quando se faz a 
correção de continuidade (correção de Yates): 
 Yates mostrou que, como a utilização dos resultados do Qui-Quadrado de Pearson, os valores de p 
sistematicamente subestimam os verdadeiros p-valores com base na distribuição Binomial. Por isso, 
ele sugeriu a estatística corrigida: (|x−np|−12)2n p(1−p) 
TESTE EXATO DE FISHER 
O Teste Exato de Fisher é utilizado em tabelas de contingência 2x2 para comparar 2 grupos de duas 
amostras independentes, tem como objetivo testar se a variável da linha e a variável da coluna são 
independentes, provieram da mesma população (H0: a variável da linha e a variável de coluna são 
independentes) 
Além disso, esse teste fornece valor-p exato e não exige técnica de aproximação. O valor-p do teste 
exato de Fisher é preciso para todos os tamanhos amostrais, enquanto os resultados provenientes do teste 
qui-quadrado que examina as mesmas hipóteses podem ser imprecisos quando o número de células é 
pequeno. 
O teste de Fisher é usado para amostras pequenas e produz menos erro tipo I e II em relação ao 
teste do qui-quadrado. O teste de Fisher permite calcular a probabilidade de associação das características 
que estão em análise. Assim, o teste de Fisher é utilizado nas seguintes situações: 
 Pequenas amostras (com 20 dados ou menos), caso em que o teste do Qui-quadrado estaria contra 
indicado. (n < 20) 
 Resultado unilateral (mostra os extremos da hipótese) /bilateral (mostra grau de associação) 
 o p-valor bilateral é duas vezes o p-valor unilateral 
O teste é útil para dados categóricos, que resultam de classificação de objetos em duas maneiras 
diferentes; ele é usado para examinar a significância da associação (contingência) entre os dois tipos de 
classificação 
TESTE G 
É uma alternativa do qui quadrado e está baseado na distribuição multinominal de probabilidades. 
Seu cálculo é baseado na relação entre os valores observados e esperado. Teste não-paramétrico para duas 
amostras independentes, semelhante em todos os seus aspectos ao do Qui-Quadrado, para dados categóricos. 
Os escores devem ser mensurados a nível nominal ou ordinal, e as amostras podem apresentar duas ou mais 
categorias dispostas em tabelas de contingência l x c. Coeficiente de contingência onde: n →total de 
medições. χ2 → Chi quadrado, é uma medida para a diferença entre os valores observados e os valores 
esperados. Para amostras pequenas há um ajuste para o cálculo do G que compensar valores observados 
baixos que tendem a superestimar as diferenças entre valores observados e obtidos. 
Bioestatística Isadora Furtado - XXIX 
 EXERCÍCIO 1 
 
Determinar se há associação entre o sedentarismo e a presença da 
HAS 
 Ho: não existe associação entre o sedentarismo e a HAS – 
são independentes média são iguais 
 H1: há associação entre o sedentarismo e a HAS se o p for 
< 0,05 diferentes. Se for < 0,05 rejeita a hipótese nula 
 n = 150 
 Coloca os dados no Bioestat estatísticas qui quadrado 
seleciona as colunas 
 Qui quadrado = 5620 e p valor = 0.0283 = 0.03 p valor < α rejeita hipótese nula 
 
 EXERCÍCIO 2 
 
 Criar uma tabela de contingência com esses valores no Bioestat 
 
 Utiliza o teste exato de Fisher 
Bioestatística Isadora Furtado - XXIX 
 
 
O valor de p bilateral é igual a 0.0055, rejeitando-se a hipótese de nulidade e aceitando-se a alternativa. Os 
animais submetidos ao experimento, cuja sutura foi efetuada em dois planos, apresentaram menor número de 
aderências ao coto duodenal. 
 EXERCÍCIO 3: 
Com base nos dados apresentados na tabela abaixo 
teste, ao nível de significância de 5% (α = 0,05%), a hipótese 
de que a proporção de recém nascidos vivos portadores de 
anomalias é a mesma nos dois eixos. 
 
 
 Rejeita a hipótese nulaBioestatística Isadora Furtado - XXIX 
BIOESTATÍSTICA: TESTES DE HIPÓTESES – TESTE T E TESTE Z 
TESTES DE HIPÓTESES 
 
Objetivo: decidir se uma afirmação sobre um parâmetro populacional é verdadeira, com base em resultados 
amostrais 
Teste de Hipótese é uma regra de decisão que possibilita avaliar as hipóteses com base em 
parâmetros como a média amostral e o desvio padrão, aceita-las como provavelmente verdadeiras ou falsa, 
tomando por base a evidencia amostral. 
 
Exemplo de análise uni-caudal 
CONCEITOS 
 Hipótese Nula (Ho): é uma afirmação a respeito do valor do parâmetro populacional que deve ser 
testada 
 Hipótese Alternativa (Há ou H1): é uma afirmação a respeito do parâmetro que aceitaremos como 
provavelmente verdadeiro caso Ho seja rejeitada 
o Erro do Tipo I: probabilidade de se rejeitar a hipótese nula quando ela é verdadeira. Também é 
conhecido como nível de Significância (α). Quando não é mencionado, adota-se α = 5%. Os 
valores comuns para α são 5% e 1% 
o Erro do Tipo II: probabilidade de se rejeitar a hipótese alternativa quando ela é verdadeira 
 
Obs.: Porque você deve usar o Teste de Hipótese? Permitem confirmar ou rejeitar, estatisticamente, a 
eficácia de ações adotadas. Auxiliam na tomada de decisões, por meio de parâmetros como média e desvio 
padrão. 
 
 
Bioestatística Isadora Furtado - XXIX 
COMO CONTRUIR TESTE DE HIPÓTESE? 
1. Formular as hipóteses nula e alternativa 
2. Escolher a distribuição amostral adequada e hoje, utilizaremos o teste T ou o teste Z O uso destes 
dois testes depende da quantidade das amostras e será usado na tomada de decisão 
3. Definir o nível de significância “alfa” e determinar os valores críticos – região crítica ou região de 
decisão α – 1% ou 5% 
4. Determinar o valor que corresponde à probabilidade de confiança associada ao valor observado da 
amostra 
5. Se o valor ficar na área crítica estabelecido pelo nível de significância rejeitar ou aceitar a hipótese 
nula 
Se o valor estatístico do Teste Z ou T cair na região crítica, rejeita se o Ho. Caso contrário, dizemos 
que não houve evidencia amostral significativa para rejeitar Ho. 
 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
TESTES PARAMÊTRICOS: Dados obedecem uma probabilidade de Distribuição Normal 
 Estão relacionados com um ou mais parâmetros da população (distribuição assumida) e e.g. média, 
desvio padrão 
 Tipicamente é assumida a Gaussiana 
 Teste de localização: relacionados com valor esperado da população (média), onde o centro da 
população está localizado 
 Vários tipos: 
o Uma amostra: dada uma amostra e um valor esperado de uma população, testar se a amostra foi 
tirada da população com o valor esperado dado 
o Duas amostras independentes: dadas duas amostras independentes, testar se as amostras são 
originadas de populações com o mesmo valor esperado 
o Duas amostras dependentes: dadas duas amostras dependentes (paired), testar se as amostras são 
tiradas de uma população com o mesmo valor esperado (tipicamente 0 para verificar significância 
da diferença) 
TESTE Z OU ESTATÍSTICA Z 
No teste Z podemos perguntar quantos dp a média amostral, está acima da média? Qual a 
probabilidade de obter um valor de Z ou um valor > do que Z? 
 
 EXERCÍCIO: 
Uma indústria farmacêutica calibra uma linha de produção de seu novo medicamento para colocar 
em média 160 mL em frascos, perfazendo ± 8 mL em cada frasco (160 mL ± 8 mL). Valores acima ou 
abaixo dessa média são considerados críticos e a linha de produção deve ser suspensa se qualquer um dos 
dois ocorrer. Um auditor e inspetor de controle de qualidade retira dessa linha de produção 30 amostras (n = 
30) e cada 2h e precisa tomar a decisão de parar ou não a linha de produção. Se a média amostral for cerca 
de 158,20 mL, o que o inspetor deveria recomentar aos responsáveis da área de produção farmacêutica? 
 
Bioestatística Isadora Furtado - XXIX 
 
 
Não há necessidade de parar a linha de produção, porque de acordo com o Teste Z, as duas medias 
não tem diferencia suficiente para se rejeitar a hipótese nula 
Bioestatística Isadora Furtado - XXIX 
TESTE T OU ESTATÍSTICA T 
 Você pode comparar uma média amostral com um valor hipotético ou 
com um valor alvo usando um teste T para uma amostra 
 Você pode comparar as médias de dois grupos com um teste T para 
duas amostras 
 Se você tiver dois grupos com observações pareadas (por exemplo, 
antes e depois das medições), use o teste T pareado 
 Os cálculos por trás dos valores T comparam suas médias amostrais 
com a hipótese nula e incorporam o tamanho amostral e a 
variabilidade nos dados 
 Um valor T de 0 indica que os resultados da amostra são exatamente 
iguais à hipótese nula. Conforme aumenta a diferença entre os dados amostrais e a hipótese nula, o 
valor absoluto do valor T aumenta 
 Uma probabilidade permite que determinemos em que medida nosso valor T é comum ou raro sob a 
suposição de que a hipótese nula é verdadeira 
 
 
 
 
 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
 EXERCÍCIO: 
Um pesquisador admite que a estatura dos homens pertencentes ao grupo indígena A é diferente dos 
indivíduos do sexo masculino concernentes ao grupo indígena B. Foram mensuradas doze pessoas do 
primeiro agrupamento e onze do segundo. 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
 EXERCÍCIO 
Um novo fabricante de suplementos alimentares para a idade sênior, informa que o conteúdo líquido 
polivitamínico envazados em frascos âmbar é, em média, de 2 kg. A Anvisa permite desvio padrão de ± 40 
g. No entanto, para atestar a confiança da informação, a Avisa recolheu 64 frascos. O conteúdo encontrado 
foi de 1,99 kg. Fixando o nível de significância em 5%, o fabricante deve ser multado por efetuar a venda do 
produto abaixo do especificado? 
 
 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
ANÁLISE DA VARIÂNCIA - ANOVA 
Vamos supor: Um pesquisador que queira comparar 3 condições diferentes/3 terapias diferentes 
ou ele deseja estudar dois grupos com tratamentos ativos e um placebo. 
QUANDO USAR ANOVA 
 A análise de variância (ANOVA) pode determinar se as médias de três ou mais grupos são 
diferentes. 
 Obs.: ela pode ser vista como uma extensão do teste t de amostras independentes. 
 Existem muitas variações da ANOVA devido aos diferentes tipos de delineamentos que podem ser 
realizados. 
 
EXEMPLO: 
Suponha que seja realizado um estudo para comparar 6 métodos cirúrgicos. A variável de resultado é 
a quantidade de sangue perdido durante a cirurgia. Neste caso, gostaríamos de fazer uma comparação entre 
os métodos. 
 Fazendo-se a comparação 2 a 2 por meio do teste Z ou do teste t 
exigiria a execução de 15 testes, pois por meio de combinação 
temos: 
 ou então optamos pela análise de variância – CERTO? 
ANOVA – HIPÓTESES 
 
Bioestatística Isadora Furtado - XXIX 
EXEMPLO: 
 H0: As médiassão iguais (μ1 = μ2 = ... = μk ) 
 H1: Existe pelo menos uma das médias diferentes 
 
 A hipótese nula do exemplo que a perda média de sangue nos 6 métodos cirúrgicos é a mesma. 
 Se a H0 for rejeitada, estatisticamente, o pesquisador saberá que ela é falsa. OU SEJA, a perda média 
de sangue pelas 6 técnicas não é a mesma. 
Mas porque a hipótese nula é falsa? 
 Porque o método um produz o mesmo resultado que o 2,3, 4, mas não produzem o mesmo resultado 
que o 5 e 6? 
 OU porque os 6 métodos produzem perdas estatisticamente diferentes entre si? 
 O ANOVA não pode responder a essa questão. 
 Ela apenas declara que a hipótese nula é falsa ou verdadeira. 
 
ANOVA: 
 Uma análise de variância permite que vários grupos sejam comparados a um só tempo, utilizando 
variáveis contínuas. 
 O teste é paramétrico (a variável de interesse deve ter distribuição normal) e os grupos devem ser 
independentes. 
 O teste é aplicado utilizando a estatística calculada F 
Cálculo do F – Teste F (ANOVA): 
 
Bioestatística Isadora Furtado - XXIX 
 
 
TESTE DE SIGNIFICÂNCIA – COMO INTERPRETAR? 
 Para testar as hipóteses é utilizada a estatística F, com (k – 1) graus de liberdade no numerador e (N 
– K) graus de liberdade no denominador. 
 Para testar as hipóteses é utilizada a estatística F, com (k – 1) graus de liberdade no numerador e (N 
– K) graus de liberdade no denominador. 
 O F crítico é obtido primeiro pela observação dos graus de liberdade do numerador e os graus de 
liberdade do denominador. 
 Encontraremos o F crítico na tabela do valores críticos da distribuição F (Utiliza o nível de 
significância – alfa e os graus de liberdade) 
 Se F calculado > ou = F crítico rejeita-se H0 e conclui-se que existe pelo menos uma média que 
difere de outra. 
 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
P-VALOR: 
 Um procedimento de teste equivalente usa a probabilidade de significância (p-valor), a qual é 
calculada pela maioria dos programas estatísticos. 
 O p-valor representa a probabilidade de ser obtida uma observação da distribuição F com k – 1 e N – 
k graus de liberdade maior ou igual ao valor observado pela F calculado. 
 
 Em outras palavras, o p-valor é a probabilidade, sob H0, de ocorrência do valor particular observado 
para a estatística de teste ou de valores mais extremos. 
 A probabilidade de significância de um teste mede a força da evidência contra H0 em uma escala 
numérica. 
 Um p-valor pequeno indica uma forte justificativa (evidência) para a rejeição de H0. 
TABELA ANOVA: 
 
COMPARAÇÃO DAS MÉDIAS: 
 O objetivo principal da ANOVA é apontar se um grupo é estatisticamente diferente do outro ou não. 
Logo, se a hipótese nula é rejeitada a um determinado nível de significância, sabemos então que 
existe pelo menos uma das médias de um tratamento que é diferente das demais. 
 Estatisticamente para determinarmos qual ou quais tratamentos não são estatisticamente iguais, 
utilizamos uma diferença mínima significativa (dms) que é utilizada para comparar as médias dos 
tratamentos. 
 Nada impede que se a hipótese H0 seja aceita, isto é, que as médias dos tratamentos sejam 
consideradas iguais que uma investigação seja conduzida. 
 Se H0 for aceita (médias iguais), o método de comparação de médias é dito não protegido 
 Se H0 for rejeitada, uma investigação será conduzida, então o método é dito protegido. 
Análise do dms: 
 Teste t: Diferença entre 2 grupos 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
 Teste de Tukey 
 
 Teste de Dunnett 
 
 Teste Bonferroni 
 
EXEMPLO 1: 
Como parte do estudo de controle de qualidade, as enfermeiras empregadas nos setores de 
emergência de quatro hospitais localizados em determinada área metropolitana são solicitadas a avaliar de 
forma anônima a qualidade dos cuidados fornecidos pelo hospital ao longo de vários aspectos. Cada aspecto 
é avaliado em um escala acumulativa que varia de zero (pior) a 20 (melhor). As avaliações para uma dessas 
dimensões são fornecidas na tabela. Use esses dados para realizar um teste F ANOVA com nível de 
significância 0,05. 
 
 
a) Qual seria a hipótese? 
b) Calcule o Teste F (ANOVA) 
c) Qual o p-valor? 
d) Interprete os resultados 
 
 
 n de cada grupo é diferente 
 Qual seria a hipótese nula nesse estudo? Qualidade dos cuidados oferecidos pelos 4 hospitais são 
iguais. Ou seja, não há diferenças entre as médias das avaliações. α = 0,05 
 F = QMentre/QMdentro = Fcalculado 
 Bioestat – seleciona análise da variância e escolhe um critério 
 p valor é significativo rejeita a hipótese nula 
 Pega a tabela de organização dos dados ANOVA 
Bioestatística Isadora Furtado - XXIX 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
EXEMPLO 2: 
Pesquisadores interessados no estresse relacionado a tarefas de trabalho em ambientes industriais 
realizam um estudo em que as pulsações de três grupos de trabalhadores são comparados. 
 O 1o grupo consiste em funcionários administrativos que realizam tarefas administrativas de rotina; 
 O 2o grupo trabalha com materiais perigosos; 
 O 3o grupo realiza atividade laborais semelhantes às realizadas pelo 2o, no entanto, não entra em 
contato com os materiais perigosos. 
As pulsações arteriais foram medidas na metade do almoço para os três grupos e estão tabeladas a 
seguir: 
 
a) Qual seria a hipótese? 
b) Calcule o Teste F (ANOVA) 
c) Qual o p-valor? 
d) Interprete os resultados 
 
EXEMPLO 3: 
Foi efetuada uma investigação em três grupos de estudantes: o grupo A estava constituído por 6 
alunos não fumantes (NF), o segundo por 6 discentes que fumavam moderadamente em torno de 10 a 15 
cigarros por dia (FM), e o terceiro, por 5 estudantes que fumavam mais de 40 cigarros por dia (F1). Mediu-
se a função pulmonar através do fluxo médio expiratório. Os dados obtidos estão no gird geral. 
a) Qual seria a hipótese? Não existe uma evidencia que as medias sejam diferentes entre os alunos não 
fumantes, com os que fumam moderadamente e os que fumam intensamente. α = 0,05 
b) Calcule o Teste F (ANOVA) 
c) Qual o p-valor? 
d) Interprete os resultados 
Bioestatística Isadora Furtado - XXIX 
 
 
 k – 1 = 3 – 1 = 2 
 n – k = 17 – 3 = 14 
 F crítico = 3,74 tabela 
 Fcalculado > Fcrítico 
 
Por mais que tenha diferença na quantidade de cigarros, ambos causam diferença no fluxo respiratório, 
devido ao processo inflamatório gerado ao longo das vias. 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
ANÁLISE DE CORRELAÇÃO E REGRESSÃO 
CORRELAÇÃO LINEAR 
Permite verificar se duas variáveis independentes estão associadas uma com a outra, exemplos: 
 A temperatura da superfície da pele tem alguma associação com as mudanças da temperatura do 
ambiente? 
 A contaminação por Covid-19 tem alguma relação com a falta do hábito de higienização? 
CORRELAÇÃO LINEAR – PEARSON 
Umas das formas utilizadas para se encontrar essas relações é o cálculo do coeficiente de correlação linear 
de Pearson, r [- 1,0; + 1,0]: 
 r = 1,0 correlação positiva perfeita 
 r = - 1,0 correlação negativa perfeita 
TIPOS DE RELAÇÃO ENTRE VARIÁVEIS 
Os valores do coeficientede correlação se situam entre os intervalos −1 e +1, sendo que 1 representa uma 
relação perfeita e 0 ausência de relação entre as variáveis. 
O sinal negativo indica uma relação contrária e positivo uma relação favorável entre as variáveis. 
 
 
Observações: 
 Correlação não é o mesmo que causa e efeito. Duas variáveis podem estar altamente correlacionadas 
e, no entanto, não haver relação de causa e efeito entre elas 
 Se duas variáveis estiverem amarradas por uma relação de causa e efeito elas estarão, 
obrigatoriamente, correlacionadas 
 O estudo de correlação pressupõe que as variáveis X e Y tenham uma distribuição normal 
 A palavra simples que compõe o nome correlação linear simples, indica que estão envolvidas no 
cálculo somente duas variáveis 
 O coeficiente de correlação linear de Pearson mede a correlação em estatística paramétrica 
Bioestatística Isadora Furtado - XXIX 
TESTE DE HIPÓTESE (p = 0) 
 Uma vez que estamos interessados em saber a correlação entre as variáveis na população, e para isso, 
utilizamos um coeficiente amostral, devemos nos perguntar se aquele valor retornado pelo 
coeficiente de correlação de Pearson ocorreu por mero acaso ou se com uma determinada 
probabilidade de associação. 
 Logo, é pertinente testarmos se o coeficiente de correlação é igual a zero ou diferente, maior ou 
menor que zero. 
 No entanto, para realizarmos inferências sobre o coeficiente de correlação de Pearson, precisamos 
supor que a distribuição dos dados é normal bivariada 
 Podemos resolver o problema aplicando um teste de hipóteses para verificarmos se o valor de rxy é 
coerente com o tamanho da amostra n, a um nível de significância α, que realmente existe correlação 
linear entre as variáveis: 
o H0: p = 0 não existe correlação entre X e Y 
o H1: p ≠ 0 existe correlação entre X e Y 
COEFICIENTE DE DETERMINAÇÃO (R2) 
 Indica a proporção de variação da variável independente que é 
explicada pela variável dependente, ou seja, é uma ferramenta 
que avalia a qualidade do ajuste 
 Quando mais próximo da unidade o R2 estiver, melhor a qualidade do ajuste. O seu valor fornece a 
proporção da variável Y aplicada pela variável X através da função ajustada 
 Exemplo: R2 = r2xy = (0,9929)2 = 0,9858 = 98,50% é a proporção que Y é aplicada por X, ou seja, 
98,50% da variação do número de livros é explicado pelo tempo que frequentou a escola 
CORRELAÇÃO LINEAR – SPEARMAN 
 O coeficiente de correlação de postos de Spearman, denominado pela letra grega ρ (rho), é uma 
medida de correlação não-paramétrica. 
 Ao contrário do coeficiente de correlação de Pearson, Sperman não requer a suposição que a relação 
entre as variáveis é linear, nem requer que as variáveis sejam quantitativas; pode ser usado para as 
variáveis medidas no nível ordinal. 
 Variáveis Quantitativas ou Categóricas: são as características que não possuem valores 
quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma 
classificação dos indivíduos. Podem ser nominais ou ordinais 
 Este é um método não-paramétrico que usa somente os postos, e não faz quaisquer suposições. 
 A correlação de Spearman é muito usada para avaliar relações envolvendo variáveis ordinais. Por 
exemplo, você poderia usar a correlação de Spearman para 
avaliar se a ordem na qual os funcionários executam um 
teste está relacionada ao número de meses de emprego. 
 Essencialmente tudo o que faz é calcular o coeficiente de 
correlação de Pearson nos postos. 
Obs.: di = (posto de xi, dentre os valores de x) – (posto de yi nos 
valores de y). 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
 ATIVIDADE – APLICAÇÃO E INTERPRETAÇÃO 
Numa instituição de ensino médio e fundamental pesquisaram uma 
amostra de 10 alunos entre 8 a 14 anos de idade. A pesquisa queria analisar se 
a capacidade neuroplástica de aptidão em matemática se relaciona com a 
aptidão em música. Os alunos foram submetidos a dois testes de aptidão: uma 
para matemática e outro para a música. A ordem da aplicação dos testes nas 
crianças foi aleatória. Os dados estão representados na tabela ao lado. O 
pesquisador quer analisar a relação positiva entre as aptidões. 
 Para visualizar melhor, é necessário criar um gráfico com os pontinhos 
 H0: Não há evidência de uma relação positiva da capacidade 
neuroplástica de aptidão em matemática e da aptidão em música (r = 0) 
 Há: há evidência de uma relação positiva da capacidade neuroplástica de 
aptidão em matemática e da aptidão em música (r ≠ 0 / r > 0) 
 α = 0,05 (nível de significância) 
 Bioestat: inserir os dados da tabela estatística correlação 
coeficiente de correlação de Pearson colunas disponíveis >>colunas 
selecionadas 
 
 p valor = 0,7376 = 0,74 p valor > α aceito a H0, essa relação positiva fraca não tem significância 
 
Um estudo pretende verificar os resultados do escore de Apgar de dois médicos neonatologistas que 
efetuaram a avaliação de seis recém-nascidos. O estudo pretende analisar a relação entre os resultados aferidos 
por dois distintos médicos e se eles chegaram no mesmo resultados. 
Interpretação dos resultados: 
 de 0 a 3 – Asfixia grave 
 de 4 a 6 – Asfixia moderada 
 de 7 a 10 – Boa vitalidade, boa adaptação 
Os valores foram inseridos no grid geral. 
 H0: Não há uma correlação entre os resultados das avaliações 
dos neonatologistas em relação aos escores de Apgar dos recém-nascidos: r = 0; 
 H1: há uma correlação entre os resultados das avaliações dos neonatologistas em relação aos escores de Apgar 
dos recém-nascidos: r ≠ 0; 
 Nível de decisão: alfa = 0.05. 
 Bioestat: inserir os dados da tabela estatística correlação 
coeficiente de correlação de Pearson colunas disponíveis 
>>colunas selecionadas 
 
 p < 0,05 rejeita a H0 
 Se o intervalo não passa pelo 0, se tem uma associação rejeita H0 
Bioestatística Isadora Furtado - XXIX 
Um estudo fez um levantamento em adolescentes de dados antropométrico (peso e estatura) para 
verificar a existência de uma associação entre as variáveis. A amostra foi randômica e os dados estão no grid 
geral. 
 H0: não há associação entre peso e estatura de 
adolescentes: r= 0; 
 H1: há correlação entre as duas variáveis: r ≠0; 
 Nível de decisão: alfa = 0.05 
 Bioestat: inserir os dados da tabela estatística 
correlação coeficiente de correlação de 
Pearson colunas disponíveis >>colunas selecionadas 
 
 p < 0,05 rejeita a H0 
 
Atkinson et al. (1994) investigaram em que medida partículas de chumbo potencialmente tóxica 
emitidas por veículos automotores são absorvidas por ciclistas que participam de competições. A tabela, 
construída a partir de um gráfico apresentado em seu artigo, fornece níveis de chumbo no sangue e horas de 
treinamento de 10 ciclistas. 
Pede-se: 
a. Crie a Ho e Ha. 
b. Verifique se há uma relação entre níveis de chumbo no 
sangue e horas de treinamento. 
c. Faça o gráfico de dispersão. 
d. A relação expressa pela correlação de Pearson que você 
calculou no estudo faz sentido? Explique. 
e. O ciclista 10 tem níveis muito altos. Nossa evidência de 
uma relação é proveniente quase que inteiramente desta 
observação? Repita (b) omitindo o ciclista 10. O que você 
encontrou? 
 
 
 
 
 
 
 
 
Bioestatística Isadora Furtado - XXIX 
REGRESSÃO LINEAR SIMPLES 
CORRELAÇÃO LINEAR X RLS 
Permite verificar se duas variáveis independentes 
estão associadas ua com a outra 
Os intervalões do coeficiente de correlaçãose 
situam entre os intervalos – 1 e + 1, sendo que 1 
representa uma relação perfeita e 0 ausência de 
relação entre as variáveis 
O sinal negativo indica uma relação contrária (inversamente proporcional) e positivo uma relação favorável entre as 
variáveis (diretamente proporcional) 
A presença ou ausência de relação linear pode ser investigada por dois pontos de vista: 
“Método estatístico que utiliza relação entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou 
predita) a partir da outra ou das outras” 
REGRESSÃO LINEAR SIMPLES (RLS) 
 A análise de regressão estuda a relação entre uma variável chamada a variável dependente e outras variáveis 
chamadas variáveis independentes 
 A relação entre elas é representada por um modelo matemático, que associa a variável dependente com as 
variáveis independentes 
 Este modelo é designado por modelo de regressão linear simples (MRLS) se define uma relação linear entre a 
variável dependente e uma variável independente 
 A análise de correlação dedica-se a inferências estatísticas das medidas de associação linear que se seguem: 
o Coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre 2 variáveis 
o Coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre uma variável 
e um conjunto de outras variáveis 
 As técnicas de análise de correlação e regressão estão intimamente ligadas 
 X – variável explicada ou dependente (aleatória) 
 X – variável explicativa ou independente medida sem erro (não aleatória) 
 α – coeficiente de regressão, que representa o intercepto (parâmetro desconhecido do modelo a estimar). 
Pode ser representado pela letra a. 
 β - coeficiente de regressão, que representa o declive (inclinação) (parâme tro 
desconhecido do modelo a estimar). Pode ser representado pela letra b. 
 ε – erro aleatório ou estocástico, onde se procuram incluir todas as 
influencias no comportamento da variável Y que não podem ser 
explicadas linearmente pelo comportamento da variável X 
 Exemplo: relação entre o peso e a altura de um homem adulto (X: altura, 
Y: peso) 
 
Bioestatística Isadora Furtado - XXIX 
 EXERCÍCIO 1 
a) Construa um modelo de RLS para prever os escores de 
acesso a partir do escore de bem-estar. 
b) O que significa o termo b no modelo RLS em termos de 
escore de acesso e bem estar? 
c) Determine os coeficientes de determinação e não 
determinação associados aos valores x e y e explique o que 
está acontecendo. 
 
 Escore de Acesso (X – variável explicativa - independente) e 
Escore de Bem Estar (Y – variável explicada - dependente) 
 Bioestat primeira coluna Y e segunda coluna X estatística 
regressão linear simples colunas disponíveis >> colunas 
selecionadas executar 
 Olha o F de regressão (168.4936), p < 0,001 = existe uma 
influência do número de acesso de serviços de saúde e bem 
estar 
 Modelo RLS equação da reta (Y = a + bx) Y = 0,87 + 
0,71X (inclinação ascendente). A variável X indica que cada 
unidade de X (escore de acesso) que aumenta, aumenta 0,71 do 
escore de bem estar (Y) 
 O termo b significa o coeficiente de regressão que mostra a 
inclinação da reta 
 Coeficiente de Determinação: prediz o quanto que X explica Y. 
R2 = 0.93 (a variável x explica 93% do valor da variável Y) 
 Coeficiente de não determinação: 1 – R2 = 1 – 0,93 = 0,07 
7% da variabilidade de Y não é explicada por X e sim por 
outros fatores 
REGRESSÃO LINEAR MÚLTIPLA 
 RLS serve para estimar o quanto uma variável 
influencia na variabilidade de outra variável 
 Na regressão linear múltipla teremos várias variáveis 
explicativas ou independentes: 
 
 X1, ..., Xk – variáveis explicativas ou independentes 
medidas sem erro (não aleatórias) 
 E – variável aleatória residual na qual se procuram incluir todas as influencias no comportamento da variável 
Y que não podem ser explicadas linearmente pelo comportamento das variáveis X1, ..., Xk e os possíveis 
erros de medição 
 β0, ..., βk – parâmetros desconhecidos do modelo (a estimar) 
 Y – variável explicada ou dependente (aleatória) 
 
Bioestatística Isadora Furtado - XXIX 
Num estudo de regressão, temos n observações de cada variável independente: 
 
COEFICIENTE DE DETERMINAÇÃO 
O quociente entre SSR e SST dá nos uma medida da proporção da variação total que é explicada pelo modelo de 
regressão. A esta medida dá-se o nome de coeficiente de determinação (r2): 
 
Este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento, ou como medida da confiança 
depositada na equação de regressão como instrumento de previsão: 
 
O QUE EU PRECISO ANALISAR? 
1. Teste F de significância – o modelo é útil para avaliar as associações? 
 F de significância: teste F de significância global do modelo. Valor p 
 Pergunta: há evidência de que pelo menos uma variável independente no modelo está relacionada com a 
variável dependente? 
 Ou seja, pelo menos ua variável do modelo está relacionada com a circunferência abdominal? 
 
2. Teste de significãncia individual 
 Quais variáveis estão relacionadas com a cirgunferência abdominal? 
 Valor p 
 
3. R2 e R2 
 Índice corporal e uso de medicamentos explicam qual a % de variabilidade da circunferência abdominal? 
 Relação é forte ou fraca? 
 
4. Coeficientes 
 Quais os valores de b0, b1 e b2? 
 Com esses valores, posso montar a equação da RLM 
Bioestatística Isadora Furtado - XXIX 
 EXERCÍCIO 
a) O modelo é útil para prever a variação da PAS? 
b) Há evidência de que a idade, o peso e o exercício físico 
estão relacionadas com a variação da PAS? O que 
significa o termo b0 (a), b1, b2 e b3 no modelo RLM? 
c) Determine os coeficientes de determinação e não 
determinação associados aos valores e explique o que 
está acontecendo 
Importante: No Bioestat, o Y vem primeio nas colunas para análise. 
 PAS é o Y e os outros parametros são as variáveis 
independentes 
 Bioestat estatísticas regressão múltipla clunas 
disponíveis >> colunas selecionadas 
 F = 7.7030, p = 0,0062 é útil porque o p valor foi 
menor que 0,05. Uma das variáveis do modelo influencia 
sob a PAS 
 a = 93,5; b1 = - 0,093 (reta decrescente); ; b2 = 0,63 (reta 
ascendente); b3 = - 8,51 (reta descendente) 
 Y = a + b1x1 + b2x2 + b3x3 = 93,5 + (-0,09)x1 + 0,63x2 
+ (- 8,51)x3 
 b1 p valor = 0,80 (p > 0,05) / b2 p valor = 0,19 (p > 
0,05) / b3 p valor = 0,02 (p < 0,05) 
 Os exercícios diários em horas que influencia. Para cada 
aumento do exercício diário em horas, diminuio em torno 
de 8,51 mmHg a PAS 
 Termo b0 (a) é o coeficiente de regressão, o intercepto. O b mostram onde são parametros desconhecidos que 
vamos estimar sobre a variabilidade da variável independente e a inclinação da reta 
 Coeficiente de determinação múltipla: R2 = 0,70 A variável X3 explica 70% do valor da variável Y 
 Coeficiente de não determinação múltipla: 1 – R2 = 1 – 0,70 = 0,30 Os outros 30% são explicados por 
outros valores, além do d aanálise feita

Outros materiais