Bioestatistica - A2

18

0

18

0

1

Júlia Malta

08.06.2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Epidemiologia e Bioestatística

2.195 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Júlia Malta Braga
FCM-TR
Turma 01
19/09/2019
Intervalo de confiança
● Intervalos de confiança são usados para indicar a confiabilidade de uma estimativa.
● Um intervalo de confiança (IC) é um intervalo estimado de um parâmetro de interesse de
uma população.
○ Indica a “margem da incerteza”
○ É usual trabalhar com valores na ordem de:
90%, 95%, ou 99%
Teste de Hipótese
● Outra forma de generalizar conclusões tiradas de uma amostra para uma
populaçãoéatravésdostestesestatísticos.Ostestessebaseiamnalógica dostestesdehipóteses; §
Hipótesessãoexplicaçõespotenciaisparaasnossasobservações;
○ §É uma suposição sobre uma variável de nosso interesse.
Hipótese nula
☆Alega que não há diferença entre as
comparações estabelecidas.
☆Hipótese mais simples para explicar as
diferenças observadas.
☆Ausência de diferença entre os parâmetros
populacionais e diferenças observadas são
apenas devido ao acaso.
Hipótese Alternativa
☆Hipótese contrária à hipótese nula;
☆A diferença observada não pode ser
explicada apenas pelo acaso.
● Procedimento estatístico pelo qual se rejeita ou não uma hipótese.
● Associa à conclusão, um risco máximo de erro.
● Testes testam a HIPÓTESE NULA. Se ela for rejeitada, a hipótese alternativa é
automaticamente aceita.
● Há dois tipos de erros:
● Erro tipo I(α) – quando a hipótese nula é verdadeira e você a rejeita.
○ Quanto menor o valor de P mais confiantes podemos ficar de que não cometemos
erro tipo I.
○ A melhor maneira de evitar erro tipo I é aumentar o tamanho da nossa amostragem
(n).
● Erro tipo II (β) - É a probabilidade de rejeitar uma hipótese nula quando ela é falsa
● O melhor é ter um β pequeno, para não cometer um erro do Tipo II (aceito quando é falsa)
● Pode aumentar a chance de cometer um erro do Tipo I, se o delineamento experimental não
for bom.
Valor de P ou Valor de Probabilidade
● O valor de P (ou p-valor) é um guia para decidir se a hipótese é nula ou não nula.
● Ele mede a probabilidade de que a diferença observada poderia ser encontrada se a hipótese
nula fosse verdadeira.
● Permite decidir, com base na análise dos dados, se há evidências suficientes para rejeitar a
hipótese da nulidade.
● P-valor é a probabilidade do pesquisador estar errado quando diz que grupos que está
comparando são diferentes.
Júlia Malta Braga
FCM-TR
Turma 01
● Quando reportamos que um resultado foi significativo é porque o valor de P é < ou = 0,05.
P > 0,05⟶ não significativo⟶ Não houve diferença entre os grupos analisados⟶
Hipótese nula aceita.
P < ou = 0,05⟶ significativo⟶ Houve diferença entre os grupos analisados⟶ Hipótese
nula rejeitada.
● O que influencia no valor de P?
○ O número de observações (n);
○ As diferenças entre as médias das amostras;
○ O nível de variação entre os indivíduos (s2).
Nível de Significância
● É um valor fixado previamente pelo pesquisador e sua magnitude vai depender do risco que
o pesquisador deseja assumir ao tomar uma decisão incorreta.
● Geralmente é expresso pela letra grega α e os valores usualmente adotados são 5%, 1% e
0,1%.
● Se o valor do p for menor que o nível de significância (α) deve-se concluir que o resultado é
significante pois o erro está dentro do limite fixado.
p-value < α⟶ rejeito H0⟶ diferença
p-value > α⟶ não rejeito H0⟶ igualdade
Média +- DP⟶ utilizada para dados homogêneos⟶ padrão de distribuição normal⟶ dados
paramétricos.
Mediana +- Intervalo Interquartil⟶ utilizado para dados heterogêneos⟶ padrão de
distribuição não normal⟶ dados não paramétricos.
17/10/2019
Paramétricos
● Segue a distribuição normal.
● São mais poderosos.
● H0 = médias entre populações são iguais.
● Exige que os dados sejam analisados através de testes paramétricos: teste t e ANOVA.
● Valores originais são testados: média e variância.
● Média representa a tendência central.
Não Paramétricos
● Não segue a distribuição normal.
● São menos poderosos.
● H0 = distribuições entre populações são iguais.
● Exige testes não paramétricos: Kruskal Wallis e Wilcoxon.
● Amostras pequenas e dados qualitativos.
● Valores originais são transformados em um “rank”.
● Mediana representa a tendência central.
Teste de normalidade
● Devemos testar-se a distribuição dos dados antes de se decidir pelo teste de hipótese
paramétrico ou não.
● Muitas vezes, autores assumem a normalidade sem a realização de testes para verificação.
● Testes mais utilizados:
○ Shapiro-Wilk
Júlia Malta Braga
FCM-TR
Turma 01
○ Kolmogorov Smirnov
○ Anderson-Darling
H0: Os dados seguem uma distribuição normal.
H1: Os dados não seguem uma distribuição normal.
Ou seja, p > 0,05 = dados seguem distribuição normal.
✱Todos os três testes tendem a funcionar bem na identificação de uma distribuição como não normal.✱
Quando seus dados não atingem as premissas de uma distribuição normal:
● Mudar a distribuição (Exemplo: Poisson para contagens. Exponencial para dados contínuos e
que aumentam com o tempo.)
● Aumentar o “n”.
● Excluir outliers - depende do contexto.
● Transformar seus dados: log e raiz quadrada.
● Usar distribuição não paramétrica.
Teste T
● Aplicabilidade: testar médias entre dois grupos.
● Pareado → Mesma amostra em tempos diferentes
○ Antes e após determinada intervenção, considera a variação fisiológica do paciente.
○ Mensurando o mesmo indivíduo em tempos diferentes.
● Não Pareado → Amostras diferentes em um dado momento.
○ Pacientes que tomaram algum medicamento e pacientes que tomaram placebo.
○ São grupos distintos.
● Pressupostos:
○ Dados com distribuição normal (paramétricos, gaussianos) - Gráfico em forma de
sino.
○ A variável testada deve ser numérica (contínua, na grande maioria).
ANOVA
● Analysis of Variance - Análise de Variância.
● Pode ser considerada uma extensão do teste t, pois também analisa e compara médias entre
tratamentos ou grupos, mas entre 3 ou mais grupos.
● Ao menos um média é diferente: H0 não é verdadeira → há diferença.
● Pressuposto:
○ Dados devem ter distribuição normal (paramétricos, gaussianos).
○ A variável testada tem que ser numérica e contínua.
○ A variância entre as variáveis devem ser iguais.
↪ Homocedasticidade ou homogeneidade de variâncias.
↪ Existe correção na execução do teste estatístico quando este pressuposto
não é atingido.
↪ Para saber se os dados atingem o pressuposto da homocedasticidade,
utiliza-se o Teste de Levene.
● Concluindo:
○ A análise testa se as variações entre os grupos é maior do que dentro dos grupos.
○ Se as variações entre os grupos tratamentos são grandes, as variações devidas ao
acaso (erro) são pequenas, logo, rejeitamos H0.
○ ANOVA vai fornecer no resultado o valor de F e valor de p.
● Nos diz se há diferença ou não entre os tratamentos, mas não diz entre quais tratamentos
existe essa diferença;
● Usamos os Testes post hoc: faz uma comparação 2 a 2 para descobrir as diferenças entre os
tratamentos.
● Mais utilizados: Turkey, Bonferroni e Scheffé.
Júlia Malta Braga
FCM-TR
Turma 01
● São muito parecidos, mas deve-se avaliar: número grande ou pequeno de grupos, n dentro
dos grupos são iguais ou não, se objetiva um teste mais poderoso ou mais liberal, com pouco
controle sobre o erro.
Anova one way x Anova two way
➔ Na ANOVA fator duplo, mais de uma observação para o mesmo indivíduo. Há o impacto de
dois fatores na característica de interesse.
Ex.: Avaliar o tempo de corredores da maratona de NY, analisando o sexo e a idade.
Lista de Exercícios - 22/10/2019
1. Um pesquisador deseja investigar se o ambiente onde uma comunidade vive – rural, urbano
ou periferia - possui efeito no número de casos de distúrbios do sono registrados nestes
locais. Para isso, ao longo de um ano, este pesquisador observou a quantidade de casos de
distúrbio do sono de pacientes atendidos nas UBS instaladas em cada um dos locais objetos
da investigação: UBS em zona Rural X UBS em zona Urbana X UBS na Periferia. Observe a
contagem registrada em cada local:
UBS urbana: 82, 83, 97, 93, 55, 67, 53
UBS rural: 83, 78, 68, 61, 77, 54, 69, 51, 63
UBS periferia: 38, 59,55, 66, 45, 52, 52, 61
a. Explique por que a Análise de Variância é um teste aconselhável para esse conjunto
de dados.
Resposta: Porque a ANOVA analisa e compara médias entre 3 ou mais grupos, os quais
devem ter distribuição normal, variável numérica e contínua, e a variância entre as variáveis
deve ser igual.
b. Apresente o quadro do resultado da ANOVA.
c. Qual a tomada de decisão após encontrar o resultado?
Resposta: A Hipótese nula foi rejeitada, pois o valor de P é menor que 5%. Ou seja, o
ambiente onde a comunidade vive possui efeito no número de casos de distúrbios do sono
registrados nestes locais.
2. Os dados abaixo mostram a porcentagem de gordura corporal para vários homens e
mulheres. Estas pessoas participaram de um programa de controle de peso, por três vezes
por semana, durante um ano. As medidas referem-se a porcentagem de gordura de seus
corpos.
Homens 13,3 - 19,0 - 20,0 - 8,0 - 18,06 - 22,0 - 20,0 - 31,0 - 21,0 - 12,0 - 16,0 -
12,0 - 24,0
Mulheres 22,0 - 26,0 - 16,0 - 12,0 - 21,7 - 23,2 - 21,0 - 28,0 - 30,0 - 23,0
a. Calcule a média e desvio padrão para cada grupo.
Média: Homes - 18,2 Mulheres - 22,3
Desvio Padrão: Homens - 6,0 Mulheres - 5,3
Júlia Malta Braga
FCM-TR
Turma 01
b. Qual teste estatístico você poderia utilizar para comparar estes dados, supondo que
haja uma distribuição normal?
Resposta: Eu usaria o Test T não pareado, pois este amostras diferentes em um dado
momento.
c. Qual seria sua hipótese nula?
Resposta: O programa de controle de peso não tem efeito na porcentagem de gordura
corporal dos pacientes.
3. Quando devemos usar testes estatísticos paramétricos nas análises dos dados?
Resposta: Quando os dados seguem uma distribuição normal, ou seja, a média representa a
tendência central.
4. Escrever um exemplo de pesquisa fictícia na qual você precisaria analisar os dados através da
ANOVA 2 fatores (two way), descrevendo qual seria o objetivo da pesquisa e quais variáveis
seriam analisadas.
Resposta: Analisar a duração das voltas completas por equipe de fórmula um, avaliando o
motor usado e o tipo de pneu.
5. Pesquisar e explicar brevemente quando se aplica o teste da ANCOVA.
Resposta: ANCOVA significa Análise de Covariância, ou seja, é a análise se um dos grupos
estudados influência ou não no outro, estabelecendo uma relação de covariância. O estudo
permite determinar o grau dessa covariância, sendo fortemente ou pouco influenciada pela
variância. Determina-se então se um grupo é dependente do outro.
17/10/2019
Não Paramétricos
● Não segue a distribuição normal.
● São menos poderosos.
● H0 = distribuições entre populações são iguais.
● Exige testes não paramétricos: Kruskal Wallis e Wilcoxon.
● Amostras pequenas e dados qualitativos.
● Valores originais são transformados em um “rank”.
● Mediana representa a tendência central.
Testes Não Paramétricos
● Podem ser aplicados a uma ampla diversidade de situações: não exigem populações
distribuídas normalmente.
● São aplicados a dados não-numéricos (categóricos ou qualitativos).
● Testes Não-Paramétricos não são tão poderosos quanto os testes Paramétricos: exigem
amostras maiores ou maiores diferenças para conseguirmos rejeitar H0.
● Tendem a apresentar uma perda de informação: dados brutos não são utilizados, são
reduzidos a dados qualitativos (postos/rank).
Júlia Malta Braga
FCM-TR
Turma 01
Testes U
● São os Testes de Wilcoxon e Mann-Whitney.
● São usados para comparar duas populações.
● São baseados nos postos (ranques) dos valores obtidos, combinando-se ambas as amostras.
● Ordena-se os valores, do menor para o maior.
● Exemplos:
○ Testes de Mann-Whitney:
↪ Um estudo investigou a morfologia das regiões organizadoras do nucléolo
(RON) em células da cérvice uterina de mulheres com neoplasias cervicais,
comparando com um grupo controle. Foram observadas 100 células de cada
mulher, computando-se um escore para cada padrão morfológico. No padrão
1A, as RONs apresentavam-se como manchas sólidas, redondas e de
tamanhos diferentes.
○ Testes de Wilcoxon:
↪ Um pesquisador mediu a colinesterase sérica em agricultores que aplicaram
inseticida em plantas de interesse comercial. Foram feitas duas coletas de
sangue em cada pessoa: uma antes da aplicação do inseticida e outra 24 h
após a aplicação.
Teste de Kruskal-Wallis (KW)
● Teste não paramétrico utilizado para comparar três ou mais populações.
● Aplicação: para testar se k amostras (k > 2) independentes provêm de populações com
médias iguais.
● Há também ranqueamento dos dados.
Teste de Friedman
● Teste não paramétrico utilizado para comparar três ou mais populações que não são
independentes.
● Similar ao ANOVA, porém tem medidas repetidas e dependentes.
Teste do Qui-quadrado
● É um teste de associação.
● Testa associação de variáveis qualitativas.
● É o mesmo teste tanto para compararmos 2 amostras, quanto para k amostras
independentes.
● Associação entre duas ou mais variáveis categóricas.
● Permite determinar se:
○ H0 → Não há associação entre as variáveis.
○ H1 → Há associação entre as variáveis.
● Deve-se achar o valor esperado para cada célula e comparar com os dados observados.
○ Para encontrar o valor esperado em cada células:
Total da linha X Total da coluna / total estudado.
● Também é possível estudar a relação entre duas variáveis categóricas que admitem mais de
duas categorias de resposta.
● Também é aplicada para um único critério.
Teste exato de Fisher
● Utilizado para testar associação entre 2 variáveis qualitativas (tabelas 2 X 2).
● É indicado quando o tamanho das duas amostras independentes é pequeno.
○ Frequência esperada menor que 5.
● Exemplo: Existe associação entre o tipo de tratamento e a incidência de enxaqueca?
Júlia Malta Braga
FCM-TR
Turma 01
Teste de McNemar
● Utilizado para testar associação entre 2 variáveis qualitativas (tabelas 2 X 2), mas não
independentes.
● Amostras são pareadas: amostra 1 contém os próprios elementos que também serão
comparados no evento 2.
● Exemplo: O treinamento da técnica da punção venosa periférica possui efeito no
aprimoramento da técnica por enfermeiros?
Lista de Exercícios - 22/10/2019
1. Qual foi o objetivo da pesquisa? Qual foi o tamanho amostral?
Resposta: O objetivo foi avaliar os efeitos de um programa de fortalecimento e
condicionamento aeróbio no desempenho funcional e na capacidade física de indivíduos
com DP. O tamanho amostral foi de 17 pessoas.
2. Critique as análises estatísticas utilizadas, justificando a escolha dos testes utilizados.
Foram utilizados os testes estatísticos “testes t” e “ANOVA para medidas repetidas” para a
análise.
Resposta: O teste t é utilizado para comparar médias entre dois grupos, e quando pareado,
que foi o caso do artigo, avalia a média entre o mesmo grupo em dois momentos, no caso
antes e depois do programa de fortalecimento e condicionamento. A ANOVA pode ser
considerada uma extensão do teste t, pois também analisa e compara médias entre
tratamentos ou grupos, mas entre 3 ou mais grupos, e, no caso, foi utilizada a ANOVA para
medidas repetidas com dois níveis fatoriais, o fator tempo (antes e após a intervenção) e o
outro, membro inferior (mais e menos afetado).
3. Na discussão do artigo, os autores apontam para um possível viés; discuta sobre esta
sugerida tendenciosidade que a pesquisa apresenta, bem como ela pode ter afetado os
resultados.
Resposta: O artigo analisou pacientes em estágio brando da DP (estágio 1 a 3) com baixa
condição socioeconômica que não tenham outras doenças e devido a junção destes fatores
com a possibilidade de melhora ao participar de um estudo e, assim, ter um bom
tratamento, estavam muito motivados por terem acesso a um recurso que talvez não teriam.
Ou seja, eles juntaram boas características dos pacientes com alta expectativa, esperança e
estando motivados, que é a melhor amostra para o resultado desejado. Portanto, não é
possível estimar o impacto real que tal intervenção teria caso fosse aplicada em pacientes com
melhores condiçõessocioeconômicas, que tem acesso a outros tratamento, ou em estágios mais
avançados da doença.
29/10/2019
Análises de Regressão Linear
● Utilizada para formular um modelo preditivo para uma variável de distribuição normal.
● As variáveis independentes não podem ter relação entre si e sua variância deve ser
constante.
↪ Se o meu estudo estiver considerando o peso, não pode considerar o IMC,
pois o IMC depende do peso.
● Pode ser simples ou múltipla:
○ Simples: investiga a relação entre duas variáveis apenas, sendo uma a que influencia
e a outra a influência.
○ Múltipla: investiga a influência de um conjunto de mais de uma variável
independente sobre a variável dependente.
Júlia Malta Braga
FCM-TR
Turma 01
● Variável independente - são as passíveis de modulação direta. É a variável que será
manipulada pelo pesquisador e que trará algum efeito sobre a variável dependente.
● Variável dependente - é resultado da variável independente. É a variável que sofrerá os
efeitos da manipulação dos estudos.
● A forma mais usual de apresentar esses dados é em gráficos de dispersão, que são a
representações dos dados de duas ou mais variáveis organizadas em um gráfico.
○ O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um
conjunto de dados.
○ Os dados são exibidos como uma coleção de pontos, cada um com o valor de uma
variável determinando a posição no eixo horizontal e o valor da outra variável
determinando a posição no eixo vertical (em caso de duas variáveis).
→ É utilizado para verificar se existe relação de causa e efeito entre duas variáveis de
natureza quantitativa.
07/11/2019
Análises de Regressão
● Investiga a relação entre:
○ Variável dependente Y
○ Variável independente X
● Há uma relação de Causa e Efeito entre estas variáveis.
● A Relação entre variável dependente (X) e independente (Y) é representada por um modelo
matemático:
Y = α + ßX
○ α = ponto onde a reta toca o eixo y - interseção.
○ ß = coeficiente angular - inclinação da reta.
● Propósito da análise:
○ Avaliar uma possível dependência de y em relação a x.
○ Expressar matematicamente esta relação por meio de uma equação.
● Principais pressupostos da análise de regressão:
○ A variável Y deve ter distribuição normal ou aproximadamente normal.
○ Deve existir homocedasticidade - igual entre variâncias.
○ Os pontos do gráfico devem apresentar uma tendência linear.
● Apesar de poderosa, a análise de regressão linear exige fortes suposições para sua utilização,
como normalidade, independência e homocedasticidade dos erros. Caso estes pressupostos
sejam violados, como solução, aplica-se os Modelos Lineares Generalizados.
Gráficos de dispersão
● Os pontos representam os dados e a reta é a tendência dos dados, sendo calculada a partir
deles.
● Coeficiente de determinação (R²) é a medida de confiabilidade da reta de regressão.
● É a proporção da variabilidade de y que é explicada pelo modelo.
0 ≤ R² ≤ 1
Analise de Residuos
● Conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão
com base nos resíduos.
● Representa a quantidade da variabilidade de Y que o modelo ajustado não consegue explicar.
● Os resíduos representam a diferença entre aquilo que foi realmente observado e o que foi
predito pelo modelo de regressão calculado.
● Os pontos do gráfico devem distribuir-se de forma aleatória em torno da reta que
corresponde ao resíduo zero, formando uma nuvem de distribuição, largura uniforme.
Júlia Malta Braga
FCM-TR
Turma 01
● Os pontos do gráfico devem distribuir-se de forma aleatória em torno da reta que
corresponde ao resíduo zero, formando uma nuvem de distribuição, largura uniforme.
● Principais problemas detectados através da análise dos resíduos:
○ Não-linearidade da relação entre X e Y.
○ Não normalidade
○ Variância não-constante (heterocedasticidade)
○ Variaveis nao independentes.
○ Presença de outliers.
Modelos Lineares Generalizados (GLM)
● Os GLMs são uma extensão dos modelos de regressão simples e múltipla.
● Não exigem que a distribuição dos dados seja normal.
● Conseguimos selecionar o tipo de distribuição dos dados.
● Podemos relacionar variáveis categóricas, dados de contagem (discretos), binários (sim ou
não, presença ou ausência), etc.
● Principais distribuições dos GLMs:
○ Distribuição de Poisson
⤷ Utilizada para dados de contagem.
⤷ Conta-se algo dentro de um intervalo de um tempo ou um espaço.
○ Logística/Binomial:
⤷ Utilizada para modelar fenômenos aleatórios com dois desfechos possíveis,
binários: sucesso ou fracasso, sim ou nao…
● GLM de dois fatores pode ser feito no PAST.
14/11/2019
Análises de Correlação
● É utilizada pra medir o grau de relacionamento entre duas variáveis, ou seja, a força de
relação entre essas variáveis.
● Pressupostos:
○ As variáveis devem ser quantitativas e contínuas.
○ Deve haver uma relação linear entre variáveis.
○ Tanto a variável x quanto a y precisam ter distribuição normal.
○ Devem ter variâncias semelhantes (homocedasticidade).
● Pode ser positiva ou negativa, o que fica visível através do gráfico de dispersão.
○ Positiva: Há relação entre as variáveis e isso é demonstrável pelo valor de P e pelo
gráfico de dispersão crescente.
○ Negativa: Não há relação entre as variáveis, o que é demonstrável pelo valor de P e
pelo gráfico de dispersão decrescente e disperso.
○ Nula: Não é possível estabelecer linearidade no gráfico de dispersão, ficando perdido
e. normalmente. em formato circular.
● É necessário plotar as variáveis em um gráfico para verificar se a correlação entre variáveis é
linear ou não.
● Coeficientes de correlação não indicam causalidade, pois pode haver uma terceira variável,
medida ou não, influenciando nos resultados.
● Em teoria estatística, poderíamos relacionar qualquer coisa, mas, na prática, só devemos
relacionar aquilo que faz sentido de acordo com nosso conhecimento do problema.
○ É preciso entender os pressupostos que levam uma variável a se relacionar com a
outra.
Júlia Malta Braga
FCM-TR
Turma 01
Correlação de Pearson
● A força da relação é demonstrada pelo Coeficiente de Pearson, representado pela letra R.
○ -1 ≤ r ≤ 1
○ Resultado dos coeficientes é subjetivo e varia de:
↪ r=-1⟶ Perfeita e negativa.
↪ r = -0,8⟶ Forte e negativa.
↪ r = -0,5⟶Moderada e negativa.
↪ r = -0,2⟶ Fraca e negativa.
↪ r = 0⟶ Não há associação.
↪ r = 0,2⟶ Fraca e positiva.
↪ r = 0,5⟶Moderada e positiva.
↪ r = 0,8⟶ Forte e positiva.
↪ r = + 1⟶ Perfeita e positiva.
Correlação de Spearman
● Usada quando há violação do pressuposto de normalidade.
● Nessa correlação, há a transformação dos dados brutos em postos (ranqueamento).
Lista de Exercícios - 26/11/2019
1. Foram comparados os rendimentos anuais de quatro turmas de uma
faculdade de medicina, a fim de se investigar se a média das notas de alguma
destas turmas estava se destacando. As notas das Turmas A, B, C e D estão
representadas abaixo.
Primeiro passo: Primeiro fazemos o teste de Shapiro-Wilk, no programa past, para
ver se os dados são normais. Como o valor de P de todos deu mais que 0,05 ou
muitos próximo, podemos fazer a analise de variancia.
Segundo passo: O teste para análise de variância utilizado foi ANOVA, feito no
próprio Excel, e o resultado mostrou p < 0,001. Ou seja, p foi menor que 0,05,
levando à rejeição da hipótese nula.
Resposta: Há diferença entre as médias analisadas. Isso foi demonstrado pelo valor
de p, que é menor que 0,001. Portanto, a hipótese nula foi rejeitada.
2. A hipertensão arterial sistêmica é um grave problema da saúde pública do Brasil.
Existe uma alta prevalência da doença e em contrapartida, uma baixa adesão ao
tratamento pelos pacientes. Com o objetivo de se investigar se há associação entre o
sexo do paciente a aderência ou não ao tratamento da hipertensão arterial, foram
coletados os seguintes dados, obtidos através de um questionário aplicado para 200
pacientes:
Júlia Malta Braga
FCM-TR
Turma 01
Primeiro passo: Ascrescentamos a linha e a coluna do total.
Segundopasso: Fizemos o pressuposto dos valores, que é feito atraves da seguinte
conta: Total da variavel a x Total da variavel b / total geral.
Terceiro passo: Fizemos o teste de Qui-Quadrado, no próprio excel, obtendo o valor
de p = 0,031. O que demonstra que há associação entre o sexo e a aderencia ao
tratamento.
Resposta: Há associação entre aderência e sexo, sendo demonstrada pelo valor de
p, que é menor que 0,05.
3. Um estudo teve como objetivo comparar o consumo diário de calorias entre homens
e mulheres. Foram anotados o consumo diário de 24 indivíduos de ambos os sexos,
em kcal. Na análise estatística, presumir que as variâncias são equivalentes.
Primeiro passo: Verficamos se os dados são normais utilizando o teste de
Shapiro-Wilk, no past.
Segundo passo: Como em ambas as variaveis, o valor de p encontrado é maior que
0,05, podemos dizer que os dados são normais. Portanto prosseguimos fazendo o
Teste T: presumindo duas variancias equivalentes, ou seja não pareado e presumindo
equivalencia.
Não pareado porque são duas amostras diferentes e não em tempos diferentes.
Presumindo equivalencia porque foi mencionado no enunciado.
Júlia Malta Braga
FCM-TR
Turma 01
⟶ Analisamos o P bi-caudal porque não importa se o grupo é diferente para mais ou
para menos, importa que são diferentes.
Resposta: Há diferença entre o gasto de homens e mulheres, sendo mostrada pelo
valor de p bi-caudal, que é menor que 0,05. Pelas médias, podemos ver que os
homens gastaram mais calorias.
4. Foi obtida uma amostra aleatória de 21 crianças para avaliar se o desenvolvimento
destas crianças, medidos em Escore Gessel de desenvolvimento, e o seu peso,
interferem na idade na qual pronunciam sua primeira palavra: (parte da tabela)
Primeiro passo: Precisavamos saber se há dependencia entre as variareis, para isso
fizemos o teste de regressão múltipla no past.
Como é uma regressão múltipla, analisamos as variáveis ajustadas.
Segundo passo: Fizemos o teste de análise de variância e encontramos que o escore
e o peso apresentam valor de p menor que 0,05, ou seja, são influentes na idade em
que a criança falará.
Júlia Malta Braga
FCM-TR
Turma 01
Resposta: O desenvolvimento da criança está incluenciando em quando ela falará e
isso é demonstrado pelo valor de P menor que 0,05, o que demonstra que a H0
deve ser rejeitada. O peso também influencia na idade que a criança começará
falar, isso é demonstrado pelo valor de P menor que 0,001.
Foi solicitado fazer os gráficos de dispersão das 3 variáveis e o final:
⟶ Podemos observar através do gráfico de dispersão final que a incluencia é negativa.