Buscar

Aula 7 Correlação e Regressão

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 45 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 45 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 45 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Disciplina: Análise de dados 
Aula : Correlação e Regressão
Profa. Mônica Botter
UFRPE
2
�Correlação:
• Medida do relacionamento linear entre variáveis;
•Relações ou associações quantitativas entre duas 
variáveis medidas em escalas ordinais (mínimo) ou 
quantitativos (discretos ou contínuos);
•Não necessariamente significa um relação de 
CAUSA e EFEITO; A correlação não faz distinção 
entre variável explicativa e resposta
•Usado para testar a significância de uma 
associação linear
•Mede a FORÇA da relação entre duas variáveis;
CORRELAÇÃO 
varia entre +1 e -1 
(perfeitas correlações)
Positiva: quando as duas 
variáveis aumentam
Negativa: quando uma 
variável aumenta e a outra 
variável diminui
Sem correlação: nuvem de 
pontos paralela
4
•COEFICIENTE DE CORRELAÇÃO: estatística 
usado para verificar a correlação entre duas 
variáveis
�Índice de Correlação de Pearson (r):
�Índice de Correlação de Spearman (rs) :
Força e direção da correlação: de -1 a 1
Ambos fortemente dependentes do tamanho 
amostral e do nível de significância escolhido
1º Faça um Diagrama de dispersão: Mostra a direção e a 
intensidade da relação entre duas observações bivariadas
ótimo para descobrir 
valores atípicos
Coeficiente de correlação produto-momento ou coeficiente de 
Pearson (r)
Outra maneira de se avaliar a correlação é usar um coeficiente (ro= 
letra r minúscula, no alfabeto grego) Vantagens:
• Número independente da unidade de medida das variáveis
• É uma medida da intensidade de associação entre duas variáveis 
quantitativas
Diagrama de dispersão
Correlações Perfeitas
+1 = perfeita correlação positiva
-1 = perfeita correlação negativa
0 = falta de correlação
Para dados intervalares: Quando todos os pontos caem sobre uma 
linha reta
8
a) forte correlação positiva b) fraca correlação positiva
9
c) nenhuma relação d) fraca correlação negativa
10
�Avaliação Qualitativa de r quanto à intensidade
(Fonte: callegari-jacques,2004) 
Valor do 
coeficiente de r 
(positivo ou 
negativo)
A correlação é dita
0,00 nula
0,00 a 0,3 fraca
0,3 a 0,6 regular
0,6 a 0,9 Forte
0,90 a 1,00 muito forte
1 Plena ou perfeita
�A Direção: 
Indicada pelo sinal
11
Correlação 
(Pearson)
Graus de 
liberdade= n-2
r calculado > r tabelado
Altamente significativo
R² = coeficiente de 
correlação ao quadrado= 
coeficiente de 
determinação
Comprimento do 
otólito x (mm) 
Massa do 
peixe y (g)
6,6 86
6,9 92
7,3 71
7,5 74
8,2 185
8,3 85
9,1 201
9,2 283
9,4 255
10,2 222
0,8383² =0.703 ou 70,3%
12
Correlação
(Pearson)
Graus de 
liberdade= n-2
r calculado > r tabelado
Altamente significativo
R² = coeficiente de 
correlação ao quadrado= 
coeficiente de 
determinação
-Decisão usando o valor crítico da tabela
Se rcal >r critico então rejeita H0 =resultado significativo
Se r cal < r critico então aceita H0 = resultado não significativo 
-Escolha do nível de significância (α):
Normalmente 5% (0,05)
-Graus de Liberdade:
(n-2), onde n- tamanho da amostra
-Hipóteses nula :
H0: duas variáveis não variam de modo linear 
Teste de hipóteses sobre Correlação 
-Decisão usando o valor crítico da tabela
Se r ≥ r critico então rejeita H0 =resultado significativo
Se r ≤ r critico então aceita H0 = resultado não significativo 
teste de hipóteses sobre correlação
-Decisão usando o valor de P
Se P ≤ α então rejeita H0 =resultado significativo
Se P ≥ α então aceita H0 = resultado não significativo 
Coeficiente de correlação Spearman (rs)
� Quando não se aplica a correlação de Pearson
� Aplicado quando as observações são: 
proporções, contagens ou índices
� Pode se usado para observações em escala 
ordinal (ver H’ na tabela)
Anos após aplicação 
de pesticida
Diversidade de 
gafanhotos 
(H’)
0 0
1 0.19
3 0.15
5 1.49
8-10 1.10
12 1.12
13 1.61
15 1.42
21 1.48
+25 1.92
Pearson (r) Spearman (rs)
Similaridades Teste de relações lineares
Não existe variável dependente e independente
Dados relacionados
Diferenças Paramétrico
Apenas dados 
quantitativos e 
principalmente contínuo
Dados normais
Não-paramétricos
Use quando uma ou 
ambas as observações 
estão em escala ordinal, 
são proporções, índices 
ou contagens
Tamanho da amostra Entre 7 e 30 pares de 
observações
Tabela comparativa entre testes de correlação de Pearson e Spearman 
(Holmes et al., 2011)
17
�Coeficiente de determinação (R²)
•O coeficiente de correlação de Pearson pode ser 
elevado ao quadrado para fornecer o Coeficiente de 
determinação
•Significado: É uma medida da proporção da 
variabilidade de uma variável que é representada 
pela variabilidade de outra
•O R² indica que outros fatores estão influenciando x e 
y
Exemplos: 
� Se r = 0,9 então R² =0, 81 (0,9 x0,9) ou seja, 81% 
da variação de uma variável é explicada pela variação 
da outra 
• Definição
18
�Tipos de hipóteses:
� Comparar nossas observações com nossas expectativas:
• Razoavelmente podemos arguir que todas as amostras ou 
observações deveriam ter os mesmos valores
• Exemplo: número de besouros coletados em armadilhas 
com diferentes cores = mesmo número de besouros
� Se há associação entre duas ou mais variáveis:
• Presença ou ausência de uma associação
• Exemplo: grupo sanguíneo e cor dos olhos? 
Temperatura e taxa de crescimento de bactérias?
• Tipo de teste: Qui-quadrado, Teste G, Correlação ou 
Regressão
� As amostras vêm da mesma população estatística ou de 
populações distintas? 
• Comparar diferenças entre tratamentos
• Exemplo: a eficácia de diferentes bactericidas sobre o 
número de bactérias ou comparar as concentrações de 
fosfato em amostras de água coletadas antes e após 
um ponto de despejo.
Regressão Linear
Regressão Linear
21
�Regressão:
•Quando a função f que relaciona duas variáveis é 
do tipo f (Y) = a + bx temos o modelo de regressão 
simples 
Em geral usamos uma reta de regressão para
predizer o valor de y para determinado valor de x
• Descreve a relação entre uma Variável explicativa
(independente ) e uma variável resposta
(dependente = Regressão simples
Variáveis dependentes e independentes
Convenção: variável dependente no eixo Y e variável
independente no eixo x
22
�Outliers
23
�Regressão:
Ajuste do modelo: Achar o melhor!!!!!(ajustar 
uma linha reta aos dados que foram coletados)
Usar seus olhos
Método dos Mínimos 
quadrados
Subjetivo e sem garantia
24
�Qual a melhor ajustamento de linha?
25
Método dos Mínimos quadrados
A equação estimada é
calculada
determinando-se a
equação que minimiza a
soma do quadrado das
distâncias entre os
pontos de dados da
amostra e os valores
preditos pela equação.
26
�Regressão:
Equação linear : y = a + bx
Intercepto (a): 
valor de y 
quando x =0
Inclinação da reta (b): 
alteração de y quando 
x aumenta 1 unidade
Variável dependente Variável independente
a e b = parâmetros
�Regressão:
A inclinação é 5 positiva. Quando 
x aumenta em 1, y aumenta em 
5. O intercepto y é 2.
A inclinação é negativa 0,4. 
Quando o x aumenta em 1, y 
diminui em 0,4. O intercepto y é 
7,2. 
Fonte: https://support.minitab.com/pt-br/minitab/18/help-and-how-
to/modeling-statistics/regression/supporting-topics/basics/slope-
and-intercept-of-the-regression-line/
28
Altura final do carro acima do nível do mar = a + bx, onde b 
é o gradiente. (Fonte: Fowler et al. (1998)Practical statistics for field Biology.)
29
�Regressão:
30
�Quando usar a regressão?
(1) Procurando por uma relação entre uma variável dependente 
e variável independente;
(2) Dados da amostra são medidos em um nível quantitiativo 
discreto ou contínuo;
(3) Dados são relacionados;
(4) Você tem um interesse particular na predição (previsão)
�Diagrama de Dispersão
� Ao se plotar num gráfico os pares de informação referente a cada 
observação obtemos uma “nuvem” de pontos definidos pelas coordenadas 
x e y de cadaponto. 
� Essa nuvem, por sua vez, definirá um eixo ou direção que caracterizará o 
padrão de relacionamento entre X e Y. 
32
(Fonte: Sidia Callegari-jacques. Bioestatísitca. Artmed. 2004)
variável dependente 
no eixo Y = escore de 
dano ecológico
variável independente 
no eixo x = 
concentração de 
poluentes
Fazer um diagrama de
Dispersão
�Regressão: Usada para estimativas 
Massa (x) g Comprimento (y) cm
10 10
20 15
30 20
40 25
50 30
34
�Regressão: Usada para estimativas 
Massa (x) g Comprimento (cm) y
10 10
20 15
30 20
40 25
50 30
-Determinar o comprimento 
quando a massa for de 25g?
Y =5 + (0,5 x 25) =17,5cm
-1ª) Qual modelo de regressão linear melhor descreve as mudanças na 
variável dependente baseadas na variável independente? 
As 3 questões a serem respondidas pela regressão
-2ª) Qual destes modelos descreve uma quantidade significativa de 
variação na variável dependente? Ou seja, a variável dependente tem 
uma relação linear com a variável independente? 
-3ª) Quanto da variação o modelo pode explicar?
Encontre os valores de a e b
Tese de hipóteses envolvendo a 
Estatística F
calcular o coeficiente de 
determinação (R²)
-Decisão usando o valor crítico da tabela
Se tcal >t critico então rejeita H0 =resultado significativo
Se t cal < t critico então aceita H0 = resultado não significativo 
-Escolha do nível de significância (α):
Normalmente 5% (0,05)
-Hipóteses nula :
H0: b = 0 
H0: b ≠ 0 
Teste de hipóteses da Regressão
-O teste estatístico: Estatística F ou teste t
�Regressão: exemplo usando Excel.
Àrea da 
reserva (km²)
Riqueza (numero de 
espécies)
4840 22
3126 14
2074 17
565 10
325 12
58 5
� calculando o valor de F
� Conclusão: A riqueza é 
linearmente relacionada com o 
tamanho da área da reserva 
(teste de regressão: F1,4
=14,332, P = 0,019);
38
�Regressão: exemplo usando Excel.distância da 
planta (m)
Concentração de zinco (µ 
Zn/g solo)
1 648
1,5 610
2,0 534
2,5 500
3,0 472
� calculando o valor de t
� tcalculado = -9,84689
� t tabelado = 3,182 (p =0,05)
� Tcalculado > t tabelado então 
rejeita-se H0.
� Há uma associação altamente significativa 
(0,01> p >0,001 ) entre a distância da 
planta e a concentração de zinco no solo.
40
�PRESSUPOSTOS DO TESTE
1. A variável y deve ter distribuição aproximadamente normal: 
MENOS PREOCUPANTE!
2. A variação de y deve ser a mesma em cada valor de x 
(homogeneidade das variâncias)
3. Pontos no gráfico devem apresentar tendência linear, 
caso contrário, a equação que melhor descreverá o 
fenômeno não será uma reta.
41
�Análise de resíduos
Um teste para validade dos pressupostos para a regressão 
pode ser feito do seguinte modo:
(1) Calculam-se os resíduos para cada valor de y. Os resíduos 
representam a diferença entre aquilo que foi realmente 
observado e o que predito pelo modelo da regressão.
(2) Desenha-se um gráfico no qual os resíduos são colocados 
no eixo vertical e os valores esperados de y, no horizontal.
Aparência desejada: 
nuvens de pontos 
aleatórias e bem 
equilibradas acima e 
abaixo da linha
Variâncias nas 
homogêneas: 
possível solução 
=transformação 
de dados
Não linearidade: 
possível solução 
=transformação de 
dados
42
�Análise de resíduos
Aparência desejada: nuvens de pontos 
aleatórias e bem equilibradas acima e 
abaixo da linha; resíduos parecem 
aleatórios, sem padrão
Não existe homocedasticidade 
das variâncias. Tentar fazer uma 
transformação em y
A equação da regressão não é linear. 
Transformações em y e/ou x
43
�Transformação dos dados
Devo transformar um eixo ou os dois eixos de relações 
curvilíneas usando log?
(1) Prepare o gráfico de dispersão com apenas 1 eixo 
transformado
(2) Prepare um gráfico com os dois eixos transformados.
(3) Escolha por uma avaliação visual , mas se ainda houver 
dúvidas, então calcule o coeficiente de determinação 
(r²) para cada uma deles e escolha o que possui o maior r². 
44
CHECANDO AS PREMISSAS PELAS FERRAMENTAS DO EXCEL
Usar os gráficos:
• Plotagem dos Resíduos
• Se os dados atendem às premissas, o gráfico deve mostrar 
uma faixa horizontal centrada em torno do 0, sem mostrar 
uma tendência positiva ou negativa
• Plotagem de Probabilidade Normal
• Se o gráfico é aproximadamente linear, podemos assumir 
que os resíduos têm distribuição normal
45
�Outras alternativas de regressão
� Regressão múltipla: situações que envolvem mais de uma 
variável independente ;
� Análise de covariância ou ANCOVA: situações envolvendo 
variáveis independentes contínuas e categóricas (escala 
nominal);
� Regressão curvilínea: usada para explorar relações que não 
são lineares;
� Regressão logística: pode ser usada quando se tem uma 
variável dependente que é medida em escala nominal ou 
ordinal

Continue navegando

Outros materiais