Buscar

CORRELAÇÃO E REGRESSÃO - ESTATÍSTICA 2 - 2017/1 - PROF. RICARDO TAVARES

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 63 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Objetivo:
� Estudar a relação entre duas variáveis quantitativas
Exemplos:
� Idade e altura das crianças
� Tempo de prática de esportes e ritmo cardíaco
� Tempo de estudo e nota na prova
� Taxa de desemprego e taxa de criminalidade
� Expectativa de vida e taxa de analfabetismo
Correlação e Regressão Linear Simples
Prof. Ricardo Tavares – DEEST/UFOP
Estudo da relação entre variáveis
� Investigar a presença ou ausência de relação linear sob 
dois pontos de vista:
a) Quantificando a força dessa relação: correlação;
b) Explicitando a forma dessa relação: regressão;
Diagrama de dispersão: representação gráfica das duas 
variáveis quantitativas
Exemplo 1: nota na prova e tempo de estudo
X : tempo de estudo (em horas)
Y : nota na prova
Pares de observações (Xi , Yi)
Tempo Nota
3,0 4,5
7,0 6,5
2,0 3,7
1,5 4,0
12,0 9,3
Coeficiente de correlação linear de Pearson
� O coeficiente de correlação linear é definido como:
Propriedades do coeficiente
de correlação linear
� Propriedade:
-1 ≤ r ≤ 1
� Classificação da correlação:
r = 1, correlação linear positiva e perfeita
r = -1, correlação linear negativa e perfeita
r = 0, inexistência de correlação linear
exemplos da classificação da correlação
0 < r < 1 -1 < r < 0
r = 1 r = -1
exemplos da classificação da correlação
r = 0
Exemplo 2: criminalidade e analfabetismo
� Considere as duas variáveis abaixo observadas em 50 
estados norte-americanos.
Y: taxa de criminalidade
X: taxa de analfabetismo
� Na figura a seguir, temos o diagrama de dispersão de X 
e Y e podemos notar que, conforme aumenta a taxa de 
analfabetismo, a taxa de criminalidade tende a 
aumentar. Nota-se também uma tendência linear.
Obs. Estado Tanalf-70 Exvida-70 Tcrime-75 Obs. Estado Tanalf-70 Exvida-70 Tcrime-75
1 Alabama 2.1 69.05 15.1 26 Montana 0.6 70.56 5
2 Alaska 1.5 69.31 11.3 27 Nebraska 0.6 72.6 2.9
3 Arizona 1.8 70.55 7.8 28 Nevada 0.5 69.03 11.5
4 Arkansas 1.9 70.66 10.1 29 New-Hampshire 0.7 71.23 3.3
5 California 1.1 71.71 10.3 30 New-Jersey 1.1 70.93 5.2
6 Colorado 0.7 72.06 6.8 31 New-Mexico 2.2 70.32 9.7
7 Connecticut 1.1 72.48 3.1 32 New-York 1.4 70.55 10.9
8 Delaware 0.9 70.06 6.2 33 North-Carolina 1.8 69.21 11.1
9 Florida 1.3 70.66 10.7 34 North-Dakota 0.8 72.78 1.4
10 Georgia 2 68.54 13.9 35 Ohio 0.8 70.82 7.4
11 Hawaii 1.9 73.6 6.2 36 Oklahoma 1.1 71.42 6.4
12 Idaho 0.6 71.87 5.3 37 Oregon 0.6 72.13 4.2
13 Illinois 0.9 70.14 10.3 38 Pennsylvania 1 70.43 6.1
14 Indiana 0.7 70.88 7.1 39 Rhode-Island 1.3 71.9 2.4
15 Iowa 0.5 72.56 2.3 40 South-Carolina 2.3 67.96 11.6
16 Kansas 0.6 72.58 4.5 41 South-Dakota 0.5 72.08 1.7
17 Kentucky 1.6 70.1 10.6 42 Tennessee 1.7 70.11 11
18 Louisiana 2.8 68.76 13.2 43 Texas 2.2 70.9 12.2
19 Maine 0.7 70.39 2.7 44 Utah 0.6 72.9 4.5
20 Maryland 0.9 70.22 8.5 45 Vermont 0.6 71.64 5.5
21 Massachusetts 1.1 71.83 3.3 46 Virginia 1.4 70.08 9.5
22 Michigan 0.9 70.63 11.1 47 Washington 0.6 71.72 4.3
23 Minnesota 0.6 72.96 2.3 48 West-Virginia 1.4 69.48 6.7
24 Mississippi 2.4 68.09 12.5 49 Wisconsin 0.7 72.48 3
25 Missouri 0.8 70.69 9.3 50 Wyoming 0.6 70.29 6.9
Exemplo 2: diagrama de dispersão
28
Exemplo 2: cálculo da correlação
� média de Y = 7,38 e SY = 3,692
� média de X = 1,17 e SX = 0,609
� somatório de XiYi = 509,12
� Cálculo da correlação entre X e Y:
Exemplo 3: expectativa de vida e analfabetismo
� Considere as duas variáveis abaixo observadas em 
50 estados norte-americanos.
Y: expectativa de vida
X: taxa de analfabetismo
� Na figura a seguir, temos o diagrama de dispersão de 
X e Y e podemos notar que, conforme aumenta a taxa 
de analfabetismo, a expectativa de vida tende a 
diminuir. Nota-se também uma tendência linear.
Exemplo 3: diagrama de dispersão
11
28
Exemplo 3: cálculo da correlação
� média de Y = 70,88 e SY = 1,342
� média de X = 1,17 e SX = 0,609
� somatório de XiYi = 4122,8
� Cálculo da correlação entre X e Y:
Teste de hipótese sob o 
coeficiente de correlação linear
� Testamos a hipótese nula: 
H0: r = 0 vs HA: r!=0
� A estatística do teste é dada por
� E sob H0, tobs tem distribuição t-Student com 
n-2 graus de liberdade.
21
2
r
n
rtobs
−
−
=
Regressão linear simples
Um Professor deseja avaliar se o peso dos
seus 40 alunos está associado com as
suas respectivas alturas.
Pergunta: Como os pesos e as alturas se
relacionam?
DIAGRAMA DE DISPERSÃO
55
60
65
70
75
80
85
90
95
150 160 170 180 190
ALTURA (CM)
P
E
S
O
 
(
K
G
)
�Análise de Regressão é uma técnica estatística utilizada
para investigar a relação existente entre variáveis através
da construção de uma equação (um modelo);
�Este modelo pode ser utilizado para “escrever” o valor
esperado de uma variável (resposta) como uma função
dos valores das outras variáveis (explicativas).
�Relações entre Variáveis:
Y : variável resposta ou dependente
X : variável explicativa ou independente ou preditora
� Esta relação pode ser classificada como:
(ii) Funcional: quando a relação é exata, expressa por uma
fórmula matemática Y = f(X).
Exemplo: a relação entre o valor total das vendas (Y ) de
um produto com preço unitário de 2 reais e o número de
unidade vendidas (X), dada por Y = 2X.
(ii) Estatística: quando a relação não é exata, ou seja, está
sujeita a um erro aleatório.
Exemplo: a relação entre o nível de colesterol (Y ) e a idade
de pacientes (X).
Alguns Objetivos da Análise de 
Regressão
� (1) Descrever a relação entre variáveis para entender
um processo ou fenômeno.
Ex.: Entender o efeito, no preço de venda de um imóvel,
de características como área construída, número de
cômodos, idade, localização, etc.
� (2) Prever o valor de uma variável a partir do
conhecimento dos valores de outras variáveis.
Ex.: Prever a probabilidade de ocorrência de um tornado
a partir de medições de vento, umidade, temperatura,
pressão, etc.
� (3) Substituir a medição de uma variável pela
observação dos valores de outras variáveis.
Ex.: Substituir a medição da quantidade de gordura
abdominal feita através de tomografia (muito cara
disponível em poucos consultórios médicos) por
medidas de fácil obtenção como circunferência da
cintura, circunferência e prega cutânea do abdômem.
� (4) Controlar os valores de uma variável em uma
faixa de interesse.
Ex.: Através de um estudo de regressão, a Sony Music
identificou as principais variáveis que afetavam a
ocorrência de defeitos durante a fabricação dos CDs.
Assim, o controle destas variáveis (como tempo de
exposição do laser no processo fotográfico), levou à
uma redução do prejuízo com produtos defeituosos.
O modelo de regressão linear 
simples
� A regressão é chamada linear, pois a relação da
variável resposta às variáveis explicativas é uma
função linear dos parâmetros. E é simples pois
envolve apenas uma variável explicativa.
Interpretação dos coeficientes do 
modelo
� Somas dos Quadrados dos Erros para todas as observações:
� Método dos Mínimos Quadrados: encontrar as estimativas
que minimizem S.
Ajustando uma reta por mínimos 
quadrados
Procedimento
� Para encontrar as estimativas b0 e b1 (os
valores de B0 e B1 que minimizam S),
precisamos derivar S em função de B0 e B1,
igualar a zero estas duas expressões
resultantes, para finalmente, resolver o
sistema de duas equações com duas
incógnitas (B0 e B1).
Obs.: Este sistema 
é conhecido como 
equações normais.
A solução do sistema é
Notação mais simples
� Os estimadores de mínimos quadrados 
(EQM) ficam da seguinte forma:
Exemplo 02: reta ajustada
� A reta ajustada para este exemploé:
Y: valor predito para a taxa de criminalidade
X: taxa de analfabetismo
^
Interpretação:
Para um aumento de uma unidade na taxa do 
analfabetismo, a taxa de criminalidade aumenta, em média, 
4,257 unidades.
Exemplo 2: gráfico da
reta ajustada
28
Exemplo 3: reta ajustada
� A reta ajustada para este exemplo é:
Interpretação:
Para um aumento de uma unidade na taxa do 
analfabetismo, a expectativa de vida diminui, 
em média, 1,296 anos.
Y: valor predito para a expectativa de vida
X: taxa de analfabetismo
^
Exemplo 3: gráfico da
reta ajustada
11
28
Exemplo 4: consumo de cerveja 
e temperatura
� Y: consumo de cerveja em um dia (em 100 litros)
� X: temperatura máxima (em ºC)
� As variáveis foram observadas em nove localidades 
com as mesmas características demográficas e 
sócio-econômicas.
� A seguir, apresentamos a tabela com os dados 
amostrais:
Exemplo 4: dados amostrais
Temperatura Consumo
16 290
31 374
38 393
39 425
37 406
36 370
36 365
22 320
10 269
Resumo destes dados
Exemplo 4: coeficiente de 
correlação e reta ajustada
� A correlação entre X e Y é r = 0,962.
� A reta ajustada para este exemplo é:
� Exercícios
a) Qual a interpretação de b?
b) Qual o consumo previsto para uma 
temperatura de 25ºC?
Exemplo 4: gráfico da
reta ajustada
Análise de Variância (ANOVA)
� Com o auxílio da análise de variância 
podemos responder algumas questões:
i) A variável X é um bom preditor da resposta 
Y?
ii) Quanto da variação da variável resposta é 
explicada pela reta de regressão?
�Para verificar a adequação do modelo aos dados, a análise
de variância da regressão é uma das técnicas mais usadas.
Ela decompõe a variação (variância) total:
Desvio Explicado
Desvio Não Explicado
Desvio Total
�Temos então que:
�SQTotal: mede a variação dos valores de Y na amostra.
�SQReg: mede quanto da SQTotal é explicada pela variação dos
valores de X, ou seja, pelo modelo de regressão ajustado.
�SQRes: mede quanto da SQT não é explicada pelo modelo de
regressão ajustado.
�ANOVA H0: o modelo está bem ajustado.
As somas de quadrados
Estimativa da variância dos erros:
Coeficiente de Determinação (R2)
� Mede a proporção da variação total da resposta
explicada pela regressão.
� Por exemplo, suponha que ajustamos um modelo
para o consumo mensal de gás em função da
temperatura média do mês, e o seu coeficiente de
determinação foi de 0,71;
� Isto quer dizer que cerca de 71% da variação total
do consumo mensal de gás nesta amostra é
explicada pela variação na temperatura mensal
média.
Suposições do Modelo
Testes para os parâmetros
Intervalos de confiança
� Parâmetros:
Obs.: QMR=QMRes
Intervalos de confiança
� Resposta média:
� Uma nova observação
Obs.: QMR=QMRes
Resíduos
� Para verificar a adequação do ajuste 
deve-se construir o gráfico dos resíduos 
padronizados: R/SR
� Se os pontos estiverem distribuídos dentro 
do intervalo [-2,2], é uma indicação que o 
modelo está bem ajustado.
� Resíduo é a diferença R = Y - Y.^
QMRSR =
Exemplo 2: gráfico de resíduos 
padronizados
28
39
Exemplo 2: análise do gráfico de 
resíduos padronizados
Nota-se duas observações fora do intervalo [-
2,2], uma acima do valor 2 (#28) e outra um
pouco abaixo do valor -2 (#39).
Tais observações são denominadas pontos
aberrantes.
Espera-se menos de 5% dos resíduos fora do
intervalo [-2.2]
Exemplo 2: resultados eliminando-se 
a observação #28 (Nevada)
� Correlação com todos r = 0,702
� Correlação sem Nevada r = 0,748
� Variação: 6,55%
� Nova equação: Ŷ = 1,936 + 4,526X
Exemplo 3: gráfico de resíduos 
padronizados
28
11
Exemplo 3: análise do gráfico de 
resíduos padronizados
� Neste exemplo nota-se também duas 
observações fora do intervalo [-2,2], uma 
bem acima do valor 2 (#11) e outra abaixo 
do valor -2 (#28).
Exemplo 3: resultados eliminando-se as 
observações #11 (Hawaii) e #28 (Nevada)
� Correlação com todos os estados r = -0,590
� Correlação sem Nevada e Hawaii r = -0,797
� Variação: 35,08%
� Nova equação: Ŷ = 72,680 - 1,557X
Análise Gráfica dos Resíduos:
�Gráfico dos resíduos versus valores ajustados
e
�Gráfico dos resíduos versus xi
São úteis para detectar:
•Variância não constante;
•Não-linearidade;
•Pontos discrepantes;
•Se a média dos erros é zero;
�Gráfico dos resíduos versus ordem de coleta
• Pode indicar se os erros em um período de
tempo são correlacionados com aqueles em
outro período de tempo;
• A correlação em diferentes períodos de
tempo é chamado de “autocorrelação”; uso:
AR, ARMA, ...
Teste Durbin-Watson:
H0: não existe autocorrelação nos erros
H1: existe e é positiva, ou H1: existe e é
negativa;
�Gráfico dos resíduos versus regressoras 
omitidas
•Qualquer padrão exibido por este gráfico, que não o 
aleatório, indica que o modelo pode ser melhorado 
adicionando a nova variável regressora;
�Gráfico de probabilidade normal dos resíduos
•Para obtermos Intervalos confiança e testes de 
hipóteses, necessitamos da suposição de normalidade 
dos erros; Uma maneira simples de verificar tal 
suposição é através do gráfico de probabilidade normal 
dos resíduos;
•Mais formalmente, faz-se o teste do Anderson-Darling 
(H0: A distribuição dos resíduos é normal);
Descriptive Statistics
1,90 1,761 1507
12,89 2,986 1507
Number of Children
Highest Year of
School Completed
Mean Std. Deviation N
Correlations
1,000 -,270
-,270 1,000
. ,000
,000 .
1507 1507
1507 1507
Number of Children
Highest Year of
School Completed
Number of Children
Highest Year of
School Completed
Number of Children
Highest Year of
School Completed
Pearson Correlation
Sig. (1-tailed)
N
Number of
Children
Highest Year
of School
Completed
Casewise Diagnosticsa
3,421 8
3,514 8
3,514 8
3,019 7
3,112 7
3,327 8
3,206 7
3,394 7
3,300 7
3,139 8
3,514 8
3,112 7
3,421 8
3,421 8
3,327 8
3,488 7
3,300 7
4,171 8
3,233 8
3,045 8
3,139 8
3,019 7
3,045 8
3,045 8
Case Number
46
71
107
138
146
239
286
566
625
694
699
717
733
776
815
968
1085
1088
1144
1276
1331
1411
1443
1510
Std. Residual
Number of
Children
Dependent Variable: Number of Childrena. 
Exemplo: Número de filhos vs 
ano mais elevado de estudo completo
ANOVAb
340,282 1 340,282 118,296 ,000a
4329,185 1505 2,877
4669,466 1506
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), Highest Year of School Completeda. 
Dependent Variable: Number of Childrenb. 
Coefficientsa
3,950 ,194 20,402 ,000 3,570 4,330
-,159 ,015 -,270 -10,876 ,000 -,188 -,130
(Constant)
Highest Year of
School Completed
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Lower Bound Upper Bound
95% Confidence Interval for B
Dependent Variable: Number of Childrena. 
-3 -2 -1 0 1 2 3 4 5
Regression Standardized Residual
0
30
60
90
120
150
F
r
e
q
u
e
n
c
y
Mean = 1,48E-16
Std. Dev. = 1
N = 1.507
Dependent Variable: Number of Children
Histogram
0,0 0,2 0,4 0,6 0,8 1,0
Observed Cum Prob
0,0
0,2
0,4
0,6
0,8
1,0
E
x
p
e
c
t
e
d
 
C
u
m
 
P
r
o
b
Dependent Variable: Number of Children
Normal P-P Plot of Regression Standardized Residual

Continue navegando