Aula 2 - Modelos Lineares de Regressão 2023

Clínica Médica I

•

UFV

agrofort.agrofort123

24/05/2024

Prévia do material em texto

Modelos Lineares de Regressão
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E
CONTABILIDADE DE RIBEIRÃO PRETO
DEPARTAMENTO DE CONTABILIDADE
Prof Fabiano Guasti Lima
fabianoguastilima@gmail.com
Pós-Graduação – 2023
mailto:fabianoguastilima@gmail.com
 Explica o grau de relacionamento verificado no
comportamento de duas ou mais variáveis. Correlação
simples quando se trata de duas variáveis e múltipla quando
se relacionam mais de duas variáveis.
 Coeficiente de correlação: quantifica o relacionamento, que
pode variar entre +1 e -1.
 Correlação negativa ou inversa.
 Correlação positiva ou direta.
Correlação
y Correlação 
Negativa Perfeita
= - 1.. ....
x
yx,
Correlação Positiva
0< <1y
x
yx, y
x
Correlação 
Positiva Perfeita
=1yx,
y .
. . .
.
.
.
.
x
Correlação Negativa
- 1< <0
yx,
Correlação Nula
= 0
y
x
yx,
Coeficiente de correlação
rh Interpretação 
+ 1,00 positiva perfeita 
+ 0,70 a 0,99 positiva muito forte 
+ 0,50 a 0,69 positiva substancial 
+ 0,30 a 0,49 positiva moderada 
+ 0,10 a 0,29 positiva baixa 
+ 0,01 a 0,09 positiva ínfima 
0,00 Nenhuma 
- 0,01 a 0,09 negativa ínfima 
- 0,10 a 0,29 negativa baixa 
- 0,30 a 0,49 negativa moderada 
- 0,50 a 0,69 negativa substancial 
- 0,70 a 0,99 negativa muito forte 
- 1,00 negativa perfeita 
 Newbold (1995). 
Paul Newbold, Statistics for Business & Economics, 5th Ed., 1995, Prentice-Hall. 
Covariância e Correlação
 Covariância: mede a força de 
relacionamento entre duas variáveis 
em termos absolutos;
 Covariância: mede a força do 
relacionamento entre duas variáveis 
em termos relativos;
Correlação Espúria!
https://www.tylervigen.com/spurious-correlations
https://www.tylervigen.com/spurious-correlations
 Regressão linear Simples: estabelece, por médio
de equação matemática, o relacionamento das
variáveis de uma correlação.
 Para uma correlação linear, a expressão da reta
ajustada, na que os valores de X explicarão os
valores de Y, é definida por:
Y = a + bX
ii bxay 
Regressão Linear Simples
Erros X Resíduos
 Erro é a diferença entre o valor
real, que não observamos, e o valor
estimado.
 Resíduo é a diferença entre o valor
estimado e o valor observado.
bXaY 
XbYa .
  
  x
yx
VAR
COV
n
X
X
n
YX
YX
b
,
2
2
.
.








Equação de Regressão
O modelo de regressão linear
 Os x são variáveis não-estocásticas 
cujos valores são fixos


 Os resíduos são estatísticamente 
independentes
 Os resíduos tem distribuição normal
y a bx   
( ) 0E  
2 2( )E  
iy
iŷ
  2
ii )ŷy(
  minimizadaser deve )ŷy( 2
ii
ii bxaŷ 
Método dos Mínimos Quadrados
S(a,b)
a
b



N
1i
2
ii )ŷy()b,a(S






N
1i
2
ii
N
1i
2
ii
)bxay()b,a(S
)ŷy()b,a(S
 


)bxay(2
a
S
ii
 


)bxay(x2
b
S
iii
0bxaxyx
0)bxay(x
0)bxay(x2
2
iiii
iii
iii



 


   2
iiii xbxayx
0xbaNy
0xbay
0)bxay(2
ii
ii
ii



 
 

  ii xbaNy
Coeficiente de Determinação R2
 Mede o grau de ajustamento da reta 
de regressão.
STQ
Quando o intuito for comparar 
modelos ....
Na comparação de modelos trabalha–se com 
R2
Ajustado
 Reflete o número de variáveis explicativas e 
o tamanho da amostra;
 R2
Ajustado = R2 corrigido pelos graus de 
liberdade da regressão;
)1(
1
1 22
ajustado R
kn
n
R 








PASSO A PASSO para Interpretação 
da Regressão
 1. Definir o ERRO MÁXIMO ACEITÁVEL – alfa. Exemplo: 0,05 = 5%
 Erro máximo de 5% significa uma confiança de 95%
 2. Verificação da Validade Geral do Modelo – ANOVA 
 Ho: O modelo NÃO é Adequado H1: O Modelo É Adequado
 F – Significação < alfa -> Rejeitar Ho – O Modelo é adequado
 F – Significação > alfa -> Aceita Ho – O modelo não é adequado – STOP 
 3. Verificar a Viabilidade dos COEFICIENTES DO MODELO
 Ho: O coeficiente NÃO é Significativo – Coeficiente é zero
 H1: O coeficiente É Significativo
 Valor-P < alfa -> Rejeita Ho - O coeficiente é significativo
 Valor-P > alfa -> Aceita Ho – O coeficiente não é significativo –
Coeficiente é zero
 4. Verificar o R2 para a qualidade do Ajuste do Modelo
18
0 1 1 2 2y b b x b x   
Data: adstudy.sta 25v * 50c 
Advertising Effectiveness Study.
Regressão Múltipla
Técnicas Multivariadas
Técnicas de dependência Técnicas de Interdependência
Uma Variável 
Dependente
Mais que 
uma 
Variável 
Dependente
Cross-tabulation
Análise de Variância e 
Covariância
Análise de Regressão
Análise Discriminante
Análise Conjunta
Análise de Variância 
e Covariância Multiv.
Correlação Canônica
Variáveis 
Interdepend.
Similaridades 
entre Variáveis
Análise 
Fatorial
Escalonam. 
Multidimens.
Anal. de 
Conglomera-
dos
Ferramentas estatísticas multivariadas
0 1 1 2 2
2
0 1 1 1 2 1 2 1
2
0 2 1 1 2 2 2 2
b n b x b x y
b x b x b x x x y
b x b x x b x x y
  
  
  
  
   
   
Equação de Regressão
22
PRESSUPOSTOS DOS MODELOS 
REGRESSÃO POR MQO
Pressuposto Violação Verificação
Os resíduos apresentam 
distribuição normal
Valor-p dos testes t do 
teste F não são válidos
Teste de Shapiro-Wilk
Teste Shapiro Francia
Teste KS
Não existe correlações 
elevadas entre as 
variáveis explicativas e 
existem mais 
observações do que 
variáveis explicativas
Multicolineariedade Matriz de correlação
VIF – Variance Inflation
Factor
Tolerance
Os resíduos não 
apresentam correlação 
com qualquer variável X
Heterocedasticidade Teste de Breusch-Pagan
Teste de Cook-Weisberg
Os resíduos são 
aleatórios e 
independentes
Autocorrelação dos 
resíduos para modelos 
temporais
Teste de Durbin-Watson
Teste de Breusch-
Godfrey
Pressupostos à regressão 
Multicolineariedade 
Tolerance – estimado com cada variaveis independente como se dependente
fosse e regredindo-a em relação as demais.
VIF – (Variance Inflation Factor). Tolerance
Até 1 – sem multicolineariedade Até 1
De 1 até 10 – multicolineariedade aceitável De 1 até 0,10
Acima de 10 – multicolineariedade problemática Abaixo de 0,10
VIF 1 / Tolerance
2
k
Tolerance 1 R 
Pressupostos à regressão 
Heterocedasticidade 
H0: A variância dos termos do resíduo é constante (resíduos homocedásticos)
H1: A variância dos termos de resíduo não é constante (resíduos heterocedásticos)
 Teste de Breusch-Pagan/Cook-
Weisberg
 Heterocedasticidade: termos dos resíduos 
podem ser função de uma ou mais variáveis 
explicativas;
 É indicado para os casos em que a suposição de 
normalidade dos resíduos for verificada.
Pressupostos à regressão
Ausência de Autocorrelação Serial
0
1
0 : Correlação entre os resíduos é nula (independência)
0 :Existe correlação entre os resíduos (dependência)
H
H


 
 
Ou ainda:
H0 =: Não Existe correlação serial dos resíduos
H1 =: Existe correlação serial dos resíduos
Tabela de Durbin Watson
https://www.real-statistics.com/statistics-tables/durbin-watson-table/
Alpha = .01
https://www.real-statistics.com/statistics-tables/durbin-watson-table/
Tabela de Durbin Watson
29
Teste Durbin–Watson
dcalculado = 2,045 4 – du = 2,240
dL = 1,706 4 – dL = 2,294
du = 1,760
(I) (II) (III) (IV) (V)
0 dL du 2 4 – du L 4
d < 2 d > 2
Positiva Negativa
autocorrelação 
negativa
autocorrelação 
positiva
não 
conclusivo
ausência de 
autocorrelação não 
conclusivo
4 – d
0H se-aceita : se críticoDD 
0H se-Rejeita : se críticoDD 
PRESSUPOSTO PRINCIPAL DA REGRESSÃO 
Normalidade dos resíduos
 Kolmogorov – Smirnov (n>=30)
 Shapiro-Wilk (n<30)
 Shapiro-Francia (5<=n<=5000)
 Jarque Bera
H0: A amostra provém de uma população com Distribuição Normal
H1: A amostra NÃO provém de uma população Distribuição Não Normal
Como corrigir isso????
 Transformação de Box-Cox na 
variável dependente (mudar forma 
funcional)
BOX GEP; COX DR. 1964. An analysis of 
transformations. Journalof the Royal Society, 
26: 211-252. 
https://www.ime.usp.br/~abe/lista/pdfQWaCMboK6
8.pdf
https://www.ime.usp.br/~abe/lista/pdfQWaCMboK68.pdf
Incorporando variáveis 
qualitativas
 Uso de variáveis dummy
 xi i.quali1 i.quali2 ...
33
Variável Dummy
A análise de regressão não permite que uma variável 
não–métrica seja incluída diretamente no modelo. 
Entretanto, muitas vezes a variável dependente é 
influenciada por variáveis de natureza 
essencialmente qualitativas: sexo, religião etc.
Assim, podemos desejar incorporar informações de 
uma variável qualitativa em nossos modelos.
Geralmente as variáveis qualitativas indicam presença 
ou ausência de uma “qualidade”, ou atributo, como 
homem ou mulher, pequeno ou grande.
34
Variável Dummy
Um método para “quantificar” esses atributos 
é construir variáveis artificiais, associando 
valores numéricos a eles.
Importante – os valores numéricos não têm
significado como tal;
No exemplo desenvolvido LUPRE é uma 
variável dummy;
35
Variável Dummy
Ela tem 2 categorias de empresas:
 empresas com lucro codificadas como (1)
 empresas com prejuízo codificadas como (0)
Queremos verificar se o sinal do resultado da 
empresa interfere na rentabilidade do PL 
(variável dependente).
36
Variáveis Dummy
 Podem ser utilizadas de três formas
 aditiva, ou seja, alterando o intercepto
 multiplicativa, ou seja, alterando o coeficiente angular
 mista, ou seja, alterando o intercepto e o coeficiente
37
Variáveis Dummy
 aditiva, como no exemplo:
Y
X
Se D = 0:
Yc = a + b1.X
Yc = a + b1.X + b2.D
Se D = 1:
Yc = (a+b2) + b1.X
38
Variáveis Dummy
 multiplicativa, como no exemplo
Y
X
Se D = 0: 
Yc = a + b1.X
Yc = a + b1.X + b3.D.X
Se D = 1:
Yc = a + (b1+b3).X
39
Variáveis Dummy
 mista, como no exemplo
Y
X
Se D = 0: 
Yc = a + b1.X
Yc = a + b1.X + b2.D + b3.D.X
Se D = 1:
Yc = (a+b2) + (b1+b3).X
Regressão Quantílica
 Resumidamente, é uma regressão 
parecida com a que nós 
costumamos usar (OLS, ou MQO), 
porém no lugar de ter como base 
a média condicional de uma 
variável dependente, dadas as 
variáveis independentes, a RQ não 
se baseia na média, mas em vários 
quantis.
Regressão Quantílica
 Técnica de regressão mais robusta que 
apresenta vantagens em comparação ao 
método de MQO no caso de violações das 
suposições do modelo de regressão clássico.
 Método mais robusto de estimação
 Para algumas variáveis contínuas, não basta 
apenas olhar o comportamento da média.
 Usada nos casos em que os erros não têm 
distribuição normal ou quando a variável 
dependente apresenta valores extremos. 
Justificativas do uso
 A média pode ficar estável, mas o 
comportamento da variável é 
diferenciado ao longo da distribuição.
 Pode haver interesse em uma parte 
específica da distribuição da variável.
 A regressão quantílica permite examinar 
como os quantis da variável dependende 
mudam em resposta a um conjunto de 
variáveis independentes.
Regressão quantílica
 Estimo para partes da distribuição.
MQO