Prévia do material em texto
Modelos Lineares de Regressão UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE CONTABILIDADE Prof Fabiano Guasti Lima fabianoguastilima@gmail.com Pós-Graduação – 2023 mailto:fabianoguastilima@gmail.com Explica o grau de relacionamento verificado no comportamento de duas ou mais variáveis. Correlação simples quando se trata de duas variáveis e múltipla quando se relacionam mais de duas variáveis. Coeficiente de correlação: quantifica o relacionamento, que pode variar entre +1 e -1. Correlação negativa ou inversa. Correlação positiva ou direta. Correlação y Correlação Negativa Perfeita = - 1.. .... x yx, Correlação Positiva 0< <1y x yx, y x Correlação Positiva Perfeita =1yx, y . . . . . . . . x Correlação Negativa - 1< <0 yx, Correlação Nula = 0 y x yx, Coeficiente de correlação rh Interpretação + 1,00 positiva perfeita + 0,70 a 0,99 positiva muito forte + 0,50 a 0,69 positiva substancial + 0,30 a 0,49 positiva moderada + 0,10 a 0,29 positiva baixa + 0,01 a 0,09 positiva ínfima 0,00 Nenhuma - 0,01 a 0,09 negativa ínfima - 0,10 a 0,29 negativa baixa - 0,30 a 0,49 negativa moderada - 0,50 a 0,69 negativa substancial - 0,70 a 0,99 negativa muito forte - 1,00 negativa perfeita Newbold (1995). Paul Newbold, Statistics for Business & Economics, 5th Ed., 1995, Prentice-Hall. Covariância e Correlação Covariância: mede a força de relacionamento entre duas variáveis em termos absolutos; Covariância: mede a força do relacionamento entre duas variáveis em termos relativos; Correlação Espúria! https://www.tylervigen.com/spurious-correlations https://www.tylervigen.com/spurious-correlations Regressão linear Simples: estabelece, por médio de equação matemática, o relacionamento das variáveis de uma correlação. Para uma correlação linear, a expressão da reta ajustada, na que os valores de X explicarão os valores de Y, é definida por: Y = a + bX ii bxay Regressão Linear Simples Erros X Resíduos Erro é a diferença entre o valor real, que não observamos, e o valor estimado. Resíduo é a diferença entre o valor estimado e o valor observado. bXaY XbYa . x yx VAR COV n X X n YX YX b , 2 2 . . Equação de Regressão O modelo de regressão linear Os x são variáveis não-estocásticas cujos valores são fixos Os resíduos são estatísticamente independentes Os resíduos tem distribuição normal y a bx ( ) 0E 2 2( )E iy iŷ 2 ii )ŷy( minimizadaser deve )ŷy( 2 ii ii bxaŷ Método dos Mínimos Quadrados S(a,b) a b N 1i 2 ii )ŷy()b,a(S N 1i 2 ii N 1i 2 ii )bxay()b,a(S )ŷy()b,a(S )bxay(2 a S ii )bxay(x2 b S iii 0bxaxyx 0)bxay(x 0)bxay(x2 2 iiii iii iii 2 iiii xbxayx 0xbaNy 0xbay 0)bxay(2 ii ii ii ii xbaNy Coeficiente de Determinação R2 Mede o grau de ajustamento da reta de regressão. STQ Quando o intuito for comparar modelos .... Na comparação de modelos trabalha–se com R2 Ajustado Reflete o número de variáveis explicativas e o tamanho da amostra; R2 Ajustado = R2 corrigido pelos graus de liberdade da regressão; )1( 1 1 22 ajustado R kn n R PASSO A PASSO para Interpretação da Regressão 1. Definir o ERRO MÁXIMO ACEITÁVEL – alfa. Exemplo: 0,05 = 5% Erro máximo de 5% significa uma confiança de 95% 2. Verificação da Validade Geral do Modelo – ANOVA Ho: O modelo NÃO é Adequado H1: O Modelo É Adequado F – Significação < alfa -> Rejeitar Ho – O Modelo é adequado F – Significação > alfa -> Aceita Ho – O modelo não é adequado – STOP 3. Verificar a Viabilidade dos COEFICIENTES DO MODELO Ho: O coeficiente NÃO é Significativo – Coeficiente é zero H1: O coeficiente É Significativo Valor-P < alfa -> Rejeita Ho - O coeficiente é significativo Valor-P > alfa -> Aceita Ho – O coeficiente não é significativo – Coeficiente é zero 4. Verificar o R2 para a qualidade do Ajuste do Modelo 18 0 1 1 2 2y b b x b x Data: adstudy.sta 25v * 50c Advertising Effectiveness Study. Regressão Múltipla Técnicas Multivariadas Técnicas de dependência Técnicas de Interdependência Uma Variável Dependente Mais que uma Variável Dependente Cross-tabulation Análise de Variância e Covariância Análise de Regressão Análise Discriminante Análise Conjunta Análise de Variância e Covariância Multiv. Correlação Canônica Variáveis Interdepend. Similaridades entre Variáveis Análise Fatorial Escalonam. Multidimens. Anal. de Conglomera- dos Ferramentas estatísticas multivariadas 0 1 1 2 2 2 0 1 1 1 2 1 2 1 2 0 2 1 1 2 2 2 2 b n b x b x y b x b x b x x x y b x b x x b x x y Equação de Regressão 22 PRESSUPOSTOS DOS MODELOS REGRESSÃO POR MQO Pressuposto Violação Verificação Os resíduos apresentam distribuição normal Valor-p dos testes t do teste F não são válidos Teste de Shapiro-Wilk Teste Shapiro Francia Teste KS Não existe correlações elevadas entre as variáveis explicativas e existem mais observações do que variáveis explicativas Multicolineariedade Matriz de correlação VIF – Variance Inflation Factor Tolerance Os resíduos não apresentam correlação com qualquer variável X Heterocedasticidade Teste de Breusch-Pagan Teste de Cook-Weisberg Os resíduos são aleatórios e independentes Autocorrelação dos resíduos para modelos temporais Teste de Durbin-Watson Teste de Breusch- Godfrey Pressupostos à regressão Multicolineariedade Tolerance – estimado com cada variaveis independente como se dependente fosse e regredindo-a em relação as demais. VIF – (Variance Inflation Factor). Tolerance Até 1 – sem multicolineariedade Até 1 De 1 até 10 – multicolineariedade aceitável De 1 até 0,10 Acima de 10 – multicolineariedade problemática Abaixo de 0,10 VIF 1 / Tolerance 2 k Tolerance 1 R Pressupostos à regressão Heterocedasticidade H0: A variância dos termos do resíduo é constante (resíduos homocedásticos) H1: A variância dos termos de resíduo não é constante (resíduos heterocedásticos) Teste de Breusch-Pagan/Cook- Weisberg Heterocedasticidade: termos dos resíduos podem ser função de uma ou mais variáveis explicativas; É indicado para os casos em que a suposição de normalidade dos resíduos for verificada. Pressupostos à regressão Ausência de Autocorrelação Serial 0 1 0 : Correlação entre os resíduos é nula (independência) 0 :Existe correlação entre os resíduos (dependência) H H Ou ainda: H0 =: Não Existe correlação serial dos resíduos H1 =: Existe correlação serial dos resíduos Tabela de Durbin Watson https://www.real-statistics.com/statistics-tables/durbin-watson-table/ Alpha = .01 https://www.real-statistics.com/statistics-tables/durbin-watson-table/ Tabela de Durbin Watson 29 Teste Durbin–Watson dcalculado = 2,045 4 – du = 2,240 dL = 1,706 4 – dL = 2,294 du = 1,760 (I) (II) (III) (IV) (V) 0 dL du 2 4 – du L 4 d < 2 d > 2 Positiva Negativa autocorrelação negativa autocorrelação positiva não conclusivo ausência de autocorrelação não conclusivo 4 – d 0H se-aceita : se críticoDD 0H se-Rejeita : se críticoDD PRESSUPOSTO PRINCIPAL DA REGRESSÃO Normalidade dos resíduos Kolmogorov – Smirnov (n>=30) Shapiro-Wilk (n<30) Shapiro-Francia (5<=n<=5000) Jarque Bera H0: A amostra provém de uma população com Distribuição Normal H1: A amostra NÃO provém de uma população Distribuição Não Normal Como corrigir isso???? Transformação de Box-Cox na variável dependente (mudar forma funcional) BOX GEP; COX DR. 1964. An analysis of transformations. Journalof the Royal Society, 26: 211-252. https://www.ime.usp.br/~abe/lista/pdfQWaCMboK6 8.pdf https://www.ime.usp.br/~abe/lista/pdfQWaCMboK68.pdf Incorporando variáveis qualitativas Uso de variáveis dummy xi i.quali1 i.quali2 ... 33 Variável Dummy A análise de regressão não permite que uma variável não–métrica seja incluída diretamente no modelo. Entretanto, muitas vezes a variável dependente é influenciada por variáveis de natureza essencialmente qualitativas: sexo, religião etc. Assim, podemos desejar incorporar informações de uma variável qualitativa em nossos modelos. Geralmente as variáveis qualitativas indicam presença ou ausência de uma “qualidade”, ou atributo, como homem ou mulher, pequeno ou grande. 34 Variável Dummy Um método para “quantificar” esses atributos é construir variáveis artificiais, associando valores numéricos a eles. Importante – os valores numéricos não têm significado como tal; No exemplo desenvolvido LUPRE é uma variável dummy; 35 Variável Dummy Ela tem 2 categorias de empresas: empresas com lucro codificadas como (1) empresas com prejuízo codificadas como (0) Queremos verificar se o sinal do resultado da empresa interfere na rentabilidade do PL (variável dependente). 36 Variáveis Dummy Podem ser utilizadas de três formas aditiva, ou seja, alterando o intercepto multiplicativa, ou seja, alterando o coeficiente angular mista, ou seja, alterando o intercepto e o coeficiente 37 Variáveis Dummy aditiva, como no exemplo: Y X Se D = 0: Yc = a + b1.X Yc = a + b1.X + b2.D Se D = 1: Yc = (a+b2) + b1.X 38 Variáveis Dummy multiplicativa, como no exemplo Y X Se D = 0: Yc = a + b1.X Yc = a + b1.X + b3.D.X Se D = 1: Yc = a + (b1+b3).X 39 Variáveis Dummy mista, como no exemplo Y X Se D = 0: Yc = a + b1.X Yc = a + b1.X + b2.D + b3.D.X Se D = 1: Yc = (a+b2) + (b1+b3).X Regressão Quantílica Resumidamente, é uma regressão parecida com a que nós costumamos usar (OLS, ou MQO), porém no lugar de ter como base a média condicional de uma variável dependente, dadas as variáveis independentes, a RQ não se baseia na média, mas em vários quantis. Regressão Quantílica Técnica de regressão mais robusta que apresenta vantagens em comparação ao método de MQO no caso de violações das suposições do modelo de regressão clássico. Método mais robusto de estimação Para algumas variáveis contínuas, não basta apenas olhar o comportamento da média. Usada nos casos em que os erros não têm distribuição normal ou quando a variável dependente apresenta valores extremos. Justificativas do uso A média pode ficar estável, mas o comportamento da variável é diferenciado ao longo da distribuição. Pode haver interesse em uma parte específica da distribuição da variável. A regressão quantílica permite examinar como os quantis da variável dependende mudam em resposta a um conjunto de variáveis independentes. Regressão quantílica Estimo para partes da distribuição. MQO