Baixe o app para aproveitar ainda mais
Prévia do material em texto
MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM) O modelo de regressão linear múltipla (MRLM), no qual a variável Y pode ser explicada por mais de uma variável, pressupondo uma relação linear entre cada uma das variáveis independentes e a variável dependente. O modelo de regressão múltipla, por exemplo, com k variáveis independentes, é expresso na equação: yi = α + β1 X1i + β2 X2i + β3 X3i + ... + βk Xki + ei , i = 1, ..., n Em que: y é a variável dependente; x1 , x2 , . . . , xk são as variáveis independentes; k é o número de variáveis independentes no modelo; i denota as n observações da amostra. Os parâmetros β1 , β2 , β1 ... βk são desconhecidos, e teremos que estimá-los utilizando, novamente, o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos β’s que minimizam a soma dos quadrados dos erros. Hipóteses Para estimarmos os parâmetros desconhecidos do nosso modelo em questão, precisamos elaborar algumas hipóteses. São elas: • Linearidade: yi = α + β1 X1i + β2 X2i + β3 X3i + ... + βk Xki + ei , i = 1, ..., n • Exogeneidade: E[ei | x11, x21, x31, ... xki] = 0. A exigência de que o erro e a variável explicativa sejam não correlacionados. • Homocedasticidade: Var[ei | x11, x21, x31, ... xki] = E[ei 2 | x1i, x2i, x3i, ... xki] = σ2 . A variância do erro é constante, igualdade de variâncias, ou homocedasticidade. Requer que a variância dos erros (ei ) seja constante em relação a todos os valores de X, isto é, a variabilidade dos valores de Y é a mesma quando X é um valor baixo ou quando X é um valor elevado. A igualdade das variâncias é importante para se realizar inferências em relação aos parâmetros α, βs. Havendo problemas na não confirmação da hipótese de homocedasticidade, podemos utilizar os modelos de mínimos quadrados ponderados ou as transformações de dados. • Não autocorrelação dos erros: Cov[ei , ej | xi , xj ] = E[ei , ej | xi , xj ] = 0. O erro de uma observação não pode estar correlacionado com o erro de outra observação. Portanto, covariância é igual a zero (o resultado em qualquer experimento não tem efeito no termo do erro de qualquer outro experimento). Os erros (ei ) devem ser independentes entre si. Devemos incluir mais uma hipótese: Não existe colinearidade perfeita entre as variáveis explicativas. Ou seja, uma variável explicativa não é função linear perfeita da outra. O pressuposto da normalidade requer que os erros (ei ) sejam normalmente distribuídos para cada um dos valores de X. A análise de regressão é relativamente robusta em relação a afastamentos do pressuposto da normalidade, isto é, desde que a distribuição dos erros em cada um dos níveis de X não seja extremamente diferente de uma distribuição normal, inferências em relação aos parâmetros α, βs não serão seriamente afetadas. No modelo de regressão linear simples, a inclinação β1 representa a alteração na média aritmética de Y para cada unidade de alteração em X e não leva em consideração nenhuma outra variável. Entretanto, no modelo de regressão linear múltipla com duas variáveis independentes, a inclinação β1 representa a alteração na média aritmética de Y para cada unidade de alteração em X1 , levando-se em consideração o efeito de X2 . A equação a seguir define o modelo de regressão múltipla com duas variáveis independentes: yi = α + β1 X1i + β2 X2i + ei , i = 1, ..., n Em que: α = intercepto de Y; β1 = inclinação de Y em relação à variável X1 , mantendo-se constante a variável X2 ; β2 = inclinação de Y em relação à variável X2 , mantendo-se constante a variável X1 ; ei = erro aleatório em Y para a observação i. Os quatro pressupostos de regressão: LINI (Linearidade, Independência dos erros, Normalidade de erros e Igualdade de variâncias). Os testes de regressão são de três tipos: de coeficientes, de resíduos e de estabilidade: • Teste de coeficientes: tipos de testes sobre os coeficientes de uma regressão: — Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas). — Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem comprometer o nível de explicação da variável dependente. • Teste de resíduos: tipos de testes sobre os resíduos de uma regressão: — Normalidade: em geral, os testes existentes para modelos de regressão só são válidos em amostras pequenas quando se assume que os distúrbios aleatórios têm distribuição normal, mas há sempre que se ter cuidados com a possibilidade de viés em amostras pequenas. — Correlograma do resíduo (do resíduo quadrado): esta opção apresenta as autocorrelações e autocorrelações parciais dos resíduos (ao quadrado) da equação estimada para um número especificado de defasagens. — Heterocedasticidade: uma das hipóteses do modelo de regressão é a de homocedasticidade, isto é, a de que a variância teórica do termo de distúrbio aleatório, condicional em relação às variáveis independentes, seja constante. Caso contrário, se a variância muda ao longo de diferentes intervalos de tempo ou em função de variáveis independentes, temos o caso de heterocedasticidade que acaba invalidando todos os testes de hipóteses baseados em estatísticas t (Student), F (Snedecor) e qui-quadrado • Teste de estabilidade: tipos de teste para avaliar se os parâmetros da regressão são estáveis ao longo do intervalo de estimativa: — Teste Chow: a estabilidade dos parâmetros é verificada dividindo-se o intervalo da amostra em duas partes e estimando-se novamente os parâmetros em cada subamostra. O teste compara a soma dos quadrados dos resíduos da regressão original com a soma dos quadrados dos resíduos das novas regressões feitas a partir das subamostras. Caso haja uma diferença significativa nas estimativas, pode-se concluir que houve, a partir do ponto de quebra da amostra, uma mudança estrutural no relacionamento entre as variáveis do modelo. — Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que podem ter diversas origens, como variáveis independentes omitidas, forma funcional incorreta, erros de medida em variáveis, erros de simultaneidade e inclusão de valores defasados da variável dependente quando os resíduos têm correlação serial. Exemplo de análise de regressão: Teoria econômica > Modelo Matemático > Modelo Econométrico> Dados> Estimação do Modelo> Teste de Hipóteses> Previsão> Aplicação do Modelo COVARIÂNCIA E COEFICIENTE DE CORRELAÇÃO A covariância mede a força do relacionamento entre duas variáveis em termos absolutos através da seguinte equação Cov (X,Y )=∑ ( x - média de X) x (y- média de Y)/ n 1 A correlação (representada por r) está sempre entre -1 e 1. O valor -1 corresponde à correlação negativa perfeita e o valor de +1 corresponde à correlação positiva perfeita; já o coeficiente de correlação (zero) indica que as duas variáveis não estão correlacionadas linearmente. O R múltiplo = 0,8778 representa o coeficiente de correlação múltiplo. Lembre-se de que na regressão linear simples o R múltiplo representa o coeficiente de correlação simples (r), que mede o grau de relacionamento linear entre duas variáveis, e nos modelos de regressão linear múltipla o R múltiplo representa o coeficiente de correlação múltiplo (r), que mede o grau de relacionamento linear entre uma variável e um conjunto de outras variáveis. As técnicas de análise de correlação e regressão estão intimamente ligadas. Teste de hipótese para um coeficiente de correlação populacional Precisamos determinar se existe evidênciasuficiente para decidir que o coeficiente de correlação populacional ρ é representativo em um nível especificado de significância α (por exemplo, α = 0,01 significa que em 1% das vezes podemos dizer que o coeficiente de correlação populacional é significante quando ele realmente não é, ou seja, é o erro que podemos cometer). Utiliza-se o teste de hipótese para ρ, que pode ser monocaudal ou bicaudal. O nosso interesse é no teste bicaudal, a seguir especificado: H0 : ρ = 0 (não existe correlação significativa) H0 : ρ ≠ 0 (existe correlação significativa) A distribuição amostral para r é uma distribuição t de Student com n - 2 graus de liberdade. No exemplo que envolve as duas variáveis, utilizamos onze pares de dados para obtermos r = 0,8778. Vamos testar a significância desse coeficiente de correlação utilizando α = 0,01: H0 : ρ = 0 (não existe correlação significativa); H0 : ρ ≠ 0 (existe correlação significativa). A distribuição amostral para r = 0,8778 é uma distribuição t com n - 2 graus de liberdade. Temos 11 - 2 = 9. Uma vez que o teste é bicaudal, α = 0,01 e g. l. = 6, os valores críticos são - 2,26 e 2,26 e as regiões de rejeição são t < - 2,26 e t > 2,26. Rejeitamos a hipótese nula, visto que t calculado está na região de rejeição. Ao nível de 1%, há evidência suficiente para concluir que existe uma correlação linear significante entre o preço e a produção de açúcar. Correlação e causalidade: é possível que a relação das variáveis tenha sido causada por uma terceira variável, ou por uma combinação de muitas outras variáveis, mas neste caso a causalidade se confirma com a base teórica. Coeficiente de determinação (r2) O coeficiente de determinação mede o grau de ajustamento da reta de regressão aos dados observados. Indica a proporção da variação total da variável dependente, que é explicada pela variação da variável independente. A análise de correlação se dedica a inferências estatísticas das medidas de associação linear que se seguem: • coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre duas variáveis; • coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre uma variável e um conjunto de outras variáveis. As técnicas de análise de correlação e regressão estão intimamente ligadas. r2 é uma medida descritiva da qualidade do ajustamento obtido, indicando a proporção real da variância Para um número fixo n de observações, quanto melhor for o ajuste dos dados, tanto maior será o valor de r2. Portanto, r2 pode ser visto como uma medida descritiva da qualidade do ajuste obtido – isto é, a variável independente (X: preço) explica 77% das variações da produção de açúcar. Ao considerar modelos de regressão múltipla, esse procedimento evita uma característica do R-quadrado que tende a aumentar sempre que adicionamos novas variáveis independentes, mesmo que a sua contribuição seja pouca para o poder explicativo da regressão. Utilizar o R-quadrado ajustado é de extrema importância quando se está comparando dois ou mais modelos de regressão que estão prevendo a mesma variável dependente, mesmo tendo um número diferente de variáveis independentes. Quando um valor de y^ é previsto a partir de um valor de x, a previsão é uma estimativa pontual. Pretendemos, agora, calcular uma estimativa intervalar para um valor previsto y. Primeiramente devemos calcular o erro-padrão da estimativa Se, que é o desvio-padrão dos valores de yi, observados em torno do valor y previsto para um dado valor de xi . Intuitivamente sabemos que quanto maior é a dispersão entre uma série de números ou população, maior será a dificuldade de se ajustar uma reta aos pontos. A dispersão pode ser estimada pela dispersão dos dados amostrais em relação à reta de regressão. O erro-padrão da estimativa (Se) é uma medida que avalia o grau de precisão da reta de regressão. Erro-padrão do coeficiente linear (ou do intercepto) O erro-padrão do intercepto (coeficiente linear da reta α) indica aproximadamente a distância entre os coeficientes estimados α^ e o coeficiente linear populacional α, devido à dispersão dos dados amostrais. Assim, quanto menor for o erro Sα^ , melhor será a precisão da estimativa. Erro-padrão do coeficiente angular Analogamente ao Sα^ , o erro do coeficiente Sb^ é a medida aproximada da distância entre a estimativa b^ e o coeficiente angular populacional b^. Inferências sobre o coeficiente angular Em algumas situações, mesmo não havendo relacionamento (causalidade) entre as variáveis na população, os dados amostrais podem sugerir a existência de relação. Isso ocorre quando, devido a fatores aleatórios, os dados extraídos da população dispõem-se de forma que seja possível traçar uma reta em que se ajustam esses pontos. Por essa razão, sempre é preciso verificar se o modelo linear obtido é realmente significativo (base teórica, a lógica de causa e efeito). Então podemos calcular o intervalo de confiança para β com 95% de confiança: ICβ (95%): ICβ (95%): 663,29 - 2,26 x 120,67 < β < 663,29 + 2,26 x 120,67 ICβ (95%): 390,33 < β < 936,26 Estimamos que o coeficiente angular β pertence ao intervalo [390,33; 936,26] com um nível de confiança de 95%. Se o intervalo de confiança para β incluir o zero, não poderemos rejeitar a hipótese nula. Caso o intervalo definido não inclua o zero, rejeitamos a hipótese nula, admitindo um de erro (5%), de que há relação significativa entre as variáveis. No nosso cálculo, o intervalo definido não inclui o zero. Podemos, portanto, rejeitar a hipótese nula (H0 : β = 0), concluindo, com um nível de confiabilidade de 95%, que há relação significativa entre as variáveis na população. Outra maneira de testarmos a hipótese nula (β = 0) é analisar a significância do coeficiente de regressão. O valor t de Student pode ser interpretado como o número de desvios-padrões que o estimador β ^ dista do ponto zero. Quanto maior for essa distância, maior será a chance de β ^ ser diferente de 0, portanto, garantindo a existência do modelo de regressão (relação entre X e Y). Para calcular a probabilidade (valor - P) de obtermos uma estatística t igual ou superior a esse valor, vamos utilizar a função estatística do Excel (DISTT). Para o nosso caso, valor - P = DISTT (teste; graus de liberdade; caudas). Onde: • teste = t teste (Stat-t deve ser inserido com seu valor em módulo, isto é, positivo); • graus de liberdade = n - k - 1 (graus de liberdade dos resíduos, sendo n o número de observações e k o número de variáveis independentes); • caudas = o teste do valor-P bicaudal deve ser sempre igual a 2. Nível de significância do teste α (erro permitido): • valor - P = DISTT (5,50; 9; 2) retorna o valor 0,0003817, de modo que: — se o valor - P for ≤ α, rejeitaremos a hipótese nula; — se o valor - P for > α, aceitaremos a hipótese nula. O erro permitido é de 5% (α = 0,05). Assim, o valor-P é bem menor que 0,05. Significa rejeitarmos a hipótese nula (H0 : β = 0) de que não há associação entre X e Y. Teste de hipótese É importante também aplicarmos o teste de hipótese ao nosso modelo de regressão. A hipótese nula é: os valores de x não têm qualquer relacionamento com os valores de y. Veja: H0 : β = 0; H1 : β ≠ 0 (teste bilateral). A hipótese nula é confirmada pela equação Y ^ i = a + bXi + ei , quando se constata que não haverá qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero. Podemos calcular o valor dessa estatística. Testamos a existência do efeito de regressão entre duas variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a hipótese alternativa é aquela que contempla a regressão. Exemplo: podemos usar essa equação para prever a expectativa de produção de açúcar com base no preço a seguir: US$ 15,00. Solução:devemos substituir cada renda em x na equação. Calculando o valor previsto y^: y^ = 23.508,98 + 663,29X = 23.508,98 + 663,29 x 15,00 = 33.458,33 Quando o preço for de US$ 15,00, a produção de açúcar chegará a 33.458 mil toneladas. Os valores previstos têm sentido somente para valores de x no intervalo de dados (8,00 a 25,00 dólares) ou próximos a eles. Intervalos de previsão Uma vez que as equações de regressão são determinadas usando dados amostrais e supõe-se que x e y tenham uma distribuição normal bivariada, podemos construir um intervalo de previsão para o verdadeiro valor de y. Duas variáveis terão uma distribuição normal bivariada se, para cada valor fixo de x, os valores correspondentes de y tiverem distribuição normal e, para cada valor fixo de y, os valores correspondentes de x forem normalmente distribuídos. Anova (análise de variância) É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento de um modelo de regressão. Pelo diagrama de dispersão, é possível visualizar se as relações entre as variáveis X e Y são lineares através de uma reta ajustada aos pontos observados. Entre as causas de autocorrelação, se erramos na escolha da equação a ser ajustada aos pontos observados e em vez de escolhermos uma relação não linear optamos por ajustar uma reta, o gráfico dos resíduos irá mostrar uma tendência positiva (ou negativa), significando que uma outra função (não linear) deveria ser escolhida. Outra situação é a seguinte: se por acaso uma variável explicativa (X) de grande importância for omitida do modelo, a tendência dessa variável passará a constar, a refletir no comportamento do resíduo. A autocorrelação serial se baseia na ideia de que os resíduos contêm mais informação sobre a variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado. Exemplos de autocorrelação são normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise. AVALIAÇÃO DO CONTEÚDO INFORMACIONAL DOS RESÍDUOS A análise de resíduos revela: • se a presunção de normalidade da distribuição dos resíduos se confirma; • se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da reta de regressão é uniforme; • se há ou não uma variável não identificada que deve ser incluída no modelo; • se a ordem em que os dados foram coletados (por exemplo, tempo da observação) tem algum efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo; • se a presunção de que os resíduos não são correlacionados está satisfeita. Na plotagem dos resíduos, para que os dados atendam às premissas, o gráfico anterior deve mostrar uma faixa horizontal centrada em torno do zero, sem mostrar uma tendência positiva ou negativa, ou seja, os resíduos devem estar distribuídos aleatoriamente em torno de zero, sem nenhuma observação discrepante. Existe um tópico dentro dos estudos econométricos que trata especificamente da análise dos resíduos, um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos. Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson. O modelo pressupõe que: • a correlação entre os resíduos seja zero; • o efeito de uma observação seja nulo sobre a outra; • não haja causalidade entre os resíduos e a variável X e, por consequência, a variável Y. . O coeficiente de Durbin-Watson mede a correlação entre cada um dos resíduos e o resíduo da observação anterior: • H0 : não existe correlação serial dos resíduos. • H1 : existe correlação serial dos resíduos. Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são eficientes e apresentam maior erro-padrão. Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são eficientes e apresentam maior erro-padrão. São possíveis causas em séries temporais: • inércia; • viés de especificação: — falta de variáveis; — forma funcional incorreta. • defasagem nos efeitos das variáveis; • manuseio dos dados: interpolação/extrapolação. A solução é formular corretamente a relação funcional ou tornar a série estacionária. Quando resíduos sucessivos são positivamente correlacionados, o valor de DW se aproxima de 0. Se os resíduos não forem correlacionados, o valor de DW estará próximo de 2. Se existir uma autocorrelação negativa, caso mais raro, DW será maior do que 2 (podendo aproximar de seu valor máximo, que é 4). Avaliando a homocedasticidade Quando o pressuposto da homocedasticidade está satisfeito, significa que a variância dos resíduos é igual a uma constante para todos os valores de X. A variância dos resíduos é indicada pela largura da dispersão dos resíduos, quando o valor de x aumenta. Se essa largura aumentar ou diminuir quando o valor de x aumentar, a variância não será constante. Esse problema é denominado heterocedasticidade. A violação do pressuposto da homocedasticidade compromete a eficiência das estimativas do modelo de regressão. O teste de Pesaran-Pesaran consiste em detectar a presença de heterocedasticiade com base nos resultados da regressão em que a variável dependente representa os valores dos quadrados dos resíduos (e2 ) e a variável independente é constituída pelos valores estimados da variável dependente (y^). Avaliando a normalidade Os testes de significância e os intervalos de confiança das estimativas do modelo de regressão são baseados no pressuposto da normalidade, isto é, que os resíduos apresentam distribuição normal. A violação da normalidade gera estimativas não eficientes, de maior erro-padrão, e suas causas podem estar ligadas a alguns aspectos relacionados ao modelo, tais como omissão de variáveis explicativas importantes, inclusão de variável explicativa irrelevante para o modelo e utilização de relação matemática incorreta (forma funcional) para análise entre as variáveis do modelo. Utilizaremos o teste não paramétrico do Kolmogorov-Smirnov para avaliar a normalidade e testar a proximidade ou a diferença entre a frequência observada e a esperada. Hipóteses: H0 : distribuição normal; H1 : distribuição não é normal. Para a identificação da normalidade nos resíduos, compara-se a distribuição dos resíduos com a curva normal através do teste de Jarque-Bera envolvendo a estatística qui-quadrado com 2 graus de liberdade: JB = n . [A2 /6 + (C-3)2 /24] Onde: A = assimetria; C = curtose. Neste nosso caso, temos: n = número de observações (n = 11); A = assimetria (A = - 0,3757); C = curtose (C = - 0,9185). Os resíduos devem apresentar a mesma variância para cada observação de X. Intervalo de confiança para a regressão: duas alternativas Quando calculamos o valor de y^ considerando um valor para a variável X, há duas alternativas que levam ao mesmo resultado para y^, mas que produzem resultados diferentes com relação ao intervalo de confiança. Variação em torno de uma reta de regressão • Variação total: é a soma dos quadrados das diferenças entre o valor y de cada par ordenado e a média de y. • Variação explicada: é a soma dos quadrados das diferenças entre cada valor previsto de y e a média de y (explicada pela relação X e Y). • Variação inexplicada: é a soma dos quadrados das diferenças entre cada valor de y de cada par ordenado e cada valor de y previsto correspondente (não pode ser explicada pela relação x e y e isso ocorre devido ao acaso ou a outras variáveis). Uma propriedade importante é a de que a variabilidade total poderá ser decomposta em duas partes: • uma, devida aos possíveis efeitos aleatórios (não controlados) que recaiam sobre cada experimento, que será definida como variabilidade residual; • outra, a variabilidadeatribuída ao efeito da regressão, se este realmente existir.
Compartilhar