Baixe o app para aproveitar ainda mais
Prévia do material em texto
ECONOMETRIA APLICADAECONOMETRIA APLICADA VIOLAÇÃO DE HIPÓTESESVIOLAÇÃO DE HIPÓTESES Au to r ( a ) : D ra . M a rc e l a G i m e n e s B e ra O s h i t a R ev i s o r : M e . M a rc o A n to n i o S a n to s Tempo de leitura do conteúdo estimado em 1 hora e 10 minutos. Introdução Olá, caro(a) estudante! É com prazer que lhe apresentamos este material, que o ajudará a analisar os requisitos relacionados à violação de hipóteses, que acontece quando desenvolvemos um modelo de regressão. A violação de hipóteses apresenta: heteroscedasticidade, autocorrelação serial dos resíduos, multicolinearidade e não normalidade. Dessa forma, aprenderemos que, para que o modelo tenha um fundamento estatístico, ele não pode apresentar violação das hipóteses. Diante disso, entenderemos que, ao desenvolver um modelo, precisamos que ele apresente homocedasticidade, normalidade, ausência de resíduos autocorrelacionados e ausência de multicolinearidade. Nessa perspectiva, veremos que a homocedasticidade acontece quando: a variância de uma variável aleatória é constante; o termo de erro é, normalmente, distribuído com média zero e uma variância constante; as variáveis independentes não podem ter uma combinação linear entre elas, o que resulta no problema de multicolinearidade, e os resíduos não podem ser autocorrelacionados. Note que, a partir desse conhecimento, você estará apto a utilizar um modelo múltiplo, de forma que não viole as hipóteses desse modelo. Caro(a) estudante, a con�abilidade e a aceitação dos resultados obtidos pelos processos de medição são muito relevantes no âmbito das questões metrológicas. Basicamente, nenhum tipo de medição que possa ser realizada representa o verdadeiro valor mensurado. Essa variação normalmente é explicada pelas limitações inerentes ao processo dimensional, as quais limitam as quantidades de medições que podem ser realizadas, assim como está associada aos efeitos das demais variações que possam estar presentes. O objetivo da análise de conglomerados, também conhecida como análise de agrupamentos ou de cluster, é particionar um conjunto de dados em grupos que são internamente homogêneos e externamente distintos, ou seja, segmentar ou agrupar em grupos menores (subgrupos). A classi�cação é realizada com base em uma medida de similaridade ou dissimilaridade dentro e entre os grupos. Violação de Hipóteses: Heteroscedasticidade Figura 4.1 - Um exemplo de heteroscedasticidade Fonte: Stock e Watson (2004, p. 85). #PraCegoVer: a �gura apresenta um grá�co em que há a relação entre pontuação nos exames (eixo y) e a razão aluno-professor (eixo x) com uma reta de regressão inclinada de forma descendente para a direita do grá�co, com curvas de sino em três pontos, em diferentes locais da reta, que representam a distribuição de y com relação a x. No entanto essas distribuições apresentam valores diferentes quando x = 15, x = 20 e x = 25, isto é, oscilando ao longo da curva. Ao analisarmos a Figura 4.1, vemos a distribuição condicional da pontuação nos exames para três tamanhos de turmas diferentes. Assim, conforme o tamanho da turma aumenta, a variância aumenta, isto é, turmas maiores possuem variância maior. Para que esse modelo fosse homocedástico, as turmas teriam que apresentar a mesma variância. Nesse contexto, uma das suposições feitas sobre resíduos/erros na regressão dos mínimos quadrados ordinários é que os erros têm a mesma variância, mas esta é desconhecida. Isso é conhecido como variância constante ou homocedasticidade. Quando essa suposição é violada, o problema é conhecido como heteroscedasticidade. Conforme Hair et al. (2009), para realizar uma análise de cluster cuidadosa, são necessários métodos com as seguintes características: A heterocedasticidade não é uma propriedade necessariamente restrita a dados em corte transversal. Com dados de séries temporais, em que temos dados ao longo do tempo sobre uma unidade econômica, como uma �rma, uma família ou mesmo toda economia, é possível que a variância do erro se modi�que. Isso ocorre quando um choque ou variação externa nas circunstâncias cria maior ou menor incerteza sobre y (HILL et al., 2010, p. 275). Se os dados contiverem variância heterocedástica, é provável que um modelo de mínimos quadrados ordinários subestime ou superestime a variância na população, dependendo do tipo de variância observado na amostra. Isso leva a uma série de problemas em cascata: os erros-padrão dos parâmetros do modelo tornam-se incorretos, fazendo com que os valores p sejam errados e os intervalos de con�ança sejam muito estreitos ou muito amplos. Isso pode levar o modelo a entender que certos valores de parâmetros são signi�cativos, quando, na verdade, não são signi�cativos, e vice-versa. Todo o modelo torna-se não con�ável. SAIBA MAIS Muitas vezes, a análise de regressão é realizada em dados que podem ter um recurso interno de alta variância em diferentes valores de variáveis independentes. Um dos artefatos desse tipo de dado é a heteroscedasticidade, que indica variâncias das variáveis em torno dos valores ajustados. Ao observarmos a heteroscedasticidade, é necessário validar o modelo e, às vezes, os dados de regressão podem não ser con�áveis. Quando realizamos a regressão, os pontos de dados são espalhados ao redor da linha ajustada. Para um bom modelo de regressão, o espalhamento deve ser o mínimo possível. Quando o espalhamento é uniforme, o modelo é chamado de homocedástico. Para saber mais sobre o assunto, assista ao vídeo a seguir. A S S I S T I R Os abusos cometidos em nome do Estado e da Ciência, apurados e denunciados mundialmente em 1947 no Relatório �nal do Tribunal Internacional de Nuremberg, levaram à elaboração do primeiro Código de conduta em pesquisas, internacionalmente aceito – o Código de Nurembergue (1947) (PALÁCIOS; REGO, SCHRAMM, 2009, p. 607). Perceba que a heteroscedasticidade torna um modelo de regressão menos robusto. Essencialmente, os erros previstos variam para diferentes faixas da variável independente, sugerindo um modelo imperfeito. Deve-se sempre veri�car o grá�co de resíduos após qualquer análise de regressão e garantir que a variabilidade dos resíduos não siga nenhum padrão, ou, em outras palavras, a dispersão dos resíduos deve ser uniforme ao longo da linha de regressão. Veja, a seguir, as causas de heteroscedasticidade (GUJARATI; PORTER, 2011). Natureza do fenômeno em estudo: pode ter uma tendência crescente ou decrescente. Por exemplo, a variação no padrão de consumo de alimentos aumenta à medida que a renda aumenta. Da mesma forma, o número de erros de digitação diminui à medida que o número de horas de prática de digitação aumenta. Exemplos de tipos de fatores que levam à heteroscedasticidade: se houver um aumento na renda, as pessoas terão mais opções de investimentos, causando aumento na variância. De forma semelhante, as empresas que possuem maiores lucros podem distribuir mais dividendos em comparação com aquelas empresas que possuem um lucro menor. Outliers: a heteroscedasticidade também ocorre na presença de dados discrepantes (outliers). Por exemplo, se a maioria da população ganha em média R$ 2.000 e você inserir os dados de algumas pessoas que ganham R$40.000, esses são considerados dados discrepantes. Além disso, modelos mal especi�cados podem levar a problemas de heteroscedasticidade. A assimetria na distribuição de um ou mais regressores incluídos no modelo pode também resultar em heteroscedasticidade, por exemplo, se você comparar renda, riqueza e educação. De forma geral, o Código de Nuremberg estabeleceu que nenhum ser humano poderia ser submetido a projetos de pesquisa sem o seu devido consentimento, sendo o primeiro documento a ter alcance internacional, por conta, principalmente, do repúdio da comunidade internacional quanto aos crimes cometidos no período nazi-fascista (PALÁCIOS; REGO; SCHRAMM, 2009). A necessidade de regulamentação de pesquisas em seres humanos, para proteger seus participantes, e o desejo do corpo médico ter suaprópria regulamentação foram motivações para a criação da Declaração de Helsinque, a qual foi aprovada pela Associação Médica Mundial, e cuja primeira versão é de 1964 (PALÁCIOS; REGO; SCHRAMM, 2009). Teste Goldfeld-Quandt Para realizar o teste Goldfeld-Quandt, você pode fazê-lo por meio do software (por exemplo, no RStudio, com o seguinte comando: gqtest {lmtest}) ou calculá-lo. Para o cálculo, devemos: Em 1988, o Conselho Nacional de Saúde (CNS) do Brasil estabeleceu normas que tratam da ética em pesquisa com seres humanos e, em 10 de outubro de 1996, aprovou as diretrizes/normas que regulamentam pesquisas com seres humanos, denominada Resolução 196/96 (PALÁCIOS; REGO; SCHRAMM, 2009). Teste de White A Resolução 196/96 estabeleceu princípios básicos para permitir apreciação da ética em protocolos de pesquisa, criando os Comitês de Ética em Pesquisa (CEP) e a Comissão Nacional de Ética em Pesquisa (Conep). O conteúdo da resolução incorpora as experiências históricas da regulamentação sobre ética em pesquisa, principalmente com base no Código de Nuremberg (1947), na Declaração dos Direitos Humanos (1948), na Declaração de Helsinque (desde a primeira versão de 1964), nas Diretrizes Internacionais para a Revisão Ética de Estudos Epidemiológicos e nas Diretrizes Éticas Internacionais para Pesquisas Biomédicas Envolvendo Seres Humanos, assim como em conteúdos de leis promulgadas após a aprovação da Constituição de 1988 (PALÁCIOS; REGO; SCHRAMM, 2009; NOVOA, 2014). Samohyl (2009) estabelece que o grá�co de soma acumulada (CUSUM) é um aprimoramento do grá�co de controle X de Shewhart, este, de�nido como sendo a forma de monitoramento da média de um processo especí�co cuja característica deμμ organizar os dados de pequenos a grandes valores da variável independente suspeita de causar heterocedasticidade e organizá-los de forma decrescente; qualidade de interesse X é uma grandeza mensurável representada. Assim sendo, o CUSUM é o mais apropriado para se reconhecer o histórico dos dados, característica ausente em grá�cos mais simples, e também para identi�car pequenas alterações nos processos muito antes dos alarmes dos grá�cos X, considerados como LSC e LIC. A hipótese alternativa (a que você está testando) é que as variâncias não são iguais: Assim, para realizar o teste de White, é necessário calcular os resíduos da regressão e elevá-los ao quadrado; na sequência, calcular a regressão dos resíduos ao quadrado como variáveis explicativas e utilizar o dessa regressão como valor calculado do teste, multiplicando o número da amostra por dos resíduos (nx ). Considerando uma distribuição Qui-quadrado com 5% de signi�cância, com graus de liberdade, se o valor calculado do teste for menor do que o apresentado na tabela Qui-quadrado, o modelo é homocedástico; caso contrário, o modelo é heterocedástico. Apesar de a eticidade e a cienti�cidade da pesquisa cientí�ca, em especial, daquela realizada com seres humanos, serem aspectos que caminham juntos, não cabe aos Comitês de Ética em Pesquisa (CEP) a emissão de pareceres sobre a metodologia utilizada no desenvolvimento dos estudos (NOVOA, 2014). =H1 σi 2≠σ2 R2 R2 R2 k − 1 REFLITA Podemos corrigir a heteroscedasticidade em caso grandes amostras por meio do ajuste do erro padrã Assim, quando a variância for conhecida, podemos aplic o modelo de mínimos quadrados generalizados, e quando variância for desconhecida, utilizamos o método d mínimos quadrados ponderados. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Leia o trecho a seguir. “[...] a heterocedasticidade é potencialmente um problema grave e o pesquisador precisa saber se ela está presente em determinada situação. Se ela for detectada, podem-se adotar medidas corretivas, como a regressão de mínimos quadrados ponderados ou alguma outra técnica. Antes de examinarmos os vários procedimentos corretivos, devemos descobrir se a heterocedasticidade está presente ou se provavelmente irá apresentar-se em algum caso”. GUJARATI, D. N.; PORTER, D. C. Econometria básica. 5. ed. Porto Alegre: AMGH Editora, 2011. p. 380. Assinale qual das alternativas a seguir pode apresentar heteroscedasticidade corretamente. a) Renda das pessoas e lucros das empresas. b) Taxa básica de juros e emprego. c) Taxa de juros e desemprego. d) Renda e riqueza. e) Consumo e juros. Você já ouviu falar de autocorrelação serial de resíduos? A autocorrelação é uma característica dos dados que apresenta uma medida de similaridade entre um sinal e sua versão atrasada no tempo. Por exemplo, uma série de números ao longo dos anos, como séries históricas do PIB, in�ação ou desemprego, pode apresentar esse problema, uma vez que os valores podem ser previstos com base nos valores anteriores da série. A existência de autocorrelação nos resíduos de um modelo é um sinal de que o modelo pode não ser sólido. Além disso, a autocorrelação, normalmente, é diagnosticada usando o teste de Durbin-Watson. Teste de Durbin-Watson O erro de amostragem, por si só, signi�ca que, normalmente, veremos alguma autocorrelação em qualquer conjunto de dados, portanto, é necessário um teste estatístico para descartar a possibilidade de que o erro de amostragem esteja causando a autocorrelação. Para isso, o teste padrão é o de Durbin-Watson, em que a estatística do teste é baseada somente nos resíduos da regressão. A estatística Durbin-Watson (DW) é utilizada como teste para veri�car a autocorrelação nos resíduos de uma análise estatística de regressão. Se existir autocorrelação, esta subestima o erro padrão e pode nos levar a acreditar que os preditores são signi�cativos, quando, na realidade, não são. O teste Durbin-Watson procura um tipo especí�co de correlação serial, ou seja, correlação de primeira ordem (o atraso é de uma unidade). As hipóteses para o teste Durbin-Watson são: = não existe correlação de primeira ordem. Violação de Hipóteses: Autocorrelação Serial de Resíduos H0 Não existem sistemas de medição que possam ser classi�cados como ideais. Dessa forma, é atribuição direta dos engenheiros de�nir e implantar sistemas de medição que apresentem propriedades estatísticas consideradas adequadas. A estatística de teste DW (d) é: Note que o teste Durbin-Watson compreende a razão da soma das diferenças dos resíduos elevada ao quadrado, em que o denominador representa a soma do quadrado dos resíduos SQR (GUJARATI; PORTER, 2011). Cabe destacar que podemos utilizar o seguinte comando no RStudio para obter o mesmo resultado da fórmula anterior: dwtest ( ). Esse teste investiga, explicitamente, apenas a correlação de primeira ordem, mas, na prática, tende a detectar as formas mais comuns de autocorrelação, pois a maioria das formas de autocorrelação exibe algum grau de correlação de primeira ordem. A pesquisa epidemiológica tem por base a coleta sistemática de dados sobre eventos associados, principalmente, à saúde das pessoas pertencentes a populações de interesse. O tratamento analítico dado aos fatores pesquisados tem base em três procedimentos, a saber, a mensuração de variáveis aleatórias, a estimação de parâmetros populacionais e o uso de testes estatísticos (BLOCH; COUTINHO, 2009). d = Σt t=2( − )ût ût−1 2 Σt t=1û 2 t Figura 4.2 - Estatística d de Durbin-Watson Fonte: Gujarati e Porter (2011, p. 436). #PraCegoVer: a �gura representa as áreas de ausência de autocorrelação positiva e negativa do teste Durbin-Watson. São cinco colunas, em que, na primeira, há evidência de autocorrelação positiva, representando de 0 até a segunda coluna dL; a segunda seria uma zona de indecisão, que �ca entre dL e dU, a coluna do meio e a região de não rejeição, e �ca entre o dU, 2 e o 4-dU. A quarta coluna também seria uma zona de indecisão, que �ca entre 4-dU e 4-dL. Por �m, a última coluna representa evidências de autocorrelação negativa, e �ca entre 4-dL e 4. Os valores críticos superior e inferior, dU e dL, foram tabulados para diferentes valores de k (o número de variáveis explicativas) e n. Se< — rejeitar . Se > — não rejeitar . Se < < — o teste é inconclusivo. Perceba que a estatística DW (d) está entre 0 e 4, que indica que não há correlação serial. Valores mais próximos de 0 indicam correlação serial positiva, e valores mais próximos de 4 indicam correlação serial negativa. Um valor de 0 indica um passeio aleatório. Assim: d dL H0 d du H0 dL d du signi�ca que não há autocorrelação. signi�ca autocorrelação positiva. signi�ca autocorrelação negativa. Uma regra geral seguida é: valores estatísticos de teste DW na faixa de 1,5 a 2,5 são relativamente aceitáveis. Valores fora desse intervalo podem ser motivo de preocupação, enquanto valores abaixo de 1 ou mais de 3 são uma causa de�nitiva de preocupação. Se você rejeitar a hipótese nula do teste de Durbin-Watson e concluir que a autocorrelação está presente nos resíduos, então, você tem algumas opções diferentes para corrigir esse problema, se considerar que ele é sério o su�ciente: para correlação serial positiva, considere adicionar defasagens da variável dependente e/ou independente ao modelo. para correlação serial negativa, certi�que-se de que nenhuma de suas variáveis seja superdiferenciada. para correlação sazonal, considere adicionar variáveis dummy sazonais ao modelo. Normalmente, essas estratégias são su�cientes para remover o problema da autocorrelação. Cabe destacar que, em certos cenários, o teste Durbin-Watson pode ser inconclusivo. Além disso, quando as variáveis dependentes defasadas são incluídas nas variáveis preditoras, não é apropriado usar esse teste. Em outras palavras, a estatística Durbin-Watson é válida apenas se seus regressores forem estritamente exógenos, portanto, não é apropriado para casos em que você possui variáveis dependentes defasadas no lado direito de sua equação. Nesse caso, você pode optar por utilizar o teste Breusch-Godfrey. d = 2 0 < d < 2 2 < d < 4 Em muitas situações, no entanto, constatou-se que o limite superior é, aproximadamente, o verdadeiro limite de signi�cância e, portanto, no caso em que d �ca na zona de indecisão, pode-se usar o seguinte teste d modi�cado: dado o nível de signi�cância : du α Considerando as autocorrelações positivas e negativas, as hipóteses do teste Breusch- Godfrey seriam: : . : . A estatística do teste seria calculada por: Em que temos: = coe�ciente de determinação do ajuste para os resíduos como função de seus valores e dos regressores defasados. = probabilidade de erro ao dizermos que os erros possuem autocorrelação de ordem q. Na presença de autocorrelação nos erros, supõe-se que os estimadores de MQO não possuem mais variância mínima, embora continuem sendo não viesados e consistentes, deixando de ser e�cientes. Conhecimento Teste seus Conhecimentos (Atividade não pontuada) Podemos considerar que o erro de medição sempre estará presente quando a indicação do sistema de medição não relacionar corretamente com o valor verdadeiro do mensurando. Sendo assim, de�ne-se como erro de medição a diferença entre o valor indicado pelo sistema de medição e o valor verdadeiro do componente ou da peça dimensionada. “Lembre-se de que a hipótese da ausência da autocorrelação do modelo clássico refere- se aos termos de erro da população, , que não são observados diretamente. O que temos são suas proxies, os resíduos , que podem ser obtidos pelo procedimento dos H0 ρ = 0 H1 ρ ≠ 0 LM = (n − q)R2 û R2 û ρ ui uî MQO. Embora os , não sejam a mesma coisa que , muitas vezes um exame visual dos dá algumas pistas sobre a provável presença de autocorrelação dos ”. GUJARATI, D. N.; PORTER, D. C. Econometria básica. 5. ed. Porto Alegre: AMGH Editora, 2011. p. 421. A respeito da autocorrelação dos resíduos, podemos a�rmar que esse fenômeno pode ocorrer no caso: a) de as observações serem independentes. b) de especi�cação incorreta do modelo de regressão. c) de dados em corte transversal com observações independentes. d) de uma estatística de teste que varia de 0 a 2. e) de valores futuros das variáveis independentes. Você sabia que, na análise de regressão, é evidente a presença de uma correlação entre a variável dependente e as independentes? Normalmente, é isso que buscamos ao desenvolver uma regressão. Haver correlação entre as variáveis independentes é algo indesejado. uî ui uî û Violação de Hipóteses: Multicolinearidade Fonte: antusenoktanya / 123RF. Diante disso, o aumento no erro padrão decorrente de multicolinearidade signi�ca que os coe�cientes podem ser signi�cativamente diferentes de 0 para algumas ou para todas as variáveis independentes. Isto é, ao superin�ar os erros-padrão, a multicolinearidade torna algumas variáveis estatisticamente insigni�cantes quando deveriam ser signi�cativas (DAOUD, 2017). A multicolinearidade pode ser descrita como um distúrbio de dados em um modelo de regressão. Isso signi�ca que, em uma regressão, existe uma condição em que temos um par de características fortemente correlacionadas entre si nos dados. Nessa perspectiva, a multicolinearidade, ou dependência quase linear, é um fenômeno estatístico no qual dois ou mais preditores variáveis em um modelo de regressão múltipla são altamente correlacionados. Se não houver relação linear entre variáveis independentes, elas são ditas ortogonais (DAOUD, 2017). Para que uma variável seja considerada independente, ela deve ser distinta de outras variáveis, visto que a multicolinearidade pode di�cultar a distinção entre os efeitos isolados de variáveis independentes em uma variável dependente. A nova resolução divide-se em 13 partes e apresenta-se mais longa e �losó�ca, levando-se em consideração referenciais básicos de bioética, como o reconhecimento e a a�rmação da dignidade, a liberdade, a autonomia, a bene�cência, a não male�cência, a justiça e a equidade, dentre outros que visam assegurar os direitos e deveres que dizem respeito aos participantes da pesquisa, à comunidade cientí�ca e ao Estado (NOVOA, 2014, p. VII). Desse modo, a variável explicativa tem que ser independente de outras variáveis. Isso signi�ca que não devemos ter a capacidade de derivar os valores dessa variável usando outras variáveis independentes, apesar de que a multicolinearidade pode ameaçar um modelo; ela pode ser detectada e tratada. SAIBA MAIS O grau de associação entre as variáveis é medido por um coe�ciente de correlação, que possibilita analisar se há uma medida de associação linear. O coe�ciente de correlação é medido em uma escala que varia de +1 a –1. A correlação completa entre duas variáveis é expressa por +1 ou -1. Quando uma variável aumenta à medida que a outra aumenta, a correlação é positiva; quando uma diminui à medida que a outra aumenta, a correlação é negativa. A ausência completa de correlação é representada por 0. Assim, em uma regressão, essa correlação entre as variáveis independentes pode afetar um modelo econométrico. Veja mais sobre o assunto no vídeo a seguir. A S S I S T I R Esse é um caso típico de experimentos controlados, em que as demais variáveis são controladas, de modo que é possível veri�car a relação da variável dependente com cada uma das variáveis separadamente. Sabe-se que experimentos controlados não são, em geral, possíveis em ciências sociais. Além disso, num modelo econômico, interações entre as variáveis explicativas são um fato da vida. A preocupação deve se limitar a quando essa correlação �ca em valores próximos a 1 (ou –1) (SARTORIS, 2013, p. 285). Desse modo, a multicolinearidade pode não ter um impacto signi�cativo na precisão do modelo, mas tem um impacto maior na con�abilidade ao encontrar os efeitos de características individuais do modelo. Nessa perspectiva, existem muitas razões pelas quais a multicolinearidade pode ocorrer, por exemplo, incluir variáveis que são idênticas, colocar o valor da mesma variável em pesos de medidas diferentes (como quilogramas e libras), colocar variáveis que dependem uma da outra (o que deixa o modelo redundante)ou até utilizar dados inadequados (variáveis que depende de outras variáveis). Muitas vezes é possível reduzir os efeitos da multicolinearidade por meio do aumento da amostra. Isso porque a correlação alta observada pode ser decorrente da própria amostra, isto é, essa correlação pode não existir na população e um aumento das observações poderia re�etir melhor esse fato; ou, ainda, a correlação pode ser resultado de algum tipo de política econômica transitória e, se a amostra incluir observações de períodos em que essa política não foi adotada, a correlação obtida será bem menor (SARTORIS, 2013, p. 288). De forma estatística, um modelo de regressão com mais dados, provavelmente, sofrerá menos variância devido a um tamanho de amostra maior, o que reduzirá o impacto da multicolinearidade. Se inserirmos mais variáveis e, ainda assim, concluirmos que a multicolinearidade representa um problema para nosso modelo de regressão, podemos tentar mais algumas correções básicas, como remover variáveis que apresentam alta correlação e centralizá-las. A centralização é de�nida como uma constante do valor de cada variável, o que rede�ne o ponto zero para um determinado preditor para se tornar o valor que subtraímos. Para centralizar as variáveis, podemos, primeiramente, calcular a média de cada variável independente, e o próximo passo substituiria cada valor de variável pela diferença entre os valores e a média (DAOUD, 2017). O resultado dessa ação é que a interpretação dos coe�cientes de regressão permanece inalterada, reduzindo o impacto da multicolinearidade, tornando a correlação entre as variáveis muito mais gerenciável. Quando existe correlação entre as variáveis independentes, o erro padrão dos coe�cientes dos preditores aumentará, e, consequentemente, a variância dos coe�cientes do preditor será in�ada. Para isso, temos o teste VIF (Vetor de In�ação da Variância), normalmente calculado em software de regressão, que mede e quanti�ca o quanto a variância é in�ada (por exemplo, no RStudio você pode utilizar o comando vif () (DAOUD, 2017). O VIF pode ser calculado pela fórmula: Os resultados dos VIFs começam em 1 e não têm limite superior. Um valor de 1 indica que não há correlação entre essa variável independente e qualquer outra. VIFs entre 1 e 5 sugerem que há uma correlação moderada, mas não grave o su�ciente para justi�car medidas corretivas. VIFs maiores que 5 representam níveis críticos de multicolinearidade, em que os coe�cientes são mal estimados e os valores p são questionáveis. Além do signi�cado do próprio VIF em mostrar se os preditores estão correlacionados, o no cálculo do VIF indica que, quanto maior é o erro-padrão, maior tende ser a correlação entre as variáveis independentes. Por exemplo, se VIF for 9, signi�ca que o erro- padrão para o coe�ciente desse preditor é três vezes maior do que seria se esse preditor não fosse correlacionado com outros preditores. Além do VIF, há o teste de Farrar-Glauber, um dos testes estatísticos usados para detectar multicolinearidade, composto por mais três testes: o primeiro, o teste Qui-quadrado, examina se a multicolinearidade está presente no sistema; o segundo, o teste F, determina quais regressores ou variáveis explicativas são colineares; terceiro, o teste T, determina o tipo ou o padrão de multicolinearidade. V IF = 1 1−R2 i R2 i Fonte: nexusby / 123RF. #PraCegoVer: o infográ�co estático, intitulado “Teste de Farrar-Glauber”, possui embaixo do título a ilustração de um monitor com um grá�co e três subtítulos e suas de�nições. O primeiro subtítulo, “Teste Qui-quadrado”, é de�nido como “a hipótese nula é que os são ortogonais. Uma estatística baseada no determinante poderia fornecer uma primeira medida útil da presença de multicolinearidade dentro das variáveis independentes. Se o valor observado > , aceitamos que a variável possui multicolinearidade, isto é, ela não é octogonal. . O segundo subtítulo, “Teste F”, é de�nido como “Se > F, rejeita-se , caso contrário, não se rejeita. Como é o coe�ciente de correlação múltipla entre e os outros membros de , em que é a razão de explicada para inexplicada variação. Se o valor observado é i > F, aceitamos que a variável possui multicolinearidade. ”. O terceiro subtítulo, “Teste t”, é de�nido como “Se t > , em que t é o valor teórico da Distribuição de Student com ν graus de liberdade, então devemos aceitar que as variáveis e são responsáveis pela multicolinearidade. . Portanto, quando as variáveis independentes são correlacionadas, isso leva à notação de multicolinearidade, que indica que mudanças em uma variável estão associadas a X X X ̀ χ2 ∗ χ2 Xi = − [T − 1 − (2p + 5)]χ2 ∗ 1 6 ln|X X ̀ |′′ Fi cal H0 R2 xi, x1,x2....xk Xi X Fi cal Fi cal Xi = −Fi cal /(k−1)R2 xi, x1,x2....xk (1− )/(n−k)R2 xi, x1,x2....xk t∗v Xi Xj =t∗v Rij,1,2...p T−p√ 1−r2 ij,1,2...p√ mudanças em outra variável. A colinearidade mais forte e mais difícil é mudar uma variável sem mudar outra. Dessa forma, a multicolinearidade di�culta a interpretação de coe�cientes e reduz o poder do modelo para identi�car variáveis independentes signi�cativas. Além disso, compreendemos que existem dois tipos de multicolinearidade: multicolinearidade estrutural: esse tipo ocorre quando criamos um modelo termo usando outros termos. multicolinearidade de dados: este tipo é apresentado nos próprios dados ao invés de ser um artefato do modelo. praticar Vamos Praticar Muitos fatores afetam a multicolinearidade, por exemplo, ela pode existir durante o processo de coleta de dados, ou devido à seleção errada do modelo. Se considerarmos as variáveis exploratórias como renda e tamanho da casa em nosso modelo, então, este terá o problema de multicolinearidade, porque a renda e o tamanho da casa são altamente correlacionados. Também pode ocorrer se considerarmos muitas variáveis exploratórias na análise de regressão. Diante disso, considere que você rodou uma regressão e chegou no seguinte = 0.97651. A partir do resultado do seu calcule o teste VIF de multicolinearidade. R2 i R2 i Agora, vamos estudar a violação de hipóteses: não normalidade. Uma suposição central da análise de regressão linear é que os resíduos da regressão estão normalmente distribuídos (GUJARATI; PORTER, 2011). Quando a suposição de normalidade é violada, a interpretação e as inferências podem não ser con�áveis ou não ser válidas. A suposição de normalidade para regressão múltipla é que uma distribuição normal se aplica, apenas, aos resíduos, não às variáveis independentes. No caso das variáveis independentes, há poucas consequências associadas a uma violação da suposição de normalidade, uma vez que essa suposição, nesse caso, não contribui para viés ou ine�ciência em modelos de regressão. Sendo assim, a suposição de normalidade é importante para o cálculo dos valores de p para testes de signi�cância, mas isso é, apenas, uma consideração quando o tamanho da amostra é muito pequeno. Se estivermos lidando com uma amostra pequena, ou �nita, por exemplo com menos de 100 observações, a hipótese de normalidade assume um papel fundamental. [....] Para amostras grandes a hipótese de normalidade pode não ser relevante em grandes conjuntos de dados (GUJARATI; PORTER, 2011, p. 120). Quando o tamanho da amostra é su�cientemente grande (>200), a suposição de normalidade não é necessária, pois o Teorema do Limite Central garante que a distribuição dos resíduos se aproxime da normalidade (GUJARATI; PORTER, 2011). Não obstante, ao lidar com amostras muito pequenas, é importante veri�car se há uma possível violação da suposição de normalidade. Isso pode ser feito por meio de uma inspeção dos resíduos do modelo de regressão. Violação de Hipóteses: Não Normalidade Existem várias estatísticas disponíveis para examinar a normalidade das variáveis, incluindo assimetria e curtose, bem como inúmeras representações grá�cas, como o grá�co de probabilidade normal. Infelizmente, as estatísticas para avaliá-lo são instáveis em amostras pequenas,portanto, os resultados devem ser interpretados com cautela. Quando a distribuição dos resíduos se desvia da normalidade, possíveis soluções incluem transformar os dados, remover valores discrepantes ou realizar uma análise alternativa que não exija normalidade (por exemplo, uma regressão não paramétrica). Assim, para testar a normalidade dos resíduos, podemos utilizar dois testes: o Kolmogorov e Lilliefors e o Jarque-Bera. SAIBA MAIS A S S I S T I R SAIBA MAIS O teste Kolmogorov e Lilliefors é um teste de normalidade que pode ser usado quando a média populacional ou o desvio-padrão não é conhecido. A hipótese nula é de que os dados provêm de uma distribuição normal, e a alternativa é que os dados não vêm de uma distribuição normal. Veja mais sobre o assunto no link a seguir. A S S I S T I R O teste Jarque-Bera é, normalmente, usado para grandes conjuntos de dados nos quais outros testes de normalidade não são con�áveis. Esse é um teste apropriado para ser usado antes de realizar alguma análise em que se supõe que o conjunto de dados segue uma distribuição normal. Um teste Jarque-Bera pode dizer se essa suposição é satisfeita ou não. Teste Jarque-Bera Para avaliar a normalidade dos resíduos em grandes amostras, podemos utilizar o teste Jarque-Bera (JB) (GUJARATI; PORTER, 2011). Primeiramente, calcula-se a assimetria e a curtose dos resíduos da regressão, para, depois, utilizar a seguinte fórmula: Em que: n = tamanho da amostra; S = coe�ciente de assimetria; K = coe�ciente de curtose. Nesse caso, a hipótese nula do teste é a normalidade. Desse modo, se o p-valor < 5% (0,05) ou p-valor < 10% (p<0,10), rejeita-se a normalidade, então, os resíduos não são normalmente distribuídos. Por sua vez, se o valor > 0,05, aceita-se a hipótese nula de que os resíduos são normalmente distribuídos. JB = n [ + ]S 2 6 (K−3)2 24 Fonte: dmit3d / 123RF. De acordo com Gujarati e Porter (2011), quando a estatística do teste é 0, indica que a distribuição tem uma assimetria de 0 e uma curtose de 3, podendo, assim, ser considerada como uma distribuição normal. Em outras palavras, as distribuições com valores assimétricos distintos de zero e curtose distinta de 3 resultam em grandes valores de Jarque-Bera. Considere o seguinte exemplo de análise dos resultados da fórmula anterior: se a estatística de teste é 1,32 e o valor p correspondente é 0,53089, como esse valor de p não é menor que 0,05, deixamos de rejeitar a hipótese nula. Não temos evidências su�cientes para dizer que esses dados têm assimetria e curtose signi�cativamente diferentes de uma distribuição normal. Cabe destacar que a estatística do teste Jarque-Bera é sempre um número positivo, e, quanto mais distante de zero, mais evidências de que os dados da amostra não seguem uma distribuição normal. praticar Vamos Praticar O teste de qualidade de ajuste, isto é, o teste de Jarque-Bera, mede se os dados da amostra têm assimetria e curtose semelhantes a uma distribuição normal. A estatística do teste Jarque-Bera é sempre positiva e, se não estiver próxima de zero, indica que os dados amostrais não possuem distribuição normal. Considerando que o resultado da estatística do teste Jarque-Bera foi de 6.17123 com um valor p correspondente de 0.0456, realize uma análise desse resultado. Material Complementar W E B Teste Jarque-Bera Ano: 2020 Comentário: Esse vídeo apresenta de forma didática como realizar a estatística do teste Jarque Bera no Excel. Ao assistir a esse vídeo, você poderá acompanhar com detalhes todos os passos que envolvem o desenvolvimento desse teste. Além disso, vale a pena assistir a outros vídeos sobre o tema, de forma a ampliar seus conhecimentos sobre como realizar esse e os demais testes em software estatísticos. Para conhecer mais sobre o vídeo, acesse: TRA I LER L I V R O Controle estatístico de qualidade Autores: James H. Stock e Mark W. Watson Editora: Addison Wesley Capítulo: 4 Ano: 2004 ISBN: 85-88639-14-9 Comentário: Apresentando os aspectos relacionados à validade dos modelos de regressão pelos mínimos quadrados ordinários, Stock e Watson apresentam, nesse livro, uma abordagem sobre como realizar todo o processo de análise e validação dos modelos, tratando desde os conceitos básicos até os mais avançados, bem como as tomadas de decisões com relação à violação das hipóteses. Com o objetivo de �xar seu conhecimento, o livro torna-se importante, pois aborda a análise dos aspectos relacionados à violação de hipótese dos mínimos quadrados ordinários. Esperamos que, ao ler esse material, você possa coletar dados de forma mais assertiva, desenvolvendo uma análise mais robusta do modelo de regressão. Aproveite! Disponível em: Biblioteca Virtual. Conclusão Caro(a) estudante, neste material, você teve a oportunidade de compreender o universo das hipóteses dos modelos de Mínimos Quadrados Ordinários (MQO), bem como os fatores que levam à violação dessas hipóteses, uma vez que um modelo de regressão robusto estimado por MQO não pode apresentar heteroscedasticidade, autocorrelação serial dos resíduos, multicolinearidade e não normalidade. O modelo não pode, portanto, apresentar violação das hipóteses, porque deixa de ser o melhor estimador não viesado, e�ciente etc. Assim, estudamos a importância de desenvolver um modelo que apresente homocedasticidade e normalidade, sem resíduos autocorrelacionados e sem multicolinearidade. Nessa perspectiva, vimos que os dados podem até não seguir uma distribuição normal, mas os resíduos precisam atender a esse pressuposto, e podemos testar isso pelo teste Jarque-Bera. Além disso, entendemos que a multicolinearidade torna difícil obter os coe�cientes dos parâmetros por MQO. Para testar a multicolinearidade, podemos utilizar o VIF. Aprendemos, também, que, em um cenário de homocedasticidade, a variância deve ser constante, e podemos testar esse fator utilizando o teste de White. Portanto, a partir dos conhecimentos tratados neste estudo, possibilita-se desenvolver modelos robustos utilizando os mínimos quadrados ordinários. Referências DAOUD, J. I. Multicollinearity and regression analysis. Journal of Physics: Conference Series, v. 949. n. 1, 2017. Disponível em: https://iopscience.iop.org/article/10.1088 /1742-6596/949/1/012009/pdf. Acesso em: 12 mar. 2022. https://iopscience.iop.org/article/10.1088/1742-6596/949/1/012009/pdf https://iopscience.iop.org/article/10.1088/1742-6596/949/1/012009/pdf GUJARATI, D. N.; PORTER, D. C. Econometria básica. 5. ed. Porto Alegre: AMGH Editora, 2011. HILL, R. C. et al. Econometria. 3. ed. São Paulo: Saraiva, 2010. HISTOGRAMA no Excel com Curva da Distribuição Normal. [S. l.: s. n.], 2016. 1 vídeo (21 min.). Publicado pelo canal Aprendendo Gestão. Disponível em: https://www.youtube.com/watch? v=2YItnzdFHjU. Acesso em: 14 abr. 2022. INFERÊNCIA Estatística — Aula 12 — Teste Não Paramétrico de Lilliefors. [S. l.: s. n.], 2019. 1 vídeo (10 min.). Publicado pelo canal As Explicações do Pontes. Disponível em: https://www.youtube.com/watch?v=Toq0hc0STJo. Acesso em: 14 abr. 2022. O QUE é multicolinearidade? (parte1/3). [S. l.: s. n.], 2020b. 1 vídeo (10 min.). Publicado pelo canal economiaetv. Disponível em: https://www.youtube.com/watch?v=Hv9TlslegyQ. Acesso em: 14 abr. 2022. O QUE é heterocedasticidade? [S. l.: s. n.], 2020a. 1 vídeo (7 min.). Publicado pelo canal economiaetv. Disponível em: https://www.youtube.com/watch?v=i-fLov_lm0Y. Acesso em: 14 abr. 2022. SARTORIS, A. Estatística e introdução à econometria. 2. ed. São Paulo: Saraiva, 2013. STOCK, J. H.; WATSON, M. W. Econometria. São Paulo: Addison Wesley, 2004. TESTE de Normalidade Jarque Bera. [S. l.: s. n.], 2012. 1 vídeo (3 min.). Publicado pelo canal Contabilidade Sonora. Disponível em: https://www.youtube.com/watch?v=es2Q9dmYdp0. Acesso em: 14 abr. 2022. https://www.youtube.com/watch?v=2YItnzdFHjU https://www.youtube.com/watch?v=2YItnzdFHjU https://www.youtube.com/watch?v=Toq0hc0STJo https://www.youtube.com/watch?v=Hv9TlslegyQ https://www.youtube.com/watch?v=i-fLov_lm0Yhttps://www.youtube.com/watch?v=es2Q9dmYdp0
Compartilhar