Prévia do material em texto
9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 1/23 Introdução Autoria: José Tadeu de Almeida – Revisão técnica: Jorge Lisandro Maia Ussan Econometria UNIDADE 2 - TEORIA DA CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 2/23 Caro(a) estudante, você sabe como podemos entender as relações de associação entre as variáveis? Como calcular o coeficiente de correlação? E quais as características e os métodos de elaboração de uma regressão linear simples? Para responder a essas e outras perguntas, nesta unidade, aprofundaremos nossos estudos sobre os processos de construção de modelos de regressão linear simples, operacionalizando a relação existente entre uma variável independente e uma variável dependente. A partir de conceitos da estatística descritiva, como o coeficiente de correlação de Pearson, ampliaremos nossos conhecimentos sobre a relação e a articulação entre variáveis. Esse coeficiente apresenta algumas limitações importantes, mas que podem ser, em boa medida, superadas pelos métodos de regressão linear. Por isso, é fundamental compreender bem os processos de construção da regressão, visando entender, desse modo, a metodologia de estimação de valores previstos e residuais nesse modelo. Para atingir nossos objetivos, no decorrer desta unidade, aliaremos teoria à prática, construindo nuvens de pontos reais e estimados e gerando retas ajustadas de forma compatível com o modelo de regressão, cujas características e hipóteses determinam os processos de estimação. Esses processos, como sabemos, são fundamentais para a inferência estatística. Com isso, consolidaremos nossos conhecimentos sobre a previsão do comportamento de algumas variáveis, permitindo estimar variações futuras, e sobre o comportamento previsível de elementos econômicos e sociais, de acordo com os interesses de pesquisa. Bons estudos! 2.1 Correlação linear Nesta seção, recordaremos alguns elementos de estatística descritiva que enfatizam o grau de associação entre variáveis. Utilizando conceitos relacionados à correlação linear e à covariância, torna-se possível verificar de que modo a trajetória, isto é, a variação de uma variável dependente, é capaz de ser afetada pelo desenvolvimento de uma variável independente. Nessa linha de raciocínio, compreenderemos as aplicações práticas dessa associação entre variáveis, recorrendo, em particular, ao coeficiente de correlação, o qual exibe, por meio de um valor real e compreendido em um determinado intervalo, o grau de associação entre variáveis. Acompanhe! 2.1.1 Coeficiente de correlação linear 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 3/23 A criação de uma base de dados, por meio de um levantamento estatístico e de procedimentos de coleta baseados em amostragem aleatória, pode viabilizar a observação de dados relativos a diferentes variáveis que se relacionam entre si. Essa situação é particularmente comum em análises bidimensionais, em que duas variáveis se associam em maior ou menor intensidade (MAIA, 2017). Um exemplo de análise bidimensional ocorre quando um professor procura associar, individualmente, o número de exercícios resolvidos pelos alunos às notas obtidas por eles em uma prova. Nesse caso, tomam-se observações relativas a cada aluno, dispondo os resultados dessas variáveis. É possível que os alunos que resolveram mais exercícios sejam encontrados entre aqueles que obtiveram as melhores notas? Há diferentes respostas em uma situação como essa, em que as variáveis são “exercícios resolvidos” e “notas obtidas”, aluno por aluno. Vejamos duas respostas: tomando a hipótese do senso comum, espera-se que os alunos que fizeram mais exercícios tenham melhores notas. Mas, eventualmente, um aluno que respondeu a poucos exercícios pode ser beneficiado se a prova cobrou exatamente o conteúdo que ele havia respondido, por exemplo. Assim, para entender se essa relação entre variáveis é válida, será necessário calcular o coeficiente de correlação. Naturalmente, é possível compreender a associação entre variáveis por meio de uma análise gráfica. Na medida das possibilidades, a análise gráfica destaca uma eventual correlação entre variáveis, mas que não pode ser presumida em termos mais precisos. Como referência, suponha que um professor de uma disciplina de Econometria distribuiu para seus 60 alunos, como base para a aplicação de uma prova, uma lista com 300 exercícios. O aluno que conseguiu resolver menos exercícios foi aquele que respondeu a apenas 20 questões, enquanto o aluno com o melhor desempenho na lista conseguiu resolver 280 perguntas. Para entender a relação entre essa resolução de problemas e a nota na prova, observe a figura a seguir. Caso 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 4/23 #PraCegoVer: na figura, consta um gráfico que apresenta uma relação entre o número de exercícios resolvidos pelos alunos, no eixo horizontal, e as notas obtidas por eles, no eixo vertical. Há uma nuvem de pontos que apontam uma tendência crescente, demonstrando que aqueles que fizeram mais exercícios apresentaram melhor desempenho por meio de melhores notas. Graficamente, é possível perceber uma tendência positiva, relativamente relevante, entre o desempenho dos alunos na resolução da lista e na resolução da prova. Essa análise pode ser útil, porém, não é exatamente eficiente, pois é possível observar, por exemplo, se a relação entre variáveis é positiva ou negativa e se é direta ou inversamente proporcional, mas a intensidade dessa relação não pode ser captada, apenas as tendências de variação é que o podem. Desse modo, para compreender se essa relação é mais ou menos importante, especialmente quando a amostra tem uma dimensão muito grande (isto é, quando há um número muito grande de dados) e é formada por variáveis quantitativas, pode-se recorrer ao coeficiente de correlação, também chamado de coeficiente de correlação de Pearson (MAIA, 2017). Figura 1 - Associação entre exercícios e notas finais Fonte: Elaborada pelo autor, 2021. Karl Pearson (1857-1936) foi um estatístico inglês que contribuiu para o desenvolvimento dessa disciplina por meio dos processos de regressão linear e da criação de indicadores de correlação e de estatísticas de significância, como a estatística qui-quadrado ( ) (DOANE; SEWARD, 2014). Você o conhece? 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 5/23 O coeficiente de correlação entre duas variáveis (X,Y) pode ser obtido de acordo com a fórmula: (MAIA, 2017). Essa fórmula demonstra que o coeficiente de correlação é alcançado ao efetivar-se o cálculo da média do somatório dos desvios médios padronizados, em que o desvio médio é calculado pela diferença entre um dado pertencente a uma variável e a sua média. A padronização ocorre ao dividir essa soma pelo desvio-padrão da variável (BUSSAB; MORETTIN, 2017). Finamente, é importante lembrar-se de que o desvio-padrão amostral é criado pela raiz quadrada da razão entre o somatório dos desvios médios e o número ( ) de graus de liberdade, como se segue: . 2.1.2 Sinal e ordem de grandeza Ao efetivar a divisão entre a soma dos desvios médios e do desvio-padrão, e depois dividir esse resultado pelo somatório n de elementos que compõem a amostra, será possível inserir os valores dessa correlação em um conjunto de valores reais entre -1 e +1 (BUSSAB; MORETTIN, 2017). Portanto, tem-se o seguinte intervalo: . Se o coeficiente de correlação for igual a 1, há uma forte e positiva correlação linear entre as variáveis; na situaçãooposta, a correlação entre as variáveis X e Y é forte e negativa. Se a correlação for próxima a zero, essa relação de associação é entendida como fraca (MAIA, 2017). O objetivo de elaborar essa razão entre os desvios padronizados e o número de elementos da amostra é o de evitar a influência da ordem de grandeza entre variáveis. No exemplo da lista de exercícios, observe que o intervalo da variável independente é dado por [0, 300] e que o intervalo da variável dependente é igual a [0, 10]. Há, portanto, dimensões diferentes entre as variáveis, e essa situação precisa ser ajustada para tornar a análise estatística mais confiável. A mesma situação pode ser evidenciada em casos nos quais a ordem de grandeza é distinta, como no caso de uma correlação entre peso (em quilogramas) e altura (em centímetros) de uma determinada amostra ou população. É possível, ainda, realizar a separação do elemento numerador que está presente na fórmula do coeficiente de correlação e, isolando esse coeficiente, pode-se obter o indicador de covariância, que é a média dos produtos entre os valores centrados das variáveis (BUSSAB; MORETTIN, 2017). O artigo de Dalson Brito Figueiredo Filho e de José Alexandre da Silva Júnior (2009), denominado “Desvendando os mistérios do coeficiente de correlação de Pearson (r)”, traz uma abordagem didática sobre esse indicador, aprofundando o estudo sobre as características e as propriedades de cálculo do mencionado coeficiente. Acesse (https://periodicos.ufpe.br/revistas/politicahoje/articl e/viewFile/3852/3156) Você quer ler? https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 6/23 Aplicando a fórmula da covariância sobre a fórmula do coeficiente de correlação (expresso por r), pode-se observar uma articulação entre esses indicadores (BUSSAB; MORETTIN, 2017): É possível, ainda, verificar se o coeficiente de correlação é significativo, mediante a construção de um teste de hipóteses. O teste é um instrumento útil para verificar se a variável dependente Y e a variável independente X estão efetivamente correlacionados (DOANE; SEWARD, 2014). Nesse caso, para comprovar a significância do coeficiente de correlação, deve-se elaborar o seguinte teste de hipótese: A estatística relacionada a esse teste é expressa do seguinte modo: . Essa estatística deve ser comparada com a estatística padronizada com ( ) graus de liberdade, de acordo com a distribuição t de Student. Nesse caso, se superar o valor crítico da estatística t, é correto rejeitar a hipótese nula ao nível de significância . Caso a hipótese nula for rejeitada, é coerente concluir que existe, de fato, uma relação significativa entre as variáveis. Por exemplo, suponhamos que um estudante de Economia decidiu entender a dinâmica do crescimento econômico e do desemprego em uma determinada região. Para isso, ele mediu a variação percentual do produto interno bruto (PIB), como variável dependente (Y), e a variação percentual da taxa de desemprego, como variável independente (X), ao longo de seis anos, gerando o quadro a seguir. A fórmula da covariância é descrita como se segue: . Os valores centrados dessas variáveis correspondem, efetivamente, aos desvios médios de uma variável, como no caso ( ). Esses valores demonstram o afastamento dos valores da variável em relação à sua média. Ao somar os desvios médios, a soma será igual a zero. Contudo, a fórmula da covariância não necessariamente será igual a zero, pois calcula-se, na verdade, o somatório entre os produtos de cada desvio médio: . 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 7/23 #PraCegoVer: quadro composto por três colunas, apresentando dados relativos a um caso hipotético. Na primeira coluna, à esquerda, constam os anos de 1 a 6; na coluna central, é destacada a variação percentual de crescimento da economia, considerando cada um desses anos; e na coluna à direita, apresenta-se a variação da taxa de desemprego também para os anos 1 a 6. Essa relação específica é analisada pela Lei de Okun, que demonstra uma ligação negativa e inversamente proporcional entre crescimento econômico e desemprego (BLANCHARD, 2017). Graficamente, pode-se observar uma relação decrescente entre essas variáveis, isto é, o desemprego varia positivamente à medida que a economia sofre retração (havendo queda percentual na variação do PIB), como apresentado na figura a seguir. Quadro 1 - Variação do PIB e da taxa de desemprego (anos selecionados, em %) Fonte: Elaborado pelo autor, 2021. Arthur Melvin Okun (1928-1980) foi um economista norte- americano que atuou junto ao governo dos Estados Unidos e desenvolveu vários estudos na área da macroeconomia, como a análise entre desemprego e crescimento econômico que leva o seu nome, a Lei de Okun (BLANCHARD, 2017). Você o conhece? 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 8/23 #PraCegoVer: gráfico apresentando uma abordagem ilustrada do quadro anterior, sobre variação do PIB e da taxa de desemprego. Observa-se que a nuvem de pontos tem uma tendência decrescente. A partir da situação apresentada, é possível questionar: ocorre alguma relação direta entre a variação do desemprego e a variação do PIB? Deve-se testar a significância dessa correlação ao nível de 5%. Assim, ao calcular a média de X e Y, observa-se que e que . Consequentemente, pode-se obter a covariância entre as variáveis X e Y mediante a equação: Sabendo-se que o desvio-padrão de X é igual a 1,995 e que o desvio-padrão de Y é igual a 2,409, pode-se elaborar o coeficiente de correlação: Testando a significância desse coeficiente, observa-se o seguinte: Figura 2 - Aplicação gráfica de um caso hipotético de Lei de Okun Fonte: Elaborada pelo autor, 2021. Para reforçar a sua compreensão sobre os conceitos de estatística descritiva, você pode assistir ao vídeo Variância e desvio-padrão, produzido pelo Portal da Matemática da Olimpíada Brasileira de Matemática (OBMEP). Acesse (https://www.youtube.com/watch? v=c8x_ZChTiLk) Você quer ver? https://www.youtube.com/watch?v=c8x_ZChTiLk 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7o… 9/23 O valor crítico de t que corresponde a ( é igual a 4 graus de liberdade, e 5% do nível de significância é igual a 2,78. Como , observa-se que há evidências suficientemente objetivas para afirmar que a variação do PIB e a variação do desemprego estão correlacionadas. 2.1.3 Limitações da correlação no modelo econométrico Ainda que os indicadores apresentados sejam importantes para compreender o processo de associação entre variáveis, é preciso considerar que o coeficiente de correlação e a covariância apresentam algumas insuficiências importantes. No que se refere à covariância, ela não é um indicador padronizado, de modo que a ordem de grandeza acaba afetando a sensibilidade do indicador em relação a um certo conjunto de dados (MAIA, 2017). Por exemplo, se há um interesse em analisar a covariância de dois conjuntos amostrais que envolvem uma notação em metros, e a covariância entre eles é dada por , ao efetivar uma transformação dessa variável para uma notação em centímetros, a covariância torna-se igual a . Assim, a covariância acaba sendo multiplicada por 100 ao ser realizada uma mudança na ordem de grandeza. Paralelamente, o coeficiente de correlação de Pearson permite obter uma referência sobre o grau de associação entre as variáveis entre um intervalo, como observamos anteriormente. No entanto, saber se uma correlação é forte ou fraca é um dado também insuficiente para compreender as tendências internas dessa distribuição de dados: uma variaçãopositiva não mostra a efetiva dispersão dos dados ao redor da média, pois o indicador, como vimos, é padronizado de acordo com os desvios-padrão e com o número de elementos da amostra. Teste seus conhecimentos (Atividade não pontuada) Um pesquisador da área de economia dispõe, para o cálculo do coeficiente de correlação de Pearson, expresso por r, do conjunto de variáveis (X,Y), dado por {(2,12), (4,10), (7,4), (11,6)}. Nesse conjunto, é sabido que a variável Y corresponde à variável dependente e que a variável X diz respeito à variável independente. Considerando essas informações, a correlação entre essas variáveis será igual a a) 0,78. b) 0,55. c) 0,22. d) -0,22. e) -0,78. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 10/23 Por fim, de acordo com Maia (2017), a correlação também não é capaz de demonstrar alguns aspectos básicos que são relacionados à distribuição dos dados amostrais, por exemplo: se há uma variação absoluta em X, qual a variação que deve ocorrer em Y? E, da mesma forma, se há um valor fixo em X, qual o valor esperado para a variável Y? Para superar essas limitações e obter uma ferramenta eficiente de estimação de uma dispersão ou de variabilidade de um conjunto de dados, é conveniente recorrer a um procedimento de regressão linear, assunto que veremos na próxima seção! Verificar É importante que você conheça as aplicações práticas e sociais dos métodos de amostragem e da análise de variáveis. Assim, pesquise de modo mais aprofundado a respeito dos métodos de coleta de amostras populacionais do Censo Demográfico do Instituto Brasileiro de Geografia e Estatística (IBGE). Para isso, leia o Tópico 11.2 do livro Metodologia do Censo Demográfico 2010, do IBGE (2016), denominado “Amostragem”, elaborando um breve resumo, com cerca de 20 linhas, sobre os métodos estatísticos apresentados. Vamos Praticar! 2.2 Modelo de regressão linear simples O conceito de regressão foi criado no final do século XIX pelo matemático e antropólogo Francis Galton (1822-1911). Esse pesquisador analisou uma possível relação entre a altura média dos pais e a dos filhos adultos em uma família. Ao realizar uma coleta de dados amostrais, ele obteve duas informações importantes (e razoavelmente esperadas) (MAIA, 2017): No entanto, Galton também observou o seguinte: os pais que tinham maior estatura no grupo amostral apresentavam filhos mais altos; os pais com baixa estatura apresentavam filhos baixos. os filhos de pais com maior estatura não são tão altos quanto seus pais; 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 11/23 Ou seja, a altura média dos filhos regredia à altura média da população, isto é, apresentava uma tendência de convergir para uma estatura média. Essa é a base histórica do conceito de regressão, que discutiremos com mais profundidade ao longo deste tópico. 2.2.1 Características do modelo e hipóteses associadas A econometria permite desenvolver modelos explicativos que correlacionam diferentes variáveis, com base em processos de regressão linear. Logo, com tais processos, torna-se possível avaliar e demonstrar alguns padrões e tendências de variabilidade entre séries de dados compostas por essas variáveis, podendo, desse modo, efetivar a estimação das mudanças e dos resultados futuros dessas séries. Por meio da regressão linear, é possível, então, que o pesquisador analise conjuntos de dados que se relacionam a n variáveis distintas, sendo que uma delas será enquadrada como uma variável dependente e as demais serão as variáveis independentes. Em resumo, o objetivo principal da regressão linear é determinar de que modo a variável dependente é afetada pela variável independente ou por um conjunto dessas variáveis (HOFFMANN, 2016). Portanto, essa relação entre uma série de n variáveis independentes e a variável dependente Y é estruturada como uma função entre tais variáveis: (MAIA, 2017). Há várias situações que demandam o uso de modelos de regressão linear, com maior ou menor grau de efetividade, como as destacadas na sequência. os filhos de pais com menor estatura também não são tão baixos quanto seus pais. Observe que uma variável dependente, de acordo com seu próprio nome, desenvolve-se em função dos dados de outra variável. Não ocorre, no entanto, uma relação direta de causa e efeito entre essas variáveis, tal como se a variável dependente fosse apenas um resultado relativo às variáveis independentes. Você sabia? Com os modelos de regressão linear, pode-se verificar a relação entre as taxas de crescimento do PIB e outros indicadores econômicos importantes, como a taxa de desemprego (a relação entre o número de indivíduos empregados e a população Taxas e indicadores econômicos 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 12/23 Suponhamos, por exemplo, a existência de duas variáveis, a saber, uma variável dependente expressa por Y e uma variável independente expressa por X. A relação estabelecida entre elas é dada pela equação . Assim, para um conjunto de dados da variável independente dada por , também haverá um conjunto de valores distintos no conjunto . Esses valores podem ser apresentados em uma reta, pois a relação de determinação entre as variáveis é absoluta, de acordo com a figura a seguir. #PraCegoVer: gráfico apresentando uma linha reta que une diversos pontos de acordo com a equação . Nesse caso, quando X é igual a 2, Y é igual a 8, e assim por diante. Contudo, há situações — que compõem a maioria dos casos — em que a variável dependente se torna diretamente influenciada por diferentes elementos ligados à variável independente. Esses elementos são conhecidos como exógenos, e geram uma diferença entre valores reais e esperados, denominados resíduos ou erros. Esses resíduos são capazes de afetar os resultados previstos pelo modelo de regressão linear (GUJARATI, 2011). Por fim, deve-se considerar que o modelo de regressão linear simples é definido por alguns pressupostos, apresentados a seguir (HOFFMANN, 2016). Figura 3 - Associação absoluta entre variáveis ( ) Fonte: Elaborada pelo autor, 2021. economicamente ativa) e a taxa de inflação (o aumento sustentado do nível geral de preços). No setor privado, pode-se destacar relações existentes entre o número de visitantes de um centro de compras, o volume de vendas em um determinado período e a variação do poder de compra da população mediante eventuais reajustes do salário mínimo. Setor privado 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 13/23 Pressuposto 1 Ocorre uma relação linear entre a variável independente e a variável dependente, de acordo com a construção de um modelo bidimensional. Pressuposto 2 Os valores da variável independente são fixos, ou seja, eles explicam a variação da variável dependente e não o contrário, de modo que a variável independente não é influenciada pela variável dependente. Pressuposto 3 O valor esperado para a média dos resíduos, expressos por , é igual a zero, assim, . 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 14/23 Pressuposto 4 A cada valor da variável independente , a sua variância será sempre igual a . Pressuposto 5 Os erros/resíduos relacionados a cada um dos dados observados não apresentam correlação entre si (são independentes). 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 15/23 É possível, portanto, verificar, resumidamente, que o modelo de regressão linear simples é baseado em umaconstrução estatística que associa séries de valores esperados e valores reais e suas tendências de variação (WOOLDRIDGE, 2017). 2.2.2 Valores previstos e residuais Retomando a discussão sobre o modelo econométrico, você deve observar que os valores previstos , relativos a uma variável dependente Y, podem ser obtidos de acordo com a seguinte equação: (MAIA, 2017). Nesse caso, o coeficiente a representa o coeficiente linear (o valor de Y quando X é igual a zero) e b representa o coeficiente angular (que determina a variação de Y a cada variação absoluta de X). De acordo com Hoffmann (2016), esses coeficientes são calculados da seguinte forma: Entretanto, é necessário observar que o modelo econométrico gera uma tendência, isto é, uma estimação dos valores esperados da variável dependente. Porém, pode haver outros fatores, não explicados pelo modelo (ou seja, que são exógenos ou externos ao modelo), que podem gerar uma variação real dos dados dessa variável. Nesse caso, haverá uma discrepância entre os valores estimados e os valores reais , gerando um erro amostral também conhecido como resíduo ou desvio. Esse erro é criado aleatoriamente (isto é, por fatores exógenos) e é dado por . Logo, uma formalização mais adequada de um modelo econométrico é expressa do seguinte modo: (MAIA, 2017). Para observar a relação entre valores previstos e residuais em um modelo, vamos retomar o exemplo do início desta unidade, o qual efetuava uma associação entre o número de exercícios respondidos por um grupo de alunos (em uma lista com 300 questões) e as respectivas notas nas avaliações. Trazendo agora a base de dados relativa à criação do gráfico de dispersão observado anteriormente, pode-se elaborar o quadro a seguir. Pressuposto 6 A distribuição dos resíduos assume uma distribuição normal. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 16/23 #PraCegoVer: quadro composto por oito colunas, apresentando as notas individuais dos alunos mencionados no exemplo anterior sobre a lista de exercícios de estatística e o número de exercícios resolvidos por eles. O aluno com o pior desempenho elaborou 20 exercícios e teve nota 0,5 na prova, e o aluno com o melhor desempenho elaborou 280 exercícios e obteve nota 9,9. No quadro, você pôde verificar que 60 alunos realizaram a lista de exercícios, de modo que se espera uma variação da nota Y a cada variação do número X de exercícios resolvidos. Recorrendo ao cálculo dos coeficientes linear e angular, de acordo com Hoffmann (2016), para uma média igual a 154, e uma média igual a 5,5, tem-se o seguinte: Quadro 2 - Base de dados amostrais para um modelo econométrico Fonte: Elaborado pelo autor, 2021. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 17/23 Logo, calcula-se o coeficiente linear: Assim, o modelo econométrico, incluindo-se a eventualidade de haver resíduos, pode ser descrito da seguinte forma: . O modelo gerado permite observar que, se é igual a zero, isto é, se o aluno não resolve um exercício sequer, sua nota esperada é igual a 1,59, e, a cada exercício que ele realizar, espera-se que sua nota na prova seja acrescida em 0,0254 pontos, até o limite de nota igual a 10. A partir dessa esquematização econométrica, questiona-se: para esse modelo, o limite de nota a ser atingido pelo aluno seria igual a 8,7, haja vista que, se ele elaborar os 300 exercícios, sua nota seria igual a 1,59 + (300*0,0254) = 1,59 + 7,62 = 9,21? Nesse caso, há dois fatores que ajudam a entender essa diferença. O primeiro deles, e mais objetivo, diz respeito aos arredondamentos e simplificações algébricas que foram adotados para facilitar o cálculo; a segunda razão é a existência de valores discrepantes e dispersos, que reduzem a eficiência explicativa do modelo a partir dos resíduos gerados. Por exemplo, há um aluno que elaborou 262 exercícios. Logo, a sua nota esperada é igual a . No entanto, a nota obtida foi igual a 5,4. Essa situação gera um resíduo igual a , ou seja, mais de 50% do valor real. Nesses casos, pode-se verificar que o modelo não está explicando eficientemente (ou seja, determinando) a variação dos dados da variável dependente. 2.2.3 Representação gráfica do modelo econométrico A partir de uma equação geradora de uma reta de regressão, é possível observar a tendência relativa à associação entre duas variáveis (MAIA, 2017). Como referência, vamos recuperar a primeira figura apresentada nesta unidade. Ali, você pôde observar uma tendência de distribuição das notas dos alunos a partir de sua capacidade de elaboração de uma série de exercícios preparatórios. Consequentemente, uma análise gráfica inicial apontou uma tendência crescente, isto é, as notas aumentavam à medida que o aluno tinha condições de responder a mais questões. Porém, dada a existência de um modelo econométrico baseado nessa dispersão de dados e expresso por , é possível sobrepor essas informações, que geram dados previstos, em relação à série de dados reais. Desse modo, observe o quadro a seguir, que apresenta os dados das variáveis X e Y e dos valores estimados, que são expressos por Yest. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 18/23 #PraCegoVer: quadro composto por 12 colunas e complementando o Quadro 2. Nele, constam as notas esperadas para cada aluno a partir do modelo econométrico elaborado por meio da relação entre os exercícios resolvidos e suas respectivas notas. A partir dessa distribuição, é possível representar graficamente as informações geradas pelo modelo econométrico, gerando uma linha de tendência ou reta de regressão, conforme ilustra a figura a seguir. Quadro 3 - Dispersão de dados esperados e reais em um modelo econométrico Fonte: Elaborado pelo autor, 2021. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 19/23 #PraCegoVer: gráfico destacando as notas estimadas para cada aluno, conforme o modelo econométrico gerado nesse exercício. As notas estão dispostas em uma reta, denominada reta de regressão. Observe que, nesse caso, há uma relação perfeitamente linear entre as variáveis independente e dependente, supondo que há uma associação perfeita entre essas variáveis, isto é, uma ausência de resíduos no modelo. Contudo, esses resíduos existem e determinam variações importantes entre os valores estimados e reais. Para compreendê-los, vamos tomar quatro exemplos como referência, focando nos alunos que responderam a 20, 114, 180 e 250 exercícios, observando suas notas reais e o desemprenho esperado para cada um deles. Assim, considere a figura a seguir. #PraCegoVer: gráfico apresentando as discrepâncias entre notas reais e esperadas de quatro alunos, demonstrando que esse intervalo pode ser maior ou menor, de acordo com o desempenho de cada um deles. Figura 4 - Representação de um modelo econométrico Fonte: Elaborada pelo autor, 2021. Figura 5 - Discrepâncias entre valores estimados e reais Fonte: Elaborada pelo autor, 2021. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 20/23 Observe, apenas nesses quatro casos, as discrepâncias entre valores estimados e valores reais. Nesse caso, o resíduo , isto é, o primeiro resíduo apresentado à esquerda no gráfico, é igual a , enquanto os outros resíduos são, respectivamente, 2,31, -3,51 e -6,54. Assim, em resumo, a figura a seguir apresenta a relação existente entre valores reais e esperados no modelo econométrico enfocado nesta unidade. #PraCegoVer: gráfico apresentando duas séries de dados, sobrepondo a nuvem de dados que foi apresentada na Figura 1, com as notas reais dos alunos, e os dados da retade regressão da Figura 4. A sobreposição de dados relativos aos valores reais e do modelo econométrico gerado a partir desses dados permite observar as tendências de dispersão dessas séries: enquanto o modelo econométrico é perfeitamente linear, os dados reais apontam para uma tendência de dispersão. Figura 6 - Sobreposição de séries de valores reais e estimados Fonte: Elaborada pelo autor, 2021. Teste seus conhecimentos (Atividade não pontuada) Um pesquisador na área de macroeconomia deseja avaliar, com base em uma série de dados históricos, as tendências de oscilação do crescimento econômico em função de uma variação da taxa de desemprego. O intuito desse pesquisador é validar a Lei de Okun para a sua região geográfica e estimar algumas tendências futuras, por meio de uma regressão linear simples. Para a criação desse cenário macroeconômico futuro, tem-se o quadro a seguir. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 21/23 Com base nessa situação, há alunos que deveriam ter obtido uma nota baixa, mas que tiveram bom desempenho, ao mesmo tempo em que outros com uma boa performance na resolução da lista obtiveram notas baixas. Como mencionado anteriormente, tais situações podem ser atribuídas a diferentes fatores: o aluno pode ter ficado nervoso, os exercícios da prova não corresponderam aos exercícios elaborados na lista, o aluno inverteu algum sinal na resolução, entre outras possibilidades. Esses fatores, na verdade, constituem-se como elementos exógenos os quais o modelo foi incapaz de captar. Assim, para verificar a eficiência explicativa do modelo, será preciso recorrer a um outro cálculo, relativo ao coeficiente de determinação ( ). Quadro 4 - Variação do PIB e da taxa de desemprego (anos selecionados, em %) Fonte: Elaborado pelo autor, 2021. Considerando essas afirmações, analise as afirmativas a seguir. I. No Ano 9, de acordo com a regressão, se , o valor de Y será igual a -2,88. II. O modelo econométrico que é compatível com essa série de dados corresponde a . III. De acordo com a regressão, estima-se que no Ano 8, se , o valor de Y será igual a 4,015. IV. Para essa série de dados, o modelo de regressão linear simples é dado por . Está correto apenas o que se afirma em: a) I e IV. b) II e III. c) II e IV. d) I, II e III. e) I, III e IV. Verificar 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 22/23 Vamos pensar em uma experiência prática de regressão ligada à sua vida pessoal: selecione seis pares de pais (ou mães) e seus filhos, tomando a altura de cada um deles. Assim, você terá seis pares ordenados etc. A partir desses dados, elabore uma regressão linear, verificando de que modo a variação da altura P dos pais determina a variação da altura F dos filhos. Vamos Praticar! A análise de variáveis implica a criação de coeficientes que permitem entender a intensidade da relação entre diferentes grupos amostrais. Assim, por meio do coeficiente de correlação e da regressão linear simples, por exemplo, é possível compreender e avaliar a associação de diferentes variáveis, apreendendo tendências de distribuição e a existência de erros amostrais que dizem respeito às diferenças entre valores reais e estimados. Nesta unidade, você teve a oportunidade de: Conclusão distinguir os usos e as limitações do coeficiente de correlação de Pearson e compreender sua operacionalização; articular o coeficiente de correlação e o cálculo de covariância para a criação de análises bidimensionais; aplicar conceitos e hipóteses relativos à construção de uma regressão linear simples, por meio de um caso prático; avaliar os efeitos da criação de um modelo econométrico a partir de discrepâncias eventuais entre valores reais e esperados. 9/12/22, 1:56 PM Econometria https://student.ulife.com.br/ContentPlayer/Index?cd=WxBtLwAgwAqE%2ftFVeZq0Qg%3d%3d&l=sND5HaGIBkoELxUNih9rxg%3d%3d&lc=zD7… 23/23 BLANCHARD, O. Macroeconomia. 7. ed. São Paulo: Pearson, 2017. BUSSAB, W. O.; MORETTIN, P. Estatística básica. 7. ed. São Paulo: Saraiva, 2017. DOANE, D.; SEWARD, L. Estatística aplicada à administração e economia. Porto Alegre: AMGH, 2014. FIGUEIREDO FILHO, D. B.; SILVA JÚNIOR, J. A. Desvendando os mistérios do coeficiente de correlação de Pearson (r). Revista Política Hoje, Recife, v. 18, n. 1, p. 115-146, 2009. Disponível em: https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156 (https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156). Acesso em: 24 jan. 2021. GUJARATI, D. N. Econometria básica. 5. ed. Porto Alegre: Bookman, 2011. HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba: Edição do Autor, 2016. INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Metodologia do Censo Demográfico 2010. 2. ed. Rio de Janeiro: IBGE, 2016. MAIA, A. G. Econometria: conceitos e aplicações: aprenda os fundamentos da análise econométrica e resolva problemas econômicos concretos. São Paulo: Saint Paul, 2017. VARIÂNCIA e desvio padrão. [S. l.: s. n.], 2018. 1 vídeo (9 min). Publicado pelo canal Portal da Matemática OBMEP. Disponível em: https://www.youtube.com/watch? v=c8x_ZChTiLk (https://www.youtube.com/watch?v=c8x_ZChTiLk). Acesso em: 9 fev. 2021. WOOLDRIDGE, J. M. Introdução à econometria: uma abordagem moderna. 6. ed. São Paulo: Cengage Learning, 2017. Referências https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156 https://www.youtube.com/watch?v=c8x_ZChTiLk