Baixe o app para aproveitar ainda mais
Prévia do material em texto
JÁDSON FELIPE DANTAS FERREIRA LUCAS DANTAS DE SOUSA MAURICIO ABRANTES MIGUEL ANÁLISE DE REGRESSÃO DO MUNICÍPIO DE VIEIRÓPOLIS SOUSA - PB 2019 UNIVERSIDADE FEDERAL DE CAMPINA GRANDE CENTRO DE CIÊNCIAS JURÍDICAS E SOCIAIS UNIDADE ACADÊMICA DE CIÊNCIAS CONTÁBEIS CURSO DE CIÊNCIAS CONTÁBEIS DISCIPLINA: MÉTODOS QUANTITATIVOS PROFESSOR: VALTERLIN INTRODUÇÃO O trabalho tem a finalidade de verificar através de uma análise estatística a existência de uma relação funcional entre uma variável dependente (Despesa Total) com uma variável independente (Receita Total). Essa verificação trata-se de uma análise de regressão. Foi utilizado como base de cálculo, o total das receitas e despesas entre os anos de 2002 a 2017, do município de Vieirópolis-PB. “Vieirópolis é um município brasileiro localizado na Região Geográfica Imediata de Sousa, estado da Paraíba. Sua população em 2012 foi estimada pelo IBGE (Instituto Brasileiro de Geografia e Estatística) em 5.102 habitantes, distribuídos em 147 km² de área.” (WIKIPEDIA, 2019). 1 Análise de Regressão Linear Na Tabela 1, está apresentado a Receita Total, Despesa Total (em milhões de reais) entre os anos de 2002 a 2017, assim como a soma e média desses 16 anos. Tabela 1-Receitas e Despesas Totais Fonte: Elaborado pelo autor, 2019 Com base nos valores apresentados na Tabela 1, pode-se desenvolver o diagrama de dispersão, ilustrado na Figura 1. Ano Receita Total Despesa Total X² 2002 2,80 2,76 7,86 2003 2,81 3,05 7,91 2004 3,11 3,10 9,68 2005 4,03 4,02 16,23 2006 4,56 4,60 20,81 2007 5,54 5,43 30,66 2008 9,12 8,84 83,23 2009 6,49 6,80 42,15 2010 7,10 7,28 50,47 2011 8,80 8,44 77,51 2012 9,49 9,61 90,14 2013 10,46 10,45 109,43 2014 12,02 11,46 144,60 2015 11,87 12,05 140,99 2016 13,01 12,61 169,36 2017 12,70 13,41 161,27 Soma 123,943 123,923 1.162,27 Média 7,746 7,745 Em milhões de Reais Figura 1-Diagrama de Dispersão das Variáveis Fonte: Elaborado pelo autor, 2019 Através das informações contidas no gráfico acima, pode-se demonstrar o grau de relação entre as variáveis independentes X (Receita Total) e dependentes Y (Despesa Total). Com base nos dados apresentados, constata-se que existe a princípio uma correlação linear positiva entre as variáveis. Segundo Santos (2019), “o coeficiente de correlação linear mede a intensidade da relação entre duas variáveis”. Para determinar o coeficiente de correlação linear deve-se utilizar as seguintes formulas para a realização do cálculo: Após determinar os valores de 𝑆𝑥𝑥, 𝑆𝑦𝑦 e 𝑆𝑥𝑦 , pode-se calcular o coeficiente de correlação (r) e o coeficiente de determinação (R²), utilizando as seguintes formulas: Coeficiente de correlação Coeficiente de determinação 𝑅2 = 𝑟2 Com base nos dados apresentados na Tabela 1, e distribuídos numa planilha do aplicativo Excel, foram gerados automaticamente através da Ferramenta de Análise de Dados, os valores presentes na Tabela 2. Tabela 2-Estatística de regressão Fonte: Elaborado pelo autor, 2019 Como ilustrado na Tabela 2, o coeficiente de correlação (r) foi aproximadamente 0,9964, enquanto que o coeficiente de determinação (R²), apresentou o valor de 0,9928. Também podemos encontrar o valor de n = 16, (quantidade de anos utilizado para no teste) e o erro padrão (Se) é igual a 0,3197. Segundo Santos (2019), “o coeficiente de correlação pode variar entre -1 ≤ r ≤ 1. Caso o valor de r esteja próximo de -1 ou 1, ocorrerá uma forte correlação negativa ou positiva, respectivamente. Também pode ocorrer uma fraca correlação positiva, caso o valor de r esteja próximo de 0.” Após determinarmos o coeficiente de correlação, podemos realizar o primeiro teste de hipótese, onde: 𝐻0: 𝑝 = 0 𝐻1: 𝑝 ≠ 0 Segundo Santos (2019), “na utilização dos dados amostrais deve-se analisar a hipótese da existência de uma relação entre x e y”. Para realizar esse teste devemos inicialmente, encontrar o valor de 𝑡𝑐𝑎𝑙 . 𝑡𝑐𝑎𝑙 = 𝑟√𝑛 − 2 √1 − 𝑟2 = 0,9964 . √16 − 2 √1 − 0,9928 = 𝟒𝟒 𝑡𝛼/2,𝑛−2 = 𝟐, 𝟏𝟒 Estatística de regressão R múltiplo 0,996403205 R-Quadrado 0,992819347 R-quadrado ajustado 0,992306443 Erro padrão 0,319666621 Observações 16 Então verificamos por meio de hipótese se existe uma relação entre X (Receita Total) e Y (Despesa Total). Para determinar a aceitação do modelo, precisamos definir se |𝑡𝑐𝑎𝑙| > 𝑡𝑡𝑎𝑏 para um nível de significância de 𝛼 = 5%, caso seja confirmado, rejeitamos a hipótese nula (𝐻0) e aceitamos o modelo. Como podem notar, o 𝑡𝑐𝑎𝑙 = 44 e o 𝑡𝑡𝑎𝑏 = 2,14, nesse caso a hipótese nula foi rejeitada e o modelo foi aceito. O coeficiente de determinação (R²), mede a precisão do modelo escolhido. Nesse caso específico, sua precisão foi de 99,28%. Em seguida, foi gerado a Tabela 3, onde poderemos encontrar o modelo proposto, o erro padrão e o intervalo de confiança. Tabela 3-Determinação do modelo e intervalo de confiança Fonte: Elaborado pelo autor, 2019 Na coluna dos coeficientes temos os valores da estimativa do coeficiente linear (a) = 0,0824 e do coeficiente angular (b) = 0,9891, que consiste na interseção e na inclinação da reta, respectivamente. Através desses valores podemos determinar o modelo linear que será adotado. Modelo Linear ŷ = 0,9892x + 0,0825 Após determinar o modelo linear e o coeficiente de determinação podemos criar o gráfico de dispersão, como ilustrado na Figura 2. No gráfico constará a relação entre as Receitas Totais e Despesas Totais do município de Vieirópolis, entre os anos de 2002 e 2017, assim como o modelo escolhido e sua precisão. Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% Interseção 0,082475671 0,191626588 0,430397845 0,673458137 -0,328522484 0,493473825 -0,328522484 0,493473825 Variável X 1 0,98918854 0,022483397 43,996401 2,06844E-16 0,94096645 1,03741063 0,94096645 1,03741063 Figura 2-Gráfico de Dispersão Fonte: Elaborado pelo autor, 2019 Nota-se que na Figura 2, a reta está bem próxima dos pontos, isso porque o coeficiente de determinação é quase igual a 1. Desse modo, pode-se dizer que o gráfico apresenta uma forte correlação positiva. Após a descoberta do modelo de regressão, deve-se conhecer a variância dos estimadores para determinar a precisão dos estimadores, o intervalo de confiança e assim, realizar o teste de hipótese (SANTOS, 2019). Para determina a variância residual da estimativa, deve-se utilizar a seguinte formula: Ao descobrir o valor de 𝑆𝑒 2, encontra-se o erro padrão (Se), que na Tabela 2, está representado pelo valor de 0,3196. y = 0,9892x + 0,0825 R² = 0,9928 - 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00 - 2,00 4,00 6,00 8,00 10,00 12,00 14,00 D es p es a To ta l Receita Total Gráfico de Dispersão (Em milhões de reais) Enquanto que a variância das estimativas de b e a serão determinadas pelas formulas:A variância das estimativas, serão encontradas na Tabela 3, na coluna do erro padrão, onde os valores de b e a apresentados foram: 𝑆𝑏 = 0,0224; e 𝑆𝑎 = 0,1916. Para a realização do teste de hipótese dos estimadores, foi escolhido o valor de b. Onde podemos testar as seguintes hipóteses: 𝐻0: 𝛽 = 0 𝐻1: 𝛽 ≠ 0 Como geralmente a variância populacional é desconhecida, realizamos o cálculo do 𝑡𝑐𝑎𝑙 e relacionamos com o 𝑡𝑡𝑎𝑏 . Para esse cálculo utilizamos a seguinte formula: Podemos encontrar a solução dessa equação na Tabela 3, na coluna Stat t, onde o valor de 𝑡𝑏 = 43,9964. Caso o |𝑡𝑐𝑎𝑙| > 𝑡𝛼/2,𝑛−2, a hipótese nula (𝐻0) será rejeitada. Por essa razão, aceita-se a hipótese do coeficiente angular diferente de zero (𝐻1) com 95% de confiança e nível de significância de 5%. Na Tabela 3, o teste de hipótese pode ser confirmado pelo valor da coluna valor-P, onde o valor da variável X1 = 2,06E-16 é menor que o nível de significância (𝛼 = 5%). Para concluir a variância dos estimadores, desenvolvemos o intervalo de confiança para 𝛽. Esse intervalo pode ser expressado pela formula: Ainda na Tabela 3, podemos encontrar esses valores nas colunas 95% inferior e 95% superior, na linha da variável X1. Nesse caso, o intervalo é de: 0,9409 ≤ 𝛽 ≤ 1,0374 2 Análise da Variância (ANOVA) A próxima etapa consiste na Análise da variância (ANOVA). Podemos conferir essa analise através da Tabela 4. Tabela 4-ANOVA Fonte: Elaborado pelo autor, 2019 Na regressão simples, podemos decompor os resíduos utilizando as seguintes formulas: 𝑆𝑄𝑅𝑒𝑔 = 𝑏. 𝑆𝑥𝑦 = 197,801 𝑆𝑄𝑅 = 𝑆𝑦𝑦 − 𝑏. 𝑆𝑥𝑦 = 1,430 𝑆𝑦𝑦 = SQR + SQReg = 199,231 Enquanto que o grau de liberdade, onde n = 16, é expressado respectivamente: 1 + (n – 2) = (n – 1) Assim, a média quadrada associada com o modelo de regressão e a média quadrada dos resíduos resultam: 𝑀𝑄𝑅𝑒𝑔 = 𝑆𝑄𝑅𝑒𝑞 / 1 = 197,801 𝑀𝑄𝑅 = 𝑆𝑄𝑅 / (𝑛 − 2) = 0,102 E o teste F é realizado pela divisão da MQReg com MQR: 𝐹 = 𝑀𝑄𝑅𝑒𝑔/𝑀𝑄𝑅 = 1935,683 Caso 𝐹 > 𝐹𝑡𝑎𝑏𝛼,1,𝑛−2, o modelo é aceito. Na Tabela 4, podemos confirmar essa afirmação na coluna do F de significância. Como o F de significância = 2,06E-16 é menor que o nível significância (𝛼 = 5%), o modelo deve ser aceito com 95% de confiança. 3 Análise do Resíduo De acordo com Santos (2019), “a adequação do ajuste e as suposições do modelo podem ser verificadas através de uma análise dos resíduos.” Para que a análise dos resíduos seja aceita, é necessário que a soma esperada dos resíduos padrão seja igual a 0, caso contrário uma outra função não linear deve ser escolhida. Na Tabela 5, ilustraremos as previsões das Despesas Totais (ŷ previsto) e o Resíduo padrão (𝑅𝑒). gl SQ MQ F F de significação Regressão 1 197,8011826 197,8011826 1935,683301 2,06844E-16 Resíduo 14 1,430614478 0,102186748 Total 15 199,2317971 Tabela 5-Análise do Resíduos Fonte: Elaborado pelo autor, 2019 Para determinar os valores dos resíduos padrão, utiliza-se a seguinte formula: 𝑅𝑒 = 𝑦𝑖 − ŷ𝑖 𝑆𝑒 Além da Tabela 5, onde confirma-se que a soma dos resíduos padrão foi igual a 0, a Ferramenta de Análise de Dados também gerou o gráfico de plotagem, ilustrado na Figura 3. Figura 3-Plotagem de Resíduos Fonte: Elaborado pelo autor, 2019 Segundo Santos (2019), “se os dados atendem às premissas, o gráfico deve mostrar uma faixa horizontal centrada em torno do 0, sem mostrar uma tendência positiva ou negativa”. Observação Y previsto Resíduos Resíduos padrão 1 2,85581 -0,09305 -0,30132 2 2,86440 0,19014 0,61567 3 3,15979 -0,05851 -0,18947 4 4,06714 -0,04907 -0,15891 5 4,59508 0,00576 0,01864 6 5,55962 -0,13120 -0,42482 7 9,10671 -0,27018 -0,87486 8 6,50421 0,29845 0,96640 9 7,10967 0,17440 0,56473 10 8,79140 -0,35407 -1,14649 11 9,47385 0,13850 0,44846 12 10,43011 0,02216 0,07175 13 11,97729 -0,51913 -1,68097 14 11,82801 0,22475 0,72774 15 12,95554 -0,34469 -1,11613 16 12,64438 0,76576 2,47956 SOMA 0,00000 4 Intervalo de Confiança para as previsões A análise de regressão nos permitiu realizar uma previsão dos valores de Y (Despesa Total), com base nas relações existentes entre as variáveis (X e Y). Foram utilizados dois tipos de previsões: • Previsão do Valor Médio • Previsão do Valor Individual “A variância dos valores preditos irá depender não somente de S2, mas também do valor de 𝑥0. Isso acontece porque previsões são mais precisas quando 𝑥0 ~ �̅� e menos precisas quando 𝑥0 aproxima-se dos extremos investigados.” (SANTOS, 2019). Buscamos obter a previsão de Y (Despesa Total), caso a média de X (Receita Total) dos últimos 10 anos observados seja 20% menor. O nível de confiança da previsão foi de 95%. Na Tabela 6, podemos observar a Receita Total entre os anos de 2008 e 2017, assim como sua média reduzida em 20%. Tabela 6-Média dos últimos 10 anos Fonte: Elaborado pelo autor, 2019 O valor de 8,087 apresentado na Tabela 6, será a expectativa de Receita Total (𝑥0) para o período seguinte. Então se a Receita Total for de R$ 8.087.000, o valor esperado de ŷ será de: �̂� = 0,9892𝑥 + 0,0825 �̂� = 0,9892 . 8,087 + 0,0825 �̂� = 𝟖, 𝟎𝟖𝟐𝟏 Últimos 10 anos Receita Total 2008 9,12 2009 6,49 2010 7,10 2011 8,80 2012 9,49 2013 10,46 2014 12,02 2015 11,87 2016 13,01 2017 12,70 MÉDIA 10,11 -20% 8,087 Para que possamos determinar a previsão, ainda necessitamos de outras duas informações. O valor de 𝑆𝑥𝑥 e do erro padrão ao quadrado (𝑆𝑒 2). 𝑆𝑒 2 = 0,31962 = 𝟎, 𝟏𝟎𝟐 Com base nesses valores, podemos determinar a previsão da Despesa Total para o valor médio e individual, assim como seus intervalos de confiança. Previsão do Valor Médio Agora podemos determinar a previsão do valor médio de Y e o intervalo de confiança para um nível de significância 𝛼=5%. Intervalo de Confiança Previsão do Valor Individual Enquanto que a previsão do valor individual de Y e seu intervalo de confiança, com 𝛼=5%, foi de: Intervalo de Confiança REFERÊNCIA COMPARA BRASIL. Municípios. Disponível em: <http://comparabrasil.com/municipios/paginas/modulo1.aspx>. Acessado em: 17 jun.2019. SANTOS, Valterlin da Silva. Análise de regressão. 2019. Slide. Disponível em: <https://sites.google.com/site/profvalterlin/home/MQ>. Acessado em: 17 jun. 2019. WIKIPEDIA. Vieirópolis. Disponível em: <https://pt.wikipedia.org/wiki/Vieirópolis>. Acessado em: 17 jun. 2019.
Compartilhar