Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Federal do Amazonas - UFAM Curso: Ciências Econômicas Disciplina: Estatística Econômica II Professora: Carla Zeline Regressão Linear Múltipla MANAUS - AM 2013 TESTE PARA REGRESSÃO LINEAR MÚLTIPLA A Regressão linear múltipla pode ser entendida como um estudo entre a intensidade da relação entre as variáveis, onde encontramos uma variável dependente geralmente chamada de Y e variáveis independentes chamadas de X1, X2 .... Portanto iremos estimar o quanto e qual ou quais variáveis mais influem na variável dependente Y. Para isso a equipe utilizará o Programa Estatístico R para testar dados referentes ao mercado imobiliário. Temos os seguintes dados para o Modelo 1 ou também denominado Hipótese Nula (H0): Preço Distância Dormitórios Área Renda 107135 1 2 94 3537 107750 2 2 96 3174 108573 2 3 116 3072 99151 3 4 149 2683 85663 3 2 98 2512 80614 3 3 115 2580 74624 4 2 93 2031 64195 5 3 119 1549 40950 6 4 142 1104 82479 4 2 93 2119 41926 6 3 122 1068 20386 7 1 72 549 Tabela 1: Dados para análise No modelo 1 ao qual também denominamos Hipótese nula (H0) a análise será feita relacionando os dados: distância, dormitórios, área e renda com finalidade de verificar o comportamento das variáveis no modelo. Estimate Std.Error T valor Pr(>|t|) (Intercept) -42021.09 129999.91 -0.323 0.753 Distância 2833.16 16103.33 0.176 0.864 Dormitório -12837.21 16737.32 -0.767 0.461 Área 585.16 673.26 0.869 0.405 Renda 35.69 32.07 1.113 0.292 Tabela 2: Coeficientes Residual standard error: 6686 on 10 degrees of freedom Adjusted R-squared: 0.9474 Ao inserir os dados e os executarmos no Programa R verificamos os graus de liberdade fixados em 10, a estatística de R² ajustado fixou-se em 0.9474 o que nos diz ser um bom modelo, pois quanto mais próximo de 1 melhor a adequação dos dados ao modelo. Quanto ao P valor verifico-se um indicativo inicial de que o modelo é válido devido aos valores resultantes serem menores que zero. Com isso também podemos deduzir que a variável distância possui o p valor mais alto indicando assim que β terá maior probabilidade de alcançar valor zero, e assim não influenciando diretamente no modelo. Portanto para melhor aproveitamento de testes para estudo, faremos um segundo modelo excluindo a variável distância para que assim possamos verificar como as demais variáveis comportar-se-ão. ANALISANDO A TABELA ANOVA Ao executarmos o comando para extrair a tabela de variância ANOVA encontramos os seguintes dados: Df Sum sq Mean sq F value Pr(>F) Distância 1 1.1290e+10 1.1290e+10 252.5397 2.005e-08 *** Dormitórios 1 5.6055e+07 5.6055e+07 1.2539 0.2890 Área 1 4.5589e+07 4.5589e+07 1.0198 0.3364 Renda 1 5.5368e+07 5.5368e+07 1.2385 0.2918 Residuals 10 4.4704e+08 4.4704e+07 - - Tabela 3: Tabela Anova Percebemos que a nível de variância a distância é a que mais de dispersa do valor esperado, assim como o seu F Value é bastante alto indicando uma possível rejeição da hipótese nula pois a variável mostrou-se dependente e instável. O teste F nos indica a possibilidade de possível rejeição da hipótese nula pois alcançou valores muito altos, porém ainda temos mais testes para análise e não temos como afirmar ainda a rejeição ou não a hipótese nula TESTANDO O INTERVALO CONFIANÇA No intervalo de confiança a níveis de 2.5% e 97,5% nos deparamos com os seguintes dados: 2.5 % 97.5 % (Intercept) -331678.94213 247636.7574 Distância -33047.29468 38713.6135 Dormitórios -50130.28589 24455.8667 Área -914.96137 2085.2891 Renda -35.76129 107.1337 Tabela 4: Intervalo de confiança Inferimos que no intervalo das variáveis (β) todas poderão assumir valor nulo em algum momento do teste, significando que estas variáveis poderão não influenciar a variável dependente Y. Ou ainda que uma variável com influência menor possa estar desviando os valores dos testes, pois há muitas variáveis a analisar nos possibilitando a criar vários modelos porém vamos nos concentrar apenas em dois para fins de análise parcial. GRÁFICO 1 Análise dos residuos O gráfico de regressão dos resíduos indica que o modelo está trabalhando com variáveis de distribuição Normal pois os dados estão próximos a reta, com pouca dispersão. MODELO 2 Agora iremos simular um outro modelo excluindo a variável distância e assim verificarmos como as demais variáveis se comportam. Estatísticas de testes lm(formula = preco ~ dorm + area + renda) Estimate Std. Error t value Pr(>|t|) (Intercept) -19855.390 30606.003 -0.649 0.530 Dormitórios -13183.053 15872.475 -0.831 0.424 Área 601.447 636.821 0.944 0.365 Renda 30.055 1.876 16.019 5.7e-09 *** Tabela 5: Coeficientes modelo 2 Residual standard error: 6385 on 11 degrees of freedom Adjusted R-squared: 0.952. Verificamos que a 11 graus de liberdades o R² ajustado fixou-se em 0.952 o que indica que os dados se adequaram bem ao modelo, inclusive com um comportamento um pouco acima ao do modelo 1. O resultado do teste P valor foram bons o que nos diz ser um modelo válido e por seguinte inferimos que a variável renda é a que mais influência a variável dependente, preço. As demais variáveis resultaram em valores baixos indicando assim a possibilidade de β não nulos, interferindo em algum momento no modelo. TABELA ANOVA Ao extrairmos a tabela de variâncias encontramos os seguintes dados; Df Sum Sq Mean Sq F value Pr(>F) Dormitório 1 4.0089e+08 4.0089e+08 9.834 0.009477 ** Área 1 5.8397e+08 5.8397e+08 14.325 0.003022 ** Renda 1 1.0460e+10 1.0460e+10 256.595 5.697e-09 *** Residuais 1 14.4843e+08 4.0766e+07 - - Tabela 6: Tabela Anova modelo 2. Através da análise dos dados da tabela ANOVA podemos inferir que a variável mais se distância do valor esperado é a renda portanto causando uma influencia maior no modelo. Com o Teste F inferimos que a renda alcançou um valor muito alto ou seja de possível rejeição da hipótese nula, as demais variáveis resultaram em valores baixos. Indica uma tendência a não rejeição da hipótese nula, vamos aos demais testes para confirmar esta tendência ou não. INTERVALOS DE CONFIANÇA Quanto ao Modelo 2 encontramos estes intervalos: 2.5 % 97.5 % (Intercept) -87218.74895 47507.96970 Dormitórios -48118.13434 21752.02912 Área -800.18662 2003.08042 Renda 25.92558 34.18487 Tabela 7: Intervalo de confiança modelo 2. A análise do intervalor de confiança nos informar que a variável renda é a única que não possui entre seu intervalo o valor 0, isso significa que os valores de β não serão nulos em momento algum e portanto a variável em questão terá influência na variável dependente. GRÁFICO 2 – Dispersão dos Residuos O gráfico nos indica que os valores são dispersos e estão dentre os limites nos informando a realidade dos valores do modelo. COMPARAÇÃO DE TESTE ANOVA Model 1: preco ~ dist + dorm + area + renda Model 2: preco ~ dorm + area + renda Res.Df RSS DF Sum of Sq F Pr(>F) 10 447041385 11 448425137 -1 -1383752 0.031 0.8639 Tabela 8: Comparação de Teste Anova Modelo 1 com Modelo 2. Concluímos que a nível de Teste P o modelo 2 comportou-se melhor pois os valores foram mais baixos que no modelo 1, isso indica que os dados comportaram-se melhor no modelo 2, pois há menos possibilidade de os β alcançarem valores nulos, neutralizandoo modelo em questão de influencia a variável dependente. Quanto ao teste F o modelo 1 indicou a possível rejeição da hipótese nula sobre a variável distância e no modelo 2 indicou a variável renda. Quanto a teste da ANOVA podemos afirmar que o modelo 2 também mostrou melhor comportamento pois a renda foi afirmada como influente do modelo. Quanto ao R² ajustado o modelo 2 aproximou-se mais do valor de melhor ajuste com o valor de 0.95 frente ao valor do modelo 1 com 0.94. Na comparação entre tabelas ANOVA do modelo 1 e 2 o programa aferiu que o modelo 1 é o mais indicado apesar dos demais resultados terem sido a favor do modelo 2. Uma das explicações para este resultado é o fato do modelo 1 possuir mais variáveis e assim poder explicar com mais fundamentos o comportamento do mercado imobiliário. Outro fator relevante são o número de variáveis a serem analisadas no modelo, para afirmamos quem realmente influi e a que menos influi deveríamos analisar pelo menos uns 4 modelos, porém para fins de aprendizagem e compreensão foram analisado apenas dois onde podemos concluir que Não Rejeitamos a hipótese Nula, o modelo 1 é o escolhido.
Compartilhar