Buscar

Trabalho Estatística II.Regressão Múltipla.2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Universidade Federal do Amazonas - UFAM
Curso: Ciências Econômicas
Disciplina: Estatística Econômica II
Professora: Carla Zeline
 	
Regressão Linear Múltipla
MANAUS - AM
2013
TESTE PARA REGRESSÃO LINEAR MÚLTIPLA
A Regressão linear múltipla pode ser entendida como um estudo entre a intensidade da relação entre as variáveis, onde encontramos uma variável dependente geralmente chamada de Y e variáveis independentes chamadas de X1, X2 .... Portanto iremos estimar o quanto e qual ou quais variáveis mais influem na variável dependente Y. 
Para isso a equipe utilizará o Programa Estatístico R para testar dados referentes ao mercado imobiliário.
Temos os seguintes dados para o Modelo 1 ou também denominado Hipótese Nula (H0):
	Preço
	Distância
	Dormitórios
	Área
	Renda
	107135
	1
	2
	94
	3537
	107750
	2
	2
	96
	3174
	108573
	2
	3
	116
	3072
	99151
	3
	4
	149
	2683
	85663
	3
	2
	98
	2512
	80614
	3
	3
	115
	2580
	74624
	4
	2
	93
	2031
	64195
	5
	3
	119
	1549
	40950
	6
	4
	142
	1104
	82479
	4
	2
	93
	2119
	41926
	6
	3
	122
	1068
	20386
	7
	1
	72
	549
	Tabela 1: Dados para análise
No modelo 1 ao qual também denominamos Hipótese nula (H0) a análise será feita relacionando os dados: distância, dormitórios, área e renda com finalidade de verificar o comportamento das variáveis no modelo.
	
	Estimate
	Std.Error
	T valor
	Pr(>|t|)
	(Intercept)
	-42021.09
	129999.91
	-0.323
	0.753
	Distância
	2833.16
	16103.33
	0.176
	0.864
	Dormitório
	-12837.21
	16737.32
	-0.767
	0.461
	Área
	585.16
	673.26
	0.869
	0.405
	Renda
	35.69
	32.07
	1.113
	0.292
Tabela 2: Coeficientes 
Residual standard error: 6686 on 10 degrees of freedom
Adjusted R-squared: 0.9474
Ao inserir os dados e os executarmos no Programa R verificamos os graus de liberdade fixados em 10, a estatística de R² ajustado fixou-se em 0.9474 o que nos diz ser um bom modelo, pois quanto mais próximo de 1 melhor a adequação dos dados ao modelo.
Quanto ao P valor verifico-se um indicativo inicial de que o modelo é válido devido aos valores resultantes serem menores que zero. Com isso também podemos deduzir que a variável distância possui o p valor mais alto indicando assim que β terá maior probabilidade de alcançar valor zero, e assim não influenciando diretamente no modelo.
 	Portanto para melhor aproveitamento de testes para estudo, faremos um segundo modelo excluindo a variável distância para que assim possamos verificar como as demais variáveis comportar-se-ão. 
ANALISANDO A TABELA ANOVA
Ao executarmos o comando para extrair a tabela de variância ANOVA encontramos os seguintes dados:
	
	Df
	Sum sq
	Mean sq
	F value
	Pr(>F)
	Distância
	1
	1.1290e+10
	1.1290e+10
	252.5397
	2.005e-08 ***
	Dormitórios
	1
	5.6055e+07
	5.6055e+07
	1.2539
	0.2890
	Área
	1
	4.5589e+07
	4.5589e+07
	1.0198
	0.3364
	Renda
	1
	5.5368e+07
	5.5368e+07
	1.2385
	0.2918
	Residuals
	10
	4.4704e+08
	4.4704e+07
	-
	-
 Tabela 3: Tabela Anova
Percebemos que a nível de variância a distância é a que mais de dispersa do valor esperado, assim como o seu F Value é bastante alto indicando uma possível rejeição da hipótese nula pois a variável mostrou-se dependente e instável.
O teste F nos indica a possibilidade de possível rejeição da hipótese nula pois alcançou valores muito altos, porém ainda temos mais testes para análise e não temos como afirmar ainda a rejeição ou não a hipótese nula
TESTANDO O INTERVALO CONFIANÇA
		
No intervalo de confiança a níveis de 2.5% e 97,5% nos deparamos com os seguintes dados:
	
	2.5 %
	97.5 %
	(Intercept)
	-331678.94213
	247636.7574
	Distância
	-33047.29468
	38713.6135
	Dormitórios
	-50130.28589
	24455.8667
	Área
	-914.96137
	2085.2891
	Renda
	-35.76129
	107.1337
Tabela 4: Intervalo de confiança
Inferimos que no intervalo das variáveis (β) todas poderão assumir valor nulo em algum momento do teste, significando que estas variáveis poderão não influenciar a variável dependente Y. 
Ou ainda que uma variável com influência menor possa estar desviando os valores dos testes, pois há muitas variáveis a analisar nos possibilitando a criar vários modelos porém vamos nos concentrar apenas em dois para fins de análise parcial.
GRÁFICO 1
Análise dos residuos
O gráfico de regressão dos resíduos indica que o modelo está trabalhando com variáveis de distribuição Normal pois os dados estão próximos a reta, com pouca dispersão.
MODELO 2 
Agora iremos simular um outro modelo excluindo a variável distância e assim verificarmos como as demais variáveis se comportam.
Estatísticas de testes
lm(formula = preco ~ dorm + area + renda)
	
	Estimate
	Std. Error
	t value
	Pr(>|t|)
	(Intercept)
	-19855.390
	30606.003
	-0.649
	0.530
	Dormitórios
	-13183.053
	15872.475
	-0.831
	0.424
	Área
	601.447
	636.821
	0.944
	0.365
	Renda
	30.055
	1.876
	16.019
	5.7e-09 ***
 Tabela 5: Coeficientes modelo 2
Residual standard error: 6385 on 11 degrees of freedom
Adjusted R-squared: 0.952. 
Verificamos que a 11 graus de liberdades o R² ajustado fixou-se em 0.952 o que indica que os dados se adequaram bem ao modelo, inclusive com um comportamento um pouco acima ao do modelo 1.
O resultado do teste P valor foram bons o que nos diz ser um modelo válido e por seguinte inferimos que a variável renda é a que mais influência a variável dependente, preço. As demais variáveis resultaram em valores baixos indicando assim a possibilidade de β não nulos, interferindo em algum momento no modelo. 
TABELA ANOVA 
Ao extrairmos a tabela de variâncias encontramos os seguintes dados;
	
	Df
	Sum Sq
	Mean Sq
	F value
	Pr(>F)
	Dormitório
	1
	4.0089e+08
	4.0089e+08
	9.834
	0.009477 **
	Área
	1
	5.8397e+08
	5.8397e+08
	14.325
	0.003022 **
	Renda
	1
	1.0460e+10
	1.0460e+10
	256.595
	5.697e-09 ***
	Residuais
	1
	14.4843e+08
	4.0766e+07
	-
	-
Tabela 6: Tabela Anova modelo 2.
Através da análise dos dados da tabela ANOVA podemos inferir que a variável mais se distância do valor esperado é a renda portanto causando uma influencia maior no modelo.
Com o Teste F inferimos que a renda alcançou um valor muito alto ou seja de possível rejeição da hipótese nula, as demais variáveis resultaram em valores baixos. Indica uma tendência a não rejeição da hipótese nula, vamos aos demais testes para confirmar esta tendência ou não.
INTERVALOS DE CONFIANÇA
Quanto ao Modelo 2 encontramos estes intervalos:
 
	
	2.5 %
	97.5 %
	(Intercept)
	-87218.74895
	47507.96970
	Dormitórios
	-48118.13434
	21752.02912
	Área
	-800.18662
	2003.08042
	Renda
	25.92558
	34.18487
 Tabela 7: Intervalo de confiança modelo 2.
A análise do intervalor de confiança nos informar que a variável renda é a única que não possui entre seu intervalo o valor 0, isso significa que os valores de β não serão nulos em momento algum e portanto a variável em questão terá influência na variável dependente. 
GRÁFICO 2 – Dispersão dos Residuos
O gráfico nos indica que os valores são dispersos e estão dentre os limites nos informando a realidade dos valores do modelo.
COMPARAÇÃO DE TESTE ANOVA 
Model 1: preco ~ dist + dorm + area + renda
Model 2: preco ~ dorm + area + renda
	Res.Df
	RSS
	DF
	Sum of Sq 
	F
	Pr(>F)
	10
	447041385
	
	
	
	
	11
	448425137
	-1
	-1383752
	0.031
	0.8639
	Tabela 8: Comparação de Teste Anova Modelo 1 com Modelo 2.
Concluímos que a nível de Teste P o modelo 2 comportou-se melhor pois os valores foram mais baixos que no modelo 1, isso indica que os dados comportaram-se melhor no modelo 2, pois há menos possibilidade de os β alcançarem valores nulos, neutralizandoo modelo em questão de influencia a variável dependente. 
Quanto ao teste F o modelo 1 indicou a possível rejeição da hipótese nula sobre a variável distância e no modelo 2 indicou a variável renda.
Quanto a teste da ANOVA podemos afirmar que o modelo 2 também mostrou melhor comportamento pois a renda foi afirmada como influente do modelo. 
Quanto ao R² ajustado o modelo 2 aproximou-se mais do valor de melhor ajuste com o valor de 0.95 frente ao valor do modelo 1 com 0.94.
Na comparação entre tabelas ANOVA do modelo 1 e 2 o programa aferiu que o modelo 1 é o mais indicado apesar dos demais resultados terem sido a favor do modelo 2. Uma das explicações para este resultado é o fato do modelo 1 possuir mais variáveis e assim poder explicar com mais fundamentos o comportamento do mercado imobiliário. Outro fator relevante são o número de variáveis a serem analisadas no modelo, para afirmamos quem realmente influi e a que menos influi deveríamos analisar pelo menos uns 4 modelos, porém para fins de aprendizagem e compreensão foram analisado apenas dois onde podemos concluir que Não Rejeitamos a hipótese Nula, o modelo 1 é o escolhido.

Outros materiais