Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

Modelo empíricos de
Regressão linear múltipla
Prof.ª Andrea de Oliveira Cardoso
Modelo Regressão linear múltipla
Este tipo de modelo é aplicado para variáveis cujas séries
históricas apresentam fortes relações com outras variáreis,
sendo que essas relações se associam ao fenômeno (ou
processo) que se deseja modelar.
1
•Processo (variável a ser estimada ou reproduzida)
2
•Procura por fatores relacionados ou influenciadores 
deste processo (outras variáveis). Obs: o coeficiente 
de correlação pode ajudar na identificação. 
3
•Representação através de uma equação de 
regressão, identificando os pesos de cada variável 
relacionada
Modelo de regressão linear múltipla fornece a relação entre uma
determinada variável e outras variáveis independentes, pelo método dos
mínimos quadrados. A equação de regressão tem a seguinte forma:
y= b0 + b1X1 + b2X2 + b3X3+. . .+ bkXk
dado que: y é a variável dependente; Xj são as variáveis independentes; b0 é a
intersecção da reta com o eixo de y; bj são os coeficientes angulares; k é o número de
variáveis independentes.
A equação é obtida a partir da técnica dos mínimos quadrados, minimizando-se a
soma dos quadrados dos resíduos em torno da função de regressão obtida, isto é, a
meta é minimizar a soma dos erros quadráticos. Cada coeficiente de inclinação
(coeficientes angulares) é estimado enquanto se mantém as outras variáveis
constantes.
O intercepto, b0, é o valor da variável dependente quando todas as variáveis
independentes são 0.
Modelo de regressão linear múltipla
O coeficiente de determinação R2 é uma medida do poder explicativo do
modelo de regressão. Fornece a proporção da variação da variável
dependente, Y, que é explicada em termos lineares pelas variáveis
independentes, X.
R2 é obtido através da análise de variância, na qual se determina o quanto da
variabilidade da variável dependente é considerada pela regressão.
Os valores de R2 podem variar entre 0 e 1, quando este valor for 1 a regressão foi
perfeita, sendo que, o inverso ocorre quando o valor de R2 se aproxima de 0.
Ajuste da regressão (calibração)
)1(
)(
)1(
)(
1
2
1
2
1
2
1
2
2
−
−
−
−
=
 
 
= =
= =
nn
yyn
nn
yyn
R
N
j
N
j
ii
N
j
N
j
iic onde yic é o valor calculado através da
função de regressão e yi é o valor
observado, N é o número de observações.
R2 ajustado : O coeficiente de determinação ajustado é uma medida
utilizada em regressão linear múltipla para avaliar a porcentagem da
explicação da regressão.
Ao adicionar variáveis independentes pode ocorrer um superajuste. O R2
ajustado pode ajudar a compensar o aumento natural de explicação
provocado pelo aumento do número de variáveis independentes e o tamanho
da amostra, sendo calculado com a expressão:
( )22 1)1(1 R
kn
n
ajustadoR −
−
−
−=
Ajuste da regressão (calibração)
sendo k é o número de variáveis independentes e n o número de observações
utilizadas no ajuste do modelo.
Validação
Como o objetivo da modelagem é estimar a variável dependente com o menor
erro, são necessários dois processos:
1) Calibração: Obter o melhor ajuste considerando um longo período da
série e avaliando o R2 (utilizando as melhores variáveis independentes);
2) Validação: Aplica-se o mesmo modelo para outro período da série,
considerando os coeficientes ajustados na calibração (1).
CALIBRAÇÃO (R2 e os pesos bj e b0) VALIDAÇÃO
Padronização dos dados
Quando o conjunto de dados engloba variáveis diferentes, é necessário padronizar os
dados de forma que as variáveis sejam comparadas na mesma escala. Caso haja
sazonalidade e não se deseja considera-la na estimativa, é necessário padronizar os
dados de forma que seja removido o ciclo sazonal.
Para remover a sazonalidade e padronizar, primeiramente, calcula-se a média e o
desvio padrão de cada mês da série, em todo o período de dados, conforme:
Posteriormente, as séries de dados devem ser padronizadas conforme:

=
=
N
i
jix
N
j
1
),(
1
)(
onde: (j) é média para um mês j e
pode também ser chamada de ciclo
sazonal; i é o índice que indica o ano e j
é o índice que indica o mês; N é o
número de anos.
)1(
))(),((
)( 1
2
−
−
=

=
N
jjix
jS
N
i

e S(j) é o desvio padrão do mês j.
)(
)(),(
),(
jS
jjix
jix
−
=
sendo que, x’(i,j) é o valor padronizado da variável do j-ésimo
mês do i-ésimo ano.
No Matlab a padronização pode ser realizada através da a ferramenta zscore ,
conforme: z = zscore(x)
Caso os dados não possuam sazonalidade, a padronização poderá ser feita
considerando todo o período de dados.
Comandos úteis do matlab para desenvolver o modelo:
A matriz de correlação, que apresenta os coeficientes de correlação 
entre várias variáveis é obtida pelo comando corrcoef . Ex
Assim, podem ser escolhidas as melhores variáveis independentes (maiores
correlações, positivas ou negativas) para a regressão.
Os coeficientes de regressão e as estatísticas de avaliação podem ser 
obtidos pelo comando regstats . Ex.,
modelagem da disponibilidade de água no solo.
Comandos úteis do matlab para desenvolver o modelo:
y= 0 + 0.13 X1 -0.38 X2 + 0.32 X3 + 0.58 X4
R2
Exercício
Desenvolva um modelo de regressão linear múltipla para estimativa de
vazão de maio em S. Paulo, com defasagem de um mês. Para tanto,
considere com preditores (variáveis independentes) as variáveis de
vazão, temperatura máxima, temperatura mínima, precipitação e
disponibilidade de água no solo, disponíveis no arquivo
“dados_obs_SP.txt”. Calibre o modelo no período de 1970 a 2000 e
forneça:
a) O coeficiente de determinação R2
b) A equação de regressão do modelo.
Referências
BATISTA, R. O.; SOARES, A.; MANTOVANI, E. C., MATOS, A. T., SOUZA, J. A. R.; BATISTA, R. O. (2008)
Modelos Empíricos da irrigação localizada com esgoto sanitário tratado. Engenharia na Agricultura, Viçosa,
MG, v.16, n.3, 369-377.
Chatfield C., 1996: The Analysis of Time Series: An introduction. Chapman & Hall, fifth edition, NY. 283 pp.
Coser M. C; Mendonça, A. S. F.; Zorzal, R.; Fassarella, J. A. C. Aplicabilidade de modelos de geração de
vazões sazonais apresentando dependência de longo termo. X Simpósio de Recursos Hídricos do Nordeste,
2010. PAP004334.
CARDOSO, A. O., SILVA DIAS, P. L. O uso de índices de padrões de teleconexões e modos de TSM na 
previsão empírica de vazão no rio São Francisco. In: Simpósio Internacional de Climatologia, 2005, 
Fortaleza, Brasil. Anais. 
CARDOSO, A. O; SILVA DIAS, P. L. Assessing Forecast of the empirical model to forecast precipitation in the
South and Southeast Regions Brazil. In: 8th International Conference on Southern Hemisphere Meteorology
and Oceanography, 2006, Foz do Iguaçu, Brazil. Proceedings ... São José dos Campos: INPE, 2006. p. 517-
520. CD-ROM. ISBN 85-17-00023-4.
ESTEVES, G. R. T.; BARBOSA, S. R.; SILVA, E. P.; ARAÚJO, P. D. Estimativa dos efeitos da Poluição
Atmosférica sobre a Saúde Humana: algums possibilidades metodológicas e teóricas para a cidade de São
Paulo Associação Nacional de Pós-Graduação e Pesquisa em Ambiente e Sociedade. Encontro da
Associação Nacional de Pós Graduação e Pesquisa em Ambiente e Sociedade. São Paulo, ANPPAS, 2004.
p.1-20.
Filho Vinieri, C. IMPLEMENTAÇÃO DE UM PROGRAMA PARA INTEGRAR MODELOS DE PREVISÃO DE
CHEIAS FLUVIAIS. 2004. 154 f. Tese de Doutorado. Instituto Tecnológico de Aeronáutica (ITA). São José
dos Campos, SP.
SILVEIRA, A. L. L., DESBORDES, M., (1999). Modelo Hidrológico Distribuído Urbano com Poucos
Parâmetros. Revista Brasileira de Recursos Hídricos V. 4, n. 1, p 35-48.
Olivo, A. A; Milioni, A. Z. Modelos matemáticos para a previsão de cheias fluviais.
http://www.abrh.org.br/novo/ii_simp_rec_hidric_centro_oeste_campo_grande15.pdf

Mais conteúdos dessa disciplina