Prévia do material em texto
Modelo empíricos de Regressão linear múltipla Prof.ª Andrea de Oliveira Cardoso Modelo Regressão linear múltipla Este tipo de modelo é aplicado para variáveis cujas séries históricas apresentam fortes relações com outras variáreis, sendo que essas relações se associam ao fenômeno (ou processo) que se deseja modelar. 1 •Processo (variável a ser estimada ou reproduzida) 2 •Procura por fatores relacionados ou influenciadores deste processo (outras variáveis). Obs: o coeficiente de correlação pode ajudar na identificação. 3 •Representação através de uma equação de regressão, identificando os pesos de cada variável relacionada Modelo de regressão linear múltipla fornece a relação entre uma determinada variável e outras variáveis independentes, pelo método dos mínimos quadrados. A equação de regressão tem a seguinte forma: y= b0 + b1X1 + b2X2 + b3X3+. . .+ bkXk dado que: y é a variável dependente; Xj são as variáveis independentes; b0 é a intersecção da reta com o eixo de y; bj são os coeficientes angulares; k é o número de variáveis independentes. A equação é obtida a partir da técnica dos mínimos quadrados, minimizando-se a soma dos quadrados dos resíduos em torno da função de regressão obtida, isto é, a meta é minimizar a soma dos erros quadráticos. Cada coeficiente de inclinação (coeficientes angulares) é estimado enquanto se mantém as outras variáveis constantes. O intercepto, b0, é o valor da variável dependente quando todas as variáveis independentes são 0. Modelo de regressão linear múltipla O coeficiente de determinação R2 é uma medida do poder explicativo do modelo de regressão. Fornece a proporção da variação da variável dependente, Y, que é explicada em termos lineares pelas variáveis independentes, X. R2 é obtido através da análise de variância, na qual se determina o quanto da variabilidade da variável dependente é considerada pela regressão. Os valores de R2 podem variar entre 0 e 1, quando este valor for 1 a regressão foi perfeita, sendo que, o inverso ocorre quando o valor de R2 se aproxima de 0. Ajuste da regressão (calibração) )1( )( )1( )( 1 2 1 2 1 2 1 2 2 − − − − = = = = = nn yyn nn yyn R N j N j ii N j N j iic onde yic é o valor calculado através da função de regressão e yi é o valor observado, N é o número de observações. R2 ajustado : O coeficiente de determinação ajustado é uma medida utilizada em regressão linear múltipla para avaliar a porcentagem da explicação da regressão. Ao adicionar variáveis independentes pode ocorrer um superajuste. O R2 ajustado pode ajudar a compensar o aumento natural de explicação provocado pelo aumento do número de variáveis independentes e o tamanho da amostra, sendo calculado com a expressão: ( )22 1)1(1 R kn n ajustadoR − − − −= Ajuste da regressão (calibração) sendo k é o número de variáveis independentes e n o número de observações utilizadas no ajuste do modelo. Validação Como o objetivo da modelagem é estimar a variável dependente com o menor erro, são necessários dois processos: 1) Calibração: Obter o melhor ajuste considerando um longo período da série e avaliando o R2 (utilizando as melhores variáveis independentes); 2) Validação: Aplica-se o mesmo modelo para outro período da série, considerando os coeficientes ajustados na calibração (1). CALIBRAÇÃO (R2 e os pesos bj e b0) VALIDAÇÃO Padronização dos dados Quando o conjunto de dados engloba variáveis diferentes, é necessário padronizar os dados de forma que as variáveis sejam comparadas na mesma escala. Caso haja sazonalidade e não se deseja considera-la na estimativa, é necessário padronizar os dados de forma que seja removido o ciclo sazonal. Para remover a sazonalidade e padronizar, primeiramente, calcula-se a média e o desvio padrão de cada mês da série, em todo o período de dados, conforme: Posteriormente, as séries de dados devem ser padronizadas conforme: = = N i jix N j 1 ),( 1 )( onde: (j) é média para um mês j e pode também ser chamada de ciclo sazonal; i é o índice que indica o ano e j é o índice que indica o mês; N é o número de anos. )1( ))(),(( )( 1 2 − − = = N jjix jS N i e S(j) é o desvio padrão do mês j. )( )(),( ),( jS jjix jix − = sendo que, x’(i,j) é o valor padronizado da variável do j-ésimo mês do i-ésimo ano. No Matlab a padronização pode ser realizada através da a ferramenta zscore , conforme: z = zscore(x) Caso os dados não possuam sazonalidade, a padronização poderá ser feita considerando todo o período de dados. Comandos úteis do matlab para desenvolver o modelo: A matriz de correlação, que apresenta os coeficientes de correlação entre várias variáveis é obtida pelo comando corrcoef . Ex Assim, podem ser escolhidas as melhores variáveis independentes (maiores correlações, positivas ou negativas) para a regressão. Os coeficientes de regressão e as estatísticas de avaliação podem ser obtidos pelo comando regstats . Ex., modelagem da disponibilidade de água no solo. Comandos úteis do matlab para desenvolver o modelo: y= 0 + 0.13 X1 -0.38 X2 + 0.32 X3 + 0.58 X4 R2 Exercício Desenvolva um modelo de regressão linear múltipla para estimativa de vazão de maio em S. Paulo, com defasagem de um mês. Para tanto, considere com preditores (variáveis independentes) as variáveis de vazão, temperatura máxima, temperatura mínima, precipitação e disponibilidade de água no solo, disponíveis no arquivo “dados_obs_SP.txt”. Calibre o modelo no período de 1970 a 2000 e forneça: a) O coeficiente de determinação R2 b) A equação de regressão do modelo. Referências BATISTA, R. O.; SOARES, A.; MANTOVANI, E. C., MATOS, A. T., SOUZA, J. A. R.; BATISTA, R. O. (2008) Modelos Empíricos da irrigação localizada com esgoto sanitário tratado. Engenharia na Agricultura, Viçosa, MG, v.16, n.3, 369-377. Chatfield C., 1996: The Analysis of Time Series: An introduction. Chapman & Hall, fifth edition, NY. 283 pp. Coser M. C; Mendonça, A. S. F.; Zorzal, R.; Fassarella, J. A. C. Aplicabilidade de modelos de geração de vazões sazonais apresentando dependência de longo termo. X Simpósio de Recursos Hídricos do Nordeste, 2010. PAP004334. CARDOSO, A. O., SILVA DIAS, P. L. O uso de índices de padrões de teleconexões e modos de TSM na previsão empírica de vazão no rio São Francisco. In: Simpósio Internacional de Climatologia, 2005, Fortaleza, Brasil. Anais. CARDOSO, A. O; SILVA DIAS, P. L. Assessing Forecast of the empirical model to forecast precipitation in the South and Southeast Regions Brazil. In: 8th International Conference on Southern Hemisphere Meteorology and Oceanography, 2006, Foz do Iguaçu, Brazil. Proceedings ... São José dos Campos: INPE, 2006. p. 517- 520. CD-ROM. ISBN 85-17-00023-4. ESTEVES, G. R. T.; BARBOSA, S. R.; SILVA, E. P.; ARAÚJO, P. D. Estimativa dos efeitos da Poluição Atmosférica sobre a Saúde Humana: algums possibilidades metodológicas e teóricas para a cidade de São Paulo Associação Nacional de Pós-Graduação e Pesquisa em Ambiente e Sociedade. Encontro da Associação Nacional de Pós Graduação e Pesquisa em Ambiente e Sociedade. São Paulo, ANPPAS, 2004. p.1-20. Filho Vinieri, C. IMPLEMENTAÇÃO DE UM PROGRAMA PARA INTEGRAR MODELOS DE PREVISÃO DE CHEIAS FLUVIAIS. 2004. 154 f. Tese de Doutorado. Instituto Tecnológico de Aeronáutica (ITA). São José dos Campos, SP. SILVEIRA, A. L. L., DESBORDES, M., (1999). Modelo Hidrológico Distribuído Urbano com Poucos Parâmetros. Revista Brasileira de Recursos Hídricos V. 4, n. 1, p 35-48. Olivo, A. A; Milioni, A. Z. Modelos matemáticos para a previsão de cheias fluviais. http://www.abrh.org.br/novo/ii_simp_rec_hidric_centro_oeste_campo_grande15.pdf