Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE CLÁSSICA E BAYESIANA PARA MODELOS DE EQUAÇÕES SIMULTÂNEAS Josimar VASCONCELOS1 Eufrázio de Souza SANTOS2 Moacyr CUNHA FILHO2 RESUMO: O presente artigo busca uma nova modelagem para o método de equações simultâneas, por meio do qual se pretende estimar o valor da produção de soja em grão no Brasil. Para aplicação dos dados foram utilizadas a inferência clássica e bayesiana. Essas ferramentas foram empregadas por meio de equações simultâneas de mínimos quadrados em dois estágios, considerando as variáveis: área plantada, área colhida, quantidade produzida, valor da produção e o produto interno bruto. Das aplicações realizadas, sugeri-se o método de Monte Carlo via cadeia de Markov, conjuntamente com o algoritmo Gibbs, onde obteve um bom ajuste no modelo. Em outras palavras, os resíduos foram aproximadamente zero, satisfizeram o diagnóstico de convergência e os gráficos ficaram adequados. PALAVRAS-CHAVE: Produção de soja em grão; modelos de equações simultâneas; inferência clássica e bayesiana. 1 Introdução A soja surgiu no Brasil em 1882, no estado da Bahia. Depois de algumas décadas, chegou a São Paulo por meio dos imigrantes japoneses e depois se deslocaram para o Rio Grande do Sul, por volta de 1914. Segundo a EMBRAPA (Trucom, 2009), o segundo maior produtor mundial de soja é o Brasil, seguido apenas dos Estados Unidos. Entre os anos de 2009 e 2010, a plantação ocupou cerca de 23,60 milhões de hectares, totalizando uma produção de 68,7 milhões de toneladas e os Estados Unidos corresponderam a 91,40 milhões de toneladas de soja 1Universidade Federal do Piauí – UFPI, Campus Senador Helvídio Nunes de Barros, Departamento de Matemática, CEP: 64600-000, Picos, PI, Brasil. E-mail: josimar@ufpi.edu.br 2Universidade Federal Rural de Pernambuco - UFRPE, Departamento de Estatística e Informática, CEP: 52171-900, Recife, PE, Brasil. E-mail: eufrazio@deinfo.ufrpe.br / moacyr@deinfo.ufrpe.br Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 417 de grão. O maior Estado produtor de soja no Brasil é o Mato Grosso, chegando a produzir 3.036 Kg/ha, enquanto o Brasil tem em média 2.941 kg/ha. No cotidiano, a grande preocupação é apenas com modelos de uma única equação, ou seja, com modelos que possuam uma única variável dependente Y e uma ou mais variáveis independentes X. Nesses modelos, destaca-se a estimação e/ou previsão do valor médio de Y condicionado a valores de X. Porém, em alguns momentos essa relação de “mão única” não tem lógica e isso ocorre quando Y é determinado pelas variáveis independentes, então existe uma relação de “mão dupla”, ou simultânea, entre Y e alguns X’s, o que torna a distinção entre variáveis independentes e dependentes de valor muito duvidoso. Logo, é interessante fazer um agrupamento de variáveis que possam ser determinadas simultaneamente pelo conjunto oposto dessas variáveis, onde é denominado de modelos de equações simultâneas (ver Gujarati (2006), Schneider (2010) e o artigo do Quintino et al. (2010)). Com o avanço da tecnologia, do final do século XX para o início do século XXI, passou-se a explorar a informática. Através disso, o método de Monte Carlo, via cadeia de Markov (MCCM) tornou-se usual para os pesquisadores da área das ciências exatas e agrárias. Esse método é um método estatístico que se utiliza de simulações estocásticas em vários campos, como por exemplo: matemática, física, biologia e ciências agrárias. O método envolve a geração de observações, através de vários experimentos de alguma distribuição de probabilidade e o uso da amostra para aproximar a função de interesse. Diante disso, surgiu o interesse em aplicar este método no contexto de equações simultâneas com o estimador de mínimos quadrados em dois estágios. O objetivo do estudo é encontrar uma outra alternativa de modelagem para o método de equações simultâneas para modelar o valor da produção de soja em grão no Brasil. Essa modelagem ocorre por meio da inferência bayesiana utilizando o MCCM baseado no algoritmo de Gibbs (ver, por exemplo, Roberts e Smith, 1993 ou Chib e Greenberg, 1995). 1.1 Métodos analíticos utilizados A aplicação no banco de dados da produção de soja foi realizada em duas situações, ou seja, empregou-se o método da inferência clássica e bayesiana, no qual obteve-se duas modelagens em cada método. Nos dois métodos, foi utilizada a aplicação de Modelos de Equações Simultâneas pelo Método de Mínimos Quadrados em 2 estágios−MQ2E. Sendo na primeira modelagem, a variável dependente “quantidade produzida” com as variáveis independentes “área colhida” e o “produto interno bruto”. Na segunda modelagem, estimou-se o primeiro modelo para compor a variável independente e obteve como dependente a variável “valor da produção”. Dentro do contexto de MQ2E, aplicaram-se os dois métodos, onde no método clássico empregaram-se duas sucessivas modelagens de mínimos quadrados ordinários (MQO). Na parte bayesiana, foi aplicado a modelagem de Monte Carlo via Cadeia de Markov, através do algoritmo de Gibbs com aplicação do modelo de regressão linear. 418 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 1.2 Critérios para dados simulados Após ter realizado a prática da regressão clássica, por meio do método de equações simultâneas utilizando o estimador de MQ2E, fez-se a aplicação do método de Monte Carlo via Cadeia de Markov com o algoritmo de Gibbs. Nos dois modelos, aplicou-se a priori normal (veja a Equação 8) tendo como precisão a distribuição Gama. O algoritmo de Gibbs foi implementado no WinBUGS dentro da plataforma computacional R utilizando o pacote R2WinBUGS para gerar as cadeias de Markov dos parâmetros α e β, veja Gelman et al. (2005). Inicialmente, foi realizada uma amostra piloto de tamanho 10.000 (dez mil). Depois, pelo diagnóstico de convergência, desenvolvido por Geweke (1992), Heidelberger, Raftery e Lewis (1992), Gelman e Rubin (1992) e Welch (1993), foi sugerido fixar 5.000 (cinco mil) iterações e descartar “Burn-in” as 100 (cem) primeiras observações adotando-se intervalos “thin” de dez observações, para obter uma amostra não correlacionada da cadeia de cada parâmetro. 1.3 Regressão linear A utilidade do modelo de regressão linear é destinada para analisar a relação entre uma variável dependente e uma ou mais variáveis explicativas. Sendo assim, o objetivo principal da análise de regressão é encontrar uma função linear que permita: descrever e compreender a relação entre uma variável dependente e uma ou mais variáveis independentes. Na equação clássica, o modelo é dado por: Yi = α+Xiβ+ϵi, onde i = 1, 2, . . . , n. Nos quais, Yi é a variável resposta; Xi é a variável explicativa; α e β são parâmetros desconhecidos; a variável aleatória ϵi têm média zero, variância σ2 e sendo não correlacionada ∀ i ̸= j. 1.4 Estimação dos coeficientes de equações simultâneas 1.4.1 Teste de simultaneidade Inicialmente, é interessante aplicar o teste Hausman (1976) para determinar se existem problemas de simultaneidade. O teste verifica se um regressor (dependente) se correlaciona com o termo de erro aleatório. Segundo Hausman (1976), caso isso aconteça, pode-se utilizar um dos métodos de equações simultâneas, caso contrário, recorre-se a mínimos quadrados ordinários. Com a presença de simultaneidade, será utilizado o método de Mínimos Quadrados em dois Estágios, os quais gerarão estimadores consistentes e eficientes. De forma geral, descreve-se os dois passos do teste de Hausman. I. Primeiro Passo: Faz-se a regressão da primeira variável dependente QPt contra as variáveis independentes ACt e PIBt para obter os resíduos Vt. II. Segundo Passo: Gera a regressão com a segunda variável dependente VPt contra as estimativas do primeiro modelo QPt e os resíduos Vt, para, em seguida, aplicar o teste−t ao coeficiente do resíduo Vt. Caso seja significativo, não se rejeita a hipótese nula de simultaneidade. Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 419 1.4.2 Método de mínimos quadrados em dois estágios No sistema de equações simultâneas superidentificadasou exatamente identificadas, o método mais adequado é o MQ2E para estimar seus parâmetros. Segundo Martin e Perez (1975), tem-se grandes vantagens em utilizar este método, pela facilidade de implementação nos softwares e a obtenção de estimadores eficientes para pequenas amostras. O método de mínimos quadrados em dois estágios consiste em duas modelagens de MQO: a primeira modelagem faz-se com as variáveis independentes AC e PIB e a variável dependente é a variável que está sobreidentificada QP, em seguida estima o primeiro modelo para gerar a segunda modelagem com a outra variável dependente VP. Abaixo será discorrido de formal funcional. I. Primeiro Estágio: na primeira modelagem, faz-se a regressão Y1t sobre todas as variáveis independentes, em todo o sistema. Por exemplo, supondo que tem-se duas variáveis independentes e duas variáveis dependentes no modelo oferta, assim obtém-se o seguinte modelo: Y1t = β0 + β1X1t + β2X2t+ ut, (1) onde ut são os resíduos de MQO. Pelo modelo 1, consegui-se: Ŷ1t = β̂0 + β̂1X1t + β̂2X2t, (2) em que Ŷ1t são estimativas do valor esperado de Y1t condicionado as variáveis independentes. Por conseguinte, a expressão 1 pode ser reescrita da seguinte forma: Y1t = Ŷ1t + ût. (3) II. Segundo Estágio: agora, pode-se escrever o segundo modelo da equação superidentificada de oferta da moeda do seguinte modo: Y2t = β20 + β21 ( Ŷ1t + ût ) + u2t = β20 + β21Ŷ1t + u ∗ t . No qual, u ∗ t = u2t + β21ût. Para finalizar a aplicação de equações simultâneas com o estimador de mínimos quadrados em dois estágios, faz-se a correção dos desvios padrão, estatística do teste-t e valor-p. Pois, caso observe-se o modelo do segundo estágio verifica-se que o σ̂2u∗ é diferente do σ̂2u2 . Isto é, a primeira variância depende das estimativas da variável resposta, enquanto o outro termo depende do verdadeiro valor real da resposta, veja Gujarati (2006). Através deste estudo, que será aplicado pelo estimador de MQ2E, obtém-se as seguintes expressões: 420 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 σ̂2u2 = ∑n t=1(û2t) 2 n− 2 , (4) e, σ̂2u∗ = ∑n t=1(û ∗ t ) 2 n− 2 . (5) Depois de calculados esses valores, o modo de corrigir os erros padrão dos coeficientes estimados na regressão de mínimos quadrados em dois estágios é multiplicar cada um desses coeficientes do modelo pela divisão do resultado de (4) por (5). Caso o R2 seja muito alto (mais ou menos acima de 0,80) na regressão do primeiro estágio, ou seja, o valor estimado esteja muito próximo do verdadeiro valor real, o fator de correção será aproximadamente 1 (um). Podendo assim, o pesquisador permanecer com os desvios padrão do segundo estágio, sem precisar atualizar. 1.5 Distribuição priori conjugada utilizando o modelo normal Nesta seção, será apresentada a distribuição a posteriori com a verossimilhança e priori normal para, depois, fazer a implementação do modelo de regressão normal. Agora, supondo que as amostras são tomadas de uma distribuição normal para a qual o valor da média θ é desconhecida e o valor da variância σ2 é conhecida, tem-se que a família de distribuição normal será a própria; isto é, uma família conjugada de distribuições a priori. Suponha que x1, x2, . . . , xn ou x˜ formam uma amostra aleatória de umadistribuição normal para a qual o valor da média θ (θ ∈ R) é desconhecida e o valor da variância σ2 (σ2 ∈ R+) é conhecida. Suponha também que a distribuição a priori de θ é uma distribuição normal com valores dados da média µ e variância ν2. Além disso, tem-se que a função de verossimilhança é dada por Lx˜(x˜| θ) = (2πσ2)−n/2 exp { − 1 2σ2 n∑ i=1 (xi − θ)2 } ∝ exp { − 1 2σ2 n∑ i=1 (xi − θ)2 } . (6) Também, pode-se descrever da seguinte maneira: Lx˜(x˜| θ) ∝ exp { − 1 2σ2 [n(θ − x̄)2] } . A função de densidade de probabilidade a priori tem a forma ξ(θ) ∝ exp { − 1 2ν2 (θ − µ)2 } , Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 421 pela priori e verossimilhança tem-se, ξ(θ|x˜) ∝ exp { − 1 2σ2 [ n(θ − x̄)2 ]} exp { − 1 2ν2 [ (θ − µ)2 ]} ∝ exp [ − 1 2φ2 ( θ2 − 2θη )] , em que, φ2 = ( σ2ν2 nν2 + σ2 ) e η = ( nx̄ν2 + µσ2 nν2 + σ2 ) . Como η não depende do parâmetro θ pode-se completar o quadrado da função e depois descartar o ( −η2 ) para, enfim, encontrar a posteriori da distribuição conjugada. Assim, ξ(θ|x˜) ∝ exp [ − 1 2φ2 (θ − η)2 ] . (7) Portanto, ξ ∼ N(η, φ2), isto é, E(θ|x˜) = η e Var(θ|x˜) = φ2. Percebe-se que η é umamédia ponderada da média µ da distribuição a priori e da média amostral x̄. No caso da distribuição normal com média conhecida e variância desconhecida, o desenvolvimento será igual ao processo que se discorreu nessa seção, na qual a distribuição a posteriori é semelhante a Equação 7. Para a distribuição normal com ambos os parâmetros desconhecidos, µ e σ2, terá que fazer dois estágios analíticos: o primeiro para o parâmetro de escala (µ) e o segundo para o parâmetro de forma (σ2). 1.6 A regressão normal multivariada com a priori normal A densidade normal multivariada é uma generalização da densidade da normal, cuja função foi citada na Equação 6. Iniciando com o expoente da densidade da normal univariada: (x− µ)2 σ2 = (x− µ)t(σ2)−1(x− µ). O expoente mede a distância quadrada entre a média e o ponto observado. Prontamente, faz-se a generalização para o caso multivariado, com o vetor (x1, x2, . . . , xn) ou x˜ dada por ( x˜− µ˜ )t (Σ) −1 ( x˜− µ˜ ) . Suponha que se tem uma amostra de tamanho n com o vetor y˜ correspondendo a variável aleatória Y , então: Y |µ,Σ ∼ Nn (Xβ,Σ) , e o modelo é Y = Xβ + ϵ, em que, X é a matriz de dados (n × p), conjuntamente com os valores das covariáveis, β é o vetor específico de parâmetros (p × 1), o Σ é a matriz (n × n) positiva definida que representa a matriz de covariâncias das variáveis e o ϵ é um 422 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 vetor de variáveis aleatórias não observáveis (n × 1). Em seguida, é dado o modelo da função de verossimilhança. 1 f ( y˜ | β,Σ, x˜ ) = f(Y | β,Σ,X) = (2π) −n2 |Σ|− 12 exp [ −1 2 (Y −Xβ)tΣ−1(Y −Xβ) ] . É comum se utilizar a distribuição normal como priori nos modelos de regressão logística e de regressão linear. Portanto, considera-se como a priori a distribuição normal. Logo, βj ∼ N(µβj ; σ2βj ) para j = 0, 1, 2, . . . , p. Com p parâmetros. Assim, aplica-se o Teorema de Bayes para encontrar a distribuição a posteriori através da função de verossimilhança, conjuntamente com a priori normal para os parâmetros da distribuição de interesse. f (β | y) ∝ f (y | β0, β1, β2, . . . , βp)f(β0, β1, β2, . . . , βp) ∝ exp −12 (Y −Xβ)tΣ−1(Y −Xβ) + p∑ j=1 ( βj − µβj σβj )2 . (8) Anteriormente, onde não havia envolvimento do modelo de regressão linear, obteve-se facilmente o resultado analítico e, consequentemente, chegou-se a um resultado satisfatório. Já nessa seção de modelo de regressão normal com priori normal, é diferente, verifica-se na expressão 8 que a distribuição condicional marginal a posteriori é complexa de se resolver analiticamente. Dessa forma, sugere-se utilizar o método de Monte Carlo via cadeia de Markov por meio do algoritmo de Gibbs, para encontrar a distribuição a posteriori. 1.7 Uma análise Bayesiana Na estatística computacional, um dos tópicos mais ativos é a inferência através de simulação iterativa, ou seja, aplicando o método de Monte Carlo via Cadeia de Markov por meio do algoritmo de Gibbs. Esses algoritmos demandam um extensivo uso de recursos computacionais utilizando a teoria de MCCM para representar a dependência entre os parâmetros, por isso os amostradores fazem uso do método conhecido como MCCM, veja Ntzoufras (2009). O método MCCM tem diversas vantagens e duas delas são: não é preciso ter o conhecimento sobre o tipo de distribuição em que se pretende simular e existem vários algoritmos para construir as cadeias de Markov, que são necessários 1O desenvolvimento detalhado, da função de verossimilhança da distribuição normal multivariada encontra-se nos livros doSouza (1998) ou Bussab e Morettin (2010). Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 423 para a simulação, onde todos esses algoritmos tem como objetivo principal gerar observações para distribuição de interesse. No algoritmo Gibbs, a cadeia sempre irá a um novo valor, ou seja, não existe o processo de aceitação ou rejeição. As passagens de um estado para o outro são feitas de acordo com as distribuições condicionais completas representadas por π(θi|θ−i), em que θ−i = (θ1, . . . , θi−1, θi+1, . . . , θd)’. Os componentes do parâmetro θi, em geral, podem ser uni ou multidimen- sional. Logo, a distribuição condicional completa será a distribuição da i−ésima componente do parâmetro θ condicionado nos outros componentes. Sendo assim, pode-se obter por meio da seguinte distribuição conjunta: π(θi|θ−i) = π(θ)∫ π(θ)dθi . Em algumas determinadas circunstâncias, a simulação de uma amostra de π(θ) pode levar muito tempo, tornando-o insatisfatório, complicado ou impossível de encontrar. Porém, se forem conhecidas as distribuições condicionais completas a posteriori, pode-se utilizar o algoritmo de Gibbs pelos passos abaixo: I. Comece o contador de iterações da cadeia t = 0; II. Especifique os valores iniciais θ(0) = (θ(0)1 , θ (0) 2 , . . . , θ (0) n )’; III. Obter um novo valor de θ(t) a partir de θ(t−1) através da geração sucessiva dos seguintes valores: θ (t) 1 ∼ π ( θ1|θ(t−1)2 , θ (t−1) 3 , . . . , θ (t−1) n ) θ (t) 2 ∼ π ( θ2|θ(t)1 , θ (t−1) 3 , . . . , θ (t−1) n ) ... ... ... θ(t)n ∼ π ( θn|θ(t)1 , θ (t) 2 , . . . , θ (t) n−1 ) ; IV. Atualize o contador de (t) para (t + 1) e volte ao segundo passo até obter a convergência. Só acontecerá uma iteração quando completar n movimentos ao longo dos eixos das coordenadas do parâmetro θ. Caso queira se aprofundar no amostrador de Gibbs, pode recorrer a Casella e Robert (1999) ou Gamerman (1997,2006). 424 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 2 Uma análise Bayesiana para produção de soja em grão Para ilustrar a aplicação de equações simultâneas, por meio do método de mínimos quadrados em dois estágios no contexto clássico e bayesiano, utilizou- se o banco de dados sobre as variaveis “área plantada-AP”, “área colhida-AC”, “quantidade produzida-QP”, “valor da produção-VP” e o “produto interno bruto- PIB” da produção de soja em grão, no Brasil, entre os anos de 1994 e 2009 (os dados estão disponíveis no sítio do Instituto de Pesquisas Econômica e Aplicada-IPEA)2. Na Tabela 1, tem-se as correlações entre pares de variáveis para os dados da produção de soja. Inicialmente, aplicou-se o teste de Hausman para verificar se o método de equações simultâneas é plausível para a modelação. Então, como a estatística do teste-t do resíduo foi estatisticamente significante (ver Tabela 2), não se pode rejeitar a hipótese nula do teste de simultaneidade entre as variáveis dependentes. Em vista disso, as variáveis “quantidade produzida” e “valor da produção” são simultâneas, isto é, mutuamente dependentes e, consequentemente, pode-se utilizar o método de equações simultâneas. Depois, identificando o modelo estrutural (veja Achcar, 2004), vê-se que, segundo as condições de ordem e de posto, considera-se completo e identificado, assim é possível o modelo de equações estruturais, podendo também ser feito pelo método de mínimos quadrados em dois estágios (veja Quintino, 2010). Tabela 1 - Correlações entre as variáveis AP AC QP VP PIB 1,0000 0,9997 0,9512 0,8739 0,8989 · 1,0000 0,9559 0,8802 0,9040 · · 1,0000 0,9317 0,9486 · · · 1,0000 0,9097 · · · · 1,0000 Tabela 2 - Estimativas dos parâmetros para verificação do teste de Hausman Estimativa DP Estatística do valor-p teste-t Intercepto −19,108 4,149 −4,605 0,001 Q̂P 0,884 0,097 9,124 0,000 û 0,751 0,435 1,727 0,108 Após sugerir o método de equações simultâneas por meio do estimador de MQ2E, será escolhido o método clássico ou bayesiano para compor o modelo final. Em seguida, segue-se as estimativas da primeira e segunda modelagem do modelo clássico e bayesiano (veja na Tabela 3). Para inferência clássica, após a segunda modelagem, basta fazer as correções dos desvios padrão, estatística do teste-t e valor-p para finalizar a aplicação. Já, para 2Os valores do banco de dados foram divididos por 106. Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 425 Tabela 3 - Estimativas dos parâmetros do I e II modelo clássico e Bayesiano Estimativa Desvio Estatística valor-p Padrão do teste-t Intercepto 3,650 3,871 0,943 0,363 Modelo Clássico AC 1,552 0,406 3,818 0,002 PIB 8,395 2,563 3,276 0,006 Intercepto 2,766 3,734 0,741 0,471 Modelo Bayesiano AC 1,662 0,394 4,219 0,001 PIB 7,705 2,563 3,006 0,009 Modelo Clássico Intercepto −19,108 4,434 −4,310 0,001 Q̂P 0,884 0,104 8,539 0,000 Modelo Bayesiano Intercepto −15,416 4,437 −3,475 0,004 Q̂P 0,801 0,104 7,731 0,000 a inferência bayesiana tem que verificar se está convergindo, ou seja, se o modelo é adequado e isso é analisado por meio de gráficos e diagnóstico de convergência. Assim, pelo histograma, observa-se que os dados seguem, aproximadamente, a distribuição normal (ver Figura 1), isto é, segue a mesma distribuição a priori. Na Figura 2, (“a” é o gráfico da iteração e “b” é o gráfico da acumuldada) verifica-se que os dados estão em torno da média, demonstrando estacionariedade e, por último, tem-se os gráficos da acumulada e o de Gelman e Rubin que satisfazem as condições necessárias, mostrando que a linha preta está sobre a reta da mediana e, ao mesmo tempo, abaixo do valor extremo do intervalo de confiança (ver Figura 3). Portanto, o modelo bayesiano está bem ajustado. Para finalizar, fez-se a correção dos desvios padrão, estatística do teste-t e valor-p, conforme sugeri o método de MQ2E (veja na Tabela 4) e o gráfico dos valores observados versus valores preditos (veja a Figura 4). A Figura 4 merece ser enfatizada, porque as estimativas do método bayesiano estão mais proxima da reta de regressão linear do que as estimativas do método clássico, com isso a bayesiana tem um menor resíduo e logo influência a sua utilização. Também, no modelo corrigido clássico, observou-se que, quando a quantidade produzida aumenta, o valor da produção de soja no Brasil também eleva, isto é, há uma relação direta entre a quantidade produzida e o valor da produção de soja. Portanto, uma ampliação da estimativa da média da quantidade produzida em 1 (um), origina uma elevação de 0,8838 no valor da produção de soja em grão. No modelo bayesiano, segue-se a mesma análise, em que há um aumento médio de 0,8007. 426 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 Figura 1 - Histograma dos dados após o aquecimento do método de MCCM. (a) (b) Figura 2 - Visualização gráfica da convergência do método de MCCM. Conclusões No artigo, foi aplicado o método de equações simultâneas, através da estimação de mínimos quadrados em dois estágios no contexto clássico e bayesiano, com o conjunto de dados de soja em grão, no Brasil. Tanto o método clássico, quanto Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 427 Figura 3 - Visualização do diagnóstico de Gelman e Rubin do método de MCCM. Figura 4 - Gráficos dos valores observados versus valores preditos de VP. 428 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 Tabela 4 - Estimativas clássicas e bayesianas dos modelos corrigidos. Estimativa Desvio Estatística valor-p Padrão do teste-t Clássico Intercepto −19,108 4,013 −4,762 0,001 Q̂P 0,884 0,094 9,435 0,000 Bayesiano Intercepto −15,416 3,9966 −3,857 0,002 (Gibbs) Q̂P 0,801 0,093 8,582 0,000 o método bayesiano obtiveram resultados satisfatórios, com respeito a literatura científica. Por isso, deixa-se a critério do pesquisador usar um dos métodos aplicados, ou seja, caso tenha familiaridade em trabalhar com programas aplicados e seja voltado para inferência clássica sugeri-se o método clássico, mas se possuir habilidade com o software R, WinBUGS e alguns softwares estatísticos disponíveis no mercado,sugere-se modelar com o método de Monte Carlo via cadeia de Markov com o algoritmo de Gibbs. Lembrando, que utilizando o MCCM, pode-se obter facilmente as estatísticas através das amostras geradas do algoritmo de Gibbs, onde não exige grande conhecimento computacional. VASCONCELOS, J.; SANTOS, E. S.; C. CUNHA FILHO, M. Bayesian and classical analysis for simultaneous equations models. Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-430, 2012. ABSTRACT: This paper seeks a new modeling method for the simultaneous equations, in which intended to estimate the value of the soybean production in Brazil. To develop this analysis was used classical and Bayesian inference. These tools were applied through simultaneous equations of two least squares considering the variables: planted area, harvested area, produced quantity, value of production and the gross inner product. Applications performed suggest that the method Markov chain Monte Carlo together with the Gibbs algorithm, where he obtained a good fit to the model, in other words, waste were approximately zero, satisfy the diagnosis of convergence and graphics were adequate. KEYWORDS: Soybean production; simultaneous equations models; inference classic and bayesian. Referências ACHCAR, Jorge Alberto. Análise Bayesiana para modelos de equações estruturais. Rev. Mat. Estat., São PAulo, v. 22, n.1, p. 113-124, 2004. BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 6.ed. São Paulo: Editora Saraiva, 2010. 526p. CASELLA, G.; ROBERT, C. P. Monte Carlo statistical methods. New York: Springer-Verlag, 2000. 654p. Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 429 CHIB, S.; GREENBERG, E. Understanding. The metropolis-hastings algorithm. Am. Stat., Washington, v.49, n.4, p.327-35, 1995. GAMERMAN, D. Markov Chain Monte Carlo: stochastic simulation for bayesian inference. Chapman & Hall, 1997. GAMERMAN, D.; LOPES, H. Markov chain Monte Carlo: stochastic simulation for Bayesian Inference. Boca Raton: CRC Press, 2006. 323p. (Texts in Statistical Science Series). GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using multiple sequences. Stat. Sci., Bethesda, v.7, p.457-72, 1992. GELMAN, A.; LIGGES, U.; STURTZ, S. R2WinBUGS: a package for running WinBUGS from R. J. Stat. Softw., Los Angeles, v.12,n.3, p.1-17. 2005. GEWEKE, J. Evaluating the accuracy of sampling-based approaches to calcualting posterior moments. In: BERNARDO, J. M.; DAWID, A. P.; SMITH, F. M. (ED.) Bayesian statistics, Oxford: Oxford University Press, 1992, v.4., p.169-193. GUJARATI, D. N. Basic econometrics. 4.ed. Nova York: McGraw-Hill. 2006. HAUSMAN, J. A. Specification tests in econometrics. Econometrica, Chichester, v.46, p.1251-1271, 1976. HEIDELBERG, P.; WELCH, P. Simulation run lenght control in the presence of an initial transient. Oper. Res., Hanover, v.31, p.1109-1144, 1983. MARTIN, M. A.; PEREZ, M. C. R. C. O Método dos mínimos quadrados em dois estágios: seus fundamentos e aplicação na estimação da demanda e oferta de ovos no estado de São Paulo. Piracicaba: Universidade de São Paulo, 1975. 39p. NTZOUFRAS, I. Bayesian modeling using WinBUGS. New Jersey: Wiley Series in Computacional Statistics, 2009. 506p. QUINTINO, H. M. S.; KHAN, A. S.; LIMA, P. V. P. S. Benefícios sociais da política de incentivos à cultura de mamão no Estado do Ceará. Rev. RESR, v.48, p.109-134, 2010. RAFTERY, A. L.; LEWIS, S. How many iterations in the Gibbs sampler? Bayesian Stat., Oxford, v.4, p.763-773,1992. ROBERTS, G.O.; SMITH, A.F.M. Bayesian methods via the Gibbs sampler and related Markov Chain Monte Carlo methods. J. R. Stat. Soc., Ser. B, Cambridge, v.55, n.1, p.3-23, 1993. SCHNEIDER, A; HOMMEL, G.; BLETTNER, M. Linear regression analysis. Rev. Mendeley, v.107, p.776-782, 2010. SOUZA, G. S . Introdução aos modelos de regressão linear e não-linear. Brasilia: EMBRAPA-SPI, 1998. 505p. TRUCOM, C. Soja: nutrição e saúde. São Paulo: Alaúde. 2009. 151p. Recebido em 26.06.2012. Aprovado após revisão em 22.02.2013. 430 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012
Compartilhar