A8-Josimar

•
Humanas / Sociais

Revisando conteúdos
02/02/2023
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Administração

595.494 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
ANÁLISE CLÁSSICA E BAYESIANA PARA MODELOS DE
EQUAÇÕES SIMULTÂNEAS
Josimar VASCONCELOS1
Eufrázio de Souza SANTOS2
Moacyr CUNHA FILHO2
RESUMO: O presente artigo busca uma nova modelagem para o método de equações
simultâneas, por meio do qual se pretende estimar o valor da produção de soja em grão
no Brasil. Para aplicação dos dados foram utilizadas a inferência clássica e bayesiana.
Essas ferramentas foram empregadas por meio de equações simultâneas de mínimos
quadrados em dois estágios, considerando as variáveis: área plantada, área colhida,
quantidade produzida, valor da produção e o produto interno bruto. Das aplicações
realizadas, sugeri-se o método de Monte Carlo via cadeia de Markov, conjuntamente
com o algoritmo Gibbs, onde obteve um bom ajuste no modelo. Em outras palavras, os
resíduos foram aproximadamente zero, satisfizeram o diagnóstico de convergência e os
gráficos ficaram adequados.
PALAVRAS-CHAVE: Produção de soja em grão; modelos de equações simultâneas;
inferência clássica e bayesiana.
1 Introdução
A soja surgiu no Brasil em 1882, no estado da Bahia. Depois de algumas
décadas, chegou a São Paulo por meio dos imigrantes japoneses e depois se
deslocaram para o Rio Grande do Sul, por volta de 1914. Segundo a EMBRAPA
(Trucom, 2009), o segundo maior produtor mundial de soja é o Brasil, seguido
apenas dos Estados Unidos. Entre os anos de 2009 e 2010, a plantação ocupou
cerca de 23,60 milhões de hectares, totalizando uma produção de 68,7 milhões de
toneladas e os Estados Unidos corresponderam a 91,40 milhões de toneladas de soja
1Universidade Federal do Piauí – UFPI, Campus Senador Helvídio Nunes de Barros, Departamento
de Matemática, CEP: 64600-000, Picos, PI, Brasil. E-mail: josimar@ufpi.edu.br
2Universidade Federal Rural de Pernambuco - UFRPE, Departamento de Estatística e Informática,
CEP: 52171-900, Recife, PE, Brasil. E-mail: eufrazio@deinfo.ufrpe.br / moacyr@deinfo.ufrpe.br
Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 417
de grão. O maior Estado produtor de soja no Brasil é o Mato Grosso, chegando a
produzir 3.036 Kg/ha, enquanto o Brasil tem em média 2.941 kg/ha.
No cotidiano, a grande preocupação é apenas com modelos de uma única
equação, ou seja, com modelos que possuam uma única variável dependente Y e
uma ou mais variáveis independentes X. Nesses modelos, destaca-se a estimação
e/ou previsão do valor médio de Y condicionado a valores de X. Porém, em alguns
momentos essa relação de “mão única” não tem lógica e isso ocorre quando Y
é determinado pelas variáveis independentes, então existe uma relação de “mão
dupla”, ou simultânea, entre Y e alguns X’s, o que torna a distinção entre variáveis
independentes e dependentes de valor muito duvidoso. Logo, é interessante fazer
um agrupamento de variáveis que possam ser determinadas simultaneamente pelo
conjunto oposto dessas variáveis, onde é denominado de modelos de equações
simultâneas (ver Gujarati (2006), Schneider (2010) e o artigo do Quintino et al.
(2010)).
Com o avanço da tecnologia, do final do século XX para o início do século
XXI, passou-se a explorar a informática. Através disso, o método de Monte Carlo,
via cadeia de Markov (MCCM) tornou-se usual para os pesquisadores da área das
ciências exatas e agrárias. Esse método é um método estatístico que se utiliza de
simulações estocásticas em vários campos, como por exemplo: matemática, física,
biologia e ciências agrárias. O método envolve a geração de observações, através
de vários experimentos de alguma distribuição de probabilidade e o uso da amostra
para aproximar a função de interesse. Diante disso, surgiu o interesse em aplicar
este método no contexto de equações simultâneas com o estimador de mínimos
quadrados em dois estágios.
O objetivo do estudo é encontrar uma outra alternativa de modelagem para
o método de equações simultâneas para modelar o valor da produção de soja em
grão no Brasil. Essa modelagem ocorre por meio da inferência bayesiana utilizando
o MCCM baseado no algoritmo de Gibbs (ver, por exemplo, Roberts e Smith, 1993
ou Chib e Greenberg, 1995).
1.1 Métodos analíticos utilizados
A aplicação no banco de dados da produção de soja foi realizada em duas
situações, ou seja, empregou-se o método da inferência clássica e bayesiana, no
qual obteve-se duas modelagens em cada método. Nos dois métodos, foi utilizada a
aplicação de Modelos de Equações Simultâneas pelo Método de Mínimos Quadrados
em 2 estágios−MQ2E. Sendo na primeira modelagem, a variável dependente
“quantidade produzida” com as variáveis independentes “área colhida” e o “produto
interno bruto”. Na segunda modelagem, estimou-se o primeiro modelo para
compor a variável independente e obteve como dependente a variável “valor da
produção”. Dentro do contexto de MQ2E, aplicaram-se os dois métodos, onde no
método clássico empregaram-se duas sucessivas modelagens de mínimos quadrados
ordinários (MQO). Na parte bayesiana, foi aplicado a modelagem de Monte Carlo
via Cadeia de Markov, através do algoritmo de Gibbs com aplicação do modelo de
regressão linear.
418 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012
1.2 Critérios para dados simulados
Após ter realizado a prática da regressão clássica, por meio do método de
equações simultâneas utilizando o estimador de MQ2E, fez-se a aplicação do método
de Monte Carlo via Cadeia de Markov com o algoritmo de Gibbs. Nos dois
modelos, aplicou-se a priori normal (veja a Equação 8) tendo como precisão a
distribuição Gama. O algoritmo de Gibbs foi implementado no WinBUGS dentro da
plataforma computacional R utilizando o pacote R2WinBUGS para gerar as cadeias
de Markov dos parâmetros α e β, veja Gelman et al. (2005). Inicialmente, foi
realizada uma amostra piloto de tamanho 10.000 (dez mil). Depois, pelo diagnóstico
de convergência, desenvolvido por Geweke (1992), Heidelberger, Raftery e Lewis
(1992), Gelman e Rubin (1992) e Welch (1993), foi sugerido fixar 5.000 (cinco mil)
iterações e descartar “Burn-in” as 100 (cem) primeiras observações adotando-se
intervalos “thin” de dez observações, para obter uma amostra não correlacionada da
cadeia de cada parâmetro.
1.3 Regressão linear
A utilidade do modelo de regressão linear é destinada para analisar a relação
entre uma variável dependente e uma ou mais variáveis explicativas. Sendo assim,
o objetivo principal da análise de regressão é encontrar uma função linear que
permita: descrever e compreender a relação entre uma variável dependente e uma
ou mais variáveis independentes. Na equação clássica, o modelo é dado por: Yi =
α+Xiβ+ϵi, onde i = 1, 2, . . . , n. Nos quais, Yi é a variável resposta; Xi é a variável
explicativa; α e β são parâmetros desconhecidos; a variável aleatória ϵi têm média
zero, variância σ2 e sendo não correlacionada ∀ i ̸= j.
1.4 Estimação dos coeficientes de equações simultâneas
1.4.1 Teste de simultaneidade
Inicialmente, é interessante aplicar o teste Hausman (1976) para determinar se
existem problemas de simultaneidade. O teste verifica se um regressor (dependente)
se correlaciona com o termo de erro aleatório. Segundo Hausman (1976), caso isso
aconteça, pode-se utilizar um dos métodos de equações simultâneas, caso contrário,
recorre-se a mínimos quadrados ordinários. Com a presença de simultaneidade,
será utilizado o método de Mínimos Quadrados em dois Estágios, os quais gerarão
estimadores consistentes e eficientes. De forma geral, descreve-se os dois passos do
teste de Hausman.
I. Primeiro Passo: Faz-se a regressão da primeira variável dependente QPt
contra as variáveis independentes ACt e PIBt para obter os resíduos Vt.
II. Segundo Passo: Gera a regressão com a segunda variável dependente VPt
contra as estimativas do primeiro modelo QPt e os resíduos Vt, para, em seguida,
aplicar o teste−t ao coeficiente do resíduo Vt. Caso seja significativo, não se rejeita
a hipótese nula de simultaneidade.
Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 419
1.4.2 Método de mínimos quadrados em dois estágios
No sistema de equações simultâneas superidentificadasou exatamente
identificadas, o método mais adequado é o MQ2E para estimar seus parâmetros.
Segundo Martin e Perez (1975), tem-se grandes vantagens em utilizar este método,
pela facilidade de implementação nos softwares e a obtenção de estimadores
eficientes para pequenas amostras. O método de mínimos quadrados em dois
estágios consiste em duas modelagens de MQO: a primeira modelagem faz-se com
as variáveis independentes AC e PIB e a variável dependente é a variável que está
sobreidentificada QP, em seguida estima o primeiro modelo para gerar a segunda
modelagem com a outra variável dependente VP. Abaixo será discorrido de formal
funcional.
I. Primeiro Estágio: na primeira modelagem, faz-se a regressão Y1t sobre
todas as variáveis independentes, em todo o sistema. Por exemplo, supondo que
tem-se duas variáveis independentes e duas variáveis dependentes no modelo oferta,
assim obtém-se o seguinte modelo:
Y1t = β0 + β1X1t + β2X2t+ ut, (1)
onde ut são os resíduos de MQO. Pelo modelo 1, consegui-se:
Ŷ1t = β̂0 + β̂1X1t + β̂2X2t, (2)
em que Ŷ1t são estimativas do valor esperado de Y1t condicionado as variáveis
independentes. Por conseguinte, a expressão 1 pode ser reescrita da seguinte forma:
Y1t = Ŷ1t + ût. (3)
II. Segundo Estágio: agora, pode-se escrever o segundo modelo da equação
superidentificada de oferta da moeda do seguinte modo:
Y2t = β20 + β21
(
Ŷ1t + ût
)
+ u2t
= β20 + β21Ŷ1t + u
∗
t . No qual, u
∗
t = u2t + β21ût.
Para finalizar a aplicação de equações simultâneas com o estimador de mínimos
quadrados em dois estágios, faz-se a correção dos desvios padrão, estatística do
teste-t e valor-p. Pois, caso observe-se o modelo do segundo estágio verifica-se que
o σ̂2u∗ é diferente do σ̂2u2 . Isto é, a primeira variância depende das estimativas
da variável resposta, enquanto o outro termo depende do verdadeiro valor real da
resposta, veja Gujarati (2006).
Através deste estudo, que será aplicado pelo estimador de MQ2E, obtém-se as
seguintes expressões:
420 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012
σ̂2u2 =
∑n
t=1(û2t)
2
n− 2
, (4)
e,
σ̂2u∗ =
∑n
t=1(û
∗
t )
2
n− 2
. (5)
Depois de calculados esses valores, o modo de corrigir os erros padrão dos
coeficientes estimados na regressão de mínimos quadrados em dois estágios é
multiplicar cada um desses coeficientes do modelo pela divisão do resultado de
(4) por (5). Caso o R2 seja muito alto (mais ou menos acima de 0,80) na regressão
do primeiro estágio, ou seja, o valor estimado esteja muito próximo do verdadeiro
valor real, o fator de correção será aproximadamente 1 (um). Podendo assim, o
pesquisador permanecer com os desvios padrão do segundo estágio, sem precisar
atualizar.
1.5 Distribuição priori conjugada utilizando o modelo normal
Nesta seção, será apresentada a distribuição a posteriori com a
verossimilhança e priori normal para, depois, fazer a implementação do modelo de
regressão normal. Agora, supondo que as amostras são tomadas de uma distribuição
normal para a qual o valor da média θ é desconhecida e o valor da variância σ2 é
conhecida, tem-se que a família de distribuição normal será a própria; isto é, uma
família conjugada de distribuições a priori.
Suponha que x1, x2, . . . , xn ou x˜ formam uma amostra aleatória de umadistribuição normal para a qual o valor da média θ (θ ∈ R) é desconhecida e o
valor da variância σ2 (σ2 ∈ R+) é conhecida. Suponha também que a distribuição
a priori de θ é uma distribuição normal com valores dados da média µ e variância
ν2. Além disso, tem-se que a função de verossimilhança é dada por
Lx˜(x˜| θ) = (2πσ2)−n/2 exp
{
− 1
2σ2
n∑
i=1
(xi − θ)2
}
∝ exp
{
− 1
2σ2
n∑
i=1
(xi − θ)2
}
. (6)
Também, pode-se descrever da seguinte maneira:
Lx˜(x˜| θ) ∝ exp
{
− 1
2σ2
[n(θ − x̄)2]
}
.
A função de densidade de probabilidade a priori tem a forma
ξ(θ) ∝ exp
{
− 1
2ν2
(θ − µ)2
}
,
Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 421
pela priori e verossimilhança tem-se,
ξ(θ|x˜) ∝ exp
{
− 1
2σ2
[
n(θ − x̄)2
]}
exp
{
− 1
2ν2
[
(θ − µ)2
]}
∝ exp
[
− 1
2φ2
(
θ2 − 2θη
)]
,
em que, φ2 =
(
σ2ν2
nν2 + σ2
)
e η =
(
nx̄ν2 + µσ2
nν2 + σ2
)
. Como η não depende do
parâmetro θ pode-se completar o quadrado da função e depois descartar o
(
−η2
)
para, enfim, encontrar a posteriori da distribuição conjugada. Assim,
ξ(θ|x˜) ∝ exp
[
− 1
2φ2
(θ − η)2
]
. (7)
Portanto, ξ ∼ N(η, φ2), isto é, E(θ|x˜) = η e Var(θ|x˜) = φ2. Percebe-se que η é umamédia ponderada da média µ da distribuição a priori e da média amostral x̄.
No caso da distribuição normal com média conhecida e variância desconhecida,
o desenvolvimento será igual ao processo que se discorreu nessa seção, na qual a
distribuição a posteriori é semelhante a Equação 7. Para a distribuição normal
com ambos os parâmetros desconhecidos, µ e σ2, terá que fazer dois estágios
analíticos: o primeiro para o parâmetro de escala (µ) e o segundo para o parâmetro
de forma (σ2).
1.6 A regressão normal multivariada com a priori normal
A densidade normal multivariada é uma generalização da densidade da normal,
cuja função foi citada na Equação 6. Iniciando com o expoente da densidade da
normal univariada:
(x− µ)2
σ2
= (x− µ)t(σ2)−1(x− µ).
O expoente mede a distância quadrada entre a média e o ponto observado.
Prontamente, faz-se a generalização para o caso multivariado, com o vetor
(x1, x2, . . . , xn) ou x˜ dada por
(
x˜− µ˜
)t
(Σ)
−1
(
x˜− µ˜
)
. Suponha que se tem uma
amostra de tamanho n com o vetor y˜ correspondendo a variável aleatória Y , então:
Y |µ,Σ ∼ Nn (Xβ,Σ) , e o modelo é Y = Xβ + ϵ,
em que, X é a matriz de dados (n × p), conjuntamente com os valores das
covariáveis, β é o vetor específico de parâmetros (p × 1), o Σ é a matriz (n × n)
positiva definida que representa a matriz de covariâncias das variáveis e o ϵ é um
422 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012
vetor de variáveis aleatórias não observáveis (n × 1). Em seguida, é dado o modelo
da função de verossimilhança. 1
f
(
y˜ | β,Σ, x˜
)
= f(Y | β,Σ,X)
= (2π)
−n2 |Σ|− 12 exp
[
−1
2
(Y −Xβ)tΣ−1(Y −Xβ)
]
.
É comum se utilizar a distribuição normal como priori nos modelos de regressão
logística e de regressão linear. Portanto, considera-se como a priori a distribuição
normal. Logo,
βj ∼ N(µβj ; σ2βj ) para j = 0, 1, 2, . . . , p. Com p parâmetros.
Assim, aplica-se o Teorema de Bayes para encontrar a distribuição a posteriori
através da função de verossimilhança, conjuntamente com a priori normal para os
parâmetros da distribuição de interesse.
f (β | y) ∝ f (y | β0, β1, β2, . . . , βp)f(β0, β1, β2, . . . , βp)
∝ exp
−12
(Y −Xβ)tΣ−1(Y −Xβ) + p∑
j=1
(
βj − µβj
σβj
)2 . (8)
Anteriormente, onde não havia envolvimento do modelo de regressão linear,
obteve-se facilmente o resultado analítico e, consequentemente, chegou-se a um
resultado satisfatório. Já nessa seção de modelo de regressão normal com priori
normal, é diferente, verifica-se na expressão 8 que a distribuição condicional
marginal a posteriori é complexa de se resolver analiticamente. Dessa forma,
sugere-se utilizar o método de Monte Carlo via cadeia de Markov por meio do
algoritmo de Gibbs, para encontrar a distribuição a posteriori.
1.7 Uma análise Bayesiana
Na estatística computacional, um dos tópicos mais ativos é a inferência através
de simulação iterativa, ou seja, aplicando o método de Monte Carlo via Cadeia de
Markov por meio do algoritmo de Gibbs. Esses algoritmos demandam um extensivo
uso de recursos computacionais utilizando a teoria de MCCM para representar a
dependência entre os parâmetros, por isso os amostradores fazem uso do método
conhecido como MCCM, veja Ntzoufras (2009).
O método MCCM tem diversas vantagens e duas delas são: não é preciso
ter o conhecimento sobre o tipo de distribuição em que se pretende simular e
existem vários algoritmos para construir as cadeias de Markov, que são necessários
1O desenvolvimento detalhado, da função de verossimilhança da distribuição normal
multivariada encontra-se nos livros doSouza (1998) ou Bussab e Morettin (2010).
Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 423
para a simulação, onde todos esses algoritmos tem como objetivo principal gerar
observações para distribuição de interesse.
No algoritmo Gibbs, a cadeia sempre irá a um novo valor, ou seja, não existe o
processo de aceitação ou rejeição. As passagens de um estado para o outro são feitas
de acordo com as distribuições condicionais completas representadas por π(θi|θ−i),
em que θ−i = (θ1, . . . , θi−1, θi+1, . . . , θd)’.
Os componentes do parâmetro θi, em geral, podem ser uni ou multidimen-
sional. Logo, a distribuição condicional completa será a distribuição da i−ésima
componente do parâmetro θ condicionado nos outros componentes. Sendo assim,
pode-se obter por meio da seguinte distribuição conjunta:
π(θi|θ−i) =
π(θ)∫
π(θ)dθi
.
Em algumas determinadas circunstâncias, a simulação de uma amostra de
π(θ) pode levar muito tempo, tornando-o insatisfatório, complicado ou impossível
de encontrar. Porém, se forem conhecidas as distribuições condicionais completas
a posteriori, pode-se utilizar o algoritmo de Gibbs pelos passos abaixo:
I. Comece o contador de iterações da cadeia t = 0;
II. Especifique os valores iniciais θ(0) = (θ(0)1 , θ
(0)
2 , . . . , θ
(0)
n )’;
III. Obter um novo valor de θ(t) a partir de θ(t−1) através da geração sucessiva
dos seguintes valores:
θ
(t)
1 ∼ π
(
θ1|θ(t−1)2 , θ
(t−1)
3 , . . . , θ
(t−1)
n
)
θ
(t)
2 ∼ π
(
θ2|θ(t)1 , θ
(t−1)
3 , . . . , θ
(t−1)
n
)
...
...
...
θ(t)n ∼ π
(
θn|θ(t)1 , θ
(t)
2 , . . . , θ
(t)
n−1
)
;
IV. Atualize o contador de (t) para (t + 1) e volte ao segundo passo até obter a
convergência.
Só acontecerá uma iteração quando completar n movimentos ao longo dos
eixos das coordenadas do parâmetro θ. Caso queira se aprofundar no amostrador
de Gibbs, pode recorrer a Casella e Robert (1999) ou Gamerman (1997,2006).
424 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012
2 Uma análise Bayesiana para produção de soja em grão
Para ilustrar a aplicação de equações simultâneas, por meio do método de
mínimos quadrados em dois estágios no contexto clássico e bayesiano, utilizou-
se o banco de dados sobre as variaveis “área plantada-AP”, “área colhida-AC”,
“quantidade produzida-QP”, “valor da produção-VP” e o “produto interno bruto-
PIB” da produção de soja em grão, no Brasil, entre os anos de 1994 e 2009 (os dados
estão disponíveis no sítio do Instituto de Pesquisas Econômica e Aplicada-IPEA)2.
Na Tabela 1, tem-se as correlações entre pares de variáveis para os dados da
produção de soja.
Inicialmente, aplicou-se o teste de Hausman para verificar se o método de
equações simultâneas é plausível para a modelação. Então, como a estatística do
teste-t do resíduo foi estatisticamente significante (ver Tabela 2), não se pode rejeitar
a hipótese nula do teste de simultaneidade entre as variáveis dependentes. Em vista
disso, as variáveis “quantidade produzida” e “valor da produção” são simultâneas,
isto é, mutuamente dependentes e, consequentemente, pode-se utilizar o método
de equações simultâneas. Depois, identificando o modelo estrutural (veja Achcar,
2004), vê-se que, segundo as condições de ordem e de posto, considera-se completo
e identificado, assim é possível o modelo de equações estruturais, podendo também
ser feito pelo método de mínimos quadrados em dois estágios (veja Quintino, 2010).
Tabela 1 - Correlações entre as variáveis
AP AC QP VP PIB
1,0000 0,9997 0,9512 0,8739 0,8989
· 1,0000 0,9559 0,8802 0,9040
· · 1,0000 0,9317 0,9486
· · · 1,0000 0,9097
· · · · 1,0000
Tabela 2 - Estimativas dos parâmetros para verificação do teste de Hausman
Estimativa DP Estatística do valor-p
teste-t
Intercepto −19,108 4,149 −4,605 0,001
Q̂P 0,884 0,097 9,124 0,000
û 0,751 0,435 1,727 0,108
Após sugerir o método de equações simultâneas por meio do estimador de
MQ2E, será escolhido o método clássico ou bayesiano para compor o modelo final.
Em seguida, segue-se as estimativas da primeira e segunda modelagem do modelo
clássico e bayesiano (veja na Tabela 3).
Para inferência clássica, após a segunda modelagem, basta fazer as correções
dos desvios padrão, estatística do teste-t e valor-p para finalizar a aplicação. Já, para
2Os valores do banco de dados foram divididos por 106.
Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 425
Tabela 3 - Estimativas dos parâmetros do I e II modelo clássico e Bayesiano
Estimativa Desvio Estatística valor-p
Padrão do teste-t
Intercepto 3,650 3,871 0,943 0,363
Modelo Clássico AC 1,552 0,406 3,818 0,002
PIB 8,395 2,563 3,276 0,006
Intercepto 2,766 3,734 0,741 0,471
Modelo Bayesiano AC 1,662 0,394 4,219 0,001
PIB 7,705 2,563 3,006 0,009
Modelo Clássico Intercepto −19,108 4,434 −4,310 0,001
Q̂P 0,884 0,104 8,539 0,000
Modelo Bayesiano Intercepto −15,416 4,437 −3,475 0,004
Q̂P 0,801 0,104 7,731 0,000
a inferência bayesiana tem que verificar se está convergindo, ou seja, se o modelo é
adequado e isso é analisado por meio de gráficos e diagnóstico de convergência.
Assim, pelo histograma, observa-se que os dados seguem, aproximadamente, a
distribuição normal (ver Figura 1), isto é, segue a mesma distribuição a priori. Na
Figura 2, (“a” é o gráfico da iteração e “b” é o gráfico da acumuldada) verifica-se que
os dados estão em torno da média, demonstrando estacionariedade e, por último,
tem-se os gráficos da acumulada e o de Gelman e Rubin que satisfazem as condições
necessárias, mostrando que a linha preta está sobre a reta da mediana e, ao mesmo
tempo, abaixo do valor extremo do intervalo de confiança (ver Figura 3). Portanto,
o modelo bayesiano está bem ajustado.
Para finalizar, fez-se a correção dos desvios padrão, estatística do teste-t e
valor-p, conforme sugeri o método de MQ2E (veja na Tabela 4) e o gráfico dos
valores observados versus valores preditos (veja a Figura 4). A Figura 4 merece ser
enfatizada, porque as estimativas do método bayesiano estão mais proxima da reta
de regressão linear do que as estimativas do método clássico, com isso a bayesiana
tem um menor resíduo e logo influência a sua utilização. Também, no modelo
corrigido clássico, observou-se que, quando a quantidade produzida aumenta, o valor
da produção de soja no Brasil também eleva, isto é, há uma relação direta entre
a quantidade produzida e o valor da produção de soja. Portanto, uma ampliação
da estimativa da média da quantidade produzida em 1 (um), origina uma elevação
de 0,8838 no valor da produção de soja em grão. No modelo bayesiano, segue-se a
mesma análise, em que há um aumento médio de 0,8007.
426 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012
Figura 1 - Histograma dos dados após o aquecimento do método de MCCM.
(a) (b)
Figura 2 - Visualização gráfica da convergência do método de MCCM.
Conclusões
No artigo, foi aplicado o método de equações simultâneas, através da estimação
de mínimos quadrados em dois estágios no contexto clássico e bayesiano, com o
conjunto de dados de soja em grão, no Brasil. Tanto o método clássico, quanto
Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 427
Figura 3 - Visualização do diagnóstico de Gelman e Rubin do método de MCCM.
Figura 4 - Gráficos dos valores observados versus valores preditos de VP.
428 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012
Tabela 4 - Estimativas clássicas e bayesianas dos modelos corrigidos.
Estimativa Desvio Estatística valor-p
Padrão do teste-t
Clássico Intercepto −19,108 4,013 −4,762 0,001
Q̂P 0,884 0,094 9,435 0,000
Bayesiano Intercepto −15,416 3,9966 −3,857 0,002
(Gibbs) Q̂P 0,801 0,093 8,582 0,000
o método bayesiano obtiveram resultados satisfatórios, com respeito a literatura
científica. Por isso, deixa-se a critério do pesquisador usar um dos métodos
aplicados, ou seja, caso tenha familiaridade em trabalhar com programas aplicados
e seja voltado para inferência clássica sugeri-se o método clássico, mas se possuir
habilidade com o software R, WinBUGS e alguns softwares estatísticos disponíveis no
mercado,sugere-se modelar com o método de Monte Carlo via cadeia de Markov
com o algoritmo de Gibbs. Lembrando, que utilizando o MCCM, pode-se obter
facilmente as estatísticas através das amostras geradas do algoritmo de Gibbs, onde
não exige grande conhecimento computacional.
VASCONCELOS, J.; SANTOS, E. S.; C. CUNHA FILHO, M. Bayesian and
classical analysis for simultaneous equations models. Rev. Bras. Biom., São Paulo,
v.30, n.3, p.417-430, 2012.
ABSTRACT: This paper seeks a new modeling method for the simultaneous equations,
in which intended to estimate the value of the soybean production in Brazil. To develop
this analysis was used classical and Bayesian inference. These tools were applied through
simultaneous equations of two least squares considering the variables: planted area,
harvested area, produced quantity, value of production and the gross inner product.
Applications performed suggest that the method Markov chain Monte Carlo together
with the Gibbs algorithm, where he obtained a good fit to the model, in other words,
waste were approximately zero, satisfy the diagnosis of convergence and graphics were
adequate.
KEYWORDS: Soybean production; simultaneous equations models; inference classic
and bayesian.
Referências
ACHCAR, Jorge Alberto. Análise Bayesiana para modelos de equações estruturais.
Rev. Mat. Estat., São PAulo, v. 22, n.1, p. 113-124, 2004.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 6.ed. São Paulo: Editora
Saraiva, 2010. 526p.
CASELLA, G.; ROBERT, C. P. Monte Carlo statistical methods. New York:
Springer-Verlag, 2000. 654p.
Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012 429
CHIB, S.; GREENBERG, E. Understanding. The metropolis-hastings algorithm.
Am. Stat., Washington, v.49, n.4, p.327-35, 1995.
GAMERMAN, D. Markov Chain Monte Carlo: stochastic simulation for bayesian
inference. Chapman & Hall, 1997.
GAMERMAN, D.; LOPES, H. Markov chain Monte Carlo: stochastic simulation
for Bayesian Inference. Boca Raton: CRC Press, 2006. 323p. (Texts in Statistical
Science Series).
GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using multiple
sequences. Stat. Sci., Bethesda, v.7, p.457-72, 1992.
GELMAN, A.; LIGGES, U.; STURTZ, S. R2WinBUGS: a package for running
WinBUGS from R. J. Stat. Softw., Los Angeles, v.12,n.3, p.1-17. 2005.
GEWEKE, J. Evaluating the accuracy of sampling-based approaches to calcualting
posterior moments. In: BERNARDO, J. M.; DAWID, A. P.; SMITH, F. M. (ED.)
Bayesian statistics, Oxford: Oxford University Press, 1992, v.4., p.169-193.
GUJARATI, D. N. Basic econometrics. 4.ed. Nova York: McGraw-Hill. 2006.
HAUSMAN, J. A. Specification tests in econometrics. Econometrica, Chichester,
v.46, p.1251-1271, 1976.
HEIDELBERG, P.; WELCH, P. Simulation run lenght control in the presence of
an initial transient. Oper. Res., Hanover, v.31, p.1109-1144, 1983.
MARTIN, M. A.; PEREZ, M. C. R. C. O Método dos mínimos quadrados em dois
estágios: seus fundamentos e aplicação na estimação da demanda e oferta de ovos
no estado de São Paulo. Piracicaba: Universidade de São Paulo, 1975. 39p.
NTZOUFRAS, I. Bayesian modeling using WinBUGS. New Jersey: Wiley Series in
Computacional Statistics, 2009. 506p.
QUINTINO, H. M. S.; KHAN, A. S.; LIMA, P. V. P. S. Benefícios sociais da política
de incentivos à cultura de mamão no Estado do Ceará. Rev. RESR, v.48, p.109-134,
2010.
RAFTERY, A. L.; LEWIS, S. How many iterations in the Gibbs sampler? Bayesian
Stat., Oxford, v.4, p.763-773,1992.
ROBERTS, G.O.; SMITH, A.F.M. Bayesian methods via the Gibbs sampler and
related Markov Chain Monte Carlo methods. J. R. Stat. Soc., Ser. B, Cambridge,
v.55, n.1, p.3-23, 1993.
SCHNEIDER, A; HOMMEL, G.; BLETTNER, M. Linear regression analysis. Rev.
Mendeley, v.107, p.776-782, 2010.
SOUZA, G. S . Introdução aos modelos de regressão linear e não-linear. Brasilia:
EMBRAPA-SPI, 1998. 505p.
TRUCOM, C. Soja: nutrição e saúde. São Paulo: Alaúde. 2009. 151p.
Recebido em 26.06.2012.
Aprovado após revisão em 22.02.2013.
430 Rev. Bras. Biom., São Paulo, v.30, n.3, p.417-431, 2012