Buscar

Capítulo 3 - Modelo de regressão de duas variáveis - o problema da estimação

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 51 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

ECONOMETRIA I
Prof. Victor Azambuja Gama
Nenhuma parte deste material poderá ser reproduzida para fins
comerciais. Este material foi desenvolvido com o propósito de
auxiliar as aulas da disciplina de Econometria do curso de Ciências
Econômicas da Universidade Estadual de Mato Grosso do Sul
(UEMS).
EMENTA
 Econometria: conceito e utilidade. Funções densidade de
probabilidade: conjunta, marginal e condicional. Conceitos
estatísticos: independência, valor esperado, variância e
covariância. O modelo de regressão linear simples e suas
hipóteses básicas. Estimadores de mínimos quadrados
ordinários e suas propriedades. Inferência estatística:
estimativas de intervalos, teste de hipóteses e previsão.
Forma funcional e especificação do modelo. O modelo de
regressão linear múltipla. Coeficiente de correlação.
Coeficiente de determinação (R²); Inferências adicionais:
o teste F.
OBJETIVOS
 Apresentar os procedimentos básicos da análise de
regressão e as técnicas estatísticas necessárias para a
compreensão e o desenvolvimento de trabalhos empíricos
na área de economia.
REFERÊNCIA
GUJARATI, Damodar N.; PORTER, Dawn
C. Econometria Básica. 5 ed., Amgh Editora,
2011.
Capítulo 3 - Modelo de regressão de duas 
variáveis: o problema da estimação
• Capítulo 2: estimar a função de regressão populacional
(FRP) com base na função de regressão amostral (FRA);
• Examinaremos o método de Mínimos Quadrados
ordinários (MQO): regra ou método que torne essa
aproximação a mais próxima possível
• É o método mais utilizado para a análise de regressão
principalmente porque é intuitivamente convincente e
matematicamente simples.
Introdução
• Carl Friedrich Gauss (matemático alemão);
• MQO tem algumas propriedades estatísticas
desejáveis;
• Inicialmente, trataremos do princípio dos mínimos
quadrados.
• Recordando a FRP de duas variáveis:
𝑌𝑖 = 𝛽1 + 𝛽2𝑋 + 𝑢𝑖 (2.4.2)
3.1 Método dos mínimos quadrados ordinários
• Contudo, a FRP não pode ser observada diretamente. 
Temos de estimá-la por meio da FRA:
𝑌𝑖 = መ𝛽1 + መ𝛽2𝑋𝑖 + ො𝑢𝑖 = ෡𝑌𝑖 + ො𝑢𝑖 (2.6.2) e (2.6.3)
em que ෡𝑌𝑖 é o valor estimado (média condicional) de 𝑌𝑖.
• Mas como determinamos a FRA propriamente dita?
Primeiro, expressar (2.6.3) como:
ො𝑢𝑖 = 𝑌𝑖 − ෡𝑌𝑖 = 𝑌𝑖 − መ𝛽1 − መ𝛽2𝑋𝑖 (3.1.1)
em que ො𝑢𝑖 são simplesmente as diferenças entre os valores 
observados e estimados de Y.
3.1 Método dos mínimos quadrados ordinários
• Objetivo: dados n pares de observações de Y e X,
queremos determinar a FRA de maneira que fique o mais
próximo possível do Y observado.
• Qual critério adotar? Escolher a FRA de tal forma:
min෍ ෝ𝑢𝑖 =෍(𝑌𝑖 − ෡𝑌𝑖)
• Observando o diagrama de dispersão hipotético
apresentado na Figura 3.1, o que podemos afirmar sobre
este critério?
3.1 Método dos mínimos quadrados ordinários
3.1 Método dos mínimos quadrados ordinários
• O ideal é adotar o critério dos mínimos quadrados,
segundo o qual a FRA pode ser fixada de tal forma:
෍ ෝ𝑢𝑖
2 =෍ 𝑌𝑖 − ෡𝑌𝑖
2
= σ 𝑌𝑖 − መ𝛽1 − መ𝛽2𝑋𝑖
2
(3.1.2)
seja o menor possível, onde os ෝ𝑢𝑖
2 são os resíduos
elevados ao quadrado.
• Portanto, o princípio dos mínimos quadrados procura
ajustar uma reta aos valores dos dados.
3.1 Método dos mínimos quadrados ordinários
• Todavia, devemos procurar a reta tal que a
soma dos quadrados das distâncias verticais de
cada ponto à reta seja a menor possível.
• Qual é o benefício do método de mínimos
quadrados?
R: evita que grandes distâncias positivas sejam
canceladas pelas negativas;
• Os estimadores obtidos têm algumas
propriedades estatísticas muito desejáveis.
3.1 Método dos mínimos quadrados ordinários
• Com base na Equação (3.1.2), torna-se óbvio que:
σ ෝ𝑢𝑖
2 = 𝑓(෢𝛽1, ෢𝛽2) (3.1.3)
• Para qualquer conjunto de dados, a escolha de valores
diferentes para መ𝛽1 e መ𝛽2 resultará em ෝ𝑢𝑖 diferentes
• Considere os valores hipotéticos de Y e X apresentados nas
duas primeiras;
• Façamos dois experimentos:
Experimento 1: መ𝛽1 =1,572 e መ𝛽2 = 1,357
Experimento 2: መ𝛽1 =3 e መ𝛽2 = 1
3.1 Método dos mínimos quadrados ordinários
• Conclusão: a soma dos quadrados desses resíduos são
diferentes, já que têm como base conjuntos diferentes de
valores de መ𝛽;
• Que conjunto de valores de ෡𝜷 devemos escolher?
R.: Devemos escolher os valores de መ𝛽 que fornece o menor
σ ෝ𝑢𝑖
2.
• Propriedade estatística desejável: o MQO escolhe መ𝛽1 e መ𝛽2
de tal forma que, para qualquer amostra ou conjunto de dados,
o σ ෝ𝑢𝑖
2 é o menor possível.
• Como isso é feito? 
R.: É um exercício direto de cálculo diferencial (Apêndice 3A).
3.1 Método dos mínimos quadrados ordinários
• O processo de diferenciação resulta nas seguintes
equações para estimar መ𝛽1 e መ𝛽2:
(3.1.6)
em que e
• Daqui em diante, usaremos letras minúsculas para indicar
os desvios em relação aos valores médios.
𝑏1 = ത𝑌 − 𝑏2 ത𝑋 (3.1.7)
em que ത𝑋 e ത𝑌 são as médias amostrais de X e de Y.
3.1 Método dos mínimos quadrados ordinários
𝑏2 =
σ𝑥𝑖𝑦𝑖
σ𝑥𝑖
2
𝑦𝑖 = 𝑌𝑖 − ത𝑌 𝑥𝑖 = 𝑋𝑖 − ത𝑋
• Exemplo numérico
• Ilustraremos a teoria econométrica apresentada até agora
considerando os dados fornecidos na Tabela 2.6, que relaciona o
salário-hora médio (Y) com a escolaridade (X);
• A teoria econômica básica do trabalho nos informa que, dentre
muitas variáveis, a escolaridade é um determinante importante dos
salários;
• Na Tabela 3.2. fornecemos os dados brutos necessários para
estimar o impacto quantitativo dos anos de estudo nos salários;
•Tendo isso em vista, calcule as estimativas de Mínimos Quadrados
Ordinários (MQO) do coeficiente angular e do intercepto associados
ao seguinte modelo: 𝑌 = 𝛽1 + 𝛽2𝑋 + 𝑒.
3.1 Método dos mínimos quadrados ordinários
• Exemplo numérico
3.1 Método dos mínimos quadrados ordinários
Y = 0,7241X - 0,0145
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
S
a
lá
ri
o
-h
o
ra
 m
é
d
io
Anos de escolaridade
Linha de regressão estimada para os dados salário- escolaridade da Tabela 2.6
• Os estimadores obtidos anteriormente são conhecidos como
estimadores de mínimos quadrados;
• Propriedades numéricas dos estimadores:
I. Os estimadores de MQO são expressos unicamente em termos
de quantidades observáveis (amostrais), como X e Y;
II. São estimadores pontuais, isto é, dada a amostra, cada
estimador proporciona apenas um único valor (ponto) do parâmetro
populacional relevante;
III. Uma vez obtidas as estimativas de MQO para os dados
amostrais, a linha de regressão amostral (Figura 3.1) pode ser
obtida facilmente.
3.1 Método dos mínimos quadrados ordinários
3.1 Método dos mínimos quadrados ordinários
•As hipóteses feitas quanto à(s) variável(is) Xi e
ao termo de erro são fundamentais para a
interpretação das estimativas da regressão;
• Apresentaremos essas hipóteses considerando
o modelo clássico de regressão linear,
gaussiano ou padrão (MCRL);
• Inicialmente, as hipóteses serão discutidas no
contexto do modelo de regressão de duas
variáveis.
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados
Hipótese Descrição
Hipótese 1 Modelo de regressão linear: o modelo de regressão é linear nos
parâmetros, embora possa não ser linear nas variáveis. Este é o
modelo de regressão como mostrado na Equação (2.4.2):
𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖 + 𝑢𝑖
Hipótese 2 Valores de X fixos ou independentes do termo de erro: valores
assumidos pelo regressor X podem ser fixos em amostras repetidas
(caso do regressor fixo) ou seus valores podem mudar de acordo com
a variável dependente Y (no caso do regressor estocástico). No
segundo caso, supõe-se que as variáveis X e o termo de erro são
independentes, isto é, 𝐶𝑜𝑣 𝑋𝑖 , 𝑢𝑖 = 0.
Hipótese 3 Valor médio do termo de erro ui é zero: dado o valor de 𝑋𝑖, o valor 
médio ou esperado, do termo de erro aleatório 𝑢𝑖 é zero. 
Simbolicamente, temos:
𝐸 𝑢𝑖|𝑋𝑖 = 0
ou, se X é nãoestocástico,
𝐸 𝑢𝑖 = 0
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados
Hipótese Descrição
Hipótese 4 Homocedasticidade ou variância constante de 𝑢𝑖: A 
variância do termo de erro é a mesma independentemente 
do valor de X. De maneira simbólica, Var 𝑢𝑖 = 𝜎
2.
Hipótese 5 Não há autocorrelação entre os termos de erro: dados
quaisquer dois valores de X, 𝑋𝑖 e 𝑋𝑖 (i ≠ j), a correlação
entre quaisquer dois 𝑢𝑖 e 𝑢𝑗 (i ≠ j) é zero. Simbolicamente,
Cov 𝑢𝑖 , 𝑢𝑗|𝑋𝑖 𝑒 𝑋𝑗 = 0 (3.2.5)
Cov 𝑢𝑖 , 𝑢𝑗 = 0, se X for não estocástica.
em que i e j são duas observações diferentes e cov
significa covariância.
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados
Hipótese Descrição
Hipótese 6 O número de observações n deve ser maior que o
número de parâmetros a serem estimados: como
alternativa, o número de observações n deve ser maior
que o número de variáveis explanatórias.
Hipótese 7 Variabilidade dos valores de X: os valores de X em uma
amostra não devem ser os mesmos. Tecnicamente, var (X)
deve ser um número positivo. Além disso, não pode haver
valores extremos (outliers) da variável X, isto é, valores
muito grandes ou discrepantes em relação ao resto das
observações.
• Hipótese 1: Modelo de regressão linear;
Os modelos de regressão linear nos parâmetros são o ponto de partida do
Modelo Clássico de Regressão Linear (MCRL). Tenha em mente que o
regressando Y e os regressores 𝑋2 e 𝑋3 podem ser não lineares;
• Hipótese 3: Valor médio do termo de erro 𝒖𝒊 é zero;
Quando expressamos a FRP (𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖𝑋 + 𝑢𝑖) assumimos que as
variáveis 𝑋2 , 𝑋3 , e 𝑢 (que representa a influência de todas as variáveis
omitidas) têm influências separadas (e aditivas) sobre Y;
Mas, se 𝑋2, 𝑋3 e 𝑢 são correlacionados, não é possível avaliar seus efeitos
individuais sobre Y. Portanto, se 𝑋2 e 𝑢 são positivamente correlacionados, por
exemplo, 𝑋2 aumenta quando 𝑢 aumenta e diminui quando 𝑢 diminui. Da mesma
forma, se 𝑋2 e 𝑢 são negativamente correlacionados, 𝑋2 aumenta quando 𝑢
diminui e diminui quando 𝑢 aumenta. Em situações como essa, é bem possível
que o termo de erro realmente inclua algumas variáveis que deveriam ser
incluídas como regressores adicionais no modelo.
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados
• Hipótese 6: O número de observações n deve ser
maior que o número de parâmetros a serem estimados;
Considere um exemplo hipotético e imagine que só
tivéssemos o primeiro par de observações de Y e X. Com
base nessa única observação, não há como estimar as duas
incógnitas 𝛽1 e 𝛽2. São necessários pelo menos dois pares
de observações para estimar as duas incógnitas;
• Hipótese 7: Variabilidade dos valores de X;
Se todos os valores de X forem idênticos, então 𝑋𝑖 = ത𝑋 e o
denominador da equação será zero, tornando impossível
estimar 𝛽2 e, portanto, 𝛽1.
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados
• Ao analisarmos as Equações (3.1.6) e (3.1.7), fica
evidente que as estimativas de mínimos quadrados
são uma função dos dados amostrais;
• Mas como os dados costumam mudar de amostra
para amostra, precisamos de alguma medida de
“confiabilidade” ou precisão dos estimadores መ𝛽1 e
መ𝛽2;
• Em estatística, a precisão de uma estimativa é
medida por seu erro padrão (ep).
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
• Dadas as hipóteses gaussianas, a Seção 3A.3 do
Apêndice 3A mostra que os erros padrão das estimativas
de MQO podem ser obtidos como se segue:
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
𝑣𝑎𝑟 𝑏2 =
𝜎2
σ 𝑥2
(3.3.1) ep 𝑏2 =
𝜎2
σ 𝑥2
(3.3.2) 
𝑣𝑎𝑟 𝑏1 = 𝜎
2 σ 𝑋
2
𝑛 σ 𝑥2
(3.3.3) ep 𝑏1 = 𝜎2
σ 𝑋2
𝑛 σ 𝑥2
(3.3.4)
em que var = variância, ep = erro padrão e 𝜎2 é a variância 
constante ou homocedástica de 𝑢𝑖 da Hipótese 4.
• Na estatística, a variância é uma medida de dispersão que
mostra o quão distante cada valor desse conjunto está do
valor central (médio).
• Portanto, quanto menor é a variância, mais próximos os
valores estão da média; mas quanto maior ela é, mais os
valores estão distantes da média.
• Na análise de regressão, a variância mede o quanto as
estimativas produzidas por aquele estimador podem variar
de uma amostra para outra;
• Mede a dispersão da distribuição de probabilidade de 𝑏1 e
𝑏2.
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
• O erro padrão é apenas o desvio padrão da distribuição
amostral do estimador, e esta é simplesmente a probabilidade ou
distribuição de frequência do estimador;
• Em outras palavras, o erro padrão é a distribuição do conjunto
de valores dos estimadores obtidos de todas as amostras
possíveis, do mesmo tamanho, de uma dada população;
• As distribuições amostrais são usadas para fazer inferências
sobre os valores dos parâmetros populacionais com base nos
valores calculados dos estimadores baseados em uma ou mais
amostras.
• Em estatística, a precisão de uma estimativa é medida por seu
erro padrão (ep).
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
• A variância do erro (𝜎2) é estimada pela seguinte fórmula:
෢𝜎2 =
σ𝑢𝑖
2
𝑛 − 2
(3.3.5)
Em que ෢𝜎2 é o estimador de MQO do verdadeiro, mas desconhecido, 𝜎2, a
expressão n – 2 é conhecida como número de graus de liberdade (gl) e 𝑢𝑖
2 é
a soma do quadrado dos resíduos (SQR).
• Note que a raiz quadrada positiva de 𝜎2
𝜎2 =
σ𝑢𝑖
2
𝑛 − 2
(3.3.8)
é conhecida como erro padrão da estimativa ou erro padrão da
regressão (ep). É simplesmente o desvio padrão dos valores de Y em
relação à linha de regressão estimada.
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
• O erro padrão da estimativa é frequentemente usada como uma medida
sintética da “qualidade do ajustamento” da linha de regressão estimada;
• Note as seguintes características das variâncias (e, portanto, dos erros
padrão) de መ𝛽1 e መ𝛽2:
a) A variância de መ𝛽2 é diretamente proporcional a 𝜎
2, mas inversamente
proporcional a σ𝑥2 . Isto é, dado 𝜎2, quanto maior a variação dos valores de
X, menor a variância de መ𝛽2 e, portanto, maior a precisão com que 𝛽2 pode
ser estimado.
b) A variância de መ𝛽1 é diretamente proporcional a 𝜎
2 e σ𝑋2 , mas
inversamente proporcional a σ𝑥2 e ao tamanho da amostra n;
c) Como መ𝛽1 e መ𝛽2 são estimadores, eles não só variam de amostra para
amostra, como tendem a ser dependentes um do outro em determinada
amostra.
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
• Essa dependência é medida pela covariância entre eles.
𝑐𝑜𝑣 መ𝛽1, መ𝛽2 = − ത𝑋𝑣𝑎𝑟 መ𝛽2 = − ത𝑋
𝜎2
σ 𝑥𝑖
2 (3.3.9)
• Como var ( መ𝛽2) é sempre positiva, assim como a variância
de qualquer variável, a natureza da covariância entre መ𝛽1 e
መ𝛽2 depende do sinal de X. Se o sinal for positivo, como
mostra a fórmula, a covariância será negativa.
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
• Exemplo numérico
• Ilustraremos a teoria econométrica apresentada até agora
considerando os dados fornecidos na Tabela 3.2, que relaciona o
salário-hora médio (Y) com a escolaridade (X);
• Na Tabela 3.2. fornecemos os dados brutos necessários para
estimar o impacto quantitativo dos anos de estudo nos salários;
• Tendo isso em vista, calcule:
a) Variância do erro (𝜎2);
b) Erro padrão do erro;
c) Variância dos estimadores 𝑏1e 𝑏2;
d) Erros padrão dos estimadores 𝑏1e 𝑏2;
e) Covariância de መ𝛽1 e መ𝛽2.
3.3 Precisão ou erros padrão das estimativas 
de mínimos quadrados
• Dadas as hipóteses do modelo clássico de regressão linear, as estimativas de
mínimos quadrados possuem algumas propriedades ideais ou ótimas;
• Estas estão contidas no conhecido teorema de Gauss-Markov. Para entendê-
lo, precisamos considerar a propriedade de melhor estimador linear não
viesado (ou não tendencioso):MELNT ou BLUE de um estimador;
• Por exemplo, o estimador de MQO መ𝛽2, é considerado o melhor estimador linear
não viesado (ou não tendencioso) de 𝛽2 se atender às seguintes condições:
1. É linear, isto é, uma função linear de uma variável aleatória, como a variável
dependente Y no modelo de regressão.
2. É não viesado (ou não tendencioso), isto é, seu valor médio ou esperado E( መ𝛽2)
é igual ao verdadeiro valor 𝛽2.
3. Tem variância mínima na classe de todos os estimadores lineares não
viesados; um estimador não viesado com a menor variância é conhecido como um
estimador eficiente.
3.4 Propriedades dos estimadores de mínimos 
quadrados: o teorema de Gauss-Markov
• No contexto da regressão, podemos provar que os
estimadores de MQO são MELNT. Essa é a essência do
famoso teorema de Gauss-Markov, que afirma o seguinte:
• Podemos explicar o significado de tudo isso com auxílio da
Figura 3.7.
• Na Figura 3.7 (a) apresentamos a distribuição amostral do
estimador de MQO መ𝛽2 , isto é, a distribuição dos valores
assumidos por መ𝛽2 em experimentos amostrais repetidos.
3.4 Propriedades dos estimadores de mínimos 
quadrados: o teorema de Gauss-Markov
Teorema de Gauss-Markov:
Dadas as premissas do modelo clássico de regressão linear, os
estimadores de mínimos quadrados da classe dos estimadores lineares
não viesados têm variância mínima, isto é, são o melhor estimador linear
não viesado (MELNT).
3.4 Propriedades dos estimadores de mínimos 
quadrados: o teorema de Gauss-Markov
• Figura 3.7(a): a média dos valores de መ𝛽2, E( መ𝛽2), é igual ao verdadeiro
𝛽2. Nessa situação, dizemos que መ𝛽2 é um estimador não viesado de 𝛽2;
• Figura 3.7(b): a distribuição amostral de 𝛽2
∗, um estimador alternativo
de 𝛽2 obtido usando outro método (diferente de MQO). Por conveniência,
supusemos que 𝛽2
∗, assim como መ𝛽2, é não viesado, ou seja, que seu valor
médio ou esperado é igual a 𝛽2. Vamos supor, ainda, que tanto መ𝛽2 quanto
𝛽2
∗ são estimadores lineares. Qual dos dois estimadores você escolheria?
Figura 3.7(c): embora tanto መ𝛽2 quanto 𝛽2
∗ sejam não viesados, a
distribuição de 𝛽2
∗ é mais difusa ou espalhada em torno da média do que
a distribuição de መ𝛽2. Em outras palavras, a variância de 𝛽2
∗ é maior que a
variância de መ𝛽2. Agora, dados dois estimadores lineares e não viesados,
escolhemos o estimador com menor variância, porque é mais provável que
esteja mais próximo de 𝛽2 do que o estimador alternativo. Em resumo,
escolhemos o melhor estimador linear não viesado (MELNT ou BLUE).
3.4 Propriedades dos estimadores de mínimos 
quadrados: o teorema de Gauss-Markov
• Agora, consideraremos a qualidade do ajustamento da linha
de regressão ajustada a um conjunto de dados;
• Vamos descobrir quão “bem” uma linha de regressão amostral
é adequada aos dados;
• O coeficiente de determinação 𝒓𝟐 (no caso de duas
variáveis) ou 𝑹𝟐 (regressão múltipla) é uma medida resumida
que diz quanto a linha de regressão amostral ajusta-se aos
dados.
• Antes de mostrarmos como se calcula o 𝒓𝟐 , vejamos uma
explicação heurística de 𝒓𝟐 em termos de um recurso gráfico
conhecido como diagrama de Venn, ou Ballentine, como mostra
a Figura 3.8.
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Nessa figura, o círculo Y representa a variação da variável
dependente Y e o círculo X, a variação da variável explanatória X;
•A sobreposição dos círculos (a área sombreada) indica a extensão em
que a variação de Y é explicada pela variação de X;
• Quanto maior a área de sobreposição, maior a parte da variação de
Y explicada por X. O r2 é apenas a medida numérica dessa
sobreposição;
• Na figura, à medida que nos movemos da esquerda para a direita, a
área de sobreposição aumenta, isto é, uma proporção cada vez maior
da variação de Y é explicada por X. Em resumo, r2 aumenta;
• Quando não há sobreposição, r2 é obviamente zero; mas, quando a
sobreposição é total, r2 é igual a 1. Como mostraremos em breve, r2
situa-se entre 0 e 1.
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Para calcularmos r2 é preciso lembrar que:
𝑌𝑖 = 𝐸 𝑌𝑖 + 𝑢𝑖 (2.6.3)
• É possível decompor o valor de 𝑌𝑖 como:
𝑌𝑖 = ෡𝑌𝑖 + ෝ𝑢𝑖
• Subtraindo a média amostral de ambos os membros da equação,
obtemos
𝑌𝑖 − ത𝑌 = (෡𝑌𝑖 − ത𝑌) + ෝ𝑢𝑖
• O desdobramento em leva a uma decomposição útil da variabilidade
total em Y, dentro de toda uma amostra, em parte explicada e parte
não explicada.
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Há muitas formas de medir a variação total em uma variável. Uma
forma conveniente consiste em somar, sobre toda a amostra, os
quadrados das diferenças entre 𝑌𝑖 e sua média.
• Elevando ao quadrado ambos os membros da última equação,
obtemos:
෍(𝑌𝑖 − ത𝑌)
2 =෍(෠𝑌𝑖 − ത𝑌)
2 −෍ ෝ𝑢𝑖
2
• O desdobramento leva a uma decomposição útil da variabilidade
total em Y, dentro de toda uma amostra, em parte explicada e parte
não explicada.
SQT = SQE + SQR (3.5.3)
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Especificamente, essas somas dos quadrados são:
i) Soma dos quadrados total = SQT: uma medida da variação
total em Y em relação a sua média amostral.
ii) Soma dos quadrados explicados (da regressão) = SQE:
uma medida da variação total em Y estimado em relação a sua
média amostral.
iii) Soma dos quadrados dos resíduos (erros) = SQR: parcela
da variação total de Y em relação ao seu valor estimado, que não
é explicada pela regressão.
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Portanto, o r2 é definido como:
𝑟2 =
𝑆𝑄𝐸
𝑆𝑄𝑇
=
σ ෡𝑌𝑖 − ത𝑌
2
σ 𝑌𝑖 − ത𝑌
2
𝑟2 = 1 −
𝑆𝑄𝑅
𝑆𝑄𝑇
= 1 −
σ ො𝑢𝑖
2
σ 𝑌𝑖 − ത𝑌
2
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Interpretação do 𝒓𝟐 (Coeficiente de determinação): quanto mais
próximo de 1 estiver r2 melhor terá sido nosso trabalho para explicar a
variação em Y e maior será a nossa capacidade de previsão do modelo.
a) 𝒓𝟐 = 1: todos os dados amostrais estão examente sobre a reta
ajustada de mínimos quadrados, de forma que SQR = 0. O modelo se
ajusta perfeitamente aos dados.
b) 𝒓𝟐 = 0: os dados amostrais de Y e X não são correlacionados, não
apresentando qualquer associação linear. Então, a reta ajustada de
mínimos quadrados é horizontal e idêntica a média de Y, de forma que
SQE = 0
c) 0 < 𝒓𝟐 < 1: porcentagem da variação em Y, em torno de sua média,
que é explicada pelo modelo de regressão.
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Algo estreitamente relacionado, mas conceitualmente
muito diferente de 𝑟2, é o coeficiente de correlação (r),
que, como foi visto no Capítulo 1, é uma medida do grau de
associação entre duas variáveis;
𝑟 = ± 𝑟2 (3.5.12)
ou, com base em sua definição:
𝑟 =
σ(𝑥𝑖.𝑦𝑖)
σ(𝑥𝑖)
2σ(𝑦𝑖)
2
(3.5.13)
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Estas são algumas das propriedades de r:
1. Pode ser positivo ou negativo, o que dependerá do sinal 
do termo no numerador da Equação (3.5.13), que mede a 
covariação amostral das duas variáveis;
2. Se situa entre os limites de -1 e +1 , isto é, −1 ≤ 𝑟 ≤ +1;
3) Sua natureza é simétrica, isto é, o coeficiente de
correlação entre X e Y (𝑟𝑋𝑌) é o mesmo que aquele entre Y
e X (𝑟𝑌𝑋);
4) É independente da origem e da escala.
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
• Estas são algumas das propriedades de r:
5. Se X e Y são estatisticamente independentes (veja a definição no
Apêndice A), o coeficiente de correlação entre elas é zero, mas se r =
0, isso não significa que as variáveis sejam independentes.Em outras
palavras, correlação zero não implica necessariamente independência
(veja Figura 3.10(h));
6. É uma medida de associação linear ou de dependência linear. Não é
significativa para descrever relações não lineares. Assim, na Figura
3.10 (h), 𝑌 = 𝑋2 é uma relação exata, embora r seja zero;
7. Mesmo sendo uma medida de associação linear entre duas variáveis,
ela não implica necessariamente qualquer relação de causa e feito,
como observado no Capítulo 1.
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”
3.5 O coeficiente de determinação 𝒓𝟐: uma 
medida da “qualidade do ajustamento”

Continue navegando