Buscar

Econometria 4


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 21 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

Autoria: José Tadeu de Almeida - Revisão técnica: Jorge Lisandro Maia Ussan
Econometria
UNIDADE 4 - COEFICIENTES DE
DETERMINAÇÃO E TESTE DE SIGNIFICÂNCIA
Prezado(a) estudante, nesta unidade, você terá a
oportunidade de consolidar conceitos importantes
relativos à regressão linear. Como se sabe, há uma série
de procedimentos que articulam a criação de modelos
econométricos, destinados a avaliar a associação
existente entre variáveis dependentes e independentes.
No entanto, é possível aprofundar essa análise.
A construção de retas de regressão e linhas de tendência
é importante para observar a evolução de um modelo
econométrico, mas podemos fazer, ainda, outros questionamentos de modo a conhecer mais sobre o
tema. Assim, será que é possível observar se o modelo é realmente eficiente para explicar as
relações de variação entre os dados colhidos em um conjunto amostral? Como medir essa
eficiência? Há modelos que são mais ou menos eficientes e adequados que outros?
Para responder a esses questionamentos e entender essas relações, você conheceu algumas
ferramentas relevantes, como os testes de significância e a tabela ANOVA, construída a partir de
métodos de análise de variância. Agora, iremos reforçar o estudo dessas associações de
determinação de variabilidade por meio de um coeficiente que associa somatórios de elementos reais
e estimados no modelo de regressão.
Para atender aos nossos objetivos nesta unidade, utilizaremos, principalmente, o coeficiente de
determinação, também conhecido como R-quadrado, e o coeficiente R-quadrado ajustado. Desse
modo, além de relembrarmos outros conceitos relativos à econometria, introduziremos uma temática
cuja aplicação é essencialmente prática, podendo ser utilizada, inclusive, para a construção de
modelos econométricos explicativos e eficientes em sua vida profissional.
Bons estudos!
Introdução
4.1 Coeficiente de
determinação
Para medir uma associação entre variáveis, é possível recorrer a medidas de regressão que permitem verificar
a influência entre elas em um modelo. Sabendo disso, ao longo desta seção, analisaremos o coeficiente de
determinação, igualmente denominado como , e o coeficiente de determinação ajustado.
Como veremos, o coeficiente de determinação demonstra o grau de determinação, isto é, a proporção na
qual a variabilidade da variável independente é capaz de determinar a variabilidade da variável dependente.
Em outros termos, o coeficiente demonstra se a variabilidade entre variáveis é forte o suficiente para mostrar
que a variável dependente é realmente determinada e influenciada pelo conjunto de dados ligados às variáveis
independentes (HOFFMANN, 2016).
4.1.1 Resíduos e erros amostrais
A elaboração do coeficiente de determinação demanda retomarmos o conceito de resíduo associado a uma
variável, que é um desvio ou erro, em relação a um valor esperado: (MAIA, 2017). Assim, o valor
real de Y pode ser entendido como a soma entre o resíduo e o valor esperado/estimado: .
Consequentemente, ao subtrair a média nos dois lados da equação e transformar por , observa-se
o seguinte: . Logo, se e , tem-se que: . Ao elevar
essa equação ao quadrado, lembrando-se do conceito do quadrado da soma de dois termos, tem-se o
seguinte:
Se a soma dos resíduos é igual a zero, logo, a somatória do produto também é igual a zero. Portanto:
Por meio dessa equação, é possível perceber uma associação ou relação entre os valores reais e previstos,
bem como os resíduos gerados pela diferença entre essas variáveis (HOFFMANN, 2016).
A variabilidade dos elementos ao redor da média (cuja somatória é expressa por ) pode ser
compreendida por duas razões. A primeira delas é atribuída à própria regressão, que fornece apenas os
valores estimados de , expressos por . A segunda razão é dada pelos resíduos, cuja origem é alheia à
existência do modelo, ou seja, na existência de uma diferença entre os valores reais e um valor estimado 
, há uma parte que não é captada pelo modelo e que pode ser atribuída a fatores externos.
Desse modo, o coeficiente de determinação apresenta a proporção da variabilidade do conjunto de valores
estimados que é efetivamente explicada (determinada) pela regressão. Esse coeficiente é apresentado da
seguinte forma (MAIA, 2017):
Nesse caso, SQReg corresponde à soma dos quadrados da regressão, isto é, dos valores estimados , e
SQTotal corresponde à soma dos quadrados dos valores de .
O coeficiente tem valores determinados pelo intervalo [0,1], de modo que, à medida que o coeficiente
aumenta e se torna próximo de 1, mais efetiva é a regressão para explicar a variabilidade da variável
dependente, tornando os valores reais bastante próximos dos valores estimados (MAIA, 2017).
O vídeo Econometria: conceitos e aplicações | Capítulo 7 - Análise
de variância, produzido pelo professor Alexandre Gori Maia, da
Universidade Estadual de Campinas (Unicamp), apresenta, de
forma bastante completa, os conceitos de análise de variância e a
discussão relacionada ao coeficiente de determinação.
Acesse (https://www.youtube.com/watch?v=xRS-
vdUUN1E)
Você quer ver?
https://www.youtube.com/watch?v=xRS-vdUUN1E
https://www.youtube.com/watch?v=xRS-vdUUN1E
Utilizando um modelo que gerou a regressão , com média
, pode-se obter o seu coeficiente de determinação, de acordo com o
quadro a seguir.
Fonte: Elaborado pelo autor, 2021.
#PraCegoVer: o quadro apresenta os dados relativos às variáveis X e Y,
relacionadas a um modelo de regressão, e os valores estimados, juntamente
com os erros amostrais e os quadrados da regressão.
Logo, tem-se o seguinte coeficiente de determinação:
Ou seja, o modelo de regressão é capaz de explicar em 97,6% a variação da
variável dependente Y.
Caso
No exemplo apresentado, você pôde observar graficamente a intensa associação entre valores reais e
esperados. Há, no entanto, situações em que essa associação é mais fraca, demandando a elaboração do
coeficiente de determinação para ter uma estimação mais precisa da eficiência do modelo de regressão (MAIA,
2017).
Efetivamente, se o coeficiente estiver próximo de zero, maior será a independência linear entre as variáveis,
como se observa na figura a seguir.
#PraCegoVer: a figura apresenta uma barra com tons progressivos de branco a preto, destacando que, à
medida que a barra se torna mais escura, mais forte é o coeficiente de determinação. Assim, à esquerda,
associado à cor branca, está o número 0, abaixo do qual aparece a expressão “Independência linear”. À direita,
no outro extremo da figura, está o número 1 associado à cor preta. Abaixo desse número está a expressão
“Relação linear exata”.
Tal situação se observa na série de dados a seguir, gerada a partir do modelo ,
cuja média é igual a 5.
#PraCegoVer: o quadro, composto por cinco colunas, apresenta uma série de dados relacionada aos valores
reais e estimados da variável independente X e da variável dependente Y, na primeira e na segunda colunas,
bem como os valores estimados de Y na terceira coluna e as duas somas de quadrados da regressão e total,
na quarta e na quinta colunas.
Figura 1 - Escala para o coeficiente de determinação
Fonte: Elaborada pelo autor, baseada em MAIA, 2017.
Quadro 1 - Elaboração do coeficiente 
Fonte: Elaborado pelo autor, 2021.
O coeficiente de determinação, nesse caso, é igual a:
Ou seja, esse modelo explica em 73,6%, a partir do conjunto de dados da regressão, a variabilidade da
variável dependente Y, de acordo com o que se observa no gráfico a seguir.
#PraCegoVer: o gráfico apresenta o conjunto de dados relativos ao quadro anterior, demonstrando que os
valores reais de Y estão dispersos, enquanto os valores estimados de Y estão em uma reta de regressão.
Por fim, é importante enfatizar que um coeficiente baixo, embora indique menor dependência linear entre
variáveis, não implica, necessariamente, que o modelo seja ruim, isto é, que o ajuste criado pela regressão
seja insatisfatório. Na verdade, algumas variáveis podem ser mais difíceis de serem compreendidas em todas
as suas características,o que dificulta a criação de um modelo fortemente explicativo (MAIA, 2017).
Por exemplo, os preços dos aluguéis em uma cidade não dependem somente do valor do metro quadrado em
um bairro, mas, também, do nível de renda da população local, das condições econômicas do entorno, da
localização, das condições dos imóveis, da limpeza urbana, entre outros fatores. Assim, mesmo que um
modelo tenha uma contribuição baixa em relação a uma regressão, ele poderá oferecer informações
interessantes e importantes ao pesquisador.
4.1.2 Coeficiente de determinação ajustado
Ao criar um modelo de regressão, nem sempre uma única variável independente é uma condição suficiente
para explicar plenamente uma variação da variável dependente (Y). Assim, é necessário incluir outros fatores
explicativos nesse modelo, na forma de variáveis que acabam por transformar a relação linear simples em um
modelo de regressão múltipla.
Figura 2 - Valores reais e estimados em uma regressão
Fonte: Elaborada pelo autor, 2021.
Desse modo, à medida que novas variáveis são agregadas ao modelo de regressão, espera-se que a
capacidade explicativa do modelo se torne maior, elevando, consequentemente, o valor absoluto do coeficiente
de determinação . No limite, mesmo que a inclusão da variável não auxilie em nada para a explicação da
variabilidade do modelo, também não irá atrapalhar, de modo que o coeficiente manteria o mesmo valor se a
variável fosse inócua para o modelo (WOOLDRIDGE, 2017).
Sabendo disso, observe a figura a seguir.
#PraCegoVer: a figura apresenta três círculos que têm pontos de interseção entre si. Essas áreas de
interseção representam os valores de Y que são explicados pela variação das variáveis independentes e 
.
Na figura, analisa-se um modelo econométrico baseado em duas variáveis independentes e uma variável
dependente, da seguinte forma: (GUJARATI, 2011). Nesse caso, o coeficiente de
determinação é estruturado a partir dos valores das variáveis e , como uma razão entre a soma dos
quadrados da regressão e a soma dos quadrados totais:
É possível, ainda, incluir mais uma variável explicativa nesse modelo, gerando uma regressão com três
variáveis independentes. Nesse caso, a variável pode ser explicativa, sendo que parte dos quadrados da
regressão é explicada por essa variável, ou a variável pode ser inócua, de modo que o efeito em é igual a
zero. Observe, então, a figura a seguir.
Na vida real, os processos de regressão linear simples são quase
inexistentes. Isso porque, em geral, um fenômeno estatístico é dependente
de uma série de variáveis (o desemprego, por exemplo, depende da
inflação, da queda nos salários, da violência urbana etc.), de modo que
essas relações devem ser, sempre que possível, observadas por meio de
uma regressão múltipla. Nesta disciplina, focamos a regressão simples para
facilitar a compreensão dos temas apresentados.
Você sabia?
Figura 3 - Relação de independência entre duas variáveis
Fonte: Elaborada pelo autor, baseada em MAIA, 2017.
#PraCegoVer: a figura apresenta dois conjuntos de círculos. No conjunto da esquerda, há três variáveis de X
que explicam a variável dependente Y. No conjunto da direita, a variável está isolada, demonstrando que
ela não explica a variação de Y.
No conjunto à esquerda, a variável apresenta alguma contribuição explicativa ao modelo. Desse modo, o
valor de incorporando as três variáveis será maior do que o valor de . Algebricamente, tem-se, nesse
caso, que: (MAIA, 2017).
No conjunto da direita, a variável é completamente inócua, isto é, não contribui em nada para explicar a
variação de Y. Nessas circunstâncias, tem-se a seguinte igualdade: .
É possível, portanto, verificar que o coeficiente não diminui, mesmo ao serem incorporadas variáveis
independentes extras no modelo. Se elas forem inócuas, o efeito em será nulo, e se forem explicativas, a
variação de será sempre positiva para a determinação do modelo.
Desse modo, é importante realizar uma correção do coeficiente de determinação, de modo a ponderá-lo pelo
número k de variáveis efetivamente explicativas — que geram, assim, o número de graus de liberdade da
regressão — e pelo número n de observações do conjunto amostral. Assim, é criado o coeficiente de
determinação ajustado, cuja notação é dada por , da seguinte forma (MAIA, 2017):
Figura 4 - Relações de regressão com três variáveis independentes
Fonte: Elaborada pelo autor, baseada em MAIA, 2017.
É importante delimitar o significado das expressões. A variável 
não contribui para a explicação do modelo, no entanto, ela não é
exógena. As variáveis exógenas explicam a variação dos dados,
mas não estão incluídas no modelo de regressão. Não é o que
ocorre com a variável .
Você sabia?
A partir do cálculo do coeficiente ajustado, é possível depreender três propriedades, destacadas a seguir.
O coeficiente de determinação ajustado deve, portanto, ser manipulado de modo que a inclusão de novas
variáveis explicativas somente ocorra se a estatística t de Student relacionada a essas variáveis apresentar um
valor absoluto superior a 1. Consequentemente, na hipótese de incluir um conjunto de j variáveis, com j > 1, o
valor de irá aumentar somente se a estatística F associada a esse conjunto tiver um valor absoluto maior
que 1 (MAIA, 2017).
O artigo de Maria Luiza de Lima et al. (2005), denominado “Análise
espacial dos determinantes socioeconômicos dos homicídios no
estado de Pernambuco”, apresenta uma aplicação objetiva dos
conceitos destacados nesta unidade. Os autores explicam, por
meio de uma análise de variância, a relação existente entre as
Você quer ler?
Se , não há outras variáveis explicativas influenciando o modelo; desse modo, .k = 1
Para todo , sendo um número natural, haverá uma tendência de diluição do coeficiente
ajustado, de modo que .
k > 1 k
Como efeito da segunda propriedade, o valor de pode ser negativo.
Primeira propriedade
Segunda propriedade
Terceira propriedade
A partir de agora, veremos um exemplo para facilitar a discussão e a compreensão sobre os conceitos aqui
trabalhados. Considere, assim, o conjunto de dados apresentado no quadro a seguir.
#PraCegoVer: o quadro apresenta, em quatro colunas, um conjunto com dez pares ordenados relativos a uma
variável independente X e a uma variável dependente Y.
De acordo com os dados apresentados, a média de X é igual a 9 e a média de Y é igual a 10. A partir desses
dados, podemos calcular os coeficientes angular e linear com base nas informações dispostas a seguir.
#PraCegoVer: o quadro, composto por seis colunas, complementa o conteúdo do quadro anterior,
apresentando os valores centrados das variáveis e os elementos necessários para a criação do coeficiente
angular. Assim, na primeira e na segunda colunas, respectivamente, são destacados os pares ordenados
variáveis analfabetismo e pobreza como fatores explicativos da
variável taxa de homicídios, destacando que o coeficiente de
determinação ajustado para essa regressão é igual a 0,246.
Acesse (https://www.scielosp.org/pdf/rsp/2005.v39n2/176-
182/pt)
Quadro 2 - Conjunto de dados amostrais
Fonte: Elaborado pelo autor, 2021.
Quadro 3 - Dados amostrais para um modelo econométrico
Fonte: Elaborado pelo autor, 2021.
https://www.scielosp.org/pdf/rsp/2005.v39n2/176-182/pt
https://www.scielosp.org/pdf/rsp/2005.v39n2/176-182/pt
relativos à variável independente X e à variável dependente Y. Na terceira, na quarta, na quinta e na sexta
colunas, são apresentados os valores relativos a , a , a e a , respectivamente.
Com base no conteúdo apresentado, o coeficiente angular será expresso por:
Logo, o coeficiente linear será dado por , de modo que o modelo de regressão
será apresentado da seguinte forma: . Pode-se, assim, estimar os valores
esperados de Y e os elementos necessários para o cálculo do coeficiente de determinação. O quadro a seguir
apresenta esses valores.
#PraCegoVer: quadro composto por cinco colunas, complementando os dois quadros anteriores e
apresentando as somas dos quadrados necessárias paraa elaboração do coeficiente de determinação. Assim,
da primeira à última coluna, são apresentados os valores relativos a X, a Yest, a , a 
e a , respectivamente.
Assim, o coeficiente será expresso da seguinte forma:
O valor de permite observar que a relação de determinação é muito forte entre a variável dependente e a
variável independente. Dessa forma, caso o pesquisador decida tentar aprimorar o modelo por meio da
introdução de mais duas variáveis explicativas, o coeficiente ajustado será igual a:
Como se pode observar, a inclusão de novas variáveis não é suficientemente efetiva para auxiliar na
explicação da variabilidade de Y, podendo até mesmo reduzir, na verdade, a eficiência explicativa do modelo.
Quadro 4 - Elementos de cálculo do coeficiente de determinação
Fonte: Elaborado pelo autor, 2021.
O modelo de regressão, formado por uma série de coeficientes angulares (dependendo do perfil do modelo) e
por um coeficiente linear, também deve ser avaliado sob outra premissa. Assim, embora até o momento
tenhamos entendido a relação de determinação pelo coeficiente , precisaremos avaliar, agora, se esses
coeficientes, que são essencialmente amostrais — relativos a um conjunto finito de dados —, são
representativos da população estatística. Essa avaliação será realizada por meio dos testes de significância e
do erro-padrão, no tópico a seguir.
Teste seus conhecimentos
(Atividade não pontuada)
A econometria é um ramo do conhecimento da área das ciências econômicas que enfoca a criação de
estudos de caso de modo a avaliar as associações entre conjuntos de variáveis dependentes e
independentes. Sabendo disso, considere a existência de um conjunto de dados (X,Y) formado a partir dos
seguintes pares ordenados: (6,8), (8,7), (9,9), (9,11), (10,10), (7,9), (8,12), (11,15), (10,10), (12,9).
Tendo como base essas informações e seus estudos sobre o coeficiente de determinação, analise as
afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s).
I. ( ) O coeficiente linear dessa reta de regressão é igual a 0,53, enquanto o coeficiente angular é igual a
5,23.
II. ( ) No momento em que a variável independente X for igual a 15, o valor esperado de Y será igual a
13,18.
III. ( ) A variabilidade da variável independente é capaz de explicar a variação da variável dependente em
18,3%.
IV. ( ) O valor do coeficiente de determinação relativo à reta de regressão criada pelos pares ordenados
é igual a 0,319.
Agora, assinale a alternativa que apresenta a sequência correta.
a) F, V, V, F.
b) V, F, V, F.
c) V, F, F, F.
d) V, F, F, V.
e) F, V, F, V.
Verificar 
Vamos Praticar!
Há aproximadamente 7.700 quilocalorias (kcal) em um quilo (kg) de
gordura corporal. Assim, considere um modelo que relacione o volume de
gordura (em kg) em função das variáveis consumo calórico diário e gasto
calórico diário de um grupo com 31 pessoas. Esse modelo deverá ter um
valor alto, igual a 0,95, por exemplo. Ao incluir uma terceira variável,
como distúrbios metabólicos, qual seria o valor do ajustado?
Conforme você verá após efetuar os cálculos, a inserção de uma terceira
variável em um modelo com 31 observações será dada por:
Desse modo, observa-se que a inclusão de uma terceira variável às duas
primeiras reduz marginalmente a eficácia explicativa do modelo.
4.2 Erro-padrão e testes de
significância
No momento em que se obtém a distribuição amostral de um estimador qualquer, é possível calcular, também,
a variância desse estimador. Se a distribuição amostral exata não puder ser obtida, utiliza-se uma
aproximação, de modo que a variância do estimador será correspondente à variância dessa aproximação.
Em outras palavras, pode-se definir o erro-padrão como uma medida da variação de um estimador em relação
ao parâmetro. Se esses indicadores remetem à média, tem-se que o erro-padrão da média, por exemplo, irá
analisar a variação da média amostral, tomada com base na média populacional (BUSSAB; MORETTIN, 2017).
Diante disso, nesta seção, veremos com mais atenção quais as chances de um pesquisador incorrer em erro
ao afirmar que um estimador é eficiente e preciso para mensurar os valores esperados de um conjunto
amostral. Sempre que necessário, iremos apresentar apenas as equações geradoras dos indicadores, a fim de
evitar uma demonstração algébrica mais prolongada e o uso de elementos de cálculo que transcendem a
dinâmica desta disciplina.
4.2.1 Erro-padrão de um estimador
Quando uma reta de regressão é traçada, é demonstrada uma série de dados estimados de acordo com o
modelo econométrico. Assim, a diferença entre dados reais e estimados incorre na existência de erros
amostrais, que têm, entre si, uma variância. Essa variância, de acordo com o seu conceito em estatística
descritiva, representa a dispersão média, ao quadrado, do conjunto de erros ao redor da reta de regressão
(MAIA, 2017).
Em geral, a variância populacional é desconhecida, de modo que é necessário obter o valor de um estimador
dessa variância dos resíduos da amostra, de acordo com a seguinte fórmula:
Nessa fórmula, o denominador (n – 2) diz respeito ao número de graus de liberdade dos resíduos, de modo
que a raiz quadrada da variância da regressão, expressa por , é denominada erro-padrão da regressão,
permitindo mensurar a dispersão média desses resíduos.
Para obter o valor do somatório , é possível utilizar a seguinte fórmula:
As variâncias individuais, relacionadas aos estimadores e do modelo de regressão e expressas
respectivamente por e por , representam as dispersões quadráticas médias dos estimadores em função
do perfil aleatório da amostra. Lembrando que a variância diz respeito aos valores esperados dos coeficientes,
ou seja, à distância entre o valor real do coeficiente e seu valor estimado, pode-se calcular a variância
estimada do coeficiente linear:
O coeficiente angular estimado tem a variância disposta do seguinte modo:
Ao substituir a variância pelo seu valor esperado , pode-se obter os estimadores da variância de cada
coeficiente:
Os erros-padrão dos estimadores são obtidos por meio da raiz quadrada das variâncias obtidas pelos
estimadores mencionados.
Assim, pode-se obter algumas propriedades relativas aos erros-padrão. A primeira propriedade considera que,
à medida que o erro-padrão da regressão aumenta, a estimativa dos parâmetros torna-se menos precisa.
Assim, se os valores observados ao redor da reta de regressão estiverem muito dispersos, as estimativas de
mínimos quadrados dos parâmetros também tenderão a se dispersar (MAIA, 2017).
De acordo com a segunda propriedade, por sua vez, conforme a variabilidade observada dos valores de X
aumenta, a estimativa dos parâmetros torna-se mais precisa. Portanto, uma dispersão baixa da variável
independente demonstra que a amostra não tem uma grande amplitude, tornando a estimação mais eficiente
(MAIA, 2017).
Finalmente, uma última propriedade destaca que quanto maior o tamanho da amostra, mais a variável
independente apresentará variabilidade, permitindo que as estimativas dos parâmetros tenham maior precisão
(MAIA, 2017).
4.2.2 Teste de significância para os parâmetros
O teste de hipóteses relacionado aos coeficientes do modelo de regressão é usado para avaliar as evidências
de que os coeficientes são diferentes de zero, ou seja, de que apresentam uma capacidade explicativa à
variabilidade do modelo. Desse modo, as hipóteses são estruturadas como se segue (MAIA, 2017):
Em relação ao coeficiente angular, temos:
Supondo que a hipótese nula é verdadeira, as distribuições de probabilidade para os parâmetros devem seguir
uma distribuição normal, com média zero e variância igual à variância dos coeficientes estimados, da seguinte
forma:
 e 
Para criar o teste, basta seguir o protocolo comum à elaboração de um teste de hipótese: 1) verificar a
estimativa para a estatística de teste na amostra; e 2) calcular o valor-p, ou seja, a probabilidade de erro ao
rejeitar a hipótese nula, usando as estimativas amostrais de acordo com a distribuição t de Student,com (n –
2) graus de liberdade.
Assim, ao rejeitar a hipótese nula, estamos afirmando que a estimativa do coeficiente é significativa. Para o
coeficiente linear, demonstra-se que a variável independente é significativa do ponto de vista estatístico,
apresentando relação linear importante com a variável dependente Y.
Vejamos um exemplo para facilitar a compreensão. Para isso, observe o quadro a seguir.
#PraCegoVer: quadro composto por quatro colunas, destacando um conjunto de dez pares ordenados (X,Y)
para a criação de um modelo econométrico.
Resumidamente, o modelo de regressão associado a esse conjunto de dados, para uma média de X igual a 5 e
de Y igual a 5, é dado por . Consequentemente, teremos os valores estimados do
modelo de regressão destacados no quadro a seguir.
A distribuição t de Student foi criada pelo pesquisador William Sealy Gosset
(1876-1937). Esse estatístico trabalhava na cervejaria inglesa Guiness, e
criou essa distribuição para avaliar as proporções de cereais para a
fabricação de cervejas. Tanto por modéstia intelectual quanto para evitar o
comprometimento da empresa em seus estudos, Gosset usava o
pseudônimo Student (MOORE; NOTZ; FLIGNER, 2017).
Você o conhece?
Quadro 5 - Conjunto de dados amostrais ( X, Y)
Fonte: Elaborado pelo autor, 2021.
#PraCegoVer: quadro composto por cinco colunas, apresentando os dados amostrais para a criação do erro
amostral e do quadrado dos resíduos. Assim, da primeira à quinta coluna, constam os dados relativos a X, a Y,
a Yest, a Erro e a , respectivamente.
Pode-se observar que o modelo tem boa aderência para explicar a variação dos dados de Y, de acordo com o
gráfico que se segue.
Quadro 6 - Cálculo dos erros amostrais
Fonte: Elaborado pelo autor, 2021.
Figura 5 - Disposição de um modelo econométrico
Fonte: Elaborada pelo autor, 2021.
#PraCegoVer: o gráfico destaca os valores reais relacionados ao quadro anterior, bem como os valores
estimados em uma reta de regressão, ligada ao modelo econométrico.
As estimativas da variância da regressão e de seu erro-padrão são expressas da seguinte forma:
Consequentemente, o erro-padrão é igual a . Esse resultado consiste, na verdade, em uma
estimativa do erro médio para a previsão do modelo, com valor igual a 1,095.
Na sequência, é preciso estimar as variâncias dos coeficientes do modelo, com o objetivo de verificar se há
significância nos coeficientes linear e angular, ou seja, se esses coeficientes são diferentes de zero. Assim,
esses valores serão obtidos, especialmente, a partir do somatório dos valores centrados ao quadrado de X, do
seguinte modo:
Obtidas as estimativas, pode-se observar se elas são significativas por meio de um teste de hipóteses
apropriado para os coeficientes relativos ao modelo. Desse modo, teremos:
A estatística t de Student é dada por:
Para o coeficiente angular, tem-se o seguinte teste:
Elabora-se, desse modo, a seguinte estatística t de Student:
O valor-p associado a esse coeficiente é praticamente igual a zero, de modo que, ao afirmar que o coeficiente
angular é diferente de zero, ou seja, que o valor de X tem relação linear com o valor de Y, a chance de erro é
praticamente nula.
4.2.3 Intervalo de confiança para os coeficientes
Comparativamente à distribuição normal com 8 graus de liberdade, o valor-p associado ao coeficiente linear é
igual a aproximadamente 4,5%.
Isso significa que a probabilidade de erro ao afirmar que o ponto de intercepto da reta de regressão é
diferente de zero é igual a 4,5%.
Dessa forma, é possível afirmar, com uma chance de erro baixa, que o coeficiente linear é significativo.
 
A elaboração de um intervalo de confiança permite apurar, a um nível de confiança dado por , um conjunto
finito no qual, em repetidas amostras de dimensão igual a n, esteja contido o parâmetro populacional real, em 
situações possíveis. Sabendo que os estimadores de mínimos quadrados seguem uma distribuição normal,
seus intervalos de confiança, relacionados aos parâmetros linear e angular, serão expressos conforme
apresentado na figura a seguir (MAIA, 2017).
#PraCegoVer: na figura, há dois conjuntos de dados relacionados a uma distribuição estatística normal. Os
gráficos mostram linhas que convergem a um ponto máximo e que depois declinam.
Observe que os valores reais e não são conhecidos. Nesse caso, o uso dos estimadores amostrais e
 demanda a utilização da estatística t de Student, com (n – 2) graus de liberdade para os parâmetros:
Nesses casos, de acordo com o valor da distribuição t de Student, com (n-2) graus de liberdade, haverá uma
probabilidade igual a de que os parâmetros estejam entre os pontos extremos desse intervalo.
Recuperemos o exemplo do subtópico anterior para entendermos o conceito aplicado ao intervalo de
confiança. Para fazer uma estimação de intervalos de confiança a um nível de 95% para os parâmetros da
relação linear dada por , observaremos as seguintes equações:
A um nível de confiança de 95%, os intervalos são expressos como se segue:
O intervalo gerado pelos valores [0,022; 2,112] apresenta uma estimativa de um intervalo no qual, em
sucessivas amostras de tamanho n = 10, esteja contido o valor real do parâmetro linear em 95% dos casos. A
mesma estimação, a 95% de confiança para o parâmetro angular , está compreendida pelo intervalo
.
Figura 6 - Intervalos de confiança de estimadores de coeficientes
Fonte: Elaborada pelo autor, baseada em MAIA, 2017.
Teste seus conhecimentos
(Atividade não pontuada)
Por fim, é necessário ter em conta que a estatística t de Student para esse teste é operada com (n – 2) graus
de liberdade. Consequentemente, ao consultar a tabela relativa a essa distribuição, você deverá observar o
nível de significância concernente a um teste unilateral ou bilateral (MAIA, 2017).
Considere a existência de um modelo de regressão linear expresso da seguinte forma:
. Esse modelo é construído sobre um conjunto com dez pares ordenados (X,Y),
com a média de X sendo igual a 14 e o somatório dos valores centrados ao quadrado de X sendo iguais a
286. O somatório do quadrado dos erros amostrais é igual a 58,1.
A partir dessas informações e de seus estudos sobre o tema, analise as afirmativas a seguir.
I. O teste de hipótese para o coeficiente angular gera uma estatística t de Student igual a 10,62.
II. O valor crítico da distribuição t de Student para o teste de hipótese desse modelo, a 95%, é igual a 2,228.
III. O intervalo de confiança para o coeficiente angular, a um nível de 90%, é dado por [1,23; 2,16].
IV. O intervalo de confiança para o coeficiente linear, a um nível de 95%, é dado por [6,47; 10,33].
Está correto apenas o que se afirma em:
a) IV.
b) II e III.
c) I e IV.
d) I, II e III.
e) I, II, III e IV.
Verificar 
O nível de significância escolhido pelo pesquisador interfere ativamente
na amplitude do intervalo de confiança. No caso anterior, você pôde
fazer uma pesquisa a partir da tabela de distribuição de Student,
calculando os intervalos de confiança para 8 graus de liberdade e outros
níveis de significância. Qual seria o resultado do intervalo de confiança
para um nível de 90%?
Conforme você verá, a um nível de significância de 90%, a estatística de
teste é igual a 1,860. Logo, criam-se os seguintes intervalos:
Vamos Praticar!
Observa-se, assim, que o intervalo de confiança para o coeficiente linear
apresentou uma variação mais significativa quando comparado ao
intervalo do coeficiente angular. De fato, o baixo valor de seu desvio-
padrão implica em uma baixa dispersão dos valores, gerando um
intervalo de confiança mais limitado.
A econometria é uma ciência com aplicações que vão além das ciências econômicas,
de modo que os métodos de regressão são utilizados em diversas áreas do saber
para avaliar tendências de variação de dados amostrais, bem como para a construção
de estimadores populacionais. No entanto, é preciso observar que esses protocolos
de elaboração de modelos econométricos devem obedecer a um critério de eficiência,
de forma que uma variável dependenteseja explicada em sua variação por um
conjunto suficientemente limitado de variáveis independentes. Com a construção do
coeficiente e dos testes de hipótese, tal relação de eficiência e determinação se
torna possível.
Nesta unidade, você teve a oportunidade de:
Conclusão
definir os procedimentos de cálculo do coeficiente de determinação;
aplicar a relação entre variáveis por meio do coeficiente ajustado;
contrastar as diferenças entre variáveis explicativas e variáveis inócuas a um
modelo econométrico;
avaliar os elementos de criação de um teste de hipótese e do intervalo de confiança
para os coeficientes de um modelo de regressão.
BUSSAB, W. O.; MORETTIN, P. Estatística básica. 7. ed. São Paulo:
Saraiva, 2017.
ECONOMETRIA: conceitos e aplicações | Capítulo 7 - Análise de
variância. [S. l.: s. n.], 2020. 1 vídeo (17 min). Publicado pelo canal
Econometria: conceitos e aplicações. Disponível em:
Referências
https://www.youtube.com/watch?v=xRS-vdUUN1E (https://www.youtube.com/watch?v=xRS-
vdUUN1E). Acesso em: 20 fev. 2021.
GUJARATI, D. N. Econometria básica. 5. ed. Porto Alegre: Bookman, 2011.
HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba: Edição do Autor,
2016.
LIMA, M. L. C. et al. Análise espacial dos determinantes socioeconômicos dos homicídios no estado
de Pernambuco. Revista de Saúde Pública, São Paulo, v. 39, n. 2, p. 176-182, 2005. Disponível em:
https://www.scielosp.org/pdf/rsp/2005.v39n2/176-182/pt
(https://www.scielosp.org/pdf/rsp/2005.v39n2/176-182/pt). Acesso em: 20 fev. 2021.
MAIA, A. G. Econometria: conceitos e aplicações: aprenda os fundamentos da análise econométrica
e resolva problemas econômicos concretos. São Paulo: Saint Paul, 2017.
MOORE, D.; NOTZ, W.; FLIGNER, M. A estatística básica e sua prática. 7. ed. Rio de Janeiro: LTC,
2017.
WOOLDRIDGE, J. M. Introdução à econometria: uma abordagem moderna. 6. ed. São Paulo:
Cengage Learning, 2017.
https://www.youtube.com/watch?v=xRS-vdUUN1E
https://www.youtube.com/watch?v=xRS-vdUUN1E
https://www.youtube.com/watch?v=xRS-vdUUN1E
https://www.scielosp.org/pdf/rsp/2005.v39n2/176-182/pt
https://www.scielosp.org/pdf/rsp/2005.v39n2/176-182/pt