Introdução à Econometria (2) (2)

•

Vicente Riva Palacio

Eduardo Deus

31/03/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 177 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 177 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 177 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.889 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

INTRODUÇÃO À
ECONOMETRIA
PROF.
“A Faculdade Católica Paulista tem por missão exercer uma
ação integrada de suas atividades educacionais, visando à
geração, sistematização e disseminação do conhecimento,
para formar profissionais empreendedores que promovam
a transformação e o desenvolvimento social, econômico e
cultural da comunidade em que está inserida.
Missão da Faculdade Católica Paulista
Av. Cristo Rei, 305 - Banzato, CEP 17515-200 Marília - São Paulo.
www.uca.edu.br
Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma
sem autorização. Todos os gráficos, tabelas e elementos são creditados à autoria,
salvo quando indicada a referência, sendo de inteira responsabilidade da autoria a
emissão de conceitos.
Diretor Geral | Valdir Carrenho Junior
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 3
SUMÁRIO
AULA 01
AULA 02
AULA 03
AULA 04
AULA 05
AULA 06
AULA 07
AULA 08
AULA 09
AULA 10
AULA 11
AULA 12
AULA 13
AULA 14
AULA 15
05
17
29
41
52
63
74
83
93
103
113
132
142
153
163
REGRESSÃO LINEAR
INTRODUÇÃO A ANÁLISE DE SÉRIES
TEMPORAIS
DISTRIBUIÇÕES AMOSTRAIS
HIPÓTESES ESTATÍSTICAS PARAMÉTRICAS
MÉTODOS ESTATÍSTICOS E ECONOMÉTRICOS
DEFINIÇÃO E APLICABILIDADE DE PCA
(PRINCIPAL COMPONENT ANALYSIS
PESQUISA OPERACIONAL E ESTATÍSTICA
TEORIA DA PROBABILIDADE
APLICABILIDADE DAS VARIÁVEIS
TESTES DE HIPÓTESES E ERROS DE DECISÃO
MODELAGENS E ESTRUTURAS NÚMERICAS
ECONOMETRIA EM ESCALA DA ECONOMIA
ECONOMETRIA INDUSTRIAL
INTERPOLAÇÃO LINEAR
INTEGRAÇÃO NÚMERICA
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 4
INTRODUÇÃO
Com a finalidade de apresentar os fundamentos básicos da teoria e prática da
econometria, esta Unidade de Aprendizagem dará ênfase a alguns elementos da
metodologia econométrica, de forma descritiva, indo da teoria econômica ao modelo
experimental, permitindo uma visão geral e bastante simples de aplicações nesta área.
O economista faz declarações de natureza determinística, enquanto que o
econometrista, através da observação de experimentos, faz declarações de natureza
probabilística. O conjunto de todos os resultados possíveis de um experimento é
chamado de espaço amostral, enquanto que o conjunto das frequências relativas a
cada um dos eventos possíveis é chamado espaço de probabilidades. Um evento é
um subconjunto do espaço amostral.
O estudo da econometria pode ser visto como uma perspectiva quantitativa sobre
a Economia. Esse estudo consiste na aplicação da estatística e da matemática como
forma de dar suporte aos modelos teóricos existentes, os quais buscam explicar
fenômenos que ocorrem na Economia. Em linhas gerais, é possível dizer que a
econometria é utilizada na verificação das teorias econômicas por meios de modelos
específicos. Estudar econometria, permite, por meio de dados econômicos, avaliar a
relação entre duas variáveis distintas; também pode ser utilizada para fazer previsões
voltadas ao meio empresarial. Isso se torna relevante, pois o uso correto da econometria,
juntamente com a base de dados de uma empresa, pode ser de grande auxílio na
tomada de decisões e formulações estratégicas.
A econometria é um estudo que compreende o desenvolvimento de métodos
estatísticos, tendo como seu principal objetivo resolver problemas econômicos por
meio de cálculos matemáticos. De modo geral, é possível dizer que a econometria é
uma estatística aplicada à Economia, e que por meio dela muitas teorias econômicas
podem ser explicadas de forma quantitativa. No estudo da Economia existe uma
infinidade de possibilidades para a aplicação de métodos econométricos, entre eles é
possível citar: estimações de séries de relação econômicas, previsões econométricas
utilizando os mais diferentes tipos de dados, avaliações de políticas públicas utilizando
variáveis macroeconômicas, entre outras aplicações que podem também servir de
ferramenta na tomada de decisões no meio corporativo.
Bons estudos!
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 5
AULA 01
REGRESSÃO LINEAR
Olá Caro (a) Aluno (a), percebemos que a todo momento nos deparamos com
problemas nos quais conhecemos os dados por meios experimentais, e temos o
interesse em estudar como esses dados se relacionam, seja para permitir uma análise
quantitativa sobre o comportamento desses dados, seja para permitir e/ou prever
dados não analisados.
Por exemplo, se estudar mais resulta em notas melhores, de que modo, e em
que escala, o aumento no estudo impacta na nota? Para responder a essa e outras
perguntas, estudaremos como transformar um punhado de dados experimentais em
uma expressão que represente da melhor maneira possível os dados.
1.1 Regressão Linear e suas aplicabilidades
Em diversas áreas de pesquisa, como engenharia, saúde ou finanças, é comum a
necessidade de verificar se duas ou mais variáveis possuem alguma relação e, caso
exista, de que maneira ocorre essa relação.
Ao estudar a relação entre duas variáveis, é necessário identificar se ambas possuem
uma correlação entre si, seja ela linear ou não. Caso seja identificada a existência,
pode-se construir um modelo que conhecemos na matemática como uma função que
relacione as variáveis. A este processo damos o nome de regressão, e por meio dele é
possível estabelecer como uma determinada variável pode influenciar em uma outra.
Quando se deseja correlacionar duas variáveis ou mais, é importante descrever
como ocorre essa relação.
Também chamada de modelo, essa relação é importante uma vez que permite
análises diferentes daquelas baseadas em média e desvio-padrão. Por exemplo, ao
estudar a variação do comprimento (ou deformação) de uma mola com base na força
aplicada sobre ela, são aplicadas diferentes tensões sobre uma mola, e medidas as
deformações provocadas. Com isso, temos duas amostras: a das forças aplicadas e
a das deformações da mola.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 6
Sabemos que cada leitura realizada é composta de um par de variáveis, uma de cada
amostra. Então, se quiséssemos saber se existe uma relação entre as duas variáveis,
basta saber se existe uma correlação entre elas, e qual o modelo que as relaciona.
Ainda com base no exemplo citado, digamos que, durante os testes, foram obtidos
os resultados apresentados na Tabela 1.
Força (newtons) Deformação(milímetros)
0 0
1 3
5 12
10 20
Tabela 01: Dados Experimentais
Fonte: Autor (2022).
Para iniciar qualquer análise sobre a relação entre ambas as variáveis, é importante
identificar qual variável é independente (normalmente vemos representada como a
variável x na matemática), ou seja, aquela que não sofre a influência da outra, e qual é
dependente (comumente chamada de y), que esperamos que seja função da primeira.
Gráfico 01: Resultados
Fonte: Autor(2022).
Aparentemente, existe uma relação entre tensão e deformação. Para ter certeza
sobre a existência ou não dessa relação, deve-se calcular o coeficiente de correlação
de Pearson e provar que ele é diferente de zero por meio de um teste de hipótese. Para
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 7
relembrar como obter o coeficiente de Pearson e a avaliação sobre ele ser diferente
de zero, usaremos os dados do exemplo. Assim, o coeficiente de Pearson é dado por:
r = S xy Sxx . S yy Sxx =
∑(x - x)2 = n∑(x2 ) - (∑x)2 S yy =
∑(y - y)2 = n∑(y2 ) - (∑y)2 S xy =
∑(x - x)(y - y) =
n∑(x . y) - (∑x) . (∑y)
Tensão (em
newtons)
Deformação (em
milímetros)
_ (x - x )2 _ (y - y )2 (x -
_
)(y -
_
)
x y
0 0 16 76,5625 35
1 3 9 33,0625 17,25
5 12 1 10,5625 3,25
10 20 36 126,5625 67,5
Soma 62 246,75 123
Tabela 02: Dados calculados para determinar o coeficiente de correlação
Fonte: Autor (2022).
O coeficiente de correlação linear de Pearson é aplicado apenas quando a relação
entre as variáveis é linear. Um coeficiente de Pearson nulonão indica a inexistência
da relação (modelo), mas sim que ela não é linear.
Sxy = 123 = 0,994
E o teste de hipótese:
H0 : r = 0 (não existe correlação)
: r ≠ 0 (existe uma correlação)
r 0,994
t = = = 12,851
Aplicando significância de 5%, temos os valores limites como:
t0 = t(0,025;2) = t(0,025; 2) = 6,205
Como o valor calculado é maior que o tabelado, então a correlação não é nula. Isso
quer dizer que é possível que exista uma relação linear entre a tensão e a deformação
da mola.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 8
É possível também que o coeficiente de Pearson seja elevado, mesmo que o modelo
de regressão mais adequado não seja linear. Isso ocorre em dispersões monótonas,
onde a correlação entre as variáveis permanece com o mesmo sinal, porém apresentam
módulos diferentes.
Gráfico 02: Comportamento de uma função monótona
Fonte: Autor (2022).
Este é apenas um exemplo para que possamos compreender a importância dos
modelos de regressão. Para se ter uma ideia da importância do estudo da regressão,
em especial da regressão linear, na maioria das vezes que o termo “taxa de variação” é
empregado, ele é obtido por meio de um modelo de regressão linear. Saber a velocidade
(taxa de variação do espaço em função do tempo) ou a taxa de crescimento de uma
planta ao logo do ano parte da regressão.
Os modelos também servem para ajudar a estimar valores não conhecidos. Em nosso
exemplo, se quiséssemos saber qual a deformação da mola quando aplicado 8 N de
força, o modelo de regressão permitiria calculá-la, mesmo sem ter sido experimentada.
Como estamos supondo uma relação linear entre as variáveis envolvidas, diremos
que o modelo é descrito pela equação da reta, incluído um termo de erro ε, referente
à diferença entre os dados observados e os dados a serem calculados, que podem
ser descritos de duas formas:
Y = ax + b + ε ou Y = ε + a0 + a1 x
Onde a e b e an são coeficientes constantes do modelo a ser obtido. Sabendo
disso, calcularemos o modelo, ou a função, que relaciona nossa variável dependente
com a independente.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 9
Aqui, deve-se deixar claro a diferença entre regressão e correlação. Correlação é uma
medida descritiva que indica quão forte é a relação entre duas variáveis numéricas.
Regressão é a relação entre estas variáveis, a fim de que seja possível estimar valores
de uma variável em função da outra.
1.2 Método dos mínimos quadrados ordinários
O método dos mínimos quadrados ordinários (MQO) é uma técnica para ajustar a
melhor reta à amostra de observações dos pares (x, y), onde x é aquela variável que
adotamos como independente, e y, a variável dependente.
Matematicamente, o MMQO envolve obter um modelo capaz de possuir a menor
soma dos desvios quadrados entre os pontos observados e os calculados através
do modelo de regressão, não necessariamente passando pelos pontos. Para obter
um modelo de regressão linear correto, deve-se ter em mente que a relação deve
existir (comprovada pelo coeficiente de Pearson), e que o modelo deve ser constante
(os coeficientes do modelo são fixos), além dos erros não serem correlacionados a
nenhuma variável, com distribuição normal e média nula. Por esse motivo, é comum
a omissão do termo relacionar ao erro.
Para obter o modelo de regressão linear por meio do MMQO, consideraremos que
seja escrito como:
Y = ε + a0 + a1 x
Para obter os coeficientes, resolveremos o seguinte sistema de equações:
∑ y = a0n + a1 ∑ x
Com isso, temos:
n ∑ (xy) - ∑ x ∑ y
n ∑ (x2) - (∑ x)2
∑ (xy) = a0 ∑ x + a1 ∑ (x2)
a0 =
∑ y ∑ x
n - a1 n
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 10
Onde n é o número de pares observados. Para compreender a aplicação do MMQO,
retomaremos o problema da tensão e deformação mostrados na Tabela 1, com os
termos a serem calculados mostrados na Tabela 3.
Tensão (em newtons) x Deformação (em milímetros) y x² xy
0 0 0 0
1 3 1 3
5 12 25 60
10 20 100 200
Soma
16 35 126 263
Tabela 03: Cálculo dos termos necessários para o MMQO
Fonte: Autor (2022).
Assim temos:
a1 = 4(263) - (16)(35) =
1,984 .4(126) – 162 a =
35
= 0,814
Com isso, o modelo de regressão para nosso problema, usando o MMQO, vale:
y = 0,814 + 1,984x
Para mostrar o comportamento aleatório do erro, é comum mostrar o gráfico de
dispersão com o resíduo entre os dados observados e os calculados com o modelo
de regressão obtido.
No caso do nosso exemplo, mostra que não existe uma tendência de aumento ou
diminuição do erro ao longo da variação da variável independente. Caso isso ocorresse
(por exemplo, o erro aumentar com o aumento da variável, ou o contrário), seria um
indício de que o erro não é aleatório, apresentando alguma correlação com a variável
independente.
Quando se confronta um problema como esse, a primeira coisa a ser observada
é qual variável está sendo considerada independente (aquela que rege o problema) e
qual dependente (que é função da outra variável). Conforme a situação do exemplo,
a altura foi medida consoante o passar dos anos.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 11
Isto significa que as medições foram feitas, de modo mais claro, no ano 1, depois
no ano 2, ano 3, e assim por diante, e não quando a planta tinha altura a, depois
b, depois c. Com isso, podemos concluir que a variável dependente é a altura e a
independente é o ano. Depois, devemos avaliar a correlação entre as variáveis, através
do coeficiente de Pearson.
1.3 Adequação do modelo de regressão ajustado e Regressão Não Linear
Ao obter um modelo, devemos avaliar se este é adequado, representando de
forma coerente os dados analisados. Para tanto, avaliamos os coeficientes a fim de
comprovarmos que eles representam um valor significativo, e obter um indicador
dessa qualidade, chamado de coeficiente de determinação R2.
Para avaliar a adequação do modelo de regressão obtido, podemos iniciar
considerando o estudo da variância.
A variância é uma medida de dispersão entre os dados de uma amostra, podendo
indicar a regularidade de um conjunto de dados em função da média aritmética.
Veremos quais são e como calcular as variâncias envolvidas no estudo do modelo de
regressão. Como vimos, devemos primeiramente avaliar se as constantes do modelo
possuem um valor significativo ou não. Para isso, aplicaremos o teste de hipótese de
modo a confirmar se eles são ou não nulos. Para aplicar esses testes, devem supor
que as dispersões são normalmente distribuídas, independentes e de mesma variância.
O teste de significância do coeficiente é realizado por meio de um teste t de Student,
segundo o teste de hipótese:
H0 : coeficiente é nulo : coeficiente não é nulo
Para avaliar a hipótese, aplicamos a estatística:
At = σa
Onde a são os coeficientes do modelo de regressão linear. Segundo a literatura,
estes coeficientes podem ser chamados de a e b, a0 e a1 , ou β0 e β1 . O termo σ̂ a
é obtido pelas expressões, para os termos independentes (interceptos, ou aqueles que
não acompanham a variável independente) e lineares (que acompanham a variável
independente no modelo de regressão):
SQr/1
f = e/n - 2
244,04
= 2,7338/2 = 178,53
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 12
Consultando a tabela F de Fisher, temos (para α = 5%) que f(0, 05, 1, n - 2) = 18,513.
Como o valor calculado é maior, então o modelo representa o comportamento dos
pontos analisados. O coeficiente de determinação não pode ser utilizado como
único indicador de qualidade do modelo de regressão. Além disso, alguns cuidados
ao analisar este valor devem ser tomados, tais como:
• O R² não mede a inclinação da reta do modelo de regressão, não havendo
relação entre estes dois dados;
• Mesmo que seja um bom indicador, ele não necessariamente representa
fielmente a relação entre os dados e o modelo;
De modo mais exato, o coeficiente de determinação indica a escala dos resíduos
do modelo,sendo que quanto maior R², menor o resíduo do modelo.
Uma vez que obtivemos um modelo que represente o comportamento dos pontos
observados, e aplicadas as análises para garantir que o modelo seja satisfatório,
podemos interpretar cada um dos parâmetros.
O termo independente, também chamado de intercepto ou coefi ciente linear,
representa o ponto em que o modelo cruza com o eixo x = 0, ou seja, intercepta
o eixo y. Ele pode ser observado como um termo de deslocamento entre a função
linear do tipo y = ax. Por esse motivo, este coeficiente pode estar relacionado ao
erro médio das medições. Por exemplo, no problema apresentado envolvendo a
deformação em função da tensão aplicada, era de se esperar que, quando aplicada
a tensão nula, a deformação também fosse nula. Como não ocorre, é possível dizer
que o equipamento que realizou as medidas apresenta um erro de deslocamento
nas medidas realizadas.
Outra abordagem deste termo é a de identificar o valor inicial da variável a ser
monitorada no instante inicial do experimento (das leituras), já que este valor
descreve o valor do modelo quando x = 0.
Já o termo que multiplica a variável independente é chamado de coeficiente
angular da reta ou coeficiente da regressão. Este termo está relacionado à taxa de
variação da variável dependente em função da variação da variável independente,
descrevendo a relação entre a variação de cada uma delas, seja positiva (o
aumento de uma provoca aumento na outra) ou negativa (o aumento de uma
incorre na redução da outra). Isto indica que, ao aumentar uma unidade da variável
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 13
independente, o coeficiente angular representa a variação ocorrida na dependente
(no nosso exemplo, a variação de 1 N provoca 1,984 mm de deformação).
O coeficiente angular está comumente relacionado ao termo de taxa do modelo,
pois, conforme a intepretação dada ao termo.
Em muitos casos, as variáveis não possuem um comportamento linear. Por esse
motivo, aplicar o coeficiente de correlação de Pearson e um modelo de regressão
linear não fornece dados válidos.
Se calcularmos, por exemplo, o coeficiente de Pearson para um conjunto de
pontos que se assemelhe a uma equação do segundo grau nas proximidades de
seus valores de inflexão (valores de máximo ou mínimo), ele fornecerá um valor nulo
ou muito pequeno. Mas isto não significa que não há um modelo que represente o
comportamento dos pontos. Para esses casos, veremos o estudo dos modelos de
regressão não lineares mais comuns, e as técnicas para a obtenção dos modelos.
Os modelos de regressão não linear possuem aplicabilidade maior que os
modelos lineares. Lembre-se de que um modelo de regressão é uma função que
expressa a relação entre as variáveis dependente e independente. Conhecendo o
comportamento dos pontos a serem avaliados, é possível escolher um modelo que
melhor se adeque, restando apenas calcular o valor dos coeficientes envolvidos
em cada modelo.
Entre os modelos não lineares, o modelo polinomial é amplamente utilizado. A
escolha desse modelo se deve à possibilidade de adequar a ordem do polinômio
para que melhor represente o comportamento da amostra. Além disso, o cálculo dos
coeficientes de um modelo polinomial não depende de técnicas de linearização, além
de serem a base para o cálculo dos coeficientes de outros modelos de regressão.
Existem diferentes modelos não lineares, direcionados ao estudo do crescimento
da variável dependente ou da variação da relação (ou da taxa) entre as variáveis
dependente e independente. Estes modelos são de grande valia no estudo de
problemas cujo comportamento é conhecido, porém é necessário identificar os
parâmetros envolvidos. Para esses modelos, a obtenção dos coeficientes é feita
por meio da substituição de variáveis, que consiste em substituir um termo não
linear em um linear, e a linearização do modelo, que, por meio de manipulações
matemáticas, torna o modelo não linear em um modelo linear.
Os métodos para solução dos modelos não lineares mais comuns estão envolvidos
com métodos de interpolação, substituição de variáveis e a linearização.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 14
Os métodos de interpolação consistem em propor que os pontos se comportam
conforme um modelo polinomial. A ordem do polinômio pode ser definida pelo
número de pontos conhecidos ou de modo visual, por meio do diagrama de dispersão
e o conhecimento do comportamento gráfico dos polinômios.
Os métodos de interpolação mais comuns são o método de Lagrange e o método
dos mínimos quadrados. O método de Lagrange consiste em obter um polinômio que
obrigatoriamente passe por todos os pontos da amostra. Para isso, ele apresenta
um polinômio de ordem n - 1, onde n é o número de pontos.
Para avaliar a adequação de um modelo com relação a outro, é aplicado o
coeficiente de determinação R² ajustado. Ele representa a porcentagem da variação
que pode ser explicada pelo modelo em função dos preditores utilizados para
descrever o modelo. Um preditor é uma variável do modelo, envolvida na explicação
da variação da variável dependente. Por exemplo, no modelo de repressão linear,
temos apenas um preditor (p = 1), referente à variável x. Caso fosse um modelo
polinomial de segundo grau, teríamos dois preditores (p = 2), já que temos as
variáveis x e x². Isso quer dizer que, em caso de dois modelos com o mesmo
coeficiente de determinação, será mais adequado aplicar aquele com menor número
de preditores aplicados.
Ao interpretar os coeficientes obtidos para o modelo, é válido estudar o impacto
de cada termo no modelo obtido, e com isso identificar aqueles que realmente
afetam a descrição da variação das amostras. A maioria dos softwares estatísticos
fornece, ao aplicar alguma técnica de regressão, o p-valor relativo a cada preditor
aplicado no modelo. Em uma regressão, os valores-p baixos indicam termos
estatisticamente significativos. Então, elementos com p-valor alto podem indicar
que o preditor impacta pouco na variação da variável dependente.
Por exemplo, em um modelo de repressão polinomial de 3º grau, cujos preditores
são x, x2 e x3, foram obtidos os valores p-valor relativos a cada um deles.
No caso mostrado, é possível observar com base no p-valor que o preditor
x, mesmo possuindo um coeficiente elevado, possui pouca significância para o
modelo. Neste caso, seria possível que o modelo de regressão não apresentasse
o termo referente a esse preditor.
Por conta dessa análise baseada no p-valor, é comum que a realização da
regressão, na prática, inicie os estudos incluindo todos os preditores relacionadas
ao modelo e, em seguida, remova o termo com p-valor mais alto, obtendo um novo
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 15
modelo, até restarem apenas preditores significativos. De modo mais simples, é
obtido um modelo de regressão com todos os preditores, depois é analisada a
significância de cada um deles. Caso algum não possua significância, é construído
um novo modelo omitindo este termo, e novamente é repetido o processo de
análise e eliminação do preditor caso necessário, até que reste apenas preditores
significantes.
A análise de tendências é fortemente aplicada no estudo de séries temporais. A
distinção do estudo das séries temporais com relação aos modelos de regressão
citados anteriormente é de suma importância, já que no caso dos modelos de
regressão adotamos que os dados possuem um comportamento semelhante em
todo o intervalo de variáveis independente observado, enquanto as séries temporais
possuem intervalos delimitados de análise, relacionados, por exemplo, à sazonalidade
de alguma característica, como as estações do ano ou ciclos comemorativos.
Por esse motivo, ao avaliar as séries temporais, principalmente focadas para a
previsão de resultados, busca-se normalizar (ou estacionar) o comportamento das
leituras, de modo que possam ser avaliadas sob amesma abordagem.
Uma série temporal é um conjunto de leituras, ou observações, que têm como
variável independente o tempo. Isto implica dizer que, para cada intervalo de tempo,
existe um conjunto de dados, com características únicas dentro de cada intervalo.
Um detalhe importante na definição das séries temporais é que a ordem na
qual os dados são obtidos é importante para a descrição do problema. Por isso,
os dados possuem elevada autocorrelação.
O estudo dessas séries é de grande valia no mercado financeiro e em gestão,
pois permite identificar o comportamento de uma variável com base em períodos,
e não só na variável independente. É comum analisar uma série temporal através
da sua decomposição nos componentes de tendência, ciclo e sazonalidade.
Diferente dos modelos de regressão, as séries temporais apresentam uma
autocorrelação entre os dados amostrados, o que significa que os valores lidos
da variável dependente não são unicamente relacionados à variável independente,
mas também apresentam uma relação entre si.
Quando aplicadas à manutenção preditiva e preventiva, por exemplo, as séries
temporais permitem prever se aquela variação momentânea do valor monitorado
é consequência de algo irregular, ou apenas uma variação prevista, por exemplo,
de acordo com a hora do dia.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 16
ISTO ESTÁ NA REDE
Link: https://www.youtube.com/watch?v=qft6BI7KUwg
O MMQ já foi apresentado nas técnicas de regressão linear e não linear. Lembre-
se de que o método pode ser aplicado na obtenção de modelos de tendência
logaritmos ou exponencial, devendo aplicar as técnicas de linearização já
apresentadas. Então, daremos destaque ao modelo de média móvel.
ANOTE ISSO
A tendência é o estudo do comportamento da série temporal quando acompanhada
durante um longo período, normalmente definido como “longo prazo”. A tendência
indica de que modo a série varia, se mantém constante, aumenta o valor, diminui e
de que modo ocorre a variação (se é linear, polinomial, logarítmica, entre outras). De
modo geral, a tendência é o padrão de crescimento ou decaimento dos valores ao
longo de tempo. O ciclo é caracterizado pelas variações nos valores das leituras ao
longo da tendência, em que é possível definir a repetição de um comportamento.
A sazonalidade é definida pelo comportamento que a amostra tem dentro de um
período temporal. Isto implica dizer que a sazonalidade é a análise dos padrões de
variação que ocorrem dentro de um intervalo de tempo, que podem se repetir em
períodos de tempo. Dentro da análise da sazonalidade, é possível que ela ocorra em
ciclos de comportamento conhecidos ou se comporte de modo completamente
aleatório.
https://www.youtube.com/watch?v=qft6BI7KUwg
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 17
AULA 02
INTRODUÇÃO A ANÁLISE
DE SÉRIES TEMPORAIS
Olá Caro (a) Aluno (a), o desenvolvimento de séries históricas pode ser realizado
conforme modelos estabelecidos. A maioria delas se baseia na identificação dos
parâmetros de sazonalidade, a fim de obter duas séries: uma de curto prazo, identificando
o comportamento dentro de um ciclo, e outra de longo prazo, buscando identificar a
tendência.
2.1 Séries Temporais
Existem diferentes modelos a serem aplicados para calcular uma série temporal.
Os modelos mais comuns são:
• Univariados, que se baseiam em uma única variável no estudo da série histórica;
• Função de transferência, focados em avaliar a relação entre mais de uma série
histórica; e
• Multivariados, que permitem obter um modelo temporal que envolva mais de
uma série.
É comum para cada tipo de análise um modelo temporal dedicado. Existem, por
exemplo, modelos para estimar custo financeiro, consumo de energia e variação do
custo de ações no mercado financeiro.
A partir de estudos dos modelos univariados, existem os modelos autor regressivos
integrados de médias móveis, dentre eles o modelo ARIMA. Esses modelos são
ajustados com base em dados das séries temporais e para compreender como os
dados (ou para estimar quais dados) serão os pontos futuros da série.
Os modelos de previsão ARIMA (também conhecidos como Box-Jenkins) são
baseados em princípios estatísticos, e são capazes de modelar uma ampla gama de
séries temporais.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 18
O modelo temporal ARIMA será utilizado em casos nos quais os dados apresentam
estacionariedade – comportamento que se mantém semelhante ao longo do tempo.
Além disso, o número de observações utilizadas deve ser maior que 40.
O modelo de regressão ARIMA é uma série de equações descritas em função dos
valores anteriores à leitura, e possui um conjunto de termo autorregressivo (modelo
AR), um termo de média móvel (modelo MA) e um termo integrado (diferenciação)
ao modelo (modelo I), que tem por intuito fazer com que o modelo se ajuste aos
dados da melhor maneira. O termo “diferenciação” se refere às subtrações (diferenças)
a serem aplicadas para que se possa “sobrepor” diferentes ciclos, definidos pelos
comportamentos sazonais.
Figura 01: Controle dos Dados
Fonte: https://cdn.pixabay.com/photo/2016/06/13/15/07/presentation-1454403__340.png
O modelo ARIMA é comumente referenciado de modo ARIMA (p, d, q), nos quais
consideramos que:
• p é o número de termos autorregressivos, referindo-se aos números defasados
(um atraso na leitura);
• d é o número de diferenças não sazonais necessárias para a estacionariedade
(número de padrões presentes na série);
• q é o número de erros de previsão atrasados na equação de previsão, referente
à ordem do modelo de média móvel.
Vale destacar que os modelos ARIMA envolvem conceitos relacionados a filtros
de média móvel, cujos parâmetros são obtidos de forma empírica, e que em muitos
https://cdn.pixabay.com/photo/2016/06/13/15/07/presentation-1454403__340.png
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 19
casos devem ser comparados para determinar qual modelo é mais indicado. Por esse
motivo, é recomendado o uso de softwares dedicados à obtenção deste tipo de modelo.
O modelo ARIMA possui algumas simplificações, conforme a ausência de algum dos
termos, como o modelo ARMA, com o termo d nulo (não existem períodos sazonais na
série temporal). Assim, ele não inclui os termos de diferenciação e, por esse motivo, o
modelo ARMA contém um modelo AR(p) (autorregressivo) e um modelo MA(q) (média
móvel) descritos como:
AR(p) → y(t) = a(1)y(t - 1) + a(2)y(t - 2) + ⋯ + a(p)y(t - p)
MA(p) → y(t) = e(t) + c(1)e(t - 1) + c(2)e(t - 2) + ⋯ + c(q)e(t - q)
Onde y(n) é o valor de saída da série ajustada, e(n) são os erros de previsão, a(n)
os termos referentes ao atraso ou lag, e c(n) são os pesos aplicados à média móvel.
O desenvolvimento de séries históricas pode ser realizado conforme modelos
estabelecidos. A maioria delas se baseia na identificação dos parâmetros de sazonalidade,
a fim de obter duas séries: uma de curto prazo, identificando o comportamento dentro
de um ciclo, e outra de longo prazo, buscando identificar a tendência.
Como a tendência é o componente mais importante ao definir uma série histórica,
focaremos nos métodos usados para identificá-la. Lembre-se de que a tendência
representa o comportamento da série temporal para um longo período de tempo.
Calculada a tendência, é possível inclusive removê-la dos dados temporais para
auxiliar na identificação da sazonalidade e dos ciclos.
Para obter a tendência, é possível aplicar diversas técnicas, entre elas o método
dos mínimos quadrados e a média móvel. Entre as técnicas de média móvel, temos
o modelo simples e o de ajuste logaritmo.
O MMQ já foi apresentado nas técnicas de regressão linear e não linear. Lembre-se
de que o método pode ser aplicado na obtenção de modelos de tendência logaritmos
ou exponencial, devendo aplicar as técnicas de linearização já apresentadas. Então,
daremos destaque ao modelo de média móvel.
Os conceitosaqui apresentados são a base para os modelos que utilizam média
móvel, como, por exemplo, o ARIMA. Para calcular a tendência com base na média
móvel, devemos escolher uma faixa de valores contendo um intervalo de valores (por
exemplo, as leituras de 1 a 5). Depois, é calculado o valor médio dos passos de tempo
e da variável monitorada. Feito isto, é dado um incremento no intervalo de leitura
(agora de 2 a 6), e assim é feito o mesmo processo das médias.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 20
Observe que é mais simples de identificar o comportamento da série temporal,
permitindo identificar os ciclos dos valores. Uma vez que a média móvel suaviza
o comportamento da série, algumas técnicas são aplicadas de modo a acelerar a
percepção de variações bruscas nos dados. Uma delas é o duplo crossover, em que
se analisa a relação entre uma média móvel, que aplica um intervalo de tempo grande,
e uma com intervalo pequeno.
É realizada comparando justamente como uma média mais próxima do momento
real se comporta com relação à tendência de longo prazo. Essa análise é necessária
pois, quanto maior o número de pontos usados na média móvel, maior o atraso entre
um acontecimento e sua influência na tendência da série. Retomando o modelo de
regressão obtido pelo MMQ, será possível estimar (ou prever) valores futuros com
base nas séries temporais. Para isso, basta substituir o período temporal de interesse
no modelo obtido – isso também é conhecido como extrapolação do modelo. Por
exemplo o modelo polinomial de quarto grau vale:
y = -0,026t4 + 0,2564t3 - 0,7894t2 + 1,2713t + 14,894
Caso seja de interesse conhecer o valor no instante t = 8, basta substituir o valor
no modelo, ou seja:
y = 0,026(6)4 - 0,2564(6)3 + 0,7894(6)2 - 1,2713(6) - 14,894 = 18,802
Para obtenção de modelos que permitem descrever, por meio de uma função (ou
modelo), o comportamento de um conjunto de leituras processo chamado regressão.
Para definir um modelo de regressão, deve-se destacar qual é a variável dependente e
a independente, por meio dos modelos de regressão lineares, nos quais as variáveis
independentes e dependentes se relacionam por meio de uma equação de primeiro
grau (uma reta), ou não lineares, quando as leituras podem possuir um comportamento
polinomial de ordem maior que dois, ou exponencial, logarítmica, por exemplo.
No caso dos modelos lineares, o coeficiente angular define a relação entre a taxa
de variação das variáveis independente e dependente.
Para calcular o modelo de regressão, independentemente do tipo de comportamento,
o método dos mínimos quadrados ordinários (MMQO) é uma escolha para determinar
os coeficientes do modelo. No caso dos modelos de regressão linear, e os polinomiais,
o método MQO pode ser aplicado diretamente. Mas em outros casos, deve-se aplicar
a linearização ou a substituição de variáveis para obter o modelo.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 21
É importante destacar que as amostras devem conter preferencialmente um valor
grande de leituras. Caso contrário, o polinômio obtido na regressão se aproxima do
modelo de regressão exato, em que o polinômio obtido passa por todos os pontos,
resultando em um coeficiente de determinação unitário. Para minimizar esse problema,
é de suma importância que o número de elementos amostrados deva ser o maior
possível, equilibrando o esforço da aquisição das amostras com a quantidade de
informações necessárias.
Os modelos podem ser qualificados conforme o coeficiente de determinação R²,
que relaciona as variações ocorridas na amostra original e aquela calculada por
meio do modelo obtido. Quanto maior esse coeficiente, melhor o modelo explica o
comportamento das variáveis.
Deve-se sempre deixar bem claro que o coeficiente de determinação, assim como
o de correlação, apenas qualifica a variação de uma variação de uma variável com
relação à outra, mas nunca quantificam. Por isso, ao avaliar a relação entre o tempo
de estudo e as notas obtidas, deve-se sempre avaliar os coeficientes presentes no
modelo de regressão obtido, e não os coeficientes de determinação ou de correlação.
As séries temporais, e os conceitos sobre o estudo e análise desse tipo de dado.
Nesse tipo de dado é importante avaliar os dados na ordem em que foram avaliados.
Ao estudar esse tipo de dado, temos que avaliar a tendência, o ciclo e a sazonalidade
dos dados. Essa distinção é importante, pois os dados temporais podem apresentar
padrões de repetição ao longo da amostra, enquanto podem apresentar uma tendência
nos dados a cada ciclo. Por exemplo, ao se estudar os dados em um longo período,
como o PIB de um país ao longo de um século, é mais importante compreender sobre
a tendência dos dados, e não sobre o comportamento dentro de cada ciclo, tendo em
vista que a tendência representa um dado mais real, enquanto a sazonalidade mostra
o comportamento “momentâneo”.
A todo momento nos deparamos com problemas nos quais devemos estimar valores
dos parâmetros relacionados à população, como a média, a partir de dados amostrais.
Para isso, existem estatísticas próprias, chamadas de estimadores, que permitem que
essa estimativa seja a mais correta possível.
Para tanto, o valor da população pode ser definido como um único valor ou um
intervalo de possíveis valores.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 22
As avaliações envolvendo esses estimadores são o objeto de estudo da Estatística
Inferencial. Assim, lançamos a seguinte pergunta: por que a compreensão sobre os
estimadores é tão importante em todas as áreas que envolvem pesquisa?
2.2 Estimadores de Econometria
Quando estudamos qualquer parâmetro de uma população, como a média, o desvio-
padrão ou a proporção, é possível que se apliquem todos os indivíduos na pesquisa.
Nesse caso, teremos realizado um censo, e temos 100% de certeza sobre os valores
da população.
Porém, quando a população é grande, ou o tempo disponível para a análise dos
dados é pequeno, o desenvolvimento de um censo se torna impraticável. Além disso,
em muitos casos, a avaliação da população é impossível. Por exemplo, se o objeto de
estudo for a segurança de um carro durante uma colisão, aplicar um censo significaria
realizar o teste de colisão em todos os carros.
Para esses casos, é necessário aplicar a amostragem dos elementos dentro da
população.
Uma amostra é, por definição, um subconjunto formado por apenas alguns elementos
selecionados da população e, a partir dos dados fornecidos por eles, são previstos os
valores da população. Porém, isso gera um problema: não podemos mais ter certeza
sobre a população.
A inferência estatística surge, então, como solução para esse problema. Pode-se
defini-la como um conjunto de ferramentas que permite estimar características da
população com base em dados obtidos de uma amostra. Por meio dessas ferramentas,
também é possível responder hipóteses referentes aos parâmetros populacionais.
Após a apresentação de diferentes ferramentas para estimativa de valores médios
em populações a partir de amostras, deve-se ter o cuidado de aplicar a estatística
correta. Perceba que, além de cálculos diferentes, distribuições diferentes são aplicadas.
A escolha deve ser motivada pela necessidade de estimar a média ou a diferença, e
se há algum conhecimento sobre a variância (ou desvio-padrão) populacional.
Após a apresentação de diferentes ferramentas para estimativa de valores médios
correta. Perceba que, além de cálculos diferentes, distribuições diferentes são aplicadas.
A escolha deve ser motivada pela necessidade de estimar a média ou a diferente.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 23
Figura 02: Dados e Parâmetros
Fonte: https://cdn.pixabay.com/photo/2019/09/09/08/23/internet-4463031__340.jpg
Como nem sempre é possível calcular os parâmetros populacionais utilizando
todos os indivíduos da população, é necessário separar uma amostrae, a partir
das informações obtidas por meio dela, estimar as características da população.
Para isso, devemos encontrar um estimador; este é definido como o conjunto de
estatísticas (expressões) aplicadas na amostra de modo a estimar um parâmetro
populacional. Essas estatísticas podem fornecer um único valor ou uma faixa de
valores possíveis.
Por exemplo, vamos estimar a idade média dos alunos que entram em instituições
de ensino superior. Como a quantidade de indivíduos é alta, e nem sempre as
informações sobre eles são de fácil acesso, podemos realizar a amostragem dos
alunos e, a partir dela, calcular a idade média de todos os alunos. Se essa análise
resultar em um único valor, a estatística aplicada é considerada, então, um estimador
pontual. Agora, se a estatística aplicada definir um intervalo de confiança para o
valor médio das idades, teremos um estimador intervalar que, de modo simples,
define uma faixa de possíveis valores para a idade média populacional.
É importante distinguir os termos «estimador» e «estimativa». Um estimador
é o conjunto de cálculos, ou seja, o método de determinação do parâmetro. Já a
estimativa é o valor numérico obtido por meio do estimador. Ou seja, existe um
estimador (a expressão para o cálculo de média, por exemplo) para que, com base
na amostra, se obtenha a estimativa.
Os estimadores pontuais são normalmente referenciados como os parâmetros
amostrais: média amostral x desvio-padrão amostral s; variância amostral s²; e
proporção amostral p̂. Deve-se ter em mente que, mesmo possuindo o mesmo
https://cdn.pixabay.com/photo/2019/09/09/08/23/internet-4463031__340.jpg
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 24
nome das estatísticas aplicadas à população, as expressões aplicadas podem ser
diferentes.
Os estimadores são aplicados quando se deseja determinar um parâmetro
populacional com base em uma amostra. Eles são de grande valia em diferentes
áreas, pois a avaliação da população pode ser inviável, tanto pelos custos envolvidos,
tempo limitado, ou mesmo pela impossibilidade da análise da população toda.
Por exemplo, em pesquisas eleitorais, não é possível realizar pesquisas de intenção
de voto semanalmente com todo os eleitores. Nesse caso, uma amostragem é
feita, na qual apenas um pequeno grupo de eleitores é entrevistado e, com base
em um estimador, pode-se determinar a proporção dos eleitores que desejam
votar no candidato A ou B. Além disso, a margem de erro da pesquisa, sempre
apresentada junto com o resultado, é também obtida por meio dos estimadores.
Perceba que, ao término das eleições, essa margem de erro deixa de existir, uma
vez que o resultado da eleição é o parâmetro da população.
Da mesma forma, se desejamos estudar sobre os índices de pobreza ao redor
do mundo, é inviável percorrê-lo perguntando a todos os habitantes sobre seus
rendimentos. Assim, selecionam-se algumas regiões e, com base nos valores obtidos
nelas, deduz-se que o restante do mundo possui as mesmas características.
Agora, imagine uma situação em que se deseja determinar as taxas de um
determinado composto no sangue. Qualquer análise envolvendo a população
implicaria na avaliação de todo o sangue da pessoa, o que é inviável. Por isso, é
feita uma coleta, que é basicamente uma amostragem e, com base nas informações
obtidas nessa amostra, são estimadas as condições do paciente. Esse é, entre
vários motivos, o responsável pelos resultados apresentarem intervalos de valores
considerados saudáveis.
Esses são apenas alguns exemplos da aplicação dos estimadores. Deve-se ter
clareza de que os estimadores são aplicados quando desejamos expressar um valor
populacional com base em uma amostra. Por esse motivo, o valor numérico obtido
por meio de um estimador é a melhor estimativa para os valores da população.
Aqui é importante destacar que, mesmo que a definição sobre estimador esteja
relacionada à estatística, deve-se ter em mente que seu resultado é uma medida,
um valor. Então, um sistema de medição, como, por exemplo, uma régua, é um
estimador, já que fornece um valor referente à entidade em estudo.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 25
2.3 Propriedades
Ao avaliar um estimador, deve-se ter em mente que ele representa um conjunto
de variáveis aleatórias. Por esse motivo, seu valor depende das características da
amostra selecionada.
Ao avaliar a qualidade de um estimador, um parâmetro importante é o erro quadrático
médio (EQM). Ele é a função da variância dos dados em torno da estimativa e a
distância para o valor exato. Segue a expressão:
EQM(T)=(T-θ)²=var(T)-(viés(T))²
em que o termo T se refere ao valor do estimador avaliado (por exemplo, a média)
e θ é o valor exato (obtido da população) do parâmetro estudado.
Podemos, assim, identificar três parâmetros importantes na análise dos estimadores:
o estimador pontual, que se refere ao valor do estimador T avaliado; a variância (o
termo var(t)), relativa aos indivíduos em torno da estimativa; e o termo viés (parâmetro
viés(t)) relacionado à distância entre a estimativa amostral e o valor exato do parâmetro
avaliado.
Além disso, antes de compreender as propriedades dos estimadores, devemos
distinguir duas probabilidades envolvidas nas análises. A primeira probabilidade está
envolvida na seleção dos indivíduos da amostra. E a segunda é a probabilidade de
escolha de um valor dentro da amostra.
Ao propor um estimador, algumas propriedades devem ser respeitadas. Um estimador
que não respeite essas propriedades não pode ser considerado um bom estimador
e, por isso, pode não representar corretamente os valores populacionais. São quatro
as propriedades: suficiência; não viés (ou não tendencioso); consistência; e eficiência.
Figura 03: Propriedades
Fonte: https://cdn.pixabay.com/photo/2018/06/23/09/33/businessman-3492380__340.jpg
https://cdn.pixabay.com/photo/2018/06/23/09/33/businessman-3492380__340.jpg
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 26
Um estimador é dito não viesado, ou não tendencioso, quando a estimativa calculada
é igual à esperança do próprio parâmetro, ou o erro entre a estimativa e o valor exato
(da população) é nulo. Isso ocorre quando a probabilidade de sorteio de cada elemento
é igual, com a distribuição de probabilidade dos valores centrada na estimativa. Caso
isso não ocorra, é dito que a amostra é polarizada, e o resultado obtido pela amostra
pode tender a um valor diferente do valor exato do parâmetro.
O critério de suficiência informa que a amostra selecionada possui tamanho suficiente
para expressar de forma clara e completa o comportamento da população. Desse
modo, a adição de qualquer outro indivíduo na amostra não representa melhoria nos
resultados. Quando um estimador se torna suficiente, o valor obtido pelo estimador
não é mais função do tamanho da amostra, uma vez que ele se torna constante.
Um estimador possui consistência; essa propriedade se refere à relação entre o
tamanho da amostra e a aproximação entre o valor estimado e o valor exato, o que
é importante pois a maioria dos estimadores dependem do tamanho da amostra. A
consistência informa que o aumento do tamanho da amostra implica na convergência
das estimativas para o valor populacional. Se o estimador é bom, isso implica em
dizer que o valor do parâmetro tende ao valor exato, com o valor do EQM diminuindo.
O critério da eficiência define que, ao comparar dois estimadores, o melhor será
aquele que apresentar menor erro quadrático médio (EQM). Quanto menor o EQM
dentro da amostra, melhor a estimativa. Caso dois estimadores possuam o mesmo
viés, a eficiência estará relacionada à dispersão (variância) dos elementos em torno
do estimador.
Os critérios de eficiência e de tendência dos estimadores também podem ser
relacionados, respectivamente, à precisão e à acurácia dos valores. A acurácia define
quão próximo a estimativa obtida pelo estimador está do valor exato. Então,um
estimador não tendencioso possui acurácia alta. Do mesmo modo, um estimador
não tendencioso eficiente é aquele que possui menor dispersão nos dados. Assim,
pode-se dizer que está relacionado à precisão das informações, ou seja, quanto mais
eficiente, mais preciso é o estimador.
Os critérios de eficiência e de tendência dos estimadores também podem ser
relacionados, respectivamente, à precisão e à acurácia dos valores. A acurácia define
estimador não tendencioso possui acurácia alta. Do mesmo modo, um estimador
não tendencioso eficiente é aquele que possui menor dispersão nos dados. Assim,
pode-se dizer que está relacionado à precisão das informações, ou seja, quanto mais
eficiente, mais preciso é o estimador.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 27
Como dito, os estimadores são funções que permitem estimar o valor populacional a
partir dos dados amostrais. Existem diversos métodos para se obter estes estimadores,
entre eles o método dos momentos e o método de máxima verossimilhança, que
permitem identificar o melhor estimador pontual para cada parâmetro. O método dos
momentos define que cada parâmetro avaliado possui um momento de ordem k. Um
momento é a média dos valores da amostra elevados a k, ou seja:
Ek = 1 n ∑ n i = 1 X k i
O método consiste em igualar o k-ésimo momento, calculado por meio da expressão
Ek ao k-ésimo parâmetro a ser estimado da população a partir de um conjunto de
expressões, de modo a representar o parâmetro populacional com base no momento
amostral. Esse método necessita do desenvolvimento de uma função específica para
cada parâmetro relacionado à população. Por exemplo, para obter a média, aplicamos
k = 1. Assim: x = 1 n ∑ n i = 1 Xi
O método da máxima verossimilhança afirma o estimador pontual; é um valor que
maximiza a probabilidade de se obter uma distribuição cujo valor possui maior chance
de estar correto. A partir do conhecimento prévio sobre o comportamento da função
de probabilidade da amostra f(x) é possível obter a expressão para o estimador, por
meio do produtório das probabilidades, em que N é o tamanho da população de cada
elemento da amostra.
ISTO ESTÁ NA REDE
Link: https://www.youtube.com/watch?v=KF9IrsAlc_E
Desenvolvido o produtório, é aplicado o logaritmo natural na função L(x). Depois,
calculamos a derivada e igualamos a zero. Esse procedimento é realizado quando
se busca a função que maximize a probabilidade da distribuição. Por exemplo, caso
a probabilidade da variável aleatória x seja a normal N(μ,σ²), em que μ e σ² são,
respectivamente, a média e a variância populacional, poderemos obter o estimador
de máxima verossimilhança.
https://www.youtube.com/watch?v=KF9IrsAlc_E
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 28
ANOTE ISSO
Para a obtenção do estimador de máxima verossimilhança, foi aplicado o conceito
de otimização que destaca o maior valor (ou menor) de uma função quando a
derivada dela é nula. Mas esse tipo de otimização, na maioria dos casos, é feito
por meios numéricos, aplicando ferramentas computacionais, já que, dependendo
da função de probabilidade, pode não ser possível encontrar a derivada por meios
analíticos.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 29
AULA 03
DISTRIBUIÇÕES AMOSTRAIS
Olá Caro (a) Aluno (a), ao se estudar a probabilidade de um valor ser selecionado
em uma amostra, é avaliada uma distribuição amostral. Essas distribuições são de
grande importância na Inferência Estatística, pois permitem estimar a confiança das
estimativas realizadas.
Uma distribuição amostral é definida como uma distribuição de probabilidades
de um parâmetro estatístico obtido de uma amostra aleatória. O comportamento
dessa distribuição depende da distribuição de probabilidade da população original,
do tamanho da amostra e do tipo de amostragem realizada.
Para obter uma distribuição amostral, é definido o tamanho da amostra a ser avaliada
e é calculada a estimativa para todas as amostras possíveis com o tamanho definido.
Construindo um histograma com os valores obtidos, podemos observar a distribuição
amostral daquela população para um determinado tamanho de amostra.
3.1 Variáveis Aleatórias
Por definição, uma variável aleatória é uma função que define o valor numérico de
uma variável quantitativa, cujo valor é definido de forma aleatória. Por exemplo, em
um sorteio, o elemento é escolhido “na sorte”, sem que haja um fator que afete as
chances da variável.
Então, a amostragem a ser aplicada para a análise deverá ser realizada de forma
aleatória. Uma variável aleatória pode ser contínua, aquela cujo intervalo de valores
admitidos é ilimitado, ou discreta, que pode assumir uma quantidade limitada de
valores. Por exemplo, a variável aleatória peso de uma pessoa é uma variável aleatória
contínua, pois é capaz de assumir qualquer valor. Agora, as faces de um dado definem
uma variável discreta, já que pode assumir apenas seis valores diferentes. Existem dois
parâmetros a serem avaliados em uma variável aleatória: a esperança e a variância. A
esperança, ou média, é um valor numérico aplicado como resumo do comportamento
da variável aleatória.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 30
É obtida pela somatória do valor da variável e a probabilidade relacionada ao valor:
E(x) = n i = 1 xi pi ∑
• A variância é o grau de dispersão dos valores da variável em torno de sua média
ou esperança: E(x2 e ) = n i = 1 xi 2 pi
Ao estudar a distribuição amostral em que o parâmetro de análise é a média, o
histograma formado pelos resultados obtidos em todas as amostras possíveis se
comporta como o exemplo da Figura abaixo:
Figura 04: Distribuição Amostral
Fonte: Autor (2022).
Observe que, quanto maior for o número de elementos da amostra, mais o histograma
se assemelha com a distribuição normal destacada na curva em laranja. Isso significa
que quanto maior for o número de elementos da amostra, mais próximo o valor estimado
é do valor exato, já que cada vez mais amostras fornecem esse valor.
O limite dessa análise seria uma amostra com todos os elementos da população
que resultaria em uma única barra coincidindo com o valor exato da população.
Quando se aumenta o grau de confiança de um estimador, maiores são as chances
de o intervalo de confiança obtido conter o valor exato, já que a faixa de valores
possíveis é maior. Dessa forma, o controle do tamanho do erro que rejeita um valor
verdadeiro por este meio deve ser evitado, uma vez que é criada uma faixa de valores
muito grande.
Considere, por exemplo, uma distribuição amostral em que
E(x) = μ e var(x) = σ².
A aproximação da amostra com relação a uma distribuição normal depende
do tamanho da amostra e da distribuição da população original. Em muitos
casos, a aproximação é válida se o número de elementos for maior ou igual a 30,
independentemente da distribuição da população originária.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 31
Se a amostra possuir um comportamento normal, a probabilidade da variável aleatória
poderá ser descrita pela distribuição N(μ;σ²) e os parâmetros amostrais podem ser
estimados pelas expressões:
s2 e = = n n i = 1 i = 1 (xi - x) ∑ ∑ 2 1 σ2 1 n n n-1 xi x = μ =
Por isso, uma distribuição amostral de médias segue três propriedades matemáticas:
• A média da distribuição amostral é igual à média da população original;
• O desvio-padrão da distribuição amostral é igual a σ ⁄√n;
• A forma da distribuição é aproximadamente igual à da distribuição normal. Como
a distribuição é normal, podemos normalizar seus valores conforme a distribuição
com média zero e variância unitária, ou seja: =N(0;1) n
Uma das aplicações mais comuns do teorema do limite central é o cálculo da
probabilidade para definir se um determinado evento ocorre em uma distribuição
normal ou quase normal.
A probabilidade de um evento ocorrer é obtida por meio da integral da funçãode
probabilidade. Como normalmente as intergrais são de difícil solução, é comum que
os valores sejam apresentados por meio de tabelas. No caso da distribuição normal,
retira-se a probabilidade apresentada nas tabelas da integral, compreendida no intervalo
(-∞;z). Por exemplo, a probabilidade de uma variável aleatória possuir valor menor
que x = 3 em uma amostra N(4;10) composta de 50 elementos, é obtida por meio da
normalização dos valores para a variável z:
P(x < 3) = P(z < -2,23) = 0,0128 = 1,28%
Outra aplicação do teorema do limite central é nas distribuições de probabilidade
no estudo de intervalos de confiança e em testes de hipóteses. Os intervalos de
confiança são estimadores de parâmetros que fornecem uma faixa de valores. Podem,
então, representar o valor populacional desse parâmetro. Já os testes de hipótese são
estatísticas aplicadas para avaliar uma suposição com relação à população a partir
dos dados amostrais.
Como o teorema destaca que a maior proporção dos valores é disposta nas
proximidades do valor exato, então, ao observar qualquer distribuição amostral,
podemos dizer que a condição de igualdade entre os valores amostral e populacional
está localizada na região próxima ao pico da distribuição. Por exemplo, ao estudar a
distribuição t de Student, que possui o formato mostrado.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 32
Quando avaliamos os parâmetros estatísticos de uma população através de uma
amostra, os valores obtidos não são exatos, contendo um erro amostral também
chamado de variabilidade amostral. De modo geral, o erro amostral é a diferença entre
os valores amostrais e os valores exatos oriundos da população.
Relembrando as distribuições amostrais, sabemos que duas amostras diferentes,
retiradas da mesma população, podem resultar em estimativas erradas. Isso ocorre
porque a amostra não contém todos os integrantes da população. Então, é possível
que a amostragem não contemple elementos que afetam de forma signifi cativa as
estimativas.
Além dos erros amostrais, consequência do processo de amostragem, existem outras
fontes de erro, originadas, por exemplo, da escolha de uma função de probabilidade
inadequada, ou erros aleatórios não relacionados diretamente à amostragem, como
a formulação incorreta de questionários. Em uma pesquisa eleitoral, a amostra pode
ser viesada caso ela ocorra apenas em uma região, já que tal região pode privilegiar
um candidato em relação a outro.
O erro amostral pode ser controlado de diferentes formas, entre elas:
• Aumento da amostra: pelo princípio da consistência, quanto maior o tamanho da
amostra, mais próximo da população a amostra é e, consequentemente, menor
o EQM. Um modo de minimizar esse detalhe é o cálculo da menor dimensão
possível da amostra a partir da determinação da maior margem de erro percentual
E0 do estimador, da confiança desejada α, e do desvio-padrão σ obtido de uma
amostra inicial com no mínimo 30 elementos:
• Substituição dos estimadores: é possível aplicar um estimador baseado em
uma distribuição diferente, que resulte em uma variação menor;
• Aumentar o grau de confiança do estimador: ao obter estimadores intervalares,
aumentar a confiança do estimador resulta em uma faixa maior de valores
considerados verdadeiros.
Exemplo:
Se quisermos determinar o tamanho de uma amostra que possua uma variação
nos valores de 2%, a ser retirada de uma população de 1.000 indivíduos, aplicaremos
os cálculos:
n = 0,02 = 2.500 2 1 N 1.000 2.500 714,28 =
715 N + n0 1.000 + 2.500 n0 =
e n0
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 33
Nesse caso, a amostra deverá possuir 715 indivíduos.
Como já foi dito, os estimadores permitem estimar o valor populacional de um
parâmetro com base em dados amostrais. Além disso, vimos que existem os estimadores
pontuais, que fornecem um valor, chamados de média amostral; e os estimadores
intervalares, que são denominados intervalos de confiança, que fornecem uma faixa
de possíveis valores para o parâmetro populacional.
3.2 Estimação de Médias
Mas como chegar aos estimadores intervalares para a média e para a diferença
entre duas médias? Dependendo das condições da amostra avaliada, estes estimadores
são calculados com base nas distribuições normal e t de Student.
Antes de conhecer as estimativas para determinar a média, é válido conhecer os
conceitos de significância e de confiança. A confiança, ou índice de confiança, é a
probabilidade de o valor estimado estar correto. De modo simples, o índice de confiança
determina o tamanho do intervalo no qual existe uma probabilidade de que o valor
populacional esteja presente, considerando que existem valores não amostrados que
provocam pequenas variações na estimativa pontual.
A significância, definida pela letra α, é definida como a probabilidade de erro na
estimativa. Ela define os intervalos que compreendem os casos extraordinários como,
por exemplo, de um indivíduo que não foi amostrado e cujo valor é tão discrepante
que afeta de forma significativa o valor da média amostral.
Uma relação entre estes dois conceitos é que a soma da significância e da confiança
deve ser igual a 1 ou 100%. Então, os intervalos definidos para cada um dos termos
devem compreender todo o intervalo de variação do parâmetro avaliado.
Como mostra a figura abaixo podemos dizer, de modo simples, que existem os
intervalos para valores iguais à média, definidos pelo índice de confiança, e os intervalos
de valores diferentes da média, sejam eles maiores ou menores do que a média. Por
esse motivo, a significância é dividida pela metade, uma vez que são dois intervalos
ditos diferentes da média:
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 34
Figura 05: Intervalos
Fonte: Autor(2022).
Para determinar o tamanho dos intervalos de confiança, devemos calcular os valores
críticos da distribuição de probabilidade. Estes valores são aqueles que definem a
probabilidade desejada. Relembrando o conceito de probabilidade, ela é a área abaixo
da função probabilidade definida a partir de -∞.
Então, para saber o valor-limite dos intervalos de confiança para a média, basta
calcular os valores que delimitam as probabilidades da significância.
Quando a amostra a ser avaliada segue uma distribuição normal e possui um
número de elementos grande (maior ou igual a 30), ou possui a variância populacional
σ² conhecida, é possível estimar um intervalo de confiança para a média aplicando a
distribuição normal ou distribuição z.
Nesse caso, as probabilidades definidas pela significância e pelo índice de confiança
serão obtidas com base na variável normalizada z.
Para estimar a média em casos em que a variância σ² (ou o desvio-padrão σ)
populacional é conhecida, ou é pré-definida, calculamos a margem de erro por meio
da expressão:
E = Zcrítico . σ n
Para casos em que a variância populacional é desconhecida, porém a amostra é
composta de mais de 30 elementos.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 35
Uma forma de representar o intervalo de confiança da média por meio de uma
expressão é IC(μ,1 - α).
Isso quer dizer que, se for informado que é de interesse o cálculo do IC(μ,0,95), é
o mesmo que dizer que desejamos obter o intervalo de confiança para a média com
95% de confiança, ou 5% de significância.
Exemplo:
Imagine que desejamos obter um intervalo de confiança de 99% para as notas
conquistadas na disciplina de Estatística. Para isso, foram amostrados 50 alunos,
que forneceram uma média amostral de 7,5 e desvio-padrão de 2. Para resolver
esse exemplo, primeiro devemos observar os dados da amostra. Nesse caso não
conhecemos as informações sobre a variância populacional, mas temos uma amostra
com mais de 30 elementos. Então, aplicaremos a estatística:
E = Z(α/2) . s n
Para obter o valor de Zcrítico, consultaremos a Tabela 1, buscando a confiança de
99%, ou a significância α ⁄2 de 0,5% (ou0,005).
Com isso, temos que:
Zcrítico = 2,57.
De posse dos valores amostrais da média, do desvio-padrão e do Zcrítico, seguiremos
o procedimento para obter o intervalo de confiança. Primeiro, calcular a margem de erro:
E = Z(α/2) . s n = 2,57 . = 0,72 2 50
O cálculo dos extremos:
Extremo mínimo = x_ - E = 6,78
Extremo máximo = x_ + E = 8,22
E calcular o intervalo de confiança: 6,78 < μ < 8,22 ou IC(μ,0,99) = (6,78;8,22)
Isso implica dizer que, se a distribuição for normal, existe 95% de chance de o valor
da média populacional estar entre 6,78 e 8,22. A informação fornecida pelo intervalo
de confiança também pode ser interpretada como uma nota média de 7,5, com uma
margem de erro de 0,72 para mais ou para menos.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 36
Perceba que a parte mais importante do cálculo do intervalo de confiança está
em identificar qual o parâmetro desejado (a média), a confiança (ou significância)
desejada, e os dados fornecidos (média, desvio-padrão e tamanho da amostra). Com
isso é identificada a estatística desejada, são consultadas as tabelas para se obter
os valores críticos e, depois, desenvolvem-se os cálculos.
3.3 Estimativas Menores
Caso a amostra for pequena, isso é, possuir menos de 30 elementos, e a variância
populacional não for conhecida, será aplicada a distribuição t de Student para obtenção
dos valores-limites. Devido a seu comportamento semelhante, a distribuição t de
Student possui as mesmas propriedades da distribuição normal, diferenciando-se
apenas no conceito do grau de liberdade.
A figura baixo mostra o comportamento da distribuição t de Student quando
comparada à distribuição normal, deixando claro que, quanto maior for o grau de
liberdade da amostra, mais próximo é o comportamento da distribuição com relação
à distribuição normal.
Figura 06: Distribuição Normal
Fonte: Autor (2022).
Agora, imagine que desejamos estimar um intervalo de confiança para a diferença
entre duas médias populacionais μ1 e μ2 com base em amostras obtidas de cada
população.
De forma simplificada, pode-se representá-lo como IC(μ1 -μ2,1-α). Novamente,
para o desenvolvimento dessa estimação, devemos nos perguntar a respeito das
características das duas amostras.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 37
Se as duas amostras possuírem um comportamento normal e possuírem a variância
populacional conhecida, é possível estimar o intervalo de confiança com base na
distribuição normal. Considere que a amostra 1 possua média amostral x _ 1
, variância populacional σ1
² e tamanho da amostra n1
, e que a amostra 2 seja definida pela média amostral x 2,
variância populacional σ2
² e tamanho da amostra n2.
Exemplo:
Imagine que desejamos saber a diferença salarial entre setores de uma empresa.
Para isso, foram observados, no setor A, os salários de oito funcionários, resultando
em uma média salarial de R$ 5.000,00. O desvio-padrão apresentado entre todos os
salários do setor é conhecido, e vale R$ 1.200,00. A mesma análise foi realizada no
setor B, com a amostragem de quatro funcionários, que obtiveram média salarial de
R$ 8.000,00. O desvio-padrão de todos os salários desse setor é conhecido, e vale R$
800,00. Então, obtenha o IC(μ1 -μ2 ,0,95).
Agora, imagine que não conhecemos as variâncias populacionais das duas
populações-alvo da pesquisa, mas sabemos que elas são iguais. Nesse caso, podemos
calcular o intervalo de confiança da diferença entre as duas populações aplicando
uma estatística diferente.
Para calcular o intervalo de confiança da diferença entre as amostras em que a
variância populacional é desconhecida, porém são iguais, precisaremos dos dados
referente à média e variância amostrais e do número de elementos de cada amostra.
É comum, em análises, avaliar a proporção em que um evento ocorre dentro de
uma população. Por exemplo, ao se avaliar a taxa de emprego, é avaliada a proporção
entre empregados e desempregados em uma população. Em outro exemplo, como em
uma pesquisa eleitoral, os números apresentados para cada candidato se referem à
proporção da população que tem a intenção de votar no candidato A ou B.
Para avaliação da proporção de um determinado evento em uma população, devemos
considerar que a variável avaliada possui uma distribuição de Bernoulli. Isso quer
dizer que a variável apresenta uma probabilidade de estar em conformidade com a
situação dita como “sucesso”, e a probabilidade restante é definida como “fracasso”.
Vale lembrar sempre que a soma das probabilidades de sucesso e de fracasso devem
totalizar 100% das possibilidades.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 38
Para estimar o intervalo de confiança para a proporção, inicialmente devemos avaliar
se é possível a aproximação para a distribuição normal conforme a regra mostrada
para o teorema do limite central, ou seja:
np≥5enq=n(1-p)≥5
Validado esse critério, podemos aplicar a distribuição normal como distribuição
de probabilidade usada para calcular o intervalo de confiança. Do mesmo modo que
desenvolvido para o intervalo de confiança da média, temos o intervalo de confiança
delimitado na região central da distribuição normal, com a significância definindo o
tamanho das regiões em que a proporção amostral é diferente da populacional. Então,
o valor crítico usado para calcular o tamanho do intervalo de confiança é definido
como Z(α ⁄2) para um intervalo de confiança IC(p,1-α).
Para determinar o tamanho mínimo da amostra, a fim de que se forneça alguma
informação válida, deve-se primeiro definir a significância α do intervalo que será
construído posteriormente e a margem de erro E máxima desejada.
Nesta aula, foram apresentados os conceitos de estimadores para os parâmetros de
média e proporção populacional. Eles são importantes, pois, se aplicados corretamente,
fornecem informações confiáveis sobre todos os valores de uma população sem a
necessidade de conhecê-los.
A estatística inferencial, a partir de seus estimadores, permite a redução de custos
e tempo, já que não devemos pesquisar toda a população para ter informações sobre
um parâmetro, pois, com base em uma amostra, pode-se ter uma certa confiança
nas análises realizadas.
Vimos que, para isso, a amostra não pode ser viciada, já que forneceria dados
tendenciosos.
Ademais, deve ter um número de elementos suficientes para garantir uma análise
confiável.
Foram ainda apresentados os conceitos de erro amostral, importantes para
compreender como os dados amostrais podem representar ou não a população; tal
como os estimadores pontuais, normalmente chamados de parâmetros amostrais
e os intervalares, chamados de intervalos de confiança. Sobre este último, vimos os
conceitos relacionados às distribuições de probabilidade amostrais e ao teorema do
limite central.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 39
Entendeu-se que os intervalos de confiança seguem uma probabilidade de estarem
corretos, cujo tamanho é definido pela confiança e pela significância desejada. De modo
geral, o roteiro para definir o tamanho do intervalo de confiança requer, primeiramente,
que seja identificada a distribuição de probabilidade a ser aplicada, para obter seus
valores críticos com base na significância, depois obter a margem de erro conforme
cada estatística e calcular o intervalo de confiança.
Vimos também como calcular o tamanho de amostras, o que é muito importante
para que se tenha uma quantidade de elementos suficientes para que as análises
realizadas sejam aceitáveis.
De posse dos intervalos de confiança, podemos realizar algumas análises. Por
exemplo, para termos certeza que a quantidade de votos de um candidato não é igual
a de outro, devemos avaliar se não existe nenhum trecho do intervalo de confiança
se sobrepondo. Se existir algum valor que seja igual em dois intervalos, significa que
existe uma chance de que a quantidade de votos seja igual.Assim, concluímos que diversos conceitos são essenciais para um levantamento
estatístico adequado.
ISTO ESTÁ NA REDE
Link: https://www.youtube.com/watch?v=uR6gBmdpn4c
A econometria tem aplicações distintas, divididas em dois grandes grupos: os
testes de hipóteses e a determinação de parâmetros de estimação. Ao estudar
os parâmetros referentes a uma população, todos os indivíduos são conhecidos
e, por isso, temos certeza dos resultados. Agora, ao estudar o comportamento
de amostras, não é possível determinar com exatidão os resultados. Nesse caso,
a estatística inferencial aplica os testes de hipóteses. Eles estão associados à
confirmação de algum fato sobre a população, com base em uma informação
amostral. Por exemplo, a expressão “tecnicamente empatados”, usada nas eleições,
reflete o resultado de um teste de hipótese com relação à possibilidade de dois
candidatos possuírem a mesma quantidade de eleitores, quando observados os
votos da população total. Essa é apenas uma das possibilidades da aplicação da
estatística inferencial e de seus testes.
https://www.youtube.com/watch?v=uR6gBmdpn4c
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 40
ANOTE ISSO
Ao aplicar a econometria de modo prático, é necessário determinar a média e a
variância utilizando amostras. Para esse tipo de análise, utiliza-se a estatística
inferencial, amplamente aplicada na validação de resultados obtidos quando se tem
amostras. Para entender a importância da estatística inferencial, imagine o período
eleição: durante as pesquisas de intenção de votos, apenas um pequeno número de
eleitores é entrevistado. Por conta disso, os resultados apresentam uma margem
de erro. Isso quer dizer que, se a pesquisa for feita com todos os eleitores (como
ocorre na eleição propriamente dita), existe uma chance de os resultados estarem
dentro daquele intervalo de valores.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 41
AULA 04
HIPÓTESES ESTATÍSTICAS
PARAMÉTRICAS
Olá Caro (a) Aluno (a), os testes podem ser definidos como testes paramétricos e não
paramétricos. Um teste paramétrico supõe um comportamento conhecido da amostra
diante de uma distribuição de probabilidade conhecida, como a distribuição normal
ou qui-quadrado. Já o teste não paramétrico pode ser usado em qualquer amostra,
mas possui um custo matemático maior em seu desenvolvimento. Por esse motivo,
os dados amostrais são comparados com a distribuição equivalente para a obtenção
da hipótese correta. Um teste paramétrico tem por vantagem o desenvolvimento mais
simples e de fácil compreensão, inclusive permitindo o estudo de dados não numéricos.
4.1 Estruturas das Hipóteses
Como não são conhecidos todos os indivíduos da população ao realizar um teste
estatístico, é definida uma margem de confiança do teste. Por isso, jamais considere o
valor obtido em uma amostra como exatamente igual ao valor obtido para a população.
A função primordial de um teste é prover uma informação com relação à população ao
usar este tipo de teste de forma indiscriminada, já que tendem a reduzir as informações
referentes à amostra usada. Por isso, não são tão eficientes em condições nas quais
o teste paramétrico poderia ser usado.
Ao executar um teste, devemos ter em mente que ele possui sempre como resposta
duas possibilidades: verdadeiro ou falso. Este fator deve estar bem claro, a fim de que
não haja interpretações equivocadas.
Quando se deseja realizar um teste de qualquer tipo, primeiro deve-se levantar uma
suposição, definida como aquilo que se pretende ter como verdadeiro. Com base nela,
são criadas duas hipóteses: uma que avalia sua veracidade (hipótese nula ou H0) e
outra que nega ou rejeita a hipótese nula (hipótese alternativa ou H1 ). Então, por
definição, uma hipótese estatística é uma suposição levantada com relação a algum
parâmetro de uma variável amostral.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 42
Nesse sentido, o teste de hipótese é o processo aplicado para confi rmá-la ou
rejeitá-la com base nas informações amostrais.
Para entender como são propostas as hipóteses, é possível pensar no exemplo da
eleição.
Se for de interesse avaliar se um candidato possui o mesmo número de votos que
outro, com base na pesquisa de intensão de votos, as hipóteses levantadas são:
H0 : o número de votos é igual
H1 : o número de votos é diferente)
A partir disso, deve-se avaliar se a hipótese se refere ao valor da variável ou a sua
variação.
No caso exemplificado, a hipótese é referente ao valor e está relacionada ao estudo
da média. Então, considerando que o número de votos do candidato 1 vale μ1 e do
candidato 2 vale μ2, a hipótese é ser reescrita como:
: H0 : μ1 = μ2
H1 : μ1 ≠ μ2
Nesse caso, ao aplicar o teste correspondente, a resposta a ser dada indica se
hipótese H0 está correta ou não.
Agora, imagine que é de interesse saber, com base na pesquisa de intenção de
votos, se o candidato 1 será eleito no primeiro turno. Para que isso ocorra, sabe-se
que o candidato deverá ter mais da metade dos votos. Perceba agora que estamos
interessados na proporção dos eleitores.
A aplicação do teste envolve uma expressão matemática, cujo resultado deve ser
analisado antes que seja dada a conclusão do problema. Nessa análise da hipótese
H0, é possível que ocorram dois tipos de erros: o tipo I e o tipo II.
O erro de tipo I está relacionado a rejeitar a hipótese H0 quando ela é verdadeira. É
o erro conhecido como o falso negativo. Por exemplo, ao testar a hipótese de igualdade
dos votos, suponha que a hipótese nula H0 (número de votos igual) seja verdadeira.
Então é correto dizer que o número de votos é igual. Caso a conclusão fornecida seja
que os votos sejam diferentes, temos um erro do tipo I. A probabilidade de cometer
um desses erros está relacionada ao nível de confiança ou significância do teste,
definida pela letra α.
INTRODUÇÃO À
ECONOMETRIA
PROF.
FACULDADE CATÓLICA PAULISTA | 43
Já o erro de tipo II se refere a aceitar a hipótese H0 quando ela é falsa. É conhecido
como o falso positivo. Por exemplo, considere que a hipótese alternativa H1 (número
de votos diferente) seja verdadeira no caso da igualdade de votos. Então, é correto
dizer que o número de votos é diferente. Caso a conclusão fornecida seja que os votos
sejam iguais, temos um erro do tipo II. A probabilidade de cometer um erro desse tipo
está relacionada ao poder do teste, representado pela letra β.
Para fornecer uma resposta referente à população com base em um teste de
hipótese, é necessário definir uma margem de valores assumidos como verdadeiros.
No exemplo da campanha eleitoral, essa margem se apresenta como a faixa de valores
de intenção de votos para cada candidato. Lembre-se que dentro dessa margem todos
os valores são estatisticamente iguais, enquanto os valores fora do intervalo. Dito
isso, podemos definir a região crítica como o intervalo de valores no qual a variável
estudada pelo teste de hipótese tem a hipótese H0 rejeitada. Para obter a região
crítica a ser avaliada no teste, analisa-se o índice de significância requerida do tipo
de teste e da distribuição usada para comparação.
Ao defini-la, a regra de decisão é realizada dispondo o valor a ser testado. Ele é
obtido por meio de uma estatística dentro do intervalo de valores possíveis. Assim, é
possível dizer que a hipótese H0 é rejeitada quando o valor está dentro dessa região
crítica. Caso contrário, H0 é aceita.
Suponha que, na pesquisa eleitoral, o candidato 1 possua a intenção de votos de 25
pontos, com uma margem de erro de 2 pontos para mais ou para menos. Isso quer
dizer que os valores compreendidos entre 23 pontos e 27 pontos são estaticamente
iguais a 25 pontos o são considerados diferentes.
4.2 Testes de Significância
Para desenvolver um teste de hipótese (ou de significância), deve-se seguir uma
sequência de ações. Primeiramente, é preciso identificar a variável avaliada, a qual