Baixe o app para aproveitar ainda mais
Prévia do material em texto
G iu se pp e Tr ev is an UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE CIÊNCIAS SOCIAIS APLICADAS DEPARTAMENTO DE CIÊNCIAS CONTÁBEIS E ATUARIAIS Econometria para Contabilidade Material de Aula Giuseppe Trevisan DCCA - UFPE CIÊNCIAS CONTÁBEIS E ATUARIAS https://sites.google.com/view/giuseppetrevisan G iu se pp e Tr ev is an Autor Giuseppe Trevisan <giuseppe.trevisan@ufpe.br> Colaboradores André Luiz Monteiro Guilherme Marcone Aguiar Juliana Silva de Lima Local Recife-PE, Brasil ii mailto:giuseppe.trevisan@ufpe.br G iu se pp e Tr ev is an Sumário 1 Revisão de Conceitos de Estatística 1 1.1 Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.2 Variável Aleatória (VA) . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.3 Função Densidade de Probabilidade e Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.4 Função Densidade de Probabilidade Conjunta . . . . . . . . . . 7 1.2.5 Função Densidade de Probabilidade Marginal . . . . . . . . . . 7 1.2.6 Função Densidade de Probabilidade Condicional . . . . . . . . 9 1.2.7 Independência entre VA’s . . . . . . . . . . . . . . . . . . . . . . 10 1.2.8 Momentos de VA’s . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Inferência Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3.1 Estimação de Intervalos . . . . . . . . . . . . . . . . . . . . . . . 16 1.3.2 Teste de Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2 Revisão de Matrizes 21 2.1 O que é uma Matriz? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2 Tipos de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3 Operações com Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.1 Soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.2 Multiplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4 Cálculo do Determinante . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.4.1 Matriz 2× 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.4.2 Matriz 3× 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.5 Matriz Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 iii G iu se pp e Tr ev is an SUMÁRIO 3 Introdução 30 3.1 O que é Econometria? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 Estrutura dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4 Modelos de Regressão Linear 37 4.1 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Hipóteses do Modelo Clássico . . . . . . . . . . . . . . . . . . . . . . . 38 4.3 Método dos Mínimos Quadrados Ordinários (MQO) . . . . . . . . . . . 41 4.4 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . 46 5 Variância e Covariância dos Estimadores 51 5.1 Variância e Covariância dos Erros . . . . . . . . . . . . . . . . . . . . . 51 5.2 Variância e Covariância dos Estimadores (Regressão Múltipla) . . . . . 52 5.3 Variância e Covariância dos Estimadores (Regressão Simples) . . . . 54 5.3.1 Estimador de σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6 Propriedades dos Estimadores de MQO 59 6.1 Não-viés dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 59 6.2 Consistência dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . 62 6.3 Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . 63 7 Coeficiente de Determinação 67 7.1 O que é R2? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 7.2 R2 de uma Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . 67 7.3 R2 Ajustado (R̄2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 8 Inferência em Regressão 74 8.1 Teste de Hipótese (σ2 conhecido) . . . . . . . . . . . . . . . . . . . . . 74 8.2 Teste de Hipótese (σ2 desconhecido) . . . . . . . . . . . . . . . . . . . 77 8.3 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 8.3.1 Coeficiente de Determinação e o Teste F . . . . . . . . . . . . . 84 9 Modelos com Logaritmos 85 9.1 Modelo Log-Log . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 9.2 Modelo Log-Lin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 9.3 Modelo Lin-Log . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 iv G iu se pp e Tr ev is an SUMÁRIO 10Modelos com Variáveis Dummies 92 10.1 Dummy de Intercepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 10.2 Dummy de Interação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 10.3 Dummies com várias categorias . . . . . . . . . . . . . . . . . . . . . . 97 11 Violação das hipóteses do modelo de regressão linear 100 11.1 Endogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 11.1.1 Erro de Mensuração . . . . . . . . . . . . . . . . . . . . . . . . . 101 11.1.2 Viés de Variável Omitida . . . . . . . . . . . . . . . . . . . . . . 102 11.1.3 Análise dos Componentes do Viés . . . . . . . . . . . . . . . . . 105 11.1.4 Causalidade Reversa . . . . . . . . . . . . . . . . . . . . . . . . 108 11.2 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 11.3 Heterocedasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 11.4 Não-Normalidade dos Erros . . . . . . . . . . . . . . . . . . . . . . . . 112 Bibliografia 113 v G iu se pp e Tr ev is an Capítulo 1 Revisão de Conceitos de Estatística Antes de abordar o assunto de Regressão Linear, é necessário solidificar os conhecimentos em tópicos deEstatística Básica1. O conteúdo2 propriamente dito inicia na seção 3 deste material, mas é recomendado que o leitor revise previamente as Seções 1.1 e 1.2 deste capítulo. Ademais, antes de abordar Regressão Linear Múltipla, recomenda-se visitar a Seção 2, que contém os principais tópicos envolvendo o uso de matrizes. Nesta parte introdutória, você encontra aspectos fundamentais da Teoria da Probabilidade, juntamente com agumas propriedades envolvendo operações com somatório. As subseções a seguir contêm o resumo desses conteúdos. 1.1 Somatório Como pode vir a ser útil futuramente, segue algumas propriedades do operador de Somatório, representado pelo símbolo ∑ . Sejam k, a e b constantes quaisquer. Então: n∑ i=1 k = nk (1.1) n∑ i=1 kxi = k ∑ xi (1.2) n∑ i=1 (a+ bxi) = ∑ a+ b ∑ xi (1.3) n∑ i=1 (xi + yi) = ∑ xi + ∑ yi (1.4) 1Referências: [2], [3] 2Referências: [1], [4] 1 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA m∑ j=1 n∑ i=1 xij = m∑ j=1 (x1j + x2j + ...+ xnj) = n∑ i=1 (xi1 + xi2 + ...+ xim) (1.5) 1.2 Probabilidade 1.2.1 Experimento Aleatório É um experimento que, realizado repetidas vezes e sob as mesmas condições, pode gerar resultados diferentes dentro de um conjunto de possíveis resultados. Esse conjunto de todos os resultados possíveis é denominado de Espaço Amostral (S) ou População. Cada elemento que compõe S é chamado de Ponto Amostral. A partir dos pontos amostrais, podemos construir subconjuntos de S, denominados de Eventos. Essas denominações são úteis para compreender a definição de Probabilidade. Podemos dizer que a probabilidade é a chance de ocorrência de um evento que, portanto, está associado a um Espaço Amostral. Contudo, podemos definir de forma axiomática3 a Probabilidade: Def.1.1. Considere um experimento E eA um evento associado ao espaço amostral S. Chamamos de P (A) a função real que atende os seguintes axiomas: 1. P (A) ≥ 0. 2. P (A) ≤ 1. 3. SeA eB são eventosmutuamente excludentes, então P (A∪B) = P (A)+P (B). 1.2.2 Variável Aleatória (VA) VariávelAleatória é uma função que leva resultados de umEspaçoAmostralpara o conjunto dos números Reais. Portanto, ela é oriunda de um experimento aleatório e pode assumir qualquer valor dentro de um espaço de possibilidades. Para facilitar a compreensão, considere o seguinte exemplo: Ex.1.1: Experimento de lançar duas moedas e observar a face voltada para cima (c: cara; k: coroa). 3Axioma é um princípio tido como verdadeiro, não necessitando de prova alguma. 2 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA Evento Prob. (c,c) 1/4 (c,k) 1/4 (k,c) 1/4 (k,k) 1/4 Perceba que, se estivermos interessados no evento A, ocorrer duas caras — ou (c,c) —, e no evento B, ocorrer duas coroas — ou (k,k) —, as funções reais P (A) e P (B) atendem os axiomas vistos anteriormente, uma vez que P (A) = 1/4, P (B) = 1/4 e P (A ∪ B) = 2/4. A partir desse experimento, vamos criar a VA, denominada de X, e que representa o no de caras: X P (X = x) 0 1/4 1 2/4 2 1/4 Note, na segunda coluna da tabela, a probabilidade P (X) herdada das chances de ocorrência de cada evento referente ao exemplo Ex.1.1. Por essa probabilidade ser uma função de outra probabilidade, ela recebe o nome de função densidade4 de probabilidade. A seguir, veremos de forma mais específica as funções de probabilidade inerentes a dois tipos de VA’s. 1.2.3 Função Densidade de Probabilidade e Função de Distribuição Acumulada Função Densidade de Probabilidade (VA discreta) Uma VA Discreta é aquela que realiza valores em um conjunto contável. Dito isso, podemos apresentar a seguinte definição: 4Para o caso de uma VA Discreta, usa-se comumente o termo função massa de probabilidade, enquanto que para VA’s contínuas, função densidade de probabilidade. Neste material, utilizaremos o último termo como sinônimo do primeiro. 3 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA Def.2.1. Considere X uma VA discreta com elementos distintos x1, x2, ..., xn, ... no domínio RX . Definimos como função densidade de probabilidade (f.d.p.), denominada de f(x), a função que atende as propriedades: 1. f(x) = P (X = x), ∀ x ∈ RX . 2. f(x) = 0, ∀ x ̸∈ RX . Utilizando a VA X derivada do exemplo Ex.1.1, podemos então desejar saber a probabilidade de ocorrer uma única cara ou a probabilidade de ocorrer pelo menos uma cara utilizando sua f.d.p., que são calculadas da seguinte forma: a) P (X = 1) = f(1) = 2 4 = 0, 5 b) P (X ≥ 1) = 2∑ x=1 f(x) = f(1) + f(2) = 2 4 + 1 4 = 0, 75 Função de Distribuição Acumulada (VA Discreta) A Função de Distribuição Acumulada é útil para calcular probabilidades agregando as realizações da VA discreta até um determinado valor. Podemos defini-la como: Def.3.1. Considere X uma VA discreta com elementos distintos x1, x2, ..., xn no domínioRX; considere tambémumnúmero tal que x1 ≤ b. Definimos como função de distribuição acumulada (f.d.a.), denominada de F (x), a função que atende as propriedades: 1. F (b) = P (X ≤ b) = ∑ x≤b f(x). 2. ∑ x∈RX f(x) = 1, ∀ x ∈ RX . Então, a partir do exemplo Ex.1.1, podemos obter as seguintes probabilidades acumuladas: 4 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA a) P (X ≤ 1) = F (1) = f(0) + f(1) = 3 4 = 0, 75 b) P (X < 1) = F (0) = f(0) = 1 4 = 0, 25 c) P (X < −3) = 0 d) P (X < 3) = F (2) = f(0) + f(1) + f(2) = 1 Função Densidade de Probabilidade (VA Contínua) Uma VA Contínua é aquela que realiza valores em um conjunto não-contável. Para o caso de VA’s contínuas, o interesse ao se utilizar a f.d.p. está em localizar a probabilidade de ocorrência de intervalos dessa variável, e não mais pontos. Apresentamos a seguinte definição: Def.4.1. Considere X uma VA contínua com elementos no domínio RX ⊂ R. Definimos como função densidade de probabilidade (f.d.p.), denominada de f(x), a função que atende as propriedades: 1. f(x) ≥ 0. 2. ∫∞ −∞ f(x)dx = 1. 3. ∫ b a f(x)dx = P (a ≤ x ≤ b) = P (a ≤ x < b) = P (a < x ≤ b) = P (a < x < b), ∀ a ≤ b. Note que, para o caso de a = b, a probabilidade assume valor 0. Para ilustrar melhor, tomemos o seguinte exemplo: Ex.2.1: X é uma variável aleatória que possui f(x) = x 2 , com valores no domínio x ∈ (0, 2]. Conhecendo a f.d.p. deX, é possível calcular as seguintes probabilidades: 5 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA a) f(x ≤ 1) = ∫ 1 0 x 2 dx = x2 4 ∣∣∣1 0 = 1 4 b) f(x ∈ [1, 2]) = ∫ 2 1 x 2 dx = x2 4 ∣∣∣2 1 = 4 4 − 1 4 = 3 4 c) P (X > 2) = 0 Função de Distribuição Acumulada (VA Contínua) A diferença entre a f.d.a. de uma VA contínua para uma VA discreta está, basicamente, na forma de realizar o cálculo de obtenção da probabilidade desejada: Def.5.1. Considere X uma VA contínua que realiza valores no domínio RX e considere b ∈ (−∞,∞). Definimos como função de distribuição acumulada (f.d.a.) de uma VA contínua, denominada de F (x), a função que atende as propriedades: 1. F (b) = b∑ −∞ f(x)dx = P (x ≤ b). 2. ∞∑ −∞ f(x)dx = 1. Vale ressaltar que tanto a f.d.a. de VA’s discretas ou contínuas irão atender às seguintes propriedades: 1. limx→−∞ F (x) = 0 e limx→∞ F (x) = 1. 2. F (x) é não-decrescente em x. 3. É contínua pela direita. Então, usando o exemplo Ex.2.1, podemos obter as seguintes probabilidades acumuladas: 6 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA a) F (1) = f(x ≤ 1) = ∫ 1 0 x 2 dx = x2 4 ∣∣∣1 0 = 1 4 (note que você já tinha calculado uma f.d.a.!) b) F (1, 5) = f(x ≤ 1, 5) = ∫ 3/2 0 x 2 dx = x2 4 ∣∣∣3/2 0 = (3/2)2 4 = 9 4 · 1 4 = 9 16 c) F (8) = P (X < 8) = 1 1.2.4 Função Densidade de Probabilidade Conjunta Neste caso, estamos interessados na ocorrência de eventos associados a mais de umaVA, simultaneamente. Para facilitar o entendimento, vamos nos limitar a analisar sempre duas VA’s, no caso, X e Y . Trazemos, a seguir, a definição de uma função de probabilidade conjunta: Def.6.1. Considere X e Y duas VA’s que realizam valores em seus domínios RX e RY . Definimos como função densidade de probabilidade conjunta (f.d.p. conjunta), denominada de f(x, y), a função que atende as propriedades: 1. f(x, y) = P (X = x e Y = y) (VA discreta). f(x, y) = P (a ≤ X ≤ b, c ≤ Y ≤ d) (VA contínua). 2. f(x, y) = 0, ∀ x ̸∈ RX e y ̸∈ RY . 1.2.5 Função Densidade de Probabilidade Marginal Quando falamos de f.d.p.’s conjuntas de duas VA’s, podemos desejar obter as probabilidades apenas em função deX ou de Y . Em relação a f(x, y), chamamos f(x) e f(y) de f.d.p.’s marginais. Para obte-las, devemos resolver a seguinte função: 1. f(x) = ∑ y∈RY f(x, y) (VA discreta). f(x) = ∫ y∈RY f(x, y)dy (VA contínua). 2. f(y) = ∑ x∈RX f(x, y) (VA discreta). f(y) = ∫ x∈RX f(x, y)dx (VA contínua). 7 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA Ex.3.1: Seja X uma variável binária que indica a existência de controle interno na empresa e Y a idade da empresa. A tabela a seguir mostra a distribuição das variáveis aleatórias: X Y 0 4 1 10 0 2 1 8 1 4 0 2 1 8 A partir desse exemplo, vamos calcular as probabilidades a seguir: a) f(x = 0) = ∑ y∈RY f(0, y) = f(0, 4) + f(0, 2) + f(0, 2) = 1 7 + 1 7 + 1 7 = 3 7 b) f(y = 4) = ∑ x∈RX f(x, 4) = f(0, 4) + f(1, 4) = 1 7 + 1 7 = 2 7 c) f(x ≥ 0, y ≤ 4) = f(0, 4) + f(0, 2) + f(1, 4) = 1 7 + 2 7 + 1 7 = 4 7 Note que as duas primeiras probabilidades refletem probabilidades marginais, enquanto que a última representa uma probabilidade conjunta. Para VA’s contínuas, vamos considerar o seguinte exemplo: Ex.4.1: Sejam X e Y duas VA’s contínuas com f.d.p. conjunta f(x, y) = 1 12 , nos domínios y ∈ [−1, 5; 1, 5) e x ∈ (−2, 2). Abaixo, segue uma ilustração dos cálculos de probabilidades usando o exemplo Ex.4.1: a) f(x) = ∫ y∈RY f(x, y)dy = ∫ 1,5 −1,5 1 12 dy = y 12 ∣∣∣1,5 −1,5 = 3 2 · 1 12 − ( −3 2 · 1 12 ) = 6 24 = 1 4 b) f(y ≤ 0) = ∫ 0 −1,5 ∫ x∈RX 1 12 dxdy = ∫ 0 −1,5 ( x 12 ∣∣∣2 −2 ) dy = ∫ 0 −1,5 ( 2 12 − ( − 2 12 )) dy = = ∫ 0 −1,5 1 3 dy = y 3 ∣∣∣0 −1,5= 0− ( −3 2 · 1 3 ) = 1 2 8 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA c) f(x ≥ 0, y ≤ 0) = ∫ 0 −1,5 ∫ 2 0 1 12 dxdy = ∫ 0 −1,5 ( x 12 ∣∣∣2 0 ) dy = ∫ 0 −1,5 1 6 dy = y 6 ∣∣∣0 −1,5 = = 0− ( −3 2 · 1 6 ) = 1 4 1.2.6 Função Densidade de Probabilidade Condicional Num contexto de VA multidimensional (ou seja, englobando mais de uma VA), quando desejamos obter probabilidades de eventos restringindo a ocorrências de eventos relacionados ao espaço de possibilidades de outra VA, utilizamos a função de probabilidade condicional. Ela é definada como: Def.7.1. Considere X e Y duas VA’s que realizam valores em seus domínios RX e RY . Definimos como função densidade de probabilidade condicional (f.d.p. condicional), denominada de f(x|y) (e f(y|x)), a seguinte função: 1. f(x|y) = f(x, y) f(y) . 2. f(y|x) = f(x, y) f(x) . Usando o exemplo Ex.3.1, vamos calcular a seguinte probabilidade condicional: f(y > 4|x = 1) = f(x, y) f(x) = f(1, 10) + f(1, 8) f(1) = 1 7 + 2 7 4 7 = 3 4 Com o exemplo Ex.4.1, que considera VA’s contínuas, vamos calcular a seguinte probabilidade condicional: f(x|y ∈ [0, 1]) = ∫ 1 0 1 12 dy∫ 1 0 (∫ 2 −2 1 12 dx ) dy = y 12 ∣∣∣1 0∫ 1 0 1 3 dy = 1 12 y 3 ∣∣∣1 0 = 3 12 = 1 4 9 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA 1.2.7 Independência entre VA’s O conceito de independência em estatística é crucial para a análise de regressão. Apesar de a ocorrência de eventos associados a duas VA’s acontecer com alguma probabilidade (ou seja, probabilidade não-nula do evento), não significa que elas apresentem uma associação estatística. Isso ficará mais claro ao se apresentar a definição de covariância, mais à frente. Contudo, é possível definir independência estatística de maneira formal: Def.8.1. Sejam X e Y duas VA’s. Dizemos que X e Y são independentes, ou X⊥Y , se: 1. f(x, y) = f(x) · f(y). Ou seja, a probabilidade de eventos que apresentam interseção de resultados deX e Y é igual ao produto de suas probabilidades marginais. É fácil verificar isso num exemplo com dados: Ex.5.1: Considere o lançamento de dois dados convencionais, tal que a VA X represente o resultado do primeiro dado, e Y , do segundo. A f.d.p. conjunta é dada por f(x, y) = 1 36 , e as marginais são f(x) = f(y) = 1 6 . O eventoX = 2 é independente de Y = 5, pois: 1. f(2, 5) = 1 36 2. f(x) = f(2) = 1 6 3. f(y) = f(5) = 1 6 4. Logo: f(2, 5) = f(2) · f(5) → 1 36 = 1 6 · 1 6 1.2.8 Momentos de VA’s Os momentos são úteis para caracterizar a distribuição da(s) VA(’s). O momento mais conhecido (e ponto de partida) é o Valor Esperado. No caso Univariado, de acordo com a natureza da VAX, ele é definido pela seguinte função: 1. E(X) = ∑ x∈RX xf(x) (VA discreta). 10 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA 2. E(X) = ∫ x∈RX xf(x)dx (VA contínua). O Valor Esperado é conhecido por vários sinônimos, como Média, Esperança Matemática, Expectativa ou Esperança. É também comumente representado pelo símbolo µ. Esse momento resume, em um único valor, toda a distribuição da VA. Podemos obter uma série de outros Valores Esperados deX, caracterizandomomentos em torno da origem ou em torno da média. Momentos em torno da origem Esses momentos são avaliados em torno da origem, ou seja, em torno de “zero”. A definição a seguir generaliza para r possíveis momentos deX: Def.9.1. O r-ésimo momento em torno da origem da VA X é definido como: 1. E(Xr) = µr = ∑ x∈RX xrf(x) (VA discreta). 2. E(Xr) = µr = ∫ x∈RX xrf(x)dx (VA contínua). Pode-se notar que o Valor Esperado, E(X) = µ, é o primeiro momento em torno da origem (ou seja, E(X1) = µ1). É possível perceber que E(X0) = µ0 = 1 (revisite a propriedade 2 das definições Def.3.1 e Def.4.1), pois equivalerá resolver a f.d.a. em todo o espaço amostral de X. Momentos em torno da média Neste caso, os momentos são avaliados em torno do Valor Esperado de X. Def.10.1. O r-ésimo momento em torno da média da VA X é definido como: 1. E[X − E(X)]r = µ′r = ∑ x∈RX [x− E(X)]rf(x) (VA discreta). 2. E[X − E(X)]r = µ′r = ∫ x∈RX [x− E(X)]rf(x)dx (VA contínua). Dois dos momentos em torno da média merecem destaque. O primeiro deles, E[X − E(X)]1 = µ′1, mostra a importante propriedade de que o somatório dos desvios 11 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA em torno da média é igual a zero. O segundo, E[X − E(X)]2 = µ′2, que também é representado pelo símbolo σ2, define a Variância deX. É possível reescrever aVariância deX em termosdemomentos em tornoda origem. Para perceber essa propriedade, vamosdemonstrar partindodadefinição deVariância: E[X − E(X)]2 = E[X − E(X)][X − E(X)] = E[X2 −X E(X)−X E(X) + (E(X))2] = E(X2)− E(X)E(X)− E(X)E(X) + (E(X))2 = E(X2)− (E(X))2. A seguir, algumas propriedades importantes ao se manusear valores esperados: 1. E(b) = b. 2. E(aX) = aE(X). 3. V ar(aX) = a2V ar(X). Momentos Conjuntos É possível obter momentos que envolvem mútiplas VA’s. O mais trivial desses momentos é aExpectativaCondicional, ou seja, umValor Esperado que condiciona à realização de valores de outra(s) VA(’s). Vamos manter a simplicidade e considerar apenas duas VA’s, X e Y . Considere também um conjunto B tal que B ⊂ RY . A Expectativa Condicional de X em relação a Y é calculada aplicando-se a seguinte função: 1. E(X|Y ) = ∑ x xf(x|y ∈ B) (VA discreta). 2. E(X|Y ) = ∫ x xf(x|y ∈ B)dx (VA contínua). Ex.6.1: Sejam Y e X duas VA’s que correspondem ao salário de trabalhadores e o sexo (mulher: X = 1), respectivamente. A tabela a seguir relaciona a distribuição conjunta dos dados: Com essa simples distribuição é possível se calcular os seguintes valores esperados: 12 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA Y X 2500 0 2400 1 2700 0 2000 1 a) E(Y ) = ( 2500 · 1 4 ) + ( 2400 · 1 4 ) + ( 2700 · 1 4 ) + ( 2000 · 1 4 ) = 2400 b) E(Y |X = 1) = ( 2400 · 1 2 ) + ( 2000 · 1 2 ) = 2200 c) E(Y |X = 0) = ( 2500 · 1 2 ) + ( 2700 · 1 2 ) = 2600 Fique atento que, para calcular a f.d.p.’ condicional de, por exemplo, f(y|x = 1), deve-se proceder: f(y|x = 1) = f(2000,1) f(1) = f(1,2000) 1/2 = 1/4 1/2 = 1 2 f(2400,1) f(1) = f(1,2400) 1/2 = 1/4 1/2 = 1 2 A seguir, algumas propriedades importantes ao se manusear momentos conjuntos: 1. V ar(a+ bX) = V ar(a) + V ar(bX) + 2Cov(a, bX) = b2V ar(X). 2. E(X|X) = X. 3. E(XY ) = E(X)E(Y ), se X⊥Y . Lei das Expectativas Iteradas Outra importante propriedade dos valores esperados é conhecida como Lei das Expectativas Iteradas, que diz: E(E(Y |X)) = E(Y ). Utilizandoo exemploEx.6.1, pode-se obter aEsperançadeY usando as expectativas condicionais obtidas anteriormente: 13 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA E(Y ) = E(E(Y |X)) = E[E(Y |X = 1) + E(Y |X = 0)] = E[2200 + 2600] = 2200 · 1 2 + 2600 · 1 2 = 2400 Covariância Um outro momento conjunto que será bastante utilizado em análise de regressão linear é a Covariância. Ela é definida como o primeiro momento conjunto em torno da média. A Covariância assume a seguinte forma funcional: 1. Cov(X,Y ) = E[X−E(X)][Y −E(Y )] = ∑ X∈RX ∑ Y ∈RY (x−E(X))(y−E(Y )) · f(x, y). 2. Cov(X,Y ) = E[X − E(X)][Y − E(Y )] = ∫ Y ∈RY ∫ X∈RX (x − E(X))(y − E(Y )) · f(x, y)dxdy. Da mesma maneira que a Variância, a Covariância pode ser reescrita em termos de momentos em torno da origem. Os passos são os mesmos que os realizados para Variância, podendo-se chegar à seguinte expressão: E[X − E(X)][Y − E(Y )] = E(XY )− E(X)E(Y ). (1.6) Recordando a definição de Independência entre VA’s, pode-semostrar que atender tal definição implica que a covariância entre as VA’s é igual a zero (ou seja, X⊥Y → Cov(X,Y ) = 0). Basta partir da definição de covariância e, alémdisso, utilizar a propriedade de independência. Primeiro (utilizando a notação de somatórios), note que: 14 G iu se ppe Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA E[XY ] = ∑ X∈RX ∑ Y ∈RY xyf(x, y) = ∑ X∈RX xf(x) ∑ Y ∈RY yf(y) = E[X]E[Y ] Substituindo em 1.6: E[X − E(X)][Y − E(Y )] = E(X)E(Y )− E(X)E(Y ) = 0. Embora a Covariância não tenha uma interpretação objetiva devido à mistura das unidades de medida, essa medida é extramemente útil para avaliar a direção da associação entre duas variáveis. Para medir a intensidade dessa relação, pode-se utilizar o Coeficiente de Correlação: ρ(X,Y ) = Corr(X,Y ) = Cov(X,Y ) σY σX ∈ [−1, 1]. (1.7) Quanto mais próximo |Corr(X,Y )| de 1, mais fortemente correlacionadas são as variáveis. 1.3 Inferência Estatística Esta seção é um importante subsídio na análise de Regressão Linear quando se desejar tirar conclusões sobre os parâmetros investigados. Portanto, para que haja um melhor aproveitamento, a leitura desta parte é recomendada imediatamente anterior à Seção 8. Além disso, antes de se discutir e detalhar os próximos itens, é importante estar ciente dos seguintes conceitos: • Estatística é uma função dos dados e, possivelmente, de partes conhecidas. • Estimadores são estatísticas usadas para estimar (calcular) um parâmetro. • Estatística de teste é uma estatística usada para testar uma hipótese. 15 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA 1.3.1 Estimação de Intervalos Estamos interesssados em obter uma amplitude que contenha, com algum grau de confiabilidade, o verdadeiro valor do parâmetro. Então, vamos partir da definição a seguir: Def.11.1. Um intervalo de confiança é um intervalo aleatório, S = [S, S], que contém o parâmetro β com probabilidade (1 − α), onde α ∈ (0, 1), definido como P (β ∈ S) = 1− α. A probabilidade 1 − α é conhecida como grau (ou nível) de confiança e α é um número escolhido pelo pesquisador, denominado “nível de significância” (voltaremos a esse termo mais adiante). O intervalo S será constituído de acordo com a amostra, portanto, depende dos dados da distribuição amostral associada ao estimador de β, que denominaremos de β̂. Antes de exemplificar, consideremos o Teorema do Limite Central (TLC): Teor.1.1: À medida que o tamanho da amostra aumenta, a distribuição da média amostral se aproxima de uma distribuição Normal, ou seja: n → ∞ : X̄ ≈ N(µ, σ2/n) Uma consequência direta do TLC é: Z = X̄ − µ σ/ √ n → N(0, 1) Essa medida é chamada de z-score. Ou seja, ao se padronizar a média amostral por sua média e desvio-padrão, obtém-se uma VA que converge em distribuição para uma Normal com média nula e variância unitária. Esse resultado é útil para mostrar, com o exemplo a seguir, como se obter um intervalo de confiança: Ex.7.1: Uma amostra de tamanho n dos preços de uma ação foi coletada, e sabe-se queE(X) = µ e V ar(X) = σ2 (conhecida). Considerando o estimador X̄, um intervalo de confiança para a média µ pode ser obtido (utilizando-se o TLC) como: 16 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA P (Z ∈ S) = 1− α P (S ≤ Z ≤ S) = 1− α P (S ≤ X̄ − µ σ/ √ n ≤ S) = 1− α P (S · σ√ n ≤ X̄ − µ ≤ S · σ√ n ) = 1− α P (X̄ − Z∗ · σ√ n ≤ µ ≤ X̄ + Z∗ · σ√ n ) = 1− α Ou seja, se escolhermos o nível de significância α = 0, 05 (visitar uma tabela da distribuição Normal Padronizada para identificar o valor de Z∗ associado a outros níveis de significância), obter-se-á o intervalo: [X̄ − 1, 96 · σ√ n ≤ µ ≤ X̄ + 1, 96 · σ√ n ] (1.8) Esse intervalo indica que, com um grau de confiança de 95%, o parâmetro µ encontra-se dentro dessa amplitude (região de confiança), que é uma função dos dados amostrais (e do parâmetro σ, neste caso conhecido). Pode-se visualizar esse exemplo em um gráfico da distribuição Normal da VAX do exemplo Ex.7.1: Z µ Z A área acinzentada representa a probabilidade 1 − α (região de confiança), enquanto que cada área avermelhada corresponde a α 2 (uma vez que é bicaudal). Suponha que você realize 100 amostras aleatórias de mesmo tamanho n, sob as mesmas condições. Significa que você irá calcular X̄1, X̄2, ..., X̄99, X̄100, uma para cada 17 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA amostra. Então, 95 dos intervalos que construir irão conter a verdadeira média de X (ou seja, conterão µ). 1.3.2 Teste de Hipótese O teste de hipótese é essencialmente uma regra que especifica se deve ounão rejeitar uma afirmação acerca de um parâmetro, a partir das evidências fornecidas por uma amostra. Formalmente, podemos defini-lo da seguinte maneira: Def.12.1. Considere o parâmetro θ. Um teste de hipótese consiste na formulação de uma hipótese nula, denominada H0, e uma alternativa, denomidade HA ou H1, de forma que o espaço paramétrico H seja dividido em H0 e HA , onde H0 ∩ HA ̸= ∅ e H0 ∪ HA = H . Então: H0 : θ ∈ H0 HA : θ ∈ HA A estatística de teste T resume e quantifica a evidência amostral contra H0. O procedimento para realizar o teste de hipótese consiste, resumidamente, em 4 etapas: 1. Especifique o nível de significância “α”. 2. Obtenha a distribuição de probabilidade da estatística de teste T sobH0. 3. Obtenha o valor crítico c∗ → região crítica. 4. RejeiteH0 se |T | > |c∗|. É crucial notar que, com o teste de hipótese sobre H0, não se pode fazer afirmações acerca de HA! Deve-se também estar ciente de que, em decorrência da incerteza, pode-se incorrer em erros. Contudo, é possível controlar um dos erros e obter alguma confiança ao se realizar o teste. A seguir, entenderemos os tipos de erros decorrentes do teste de hipótese. 18 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA Tipos de Erro e Função Poder Antes de procedermos, temos que ter em mente a existência/possibilidade de dois tipos de erros derivados do teste de hipótese. Como já dito, ambos são decorrentes de algum grau de incerteza. Os erros são os seguintes: 1. Erro Tipo I: rejeitarH0 quando verdadeira. 2. Erro Tipo II: não rejeitarH0 quando falsa. Oquadro a seguir resume as possibilidades de erro e acerto decorrentes de um teste de hipótese: H0 Verdadeira H0 Falsa Rejeita Erro Tipo I ✓ Não Rejeita ✓ Erro Tipo II Vamos considerar que “α” é a probabilidade de “Erro Tipo I” escolhido pelo pesquisador. Deve-se enfatizar que existe um trade-off entre esses erros: ao diminuir o α, aumenta-se a probabilidade de Erro Tipo II (chamado de β5), ceteris paribus6. Mas, se aumentarmos o tamanho da amostra, o Erro Tipo II tende a diminuir. Ao se escolher α, tem-se o controle sobre a probabilidade de cometer o Erro Tipo I, que consequentemente deriva um teste com nível de confiança de (1 − α)%. Outra função importante é o Poder do Teste, que indica a probabilidade de rejeitar H0 quando ela é falsa. Formalmente, obtemos a FunçãoPoder, em relação a umparâmetro θ, de acordo com a seguinte função: π(θ) = Prob ( Rejeitar H0|θ ∈ HA ) = 1− β Portanto, quanto menor o β, maior será o poder de teste de hipótese. 5Cuidado para não confundir com o termo β de um modelo de regressão linear, que será visto mais adiante. Uma vez que é comum na academia referir-se ao Erro Tipo II como “β”, adota-se o mesmo símbolo neste material. 6Termo em latim, significa tudo o mais constante. 19 G iu se pp e Tr ev is an CAPÍTULO 1. REVISÃO DE CONCEITOS DE ESTATÍSTICA Valor de Probabilidade (P-valor) O p-valor é uma probabilidade que informa a força de evidência contra o H0. Em outras palavras, representa a área (probabilidade) associada à estatística-calculada do teste de hipótese. Como um exemplo, considere o seguinte plot de uma Distribuição Normal Padronizada: −Zα/2 0 Zα/2 Tc Considerando que a estatística T de um teste de hipótese gera um valor calculado Tc, a região azulada do gráfico equivale ao p-valor. Analisar se |T | > |c∗| para rejeitar a hipótese nula é equivalente a avaliar se “p-valor < α”. 20 G iu se pp e Tr ev is an Capítulo 2 Revisão de Matrizes Este capítulo apresenta um resumo dos principais tipos de matriz e também operações com matrizes,que serão necessários para compreender o conteúdo de Regressão Linear Múltipla. Portanto, recomenda-se a leitura deste capítulo antecipadamente ao estudo de Regressão Múltipla, que inicia na subseção 4.4. 2.1 O que é uma Matriz? Umamatriz é uma tabela cujos elementos estão ordenados em linhas e colunas. As matrizes desempenham fundamental papel na organização e simplificação de dados, além de forneceremmétodos de resolução de problemas. Uma matriz, de forma geral, pode ser apresentada da seguinte forma: Am×n = a11 a12 · · · a1n a21 a22 · · · a2n ... ... . . . ... am1 am2 · · · amn Dizemos que a matriz A possui ordemm× n, ou seja, possuim linhas e n colunas. Cada elemento de A pode ser generalizado para aij, onde i = 1, ...,m e j = 1, ..., n. A seguir, veremos os principais tipos de matrizes. 21 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES 2.2 Tipos de Matrizes É importante nos familiarizarmos comalguns tipos dematrizes que aparecerão com alguma frequência a partir da subseção 4.4. Cada tipo é apresentado com um exemplo hipotético, para ajudar na compreensão. Matriz quadrada Matriz que possui o número de linhas igual ao número de colunas. A = 4 9 −2 5 3 Matriz nula Matriz os quais todos os elementos são nulos. A = 0 0 0 0 Matriz identidade Matriz que apresenta todos os elementos de sua diagonal principal iguais a “1”, e os demais elementos, “0”. I = 1 0 0 0 1 0 0 0 1 Matriz transposta A transposta de uma matriz vem da inversão das linhas e colunas de uma outra matriz. Considere A uma matriz qualquer. A Matriz transposta de A, denominada de A′, é uma matriz cujas linhas (colunas) de A′ correspondem às colunas (linhas) de A. A = 12 5 2 1 3 6 −9 0 4 −→ A′ = 12 1 −9 5 3 0 2 6 4 22 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES Matriz coluna Matriz que possui apenas uma coluna de elementos. É também a representação clássica de um “vetor”. A = 6 1 11 Matriz linha Matriz que possui apenas uma linha de elementos. É também a representação clássica de um “vetor transposto”. A = [ 2 29 7 ] Matriz diagonal Uma matriz diagonal é aquela cujos elementos fora de sua diagonal principal são nulos, e os elementos na diagonal principal não-nulos. A = 6 0 0 0 2 0 0 0 3, 8 Matriz triangular Matriz cujos elementos não-nulos na matriz quadrada formam um triângulo. A = 71 0 0 18 11 0 34 60 1 Matriz simétrica Matriz que atende à condição: aij = aji, ∀ i ̸= j. A = 4 −1 19 −1 10 55 19 55 3 23 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES 2.3 Operações com Matrizes 2.3.1 Soma A operação de soma entre matrizes deve atender algumas restrições. Só é possível somar matrizes demesma ordem. Considere duas matrizes: A = 4 6 2 1 , B = 1 5 8 3 Para soma-las, basta somar os elementos em suas respectivas posições: A+B = 4 6 2 1 + 1 5 8 3 = 5 11 10 4 Propriedades 1. A+B = B + A 2. A+ (B + C) = (A+B) + C 3. A+ 0 = A 2.3.2 Multiplicação Sejam Ap×n e Bn×q duas matrizes. A multiplicação entre as matrizes A e B resulta numa matriz C, que herda o número de linhas de A e o número de colunas de B. Para que seja possível a multiplicação, o número de colunas de A deve ser igual ao número de linhas de B. Formalmente, temos: Ap×n · Bn×q = Cp×q. Caso p = q, pode-se também multiplicar B por A. Para realizar a multiplicação, deve-se multiplicar linhas (da primeira matriz) por colunas (da segunda matriz). O exemplo a seguir ilustra melhor como realizar essa operação: 24 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES Exemplo: A3×2 ·B2×3 = C3×3 AB = 2 1 3 2 5 1 · 2 3 1 1 2 1 = 2 · 2 + 1 · 1 2 · 3 + 1 · 2 2 · 1 + 1 · 1 3 · 2 + 2 · 1 3 · 3 + 2 · 2 3 · 1 + 2 · 1 5 · 2 + 1 · 1 5 · 3 + 1 · 2 5 · 1 + 1 · 1 = 5 8 3 8 13 5 11 17 6 Também é possível multiplicar uma matriz por um escalar. A matriz resultante apresenta todos os elementos da matriz de referência multiplicados por esse número. Exemplo: 4 · A2×2 4A = 4 · 3 4 2 6 = 4 · 3 4 · 4 4 · 2 4 · 6 = 12 16 8 24 Propriedades 1. k · (A+B) = k · A+ k ·B 2. (k1 + k2) · A = k1 · A+ k2 · A 3. k1 · (k2 · A) = (k1 · k2) · A 4. AB ̸= BA (na maioria dos casos!) 5. Se AB = 0, ou A = 0 ou B = 0 6. AI = IA, se tiverem mesma ordem 7. A · (B + C) = AB + AC 8. (AB) · C = A · (BC) 9. (AB)′ = B′A′ 2.4 Cálculo do Determinante 2.4.1 Matriz 2× 2 Para o caso de umamatriz 2×2, o cálculo é bastante simples. Para obtê-lo, subtrai-se o produto dos elementos da diagonal secundária do produto dos elementos da diagonal 25 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES principal: Exemplo: det A2×2 A = 4 7 1 5 −→ det A = 4 · 5− 1 · 7 = 13 2.4.2 Matriz 3× 3 Veremos apenas umamaneira1 de calcular o determinante de umamatriz de ordem 3× 3. Para calcula-lo, deve-se seguir os passos abaixo: 1. Repetir as duas primeiras colunas da respectiva matriz e coloca-las no canto direito dessa matriz. 2. Multiplica-se os elementos das três diagonais “principais”, e os três produtos são somados. 3. Fazer a mesma operação com as diagonais “secundárias”. 4. Subtrai-se o resultado 3. do resultado 2.. Então, considere a matriz: A = 1 3 2 1 2 2 3 4 1 Calculando o determinante de A, seguindo os passos acima: det A = 1 3 2 1 3 1 2 2 1 2 3 4 1 3 4 = (1 ·2 ·1+3 ·2 ·3+2 ·1 ·4)− (3 ·2 ·2+4 ·2 ·1+1 ·1 ·3) = 5 1Para outros métodos relacionados ao cálculo de determinante, consulte um livro de Álgebra Linear. 26 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES 2.5 Matriz Inversa Considere uma matriz A. A matriz inversa de A, usualmente denominada A−1, é uma matriz que atende à seguinte propriedade: se AA−1 = I e A−1A = I. Ela pode ser obtida da seguinte forma: A−1 = 1 det A · Aadj A matriz adjunta Aadj é a matriz transposta da matriz dos cofatores. Seja A uma matriz de ordem 3 × 3. Para obtermos sua matriz dos cofatores, precisamos executar o seguinte passo-a-passo: 1. Suprimir toda a linha e coluna do elemento da matriz do cofator que se deseja calcular; 2. Calcular o determinante da matriz de ordem 2× 2 restante; 3. Multiplicar o determinante obtido por (−1)i+j, sendo i e j as coordenadas de sua posição na matriz (respectivamente, linha e coluna); 4. Repetir os passos anteriores para todos os elementos da matriz A; 5. Montar uma nova matriz, com os elementos tendo a ordem dos resultados das operações realizadas. 6. Transpor a nova matriz obtida. Vamos exemplificar como obter uma matriz inversa. Considere a seguinte matriz: A = 3 2 4 2 5 1 4 1 2 Note que, como essa é uma matriz simétrica, a transposta da matriz dos cofatores é igual à própriamatriz dos cofatores. Agora, aplicando-se o passo- a-passo indicado, podemos calcular A−1: 27 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES cof11 = (−1)1+1 · det 5 1 1 2 = (−1)1+1 · 9 = 9 cof12 = (−1)1+2 · det 2 1 4 2 = (−1)1+2 · 0 = 0 cof13 = (−1)1+3 · det 2 5 4 1 = (−1)1+3 · (−18) = −18 cof21 = (−1)2+1 · det 2 4 1 2 = (−1)2+1 · 0 = 0 cof22 = (−1)2+2 · det 3 4 4 2 = (−1)2+2 · (−10) = −10 cof23 = (−1)2+3 · det 3 2 4 1 = (−1)2+3 · (−5) = 5 cof31 = (−1)3+1 · det 2 4 5 1 = (−1)3+1 · (−18) = −18 cof32 = (−1)3+2 · det 3 4 2 1 = (−1)3+2 · (−5) = 5 cof33 = (−1)3+3 · det 3 2 2 5 = (−1)3+3 · 11 = 11 Aadj = 9 0 −18 0 −10 5 −18 5 11 ′ = 9 0 −18 0 −10 5 −18 5 11 Sabendo que detA = −45 e conhecendo sua matriz adjunta, podemos então encontrar a matriz inversa de A: A−1 = 1 −45 · 9 0 −18 0 −10 5 −18 5 11 = − 9 45 0 18 45 0 10 45 − 5 45 18 45 − 5 45 −11 45 28 G iu se pp e Tr ev is an CAPÍTULO 2. REVISÃO DEMATRIZES Dominar o cálculo de uma matriz inversa é essencial para realizar a estimação dos parâmatros de um modelo de regressão linearpor meio de matrizes, como será visto na seção 4.4. Por fim, ressaltamos dois pontos importantes: 1. Se uma das colunas for uma combinação linear de outra, a matriz não é inversível, dado que seu determinante será igual a zero. 2. Como trabalharemos com matrizes simétricas, o passo da transposição da matriz dos cofatores “pode ser ignorado”. 29 G iu se pp e Tr ev is an Capítulo 3 Introdução 3.1 O que é Econometria? É um conjunto de técnicas que utiliza de métodos estatísticos — Regressão Linear —para encontrar relações entre variáveis de interesse, testar teorias e avaliar políticas. Esse termo é usado pelos economistas desde a década de 1920, embora originalmente tenha sido criado comumpropósito diferente de como se utiliza nos temposmodernos. De forma mais ampla, envolvia o emprego de técnicas estatísticas e matemáticas — e não restritamente ao uso de regressão linear — no contexto da Macroeconomia. Em Ciências Contábeis, o termo foi adaptado para “Contabilometria” — portanto, Econometria para Contabilidade— e passou a ser empregadomais recentemente, por volta dos anos 1980, com os mesmos princípios iniciais da Econometria. Contudo, o uso do termo é voltado para aplicações de interesse do profissional contábil. Atualmente, também sofre as mesmas adaptações em relação ao tipo de métodos que aborda. O termo Contabilometria não é preferido (pelo menos, não ainda) em relação ao uso do termo “Econometria”. No contexto desta disciplina, é usado como um sinônimo de Econometria. Para entender do que se trata a Econometria, vamos desenvolver um exemplo didático. Suponha que se esteja interessado em compreender como o lucro de uma empresa se relaciona com informações contábeis e outras características da firma. Denotando essa relação em linguagem matemática, considere o seguinte modelo: Lucro = f(empréstimos,ativo circulante, setor, qtde. de investidores, ...) A primeira pergunta que vem à mente é: qual(ais) é(são) o(s) parâmetro(s) que estamos interessados em interpretar? 30 G iu se pp e Tr ev is an CAPÍTULO 3. INTRODUÇÃO 1. Empréstimos, ativo circulante: como R$1,00 adicional influencia o lucro da empresa? 2. Setor: compreender os diferenciais de lucro entre os diversos setores. 3. Qtde. de investidores: como um investidor adicional contribui para a variação no lucro da empresa? 4. Entre outros... Para poder responder essa pergunta, vamos utilizar um exemplo numérico: Ex.3.1: Considere umapopulação de empresas de capital aberto e a VA, denominada L, o lucro dessas empresas. Obteve-se uma amostra aleatória dos lucros de n = 140 firmas. A distribuição é dada pelo seguinte histograma: 2 3 4 5 6 7 8 0 10 20 30 40 50 10 15 25 40 25 15 10 Lucro (em milhões de R$) F re qu ên ci a Utilizando cada classe k de lucro da amostra do exemplo Ex.3.1 (portanto, tem- se um total de K = 7), pode-se calcular o lucro médio (L̄) utilizando o estimador da Esperança populacional, dado por: L̄ = 7∑ k=1 Lkf(Lk) = 2 · 10 140 + 3 · 15 140 + 4 · 25 140 + 5 · 40 140 + 6 · 25 140 + 7 · 15 140 + 8 · 10 140 = 5 31 G iu se pp e Tr ev is an CAPÍTULO 3. INTRODUÇÃO Vamos denominar o Valor Esperado do Lucro como E(L) = β0. Neste exemplo Ex.3.1, L̄ é um estimador para β0. Considerando cada empresa da amostra como uma observação i, poderia-se reescrever o estimador de β0 também como: β̂0 = n∑ i=1 Li n Note que β̂0 = L̄. Contudo, o que estamos realmente interessados neste momento é no lucro médio condicionado a outros fatores. Dito de outra forma, queremos saber como esse lucro médio varia conforme outros fatores da firma variam. No caso, vamos focar no comportamento do lucro dado o número de investidores da empresa. Mas, primeiro, precisamos entender uma importante propriedade. Para cada classe de lucro, temos: Lk = L̄+ errok = erro1 = 2− 5 = −3 erro2 = 3− 5 = −2 erro3 = 4− 5 = −1 erro4 = 5− 5 = 0 erro5 = 6− 5 = 1 erro6 = 7− 5 = 2 erro7 = 8− 5 = 3 O termo errok, que é o mesmo para todas as empresas da classe k, representa o desvio do lucro em relação à sua média. Ao se considerar toda a amostra, pode-se perceber a seguinte propriedade: K∑ k=1 errok · f(errok) = ( −3 · 11 140 ) + ( −2 · 15 140 ) + ( −1 · 25 140 ) + 0 · 40 140 + + 1 · 25 140 + 2 · 15 140 + 3 · 11 140 = 0 Note que n∑ i erroi = 0, portanto E(erroi) = 0. Então, se o lucro médio é desconhecido e se deseja estima-lo, e ao considerar o modelo: 32 G iu se pp e Tr ev is an CAPÍTULO 3. INTRODUÇÃO Li = β̂0 + erroi, (3.1) onde i = 1, 2, ..., 140 no exemplo Ex.3.1, é possível mostrar que o intercepto é a própria média do lucro: E(Li) = E(β̂0 + erroi) = E(β̂0) + E(erroi) = β0 + 0. Retornando ao nosso interesse inicial, podemos obter uma reta que denote o lucro médio para cada quantidade de investidores. Ilustrativamente, vamos representar essa relação graficamente como: 0 1 2 3 4 5 6 7 8 9 1 0 L u c ro ( e m m ilh õ e s d e R $ ) 10 20 30 40 50 Qtde. de investidores Os pontos vermelhos representam cada combinação (coordenada) de lucro e quantidade de investidores observada na amostra, para cada firma. A reta representa a média condicional do lucro em relação ao número de investidores (mais precisamente, os pontos azulados). É possível perceber que, com essa amostra, aumentos no lucro estão associados a aumentos na quantidade de investidores. 33 G iu se pp e Tr ev is an CAPÍTULO 3. INTRODUÇÃO Diferentemente do modelo da equação 3.1, uma forma funcional para a população que representa o gráfico acima seria dada por: Li = β0 + β1 · qtde. de investidoresi + ui, (3.2) Note que Li = f(qtde. de investidoresi). Para este modelo, β0 (coeficiente linear) nos diz a média do lucro quando não há investidores na empresa. O coeficiente angular, β1, revela o acréscimo médio no lucro (em milhões de R$!) a aumentos unitários na variável “qtde. de investidores”. O último termo da equação, ui, é o erro já apresentado em linhas anteriores. Então, a distância vertical entre umponto vermelho e um ponto azul do gráfico anterior traduz exatamente esse erro (que, neste ponto, podemos dizer que é um desvio em relação à média condicional). A operacionalização, interpretação e implicações inerentes a modelos como o da equação 3.2 são o objeto de discussão deste material. Antes de aprofundarmos sobre a modelagem de regressão linear, precisamos entender as diferentes formas que os dados podem estar estruturados. 3.2 Estrutura dos Dados As diferentes estruturas de dados podem envolver distintas abordagens na estimação dos parâmetros. Contudo, o estudo de regressão linear clássica utiliza dados em corte transversal devido à sua simplicidade, sendo um ponto de partida para compreender o uso de técnicas econométricas com outros tipos de estrutura de dados. Dito isso, enfatizamos que este material se refere exclusivamente ao uso de dados em corte transversal. Corte Transversal (Cross-Section) Consiste num conjunto de unidades observacionais coletadas em um dado instante no tempo. Essas unidades podem ser pessoas, firmas, setores, bairros, países, etc. O exemplo abaixomostra o que seria umabase de dados de 50 empresas, com infomações de seu Patrimônio Líquido (PL) e o Ativo Circulante (AC): 34 G iu se pp e Tr ev is an CAPÍTULO 3. INTRODUÇÃO i PL (milhões) AC 1 0,80 0,3 2 0,70 0,85 3 1,35 1,0 ... ... ... 50 10,1 1,3 Séries Temporais São observações de VA’s ao longo do tempo. A tabela a seguir mostra uma série temporal, em periodicidade anual, de uma firma de capital. A série diz respeito ao preço (Preço) do ativo i. i Preço Ano 1 0,99 2008 1 1,20 2009 1 1,40 2010 ... ... ... 1 1,35 2016 1 1,6 2017 Dados de Corte Transversal Agrupados Neste caso, os dados possuem características tanto de corte transversal quanto de série temporal. Geralmente envolve o uso de coortes geracionais. No exemplo abaixo, temos informações de Patrimônio Líquido 2 coortes temporais com diferentes empresasem cada um deles. i Ano PL 1 2000 1,3 2 2000 5,5 ... ... ... 50 2000 2,1 51 2001 0,06 ... ... ... 100 2001 3,4 35 G iu se pp e Tr ev is an CAPÍTULO 3. INTRODUÇÃO Dados em Painel Representa séries temporais para cada unidade do corte transversal. Neste caso, pode-se acompanhar ao longo do tempo a mesma unidade observacional. O painel pode ser balanceado (todas as unidades são observadas em todos os períodos) ou não- balanceado (quando falta informação de pelo menos um período para pelo menos uma unidade observacional). A tabela a seguir ilustra dados desse tipo, com informações das mesmas firmas em dois momentos no tempo. i Ano PL 1 2000 1,3 1 2001 1,7 2 2000 5,5 2 2001 5,33 ... ... ... 50 2000 3,4 50 2001 2,66 36 G iu se pp e Tr ev is an Capítulo 4 Modelos de Regressão Linear Este capítulo aborda os modelos de Regressão Linear Simples e Múltipla, bem como as hipóteses necessárias para a realização da estimação dos parâmetros de interesse e o método dos Mínimos Quadrados Ordinários. Caso não esteja familiarizado com conceitos básicos de Estatística e operações com matrizes, indicamos a leitura prévia completa das seções 1 e 2 deste material para que os passos desenvolvidos aqui sejam melhor assimilados. 4.1 Regressão Linear Simples Um modelo de Regressão Linear Simples assume a forma da equação 3.2 anteriormente apresentada. De forma geral, podemos expressar o modelo populacional formalmente como: Yi = β0 + β1Xi + ui (4.1) Os elementos que compõem a equação 4.1 são: 1. i: indexador/subscrito que identifica a unidade observacional. 2. Yi: variável dependente (regressando, outcome, indicador de impacto1, va- riável de interesse). 3. Xi: variável independente (regressor, variável explicativa). 1Este termo é especificamente empregado em análises de regressão que envolvem relação de causa e efeito entre duas variáveis. No decorrer do curso, ficará mais claro quando se pode inferir uma relação causal. 37 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR 4. β0 e β1: parâmetros. 5. ui: termo de erro (erro, disturbância). Note que cada unidade de observação i apresenta um valor para Y ,X e u, enquanto que os parâmetros são constantes. Ao se utilizar uma amostra aleatória, podemos estimar os parâmetros da regressão anterior, obtendo a função de regressão amostral: Yi = β̂0 + β̂1Xi + ûi. (4.2) Com exceção dos termos Y e X, que são os mesmos da equação 4.1, temos os seguintes elementos: 1. β̂0 e β̂1: estimadores. 2. ûi: resíduo (estimador do erro). Portanto, nosso objetivo principal em análise de regressão é estimar os parâmetros da função de regressão populacional 4.1 com base na função de regressão amostral 4.2. De certa forma, podemos dizer que a Econometria pode ser resumida a comparações de médias condicionais. 4.2 Hipóteses do Modelo Clássico Os resultados advindos de qualquer teoria precisam partir de hipóteses. Aqui, não é diferente. Durante o curso, será necessário invocar uma oumais hipóteses para obter um determinado resultado. Será extremamente importante que o leitor esteja atento a qual ou quais delas são estritamente necessárias em cada caso. Além disso, é essencial que se entenda em quemomento ela(s) é(são) utilizada(s). A seguir, veremos as principais hipóteses domodelo clássico de regressão2 que norteiam toda a estrutura da análise e interpretações. A primeira hipótese a ser apresentada é, provavelmente, a mais relevante. Isso porque, caso não seja atendida, as estimativas calculadas podem conduzir a 2Ao comparar com outros materiais/livros, o leitor pode notar que elas estão apresentadas de forma condensada, contudo, sem perda de generalidade. 38 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR interpretações extremamente equivocadas. Para poder apresenta-las, vamos utilizar dois pressupostos: Pressuposto 1: E(ui) = 0. Significa que os fatores não-observáveis possuem média zero. O termo de erro ui “esconde” (ou resume) todas as características que não podem ser mensuradas pelo pesquisador, daí o termo “não-observáveis”. O segundo pressuposto é: Pressuposto 2: E(Xiui) = 0. A implicação direta é a de queCov(Xiui) = 0. Isso é facilmente percebido ao utilizar a definição de Covariância: Cov(Xiui) = E(Xiui)− E(Xi)E(ui) = E(Xiui)− E(Xi) · 0 (usando o Pressuposto 1) = 0− 0 (usando o Pressuposto 2) = 0 Então, tomando estes pressupostos simultaneamente, temos como consequência que Xi e ui não são correlacionados. Portanto, sintetizamos ambos os pressupostos em uma única hipótese: H1: E(ui|Xi) = 0 (Exogeneidade). A hipótese de Exogeneidade indica que Xi ⊥ ui. Podemos interpretar que, atendendo-se H1, os fatores não-observáveis não são correlacionados com a variável explicativa. Tambémpodemos afirmar com isso que omodelo especificado é o correto e os parâmetros de interesse são identificáveis, uma vez que não há outros fatores importantes que deveriam estar explicitamente na equação3. Adiante, ficará 3É possível haver outras características não-observáveis que explicam comportamentos da variável dependente, embora não sejam correlacionadas com a(s) variável(eis) explicativa(s) que desejamos inferir uma relação com Y . Nesse caso, a ausência desses fatores não compromete as estimativas dos parâmetros de interesse, mas podem adicionar maior poder explicativo e aumentar precisão das estimativas. A seção 11.1.3 aborda com mais profundidade essa questão. 39 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR mais clara a importância dessa implicação. Utilizando a Lei das Expectativas Iteradas, temos também os seguintes resultados: E(ui) = 0 −→E(ui) = E(E(ui|Xi)) = 0 E(ui) = 0 −→E(Xiui) = E(E(Xiui|Xi)) = E(E(Xi|Xi)E(u|Xi)) = E(Xi E(u|Xi)) = = E(Xi0) = 0 H2: n∑ i=1 (Xi − X̄)2 > 0. Implica ser necessário haver variabilidade no regressor. Ao se abordar regressão múltipla, esta hipótese pode ser substituída por: det(X ′X) ̸= 0. Significa que a matriz X ′X precisa ser inversível, senão não é possível estimar os parâmetros de interesse4 (verifique na subseção 2.5 como isso ocorre matematicamente). Vale ressaltar que é necessário que o número de observações seja maior que o número de parâmetros a serem estimados para que seja possível realizar a estimação dosmesmos. H3: V ar(ui|Xi) = σ2 (Homocedasticidade). A hipótese diz que a variância dos erros é constante, independentemente dos valores de X. H4: Cov(ui, us|Xi, Xs) = 0, ∀ i ̸= s. Ou seja, não pode haver autocorrelação entre os erros de diferentes observações. Esta hipótese possuimaior serventia ao se tratar de dados longitudinais (em painel) ou quando se trabalha com séries temporais. H5: ui ∼ N(0, σ2) (Normalidade dos Erros). Isto é, os erros apresentam distribuição Normal. Esta hipótese será importante ao se realizar inferência estatística. 4Note que a importância desta hipótese está em permitir a operacionalização matemática do problema. 40 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR Antes de apresentar o método de estimação dos parâmetros, vamos retornar ao ponto de que a Econometria lida essencialmente com médias condicionais. Uma vez apresentados o modelo de regressão simples e a hipótese H1, é possível mostrar que a reta de regressão equivale a umamédia condicional. Partindo domodelo populacional 4.1, basta tirar a Esperança Condicional de Yi em relação aXi: E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = E(β0|Xi) + E(β1Xi|Xi) + E(ui|Xi) = β0 + β1 E(Xi|Xi) + 0 = β0 + β1Xi No penúltimo passo, perceba que E(Xi|Xi) = Xi. Tomando-se a função de regressão amostral, podemos então estimar E(Yi|Xi), que denotaremos como Ŷi. Ou seja, no modelo de regressão amostral, temos que: Ŷi = β̂0 + β̂1Xi Mas, como estimar todos esses parâmetros? A subseção seguinte apresenta o método dosMínimos Quadrados Ordinários como alternativa. 4.3 Método dosMínimosQuadradosOrdinários (MQO) Na área de Ciências Sociais Aplicadas, o método dos Mínimos Quadrados Ordinários é o mais utilizadona estimação de parâmetros devido às suas propriedades e simplicidade. Para demonstra-lo, iremos partir da equação 4.1, referente à população. A partir de agora, para facilitar a escrita, omitir-se-ão os subscritos e sobrescritos dos somatórios. Para estimarmos β0 e β1, utilizaremos um processo de minimização do quadrado dos erros: argmin ∑ u2i = argmin ∑ (Yi − β0 − β1Xi)2 Para iniciar o processo de minimização, necessitamos assumir H1 (e H2). Para facilitar a notação, chamaremos argmin ∑ u2i de S(β0, β1): 41 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR S(β0, β1) = ∑ (Yi − β0 − β1Xi)(Yi − β0 − β1Xi) = ∑ [Y 2i − 2β0Yi − 2β1XiYi + 2β1Xiβ0 + β20 + (β1Xi)2] = ∑ Y 2i + nβ 2 0 + β 2 1 ∑ X2i + 2β0β1 ∑ Xi − 2β0 ∑ Yi − 2β1 ∑ XiYi A seguir, aplicamos as condições de primeira ordem: ∂ S(β0, β1) ∂ β0 = 2nβ0 + 2β1 ∑ Xi − 2 ∑ Yi = 0 ∂ S(β0, β1) ∂ β1 = 2β1 ∑ X2i + 2β0 ∑ Xi − 2 ∑ XiYi = 0 Ao se igualar tais condições a zero, elas são válidas apenas para valores específicos de β0 e β1 (neste caso, passarão a ser os estimadores dos parâmetros). Então: nβ̂0 + β̂1 ∑ Xi = ∑ Yi (4.3) β̂1 ∑ X2i + β̂0 ∑ Xi = ∑ XiYi (4.4) As equações 4.3 e 4.4 são conhecidas como equações normais. Multiplicando-se a equação 4.3 por ∑ Xi e a equação 4.4 por n, tem-se: nβ̂0 ∑ Xi + β̂1( ∑ Xi) 2 = ∑ Yi ∑ Xi (4.5) nβ̂1 ∑ X2i + nβ̂0 ∑ Xi = n ∑ XiYi (4.6) Por fim, subtraindo 4.5 de 4.6, anulamos os termos iguais, e ficamos com: nβ̂1 ∑ X2i − β̂1( ∑ Xi) 2 = n ∑ XiYi − ∑ Yi ∑ Xi β̂1[n ∑ X2i − ( ∑ Xi) 2] = n ∑ XiYi − ∑ Yi ∑ Xi 42 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR Logo, obtemos o estimador de β1 como: β̂1 = n ∑ (XiYi)− ∑ Yi ∑ Xi n ∑ X2i − ( ∑ Xi)2 (4.7) = ∑ (Xi − X̄)Yi∑ (Xi − X̄)2 = ∑ (Xi − X̄)(Yi − Ȳ )∑ (Xi − X̄)2 = Cov(Xi, Yi) V ar(Xi) Note que as quatro linhas em 4.7 são equivalentes entre si (é o mesmo estimador), denotando diferentes maneiras de se obter a estimativa para β̂1. Perceba também que Ȳ = ∑ Yi n e X̄ = ∑ Xi n são as médias amostrais de Yi eXi, respectivamente. O estimador de β0 pode ser obtido da seguinte forma: Yi = β̂0 + β̂1Xi + ûi∑ Yi n = ∑( β̂0 + β̂1Xi + ûi n ) Ȳ = ∑ β̂0 n + β̂1 · ∑ Xi n + ∑ ûi n Ȳ = β̂0 + β̂1X̄ + 0 β̂0 = Ȳ − β̂1X̄ (4.8) Vamos agora entender a aplicabilidade de um modelo de regressão com um exemplo. Ex.4.1: Foram coletadas informações contábeis de uma amostra aleatória de 6 empresas. As informações se referem ao grau de endividamento (GE) e ao giro do ativo (GA), ambos em milhões de R$. A tabela abaixo organiza tais informações: 43 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR i GE GA 1 5,27 1,03 2 18 1,61 3 0,59 0,7 4 1,05 0,64 5 2,52 1,01 6 0,88 0,57∑ 28,31 5,56 Deseja-se saber como o grau de endividamento afeta o giro do ativo. Para facilitar o entendimento e a interpretação, vamos assumir5 H1 (e H2). Desejamos estimar os parâmetros do seguinte modelo: GAi = β0 + β1GEi + ui Para estimar β1, vamos utilizar o estimador deMQOvisto em4.7 (você pode utilizar qualquer uma das funções em 4.7): β̂1 = n ∑ (XiYi)− ∑ Yi ∑ Xi n ∑ X2i − ( ∑ Xi)2 Para obter a estimativa de β̂1, vamos criar uma tabela com os dados demandados pela função acima (note queXi equivale à variável GEi). Assim, temos (os valores são aproximados): i GE ·GA GE2 1 5,4281 27,7729 2 28,98 324 3 0,413 0,3481 4 0,672 1,1025 5 2,5452 6,3504 6 0,5016 0,7744∑ 38,5399 360,3483 Atente para a diferença entre ∑ GE2i = 360, 3483 (lê-se somatório do quadrado deGE) e ( ∑ GEi) 2 = (28, 31)2 = 801, 4561 (quadradodo somatório deGE). Assim, 5Na prática, essamodelagem pode não ser verdadeira. De fato, a maior probabilidade é a de quenão seja verdadeira, uma vez que vários outros fatores estão correlacionados com o grau de endividamento da empresa e explicam o giro do ativo. Basta pensar na habilidade do contador que faz essa gestão... como mensurar essa habilidade? 44 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR substituindo os valores na expressão de β̂1, temos: β̂1 = 6 · 38, 5399− 5, 56 · 28, 31 6 · 360, 3483− 801, 4561 = 0, 05426574 ∼= 0, 054 Uma vez que consideramos a hipótese H1 como atendida, podemos interpretar β̂1 como um efeito do grau de endividamento sobre o giro do ativo (ou seja, uma relação causal entre as variáveis). Isso porque nenhum outro fator que está(ão) contido(s) no termo de erro pode confundir a relação de interesse, já que não possuem relação com o grau de endividamento das firmas. Então, podemos interpretar que o aumento de 1 milhão de R$ no grau de endividamento da empresa provoca, emmédia, um aumento de aproximadamente R$ 0,054milhão no giro do ativo. Como o numerador do estimador de β1 é uma covariância, o sinal reflete a direção da relação entre as variáveis. Para obter a estimativa de β̂0, fazemos: β̂0 = GA− 0, 05426574 ·GE β̂0 = 0, 92666...− 0, 25604385 β̂0 = 0, 67062282 ∼= 0, 671 Neste caso, a interpretação de β̂0 é de que a média do giro do ativo é aprox. R$0,671milhão quando o grau de endividamento da firma é igual a “zero”. Vale ressaltar que não precisamos de nenhuma outra hipótese para estimar os valores dos parâmetros de interesse que não H1 (e H2). Tendo os valores de β̂0 e β̂1, podemos realizar previsões dos valores de Y , realizando extrapolações ou interpolações. Em outras palavras, podemos estimar a média condicional E(GAi|GEi), ou seja, ĜAi, a partir do GEi: ĜAi = β̂0 + β̂1GEi ĜAi = 0, 671 + 0, 054 ·GEi Por exemplo, se quisermos uma previsão do Giro do Ativo da 4a empresa observada (i = 4) com base no seu Grau de Endividamento (GE4), fazemos: 45 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR ĜA4 = 0, 67062282 + 0, 05426574 ·GE4 = 0, 67062282 + 0, 05426574 · 1, 05 = 0, 727601847 Tambémpodemos calcular os resíduos dos valores observados. Para o caso de i = 4, o û4 é calculado da seguinte forma: û4 = GA4 − ĜA4 = GA4 − (β̂0 + β̂1GE4) = 0, 64− 0, 727601847 = −0, 087601847 Lembre-se de que û4 é a diferença entre o valor observado e o valor previsto, sendo então o termo de erro estimado. Como pode-se ver, neste caso, o valor previsto foi maior do que o valor observado (num plano cartesiano, o ponto observado (y, x) estará abaixo do ponto (ŷ, x)). 4.4 Regressão Linear Múltipla O modelo de Regressão Linear Múltipla considera a relação da variável de interesse com mais de uma variável explicativa. Esta associação entre regressando e regressores pode ser expressa pelo seguinte modelo: Yi = β0 + β1X1,i + β2X2,i + · · ·+ βk−2Xk−2,i + βk−1Xk−1,i + ui (4.9) Num modelo de regressão simples, tínhamos 2 parâmetros a serem estimados. Num modelo de regressão múltipla, estendemos a possibilidade de estimar k parâmetros (ou seja, β0, β1, ..., βk−2, βk−1). Com k parâmetros, tem-se k−1 regressores. Nosso objetivo agora é simplificar a notação da equação 4.9 e escrevê-la na linguagem matricial. Em um conjunto com n observações, podemos mostrar a função 4.9 para cada unidade observacional: 46 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR Y1 = β0 + β1X1,1 + β2X2,1 + · · ·+ βk−1Xk−1,1 + u1 Y2 = β0 + β1X1,2 + β2X2,2 + · · ·+ βk−1Xk−1,2 + u2 Y3 = β0 + β1X1,3 + β2X2,3 + · · ·+ βk−1Xk−1,3 + u3 ... Yn = β0 + β1X1,n + β2X2,n + · · ·+ βk−1Xk−1,n + un Agora, vamos utilizar as linhas acima para montar as seguintes matrizes: Yn×1 = Y1 Y2 ... Yn ; Xn×k = 1 X1,1 X2,1 · · · Xk−1,1 1 X1,2 X2,2 · · · Xk−1,2 ... ... ... . . . ... 1 X1,n X2,n · · · Xk−1,n ; βk×1 = β0 β1 ... βk−1 ; un×1 = u1 u2 ... un Desse modo, compreendendo que os termos Y , X, β e u representam matrizes, podemos reescrever o modelo de regressão múltipla de forma reduzida, em linguagem matricial: Y = Xβ + u (4.10) Assim como visto anteriormente, teremos a função de regressão linear amostral dada pela seguinte equação: Y = Xβ̂ + û (4.11) Você deve notar queos subscritos i já não sãomais necessários nessa representação do modelo de regressão. Devido à simplicidade dos cálculos, iremos nos restringir a exemplos que utilizam no máximo 2 regressores. A partir de agora, você deve estar atento quando uma expressão se referir a uma matriz ou não. Obviamente, é possível também representar um modelo de regressão simples utilizando a notação matricial. Nesse caso, note que a matriz X teria apenas duas colunas e a matriz β apenas duas linhas. A seguir, derivamos o estimador de MQO na forma matricial e exemplificamos como obter estimativas dos parâmetros. 47 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR Estimação dos Parâmetros da Regressão Linear Múltipla por MQO Devido à simplicidade dos passos, vamos demonstrar como realizar o processo de minimização dos erros (MQO) utilizando notação matricial. Note que podemos reescrever o somatório do quadrado dos erros da seguinte maneira: u′u1×1 = [ u1 u2 · · · un ] 1×n · u1 u2 ... un n×1 = [ u1 · u1 + u2 · u2 + · · ·+ un · un ] 1×1 = ∑ u2i Assim como ∑ u2 resulta em um único valor, a matriz u′u resultante possui ordem 1 × 1. Agora, vamos iniciar o processo de minimização de u′u, deixando à mostra a ordem de cada matriz: argmin u′u = argmin (Yn×1 −Xn×kβk×1)′(Yn×1 −Xn×kβk×1) S(β) = Y ′ 1×nYn×1 − Y ′1×nXn×kβk×1 − β′1×kX ′k×nYn×1 + β′1×kX ′k×nXn×kβk×1 Uma vez que Y ′Xβ = β′X ′Y , por resultarem em um escalar, obtemos: S(β) = Y ′Y − 2β′X ′Y + β′X ′Xβ Para obter os estimadores, resolvemos a condição de primeira ordem: ∂ S(β) ∂ β′ = −2X ′Y + 2X ′Xβ = 0 X ′Xβ̂ = X ′Y (X ′X)−1X ′Xβ̂ = (X ′X)−1X ′Y β̂ = (X ′X)−1X ′Y (4.12) Note que, na penúltipa linha, (X ′X)−1X ′Xβ̂ = Iβ̂. A seguir, vamos ilustrar como obter estimativas dos parâmetros a partir de um modelo de regressão múltipla. 48 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR Ex.4.2: Considere uma nova amostra aleatória das firmas do exemplo Ex.4.1. Além do GE e do GA, também foram coletados dados sobre os anos de estudo dos CEO’s das empresas. Os dados estão organizados conforme a tabela a seguir: i GA GE Anos 1 2 1,2 15 2 1,5 0,8 10 3 3 1,5 15 4 2 1 12 5 1 2 10∑ 9,5 6,5 62 Estamos interessados em estimar os parâmetros do modelo: GAi = β0 + β1GEi + β2Anosi + ui Para estimar a matriz β, usaremos a função β̂ obtida em 4.12 (o cálculo de uma matriz inversa é mostrado detalhadamente na subseção 2.5): X ′X = 1 1 1 1 1 1, 2 0, 8 1, 5 1 2 15 10 15 12 10 · 1 1, 2 15 1 0, 8 10 1 1, 5 15 1 1 12 1 2 10 = 5 6, 5 62 6, 5 9, 33 80, 5 62 80, 5 794 (X ′X)−1 = 8, 37 −1, 53 −0, 498 −1, 53 1, 14 0, 00451 −0, 498 0, 00451 0, 0397 X ′Y = 1 1 1 1 1 1, 2 0, 8 1, 5 1 2 15 10 15 12 10 · 2 1, 5 3 2 1 = 9, 5 12, 1 124 (X ′X)−1X ′Y = −0, 805 −0, 256 0, 245 = β̂0 β̂1 β̂2 49 G iu se pp e Tr ev is an CAPÍTULO 4. MODELOS DE REGRESSÃO LINEAR Dessa forma, obtemos as estimativas dos parâmetros do modelo proposto. Para obter previsões de Y , deve-se utilizar a função: ĜAi = −0, 805− 0, 256 ·GEi + 0, 245 · Anosi 50 G iu se pp e Tr ev is an Capítulo 5 Variância e Covariância dos Estimadores Os estimadores de MQO são VA’s e, por isso, possuem média e variância (e outros momentos). Este capítulo dedica-se à obtenção da matriz de variância e covariância dos estimadores, uma vez que é um momento essencial para realização de inferência estatística. 5.1 Variância e Covariância dos Erros Antes de obtermos as variâncias dos estimadores, devemos estar cientes da necessidade de assumir as hipóteses H3, que diz que a variância dos erros é constante independentemente dos valores de X, e H4, onde os erros não podem ter correlação serial, ou seja, não pode haver autocorrelação. Em linguagem matricial, podemos resumir as duas hipóteses como: E(uu′|X)n×n = E(u21|X) 0 · · · 0 0 E(u22|X) · · · ... ... ... . . . ... 0 · · · · · · E(u2n|X) 51 G iu se pp e Tr ev is an CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES = σ2 0 · · · 0 0 σ2 · · · ... ... ... . . . ... 0 · · · · · · σ2 = σ2I (5.1) Note que H3 implica que os elementos da diagonal de E(uu′|X) são todos iguais a σ2 e que, porH4, os elementos fora da diagonal são todos nulos. Perceba tambémque a ordem dessa matriz é n×n. A seguir, veremos detalhadamente como obter a matriz de variância-covariância de β, separadamente para regressão múltipla e simples. Esteja ciente de que é possível chegar aos mesmos resultados das variâncias e covariâncias num modelo de regressão simples por linguagem matricial. 5.2 Variância e Covariância dos Estimadores (Regressão Múltipla) No contexto de regressão múltipla, podemos mostrar V ar(β̂j) e Cov(β̂j; β̂j′) por meio de uma única matriz, a qual chamaremos de Matriz de Variância- Covariância de β̂, denotada por Cov(β̂|X) = Cov(β̂). Vamos partir de 6.2 e reorga- nizar a função da seguinte forma: β̂ = (X ′X)−1X ′(Xβ + u) β̂ = β + (X ′X)−1X ′u β̂ − β = (X ′X)−1X ′u β̂ − E(β̂) = (X ′X)−1X ′u (5.2) Repare que substituímos β por E(β̂). Isso só pode ser feito se H1 for atendida. Na Seção 6, vamos mostrar que β̂ é um estimador não-viesado de β sob H1 e, portanto, E(β̂) = β. Por enquanto, vamos apenas tomar isso como verdadeiro. Agora, lembremos da definição deVariância emDef.10.1. Podemos escreverCov(β̂|X), matricialmente, como: 52 G iu se pp e Tr ev is an CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES Cov(β̂|X) = E[(β̂ − E(β̂))(β̂ − E(β̂))′|X] (5.3) Para facilitar a compreensão da ordem da matriz resultante, vamos mostrar a ordem de cada matriz em todos os passos seguintes. Substituindo 5.2 em 5.3, obtemos a matriz de variância-covariância de β̂ da seguinte maneira: Cov(β̂|X)k×k = E[((X ′X)−1k×kX ′ k×nun×1)((X ′X)−1k×kX ′ k×nun×1) ′|X] = E[(X ′X)−1k×kX ′ k×nun×1u ′ 1×nXn×k(X ′X)−1k×k)|X] = (X ′X)−1k×kX ′ k×n E(uu′|X)n×nXn×k(X ′X)−1k×k = (X ′X)−1k×kX ′ k×nσ 2In×nXn×k(X ′X)−1k×k (assumindo H3 e H4) = σ2(X ′X)−1k×kX ′ k×nIn×nXn×k(X ′X)−1k×k = σ2(X ′X)−1k×kX ′ k×nXn×k(X ′X)−1k×k (note queX ′IX = X ′X) = σ2Ik×k(X ′X)−1k×k (note que (X ′X)−1(X ′X) = I) = σ2(X ′X)−1 (note que I(X ′X)−1 = (X ′X)−1) Como se pode notar, a matriz σ2(X ′X)−1 é de ordem k× k. Após multiplicar σ2 por todos os elementos da matriz (X ′X)−1, obtém-se todas as Variâncias e Covariâncias: Cov(β̂|X) = V ar(β̂0) Cov(β̂0, β̂1) · · · Cov(β̂0, β̂k−1) Cov(β̂1, β̂0) V ar(β̂1) · · · Cov(β̂1, β̂k−1) ... ... . . . ... Cov(β̂k−1, β̂0) Cov(β̂k−1, β̂1) · · · V ar(β̂k−1) (5.4) Repare que as Variâncias dos estimadores estão dispostas na diagonal principal, enquanto que todos os outros elementos correspondem às Covariâncias entre os estimadores. A matriz Cov(β̂|X) herda a simetria da matriz (X ′X)−1. 53 G iu se pp e Tr ev is an CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES 5.3 Variância e Covariância dos Estimadores (Regressão Simples) Apesar de chegarmos ao mesmo resultado utilizando o cálculo por matrizes, desenvolveremos aqui a forma funcional das variâncias e covariância dos estimadores de um modelo de regressão linear simples. Nummodelo de regressão simples, k = 2. Portanto, amatrizCov(β̂|X) apresentará ordem 2 × 2. Observando 5.4, essa matriz terá apenas as duas primeiras linhas e colunas, ou seja: Cov(β̂|X) = V ar(β̂0) Cov(β̂0, β̂1) Cov(β̂1, β̂0) V ar(β̂1) Operacionalizando os cálculos matriciais para um modelo de regressão simples, podemos mostrar que: X ′X = 1 1 1 · · · 1 X1 X2 X3 · · · Xn . 1 X1 1 X2 ... ... 1 Xn = n ∑Xi∑ Xi ∑ X2i A Matriz Inversa, como sabemos, é encontrada multiplicando-se o inverso do determinante pela matriz adjunta: (X ′X)−1 = 1 n ∑ X2i − ( ∑ Xi)2 ·X ′XAdj (5.5) Neste caso, a matriz adjunta X ′XAdj é mais simples de se calcular, por ser uma matrix de ordem 2 × 2. Para deriva-la, precisamosapenas inverter os elementos da diagonal principal de X ′X e multiplicarmos a diagonal secundária por −1. Teremos então: 54 G iu se pp e Tr ev is an CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES X ′Xadj = ∑X2i −∑Xi − ∑ Xi n (5.6) Substituindo 5.6 em 5.5 e multiplicando por σ2, obtemos a matriz quadrada Cov(β̂|X) de um modelo de regressão simples: Cov(β̂|X) = σ 2 n ∑ X2i − ( ∑ Xi)2 · ∑X2i −∑Xi − ∑ Xi n = σ2 ∑ X2i n ∑ X2i − ( ∑ Xi)2 − σ2 ∑ Xi n ∑ X2i − ( ∑ Xi)2 − σ2 ∑ Xi n ∑ X2i − ( ∑ Xi)2 σ2n n ∑ X2i − ( ∑ Xi)2 Não surpreendentemente, os elementos da diagonal revelam as variâncias de β0 e β1. Repare que temos apenas uma covariância. Isso acontece pois, como a matriz anterior é simétrica, Cov(β̂0, β̂1) = Cov(β̂1, β̂0). Esses momentos podem ser calculados separadamentes pelas seguintes funções: V ar(β̂0) = σ2 ∑ X2i n ∑ X2i − ( ∑ Xi)2 (5.7) V ar(β̂1) = σ2n n ∑ X2i − ( ∑ Xi)2 (5.8) Cov(β̂0, β̂1) = −σ2 ∑ Xi n ∑ X2i − ( ∑ Xi)2 (5.9) Uma maneira alternativa de se calcular V ar(β̂0) e V ar(β̂1) é dada pelas seguintes funções: V ar(β̂0) = σ2 ∑ X2i n ∑ (Xi − X̄)2 V ar(β̂1) = σ2∑ (Xi − X̄)2 Na prática, a matriz de variância-covariância de β̂ não pode ser calculada porque não conhecemos o valor de σ2. A subseção seguinte apresenta um estimador para σ2, com o intuito de estimar a matriz Cov(β̂|X). 55 G iu se pp e Tr ev is an CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES 5.3.1 Estimador de σ2 Na subseção anterior, derivamos a forma funcional das variâncias e covariâncias dos estimadores de MQO. Contudo, repare que esses momentos dependem de σ2, que nada mais é do que a Variância do Erro, ou seja, um parâmetro (portanto, desconhecido). Neste caso, precisamos utilizar um estimador para σ2. Temos duas opções de estimador: 1. σ̂2 = ∑ û2i n 2. S2 = ∑ û2i n− k , onde ∑ û2i representa a soma de todos os resíduos ao quadrado, n é o número de observações e k é o total de parâmetros. Chamamos n−k de graus de liberdade. Iremos preferir utilizar S2, uma vez que σ̂2 é um estimador viesado1 de σ2. A vantagem de se usar S2 é a de que E(S2) = σ2. Sendo assim, usaremos a Variância dos Resíduos para estimar a matriz Cov(β̂|X), bastando substituir σ2 por S2: ̂Cov(β̂|X) = S2(X ′X)−1 (5.10) Vamos utilizar o exemplo Ex.4.1 para ilustrar o cálculo da matriz de variância- covariância de β̂, tanto por linguagem de somatórios quanto por matriz. Vamos iniciar calculando o S2 que, para obte-lo, precisamos resolver primeiro o somatório dos resíduos ao quadrado: û21 = (1, 03− 0, 67062282− 0, 05426574 · 5, 27)2 = (0, 07339673)2 = 0, 005387 û22 = (1, 61− 0, 67062282− 0, 05426574 · 18)2 = (−0, 03740614)2 = 0, 001399 û23 = (0, 7− 0, 67062282− 0, 05426574 · 0, 59)2 = (−0, 002639607)2 = 0, 00000 û24 = (0, 64− 0, 67062282− 0, 05426574 · 1, 05)2 = (−0, 087601847)2 = 0, 007674084 û25 = (1, 01− 0, 67062282− 0, 05426574 · 2, 52)2 = (0, 202627515)2 = 0, 04105791 û26 = (0, 57− 0, 67062282− 0, 05426574 · 0, 88)2 = (−0, 148376671)2 = 0, 022015637∑ û2i = 0, 077540897 1Consulte um livro de Estatística básica para entender porquê tal estimador é viesado. 56 G iu se pp e Tr ev is an CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES Para obter os graus de liberdade nodenominador, deduzimos den = 6 a quantidade de parâmetros a serem estimados k = 2 e aplicamos a função de S2: S2 = 0, 077540897 n− k S2 = 0, 077540897 6− 2 S2 = 0, 019385224 ∼= 0, 0194 Agora podemos estimar a matriz de variância-covariância dos estimadores. Primeiramente, da forma matricial. Devemos calcular X ′X e (X ′X)−1 e, em seguida, S2(X ′X)−1: X ′X = 1 1 1 1 1 1 5, 27 18 0, 59 1, 05 2, 52 0, 88 · 1 5, 27 1 18 1 0, 59 1 1, 05 1 2, 52 1 0, 88 = 6 28, 3 28, 3 360 (X ′X)−1 = 0, 264884 −0, 0208 −0, 0208 0, 00441 S2(X ′X)−1 = 0, 019385224 · 0, 264884 −0, 0208 −0, 0208 0, 00441 = 0, 019385224 · 0, 264884 0, 019385224 · −0, 0208 0, 019385224 · −0, 0208 0, 019385224 · 0, 00441 ∼= 0, 005134 −0, 000403 −0, 000403 0, 000085 Vamos extrair, para melhor visualização, as variâncias e a covariância dos estimadores: ̂V ar(β̂0) = 0, 005134 ̂V ar(β̂1) = 0, 000085 ̂Cov(β̂0, β̂1) = −0, 000403 57 G iu se pp e Tr ev is an CAPÍTULO 5. VARIÂNCIA E COVARIÂNCIA DOS ESTIMADORES Vamos agora calcular cada uma das variâncias e também a covariância usando as funções em 5.7, 5.8 e 5.9. Devemos reparar que os denominadores dessas funções são iguais ao denominador de β̂1 em 4.7, ou seja: n ∑ X2i − ( ∑ Xi) 2 = 6 · 360, 3483− 801, 4561 = 1360, 6337 Como também já temos calculado os seguintes somatórios: ∑ GE2i = 360, 3483 ∑ GEi = 28, 31, basta apenas substituir esses valores em 5.7, 5.8 e 5.9: V ar(β̂0) = 0, 019385224 · 360, 3483 6 · 360, 3483− 801, 4561 = 0, 00513395 ∼= 0, 005134 V ar(β̂1) = 0, 019385224 · 6 6 · 360, 3483− 801, 4561 = 0, 000085483 ∼= 0, 000085 Cov(β̂0, β̂1) = −0, 019385224 · 28, 31 6 · 360, 3483− 801, 4561 = −0, 000403338 ∼= −0, 000403 Como já esperado, os valores das Variâncias e Covariância são os mesmos se calculados por matriz ou por somatório. 58 G iu se pp e Tr ev is an Capítulo 6 Propriedades dos Estimadores de MQO Como visto nos capítulos anteriores, as hipóteses do modelo clássico (nem todas!) são necessárias para que obtenhamos os estimadores dos parâmetros de interesse. Além dessa utilidade, elas proporcionam propriedades desejadas aos estimadores de MQO. Este capítulo trata das propriedades de não-viés e consistência dos estimadores deMQO, bem como deriva a matriz de variância-covariância dos estimadores que será útil ao se realizar inferência. A partir deste momento, assume-se que o leitor já está habituado às notações que envolvemmatriz e somatório, sabendo diferencia-las sem necessidade de aviso prévio. 6.1 Não-viés dos Estimadores Para falarmos de não-viés dos estimadores de MQO, precisamos entender a definição de Viés de um Estimador: Def.6.1. Seja θ um parâmetro e θ̂ um estimador desse parâmetro. Dizemos que θ̂ é um estimador viesado de θ se: 1. E(θ̂) ̸= θ. Essa é uma propriedade bastante indesejada ao se realizar inferência pontual. Desejamos que a média do estimador seja igual ao verdadeiro parâmetro, pois indica que o estimador produzirá uma estimativa acurada do parâmetro de interesse. Note 59 G iu se pp e Tr ev is an CAPÍTULO 6. PROPRIEDADES DOS ESTIMADORES DE MQO que acurácia não é a mesma coisa que precisão, sendo o último relacionado à variabilidade do estimador. Dizemos que um estimador, dentro de estimadores de uma mesma classe (por exemplo, classe dos estimadore não-viesados) é eficiente se possui amenor variância. Vamos ilustrar essa diferença com um simples exemplo envolvendo um jogo de dardos. Considere quatro métodos diferentes de tiro de dardo e um mesmo alvo. Vamos considerar cada umdessesmétodos comoumestimador diferente, θ̂1, θ̂2, θ̂3 e θ̂4. O local onde cada dardo acerta, para cada método de tiro, representa uma estimativa obtida a partir de uma amostra. A figura abaixo mostra os acertos de dardos: 20 1 18 4 13 6 10 15 2 17319 7 16 8 11 14 9 12 5 (Método 1) 20 1 18 4 13 6 10 15 2 17319 7 16 8 11 14 9 12 5 (Método 2) 20 1 18 4 13 6 10 15 2 17319 7 16 8 11 14 9 12 5 (Método 3) 20 1 18 4 13 6 10 15 2 17319 7 16 8 11 14 9 12 5 (Método 4) Para cada um dosmétodos, se pudéssemos imaginar um pontomédio para os tiros, teríamos E(θ̂1), E(θ̂2), E(θ̂3) e E(θ̂4). Quanto mais próximo esse ponto médio do centro do alvo, mais acurado é o método (ou o estimador), pois se aproxima do centro do alvo. Quanto mais concentrados estão os tiros, mais precisos eles são. Ao analisar as quatro situações, chegamos à seguinte conclusão: 60 G iu se pp e Tr ev is an CAPÍTULO 6. PROPRIEDADES DOS ESTIMADORES DE MQO Acurácia Precisão θ̂1 muita muita θ̂2 muita pouca θ̂3 pouca muita θ̂4 pouca pouca Então, nessa ilustração, o estimador
Compartilhar