Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de regressão com duas variáveis: algumas ideias básicas Prof. Janaina Alves - UFRN Origem do termo “regressão” Criado por Francis Galton (1886); Embora existisse uma tendência de que pais altos tivessem filhos altos e os pais baixos tivessem filhos baixos, a estatura média das crianças nascidas de pais com dada estatura tendiam a mover-se ou “regredir” à altura média da população como um todo. A lei da regressão universal de Galton foi confirmada por Karl Pearson (1903), que coletou mais de 1000 registros de altura de membros de grupos familiares. Confirmou-se que filhos de pais altos e baixos regrediam igualmente à altura média da população. Nas palavras de Galton: isso era uma regressão à mediocridade. Análise de regressão Trata, em grande medida, da estimação e/ou previsão do valor médio (para a população) da variável dependente com base nos valores conhecidos, ou fixados, da variável explicativa. Um exemplo hipotético Y – despesas de consumo semanais das famílias em US$; X – renda familiar semanal em US$; População total: 60 famílias. Distribuição condicional das despesas para vários níveis de renda Figura 2.1 Probabilidades condicionais Valores esperados Média incondicional x Média condicional E(Y) = E(Y|X=140) = 101 Então, qual a melhor previsão média das despesas semanais de famílias com renda semanal de US$ 140? O conhecimento da classe de renda nos permite prever melhor o valor médio das despesas de consumo. Esta é a essência da análise de regressão. Linha de regressão populacional Na fig.2.1, os pontos sobre a reta mostram os valores médios condicionais de Y para valores dados de X. A linha que une esses valores médios condicionais é conhecida como linha de regressão populacional (LRP), ou seja, é a regressão de Y contra X. Linha de regressão populacional Conceito de função de regressão populacional (FRP) Cada média condicional E(Y|Xi) é uma função de Xi, onde Xi, é um dado valor de X. Simbolicamente, E(Y|Xi) = f(Xi) Onde: f(Xi) representa uma função da variável explicativa; E(Y|Xi) é uma função linear de Xi, ou função de regressão populacional (FRP). A FRP indica apenas que o valor esperado da distribuição de Y, dado Xi, tem uma relação funcional com Xi. Ou seja, a FRP aponta que a resposta média de Y varia com X. Função de regressão populacional (FRP) Como primeira aproximação ou hipótese, podemos pressupor que a FRP E(Y|X) é uma função linear de Xi, do tipo: O significado do termo “linear” Linearidade nas variáveis: É o caso em que a esperança condicional de Y é uma função linear de Xi, como a função anterior. Por exemplo, a função a seguir não é linear nas variáveis: Linearidade nos parâmetros Porém a função acima é linear nos parâmetros. Ex.: Usando a função acima, vemos que se X assume valor 3, o resultado será uma função linear, ou seja: Linearidade Portanto, a linearidade nos parâmetros é que é relevante para a formulação da teoria da regressão. Portanto, a expressão regressão linear significará sempre uma regressão linear nos parâmetros, os β. Pode ou não ser linear nas variáveis explicativas, os X. Especificação estocástica da FRP Vimos que o aumento médio do consumo das famílias aumenta com o aumento de sua renda. Mas o que acontece com os gastos de consumo de uma dada família em relação a um dado nível de renda? Olhando a tab.2.1 e fig.2.1 vemos que o consumo de uma família não necessariamente aumenta com a renda. Por exemplo, na tab. 2.1 observamos uma família com nível de renda de $100 e cuja despesa de consumo é $65, ou seja, menor que as despesas de consumo de duas outras famílias, com renda mensal de $80. Por outro lado, as despesas médias de consumo aumentam com a renda. Na fig.2.1, dado o nível de renda Xi, as despesas médias de consumo de cada família nessa classe de renda se agrupam em torno do consumo médio de todas as famílias desse Xi, isto é, em torno de sua esperança condicional. Especificação estocástica da FRP Portanto, podemos expressar o desvio de um Yi individual em torno de seu valor esperado como: Onde ui é uma variável aleatória não observável que assume valores positivos ou negativos, chamada de distúrbio estocástico ou termo de erro estocástico. Especificação estocástica da FRP Se supomos que E(Y|Xi) é linear, a equação anterior pode ser escrita como: Assim, as despesas de consumo individuais, dado X=80, podem ser expressas como: Especificação estocástica da FRP Seja ainda: Se tomarmos o valor esperado em ambos os lados dessa equação: Além disso, Assim, a pressuposição de que a linha de regressão passa pelas médias condicionais de Y implica que os valores médios condicionais de ui (condicionados a um dados X) são iguais a zero. O significado do termo de erro estocástico ui representa todas aquelas variáveis omitidas no modelo, mas que, coletivamente, afetam Y. Então, por que não formular um modelo de regressão com o máximo de variáveis possíveis? Algumas razões: Caráter vago (incompleto) da teoria; Falta de dados disponíveis; Variáveis essenciais x variáveis periféricas; Caráter intrinsecamente aleatório do comportamento humano; Variáveis proxy pouco adequadas; Princípio da parcimônia; Forma funcional equivocada. Função de regressão amostral (FRA) Considere a tab.2.4, que é uma amostra aleatória tirada da população da tab.2.1. Função de regressão amostral (FRA) Com base nessa amostra é possível inferir, para a população como um todo, as despesas médias de consumo semanais Y correspondente a um dado X? Qual das duas linhas de regressão representa a linha de regressão populacional “real”? Figura 2.4: linhas de regressão amostral Função de regressão amostral (FRA) As linhas de regressão da fig.2.4 são conhecidas como linhas de regressão amostral. Acredita-se que representem a linha de regressão populacional, mas devido às variações amostrais, elas são aproximações da verdadeira regressão populacional. A contrapartida da função de regressão para a amostra pode ser escrita como: Onde: Y chapéu é o estimador de E(Y|Xi) e os β chapéu são os estimadores dos verdadeiros β. Forma estocástica: Exemplo ilustrativo: salário médio segundo nível de escolaridade Diante desse conteúdo exposto, qual a relação entre variáveis que você gostaria de investigar? 24 7272 121,2 60 i Y n == å bb =+ 12 (|) EYXiXi bb =+ 2 12 (|) i EYXiX bb ==+ 12 (|3)9 EYX
Compartilhar