Buscar

Aula_2_-_Anlise_de_regresso_com_duas_variveis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Análise de regressão com duas variáveis: algumas ideias básicas
Prof. Janaina Alves - UFRN
Origem do termo “regressão”
Criado por Francis Galton (1886);
Embora existisse uma tendência de que pais altos tivessem filhos altos e os pais baixos tivessem filhos baixos, a estatura média das crianças nascidas de pais com dada estatura tendiam a mover-se ou “regredir” à altura média da população como um todo.
A lei da regressão universal de Galton foi confirmada por Karl Pearson (1903), que coletou mais de 1000 registros de altura de membros de grupos familiares.
Confirmou-se que filhos de pais altos e baixos regrediam igualmente à altura média da população.
Nas palavras de Galton: isso era uma regressão à mediocridade.
Análise de regressão
Trata, em grande medida, da estimação e/ou previsão do valor médio (para a população) da variável dependente com base nos valores conhecidos, ou fixados, da variável explicativa.
Um exemplo hipotético
Y – despesas de consumo semanais das famílias em US$;
X – renda familiar semanal em US$;
População total: 60 famílias.
Distribuição condicional das despesas para vários níveis de renda
Figura 2.1
Probabilidades condicionais
Valores esperados
Média incondicional x Média condicional
E(Y) =
E(Y|X=140) = 101
Então, qual a melhor previsão média das despesas semanais de famílias com renda semanal de US$ 140?
O conhecimento da classe de renda nos permite prever melhor o valor médio das despesas de consumo.
Esta é a essência da análise de regressão.
Linha de regressão populacional
Na fig.2.1, os pontos sobre a reta mostram os valores médios condicionais de Y para valores dados de X.
A linha que une esses valores médios condicionais é conhecida como linha de regressão populacional (LRP), ou seja, é a regressão de Y contra X.
Linha de regressão populacional
Conceito de função de regressão populacional (FRP)
Cada média condicional E(Y|Xi) é uma função de Xi, onde Xi, é um dado valor de X. Simbolicamente,
E(Y|Xi) = f(Xi)
Onde: f(Xi) representa uma função da variável explicativa; E(Y|Xi) é uma função linear de Xi, ou função de regressão populacional (FRP).
A FRP indica apenas que o valor esperado da distribuição de Y, dado Xi, tem uma relação funcional com Xi. 
Ou seja, a FRP aponta que a resposta média de Y varia com X.
Função de regressão populacional (FRP)
Como primeira aproximação ou hipótese, podemos pressupor que a FRP E(Y|X) é uma função linear de Xi, do tipo:
O significado do termo “linear”
Linearidade nas variáveis:
É o caso em que a esperança condicional de Y é uma função linear de Xi, como a função anterior.
Por exemplo, a função a seguir não é linear nas variáveis:
Linearidade nos parâmetros
Porém a função acima é linear nos parâmetros.
Ex.: Usando a função acima, vemos que se X assume valor 3, o resultado será uma função linear, ou seja:
Linearidade
Portanto, a linearidade nos parâmetros é que é relevante para a formulação da teoria da regressão.
Portanto, a expressão regressão linear significará sempre uma regressão linear nos parâmetros, os β.
Pode ou não ser linear nas variáveis explicativas, os X.
Especificação estocástica da FRP
Vimos que o aumento médio do consumo das famílias aumenta com o aumento de sua renda.
Mas o que acontece com os gastos de consumo de uma dada família em relação a um dado nível de renda?
Olhando a tab.2.1 e fig.2.1 vemos que o consumo de uma família não necessariamente aumenta com a renda. 
Por exemplo, na tab. 2.1 observamos uma família com nível de renda de $100 e cuja despesa de consumo é $65, ou seja, menor que as despesas de consumo de duas outras famílias, com renda mensal de $80.
Por outro lado, as despesas médias de consumo aumentam com a renda.
Na fig.2.1, dado o nível de renda Xi, as despesas médias de consumo de cada família nessa classe de renda se agrupam em torno do consumo médio de todas as famílias desse Xi, isto é, em torno de sua esperança condicional.
Especificação estocástica da FRP
Portanto, podemos expressar o desvio de um Yi individual em torno de seu valor esperado como:
Onde ui é uma variável aleatória não observável que assume valores positivos ou negativos, chamada de distúrbio estocástico ou termo de erro estocástico.
Especificação estocástica da FRP
Se supomos que E(Y|Xi) é linear, a equação anterior pode ser escrita como:
Assim, as despesas de consumo individuais, dado X=80, podem ser expressas como:
Especificação estocástica da FRP
Seja ainda:
Se tomarmos o valor esperado em ambos os lados dessa equação:
Além disso,
Assim, a pressuposição de que a linha de regressão passa pelas médias condicionais de Y implica que os valores médios condicionais de ui (condicionados a um dados X) são iguais a zero. 
O significado do termo de erro estocástico
ui representa todas aquelas variáveis omitidas no modelo, mas que, coletivamente, afetam Y.
Então, por que não formular um modelo de regressão com o máximo de variáveis possíveis?
Algumas razões:
Caráter vago (incompleto) da teoria;
Falta de dados disponíveis;
Variáveis essenciais x variáveis periféricas;
Caráter intrinsecamente aleatório do comportamento humano;
Variáveis proxy pouco adequadas;
Princípio da parcimônia;
Forma funcional equivocada. 
Função de regressão amostral (FRA)
Considere a tab.2.4, que é uma amostra aleatória tirada da população da tab.2.1.
Função de regressão amostral (FRA)
Com base nessa amostra é possível inferir, para a população como um todo, as despesas médias de consumo semanais Y correspondente a um dado X?
Qual das duas linhas de regressão representa a linha de regressão populacional “real”?
Figura 2.4: linhas de regressão amostral
Função de regressão amostral (FRA)
As linhas de regressão da fig.2.4 são conhecidas como linhas de regressão amostral. 
Acredita-se que representem a linha de regressão populacional, mas devido às variações amostrais, elas são aproximações da verdadeira regressão populacional.
A contrapartida da função de regressão para a amostra pode ser escrita como:
Onde: Y chapéu é o estimador de E(Y|Xi) e os β chapéu são os estimadores dos verdadeiros β.
Forma estocástica:
Exemplo ilustrativo: salário médio segundo nível de escolaridade
Diante desse conteúdo exposto, qual a relação entre variáveis que você gostaria de investigar?
24
7272
121,2
60
i
Y
n
==
å
bb
=+
12
(|)
EYXiXi
bb
=+
2
12
(|)
i
EYXiX
bb
==+
12
(|3)9
EYX

Outros materiais