Buscar

Texto 3 Análise de Regressão

Prévia do material em texto

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
22 
!"PRECISÃO OU 
 ERRO PADRÃO DAS ESTIMATIVAS DOS MÍNIMOS QUADRADOS 
 
 Estimador → Amostra → Estimativas 
 
 
Amostras diferentes podem levar a estimativas diferentes. O que implica na 
necessidade de medidas de precisão dos estimadores 1βˆ e 2βˆ esta precisão é 
medida pelo erro padrão, ou standard error (se). O erro padrão nada mais é do que 
o desvio padrão do estimador, que é obtido através da distribuição amostral do 
estimador. Dados os pressupostos do modelo de regressão Gaussiano ou clássico, 
para os estimadores dos mínimos quadrados de 1β e 2β , sendo Var = variância; 
se = erro padrão; e, σ 2 ou a variância de ui é constante, dado o pressuposto da 
homocedasticidade visto anteriormente, pressuposto do EMQ , ou OLS, tem-se: 
 
 Var ( )!β2 = σ22Σxi ⇒ se ( !β2 ) = 
σ
Σxi
2 
 
Var ( !β1 ) = 
ΣΧ
ΝΣ
i
ix
2
2 σ
2 ⇒ se ( !β1 ) = 
Σ
ΝΣ
X
x
i
i
2
2 σ 
 
 
QUAL O VALOR DA CONSTANTE σ 2 ? 
 
Estimador dos mínimos quadrados para σ 2 
 !σ
2
2
2
=
−
Σ
Ν
ei
 
 
 
onde: N - 2 é o número de graus da liberdade, ou seja o número total de 
observações na amostra menos o número de restrições impostas sobre a soma 
dos quadrados dos resíduos. Em regra geral o número de graus de liberdade (g.l.) 
é igual ao número total de observações na amostra menos o número de parâmetros 
estimados. 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
23 
Exemplo: 
(GUJARATI, 1988) 
 
Consumo vs Renda Familiar Mensal 
 
Hipótese → Consumo = a + b Renda 
 
Supondo as seguintes informações, em $: 
 
Consumo 70 65 90 95 110 115 120 140 155 150 
Renda 80 100 120 140 160 180 200 220 240 260 
 
Obter as estimativas da linha de regressão: consumo mensal vs renda familiar. 
 
Da teoria econômica tem-se o modelo funcional: C = a + b (renda). 
 
Modelo econométrico iii XXY 21)/( ββ +=Ε 
 
Modelo de regressão populacional Y Y X ui i i i= +Ε( / ) 
 
Determina-se: 1βˆ = 24,4545 Var ( )1βˆ = 41,1370 ⇒ se ( )1βˆ = 6,4138 
 2βˆ = 0,5091 Var ( )2βˆ = 0,0013 ⇒ se ( )2βˆ = 0,0357 
 !σ 2 = 42.1591 r 2 = 0,9621 r = 0,9809 gl = 8 
 
Estimativa da Linha de Regressão Amostral ! , ,Υ Χi i= +24 4545 0 5091 
 
 
 
→= 4545,24ˆ1β consumo autônomo (com renda = 0) 
 média ou efeito médio sobre Y (consumo) de todas as 
 variáveis emitidas na regressão. 
 
 r 2 = 0,9621 ⇒ 96% da variação do consumo é explicada pela renda. 
 Lembrando que 10 ≤≤ r2 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
24 
Pressuposto de Normalidade do Modelo de Regressão 
 
No método OLS para o modelo de regressão linear clássico, não foi feito 
nenhum pressuposto quanto à distribuição de iu . Os únicos pressupostos feitos 
foram: 
 - média zero  ( ) 0=Ε iu ; 
 - homocedasticidade  ( ) 2σ=iuVar --- constante; 
 - não autocorrelação  ( ) 0; =Ε ji uu , para i j≠ . 
 
Se o objetivo fosse só estimação pontual, o método dos mínimos quadrados seria 
suficiente, mas a estimação pontual não é o bastante. São necessárias também 
estimações por intervalo e testes de hipóteses. 
Pressuposto de Normalidade 
 
 
( )
( )
( )
( )2
22
;0
0;
0
σ
σ
Ν
=Ε
=Ε
=Ε
~i
ji
i
i
u
uu
u
u
 
Razões do Pressuposto de Normalidade 
 
 (1) Teorema do limite central 
 
 (2) Variante do TLC - se o número de variáveis não for grande 
 (ou se estas variáveis independentes), a soma continua sendo 
 normal. 
 
 (3) Teorema das combinações lineares 
 ⇒ iu normal ⇒ !β1 ~ normal e !β2 normal 
 função linear de variáveis normalmente distribuídas é normalmente 
 distribuída. 
 
 (4) Simplicidade da distribuição normal 
 Envolve somente dois parâmetros, além de ser conhecida e bem 
 estudada. 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
25 
Propriedades dos Estimadores dos Mínimos Quadrados 
com Pressupostos de Normalidade 
 
 ( i ) não tendenciosidade 
 ( ii) consistência 
 (iii) variância mínima (eficiência) 
 (iv) ( )! ;β β σβ1 1 12~ Ν 
 
 
 ( )Ε !β β1 1= σ σβ 12 22 2= ΣΧΝΣ iix 
 
 ( )Ζ Ν= −! ;
!
β β
σβ
1 1
1
01~ 
 (v) ( )! ; !β β σβ2 2 22 ~ Ν 
 
 
 ( )Ε !β β2 2= σ σβ 22 22= Σxi 
 ( )Ζ Ν= −! ;
!
β β
σβ
2 2
2
0 1~ 
 (vi) ( )Ν − 2 2 2 2! /σ σ χ~ com Ν − 2 g.". 
 (vii) ( )! ; !β β1 2 se distribuem independentemente de !σ2 . 
 !β1 e !β 2 têm variância mínima na classe dos estimadores 
 !β1 não tendenciosos, se lineares ou não 
 
 
 
Resultados 
 !β1 ~ Normal 
 !β2 ~ Normal 
 ( )Ν − 2 2 2 2! /σ σ χ~ 
 ~iΥ⇒ Normal com média ( ) ii Χ+=ΥΕ 21 ββ 
 Var ( ) 2σ=Υi 
 ( )221 ;σββ ii ~ Χ+ΝΥ 
 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
26 
ESTIMAÇÃO POR INTERVALO E TESTES DE HIPÓTESES 
 
Intervalos de Confiança Para os Coeficientes da Regressão 
 
 
•••• Intervalo de Confiança para 2β 
 
 Sabe-se que para a construção do intervalo de confiança para 2β : 
 
( )
( )
Ζ Ζ
Σ
=
−
⇒ =
−
!
!
!β β
β
β β
σ
2 2
2
2 2
2
se
xi 
 
pois 
22
)ˆ(
ix
se
Σ
=
σβ ; onde σ é a variância de iu . 
 
σ2 em geral é desconhecido (determinado na prática por !σ2 ). 
 
Com a substituição de !σ por σ , utilizamos a distribuição t-student. 
 
 
 estimador parâmetro 
 
 
 ( )2 22 ˆ
ˆ
β
ββ
se
t −=⇒ ou 
( )
t
xi
=
−
!
!
β β
σ
2 2
2Σ
 
 
 
 erro padrão do estimador 
 
Como se conhece a distribuição t-student pode-se determinar: 
 
 
 ( )Pr / /− ≤ ≤ = −t t tα α α2 2 1 onde g.". = Ν − 2 
 
 ( ) αβββ αα −=



≤
−
≤−⇒ 1ˆ
ˆ
Pr 2/
2
22
2/ tse
t( ) ( )[ ] αβββββ αα −=+≤≤−⇒ 1ˆˆˆˆPr 22/2222/2 setset 
 
 ⇒ IC: ( )22/2 ˆˆ ββ α set± , com ( )1− α % de confiança 
 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
27 
 
•••• Intervalo de Confiança Para 1β 
 
 ( ) ( )( ) αβββββ αα −=+≤≤− 1ˆˆˆˆPr 12/1112/1 setset 
 
 ( )12/1 ˆˆ: ββ α setIC ±⇒ com ( )1− α % de confiança 
 
 
 
 
No exemplo: Consumo vs Renda 
 
 
- intervalo de confiança para 2β 
 
 5091,0ˆ2 =β se ( ) 0357,0ˆ2 =β 
 gl = 8 , com 95% de confiança tα / ,2 2 306= 
 
 IC : ( )0 5091 2 306 0 0357, , ,± ou 0 5091 0 0823, ,± 
 
 
 5914,04268,0 2 ≤≤ β 
 
 
- intervalo de confiança para 1β 
 
 IC: ( )24 4545 2 306 6 4138, , ,± ou 24 4545 14 7902, ,± 
 
 
 2545,396643,9 1 ≤≤ β 
 
 
 
 
 
 
 
 
 
 
 
 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
28 
 
 
•••• Intervalo de Confiança Para σ2 
 
Sob o pressuposto de normalidade ( )χ σ
σ
2
2
22= −Ν
!
 segue uma distribuição 
qui-quadrado com Ν − 2 g.". como ( )Pr / /x x21 2 2 2 2 1− ≤ ≤ = −α αχ α 
 
 
 
 
 
Pr
! !
/ /
Ν Ν−



 ≤ ≤ −







 = −−2 2 1
2
2
2
2
2
2
1 2
σ
σ
σ
α
α αx x
 
 
 
⇒ I.C. com 1− α de confiança 
 
 
 
No exemplo: Consumo vs Renda 
 
 
 ! ,σ2 42 1591= g.". = 8 
 
 
 ⇒ I.C. : 7336,1542347,19 2 ≤≤ σ 
 
 
 
 
 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
29 
!"TESTES DE HIPÓTESES 
 
estatística de teste ( )( )t se= −( ! ) / !*β β β2 2 2 
 
TABELA DE 
 
DECISÃO 
 
Regra de decisão 
rejeita Ho se 
 
Testes Bilaterais 
Ho: β β2 2= ∗ H1 2 2:β β≠ ∗ t > t gα / : . .2 " 
 
Unilateral à direita 
Ho: 22
∗
= ββ H1 1:β > β2∗ t > t gα ; . ." 
 
Unilateral à esquerda 
Ho: 22
∗
= ββ H1 2:β < β2∗ t <−t gα ; . ." 
 
 
No exemplo: Consumo vs Renda --- teste t bilateral 
 
Sabe-se que ! ,β2 0 5091= 
 se ( )! ,β2 0 0357= 
 g." . = 8 
para α = 5% t gα / ; . . ,2 8 2 306" = 
 
( )Pr
!
!/ /
− ≤
−
≤





 = −
∗
t
se
tα α
β β
β
α2
2 2
2
2 1 ( ) ( )( )⇒ − ≤ ≤ + = −∗ ∗Pr ! ! !/ /β β β β β αα α2 2 2 2 2 2 2 1t se t se 
 
para 3,0: 22 ==
∗ββHo 
 
 H1 2 2 0 3: ,β β≠ =∗ ( ) 95,03823,0ˆ2177,0Pr 2 =≤≤⇒ β 
 
 
 
Em geral testa-se 02 ≠β , ou seja testa-se 0: 2 =βHo vs 0: 21 ≠βH 
para verificar se existe relação entre as variáveis resposta explicativa, ou seja, se a 
variável independente “explica” a resposta, daí o valor de t na regressão. 
 
 t-value ou t-valor = !β 2 / se ( !β 2 ) 
 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
30 
 
No exemplo: Consumo vs Renda --- teste t bilateral 
 t-value ou t-valor para !β 2 é dado por 0 50910 0357
,
,
 ⇒ rejeita-se Ho : β2 = 0 
 
 
!"ANÁLISE DE REGRESSÃO E ANÁLISE DE VARIÂNCIA 
 
Para testar a existência de regressão linear entre Y e X, ou seja mostrar que o 
coeficiente de regressão β 2 0≠ , pode-se utilizar análise de variância (ANOVA) 
através do quadro abaixo. 
 
 
FONTE DE 
VARIAÇÃO 
 
 
SOMA DOS 
QUADRADOS 
 
G.L. 
 
QUADRADO 
MÉDIO 
 
FUNÇÃO F 
 
 
(*) Explicada 
(ESS) 
(VE) 
 
 
Σ Σ! !y xi i
2
2
2 2
= β 
 
1 
 
!β 22 2Σxi 
 (1) 
 
( ) ( )( )F 1 2
1
2
;Ν − = 
 
(**) Residual 
(RSS) 
(VR) 
 
 
Σei
2 
 
N - 2 
 
Σ
Ν
ei
2
2
2−
= !σ 
 (2) 
 
 
(***) Total (TSS) 
(VT) 
 
 
Σyi
2 
 
N - 1 
 
 
 
 F calculado 
 
 F ESS
RSS N
=
−/ 2
 
 
 F
x
e
i
i
=
−
β 22 2
2 2
Σ
Σ Ν/
 
 
 ⇒ =F
xi!
!
β
σ
2
2 2
2
Σ
 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
31 
Lembre que: TSS= ESS + RSS 
 Σ Σ Σ Σ Σy y e x ei i i i i
2 2
2
2 2 2
= + = +!β 
 onde, _ 
 (*) Variação explicada pela expressão --- ( )VE Y Yi= −Σ ! 2 
 (**) Variação devida aos resíduos --- ( )VR i i= −Σ Υ Υ! 2 
(***) Variação total --- ( )VT i= −Σ Υ Υ 2 
 
Dado um nível de significância α, procura-se na tabela da distribuição F de 
Snedecor o valor de F (1; N - 2) e compara-se com o F calculado no quadro 
ANOVA. Se F calculado > F tabelado ⇒ Existe regressão de Y sobre X. 
No exemplo consumo vs renda, tem-se: 
QUADRO ANOVA 
 
FONTE DE 
VARIAÇÃO 
 
 
SOMA DOS 
QUADRADOS 
 
GL 
 
QUADRADO 
MÉDIO 
 
F CALCULADO 
 
devido à 
regressão 
 
8.552,73 
 
1 
 
8.552,73 
 
F = 
8552 73
42 159
202 87,
,
,= 
 
devido ao 
resíduo 
 
 337,27 
 
8 
 
42,159 
 
 
TSS 
 
 
8890,00 
 
9 
 
 
Valor de F tabelado com α = 0 05, 
 
 O valor de F é estatisticamente significativo 
 F (1;8) = 5,32 ⇒ rejeita-se a hipótese de que a renda não influencia os 
 gastos de consumo. 
 
Observação: Para F = 202,87 rejeita-se Ho: 02 =β , ou seja existe regressão. 
 De outra forma t-value = 14,26 com 8 g.l. rejeita-se 0: 20 =βH 
 duas alternativas complementares para testar a regressão. 
 Note que ( )14 26 2, = F calculado ---- ( t-value )2 = F calculado. 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
32 
Relação entre Fcalculado e r 2 (coeficiente de determinação) 
 
Existe uma importante relação entre o coeficiente de determinação e o Fcalculado 
utilizado na análise da variância (ANOVA). 
 
( )
( ) ( )F
R k
R N k
=
−
− −
2
2
1
1
/
/
 
 
onde: R2 = r 2 
 k = n° de parâmetros estimados 
 N = o número de observaçõesObservações: 
i. Essas duas estatísticas variam diretamente: limite de r 2 é 1 e de F infinito 
ii. Realizar um teste F (ANOVA), medida de significância da linha de regressão 
estimada, é verificar se r 2 é diferente de zero, ou seja é equivalente a testar 
a hipótese Ho: r 2 = 0. 
 
 
!"APRESENTAÇÃO DOS RESULTADOS DA REGRESSÃO 
 
No Exemplo consumo vs renda 
 
 
 
 =Υiˆ 24,4545 + 0,5091 Χ i 
 (6,4138) (0,0357) 
 
 t = (3,8128) (14,2605) 
 
 r 2 = 0,9621 
 
 g.". = 8 
 
 F1 8 202 87, ,= 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
33 
!"PROBLEMA DE PREDIÇÃO 
Um dos usos da análise de regressão é a previsão, ou predição, da variável 
resposta dado um determinado nível da variável explicativa, ou regressor. Existem 
duas formas de previsão: 
i. predição da média condicional de Y dado X, ou a um dado valor Χ 0 
algum ponto da regressão populacional --- previsão média; 
ii. predição de um valor individual de Y correspondente a um Χ 0 --- 
previsão individual. 
 
- PREVISÃO MÉDIA 
Dado o exemplo anterior, a reta estimada: ! , ,Υ Χi i= +24 4545 0 5091 . Onde: !Υi é 
o estimador do valor verdadeiro de ( )Ε Υi correspondente a um valor de X. Dado 
Χ 0 100= , qual o valor verdadeiro de ( )Ε Υ Χ 0 1 0 0= ? 
Utilizando-se a reta estimada tem-se que: ! ! !Υ Χ0 1 2 0= +β β = 
 ( )= + =24 4545 0 5091 100 75 3676, , , 
!Υ0 = estimador de ( )0ΧΥΕ , e pode-se demonstrar que este preditor linear é o 
melhor estimador linear não-tendencioso (BLUE). Como se trata de um estimador, é 
importante observar sua distribuição amostral: 
 !Υ0 ~ Normal com média β β1 2 0+ Χ , 
 e variância -- ( )V i( ! ) ( / ) /Υ Ν Χ Χ ΣΧ0 2 1 0 2 2= + −  σ , 
ou seja : !Υ0 ~ N (β β1 2 0+ Χ ; ( )V i( ! ) ( / ) /Υ Ν Χ Χ ΣΧ0 2 1 0 2 2= + −  σ ) 
Como a variância σ2 é desconhecida tem-se: ( )[ ] ( )t se= − +! / !Υ Χ Υ0 1 2 0 0β β , que 
segue a distribuição t-student com Ν − 2 graus de liberdade, onde !σ 2 é o 
estimador de σ 2 . 
⇒ Intervalo de confiança ao nível de significância α , é dado por: 
 ( ) ( )[ ]Pr ! ! ! ! ! !/ /β β β β β β αα α1 2 0 2 0 1 2 0 1 2 0 2 0 1+ − < + < + + = −Χ Υ Χ Χ Υt se t se 
 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA 
 
 
DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II 
ANÁLISE DE REGRESSÃO - Prof. André Salles 
 
 
34 
No Exemplo: consumo vs renda 
Var ( ) ( )! , . ,Υ0
2
42 159 1
10
100 170
33000
10 4873= +
−






= ⇒ ( )se ! ,Υ0 3 2383= 
⇒ o intervalo de confiança para o verdadeiro valor ( )Ε Υ Χ/ 0 = β β1 2 0+ Χ , 
 é dado por: 
 
( ) ( )[ ]75 3676 2 306 3 238 100 75 3676 2 306 3 2380, , , , , ( , )− ≤ = ≤ +Ε Υ Χ 
 
( )[ ]⇒ ≤ = ≤67 8965 100 82 83250, ,Ε Υ Χ 
 
- PREVISÃO INDIVIDUAL 
 
Predição de um valorΥ0 , correspondente a um dado valor Χ 0 de X, !Υ0 melhor 
estimador linear não tendencioso é dado por: ! !β β1 2 0+ Χ 
Υ0 ~Normal( ( ) ( )β β σ1 2 0 2 0
2
21
1
+ + +
−







Χ Ν
Χ Χ
ΣΧ
;
i
 ) como σ2 em geral é desconhecido 
Substituindo-se σ2 por !σ2 , tem-se ( ) ( )t se= −Υ Υ Υ0 0 0! / ! ~ t-student com Ν−2 g." 
 
No Exemplo: consumo vs renda 
 
 previsão pontual para Υ0 é 75,3676 = !Υ0 da previsão média 
 
 variância 52,6470 ≠ da Var ( )!Υ0 da previsão média 
 
 I.C. com 95% de confiança para Υ0 , sendo Χ 0 100= 
 
 ⇒ ( )58 6353 100 92 09550 0, ,≤ = ≤Υ Χ 
 
graficamente tem-se:

Continue navegando