Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 22 !"PRECISÃO OU ERRO PADRÃO DAS ESTIMATIVAS DOS MÍNIMOS QUADRADOS Estimador → Amostra → Estimativas Amostras diferentes podem levar a estimativas diferentes. O que implica na necessidade de medidas de precisão dos estimadores 1βˆ e 2βˆ esta precisão é medida pelo erro padrão, ou standard error (se). O erro padrão nada mais é do que o desvio padrão do estimador, que é obtido através da distribuição amostral do estimador. Dados os pressupostos do modelo de regressão Gaussiano ou clássico, para os estimadores dos mínimos quadrados de 1β e 2β , sendo Var = variância; se = erro padrão; e, σ 2 ou a variância de ui é constante, dado o pressuposto da homocedasticidade visto anteriormente, pressuposto do EMQ , ou OLS, tem-se: Var ( )!β2 = σ22Σxi ⇒ se ( !β2 ) = σ Σxi 2 Var ( !β1 ) = ΣΧ ΝΣ i ix 2 2 σ 2 ⇒ se ( !β1 ) = Σ ΝΣ X x i i 2 2 σ QUAL O VALOR DA CONSTANTE σ 2 ? Estimador dos mínimos quadrados para σ 2 !σ 2 2 2 = − Σ Ν ei onde: N - 2 é o número de graus da liberdade, ou seja o número total de observações na amostra menos o número de restrições impostas sobre a soma dos quadrados dos resíduos. Em regra geral o número de graus de liberdade (g.l.) é igual ao número total de observações na amostra menos o número de parâmetros estimados. UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 23 Exemplo: (GUJARATI, 1988) Consumo vs Renda Familiar Mensal Hipótese → Consumo = a + b Renda Supondo as seguintes informações, em $: Consumo 70 65 90 95 110 115 120 140 155 150 Renda 80 100 120 140 160 180 200 220 240 260 Obter as estimativas da linha de regressão: consumo mensal vs renda familiar. Da teoria econômica tem-se o modelo funcional: C = a + b (renda). Modelo econométrico iii XXY 21)/( ββ +=Ε Modelo de regressão populacional Y Y X ui i i i= +Ε( / ) Determina-se: 1βˆ = 24,4545 Var ( )1βˆ = 41,1370 ⇒ se ( )1βˆ = 6,4138 2βˆ = 0,5091 Var ( )2βˆ = 0,0013 ⇒ se ( )2βˆ = 0,0357 !σ 2 = 42.1591 r 2 = 0,9621 r = 0,9809 gl = 8 Estimativa da Linha de Regressão Amostral ! , ,Υ Χi i= +24 4545 0 5091 →= 4545,24ˆ1β consumo autônomo (com renda = 0) média ou efeito médio sobre Y (consumo) de todas as variáveis emitidas na regressão. r 2 = 0,9621 ⇒ 96% da variação do consumo é explicada pela renda. Lembrando que 10 ≤≤ r2 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 24 Pressuposto de Normalidade do Modelo de Regressão No método OLS para o modelo de regressão linear clássico, não foi feito nenhum pressuposto quanto à distribuição de iu . Os únicos pressupostos feitos foram: - média zero ( ) 0=Ε iu ; - homocedasticidade ( ) 2σ=iuVar --- constante; - não autocorrelação ( ) 0; =Ε ji uu , para i j≠ . Se o objetivo fosse só estimação pontual, o método dos mínimos quadrados seria suficiente, mas a estimação pontual não é o bastante. São necessárias também estimações por intervalo e testes de hipóteses. Pressuposto de Normalidade ( ) ( ) ( ) ( )2 22 ;0 0; 0 σ σ Ν =Ε =Ε =Ε ~i ji i i u uu u u Razões do Pressuposto de Normalidade (1) Teorema do limite central (2) Variante do TLC - se o número de variáveis não for grande (ou se estas variáveis independentes), a soma continua sendo normal. (3) Teorema das combinações lineares ⇒ iu normal ⇒ !β1 ~ normal e !β2 normal função linear de variáveis normalmente distribuídas é normalmente distribuída. (4) Simplicidade da distribuição normal Envolve somente dois parâmetros, além de ser conhecida e bem estudada. UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 25 Propriedades dos Estimadores dos Mínimos Quadrados com Pressupostos de Normalidade ( i ) não tendenciosidade ( ii) consistência (iii) variância mínima (eficiência) (iv) ( )! ;β β σβ1 1 12~ Ν ( )Ε !β β1 1= σ σβ 12 22 2= ΣΧΝΣ iix ( )Ζ Ν= −! ; ! β β σβ 1 1 1 01~ (v) ( )! ; !β β σβ2 2 22 ~ Ν ( )Ε !β β2 2= σ σβ 22 22= Σxi ( )Ζ Ν= −! ; ! β β σβ 2 2 2 0 1~ (vi) ( )Ν − 2 2 2 2! /σ σ χ~ com Ν − 2 g.". (vii) ( )! ; !β β1 2 se distribuem independentemente de !σ2 . !β1 e !β 2 têm variância mínima na classe dos estimadores !β1 não tendenciosos, se lineares ou não Resultados !β1 ~ Normal !β2 ~ Normal ( )Ν − 2 2 2 2! /σ σ χ~ ~iΥ⇒ Normal com média ( ) ii Χ+=ΥΕ 21 ββ Var ( ) 2σ=Υi ( )221 ;σββ ii ~ Χ+ΝΥ UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 26 ESTIMAÇÃO POR INTERVALO E TESTES DE HIPÓTESES Intervalos de Confiança Para os Coeficientes da Regressão •••• Intervalo de Confiança para 2β Sabe-se que para a construção do intervalo de confiança para 2β : ( ) ( ) Ζ Ζ Σ = − ⇒ = − ! ! !β β β β β σ 2 2 2 2 2 2 se xi pois 22 )ˆ( ix se Σ = σβ ; onde σ é a variância de iu . σ2 em geral é desconhecido (determinado na prática por !σ2 ). Com a substituição de !σ por σ , utilizamos a distribuição t-student. estimador parâmetro ( )2 22 ˆ ˆ β ββ se t −=⇒ ou ( ) t xi = − ! ! β β σ 2 2 2Σ erro padrão do estimador Como se conhece a distribuição t-student pode-se determinar: ( )Pr / /− ≤ ≤ = −t t tα α α2 2 1 onde g.". = Ν − 2 ( ) αβββ αα −= ≤ − ≤−⇒ 1ˆ ˆ Pr 2/ 2 22 2/ tse t( ) ( )[ ] αβββββ αα −=+≤≤−⇒ 1ˆˆˆˆPr 22/2222/2 setset ⇒ IC: ( )22/2 ˆˆ ββ α set± , com ( )1− α % de confiança UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 27 •••• Intervalo de Confiança Para 1β ( ) ( )( ) αβββββ αα −=+≤≤− 1ˆˆˆˆPr 12/1112/1 setset ( )12/1 ˆˆ: ββ α setIC ±⇒ com ( )1− α % de confiança No exemplo: Consumo vs Renda - intervalo de confiança para 2β 5091,0ˆ2 =β se ( ) 0357,0ˆ2 =β gl = 8 , com 95% de confiança tα / ,2 2 306= IC : ( )0 5091 2 306 0 0357, , ,± ou 0 5091 0 0823, ,± 5914,04268,0 2 ≤≤ β - intervalo de confiança para 1β IC: ( )24 4545 2 306 6 4138, , ,± ou 24 4545 14 7902, ,± 2545,396643,9 1 ≤≤ β UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 28 •••• Intervalo de Confiança Para σ2 Sob o pressuposto de normalidade ( )χ σ σ 2 2 22= −Ν ! segue uma distribuição qui-quadrado com Ν − 2 g.". como ( )Pr / /x x21 2 2 2 2 1− ≤ ≤ = −α αχ α Pr ! ! / / Ν Ν− ≤ ≤ − = −−2 2 1 2 2 2 2 2 2 1 2 σ σ σ α α αx x ⇒ I.C. com 1− α de confiança No exemplo: Consumo vs Renda ! ,σ2 42 1591= g.". = 8 ⇒ I.C. : 7336,1542347,19 2 ≤≤ σ UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 29 !"TESTES DE HIPÓTESES estatística de teste ( )( )t se= −( ! ) / !*β β β2 2 2 TABELA DE DECISÃO Regra de decisão rejeita Ho se Testes Bilaterais Ho: β β2 2= ∗ H1 2 2:β β≠ ∗ t > t gα / : . .2 " Unilateral à direita Ho: 22 ∗ = ββ H1 1:β > β2∗ t > t gα ; . ." Unilateral à esquerda Ho: 22 ∗ = ββ H1 2:β < β2∗ t <−t gα ; . ." No exemplo: Consumo vs Renda --- teste t bilateral Sabe-se que ! ,β2 0 5091= se ( )! ,β2 0 0357= g." . = 8 para α = 5% t gα / ; . . ,2 8 2 306" = ( )Pr ! !/ / − ≤ − ≤ = − ∗ t se tα α β β β α2 2 2 2 2 1 ( ) ( )( )⇒ − ≤ ≤ + = −∗ ∗Pr ! ! !/ /β β β β β αα α2 2 2 2 2 2 2 1t se t se para 3,0: 22 == ∗ββHo H1 2 2 0 3: ,β β≠ =∗ ( ) 95,03823,0ˆ2177,0Pr 2 =≤≤⇒ β Em geral testa-se 02 ≠β , ou seja testa-se 0: 2 =βHo vs 0: 21 ≠βH para verificar se existe relação entre as variáveis resposta explicativa, ou seja, se a variável independente “explica” a resposta, daí o valor de t na regressão. t-value ou t-valor = !β 2 / se ( !β 2 ) UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 30 No exemplo: Consumo vs Renda --- teste t bilateral t-value ou t-valor para !β 2 é dado por 0 50910 0357 , , ⇒ rejeita-se Ho : β2 = 0 !"ANÁLISE DE REGRESSÃO E ANÁLISE DE VARIÂNCIA Para testar a existência de regressão linear entre Y e X, ou seja mostrar que o coeficiente de regressão β 2 0≠ , pode-se utilizar análise de variância (ANOVA) através do quadro abaixo. FONTE DE VARIAÇÃO SOMA DOS QUADRADOS G.L. QUADRADO MÉDIO FUNÇÃO F (*) Explicada (ESS) (VE) Σ Σ! !y xi i 2 2 2 2 = β 1 !β 22 2Σxi (1) ( ) ( )( )F 1 2 1 2 ;Ν − = (**) Residual (RSS) (VR) Σei 2 N - 2 Σ Ν ei 2 2 2− = !σ (2) (***) Total (TSS) (VT) Σyi 2 N - 1 F calculado F ESS RSS N = −/ 2 F x e i i = − β 22 2 2 2 Σ Σ Ν/ ⇒ =F xi! ! β σ 2 2 2 2 Σ UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 31 Lembre que: TSS= ESS + RSS Σ Σ Σ Σ Σy y e x ei i i i i 2 2 2 2 2 2 = + = +!β onde, _ (*) Variação explicada pela expressão --- ( )VE Y Yi= −Σ ! 2 (**) Variação devida aos resíduos --- ( )VR i i= −Σ Υ Υ! 2 (***) Variação total --- ( )VT i= −Σ Υ Υ 2 Dado um nível de significância α, procura-se na tabela da distribuição F de Snedecor o valor de F (1; N - 2) e compara-se com o F calculado no quadro ANOVA. Se F calculado > F tabelado ⇒ Existe regressão de Y sobre X. No exemplo consumo vs renda, tem-se: QUADRO ANOVA FONTE DE VARIAÇÃO SOMA DOS QUADRADOS GL QUADRADO MÉDIO F CALCULADO devido à regressão 8.552,73 1 8.552,73 F = 8552 73 42 159 202 87, , ,= devido ao resíduo 337,27 8 42,159 TSS 8890,00 9 Valor de F tabelado com α = 0 05, O valor de F é estatisticamente significativo F (1;8) = 5,32 ⇒ rejeita-se a hipótese de que a renda não influencia os gastos de consumo. Observação: Para F = 202,87 rejeita-se Ho: 02 =β , ou seja existe regressão. De outra forma t-value = 14,26 com 8 g.l. rejeita-se 0: 20 =βH duas alternativas complementares para testar a regressão. Note que ( )14 26 2, = F calculado ---- ( t-value )2 = F calculado. UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 32 Relação entre Fcalculado e r 2 (coeficiente de determinação) Existe uma importante relação entre o coeficiente de determinação e o Fcalculado utilizado na análise da variância (ANOVA). ( ) ( ) ( )F R k R N k = − − − 2 2 1 1 / / onde: R2 = r 2 k = n° de parâmetros estimados N = o número de observaçõesObservações: i. Essas duas estatísticas variam diretamente: limite de r 2 é 1 e de F infinito ii. Realizar um teste F (ANOVA), medida de significância da linha de regressão estimada, é verificar se r 2 é diferente de zero, ou seja é equivalente a testar a hipótese Ho: r 2 = 0. !"APRESENTAÇÃO DOS RESULTADOS DA REGRESSÃO No Exemplo consumo vs renda =Υiˆ 24,4545 + 0,5091 Χ i (6,4138) (0,0357) t = (3,8128) (14,2605) r 2 = 0,9621 g.". = 8 F1 8 202 87, ,= UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 33 !"PROBLEMA DE PREDIÇÃO Um dos usos da análise de regressão é a previsão, ou predição, da variável resposta dado um determinado nível da variável explicativa, ou regressor. Existem duas formas de previsão: i. predição da média condicional de Y dado X, ou a um dado valor Χ 0 algum ponto da regressão populacional --- previsão média; ii. predição de um valor individual de Y correspondente a um Χ 0 --- previsão individual. - PREVISÃO MÉDIA Dado o exemplo anterior, a reta estimada: ! , ,Υ Χi i= +24 4545 0 5091 . Onde: !Υi é o estimador do valor verdadeiro de ( )Ε Υi correspondente a um valor de X. Dado Χ 0 100= , qual o valor verdadeiro de ( )Ε Υ Χ 0 1 0 0= ? Utilizando-se a reta estimada tem-se que: ! ! !Υ Χ0 1 2 0= +β β = ( )= + =24 4545 0 5091 100 75 3676, , , !Υ0 = estimador de ( )0ΧΥΕ , e pode-se demonstrar que este preditor linear é o melhor estimador linear não-tendencioso (BLUE). Como se trata de um estimador, é importante observar sua distribuição amostral: !Υ0 ~ Normal com média β β1 2 0+ Χ , e variância -- ( )V i( ! ) ( / ) /Υ Ν Χ Χ ΣΧ0 2 1 0 2 2= + − σ , ou seja : !Υ0 ~ N (β β1 2 0+ Χ ; ( )V i( ! ) ( / ) /Υ Ν Χ Χ ΣΧ0 2 1 0 2 2= + − σ ) Como a variância σ2 é desconhecida tem-se: ( )[ ] ( )t se= − +! / !Υ Χ Υ0 1 2 0 0β β , que segue a distribuição t-student com Ν − 2 graus de liberdade, onde !σ 2 é o estimador de σ 2 . ⇒ Intervalo de confiança ao nível de significância α , é dado por: ( ) ( )[ ]Pr ! ! ! ! ! !/ /β β β β β β αα α1 2 0 2 0 1 2 0 1 2 0 2 0 1+ − < + < + + = −Χ Υ Χ Χ Υt se t se UNIVERSIDADE FEDERAL DO RIO DE JANEIRO – ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA INDUSTRIAL - ESTATÍSTICA APLICADA II ANÁLISE DE REGRESSÃO - Prof. André Salles 34 No Exemplo: consumo vs renda Var ( ) ( )! , . ,Υ0 2 42 159 1 10 100 170 33000 10 4873= + − = ⇒ ( )se ! ,Υ0 3 2383= ⇒ o intervalo de confiança para o verdadeiro valor ( )Ε Υ Χ/ 0 = β β1 2 0+ Χ , é dado por: ( ) ( )[ ]75 3676 2 306 3 238 100 75 3676 2 306 3 2380, , , , , ( , )− ≤ = ≤ +Ε Υ Χ ( )[ ]⇒ ≤ = ≤67 8965 100 82 83250, ,Ε Υ Χ - PREVISÃO INDIVIDUAL Predição de um valorΥ0 , correspondente a um dado valor Χ 0 de X, !Υ0 melhor estimador linear não tendencioso é dado por: ! !β β1 2 0+ Χ Υ0 ~Normal( ( ) ( )β β σ1 2 0 2 0 2 21 1 + + + − Χ Ν Χ Χ ΣΧ ; i ) como σ2 em geral é desconhecido Substituindo-se σ2 por !σ2 , tem-se ( ) ( )t se= −Υ Υ Υ0 0 0! / ! ~ t-student com Ν−2 g." No Exemplo: consumo vs renda previsão pontual para Υ0 é 75,3676 = !Υ0 da previsão média variância 52,6470 ≠ da Var ( )!Υ0 da previsão média I.C. com 95% de confiança para Υ0 , sendo Χ 0 100= ⇒ ( )58 6353 100 92 09550 0, ,≤ = ≤Υ Χ graficamente tem-se:
Compartilhar