Baixe o app para aproveitar ainda mais
Prévia do material em texto
Regressão Linear Simples Prof. Carlos Amorim Introdução • Uma das preocupações estatísticas ao analisar dados, é a de criar modelos que explicitem estruturas do fenômeno em observação. • O modelo de regressão é um dos métodos• O modelo de regressão é um dos métodos estatísticos mais usados para investigar a relação entre variáveis. • Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis. Modelo de Regressão • Procurará estabelecer uma relação matemática para determinar o comportamento de uma variável Y em função do comportamento de outras variáveis X1, X2, X3, ... , Xn , ou seja: ),...,,,( 321 nXXXXfY = 321 n Variável dependente (explicada) Variáveis independentes (explicativas) Estabelecida essa equação matemática, poderemos: -Estimar os valores de Y para diferentes valores de X1, X2,..., Xn; -Explicarmos as oscilações verificadas na variável dependente em função das oscilações verificadas na variável independente. Tipos de Modelos de Regressão MODELO DE REGRESSÃO REGRESSÃO SIMPLES REGRESSÃO MÚLTIPLA LINEAR LINEAR NÃO LINEAR NÃO LINEAR Relação linear • A presença ou ausência de relação linear pode ser investigada sob dois pontos de vista: – Quantificando a força dessa relação: Correlação. – Explicitando a forma dessa relação: Regressão. Coeficiente de correlação YX YX YXCOV σσ ρ ),( , = 11 , +≤≤− YXρ � O coeficiente de correlação pode variar entre –1 (correlação� O coeficiente de correlação pode variar entre –1 (correlação negativa perfeita) e +1 (correlação positiva perfeita). � Valores negativos do coeficiente de correlação indicam uma correlação do tipo inversa, isto é, quando x aumenta y diminui. � Valores positivos do coeficiente de correlação ocorrem quando x e y variam no mesmo sentido, isto é, quando x aumenta y aumenta ou quando x diminui y também diminui. Exemplo • Nota na prova de estatística e Tempo de estudo. Y: Nota na prova. X: Tempo de estudo (horas por dia). 752038,0=ρGráfico de dispersão 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 Horas de estudo (X) N o t a ( Y ) 752038,0, =XYρ O objetivo é encontrar a relação que melhor represente o comportamento dos pontos do diagrama de dispersão. XY 10 ββ += Modelo de Regressão Linear Simples iii eXY ++= 10 ββ Inclinação populacional Intercepto populacional Erro Aleatório Variável Variável =Y Estimado por X, segundo uma função + Efeito aleatório X Y β0 β1 Coeficiente angular β0 + β1 X Variável Independente Variável Dependente ie Modelo de Regressão Linear Simples iii eXY ++= 10 ββ População iii eXY ˆ ˆˆ 10 ++= ββ Amostra aleatória iii 10 Objetivo: Fazer inferência sobre a função de regressão populacional: Com base na função de regressão amostral: iii eXY ++= 10 ββ iii eXY ˆ ˆˆ 10 ++= ββ Estimação dos parâmetros Y Y ˆ 1ˆe 2eˆ 3ˆe 4ˆe 5ˆe iii YYe ˆˆ −= X10 ˆˆ ββ + (erros ou resíduos) X Yˆ 5ˆe Encontrar a melhor reta que se adapta ao diagrama de dispersão. Isso significa determinar os valores de e de , tal que os resíduos ou erros encontrados sejam os menores possíveis. 0βˆ 1βˆ ( )eˆ Para determinar os valores de e com essas características é utilizado o Método dos Mínimos Quadrados Ordinários (MQO). 0βˆ 1βˆ Método dos Mínimos Quadrados Ordinários (MQO) O MQO escolhe e de tal forma que, para uma dada amostra, o é o menor possível. 0βˆ 1βˆ ∑ = n i ie 1 2ˆ ∑ n ie 2ˆMin iii XYe 10 ˆˆˆ ββ −−=∑ =i ie 1 ˆ 10 ˆ,ˆ ββ Min iii XYe 10 ˆˆˆ ββ −−= 0 ˆ ˆ 0 1 2 = ∂ ∂∑ = β n i ie 0 ˆ ˆ 1 1 2 = ∂ ∂∑ = β n i ie , XY 10 ˆˆ ββ −= ( )∑ ∑ = = − − = n i i n i ii XX YXnYX 1 2 1 1βˆ ou ∑ ∑ = == n i i n i ii x yx 1 2 1 1βˆ ( )XXx ii −= ( )YYy ii −= , Interpretação dos parâmetros • Intercepto - valor esperado para a variável dependente quando é igual a zero; 0βˆ iY iX • Coeficiente angular - variação esperada na variável dependente, quando a variável independente aumenta uma unidade. 1βˆ Estimação dos parâmetros • EX: Y (Consumo) X (Renda) 70 80 65 100 90 120 Diagrama de disperção 150 200 C o n s u m o XY 10 ˆˆˆ ββ += a) Calcule e 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 0 50 100 0 50 100 150 200 250 300 Renda C o n s u m o 0βˆ .ˆ1β b) Qual a previsão de consumo de uma família que tem renda de 170 ? Estimação dos parâmetros • EX1: Diagrama de disperção 100 150 200 C o n s u m o XY 509,047,24ˆ += 0 50 100 0 50 100 150 200 250 300 Renda C o n s u m o 47,24ˆ0 =β 509,0ˆ1 =β Um aumento de um real na renda provoca um aumento, em média, de 0,50 centavos no consumo. a) b) XY 509,047,24ˆ += ( )170509,047,24ˆ +=Y 111ˆ =Y Propriedades dos estimadores • Hipóteses: i. Para cada valor de , o erro , tem média zero e variância constante ii. Se , , isto é, para duas iX ie .2eσ ji ≠ 0),( =ji eeCOVii. Se , , isto é, para duas observações distintas, os erros são não correlacionados. iii. Os erros são v.a. com distribuição normal: 0),( =ji eeCOV ie ).,0(~ 2ei Ne σ Propriedades dos estimadores • Valor esperado e variância: )ˆ( ββ =E ∑ == n i iX V 1 2 2)ˆ( σβ Para o estimador :ˆ0β 11) ˆ( ββ =E 00 ) ˆ( ββ =E ( )∑ = − = n i i e XX V 1 2 2 1) ˆ( σ β ( )∑ = = − = n i i i e XXn V 1 2 12 0 ) ˆ( σβ Para o estimador :ˆ1β Propriedades dos estimadores • Distribuições Amostrais dos Estimadores dos Parâmetros: ),0(~ 2ei Ne σ iii eXY ++= 10 ββ onde: ),(~ 210 eii XNY σββ + ∑ ∑ = == n i i n i ii x yx 1 2 1 1βˆ ∑ ∑ = == n i i n i ii x Yx 1 2 1 , 1 ∑ = = n i iiYk ∑ = = n i i i i x x k 1 2 Como é uma função linear de 1βˆ iY tem distribuição normal.1βˆ Como é uma função linear de 0βˆ 1βˆ tem distribuição normal.0βˆ Propriedades dos estimadores • Distribuições Amostrais dos Estimadores dos Parâmetros: ( ) n eN 2 11 ,~ ˆ σββ ( ) ∑ = n n i ie X N 1 22 00 ,~ ˆ σ ββe ( ) −∑ = n i i XX N 1 2 11 ,~ ˆ ββ ( ) −∑ = n i i XXn N 1 2 00 ,~ ˆ ββe Os resultados acima permitem concluir que: ( ) ( )1,0~ˆ 211 NXX i e ∑ − − σ ββ ( ) ( )1,0~ˆ 2 2 00 N X XXn i i e ∑ ∑ −− σ ββe Intervalo de Confiança Dado que é desconhecido. Utilizaremos o estimador 2 eσ .ˆ 2 eσ kn ei e − = ∑ 2 2 ˆ σˆ onde: :kn − :k Número de parâmetros estimados. kn − :kn − ∑ :ˆ2ie Número de graus de liberdade. Soma do quadrado dos resíduos (SQR). ( ) ~ ˆ ˆ 2 11 ∑ − − XX i eσ ββ )2( −nt :2=kPara ( ) ( )22 2 00 ~ ˆ ˆ −∑ ∑ −− n i i e t X XXn σ ββ Intervalo de Confiança :1βPara α−1 (nível de confiança) ( ) α σ ββ −= ≤− − ≤− ∑ 1 ˆ ˆ 2 11 bXXbP i e ( ) ( ) α ββ −= ≤ − ≤ − 1 ˆ 11 bbP infL supL( ) ( ) α σ −= − ≤≤ − ∑∑ 1 ˆ 2 11 2 XXXX P i e i ( ) ( ) α σ ββ σ β −= − +≤≤ − − ∑∑ 1 ˆˆˆˆ 2 11 2 1 XX b XX bP i e i e ( ) − − ∑ 2 1 ˆˆ XX b i eσβ ( ) − + ∑ 2 1 ˆˆ XX b i eσβ,:IC ( ) )1()2( α−=≤≤− − btbP n onde: Intervalo de Confiança Ex2: Para os dados do exemplo 1 construir um intervalo de confiança para (propensão marginal a consumir) com nível de confiança de 95%. ( ) − − ∑ 2 1 ˆˆ XX b i eσβ ( ) − + ∑ 2 1 ˆˆ XX b i eσβ,:IC 1β ( ) −∑ XX i ( ) −∑ XX i ( ) )1()2( α−=≤≤− − btbP nonde: 509,0ˆ1 =β kn ei e − = ∑ 2 2 ˆ σˆ kn XY ii − −− = ∑ 2 21 ) ˆˆ( ββ 210 273,337 − = 1591,42= == 1591,42ˆ eσ 493006,6 − 33000 493006,6 306,2509,0 + 33000 493006,6 306,2509,0,:IC ( ) %95)8( =≤≤− btbP 306,2=b [ 42657,0 ]59142,0,:IC Teste de hipóteses 1) Estabelecer as hipóteses: * 110 : ββ =H * 111 : ββ ≠H 2) Fixar o nível de significância e identificar a variável do teste: .αNível de significância = ( ) ~ ˆˆ ˆ 1 11 β ββ V − ( )2−ntEstatística – teste: ( )∑ = − = n i i e XX V 1 2 2 1 ˆ )ˆ(ˆ σ βonde: Considerando k = 2. Teste de hipóteses 3) Determinar a região crítica (RC) com o auxílio da tabela “t”. 2/α2/α ( )2−nt 4) Calcular o valor da variável do teste: Região Crítica ct t0 2/α2/α ct− , ( )1 11 ˆˆ ˆ β ββ V tcal − = ( )∑ = − = n i i e XX V 1 2 2 1 ˆ )ˆ(ˆ σ β Teste de hipóteses 5) Conclusões: ccalc ttt ≤≤−Se , não se pode rejeitar .0H ccal tt −<Se ou , rejeita-se .0Hccal tt > ccal 0ccal Teste de hipóteses Ex3: Considerando os dados do exemplo 1, teste, ao nível de significância de 5%, a hipótese de que a propensão marginal a consumir da população é 0,3, contra a hipótese alternativa de que é diferente de 0,3.contra a hipótese alternativa de que é diferente de 0,3. Teste de hipóteses Ex3: 1) 2) %5=α 4) 33000 1591,42 3,0509,0 − =calt 8473,5= 3,0: 10 =βH 3,0: 11 ≠βH 3) %5=α Estatística – teste: ct t0 %5,2%5,2 ct− %95)( =<<− cc tttP 306,2=ct 33000 5) Como então rejeitamos, ao nível de significância de 5%, a hipótese nula, em favor da hipótese alternativa. Isso significa que a propensão marginal a consumir da população é diferente de 0,3. 306,28473,5 > ( ) ( )21 11 ~ ˆˆ ˆ − − nt V β ββ ( )8t ( )∑ = − = n i i e XX V 1 2 2 1 ˆ )ˆ(ˆ σ β 33000 1591,42 = Coeficiente de determinação (R2) • É uma medida resumida que diz quanto a linha de regressão amostral se ajusta aos dados. • Mede a proporção da variação na variável• Mede a proporção da variação na variável dependente que é explicada pela regressão. • Assume valores entre: 10 2 ≤≤ R Coeficiente de determinação (R2) Y ieˆ XY 10 ˆˆˆ ββ += FRA Yi iYˆ Y ( )YYi −Variaçãototal ( )YYi −ˆ Variação devido a regressão XXi Y Variação total Variação devido a regressão = + Variação devido a forças aleatórias Coeficiente de determinação (R2) • A variação total dos valores observados de Y é dada pela soma dos desvios ao quadrado: ( ) 2 ∑ −= n i YYSQT (Soma dos quadrados total) • A soma dos quadrados devido a regressão (devido à(s) variável(is) explicativa(s)): ( ) 1 ∑ = −= i i YYSQT ( ) 2 1 ˆ∑ = −= n i i YYSQE (Soma dos quadrados explicados) Coeficiente de determinação (R2) • A soma dos quadrados dos resíduos (ou não explicada): ∑= n ieSQR 2ˆ∑ =i i 1 SQRSQESQT += Portanto: Coeficiente de determinação (R2) SQT SQE R =2 ou ( ) ( )∑ ∑ − − = 2 2 ˆ YY YY i i ∑ SQT SQR R −=12 ( )∑ ∑ − −= 2 2ˆ 1 YY e i i Mede a proporção ou percentual da variação total de Y explicada pelo modelo de regressão. Coeficiente de determinação (R2) Ex4: Considerando os dados do exemplo 1, calcule o coeficiente de determinação. SQR 273,337 SQT SQR R −=12 ∑ = = n i ieSQR 1 2ˆ 273,337= ( ) 2 1 ∑ = −= n i i YYSQT 8890= 8890 273,337 1−= 962,0= Cerca de 96% da variação nas despesas de consumo são explicadas pela renda. Obs: O coeficiente de correlação , pode ser calculado por: YX ,ρ 2 , RYX ±=ρ 962,0, =YXρ 9808,0= As duas variáveis tem uma alta correlação positiva.
Compartilhar