Baixe o app para aproveitar ainda mais
Prévia do material em texto
Regressão Linear Simples Vı´ctor Hugo Lachos Da´vila hlachos@ime.unicamp.br Departamento Estatı´stica-IMECC Universidade Estadual de Campinas Campinas, Sa˜o Paulo, Brasil Regressa˜o Linear Simples – p. 1/60 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos filhos(Fig 1); Regressa˜o Linear Simples – p. 2/60 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos filhos(Fig 1); Renda semanal e despensas de consumo; Regressa˜o Linear Simples – p. 2/60 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos filhos(Fig 1); Renda semanal e despensas de consumo; Variação dos salarios e taxa de desemprego (Fig 2); Regressa˜o Linear Simples – p. 2/60 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos filhos(Fig 1); Renda semanal e despensas de consumo; Variação dos salarios e taxa de desemprego (Fig 2); Demanda dos productos de uma firma e publicidade; Regressa˜o Linear Simples – p. 2/60 Objetivos Estudar a relação linear entre duas variáveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos filhos(Fig 1); Renda semanal e despensas de consumo; Variação dos salarios e taxa de desemprego (Fig 2); Demanda dos productos de uma firma e publicidade; Sob dois pontos de vista: Explicitando a forma dessa relação: regressa˜o. Quantificando a força dessa relação: correlac¸a˜o. Regressa˜o Linear Simples – p. 2/60 Observações 1) Regressão vs Causação Uma relação estatística por sí propria não implica uma causação Para atribuir causação, devemos invocar a alguma teoría (p.e. econômica) 2) Regressão (AR) vs Correlação (AC) na AC há tratamento simetrico das variáveis na AR a variável explanatoria é fixa na AC presupõe-se que as duas variaveís são aleatórias Regressa˜o Linear Simples – p. 3/60 Dados Hipotéticos Os dados se referem à renda semanal (X) e as despensas de consumo (Y) (em US$), de uma população total de 60 familias. As 60 familias foram divididas em 10 grupos de renda (Fig 3 e 4). Y 80 100 120 140 160 180 200 220 240 260 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 X 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 - 88 - 113 125 140 - 160 189 185 - - - 115 - - - 162 - 191 Total 325 462 445 707 678 750 685 1043 966 1211 E(Y|X) 65 77 89 101 113 125 137 149 161 173 Regressa˜o Linear Simples – p. 4/60 Função de Regressão Populacional É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1x onde βo e β1, são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. Regressa˜o Linear Simples – p. 5/60 Função de Regressão Populacional É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1x onde βo e β1, são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. Cada valor individual Yi será determinado pelo valor médio da função linear (µY |x) mais um termo que representa um erro aleatório, Regressa˜o Linear Simples – p. 5/60 Função de Regressão Populacional É razoável supor que a média da variável aleatória Y , está relacionada com X pela seguinte relação E(Y |X = x) = µY |x = β0 + β1x onde βo e β1, são respectivamente, o intercepto e a inclinação da reta e recebem o nome de coeficientes de regressão. Cada valor individual Yi será determinado pelo valor médio da função linear (µY |x) mais um termo que representa um erro aleatório, Yi = µY |x + εi = β0 + β1xi + εi, onde εi é o erro estocástico que satisfaz E(εi|xi) = 0 Regressa˜o Linear Simples – p. 5/60 Em geral, a variável resposta pode estar relacionada com k variáveis explicativas X1, . . . Xk obedecendo à equação : Y = β0 + β1X1 + . . .+ βkXk + ε, A equação é denominada modelo de regressão linear múltipla. Regressa˜o Linear Simples – p. 6/60 Em geral, a variável resposta pode estar relacionada com k variáveis explicativas X1, . . . Xk obedecendo à equação : Y = β0 + β1X1 + . . .+ βkXk + ε, A equação é denominada modelo de regressão linear múltipla. O adjetivo "linear"é usado para indicar que o modelo é linear nos parâmetros β1, . . . , βk e não porque Y é função linear dos X ’s. Por exemplo, uma expressão da forma Y = βo + β1 logX1 + β2X 3 2 + ε é um modelo de regressão linear múltipla, mas o mesmo não acontece com a equação Y = β0 + β1Xβ21 + β3X22 + ε. Regressa˜o Linear Simples – p. 6/60 Significado do erro estocástico Caráter vago da teoria Falta de dados disponíveis Variávies essenciais vs variáveis periféricas Caráter aleatório da natureza Principio da parcimônia Forma funcional equivocada Regressa˜o Linear Simples – p. 7/60 Função de Regressão Amostral(FRA) A tarefa agora é estimar a FRP com base em informações amostrais Yi = Ŷi + ε̂i = β̂0 + β̂1Xi + ε̂i, i = 1, . . . , n, onde β̂0 e β̂1 são estimadores de β0 e β1, respectivamente e ε̂i = Yi − Ŷi a componente residual (Fig 5). Precisamos formular uma regra ou método que torne tal aproximação o mais próximo possível! Exercicio: Resolva o problema 2.16 do livro texto. Regressa˜o Linear Simples – p. 8/60 Estimação: Método de MQO Suponha que tem-se n pares de observações amostrais (x1, y1), . . . , (xn, yn). A soma de quadrados dos desvios das observações em relação à FRA é: Q = n∑ ε̂2i = n∑ (yi − β̂0 − β̂1xi)2. O método de mínimos quadrados ordinarios (MQO) escolhe β̂1 e β̂2 (únicos) de forma que, para qualquer amostra, Q é o menor possível. Após uma simple algebra tem-se Regressa˜o Linear Simples – p. 9/60 βˆ0 + βˆ1 n∑ i=1 xi = n∑ i=1 yi(1) βˆ0 n∑ i=1 xi + βˆ1 n∑ i=1 x2i = n∑ i=1 xiyi. As equações (1) recebem o nome de equações normais de mínimos quadrados. Regressa˜o Linear Simples – p. 10/60 A solução dessas equações fornece os EMQ, βˆ0 e βˆ1, dados por: βˆ0 = y¯ − βˆ1x¯. βˆ1 = n∑ i=1 xiyi − � n P i=1 xi �� n P i=1 yi � n n∑ i=1 x2i − � n P i=1 xi � 2 n . onde x¯ = n P i=1 xi n e y¯ = n P i=1 yi n . Regressa˜o Linear Simples – p. 11/60 Notações especiais Sxx = n X i=1 (xi − x¯)2 = n X i=1 x2i − � n P i=1 xi � 2 n = n X i=1 x2i − nx¯2, Sxy = n X i=1 (xi − x¯)(yi − y¯) = n X i=1 (xi − x¯)yi = n X i=1 xiyi − � n P i=1 xi �� n P i=1 yi � n = n X i=1 xiyi − nx¯y¯, Syy = n X i=1 (yi − y¯)2 = n X i=1 (yi − y¯)yi = n X i=1 y2i − � n P i=1 yi � 2 n = n X i=1 y2i − ny¯2. Os EMQ de β0 e β1 em termos da notação acima são: βˆ0 = y¯ − βˆ1x¯, βˆ1 = Sxy Sxx , byi − y¯ = bβ1(xi − x¯). Regressa˜o Linear Simples – p. 12/60 Observaçoes sobre os EMQ Os EMQ dependem só de quantidades observáveis São estimadores pontuais A linha de regressão amostral é facilmente obtida Ŷi = β̂0 + β̂1Xi O valor médio do resíduo ǫ̂i é zero Os residuos ǫ̂i são não correlacionados com Xi e Ŷi. Regressa˜o Linear Simples – p. 13/60 Exemplo 1 O gerente de uma cadeia de supermercados deseja desenvolver um modelo com a finalidade de estimar as vendas médias semanais (em milhares de dólares) Y - Vendas semanais; e X - Número de clientes.Estas variáveis foram observadas em 20 supermercados escolhidos aleatóriamente. X 907 926 506 741 789 889 874 510 529 420 Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12 X 679 872 924 607 452 729 794 844 1010 621 Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41 Regressa˜o Linear Simples – p. 14/60 Aplicação Considerando os dados do exemplo 1 n = 20 n X i=1 xi = 907 + 926 + . . .+ 621 = 14.623; x¯ = 731, 15 n X i=1 yi = 11, 20 + 11, 05 + . . .+ 7, 41 = 176, 11; y¯ = 8, 8055 n X i=1 x2i = (907) 2 + (926)2 + . . .+ (621)2 = 11.306.209 n X i=1 y2i = (11, 20) 2 + (11, 05)2 + . . .+ (7, 41)2 = 1.602, 0971 n X i=1 xiyi = (907)(11, 20) + (11, 05)(926) . . .+ (7, 41)(621) = 134.127, 90 Regressa˜o Linear Simples – p. 15/60 Sxx = n X i=1 x2i − n(x¯)2 = 11.306.209− 20(731, 15)2 = 614.603 Sxy = n X i=1 xiyi − n(x¯)(y¯) = 134.127, 90− 20(8, 8055)(731, 15) = 5.365, 08 Syy = n X i=1 y2i − n(y¯)2 = 1.609, 0971− 20(8, 8055) = 51, 3605. As estimativas dos parâmetros do MRLS são: βˆ1 = Sxy Sxx = 5.365, 08 614.603 = 0, 00873; βˆ0 = y¯−βˆ1x¯ = 8, 8055−(0, 00873)(731, 15) = 2, 423 Portanto, a linha de regressão ajustada ou estimada para esses dados são: yˆ = 2, 423 + 0, 00873x. Regressa˜o Linear Simples – p. 16/60 400 500 600 700 800 900 1000 6 7 8 9 1 0 1 1 Numero de clientes V e n d a s s e m a n a i s Regressa˜o Linear Simples – p. 17/60 Suponha que tem-se interesse em prever as vendas semanais para um supermercado com 600 clientes. No modelo de regressão ajustado basta substituir X = 600, ísto é, yˆ = 2, 423 + (0, 00873)(600) = 7, 661. Regressa˜o Linear Simples – p. 18/60 Suponha que tem-se interesse em prever as vendas semanais para um supermercado com 600 clientes. No modelo de regressão ajustado basta substituir X = 600, ísto é, yˆ = 2, 423 + (0, 00873)(600) = 7, 661. A venda semanal de 7,661 mil dólares pode ser interpretada com uma estimação da venda média semanal verdadeira dos supermercados com X = 600 clientes, Regressa˜o Linear Simples – p. 18/60 Suponha que tem-se interesse em prever as vendas semanais para um supermercado com 600 clientes. No modelo de regressão ajustado basta substituir X = 600, ísto é, yˆ = 2, 423 + (0, 00873)(600) = 7, 661. A venda semanal de 7,661 mil dólares pode ser interpretada com uma estimação da venda média semanal verdadeira dos supermercados com X = 600 clientes, ou como uma estimação de uma futura venda de um supermercado quando o número de clientes for X = 600. Regressa˜o Linear Simples – p. 18/60 Suposições do método de MQO (i) E(ε|X) = 0, V ar(ε|X) = σ2 (desconhecido). (ii) Os erros são não correlacionados (iii) A variável explicativa X é controlada pelo experimentador. (iv) o modelo de regressão esta especificado da forma correta (v) n> número de variáveis explanatorias (iv) não ha multicolinearidade perfeita Regressa˜o Linear Simples – p. 19/60 Propriedades dos EMQ Se as suposições do método de MQO são válidas, então E(βˆ1) = β1, V ar(βˆ1) = σ2 Sxx = σ2 bβ1 . E(βˆ0) = β0, V ar(βˆ0) = σ 2 [ 1 n + x¯ 2 Sxx ] = σ2 bβ0 . Cov(βˆ0, βˆ1) = −σ2x¯Sxx Exercicio 2. Regressa˜o Linear Simples – p. 20/60 Estimação de σ2 Os resíduos, ei = yi − yˆi são empregados na estimação de σ2. A soma de quadrados residuais ou soma de quadrados dos erros, denotado por SQR é: SQR = n∑ i=1 e2i = n∑ i=1 (yi − yˆi)2 Pode-se demonstrar que o valor esperado da soma de quadrados dos residuais SQR, é dado por:(Exercício 3) E(SQR) = (n− 2)σ2 Regressa˜o Linear Simples – p. 21/60 Portanto, um estimador não viciado de σ2, é σˆ2 = SQR n− 2 = QMR (Quadrado me´dio residual), Uma fórmula mais conveniente para o cálculo da SQR é dada por: SQR = Syy − βˆ1Sxy. A estimativa de σ2 para o exemplo 1. σˆ2 = SQR n− 2 = Syy − βˆ1Sxy n− 2 = 51, 3605− (0, 00873)(5.365, 08) 20− 2 = 0, 2513.Regressa˜o Linear Simples – p. 22/60 Previsão Seja xp o valor para o qual deseja-se prever (ou projetar) o valor médio E(Y |xp) e o valor individual de Y . - Previsão média Ŷi é um estimador não viciado de E[Y |xp], dado que E(Ŷi) = E(βˆ0 + βˆ1xp) = β0 + β1xp = E(Y |xp) V ar(Ŷi) = σ 2[ 1 n + (xi−x¯) 2 sxx ] - Previsão individual (Exercicio 4.) V ar(Ŷpart) = σ 2[1 + 1 n + (xi−x¯) 2 sxx ] Na pratica sustituimos σ2 (desconhecido), pelo estimador consistente σ̂2 Regressa˜o Linear Simples – p. 23/60 Coeficiente de Determinação (r2) O r2 é uma medida de qualidade do ajustamento. No caso de regressão linear simples o coeficiente de determinação é o quadrado do coeficiente de correlação.(Fig 6) (Yi − Y¯ ) = (Yi − Yˆi − Y¯ + Yˆi) n∑ i=1 (Yi − Y¯ )2 = n∑ i=1 (Yˆi − Y¯ )2 + n∑ i=1 (Yi − Yˆi)2 SQT = SQM + SQR 1 = SQM SQT + SQR SQT ⇒ r2 = SQM SQT = s2xy sxxsyy Regressa˜o Linear Simples – p. 24/60 Teorema de Gauss-Markov Se as suposições MQO são satisfeitas, os EMQ da classe de estimadores lineares não viesados têm variância mínima, isto é, são os melhores estimadores lineares não viesados. (Prova) Para que normalidade? A estimação é a metade do caminho, a outra metade é teste se hipóteses, para isto, suposições adicionais são necessárias. uma alternativa é considerar tamanhos de amostra o suficientemente grandes (estimação de máxima verossimilhança) a outra é supor que ǫi ∼ N(0, σ2) (O modelo de regressão normal simple clássico) Regressa˜o Linear Simples – p. 25/60 Propiedades dos EMQ sob Normalidade A justificão teórica da premissa de normalidade é o TLC β1 = n∑ i=1 kiYi = n∑ i=1 ki(β1 + β2xi + ǫi) ∼ N(.) β̂0 ∼ N(β0, σ2 bβ0 ), β̂1 ∼ N(β1, σ2 bβ1 ), (n− 1)σ̂2/σ2 ∼ χ2(n− 2) A distribuição de β̂0 e β̂1 é independente de σ̂2 (Exercicio 5.) β̂0 e β̂1 têm variância mínima dentro de toda classe dos estimadores não viesados, sejam ou não lineares (Rao) Yi|Xi ∼ N(β0 + β1Xi, σ2) Regressa˜o Linear Simples – p. 26/60 Teste de hipóteses sobre β1 Suponha que se deseje testar a hipótese de que a inclinação é igual a uma constante representada por β1,0. As hipóteses apropriadas são: H0 : β1 = β1,0, vs H1 : β1 6= β1,0 A estatística T = βˆ1 − β1,0√ σˆ2/Sxx , tem distribuição t-Student com n− 2 graus de liberdade sob H0 : β1 = β1,0. Rejeita-se H0 se |Tobs| > tα/2, n−2. Regressa˜o Linear Simples – p. 27/60 Teste de hipóteses sobre β0 H0 : β0 = β0,0, vs H1 : β0 6= β0,0 A estatística T = βˆ0 − β0,0√ σˆ2[ 1 n + x¯ 2 Sxx ] que tem distribuição t-Student com n− 2 graus de liberdade. Rejeitamos a hipóteses nula se |Tobs| > tα/2, n−2. Regressa˜o Linear Simples – p. 28/60 Teste de significância do MRLS H0 : β1 = 0, vs H1 : β1 6= 0, Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que não há nenhuma relação linear entre X e Y. Regressa˜o Linear Simples – p. 29/60 Se H0 : β1 = 0 é rejeitado, implica que X tem importância para explicar a variabilidade de Y Regressa˜o Linear Simples – p. 30/60 Exemplo Teste de significância para o MRLS para os dados do exemplo 1, com α = 0, 05. As hipóteses são H0 : β1 = 0, vs H1 : β1 6= 0 Do exemplo tem-se: βˆ1 = 0, 00873, n = 20 Sxx = 614, 603, σˆ 2 = 0, 2512, De modo que a estatística de teste, é: Tobs = βˆ1√ σˆ2/Sxx = 0, 00873√ 0, 2513/614.603 = 13, 65. Como Tobs = 13, 65 > t0,03,18 = 2, 101, rejeita-se a hipótese H0 : β1 = 0. Regressa˜o Linear Simples – p. 31/60 Análise de variância Se a hipótese nula H0 : β1 = 0 é verdadeira, a estatística F = SQM/1 SQR/(n− 2) = QMreg QMR ∼ F (1, n− 2), Portanto, rejeita-se H0 se F0bs> Fα, 1, n−2. As quantidades QMreg = SQM 1 , (quadrado médio devido à regressão) e QMR = SQR (n−2) ( quadrado médio residual) Regressa˜o Linear Simples – p. 32/60 Tabela de ANOVA Fonte de Soma de Graus de Quadrado variação Quadrados Liberdade Médio F Regressão SQM 1 QMreg QMreg QMR Residual SQR n− 2 QMR Total SQT n− 1 Regressa˜o Linear Simples – p. 33/60 Tabela de ANOVA Fonte de Soma de Graus de Quadrado variação Quadrados Liberdade Médio F Regressão SQM 1 QMreg QMreg QMR Residual SQR n− 2 QMR Total SQT n− 1 Exemplo: o procedimento de análise de variância para testar se de fato existe relação linear entre o número de clientes (X) e as vendas semanais (Y), no modelo proposto para os dados do exemplo 1. Relembre que Syy = 51, 3605, βˆ1 = 0, 00873, Sxy = 5.365, 08 e n = 20. Regressa˜o Linear Simples – p. 33/60 A soma de quadrados da regressão é SQM = βˆ1Sxy = (0, 00873)(5.365, 08) = 46, 8371 enquanto a soma de quadrados dos residuais é: SQR = SQT − βˆ1Sxy = 51, 3605− 46, 8371 = 4, 5234 Regressa˜o Linear Simples – p. 34/60 A soma de quadrados da regressão é SQM = βˆ1Sxy = (0, 00873)(5.365, 08) = 46, 8371 enquanto a soma de quadrados dos residuais é: SQR = SQT − βˆ1Sxy = 51, 3605− 46, 8371 = 4, 5234 A ANOVA para testar H0 : β1 = 0. Nesse caso, a estatística de teste é F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536. Regressa˜o Linear Simples – p. 34/60 A soma de quadrados da regressão é SQM = βˆ1Sxy = (0, 00873)(5.365, 08) = 46, 8371 enquanto a soma de quadrados dos residuais é: SQR = SQT − βˆ1Sxy = 51, 3605− 46, 8371 = 4, 5234 A ANOVA para testar H0 : β1 = 0. Nesse caso, a estatística de teste é F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536. Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0, ao nível de significância de 5%. Regressa˜o Linear Simples – p. 34/60 Tabela de ANOVA para Ex. 1 Fonte de Soma de Graus de Quadrado variação Quadrados Liberdade Médio F Regressão 46, 8371 1 46, 8371 186,45 Residual 4, 5234 18 0, 2513 Total 51, 3605 19 Regressa˜o Linear Simples – p. 35/60 Intervalo de confiança para β0 e β1 Se para o MRLS é válida a suposição de que os εi ∼ NID(0, σ2), então (βˆ1 − β1)/ √ QMR/Sxx e (βˆ0 − β0)/ √ QMR[ 1 n + x¯2 Sxx ] são variáveis aleatórias com distribuição t-Student com n− 2 graus de liberdade. Um intervalo de 100(1− α)% de confiança para β1 : IC(β1; 1−α) = ( βˆ1 − tα 2 , n−2 √ QMR Sxx ; βˆ1 + tα 2 , n−2 √ QMR Sxx ) Regressa˜o Linear Simples – p. 36/60 De modo similar, um intervalo de 100(1− α)% de confiança para β0 é dado por: IC(β0; 1− α) = ( βˆ0 − tα 2 , n−2 √ QMR[ 1 n + x¯2 Sxx ] βˆ0 + tα 2 , n−2 √ QMR[ 1 n + x¯2 Sxx ] ) A seguir é obtido um intervalo de 95% de confiança para a inclinação do MRLS com os dados do exemplo 1, Regressa˜o Linear Simples – p. 37/60 Relembre que n = 20, βˆ1 = 0, 00873, Sxx = 614, 603 e QMR = 0, 2513. Para 1−α = 0, 95, tem-se t0,025, 18 = 2, 101. IC(β1; 0, 95) = (βˆ1 − E ; βˆ1 + E) E = t0,025,18 √ QMR Sxx = 2, 101 √ 0,2513 614.603 = 0, 00134 IC(β1; 0, 95) = (0, 00873− 0, 00134; 0, 00873 + 0, 00134) = (0, 00739; 0, 01007) Regressa˜o Linear Simples – p. 38/60 Intervalo de confiança para resposta média O interesse consiste em estimar um intervalo de confiança para E(Y |X = x0) = µY |x0 = β0 + β1x0. Um estimador pontual de µY |x0 é µˆY |xo = Yˆ = βˆ0 + βˆ1x0. Se εi ∼ NID(0, σ2) é válida, pode-se demonstrar T = µˆY |xo − µY |xo√ QMR [ 1 n + (x0−x¯) 2 Sxx ] ∼ t(n− 2) Regressa˜o Linear Simples – p. 39/60 Int. conf. 100(1− α)% para µY |x0 IC(µˆY |x; 1− α) = ( µˆY |xo − E; µˆY |xo + E ) onde E = tα 2 , n−2 √ QMR[ 1 n + (x0−x¯) 2 Sxx ] Exemplo: Suponha que tem-se interesse em construir um intervalo de 95% de confiança da venda, média, semanal para todos supermercados com 600 clientes. Regressa˜o Linear Simples – p. 40/60 Int. conf. 100(1− α)% para µY |x0 IC(µˆY |x; 1− α) = ( µˆY |xo − E; µˆY |xo + E ) onde E = tα 2 , n−2 √ QMR[ 1 n + (x0−x¯) 2 Sxx ] Exemplo: Suponha que tem-se interesse em construir um intervalo de 95% de confiança da venda, média, semanal para todos supermercados com 600 clientes. No modelo ajustado µˆY |x0 = 2, 423 + 0, 00873x0. Para x0 = 600, obtém-se µˆY |x0 = 7, 661. Regressa˜o Linear Simples – p. 40/60 Int. conf. 100(1− α)% para µY |x0 IC(µˆY |x; 1− α) = ( µˆY |xo − E; µˆY |xo + E ) onde E = tα 2 , n−2 √ QMR[ 1 n + (x0−x¯) 2 Sxx ] Exemplo: Suponha que tem-se interesse em construir um intervalo de 95% de confiança da venda, média, semanal para todos supermercados com 600 clientes. No modelo ajustado µˆY |x0 = 2, 423 + 0, 00873x0. Para x0 = 600, obtém-se µˆY |x0 = 7, 661. Também, x¯ = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20 e 1− α = 0, 95 ⇒ t0,05,18 = 2, 101. Regressa˜o Linear Simples – p. 40/60 Int. conf. 100(1− α)% para µY |x0 IC(µˆY |x; 1− α) = ( µˆY |xo − E; µˆY |xo + E ) onde E = tα 2 , n−2 √ QMR[ 1 n + (x0−x¯) 2 Sxx ] Exemplo: Suponha que tem-se interesse em construir um intervalo de 95% de confiança da venda, média, semanal para todos supermercados com 600 clientes. No modelo ajustado µˆY |x0 = 2, 423 + 0, 00873x0. Para x0 = 600, obtém-se µˆY |x0 = 7, 661. Também, x¯ = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20 e 1− α = 0, 95 ⇒ t0,05,18 = 2, 101. E = 2, 101 √ 0, 2513[ 1 20 + (600−731,15) 2 614.603 ] = 0, 292 Regressa˜o Linear Simples – p. 40/60 IC(µY |x0 ; 0, 95) = (7, 661− 0, 292; 7, 661 + 0, 292) = (7, 369; 7, 935) Regressa˜o Linear Simples – p. 41/60 Previsão de novas observações Uma aplicação muito importante de um modelo de regressão é a previsão de novas ou futuras observações de Y, (Y0) correspondente a um dado valor da variável explicativa X, x0, então Yˆ0 = βˆ0 + βˆ1x0 é o melhor estimador pontual de Y0. Um intervalo de 100(1− α)% de confiança para uma futura observação é dado por: IC(Y0; 1− α) = (Yˆ − E; Yˆ + E) onde E = tα 2 , n−2 √ QMR[1 + 1 n + (x0−x¯) 2 Sxx ] Regressa˜o Linear Simples – p. 42/60 Exemplo Suponha agora, tem-se interesse em encontrar um intervalo de previsão de 95% das vendas semanais de um supermercado com 600 clientes. Considerando os dados do exemplo 1, Yˆ = 7, 661 e o intervalo de predição é: E = 2, 101 √ 0, 2513[1 + 1 20 + (600−731,15) 2 614.603 ] = 1, 084 IC(Y0; 0, 95) = (7, 661− 1, 084; 7, 661 + 1, 084) = (6, 577; 8, 745). Regressa˜o Linear Simples – p. 43/60 Bandas de confiança do 95% para µY |x0 (CI) e Y0 (ICP) Regressa˜o Linear Simples – p. 44/60 Adequação do modelo de regressão Análise residual, Regressa˜o Linear Simples – p. 45/60 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Regressa˜o Linear Simples – p. 45/60 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − yˆi, i = 1, . . . , n onde yi é uma observação real de Y e yˆi é o valor correspondente estimado através do modelo de regressão. Regressa˜o Linear Simples – p. 45/60 Adequação do modelo de regressão Análise residual, Coeficiente de determinação Os resíduos de um modelo de regressão são definidos como ei = yi − yˆi, i = 1, . . . , n onde yi é uma observação real de Y e yˆi é o valor correspondente estimado através do modelo de regressão. Resíduos padronizados di = ei√ QMR , i = 1, . . . , n Regressa˜o Linear Simples – p. 45/60 Adequação do modelo de regressão Análise residual, Coeficiente de determinaçãoOs resíduos de um modelo de regressão são definidos como ei = yi − yˆi, i = 1, . . . , n onde yi é uma observação real de Y e yˆi é o valor correspondente estimado através do modelo de regressão. Resíduos padronizados di = ei√ QMR , i = 1, . . . , n Regressa˜o Linear Simples – p. 45/60 Regressa˜o Linear Simples – p. 46/60 Gráfico de resíduos do exemplo 1 Regressa˜o Linear Simples – p. 47/60 Exemplo: Coeficiente de Determinação Para os dados dos supermercados do exemplo1, determinar R2. Regressa˜o Linear Simples – p. 48/60 Exemplo: Coeficiente de Determinação Para os dados dos supermercados do exemplo1, determinar R2. Da definição tem-se: R2 = SQM SQT = 46, 8371 51, 3605 = 0, 912 Regressa˜o Linear Simples – p. 48/60 Exemplo: Coeficiente de Determinação Para os dados dos supermercados do exemplo1, determinar R2. Da definição tem-se: R2 = SQM SQT = 46, 8371 51, 3605 = 0, 912 Esse resultado significa que o modelo ajustado explicou 91,2% da variação na variável resposta Y (vendas semanais). Isto é, 91,2% da variabilidade de Y é explicada pela variável regressora X (número de clientes). Regressa˜o Linear Simples – p. 48/60 Analise de Correlação Suponha que se deseja desenvolver um modelo de regressão que relacione a resistência ao corte dos pontos de soldadura com o diâmetro dos mesmos. Neste caso, não é possível controlar o diâmetro de soldadura. O que pode ser feito é selecionar ao acaso n pontos de soldadura e observar o diâmetro (Xi) e a resistência ao corte (Yi) de cada um deles. Portanto, (Xi, Yi) são variáveis aleatórias distribuídas de maneira conjunta. Regressa˜o Linear Simples – p. 49/60 Suponha que a distribuição conjunta de Xi e Yi tenha uma distribuição normal bivariada cuja função de densidade é dada por Regressa˜o Linear Simples – p. 50/60 Suponha que a distribuição conjunta de Xi e Yi tenha uma distribuição normal bivariada cuja função de densidade é dada por f(x, y) = 1 2πσ1σ2 √ 1− ρ2 exp { 1 2(1− ρ2) [( x− µ1 σ1 )2 + ( y − µ2 σ2 )2 − 2ρ ( x− µ1 σ1 )( y − µ2 σ2 )]} Regressa˜o Linear Simples – p. 50/60 Suponha que a distribuição conjunta de Xi e Yi tenha uma distribuição normal bivariada cuja função de densidade é dada por f(x, y) = 1 2πσ1σ2 √ 1− ρ2 exp { 1 2(1− ρ2) [( x− µ1 σ1 )2 + ( y − µ2 σ2 )2 − 2ρ ( x− µ1 σ1 )( y − µ2 σ2 )]} onde µ1 e σ21 são a média e variância de X e µ2 e σ22 são a média e variância de Y e, ρ é coeficiente de correlac¸a˜o entre X e Y. Regressa˜o Linear Simples – p. 50/60 A densidade condicional de Y para um valor dado X = x é dado por (exercicio 5.) f(y|x) = 1√ 2πσY |x exp −12 ( yi − β0 − β1x σ2Y |x )2 Regressa˜o Linear Simples – p. 51/60 A densidade condicional de Y para um valor dado X = x é dado por (exercicio 5.) f(y|x) = 1√ 2πσY |x exp −12 ( yi − β0 − β1x σ2Y |x )2 onde β0 = µ2 − µ1ρσ2σ1 , β1 = σ2σ1ρ e σ2Y |x = σ22(1− ρ2) Regressa˜o Linear Simples – p. 51/60 A densidade condicional de Y para um valor dado X = x é dado por (exercicio 5.) f(y|x) = 1√ 2πσY |x exp −12 ( yi − β0 − β1x σ2Y |x )2 onde β0 = µ2 − µ1ρσ2σ1 , β1 = σ2σ1ρ e σ2Y |x = σ22(1− ρ2) A distribuição condicional de Y dado X = x é normal com média E(Y |X = x) = β0 + β1x e variância σ2Y |x. Regressa˜o Linear Simples – p. 51/60 Estimadores de β0, β1 e ρ βˆ0 = Y¯ − βˆ1X¯ P P P s P P Regressa˜o Linear Simples – p. 52/60 Estimadores de β0, β1 e ρ βˆ0 = Y¯ − βˆ1X¯ βˆ1 = Pn i=1 Yi(Xi−X¯) Pn i=1(Xi−X¯)2 = SXY SXX P s P P Regressa˜o Linear Simples – p. 52/60 Estimadores de β0, β1 e ρ βˆ0 = Y¯ − βˆ1X¯ βˆ1 = Pn i=1 Yi(Xi−X¯) Pn i=1(Xi−X¯)2 = SXY SXX ρˆ = r = n P i=1 Yi(Xi−X¯) s n P i=1 (Xi−X¯)2 n P i=1 (Yi−Y¯ )2 = SXY√ SXXSY Y Regressa˜o Linear Simples – p. 52/60 Estimadores de β0, β1 e ρ βˆ0 = Y¯ − βˆ1X¯ βˆ1 = Pn i=1 Yi(Xi−X¯) Pn i=1(Xi−X¯)2 = SXY SXX ρˆ = r = n P i=1 Yi(Xi−X¯) s n P i=1 (Xi−X¯)2 n P i=1 (Yi−Y¯ )2 = SXY√ SXXSY Y βˆ1 = ( SY Y SXX )1/2 r Regressa˜o Linear Simples – p. 52/60 Teste de hipóteses H0 : ρ = 0 vs H1 : ρ 6= 0 A estatística de teste apropriada é T = r √ n− 2√ 1− r2 ∼ sob H0 t(n− 2) Regressa˜o Linear Simples – p. 53/60 Teste de hipóteses H0 : ρ = 0 vs H1 : ρ 6= 0 A estatística de teste apropriada é T = r √ n− 2√ 1− r2 ∼ sob H0 t(n− 2) A hipótese nula deverá ser rejeitada se |Tobs| ≥ tα/2, n−2. Esse teste é equivalente ao teste de hipóteses H0 : β1 = 0. Regressa˜o Linear Simples – p. 53/60 H0 : ρ = ρ0 vs H1 : ρ 6= ρ0 onde ρ0 6= 0. Regressa˜o Linear Simples – p. 54/60 H0 : ρ = ρ0 vs H1 : ρ 6= ρ0 onde ρ0 6= 0. Para amostras de tamanho moderado grande (n ≥ 30), a estatística Regressa˜o Linear Simples – p. 54/60 H0 : ρ = ρ0 vs H1 : ρ 6= ρ0 onde ρ0 6= 0. Para amostras de tamanho moderado grande (n ≥ 30), a estatística Zr = arctanh r = 1 2 ln 1 + r 1− r tem distribuição aproximadamente normal com média µZr = arctanh ρ = 1 2 ln 1 + ρ 1− ρ e variância σ2Zr = (n− 3)−1. Regressa˜o Linear Simples – p. 54/60 A estatística de teste apropriada é: Z = (arctanh r − arctanh ρ0) (n− 3)1/2. Regressa˜o Linear Simples – p. 55/60 A estatística de teste apropriada é: Z = (arctanh r − arctanh ρ0) (n− 3)1/2. Se H0 : ρ = ρ0 é verdadeira, a estatística Z tem, aproximadamente, distribuição normal padrão. Portanto, H0 deverá ser rejeitada se |Zobs| ≥ zα/2. Regressa˜o Linear Simples – p. 55/60 Intervalo de confiança para ρ Um intervalo aproximado de 100(1− α)% de confiança para o coeficiente de correlação ρ, que é dado por: IC(ρ; 1− α) = ( tanh [ arctanh r − zα/2√ n− 3 ] ; tanh [ arctanh r + zα/2√ n− 3 ]) , onde tanhw = ew−e−w ew+e−w . Regressa˜o Linear Simples – p. 56/60 Exemplo 2 Suponha que se tenha interesse em medir a força da relação linear de dois produtos diferentes com relação ao preço em várias cidades do mundo. Y - Preço de uma libra de frango; e X - Preço de uma caixa de suco. Regressa˜o Linear Simples – p. 57/60 Caixa com seis Uma libra Cidade sucos (X) de frango (Y ) Frankfurt 3,27 3,06 Hong Kong 2,22 2,34 Londres 2,28 2,27 Manila 3,04 1,51 México 2,33 1,87 Nova York 2,69 1,65 París 4,07 3,09 Sidney 2,78 2,36 Tokyo 5,97 4,85 Regressa˜o Linear Simples – p. 58/60 Dos dados da tabela são obtidos os valores seguintes: n = 9; n∑ i=1 Xi = 28, 65; X¯ = 3, 183; n∑ i=1 X2i = 28, 65 = 102 SXX = 11, 4594; n∑ i=1 Yi = 23, 00; Y¯ = 2, 5566; n∑ i=1 Y 2i = 67 SY Y = 8, 3522; n∑ i=1 XiYi = 81, 854; SXY = 8, 6437 r = SXY√ SXXSY Y = 8, 6437√ (11, 4594)(8, 3522) = 0, 883. Regressa˜o Linear Simples – p. 59/60 H0 : ρ = 0 (não relação linear entre X e Y ) H1 : ρ 6= 0 (há relação linear entre X e Y ) O valor calculado para a estatística do teste foi Tobs = r √ n− 2√ 1− r2 = 0, 883 √ 9− 2√ 1− (0, 883)2 = 4, 98. Para α = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98, logo, rejeita-se H0 : ρ = 0 ao nível de significância de α = 5%. Regressa˜o Linear Simples – p. 60/60 Objetivos Objetivos Objetivos Objetivos Objetivos Observac {c}~{o}es Dados Hipot'{e}ticos Func {c}~{a}o de Regress~{a}o Populacional Func {c}~{a}o de Regress~{a}o Populacional Func {c}~{a}o de Regress~{a}o Populacional Significado do erro estoc'{a}stico Func {c}~{a}o de Regress~{a}o Amostral(FRA) Estimac {c}~{a}o: M'{e}todo de MQO Notac {c}~{o}es especiaisObservac {c}oes sobre os EMQ Exemplo 1 Aplicac {c}~{a}o Suposic {c}~{o}es do m'{e}todo de MQO Propriedades dos EMQ Estimac {c}~{a}o de $sigma ^2$ Previs~{a}o Coeficiente de Determinac {c}~{a}o ($r^2$) Teorema de Gauss-Markov small {Propiedades dos EMQ sob Normalidade} Teste de hip'{o}teses sobre $nulleta _1$ Teste de hip'{o}teses sobre $nulleta _0$ Teste de signific^{a}ncia do MRLS Exemplo An'{a}lise de vari^{a}ncia Tabela de ANOVA Tabela de ANOVA Tabela de ANOVA para Ex. 1 Intervalo de confianc {c}a para $nulleta _0$ e $nulleta _1$ Intervalo de confianc {c}a para resposta m'{e}dia Int. conf. $100(1-alpha )$% para $mu _{Y|x_0}$ Int. conf. $100(1-alpha )$%nullpara $mu _{Y|x_0}$ Int. conf. $100(1-alpha )$%nullpara $mu _{Y|x_0}$ Int. conf. $100(1-alpha )$%nullpara $mu _{Y|x_0}$ Previs~{a}o de novas observac {c}~{o}es Exemplo small {Bandas de confianc {c}a do 95% para $mu _{Y|x_0}$ (CI)nulle $Y_0$ (ICP)} Adequac {c}~{a}o do modelo de regress~{a}o Adequac {c}~{a}o do modelo de regress~{a}o Adequac {c}~{a}o do modelo de regress~{a}o Adequac {c}~{a}o do modelo de regress~{a}o Adequac {c}~{a}o do modelo de regress~{a}o Gr'{a}fico de res'{i }duos do exemplo 1 Exemplo: Coeficiente de Determinac {c}~{a}o Exemplo: Coeficiente de Determinac {c}~{a}o Exemplo: Coeficiente de Determinac {c}~{a}o Analise de Correlac {c}~{a}o Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $ Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $ Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $ Estimadores de $nulleta _0,$ $nulleta _1$ e $nullho $ Teste de hip'{o}teses Teste de hip'{o}teses Intervalo de confianc {c}a para $nullho $ Exemplo 2
Compartilhar