Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA II Professora Kelly Alonso REGRESSÃO LINEAR www.vep.uff.br Email: kellyalonso@uol.com.br Quando duas variáveis possuem certo grau de relacionamento (verificado pela correlação), podemos aplicar a análise de regressão que vai nos permitir descrever através de um modelo matemático, a relação entre duas variáveis, partindo de n observações das mesmas. Em particular estudaremos a regressão linear que se trata de uma reta. Ao estudarmos regressão linear devemos definir uma variável de resposta, (dependente) àquela que mede um resultado de um estudo que denotamos y; e uma variável explicativa (independente), àquela que explica ou influencia mudanças em uma variável de resposta que denotamos por x.ou influencia mudanças em uma variável de resposta que denotamos por x. Por exemplo, quantidade de cigarros consumida por dia, x, e capacidade pulmonar, y. A reta de regressão é uma linha reta que descreve como uma variável de resposta y muda quando uma variável explicativa x muda. Em geral, utilizamos uma reta de regressão para predizer o valor de y dado um valor de x. Tipos de Modelos de Regressão Modelos de Modelos de Modelos de Modelos de RegressãoRegressãoRegressãoRegressão 2+ Variáveis 2+ Variáveis 2+ Variáveis 2+ Variáveis ExplicativasExplicativasExplicativasExplicativas 1 variável 1 variável 1 variável 1 variável explicativaexplicativaexplicativaexplicativa LinearLinearLinearLinear NãoNãoNãoNão---- LinearLinearLinearLinear SimplesSimplesSimplesSimples NãoNãoNãoNão---- LinearLinearLinearLinear MúltiplaMúltiplaMúltiplaMúltipla LinearLinearLinearLinear Vamos supor que o valor esperado de y varia com x de acordo com uma equação de primeiro grau. onde α e β são parâmetros do modelo. O modelo de regressão linear simples é dado por: em que εi é o erro aleatório da observação i. Em poucas palavras o modelo de regressão é dado pelo valor predito por x segundo uma função mais um erro aleatório. E[ y ] xα β= + i i iy xα β ε= + + yiyiyi xi εi yi xi εi Existem diversos métodos para estimar os valores α e β. Dentre eles temos o Método dos Mínimos Quadrados (MMQ) ou Método dos Mínimos Quadrados ordinários (MQO). Este método consiste em minimizar a soma dos erros quadráticos. Precisamos determinar os valores de α e β tal que minimizem a expressão para isso calculamos as derivadas parciais: Chamaremos de a e b às estimativas para α e β, então ( ) ( ) 222 i i i i i ˆS y y y xε α β= = − = − + ∑ ∑ ∑ S 0 α ∂ = ∂ S 0 β ∂ = ∂e Chamaremos de a e b às estimativas para α e β, então em que xi e yi são os valores observados. A chamada equação ou reta de regressão é dada por: . A diferença entre os valores das observações e os preditos é chamada de resíduo, , sendo que ei pode ser considerado uma estimativa do erro aleatório εi. ( ) i i i i 22 i i n x y x y b n x x − = − ∑ ∑ ∑ ∑ ∑ i iy b x a n − =∑ ∑ e yˆ a bx= + XbYa −=ou O coeficiente angular é dado por: Exemplo 1: Consideremos uma amostra aleatória, formada por dez dos 98 alunos de uma classe da faculdade A e pelas notas obtidas por eles em Matemática e Estatística. Determine a reta de regressão. Diagrama de dispersão Como a correlação em estudo tem como “imagem” uma reta ascendente, ela é chamada correlação linear positiva. b ( ) i i i i 22 i i n x y x y b n x x − = − ∑ ∑ ∑ ∑ ∑ i iy b x a n − =∑ ∑ XbYa −=ou b a a=0,89 e b=0,86 y = 0,89 +0,86x Cartas Clientes 1 1 2 1 3 2 4 2 5 4 Exemplo 2: Após várias campanhas de mala direta você está interessado na relação entre o número de cartas enviadas e o número de novos clientes. Você possui os seguintes dados: 4 clientesclientesclientesclientes 0 1 2 3 4 0 1 2 3 4 5 cartascartascartascartas Tabelas para Estimação dos Parâmetros Xi Yi Xi 2 Yi 2 XiYi 1 1 1 1 1 2 1 4 1 22 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 Solução ( ) i i i i 22 i i n x y x y b n x x − = − ∑ ∑ ∑ ∑ ∑ 7,0 )15()55(5 )10)(15()37(5 2 = − − =b y b x−∑ ∑ XbYa −= 1,0 )15)(7,0()10( −= − =ai iy b x a n − =∑ ∑ XbYa −=ou 1,05 )15)(7,0()10( −= − =a y = -0,10 +0,70x DistribuiDistribuiççãoão dos dos ResResííduosduos • Os resíduos de uma regressão são os erros de predição. • Diferença entre o valor real e o predito pelo modelo. �erro da relativo à observação i : ei = Yi - Yi � Desvio padrão σe � É também o desvio padrão (sY/X ) de Y/X (Y dado X) ^ � É também o desvio padrão (sY/X ) de Y/X (Y dado X) • A média dos resíduos é, por força do método MQO, nula quando medida na amostra. • Supondo que os erros tem uma distribuição Normal(0,σe ). Y/(X=x) terá uma distribuição Normal(Y, σe ). EstimativaEstimativa do do ErroErro PadrãoPadrão (S.E)(S.E) LeiaLeia--se: se: DesvioDesvio PadrãoPadrão do do ErroErro de de PrediPrediççãoão s e e n P Y Y n P Y/X i i n i i i n = − − − = − − − = = ∑ ∑( ) ( )2 1 2 1 1 1 $ =eS n P n P s Y b Y b X Y n P Y/X Y/X i i i n i i i n i n − − − − = − − − − = == ∑ ∑∑ 2 0 1 1 11 1 1 1 P = 1 p: número de variáveis explicativas (na regressão simples =1) e AvaliaAvaliaçção do Modeloão do Modelo • A equação de regressão estimada pode ser vista como uma tentativa para explicar as variações na variável dependente Y que resultam das alterações na variável independente X. • Seja a média dos valores observados para a variável dependente. • Uma medida útil associada à reta de regressão é o grau em que as predições baseadas na equação de regressão, , superam as predições baseadas em .y iyˆ y predições baseadas em . • Isto é, se as predições baseadas na reta não são melhores que as baseadas no valor médio, então não adianta dispormos de uma equação de regressão. • Se a dispersão (erro) associada à reta é muito menor que a dispersão (erro) associada a média, as predições baseadas na reta serão melhores que as baseadas na média. y iy Medidas de VariaMedidas de Variaççãoão DecomposiDecomposiçção da Variaão da Variaççãoão Coeficiente de DeterminaCoeficiente de Determinaççãoão Coeficiente de DeterminaCoeficiente de Determinaççãoão a Cartas Clientes 1 1 2 1 3 2 4 2 5 4 Voltando ao Exemplo 2: Após várias campanhas de mala direta você está interessado na relação entre o número de cartas enviadas e o número de novos clientes. Você possui os seguintes dados: y = -0,10 +0,70x Qual é o coeficiente de determinação? Xi Yi Xi 2 Yi 2 XiYi 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 a y = -0,10 +0,70x 8167,0 )2)(5()26( )2)(5()37)(7,0()10)(1,0( 2 2 2 = − −+− =r Então, 81.67% da variação no número de cliente é devido a cartas enviadas por mala direta. Coeficiente de CorrelaCoeficiente de Correlaççãoão ) Coeficiente de CorrelaCoeficiente de Correlaççãoão • No exemplo anterior, � Logo, há uma forte relação positiva entre x e y. 9037,00,8167 +==xyr • Nota: O coeficiente de determinação nos dá medida entre 0 e 1 ao passo que o coeficiente de correlação da amostra dá entre -1 e +1. � O coeficiente de correlação é restrito à relação linear entre duas variáveis, o coeficiente de determinação é geral. AnAnáálise de variância lise de variância Teste de significância global do modeloTeste de significância global do modelo • Testa se existe uma relação linear entre X e Y • Hipóteses� H0: β1 = 0 (Não existe relacão linear) � H : β ≠ 0 (Existe Relacionamento linear) � H1: β1 ≠ 0 (Existe Relacionamento linear) • Distribuição amostral do estimador de MQO de β1 é uma distribuição F com P e (n - P -1) graus de liberdade no numerador e denominador, respectivamente. p: número de variáveis explicativas (na regressão simples =1) TestandoTestando a a significânciasignificância Global Global • Usa a estatística F= MSR/MSE • MSR= Mean Square of the Regression= SSR/p • MSE= Mean Square of the Error= SSE/(n-p -1) • Hipóteses 0: =βH • Teste para p=1 � regressão simples 2 1* − = n SSE SSR F )2,1(F se H Rejeite *0 −> nF 0: 10 =βH 0: 11 ≠βH AnAnáálise de variância lise de variância Teste de significância global do modeloTeste de significância global do modelo MSR= SSR1Regressão FMédia dos Quadrados Soma dos Quadrados Graus de Liberdade Fonte de Variação MSR= SSR1Regressão FMédia dos Quadrados Soma dos Quadrados Graus de Liberdade Fonte de Variação MSR1 SSR SSTn-1Total MSE= SSEn-2Erro MSR= SSTn-1Total MSE= SSEn-2Erro MSR= MSE MSR 2−n SSE 1 Xi Yi Xi 2 Yi 2 XiYi 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 SSR = 4,9 SSR MSR = = 4,9 y = -0,10 +0,70x 0,6 1,3 2 2,7 3,4 yˆ a bx SSR = 4,9 SSE = 1,1 SST = 6 1 SSR 2−n SSE MSE MSR F = MSR = = 4,9 MSE = = 0,3667 = 13,36 Exemplo anteriorExemplo anterior 13,364,90004,90001Regressão FMédia dos Quadrados Soma dos Quadrados Graus de Liberdade Fonte de Variação 13,364,90004,90001Regressão FMédia dos Quadrados Soma dos Quadrados Graus de Liberdade Fonte de Variação 6,00004Total 0,36671,10003Erro 6,00004Total 0,36671,10003Erro Exemplo anteriorExemplo anterior rdenominado no 3 emumerador no liberdade degrau 1 com 1,10F tabelaPela 0,05 0,05 = =α numerador 10,13 • Como F>F0,05, rejeita-se H0 num nível de significância de 5%, ou seja há evidências de que a relação entre X e Y observada na amostra seja significante. AnAnááliselise dos dos ResResííduosduos de de RegressãoRegressão • Análise gráfica dos resíduos � Gráfico dos resíduos vs. Xi � Erros – Diferença entre o valor real de Yi e o predito pelo modelo. i modelo. • Objetivos � Examinar a forma funcional (Modelo Linear vs. Modelo Não-Linear) � Avaliar possíveis violações das hipóteses do modelo � Identificar Outliers
Compartilhar