Baixe o app para aproveitar ainda mais
Prévia do material em texto
Cap´ıtulo 1 Regressa˜o Linear Simples Suponha que n unidades amostrais sejam observadas e sejam (Yi, Xi) varia´veis aleato´rias observadas para a i-e´sima unidade amostral, sendo Yi a varia´vel de interesse e Xi uma varia´vel aleato´ria relacionada a varia´vel de interesse. Por exemplo, o interesse pode estar em modelar a temperatura dia´ria e a umidade pode servir para explicar a temperatura. Neste caso, Yi e´ a temperatura observada no dia i e Xi e´ a umidade observada neste mesmo dia. A v.a. Yi e´ chamada de varia´vel resposta e, Xi, de covaria´vel ou varia´vel explicativa. Um modelo de regressa˜o estabelece uma relac¸a˜o entre a v.a. resposta e a v.a. explicativa. Para estabelecer esta relac¸a˜o, faz-se um gra´fico de dispersa˜o de Yi versus Xi, i = 1, . . . , n. A figura 1.1 apresenta exemplos de gra´ficos deste tipo com diferentes relac¸o˜es: a figura (a) sugere uma relac¸a˜o linear, a figura (b) sugere uma relac¸a˜o quadra´tica, a figura (c) sugere uma relac¸a˜o cu´bica e a figura (d) sugere uma relac¸a˜o exponencial. Um modelo cla´ssico e´ o que estabelece uma relac¸a˜o linear entre a v.a. resposta e a v.a. explicativa, ou seja, Yi = β0 +Xiβ1 + ei. O paraˆmetro β0 e´ o coeficiente linear da reta e e´ chamado de intercepto. Ele representa um n´ıvel comum a todos os indiv´ıduos. O paraˆmetro β1 e´ o coeficiente angular e representa o efeito que a varia´vel explicativa tem sobre a varia´vel resposta. Os paraˆmetros (β0, β1) sa˜o chamados de coeficientes de regressa˜o. 1 2 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l ll ll l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l ll l l l l l ll l l −2 −1 0 1 2 2 4 6 8 10 x y (a) l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l ll l l l l l l ll l l l l l l l l lll l l l l l l l l l l l l l l l l l l l l l l l l ll l l l ll l l l l l ll l ll l l l l l l −2 −1 0 1 2 4 6 8 10 14 x y (b) l l l l l l l l l l l ll l l l l l l ll l ll l l ll l lll ll l ll l l l ll l l ll l l l l lll l l l l l l l ll l l l l l l l l ll l ll l lll l l l lll l l ll ll l ll ll ll l l −2 −1 0 1 2− 10 0 0 50 15 0 x y (c) l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l ll l l l l l l l l ll ll l ll l l l l l l l l l l l l l l l ll l l l l ll l l l l l l l l l l l l l l ll l l l l l l l l l −2 −1 0 1 2 5 10 15 20 25 x y (d) Figura 1.1: Exemplos de gra´ficos de dispersa˜o. Espera-se que o intercepto e a covaria´vel expliquem bem os valores de Yi, ou seja, espera-se que os erros dos indiv´ıduos, ei, sejam pequenos e estejam aleatoriamente em torno de zero, isto e´, E[ei] = 0. Ale´m disso, supo˜e-se que os erros possuem a mesma variaˆncia (homocedasticidade), ou seja, que V AR[e1] = V AR[e2] = . . . = V AR[en] = σ 2. OBS: Considere desconhecidos os coeficientes de regressa˜o e a variaˆncia dos erros. Sendo assim, pode se ter interesse em estimar estes paraˆmetros. Para obter uma estimativa pontual para os 1.1. AJUSTE DO MODELO 3 paraˆmetros β0 e β1 na˜o precisamos assumir nenhuma distribuic¸a˜o para ei. Pore´m, quando queremos uma estimativa intervalar ou quando queremos estimar a variaˆncia de Yi, precisamos assumir alguma distribuic¸a˜o. Nesta parte do curso, estudaremos apenas o caso no qual ei ∼ N(0, σ2), i = 1, . . . , n. Dessa forma, temos que Yi ∼ N(β0 +Xiβ1, σ2). Antes de estimar os paraˆmetros, precisamos observar, pelo gra´fico de dispersa˜o, os seguintes pressupostos • linearidade • homocedasticidade • independeˆncia A homocedasticidade implica que a dispersa˜o vertical e´ a mesma para qualquer valor de x. Nem sempre e´ simples perceber este pressuposto de forma visual. O pressuposto de normalidade e os citados acima podem ser verificados apo´s obtermos uma estimativa dos coeficientes. Maiores detalhes, sera˜o dados na Sec¸a˜o 1.2. 1.1 Ajuste do Modelo O ajuste do modelo consiste em obter uma estimativa para os paraˆmetros da regressa˜o baseada em uma amostra de tamanho n das varia´veis (Yi, Xi), i = 1, . . . , n. Estimadores dos paraˆmetros podem ser obtidos atrave´s do me´todo dos mı´nimos quadrados ou do me´todo da ma´xima verossimilhanc¸a, por exemplo. Comentaremos apenas o me´todo dos mı´nimos quadrados. Inicialmente, analisaremos um caso particular, do modelo de regressa˜o linear simples, que e´ obtido quando consideramos que o intercepto e´ nulo. Posteriormente, estudaremos o ajuste do modelo quando ha´ intercepto e coeficiente angular. 4 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES 1.1.1 Modelo com intercepto somente Suponha que seja razoa´vel supor uma relac¸a˜o na qual a func¸a˜o linear tenha coeficiente angular igual a zero, ou seja, na˜o ha´ relac¸a˜o entre a v.a. resposta e a v.a. explicativa. Enta˜o, a func¸a˜o e´ Yi = β0 + ei Estimando o coeficiente β0 Tendo uma amostra de tamanho n de Yi, podemos estimar β0 atrave´s do me´todo de mı´nimos quadrados, ou seja, minimizamos a soma dos erros quadra´ticos SQR = n∑ i=1 e2i = n∑ i=1 (Yi − β0)2 da seguinte forma ∂SQR ∂β0 = n∑ i=1 −2(Yi − β0) ∂SQR ∂β0 = 0 ⇔ − n∑ i=1 Yi + nβ0 = 0 ⇔ β0 = ∑n i=1 Yi n = Y¯ . Para provar que este candidato e´ um ponto de mı´nimo, calculamos a segunda derivada: ∂2SQR ∂β20 = 2. Note que ∂ 2SQR ∂β20 > 0 para qualquer β0. Logo, o candidato e´ ponto de mı´nimo e, enta˜o, e´ um estimador para β0. Logo, βˆ0 = Y¯ . Supondo que ei ∼ N(0, σ2), temos que um estimador na˜o viesado para σ2 e´ S2 = ∑n i=1 (Yi − Y¯ )2 n− 1 . 1.1. AJUSTE DO MODELO 5 1.1.2 Modelo com coeficiente angular somente Suponha que seja razoa´vel supor uma relac¸a˜o na qual a func¸a˜o linear tenha coeficiente linear igual a zero. Enta˜o, a func¸a˜o e´ Yi = Xiβ + ei Estimando o coeficiente β Tendo uma amostra de tamanho n, de Xi e de Yi, podemos estimar β atrave´s do me´todo de mı´nimos quadrados, ou seja, minimizamos a soma dos erros quadra´ticos SQR = n∑ i=1 e2i = n∑ i=1 (Yi −Xiβ)2 da seguinte forma ∂SQR ∂β = n∑ i=1 2(Yi −Xiβ)(−Xi) ∂SQR ∂β = 0 ⇔ −2 n∑ i=1 YiXi + 2β n∑ i=1 X2i = 0 ⇔ β = ∑n i=1 YiXi∑n i=1X 2 i OBS: Sejam SXY = ∑n i=1 YiXi e SX = ∑n i=1X 2 i . Para provar que este candidato e´ um ponto de mı´nimo, calculamos a segunda derivada: ∂2SQR ∂β2 = 2 n∑ i=1 X2i Note que ∂ 2SQR ∂β2 > 0 para qualquer β. Logo, o candidato e´ ponto de mı´nimo e, enta˜o, e´ um estimador para β. Logo, βˆ = SXY SX Supondo que ei ∼ N(0, σ2), temos que um estimador na˜o viesado para σ2 e´ S2 = ∑n i=1 (Yi −Xiβˆ)2 n− 1 . 6 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES 1.1.3 Modelo com intercepto e coeficiente angular Incluindo o coeficiente linear, tambe´m chamado de intercepto, temos que Yi = β0 +Xiβ1 + ei Estimandoos coeficientes β0 e β1 Tendo uma amostra de tamanho n, de Xi e de Yi, podemos estimar β0 e β1 atrave´s do me´todo de mı´nimos quadrados, ou seja, minimizamos a soma dos erros quadra´ticos SQR = n∑ i=1 e2i = n∑ i=1 (Yi − β0 −Xiβ1)2 da seguinte forma ∂SQR ∂β0 = n∑ i=1 2(Yi − β0 −Xiβ)(−1) ∂SQR ∂β0 = 0 ⇔ n∑ i=1 Yi − nβ0 − β1 n∑ i=1 Xi = 0 ⇔ β0 = ∑n i=1 Yi n − β1 ∑n i=1 Xi n ⇔ β0 = Y¯ − β1X¯ ∂SQR ∂β1 = n∑ i=1 2(Yi − β0 −Xiβ)(−Xi) ∂SQR ∂β1 = 0 ⇔ n∑ i=1 YiXi − β0 n∑ i=1 Xi − β1 n∑ i=1 X2i = 0 ⇔ β1 = ∑n i=1 YiXi − β0 ∑n i=1Xi∑n i=1X 2 i ⇔ β1 = ∑n i=1 YiXi − Y¯ ∑n i=1Xi + β1X¯ ∑n i=1Xi∑n i=1 X 2 i ⇔ β1 = ∑n i=1 YiXi − Y¯ ∑n i=1Xi∑n i=1 X 2 i − X¯ ∑n i=1Xi ⇔ β1 = ∑n i=1 (Yi − Y¯ )(Xi − X¯)∑n i=1 (Xi − X¯)2 pois 1.1. AJUSTE DO MODELO 7 n∑ i=1 YiXi − Y¯ n∑ i=1 Xi = n∑ i=1 YiXi − Y¯ n∑ i=1 Xi + nX¯Y¯ − nX¯Y¯ = n∑ i=1 YiXi − Y¯ n∑ i=1 Xi + n∑ i=1 X¯Y¯ − n∑ i=1 X¯Yi = n∑ i=1 [ YiXi − Y¯ Xi + X¯Y¯ − X¯Yi ] = n∑ i=1 [ Yi(Xi − X¯)− Y¯ (Xi − X¯) ] = n∑ i=1 [ (Yi − Y¯ )(Xi − X¯) ] n∑ i=1 (X2i − X¯Xi) = n∑ i=1 (X2i − X¯Xi − X¯2 + X¯2) = n∑ i=1 (X2i − X¯Xi − X¯Xi + X¯2) = n∑ i=1 (X2i − X¯)2 Provando que e´ ponto de mı´nimo: ∂2SQR ∂β20 = 2n ∂2SQR ∂β21 = 2 n∑ i=1 X2i ∂2SQR ∂β0β1 = 2 n∑ i=1 Xi = ∂2SQR ∂β1β0 Logo, a matriz Hessiana e´ H = 2n 2∑ni=1Xi 2 ∑n i=1Xi 2 ∑n i=1 X 2 i 8 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES e o determinante dela e´ det(H) = 4n n∑ i=1 X2i − 4 n∑ i=1 Xi ( n∑ i=1 Xi ) = 4n n∑ i=1 X2i − 4 ( n∑ i=1 Xi )2 = 4n n∑ i=1 X2i − 1 n ( n∑ i=1 Xi )2 = 4n n∑ i=1 X2i − n2 1 n ( 1 n n∑ i=1 Xi )2 = 4n [ n∑ i=1 X2i − nX¯2 ] = 4n [ n∑ i=1 (Xi − X¯)2 ] > 0 para quaisquer β0 e β1 E, como 2n > 0, temos que os estimadores de β0 e β1 sa˜o, respectivamente, βˆ0 = Y¯ − βˆ1X¯ βˆ1 = ∑n i=1 [ (Yi − Y¯ )(Xi − X¯) ]∑n i=1 (Xi − X¯)2 Supondo que ei ∼ N(0, σ2), temos que um estimador na˜o viesado para σ2 e´ S2 = ∑n i=1 (Yi − βˆ0 −Xiβˆ1)2 n− 2 . 1.2 Ana´lise do ajuste Apo´s o ajuste do modelo, pode se investigar a adequac¸a˜o do modelo proposto, ou seja, analisamos se a relac¸a˜o proposta para as varia´veis Yi e Xi e´ adequada. Esta ana´lise e´ obtida atrave´s dos res´ıduos, eˆi = Yi − Yˆi, sendo Yˆi chamado de valor ajustado para a v.a. resposta i. Os valores ajustados sa˜o obtidos pela relac¸a˜o proposta substituindo os paraˆmetros desconhecidos pelos seus estimadores, como, por exemplo, quando propo˜e-se um modelo com intercepto e coeficiente angular, os valores ajustados sa˜o Yˆi = βˆ0 −Xiβˆ1. 1.3. PROPRIEDADES E DISTRIBUIC¸O˜ES DOS ESTIMADORES 9 Podemos verificar os pressupostos do modelo atrave´s de gra´ficos dos res´ıduos. O pressuposto de normalidade pode ser verificado atrave´s de um histograma dos res´ıduos. Um outro gra´fico poss´ıvel, neste caso, e´ o do qqnorm que compara os quantis da normal com os quantis dos res´ıduos. Quanto mais pro´ximos estes quantis estiverem, maior e´ o ind´ıcio de normalidade, ou seja, o gra´fico do qqnorm tem que parecer uma reta. Outros gra´ficos podem ser feitos para analisar o ajuste, tais como • um gra´fico de dispersa˜o dos res´ıduos versus as varia´veis respostas (serve para analisar o pressuposto de independeˆncia e homocedasticidade); • um gra´fico de dispersa˜o dos res´ıduos versus as varia´veis explicativas (serve para analisar o pressuposto de independeˆncia e homocedasticidade); • um gra´fico de dispersa˜o dos res´ıduos somente (serve para analisar o pressuposto de independeˆncia e homocedasticidade e serve para verificar se os res´ıduos esta˜o aleatoriamente em torno do zero). Espera-se que os gra´ficos de dispersa˜o dos res´ıduos na˜o tenham qualquer padra˜o e que os pontos estejam aleatoriamente dispersos. 1.3 Propriedades e distribuic¸o˜es dos estimadores Para estudar as propriedades dos estimadores, considere o modelo com intercepto e coeficiente angular, ou seja, Yi = β0 +Xiβ1 + ei. Vimos que os estimadores dos coeficientes de regressa˜o sa˜o βˆ0 = Y¯ − βˆ1X¯ e βˆ1 = ∑n i=1[(Yi−Y¯ )(Xi−X¯)]∑n i=1 (Xi−X¯)2 . Podemos obter a me´dia e a variaˆncia destes estimadores. A demonstrac¸a˜o disto pode ser encontrada no livro do Bussab e do Morettin. Sendo assim, temos que E[βˆ0] = β0, V AR[βˆ0] = σ2 ∑n i=1X 2 i n ∑n i=1 (Xi − X¯)2 , E[βˆ1] = β1, V AR[βˆ1] = σ2∑n i=1 (Xi − X¯)2 . 10 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES E, enta˜o, βˆ0 e´ um estimador na˜o viesado para β0 e βˆ1 e´ um estimador na˜o viesado para β1. Suponha que ei ∼ N(0, σ2). Enta˜o, tem-se as seguintes distribuic¸o˜es para os estimadores, ja´ que β0 e β1 sa˜o combinac¸o˜es lineares de v.a. normais e independentes, βˆ0 ∼ N ( β0, σ2 ∑n i=1X 2 i n ∑n i=1 (Xi − X¯)2 ) , βˆ1 ∼ N ( β1, σ2∑n i=1 (Xi − X¯)2 ) , (n− 2)S2 σ2 ∼ χ2(n−2). Atrave´s das distribuic¸o˜es amostrais dos estimadores, pode-se criar intervalos de confianc¸a e realizar teste de hipo´teses. Intervalo de confianc¸a para o intercepto Um intervalo de confianc¸a bilateral para o intercepto, β0, com n´ıvel de confianc¸a de γ% e´[ βˆ0 − t(α/2;n−2) √ S2 ∑n i=1 X 2 i n ∑n i=1 (Xi − X¯)2 , βˆ0 + t(α/2;n−2) √ S2 ∑n i=1X 2 i n ∑n i=1 (Xi − X¯)2 ] sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ. Intervalo de confianc¸a para o coeficiente angular Um intervalo de confianc¸a bilateral para o coeficiente angular, β1, com n´ıvel de confianc¸a de γ% e´ [ βˆ1 − t(α/2;n−2) √ S2∑n i=1 (Xi − X¯)2 , βˆ1 + t(α/2;n−2) √ S2∑n i=1 (Xi − X¯)2 ] sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ. Intervalo de confianc¸a para a resposta me´dia A resposta me´dia da v.a. resposta Yi e´ µi = E[Yi] = β0 + β1Xi. Um estimador pontual para µi e´ µˆi = Yˆi = βˆ0 + βˆ1Xi. Para criar uma estimativa intervalar, tem-se que Yˆi ∼ N ( β0 +Xiβ1 , σ 2 [ 1 n + (Xi − X¯)2∑n i=1 (Xi − X¯)2 ]) . 1.4. TABELA DA ANOVA 11 Um intervalo de confianc¸a bilateral para a resposta me´dia, µ, com n´ıvel de confianc¸a de γ% e´[ Yˆi − t(α/2;n−2) √ S2 ( 1 n + (Xi − X¯)2∑n i=1 (Xi − X¯)2 ) , Yˆi + t(α/2;n−2) √ S2 ( 1 n + (Xi − X¯)2∑n i=1 (Xi − X¯)2 )] , sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ. 1.3.1 Previsa˜o Muitas vezes, ha´ o interesse de obter uma previsa˜o da v.a. resposta associada a varia´vel explicativa conhecida Xf . Denotaremos a v.a. a ser prevista por Yf . Tem-se que Yf = β0 + β1Xf + ef . Logo, um estimador pontual na˜o viesado para Yf e´ Yˆf = βˆ0 + βˆ1Xf + eˆf = βˆ0 + βˆ1Xf , pois E[ef ] = 0. Para obter o erro da previsa˜o, calcula-se a variaˆncia de Yf− Yˆf . Desta forma, pode-se mostrar que V AR[Yf − Yˆf ] = V AR[Yf ] + V AR[Yˆf ] = V AR[ef ] + V AR[βˆ0 + βˆ1Xf ] = σ2 + σ2 [ 1 n + (Xi − X¯)2∑n i=1 (Xf − X¯)2 ] = σ2 [ 1 + 1 n + (Xi − X¯)2∑n i=1 (Xf − X¯)2 ] . Logo, um intervalo de confianc¸a bilateral para a predic¸a˜o, Yf , com n´ıvel de confianc¸a de γ% e´[ Yˆf − t(α/2;n−2) √ S2 ( 1 + 1 n + (Xf − X¯)2∑n i=1 (Xi − X¯)2 ) , Yˆf + t(α/2;n−2) √ S2 ( 1 + 1 n + (Xf − X¯)2∑n i=1 (Xi − X¯)2 )] , sendo t(α/2;n−2) o quantil 1−α/2 da distribuic¸a˜o t-Student com n−2 graus de liberdade e α = 1−γ. 1.4 Tabela da ANOVA Queremos testar se as me´dias de Yi sa˜o iguais para todos osindiv´ıduos. Como E[Yi] = β0 + β1Xi, queremos testar se H0 : β1 = 0 H1 : β1 6= 0. 12 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES Sendo assim, compararemos 2 modelos: Yi = β0 + ei, ( modelo M0), Yi = β0 + β1Xi + ei, ( modelo M1). Supondo o modelo M0 verdadeiro, temos que o valor ajustado do modelo e´ yˆ M0 i = y¯ = ∑n i=1 yi/n. Supondo o modelo M1 verdadeiro, temos que o valor ajustado do modelo e´ yˆ M1 i = βˆ0 +xiβˆ1, sendo βˆ0 = y¯ − βˆ1xi e βˆ1 = ∑n i=1 (xi−x¯)(yi−y¯)∑n i=1 (xi−x¯)2 . Para estimar a variabilidade do erro ei, ou seja, para estimar σ 2 = V AR[ei], calcula-se a variaˆncia da diferenc¸a entre o valor observado yi e seu respectivo valor ajustado yˆi. Sendo assim, para o modelo M0, analisa-se yi − y¯, obtendo-se o seguinte estimador pontual para σ2: S2T = ∑n i=1 (yi−y¯)2 n−1 . E, para o modelo M1, analisa-se yi − βˆ0 − xiβˆ1, obtendo-se o seguinte estimador pontual para σ2: S2 = ∑n i=1 (yi−βˆ0−xiβˆ1)2 n−2 . Seja SQT a soma dos quadrados totais, ou seja, a soma dos quadrados dos res´ıduos quando supomos H0 verdadeiro. Seja SQRes a soma dos quadrados dos res´ıduos quando H1 e´ verdadeiro (equivalente a variac¸a˜o explicada pela regressa˜o). Seja SQReg a variac¸a˜o na˜o explicada pela regressa˜o. Logo, SQReg = n∑ i=1 (Yˆi − Y¯ )2, SQRes = n∑ i=1 (Yi − βˆ0 −Xiβˆ1)2, SQT = n∑ i=1 (Yi − Y¯ )2. sendo Y¯ a me´dia amostral de toda a amostra, βˆ0 = y¯ − βˆ1xi e βˆ1 = ∑n i=1 (xi−x¯)(yi−y¯)∑n i=1 (xi−x¯)2 . Logo SQT = SQReg + SQRes. A medida SQReg pode ser interpretada como sendo uma distaˆncia ou variabilidade entre o valor ajustado do modelo somente com intercepto e o valor ajustado do modelo com intercepto e coeficiente angular, ou seja, estamos avaliando a alterac¸a˜o obtida na modelagem com a inclusa˜o do coeficiente angular. SQRes mede o quanto o valor ajustado do modelo M1 difere dos valores observados e SQT mede o quanto o valor ajustado do modelo M0 difere dos valores observados. 1.5. MODELO NA˜O LINEAR 13 A tabela da ANOVA e´ composta por estas medidas da seguinte forma Fontes de graus de Soma dos Me´dia da soma dos Valor F variac¸a˜o liberdade quadrados quadrados Regressa˜o 1 SQReg MSQReg = SQReg/1 F = MQReg/MQRes Res´ıduos n-2 SQRes S2 = MSQRes = SQRes/(n− 2) Total n-1 SQT S2T = SQT/(n− 1) A Sec¸a˜o 1.3 conte´m a distribuic¸a˜o de βˆ1. Logo, supondo H0 verdadeiro, tem-se que βˆ1 ∼ N ( 0, σ2∑n i=1 (Xi − X¯)2 ) e (n− 2)S2 σ2 ∼ χ2(n−2) ⇒ T = βˆ1√ S2∑n i=1 (Xi−X¯)2 ∼ t(n−2). E´ poss´ıvel mostrar que βˆ21 S2∑n i=1 (Xi−X¯)2 ∼ F(1,n−2). Logo, rejeito H0 se T > c ou se T < −c, sendo Pr(T > c) = α/2. Posso realizar este mesmo teste da seguinte forma: rejeito H0 se F = T 2 > k , sendo Pr(F > k) = α, F ∼ F(1,n−2). Logo, pela tabela da ANOVA, rejeitamos H0 se F > k sendo k o valor cr´ıtico da distribuic¸a˜o F-Snedecor com (1, n− 2) graus de liberdade cuja probabilidade de uma varia´vel aleato´ria com esta distribuic¸a˜o assumir um valor acima de k e´ α. Para avaliar o quanto ganhou-se com o modelo Yi = β0 +Xiβ1 + ei versus o modelo Yi = β0 + ei, mede-se o coeficiente de determinac¸a˜o, dado por R2 = SQReg SQT . Este coeficiente assume valores em [0, 1] e indica o quanto o modelo consegue explicar a varia´vel resposta. Quanto maior R2, mais explicativo e´ o modelo. Por exemplo, se R2 = 0, 90, enta˜o tem-se que 90% da varia´vel dependente consegue ser explicada pelas covaria´veis utilizadas no modelo. 1.5 Modelo na˜o linear Suponha que sugere-se o seguinte modelo para os dados Yi = α exp(θx) + ωi. 14 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES Para estimar os paraˆmetros (α, θ) deste modelo pelo me´todo de mı´nimos quadrados, e´ necessa´rio derivar ∑n i=1 (Yi − α exp(θx))2 com respeito a cada um dos paraˆmetros, depois igualar estas derivadas a zero obtendo desta forma um candidato, em seguida, obter a matriz das segundas derivadas e analisar se o candidato e´ ponto de mı´nimo. Realizar este procedimento requer algum procedimento de otimizac¸a˜o na˜o linear, dificultando a estimac¸a˜o dos paraˆmetros. Podemos transformar a equac¸a˜o acima de forma a obter um modelo mais simples, da seguinte forma Yi = α exp(θx) + ωi, = α exp(θx)ui, log(Yi) = log(α) + θx+ log(ui), sendo ui > 0. Seja Y ∗ i = log(Yi), β0 = log(α), β1 = θ e log(ui) = ei. Enta˜o, temos que Y ∗i = β0 +Xiβ1 + ei. 1.6 Exemplo 1 Em um processo industrial, mediu-se a temperatura me´dia e a quantidade de vapor. Os dados esta˜o na tabela 1.1 (Draper & Smith, 1998, Appendix A). 1.6. EXEMPLO 1 15 Tabela 1.1: Dados do exemplo Temperatura Quantidade me´dia (0F ) de Vapor 35,3 10,98 29,7 11,13 30,8 12,51 58,8 8,40 61,4 9,27 71,3 8,73 74,4 6,36 76,7 8,50 70,7 7,82 57,5 9,14 46,4 8,24 28,9 12,19 28,1 11,88 Temperatura Quantidade me´dia (0F ) de Vapor 39,1 9,57 46,8 10,94 48,5 9,58 59,3 10,09 70,0 8,11 70,0 6,83 74,5 8,88 72,1 7,68 58,1 8,47 44,6 8,86 33,4 10,36 28,6 11,08 1. Fac¸a um gra´fico de dispersa˜o supondo que o interesse esteja na quantidade de vapor e que a temperatura me´dia seja uma varia´vel explicativa. Qual relac¸a˜o podemos propor para estas varia´veis? l l l l l l l l l l l l l l l l l l l l l l l l l 30 40 50 60 70 7 8 9 10 11 12 temperatura média qu an tid ad e de v a po r Figura 1.2: Gra´fico de dispersa˜o do exemplo 1. 16 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES Resposta: Pela figura 1.2, podemos propor que Yi = β0 + β1Xi + ei, sendo Yi a quantidade de vapor e Xi a temperatura me´dia. 2. Ajuste o modelo proposto no ı´tem anterior. Resposta: Tem-se que y¯ = 9, 424, x¯ = 52, 6, ∑25 i=1 (xi − x¯)2 = 7154, 42, ∑25 i=1 (yi − y¯)(xi − x¯) = −571, 128, βˆ0 = 13, 6230, βˆ1 = −0, 0798. Logo, o modelo ajustado (ou a reta obtida pelo me´todo dos mı´nimos quadrados) e´ yˆi = 13, 6230− 0, 0798xi. 3. Analise os res´ıduos do modelo ajustado. Desenhe a reta ajustada no gra´fico de dispersa˜o feito no primeiro item. Desenhe tambe´m um intervalo de confianc¸a para a resposta me´dia e para a quantidade de vapor usando um n´ıvel de confianc¸a de 95%. Ale´m disso, avalie se os paraˆmetros do modelo proposto sa˜o estatisticamente significativos. Resposta: Sejam eˆi = yi− yˆi, para i = 1, . . . , 25, os res´ıduos do modelo ajustado. Tem-se que o valor me´dio dos res´ıduos e´ ∑25 i=1 eˆi/25 = 0. Lembrando que um dos pressupostos da regressa˜o e´: E[ei] = 0, para todo i. Suponha que ei ∼ N(0, σ2). Pelo histograma dos res´ıduos encontrado na figura 1.3, na˜o podemos afirmar que os res´ıduos tem ind´ıcios de normalidade pore´m temos uma quantidade pequena de dados dificultando a ana´lise visual. Pelos gra´ficos de dispersa˜o dos res´ıduos, encontrados nesta mesma figura, parece ter restado um padra˜o quando analisamos os res´ıduos versus a quantidade de vapor. Nesta figura, tambe´m tem-se o qqnorm, um gra´fico que compara os quantis dos res´ıduos com os quantis da distribuic¸a˜o normal. Note que os res´ıduos esta˜o pro´ximos da reta, exceto nas caudas. Ale´m de analisar os res´ıduos, pode-se avaliar o ajuste do modelo da seguinte forma: a figura 1.4 conte´m o gra´fico de dispersa˜o da temperatura versus a quantidade de vapor, a reta do modelo ajustado e um intervalo de confianc¸a para a resposta me´dia e para a varia´vel resposta. Note que os valores observados esta˜o dentro do IC para a varia´vel resposta. 1.6. EXEMPLO 1 17 resíduos de ns id ad e −2.0 −1.0 0.0 0.5 1.0 1.5 0 1 2 3 4 5 (a) l l l l l l l l l l l l l l l l l l l l l l l l l 5 10 15 20 25 −1. 5 − 0. 5 0. 5 1. 0 unidade amostral re sí du os (b) l l l l l l l l l l l l l l l l l l l l l l l l l 30 40 50 60 70 − 1. 5 − 0. 5 0. 5 1. 0 temperatura média re sí du os (c) l l l l l l l l l l l l l l l l l l l l l l l l l 7 8 9 10 11 12 − 1. 5 − 0. 5 0. 5 1. 0 quantidade de vapor re sí du os (d) l l l l l l l l l l l l l l l l l l l l l l l l l −2 −1 0 1 2 − 1. 5 − 0. 5 0. 5 1. 0 quantis da N(0,1) qu an tis d os re sí du os (e) Figura 1.3: Analisando os res´ıduos do modelo ajustado do exemplo. Figura (a): histograma dos res´ıduos. Figura (b): Gra´fico de dispersa˜o dos res´ıduos. Figura(c): Gra´fico de dispersa˜o dos res´ıduos versus a covaria´vel. Figura(d): Gra´fico de dispersa˜o dos res´ıduos versus a temperatura me´dia. Figura (e): Comparando os quantis dos res´ıduos (quantis amostrais) com os quantis da distribuic¸a˜o normal. 18 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES l l l l l l l l l l l l l l l l l l l l l l l l l 30 40 50 60 70 6 8 10 12 temperatura média qu an tid ad e de v a po r l l l l l l l l l l l l l l l l l l l l l l l l l l Valor observado Reta ajustada IC para a média IC para a va resposta Figura 1.4: Gra´fico de dispersa˜o com a reta ajustada, intervalo de confianc¸a de 95% das me´dias das temperaturas me´dias e intervalo de confianc¸a de 95% das temperaturas me´dias. Tabela 1.2: Tabela ANOVA para o exemplo 1. Fontes de graus de Soma dos Me´dia da soma dos Valor F variac¸a˜o liberdade quadrados quadrados Regressa˜o 1 45,5924 45,5924 F = 57, 5428 Res´ıduos 23 18,2234 0,7923 Total 24 63,8158 2,6590 Pela tabela da ANOVA 1.6, tem-se que F = 57, 5428 > 0, 0161 (quantil de 95% da F(1,23)). Logo, rejeita-se a hipo´tese H0 : β1 = 0 versus H1 : β1 6= 0, ao n´ıvel de significaˆncia de 5%. O coeficiente de determinac¸a˜o R2 = 0, 7144, ou seja, o modelo com intercepto e coeficiente angular explica 71, 44% da variabilidade total da varia´vel resposta, indicando que o modelo adotado e´ uma proposta boa. Para testar se o intercepto e´ significativo, pode-se criar um intervalo de confianc¸a para este paraˆmetro e analisar se o zero pertence a este intervalo. Logo, um IC bilateral para β0, ao n´ıvel de confianc¸a de 95% e´ [12, 4201 ; 14, 8258]. Logo, o intercepto e´ significativo. Um IC bilateral para σ2, ao n´ıvel de confianc¸a de 95% e´ [0, 4786 ; 1, 5591]. Note que a variabilidade deste paraˆmetro e´ razoavelmente pequena. 1.7. EXEMPLO 2 19 4. Para uma temperatura de 800F, qual e´ a quantidade de vapor prevista? Informe uma estimativa pontual e uma estimativa intervalar, ao n´ıvel de confianc¸a de 90%. Resposta: yˆf = 7, 2366(4, 6067 ; 9, 8667). 1.7 Exemplo 2 Um psico´logo esta´ investigando a relac¸a˜o entre o tempo que um indiv´ıduo leva para reagir a um est´ımulo visual e sua idade. Os dados esta˜o na tabela 1.3. Tabela 1.3: Dados do exemplo 2 Tempo (Y ) Idade (X) 96 20 92 20 106 20 100 20 98 25 104 25 110 25 101 25 116 30 106 30 Tempo (Y ) Idade (X) 109 30 100 30 112 35 105 35 118 35 108 35 113 40 112 40 127 40 117 40 1. Fac¸a um gra´fico de dispersa˜o. Qual relac¸a˜o podemos propor para estas varia´veis? Resposta: Pela figura 1.5, podemos propor que Yi = β0 + β1Xi + ei, sendo Yi o tempo de resposta e Xi a idade. 2. Ajuste o modelo proposto no ı´tem anterior. Resposta: Tem-se que y¯ = 107, 5, x¯ = 30, ∑n i=1 (xi − x¯)2 = 1000, ∑n i=1 (yi − y¯)(xi − x¯) = 900, βˆ0 = 80, 5, βˆ1 = 0, 9. Logo, o modelo ajustado (ou a reta obtida pelo me´todo dos mı´nimos quadrados) e´ yˆi = 80, 5 + 0, 9xi. 20 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES l l l l l l l l l l l l l l l l l l l l 20 25 30 35 40 95 10 5 11 5 12 5 idade te m po d e re sp os ta Figura 1.5: Gra´fico de dispersa˜o do exemplo 2. 3. Analise os res´ıduos do modelo ajustado. Desenhe a reta ajustada no gra´fico de dispersa˜o feito no primeiro item. Desenhe tambe´m um intervalo de confianc¸a para a resposta me´dia e para a quantidade de vapor usando um n´ıvel de confianc¸a de 95%. Ale´m disso, avalie se os paraˆmetros do modelo proposto sa˜o estatisticamente significativos. Resposta: Sejam eˆi = yi − yˆi, para i = 1, . . . , n, os res´ıduos do modelo ajustado. Tem-se que o valor me´dio dos res´ıduos e´ ∑n i=1 eˆi/n = 0. Lembrando que um dos pressupostos da regressa˜o e´: E[ei] = 0, para todo i. Suponha que ei ∼ N(0, σ2). Pelo histograma dos res´ıduos encontrado na figura 1.6, na˜o podemos afirmar que os res´ıduos tem ind´ıcios de normalidade pore´m temos uma quantidade pequena de dados dificultando a ana´lise visual. Pelos gra´ficos de dispersa˜o dos res´ıduos, encontrados nesta mesma figura, parece ter restado um padra˜o quando analisamos os res´ıduos versus o tempo de resposta e parece haver observac¸o˜es discrepantes. Nesta figura, tambe´m tem- se o qqnorm, um gra´fico que compara os quantis dos res´ıduos com os quantis da distribuic¸a˜o normal. Note que os res´ıduos esta˜o distantes da reta na cauda superior. Ale´m de analisar os res´ıduos, pode-se avaliar o ajuste do modelo da seguinte forma: a figura 1.7 conte´m o gra´fico de dispersa˜o da temperatura versus a quantidade de vapor, a reta do modelo ajustado e um intervalo de confianc¸a para a resposta me´dia e para a varia´vel resposta. Note que os valores observados esta˜o dentro do IC para a varia´vel resposta. 1.7. EXEMPLO 2 21 resíduos de ns id ad e −10 −5 0 5 10 15 0 1 2 3 4 5 6 7 (a) l l l l l l l l l l l l l l l l l l l l 5 10 15 20 − 5 0 5 10 unidade amostral re sí du os (b) l l l l l l l l l l l l l l l l l l l l 20 25 30 35 40 − 5 0 5 10 idade re sí du os (c) l l l l l l l l l l l l l l l l l l l l 95 100 110 120 − 5 0 5 10 tempo de resposta re sí du os (d) l l l l l l l l l l l l l l l l l l l l −2 −1 0 1 2 − 5 0 5 10 quantis da N(0,1) qu an tis d os re sí du os (e) Figura 1.6: Analisando os res´ıduos do modelo ajustado do exemplo. Figura (a): histograma dos res´ıduos. Figura (b): Gra´fico de dispersa˜o dos res´ıduos. Figura (c): Gra´fico de dispersa˜o dos res´ıduos versus a idade. Figura (d): Gra´fico de dispersa˜o dos res´ıduos versus o tempo de resposta. Figura (e): Comparando os quantis dos res´ıduos (quantis amostrais) com os quantis da distribuic¸a˜o normal. 22 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES l l l l l l l l l l l l l l l l l l l l 20 25 30 35 40 90 10 0 11 0 12 0 13 0 idade te m po d e re sp os ta l l l l l l l l l l l l l l l l l l l l l Valor observado Reta ajustada IC para a média IC para a va resposta Figura 1.7: Gra´fico de dispersa˜o com a reta ajustada, intervalo de confianc¸a de 95% das me´dias dos tempos de resposta e intervalo de confianc¸a de 95% dos temposde respostas. Tabela 1.4: Tabela ANOVA para o exemplo 1. Fontes de graus de Soma dos Me´dia da soma dos Valor F variac¸a˜o liberdade quadrados quadrados Regressa˜o 1 810 810 F = 25, 8970 Res´ıduos 18 563 31,2778 Total 19 1373 72,2632 Pela tabela da ANOVA 1.6, tem-se que F = 25, 8970 > 4, 4139 (quantil de 95% da F(1,18)). Logo, rejeita-se a hipo´tese H0 : β1 = 0 versus H1 : β1 6= 0, ao n´ıvel de significaˆncia de 5%. O coeficiente de determinac¸a˜o R2 = 0, 59, ou seja, o modelo com intercepto e coeficiente angular explica 59% da variabilidade total da varia´vel resposta, indicando que o modelo adotado e´ uma proposta razoa´vel. Para testar se o intercepto e´ significativo, pode-se criar um intervalo de confianc¸a para este paraˆmetro e analisar se o zero pertence a este intervalo. Logo, um IC bilateral para β0, ao n´ıvel de confianc¸a de 95% e´ [69, 0478 ; 91, 9522]. Logo, o intercepto e´ significativo. Um IC bilateral para σ2, ao n´ıvel de confianc¸a de 95% e´ [17, 8581 ; 68, 4021]. 1.8. EXEMPLO 3 23 4. Para um indiv´ıduo com 32 anos, qual e´ o tempo de resposta previsto? Informe uma estimativa pontual e uma estimativa intervalar, ao n´ıvel de confianc¸a de 90%. Resposta: yˆf = 109, 3(92, 4769 ; 126, 1231). 1.8 Exemplo 3 Os dados esta˜o na tabela 1.5. Tabela 1.5: Dados do exemplo 3 Taxa de inflac¸a˜o Ano 9 1961 24 1963 72 1965 128 1967 192 1969 277 1971 373 1973 613 1975 1236 1977 2639 1979 1. Fac¸a um gra´fico de dispersa˜o. Qual relac¸a˜o podemos propor para estas varia´veis? Resposta: Pela figura 1.8, podemos propor que Y ∗i = α exp(θXi) + ωi, sendo Y ∗ i a taxa de inflac¸a˜o e Xi o ano. Este modelo pode ser reescrito da seguinte forma: Yi = β0 + β1Xi + ei, sendo Yi o logar´ıtimo da taxa de inflac¸a˜o e Xi o ano. A figura 1.9 apresenta o gra´fico de dispersa˜o para o logar´ıtimo da inflac¸a˜o. 2. Ajuste o modelo proposto no ı´tem anterior. 24 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES l l l l l l l l l l 1965 1970 1975 0 50 0 15 00 25 00 ano ta xa d e in fla çã o Figura 1.8: Gra´fico de dispersa˜o do exemplo 3. l l l l l l l l l l 1965 1970 1975 2 3 4 5 6 7 8 ano lo g da ta xa d e in fla çã o Figura 1.9: Gra´fico de dispersa˜o do exemplo 3. Resposta: Tem-se que y¯ = 5, 27, x¯ = 1970, ∑n i=1 (xi − x¯)2 = 330, ∑n i=1 (yi − y¯)(xi − x¯) = 93, βˆ0 = −549, 928, βˆ1 = 0, 28. Logo, o modelo ajustado (ou a reta obtida pelo me´todo dos mı´nimos quadrados) e´ yˆi = −549, 928 + 0, 28xi. 3. Analise os res´ıduos do modelo ajustado. Desenhe a reta ajustada no gra´fico de dispersa˜o feito no primeiro item. Desenhe tambe´m um intervalo de confianc¸a para a resposta me´dia e para a quantidade de vapor usando um n´ıvel de confianc¸a de 95%. Ale´m disso, avalie se os paraˆmetros do modelo proposto sa˜o estatisticamente significativos. Resposta: Sejam eˆi = yi − yˆi, para i = 1, . . . , n, os res´ıduos do modelo ajustado. Tem-se que o valor me´dio dos res´ıduos e´ ∑n i=1 eˆi/n = 0. Lembrando que um dos pressupostos da regressa˜o e´: E[ei] = 0, para todo i. 1.8. EXEMPLO 3 25 Suponha que ei ∼ N(0, σ2). Pelo histograma dos res´ıduos encontrado na figura 1.11, na˜o podemos afirmar que os res´ıduos tem ind´ıcios de normalidade pore´m temos uma quantidade pequena de dados dificultando a ana´lise visual. Pelos gra´ficos de dispersa˜o dos res´ıduos, encontrados nesta mesma figura, parece ter restado um padra˜o, indicando que o pressuposto de independeˆncia e de homocedasticidade esta´ incorreto. Nesta figura, tambe´m tem-se o qqnorm, um gra´fico que compara os quantis dos res´ıduos com os quantis da distribuic¸a˜o normal. Note que os res´ıduos esta˜o pro´ximos da reta, indicando que o pressuposto de normalidade esta´ sendo atendido. Ale´m de analisar os res´ıduos, pode-se avaliar o ajuste do modelo da seguinte forma: a figura 1.10 conte´m o gra´fico de dispersa˜o da temperatura versus a quantidade de vapor, a reta do modelo ajustado e um intervalo de confianc¸a para a resposta me´dia e para a varia´vel resposta. Note que os valores observados esta˜o dentro do IC para a varia´vel resposta. l l l l l l l l l l 1965 1970 1975 2 3 4 5 6 7 8 ano lo g da ta xa d e in fla çã o l l l l l l l l l l l Valor observado Reta ajustada IC para a média IC para a va resposta Figura 1.10: Gra´fico de dispersa˜o com a reta ajustada, intervalo de confianc¸a de 95% das me´dias dos tempos de resposta e intervalo de confianc¸a de 95% dos tempos de respostas. 26 CAPI´TULO 1. REGRESSA˜O LINEAR SIMPLES resíduos de ns id ad e −0.6 −0.2 0.0 0.2 0.4 0.6 0. 0 0. 5 1. 0 1. 5 2. 0 2. 5 3. 0 (a) l l l l l l l l l l 2 4 6 8 10 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 unidade amostral re sí du os (b) l l l l l l l l l l 1965 1970 1975 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 ano re sí du os (c) l l l l l l l l l l 2 3 4 5 6 7 8 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 log da taxa de inflação re sí du os (d) l l l l l l l l l l −1.5 −0.5 0.0 0.5 1.0 1.5 − 0. 4 − 0. 2 0. 0 0. 2 0. 4 quantis da N(0,1) qu an tis d os re sí du os (e) Figura 1.11: Analisando os res´ıduos do modelo ajustado do exemplo. Figura (a): histograma dos res´ıduos. Figura (b): Gra´fico de dispersa˜o dos res´ıduos. Figura(c): Gra´fico de dispersa˜o dos res´ıduos versus a idade. Figura(d): Gra´fico de dispersa˜o dos res´ıduos versus o tempo de resposta. Figura (e): Comparando os quantis dos res´ıduos (quantis amostrais) com os quantis da distribuic¸a˜o normal. 1.8. EXEMPLO 3 27 Tabela 1.6: Tabela ANOVA para o exemplo 1. Fontes de graus de Soma dos Me´dia da soma dos Valor F variac¸a˜o liberdade quadrados quadrados Regressa˜o 1 26,21 26,21 F = 243, 51 Res´ıduos 8 0,86 0,11 Total 9 27,07 3,01 Pela tabela da ANOVA 1.6, tem-se que F = 243, 51 > 5, 32 (quantil de 95% da F(1,8)). Logo, rejeita-se a hipo´tese H0 : β1 = 0 versus H1 : β1 6= 0, ao n´ıvel de significaˆncia de 5%. O coeficiente de determinac¸a˜o R2 = 0, 9682, ou seja, o modelo com intercepto e coeficiente angular explica 96, 82% da variabilidade total do logar´ıtimo da varia´vel resposta, indicando que o modelo adotado e´ uma proposta boa. Para testar se o intercepto e´ significativo, pode-se criar um intervalo de confianc¸a para este paraˆmetro e analisar se o zero pertence a este intervalo. Logo, um IC bilateral para β0, ao n´ıvel de confianc¸a de 95% e´ [−631, 97 ; −467, 88]. Logo, o intercepto e´ significativo. Um IC bilateral para σ2, ao n´ıvel de confianc¸a de 95% e´ [0, 05 ; 0, 39]. 4. Para o ano de 1972, qual e´ a taxa de inflac¸a˜o prevista? Resposta: exp(5, 8360) = 342, 3991. Regressão Linear Simples Ajuste do Modelo Modelo com intercepto somente Modelo com coeficiente angular somente Modelo com intercepto e coeficiente angular Análise do ajuste Propriedades e distribuições dos estimadores Previsão Tabela da ANOVA Modelo não linear Exemplo 1 Exemplo 2 Exemplo 3
Compartilhar