Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes: Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 1 1 Modelos Lineares I Regressão Linear Simples (RLS): (4ª, 5ª e 6ª Aulas) Professor: Dr. José Rodrigo de Moraes Universidade Federal Fluminense (UFF) Departamento de Estatística (GET) 2 Estimação da variância σ2 dos erros do modelo: Introdução: � A variância σ2 dos erros do modelo de regressão é de extrema importância para a realização de inferências na análise de regressão. � É necessário obter alguma informação sobre a variabilidade da distribuição de probabilidade da variável resposta Y do modelo. 3 Estimação da variância σ2 dos erros do modelo: Vimos que os resíduos do modelo são definidos por: Assim a soma dos quadrados dos resíduos (SQRes) é definida por: Essa soma envolveu em seu cálculo a estimação de dois coeficientes de regressão β0 e β1, e portanto 2 gl`s foram perdidos. Desse modo, ao dividir a SQRes por n-2 (graus de liberdade), obtém-se o chamado “Quadrado Médio dos Resíduos” (QMRes), dado por: ∑ ∑ = = −== n 1i n 1i 2 ii 2 i )Y(YeSQRes ˆ n...,2,1,i,YYe iii =∀−= ˆ 4 Estimação da variância dos erros, isto é, VAR(εi)= σ2: Será demonstrado mais adiante que o QMRes, também representado, alternativamente, por , é um estimador não viciado da variância dos erros e, portanto, da variância da variável resposta Yi do modelo de regressão, já que VAR(Yi)=VAR(εi)=σ2. Ou seja: 2n Y(Y 2n e 2n SQResQMRes n 1i ii n 1i 2 i − − = − = − = ∑∑ == 2)ˆ ( ) 2σ= − = ∑ = 2n e EQMResE n 1i 2 i 2σˆ 5 Modelo de Regressão Linear Normal: � As hipóteses gerais do modelo de RLS descritas anteriormente estabeleciam que os erros aleatórios do modelo apresentavam média zero, variância constante σ2 e COV(εi,εj)=0 ∀ i≠j (erros não correlacionados). � Não foi feita nenhuma hipótese sobre a possível distribuição de probabilidade dos erros. � Acrescendo ao conjunto de hipóteses, a hipótese de normalidade dos erros, diremos que Yi=β0+β1Xi +εi é um modelo de regressão linear (simples) normal, isto é, um modelo com erros normalmente distribuídos. � A suposição de que os erros tem distribuição normal simplifica substancialmente a teoria de análise de regressão, e em muitos casos é plenamente justificada na prática. 6 Representação genérica do modelo de RLS normal: � Modelo de regressão linear normal: � Yi → valor observado da variável resposta do i-ésimo elemento da amostra. � β0 e β1 → são os parâmetros desconhecidos a serem estimados com base na amostra. � Xi → valor observado da variável explicativa do i-ésimo elemento da amostra. � εi → erro aleatório do modelo referente ao i-ésimo elemento da amostra. Os erros εi`s são supostamente independentes e normalmente distribuídos com média 0 e variância σ2, isto é : εi ~ N(0,σ2) , i=1,2,...,n ii10i εXββY ++= Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes: Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 2 7 Exemplo: Utilizando o método de estimação de máxima verossimilhança (MV) estudado nas disciplinas “Estatística Básica II” e “Inferência Estatística” , pede-se: a) Obtenha os estimadores dos parâmetros β0 e β1 do modelo de regressão linear normal b) Obtenha o estimador de σ2. c) Compare os estimadores obtidos por MV com os obtidos pelo método de Mínimos Quadrados (MQ). Qual a conclusão obtida ? 8 Exemplo: Dados sobre a concentração da substância X (mg/L) e ganho de peso Y (kg) de n=30 bois: Resultados do Ajuste (n=30 bois) usando o SPSS 17.0 – Statistical Package for the Social Sciences: Analyse /Generalized Linear Models Estimativas dos parâmetros por MV 9 Modelo de Regressão Linear Normal (Inferência sobre os parâmetros do modelo): � Agora vamos realizar inferências sobre os parâmetros do modelo β0 e β1, através da: � Construção de intervalos de confiança (IC`s) � Realização de testes de hipóteses (TH`s) � Definir as distribuições de probabilidade dos estimadores , e de suas funções.10 βeβ ˆˆ 10 Distribuição amostral de : � Vimos que o estimador de MQ de β1 é dado pela seguinte expressão: 1β ˆ ∑ ∑ = = − −− = n 1i 2 i n 1i ii 1 )X(X )Y(Y)X(X βˆ ∑∑ == −=−− n 1i ii n 1i ii Y)X(X)Y(Y)X(X Desenvolvendo o numerador da expressão: 11 Distribuição amostral de : � Substituindo na expressão do estimador de β1, temos que: �Portanto, temos a seguinte expressão alternativa para o estimador de β1: 1β ˆ ∑ ∑ ∑ ∑ ∑ = = = = = = − − = − −− = n 1i iin 1i 2 i n 1i ii n 1i 2 i n 1i ii 1 YV )X(X Y)X(X )X(X )Y(Y)X(X βˆ ∑ = = n 1i ii1 YVβˆ 12 Propriedades importantes: � . � . 0V n 1i i∑ = = 1X )X(X )X(XXV n 1i in i 2 i i n 1i ii ∑ ∑ ∑ = = = = − − = 1 ∑ = − − = n i 2 i i i )X(X )X(XV 1 Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes: Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 3 13 Distribuição amostral de : O estimador pode ser expresso por: � Cálculo da média do estimador : OBS: é um estimador não viciado para o parâmetro β1 do modelo. ∑ = += n 1i ii11 ε Vββˆ 1β ˆ ( ) 11 ββE =ˆ 1β ˆ 1β ˆ 1β ˆ 1β ˆFórmula alternativa de 14 Distribuição amostral de : � Cálculo da variância do estimador : Propriedade: 1β ˆ ( ) ( )∑ = − = n 1i 2 i 1 XX βVAR 2 ˆ σ 1β ˆ ∑ ∑ = = − = n 1i 2 i n 1i 2 i )X(X 1V 15 Distribuição amostral de : � Podemos verificar que: é uma combinação linear das variáveis aleatórias Yi`s, i=1,2,...,n. Baseadas nas hipóteses do modelo de regressão linear normal, as v.a`s Yi `s são independentes e tem distribuição normal com média E(Yi)=β0+β1Xi e variância VAR(Yi)=σ2. Portanto, também terá distribuição normal: 1β ˆ ∑ = = n 1i ii1 YVβˆ 1β ˆ −∑ = n 1i 2 i 11 )X(X ,βN~β 2 ˆ σ 16 Distribuição amostral de : � Vimos que o estimador de MQ de β0 é dado pela seguinte expressão: 0β ˆ XβYβ 10 ˆˆ −= Reescrevendo: i n 1i i n 1i ii n 1i i0 YVX n 1YVXY n 1 β ∑∑∑ === −=−= ˆ ii00 ε VXn 1 ββ ∑ = −+= n 1i ˆ 17 Distribuição amostral de : O estimador pode ser expresso por: � Cálculo da média do estimador : OBS: é um estimador não viciado para o parâmetro β0 do modelo. 0β ˆ i n 1i i00 ε VX n 1 ββ ∑ = −+=ˆ 0β ˆ 0β ˆ ( ) 00 ββE =ˆ 0β ˆ Fórmula alternativa de 0βˆ 18 Distribuição amostral de : �Cálculo da variância do estimador : 0β ˆ ( ) ( )[ ] ( ) [ ]2 0002 000 ββEβVARβEβEβVAR −=→−= ˆˆˆˆˆ 0β ˆ ( ) jijn ji i 2 i n 1i 2 i 2 00 εε VXn 1 VX n 12ε VX n 1 ββ − −+ −=− ∑∑ <= ˆ ( ) ( ) ( ) ( )jijn ji i 2 i n 1i 2 i 2 000 εεE VXn 1 VX n 12εE VX n 1 ββEβVAR ⋅ − −+⋅ −=−= ∑∑ <= ˆˆ Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes:Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 4 19 Distribuição amostral de : �Cálculo da variância do estimador (continuação): Como E(εi)=0 ∀ i=1,2,...,n e E(εi εj)=0 ∀ i≠j, então: VAR(εi)=E(εi2) = σ2 ∀ i=1,2,...,n 0β ˆ 0β ˆ ( ) ( ) − += −= ∑ ∑ = = n 1i i 2 22 n 1i 2 i0 XX X n 1 VX n 1 βVAR 2 ˆ σσ 20 Distribuição amostral de : � Analogamente, podemos verificar que: é uma combinação linear das variáveis aleatórias Yi `s, i=1,2,...,n. Baseadas nas hipóteses do modelo de regressão linear normal, as v.a`s Yi `s são independentes e tem distribuição normal com média E(Yi)=β0+β1Xi e variância VAR(Yi)=σ2. Portanto, também terá distribuição normal: 0β ˆ 0β ˆ − + ∑ = n 1i 2 i 2 00 )X(X X n 1 ,βN~β 2ˆ σ i n 1i i0 YVXn 1 β ∑ = −= ˆ 21 Covariância entre os estimadores e : � A covariância entre os estimadores dos parâmetros β0 e β1 do modelo: Sabe-se que: 0β ˆ i n 1i i00i n 1i i00 εVXn 1 ββεVX n 1 ββ ∑∑ == −=−→ −+= ˆˆ(1) 1β ˆ ∑∑ == =−→+= n 1i ii11 n 1i ii11 ε Vββε Vββ ˆˆ(2) ( ) ( )( ) ( )( )[ ]110010 βEββEβEββCOV ˆˆˆˆˆ,ˆ −−= ( ) ( ) ( )[ ]110010 ββββEββCOV −−= ˆˆˆ,ˆ 22 Covariância entre os estimadores e : � Fazendo as devidas demonstrações, pode-se provar que a covariância entre os estimadores dos parâmetros β0 e β1 é dada por: Pergunta: Qual relação existe entre a média de X e a covariância definida acima ? 0β ˆ 1β ˆ ( ) ( )∑ = − − = n 1i 2 i 10 XX X β,βCOV 2 ˆˆ σ 23 Intervalo de Confiança para o parâmetro : � Vimos que: Logo: 1β −∑ = n 1i 2 i 11 )X(X ,βN~β 2 ˆ σ N(0,1) )X(X)ββ( Z n 1i 2 i11 ~ ˆ σ ∑ = −− = OBS: A v.a Z depende de σ. 24 Intervalo de Confiança para o parâmetro : � Aliada ao fato de que: tem distribuição quiquadrada com (n-2) graus de liberdade, obtemos uma nova variável aleatória obtida abaixo: A v.a T tem distribuição de Student com (n-2) graus de liberdade Lembre-se que: 1β 2 2)(n 2)(n − − χ σ σ ~ ˆ 2 2 σ σ σ σ ˆ ˆˆˆ 2 2 ∑∑ == −− = − − −− = n 1i 2 i11 n 1i 2 i11 )X(X)ββ( 2)(n 2)(n)X(X)ββ( T 2n e QMRes n 1i 2 i − == ∑ =σˆ Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes: Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 5 25 Intervalo de Confiança para o parâmetro : � Para construir um intervalo de confiança (IC) para β1 ao nível de confiança de 100(1-α)% calcula-se a probabilidade abaixo: 1β ( ) α−= ≤ −− ≤− −α = −α ∑ 1t σ )X(Xββ tP 2n/2, n 1i 2 i11 2n/2, ˆ ˆ α−= − σ +≤≤ − σ − ∑∑ = −α = −α 1 )X(X tββ )X(X tβP n 1i 2 i 2n/2,11n 1i 2 i 2n/2,1 ˆ ˆ ˆ ˆ 26 Intervalo de Confiança para o parâmetro : � Logo o um Intervalo de confiança para o parâmetro β1 do modelo, ao nível de confiança de 100(1-α)%, é dado por: 1β − σ + − σ −= ∑∑ = −α = −α− 4444 34444 214444 34444 21 n 1i 2 i 2n/2,1 n 1i 2 i 2n/2,1)%,100(11β )X(X tβ, )X(X tβIC ˆˆˆˆa Limite inferior (Linf) do intervalo Limite superior (Lsup) do intervalo 27 Exemplo: Considerando os dados dos n=30 bois, construa um intervalo de confiança de 95% para o parâmetro β1 do modelo de RLS. IC para β1 ao nível de 95% 28 Testes de Hipóteses para o parâmetro : � Hipóteses a serem testadas: � Estatística de Teste: � A Estatística T tem distribuição de Student com (n-2) graus de liberdade (g.l`s). 1β ≠ = 0β :H 0β :H 11 10 2n n 1i 2 i1 )X(Xβ T − = ∑ − = T~ ˆ ˆ σ 29 1βTestes de Hipóteses para o parâmetro : � Região crítica: � Tomada de Decisão: � Se tobs ∈ RC rejeita-se H0:β1=0 ao nível de significância α, e conclui-se que existe relação linear significativa entre X e Y. � Se tobs ∉ RC não há evidências para rejeitar H0:β1=0 ao nível de significância α, e conclui-se que não existe relação linear significativa entre X e Y. -tα/2,n-2 tα/2,n-20 1- α α/2α/2 { }2n/2,2n/2, ttoutt/tRC −α−α ≥−≤ℜ∈= 30 Exemplo: Considerando os dados dos n=30 bois, realize um teste estatístico de hipóteses para o parâmetro β1 ao nível de significância α de 5%. TH para β1 ao nível de 5% Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes: Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 6 31 Testes de Hipóteses para o parâmetro : No caso do analista desejar testar se o parâmetro β1 do modelo é igual a algum valor de interesse (β1*), realiza-se o seguinte teste de hipóteses: � Hipóteses a serem testadas: � Estatística de Teste: 1β ≠ = * 111 * 110 ββ :H ββ :H ( ) 2n n 1i 2 i * 11 )X(Xββ T − = ∑ −− = T~ ˆ ˆ σ 32 1βTestes de Hipóteses para o parâmetro : � Região crítica: ou alternativamente: � Tomada de Decisão: � Se tobs ∈ RC rejeita-se H0:β1=0 ao nível de significância α, e conclui-se que β1 é significativamente diferente de . � Se tobs ∉ RC não há evidências para rejeitar H0:β1=0 ao nível de significância α, e conclui-se que β1 não é significativamente diferente de . * 1β { }2n/2,2n/2, ttoutt/tRC −α−α ≥−≤ℜ∈= { }2n/2,tt/tRC −α≥ℜ∈= * 1β 33 Intervalo de Confiança para o parâmetro : � Vimos que: Logo: 0β ( ) N(0,1) X-X X n 1 ββZ n 1i i 2 00 ~ ˆ 2 ∑ = + − = σ OBS: A v.a Z depende de σ. − + ∑ = n 1i 2 i 2 00 )X(X X n 1 ,βN~β 2ˆ σ 34 Intervalo de Confiança para o parâmetro : � Aliada ao fato de que: tem distribuição quiquadrada com (n-2) graus de liberdade, obtemos uma nova variável aleatória obtida abaixo: A v.a T tem distribuição de Student com (n-2) graus de liberdade Lembre-se que: 0β 2 2)(n 2)(n − − χ σ σ ~ ˆ 2 2 ∑∑ == − + − = − − − + − = n 1i 2 i 2 00 n 1i 2 i 2 00 )X(X X n 1 ββ 2)(n 2)(n )X(X X n 1 )ββ(T σ σ σ σ ˆ ˆ ˆ ˆ 2 2 2n e QMRes n 1i 2 i − == ∑ =σˆ 35 Intervalo de Confiança para o parâmetro : � Para construir um intervalo de confiança (IC) para β0 ao nível de confiança de 100(1-α)% calcula-se a probabilidade abaixo: 0β α−= ≤ − + − ≤− −α = −α ∑ 1t )X(X X n 1 σ ββtP 2n/2, n 1i 2 i 2 00 2n/2, ˆ ˆ α−= − +σ⋅−≤≤ − +σ⋅− ∑∑ = −α = −α 1 )X(X X n 1tββ )X(X X n 1tβP n 1i 2 i 2 2n/2,00n 1i 2 i 2 2n/2,0 ˆ ˆ ˆ ˆ 36 Intervalo de Confiança para o parâmetro : � Logo um intervalo de confiançapara o parâmetro β0 do modelo, ao nível de confiança de 100(1-α)%, é dado por: 0β Limite inferior (Linf) do intervalo Limite superior (Lsup) do intervalo − +σ− − +σ−= ∑∑ = −α = −α− 444444 3444444 21444444 3444444 21 n 1i 2 i 2 2n/2,0n 1i 2 i 2 2n/2,0)%,100(10β )X(X X n 1tβ )X(X X n 1tβIC ˆˆ,ˆˆα Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes: Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 7 37 Exemplo: Considerando os dados dos n=30 bois, construa agora um intervalo de confiança de 95% para o parâmetro β0 do modelo de RLS. IC para β0 ao nível de 95% 38 Testes de Hipóteses para o parâmetro : � Hipóteses a serem testadas: � Estatística de Teste: � A Estatística T tem distribuição de Student com (n-2) graus de liberdade. 0β ≠ = 0β :H 0β :H 01 00 2n n 1i 2 i 2 0 )X(X X n 1 βT − = ∑ − + = T~ ˆ ˆ σ 39 0βTestes de Hipóteses para o parâmetro : � Região crítica: � Tomada de Decisão: � Se tobs ∈ RC rejeita-se H0:β0=0 ao nível de significância α, e conclui-se que β0 é significativamente diferente de zero. � Se tobs ∉ RC não há evidências para rejeitar H0:β0=0 ao nível de significância α, e conclui-se que β0 não é significativamente diferente de zero. -tα/2,n-2 tα/2,n-20 1- α α/2α/2 { }2n/2,2n/2, ttoutt/tRC −α−α ≥−≤ℜ∈= 40 Exemplo: Considerando os dados dos n=30 bois, realize um teste estatístico de hipóteses para o parâmetro β0 ao nível de significância α de 5%. Qual a conclusão ? TH para β0 ao nível de 5%
Compartilhar