Buscar

02.Modelos Lineares I 04ª, 05ª e 06ª Aula (PRATICA) RLS (distribuição dos estimadores de MQO, ICs e THs usando a T) OK [Modo de Compatibilidade]

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Prof.: Dr. José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes: Estatístico 
(ENCE), Mestre em Estatística Social (ENCE) 
e Doutor em Saúde Coletiva (IESC/UFRJ) 1
1
Modelos Lineares I
Regressão Linear Simples (RLS):
(4ª, 5ª e 6ª Aulas)
Professor: Dr. José Rodrigo de Moraes
Universidade Federal Fluminense (UFF)
Departamento de Estatística (GET)
2
Estimação da variância σ2 dos erros do modelo: 
Introdução:
� A variância σ2 dos erros do modelo de regressão é de
extrema importância para a realização de inferências na
análise de regressão.
� É necessário obter alguma informação sobre a variabilidade
da distribuição de probabilidade da variável resposta Y do
modelo.
3
Estimação da variância σ2 dos erros do modelo: 
Vimos que os resíduos do modelo são definidos por:
Assim a soma dos quadrados dos resíduos (SQRes) é definida
por:
Essa soma envolveu em seu cálculo a estimação de dois
coeficientes de regressão β0 e β1, e portanto 2 gl`s foram
perdidos. Desse modo, ao dividir a SQRes por n-2 (graus de
liberdade), obtém-se o chamado “Quadrado Médio dos Resíduos”
(QMRes), dado por:
∑ ∑
= =
−==
n
1i
n
1i
2
ii
2
i )Y(YeSQRes ˆ
n...,2,1,i,YYe iii =∀−= ˆ
4
Estimação da variância dos erros, isto é, VAR(εi)= σ2:
Será demonstrado mais adiante que o QMRes, também
representado, alternativamente, por , é um estimador não
viciado da variância dos erros e, portanto, da variância da
variável resposta Yi do modelo de regressão, já que
VAR(Yi)=VAR(εi)=σ2. Ou seja:
2n
Y(Y
2n
e
2n
SQResQMRes
n
1i
ii
n
1i
2
i
−
−
=
−
=
−
=
∑∑
==
2)ˆ
( ) 2σ=












−
=
∑
=
2n
e
EQMResE
n
1i
2
i
2σˆ
5
Modelo de Regressão Linear Normal:
� As hipóteses gerais do modelo de RLS descritas anteriormente
estabeleciam que os erros aleatórios do modelo apresentavam
média zero, variância constante σ2 e COV(εi,εj)=0 ∀ i≠j (erros
não correlacionados).
� Não foi feita nenhuma hipótese sobre a possível distribuição de
probabilidade dos erros.
� Acrescendo ao conjunto de hipóteses, a hipótese de
normalidade dos erros, diremos que Yi=β0+β1Xi +εi é um
modelo de regressão linear (simples) normal, isto é, um
modelo com erros normalmente distribuídos.
� A suposição de que os erros tem distribuição normal simplifica
substancialmente a teoria de análise de regressão, e em
muitos casos é plenamente justificada na prática. 6
Representação genérica do modelo de RLS normal:
� Modelo de regressão linear normal:
� Yi → valor observado da variável resposta do i-ésimo
elemento da amostra.
� β0 e β1 → são os parâmetros desconhecidos a serem
estimados com base na amostra.
� Xi → valor observado da variável explicativa do i-ésimo
elemento da amostra.
� εi → erro aleatório do modelo referente ao i-ésimo elemento
da amostra. Os erros εi`s são supostamente independentes e
normalmente distribuídos com média 0 e variância σ2, isto é :
εi ~ N(0,σ2) , i=1,2,...,n
ii10i εXββY ++=
Prof.: Dr. José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes: Estatístico 
(ENCE), Mestre em Estatística Social (ENCE) 
e Doutor em Saúde Coletiva (IESC/UFRJ) 2
7
Exemplo: Utilizando o método de estimação de máxima
verossimilhança (MV) estudado nas disciplinas “Estatística
Básica II” e “Inferência Estatística” , pede-se:
a) Obtenha os estimadores dos parâmetros β0 e β1 do
modelo de regressão linear normal
b) Obtenha o estimador de σ2.
c) Compare os estimadores obtidos por MV com os obtidos
pelo método de Mínimos Quadrados (MQ). Qual a
conclusão obtida ?
8
Exemplo: Dados sobre a concentração da substância X
(mg/L) e ganho de peso Y (kg) de n=30 bois:
Resultados do Ajuste (n=30 bois) usando o SPSS 17.0 –
Statistical Package for the Social Sciences: Analyse
/Generalized Linear Models
Estimativas dos 
parâmetros por MV
9
Modelo de Regressão Linear Normal
(Inferência sobre os parâmetros do modelo):
� Agora vamos realizar inferências sobre os parâmetros do
modelo β0 e β1, através da:
� Construção de intervalos de confiança (IC`s)
� Realização de testes de hipóteses (TH`s)
� Definir as distribuições de probabilidade dos estimadores
, e de suas funções.10 βeβ ˆˆ
10
Distribuição amostral de :
� Vimos que o estimador de MQ de β1 é dado pela
seguinte expressão:
1β
ˆ
∑
∑
=
=
−
−−
=
n
1i
2
i
n
1i
ii
1
)X(X
)Y(Y)X(X
βˆ
∑∑
==
−=−−
n
1i
ii
n
1i
ii Y)X(X)Y(Y)X(X
Desenvolvendo o numerador da expressão:
11
Distribuição amostral de :
� Substituindo na expressão do estimador de β1, temos
que:
�Portanto, temos a seguinte expressão alternativa para o
estimador de β1:
1β
ˆ
∑
∑
∑
∑
∑
=
=
=
=
=
=
−
−
=
−
−−
=
n
1i
iin
1i
2
i
n
1i
ii
n
1i
2
i
n
1i
ii
1 YV
)X(X
Y)X(X
)X(X
)Y(Y)X(X
βˆ
∑
=
=
n
1i
ii1 YVβˆ
12
Propriedades importantes:
� .
� .
0V
n
1i
i∑
=
=
1X
)X(X
)X(XXV
n
1i
in
i
2
i
i
n
1i
ii ∑
∑
∑
=
=
=
=












−
−
=
1
∑
=
−
−
=
n
i
2
i
i
i
)X(X
)X(XV
1
Prof.: Dr. José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes: Estatístico 
(ENCE), Mestre em Estatística Social (ENCE) 
e Doutor em Saúde Coletiva (IESC/UFRJ) 3
13
Distribuição amostral de :
O estimador pode ser expresso por:
� Cálculo da média do estimador :
OBS: é um estimador não viciado para o parâmetro β1
do modelo.
∑
=
+=
n
1i
ii11 ε Vββˆ
1β
ˆ
( ) 11 ββE =ˆ
1β
ˆ
1β
ˆ
1β
ˆ
1β
ˆFórmula alternativa de 
14
Distribuição amostral de :
� Cálculo da variância do estimador :
Propriedade:
1β
ˆ
( ) ( )∑
=
−
=
n
1i
2
i
1
XX
βVAR
2
ˆ
σ
1β
ˆ
∑
∑
=
=
−
=
n
1i
2
i
n
1i
2
i
)X(X
1V
15
Distribuição amostral de :
� Podemos verificar que:
é uma combinação linear das variáveis aleatórias Yi`s,
i=1,2,...,n. Baseadas nas hipóteses do modelo de regressão
linear normal, as v.a`s Yi `s são independentes e tem
distribuição normal com média E(Yi)=β0+β1Xi e variância
VAR(Yi)=σ2. Portanto, também terá distribuição normal:
1β
ˆ
∑
=
=
n
1i
ii1 YVβˆ
1β
ˆ












−∑
=
n
1i
2
i
11
)X(X
,βN~β
2
ˆ
σ
16
Distribuição amostral de :
� Vimos que o estimador de MQ de β0 é dado pela
seguinte expressão:
0β
ˆ
XβYβ 10 ˆˆ −=
Reescrevendo:
i
n
1i
i
n
1i
ii
n
1i
i0 YVX
n
1YVXY
n
1
β ∑∑∑
===






−=−=
ˆ
ii00 ε VXn
1
ββ ∑
=






−+=
n
1i
ˆ
17
Distribuição amostral de :
O estimador pode ser expresso por:
� Cálculo da média do estimador :
OBS: é um estimador não viciado para o parâmetro β0
do modelo.
0β
ˆ
i
n
1i
i00 ε VX
n
1
ββ ∑
=






−+=ˆ
0β
ˆ
0β
ˆ
( ) 00 ββE =ˆ
0β
ˆ
Fórmula alternativa de 0βˆ
18
Distribuição amostral de :
�Cálculo da variância do estimador :
0β
ˆ
( ) ( )[ ] ( ) [ ]2 0002 000 ββEβVARβEβEβVAR −=→−= ˆˆˆˆˆ
0β
ˆ
( ) jijn
ji
i
2
i
n
1i
2
i
2
00 εε VXn
1
 VX
n
12ε VX
n
1
ββ 





−





−+





−=− ∑∑
<=
ˆ
( ) ( ) ( ) ( )jijn
ji
i
2
i
n
1i
2
i
2
000 εεE VXn
1
 VX
n
12εE VX
n
1
ββEβVAR ⋅





−





−+⋅





−=−= ∑∑
<=
ˆˆ
Prof.: Dr. José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes:Estatístico 
(ENCE), Mestre em Estatística Social (ENCE) 
e Doutor em Saúde Coletiva (IESC/UFRJ) 4
19
Distribuição amostral de :
�Cálculo da variância do estimador (continuação):
Como E(εi)=0 ∀ i=1,2,...,n e E(εi εj)=0 ∀ i≠j, então:
VAR(εi)=E(εi2) = σ2 ∀ i=1,2,...,n
0β
ˆ
0β
ˆ
( ) ( ) 










−
+=





−=
∑
∑
=
=
n
1i
i
2
22
n
1i
2
i0
XX
X
n
1
 VX
n
1
βVAR
2
ˆ σσ
20
Distribuição amostral de :
� Analogamente, podemos verificar que:
é uma combinação linear das variáveis aleatórias Yi `s,
i=1,2,...,n. Baseadas nas hipóteses do modelo de regressão
linear normal, as v.a`s Yi `s são independentes e tem
distribuição normal com média E(Yi)=β0+β1Xi e variância
VAR(Yi)=σ2. Portanto, também terá distribuição normal:
0β
ˆ
0β
ˆ
























−
+
∑
=
n
1i
2
i
2
00
)X(X
X
n
1
,βN~β 2ˆ σ
i
n
1i
i0 YVXn
1
β ∑
=






−=
ˆ
21
Covariância entre os estimadores e :
� A covariância entre os estimadores dos parâmetros β0 e β1
do modelo:
Sabe-se que:
0β
ˆ
i
n
1i
i00i
n
1i
i00 εVXn
1
ββεVX
n
1
ββ ∑∑
==






−=−→





−+= ˆˆ(1)
1β
ˆ
∑∑
==
=−→+=
n
1i
ii11
n
1i
ii11 ε Vββε Vββ ˆˆ(2)
( ) ( )( ) ( )( )[ ]110010 βEββEβEββCOV ˆˆˆˆˆ,ˆ −−=
( ) ( ) ( )[ ]110010 ββββEββCOV −−= ˆˆˆ,ˆ
22
Covariância entre os estimadores e :
� Fazendo as devidas demonstrações, pode-se provar que a
covariância entre os estimadores dos parâmetros β0 e β1 é
dada por:
Pergunta: Qual relação existe entre a média de X e a
covariância definida acima ?
0β
ˆ
1β
ˆ
( ) ( )∑
=
−
−
=
n
1i
2
i
10
XX
X
β,βCOV
2
ˆˆ
σ
23
Intervalo de Confiança para o parâmetro :
� Vimos que:
Logo:
1β












−∑
=
n
1i
2
i
11
)X(X
,βN~β
2
ˆ
σ
N(0,1)
)X(X)ββ(
Z
n
1i
2
i11
~
ˆ
σ
∑
=
−−
=
OBS: A v.a Z depende de σ.
24
Intervalo de Confiança para o parâmetro :
� Aliada ao fato de que:
tem distribuição quiquadrada com (n-2) graus de liberdade,
obtemos uma nova variável aleatória obtida abaixo:
A v.a T tem distribuição de Student com (n-2) graus de liberdade
Lembre-se que:
1β
2
2)(n
2)(n
−
− χ
σ
σ
~
ˆ
2
2
σ
σ
σ
σ ˆ
ˆˆˆ
2
2
∑∑
==
−−
=
−
−
−−
=
n
1i
2
i11
n
1i
2
i11 )X(X)ββ(
2)(n
2)(n)X(X)ββ(
T
2n
e
QMRes
n
1i
2
i
−
==
∑
=σˆ
Prof.: Dr. José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes: Estatístico 
(ENCE), Mestre em Estatística Social (ENCE) 
e Doutor em Saúde Coletiva (IESC/UFRJ) 5
25
Intervalo de Confiança para o parâmetro :
� Para construir um intervalo de confiança (IC) para β1 ao nível
de confiança de 100(1-α)% calcula-se a probabilidade abaixo:
1β
( )
α−=














≤
−−
≤−
−α
=
−α
∑
1t
σ
)X(Xββ
tP 2n/2,
n
1i
2
i11
2n/2,
ˆ
ˆ
α−=














−
σ
+≤≤
−
σ
−
∑∑
=
−α
=
−α 1
)X(X
tββ
)X(X
tβP
n
1i
2
i
2n/2,11n
1i
2
i
2n/2,1
ˆ
ˆ
ˆ
ˆ
26
Intervalo de Confiança para o parâmetro :
� Logo o um Intervalo de confiança para o parâmetro β1 do
modelo, ao nível de confiança de 100(1-α)%, é dado por:
1β


















−
σ
+
−
σ
−=
∑∑
=
−α
=
−α−
4444 34444 214444 34444 21
n
1i
2
i
2n/2,1
n
1i
2
i
2n/2,1)%,100(11β
)X(X
tβ,
)X(X
tβIC ˆˆˆˆa
Limite inferior (Linf) 
do intervalo
Limite superior (Lsup) 
do intervalo
27
Exemplo: Considerando os dados dos n=30 bois, construa
um intervalo de confiança de 95% para o parâmetro β1 do
modelo de RLS.
IC para β1 ao nível 
de 95%
28
Testes de Hipóteses para o parâmetro :
� Hipóteses a serem testadas:
� Estatística de Teste:
� A Estatística T tem distribuição de Student com (n-2)
graus de liberdade (g.l`s).
1β



≠
=
0β :H 
0β :H
11
10
2n
n
1i
2
i1 )X(Xβ
T
−
=
∑ −
= T~
ˆ
ˆ
σ
29
1βTestes de Hipóteses para o parâmetro :
� Região crítica:
� Tomada de Decisão:
� Se tobs ∈ RC rejeita-se H0:β1=0 ao nível de significância α, e
conclui-se que existe relação linear significativa entre X e Y.
� Se tobs ∉ RC não há evidências para rejeitar H0:β1=0 ao
nível de significância α, e conclui-se que não existe relação
linear significativa entre X e Y.
-tα/2,n-2 tα/2,n-20
1- α
α/2α/2
{ }2n/2,2n/2, ttoutt/tRC −α−α ≥−≤ℜ∈=
30
Exemplo: Considerando os dados dos n=30 bois, realize
um teste estatístico de hipóteses para o parâmetro β1 ao
nível de significância α de 5%.
TH para β1 ao nível 
de 5%
Prof.: Dr. José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes: Estatístico 
(ENCE), Mestre em Estatística Social (ENCE) 
e Doutor em Saúde Coletiva (IESC/UFRJ) 6
31
Testes de Hipóteses para o parâmetro :
No caso do analista desejar testar se o parâmetro β1 do
modelo é igual a algum valor de interesse (β1*), realiza-se
o seguinte teste de hipóteses:
� Hipóteses a serem testadas:
� Estatística de Teste:
1β



≠
=
*
111
*
110
ββ :H 
ββ :H
( )
2n
n
1i
2
i
*
11 )X(Xββ
T
−
=
∑ −−
= T~
ˆ
ˆ
σ
32
1βTestes de Hipóteses para o parâmetro :
� Região crítica:
ou alternativamente:
� Tomada de Decisão:
� Se tobs ∈ RC rejeita-se H0:β1=0 ao nível de significância α,
e conclui-se que β1 é significativamente diferente de .
� Se tobs ∉ RC não há evidências para rejeitar H0:β1=0 ao
nível de significância α, e conclui-se que β1 não é
significativamente diferente de .
*
1β
{ }2n/2,2n/2, ttoutt/tRC −α−α ≥−≤ℜ∈=
{ }2n/2,tt/tRC −α≥ℜ∈=
*
1β
33
Intervalo de Confiança para o parâmetro :
� Vimos que:
Logo:
0β
( )
N(0,1)
X-X
X
n
1
ββZ
n
1i
i
2
00
~
ˆ
2
∑
=
+
−
=
σ
OBS: A v.a Z depende de σ.
























−
+
∑
=
n
1i
2
i
2
00
)X(X
X
n
1
,βN~β 2ˆ σ
34
Intervalo de Confiança para o parâmetro :
� Aliada ao fato de que:
tem distribuição quiquadrada com (n-2) graus de liberdade,
obtemos uma nova variável aleatória obtida abaixo:
A v.a T tem distribuição de Student com (n-2) graus de liberdade
Lembre-se que:
0β
2
2)(n
2)(n
−
− χ
σ
σ
~
ˆ
2
2
∑∑
==
−
+
−
=
−
−
−
+
−
=
n
1i
2
i
2
00
n
1i
2
i
2
00
)X(X
X
n
1
ββ
2)(n
2)(n
)X(X
X
n
1
)ββ(T
σ
σ
σ
σ ˆ
ˆ
ˆ
ˆ 2
2
2n
e
QMRes
n
1i
2
i
−
==
∑
=σˆ
35
Intervalo de Confiança para o parâmetro :
� Para construir um intervalo de confiança (IC) para β0 ao nível
de confiança de 100(1-α)% calcula-se a probabilidade abaixo:
0β
α−=




















≤
−
+
−
≤−
−α
=
−α
∑
1t
)X(X
X
n
1
σ
ββtP 2n/2,
n
1i
2
i
2
00
2n/2,
ˆ
ˆ
α−=












−
+σ⋅−≤≤
−
+σ⋅−
∑∑
=
−α
=
−α 1
)X(X
X
n
1tββ
)X(X
X
n
1tβP
n
1i
2
i
2
2n/2,00n
1i
2
i
2
2n/2,0 ˆ
ˆ
ˆ
ˆ
36
Intervalo de Confiança para o parâmetro :
� Logo um intervalo de confiançapara o parâmetro β0 do
modelo, ao nível de confiança de 100(1-α)%, é dado por:
0β
Limite inferior (Linf) 
do intervalo
Limite superior (Lsup) 
do intervalo


















−
+σ−
−
+σ−=
∑∑
=
−α
=
−α−
444444 3444444 21444444 3444444 21
n
1i
2
i
2
2n/2,0n
1i
2
i
2
2n/2,0)%,100(10β
)X(X
X
n
1tβ
)X(X
X
n
1tβIC ˆˆ,ˆˆα
Prof.: Dr. José Rodrigo de Moraes (GET/UFF)
Prof.: José Rodrigo de Moraes: Estatístico 
(ENCE), Mestre em Estatística Social (ENCE) 
e Doutor em Saúde Coletiva (IESC/UFRJ) 7
37
Exemplo: Considerando os dados dos n=30 bois, construa
agora um intervalo de confiança de 95% para o parâmetro
β0 do modelo de RLS.
IC para β0 ao nível 
de 95%
38
Testes de Hipóteses para o parâmetro :
� Hipóteses a serem testadas:
� Estatística de Teste:
� A Estatística T tem distribuição de Student com (n-2)
graus de liberdade.
0β



≠
=
0β :H 
0β :H
01
00
2n
n
1i
2
i
2
0
)X(X
X
n
1
βT
−
=
∑ −
+
= T~
ˆ
ˆ
σ
39
0βTestes de Hipóteses para o parâmetro :
� Região crítica:
� Tomada de Decisão:
� Se tobs ∈ RC rejeita-se H0:β0=0 ao nível de significância α, e
conclui-se que β0 é significativamente diferente de zero.
� Se tobs ∉ RC não há evidências para rejeitar H0:β0=0 ao
nível de significância α, e conclui-se que β0 não é
significativamente diferente de zero.
-tα/2,n-2 tα/2,n-20
1- α
α/2α/2
{ }2n/2,2n/2, ttoutt/tRC −α−α ≥−≤ℜ∈=
40
Exemplo: Considerando os dados dos n=30 bois, realize
um teste estatístico de hipóteses para o parâmetro β0 ao
nível de significância α de 5%. Qual a conclusão ?
TH para β0 ao nível 
de 5%

Outros materiais