Estatistica aplicada
313 pág.

Estatistica aplicada


DisciplinaBioestatística I3.595 materiais30.204 seguidores
Pré-visualização50 páginas
O vector e contém os erros aleatórios das observações.
Os parâmetros do modelo são, em geral, desconhecidos. No entanto, eles podem ser
estimados, como já se viu atrás. As estimativas costumam ser designadas por
\u3b1\u302, \u3b2\u3021, \u3b2\u3022, ..., \u3b2\u302p .
A partir desta estimativa obtêm-se os valores estimados da variável dependente, Y\u302i (i =
1, ..., n) usando o modelo (10.15). À diferença entre o valor observado Yi e o estimado Y\u302i
chama-se resíduo,
ri = Yi \u2212 Y\u302i = Yi \u2212 (\u3b1\u302 + \u3b2\u3021Xi1 + \u3b2\u3022Xi2 + ... + \u3b2\u302pXip) .
Mesmo que o modelo esteja correctamente especificado, os resíduos contêm componentes
aleatórias e outras não aleatórias.
É possível usar os resíduos para as seguintes análises estatísticas:
i) verificação das condições a que os erros devem satisfazer;
ii) determinação de especificações incorrectas sobre o modelo e
iii) detecção de observações extremas e \u2019outliers\u2019.
10.4.1 Tipos de resíduos
Existem vários tipos de resíduos e todos eles são função da diferença entre os valores
observados e os estimados. Os mais comuns são:
1. resíduo original,
2. resíduo estandardizado,
3. resíduo de Student,
4. resíduo cancelado
e todos eles possuem propriedades distintas.
O resíduo original já foi definido. No caso geral de regressão múltipla,
r = Y \u2212 Y\u302 = Y \u2212 (X\u2217\u3b2\u302) . (10.16)
Desta equação tira-se que
r = (I \u2212H)Y
10.4. ANÁLISE DOS RESÍDUOS 201
em queH é a seguinte matriz das observações das variáveis independentes X\u2217(X\u2217T X\u2217)\u22121X\u2217T .
Também
r = (I \u2212H)e
é uma combinação linear das observações Y , como função dos erros e.
Supondo que os erros do modelo não estão correlacionados, que têm médias iguais a
zero e variâncias constante, temos
E[r] = 0 e var[r] = (I \u2212H)\u3c32 .
As variâncias dos resíduos ri (i = 1, ..., n) não são todas iguais, pois os elementos
diagonais da matriz H não são iguais. De facto também os resíduos estão correlacionados,
uma vez que a matriz (I \u2212 H) não é diagonal. Assim, a variância de um resíduo, em
particular do ri, é
var[ri] = (1\u2212 hii)\u3c32 (i = 1, ..., n)
e a covariância entre ri e rj(i \ufffd= j) é
cov[ri, rj] = \u2212hij\u3c32 .
Os elementos da matriz H satisfazem
i) 0 \u2264 hii \u2264 1
ii) \u22121 \u2264 hij \u2264 1 (i \ufffd= j)
uma vez que H = HT e H = H2.
Influência do valor observado Yi no valor estimado Y\u302j.
Da equação Y\u302 = X\u2217\u3b2\u302 se tira que Y\u302 = HY (Yi =
\u2211n
j=1 hijYj).
Assim, valores elevados de hij evidenciam os valores observados Yj que mais influenciam
o valor estimado Y\u302i. Em particular, se hij é elevado em relação aos outros, a observação
Yj domina o valor esperado Y\u302i.
A estandardização dos resíduos tem sido usada com o objectivo de eliminar as diferenças
entre as variações das variáveis. Poder-se-á então comparar directamente os coeficientes
de regressão estimados.
O escalonamento do resíduo origina a comparação directa das amplitudes dos resí-
duos. Uma vez que os erros ei são variáveis aleatórias, os ei\u3c32 são também normais e estão
estandardizados. Assim o resíduo estandardizado é definido para cada i, como
si =
ri
\u3c3\u302
com \u3c3\u3022 =
\u2211n
i=1 r
2
i
n\u2212 p\u2212 1 .
Este resíduo não segue a normal estandardizada, uma vez que o denominador não é o
desvio padrão de ri. Trata-se antes de um resíduo original mas escalonado.
202 CAPÍTULO 10. TESTES DE REGRESSÃO
O resíduo de Student é definido por
ti =
ri
\u3c3\u302
\u221a
(1\u2212 hii)
,
(ri \u223c N(0, var[ri]) com var[ri] = (1\u2212 hii)\u3c32)
e é geralmente tratado como uma estatística t-Student com n \u2212 p \u2212 1 graus de liberdade
(mesmo que ri e \u3c3\u302 não sejam independentes).
O comportamento deste resíduo ti é mais parecido com o do desvio normal estandardi-
zado do que com o dos resíduos originais ou estandardizados.
O resíduo de Student deve ser utilizado quando se pretende verificar se os valores estão
adequadamente ajustados ao modelo. Serve também para evidenciar os pontos que não
estão consonantes com os restantes (\u2019outliers\u2019).
Outra técnica, também muito usada para detectar os \u2019outliers\u2019, em análise de regres-
são, consiste em determinar as alterações do modelo quando se remove(em) o(s) ponto(s)
"estranho(s)".
O resíduo cancelado é definido com o objectivo de detectar \u2019outliers\u2019. Assim, r(\u2212i)
obtém-se estimando o valor Yi quando do modelo é retirada a observação i, X\u2217 e \u3b2\u302(\u2212i) é
o vector das estimativas dos parâmetros considerando apenas n\u2212 1 observações, uma vez
que a i-ésima foi removida dos cálculos. Pode mostrar-se que
r(\u2212i) =
ri
1\u2212 hii ,
donde, se tira que este resíduo é simplesmente um escalonamento de ri. Como var[r(\u2212i)] =
var[ ri
1\u2212hii ], então var[r(\u2212i)] =
\u3c32(1\u2212hii)
(1\u2212hii)2 =
\u3c32
1\u2212hii com variância \u3c3
2 desconhecida.
Assim, o valor estimado será então
v\u302ar[r(\u2212i)] =
\u3c3\u3022(\u2212i)
1\u2212 hii ,
sendo \u3c3\u3022(\u2212i) a média do quadrado do erro residual do ajuste conseguido quando se remove
a i.ésima observação.
Nestas condições, define-se o resíduo cancelado de Student como
t(\u2212i) =
r(\u2212i)\u221a
(v\u302ar[r(\u2212i)])
=
ri
\u3c3\u302(\u2212i)
\u221a
1\u2212 hii
.
Como se calcula \u3c3\u3022(\u2212i)?
Uma vez que
\u3c3\u3022 =
\u2211n
i=1 r
2
i
n\u2212 p\u2212 1 .
tem-se
\u3c3\u3022(\u2212i) =
\u2211n
i=1 r
2
i \u2212 (1\u2212 hii)\u22121r2i
n\u2212 p\u2212 2 .
10.4. ANÁLISE DOS RESÍDUOS 203
Assim,
t(\u2212i) = ri[
(1\u2212 hii)(
\u2211n
i=1 r
2
i )\u2212 r2i
n\u2212 p\u2212 2 ]
\u22121/2
podendo ser calculado utilizando o conjunto inteiro das observações (sem remover a i.ésima).
10.4.2 Verificação das condições dos erros
Na análise de regressão e para verificarmos as propriedades dos erros, ei, além dos resíduos,
podemos usar também as técnicas gráficas e os testes estatísticos.
A verificação das propriedades dos erros, ei, está relacionada com as seguintes condições:
A. aleatoriedade dos erros
B. variância comum e constante, e
C. distribuição normal.
Os resíduos originais e os escalonados são indicadores excelentes das violações dessas
condições, uma vez que são valores múltiplos dos erros.
Verificação da aleatoriedade dos erros
Dois testes estatísticos podem ser usados para testar a aleatoriedade dos erros.
Um deles é conhecido por testes dos \u2019runs\u2019 e pode ser usado sempre que for conhecida
a ordem de obtenção das observações. Baseia-se na inspecção do arranjo dos sinais (+ ou
-) dos resíduos. Assim, começa-se por
1. determinar a sequência dos sinais dos resíduos, bem como a \u2019estatística\u2019 do teste, que
é definida pelo número de \u2019runs\u2019, r. Define-se \u2019run\u2019 como sendo um grupo de resíduos
adjacentes com o mesmo sinal; e em seguida,
2. verifica-se se o arranjo é ou não suficientemente comum. No caso de não ser, pode
concluir-se que os resíduos não surgem aleatoriamente (isto é a correlação entre os
erros é significativa).
Quando o número de sinais + ou - são \u2264 20, usam-se as tabelas A.18 e A.19 para
determinar os valores críticos, ao nível de significância 0.05 (nível bilateral de 0.1). Se o
valor da \u2019estatística\u2019, r, é menor ou igual do que o limite inferior crítico ou maior ou igual
do que o limite superior, rejeita-se a H0: de que os erros são aleatórios, ou seja, neste caso,
a ordenação não é aleatória. Se n1 > 20 e n2 > 20 usa-se então a aproximação à normal.
Nesta situação, rejeita-se H0 se
r \u2212 µ + 1
2
\u3c3
< \u2212c ou r \u2212 µ\u2212
1
2
\u3c3
> c
204 CAPÍTULO 10. TESTES DE REGRESSÃO
sendo c o ponto crítico da N(0, 1) que corresponde a uma probabilidade de 1\u2212 \u3b1
2
, para \u3b1
nível de significância do teste.
A média µ e a variância \u3c32 são calculadas a partir de
µ =
2n1n2
n1 + n2
+ 1 e \u3c32 =
2n1n2(2n1n2 \u2212 n1 \u2212 n2)
(n1 + n2)2(n1 + n2 \u2212 1) .
O outro teste estatístico também muito usado é o teste de Durbin-Watson.
Suponha que os erros ei, num modelo de regressão, não são independentes, isto é, estão
correlacionados. Podem então estar relacionados temporalmente,
ei = \u3c1ei\u22121 + \u3b4i com \u2212 1 \u2264 \u3c1 \u2264 1
em que os \u3b4i, i = 1, ..., n são variáveis aleatórias normalmente distribuídas e independen-
tes, com médias iguais a zero e variâncias iguais a \u3c32.
A \u2019estatística\u2019 para este teste é definida por
d =