Buscar

Ficha regressão_2015

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 109 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 109 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 109 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
. 
Universidade Eduardo Mondlane 
Faculdade de Ciências 
Departamento de Matemática e Informática 
 
 
Curso de Estatística 
ANÁLISE DE REGRESSÃO 
 
 
 
 
 
Dr. Osvaldo Loquiha, MSc 
Ano académico: 2015 
 
 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Capítulo 1 
 
1. Modelo de Regressão Linear Simples1 
 
 Introdução ao Modelo de Regressão Linear Simples. 
 Método dos Minímos Quadrados para estimação dos parâmetros. 
 Estimação da variância ou . 
 Propriedade dos estimadores do método dos Minímos Quadrados 
 
 
1 Referência: Capítulo 1 em Kutner et al. (2005) e Gujarati (2000) 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
1.1. Introdução ao Modelo de Regressão Linear Simples 
 
Definição: Análise de Regressão é uma metodologia estatística que utiliza a relação 
estatística entre duas ou mais variáveis quantitativas, tal que a variável resposta possa ser 
estimada ou prevista atráves da(s) variável(is) explicativa(s). 
É uma técnica largamente usada em economia, ciências sociais, ciências biomédicas entre 
outras. Exemplo de aplicações incluem: 
 As vendas de um produto podem ser previstas utilizando a relação entre as vendas e 
o volume de gastos com publicidade; 
 O tamanho do vocabulário de uma criança pode ser prevista utilizando a relação 
entre o tamanho do vocabulário e da idade da criança e nível de escolaridade dos 
pais; 
 O tempo de permanência no hospital de um paciente cirúrgico pode ser prevista 
utilizando a relação entre o tempo no hospital e da gravidade da operação. 
 
1.1.1. Relação funcional vs. Relação estatística 
Relação funcional entre duas variáveis (ou mais) é expressa por uma fórmula matemática: 
 
onde é uma função conhecida 
 
Exemplos: 
 
 
 Sempre que X é conhecido, Y é determinado (conhecido) completamente 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Figura. 1: Exemplo de uma relação funcional 
 
 Nota que todas as observações estão perfeitamente posicionadas na linha da relação 
funcional. Uma característica de todas relações funcionais. 
 Frequentemente, a verdadeira associação entre X e Y é desconhecida, mas existe uma 
necessidade de descrever ou de alguma forma usar essa associação, porque: 
i. X pode ser mais fácil ou mais barato de observar que Y; 
ii. Dado um valor de X, podemos querer prever Y. 
Relação estatística 
Numa relação estatistica, essencialmente as variáveis são de natureza aleatória ou 
estocástica, i.e., variáveis que tem associado uma distribuição de probabilidade. 
 
onde representa o erro cometido ao se usar para aproximar Y. 
Notação: 
X é a variável independente (ou: explicativa, regressora, exógena, predictora); 
Y é a variável dependente (ou: explicada, regressando, endógena, resposta). 
 Ideia: aproximar a relação entre X e Y, uma vez que não conhecemos exactamente Y 
para cada X. 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Figura 2: Relação estatistica entre avaliação em meados (Midyear) e fim do ano (Year-end) 
 
 
Figura 3: Relação estatística curvilínea entre idade e nível de esteróides em mulheres 
saudáveis com idades entre 8-25 anos 
 
Como encontrarmos ? 
1.1.2. Modelo de Regressão Linear 
 Pares de dados (X, Y) observados. 
 Descrever a relação entre X e Y com um erro uniformemente pequeno. 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 ? Se o gráfico de dispersão de (X, Y) é aproximadamente linear, então podemos 
escrever: 
 
 Assim, o modelo de regressão linear simples fica: 
 
 é uma equação de uma linha recta; 
 parâmetro para intercepto e para o declive ou coeficiente angular da 
recta. 
 Simples porque apenas contém uma variável independente. 
 Linear porque nenhum parâmetro aparece no expoente ou multiplicado 
e/ou dividido por outro parâmetro. 
Nota: Os modelos de regressão abordados nesse curso serão considerados linares se a 
equação de regressão é linear nos parâmetros. 
Nota: Para além dos gráficos de dispersão, o coeficiente de correlação linear de Pearson é 
uma boa alternativa para descrever a associação existente entre X e Y. Mais detalhes nas 
subsecção seguintes. 
Exemplos: 
Modelos de regressão linear 
 
 
 
 
 
 
Modelos de regressão não-linear 
 
 
 
 
 
 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Breve historial 
 O termo regressão foi inicialmente introduzido por Sir Francis Galton2 (1822 – 1911, 
foto a esquerda). Ele estudou a relação entre a altura dos pais (X) e dos filhos adultos 
(Y) através duma equação linear. 
 Ele observou que a altura de filhos de pais altos ou baixos tendia a reverter ou 
regressar à média da população, considerando essa tendência uma “regressão à 
mediocridade”. 
 A lei de Galton de regressão universal foi depois confirmada por seu amigo Karl 
Pearson (1857 – 1936, foto a direita)3, que coleccionou mais de 1000 observações da 
altura de membros de grupos familiares. 
 
1.1.3. Descrição formal do modelo de regressão linear 
Um experimento aleátorio é repetido n vezes em condições idênticas. Em cada ensaio 
 o valor de é determinado (conhecido) e o valor de observado. Usamos um 
modelo de regressão linear simples da forma: 
 
Pressupostos: 
i. Os valores de são precisamente conhecidos; 
 
2 Francis Galton (1886), “Regression towards mediocrity in hereditary stature”. Journal of the Anthropological 
Institute: 15, 246-263. 
3 K. Person e A. Lee (1903), “On the Laws of Inheritance”, Biometrika: 2, 357 - 462 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
ii. é uma variável contínua e aleátoria; 
iii. e são parâmetros do modelo, o que significa que eles são: 
a) Desconhecidos; 
b) Constantes, não aleátorios; 
c) Não dependentes do número do ensaio i. 
iv. é o termo de erro aleátorio. 
a) Não é observável; 
b) Média igual a zero; 
c) Possue variância constante (ou homoscedasticidade). 
Pressupostos adicionais: 
v. 
 para todo i, i.e., segue uma distribuição normal com e 
 
 para todo i. 
vi. Para dois ensaios diferentes, i e j, e são independentes, i.e, sua . 
 
De (v) e (vi) segue que 
 ), i.e., 
 e 
 e que para todo i. Isto resulta naquilo 
a que se chama Modelo de regressão com termo de erro normal. 
Exemplo: 
Figura 4: Ilustração dum modelo de regressão linear simples 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 Existe uma distribuição de probabilidade para Y associada a cada valor de X. 
 As médias dessa distribuição de probabilidade variam de uma maneira sistemática 
de acordo com os valores de X. 
 
1.1.4. Interpretação dos parâmetros do modelo 
 Modelo de regressão populacional: Não pode ser observado segundo o pressuposto 
(iii): Precisa de ser estimado  Modelo de regressão amostral ou estimado 
 
 estima 
 estima 
Figura 5: Significado dos parâmetros do modelo de regressão linear simples 
 
 
 (intercepto)  quando a região experimental inclui , é o valor da média da 
distribuição de Y em , caso contrário, não tem significado práctico como um 
termo separado (isolado) no modelo; 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 (coeficiente angular, declive, inclinação)  expressa a taxa de mudança em Y, i.e., é 
a mudança em Y quando ocorre a mudança de uma unidade em X. 
 Indica a mudança na média da distribuição de probabilidade de Y por 
unidade de acréscimo em X. 
 
1.2. Estimação dos parâmetros do modelo de regressão 
 Metódo dos minímos quadrados é usado para estimar e , e também para 
 mas 
de forma indirecta. Este metódo é valido independentemente de conhecida ou não a 
distribuição do termo de erro. 
 Metódo de máxima verossimilhança é usado para a estimação quando se conhece a 
distribuição (normal) do termo de erro . 
Exemplo: 
A Tabela abaixo mostra os valores de aluguel (Y) em milhares MT e idade (X) em anos de 6 
casas em Maputo. 
Tabela 1: Preço de aluguel (Y) e idade (X) de casas em Maputo 
X (anos) 10 13 5 7 3 18 
Y (x 103) 12 8 20 15 25 7 
 
Figura 6: Gráfico de dispersão para preço de aluguel e idade de casas em Maputo 
 
5 10 15
1
0
1
5
2
0
2
5
Idade (anos)
P
re
ço
 d
e
 a
lu
g
u
e
l(
x1
0
0
0
)
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 O gráfico sugere uma tendência linear (decrescente) na relação entre preço de aluguer 
e idade da casa. 
Metódo dos Minimos Quadrados (MQ) 
 Ideia: encontrar e que minimizem a “soma do quadrado dos erros” (SQE). 
 Para cada par , o termo de erro é dado por: 
 
 
 
 
Somando para todas as observações: 
 
 
 
 
 
 
 
 
 
 Calculando as derivadas parcias em relação à e , e igualando os resultados à 
zero, obtemos as chamadas Equações Normais: 
 
 
 
 
Note que e representam estimações pontuais (valores especifícos) de e , 
respectivamente, que minimizam . 
 Com um pouco de algebra, obtemos: 
 
 
 
 
 
 
 
 
 
 
 
 
onde 
 
 
 
 
 
 
 
 
 
 é chamado de soma de quadrados 
de produtos cruzados e 
 
 
 
 
 
 
 
 é a soma de quadrados de 
X. 
 
Exemplo: 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Casa 
Idade 
( ) 
Preço de 
aluguel 
( ) 
Média 
estimada 
( ) 
Erro 
 
Quadrado do 
Erro 
 
 
 
 
 
1 10 12 13.7083 -1.708 2.918 -1.667 0.444 
2 13 8 10.1473 -2.147 4.611 -23.833 13.444 
3 5 20 19.6433 0.357 0.127 -23.833 18.778 
4 7 15 17.2693 -2.269 5.149 -1.167 5.444 
5 3 25 22.0173 2.983 8.896 -66.5 40.111 
6 18 7 4.2123 2.788 7.771 -65 75.111 
Total 56 87 86.998 0.00 29.474 -182 153.3333 
 
 
 
 
 
 
 
Figura 7: Grafico mostrando a recta de regressão estimada 
 
Implementação em R 
x=c(10,13,5,7,3,18) 
y=c(12,8,20,15,25,7) 
plot(x,y,xlab="Idade (anos)", ylab="Preço de aluguel(x1000)") #Gráfico de 
dispersão 
modelo1=lm(y~x)# Modelo de regressão linear simples 
summary(modelo1) #Mostrar resultados 
pred=predict(modelo1,type="response") #Valores previstos ou estimados 
plot(x,y,xlab="Idade (anos)", ylab="Preço de aluguel(x1000)") 
5 10 15
1
0
1
5
2
0
2
5
Idade (anos)
P
re
ço
 d
e
 a
lu
g
u
e
l(
x1
0
0
0
)
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
lines(x,pred) 
Output 
Analysis of Variance Table 
 
Response: y 
 Df Sum Sq Mean Sq F value Pr(>F) 
x 1 216.026 216.026 29.318 0.005637 ** 
Residuals 4 29.474 7.368 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
Call: 
lm(formula = y ~ x) 
 
Residuals: 
 1 2 3 4 5 6 
-1.7087 -2.1478 0.3565 -2.2696 2.9826 2.7870 
 
Coefficients: 
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) 25.5783 2.3268 10.993 0.000389 *** 
x -1.1870 0.2192 -5.415 0.005637 ** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
Residual standard error: 2.714 on 4 degrees of freedom 
Multiple R-squared: 0.8799, Adjusted R-squared: 0.8499 
F-statistic: 29.32 on 1 and 4 DF, p-value: 0.005637 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Equação de regressão estimada 
Conhecidos e , podes escrever a equação de regressão estimada: 
 
 Podemos pensar em como a média estimada da variável resposta para 
 
1.3. Estimação de 
O valor minímo de , quando e , denota-se por SQE. 
 É a soma de quadrados dos desvios entre e . 
 Indica-no quão bem a linha de regressão se ajusta aos dados. 
 
 
 
 
 
 
 
 
onde é designado por resíduo ou termo de erro. 
Nota: 
i. é a diferença entre o valor observado e estimado (previsto) para . 
ii. Podemos pensar em como um estimador do termo de erro . 
Como é a variância comum dos e porque estima os então SQE 
deve providenciar alguma informação sobre . 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
De facto: 
SQE tem associado n-2 graus de liberdade. Dois graus de liberdade usados para estimar e 
 na determinação da média estimada . 
Desta forma, a média de SQE também chamada de quadrado médio é dado pela fórmula: 
 
 
 
 
que é um estimador não enviesado de , onde QM significa quadrado médio. 
Nota: 
Não enviesado significa que 
 
1.4. Propriedades dos estimadores do método dos minímos quadrados 
Teorema de Gauss-Markov 
Sob os pressupostos do modelo de regressão definidos na secção 1.1.3., e , são: 
a) Não enviesados 
b) Têm a miníma variância entre todos os estimadores lineares não enviesados de e 
 
 e são também chamados de Melhores Estimadores Lineares não Enviesados de e , 
respectivamente. 
Note que o teorema de Gauss-Markov não requer o pressuposto da distribuição normal do 
termo de erro. 
 
Média e variância 
 e 
 
 
 
 
 
 
 
 e 
 
 
 
 
Sumário do método dos Minímos Quadrados 
Parâmetro Estimador 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
1.4.1. Propriedades do modelo de regressão linear estimada 
A recta de regressão estimada ,usando o método dos Minímos Quadrados 
possue as seguintes propriedades: 
i. A soma dos resíduos é igual a zero: 
 
 
 
 
 
ii. A soma de quadrados dos resíduos 
 
 é um minímo. Isto resultadirectamente 
da condição à satisfazer quando derivamos os estimadores no método do Minímos 
Quadrados 
 
iii. A soma dos valores observados é igual a soma dos valores estimados 
 
 
 
 
 
 
 
iv. 
 
 
 
v. 
 
 
 
vi. A linha de regressão sempre passa pelo ponto . 
 
Nota: Estas propriedades não são válidas para todos os modelos de regressão linear. 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Estrátegia tipíca na análise de regressão 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Sim 
Não 
Início 
Análise Exploratória 
de dados 
Desenvolvimento de 
um ou mais 
modelos iniciais 
Um ou mais 
modelos se 
ajusta aos 
dados? 
Rever os modelos 
ou desenvolver 
outros 
Identificar o modelo 
que melhor se 
ajusta 
Inferências sobre os 
parâmetros do 
modelo 
Fim 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Exercícios 
1. Determine se as equações a seguir representam modelos de regressão linear simples: 
a. 
b. 
c. 
 
 
 
d. 
 
e. 
 
 
2. Se o parâmetro no exercicio (e) do problema 1, então a equação seria 
considerada modelo de regressão linear simples? Porque? 
 
3. Quando perguntado sobre o modelo de regressão linear simples, um estudante 
escreveu: 
 
Concordas? 
 
4. Considere o seguinte modelo de regressão linear estimado: 
 
a. Explique o que representam e . Assuma que o domínio do modelo inclui 
X=0. 
b. Encontre o valor de para 
 
5. Comente sobre a seguinte frase: “Para que o método de Minímos Quadrados seja 
completamente válido, é necessário que a distribuição de Y seja normal”. 
 
6. Um estudante afirma que e podem ser estimados pelo método de Minímos 
Quadrados. Comente. 
 
7. Prove que a soma dos valores observados é igual a soma dos valores estimados 
(propriedade (iii) em 1.4.1). 
 
8. A tabela abaixo mostra o número de tinteiros para escrever um manuscrito (X) e o 
custo em MT para corrigir um erro ortográfico: 
Xi: 7 12 4 14 25 30 
Yi: 128 213 75 250 446 540 
 
a. É o modelo de regressão linear apropriado para esse caso? 
b. Se sim, calcule o valor de e e interprete. 
c. Calcule os resíduos e verifique se sua soma é igual a zero. 
d. Estime e variância de e . 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Capítulo 2 
 
2. Inferência nos modelos de regressão linear4 
 
 Inferência para os coeficientes do modelo 
 Inferência para a média estimada 
 Previsão de novas observações 
 Análise de variância (ANOVA) 
 Teste geral do modelo linear 
 Coeficiente de determinação R2 
 
 
4 Referência: Capítulo 2 em Kutner et al. (2005) e capítulo 5 em Gujarati (2000) 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
2.1. Inferência para os coeficientes do modelo 
 Inferência é baseada na distribuição normal 
 
 
 
 
 
 
 
 
 
 
 
 , i.e., identicamente independemente distribuido de acordo com uma 
distribuição normal com média 0 e variância constante . 
 Inferência é baseado no Teorema do Limite Central. 
 
2.1.1. Inferência para 
 Na maioria dos problemas, nos estamos interessados em . Porquê? 
 Não há associação linear entre X e Y. 
 é um estimador pontual de . 
 Queremos avaliar o quão bom é a estimar , i.e., para uma nova amostra, o 
quanto varia. 
 Avaliação por meio de duas técnicas relacionadas: 
1) Testes de hipóteses 
2) Intervalos de confiança 
Distribuição amostral de 
 Para inferência sobre , precisamos conhecer a variabilidade de . 
 Distribuição amostral de é a distribuição de valores de calculados em amostras 
repetidas n vezes. 
 Na secção 1.4. vimos que: 
 e 
 
 
 
 
 
 Não conhecemos a forma da distribuição de . 
 No entanto, se tem distribuição normal, então tem também distribuição normal: 
 é uma combinação linear de 
 Combinação linear duma variável aleatória identicamente e 
independentemente distribuida de forma normal, é também normal. 
Nota: As propriedades acima enunciadas não serão demonstradas podendo a sua 
demonstração ser encontradas nas referências desse capítulo. 
Nota: No entanto, para a primeira propriedade, basta mostrar que 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 onde 
 
 
 
 
 
 Sendo assim, 
 
 
 
 
 
Nota: Uma propriedade da distribuição normal diz-nos que se: 
 tem distribuição normal, então 
 
 
 . 
 Mas se é estimado por , então 
 
 
 . 
Testes de hipóteses para . 
H0: 
Ha: (hipótese bilateral) 
Estatística: Sob a hipótese nula (H0), 
 
 
 onde 
 
 
 
Procedimento: 
i. Definir as hipóteses a testar e o nível de significância, , i.e., a probabilidade de 
rejeitar H0 sendo ela de facto verdadeira. 
ii. Encontrar os valores críticos do teste (limites da região critica ou de rejeição), usando 
os percentis da distribuição . No caso duma hipótese bilateral, os valores serão: 
 e 
iii. Calcular a estatística do teste (T). 
iv. Comparar os valores de T com os valores críticos: para um teste bilateral: 
a. Se Não rejeite a hipótese nula 
b. Se Rejeite a hipótese nula 
Ou, calcule o valor da probabilidade associada a T (p-value) e compare com . 
 
c. Se Não rejeite a hipótese nula 
d. Se Rejeite a hipótese nula 
 
Nota: p-value indica-nos a probabilidade de observar um valor de T igual ou mais extremo 
que o observado, ou seja, é a probabilidade exacta de rejeitar H0 se ela é verdadeira. 
Intervalo de confiança para 
O intervalo com 100(1- )% de confiança para é dado por: 
 
 
 
 
 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
onde é o percentil superior (
 
 
) duma distribuição t-Student com n-2 graus de 
liberdade. 
 
Exemplo: Voltamos ao exemplo do aluguer de casas (n=6) 
 , 
 , 
 , 
 , 
 
Para averiguar se idade (X) tem alguma habilidade explicativa no preço de aluguer de casas 
(Y), testamos: 
H0: vs. Ha: com 
 
 
 
 
 
 
 
 
 
 
 
com e 
 
 
Conclusão: Como p-value < 0.05 ou , i.e, 0.0056< 0.05 ou 5.415 > 2.776, 
podemos concluir que é significativamente diferente de zero, ou seja, a idade da casa é 
significativamente relacionada (linear) com o preço de aluguer do imóvel. 
 
Nota: Um teste é estatisticamente significativo se H0 é rejeitada, caso contrário o teste é não 
significativo. 
Esses resultadosestão incluidos no output gerado pelo Software R (secção 1.2) na tabela com 
os coeficientes do modelo. 
Coefficients: 
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) 25.5783 2.3268 10.993 0.000389 *** 
x -1.1870 0.2192 -5.415 0.005637 ** 
Residual standard error: 2.714 on 4 degrees of freedom 
O correspondente intervalo com 95% de confiança para é: 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 Como se interpreta esse IC95%? 
Nota: O acima calculado intervalo de confiança colabora com a conclusão encontrada no 
teste de hipotese, sobre , uma vez que o intervalo não contém zero. 
 
2.1.2. Inferência para 
 Os argumentos usados para são também válidos para : é uma combinação 
linear de (Mostre). 
 Então 
 
 
 
 
 
 
 
 Testes de hipóteses e intervalo de confiança similar ao aplicado para . 
 
2.2. Inferência para a média estimada 
 O objectivo do modelo de regressão linear é estimar a média da distribuição de Y 
para valores especificos (fixos) da variável independente (X). 
 Sabemos que é um estimador de . 
 Inferência é baseada em intervalos de confiança. 
 É preciso conhecer primeiro a distribuição amostral de para o valor . 
Distribuição amostral de 
 
 e são combinações lineares de 
Escrevendo 
 
 e 
 
 , obtemos: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Assim, é também uma combinação linear de e porque 
 
 
então 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 
 
 
 
 
 
 
 Se substituirmos por , podemos usar a distribuição t para construir intervalos de 
confiança para a média de Y em X=xh. 
 
 
 
Exemplo: Aluguer de casas 
Imagine que queiramos estimar a média do preço de aluguer para uma casa com idade igual 
à 5 anos (Xh=5): 
 
que é uma estimativa pontual para a média Y quando X=5. Qual é o intervalo de valores 
possíveis para ? 
 Comecemos por conhecer o erro padrão de , i.e., 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Para um intervalo de confiança com 95%, . 
Assim, o intervalo de confiança é: 
Estamos desta forma 95% confidentes que a verdadeira média de preço de aluguer de 
uma casa com 5 anos de idade , se encontra entre 15.593 e 23.693. 
 
2.3. Previsão de novas observações de Y 
 A nova observação de Y a ser prevista pode ser vista como o resultado de um novo 
ensaio ou experimento (amostra), independente dos ensaios (amostra) para o qual a 
recta de regressão é baseada. 
 Por essa razão, para construir um intervalo de previsão para as novas observações de Y 
quando X=xh, precisamos de ter em conta duas fontes de variação: 
1) A variabilidade da estimação da recta de regressão (i.e., a média estimada) e; 
2) A variabilidade da nova observação, dado o seu valor médio 
O estimador pontual para a nova observação é dado por: 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 
 A diferença agora é que a previsão duma nova observação de Y é mais variável que a 
estimação da média de Y. 
 A variância de é dado por : 
 
 
 
 
 
 
 
 
 
 O intervalo de previsão é construido usando um intervalo de confiança baseado na 
distribuição de t-Student com n-2 graus de liberdade ( ) 
Nota: O intervalo é chamado de previsão porque indica-nos o intervalo de variação duma 
nova observação duma variável aleatória, diferentemente dum intervalo de confiança onde o 
interesse reside na estimação dum intervalo para a média de distribuição de Y. 
 
Exemplo: Continuemos com a caso do preço de aluguer de casa 
Para X=5, a estimativa pontual para uma nova observação de Y é: e 
 
 
 
 
 
 
 
O intervalo de previsão com 95% de confiança é dado por: 
 
 
Comparação entre intervalo de confiança e previsão: 
 
Intervalo de confiança de 
95% 
Intervalo de previsão de 
95% 
Observação 
1 13.709 10.605 16.812 5.558 21.859 
2 10.148 6.347 13.949 1.707 18.588 
3 19.643 15.593 23.696 11.086 28.201 
4 17.269 13.881 20.658 9.006 25.533 
5 22.017 17.085 26.949 13.010 31.024 
6 4.213 -1.894 10.319 -5.487 13.913 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Figura 8: Intervalo de confiança de 95% para a média do preço de aluguer de casas 
 
 
Figura 9: Intervalo de previsão de 95% para novas observações do preço de aluguer de 
casas 
 
 
pr
ec
o_
al
ug
ue
r
-5
0
5
10
15
20
25
30
idade
2 4 6 8 10 12 14 16 18
Plot preco_aluguer*idade PRED*idade L95M*idade U95M*idade
pr
ec
o_
al
ug
ue
r
-10
-5
0
5
10
15
20
25
30
35
idade
2 4 6 8 10 12 14 16 18
Plot preco_aluguer*idade PRED*idade L95*idade U95*idade
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Implementação em R 
x=c(10,13,5,7,3,18) 
y=c(12,8,20,15,25,7) 
y=y[order(x)] 
x=sort(x) 
pred=predict(fit1,type="response") 
pred.plim <- predict(fit1, interval="prediction") 
pred.clim <- predict(fit1, interval="confidence") 
plot(x,y,xlab="Idade", ylab="Preço_ aluguer") 
lines(x,pred,lty=1,lwd=4) 
matplot(x,cbind(pred.clim, pred.plim[,-1]), type="l") 
 
Análise de variância (ANOVA) 
 Uma nova ferramenta para interpretação dos resultados do modelo de regressão 
linear. 
 No modelo de regressão linear simples, podemos usá-lo para testar a hipótese: 
H0: 
Ha: 
 Comece por definir a variação total da variável resposta Y 
 
 
 
 
 
que é também chamada de soma de quadrados total (SQT). 
 Assim, SQT mede a variabilidade dos valores de Y em relação a sua média observada 
 . 
 O método de ANOVA separa SQT em diferentes fontes. As fontes que representam 
uma grande parte da variabilidade total são “importantes” para explicar a variável 
resposta, enquanto que aquelas que representam uma pequena parte sao menos 
“importantes”. 
 O teste F da ANOVA, nos ajuda a decidir quais as fontes importantes e quais as 
menos importantes. 
Comecemos mostrar como podemos particionar SQT em diferentes fontes: 
 , podemos adicionar e subtrair 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 
 
 
Elevando ao quadrado ambos os membros e somando para todas as observações, obtemos: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
O primeiro termo é a soma de quadrados do erro ou variação não explicada 
e o segundo é a soma de quadrados da regressãoque descreve a 
variabilidade explicada pela recta de regressão estimada. 
Nota: o último termo é igual a zero porque os estimadores do método de minímos 
quadrados são construidos de forma a que esse termo seja igual a zero (Mostre!). 
 
Figura 10: Ilustração da partição da soma de quadrados total (desvio total) 
 
Essas quantidades podem ser calculadas usando as seguintes fórmulas: 
Desvio 
Total 
Desvio da 
recta de 
regressão 
em relação 
à média 
Desvio 
em 
relação à 
recta de 
regressão 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Para sumarizar essa partição, usamos uma tabela ANOVA. 
Fonte de 
variação 
Graus de 
liberdade (gl) 
Soma de 
quadrados (SQ) 
Quadrado médio 
(QM) 
 
Regressão 
 
 
 
 
 
 
Erro 
 
 
 
 
 
Total 
 
Usualmente, a coluna do valore esperado do quadrado médio ( 
 ) não é mostrado. Ao invés, uma estatistica F é incluida como parte da tabela ANOVA. 
 A estatistica F testa a hipótese nula de que o modelo de regressão é “significante”, i.e., 
se o modelo de regressão tem alguma habilidade predictiva ou explicativa. 
 
 
 
 
 Sob a hipótese nula, a estatística F tem distribuição amostral F com 1 grau de 
liberdade no numerador e n-2 no denominador. 
 Esta estatística testa a mesma hipótese que a estatistica T. 
 De facto, se considerarmos a razão entre e : 
 
 
 
 
 
 
 
podemos verificar que se é proximo de zero, então a razão é aproximadamente 
igual a 1. Contrariamente, se então a razão será elevada e maior que 1. 
Nota: o teste F automaticamente procede a um teste de hipótese bilateral, não sendo possivel 
hipóteses alternativas especifícas como 
Ha: ou Ha: . 
Nota: Para o caso da regressão linear simples, (Mostre!). 
Nota: Como regra de decisão, podemos usar: 
a. Se Não rejeite a hipótese nula 
b. Se Rejeite a hipótese nula 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
Exemplo: Voltando ao caso do preço de aluguer de casas 
 , e 
A tabela ANOVA é mostrada abaixo: 
Fonte de 
variação 
Gl SQ QM p-value 
Regressão 29.3 0.005 
Erro 
Total 
 
Implementação em R 
x=c(10,13,5,7,3,18) 
y=c(12,8,20,15,25,7) 
fit1=lm(y~x) 
anova(fit1) 
Output do programa R 
Analysis of Variance Table 
 
Response: y 
 Df Sum Sq Mean Sq F value Pr(>F) 
x 1 216.026 216.026 29.318 0.005637 ** 
Residuals 4 29.474 7.368 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
Para , 
Conclusão: Como ou , podemos concluir que a relação linear 
entre X e Y é estatisticamente significativa, i.e., que é significativamente diferente de 0. 
 
2.4. Teste geral do modelo linear 
 Quanto é que o modelo linear melhora ao adicionarmos uma variável explicativa? 
 Mais uma método para testar se . 
 O método é baseado na redução da soma de quadrados. 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Partimos do modelo completo: 
 
onde 
 
 é a soma de quadrados do erro no modelo completo. 
O modelo reduzido é: 
 
onde 
 
Para testar se o modelo completo se ajusta ao dados significativamente melhor que o modelo 
reduzido (testar a relevância duma variável explicativa), podemos usar um teste F de uma 
forma diferente do da ANOVA. 
Sob a H0: 
 
 
 
 
 
 
Se é muito grande, então concluimos que o modelo completo se ajusta ao dados 
significativamente melhor que o modelo reduzido, i.e, . 
Como proceder? 
i. Estime o modelo completo e obtenha SQE(C). 
ii. Estime o modelo reduzido e obtenha SQE(R). 
iii. Calcule para testar se o modelo completo significativamente melhora o 
modelo reduzido. 
Regra de decisão: 
a. Se Não rejeite a hipótese nula 
b. Se Rejeite a hipótese nula 
 
Exemplo: Implementemos no R para o caso de preço de aluguer de casas. 
x=c(10,13,5,7,3,18) 
y=c(12,8,20,15,25,7) 
fit1=lm(y~x) ##Modelo completo 
fit2=lm(y~1) ##Modelo reduzido 
anova(fit1) 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
anova(fit2) 
Output: 
> anova(fit1) 
Analysis of Variance Table 
Response: y 
 Df Sum Sq Mean Sq F value Pr(>F) 
x 1 216.026 216.026 29.318 0.005637 ** 
Residuals 4 29.474 7.368 
--- 
> anova(fit2) 
Analysis of Variance Table 
Response: y 
 Df Sum Sq Mean Sq F value Pr(>F) 
Residuals 5 245.5 49.1 
 
 
 
 
 
 
 
 
 
Para , 
 
Conclusão: Rejeitar H0: , i.e., podemos concluir, pelo facto de que p-value < , que o 
modelo de regressão completo se ajusta significativamente melhor ao dados que o modelo 
reduzido, ou seja, que . 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
2.5. Coeficiente de determinação R2 
 Medidas que descrevem o grau de associação linear entre X e Y. 
 Sabemos que SQT mede a variabilidade quando estimamos a média de Y e X não 
consta do modelo. Da mesma forma que SQE mede a variação em Y quando o 
modelo de regressão utiliza a variável explicativa X. 
 Assim, uma medida natural do efeito de X na redução da variabilidade em Y, i.e, na 
redução da incerteza na estimação de Y, é escrever a redução na variação (SQT-
SQE=SQR) como uma proporção da variação total: 
 
 
 
 
 
 
 
 é chamado de coeficiente de determinação e mede a proporção da variação total 
em Y que é explicada pela recta de regressão linear com X como variável explicativa. 
Nota: Porque então . No caso de um perfeito ajuste da recta de 
regressão às observações; e . 
Nota: Em práctica, , e quanto mais próximo estiver de 1, maior é o grau de 
associação linear entre X e Y. 
O coeficiente de determinação é o quadrado do coeficiente de correlação linear, , que mede 
a grau de associação linear entre X e Y quando ambas variáveis são aleatórias. 
 
onde o sinal de depende do sinal de 
Lembrar que 
 
 
 
Nota: , onde valores próximos de -1 e 1 indicam uma forte associação linear 
negativa ou positiva entre X e Y, respectivamente. 
Nota: e estão relacionados da seguinte maneira: 
 
 
 
onde s indica o desvio padrão da variável X ou Y. 
 
Exemplo: Para o caso de preço de aluguer de casas 
 e . 
 
 
 
 
 
 
 
Desta forma, cerca de 87.9% da variação total no preço de aluguer de casas é explicada pelo 
equação de regressão estimada tendo idade como variável explicativa. 
O coeficiente de correlação linear 
Dpt. de Matemática e InformáticaFicha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Exercicios 
1. Um estudante estagiando num departamento de pesquisas económicas duma grande 
empresa analisou a relação entre as vendas dum producto (Y, em milhões de MT) e o 
tamanho da população (X, em milhões de pessoas). Para tal ele usou o modelo de 
regressão com termo de erro normal. Eis o output que ele obteu: 
Parâmetro Estimativa 95% Intervalo de confiança 
Intercepto 7.43119 -1.18518 16.0476 
Declive 0.75504 0.45288 1.05721 
 
a) O estudante concluiu, apartir desses resultados, que existe uma associação linear 
entre X e Y. Concordas? 
b) Qual o nivel de significância associado? 
 
2. Num teste de hipóteses, com H0: e Ha: , um analista concluiu que não 
devia rejeitar H0. Será que esta conclusão implica que não exista uma relação linear 
entre X e Y? Explique. 
 
3. Manutenção de copiadoras. O Tri-City Office Equipment Corporation vende uma 
copiadora importada em uma base de franchise e executa a manutenção preventiva e 
serviços de reparação sobre esta copiadora. Os dados na tabela abaixo foram colectados 
de 45 sessões recentes aos usuários para executar serviços de manutenção preventiva 
de rotina. Para cada sessão, X é o número de copiadoras atendidas e Y é o número total 
de minutos gastos pela pessoa de serviço. 
 
a) Obtenha a recta de regressão estimada e trace num gráfico de dispersão. 
 
b) Interprete os valores dos coeficientes da recta de regressão estimados. 
 
c) Obtenha o intervalo de confiança de 95% para e interprete-o. 
 
d) Use o teste T para determinar se existe ou não uma associação linear entre X e 
Y. Use . Enuncie as hipótese, regra de decisão e a conclusão. Qual o p-
value do seu teste? 
 
e) São os resultados em (c) e (d) consistentes? Explique. 
 
f) O fabricante sugeriu que a média de tempo de serviço não deverá aumentar 
em mais de 14 minutos para cada copiadora adicional que é servido. Teste se 
esse padrão esta a ser observado pela Tri-City. Use . Enuncie as 
hipótese, regra de decisão e a conclusão. Qual o p-value do seu teste? 
 
g) Obtenha um intervalo de confiança de 90% para a média do tempo de serviço 
em situações que 6 copiadoras estão sendo servidas. Interpreta o seu intervalo 
de confiança. 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
h) Obtenha um intervalo de previsão de 90% para o tempo de serviço na qual 6 
copiadoras estão sendo servidas. É o intervalo de previsão mais amplo que o 
intervalo de confiança? 
 
i) Produza a tabela ANOVA. Usando o teste F determine se existe ou não 
associação linear entre X e Y. Use . Enuncie as hipótese, regra de 
decisão e a conclusão. Qual o p-value do seu teste? 
 
j) Por quanto, relativamente, é a variação total do número de minutos gastos 
reduzido quando o número de copiadoras à servir é introduzido no modelo? 
Calcule e interprete o seu valor. 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Dados para o exercicio 3. 
 
Yi Xi 
 20 2 
 60 4 
 46 3 
 41 2 
 12 1 
137 10 
 68 5 
 89 5 
 4 1 
 32 2 
144 9 
156 10 
 93 6 
 36 3 
 72 4 
100 8 
105 7 
131 8 
127 10 
 57 4 
 66 5 
101 7 
109 7 
 74 5 
134 9 
112 7 
 18 2 
 73 5 
111 7 
 96 6 
123 8 
 90 5 
 20 2 
 28 2 
 3 1 
 57 4 
 86 5 
132 9 
112 7 
 27 1 
131 9 
 34 2 
 27 2 
 61 4 
 77 5 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Capitulo 3 
 
3. Diagnósticos e medidas de correção5 
 
 Análise residual 
 Testes formais para diagnósticos 
 Medidas de correção 
 Transformações 
 
 
5 Referência: Capítulo 3 em Kutner et al. (2005) e 6 em Gujarati (2000) 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
3.1. Análise residual 
 Necessidade de averiguar a aptidão do modelo de regressão estimado aos dados 
(verificar a validade dos pressupostos do modelo). Porquê? 
 Este procedimento deve anteceder as inferências sobre os parâmetros do modelo. 
 Diagnósticos através dos resíduos (erro observado) ou resíduos estudentizados 
 Podem ser usados gráficos (diagnóstico informal) ou testes de hipóteses (diagnóstico 
formal). 
Resíduos: 
Propriedades: 
1) 
 
 
 
 
 
2) 
 
 
3) 
 
 
Resíduos estudentizados 
 
 
 
 
 
3.1.1. Desvios do modelo de regressão que podem ser estudados apartir dos resíduos 
1. Linearidade 
 A função de regressão não é linear. 
2. Homoscedasticidade 
 O termo de erro não tem variância constante. 
3. Indepêndencia 
 Os termos de erro não são independentes. 
4. Outliers 
 O ajuste é bom excepto para algumas observações extremas. 
5. Normalidade 
 O termo de erro não é normalmente distribuido. 
6. Extensão do modelo 
 Variáveis independentes (importantes) não estão no modelo. 
 
3.1.2. Gráficos para diagnósticos 
 Frequentemente, gráficos para diagnósticos são tão importantes quanto os testes 
formais. 
 Podem nos informar se o modelo de regressão linear é mesmo apropriado. 
Figura 11: Protótipo de gráficos residuais 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
Gráficos univariados de X e Y 
Usados para: 
 Identificação de outliers (valores extremos ou atípicos). 
 Examinar a forma da distribuição da variável. 
Os gráficos comumente usados para esses fins são: 
 Caixa e bígodes para X e Y; 
 Caule e folha; 
 Histogramas, etc. 
Gráficos bivariados de X e Y 
1) Gráficos de X vs. Y 
 É a relação entre X e Y linear? Não linear? 
 Existem valores atípicos bi-dimensionais (em relação a X e Y)? 
 É a premissa de variância constante apropriada? 
A figura abaixo mostra um gráfico de dispersão para X vs. Y. A associação entre X e Y 
mostra-se quase linear, e assim, a premissa de lineariadade não parece completamente 
inapropriada. 
Figura 12: Relação linear entre X e Y 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
2) Gráficos dos residuos vs. X 
 Útil para detectar não linearidade. 
 Qualquer padrão observável no gráfico indica problemas com os pressupostos do 
modelo. 
 
Figura 13: Residuos não lineares 
 
O gráfico acima mostra os residuos vs. X. Claramente, este mostra que os resíduos 
apresentam um padrão Baixo-Alto-Baixo, que é típico quando a relação entre X e Y é não 
linear. Em contrapartida, a Figura 14 mostra um padrão “aleatório” para os residuos. Se 
considermos o histograma para esses residuos, muito provavelmente sugeria uma 
distribuição normal dos residuos. 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Figura 14: Residuos com padrão aleatório 
 
3) Gráficos dos residuos ou residuos ao quadrado vs. X 
 Útil para detectar variância do erro não constante. 
 Resíduos distribuidos num padrão do tipo Megafone indicam que o pressuposto de 
variância constante do termo de erro foi violado. 
Figura 15: Variância não constante 
 
4) Gráficos dos residuos vs. sequência temporal ou arranjo espacial das observações 
 Qualquer padrão indica falta de independência dos termos de erro. 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr.Osvaldo Loquiha, MSc 
Figura 16: Gráficos da sequência temporal dos resíduos ilustrando não 
independencia do termo de erro 
 
5) Gráficos dos residuos vs. 
 Para uma variável explicativa, este gráfico tem a mesma informação que o gráfico dos 
residuos vs. X. 
 Para regressão linear múltipla, este gráfico ajuda-nos a investigar padrões nos 
residuos quando o valor esperado aumenta. 
 
6) Gráficos dos residuos padronizados vs. X 
 Residuos padronizados são definidos como: 
 
 
 
 
 
 Usando estes resíduos padronizados, facilmente podemos detectar outliers ou valores 
atípicos. 
 Outliers podem ter um efeito adverso sobre a recta de regressão. 
 Devem ser descartados apenas se resultarem dum erro de digitação ou mensuração. 
 Outliers podem conter informação sobre possiveis interações com outras variáveis 
não presentes no modelo. 
Nota: Se os dados tem distribuição normal, então 95% dos residuos padronizados devem 
estar entre -2 e 2 desvios-padrão. Valores maiores que 3 ou menores que -3 são considerados 
atípicos. 
7) Gráficos de probabilidade normal 
 Também conhecido como gráfico Quantil-Quantil ou Q-Q. 
 A ideia é traçar um gráfico dos resíduos ordenados vs. valor esperado dos resíduos 
sob a distribuição normal, i.e., os quantis correspondentes da distribuição normal (ex. 
o 10o percentil nos dados é traçado vs. o 10o percentil da distribuição normal). 
 Se os residuos tem distribuição normal então, os pontos devem estar dispostos 
aproximadamente sobre uma linha recta. 
Nota: Resíduos não normais aparecem quando pontos nas “caudas” da distribuição estão 
longe da linha recta. 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
O gráfico abaixo é um exemplo duma situação onde os resíduos se desviam ligeiramente da 
normalidade. Quando comparado a distribuição normal, o maior residuo é ligeiramente 
maior, da mesma forma que o menor resíduo é ligeiramente menor. 
Figura 17: Gráfico Q-Q com resíduos normais 
 
O exemplo a seguir mostra uma situação onde os resíduos não tem distribuição normal. 
Agora o gráfico mostra que os maiores residuos são bem maiores do que aquilo que se podia 
esperar sob a distribuição normal. 
 
Figura 18: Gráfico Q-Q com resíduos não normais 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Figura 18: Protótipos do gráfico Q-Q quando distribuição do termo de erro é não 
normal. 
 
Os seguintes passos são usados para construir o gráfico Q-Q: 
1) Ordenar os resíduos de forma crescente (k=posição relativa do resíduo). 
2) Calcular o resíduo esperado sob distribuição normal: 
 
 
 
 
Onde é o percentil duma distribuição normal 
3) Traçar um gráfico dos resíduos ordenado vs resíduos esperados sob distribuição 
normal. 
Nota: 
 Desvio de normalidade podem se dever a um modelo mal ajustado aos dados ou 
porque variância do erros não é constante. 
 Dessa forma, é recomendável investigar primeiro outros desvios e depois a 
normalidade. 
 
3.2. Testes formais 
3.2.1. Teste para aleatóriedade ou indepêndencia do termo de erro 
Teste de Durbin-Watson 
 
Se o termo de erro é autocorrelacionado (não independente), então podemos escrever o 
termo de erro como um modelo autoregressivo de primeira-ordem: 
 , 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 : parâmetro de autocorrelação 
 vs. 
Estatística: 
 
 
 
 
 
 
 
 
 
Regra de decisão 
 Não rejeitar 
 Rejeitar 
 Inconclusivo 
Implementação em R 
library(lmtest) 
dwtest(fit1) 
 
Nota: 
 Valores para e (limites inferior e superior de D) podem ser encontrados na 
Tabela B.7 em Kutner et al. 
 Se desejamos um teste para autocorrelação negativa, a estatística do teste a ser usado 
é . O teste é conduzido da mesma forma para autocorrelação positiva (como 
descrito acima), i.e, se podemos concluir que . 
 Teste bilateral para vs. pode ser obtido ao empregar-se ambos 
testes unilaterais separadamente, com o erro tipo I sendo igual à onde 
representa erro tipo I para cada teste unilateral. 
 Se o teste é inconclusivo, então mais observações devem ser consideradas ou medidas 
de correção aplicadas. 
 O teste de Durbin-Watson não é robusto contra má especificação do modelo. Por 
exemplo, o teste não fornece informação sobre a presença de autocorrelação se o 
termo de erro segue um modelo autoregressivo de segunda-ordem. 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
3.2.2. Teste para constância da variância 
Teste de Levene 
 Robusto contra desvios sobre a premissa de distribuição normal, i.e., o teste é valido 
mesmo se o termo de erro não segue a distribuição normal. 
 Útil para detectar padrões do tipo megafone. 
 Requer uma amostra grande (distribuição assimptótica). 
Procedimento 
1) Arrange os valores de em ordem crescente valores de X. 
2) Divide a amostra em dois grupos em relação aos valores de X: 
Grupo 1: n1 observações para valores menores de X. 
Grupo 2: n2 observações para valores maiores de X. 
3) Calcule e onde e representam os resíduos 
medianos do grupos 1 e 2 respectivamente. 
Estatística do teste: teste T para duas amostras independentes 
 
 
 
 
 
 
 
 
 
 
onde 
 
 
 
 
 
 
Implementação em R 
library(lawtest) 
levene.test(residuals(fit1), group, option=”median”) #group #refere-se ao 
nome da variavel explicativa que define os #grupos 
 
Teste de Breusch- Pagan 
 Requer que 
 Requer que o tamanho de amostra seja grande. 
 Pode detectar relações do tipo 
 
 
 
 
Procedimento: 
 Escreva 
 como função de X e obtenha a 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Estatística 
 
 
 
 
 
 
 
 
 
 
com a soma de quadrados do resíduos do modelo de regressão de Y em X. 
Regra de decisão 
 
 
 Rejeitar 
 
 
 Não rejeitar 
Implementação em R 
library(lmtest) 
bptest(y~x) 
 
3.2.3. Teste para normalidade 
1) Obtenha os residues do modelo e resíduos esperados sob a distribuição normal. 
2) Calcule o coeficiente de correlação de Pearson entre as duas variáveis: 
3) Compare com valores críticos tabulados (Tabela B.6 Kutner et al.) 
4) Regra de decisão: 
 Termo de erro com distribuição normal 
 Termo de erro sem distribuição normal 
Nota: Os valores de estão tabulados de acordo com o tamanho de amostra e o nivel de 
significância 
Implementação em R 
library(nortest) 
pearson.test(residuals(fit1)) 
 
Outros testes 
 Shapiro-Wilk 
 Kolmogorov-Smirnov 
 Lilliefors 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
3.2.4. Identificação de outliers 
 Resíduos padronizados que excedam 3 ou menores que -3 desvios-padrão. 
 Observações cujo resíduos ou valor de Y é um outlier num diagrama de caixa-bigodes. 
 Re-estimar o modelo sem a observação suspeita e construir um intervalo de previsão 
para novo Y para um nível de X igual ao da observação suspeita. 
Será que o intervalo de previsão inclui o valor da observaçãosuspeita? 
Figura 19: Gráfico residual com Outlier 
 
Figura 20: Distorção nos resíduos causados por um outlier quando o remanescente 
dos dados se ajustam ao modelo de regressão linear 
 
 Muitas técnicas estão disponiveis para identificação de outliers (ex.: Teste de 
Bonferroni) 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Implementação em R 
library(car) 
outlier.test(fit1) 
 
3.3. Teste para falta de ajuste do modelo de regressão 
 Teste para verificar se o modelo de regressão linear é apropriado. 
 Será que o pressuposto de linearidade é apropriado? 
 
 
 Este teste é apenas possível quando repetidos valores de Y estão disponíveis para 
alguns níveis de X. 
 
Figura 21: Gráfico de dispersão e recta de regressão estimada 
 
Pressupostos 
A variável Y é assumida como: 
 Independente, 
 Tem distribuição normal 
 Variância constante, 
 
 
 
Notação 
 : i-ésima observação para o j-ésimo valor de X. 
 : no de valores distintos de X, 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 : no de observações em 
Procedimento do teste 
1) Usando as observações de Y, estime a variância do erro para cada valor distinto de . 
2) Junte estas estimativas para obter a variância estimada do “erro puro”. 
3) Compare este “erro puro” com a SQE em um teste F. 
 
Passo 1 
Modelo completo 
 , onde , e é o modelo linear geral. 
 
 
 
 
 
 
 
 
 
 
 
Onde SQEP representa a soma de quadrados do “erro puro” e g.l os graus de liberdade. 
Passo 2 
Modelo reduzido 
 
 
 
 
 
 
 
 
 
Passo 3 
Sob 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
com SQFA, a soma de quadrados devido a falta de ajuste. 
Ideia do teste. 
 Decomponha SQE em soma de quadrados devido ao erro puro (SQEP) e soma de 
quadrados devido a falta de ajuste (SQFA) 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 
 
Elevando ao quadrado ambos os membros e somando para todas as observações, obtemos: 
 
 
 
 
 
 
 
 Então: 
 
A SQFA pode ser calculado facilmente dado que para cada , é o mesmo. 
 
 
 
 
 
 
 
 
Figura 22: Ilustração da decomposição da SQE em SQEP e SQFA 
 
 
 
 
Residuo Erro Puro Falta de 
Ajuste 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Nota: 
 
 
 
 
 
 
 
 
Regra de decisão 
Se Não rejeitar 
Se Rejeitar 
 
Tabela ANOVA 
Fonte de 
variação 
G.l (gl) SQ QM 
Regressão 
 
 
 
 
 
 
 
 
Erro 
 
 
 
 
Falta de 
Ajuste 
 
 
 
 
 
 
 
 
Erro Puro 
 
 
 
Total 
 
Exemplo: 
 
 
 
1 1 50 1530 
1470 1487 
60 3600 
1 2 50 1410 -60 3600 
2 1 100 1690 
1620 1599 
70 4900 
2 2 100 1550 -70 4900 
3 1 150 1680 
1720 1711 
-40 1600 
3 2 150 1760 40 1600 
4 1 200 1850 
1810 1823 
40 1600 
4 2 200 1770 -40 1600 
Soma 1000 13190 6620 6620 0 23400 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 
 ; 
 , 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Implementação em R 
x=c(50,50,100,100,150,150,200,200) 
y=c(1530,1410,1690,1550,1680,1760,1850,1770) 
plot(x,y) 
fit1=lm(y~x) #modelo reduzido 
summary(fit1) 
fit2= lm(y~factor(x)) #modelo completo 
summary(fit2) 
anova(fit1,fit2) 
 
50 100 150 200
1
4
0
0
1
5
0
0
1
6
0
0
1
7
0
0
1
8
0
0
x
y
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Output 
> anova(fit1,fit2) 
Analysis of Variance Table 
 
Model 1: y ~ x 
Model 2: y ~ factor(x) 
 Res.Df RSS Df Sum of Sq F Pr(>F) 
1 6 25360 
2 4 23400 2 1960 0.1675 0.8514 
Conclusão: 
Como ou 0.8514>0.05 então podemos concluir que não existem evidências 
suficientes para rejeitar , i.e., o modelo ou modelo de regressão linear 
não é inapropriado para ajustar aos dados. 
 
3.4. Medidas de correção 
Resumo 
 Linearidade 
 Modifique o modelo de regressão; 
 Use uma transformação em X ou em Y. 
 Homoscedasticidade ou variância constante 
 Use o método de Minímos quadrados ponderados; 
 Transformação para estabilização da variância. 
 Independência 
 Use um modelo de series temporais; 
 Use o método dos Minímos quadrados generalizados; 
 Transformações especiais 
 Outliers 
 Descarte os outliers (Atenção !!!) 
 Use interações entre variáveis independentes; 
 Use um método de estimação robusto. 
 Normalidade 
 Use Modelos Lineares Generalizados. 
 Use uma transformação em Y. 
 Extensão do modelo 
 Use regressão linear múltipla. 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Se o modelo de regressão linear não é apropriado, então: 
1) Use um modelo apropriado ou, 
2) Empregue algumas transformações e análise os dados transformados. Cuidado com 
as conclusão!!!! 
3.4.1. Lineariadade 
O que fazer se o modelo de regressão não é linear? 
 Desenvolve um modelo de regressão que se ajuste aos dados. Verifique os gráficos 
para diagnósticos. Este é um processo iterativo. 
 Transforme as variáveis por forma a que uma relação linear se ajuste aos dados 
transformados. Métodos não parâmetricos podem ajudar nesse processo (quando a 
natureza da relação não é conhecida). 
 
Transformações 
A ideia é substituir X e/ou Y por valores transformados dessas variáveis e depois estimar o 
modelo de regressão linear. O objectivo das transformações é satisfazer os pressupostos do 
modelo linear. Testes de significância e intervalos de confiança são realizados ao nível da 
variável transformada. 
 Se o único problema observado é a não-linearidade, podemos transformar X apenas. 
A razão é que transformações da variável Y podem induzir um problema de 
heteroscedasticidade ou não normalidade do termo de erro. 
Exemplos de tais transformações podem ser observados na figura abaixo: 
 
Figura 23: Protótipo de padrões de regressão e possíveis transformações em X 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
3.4.1. Independência 
O que fazer se o termo de erro não é independente? 
 A primeira acção é incluir mais variáveis explicativas no modelo. 
 Outra acção envolve adição de variáveis ou componentes no modelo que meçam a 
tendência, tais como tendência linear ou exponencial. 
 Também pode-se usar transformações especiais na variável resposta. 
A seguinte transformação pode ser empregue:, 
 
 , 
 , 
 , com 
 
 
 
 
 
 
Onde: 
 
 
 
 
 
 
 
 
 
Procedimento 
1) Estime o coeficiente de autocorrelação e 
2) Use o valor estimado para obter as variáveis transformadas 
 
 
 
 
3) Estime o modelo de regressão 
 
 
 
 
 
 
 
 
 
 
4) Transforme as variáveis de volta ao nível original 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
 
 
 
 
 
 
 
 
 
; 
 
3.4.2. Heteroscedasticidade e não-normalidade 
 Variância dos resíduos não é constante, mas varia de forma sistemâtica. Então, uma 
aproximação ou correção directa é usar o método de minímos quadrados 
ponderados. 
 Transformações podem também ser efectivos para estabilizar a variância. 
Exemplos de tais transformações podem ser observados na figura abaixo: 
Figura 24: Protótipo de padrões de regressão com variância do erro desigual 
 
a) 
b) 
c) 
 
 
 
 Frequentemente a heteroscedasticidade e não-normalidade são problemas ou desvios 
associados. 
 As mesmas transformações empregues para estabilizar a variância, podem ser usados 
para tornar o termo de erro normal. 
 Situações há em que transformações em Y podem também ajudar a linearizar uma 
relação curvilínea. 
 Por vezes, se a variância não é constante mas a relação é linear, ambas variáveis Y e X 
devem ser transformadas. 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
3.4.3. Família de transformações Box-Cox 
Correção para: 
 Assimetria; 
 Não normalidade; 
 Variância não constante; 
 Nao linearidade. 
Uma transformação apropriada é escolhida apartir do seguinte: 
 , i.e., 
 se 
 se 
 
 
 , , 
 e podem ser encontrados pelo método da máxima verossimilhança. 
Casos especiais: 
 
2.0 
0.5 
0.0 
-0.5 
 
 
-1.0 
 
 
 
Ideia: Experimente um conjunto de valores para (ex.: -2, -1.8, -1.6,...,1.8,2) e escolhe o que 
minimizar a SQE. 
 
3.4.3.1. Dois casos especiais 
1) Dados de contagem 
Dados de contagem são frequentemente distribuidos de acordo com uma distribuição 
Poisson. Para tais variáveis, , o que imediatamente viola o pressuposto de 
variância constante. 
Em tais casos, 
 
é um bom ponto de partida para modelar os dados. Um transformação ligeiramente melhor 
que esta é a de Friedman-Tukey para estabilizar a variância, i.e., 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
2) Dados sobre proporções 
Dados denotando proporções (ou percentagens) de uma certa característica encontram-se 
com alguma frequência em estudos biológicos e também em não-biológicos. Exemplo, Y=% 
de ou Y=proporção de casos doentes 
Este tipo de variáveis têm pelo menos duas características que causam dificuldades na 
estimação do modelo linear: 
i. A proporção, . Então, a equação de regressão linear deve ter em conta esta 
propriedade. 
ii. A variância de tipicamente depende de , i.e., para distribuição binomial 
 onde 
Existem duas formas de ultrapassar esse problema: 
1. Usando a transformação arcoseno 
2. Transformação logit: logit 
 
 
 
 Mais moderno que a transformação arcoseno. 
 Tem algumas propriedades estatísticas interessantes, ideias para modelação. 
 
3.4.4. Outliers 
Outliers foram identificados....e depois? 
1) Verifique se os pontos foram mensurados e registrados de forma correcta. 
2) Estime o modelo de regressão com e sem a observação atípica. 
Será que os resultados mudam significativemente? 
 Se não, reporte os resultados incluindo o outlier, mas não se esquece de mencionar 
a sua presença. 
 Se os resultados mudam significativamente, reporte ambos resultados (com e sem 
outliers). 
 
Exemplo ilustrativo: 
Examinemos os pressupostos para o caso preços de aluguer de casas. 
Implementação em R 
x=c(10,13,5,7,3,18) 
y=c(12,8,20,15,25,7) 
plot(x,y,xlab="Idade (anos)", ylab="Preço de aluguel(x1000)") 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
fit1=lm(y~x) 
summary(fit1) 
res=resid(fit1) 
#Analise Residual 
library(car) 
reg.line(fit1) 
plot.lm(fit1) #graficos para diagnósticos 
plot(res,ylab="Residuos", xlab="Sequencia das observaçoes") 
abline(a=mean(res),b=0) 
library(lmtest) 
durbin.watson(fit1)#para Ha:ρ≠0 
dwtest(fit1) )#para Ha:ρ>0 
bptest(y~x)#para variancia constante 
library(nortest) 
pearson.test(res)#teste de normalidade usando correlacao 
rstandard(fit1) 
outlier.test(fit1)#teste para outliers 
fit2=lm(y~factor(x)) 
summary(fit2) 
anova(fit1,fit2)#teste falta de ajuste 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Outputs 
> plot.lm(fit1) #graficos para diagnósticos 
 
 
> plot(res,ylab="Residuos", xlab="Sequencia das observaçoes") 
> abline(a=mean(res),b=0) 
5 10 15 20
-2
-1
0
1
2
3
Fitted values
R
e
s
id
u
a
ls
lm(y ~ x)
Residuals vs Fitted
5
6
4
-1.0 -0.5 0.0 0.5 1.0
-1
.0
-0
.5
0
.0
0
.5
1
.0
1
.5
2
.0
Theoretical Quantiles
S
ta
n
d
a
rd
iz
e
d
 r
e
s
id
u
a
ls
lm(y ~ x)
Normal Q-Q
6
5
4
5 10 15 20
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
1
.2
Fitted values
S
ta
n
d
a
rd
iz
e
d
 r
e
s
id
u
a
ls
lm(y ~ x)
Scale-Location
6
5
4
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
 
> durbin.watson(fit1) 
 lag Autocorrelation D-W Statistic p-value 
 1 0.1234400 1.390536 0.416 
 Alternative hypothesis: rho != 0 
> dwtest(fit1) 
 Durbin-Watson test 
 
data: fit1 
DW = 1.3905, p-value = 0.2035 
alternative hypothesis: true autocorrelation is greater than 0 
> bptest(y~x) 
 studentized Breusch-Pagan test 
data: y ~ x 
BP = 0.2286, df = 1, p-value = 0.6326 
> pearson.test(res) 
 
 Pearson chi-square normality test 
 
data: res 
1 2 3 4 5 6
-2
-1
0
1
2
3
Sequencia das observaçoes
R
e
si
d
u
o
s
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
P = 2.3333, p-value = 0.3114 
> rstandard(fit1) 
 1 2 3 4 5 6 
-0.6907534 -0.9163092 0.1557766 -0.9360513 1.4531432 1.7518288 
> outlier.test(fit1) 
 
max|rstudent| = 3.144525, degrees of freedom = 3, 
unadjusted p = 0.05148287, Bonferroni p = 0.3088972 
 
> anova(fit1,fit2) 
Analysis of Variance Table 
 
Model 1: y ~ x 
Model 2: y ~ factor(x) 
 Res.Df RSS Df Sum of Sq F Pr(>F) 
1 4 29.474 
2 0 0.000 4 29.474 
 
Conclusão: Não há evidências de que os pressupostos do modelo de regressão linear foram 
violados. 
 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Exercícios 
1. Distingue entre (1) residuos e residuos estudentizados;(2) e ; (3) termo 
de erro e resíduo. 
2. Um estudante estimou a recta de regressão linear. Ele construiu um gráfico de 
dispersão dos resíduos vs. Y e encontrou um relação positiva. Quando usou o gráfico 
dos resíduos e os valores estimados , ele não encontrou alguma relação. Como é esta 
diferença possível? Quais dos gráficos é mais apropriado ou informativo? 
3. Se os erros num modelo de regressão são independentes e , o que pode ser 
dito dos erros depois que a transformação é usado? Será a situação idêntica 
se a transformação é usado? 
4. Refere ao caso de Manuntenção de copiadoras (exercicio 3, capitulo 2) 
a) Prepare um gráfico caixa e bígodes para a variável X. Que informação é 
providenciada por este gráfico? Existem outliers em relação a esta variável? 
b) Prepare um histograma para os resíduos. Alguma caracteristica relevante nesse 
gráfico? 
c) Prepare um gráfico residual dos resíduos vs. e outro dos resíduos vs. X. Será que 
estes gráficos fornecem a mesma informação? Que desvios do modelo de regressão 
podem ser estudados usando estes gráficos? Enuncia a sua conclusão. 
d) Prepare um gráfico Q-Q dos resíduos. Algum indicio de que o resíduos não 
tenham distribuição normal? Proceda ao teste de normalidade e use . 
e) Prepare um gráfico de sequencia dos resíduos para verificar se o termo de erro é 
correlacionado. Qual a sua conclusão? 
f) Proceda ao teste de Breusch-Pagan para determinar se a variância do erro varia em 
função de X. Use . Enuncie as hipoteses nula e alternativa, regra de 
decisão e conclusão. 
5. Refere ao caso de Manuntenção de copiadoras (exercicio 3, capitulo 2). 
a) Quais as conclusões alternativas quando testamos por falta de ajuste num modelo 
de regressão linear? 
b) Proceda ao teste como indicado em (a). Controla o erro tipo I com . 
Enuncia a regra de decisão e conclusão. 
c) Será que o teste em (b) detecta outros desvios do modelo de regressão, tais como 
falta de variância constante ou não-normalidade no termo de erro? Pode o 
resultado do teste de falta de ajuste ser afectado por tais desvios? Explique. 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
Capitulo 4 
 
4. Modelo de Regressão Linear Múltipla6 
 
 Formulação matricial 
 Estimação dos parâmetros 
 Inferência estatística 
 Diagnósticos 
 
 
 
6 Referência: Capítulo 6 & 7 em Kutner et al. (2005) e 7-9 em Gujarati (2000) 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
4.1. Informação geral sobre regressão múltipla 
 Usamos regresão múltipla quando queremos relacionar a variação na variável 
dependente à várias variáveis independentes diferentes; 
 Regressão linear simples pode ser conduzida usando a metodologia da regressão 
múltipla. 
 
4.2. Exemplo introdutório 
Suponha que tenhamos duas variáveis e . Podemos assumir o seguinte modelo: 
 , 
 é o valor da variável dependente para a observação (sujeito ou caso) 
 , e são os parâmetros do modelo. 
 
 
  descreve um plano 
 : Se e assumem valores iguais a zero significativos, então é a 
resposta média (ou média de Y) quando . Caso contrário não tem 
nenhum significado prático 
 : representa a mudança na resposta média (ou média de Y) por aumento 
unitário em quando (ou mantendo) constante. 
 : representa a mudança na resposta média por aumento unitário em 
quando (mantendo) constante. 
 
 
 
 
 
 
 
 
NOTA: 
 e sãp também chamados de coeficientes de regressão parciais. 
 Se e são independentes, então eles são chamados de coeficientes aditivos. 
 
 
 
 
 
 
 
 
 
 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
4.3. O Modelo Linear Geral (MLG) 
 Generalização do modelo com duas variáveis independentes. 
 Para com o número de parâmetros no modelo 
 
 
 
 
 
 
 
 , são os parâmetros do modelo. 
 são valores fixos ou constantes conhecidos 
Este modelo pode ser usado para vários tipos de regressão: 
1) Com variáveis qualitativas: onde a variável codifica as observações como estando 
numa particular categoria. Pode-se testar como a categorização prediz a variável 
resposta. 
Exemplo: 
 : Preço de aluguer duma casa 
 :Idade da casa 
 : Localização da casa 
 
 
 
Para usarmos a variável no modelo teremos que codifica-la de tal forma que o efeito de 
cada categoria possa ser medido pelo modelo, criando desta forma aquilo a que chamaremos 
variável dummy com valores 0 (insucesso) e 1 (sucesso). 
 : Localização da casa 
 
 
 
Modelo: 
  Estimativa do preço médio de aluguer duma casa localizada 
no centro da cidade 
  Estimativa do preço médio de 
aluguer duma casa localizada nos arredores da cidade 
 
Se e são coeficientes aditivos, então modelo para e representam duas 
rectas paralelas onde nos diz por quanto o valor do intercepto na categoria que recebe o 
valor 1 difere do intercepto da categoria de base ou referência (com valor 0). Isto é similar a 
um modelo para Análise de covariância (ANCOVA). 
NOTA: No caso do modelo ser constítuido apenas pela variável qualitativa, i.e., 
 , então representa a diferença entre a resposta média da categoria com valor 
1 e a resposta média da categoria referência ou com valor 0 (Porquê?). Similar a um modelo 
para Análise de Variância (ANOVA). 
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 
 
Suponha que queiramos adicionar mais uma variável categórica W, denotando o número de 
compartimentos (quartos) existentes na casa, com 3 categorias: 
 : Número de compartimentos 
 
 
 
 
Neste caso seriam necessários duas variávies dummies para medir o efeito da variável W na 
variação de Y: 
 : Casa tipo 1 
 
 á 
 e 
 : Casa tipo 2 
 
 á 
 
Nota que essa codificação implica que serve de categoria base (Intersecção de e ), 
tanto que as comparações serão feitas tendo como referência. 
NOTA: Para uma variável categórica com m categorias (níveis), é necessáro criar (m-1) 
variáveis dummies para medir o efeito da variável categórica e evitar multicolineraridade (a 
discutir no proximo capítulo). 
 
2) Interações entre variáveis: quando uma das variáveis independentes do modelo é o 
produto de outras variáveis explicativas no modelo. Ajuda a verificar se o efeito de 
uma variável depende do nível de outra variável. 
 
NOTA: Nestes casos, o efeito de e já não se considera aditiva, tanto que o efeito de 
depende do nível de e vice-versa, i.e., o efeito de é dado por e por 
 
 
3) Executar regressões polinomiais: podemos explicar relações quadráticas, cúbicas, etc. 
 
 
 
4.4. Formulação matricial do MLG

Outros materiais