Buscar

Anotacoes de Aula 5 - Correlação e Regressao Linear

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

189 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 Essa Unidade está no capítulo 11 do livro base: MONTGOMERY, 
Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade 
para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009. 
 Você também pode, se preferir, fazer a leitura do capítulo 10 do 
livro do Mario Triola, Introdução à Estatística, LTC, 2005. 
 Cópias desses capítulos podem ser obtidas por meio da Pasta do 
Professor Professor (www.pastadoprofessor.com.br), fazendo login 
nessa página e enviando-as para serem impressas na Copiadora 
Set (casa amarela) da Unidade do Coração Eucarístico, ou em 
alguma outra copiadora da Unidade a que o aluno pertence. 
Não deixem de ler! 
 
Nota importante: 
• Essas aulas foram produzidas por meio de coletânea dos textos 
indicados na bibliografia. Não são citadas diretamente para não 
poluir o visual dos mesmos. 
• Os textos estão organizados e traduzidos para minha linguagem 
didática pessoal. 
• Um estudo mais aprofundado deverá ser baseado nas 
referências bibliográficas indicadas. 
 
Algumas notas de aulas: 
 
1. Introdução 
 
A associação entre duas variáveis quantitativas também é chamada de medida de relação. As 
medidas de relação aqui estudadas são as que objetivam linearidade: correlação e regressão. 
Segundo ou dicionário Aurélio, correlação significa relação mútua entre dois termos, qualidade 
de correlativo, correspondência. Correlacionar significa estabelecer relação ou correlação entre; 
ter correlação. Enquanto que a palavra regressão significa: ato ou efeito de regressar, de 
voltar, retorno, regresso; dependência funcional entre duas ou mais variáveis aleatórias. A 
palavra regredir significa ir em marcha regressiva, retroceder. 
Os termos correlação e regressão surgiram com Francis Galton (1822-1911), primo de Charles 
Darwin, que usou pela primeira vez esses termos. Seu trabalho influenciou a Estatística e a 
Psicologia. 
Galton publicou o livro Gênio Hereditário, em 1869, onde aplicou conceitos estatísticos a 
problemas da hereditariedade. Galton ficou impressionado com a distribuição normal aplicada a 
área de biologia por Adolph Quételet (1796-1874), que mostrara no livro “O homem Médio”, 
que a estatura de dez mil sujeitos seguia uma distribuição normal, ou seja, a maioria dos 
sujeitos tinha suas estaturas em torno da média e que uma quantidade, cada vez menor, vai 
sendo encontrado à medida que se afasta da média. 
190 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
Galton cunhou o termo regressão quando observou que filhos de homens altos, não são, em 
média, tão altos quanto os pais, enquanto que os filhos de homens muito baixos são, em 
média, mais altos do que os pais. Ele concebeu uma forma gráfica de representar as 
propriedades básicas do coeficiente de correlação. Ele aplicou o seu método de correlação a 
variações de medidas físicas, por exemplo, mostrou a correlação entre a altura do corpo e o 
comprimento da cabeça. 
Seu aluno Karl Pearson desenvolveu a fórmula matemática, que usamos hoje e que tem o seu 
nome em homenagem. O símbolo do coeficiente de correlação r, vem da primeira letra de 
regressão, em reconhecimento a Galton. 
 
 
2. A Covariância e o Coeficiente de Correlação de Pearson 
 
Quando estudamos a relação entre duas variáveis X e Y devemos apreender um novo conceito 
que é a covariância. Se a variância é uma estatística através da qual chegamos ao desvio-
padrão que é uma medida da dispersão dos dados. Semelhantemente, a covariância é uma 
medida da variação (dispersão) conjunta entre os dados de X e Y. Essa medida estatística nos 
possibilita chegar ao coeficiente de correlação o qual mede o grau de associação “linear” entre 
duas variáveis aleatórias. 
Apresentaremos esses conceitos por meio do exemplo a seguir. 
Exemplo 1: Sejam as variáveis aleatórias X, renda bruta anual em milhões de reais e Y, 
percentual da renda bruta gasto com assistência médica, que tomam os seguintes valores: 
 
 
 
Calculando as estatísticas descritivas temos: 
 
 
 
 
Uma forma mais simplificada para os cálculos é por meio da utilização da escrita de algumas 
somas intermediárias, tais como: 
 
n
x
xS
n
i
i
n
i
ixx
2
1
1
2












 
n
yx
yxS
n
i
i
n
i
i
n
i
iixy





















11
1
 
 
 
A covariância é obtida por meio da seguinte fórmula: 
 
 
  
11
),cov(






n
S
n
yyxx
YX
xy
 
 
Renda bruta (X), em R$ 12 16 18 20 28 30 40 48 50 54
% gasta (Y) 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5
Variável n Média Variância Desvio-padrão
Renda bruta (X), em R$ 10 31,60 238,04 15,43
% gasta (Y) 10 6,45 0,43 0,66
191 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
O próximo quadro apresenta alguns cálculos intermediários para esse banco de dados: 
 
Renda bruta (X) % gasto (Y) XY X
2 
Y
2 
12 7,2 86,4 144 51,84 
16 7,4 118,4 256 54,76 
18 7,0 126,0 324 49,00 
20 6,5 130,0 400 42,25 
28 6,6 184,8 784 43,56 
30 6,7 201,0 900 44,89 
40 6,0 240,0 1600 36,00 
48 5,6 268,8 2304 31,36 
50 6,0 300,0 2500 36,00 
54 5,5 297,0 2916 30,25 
 X = 316  Y = 64,5  X Y = 1952,4  X
2
 = 12128  Y
2
 =419,91 
 
 
8,852,20384,1952
10
)5,64)(316(
4,1952 xyS
 
 
53,9
9
8,85
),cov( 

YX
 
 
Verifica-se graficamente a relação entre duas variáveis por meio do diagrama de dispersão 
entre elas. Nesse gráfico foram desenhadas as linhas das médias de X, E(X), e de Y , E(Y), e 
indicados os sinais da covariância em cada um dos quadrantes determinados por essas linhas: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
X: Renda bruta 
Y: 
% 
ga
sto
 co
m 
as
sis
t. m
éd
ica
605040302010
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de dispersão: % gasto com assist. médica vs Renda bruta
X-E(X)<0 e Y-E(Y)<0
X-E(X)<0 e Y-E(Y)>0
X-E(X)>0 e Y-E(Y)<0
X-E(X)>0 e Y-E(Y)>0
I
III II
IV
Cov(X,Y) < 0
Cov(X,Y) > 0
Cov(X,Y) < 0
Cov(X,Y) > 0
X: Renda bruta 
Y: 
% 
ga
sto
 co
m 
as
sis
t. m
éd
ica
605040302010
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de dispersão: % gasto com assist. médica vs Renda bruta
X-E(X)<0 e Y-E(Y)<0
X-E(X)<0 e Y-E(Y)>0
X-E(X)>0 e Y-E(Y)<0
X-E(X)>0 e Y-E(Y)>0
I
III II
IV
Cov(X,Y) < 0
Cov(X,Y) > 0
Cov(X,Y) < 0
Cov(X,Y) > 0
192 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
Observe que os desvios dos pontos que caem no quadrante II (supondo 
x
 e 
y
 os eixos 
centrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, também, 
tomarão valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, os dois 
desvios tomarão valores negativos, portanto seus produtos tomarão valores positivos. Se a 
maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtos dos 
desvios sempre será positivo, logo afirmaremos que a covariância destas duas variáveis é 
positiva, ou em outras palavras, a relação entre elas é direta, ou seja, a medida que uma 
cresce, a outra, também cresce e vice-versa. 
Agora,vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios 
de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos, logo os 
produtos tomarão valores negativos. O mesmo vai acontecer com os pontos do quadrante III, 
nele, os desvios de X tomarão valores negativos e os desvios de Y, valores positivos, logo os 
produtos tomarão valores negativos. Assim, se a maioria dos pontos cai nos quadrantes I e III 
a covariância tomará valores negativos, indicando que essas duas variáveis se relacionam de 
forma negativa ou inversa, ou seja, que quando uma cresce a outra diminui e vice-versa. 
Quando os pontos se distribuem nos quatro quadrantes, haverá valores positivos e negativos, 
logo a soma tenderá para zero, e neste caso, afirmaremos que não existe relação linear entre 
essas variáveis. Observamos que esta estatística tenderá para zero, mesmo havendo uma 
relação que não for linear, por exemplo, se os dados tivessem o formato de uma parábola, ou 
relação quadrática. 
A pesar de a covariância ser uma estatística adequada para medir relação linear entre duas 
variáveis, ela é complicada para comparar graus de relação entre variáveis devido a influencia 
das unidades de medida de cada variável, que pode ser metros, quilometro, quilogramas, 
centímetros, etc... Para evitar a influência da ordem de grandeza e unidades de cada variável, 
dividimos a covariância pelo desvio padrão de X e de Y, dando origem ao coeficiente de 
correlação de Pearson: 
 
    




 




 


  

2222 yynxxn
yxxyn
)Y(dp)X(dp
)Y,Xcov(
r
 
 
 No conjunto de dados do exemplo, temos: 
 
   
43,15
110
10
316
12128
1
)(
22
2









n
n
x
x
Xdp e 
 
   
66,0
110
10
5,64
91,419
1
)(
22
2









n
n
y
y
Ydp 
 
Logo, 
 
9401,0
)66,0)(43,15(
53,9
)()(
),cov(



YdpXdp
YX
r
 
193 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
O coeficiente de correlação também pode ser calculado utilizando as somas intermediárias: 
Txx
xy
SQS
S
r 
 
Dessa maneiira, tem-se: 
 
4,85xyS
 
4,2142
10
316
12128
2
2
1
1
2 










 n
x
xS
n
i
in
i
ixx
 
885,3
10
5,64
91,419
2
2
1
1
2
2
1
1
22
1
2 
































n
y
y
n
y
nyynySSQ
n
i
in
i
i
n
i
in
i
i
n
i
iyyT 
Logo, 
9401,0
)885,3)(4,2142(
8,85



Txx
xy
SQS
S
r
 
 
O coeficiente de correlação mede a força da relação entre as duas variáveis. O sinal representa 
se a relação é positiva ou negativa conforme as explicações fornecidas para a covariância. 
Uma sugestão de classificação para essa força é: 
 
Correlação (r) Significado 
- 1 Relação linear negativa perfeita 
|r| < 0,4 Relação linear fraca 
0,4  |r|  0,7 Relação linear moderada 
|r| > 0,7 Relação linear forte 
1 Relação linear positiva perfeita 
 
Portanto, no nosso exemplo, a relação linear é negativa forte, o que significa que quanto maior 
a renda anual menor o percentual gasto com assistência médica. 
Podemos observar os seguintes tipos de correlação: 
 
 
194 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
Vale a pena considerar que o fato de duas variáveis estarem fortemente correlacionadas por si 
só não implica em uma relação de causa e efeito entre elas. Exemplo, podemos ter em uma 
certa região um grande número de cegonhas e um alta taxa de nascimento de bebes. Essas 
duas variáveis podem estar altamente correlacionadas, mas não podemos acreditar numa 
relação de causa e efeito entre elas (ainda...). Esse tipo de correlação é chamado de “espúria”. 
 
Exemplo 2: O estatístico F. J. Anscombe preparou os seguintes conjuntos de dados para 
exemplificar a correlação, os quais são bastante utilizados para efeitos didáticos: 
 
 
195 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
 
 Observe que esses dados produzem as mesmas estatísticas descritivas. No entanto, o 
gráfico de dispersão para cada um desses conjuntos apresenta configurações completamente 
diferentes: 
 
 
 
3. Modelamento por Regressão Linear Simples 
 
 
Essa técnica é uma maneira útil de estudar relações entre variáveis, quando fizer sentido tentar 
predizer ou explicar o comportamento de uma variável, em termos do comportamento de outra 
ou de outras variáveis. 
A variável cujo comportamento queremos explicar ou predizer é chamada de variável 
resposta, ou dependente e, por convenção é denotada por Y. As outras variáveis são de 
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
Média 9,0 7,5 9,0 7,5 9,0 7,5 9,0 7,5
Desvio-padrão 3,3 2,0 3,3 2,0 3,3 2,0 3,3 2,0
Covariância
Correlação
5,0
0,82 0,82 0,82 0,82
E
s
t
 
D
e
s
c
r
i
t
5,0 5,0 5,0
2015105
12
10
8
6
4
2015105
12
10
8
6
4
Y1*X1 Y2*X2
Y3*X3 Y4*X4
Diagrama de Dispersão: Y1 vs X1; Y2 vs X2; Y3 vs X3; Y4 vs X4
196 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
interesse apenas para nos ajudar a entender, explicar ou predizer o comportamento de Y e são 
chamadas de variáveis explicativas ou preditoras ou independentes. 
Na análise de regressão linear utilizamos a equação matemática de uma reta para 
descrevermos a relação entre Y e X. Essa reta é ajustada aos dados da melhor maneira 
possível, ou seja, de tal forma que as distâncias das observações a ela sejam as menores 
possíveis. Esse método é conhecido como “mínimos quadrados”, por considerar o quadrado 
dessas distâncias (ou resíduos). 
A equação de uma reta em matemática é: Y = a + bX. Em estatística é usual descrever essa 
reta como: 
XY 10  
 
Em que 0 é o valor do intercepto, ponto em que a reta cruza o eixo das coordenadas, Y e 1 é 
a taxa de acréscimo ou decréscimo que cada unidade de X produz em Y. 
O gráfico a seguir exemplifica a equação de uma reta e seu significado, por eixo coordenado, 
para a reta de regressão estimada: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Considerando que estamos ajustando uma reta aos dados, costuma-se escrever essa reta de 
maneira indicada de estimação, ou seja, colocamos um “chapéu” na variável resposta Y e nos 
valores dos ’s, isto é: 
XˆˆYˆ 10 
 
O valor de 
yˆ
 é o valor previsto para certo valor de x observado. As estimativas de mínimos 
quadrados para os valores do intercepto e da taxa ou inclinação são: 
 
xˆyˆ 10 
 
 
Em que, 



n
1i
iy
n
1
y
 e 



n
1i
ix
n
1
x
 
0
x
(variável independente ou 
explicativa ou preditora)
y
(variável dependente
ou resposta)
Y = b0 + b1 xb0

y
x
x
y
)(tgb 
 1
0
x
(variável independente ou 
explicativa ou preditora)
y
(variável dependente
ou resposta)
Y = b0 + b1 x
b0

y
x
x
y
)(tgb 
 1
197 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
xx
xy
1
S
S
ˆ 
 
 
Lembrando que, 
n
x
x)xx(S
2
n
1i
in
1i
2
i
n
1i
2
ixx













 e 
n
yx
yx)yy)(xx(S
n
1i
i
n
1i
in
1i
ii
n
1i
iixy





















 
 
 
Obs.: Sxx e Sxy são convenientes expressões facilitadoras para a notação dos numeradores e 
dos denominadores aqui utilizados. 
 
Considerando os dados apresentados no exemplo 1, temos os seguintes resultados: 
 
6,31x 
 ; 
45,6y 
 ; 
316x 
; 
5,64y 
; 
4,1952xy 
; 
12128x2 
 
Com esses dados podemos calcular: 
  
8,85
10
5,64316
4,1952Sxy 
 e  
4,2142
10
316
12128S
2
xx 
 
 
Dessa maneira, os coeficientes estimados são: 
04005,0
4,2142
8,85ˆ
1 


xx
xy
S
S
 e 
716,7)6,31)(04007,0(5,64xˆyˆ 10 
 
 
Dessa maneira temos que a reta de regressão linear simples ajustada a esses dados é: 
 
x04,072,7yˆ 
 
 
Em que Y significa o percentual gasto em assistência médica e X é a renda bruta anual. Essa 
reta indica que cada unidade da renda bruta anual produz um decréscimo 0,04 na previsão do 
percentual da renda bruta gasto em assistência médica. 
Em termos numéricos, se a renda bruta anual for de 22 milhões de reais, espera-se em média 
um percentual de 6,9% de gasto com assistência médica. Em termos de reais, o gasto com 
assistência médica, considerando essa renda bruta anual é de aproximadamente 1,38 milhões, 
em média. 
Nesse exemplo em particular, os planos de saúde estarão em situação de determinar as 
políticas de vendas por segmentos de rendas anuais. 
 
Importante: Essa técnica só poderá ser utilizada se existir correlação linear significativa entre 
as variáveis Y e X. 
A reta de regressão ajustada pelo software Minitab para esse exemplo é: 
 
198 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
 
O coeficiente de determinação R2 é obtido facilmente pelo quadrado do coeficiente de 
correlação linear e multiplicando esse valor por 100, ele fornece o percentual da variação em Y 
explicada pela variável X. No exemplo acima, temos R2 = 0,884 = 88,4% da variação no 
percentual de gasto com assistência médica é explicada pela renda bruta anual. Observe que 
0,884= (-0,9401)2. 
De maneira geral, o coeficiente de determinação é calculado por: 
T
ET2
SQ
SQSQ
R


, em que 
2
1
2 ynySQ
n
i
iT 

 é a soma dos quadrados dos erros sem 
considerar o efeito da variável Y, e 



n
1i
2
iE )yˆy(SQ
 é a soma dos quadrados dos erros 
considerando o efeito da variável X. 
 
Um estimador não-tendencioso da variância do termo do erro (resíduos: diferença entre o y 
observado e o Y estimado) é: 
2
ˆ 2


n
SQE
 
O termo SQE pode ser mais convenientemente calculado pela fórmula: 
xyTE SSQSQ 1ˆ
 
O coeficiente de correlação também pode ser calculado por meio dessas expressões 
facilitadoras: 
Txx
xy
SQS
S
r 
 
Para efeito de demonstração, para os dados do exemplo 1: 
 
O coeficiente de correlação r = -0,9401 
Renda Bruta
%
 g
as
to
605040302010
7,5
7,0
6,5
6,0
5,5
S 0,236864
R-Sq 88,4%
R-Sq(adj) 87,0%
Reta de Regressão Linear ajustada
% gasto = 7,716 - 0,04005 Renda Bruta
199 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
Para o cálculo da variância estimado dos resíduos, tem-se: 
4487,0)8,85)(04005,0(885,3ˆ1  xyTE SSQSQ  
Então, 
0561,0
210
4487,0
2
ˆ 2 




n
SQE
 
 
Os resultados estimados pelo software Minitab forneceram: 
 
Regression Analysis: % gasto versus Renda Bruta 
 
The regression equation is 
% gasto = 7,72 - 0,0400 Renda Bruta 
 
Predictor Coef SE Coef T P 
Constant 7,7155 0,1782 43,29 0,000 
Renda Bruta -0,040049 0,005117 -7,83 0,000 
 
S = 0,236864 R-Sq = 88,4% R-Sq(adj) = 87,0% 
 
Analysis of Variance 
 
Source DF SS MS F P 
Regression 1 3,4362 3,4362 61,25 0,000 
Residual Error 8 0,4488 0,0561 
Total 9 3,8850 
 
2
 
 
ESQ
 
Obs.: os valores não são exatamente iguais devidos a erros de arredondamentos e interações 
utilizados no ajuste do modelo pelo software (SS=SQ e MS = MQ) 
 
3.1 Analise de variância para testar a significância do modelo ajustado 
pela técnica da Regressão Linear: 
 
 
Fonte de 
Variação 
Graus de 
liberdade 
Soma dos Quadrados 
Quadrados 
Médios 
F0 
Regressão 1 
xy1R SˆSQ 
 
1
SQ
MQ RR 
 
 
E
R
MQ
MQ
 Erro (Resíduos) n-2 
xyTE SSQSQ 1ˆ
 
2n
SQ
MQ EE


 
Total n-1 SQT = SQR + SQE 
 
Esse procedimento divide a variância total (SQT) da variável resposta em componentes 
significantes obtidos pela variação da Soma dos Quadrados da Regressão: SQR e a Soma dos 
Quadrados dos erros (resíduos). 
A estatística F0 testa a significância da regressão utilizando a distribuição de Fisher. A hipótese 
nula desse teste é: H0 : 
1
=0, e essa hipótese será rejeitada para valores grandes de F 
considerando os graus de liberdade do numerador e do denominador. Essa rejeição é 
equivalente ao p-valor menor que 5% (p < 0,05), por exemplo. 
 
200 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
Resolução de um exercício 
 
1) (Montgomery, adaptado) Os dados referentes ao peso, em kg, e à pressão sanguínea 
sistólica de 26 homens selecionados aleatoriamente, na faixa etária de 25 a 30 anos, 
estão apresentados na tabela seguinte. Considere que o peso e pressão sanguínea 
sejam distribuídos normal e conjuntamente. 
Solução: 
Indivíduo Peso (X) 
Pressão 
Sistólica (Y) XY X
2
 Y
2
 
1 74,8 13 972,4 5595,04 169 
2 75,8 13,3 1008,14 5745,64 176,89 
3 81,7 15 1225,5 6674,89 225 
4 70,3 12,8 899,84 4942,09 163,84 
5 96,2 15,1 1452,62 9254,44 228,01 
6 79,4 14,6 1159,24 6304,36 213,16 
7 86,2 15 1293 7430,44 225 
8 95,3 14 1334,2 9082,09 196 
9 90,7 14,8 1342,36 8226,49 219,04 
10 67,6 12,5 845 4569,76 156,25 
11 71,7 13,3 953,61 5140,89 176,89 
12 76,7 13,5 1035,45 5882,89 182,25 
13 77,1 15 1156,5 5944,41 225 
14 78 15,3 1193,4 6084 234,09 
15 72,1 12,8 922,88 5198,41 163,84 
16 76,2 13,2 1005,84 5806,44 174,24 
17 78,9 14,9 1175,61 6225,21 222,01 
18 83 15,8 1311,4 6889 249,64 
19 97,5 15 1462,5 9506,25 225 
20 88,5 16,3 1442,55 7832,25 265,69 
21 81,7 15,6 1274,52 6674,89 243,36 
22 64,9 12,4 804,76 4212,01 153,76 
23 108,9 17 1851,3 11859,21 289 
24 106,6 16,5 1758,9 11363,56 272,25 
25 87,1 16 1393,6 7586,41 256 
26 84,8 15,9 1348,32 7191,04 252,81 
Total 2151,7 378,6 31623,44 181222,1 5558,02 
 
Faça o que se pede: 
a) Verifique graficamente se existe tendência linear entre Y e X; 
201© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
 
A nuvem de dados parece indicar relação linear entre X e Y 
 
b) Calcule a covariância entre Y e X; 
 
 
 
Cálculos intermediários: 
 
 
 
 
 
 
 
 
 
 
11010090807060
17
16
15
14
13
12
Peso (X)
Pr
es
sã
o 
Si
st
ól
ic
a 
(Y
)
Diagrama de dispersão: Pressão Sistólica (Y) vs Peso (X)
655,11
25
378,291
25
26
)6,378)(7,2151(
44,31623
1
),cov( 







n
n
yx
xy
YX
3777,291
26
)6,378)(7,2151(
44,31623
11
1

















 n
yx
yxS
n
i
i
n
i
in
i
iixy
3735,3152
26
)7,2151(
1,181222
2
2
1
1
2 










 n
x
xS
n
i
in
i
ixx
7577,82
26
7,21511
1
 

n
i
ix
n
x
5615,14
26
6,3781
1
 

n
i
iy
n
y
202 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
 
 
 
 
 
 
 
c) Calcule o coeficiente de correlação linear entre Y e X; 
 
 
 
 
d) Ajuste um modelo de regressão linear simples; 
 
 
e) Interprete os resultados do item anterior (d); 
 
 : significa que para um homem com peso de 0 kg, a pressão sistólica média é 
de 6,91147 (unidade de medida – u.m.) 
 : indica que cada aumento de 1 kg no peso de um homem, na faixa etária de 
25 30 anos, produz uma taxa de aumento de 0,0924 u.m. na pressão sistólica. 
 
f) Teste a significância da regressão ao nível de significância de 5%, considerando 
que o valor tabelado da estatística F é 4,26; 
 
 
 
 
 
 
0307,45)5615,14)(26(0,5558 2
1
22 

n
i
itotal ynySQ
0924,0
3835,3152
3777,291ˆ
1 
xx
xy
S
S
9147,6)7577,82)(0924,0(5615,14ˆˆ 10  xy 
1111,18)3777,291)(0924,0(0307,45ˆ1  xyTE SSQSQ 
7733,0
)0307,45)(3835,3152(
3777,291
ˆ 
Txx
xy
SQS
S
r
xxy 0924,09147,6ˆˆˆ 10  
0ˆ
1ˆ
9196,261111,180307,45  ETR SQSQSQ
9196,26
1
 RR
SQ
QM
7546,0
24
1111,18
2



n
SQ
QM ee
674,35
7546,0
9196,26
0 
e
R
QM
QM
F
203 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
 
 
O valor crítico tabelado da distribuição de Fisher ao nível de 5% de significância é 
apresentado na figura abaixo: 
 
 
 
Como F0 >> 4,26 , isso significa que o teste está na região de rejeição de H0, logo a 
regressão é significativa ao nível de 5% . 
 
g) Estime a variância residual, 2; 
 
 
 
h) Encontre a pressão sistólica média prevista para um homem com 92,5 kg, na faixa 
etária entre 25 e 30 anos. 
 
 
 A pressão sistólica média prevista é de 15,4617 u.m. 
 
Obs.: O modelo ajustado pelo software Minitab: 
 
Regression Analysis: Pressão Sistólica (Y) versus Peso (X) 
 
The regression equation is 
Pressão Sistólica (Y) = 6,91 + 0,0924 Peso (X) 
 
 
Predictor Coef SE Coef T P 
Constant 6,912 1,291 5,35 0,000 
Peso (X) 0,09243 0,01546 5,98 0,000 
 
 
S = 0,868169 R-Sq = 59,8% R-Sq(adj) = 58,1% 
 
 
Analysis of Variance 
 
Source DF SS MS F P 
 
7546,0
226
1111,18
2
ˆ 2 




n
SQE
4617,15)5,92)(0924,0(9147,6ˆ y
26,405,0)( 24;1  xxFP
204 
 
 
© Tânia F Bogutchi – PUC Minas – Revisão: 2012 
Estatística e Probabilidade 
Unidade 5: Correlação e Regressão Linear 
Regression 1 26,932 26,932 35,73 0,000 
Residual Error 24 18,089 0,754 
Total 25 45,022

Outros materiais

Materiais relacionados

Perguntas relacionadas

Materiais recentes

Perguntas Recentes