Módulo 2 Aula 5 Análise de Regressão Cálculo dos Coeficientes MMQ

•

USP-SP

0

Eduardo Nerd

15/03/2018

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.397 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

26/03/2015 
1 
Regressão Linear Simples - Introdução 
Prof. Cesar Alexandre de Souza 
 
Material desenvolvido em conjunto com a 
Profa. Adriana Backx Noronha Viana 
 
EAD0655 – Técnicas Estatísticas de Projeção 
Agenda 
• Apresentação do conceito de Regressão Linear 
• Método dos Mínimos Quadrados – Introdução 
• Resolução da Situação Problema 9 com Excel 
• Coeficiente de Determinação – Introdução 
• Estimativa do Coeficiente de Determinação na 
Situação Problema 9 com Excel 
• Apresentação da Situação Problema 10 e da 
Atividade 5 
 
 
O assunto dessa aula encontra-se nas páginas 427 a 444 
do livro de Anderson et al (2008) 
26/03/2015 
2 
Conceito 
 
Descrever 
(correlação) 
Prever 
(regressão) 
Explicar! 
(teoria) 
• Análise de Regressão Linear: técnica estatística 
utilizada para prever os valores de uma 
variável dependente, com base nos valores de 
uma variável independente (Regressão 
Simples), ou de diversas variáveis 
independentes (Regressão Múltipla). 
Análise de Regressão 
• Pode ser utilizada para: 
– Determinar se existe uma relação entre a variável 
dependente e a (s) independente (s); (análise de 
correlação e teste de significância) 
– Determinar a estrutura ou a forma da relação 
(equação); 
– Avaliar a intensidade da relação; (coeficiente de 
determinação) 
– Predizer os valores da variável dependente 
(equação). 
 
26/03/2015 
3 
• A partir das vendas de 7 meses de uma empresa, qual seria sua previsão 
para o próximo mês? 
Mês Vendas (Y) 
1 650 
2 500 
3 800 
4 400 
5 650 
6 700 
7 500 
Média 600 
Vendas (Y)
0
200
400
600
800
1000
0 2 4 6 8
Mês
Exemplo – Situação Problema 9 
• A média é um ponto de referência: uma previsão sem uma 
variável independente. 
– Se não temos mais nenhuma informação podemos supor 
que a venda seja a média dos dados históricos (a média é 
usada como a melhor previsão). 
• O objetivo da regressão é melhorar essa previsão de referência 
com o uso de uma ou mais variáveis independentes que 
estejam associadas à variável dependente (y) . 
• A regressão linear simples é o caso em que temos apenas uma 
variável independente (x) 
Regressão Linear Simples 
26/03/2015 
4 
• Exemplos: 
– Até que ponto as vendas estão relacionadas com as 
despesas de propaganda? 
– A conscientização dos consumidores quanto à 
qualidade é determinada pela sua percepção quanto a 
preços, imagem e atributos da marca? 
– Como a remuneração está associada a itens como 
possuir ou não graduação, tempo de experiência e 
desempenho? 
– Qual é a relação entre as notas obtidas e horas gastas 
com a leitura extra-classe? 
 
 
Regressão Linear Simples 
Exemplo – Situação Problema 9 
• Vamos supor que obtivéssemos a informação sobre investimentos em 
propaganda nesses meses 
Mês 
Investimento em 
Propaganda (X) Vendas (Y) 
1 50 650 
2 20 500 
3 70 800 
4 10 400 
5 60 650 
6 40 700 
7 30 500 
26/03/2015 
5 
Diagrama de Dispersão 
• Gráfico dos valores de duas variáveis, para 
todos os casos ou observações: 
– Eixo vertical – variável dependente; 
– Eixo horizontal – variável independente. 
– Serve para determinar a forma da relação entre as 
variáveis, os padrões dos dados ou alertar sobre 
possíveis problemas; 
– Indica se a relação entre X e Y pode ser modelada 
numa linha reta e se o modelo de regressão é 
apropriado. 
 
Exemplo – Diagrama de Dispersão 
Vendas por Investimentos em Propaganda
200
300
400
500
600
700
800
900
0 20 40 60 80
Investimento em Propaganda
Ve
nd
as
 Uma inspeção visual permite avaliar se a regressão linear pode 
 ser adequada – mas é importante tomar cuidado com as escalas 
 empregadas, que podem levar a conclusões incorretas 
26/03/2015 
6 
Vendas por Investimentos em Propaganda
200
300
400
500
600
700
800
900
0 20 40 60 80
Investimento em Propaganda
Ve
nd
as
ŷ = b0 + b1x 
 Ŷ representa a venda predita 
O ajuste da reta aos pontos deve ser empregado utilizando um 
 método que seja objetivo e facilmente calculável 
Exemplo – Ajustando uma reta aos pontos 
Exemplo – Ajustando uma reta aos pontos 
Vendas por Investimentos em Propaganda
200
300
400
500
600
700
800
900
0 20 40 60 80
Investimento em Propaganda
Ve
nd
as
ŷ = 364,3 + 5,89x 
 O método dos mínimos quadrados é um método que usa os dados 
amostrais para identificar a reta que “mais se aproxima” dos pontos da 
amostra, e é usado para encontrar a equação da reta ajustada aos pontos, 
que é a estimativa da reta de regressão da população. 
26/03/2015 
7 
– No exemplo, a equação da reta obtida pelo método dos 
mínimos quadrados é 
 
 Venda Predita = 364,3 + 5,89 x Invest. em Propaganda 
– Assim, para um investimento em propaganda de 55, pode-
se prever uma venda de: 
 Venda Predita = 364,3 + 5,89 x 55 = 688 
 
Embora uma reta tenha sido “ajustada”, cuidados devem ser 
 tomados quanto ao seu grau de ajuste aos dados e ao seu uso 
 para previsão, especialmente utilizando valores para X que 
 estejam fora do intervalo da amostra utilizada 
Também deve-se tomar o cuidado de analisar cuidadosamente a 
 questão de “causalidade”, pois elas podem estar relacionadas por 
 uma terceira variável omitida do modelo, por exemplo 
Exemplo – Ajustando uma reta aos pontos 
Estimação dos Parâmetros do Modelo: Método 
dos Mínimos Quadrados (MMQ) 
Y 
X 
XbbY o . 
ˆ
1
Reta de 
melhor 
ajuste 
x1 xn ... x2 xi ... 
y1 
y2 
yi 
yn 
..
. 
26/03/2015 
8 
Estimação dos Parâmetros do Modelo: Método 
dos Mínimos Quadrados (MMQ) 
Y 
X x1 xn 
Erros de Predição 
... 
XbbY o . 
ˆ
1
Reta de 
melhor 
ajuste 
x2 xi 
y1 
... 
y2 
yi 
yn 
..
. 
Estimação dos Parâmetros do Modelo: Método 
dos Mínimos Quadrados (MMQ) 
• A melhor reta seria aquela que minimizasse os 
erros de predição ( ) ( ) 
• Possíveis critérios para ajuste de uma reta 
(minimização dos erros de predição) 
– Minimizar a soma dos erros ( ) 
– Minimizar a soma dos valores absolutos dos erros 
 ( ) 
– Minimizar a soma dos quadrados dos erros 
( ) 
  )ˆ( ii YY
)ˆ( ii YY 
  )ˆ( ii YY
2
)ˆ(  ii YY
26/03/2015 
9 
Estimação dos Parâmetros do Modelo: Método 
dos Mínimos Quadrados (MMQ) 
• A minimização pelo método dos mínimos quadrados 
significa localizar os valores de bo e b1 para minimizar 
a função 
 
 
• Substituindo , temos que minimizar a 
seguinte função para os valores de a e b 
 
 
• onde: 
– yi = valor observado da variável dependente para a i-ésima 
observação 
– xi = valor observado da variável independente para a i-
ésima observação 
 
2
)ˆ(  ii YYSSE 2
10 )(  ii XbbYSSE ioi XbbY . ˆ 1
Estimação dos Parâmetros do Modelo: Método 
dos Mínimos Quadrados (MMQ) 
• Minimizar essa expressão requer igualar suas 
derivadas parciais em bo e b1 a zero 
 
 
 
0
0
1






b
SSE
b
SSE
o
SSE 
bo 
b1 
26/03/2015 
10 
Estimação dos Parâmetros do Modelo: Método 
dos Mínimos Quadrados (MMQ) 
• Derivando-se as duas expressões é obtido um 
conjunto de duas equações simultâneas, que, 
se resolvido, gera as seguintes soluções: 
x
y
yx
i
ii
S
S
r
XX
YYXX
b ,21 )(
))((






XbYb 10 Eq. i 
Eq. ii 
Investimento em 
Propaganda (X) Vendas (Y) (X - X) (Y - Y)
(X - X)*
(Y - Y) (X - X)2
10 400 -30 -200 6000 900
20 500 -20 -100 2000400
30 500 -10 -100 1000 100
40 700 0 100 0 0
50 650 10 50 500 100
60 650 20 50 1000 400
70 800 30 200 6000 900
Média 40 600 Soma 16500 2800
Desv. Pad 20 128
rxy 0,9195 
Verificando o Exemplo Apresentado 89,5
2800
16500
1 b
3,3644089,56000 b
89,5
20
128
9195,01 b
26/03/2015 
11 
Estimação dos Parâmetros do Modelo: 
Método dos Mínimos Quadrados (MMQ) 
• Fórmula Alternativa 
 
 
 
 
 
 
 
• Onde (xi; yi) = valor das variáveis independente e 
dependente para a i-ésima observação 
• = valor médio para a variável independente 
• = valor médio para a variável dependente 
• n = número total de observações 
 
  



nxx
nyxyx
b
ii
iiii
/)(
/)(
221
xbyb 10 
x
y
Eq. iii 
Vendas por Investimentos em Propaganda
200
300
400
500
600
700
800
900
0 20 40 60 80
Investimento em Propaganda
Ve
nd
as
ŷ = 364,3 + 5,89x 
Qual é o grau de “eficiência” do modelo ao prever os dados? 
Quanto o nosso modelo melhora nossa capacidade de previsão inicial? 
Avaliação do Modelo: Ajuste Geral 
26/03/2015 
12 
• Nossa melhor previsão inicial, ou seja, sem a variável 
dependente, era a média (600) 
Mês Vendas (Y) 
Venda Predita 
(ŷ=y) 
1 650 600 
2 500 600 
3 800 600 
4 400 600 
5 650 600 
6 700 600 
7 500 600 
Média 600 
Exemplo – Situação Problema 9 
Assim, se fôssemos estimar o SSE nesse caso, 
como ŷ1 = Y para todo Yi, a equação 
seria: 
2
)( YYi
Essa quantidade é conhecida como variância 
total do modelo, ou SST 
 
É a variação de Y em relação a sua média, que 
corresponde a um modelo de previsão “base”. 
Qualquer variável independente acrescentada 
procurará melhorar a previsão, ou seja, 
diminuir essa variância 
2
)ˆ(  ii YY
Variância Total do Modelo (SST) 
200
300
400
500
600
700
800
900
0 20 40 60 80
V
e
n
d
as
 
Investimento em Propaganda 
Vendas por Investimento em Propaganda 
ŷ = y = 600 
2
)(  YYSST i
26/03/2015 
13 
Exemplo – Situação Problema 9 
• Já com a inclusão da variável independente “Investimento em 
Propaganda”, chegamos a equação Venda Predita = 5,89X+364,3 e 
calculamos SSE do modelo como descrito no desenvolvimento do MMQ 
Mês 
Investimento em 
Propaganda (X) Vendas (Y) 
Venda Predita (ŷ) 
(5,89X+364,3) 
1 50 650 658,7 
2 20 500 482,0 
3 70 800 776,5 
4 10 400 423,1 
5 60 650 717,6 
6 40 700 599,8 
7 30 500 540,9 
2
)ˆ(  ii YYSSE
É a variação de Y em relação aos 
valores previstos pelo modelo, ou 
seja, uma medida do erro de 
previsão geral desse modelo 
 
Esse erro é sempre menor do que o 
erro em relação à média 
Erros em Relação à Previsão (SSE) 
200
300
400
500
600
700
800
900
0 20 40 60 80
V
e
n
d
as
 
Investimento em Propaganda 
Vendas por Investimento em Propaganda 
2
)ˆ(  ii YYSSE
ŷ = 364,3 + 5,89x 
26/03/2015 
14 
Avaliação do Modelo: Ajuste Geral 
• Coeficiente de Determinação (R2) 
– Variância Total = Variância Não Explicada + 
Variância Explicada 
– Variância Total: (SST) 
– Variância Não Explicada: (SSE) 
– Variância Explicada: (SSR) 
 
2
)ˆ(  ii YY SST
SSE
SST
SSR
R  12
Eq. iv 
2
)( YYi
2
)ˆ(  ii YY
Avaliação do Modelo: Ajuste Geral 
• Coeficiente de Determinação (R2) 
– É a proporção da variância de Y explicada pelo 
modelo de regressão 
– O R2 varia entre 0 (nenhuma explicação) e 1 
(perfeita explicação) 
– Em pesquisas exploratórias, em que as 
variáveis são menos conhecidas, valores 
menores são mais aceitáveis do que em áreas 
onde os parâmetros são mais conhecidos 
– Ex. Ciências Naturais (R2 >= 0,8 ou maior) vs. 
Ciências Sociais (R2 >= 0,6 ou menor) 
26/03/2015 
15 
Verificando o Exemplo Apresentado 
Investimento em 
Propaganda (X) Vendas (Y)
Venda Predita 
(ŷ)
Erros de Previsão 
pelo Modelo
(yi - ŷ)
2
Erros de Previsão 
pela Média
(yi -y)
2
10 400 423,1 533,6 40000,0
20 500 482,0 324,0 10000,0
30 500 540,9 1672,8 10000,0
40 700 599,8 10040,0 10000,0
50 650 658,7 75,7 2500,0
60 650 717,6 4569,8 2500,0
70 800 776,5 552,3 40000,0
Média 40 600 Somas 17768,2 115000,0
Desv. Pad 20 128
8455,01545,01
115000
2,17768
12 R
xyrR  9195,08455,0
2
(SSE) (SST) 
O Modelo de Regressão Linear Simples 
• Modelo de Regressão Linear Simples 
yi = 0 + 1xi + i 
 
• Equação da Regressão Linear Simples 
E(y) = 0 + 1x 
 
• Equação Estimada da Regressão Linear 
Simples (reta ajustada) 
ŷ = b0 + b1x 
26/03/2015 
16 
Situação Problema 10 
Fonte- U.S. Department of Transportation - Página 480 - Texto 2 
(Anderson et al; Capítulo 12 - Regressão Linear Simples). 
Cidades
% de motoristas 
habilitados com 
menos de 21 
Acidentes fatais 
por mil CNH
1 13% 2,962
2 12% 0,708
3 8% 0,885
4 12% 1,652
5 11% 2,091
6 17% 2,627
7 18% 3,83
8 8% 0,368
9 13% 1,142
10 8% 0,645
11 9% 1,028
12 16% 2,801
13 12% 1,405
14 9% 1,433
15 10% 0,039
16 9% 0,338
17 11% 1,849
18 12% 2,246
19 14% 2,855
20 14% 2,352
21 11% 1,294
Cidades
% de motoristas 
habilitados com 
menos de 21 
Acidentes fatais 
por mil CNH
22 17% 4,1
23 8% 2,19
24 16% 3,623
25 15% 2,623
26 9% 0,835
27 8% 0,82
28 14% 2,89
29 8% 1,267
30 15% 3,224
31 10% 1,014
32 10% 0,493
33 14% 1,443
34 18% 3,614
35 10% 1,926
36 14% 1,643
37 16% 2,943
38 12% 1,913
39 15% 2,814
40 13% 2,634
41 9% 0,926
42 17% 3,256
Atividade 5 
• A tabela da situação 10 apresenta dados de 42 cidades 
americanas, comparando a % de motoristas com menos de 
21 anos na cidade e a quantidade de acidentes fatais por mil 
motoristas, em um determinado ano. 
a) Analise a relação entre os dados a partir do diagrama de 
dispersão. O que pode-se concluir pela análise visual da 
relação entre as variáveis? 
b) Identifique a equação de regressão (utilizando as equações i 
e ii apresentadas). 
c) Verifique o grau de ajuste da equação de regressão 
calculando o R2 (utilizando a equação iv) 
d) O que se pode concluir a partir do modelo de regressão 
obtido? 
e) Entregue seu trabalho individualmente pelo STOA, em Excel, 
até quinta-feira, 09/04, às 23h55m