Buscar

REGRESSÃO LINEAR

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 11 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Janete Pereira Amador 1
 
1 Introdução 
 
A análise de regressão tem por objetivo descrever através de um modelo 
matemático, a relação existente entre duas variáveis, a partir de n observações dessas 
viráveis. A análise de regressão pode ser aplicada em diferentes áreas do conhecimento, 
alguns exemplo, seguem-se: 
� Na economia tentando explicar as variações na procura de automóveis em termos de 
desemprego. 
� Na agricultura estudando dosagem de fertilizantes sobre a produção de grãos. 
� Na engenharia descrevendo modelos, para quantificar a influencia da velocidade sobre 
a distância de freagem, entre outras 
O modelo mais simples de análise de regressão é o modelo linear simples, que 
constitui-se em uma equação matemática linear (linha reta), que descreve o relacionamento 
entre as duas varáveis. Existem outros modelos mais complexos que envolvem mais de 
duas variáveis, como os de regressão múltipla . 
 
A finalidade de uma equação de regressão seria estimar valores de uma variável, com 
base em valores conhecidos da outra. 
 
 
2 Pressuposições para análise de regressão 
 
O modelo probabilístico, empregado na análise de regressão é composto por três 
partes, uma que diz respeito ás variáveis, outra aos parâmetros, e outra ao erro de 
estimativa. Dessa forma o modelo pode ser representado por Y = xi + i, em que no Y, os 
valores da variável dependente são função de um conjunto de parâmetros , de um 
conjunto de variáveis independentes X, e de erros aleatório i, (IEMMA, 1985). 
Para aplicação do modelo de regressão e estimação dos parâmetros pelo método dos 
mínimos quadrados é necessário observar certas pressuposições, (FONSECA et al, 1991): 
 a relação entre X e Y é linear (os acréscimos/decréscimo em X produzem 
acréscimos/decréscimo proporcionais em Y e a razão de crescimento é constante); 
 os valores de X são fixados arbitrariamente (X não é uma variável aleatória); 
 Y é uma variável aleatória que depende entre outras coisas dos valores de X; 
 i é o erro aleatório, portanto uma variável aleatória com distribuição normal, com 
média zero e variância 2. [ i N (0, 2)]. i representa a variação de Y que não é explicada 
pela variável independente X; 
 os erros são considerados independentes 
 
3 Equação linear 
 
Seja Y uma variável que nos interessa estudar (Variável dependente) e cujo 
comportamento futuro desejamos prever. E seja X a variável e explicativa ou 
independente. 
A relação entre a variável dependente Y e a variável independente X pode ser 
descrita através da equação da regressão linear. 
Janete Pereira Amador 2
  XAY . é a equação de regressão que descreve o comportamento da variável 
dependente em função da variável independente em uma população. Para estimar a 
equação com base na amostra utiliza-se: 
bxay ˆ sendo a e b parâmetros da função. 
Assim “b” é coeficiente angular da reta (a variação de yˆ por unidade variação 
em x) e “a” é o intercepto- yˆ em x= 0 
 
FIGURA 1: Relação entre o gráfico e a equação de regressão 
Uma maneira bastante prática para o auxílio na determinação da função entre 
variáveis dependente e independente é a construção do gráfico diagrama de dispersão. O 
diagrama de disperssão permite verificar o tipo de relacionamento das variáveis, pois nem 
sempre este é linear. No caso do ajustamento de uma linha reta, o diagrama de dispersão 
apresentará uma nuvem que ira nos sugerir o tipo de relação entre x e y. Alguns tipos de 
relacionamentos podem ser verificados na Figura 2. 
 
 
FIGURA 2: Diagramas de dispersão 
 
4 Ajustamento da Reta 
 
Estabelecido o modelo ebxay ˆ , precisamos dos valores de a e b de forma que a 
reta passe tão próximo possível dos pontos assinalados no diagrama de dispersão. O 
Janete Pereira Amador 3
método mais usado para ajustar uma linha a um conjunto de pontos é conhecido como 
técnica dos Mínimos Quadrados. A reta resultante tem duas características importantes. 
 A soma dos desvios verticais dos pontos e relação a reta é zero 
 A soma dos quadrados destes desvios é mínima, isto é, nenhuma outra reta 
daria menor soma de quadrados de tais desvios. 
Assim o valor que é minimizado é dado por: 
   2yˆyi onde iy um valor observado de y yˆ o valor estimado de iy 
Os valores de a e b para reta xbay ˆ que minimizam a soma dos quadrados dos 
desvios é dado pela aplicação das equações normais 
 
    



2xbxaxy
xbany
. A 
resolução destas equações pode ser feita através dos métodos de eliminação, matrizes 
(entre os vários métodos existentes). 
Como alternativa mais fácil para estimação dos parâmetros a e b utilizamos as seguintes 
formulas (sendo estas alternativas para resolução das equações normais). 
 
 
 
  



n
x
x
n
yx
xy
b 2
2
.
 onde n = tamanho da amostra 
 
n
xx

 = média dos xi 
xbya  
n
yy  = media dos yi 
 
Ex: O custo de produção, de um lote de uma certa peça, depende do número de peças 
produzidas, ou seja, do tamanho do lote. Em uma amostra de 6 lotes, observou-se os 
seguintes resultados: 
Tamanho 5 10 15 20 25 30 
Custos (R$) 65 120 210 260 380 450 
 
 Diagrama de dispersão 
 
Diagrama de dispersão do custo de produção (R$) 
relacionado ao tamanho do lote de uma peça.
0
50
100
150
200
250
300
350
400
450
500
0 5 10 15 20 25 30 35
Tamanho do lote
C
us
to
 
Janete Pereira Amador 4
 Ajuste do modelo do tamanho do lote em relação ao custo 
bxay ˆ (modelo a ser ajustado) 
 
 
 
  



n
x
x
n
yx
xy
b 2
2
.
 
 
Tamanho x Custos (R$) y xy x² y² 
5 65 325 25 4225 
10 120 1200 100 14400 
15 210 3150 225 44100 
20 260 5200 400 67600 
25 380 9500 625 144400 
30 450 13500 900 202500 
105 1485 32875 2275 477225 
 
 
  



n
x
x
n
yx
xy
b 2
2
.
= 
 
xbya  
n
yy  = 
n
xx

 = 
Modelo ajustado do custo sobre a idade 
 
 
Interpretação 
 
 No quadro verifica-se o custo utilizando o modelo ajustado. 
Tamanho x Custos (R$) y Custo ajustado utilizando o modelo: xy .743,1528ˆ  
5 65 5yˆ = -28 + 15,743.5 50,715 
10 120 10yˆ = -28 + 15,743.10 129,943 
15 210 15yˆ = -28 + 15,743.15 208,145 
20 260 20yˆ = -28 + 15,743.20 286,86 
25 380 25yˆ -28 + 15,743.25 365,575 
30 450 30yˆ = -28 + 15,743.30 444,29 
 
 A representação gráfica do modelo ajustado é dada por 
Janete Pereira Amador 5
Reta de regressão do custo de produção (R$) relacionado 
ao tamanho do lote de uma peça, utilizando o modelo 
ajustado 
0
50
100
150
200
250
300
350
400
450
500
0 10 20 30 40
Tamanho do lote
Cu
st
o 
de
 p
ro
du
çã
o
xy .743,1528ˆ 
xy .743,1528ˆ 
 
 
 
5 Erro padrão da estimativa 
 
A questão que surge na análise de regressão é “o quanto são precisas as estimativas da 
regressão”. A determinante principal da precisão é a quantidade de dispersão na população, 
ou seja, quanto maior a dispersão menor a precisão das estimativas. A quantidade de 
dispersão na população pode ser estimada com base na dispersão amostral em relação a 
reta de regressão. 
O erro padrão da estimativa  eS ou desvio padrão quantifica a dispersão das 
observações amostrais em relação a reta de regressão. Quanto menor a dispersão em 
relação mais precisas serão as estimativas. Essa dispersão pode ser demonstrada utilizando 
a equação: 
 
2
2




n
yy
S cie onde: iy cada valor de y; 
cy valor deduzido da equação de regressão; 
n= número de observações.O cálculo do erro padrão se baseia na hipótese de dispersão uniforme dos pontos 
entorno da reta de regressão (homoscedasticidade). 
 
 A equação acima para fins de cálculos é abreviada em: 
2
2


   
n
xybyay
S e 
 O erro padrão ou desvio padrão para o custo de produção, de um lote de uma certa 
peça, corresponde: 
26
)]32875743,15[()]148528(477225[


eS 
4
125,517551518805
eS 
4
875,1253
eS 
469,313eS 
70,17eS desvio padrão da distribuição dos pontos em torno da reta regressão. 
Janete Pereira Amador 6
 
6 Teste de significância do coeficiente angular ou coeficiente de regressão (b) 
 
Mesmo quando há pouco ou nenhum relacionamento entre as variáveis numa 
população, é possível obter valores amostrais que façam as variáveis parecerem 
relacionadas. Isso ocorre devido a fatores aleatórios na amostragem produziram 
“relacionamento” onde nenhum existe. Sendo assim torna-se importante testar o resultado 
do coeficiente angular. Desta forma definimos se este é nulo ou diferente de zero (se existir 
regressão o coeficiente angular será diferente de zero). 
As hipóteses testadas serão : 
0:
0:
1
0


BH
BH
 
A significância estatística do coeficiente de regressão pode ser testada com o seu 
desvio padrão ou erro padrão (Sb) através do teste t (t-Student). Isto é: 
bS
bt  
Pa o cálculo do desvio padrão do coeficiente angular usa-se a fórmula: 
 
 










n
x
x
SS eb 2
2
1. 
 
 
O coeficiente de regressão será significativo, ou seja “ 0B ”, quando [ t ] calculado for 
maior que “ t ” para “n – 2 “ graus de liberdade. 
 
O teste t para o coeficiente angular da regressão será aplicado, utilizando o exemplo 
relacionado ao custo de produção, de um lote de uma certa peça. O nível de significância 
utilizado será %1 
As hipóteses testadas serão: 
0:
0:
1
0


BH
BH
 
 
 










n
x
x
SS eb 2
2
1. = 
 
 






6
1052275
1.70,17
2
 = 
  5,18372275
1.70,17 
 
5,437
1.70,17 = 00286,0.70,17 = 946,0 
O desvio padrão do coeficiente angular corresponde a 0,946 
Aplicando o teste t 
bS
bt  = 
0,946
743,15
t = 16,64 
t calculado (tcal. ) corresponde a 16,64. 
Janete Pereira Amador 7
Utilizando a tabela da distribuição t testa-se as hipóteses, 
0:
0:
1
0


BH
BH
, comparando o valor 
de tcal. com o valor de ttab. usando nível de significância de %1 e gl = 4. A Figura 6 
apresenta as áreas de aceitação e rejeição das hipóteses. 
 
 
FIGURA 6 – Representação da distribuição t-Student com as respectivas áreas de aceitação 
e rejeição de 0H 
ttab. = 4,604 < tcal. = 16,64, assim rejeita-se 0H . Desta forma, podemos afirmar com 99% 
de confiança que o coeficiente angular da reta é diferente de zero. 
 
7 Coeficiente de Determinação (R) 
 
O valor de R pode variar de 0 a 1 (0 a 100%). Quando a variação não explicada 
constitui uma grande parte da variação total (isto é, a variação explicada é uma pequena 
parte da variação total), R será pequeno. Inversamente quando a variação explicada 
corresponder a uma grande parte da variação total R estará mais próximo de 1. 
 
 
 
O Coeficiente de determinação é o valor da variação de y que é explicada pela reta de 
regressão 
iaçãototal
licadaiaçãoR
var
expvar
 
 
 
Onde: Variação explicada = 
 









 
n
xx
n
yxxy
2
2
2.
 
 
Variação Total= 
n
y
y  
2
2 )( 
 
 
 
 
 
 
 
Janete Pereira Amador 8
Exercício 
 
1. Suponha que uma cadeia de supermercados tenha financiado um estudo dos gastos 
com mercadoria para famílias de quatro pessoas. A investigação se limitou a famílias com 
renda líquida anual entre R$ 8000,00 e R$ 20.00,00. Obteve-se a equação: 
xy 10,0200ˆ  , onde 
yˆ -despesa anual com mercadorias 
x renda líquida anual 
� Estime as despesas, para uma família de, quatro pessoas, com renda anual de R$ 
15.000,00 
� Essa equação estaria sendo utilizada corretamente nós seguintes casos: 
 Estimação das despesas para famílias com cinco pessoas. 
 Estimação das despesas para famílias com renda de R$ 21.00,00 a R$ 
35.00,00 
� Grafe a equação xy 10,0200ˆ  
 
2. Use os valores dados abaixo para estimar as equações de regressão 
�      20;3600;6200;300;200 2 nxxyyx 
�      36;620;3100;37;2,7 2 nxxyyx 
�      30;21000;1400;250;700 2 nxxyyx 
 
Janete Pereira Amador 9
1 Introdução 
 
Na análise de regressão foi visto a determinação de uma função linear que descrevia a 
relação existente entre as variáveis. Agora o interesse é medir o grau de associação entre 
duas variáveis. Por exemplo a associação entre: o peso e altura de um grupo de individuo, 
entre a variação das exportações em função da cotação do dólar, entre os fumantes e as 
doenças do coração etc. 
A força de uma relação entre duas variáveis é medida pelo coeficiente de correlação de 
Pearson (  ), cujos valores abrangem de – 1 para correlação negativa perfeita até + 1 para 
correlação positiva perfeita. O sinal do  , quando associado a reta de regressão, é o 
mesmo do coeficiente angular da reta. O estimador do coeficiente de correlação de Pearson 
em uma amostra é o r. Este é calculado pela equação: 
 
 




















 
  
n
y
y
n
x
x
n
yx
xy
r
2
2
2
2 )(
.
 
 
O coeficiente de correlação - r sempre deverá estar entre -1 e + 1. O valor de r pode ser 
multiplicado por 100 para dar o resultado em porcentagem. 
 
 
A Figura 1 apresenta alguns exemplos de associação entre as variáveis x e y com 
seus respectivos coeficientes de correlação. 
 
 
FIGURA 1 – Modelos de associação entre variáveis 
 
Janete Pereira Amador 10
Para o cálculo do coeficiente de correlação será usado o mesmo exemplo trabalhado 
na análise de regressão, sendo este: 
Ex: O custo de produção, de um lote de uma certa peça, depende do número de peças 
produzidas, ou seja, do tamanho do lote. Em uma amostra de 6 lotes, observou-se os 
seguintes resultados 
Tamanho x Custos (R$) y xy x² y² 
5 65 325 25 4225 
10 120 1200 100 14400 
15 210 3150 225 44100 
20 260 5200 400 67600 
25 380 9500 625 144400 
30 450 13500 900 202500 
105 1485 32875 2275 477225 
 




















 
  
n
y
y
n
x
x
n
yx
xy
r
2
2
2
2 )(
.
= 
Interpretação: 
 
 
2 Teste de significância do coeficiente de correlação 
 
A significância estatística do coeficiente de correlação  da população através do teste 
t (t-Student), sendo  estimado por r. 
As hipóteses testadas serão : 
0:
0:
1
0




H
H
 
Quando 0 , as duas variáveis são estatisticamente independente, ou seja, não existe 
correlação entre x e y. 
Quando 0 implica em rejeitar a hipótese nula, ou seja, x e y apresenta-se 
correlacionada. Sendo r. a estimativa do grau desta associação. 
A equação 
2
1 2



n
r
rt é utilizada para testar a significância r. O coeficiente de 
correlação será significativo, ou seja “ 0 ”, quando [ t ] calculado for maior que “ t ” 
para “n – 2 “ graus de liberdade. 
O teste t para o coeficiente de correlação será aplicado, utilizando o exemplo 
relacionado ao custo de produção, de um lote de uma certa peça. O nível de significância 
utilizado será %1 
As hipóteses testadas serão : 
0:
0:
1
0




H
H
 
JanetePereira Amador 11
2
1 2



n
r
rt = = 
 
Exercício 
 
1. Os dados a seguir são referente ao lucro e aos gastos com publicidade, de uma loja de 
eletrônicos, em mil reais. 
Gastos x 12 25 30 35 41 
Lucros y 260 328 376 356 404 
a) Análise estes dados através de regressão e correlação 
b) O gerente de propaganda da loja afirma que um investimento de 100.000 reais em um 
determinado mês o lucros estimado seria de 700.000 reais. O que você diria desta 
afirmação? Justifique sua resposta. 
c) Existe correlação entre os lucros e os gastos.

Outros materiais