Buscar

UCA001_Estatistica_Tema17

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 9 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 9 páginas

Prévia do material em texto

Regressão linear
José Tadeu de Almeida
Introdução
Nesta aula, você conhecerá algumas referências básicas sobre os processos de regressão 
linear. É por meio desses processos que podemos conhecer e demonstrar a tendência de variação 
de séries de dados com uma ou mais variáveis, o que nos permite estimar suas possíveis mudan-
ças ao longo do tempo.
Objetivos de aprendizagem
Ao final desta aula, você será capaz de:
 • compreender os conceitos sobre regressão linear.
1 Regressão Linear
Quando um pesquisador se dedica a analisar um conjunto de dados relacionados a n vari-
áveis, sendo uma delas dependente e as demais, independentes, é importante verificar em que 
medida cada uma dessas variáveis independentes afeta a variável dependente.
FIQUE ATENTO!
Tenha em mente que uma variável dependente, como o próprio nome demons-
tra, é verificada em função dos dados de outra variável. Não há, porém, uma rela-
ção de “causa e efeito” entre elas, como se a variável dependente fosse um efeito 
das independentes.
Desse modo, representamos a relação entre uma variável dependente Y e n variáveis indepen-
dentes X da seguinte forma:
Y = f (X1, X2, X3,…Xn)
Podemos exemplificar tais funções quando investigamos, por exemplo, as relações entre 
o crescimento econômico de um país por meiode seu Produto Interno Bruto (PIB), da taxa de 
inflação e do volume de desemprego. Também quando analisamos um fluxo de vendas de um 
shopping center e comparamos essa variável com o movimento, em número de visitantes, que o 
estabelecimento teve, bem como com o aumento do salário mínimo.
Consideremos, para facilitar o cálculo, duas variáveis, uma dependente Y e uma independente 
X, por meio da equação Y = 3X. Para diferentes valores de X = {0,1,2,3...} haverá diferentes valores 
no conjunto Y = {0,3,6,9...}. Nesse caso, os valores podem ser descritos em uma reta.Você pode ter 
também ter um conjunto de dados à sua disposição, de modo que será necessário verificar qual a 
função entre variáveis que melhor o descreve.
Há situações em que a variável dependente é afetada por outros elementos que são externos 
à variável independente (ou seja, exógenos). Quando isso acontecer, haverá um resíduo, ou um erro, 
que afetará os resultados do modelo estatístico. Ele deverá, portanto, ser exposto da seguinte forma:
Yi = f (X1,X2,X3,… Xn ) + ui
Entenda que cada elemento Yi é expresso em função de n variáveis independentes Xi, acres-
centando-se um resíduo ui. Em muitas situações do cotidiano, cálculos de regressão geram erros 
de mensuração, sem contar a possibilidade de um valor Y ser afetado por outras variáveis que não 
estão inclusas na equação (HOFFMANN, 2016).
Nessas circunstâncias, torna-se difícil obter com precisão os dados da variável dependente 
que serão visualizados em função da variável independente. Podemos, porém, estimar a tendência 
em relação a um conjunto de dados, conforme a imagema seguir.
Figura 1 – Tendência de variação entre variáveis
0
2
4
6
8
10
12
14
16
18
0 2 4 6 8 10 12 14 16
Fonte: elaborada pelo autor, 2017.
Assim, a regressão linear consiste em uma série de mecanismos que têm por objetivo esti-
mar o valor esperado de uma variável dependente Y, em função de outras variáveis independen-
tes e de eventuais erros residuais (BUSSAB; MORETTIN, 2010). Saiba que quando analisamos a 
variação de uma variável dependente em função de uma variável independente, efetuamos uma 
operação de regressão linear simples.
FIQUE ATENTO!
Quando há mais variáveis dependentes e independentes envolvidas, dizemos que 
a regressão é múltipla.
Desse modo, supondo n pares ordenados de valores de duas variáveis (X,Y), se Y for uma 
função linear de X, o modelo da regressão simples é dado pela fórmula:
Yi = α + βXi + ui
Nesse caso, Y é a variável dependente e X é a variável independente, a qual explica a variação de Y.
Figura 2 – Associações entre variáveis
Fonte: Team Oktopus / Shutterstock.com
Os parâmetros α e β determinam a declividade da reta de regressão. O coeficiente α é conhe-
cido como o coeficiente linear de intercepto do eixo Y, isso significa que ele demonstra o valor da 
variável dependente Y quando a variável independente X é igual a zero.
Por sua vez, o coeficiente β, que é coeficiente angular da reta de regressão, nos mostra que 
quanto maior for o seu valor, mais inclinada será a reta de regressão em relação ao eixo X da vari-
ável independente (HOFFMANN, 2016).
SAIBA MAIS!
Uma variável dependente pode depender de mais de uma variável independente.
Nesse caso, para obter a estimação do comportamento das variáveis, utiliza-
mos a regressão linear múltipla. Você pode conhecê-la lendo o quarto capítulo 
do livro do prof. Rodolfo Hoffmann, da Unicamp, que está disponível em: <http://
www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.pdf?sequen-
ce=5&isAllowed=y>.
Há alguns pressupostos que defi nem o modelo de regressão linear simples:
 • a relação entre as variáveis X e Y é linear;
 • os valores de X são fi xos;
 • a média do erro é nula, ou seja, seu valor esperado é igual a zero;
 • para cada valor de X, a variância do erro (a distância ao quadrado entre um elemento e 
sua média) é sempre igual a σ2;
 • os erros de cada observação não se correlacionam entre si;
 • A distribuição dos erros é normal, ou seja, há valores regularmente dispersos em rela-
ção à sua média (HOFFMANN, 2016).
Para efetuarmos uma regressão, perceba que o primeiro passo é obter as estimativas dos 
parâmetros α e β, dados, respectivamente, por a e b, a partir de uma amostra de n pares ordenados 
das variáveis (X,Y), de modo que:

i iY a bX= +Y a bX= +i iY a bXi i= +i i= +Y a bX= +i i= +
Em que iYiYi representa um valor estimado de Yi. Aqui, resgatamos o conceito de resíduo, enten-
dendo-o como a diferença (desvio) entre o valor real de Y e seu valor estimado, de modo que para 
cada erro de um valor i ( ei ), temos: 
ˆ
i i ie Y Y= −e Y Y= −i i ie Y Yi i i= −i i i= −e Y Y= −i i i= −
Por consequência, a soma dos desvios ei é igual a zero ( ∑ ei = 0 )
FIQUE ATENTO!
Estamos simplifi cando nossa notação em relação ao símbolo de soma ( ∑ ). Quan-
do utilizamos esse operador, estamos somando todos os n elementos de uma dis-
tribuição de dados, do primeiro ( i=1 ) ao último elemento n.
Os parâmetros a e b são calculados da seguinte forma:
a Y bX= −a Y bX= −
2
∑
=
∑
Xyb
x
Em que:
X representa cada valor Xi da variável independente;
x e y representam a diferença cada valor Xi e Yi e suas respectivas médias, dados por X e 
Y (HOFFMANN, 2016).
EXEMPLO
Imagine o seguinte conjunto de dados formado pelos seguintes pares ordenados:
Tabela 1 - Associação entre variáveis
X Y
1 3
2 2
2 4
3 4
4 5
4 6
5 5
6 7
6 8
7 6
Fonte: elaborada pelo autor , 2017.
Vamos estimar os coefi cientes a e b para esta distribuição.Para obtê-los, precisare-
mos dos elementos de cálculo:
a Y bX= −a Y bX= −
2
∑
=
∑
Xyb
x
EXEMPLO
Em que: x X X= −x X X= − e y Y Y= −y Y Y= −
Assim, temos:
( )
( )22
28
0,78
36
∑ −(∑ −(∑
= = = == = = == = = == = = =
∑ ∑ −(∑ −(
X Y Y∑ −X Y Y∑ −(∑ −(X Y Y(∑ −(Xyb
x X X∑ −X X∑ −
5 - 0,78 4 1,885 - 0,78 4 1,88= =5 - 0,78 4 1,88a x5 - 0,78 4 1,88a x5 - 0,78 4 1,88= =a x= =5 - 0,78 4 1,88= =5 - 0,78 4 1,88a x5 - 0,78 4 1,88= =5 - 0,78 4 1,88
Desse modo, nossa reta de regressão para uma distribuição de valores esperados 
da variável dependente iYiYi é igual a:

i i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78Y a bX X1,88 0,78= + = +Y a bX X= + = +1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78= + = +1,88 0,78i i iY a bX Xi i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78i i i1,88 0,78= + = +i i i= + = +Y a bX X= + = +i i i= + = +1,88 0,78= + = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78=+ = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78
Assim, conforme a reta de regressão para os valores iYiYi estimados de Y (na tabela 
a seguir - Yest) a partir dos valores de X, temos a seguinte distribuição:
Tabela 1 – Valores estimados e erros
X Y Yest Erro
1 3 2,66 0,34
2 2 3,44 -1,44
2 4 3,44 0,56
3 4 4,22 -0,22
4 5 5 0
4 6 5 1
5 5 5,78 -0,78
6 7 6,56 0,44
6 8 6,56 1,44
7 6 7,34 -1,34
Fonte: elaborada pelo autor, 2017.
A soma dos erros é igual a zero.
2 Medidas de regressão
Quando efetuamos cálculos envolvendo a estimativa de uma variável, verifi camos que há 
uma associação importante entre uma variável dependente e as variáveis que a determinam (ou 
apenas uma). Desse modo, grave bem: é importante definirmos não apenas se uma variável deter-
mina outra, mas também o sentido em que ela o faz, e em que proporção tal associação acontece.
Para esse objetivo, utilizamos alguns indicadores que são úteis para verifi carmos as relações 
de infl uência entre variáveis em um modelo de regressão linear. A seguir, estudaremos o indicador 
R², conhecido como coefi ciente de determinação.
SAIBA MAIS!
Há outras medidas de regressão igualmente utilizadas no estudo de uma regres-
são, como o coefi ciente ETA (que é a raiz quadrada do coefi ciente R², e mede a 
associação entre variáveis quantitativas e qualitativas).
O coefi ciente de determinação demonstra a proporção em que uma (ou mais) variável inde-
pendente determina a variação de uma variável dependente. Para isso, analisamos a soma dos 
quadrados da regressão e dos resíduos.Recuperando o conceito de desvio em relação a uma vari-
ável, temos:
ˆ
i i ie Y Y= −e Y Y= −i i ie Y Yi i i= −i i i= −e Y Y= −i i i= −
De modo que:
ˆ
i i iY e Y= +Y e Y= +i i iY e Yi i i= +i i i= +Y e Y= +i i i= +
Se elevarmos ao quadrado essa sentença e somarmos todos os valores possíveis das duas 
variáveis, obteremos:
2 2 2ˆ2 2 2ˆ2 2 2∑ = ∑ +∑ + ∑2 2 2∑ = ∑ +∑ + ∑2 2 2 2∑ = ∑ +∑ + ∑2i i i i iy e Y y e∑ = ∑ +∑ + ∑y e Y y e∑ = ∑ +∑ + ∑
2 2 2∑ = ∑ +∑ + ∑2 2 2y e Y y e2 2 2∑ = ∑ +∑ + ∑2 2 2 2∑ = ∑ +∑ + ∑2y e Y y e2∑ = ∑ +∑ + ∑2i i i i iy e Y y ei i i i i∑ = ∑ +∑ + ∑i i i i i∑ = ∑ +∑ + ∑y e Y y e∑ = ∑ +∑ + ∑i i i i i∑ = ∑ +∑ + ∑2∑ = ∑ +∑ + ∑2i i i i i2∑ = ∑ +∑ + ∑2y e Y y e2∑ = ∑ +∑ + ∑2i i i i i2∑ = ∑ +∑ + ∑2
Sabendo que a soma dos resíduos elevada à primeira potência é igual a zero, como mencio-
namos no tópico anterior, temos:
2 2 2ˆ2 2 2ˆ2 2 2∑ = ∑ +∑2 2 2∑ = ∑ +∑2 2 2i i iy e Y
2 2 2y e Y2 2 2∑ = ∑ +∑y e Y∑ = ∑ +∑2 2 2∑ = ∑ +∑2 2 2y e Y2 2 2∑ = ∑ +∑2 2 2i i iy e Yi i i∑ = ∑ +∑i i i∑ = ∑ +∑y e Y∑ = ∑ +∑i i i∑ = ∑ +∑
Essa equação nos mostra que existe uma associação entre valores reais, previstos e seus 
resíduos. A variação dos valores de Y em torno de sua média ( ∑yi
2 ) é explicada por dois elementos: 
a própria regressão, que fornece os valores estimados de Y, dados por iˆYiYi ; e uma segunda parte, 
dada por ei , cuja origem é alheia ao modelo. Em outras palavras, se há diferença entre um valor real 
e um valor estimado, ela é dada por fatores externos ao modelo, que não são “explicados” por ele.
Desse modo, podemos calcular o coefi ciente de determinação, que mostra a proporção da 
variação de Y, a qual é explicada – ou determinada – pela regressão em si, por meio da seguinte 
equação (HOFFMANN, 2016):
2
2
2
. . . ˆ∑
= == = i
i
yS Q Reg. . .S Q Reg. . .r
S QTotal y. .S QTotal y. . ∑S QTotal y∑
Em que: ( )
22 ˆˆ∑ = ∑ −(∑ = ∑ −(2∑ = ∑ −2ˆ∑ = ∑ −ˆiy Y Y(y Y Y(∑ = ∑ −y Y Y∑ = ∑ −(∑ = ∑ −(y Y Y(∑ = ∑ −(2∑ = ∑ −2y Y Y2∑ = ∑ −2ˆ∑ = ∑ −yˆ Y Yˆ∑ = ∑ −ˆiy Y Yi∑ = ∑ −i∑ = ∑ −y Y Y∑ = ∑ −i∑ = ∑ − e ( )22∑ = ∑ −(∑ = ∑ −(2∑ = ∑ −2iy Y Y(y Y Y(∑ = ∑ −y Y Y∑ = ∑ −(∑ = ∑ −(y Y Y(∑ = ∑ −(2∑ = ∑ −2y Y Y2∑ = ∑ −2iy Y Yi∑ = ∑ −i∑ = ∑ −y Y Y∑ = ∑ −i∑ = ∑ − .
O coefi ciente de determinação R2 indica a participação da variação de Y que é explicada 
diretamente pela regressão, de modo que 0 ≤ R2 ≤ 1. Quanto mais o coefi ciente estiver próximo 
de 1, mais os valores reais estão próximos dos estimados, de modo que a regressão (e a variável 
independente) explicam adequadamente a variável dependente.
EXEMPLO
Vamos utilizar a mesma distribuição de dados do exemplo anterior, com a mé-
dia de X igual a 4 e a média de Y igual a 5.A reta de regressão é calculada por 

i i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78Y a bX X1,88 0,78= + = +Y a bX X= + = +1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78= + = +1,88 0,78i i iY a bX Xi i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78i i i1,88 0,78= + = +i i i= + = +Y a bX X= + = +i i i= + = +1,88 0,78= + = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78= + = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78 Calculamos yest² ( 2ˆiy ) 
X Y Y estimado Erro Yest² Erro²
1,0 3,0 2,7 0,3 7,1 0,1
2,0 2,0 3,4 -1,4 11,8 2,1
2,0 4,0 3,4 0,6 11,8 0,3
3,0 4,0 4,2 -0,2 17,8 0,0
4,0 5,0 5,0 0,0 25,0 0,0
4,0 6,0 5,0 1,0 25,0 1,0
5,0 5,0 5,8 -0,8 33,4 0,6
6,0 7,0 6,6 0,4 43,0 0,2
6,0 8,0 6,6 1,4 43,0 2,1
7,0 6,0 7,3 -1,3 53,9 1,8
2
2
2
. . . 21,92. . . 21,92
0,73
. . 32. . 32
ˆ. . . 21,9ˆ. . . 21,9
0
∑. . . 21,9∑. . . 21,9
= = = == = = == = = == = = =i
. . . 21,9i. . . 21,9
i. . 3i. . 3
y. . . 21,9y. . . 21,9S Q Reg. . . 21,9S Q Reg. . . 21,9R
S QTotal y. . 3S QTotal y. . 3∑S QTotal y∑. . 3∑. . 3S QTotal y. . 3∑. . 3
Assim, sabemos que a variação da variável X explica em 73 % a variação da variável 
dependente Y.
Fechamento
Chegamos ao fim de nosso conteúdo!
Nesta aula, você teve oportunidade de:
 • conhecer as propriedades da regressão linear;
 • aprender a efetuar operações de medição de tendências a partir da regressão linear 
simples.
Referências
BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6.ed. São Paulo: Saraiva, 2010.
HOFFMANN, Rodolfo. Análise de Regressão: uma introdução à Econometria. Piracicaba: Edição 
do autor, 2016. Disponível em: <http://www.producao.usp.br/bitstream/handle/BDPI/48616/
REGRESS.pdf?sequence=5&isAllowed=y>. Acesso em:07abr. 2017.

Continue navegando