Baixe o app para aproveitar ainda mais
Prévia do material em texto
Regressão linear José Tadeu de Almeida Introdução Nesta aula, você conhecerá algumas referências básicas sobre os processos de regressão linear. É por meio desses processos que podemos conhecer e demonstrar a tendência de variação de séries de dados com uma ou mais variáveis, o que nos permite estimar suas possíveis mudan- ças ao longo do tempo. Objetivos de aprendizagem Ao final desta aula, você será capaz de: • compreender os conceitos sobre regressão linear. 1 Regressão Linear Quando um pesquisador se dedica a analisar um conjunto de dados relacionados a n vari- áveis, sendo uma delas dependente e as demais, independentes, é importante verificar em que medida cada uma dessas variáveis independentes afeta a variável dependente. FIQUE ATENTO! Tenha em mente que uma variável dependente, como o próprio nome demons- tra, é verificada em função dos dados de outra variável. Não há, porém, uma rela- ção de “causa e efeito” entre elas, como se a variável dependente fosse um efeito das independentes. Desse modo, representamos a relação entre uma variável dependente Y e n variáveis indepen- dentes X da seguinte forma: Y = f (X1, X2, X3,…Xn) Podemos exemplificar tais funções quando investigamos, por exemplo, as relações entre o crescimento econômico de um país por meiode seu Produto Interno Bruto (PIB), da taxa de inflação e do volume de desemprego. Também quando analisamos um fluxo de vendas de um shopping center e comparamos essa variável com o movimento, em número de visitantes, que o estabelecimento teve, bem como com o aumento do salário mínimo. Consideremos, para facilitar o cálculo, duas variáveis, uma dependente Y e uma independente X, por meio da equação Y = 3X. Para diferentes valores de X = {0,1,2,3...} haverá diferentes valores no conjunto Y = {0,3,6,9...}. Nesse caso, os valores podem ser descritos em uma reta.Você pode ter também ter um conjunto de dados à sua disposição, de modo que será necessário verificar qual a função entre variáveis que melhor o descreve. Há situações em que a variável dependente é afetada por outros elementos que são externos à variável independente (ou seja, exógenos). Quando isso acontecer, haverá um resíduo, ou um erro, que afetará os resultados do modelo estatístico. Ele deverá, portanto, ser exposto da seguinte forma: Yi = f (X1,X2,X3,… Xn ) + ui Entenda que cada elemento Yi é expresso em função de n variáveis independentes Xi, acres- centando-se um resíduo ui. Em muitas situações do cotidiano, cálculos de regressão geram erros de mensuração, sem contar a possibilidade de um valor Y ser afetado por outras variáveis que não estão inclusas na equação (HOFFMANN, 2016). Nessas circunstâncias, torna-se difícil obter com precisão os dados da variável dependente que serão visualizados em função da variável independente. Podemos, porém, estimar a tendência em relação a um conjunto de dados, conforme a imagema seguir. Figura 1 – Tendência de variação entre variáveis 0 2 4 6 8 10 12 14 16 18 0 2 4 6 8 10 12 14 16 Fonte: elaborada pelo autor, 2017. Assim, a regressão linear consiste em uma série de mecanismos que têm por objetivo esti- mar o valor esperado de uma variável dependente Y, em função de outras variáveis independen- tes e de eventuais erros residuais (BUSSAB; MORETTIN, 2010). Saiba que quando analisamos a variação de uma variável dependente em função de uma variável independente, efetuamos uma operação de regressão linear simples. FIQUE ATENTO! Quando há mais variáveis dependentes e independentes envolvidas, dizemos que a regressão é múltipla. Desse modo, supondo n pares ordenados de valores de duas variáveis (X,Y), se Y for uma função linear de X, o modelo da regressão simples é dado pela fórmula: Yi = α + βXi + ui Nesse caso, Y é a variável dependente e X é a variável independente, a qual explica a variação de Y. Figura 2 – Associações entre variáveis Fonte: Team Oktopus / Shutterstock.com Os parâmetros α e β determinam a declividade da reta de regressão. O coeficiente α é conhe- cido como o coeficiente linear de intercepto do eixo Y, isso significa que ele demonstra o valor da variável dependente Y quando a variável independente X é igual a zero. Por sua vez, o coeficiente β, que é coeficiente angular da reta de regressão, nos mostra que quanto maior for o seu valor, mais inclinada será a reta de regressão em relação ao eixo X da vari- ável independente (HOFFMANN, 2016). SAIBA MAIS! Uma variável dependente pode depender de mais de uma variável independente. Nesse caso, para obter a estimação do comportamento das variáveis, utiliza- mos a regressão linear múltipla. Você pode conhecê-la lendo o quarto capítulo do livro do prof. Rodolfo Hoffmann, da Unicamp, que está disponível em: <http:// www.producao.usp.br/bitstream/handle/BDPI/48616/REGRESS.pdf?sequen- ce=5&isAllowed=y>. Há alguns pressupostos que defi nem o modelo de regressão linear simples: • a relação entre as variáveis X e Y é linear; • os valores de X são fi xos; • a média do erro é nula, ou seja, seu valor esperado é igual a zero; • para cada valor de X, a variância do erro (a distância ao quadrado entre um elemento e sua média) é sempre igual a σ2; • os erros de cada observação não se correlacionam entre si; • A distribuição dos erros é normal, ou seja, há valores regularmente dispersos em rela- ção à sua média (HOFFMANN, 2016). Para efetuarmos uma regressão, perceba que o primeiro passo é obter as estimativas dos parâmetros α e β, dados, respectivamente, por a e b, a partir de uma amostra de n pares ordenados das variáveis (X,Y), de modo que: i iY a bX= +Y a bX= +i iY a bXi i= +i i= +Y a bX= +i i= + Em que iYiYi representa um valor estimado de Yi. Aqui, resgatamos o conceito de resíduo, enten- dendo-o como a diferença (desvio) entre o valor real de Y e seu valor estimado, de modo que para cada erro de um valor i ( ei ), temos: ˆ i i ie Y Y= −e Y Y= −i i ie Y Yi i i= −i i i= −e Y Y= −i i i= − Por consequência, a soma dos desvios ei é igual a zero ( ∑ ei = 0 ) FIQUE ATENTO! Estamos simplifi cando nossa notação em relação ao símbolo de soma ( ∑ ). Quan- do utilizamos esse operador, estamos somando todos os n elementos de uma dis- tribuição de dados, do primeiro ( i=1 ) ao último elemento n. Os parâmetros a e b são calculados da seguinte forma: a Y bX= −a Y bX= − 2 ∑ = ∑ Xyb x Em que: X representa cada valor Xi da variável independente; x e y representam a diferença cada valor Xi e Yi e suas respectivas médias, dados por X e Y (HOFFMANN, 2016). EXEMPLO Imagine o seguinte conjunto de dados formado pelos seguintes pares ordenados: Tabela 1 - Associação entre variáveis X Y 1 3 2 2 2 4 3 4 4 5 4 6 5 5 6 7 6 8 7 6 Fonte: elaborada pelo autor , 2017. Vamos estimar os coefi cientes a e b para esta distribuição.Para obtê-los, precisare- mos dos elementos de cálculo: a Y bX= −a Y bX= − 2 ∑ = ∑ Xyb x EXEMPLO Em que: x X X= −x X X= − e y Y Y= −y Y Y= − Assim, temos: ( ) ( )22 28 0,78 36 ∑ −(∑ −(∑ = = = == = = == = = == = = = ∑ ∑ −(∑ −( X Y Y∑ −X Y Y∑ −(∑ −(X Y Y(∑ −(Xyb x X X∑ −X X∑ − 5 - 0,78 4 1,885 - 0,78 4 1,88= =5 - 0,78 4 1,88a x5 - 0,78 4 1,88a x5 - 0,78 4 1,88= =a x= =5 - 0,78 4 1,88= =5 - 0,78 4 1,88a x5 - 0,78 4 1,88= =5 - 0,78 4 1,88 Desse modo, nossa reta de regressão para uma distribuição de valores esperados da variável dependente iYiYi é igual a: i i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78Y a bX X1,88 0,78= + = +Y a bX X= + = +1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78= + = +1,88 0,78i i iY a bX Xi i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78i i i1,88 0,78= + = +i i i= + = +Y a bX X= + = +i i i= + = +1,88 0,78= + = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78=+ = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78 Assim, conforme a reta de regressão para os valores iYiYi estimados de Y (na tabela a seguir - Yest) a partir dos valores de X, temos a seguinte distribuição: Tabela 1 – Valores estimados e erros X Y Yest Erro 1 3 2,66 0,34 2 2 3,44 -1,44 2 4 3,44 0,56 3 4 4,22 -0,22 4 5 5 0 4 6 5 1 5 5 5,78 -0,78 6 7 6,56 0,44 6 8 6,56 1,44 7 6 7,34 -1,34 Fonte: elaborada pelo autor, 2017. A soma dos erros é igual a zero. 2 Medidas de regressão Quando efetuamos cálculos envolvendo a estimativa de uma variável, verifi camos que há uma associação importante entre uma variável dependente e as variáveis que a determinam (ou apenas uma). Desse modo, grave bem: é importante definirmos não apenas se uma variável deter- mina outra, mas também o sentido em que ela o faz, e em que proporção tal associação acontece. Para esse objetivo, utilizamos alguns indicadores que são úteis para verifi carmos as relações de infl uência entre variáveis em um modelo de regressão linear. A seguir, estudaremos o indicador R², conhecido como coefi ciente de determinação. SAIBA MAIS! Há outras medidas de regressão igualmente utilizadas no estudo de uma regres- são, como o coefi ciente ETA (que é a raiz quadrada do coefi ciente R², e mede a associação entre variáveis quantitativas e qualitativas). O coefi ciente de determinação demonstra a proporção em que uma (ou mais) variável inde- pendente determina a variação de uma variável dependente. Para isso, analisamos a soma dos quadrados da regressão e dos resíduos.Recuperando o conceito de desvio em relação a uma vari- ável, temos: ˆ i i ie Y Y= −e Y Y= −i i ie Y Yi i i= −i i i= −e Y Y= −i i i= − De modo que: ˆ i i iY e Y= +Y e Y= +i i iY e Yi i i= +i i i= +Y e Y= +i i i= + Se elevarmos ao quadrado essa sentença e somarmos todos os valores possíveis das duas variáveis, obteremos: 2 2 2ˆ2 2 2ˆ2 2 2∑ = ∑ +∑ + ∑2 2 2∑ = ∑ +∑ + ∑2 2 2 2∑ = ∑ +∑ + ∑2i i i i iy e Y y e∑ = ∑ +∑ + ∑y e Y y e∑ = ∑ +∑ + ∑ 2 2 2∑ = ∑ +∑ + ∑2 2 2y e Y y e2 2 2∑ = ∑ +∑ + ∑2 2 2 2∑ = ∑ +∑ + ∑2y e Y y e2∑ = ∑ +∑ + ∑2i i i i iy e Y y ei i i i i∑ = ∑ +∑ + ∑i i i i i∑ = ∑ +∑ + ∑y e Y y e∑ = ∑ +∑ + ∑i i i i i∑ = ∑ +∑ + ∑2∑ = ∑ +∑ + ∑2i i i i i2∑ = ∑ +∑ + ∑2y e Y y e2∑ = ∑ +∑ + ∑2i i i i i2∑ = ∑ +∑ + ∑2 Sabendo que a soma dos resíduos elevada à primeira potência é igual a zero, como mencio- namos no tópico anterior, temos: 2 2 2ˆ2 2 2ˆ2 2 2∑ = ∑ +∑2 2 2∑ = ∑ +∑2 2 2i i iy e Y 2 2 2y e Y2 2 2∑ = ∑ +∑y e Y∑ = ∑ +∑2 2 2∑ = ∑ +∑2 2 2y e Y2 2 2∑ = ∑ +∑2 2 2i i iy e Yi i i∑ = ∑ +∑i i i∑ = ∑ +∑y e Y∑ = ∑ +∑i i i∑ = ∑ +∑ Essa equação nos mostra que existe uma associação entre valores reais, previstos e seus resíduos. A variação dos valores de Y em torno de sua média ( ∑yi 2 ) é explicada por dois elementos: a própria regressão, que fornece os valores estimados de Y, dados por iˆYiYi ; e uma segunda parte, dada por ei , cuja origem é alheia ao modelo. Em outras palavras, se há diferença entre um valor real e um valor estimado, ela é dada por fatores externos ao modelo, que não são “explicados” por ele. Desse modo, podemos calcular o coefi ciente de determinação, que mostra a proporção da variação de Y, a qual é explicada – ou determinada – pela regressão em si, por meio da seguinte equação (HOFFMANN, 2016): 2 2 2 . . . ˆ∑ = == = i i yS Q Reg. . .S Q Reg. . .r S QTotal y. .S QTotal y. . ∑S QTotal y∑ Em que: ( ) 22 ˆˆ∑ = ∑ −(∑ = ∑ −(2∑ = ∑ −2ˆ∑ = ∑ −ˆiy Y Y(y Y Y(∑ = ∑ −y Y Y∑ = ∑ −(∑ = ∑ −(y Y Y(∑ = ∑ −(2∑ = ∑ −2y Y Y2∑ = ∑ −2ˆ∑ = ∑ −yˆ Y Yˆ∑ = ∑ −ˆiy Y Yi∑ = ∑ −i∑ = ∑ −y Y Y∑ = ∑ −i∑ = ∑ − e ( )22∑ = ∑ −(∑ = ∑ −(2∑ = ∑ −2iy Y Y(y Y Y(∑ = ∑ −y Y Y∑ = ∑ −(∑ = ∑ −(y Y Y(∑ = ∑ −(2∑ = ∑ −2y Y Y2∑ = ∑ −2iy Y Yi∑ = ∑ −i∑ = ∑ −y Y Y∑ = ∑ −i∑ = ∑ − . O coefi ciente de determinação R2 indica a participação da variação de Y que é explicada diretamente pela regressão, de modo que 0 ≤ R2 ≤ 1. Quanto mais o coefi ciente estiver próximo de 1, mais os valores reais estão próximos dos estimados, de modo que a regressão (e a variável independente) explicam adequadamente a variável dependente. EXEMPLO Vamos utilizar a mesma distribuição de dados do exemplo anterior, com a mé- dia de X igual a 4 e a média de Y igual a 5.A reta de regressão é calculada por i i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78Y a bX X1,88 0,78= + = +Y a bX X= + = +1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78= + = +1,88 0,78i i iY a bX Xi i i1,88 0,78i i i1,88 0,78Y a bX X1,88 0,78i i i1,88 0,78= + = +i i i= + = +Y a bX X= + = +i i i= + = +1,88 0,78= + = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78Y a bX X1,88 0,78= + = +1,88 0,78i i i1,88 0,78= + = +1,88 0,78 Calculamos yest² ( 2ˆiy ) X Y Y estimado Erro Yest² Erro² 1,0 3,0 2,7 0,3 7,1 0,1 2,0 2,0 3,4 -1,4 11,8 2,1 2,0 4,0 3,4 0,6 11,8 0,3 3,0 4,0 4,2 -0,2 17,8 0,0 4,0 5,0 5,0 0,0 25,0 0,0 4,0 6,0 5,0 1,0 25,0 1,0 5,0 5,0 5,8 -0,8 33,4 0,6 6,0 7,0 6,6 0,4 43,0 0,2 6,0 8,0 6,6 1,4 43,0 2,1 7,0 6,0 7,3 -1,3 53,9 1,8 2 2 2 . . . 21,92. . . 21,92 0,73 . . 32. . 32 ˆ. . . 21,9ˆ. . . 21,9 0 ∑. . . 21,9∑. . . 21,9 = = = == = = == = = == = = =i . . . 21,9i. . . 21,9 i. . 3i. . 3 y. . . 21,9y. . . 21,9S Q Reg. . . 21,9S Q Reg. . . 21,9R S QTotal y. . 3S QTotal y. . 3∑S QTotal y∑. . 3∑. . 3S QTotal y. . 3∑. . 3 Assim, sabemos que a variação da variável X explica em 73 % a variação da variável dependente Y. Fechamento Chegamos ao fim de nosso conteúdo! Nesta aula, você teve oportunidade de: • conhecer as propriedades da regressão linear; • aprender a efetuar operações de medição de tendências a partir da regressão linear simples. Referências BUSSAB, Wilton de Oliveira; MORETTIN, Pedro. Estatística Básica. 6.ed. São Paulo: Saraiva, 2010. HOFFMANN, Rodolfo. Análise de Regressão: uma introdução à Econometria. Piracicaba: Edição do autor, 2016. Disponível em: <http://www.producao.usp.br/bitstream/handle/BDPI/48616/ REGRESS.pdf?sequence=5&isAllowed=y>. Acesso em:07abr. 2017.
Compartilhar