Baixe o app para aproveitar ainda mais
Prévia do material em texto
ANÁLISE DE REGRESSÃO 1. Introdução 2. A regressão linear 3. Método dos mínimos quadrados 4. Inferência em análise de regressão 5. O coeficiente de determinação (r2) 6. Intervalos de confiança 7. Observações discrepantes 8. Conclusão 1. INTRODUÇÃO O objetivo principal da análise de regressão é predizer o valor de uma variável (a variável dependente), desde que seja conhecido o valor de uma variável associada (a variável independente). A equação de regressão é a fórmula algébrica para determinação do valor previsto da variável dependente. Mais especificamente, a análise de regressão compreende o exame de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a outra numa população, propiciando, como resultado, uma equação matemática que descreva o relacionamento. Tal equação pode ser usada para estimar ou predizer valores futuros de uma variável quando se conhecem ou se supõem conhecidos os valores da outra variável. Os dados para a análise de regressão resultam de observações de variáveis emparelhadas. Para um problema de duas variáveis, cada observação origina dois valores, um para cada variável. Por exemplo, um estudo que envolva características do mercado específico (de carros usados) poderia focalizar níveis de quilometragem e preços de carros. 2. REGRESSÃO LINEAR A regressão linear simples constitui uma tentativa de estabelecer uma equação matemática linear (linha reta) que descreva o relacionamento entre duas variáveis e que seja fácil de lidar e de interpretar. 2.1 Equação Linear Duas importantes características da equação linear são o coeficiente angular da reta e a cota da reta em determinado ponto. Uma equação linear tem a forma: y = a + bx em que a e b são valores que se determinam com base nos valores amostrais; a é a cota da reta em x=0, e b é o coeficiente angular. A variável y é aquela a ser predita, e x é o valor preditor. A Fig.1 ilustra a relação entre o gráfico de uma reta e sua equação. A reta, com equação y = a + bx, intercepta o eixo dos y's no ponto y = a. Esse ponto é chamado intercepto-y. O coeficiente angular da reta, b, indica a variação de y por unidade de variação de x. Fig.1 A reta de regressão y = a + bx y Coef. angular = b = ∆y x ∆x y = a Consideremos a equação linear y = 5 + 3x. A reta intercepta o eixo dos y's no ponto em que y = 5. O coeficiente da reta é 3, o que significa que a cada unidade de variação em x, correspondem 3 unidades de variação de y. Podemos usar a equação para determinar valores de y correspondentes a valores de x, como se vê na tabela abaixo. Valor de x Valor de y (Calculado de y = 5 + 3 x x) 2,0 5 + 3 x 2,0 = 11,0 3,1 5 + 3 x 3,1 = 14,3 7,2 5 + 3 x 7,2 = 26,6 2.2 Decisão por um Tipo de Relação Deve-se atentar para o fato de que nem todas as situações são bem aproximadas por uma equação linear. Por isso, em geral é necessário desenvolver um trabalho preliminar para determinar se um modelo linear é adequado. O processo mais simples consiste em grafar os dados e ver se uma relação linear é adequada. Vejamos os gráficos da Fig.2: Fig.2 situações diversas para regressões lineares a. b. c. d. Quando os dados não podem ser aproximados por um modelo linear, as alternativas são procurar um modelo não-linear conveniente, ou transformar os dados para a forma linear. 2.2.1 Análises de séries cronológicas Vamos verificar a pertinência de equações lineares, analisando as relações entre variáveis. O que se espera é que os dados históricos expressem relações causais e que, ademais, sejam estáveis no tempo. Com isto, as previsões tornam-se extremamente simples e baratas de serem obtidas. Infelizmente para o analista, sua ação neste campo não será das mais fáceis. Vemos, na próxima seqüência de figuras, que, em alguns casos, encontramos produtos, marcas e serviços, cuja demanda progride regularmente com o passar do tempo (Fig.3a), enquanto, em outros casos, há comportamentos menos previsíveis. A Fig.3b, em especial, sugere produtos - bastante influenciados pelo ambiente econômico -, cujas vendas variam na dependência de promoções de preços, campanhas publicitárias, modas passageiras etc. Nesse caso, análises de séries cronológicas e jogos estatísticos não serão de grande valia. O desamparo do analista poderá diminuir pela recorrência a métodos de opinião (de compradores, de especialistas ou de força de vendas). Entre os extremos aludidos acima, temos as situações intermediárias, representadas pela Fig.3c, em que vemos 3(três) forças sistemáticas reais em atuação, sendo a primeira a tendência que resulta do processo de crescimento e de desenvolvimento econômicos. A segunda força é o ciclo, que motiva os movimentos variáveis das vendas e resulta, muitas vezes, das variações das atividades econômicas. Por fim, temos a força sistemática dada pela estação, que decorre de eventos sazonais como férias e condições climáticas, em especial. E se tudo isto não bastasse, temos de lidar ainda com fatores erráticos como greves, concorrência inesperada, pacotes governamentais, dentre outros. Fig. 3a Fig. 3b Fig. 3c 2.3 Determinação da Equação Matemática Com o objetivo de levantarmos um modelo preditivo, com base na análise de regressão, vamos nos utilizar do exemplo do Quadro 1, para determinar se há alguma relação entre quilometragem e preços dos carros de um determinado modelo. Isto é, queremos saber se e como o preço dos veículos varia com a quilometragem dos mesmos. Em linguagem de regressão, a quilometragem seria a variável independente, ou explicativa, e o preço dos veículos a variável dependente, ou explicada. Ademais, é tradicional usar o símbolo x para representar valores da variável independente e o símbolo y para valores da variável dependente. Repetindo: Na regressão, os valores "y" são preditos com base em valores dados ou conhecidos de "x". A variável "y" é chamada dependente, e a variável "x", variável independente. Suponha-se que tenhamos coligido dados de venda do veículo "GOL", modelo CL, ano 1992, junto a vendedores de veículos em Belo Horizonte (na zona de comércio do Estádio Mineirão). Segue uma possível tabela de apresentação de dados amostrais, originados aleatoriamente. Quadro 1. Quilometragens e preços dos veículos Observação Quilometragem (1.000 kms) Preços Negociados (R$1.000) 1 40 1000 2 30 1500 3 30 1200 4 25 1800 5 50 800 6 60 1000 7 65 500 8 10 3000 9 15 2500 10 20 2000 11 55 800 12 40 1500 13 35 2000 14 30 2000 Os dados da tabela acima são plotados no gráfico da Fig.4 a fim de decidirmos se uma reta descreve adequadamente os dados. Conquanto seja evidente a impossibilidade de achar uma reta que passe por cada um dos pontos do diagrama, parece que uma relação linear é razoavelmente consistentecom os dados amostrais. Fig.4 Expressão gráfica dos dados do Quadro 1 Preço ($) km 3. O MÉTODO DOS MÍNIMOS QUADRADOS O método mais usado para ajustar uma linha reta a um conjunto de pontos é conhecido como método dos mínimos quadrados. A reta resultante do uso desse método, tem duas características importantes: (1)a soma dos desvios verticais dos pontos em relação à reta é zero, e (2)a soma dos quadrados desses desvios é mínima (isto é, nenhuma outra reta daria menor soma de quadrados de tais desvios). Simbolicamente, o valor minimizado será: ∑(yi - yc)2 sendo, Yi = um valor observado de y Yc = o valor de y calculado a partir do método dos mínimos quadrados, com os valores xi correspondentes a yi. Os valores de a e b para a reta Yc = a + bx que minimiza a soma dos quadrados dos desvios são dados por: b = n∑(XY) - ∑X∑Y n∑X2 - (∑X)2 a = ∑Y - bΣX n Podemos usar o método dos mínimos quadrados para obter uma reta para o exemplo dos preços dos veículos face às quilometragens apresentadas. Das equações acima é evidente que para determinar a equação linear, devemos primeiro calcular ∑X, ∑Y, ∑X2, ∑XY, além de ∑Y2 para uso no cálculo do coeficiente de determinação, conforme veremos adiante. Note-se que, sendo n (o número de observações amostrais) igual a 14, teremos: b = -38,56 a = 2.934 Vale dizer, a equação de regressão resultante é: yc = 2.934 - 38,56x A equação pode ser interpretada da seguinte forma: o preço esperado dos veículos é de $2.934 menos $38,56 para cada 1.000 kms rodados. Por exemplo: para um veículo com 20.000 kms rodados, a equação sugere um preço de $2.163. Outrossim, cabe reconhecermos certos fatos relativos à equação de regressão. Um deles é que se trata de uma relação média e, assim, um carro com determinada quilometragem não custará, necessariamente, o preço previsto pela equação. Outro ponto importante é que seria muito arriscado extrapolar essa equação entre preço e quilometragem para fora do âmbito dos dados. Vale dizer que se estamos contentes em verificar uma relação causal de preço e quilometragem em Belo Horizonte, nada nos autoriza a extrapolar conclusões para o Rio de Janeiro, por exemplo, cidade litorânea com enormes problemas derivados da ação da maresia sobre os carros. 4. INFERÊNCIA EM ANÁLISE DE REGRESSÃO Os dados amostrais usados para calcular uma reta de regressão podem ser encarados como um número relativamente pequeno de observações possíveis, provenientes de uma população infinita de pares de valores. Nesse sentido, a reta de regressão calculada pode ser encarada como uma estimativa da relação real, porém desconhecida, que existe entre as duas variáveis na população. Logo, os coeficientes de regressão a e b servem como estimativas pontuais dos dois parâmetros populacionais correspondentes, A e B, e a equação Yc= a + bx, é uma estimativa da relação populacional y = A + BX + e, onde e representa a dispersão na população (variável estocástica). A Fig.5 ilustra o conceito de uma população de pares de valores. Note-se que, mesmo nessa população, os valores não se dispõem segundo uma única linha reta, mas tendem a apresentar certo grau de dispersão. De fato, se não houvesse dispersão na população, todas as observações amostrais estariam sobre uma reta, e não haveria necessidade de fazer inferências quanto aos verdadeiros valores populacionais. Infelizmente, na vida real, são poucos os exemplos de população sem dispersão. Fig.5 Dados populacionais Uma pergunta que se pode fazer é: "Por que existe dispersão?" A resposta está no fato de não existir um relacionamento perfeito entre duas variáveis na população. Há outros fatores que influenciam os valores da variável dependente, talvez mesmo um número surpreendentemente grande de influências não consideradas na análise de regressão. Os níveis de preços de carros, no caso em questão, são influenciados por outros fatores além da quilometragem: condições climáticas, idade e profissão dos vendedores, propaganda etc. Deveriam tais variáveis ser incluídas no estudo? A influência de cada uma delas provavelmente é pequena, e o custo da inclusão de tais fatores na análise supera o benefício que adviria de sua consideração. Além disso, um ou dois fatores geralmente respondem por quase toda a gama da variável dependente, de modo que pouco se ganha procurando explicar completamente como se determina o preço dos veículos, no nosso exemplo. E o que é mais importante, o número de variáveis explanatórias potenciais é tão grande que seria sem dúvida impossível (ou altamente improvável) obter uma descrição perfeita. Uma conseqüência disso é que sempre haverá alguma dispersão. Assim é que há muitas equações de regressão diferentes, que poderiam concebivelmente ser obtidas, conforme sugerido na Fig.6. Fig.6 Possibilidades de retas de regressão y = a+bx A dispersão na população significa que, para qualquer valor de x, haverá muitos valores possíveis de y. Assim, se se vende um lote de veículos com igual quilometragem, os preços variarão conforme ilustra a Fig.7. Fig.7 Dispersão em torno da reta Fig.8 Dispersão em torno de regressão da média y Freq. Relativa (%) x ym A análise de regressão supõe que, para cada valor possível de x, há uma distribuição de y's potenciais que segue a lei normal. Tal é a chamada distribuição condicional (isto é, dado x). A distribuição condicional equivale a uma fatia vertical da população tomada em dado valor de x. A média de cada distribuição condicional é igual ao valor médio de y na população para esse particular x: y = A + BX e estimada por yc = a + bx. Vejamos a Fig.9 que segue. Fig.9 A restrição de "normalidade" na análise de regressão Reta de Regressão (Valores de Yc) 0 x1 x2 x3 Admite-se, além disso, que todas as distribuições condicionais tenham o mesmo desvio-padrão e que Y seja uma variável aleatória (isto é, os X's podem ser pré- selecionados, mas não os Y's). Assim, as hipóteses da análise de regressão são as seguintes: a) Existem dados de mensurações tanto para X como para Y. b) A variável dependente é aleatória. c) Para cada valor de X há uma distribuição condicional de Y's que é normal. d) Os desvios padrões de todas as distribuições condicionais são iguais. 5. O COEFICIENTE DE DETERMINAÇÃO (r2) Uma medida útil associada à análise de regressão é o grau em que as predições baseadas na equação de regressão superam as predições baseadas num Y médio, Ym. Isto é, se as predições baseadas na reta não são melhores que as baseadas no valor médio de y, então não adianta dispormos de uma equação de regressão. Nesse caso, o coeficiente de determinação, r2, nos auxilia na aferição da qualidade do modelo para fins de previsão. Consideremos a dispersão de pontos na Fig. 10, em torno de um valor Ym, em oposição à dispersão (vertical) de pontos em torno da reta de regressão, tal como na Fig. 11. Se a dispersãoassociada à reta é menor que a dispersão associada ao Ym, as predições baseadas na reta serão melhores. Fig. 10 Fig.11 y Dispersão de pontos em torno da média do grupo ( y _ ) y Dispersão de pontos em torno da reta (yc) yc y _ y _ x x A variação de pontos em torno de ym é chamada variação total e se calcula como uma soma de desvios elevados ao quadrado: variação total = ∑(yi - ym)2 Já os desvios verticais dos yi's em relação à reta de regressão chamam-se "variação não-explicada", porque não podem ser explicadas somente pelo valor de “x” (isto é, ainda há uma dispersão, mesmo depois de se levar em conta a reta). A variação não-explicada se calcula como a soma de quadrados em relação à reta: variação não-explicada = ∑(yi - yc)2 A quantidade de desvio explicada pela reta de regressão é a diferença entre a variação total e a variação não-explicada, ou: variação explicada = variação total - variação não-explicada A percentagem de variação explicada, r2, é a razão da variação explicada para a variação total: r2 = variação explicada = variação total - variação não-explicada variação total variação total Um modo simples de cálculo deste coeficiente nos é dado a seguir: r2 = a∑y + b∑(xy) - nym2 ∑y2 - nym 2 em que ym2 = y médio ao quadrado = y n ∑ 2 Para nosso exemplo, temos: r2 = 0,81 O valor de r2 pode variar de 0 a 1. Quando a variação não-explicada constitui uma grande percentagem da variação total (isto é, a variação explicada é uma percentagem pequena), r2 será pequeno. Inversamente, quando a dispersão em torno da reta de regressão é pequena face à variação total dos valores de Y em torno de sua média, isso significa que a variação explicada responde por uma grande percentagem da variação total, e r2 estará muito próximo de 1,00. Logo, o fato de que r2 seja igual a 0,81, em nosso exemplo, indica que aproximadamente 81% da variação nos preços dos veículos estão relacionados com a quilometragem dos mesmos. Em outras palavras, 19% da variação não é explicada pela quilometragem, assim sendo, as predições baseadas na equação de regressão se aproximarão satisfatoriamente dos níveis de preços efetivos.Portanto, o fato de r2 não estar próximo de zero sugere que a equação é melhor que a média Ym como preditor. 6. INTERVALOS DE CONFIANÇA PARA A MÉDIA O modelo desenvolvido em termos da equação da reta nos é útil para previsões da variável resposta (Y) para níveis desejados da variável controle (X). Além disso, é fundamental que saibamos o intervalo de confiança dentro do qual deva ocorrer o valor da variável dependente, a partir de um valor qualquer da variável independente. Vale dizer que importa saber o intervalo de confiança para o preço, relativamente a possíveis quilometragens. Para tanto, a fórmula de cálculo nos é dada por: IC = y ± t(n-2) x Se x ( ) ( ) 1 2 2 2 1 2 n X X X X n m + − − ∑ ∑ em que t(n-2) é a estatística t-Student, para (n-2) graus de liberdade. Por exemplo, como temos 14 observações, resulta haver 12 graus de liberdade (GL). Enfim, desejando-se um grau de certeza para o intervalo de confiança (95%, por exemplo) e tendo-se os GL's (12, no nosso caso), basta recorrer a uma tabela estatística para a determinação do valor de t(n-2). Exemplo: Qual a estimativa de preço médio para o grupo de carros de de quilometragem de 45.000 kms, a um grau de certeza de 95%? Y(45) = 2.934 - 38,56 x 45 = 1.199 e, IC = 1.199 ± 2,179 x Se x (1/14 + (45 - 36,07)2 / 3.608,9)1/2 Ademais, "Se" nos é dado por: Se = Y a Y b XY n 2 1 2 2 − − − ∑∑∑ em que n é o número de observações, igual a 14, no exemplo. Assim, Se = (39.960.000 - 2.934 x 21.600 + 38,56 x 640.000)1/2 = 325,3 14 - 2 E o intervalo de confiança fica dado por: IC(45) = 1.199 ± 2,179 x 325,3 x (1/14 + (45 - 36,07)2 / 3.608,9)1/2 IC(45) = 1.199 ± 216,75 Outros exemplos já calculados: IC(36) = 1.546 ± 189,4 IC(50) = 1.006 ± 250,8 IC(45) = 1.199 ± 216,8 Interpretação: de acordo aos dados coletados de quilometragem e preços, pode- se esperar que o preço médio dos veículos com quilometragem média de 45.000 kms se situe no intervalo de $1.415,6 e $982,0, dado um grau de certeza de 95%. 7. OBSERVAÇÕES DISCREPANTES É freqüente, em análise de regressão, o aparecimento de pontos cujo comportamento é bastante diferenciado das demais observações. A existência dessas observações discrepantes num conjunto de dados pode trazer problemas sérios no ajuste do modelo e na estimativa dos parâmetros. As dificuldades podem ser melhor entendidas através do exemplo a ser discutido. Na quadro a seguir aparecem dados sobre o número de telefones (X) e a arrecadação de ICMS - Imposto de Circulação de Mercadorias e de Serviços (Y), em 10(dez) sub-regiões administrativas do Estado de São Paulo. Também foram adicionadas 3(três) outras sub-regiões: São Sebastião, São José dos Campos e Região Metropolitana de São Paulo. As observações foram padronizadas em relação ao número de habitantes de cada sub-região. Estamos interessados em ajustar o modelo de equação linear ==> Y = a + bx. Quadro 2. Número de Telefones e Arrecadação de ICMS Sub-região X Y Dracena 42 1,95 Adamantina 44 2,39 Avaré 48 2,50 Catanduva 53 3,22 Araçatuba 56 3,63 Lins 58 3,54 Assis 58 3,65 Franca 65 4,49 São Carlos 68 5,78 Extras São Sebastião 77 1,14 São José dos Campos 86 13,94 São Paulo 138 12,66 X = No de telefones x 100 y = Total de ICMS (em R$1.000) No de habitantes No de habitantes Para exemplificar a influência de observações discrepantes na modelagem, vamos considerar quatro conjuntos de dados: (i) Caso 1: formado pelas 9 sub-regiões básicas. (ii) Caso 2: formado pelas 9 sub-regiões e São Sebastião. (iii)Caso 3: formado pelas 9 sub-regiões e São José dos Campos (iv) Caso 4: formado pelas 9 sub-regiões e São Paulo. Para o caso 1, obtemos o modelo ajustado Yc = -3,484 + 0,127x r2 = 0,93 O modelo estimado para o caso 2 é Yc = 1,468 + 0,031x r2 = 0,07 Em primeiro lugar convém observar a grande diferença entre as estimativas dos dois modelos. A observação introduzida está "arruinando" o modelo, tirando-lhe qualquer força preditiva. O caso 3 é estimado por Yc = -9,832 + 0,248x r2 = 0,85 e tem comportamento inverso; a nova observação não altera substancialmente a qualidade explicativa do modelo. Finalmente, no caso 4, embora a nova observação seja diferente das demais, ela não altera muito a estimativa do primeiro modelo, pois está alinhada com os demais valores. O modelo, ajustado neste caso é Yc = -2,700 + 0,112x r2 = 0,99 Essas diferenças ficam mais realçadas quando comparamos as estatísticas associadas aos modelos conforme apresentado no quadro 3. Quadro 3. Estatísticas Associadas aos 4 Modelos Caso A b r2 n 1 -3,484 0,12793% 9 2 1,468 0,031 7% 10 3 -9,832 0,248 85% 10 4 -2,700 0,112 99% 10 Existem várias razões para o aparecimento de pontos discrepantes. Alguns são resultados claros de erro de mensuração, e devem ser corrigidos ou então removidos do conjunto básico de dados. Para outros, após cuidadosa análise das informações, encontra-se uma razão para a inadequação daquela observação, o que justificaria sua eliminação, já que não esperaríamos outros pontos como aquele na população. Por exemplo, no caso 2 sabemos que a sub-região de São Sebastião é uma região litorânea, com muitas residências temporárias, o que justificaria uma alta taxa de telefones, e com poucas sedes de empresa na região, acarretando uma baixa arrecadação do ICMS. Como não esperamos outra sub- região com tais características, é razoável ajustar o modelo sem essa observação. Outras vezes, o caso é perfeitamente legítimo, com nada de improvável ou excepcional ocorrendo, mas com o par observado formando um ponto discrepante em relação aos demais. Pode ser, inclusive, um daqueles possíveis pontos, pouco prováveis de ocorrer, mas dentro das especificações do modelo. Aqui a eliminação da observação pode produzir modelos de pouco interesse para explicar o fenômeno real, e a manutenção do ponto introduz as dificuldades discutidas acima. Tem sido procedimento usual a estimativa sem a observação, mas na análise ressalta-se o fato, chamando a atenção para que a análise seja adequada para aqueles pontos bem comportados, havendo porém a possibilidade de existência de pontos com um particular comportamento atípico. Diríamos que o caso 3 está nesta situação, já que esperamos algumas outras poucas sub-regiões cuja arrecadação do ICMS deva ser alta, mas o nível de telefones nem tanto. Assim, o modelo 1 seria adotado com ressalvas. Quanto à situação do caso 4, embora o ponto discrepante não altere muito as estimativas do modelo, somos da opinião de que pontos desse tipo devam ser eliminados, pois, nesse caso, ele é praticamente único no Estado de São Paulo, com valor exagerado da variável preditora x. Assim, a presença de elementos discrepantes é um problema muito sério para construção de modelos de regressão, e envolve três etapas: (i) identificação de possíveis pontos discrepantes; (ii) avaliação dos efeitos sobre os estimadores e previsões; (iii)análise criteriosa para eliminação da observação. 8. CONCLUSÃO A regressão linear é uma técnica destinada a estimar o relacionamento entre duas variáveis, indo ao ponto de equacionar matematicamente tal relacionamento. A equação gerada por meio do método dos mínimos quadrados pode ser usada para predição de valores de uma variável dependente, face aos movimentos da outra variável, dita independente. Já as relações lineares são relativamente simples, fáceis de interpretar e servem de aproximação para muitas relações da vida real. Finalmente, realçamos que o coeficiente de determinação, o qual aponta a qualidade do modelo preditivo, demonstra, muitas vezes, a base frágil sobre a qual se assenta a ação empresarial. À luz de nossa experiência, tais coeficientes em torno de 0,65 já representam alento considerável à ação executiva.
Compartilhar