Baixe o app para aproveitar ainda mais
Prévia do material em texto
Janete Pereira Amador 1 1 Introdução A análise de regressão tem por objetivo descrever através de um modelo matemático, a relação existente entre duas variáveis, a partir de n observações dessas viráveis. A análise de regressão pode ser aplicada em diferentes áreas do conhecimento, alguns exemplo, seguem-se: � Na economia tentando explicar as variações na procura de automóveis em termos de desemprego. � Na agricultura estudando dosagem de fertilizantes sobre a produção de grãos. � Na engenharia descrevendo modelos, para quantificar a influencia da velocidade sobre a distância de freagem, entre outras O modelo mais simples de análise de regressão é o modelo linear simples, que constitui-se em uma equação matemática linear (linha reta), que descreve o relacionamento entre as duas varáveis. Existem outros modelos mais complexos que envolvem mais de duas variáveis, como os de regressão múltipla . A finalidade de uma equação de regressão seria estimar valores de uma variável, com base em valores conhecidos da outra. 2 Pressuposições para análise de regressão O modelo probabilístico, empregado na análise de regressão é composto por três partes, uma que diz respeito ás variáveis, outra aos parâmetros, e outra ao erro de estimativa. Dessa forma o modelo pode ser representado por Y = xi + i, em que no Y, os valores da variável dependente são função de um conjunto de parâmetros , de um conjunto de variáveis independentes X, e de erros aleatório i, (IEMMA, 1985). Para aplicação do modelo de regressão e estimação dos parâmetros pelo método dos mínimos quadrados é necessário observar certas pressuposições, (FONSECA et al, 1991): a relação entre X e Y é linear (os acréscimos/decréscimo em X produzem acréscimos/decréscimo proporcionais em Y e a razão de crescimento é constante); os valores de X são fixados arbitrariamente (X não é uma variável aleatória); Y é uma variável aleatória que depende entre outras coisas dos valores de X; i é o erro aleatório, portanto uma variável aleatória com distribuição normal, com média zero e variância 2. [ i N (0, 2)]. i representa a variação de Y que não é explicada pela variável independente X; os erros são considerados independentes 3 Equação linear Seja Y uma variável que nos interessa estudar (Variável dependente) e cujo comportamento futuro desejamos prever. E seja X a variável e explicativa ou independente. A relação entre a variável dependente Y e a variável independente X pode ser descrita através da equação da regressão linear. Janete Pereira Amador 2 XAY . é a equação de regressão que descreve o comportamento da variável dependente em função da variável independente em uma população. Para estimar a equação com base na amostra utiliza-se: bxay ˆ sendo a e b parâmetros da função. Assim “b” é coeficiente angular da reta (a variação de yˆ por unidade variação em x) e “a” é o intercepto- yˆ em x= 0 FIGURA 1: Relação entre o gráfico e a equação de regressão Uma maneira bastante prática para o auxílio na determinação da função entre variáveis dependente e independente é a construção do gráfico diagrama de dispersão. O diagrama de disperssão permite verificar o tipo de relacionamento das variáveis, pois nem sempre este é linear. No caso do ajustamento de uma linha reta, o diagrama de dispersão apresentará uma nuvem que ira nos sugerir o tipo de relação entre x e y. Alguns tipos de relacionamentos podem ser verificados na Figura 2. FIGURA 2: Diagramas de dispersão 4 Ajustamento da Reta Estabelecido o modelo ebxay ˆ , precisamos dos valores de a e b de forma que a reta passe tão próximo possível dos pontos assinalados no diagrama de dispersão. O Janete Pereira Amador 3 método mais usado para ajustar uma linha a um conjunto de pontos é conhecido como técnica dos Mínimos Quadrados. A reta resultante tem duas características importantes. A soma dos desvios verticais dos pontos e relação a reta é zero A soma dos quadrados destes desvios é mínima, isto é, nenhuma outra reta daria menor soma de quadrados de tais desvios. Assim o valor que é minimizado é dado por: 2yˆyi onde iy um valor observado de y yˆ o valor estimado de iy Os valores de a e b para reta xbay ˆ que minimizam a soma dos quadrados dos desvios é dado pela aplicação das equações normais 2xbxaxy xbany . A resolução destas equações pode ser feita através dos métodos de eliminação, matrizes (entre os vários métodos existentes). Como alternativa mais fácil para estimação dos parâmetros a e b utilizamos as seguintes formulas (sendo estas alternativas para resolução das equações normais). n x x n yx xy b 2 2 . onde n = tamanho da amostra n xx = média dos xi xbya n yy = media dos yi Ex: O custo de produção, de um lote de uma certa peça, depende do número de peças produzidas, ou seja, do tamanho do lote. Em uma amostra de 6 lotes, observou-se os seguintes resultados: Tamanho 5 10 15 20 25 30 Custos (R$) 65 120 210 260 380 450 Diagrama de dispersão Diagrama de dispersão do custo de produção (R$) relacionado ao tamanho do lote de uma peça. 0 50 100 150 200 250 300 350 400 450 500 0 5 10 15 20 25 30 35 Tamanho do lote C us to Janete Pereira Amador 4 Ajuste do modelo do tamanho do lote em relação ao custo bxay ˆ (modelo a ser ajustado) n x x n yx xy b 2 2 . Tamanho x Custos (R$) y xy x² y² 5 65 325 25 4225 10 120 1200 100 14400 15 210 3150 225 44100 20 260 5200 400 67600 25 380 9500 625 144400 30 450 13500 900 202500 105 1485 32875 2275 477225 n x x n yx xy b 2 2 . = xbya n yy = n xx = Modelo ajustado do custo sobre a idade Interpretação No quadro verifica-se o custo utilizando o modelo ajustado. Tamanho x Custos (R$) y Custo ajustado utilizando o modelo: xy .743,1528ˆ 5 65 5yˆ = -28 + 15,743.5 50,715 10 120 10yˆ = -28 + 15,743.10 129,943 15 210 15yˆ = -28 + 15,743.15 208,145 20 260 20yˆ = -28 + 15,743.20 286,86 25 380 25yˆ -28 + 15,743.25 365,575 30 450 30yˆ = -28 + 15,743.30 444,29 A representação gráfica do modelo ajustado é dada por Janete Pereira Amador 5 Reta de regressão do custo de produção (R$) relacionado ao tamanho do lote de uma peça, utilizando o modelo ajustado 0 50 100 150 200 250 300 350 400 450 500 0 10 20 30 40 Tamanho do lote Cu st o de p ro du çã o xy .743,1528ˆ xy .743,1528ˆ 5 Erro padrão da estimativa A questão que surge na análise de regressão é “o quanto são precisas as estimativas da regressão”. A determinante principal da precisão é a quantidade de dispersão na população, ou seja, quanto maior a dispersão menor a precisão das estimativas. A quantidade de dispersão na população pode ser estimada com base na dispersão amostral em relação a reta de regressão. O erro padrão da estimativa eS ou desvio padrão quantifica a dispersão das observações amostrais em relação a reta de regressão. Quanto menor a dispersão em relação mais precisas serão as estimativas. Essa dispersão pode ser demonstrada utilizando a equação: 2 2 n yy S cie onde: iy cada valor de y; cy valor deduzido da equação de regressão; n= número de observações.O cálculo do erro padrão se baseia na hipótese de dispersão uniforme dos pontos entorno da reta de regressão (homoscedasticidade). A equação acima para fins de cálculos é abreviada em: 2 2 n xybyay S e O erro padrão ou desvio padrão para o custo de produção, de um lote de uma certa peça, corresponde: 26 )]32875743,15[()]148528(477225[ eS 4 125,517551518805 eS 4 875,1253 eS 469,313eS 70,17eS desvio padrão da distribuição dos pontos em torno da reta regressão. Janete Pereira Amador 6 6 Teste de significância do coeficiente angular ou coeficiente de regressão (b) Mesmo quando há pouco ou nenhum relacionamento entre as variáveis numa população, é possível obter valores amostrais que façam as variáveis parecerem relacionadas. Isso ocorre devido a fatores aleatórios na amostragem produziram “relacionamento” onde nenhum existe. Sendo assim torna-se importante testar o resultado do coeficiente angular. Desta forma definimos se este é nulo ou diferente de zero (se existir regressão o coeficiente angular será diferente de zero). As hipóteses testadas serão : 0: 0: 1 0 BH BH A significância estatística do coeficiente de regressão pode ser testada com o seu desvio padrão ou erro padrão (Sb) através do teste t (t-Student). Isto é: bS bt Pa o cálculo do desvio padrão do coeficiente angular usa-se a fórmula: n x x SS eb 2 2 1. O coeficiente de regressão será significativo, ou seja “ 0B ”, quando [ t ] calculado for maior que “ t ” para “n – 2 “ graus de liberdade. O teste t para o coeficiente angular da regressão será aplicado, utilizando o exemplo relacionado ao custo de produção, de um lote de uma certa peça. O nível de significância utilizado será %1 As hipóteses testadas serão: 0: 0: 1 0 BH BH n x x SS eb 2 2 1. = 6 1052275 1.70,17 2 = 5,18372275 1.70,17 5,437 1.70,17 = 00286,0.70,17 = 946,0 O desvio padrão do coeficiente angular corresponde a 0,946 Aplicando o teste t bS bt = 0,946 743,15 t = 16,64 t calculado (tcal. ) corresponde a 16,64. Janete Pereira Amador 7 Utilizando a tabela da distribuição t testa-se as hipóteses, 0: 0: 1 0 BH BH , comparando o valor de tcal. com o valor de ttab. usando nível de significância de %1 e gl = 4. A Figura 6 apresenta as áreas de aceitação e rejeição das hipóteses. FIGURA 6 – Representação da distribuição t-Student com as respectivas áreas de aceitação e rejeição de 0H ttab. = 4,604 < tcal. = 16,64, assim rejeita-se 0H . Desta forma, podemos afirmar com 99% de confiança que o coeficiente angular da reta é diferente de zero. 7 Coeficiente de Determinação (R) O valor de R pode variar de 0 a 1 (0 a 100%). Quando a variação não explicada constitui uma grande parte da variação total (isto é, a variação explicada é uma pequena parte da variação total), R será pequeno. Inversamente quando a variação explicada corresponder a uma grande parte da variação total R estará mais próximo de 1. O Coeficiente de determinação é o valor da variação de y que é explicada pela reta de regressão iaçãototal licadaiaçãoR var expvar Onde: Variação explicada = n xx n yxxy 2 2 2. Variação Total= n y y 2 2 )( Janete Pereira Amador 8 Exercício 1. Suponha que uma cadeia de supermercados tenha financiado um estudo dos gastos com mercadoria para famílias de quatro pessoas. A investigação se limitou a famílias com renda líquida anual entre R$ 8000,00 e R$ 20.00,00. Obteve-se a equação: xy 10,0200ˆ , onde yˆ -despesa anual com mercadorias x renda líquida anual � Estime as despesas, para uma família de, quatro pessoas, com renda anual de R$ 15.000,00 � Essa equação estaria sendo utilizada corretamente nós seguintes casos: Estimação das despesas para famílias com cinco pessoas. Estimação das despesas para famílias com renda de R$ 21.00,00 a R$ 35.00,00 � Grafe a equação xy 10,0200ˆ 2. Use os valores dados abaixo para estimar as equações de regressão � 20;3600;6200;300;200 2 nxxyyx � 36;620;3100;37;2,7 2 nxxyyx � 30;21000;1400;250;700 2 nxxyyx Janete Pereira Amador 9 1 Introdução Na análise de regressão foi visto a determinação de uma função linear que descrevia a relação existente entre as variáveis. Agora o interesse é medir o grau de associação entre duas variáveis. Por exemplo a associação entre: o peso e altura de um grupo de individuo, entre a variação das exportações em função da cotação do dólar, entre os fumantes e as doenças do coração etc. A força de uma relação entre duas variáveis é medida pelo coeficiente de correlação de Pearson ( ), cujos valores abrangem de – 1 para correlação negativa perfeita até + 1 para correlação positiva perfeita. O sinal do , quando associado a reta de regressão, é o mesmo do coeficiente angular da reta. O estimador do coeficiente de correlação de Pearson em uma amostra é o r. Este é calculado pela equação: n y y n x x n yx xy r 2 2 2 2 )( . O coeficiente de correlação - r sempre deverá estar entre -1 e + 1. O valor de r pode ser multiplicado por 100 para dar o resultado em porcentagem. A Figura 1 apresenta alguns exemplos de associação entre as variáveis x e y com seus respectivos coeficientes de correlação. FIGURA 1 – Modelos de associação entre variáveis Janete Pereira Amador 10 Para o cálculo do coeficiente de correlação será usado o mesmo exemplo trabalhado na análise de regressão, sendo este: Ex: O custo de produção, de um lote de uma certa peça, depende do número de peças produzidas, ou seja, do tamanho do lote. Em uma amostra de 6 lotes, observou-se os seguintes resultados Tamanho x Custos (R$) y xy x² y² 5 65 325 25 4225 10 120 1200 100 14400 15 210 3150 225 44100 20 260 5200 400 67600 25 380 9500 625 144400 30 450 13500 900 202500 105 1485 32875 2275 477225 n y y n x x n yx xy r 2 2 2 2 )( . = Interpretação: 2 Teste de significância do coeficiente de correlação A significância estatística do coeficiente de correlação da população através do teste t (t-Student), sendo estimado por r. As hipóteses testadas serão : 0: 0: 1 0 H H Quando 0 , as duas variáveis são estatisticamente independente, ou seja, não existe correlação entre x e y. Quando 0 implica em rejeitar a hipótese nula, ou seja, x e y apresenta-se correlacionada. Sendo r. a estimativa do grau desta associação. A equação 2 1 2 n r rt é utilizada para testar a significância r. O coeficiente de correlação será significativo, ou seja “ 0 ”, quando [ t ] calculado for maior que “ t ” para “n – 2 “ graus de liberdade. O teste t para o coeficiente de correlação será aplicado, utilizando o exemplo relacionado ao custo de produção, de um lote de uma certa peça. O nível de significância utilizado será %1 As hipóteses testadas serão : 0: 0: 1 0 H H JanetePereira Amador 11 2 1 2 n r rt = = Exercício 1. Os dados a seguir são referente ao lucro e aos gastos com publicidade, de uma loja de eletrônicos, em mil reais. Gastos x 12 25 30 35 41 Lucros y 260 328 376 356 404 a) Análise estes dados através de regressão e correlação b) O gerente de propaganda da loja afirma que um investimento de 100.000 reais em um determinado mês o lucros estimado seria de 700.000 reais. O que você diria desta afirmação? Justifique sua resposta. c) Existe correlação entre os lucros e os gastos.
Compartilhar