Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA-MÓDULO-06 MANUEL 1 MÓDULO- 06 - CORRELAÇÃO E REGRESSÃO Correlação - Um dos maiores problemas do investigador de fenômenos humanos e físicos é estabelecer um modelo matemático que descreva e explique o fenômeno real com uma boa aproximação. Para isso, é necessário que se consiga medir e avaliar o grau de relação existente entre as variáveis do modelo. Assim, correlação é o estudo da interdependência entre duas ou mais variáveis quantitativas. Podemos medir, por exemplo, se a demanda de um produto decresce linearmente com o acréscimo do seu preço, ou, se o número de filhos de uma família tem uma relação forte com o grau de instrução dos pais. A correlação pode ser simples ou múltipla. Correlação Linear Simples: quando se estuda a relação entre duas variáveis. Correlação Linear Múltipla: quando se estuda a relação entre mais de duas variáveis. Correlação Linear Simples - Para avaliar o grau de correlação linear entre duas variáveis aleatórias X e Y usa-se o coeficiente de correlação de Pearson assim definido: r n xy x y n x x n y y 2 2 2 2 , onde n é o número de observações. Demonstra-se que r varia entre -1 e 1. Correlação Linear Positiva - a correlação linear será positiva se valores crescentes de Y estão associados a valores crescentes de X, ou valores decrescentes de Y estiverem associados a valores decrescentes de X. ( 0 < r < 1) (FIG-A) Correlação Linear Positiva Perfeita - a correlação será perfeita se os pontos estiverem perfeitamente alinhados como mostra a figura abaixo (r = 1). (FIG-B) -1 r 1 ESTATÍSTICA-MÓDULO-06 MANUEL 2 Correlação Linear Negativa - quando valores crescentes de Y estão associados a valores decrescentes de X, ou valores decrescentes de Y estiverem associados a valores crescentes de X. (-1< r < 0). (FIG-C) Correlação Negativa Perfeita - quando os pontos estão perfeitamente alinhados em sentidos opostos, ou seja valores crescentes de Y correspondem a valores decrescentes de X e vice- versa. (r = -1) (FIG-D) Correlação Nula - quando não há relação entre as variáveis X e Y, ou seja, quando as variações de X e Y são independentes. ( r = 0 ) (FIG-E) Neste caso as variáveis X e Y são ditas independentes. Observações: 1- Observando os diagramas de dispersão conclui-se que, quanto mais os pontos estiverem próximos da reta, mais forte será a correlação, ou seja, r estará mais próximo de 1. Quanto mais fraca for a correlação, mais próximo de zero(0) será o coeficiente de correlação(r). 2- Se duas variáveis aleatórias X e Y são independentes o coeficiente de correlação entre elas será zero (0). 3- Para o cálculo da correlação é conveniente montar uma tabela como a seguinte: Y X X2 Y2 X x Y Y X X2 Y2 X x Y ESTATÍSTICA-MÓDULO-06 MANUEL 3 Exemplo-1: Calcular o coeficiente de correlação linear para as variáveis X e Y X Y X 2 Y 2 X x Y 2 10 4 100 20 4 8 16 64 32 6 6 36 36 36 8 10 64 100 80 10 12 100 144 120 = 30 46 220 444 288 r 5 288 30 46 5 220 30 5 444 46 60 144 22 0 416 2 2 , , Covariância - a covariância representa a variação de X e Y, e é assim definida: S XY nXY nX Y, , ou S XY n XYX Y, média do produto menos o produto das médias Onde: SXY - covariância entre as variáveis X e Y X - média aritmética de X Y - média aritmética de Y n - número de observações Uma outra fórmula também muito utilizada para a covariância é: n YYXX média dos produtos dos desvios. A partir do conceito de covariância, obtém-se uma fórmula mais simplificada para o coeficiente de correlação: r S S S X Y X Y , , onde Sxy - covariância entre X e Y Sx - desvio-padrão de X Sy - desvio-padrão de Y Exemplo-2: Usando os dados da tabela do Exemplo-1, calcular o coeficiente de correlação entre as variáveis X e Y. Temos: X = 30/5 = 6 Y = 46/5 = 9,2 S 2 x = ( )x x n x n x i i 2 2 2 = 220 5 62 = 44-36 = 8 Sx = 2,83 S 2 Y = ( )y y n y n y i i 2 2 2 = 444 5 9 22 , = 88,8 - 84,64 = 4,16 SY = 2,04 A covariância é dada por: SXY = 288 5 6 9 2 5 , SXY = 2,4 Assim, o coeficiente de correlação será: r S S S X Y X Y , r = 2 4 5 77 , , r = 0,416 ESTATÍSTICA-MÓDULO-06 MANUEL 4 Regressão Regressão Linear Simples - a análise de regressão tem por objetivo descrever através de um modelo matemático, a relação existente entre duas variáveis(X e Y) a partir de n observações dessas variáveis. Supondo X a variável explicativa (independente) e Y a variável explicada (dependente) pode-se escrever que: Y = f (X) , ou seja, a variável Y é função da variável X. Considera-se que Y é uma variável aleatória e que a relação entre X e Y não é regida apenas por um lei matemática. Assim, a relação entre X e Y deve ser escrita de forma mais correta como Y= f (X) + e, onde e é uma variável que irá captar as influências sobre Y não decorrentes de X. Assim, a regressão linear simples busca determinar a equação de uma reta que descreva a relação entre duas variáveis. A reta que é descrita por esta equação chama-se reta de regressão. O processo de determinação dos parâmetros da reta de regressão é chamado de ajustamento A reta ajustada é representada por: Y a bX , onde a e b são os parâmetros do modelo: a - ponto onde a reta ajustada corta o eixo da variável Y (coeficiente linear-intercept). b - tangente de ângulo que a reta forma com uma paralela ao eixo da variável X (coeficiente angular). O processo para obtenção da reta ajustada é denominado método dos mínimos quadrados. Este processo consiste em minimizar a soma dos quadrados dos desvios entre Y e Y , ou seja: 222 )()ˆ( bXaYYYê é mínima, onde: Y - valor observado (real). Y - valor estimado (pelo modelo de regressão). Para obtenção dos estimadores de a e b aplica-se a condição necessária de mínimo à função ( )Y Y 2 , ou seja, deriva-se em relação aos parâmetros (a e b) e iguala-se as derivadas a zero. Os parâmetros a e b são dados por: a = Y - bxX b n XY X Y n X X 2 2( ) ou b S S XY X 2 , onde: SXY é a covariância entre X e Y e S 2 x é a variância de X. ESTATÍSTICA-MÓDULO-06 MANUEL 5 Propriedades Covariância (SXY) SXY > 0 correlação positiva entre X e Y SXY = 0 não há correlação SXY < 0 correlação negativa entre X e Y Coeficiente Angular (b) b > 0 correlação positiva (a reta forma um ângulo agudo com o eixo dos X (0< < 90º) b = 0 não há correlação (reta paralela ao eixo dos X) b < 0 correlação negativa(a reta forma um ângulo obtuso com o eixo dos X ( > 90º) Coeficiente Linear (a) a > 0 a reta corta o eixo dos y acima da origem a = 0 a reta passa pela origem a < 0 a reta corta o eixo dos y abaixo da origem Hipóteses da Análise de Regressão - Pressupostos Básicos 1- iii ebXaY Equação linear do modelo de regressão 2- Normalidade - ei (desvio-resíduos) é uma variável aleatória com distribuição Normal 3- Média zero - todos os desvios tem média zero. 4- Homocedasticidade - todos os desvios tem a mesma variância ( 2 ). 5- Os desvios são não auto-regressivos - significa que os desvios são independentes, assim: Covariância (ei , ej ) = 0 se i j , ou seja a covariância entre dois desvios quaisquer é zero. 6- Xi não estocástico - Xi é uma variável não estocástica, os valores de Xi são conhecidos e perfeitamente determinados. Exemplo- A tabela abaixo exibe o consumo de determinado item no período de 2002 a 2010. Ano Consumo Valor Real y = a + bx Valor Previsto 2002 1 2003 2 2004 4 2005 4 2006 5 2007 7 20088 2009 9 2010 12 2011 ? Sabendo-se que os valores dos parâmetros para a reta ajustada são a = - 0,57 e b = 1,27, e que as condições de mercado permanecem inalteradas, a previsão de consumo para 2011 será: a. 37,53 b. 13,27 c. 12,13 d. 46,61 Utilizando o modelo bxay ˆ , quais foram os erros de previsão para os anos de 2004 e 2005 ? Erro Absoluto = Valor Previsto pelo modelo - Valor Real do Consumo Se quisermos expressar o erro em termos relativos teremos: Erro Relativo = (Valor Previsto - Valor Real) / Valor Real.
Compartilhar