Baixe o app para aproveitar ainda mais
Prévia do material em texto
17/10/2013 1 Regressão Linear Parte I Luis A. Toscano Est-UFMG Correlação Linear Quantificando a relação entre as variáveis de um processo. É possível... ... determinar a quantidade de massa magra de um individuo a partir de suas medidas corporais? ... saber a hora do óbito de um individuo a partir da temperatura do seu fígado? Representação visual da relação entre duas variáveis quantitativas 15141312111098765 24 23 22 21 20 19 18 17 x y Um diagrama de dispersão entre duas variáveis onde estão disponíveis n pares de observações (xi, yi), tem o seguinte aspecto: X Y YX , 17/10/2013 2 3020100-10 103 102 101 100 99 98 97 96 95 94 93 X1 Y 1 151050 110 105 100 X2 Y 2 3020100 102 101 100 99 98 X3 Y 3 302010 102 101 100 99 X4 Y 4 Correlação negativa Forte correlação positiva Não há correlação Fraca correlação positiva Diagramas de dispersão Representação visual da relação entre duas variáveis quantitativas Exemplos • Relação entre a vendas trimestrais e o tamanho da população estudantil (x) em torno do restaurante. • Relação entre gastos e outras medidas como renda mensais e sexo. • Relação entre os escores de QI dos bebês que nasceram primeiro (Primeiro) e dos bebês que nasceram depois (Segundo). 11 r • Coeficiente de Correlação Linear () é a estatística que mede o grau de relacionamento linear entre duas variáveis Propriedades do coeficiente de correlação linear: • O valor de r está sempre entre -1 e 1, isto é, • O valor não varia se todos os valores de qualquer uma das variáveis são convertidos por uma escala diferente. • Permutando todos os valores de X e Y, r permanecerá inalterado. • r não serve para medir a intensidade de um relacionamento não linear. Quantificando o relacionamento linear entre duas variáveis quantitativas n i i n i i n i ii YYXX XXYY XYr 1 2 1 2 1 )()( ),( Quantificando o relacionamento linear entre duas variáveis quantitativas 17/10/2013 3 Exemplos • Relação entre a vendas trimestrais e o tamanho da população estudantil (x) em torno do restaurante. Venda e tamanho da pop., r=0,95 • Relação entre gastos e outras medidas como renda mensais e sexo. Gasto e Renda, r=0,87 • Relação entre os escores de QI dos bebês que nasceram primeiro (Primeiro) e dos bebês que nasceram depois (Segundo). QI do primeiro bebe e QI do Segundo bebe , r=0,87 0 rEr 2n r1 rS 2r Teste Formal de Hipóteses para a correlação linear O teste formal de hipóteses é para determinar se existe correlação significativa entre duas variáveis. As hipóteses nula e alternativa se expressarão como segue: 0: 0: 1 0 H H Onde a média r e desvio padrão amostral sr de r é dado : Estatística do teste 2,2 ~ n r r obs tS rt O coeficiente de correlação de Pearson Como supomos que = 0, decorre que . Mostra-se também que o desvio padrão de r pode ser expresso como 2,22 ~ 2 1 nobs t n r rt Rejeita-se a hipótese nula com nível se 2,2 nobs tt Teste Formal de Hipóteses para a correlação linear 0r Podemos usar a seguinte estatística do teste 2n r1S 2 r O coeficiente de correlação de Pearson Ou se exceder o valor da Tabela de Pearson, rejeita-se a hipótese nula com nível r Método Alternativo •Hipóteses: • Estatística de teste: r •Valores Críticos: consulte a Tabela de Pearson. •Conclusão: • se exceder o valor critico da Tabela de Pearson, rejeita-se a hipótese nula com nível e conclua que há correlação linear. O coeficiente de correlação de Pearson r 0: 0: 1 0 H H 17/10/2013 4 3020100-10 103 102 101 100 99 98 97 96 95 94 93 X1 Y 1 r -0,891 (0,000) 151050 110 105 100 X2 Y 2 r =0,963 (0,000) 3020100 102 101 100 99 98 X3 Y 3 r = 0,017 (0,870) 302010 102 101 100 99 X4 Y 4 r = 0,279 (0,005) O coeficiente de correlação de Pearson Regressão Linear Simples Explicando a relação entre duas variáveis de um processo. •Como a variável X explica a variável Y ? •Posso prever os valores da variável Y usando os valores da variável X ? Y : variável resposta ( dependente ) X : variável explicativa ( preditora, independente ) Quando estudamos o relacionamento entre duas variáveis, há duas perguntas frequentes É uma técnica estatística que permite o estudo da variabilidade de uma variável (resposta) em função da variabilidade de outras variáveis (explicativas). O que é Análise de Regressão? 17/10/2013 5 A ideia da Análise da Regressão Variabilidade devida à variabilidade nos valores das variáveis explicativas Variabilidade Total da Variável Resposta = + Variabilidade natural da variável resposta 15141312111098765 24 23 22 21 20 19 18 17 x y Os modelos de regressão linear simples descreve a relação entre uma variável dependente ou variável de resposta Y, e uma variável explicativa X, Y = 0 + 1X + 0 + 1X 0 1 X Y Y = 0 + 1X Regressão Linear Simples Colhida uma amostra de N indivíduos, teremos n pares de valores (yi, xi) que devem satisfazer ao modelo Yi = 0 + 1Xi + i i=1,2,3, ... N. Onde: Yi é a variável de resposta; Xi é a variável explicativa, 0 é o intercepto 1 o coeficiente angular e i chamado de erro, ou efeito residual. É parte da variabilidade de Y que é NÃO é explicada Regressão Linear Simples Algumas suposições para as variáveis envolvidas: 1. A variável X é uma variável supostamente controladas e não esta sujeita a variações aleatórias. 2. Dado um valor da variável Xi, os erros i tem valor esperado zero, ou seja, E(i/Xi) = 0 3. Supor que os erros tenham a mesma variabilidade em todos os níveis da variável explicativa X. Estatisticamente, queremos que os dados sejam homocedásticos, ou seja 4. Os erros 2)/( ii XVar Regressão Linear Simples ),0(~ 2 Normali 17/10/2013 6 Y X X5=33,5 X7=43,5 5= 0 + 1(33,5) Y5= 5 +5 = 12,4 7= 0 + 1(43,5) Y7= 7 +7 = 9,4 i= 0 + 1Xi Regressão Linear Simples iii XYe 10 n i ii n i i XYeSQE 1 2 10 1 2 i =1,2,3, ... n Isto é, considerando os dados amostrais em questão, devemos achar os valores de β0 e β1 que tornem o valor de SQE o menor possível, Como são estimados os parâmetros da reta, β0 e β1 ? Os valores de β0 e β1 são estimados de modo que a Soma dos Quadrados dos Erros (SQE) seja a menor possível. E quais são os valores de β0 e β1 que levam ao menor valor de SQE ? Derivando a soma do quadrado dos erros (SQE) em relação à 0 e,1 e igualando a zero, observa-se que as soluções 0 e,1 devem satisfazer as equações as quais produzirão as soluções XY 10 ˆˆ Estes estimadores são chamados de estimadores de mínimos quadrados ordinários (MQO). 10 ˆˆ e n i i n i ii XX YYXX 1 2 1 1ˆ 2)ˆ(minii yy Critério dos mínimos quadrados Estimação dos resíduos • O resíduo é a diferença entre o valor observado e o ajustado, i.e. iiiii XYYYe 10 ˆˆˆˆ i =1,2,3, ... n Regressão Linear Simples Yˆ ii XY 10 ˆˆˆ i =1,2,3, ... n • O valor ajustado é o valor na reta 17/10/2013 7 Estimação dos parâmetros Estes estimadores MQO satisfazem as propriedades: 00ˆE n i i n i i XXn X Var 1 2 1 22 0 ˆ 11ˆE n i i XX Var 1 2 2 1 ˆ 10 ˆˆ e Se os erros são variáveis aleatórias com distribuição normal, isto é, ),0(~ 2 Normal e como 0 e,1 são combinações lineares normais independentes, então temos que os estimadores tem distribuição Normal. 10 ˆˆ e Regressão Linear Simples Exemplos • Relação entre a vendas trimestrais e o tamanho da população estudantil (x) em torno do restaurante. • Relação entre gastos e outras medidas como renda mensais e sexo. • Relação entre os escores de QI dos bebês que nasceram primeiro (Primeiro) e dos bebês que nasceram depois (Segundo). Exemplo: Renda e Gasto Y = gasto mensal (R$) X = renda (R$) A equação estimada O valor previsto do gasto mensal para um individuo sem renda (X=0) mensal seria de R$ 559,8. 6,0ˆ559,8ˆ 10 e ii XY 6,08,559ˆ A cada real a mais na renda mensal, o gasto mensal aumenta, em média, R$ 0.60 (60 centavos). 0 1000 2000 3000 4000 5000 6000 7000 8000 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 Ga st o Renda Coeficiente de Determinação • A questão é: quão satisfatoriamente a equação de regressão estimada ajusta os dados? • O coeficiente de determinação nos dá uma medida de eficiência de ajuste da equação regressão estimada. • O valor da SQE (soma do quadrado dos erros) é uma medida do erro de se usar a equação de regressão estimada para estimar os valores dependente da amostra Yi. n I ii n I ii XYYYSQE 1 2 10 1 2 ˆˆˆ 17/10/2013 8 Exemplo: Armand’s Pizza Parlos • O SQE=1.530 mede o erro de se usar a equação de regressão estimada para prever as vendas. • Suponha que nos peçam para desenvolver uma estimativa das vendas trimestrais sem sabermos é o tamanho da população estudantil. • Podemos usara média amostral como uma estimativa das vendas trimestrais em qualquer restaurante. • A diferença fornece a medida do erro envolvido no uso de para estimar as vendas. ii XY 560ˆ 130Y YYi Y • Soma dos quadrados total (SQT) • No exemplo, SQT=15.730 • Podemos medir quanto os valores de na reta de regressão estimada se afasta de . • A soma dos quadrados da regressão (SQReg) é 2 1 n i i YYSQT Yˆ Y 2 1 ˆRe n i i YYgSQ 5 10 15 20 25 60 80 10 0 12 0 14 0 16 0 18 0 20 0 Populção ve nd as Exemplo: Armand’s Pizza Parlos Desvios nas proximidades reta de regressão estimada da reta 130Y YY SQT SQReg SQE As Fontes de Variabilidade de Y A Análise de Regressão trabalha com a idéia de que a variabilidade total da variável resposta (Y) é o resultado de duas fontes de variação n I ii YY 1 2ˆ SQT = SQReg + SQE 2 1 n i i YY 2 1 ˆ n i i YY Variabilidade Total de Y Variabilidade Y explicada por X Variabilidade Y devida ao erro 17/10/2013 9 2 S 2 S Fonte g.l.. Soma Quadrados Quadrados Médios F Regressão 1 SQReg SQReg/1 SQReg/ Resíduo n-2 SQE SQRes/(n-2) = total n-1 SQT SQT/(n-1) = S2 • Decomposição da Soma de Quadrados SQReg = SQT - SQR Tabela de Análise de Variância ou seja SQT = SQReg +SQR • Relação entre SQT, SQReg e SQR SQT = SQReg +SQR Coeficiente de Determinação •Se para cada observação, resultando em SQR=0. •Para haver uma ajuste perfeito SQT = SQReg , e •Ajustes mais imperfeitos resultarão em valores maiores para SQR. •Note que SQR = SQT – SQReg, o maior valor para SQR (pior ajuste) ocorre quando SQReg=0 e SQR=SQT. 0ˆ ii YY 1Re SQT gSQ Coeficiente de Determinação A medida que mede a porcentagem da variação total explicada pelo modelo é o coeficiente de determinação de uma regressão é definido por: SQT gSQR Re2 Quanto mais alto, mais linear é a relação entre X e Y, 10 2 R O Coeficiente de Determinação pode ser interpretado como o quanto da variabilidade de Y passa a ser explicada quando a variável X é acrescentada ao modelo simples Y = 0 + onde Y0ˆ Exemplo: Renda e Gasto O coeficiente de determinação é 7521,0 730.15 200.14Re2 SQT gSQR Podemos concluir que 75,21% da variabilidade dos gastos medios podem ser explicados pela renda media. Giulia Berbel Giulia Berbel Giulia Berbel 17/10/2013 10 Exemplo: Armand’s Pizza Parlos O coeficiente de determinação é 9027,0 730.15 200.14Re2 SQT gSQR Podemos concluir que 90,27% da variabilidade das vendas podem ser explicados por meio da relação linear existentes entre o tamanho da população estundantil e as vendas. Coeficiente de determinação Ajustado (R2adj) Onde p é o número de parâmetros do modelo de regressão. 2 1 2 2 111 )1/( )/(1 Rpn n nYY pnSQRR n i i Adj Regressão Linear Simples 21),2,1( nc FF Rejeitamos H0 )2/( 1/Re nSQR gSQF 0:H 0:H 11 10 Estatística do teste F: Testes de Hipóteses : • Estatística do Teste F O que nos leva a concluir que não existe evidência de falta de ajustamento. Ou seja, neste caso o modelo de regressão linear é adequado. Regressão Linear Simples H0 : O modelo linear não é apropriado; H1: O modelo linear é apropriado; ou Rejeitamos H0 76,600 )2/( 1/Re nSQR gSQF 0: 0: 11 10 H H Estatística do teste F: Testes de Hipóteses : O que nos leva a concluir que não existe evidência de falta de ajustamento. Ou seja, neste caso o modelo de regressão linear é adequado. ANOVA gl SQ MQ F F de significação Regressão 1 323007166 323007166 600,76 6,99E-62 Resíduo 198 106457419,4 537663,7346 Total 199 429464585,4 P-valor = 0,000 < = 0,05
Compartilhar