Baixe o app para aproveitar ainda mais
Prévia do material em texto
Atividade A3 - Análise de Regressão Univariada João Paulo Lazzarini Cyrino 27/04/2021 Apresentação dos dados e do modelo Os dados são formados pelas variáveis renda mensal e anos de estudo, sobre as quais se visa investigar o quanto os anos de estudo influenciam na rena mensal, ou seja, a renda mensal é a variável dependente e os anos de estudo, a independente. Os dados seguem abaixo: renda estudo 3370 8 3321 7 3310 8 3541 10 4350 11 4132 11 3250 7 3459 8 4331 10 2950 7 4650 12 3540 9 Foi oferecido o seguinte modelo para os dados1: ŷ = 1141, 2 + 282.5x Tabela ANOVA Para a análise do modelo, criamos a tabela ANOVA a partir dos cálculos das somas dos quadrados apresen- tados abaixo: SQTot = n∑ i=1 (yi − ȳ)2 SQReg = n∑ i=1 (ŷi − ȳ)2 1No enunciado do exercício, os coeficientes são apresentados de forma inversa, sendo o coeficiente angular 1141.2 e o linear 282.5. Isso, no entanto, gera uma regressão que não se ajusta aos dados de forma alguma e gera problemas para a resolução do exercício. A reta que deve ser utilizada é aquela com o coeficiente angular de 282.5 1 SQRes = n∑ i=1 (yi − ŷi)2 A tabela ANOVA segue abaixo: Fonte GL SQ SQM Regressão 1 2713412.5 2713412.51 Resíduo 10 471774.2 47177.42 Total 11 3185186.7 289562.42 sd A partir da divisão dos quadrados médios da regressão pelos quadrados médios residuais podemos obter a estatística F: F = QMReg QMRes = 2.7134125× 10 6 4.717742× 104 ≈ 57.52 Para o modelo, calculamos, portanto, a estatística F como 57.52. Testes de Hipóteses: Efeito Linear Avaliamos agora a hipótese com respeito à existência de efeito linear entre x e y. Nesse caso, estabelecemos como hipótese nula H0 que o coeficiente angular β1 = 0. Nesse caso, não há efeito linear. A hipótese alternativa Ha é a de que β1 6= 0, sugerindo efeito linear. Este teste é feito utilizando a estatística F. Como sinalizado anteriormente, nossa estatística F observada é: Fobs = QMReg QMRes = 2.7134125× 10 6 4.717742× 104 ≈ 57.52 Rejeitamos a hipótese nula se Fobs > Fc em que Fc é o F crítico: o valor da distribuição F para 5% com 1 e n-2 = 10 graus de liberdade2: Fc = F.05(1,n−2) = 4.9646027 Como pdemos observar, Fobs é maior que Fc, sugerindo a falsidade da hipótese nula. Isso corrobora a existência de relação linear entre as variáveis x e y. Intervalos de Confiança Utilizamos a distribuição-t para estabelecer os intervalos de confiança dos coeficientes para uma confiabilidade γ = 95%. Para o coeficiente linear, o intervalo de confiança é calculado da seguinte forma: IC(β0; γ = 95%) = [ β0 ± t.025,n−2 × √ QMRes ( 1 n + x̄ 2 Sxx ) )] 2Os valores das distribuições estão sendo calculados utilizando o software R 2 Sxx = n∑ i=1 x2i − nx̄2 Calculando temos que: IC(β0; γ = 95%) = (1141.2± 2.2281389× 341.06) = (381.26; 1901.14) Para o coeficiente angular temos: IC(β1; γ = 95%) = [ β1 ± t.025,n−2 × √ QMRes Sxx ] Calculando: IC(β1; γ = 95%) = (199.5; 365.5) Coeficiente de determinação O coeficiente de determinação é uuma forma de medir a adequação do modelo aos dados. É um número no intervalo [0; 1] em que 0 indica que o modelo não é linear e 1 indica um modelo totalmente adequado aos dados. O valor 1 não costuma ser bem visto, já que pode indicar sobreajuste. O coeficiente é representado pelo símbolo R2 e é calculado da seguinte forma: R2 = SQReg SQTot Também é interessante notar que: r = ± √ R2 O coeficiente de correlação de Pearson é equivalente à raiz quadrada de R2. Abaixo calculamos o valor R2 do modelo: R2 = 2.7134125× 10 6 3.1851867× 106 = 0.85 3 Apresentação dos dados e do modelo Tabela ANOVA Testes de Hipóteses: Efeito Linear Intervalos de Confiança Coeficiente de determinação
Compartilhar