Baixe o app para aproveitar ainda mais
Prévia do material em texto
FACULDADE: UAM DISCIPLINA: GRA1439 ANÁLISE DE REGRESSÃO UNIVARIADA GR0085211 - 202110.ead-14936.01 ATIVIDADE: 3 DANIEL MACHADO GABRICH DE OLIVEIRA Caro(a) aluno(a), No decorrer da unidade, foram apresentados diversos tópicos relacionados a uma análise de regressão linear simples. Esse tipo de análise verifica a existência ou não de associação linear entre duas variáveis de interesse para uma pesquisa. Sabe-se que, para realizar uma pesquisa, deve-se inicialmente ter um assunto de interesse ou uma pergunta, e com isso formular um objetivo geral a ser atingido. Para que o objetivo seja atingido, é necessário elaborar um questionário de coleta de dados (instrumento) que contenham perguntas guiadas. Após o objetivo estipulado e o instrumento formulado, é a hora da aplicação desses pontos com a população-alvo, e logo depois, organiza-se os dados em uma planilha (por exemplo) para que sejam analisados Assim, considere que em uma pesquisa foi perguntada se a renda familiar de estudantes trabalhadores de uma certa região dependia do tempo de estudo. Logo, o objetivo era verificar a relação entre renda familiar e tempo de estudo (número de anos de estudo) da população-alvo. Foram entrevistados 12 estudantes trabalhadores e os dados coletados estão apresentados na Tabela a seguir. TABELA.png Fonte: Elaborada pela autora, 2021. https://anhembi.blackboard.com/bbcswebdav/pid-17421419-dt-content-rid-129505181_1/xid-129505181_1 Proposta Com base nas informações apresentadas e no conteúdo estudado, construa uma análise de regressão linear univariada para avaliar a relação entre renda familiar e tempo de estudo, sabendo que a reta estimada é = 282,5 + 1141,2 X. Lembre-se de apresentar a ANOVA e o Teste F com α = 5%, as hipóteses avaliadas, o intervalo de confiança β1 e o coeficiente de variação. Inclua em sua resposta com as interpretações e os resultados dos cálculos. Submeta o arquivo de sua resposta para avaliação docente. 1. Ao enviar este relatório, você concorda: (1) que está enviando este relatório para ser usado e armazenado como parte dos serviços do SafeAssign™, de acordo com Política de privacidade da Blackboard; (2) que sua instituição pode usar seu relatório de acordo com as políticas da instituição; e (3) que seu uso do SafeAssign se dará sem direito a recurso contra a Blackboard Inc. e suas afiliadas. http://www.blackboard.com/Footer/Privacy-Policy.aspx RESPOSTA Para começar vou citar abaixo a tabela base do nosso exercício TABELA 1 - Elencada no enunciado Neste exercício queremos saber se a variável RENDA FAMILIAR (em reais) apresenta alguma relação com a variável TEMPO DE ESTUDO (em anos). _________________________________________________________________________ A. VOU VALIDAR A EQUAÇÃO DA RETA DE REGRESSÃO. Assim vamos adotar: Xi: TEMPO DE ESTUDO (em anos) Yi: RENDA FAMILIAR (em reais) Assim teremos os seguintes valores com relação aos 12 estudantes: TABELA INICIAL Xi Yi 8 R$ 3.370,00 7 R$ 3.321,00 8 R$ 3.310,00 10 R$ 3.541,00 11 R$ 4.350,00 11 R$ 4.132,00 7 R$ 3.250,00 8 R$ 3.459,00 10 R$ 4.331,00 7 R$ 2.950,00 12 R$ 4.650,00 9 R$ 3.540,00 Quando pensamos em uma relação pensamos em uma função. Assim vou graficar um gráfico de pontos com as informações acima: Analisando os pontos acima vamos estimar a regra aproximada. A reta de regressão é dada por: Y = X + + erroα β = coeficiente dependenteα = coeficiente independenteβ Assim, vamos montar a seguinte tabela a partir dos dados primários do enunciado: TABELA COM DADOS DA PESQUISA COM IC Alunos Xi Yi X.Y X² ESTUDANTE 1 8 3.370 26.960 64 ESTUDANTE 2 7 3.321 23.247 49 ESTUDANTE 3 8 3.310 26.480 64 ESTUDANTE 4 10 3.541 35.410 100 ESTUDANTE 5 11 4.350 47.850 121 ESTUDANTE 6 11 4.132 45.452 121 ESTUDANTE 7 7 3.250 22.750 49 ESTUDANTE 8 8 3.459 27.672 64 ESTUDANTE 9 10 4.331 43.310 100 ESTUDANTE 10 7 2.950 20.650 49 ESTUDANTE 11 12 4.650 55.800 144 ESTUDANTE 12 9 3.540 31.860 81 TOTAL 108 44.204 407.441 1006 = 12 (407441) - (108)(44204)α 12 (1006) - (108)² = 4889292 - 4774032α 12072 - 11664 = 115260α 408 = 282,5α = 44204 - (282,5) 108β 12 12 = 3683,66 - (282,5) 9β = 3683,66 - 2542,5β = 1141,16 1141,2β ≈ Assim comprovei a reta de regressão ESTIMADA para esta amostra: Y = 282,5 + 1141,2 X + erro ________________________________________________________________________ B. Após validado a equação e baseando nas informações da tabela original vamos elaborar a ANOVA completando-a com os cálculos e seguindo algumas etapas. Vamos encontrar valores os valores de Y estimados (ŷ) substituindo na reta estimada dada os valores de X. A próxima coluna deve apresentar os dados das somas de regressão, calculando a diferença ao quadrado dos valores estimados com a média de Y, sendo ela nesse caso ȳ = 44204/12 = 3683,66. A coluna seguinte deve apresentar os valores das somas dos quadrados totais, calculando a diferença ao quadrado dos valores observados com a média de Y. Logo após, tem-se a coluna das somas dos quadrados dos resíduos, realizando o cálculo da diferença ao quadrado dos valores observados com os valores estimados. Assim teremos uma nova tabela: TABELA DE APLICAÇÃO DA SOMA DE QUADRADOS Para esta tabela assumi: SQReg = SQTot = SQRes = TABELA DE APLICAÇÃO DA SOMA DE QUADRADOS Alunos Xi Yi ŷ = 282,5 + 1141,2X SQReg SQTot SQRes ESTUDANTE 1 8 3.370 9.412,1 32.814.566, 56 98.407,69 36.506.972, 41 ESTUDANTE 2 7 3.321 8.270,9 21.042.403, 84 131.551,29 2.450.151,0 1 ESTUDANTE 3 8 3.310 9.412,1 32.814.566, 56 139.651,69 37.235.624, 41 ESTUDANTE 4 10 3.541 11.694,5 64.172.916, 64 20.363,29 66.479.562, 25 ESTUDANTE 5 11 4.350 12.835,7 83.759.104, 00 443.955,69 72.007.104, 49 ESTUDANTE 6 11 4.132 12.835,7 83.759.104, 00 200.972,89 75.757.393, 69 ESTUDANTE 7 7 3.250 8.270,9 21.042.403, 84 188.095,69 25.209.436, 81 ESTUDANTE 8 8 3.459 9.412,1 32.814.566, 56 50.490,09 35.439.399, 61 ESTUDANTE 9 10 4.331 11.694,5 64.172.916, 64 418.997,29 54.221.132, 25 ESTUDANTE 10 7 2.950 8.270,9 21.042.403, 84 538.315,69 28.311.976, 81 ESTUDANTE 11 12 4.650 13.976,9 105.949.966 ,24 933.735,69 86.991.063, 61 ESTUDANTE 12 9 3.540 10.553,3 47.191.404, 16 20.649,69 49.186.376, 89 TOTAL 108 44.204 126.639,6 610.576.322 ,88 3.185.186,6 8 569.796.194 ,24 CONTAS: 1. ŷ = 282,5 + 1141,2 (x) ŷ 1 = 282,5 + 1141,2 (8)= 9412,1 ŷ 2 = 282,5 + 1141,2 (7) = 8270,9 ŷ 3 = 282,5 + 1141,2 (8) = 9412,1 ŷ 4 = 282,5 + 1141,2 (10) = 11694,5 ŷ 5 = 282,5 + 1141,2 (11) = 12835,7 ŷ 6 = 282,5 + 1141,2 (11) = 12835,7 ŷ 7 = 282,5 + 1141,2 (7) = 8270,9 ŷ 8 = 282,5 + 1141,2 (8) = 9412,1 ŷ 9 = 282,5 + 1141,2 (10) = 11694,5 ŷ 10 = 282,5 + 1141,2 (7) = 8270,9 ŷ 11 = 282,5 + 1141,2 (12) = 13976,9 ŷ 12 = 282,5 + 1141,2 (9) = 10,553,3 2. ȳ = 44204/12 = 3683,66 3683,7≈ 3. SQReg = SQReg1 = (ŷ1 - ȳ )² = (9412,1 - 3683,7)² = (5728,4)² = 32814566,56 SQReg2 = (ŷ2 - ȳ )² = (8270,9 - 3683,7)² = (4587,2)² = 21042403,84 SQReg3 = (ŷ3 - ȳ )² = (9412,1 - 3683,7)² = (5728,4)² = 32814566,56 SQReg4 = (ŷ4 - ȳ )² = (11694,5 - 3683,7)² = (8010,8)² = 64172916,64 SQReg5 = (ŷ5 - ȳ )² = (12835,7 - 3683,7)² = (9152,0)² = 83759104,0 SQReg6 = (ŷ6 - ȳ )² = (12835,7 - 3683,7)² = (9152,0)² = 83759104,0 SQReg7 = (ŷ7 - ȳ )² = (8270,9 - 3683,7)² = (4587,2)² = 21042403,84 SQReg8 = (ŷ8 - ȳ )² = (9412,1 - 3683,7)² = (5728,4)² = 32814566,56 SQReg9 = (ŷ9 - ȳ )² = (11694,5 - 3683,7)² = (8010,8)² = 64172916,64 SQReg10 = (ŷ10 - ȳ )² = (8270,9 - 3683,7)² = (4587,2)² = 21042403,84 SQReg11 = (ŷ11 - ȳ )² = (13976,9 - 3683,7)² = (10293,2)² = 105949966,24 SQReg12 = (ŷ12 - ȳ )² = (10553,3 - 3683,7)² = (6869,6)² = 47191404,16 4. SQTot = SQTot1 = (Y1 - ȳ )² = (3370 - 3683,7)² = (-313,7)² = 98407,69 SQTot2 = (Y2 - ȳ )² = (3321 - 3683,7)² = (-362,7)² = 131551,29 SQTot3 = (Y3 - ȳ )² = (3310 - 3683,7)² = (-373,7)² = 139651,69 SQTot4 = (Y4 - ȳ )² = (3541 - 3683,7)² = (-142,7)² = 20363,29 SQTot5 = (Y5 - ȳ )² = (4350 - 3683,7)² = (666,3)² = 443955,69SQTot6 = (Y6 - ȳ )² = (4132 - 3683,7)² = (448,3)² = 200972,89 SQTot7 = (Y7 - ȳ )² = (3250 - 3683,7)² = (-433,7)² = 188095,69 SQTot8 = (Y8 - ȳ )² = (3459 - 3683,7)² = (-224,7)² = 50490,09 SQTot9 = (Y9 - ȳ )² = (4331 - 3683,7)² = (647,3)² = 418997,29 SQTot10 = (Y10 - ȳ )² = (2950 - 3683,7)² = (-733,7)² = 538315,69 SQTot11 = (Y11 - ȳ )² = (4650 - 3683,7)² = (966,3)² = 933735,69 SQTot12 = (Y12 - ȳ )² = (3540 - 3683,7)² = (-413,7)² = 20649,69 5. SQRes = Estimativa dos resíduos. Se eu tiver resíduos pequenos significa que tenho erros mínimos de previsão. SQRes1 = (Y1 - ŷ1 )² = (3370 - 9412,1)² = (-6042,1)² = 36506972,41 SQRes2 = (Y2 - ŷ2 )² = (3321 - 8270,9)² = (-4949,9)² = 24501510,01 SQRes3 = (Y3 - ŷ3 )² = (3310 - 9412,1)² = (-6102,1)² = 37235624,41 SQRes4 = (Y4 - ŷ4 )² = (3541 - 11694,5)² = (-8153,5)² = 66479562,25 SQRes5 = (Y5 - ŷ5 )² = (4350 - 12835,7)² = (-8485,7)² = 72007104,49 SQRes6 = (Y6 - ŷ6 )² = (4132 - 12835,7)² = (-8703,7)² = 75754393,69 SQRes7 = (Y7 - ŷ7 )² = (3250 - 8270,9)² = (-5020,9)² = 25209436,81 SQRes8 = (Y8 - ŷ8 )² = (3459 - 9412,1)² = (-5953,1)² = 35439399,61 SQRes9 = (Y9 - ŷ9 )² = (4331 - 11694,5)² = (-7363,5)² = 54221132,25 SQRes10 = (Y10 - ŷ10 )² = (2950 - 8270,9)² = (-5320,9)² = 28311976,81 SQRes11 = (Y11 - ŷ11 )² = (4650 - 13976,9)² = (-9326,9)² = 86991063,61 SQRes12 = (Y12 - ŷ12 )² = (3540 - 10553,3)² = (-7013,3)² = 49186376,89 VOLTANDO….. Notando que os valores são aproximados utilizando duas casas decimais, é possível formular a tabela ANOVA com os valores obtidos, com a inclusão da fonte de variação (FV), dos graus de liberdade, da soma dos quadrados, do quadrado médio (QM) e da estatística F. TABELA ANOVA - RESULTADOS FV GL SQ QM ESTATÍSTICA F REGRESSÃO 1 610.576.322,88 610576322,88 10,72RESÍDUO 10 569.796.194,24 56979619,42 TOTAL 11 1.180.372.517,12 667555942,30 Para essa tabela assumi: >FONTE DE VARIAÇÃO (FV): REGRESSÃO e RESÍDUO >GRAUS DE LIBERDADE (GL): Pode assumir valores dependendo do tipo: REGRESSÃO: K = 1 RESÍDUO: K = (N - 2) = (12-2) = 10 >SOMA DE QUADRADOS (SQ): >QUADRADO MÉDIO (QM): SQReg/GL (REGRESSÃO) = 610576322,88/1= 610576322,88 SQRes/GL (RESÍDUO) = 569796194,24/10=56979619,42 >ESTATÍSTICA F: QM REGRESSÃO / QM RESÍDUO = 610576322,88/56979619,42 = 10,72 Assim usando os dados presente na “TABELA COM DADOS DA PESQUISA COM IC”, formulamos o INTERVALO DE CONFIANÇA LINEAR (α = β0): IC = ( ; ) = [ +- t , (n - 2) ]β0 γ = 95% ^ β0 α/2 𝑄𝑀𝑅𝑒𝑠 1/𝑛 + �̄� ²/𝑆𝑥𝑥 [ ] Assumindo > = 282,5^ β0 > n = 12 > O quadrado médio do resíduo, de acordo com a tabela ANOVA é igual a 56979619,42 > A média de x é x̄² = (108/12)² = (9)² = 81 > = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥 𝑖=1 𝑛 ∑ 𝑋𝑖2 − 𝑛𝑥² > t , (n - 2) = é o valor tabelado de uma distribuição t-Student com (n-2) graus deα/2 liberdade sob H0. t , (n - 2) = t 0,05/2, (12-2) = t 0,025 , 10 = 2,228α/2 Substituindo os valores na fórmula do IC, temos: IC = ( ; ) = [ 282,5 +- 2,228 ]β0 γ = 95% 56979619, 42 1/12 + 81/34 [ ] IC = ( ; ) = [ 282,5 +- 2,228 ]β0 γ = 95% 56979619, 42 2, 4657[ ] IC = ( ; ) = [ 282,5 +- 2,228 * 11853,04381]β0 γ = 95% IC = ( ; ) = [ 282,5 +- 26408,58]β0 γ = 95% IC = ( ; ) = [ 282,5 - 26408,58 ; 282,5 + 26408,58]β0 γ = 95% IC = ( ; ) = [ - 26126,08; + 26691,08]β0 γ = 95% Interpretado o coeficiente estimado e o seu respectivo intervalo encontrado, tem-se^ β0 = 282,5 que é a média da Renda Familiar; isto é, para quem não tem nenhum Ano de^ β0 Estudo (X=0) A média da Renda Familiar é de R$282,50. Assim, a cada 100 intervalos de confiança, a 95% de chance de serem selecionados os valores [ - 26126,08; + 26691,08], contendo o verdadeiro valor do parâmetro .β0 Assim usando os dados presente na “TABELA COM DADOS DA PESQUISA COM IC”, formulamos o INTERVALO para o COEFICIENTE ANGULAR ( β1 0):≠ IC = ( ; ) = [ +- t , (n - 2) ]β1 γ = 95% ^ β1 α/2 𝑄𝑀𝑅𝑒𝑠/𝑆𝑥𝑥 Assumindo > = 1141,2^ β1 > n = 12 > O quadrado médio do resíduo, de acordo com a tabela ANOVA é igual a 56979619,42 > = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥 𝑖=1 𝑛 ∑ 𝑋𝑖2 − 𝑛𝑥² > t , (n - 2) = é o valor tabelado de uma distribuição t-Student com (n-2) graus deα/2 liberdade sob H0. t , (n - 2) = t 0,05/2, (12-2) = t 0,025 , 10 = 2,228α/2 Substituindo os valores na fórmula do IC, temos: IC = ( ; ) = [ +- t , (n - 2) ]β1 γ = 95% ^ β1 α/2 𝑄𝑀𝑅𝑒𝑠/𝑆𝑥𝑥 IC = ( ; ) = [ 1141,2 +- 2,228 ]β1 γ = 95% 56979619, 42/34 IC = ( ; ) = [ 1141,2 +- 2,228 * 1294,5544]β1 γ = 95% IC = ( ; ) = [ 1141,2 +- 2884,267]β1 γ = 95% IC = ( ; ) = [ 1141,2 - 2884,267 ; 1141,2 +2884,267]β1 γ = 95% IC = ( ; ) = [ - 1743,07 ; + 4025,47]β1 γ = 95% Interpretado o coeficiente estimado e o seu respectivo intervalo encontrado, tem-se^ β1 ^ = 1141,2 como valor indicado da Renda Familiar para cada ano de ESTUDO; isto é,^ β1 conforme acumula-se anos de estudo a média da renda familiar aumenta. Assim, entende-se que a cada 100 intervalos de confiança, a 95% de chance de serem encontrados os valores [ - 1743,07 ; + 4025,47] e conter o verdadeiro valor do parâmetro. TESTE DE HIPÓTESE Tem-se como objetivo fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apoiem ou não uma hipótese (estatística) formulada. Teste do coeficiente Linear e angular, respectivamente: • Ho: β0= 282, em que não existe efeito linear entre Y e X, versus a hipótese alternativa Ha: β0 ≠ 282 dado o modelo estimado: ^y = 282,5 + 1141,2 X + erro •Ho: β1 = 1141, sendo uma constante, versus a hipótese alternativa Ha: β1 ≠ 1141, sendo diferente da constante. Sabe-se, ainda, que o quadrado médio do resíduo é 56979619,42, de acordo com a tabela ANOVA, e = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥 𝑖=1 𝑛 ∑ 𝑋𝑖2 − 𝑛𝑥² Ao testar β0 = 14, obtêm-se: Tobs = 282,5 - 282 𝑄𝑀𝑅𝑒𝑠 1/𝑛 + �̄� ²/𝑆𝑥𝑥 [ ] Tobs = 0,5 . 𝑄𝑀𝑅𝑒𝑠 1/𝑛 + �̄� ²/𝑆𝑥𝑥 [ ] Tobs = 0,5 . 11853,04381 Tobs = 0,00004213 Considerando o valor crítico tabelado como -2,228, concluindo que Tobs < tc e logo não pertence à região crítica, pois não rejeita Ho. Graficando temos: - 2,228 + 0,00004213 + 2,228 Para testar β1 = 1141,2, tem-se: Tobs = 1141,2 - 1141 56979619, 42/34 Tobs = . 0,2 . 1294,5544 Tobs = 0,00015449 Considerando o valor crítico 2,228, tem-se: - 2,228 + 0,00015449 + 2,228 Assim, como Tobs < tc, ele não pertence à região crítica e não rejeita Ho, ou seja, β1 = 1141,2 >>> Teste F de independência global dos coeficientes do modelo Usando a tabela F-Snedecor para α = 5% Considerando Ho: β1 = 0 versus Ho: β1 ≠ 0, dado o modelo estimado ȳ = 282,5 + 1141,2 X, tem-se: > O quadrado médio de regressão equivalente a 55,02 > O quadrado médio do resíduo equivalente a 0,59, de acordo com a tabela ANOVA; > = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥 𝑖=1 𝑛 ∑ 𝑋𝑖2 − 𝑛𝑥² Logo, Fobs = 610576322,88 / 56979619,42 Fobs = 10,72 Considerando encontrar na tabela t-Student o valor equivalente a Fc = F 5%(1, 12-2) Fc = F 5%(1, 10) Fc = 4,96 Como Fobs > Fc, pertence à região crítica e rejeita Ho, indicando que existe relação linear entre Y e X e o modelo proposto é aceitável. No caso do exemplo, então, para cada ano de estudo a média salarial aumenta em 1141. >>> Coeficiente de Variação Aplicando esse conceito ao exemplo, em questão, com os valores já elencados acima é possível verificar se existe uma alta explicação da variabilidade do modelo linear das variantes, considerando o modelo estimado ŷ = 282,5 + 1141,2 X, a soma dos quadrados como 610.576.322,88 e a soma dos quadrados totais como 1.180.372.517,12, de acordo com a tabela ANOVA. O cálculo para encontrar o coeficiente de explicação é, então: R² = 610.576.322,88 1.180.372.517,12 R² = 0,5173 ou 51,73% Portanto, ao interpretar o coeficiente de explicação nesse caso, entende-se que a variabilidade total do modelo é explicada pela variável independente em 51,73%, considerada uma aceitável explicação para o modelo. (Falo isso porquea maior parte dos modelos permeiam 60%, segundo estudos).
Compartilhar