Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNP - UNIVERSIDADE POTIGUAR BACHARELADO EM ESTATÍSTICA DISCIPLINA: ANÁLISE DE REGRESSÃO UNIVARIADA UNIDADE 3 – MEDIDAS DE QUALIDADE DO AJUSTE DO MODELO AUTORA: CECILIA APARECIDA VAIANO FARHAT REVISORA: CATIA ALMEIDA Atividade 3 N3, apresentada ao curso bacharelado em Estatística, ofertado pela Universidade Potiguar, como requisito avaliativo complementar da terceira avaliação da disciplina Análise de Regressão Univariada – Medidas de Qualidade do Ajuste do Modelo. ALUNO: EBERSON COSTA – MATRÍCULA 2020201380 BENEVIDES – PARÁ 2022 ANÁLISE DE REGRESSÃO UNIVARIADA UNIDADE 3 A3 N3 Caro(a) aluno(a), No decorrer da unidade, foram apresentados diversos tópicos relacionados a uma análise de regressão linear simples. Esse tipo de análise verifica a existência ou não de associação linear entre duas variáveis de interesse para uma pesquisa. Sabe-se que, para realizar uma pesquisa, deve-se inicialmente ter um assunto de interesse ou uma pergunta, e com isso formular um objetivo geral a ser atingido. Para que o objetivo seja atingido, é necessário elaborar um questionário de coleta de dados (instrumento) que contenham perguntas guiadas. Após o objetivo estipulado e o instrumento formulado, é a hora da aplicação desses pontos com a população-alvo, e logo depois, organiza-se os dados em uma planilha (por exemplo) para que sejam analisados Assim, considere que em uma pesquisa foi perguntada se a renda familiar de estudantes trabalhadores de uma certa região dependia do tempo de estudo. Logo, o objetivo era verificar a relação entre renda familiar e tempo de estudo (número de anos de estudo) da população-alvo. Foram entrevistados 12 estudantes trabalhadores e os dados coletados estão apresentados na Tabela a seguir. Fonte: Elaborada pela autora, 2021. Proposta Com base nas informações apresentadas e no conteúdo estudado, construa uma análise de regressão linear univariada para avaliar a relação entre renda familiar e tempo de estudo, sabendo que a reta estimada é = 282,5 + 1141,2 X. Lembre-se de apresentar a ANOVA e o Teste F com a = 5%, as hipóteses avaliadas, o intervalo de confiança ß1 e o coeficiente de variação. Inclua em sua resposta com as interpretações e os resultados dos cálculos. Submeta o arquivo de sua resposta para avaliação docente. RESPOSTAS Objetivando-se saber se a variável “Renda Familiar” apresenta alguma relação com a variável “Tempo de Estudo”, deve-se: I – Validar a equação da Reta de Regressão. Assim, adotou-se Xi: Tempo de Estudo Yi: Renda Familiar Logo, ter-se-á os seguintes valores com relação aos 12 estudantes. Ao se pensar em uma Relação, pensa-se em uma Função. Isso posto, representa-se um gráfico de pontos coma as informações acima. Fazendo a análise dos pontos acima, estima-se a regra aproximada. A reta de regressão se dá por: Então, a partir dos dados primários enunciados, monta-se a seguinte tabela: Comprova-se, assim, que a reta de regressão estimada para essa amostra é: Y = 282,5 + 1141,2 X + erro II - Após validado a equação e baseando-se nas informações da tabela original elabora-se a ANOVA completando-a com os cálculos, seguindo-se algumas etapas. Deve-se encontrar os valores de Y estimados (ŷ) substituindo-se na reta estimada com os valores de X. Na próxima coluna deve-se apresentar os dados das somas de regressão, calculando a diferença ao quadrado dos valores estimados com a média de Y, sendo ela nesse caso ȳ= 44204/12 = 3683,66. Na coluna seguinte apresenta-se os valores das somas dos quadrados totais, calculando-se a diferença ao quadrado dos valores observados com a média de Y. Logo após, tem-se a coluna das somas dos quadrados dos resíduos, realizando-se o cálculo da diferença ao quadrado dos valores observados com os valores estimados. Assim tem-se a Tabela de Aplicação da Soma de Quadrados Para esta tabela pode-se assumir: SQReg = SQTot = SQRes = CONTAS Como se percebe, os valores são aproximados utilizando-se duas casas decimais, logo é possível formular a tabela ANOVA com os valores obtidos, incluindo-se a fonte de variação (FV), os graus de liberdade (GL), as somas do quadrados (SQ), o quadrado médio (QM) e a Estatística F. TABELA ANOVA Para essa tabela foi-se assumido: FONTE DE VARIAÇÃO (FV): REGRESSÃO e RESÍDUO GRAUS DE LIBERDADE (GL): Pode assumir valores dependendo do tipo: REGRESSÃO: K = 1 RESÍDUO: K = (N - 2) = (12-2) = 10 SOMA DE QUADRADOS (SQ): QUADRADO MÉDIO (QM): SQReg/GL (REGRESSÃO) = 610576322,88/1= 610576322,88 SQRes/GL (RESÍDUO) = 569796194,24/10=56979619,42 ESTATÍSTICA F: QM REGRESSÃO / QM RESÍDUO = 610576322,88/56979619,42 =10,72 Interpretado o coeficiente estimado e o seu respectivo intervalo encontrado, tem-se ^ β1 ^= 1141,2 como valor indicado da Renda Familiar para cada ano de ESTUDO; isto é, conforme acumula-se anos de estudo a média da renda familiar aumenta. Assim, entende-se que a cada 100 intervalos de confiança, a 95% de chance de serem encontrados os valores [ - 1743,07 ; + 4025,47] e conter o verdadeiro valor do parâmetro. TESTE DE HIPÓTESE Tem-se como objetivo fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese (estatística) formulada. Teste do coeficiente Linear e angular, respectivamente: • Ho: β0= 282, em que não existe efeito linear entre Y e X, versus a hipótese alternativa Ha: β0 ≠ 282 dado o modelo estimado: ^y = 282,5 + 1141,2 X + erro • Ho: β1 = 1141, sendo uma constante, versus a hipótese alternativa Ha: β1 ≠ 1141, sendo diferente da constante. Sabe-se, ainda, que o quadrado médio do resíduo é 56979619,42, de acordo com a tabela Considerando o valor crítico tabelado como -2,228, concluindo que Tobs < tc e logo não pertence à região crítica, pois não rejeita Ho. Graficando tem-se: Assim, como Tobs < tc, ele não pertence à região crítica e não rejeita Ho, ou seja, β1 =1141,2 TESTE F DE INDEPENDÊNCIA GLOBAL DOS COEFICIENTES DO MODELO Usando a tabela F-Snedecor para α = 5% Considerando Ho: β1 = 0 versus Ho: β1 ≠ 0, dado o modelo estimado ȳ = 282,5 + 1141,2 X, tem-se: > O quadrado médio de regressão equivalente a 55,02 > O quadrado médio do resíduo equivalente a 0,59, de acordo com a tabela ANOVA; Como Fobs > Fc, pertence à região crítica e rejeita Ho, indicando que existe relação linear entre Y e X e o modelo proposto é aceitável. No caso do exemplo, então, para cada ano de estudo a média salarial aumenta em 1141. COEFICIENTE DE VARIAÇÃO Aplicando esse conceito ao exemplo, em questão, com os valores já elencados acima é possível verificar se existe uma alta explicação da variabilidade do modelo linear das variantes, considerando o modelo estimado ŷ = 282,5 + 1141,2 X, a soma dos quadrados como 610.576.322,88 e a soma dos quadrados totais como 1.180.372.517,12, de acordo coma tabela ANOVA. Então, o cálculo para encontrar o coeficiente de explicação é: R² = 0,5173 ou 51,73% Destarte, ao se interpretar o coeficiente de explicação nesse caso, entende-se que a variabilidade total do modelo é explicada pela variável independente em 51,73%, considerada uma aceitável explicação para o modelo. (Falo isso porque a maior parte dos modelos permeiam 60%, segundo estudos).
Compartilhar