Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA VIDEOAULA PROF. FABRÍCIO BIAZOTTO Análise de Código e Regressão www.acasadoconcurseiro.com.br http://www.acasadoconcurseiro.com.br ESTATÍSTICA 3 VIII. ANÁLISE DE REGRESSÃO A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação existente entre duas variáveis. 1 – Regressão Linear Simples Dado um conjunto de valores observados de X e Y, construir um modelo de regressão linear de Y sobre X consiste em obter, a partir desses valores, uma reta que melhor represente a relação entre essas variáveis. A determinação dos parâmetros dessa reta é denominada ajustamento. O processo de ajustamento deve partir da escolha da função através do qual os valores de X explicarão os de Y; para isso recorre-se a um gráfico conhecido como diagrama de dispersão. A função escolhida será aquela que for sugerida pelo conjunto dos pontos dispostos no diagrama. No exemplo a seguir, tem -se um conjunto de pontos sugerindo uma função linear. Y A reta é ajustada por: 2 – Regressão Linear Múltipla A equação de regressão estimada pode ser vista como uma tentativa para explicar as variações na vaiável dependente Y, que resultam das alterações das variáveis independentes X1,X2,...,Xk. Seja a média dos valores observados para a varável dependente. Uma medida útil associada ao modelo de regressão é o grau em que as predições baseadas na equação , , superam as predições baseadas em . Se a dispersão (erro) associada equação é muito menor que a dispersão (erro) associada a , as predições baseadas no modelos serão melhores que as baseadas em Dispersão em torno de ou Variação Total (SST): (Soma dos Quadrados Totais) Dispersão em torno da regressão = Variação não Explicada (SSE) 4 (Soma dos Quadrados dos Resíduos) OBS: O ajustamento será tanto melhor quanto menor for SSE relativamente a SST Dispersão em torno de e = Variação Explicada (SSR) (Soma dos Quadrados da Regressão) Assim: SST = SSE + SSR E o quociente entre SSR e SST é o coeficiente de determinação (r2) Note que: 0 ≤ r2 ≤ 1; r2 ≅ 1 (próximo de 1) significa que grande parte da variação de Y é explicada linearmente pelas variáveis independentes; r2 ≅ 0 (próximo de 0) significa que grande parte da variação de Y não é explicada linearmente pelas variáveis independentes. Ou também este coeficiente pode ser utilizado como uma medida da qualidade do ajustamento, ou como medida da confiança depositada na equação de regressão como instrumento de previsão: r2 ≅ 0 →modelo linear muito pouco adequado; r2 1→modelo linear bastante adequado. 1. Os dados a seguir referem-se ao volume de precipitação pluviométrica (em mm) e ao volume de produção de leite tipo C (em milhões de litros), em determinada região do país. ANO Produção de Leite C Índice Pluviométrico (mm) 1970 26 23 1971 25 21 1972 31 28 1973 29 27 1974 27 23 1975 31 28 1976 32 27 1977 28 22 1978 30 26 1979 30 25 A partir dos dados fornecidos, pede-se: a) ajustar os dados através de um modelo linear. b) admitindo-se, em 1980, um índice pluviométrico de 24 mm, qual deverá ser o volume esperado de produção do leite tipo C? 28,1 ESTATÍSTICA | FABRÍCIO BIAZOTTO 5 2. Um modelo de regressão linear múltipla foi estimado pelo método de Mínimos Quadrados, obtendo-se, com um nível de confiança de 95%, os seguintes resultados: Desse modo, pode-se afirmar que: a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo de 2,5 %. b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada. c) x3 explica 95,32% das variações de Y em torno de sua média. d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são, respectivamente, iguais a 5% e 95%. e) se no teste de hipóteses individual para β2 se rejeitar a hipótese nula (H0), então tem-se fortes razões para acreditar que x2 não explica Y. LETRA B 3. Os dados a seguir referem-se ao volume de precipitação pluviométrica (em mm) e ao volume de produção de leite tipo C (em milhões de litros), em determinada região do país. ANO Produção de Leite C Índice Pluviométrico (mm) 1970 26 23 1971 25 21 1972 31 28 1973 29 27 1974 27 23 1975 31 28 1976 32 27 1977 28 22 1978 30 26 1979 30 25 A partir dos dados fornecidos, pede-se: a) ajustar os dados através de um modelo linear. b) admitindo-se, em 1980, um índice pluviométrico de 24 mm, qual deverá ser o volume esperado de produção do leite tipo C? Y X X2 XY 26 23 529 598 25 21 441 525 31 28 784 868 29 27 729 783 27 23 529 621 31 28 784 868 32 27 729 864 28 22 484 616 30 26 676 780 30 25 625 750 Y = 289 X = 250 X2 = 6.310 XY = 7.273 6 b) 2. Um modelo de regressão linear múltipla foi estimado pelo método de Mínimos Quadrados, obtendo-se, com um nível de confiança de 95%, os seguintes resultados: Desse modo, pode-se afirmar que: a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo de 2,5 %. b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada. c) x3 explica 95,32% das variações de Y em torno de sua média. d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são, respectivamente, iguais a 5% e 95%. e) se no teste de hipóteses individual para β2 se rejeitar a hipótese nula (H0), então tem-se fortes razões para acreditar que x2 não explica Y. Vamos analisar uma a uma: A –se a variável x1 for acrescida em uma unidade Y aumentará em 2,5, não em %. B – Perfeito, esta é a definição de p-valor. C – O R² não é ó para x3, mas para a regressão toda. D – CUIDADO!!!! NÃO NECESSÁRIAMENTE 𝛼 + 𝛽 = 100% E – Errado, a rejeição da hipótese nula indica a significância do respectivo coeficiente. RESPOSTA: B
Compartilhar