Baixe o app para aproveitar ainda mais
Prévia do material em texto
Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc . Universidade Eduardo Mondlane Faculdade de Ciências Departamento de Matemática e Informática Curso de Estatística ANÁLISE DE REGRESSÃO Dr. Osvaldo Loquiha, MSc Ano académico: 2015 Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Capítulo 1 1. Modelo de Regressão Linear Simples1 Introdução ao Modelo de Regressão Linear Simples. Método dos Minímos Quadrados para estimação dos parâmetros. Estimação da variância ou . Propriedade dos estimadores do método dos Minímos Quadrados 1 Referência: Capítulo 1 em Kutner et al. (2005) e Gujarati (2000) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 1.1. Introdução ao Modelo de Regressão Linear Simples Definição: Análise de Regressão é uma metodologia estatística que utiliza a relação estatística entre duas ou mais variáveis quantitativas, tal que a variável resposta possa ser estimada ou prevista atráves da(s) variável(is) explicativa(s). É uma técnica largamente usada em economia, ciências sociais, ciências biomédicas entre outras. Exemplo de aplicações incluem: As vendas de um produto podem ser previstas utilizando a relação entre as vendas e o volume de gastos com publicidade; O tamanho do vocabulário de uma criança pode ser prevista utilizando a relação entre o tamanho do vocabulário e da idade da criança e nível de escolaridade dos pais; O tempo de permanência no hospital de um paciente cirúrgico pode ser prevista utilizando a relação entre o tempo no hospital e da gravidade da operação. 1.1.1. Relação funcional vs. Relação estatística Relação funcional entre duas variáveis (ou mais) é expressa por uma fórmula matemática: onde é uma função conhecida Exemplos: Sempre que X é conhecido, Y é determinado (conhecido) completamente Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Figura. 1: Exemplo de uma relação funcional Nota que todas as observações estão perfeitamente posicionadas na linha da relação funcional. Uma característica de todas relações funcionais. Frequentemente, a verdadeira associação entre X e Y é desconhecida, mas existe uma necessidade de descrever ou de alguma forma usar essa associação, porque: i. X pode ser mais fácil ou mais barato de observar que Y; ii. Dado um valor de X, podemos querer prever Y. Relação estatística Numa relação estatistica, essencialmente as variáveis são de natureza aleatória ou estocástica, i.e., variáveis que tem associado uma distribuição de probabilidade. onde representa o erro cometido ao se usar para aproximar Y. Notação: X é a variável independente (ou: explicativa, regressora, exógena, predictora); Y é a variável dependente (ou: explicada, regressando, endógena, resposta). Ideia: aproximar a relação entre X e Y, uma vez que não conhecemos exactamente Y para cada X. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Figura 2: Relação estatistica entre avaliação em meados (Midyear) e fim do ano (Year-end) Figura 3: Relação estatística curvilínea entre idade e nível de esteróides em mulheres saudáveis com idades entre 8-25 anos Como encontrarmos ? 1.1.2. Modelo de Regressão Linear Pares de dados (X, Y) observados. Descrever a relação entre X e Y com um erro uniformemente pequeno. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc ? Se o gráfico de dispersão de (X, Y) é aproximadamente linear, então podemos escrever: Assim, o modelo de regressão linear simples fica: é uma equação de uma linha recta; parâmetro para intercepto e para o declive ou coeficiente angular da recta. Simples porque apenas contém uma variável independente. Linear porque nenhum parâmetro aparece no expoente ou multiplicado e/ou dividido por outro parâmetro. Nota: Os modelos de regressão abordados nesse curso serão considerados linares se a equação de regressão é linear nos parâmetros. Nota: Para além dos gráficos de dispersão, o coeficiente de correlação linear de Pearson é uma boa alternativa para descrever a associação existente entre X e Y. Mais detalhes nas subsecção seguintes. Exemplos: Modelos de regressão linear Modelos de regressão não-linear Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Breve historial O termo regressão foi inicialmente introduzido por Sir Francis Galton2 (1822 – 1911, foto a esquerda). Ele estudou a relação entre a altura dos pais (X) e dos filhos adultos (Y) através duma equação linear. Ele observou que a altura de filhos de pais altos ou baixos tendia a reverter ou regressar à média da população, considerando essa tendência uma “regressão à mediocridade”. A lei de Galton de regressão universal foi depois confirmada por seu amigo Karl Pearson (1857 – 1936, foto a direita)3, que coleccionou mais de 1000 observações da altura de membros de grupos familiares. 1.1.3. Descrição formal do modelo de regressão linear Um experimento aleátorio é repetido n vezes em condições idênticas. Em cada ensaio o valor de é determinado (conhecido) e o valor de observado. Usamos um modelo de regressão linear simples da forma: Pressupostos: i. Os valores de são precisamente conhecidos; 2 Francis Galton (1886), “Regression towards mediocrity in hereditary stature”. Journal of the Anthropological Institute: 15, 246-263. 3 K. Person e A. Lee (1903), “On the Laws of Inheritance”, Biometrika: 2, 357 - 462 Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc ii. é uma variável contínua e aleátoria; iii. e são parâmetros do modelo, o que significa que eles são: a) Desconhecidos; b) Constantes, não aleátorios; c) Não dependentes do número do ensaio i. iv. é o termo de erro aleátorio. a) Não é observável; b) Média igual a zero; c) Possue variância constante (ou homoscedasticidade). Pressupostos adicionais: v. para todo i, i.e., segue uma distribuição normal com e para todo i. vi. Para dois ensaios diferentes, i e j, e são independentes, i.e, sua . De (v) e (vi) segue que ), i.e., e e que para todo i. Isto resulta naquilo a que se chama Modelo de regressão com termo de erro normal. Exemplo: Figura 4: Ilustração dum modelo de regressão linear simples Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Existe uma distribuição de probabilidade para Y associada a cada valor de X. As médias dessa distribuição de probabilidade variam de uma maneira sistemática de acordo com os valores de X. 1.1.4. Interpretação dos parâmetros do modelo Modelo de regressão populacional: Não pode ser observado segundo o pressuposto (iii): Precisa de ser estimado Modelo de regressão amostral ou estimado estima estima Figura 5: Significado dos parâmetros do modelo de regressão linear simples (intercepto) quando a região experimental inclui , é o valor da média da distribuição de Y em , caso contrário, não tem significado práctico como um termo separado (isolado) no modelo; Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc (coeficiente angular, declive, inclinação) expressa a taxa de mudança em Y, i.e., é a mudança em Y quando ocorre a mudança de uma unidade em X. Indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X. 1.2. Estimação dos parâmetros do modelo de regressão Metódo dos minímos quadrados é usado para estimar e , e também para mas de forma indirecta. Este metódo é valido independentemente de conhecida ou não a distribuição do termo de erro. Metódo de máxima verossimilhança é usado para a estimação quando se conhece a distribuição (normal) do termo de erro . Exemplo: A Tabela abaixo mostra os valores de aluguel (Y) em milhares MT e idade (X) em anos de 6 casas em Maputo. Tabela 1: Preço de aluguel (Y) e idade (X) de casas em Maputo X (anos) 10 13 5 7 3 18 Y (x 103) 12 8 20 15 25 7 Figura 6: Gráfico de dispersão para preço de aluguel e idade de casas em Maputo 5 10 15 1 0 1 5 2 0 2 5 Idade (anos) P re ço d e a lu g u e l( x1 0 0 0 ) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc O gráfico sugere uma tendência linear (decrescente) na relação entre preço de aluguer e idade da casa. Metódo dos Minimos Quadrados (MQ) Ideia: encontrar e que minimizem a “soma do quadrado dos erros” (SQE). Para cada par , o termo de erro é dado por: Somando para todas as observações: Calculando as derivadas parcias em relação à e , e igualando os resultados à zero, obtemos as chamadas Equações Normais: Note que e representam estimações pontuais (valores especifícos) de e , respectivamente, que minimizam . Com um pouco de algebra, obtemos: onde é chamado de soma de quadrados de produtos cruzados e é a soma de quadrados de X. Exemplo: Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Casa Idade ( ) Preço de aluguel ( ) Média estimada ( ) Erro Quadrado do Erro 1 10 12 13.7083 -1.708 2.918 -1.667 0.444 2 13 8 10.1473 -2.147 4.611 -23.833 13.444 3 5 20 19.6433 0.357 0.127 -23.833 18.778 4 7 15 17.2693 -2.269 5.149 -1.167 5.444 5 3 25 22.0173 2.983 8.896 -66.5 40.111 6 18 7 4.2123 2.788 7.771 -65 75.111 Total 56 87 86.998 0.00 29.474 -182 153.3333 Figura 7: Grafico mostrando a recta de regressão estimada Implementação em R x=c(10,13,5,7,3,18) y=c(12,8,20,15,25,7) plot(x,y,xlab="Idade (anos)", ylab="Preço de aluguel(x1000)") #Gráfico de dispersão modelo1=lm(y~x)# Modelo de regressão linear simples summary(modelo1) #Mostrar resultados pred=predict(modelo1,type="response") #Valores previstos ou estimados plot(x,y,xlab="Idade (anos)", ylab="Preço de aluguel(x1000)") 5 10 15 1 0 1 5 2 0 2 5 Idade (anos) P re ço d e a lu g u e l( x1 0 0 0 ) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc lines(x,pred) Output Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 216.026 216.026 29.318 0.005637 ** Residuals 4 29.474 7.368 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Call: lm(formula = y ~ x) Residuals: 1 2 3 4 5 6 -1.7087 -2.1478 0.3565 -2.2696 2.9826 2.7870 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 25.5783 2.3268 10.993 0.000389 *** x -1.1870 0.2192 -5.415 0.005637 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.714 on 4 degrees of freedom Multiple R-squared: 0.8799, Adjusted R-squared: 0.8499 F-statistic: 29.32 on 1 and 4 DF, p-value: 0.005637 Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Equação de regressão estimada Conhecidos e , podes escrever a equação de regressão estimada: Podemos pensar em como a média estimada da variável resposta para 1.3. Estimação de O valor minímo de , quando e , denota-se por SQE. É a soma de quadrados dos desvios entre e . Indica-no quão bem a linha de regressão se ajusta aos dados. onde é designado por resíduo ou termo de erro. Nota: i. é a diferença entre o valor observado e estimado (previsto) para . ii. Podemos pensar em como um estimador do termo de erro . Como é a variância comum dos e porque estima os então SQE deve providenciar alguma informação sobre . Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc De facto: SQE tem associado n-2 graus de liberdade. Dois graus de liberdade usados para estimar e na determinação da média estimada . Desta forma, a média de SQE também chamada de quadrado médio é dado pela fórmula: que é um estimador não enviesado de , onde QM significa quadrado médio. Nota: Não enviesado significa que 1.4. Propriedades dos estimadores do método dos minímos quadrados Teorema de Gauss-Markov Sob os pressupostos do modelo de regressão definidos na secção 1.1.3., e , são: a) Não enviesados b) Têm a miníma variância entre todos os estimadores lineares não enviesados de e e são também chamados de Melhores Estimadores Lineares não Enviesados de e , respectivamente. Note que o teorema de Gauss-Markov não requer o pressuposto da distribuição normal do termo de erro. Média e variância e e Sumário do método dos Minímos Quadrados Parâmetro Estimador Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 1.4.1. Propriedades do modelo de regressão linear estimada A recta de regressão estimada ,usando o método dos Minímos Quadrados possue as seguintes propriedades: i. A soma dos resíduos é igual a zero: ii. A soma de quadrados dos resíduos é um minímo. Isto resultadirectamente da condição à satisfazer quando derivamos os estimadores no método do Minímos Quadrados iii. A soma dos valores observados é igual a soma dos valores estimados iv. v. vi. A linha de regressão sempre passa pelo ponto . Nota: Estas propriedades não são válidas para todos os modelos de regressão linear. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Estrátegia tipíca na análise de regressão Sim Não Início Análise Exploratória de dados Desenvolvimento de um ou mais modelos iniciais Um ou mais modelos se ajusta aos dados? Rever os modelos ou desenvolver outros Identificar o modelo que melhor se ajusta Inferências sobre os parâmetros do modelo Fim Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Exercícios 1. Determine se as equações a seguir representam modelos de regressão linear simples: a. b. c. d. e. 2. Se o parâmetro no exercicio (e) do problema 1, então a equação seria considerada modelo de regressão linear simples? Porque? 3. Quando perguntado sobre o modelo de regressão linear simples, um estudante escreveu: Concordas? 4. Considere o seguinte modelo de regressão linear estimado: a. Explique o que representam e . Assuma que o domínio do modelo inclui X=0. b. Encontre o valor de para 5. Comente sobre a seguinte frase: “Para que o método de Minímos Quadrados seja completamente válido, é necessário que a distribuição de Y seja normal”. 6. Um estudante afirma que e podem ser estimados pelo método de Minímos Quadrados. Comente. 7. Prove que a soma dos valores observados é igual a soma dos valores estimados (propriedade (iii) em 1.4.1). 8. A tabela abaixo mostra o número de tinteiros para escrever um manuscrito (X) e o custo em MT para corrigir um erro ortográfico: Xi: 7 12 4 14 25 30 Yi: 128 213 75 250 446 540 a. É o modelo de regressão linear apropriado para esse caso? b. Se sim, calcule o valor de e e interprete. c. Calcule os resíduos e verifique se sua soma é igual a zero. d. Estime e variância de e . Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Capítulo 2 2. Inferência nos modelos de regressão linear4 Inferência para os coeficientes do modelo Inferência para a média estimada Previsão de novas observações Análise de variância (ANOVA) Teste geral do modelo linear Coeficiente de determinação R2 4 Referência: Capítulo 2 em Kutner et al. (2005) e capítulo 5 em Gujarati (2000) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 2.1. Inferência para os coeficientes do modelo Inferência é baseada na distribuição normal , i.e., identicamente independemente distribuido de acordo com uma distribuição normal com média 0 e variância constante . Inferência é baseado no Teorema do Limite Central. 2.1.1. Inferência para Na maioria dos problemas, nos estamos interessados em . Porquê? Não há associação linear entre X e Y. é um estimador pontual de . Queremos avaliar o quão bom é a estimar , i.e., para uma nova amostra, o quanto varia. Avaliação por meio de duas técnicas relacionadas: 1) Testes de hipóteses 2) Intervalos de confiança Distribuição amostral de Para inferência sobre , precisamos conhecer a variabilidade de . Distribuição amostral de é a distribuição de valores de calculados em amostras repetidas n vezes. Na secção 1.4. vimos que: e Não conhecemos a forma da distribuição de . No entanto, se tem distribuição normal, então tem também distribuição normal: é uma combinação linear de Combinação linear duma variável aleatória identicamente e independentemente distribuida de forma normal, é também normal. Nota: As propriedades acima enunciadas não serão demonstradas podendo a sua demonstração ser encontradas nas referências desse capítulo. Nota: No entanto, para a primeira propriedade, basta mostrar que Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc onde Sendo assim, Nota: Uma propriedade da distribuição normal diz-nos que se: tem distribuição normal, então . Mas se é estimado por , então . Testes de hipóteses para . H0: Ha: (hipótese bilateral) Estatística: Sob a hipótese nula (H0), onde Procedimento: i. Definir as hipóteses a testar e o nível de significância, , i.e., a probabilidade de rejeitar H0 sendo ela de facto verdadeira. ii. Encontrar os valores críticos do teste (limites da região critica ou de rejeição), usando os percentis da distribuição . No caso duma hipótese bilateral, os valores serão: e iii. Calcular a estatística do teste (T). iv. Comparar os valores de T com os valores críticos: para um teste bilateral: a. Se Não rejeite a hipótese nula b. Se Rejeite a hipótese nula Ou, calcule o valor da probabilidade associada a T (p-value) e compare com . c. Se Não rejeite a hipótese nula d. Se Rejeite a hipótese nula Nota: p-value indica-nos a probabilidade de observar um valor de T igual ou mais extremo que o observado, ou seja, é a probabilidade exacta de rejeitar H0 se ela é verdadeira. Intervalo de confiança para O intervalo com 100(1- )% de confiança para é dado por: Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc onde é o percentil superior ( ) duma distribuição t-Student com n-2 graus de liberdade. Exemplo: Voltamos ao exemplo do aluguer de casas (n=6) , , , , Para averiguar se idade (X) tem alguma habilidade explicativa no preço de aluguer de casas (Y), testamos: H0: vs. Ha: com com e Conclusão: Como p-value < 0.05 ou , i.e, 0.0056< 0.05 ou 5.415 > 2.776, podemos concluir que é significativamente diferente de zero, ou seja, a idade da casa é significativamente relacionada (linear) com o preço de aluguer do imóvel. Nota: Um teste é estatisticamente significativo se H0 é rejeitada, caso contrário o teste é não significativo. Esses resultadosestão incluidos no output gerado pelo Software R (secção 1.2) na tabela com os coeficientes do modelo. Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 25.5783 2.3268 10.993 0.000389 *** x -1.1870 0.2192 -5.415 0.005637 ** Residual standard error: 2.714 on 4 degrees of freedom O correspondente intervalo com 95% de confiança para é: Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Como se interpreta esse IC95%? Nota: O acima calculado intervalo de confiança colabora com a conclusão encontrada no teste de hipotese, sobre , uma vez que o intervalo não contém zero. 2.1.2. Inferência para Os argumentos usados para são também válidos para : é uma combinação linear de (Mostre). Então Testes de hipóteses e intervalo de confiança similar ao aplicado para . 2.2. Inferência para a média estimada O objectivo do modelo de regressão linear é estimar a média da distribuição de Y para valores especificos (fixos) da variável independente (X). Sabemos que é um estimador de . Inferência é baseada em intervalos de confiança. É preciso conhecer primeiro a distribuição amostral de para o valor . Distribuição amostral de e são combinações lineares de Escrevendo e , obtemos: Assim, é também uma combinação linear de e porque então Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Se substituirmos por , podemos usar a distribuição t para construir intervalos de confiança para a média de Y em X=xh. Exemplo: Aluguer de casas Imagine que queiramos estimar a média do preço de aluguer para uma casa com idade igual à 5 anos (Xh=5): que é uma estimativa pontual para a média Y quando X=5. Qual é o intervalo de valores possíveis para ? Comecemos por conhecer o erro padrão de , i.e., Para um intervalo de confiança com 95%, . Assim, o intervalo de confiança é: Estamos desta forma 95% confidentes que a verdadeira média de preço de aluguer de uma casa com 5 anos de idade , se encontra entre 15.593 e 23.693. 2.3. Previsão de novas observações de Y A nova observação de Y a ser prevista pode ser vista como o resultado de um novo ensaio ou experimento (amostra), independente dos ensaios (amostra) para o qual a recta de regressão é baseada. Por essa razão, para construir um intervalo de previsão para as novas observações de Y quando X=xh, precisamos de ter em conta duas fontes de variação: 1) A variabilidade da estimação da recta de regressão (i.e., a média estimada) e; 2) A variabilidade da nova observação, dado o seu valor médio O estimador pontual para a nova observação é dado por: Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc A diferença agora é que a previsão duma nova observação de Y é mais variável que a estimação da média de Y. A variância de é dado por : O intervalo de previsão é construido usando um intervalo de confiança baseado na distribuição de t-Student com n-2 graus de liberdade ( ) Nota: O intervalo é chamado de previsão porque indica-nos o intervalo de variação duma nova observação duma variável aleatória, diferentemente dum intervalo de confiança onde o interesse reside na estimação dum intervalo para a média de distribuição de Y. Exemplo: Continuemos com a caso do preço de aluguer de casa Para X=5, a estimativa pontual para uma nova observação de Y é: e O intervalo de previsão com 95% de confiança é dado por: Comparação entre intervalo de confiança e previsão: Intervalo de confiança de 95% Intervalo de previsão de 95% Observação 1 13.709 10.605 16.812 5.558 21.859 2 10.148 6.347 13.949 1.707 18.588 3 19.643 15.593 23.696 11.086 28.201 4 17.269 13.881 20.658 9.006 25.533 5 22.017 17.085 26.949 13.010 31.024 6 4.213 -1.894 10.319 -5.487 13.913 Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Figura 8: Intervalo de confiança de 95% para a média do preço de aluguer de casas Figura 9: Intervalo de previsão de 95% para novas observações do preço de aluguer de casas pr ec o_ al ug ue r -5 0 5 10 15 20 25 30 idade 2 4 6 8 10 12 14 16 18 Plot preco_aluguer*idade PRED*idade L95M*idade U95M*idade pr ec o_ al ug ue r -10 -5 0 5 10 15 20 25 30 35 idade 2 4 6 8 10 12 14 16 18 Plot preco_aluguer*idade PRED*idade L95*idade U95*idade Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Implementação em R x=c(10,13,5,7,3,18) y=c(12,8,20,15,25,7) y=y[order(x)] x=sort(x) pred=predict(fit1,type="response") pred.plim <- predict(fit1, interval="prediction") pred.clim <- predict(fit1, interval="confidence") plot(x,y,xlab="Idade", ylab="Preço_ aluguer") lines(x,pred,lty=1,lwd=4) matplot(x,cbind(pred.clim, pred.plim[,-1]), type="l") Análise de variância (ANOVA) Uma nova ferramenta para interpretação dos resultados do modelo de regressão linear. No modelo de regressão linear simples, podemos usá-lo para testar a hipótese: H0: Ha: Comece por definir a variação total da variável resposta Y que é também chamada de soma de quadrados total (SQT). Assim, SQT mede a variabilidade dos valores de Y em relação a sua média observada . O método de ANOVA separa SQT em diferentes fontes. As fontes que representam uma grande parte da variabilidade total são “importantes” para explicar a variável resposta, enquanto que aquelas que representam uma pequena parte sao menos “importantes”. O teste F da ANOVA, nos ajuda a decidir quais as fontes importantes e quais as menos importantes. Comecemos mostrar como podemos particionar SQT em diferentes fontes: , podemos adicionar e subtrair Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Elevando ao quadrado ambos os membros e somando para todas as observações, obtemos: O primeiro termo é a soma de quadrados do erro ou variação não explicada e o segundo é a soma de quadrados da regressãoque descreve a variabilidade explicada pela recta de regressão estimada. Nota: o último termo é igual a zero porque os estimadores do método de minímos quadrados são construidos de forma a que esse termo seja igual a zero (Mostre!). Figura 10: Ilustração da partição da soma de quadrados total (desvio total) Essas quantidades podem ser calculadas usando as seguintes fórmulas: Desvio Total Desvio da recta de regressão em relação à média Desvio em relação à recta de regressão Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Para sumarizar essa partição, usamos uma tabela ANOVA. Fonte de variação Graus de liberdade (gl) Soma de quadrados (SQ) Quadrado médio (QM) Regressão Erro Total Usualmente, a coluna do valore esperado do quadrado médio ( ) não é mostrado. Ao invés, uma estatistica F é incluida como parte da tabela ANOVA. A estatistica F testa a hipótese nula de que o modelo de regressão é “significante”, i.e., se o modelo de regressão tem alguma habilidade predictiva ou explicativa. Sob a hipótese nula, a estatística F tem distribuição amostral F com 1 grau de liberdade no numerador e n-2 no denominador. Esta estatística testa a mesma hipótese que a estatistica T. De facto, se considerarmos a razão entre e : podemos verificar que se é proximo de zero, então a razão é aproximadamente igual a 1. Contrariamente, se então a razão será elevada e maior que 1. Nota: o teste F automaticamente procede a um teste de hipótese bilateral, não sendo possivel hipóteses alternativas especifícas como Ha: ou Ha: . Nota: Para o caso da regressão linear simples, (Mostre!). Nota: Como regra de decisão, podemos usar: a. Se Não rejeite a hipótese nula b. Se Rejeite a hipótese nula Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Exemplo: Voltando ao caso do preço de aluguer de casas , e A tabela ANOVA é mostrada abaixo: Fonte de variação Gl SQ QM p-value Regressão 29.3 0.005 Erro Total Implementação em R x=c(10,13,5,7,3,18) y=c(12,8,20,15,25,7) fit1=lm(y~x) anova(fit1) Output do programa R Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 216.026 216.026 29.318 0.005637 ** Residuals 4 29.474 7.368 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Para , Conclusão: Como ou , podemos concluir que a relação linear entre X e Y é estatisticamente significativa, i.e., que é significativamente diferente de 0. 2.4. Teste geral do modelo linear Quanto é que o modelo linear melhora ao adicionarmos uma variável explicativa? Mais uma método para testar se . O método é baseado na redução da soma de quadrados. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Partimos do modelo completo: onde é a soma de quadrados do erro no modelo completo. O modelo reduzido é: onde Para testar se o modelo completo se ajusta ao dados significativamente melhor que o modelo reduzido (testar a relevância duma variável explicativa), podemos usar um teste F de uma forma diferente do da ANOVA. Sob a H0: Se é muito grande, então concluimos que o modelo completo se ajusta ao dados significativamente melhor que o modelo reduzido, i.e, . Como proceder? i. Estime o modelo completo e obtenha SQE(C). ii. Estime o modelo reduzido e obtenha SQE(R). iii. Calcule para testar se o modelo completo significativamente melhora o modelo reduzido. Regra de decisão: a. Se Não rejeite a hipótese nula b. Se Rejeite a hipótese nula Exemplo: Implementemos no R para o caso de preço de aluguer de casas. x=c(10,13,5,7,3,18) y=c(12,8,20,15,25,7) fit1=lm(y~x) ##Modelo completo fit2=lm(y~1) ##Modelo reduzido anova(fit1) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc anova(fit2) Output: > anova(fit1) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 216.026 216.026 29.318 0.005637 ** Residuals 4 29.474 7.368 --- > anova(fit2) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) Residuals 5 245.5 49.1 Para , Conclusão: Rejeitar H0: , i.e., podemos concluir, pelo facto de que p-value < , que o modelo de regressão completo se ajusta significativamente melhor ao dados que o modelo reduzido, ou seja, que . Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 2.5. Coeficiente de determinação R2 Medidas que descrevem o grau de associação linear entre X e Y. Sabemos que SQT mede a variabilidade quando estimamos a média de Y e X não consta do modelo. Da mesma forma que SQE mede a variação em Y quando o modelo de regressão utiliza a variável explicativa X. Assim, uma medida natural do efeito de X na redução da variabilidade em Y, i.e, na redução da incerteza na estimação de Y, é escrever a redução na variação (SQT- SQE=SQR) como uma proporção da variação total: é chamado de coeficiente de determinação e mede a proporção da variação total em Y que é explicada pela recta de regressão linear com X como variável explicativa. Nota: Porque então . No caso de um perfeito ajuste da recta de regressão às observações; e . Nota: Em práctica, , e quanto mais próximo estiver de 1, maior é o grau de associação linear entre X e Y. O coeficiente de determinação é o quadrado do coeficiente de correlação linear, , que mede a grau de associação linear entre X e Y quando ambas variáveis são aleatórias. onde o sinal de depende do sinal de Lembrar que Nota: , onde valores próximos de -1 e 1 indicam uma forte associação linear negativa ou positiva entre X e Y, respectivamente. Nota: e estão relacionados da seguinte maneira: onde s indica o desvio padrão da variável X ou Y. Exemplo: Para o caso de preço de aluguer de casas e . Desta forma, cerca de 87.9% da variação total no preço de aluguer de casas é explicada pelo equação de regressão estimada tendo idade como variável explicativa. O coeficiente de correlação linear Dpt. de Matemática e InformáticaFicha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Exercicios 1. Um estudante estagiando num departamento de pesquisas económicas duma grande empresa analisou a relação entre as vendas dum producto (Y, em milhões de MT) e o tamanho da população (X, em milhões de pessoas). Para tal ele usou o modelo de regressão com termo de erro normal. Eis o output que ele obteu: Parâmetro Estimativa 95% Intervalo de confiança Intercepto 7.43119 -1.18518 16.0476 Declive 0.75504 0.45288 1.05721 a) O estudante concluiu, apartir desses resultados, que existe uma associação linear entre X e Y. Concordas? b) Qual o nivel de significância associado? 2. Num teste de hipóteses, com H0: e Ha: , um analista concluiu que não devia rejeitar H0. Será que esta conclusão implica que não exista uma relação linear entre X e Y? Explique. 3. Manutenção de copiadoras. O Tri-City Office Equipment Corporation vende uma copiadora importada em uma base de franchise e executa a manutenção preventiva e serviços de reparação sobre esta copiadora. Os dados na tabela abaixo foram colectados de 45 sessões recentes aos usuários para executar serviços de manutenção preventiva de rotina. Para cada sessão, X é o número de copiadoras atendidas e Y é o número total de minutos gastos pela pessoa de serviço. a) Obtenha a recta de regressão estimada e trace num gráfico de dispersão. b) Interprete os valores dos coeficientes da recta de regressão estimados. c) Obtenha o intervalo de confiança de 95% para e interprete-o. d) Use o teste T para determinar se existe ou não uma associação linear entre X e Y. Use . Enuncie as hipótese, regra de decisão e a conclusão. Qual o p- value do seu teste? e) São os resultados em (c) e (d) consistentes? Explique. f) O fabricante sugeriu que a média de tempo de serviço não deverá aumentar em mais de 14 minutos para cada copiadora adicional que é servido. Teste se esse padrão esta a ser observado pela Tri-City. Use . Enuncie as hipótese, regra de decisão e a conclusão. Qual o p-value do seu teste? g) Obtenha um intervalo de confiança de 90% para a média do tempo de serviço em situações que 6 copiadoras estão sendo servidas. Interpreta o seu intervalo de confiança. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc h) Obtenha um intervalo de previsão de 90% para o tempo de serviço na qual 6 copiadoras estão sendo servidas. É o intervalo de previsão mais amplo que o intervalo de confiança? i) Produza a tabela ANOVA. Usando o teste F determine se existe ou não associação linear entre X e Y. Use . Enuncie as hipótese, regra de decisão e a conclusão. Qual o p-value do seu teste? j) Por quanto, relativamente, é a variação total do número de minutos gastos reduzido quando o número de copiadoras à servir é introduzido no modelo? Calcule e interprete o seu valor. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Dados para o exercicio 3. Yi Xi 20 2 60 4 46 3 41 2 12 1 137 10 68 5 89 5 4 1 32 2 144 9 156 10 93 6 36 3 72 4 100 8 105 7 131 8 127 10 57 4 66 5 101 7 109 7 74 5 134 9 112 7 18 2 73 5 111 7 96 6 123 8 90 5 20 2 28 2 3 1 57 4 86 5 132 9 112 7 27 1 131 9 34 2 27 2 61 4 77 5 Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Capitulo 3 3. Diagnósticos e medidas de correção5 Análise residual Testes formais para diagnósticos Medidas de correção Transformações 5 Referência: Capítulo 3 em Kutner et al. (2005) e 6 em Gujarati (2000) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 3.1. Análise residual Necessidade de averiguar a aptidão do modelo de regressão estimado aos dados (verificar a validade dos pressupostos do modelo). Porquê? Este procedimento deve anteceder as inferências sobre os parâmetros do modelo. Diagnósticos através dos resíduos (erro observado) ou resíduos estudentizados Podem ser usados gráficos (diagnóstico informal) ou testes de hipóteses (diagnóstico formal). Resíduos: Propriedades: 1) 2) 3) Resíduos estudentizados 3.1.1. Desvios do modelo de regressão que podem ser estudados apartir dos resíduos 1. Linearidade A função de regressão não é linear. 2. Homoscedasticidade O termo de erro não tem variância constante. 3. Indepêndencia Os termos de erro não são independentes. 4. Outliers O ajuste é bom excepto para algumas observações extremas. 5. Normalidade O termo de erro não é normalmente distribuido. 6. Extensão do modelo Variáveis independentes (importantes) não estão no modelo. 3.1.2. Gráficos para diagnósticos Frequentemente, gráficos para diagnósticos são tão importantes quanto os testes formais. Podem nos informar se o modelo de regressão linear é mesmo apropriado. Figura 11: Protótipo de gráficos residuais Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Gráficos univariados de X e Y Usados para: Identificação de outliers (valores extremos ou atípicos). Examinar a forma da distribuição da variável. Os gráficos comumente usados para esses fins são: Caixa e bígodes para X e Y; Caule e folha; Histogramas, etc. Gráficos bivariados de X e Y 1) Gráficos de X vs. Y É a relação entre X e Y linear? Não linear? Existem valores atípicos bi-dimensionais (em relação a X e Y)? É a premissa de variância constante apropriada? A figura abaixo mostra um gráfico de dispersão para X vs. Y. A associação entre X e Y mostra-se quase linear, e assim, a premissa de lineariadade não parece completamente inapropriada. Figura 12: Relação linear entre X e Y Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 2) Gráficos dos residuos vs. X Útil para detectar não linearidade. Qualquer padrão observável no gráfico indica problemas com os pressupostos do modelo. Figura 13: Residuos não lineares O gráfico acima mostra os residuos vs. X. Claramente, este mostra que os resíduos apresentam um padrão Baixo-Alto-Baixo, que é típico quando a relação entre X e Y é não linear. Em contrapartida, a Figura 14 mostra um padrão “aleatório” para os residuos. Se considermos o histograma para esses residuos, muito provavelmente sugeria uma distribuição normal dos residuos. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Figura 14: Residuos com padrão aleatório 3) Gráficos dos residuos ou residuos ao quadrado vs. X Útil para detectar variância do erro não constante. Resíduos distribuidos num padrão do tipo Megafone indicam que o pressuposto de variância constante do termo de erro foi violado. Figura 15: Variância não constante 4) Gráficos dos residuos vs. sequência temporal ou arranjo espacial das observações Qualquer padrão indica falta de independência dos termos de erro. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr.Osvaldo Loquiha, MSc Figura 16: Gráficos da sequência temporal dos resíduos ilustrando não independencia do termo de erro 5) Gráficos dos residuos vs. Para uma variável explicativa, este gráfico tem a mesma informação que o gráfico dos residuos vs. X. Para regressão linear múltipla, este gráfico ajuda-nos a investigar padrões nos residuos quando o valor esperado aumenta. 6) Gráficos dos residuos padronizados vs. X Residuos padronizados são definidos como: Usando estes resíduos padronizados, facilmente podemos detectar outliers ou valores atípicos. Outliers podem ter um efeito adverso sobre a recta de regressão. Devem ser descartados apenas se resultarem dum erro de digitação ou mensuração. Outliers podem conter informação sobre possiveis interações com outras variáveis não presentes no modelo. Nota: Se os dados tem distribuição normal, então 95% dos residuos padronizados devem estar entre -2 e 2 desvios-padrão. Valores maiores que 3 ou menores que -3 são considerados atípicos. 7) Gráficos de probabilidade normal Também conhecido como gráfico Quantil-Quantil ou Q-Q. A ideia é traçar um gráfico dos resíduos ordenados vs. valor esperado dos resíduos sob a distribuição normal, i.e., os quantis correspondentes da distribuição normal (ex. o 10o percentil nos dados é traçado vs. o 10o percentil da distribuição normal). Se os residuos tem distribuição normal então, os pontos devem estar dispostos aproximadamente sobre uma linha recta. Nota: Resíduos não normais aparecem quando pontos nas “caudas” da distribuição estão longe da linha recta. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc O gráfico abaixo é um exemplo duma situação onde os resíduos se desviam ligeiramente da normalidade. Quando comparado a distribuição normal, o maior residuo é ligeiramente maior, da mesma forma que o menor resíduo é ligeiramente menor. Figura 17: Gráfico Q-Q com resíduos normais O exemplo a seguir mostra uma situação onde os resíduos não tem distribuição normal. Agora o gráfico mostra que os maiores residuos são bem maiores do que aquilo que se podia esperar sob a distribuição normal. Figura 18: Gráfico Q-Q com resíduos não normais Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Figura 18: Protótipos do gráfico Q-Q quando distribuição do termo de erro é não normal. Os seguintes passos são usados para construir o gráfico Q-Q: 1) Ordenar os resíduos de forma crescente (k=posição relativa do resíduo). 2) Calcular o resíduo esperado sob distribuição normal: Onde é o percentil duma distribuição normal 3) Traçar um gráfico dos resíduos ordenado vs resíduos esperados sob distribuição normal. Nota: Desvio de normalidade podem se dever a um modelo mal ajustado aos dados ou porque variância do erros não é constante. Dessa forma, é recomendável investigar primeiro outros desvios e depois a normalidade. 3.2. Testes formais 3.2.1. Teste para aleatóriedade ou indepêndencia do termo de erro Teste de Durbin-Watson Se o termo de erro é autocorrelacionado (não independente), então podemos escrever o termo de erro como um modelo autoregressivo de primeira-ordem: , Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc : parâmetro de autocorrelação vs. Estatística: Regra de decisão Não rejeitar Rejeitar Inconclusivo Implementação em R library(lmtest) dwtest(fit1) Nota: Valores para e (limites inferior e superior de D) podem ser encontrados na Tabela B.7 em Kutner et al. Se desejamos um teste para autocorrelação negativa, a estatística do teste a ser usado é . O teste é conduzido da mesma forma para autocorrelação positiva (como descrito acima), i.e, se podemos concluir que . Teste bilateral para vs. pode ser obtido ao empregar-se ambos testes unilaterais separadamente, com o erro tipo I sendo igual à onde representa erro tipo I para cada teste unilateral. Se o teste é inconclusivo, então mais observações devem ser consideradas ou medidas de correção aplicadas. O teste de Durbin-Watson não é robusto contra má especificação do modelo. Por exemplo, o teste não fornece informação sobre a presença de autocorrelação se o termo de erro segue um modelo autoregressivo de segunda-ordem. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 3.2.2. Teste para constância da variância Teste de Levene Robusto contra desvios sobre a premissa de distribuição normal, i.e., o teste é valido mesmo se o termo de erro não segue a distribuição normal. Útil para detectar padrões do tipo megafone. Requer uma amostra grande (distribuição assimptótica). Procedimento 1) Arrange os valores de em ordem crescente valores de X. 2) Divide a amostra em dois grupos em relação aos valores de X: Grupo 1: n1 observações para valores menores de X. Grupo 2: n2 observações para valores maiores de X. 3) Calcule e onde e representam os resíduos medianos do grupos 1 e 2 respectivamente. Estatística do teste: teste T para duas amostras independentes onde Implementação em R library(lawtest) levene.test(residuals(fit1), group, option=”median”) #group #refere-se ao nome da variavel explicativa que define os #grupos Teste de Breusch- Pagan Requer que Requer que o tamanho de amostra seja grande. Pode detectar relações do tipo Procedimento: Escreva como função de X e obtenha a Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Estatística com a soma de quadrados do resíduos do modelo de regressão de Y em X. Regra de decisão Rejeitar Não rejeitar Implementação em R library(lmtest) bptest(y~x) 3.2.3. Teste para normalidade 1) Obtenha os residues do modelo e resíduos esperados sob a distribuição normal. 2) Calcule o coeficiente de correlação de Pearson entre as duas variáveis: 3) Compare com valores críticos tabulados (Tabela B.6 Kutner et al.) 4) Regra de decisão: Termo de erro com distribuição normal Termo de erro sem distribuição normal Nota: Os valores de estão tabulados de acordo com o tamanho de amostra e o nivel de significância Implementação em R library(nortest) pearson.test(residuals(fit1)) Outros testes Shapiro-Wilk Kolmogorov-Smirnov Lilliefors Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 3.2.4. Identificação de outliers Resíduos padronizados que excedam 3 ou menores que -3 desvios-padrão. Observações cujo resíduos ou valor de Y é um outlier num diagrama de caixa-bigodes. Re-estimar o modelo sem a observação suspeita e construir um intervalo de previsão para novo Y para um nível de X igual ao da observação suspeita. Será que o intervalo de previsão inclui o valor da observaçãosuspeita? Figura 19: Gráfico residual com Outlier Figura 20: Distorção nos resíduos causados por um outlier quando o remanescente dos dados se ajustam ao modelo de regressão linear Muitas técnicas estão disponiveis para identificação de outliers (ex.: Teste de Bonferroni) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Implementação em R library(car) outlier.test(fit1) 3.3. Teste para falta de ajuste do modelo de regressão Teste para verificar se o modelo de regressão linear é apropriado. Será que o pressuposto de linearidade é apropriado? Este teste é apenas possível quando repetidos valores de Y estão disponíveis para alguns níveis de X. Figura 21: Gráfico de dispersão e recta de regressão estimada Pressupostos A variável Y é assumida como: Independente, Tem distribuição normal Variância constante, Notação : i-ésima observação para o j-ésimo valor de X. : no de valores distintos de X, Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc : no de observações em Procedimento do teste 1) Usando as observações de Y, estime a variância do erro para cada valor distinto de . 2) Junte estas estimativas para obter a variância estimada do “erro puro”. 3) Compare este “erro puro” com a SQE em um teste F. Passo 1 Modelo completo , onde , e é o modelo linear geral. Onde SQEP representa a soma de quadrados do “erro puro” e g.l os graus de liberdade. Passo 2 Modelo reduzido Passo 3 Sob com SQFA, a soma de quadrados devido a falta de ajuste. Ideia do teste. Decomponha SQE em soma de quadrados devido ao erro puro (SQEP) e soma de quadrados devido a falta de ajuste (SQFA) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Elevando ao quadrado ambos os membros e somando para todas as observações, obtemos: Então: A SQFA pode ser calculado facilmente dado que para cada , é o mesmo. Figura 22: Ilustração da decomposição da SQE em SQEP e SQFA Residuo Erro Puro Falta de Ajuste Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Nota: Regra de decisão Se Não rejeitar Se Rejeitar Tabela ANOVA Fonte de variação G.l (gl) SQ QM Regressão Erro Falta de Ajuste Erro Puro Total Exemplo: 1 1 50 1530 1470 1487 60 3600 1 2 50 1410 -60 3600 2 1 100 1690 1620 1599 70 4900 2 2 100 1550 -70 4900 3 1 150 1680 1720 1711 -40 1600 3 2 150 1760 40 1600 4 1 200 1850 1810 1823 40 1600 4 2 200 1770 -40 1600 Soma 1000 13190 6620 6620 0 23400 Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc ; , Implementação em R x=c(50,50,100,100,150,150,200,200) y=c(1530,1410,1690,1550,1680,1760,1850,1770) plot(x,y) fit1=lm(y~x) #modelo reduzido summary(fit1) fit2= lm(y~factor(x)) #modelo completo summary(fit2) anova(fit1,fit2) 50 100 150 200 1 4 0 0 1 5 0 0 1 6 0 0 1 7 0 0 1 8 0 0 x y Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Output > anova(fit1,fit2) Analysis of Variance Table Model 1: y ~ x Model 2: y ~ factor(x) Res.Df RSS Df Sum of Sq F Pr(>F) 1 6 25360 2 4 23400 2 1960 0.1675 0.8514 Conclusão: Como ou 0.8514>0.05 então podemos concluir que não existem evidências suficientes para rejeitar , i.e., o modelo ou modelo de regressão linear não é inapropriado para ajustar aos dados. 3.4. Medidas de correção Resumo Linearidade Modifique o modelo de regressão; Use uma transformação em X ou em Y. Homoscedasticidade ou variância constante Use o método de Minímos quadrados ponderados; Transformação para estabilização da variância. Independência Use um modelo de series temporais; Use o método dos Minímos quadrados generalizados; Transformações especiais Outliers Descarte os outliers (Atenção !!!) Use interações entre variáveis independentes; Use um método de estimação robusto. Normalidade Use Modelos Lineares Generalizados. Use uma transformação em Y. Extensão do modelo Use regressão linear múltipla. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Se o modelo de regressão linear não é apropriado, então: 1) Use um modelo apropriado ou, 2) Empregue algumas transformações e análise os dados transformados. Cuidado com as conclusão!!!! 3.4.1. Lineariadade O que fazer se o modelo de regressão não é linear? Desenvolve um modelo de regressão que se ajuste aos dados. Verifique os gráficos para diagnósticos. Este é um processo iterativo. Transforme as variáveis por forma a que uma relação linear se ajuste aos dados transformados. Métodos não parâmetricos podem ajudar nesse processo (quando a natureza da relação não é conhecida). Transformações A ideia é substituir X e/ou Y por valores transformados dessas variáveis e depois estimar o modelo de regressão linear. O objectivo das transformações é satisfazer os pressupostos do modelo linear. Testes de significância e intervalos de confiança são realizados ao nível da variável transformada. Se o único problema observado é a não-linearidade, podemos transformar X apenas. A razão é que transformações da variável Y podem induzir um problema de heteroscedasticidade ou não normalidade do termo de erro. Exemplos de tais transformações podem ser observados na figura abaixo: Figura 23: Protótipo de padrões de regressão e possíveis transformações em X Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 3.4.1. Independência O que fazer se o termo de erro não é independente? A primeira acção é incluir mais variáveis explicativas no modelo. Outra acção envolve adição de variáveis ou componentes no modelo que meçam a tendência, tais como tendência linear ou exponencial. Também pode-se usar transformações especiais na variável resposta. A seguinte transformação pode ser empregue:, , , , com Onde: Procedimento 1) Estime o coeficiente de autocorrelação e 2) Use o valor estimado para obter as variáveis transformadas 3) Estime o modelo de regressão 4) Transforme as variáveis de volta ao nível original Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc ; 3.4.2. Heteroscedasticidade e não-normalidade Variância dos resíduos não é constante, mas varia de forma sistemâtica. Então, uma aproximação ou correção directa é usar o método de minímos quadrados ponderados. Transformações podem também ser efectivos para estabilizar a variância. Exemplos de tais transformações podem ser observados na figura abaixo: Figura 24: Protótipo de padrões de regressão com variância do erro desigual a) b) c) Frequentemente a heteroscedasticidade e não-normalidade são problemas ou desvios associados. As mesmas transformações empregues para estabilizar a variância, podem ser usados para tornar o termo de erro normal. Situações há em que transformações em Y podem também ajudar a linearizar uma relação curvilínea. Por vezes, se a variância não é constante mas a relação é linear, ambas variáveis Y e X devem ser transformadas. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 3.4.3. Família de transformações Box-Cox Correção para: Assimetria; Não normalidade; Variância não constante; Nao linearidade. Uma transformação apropriada é escolhida apartir do seguinte: , i.e., se se , , e podem ser encontrados pelo método da máxima verossimilhança. Casos especiais: 2.0 0.5 0.0 -0.5 -1.0 Ideia: Experimente um conjunto de valores para (ex.: -2, -1.8, -1.6,...,1.8,2) e escolhe o que minimizar a SQE. 3.4.3.1. Dois casos especiais 1) Dados de contagem Dados de contagem são frequentemente distribuidos de acordo com uma distribuição Poisson. Para tais variáveis, , o que imediatamente viola o pressuposto de variância constante. Em tais casos, é um bom ponto de partida para modelar os dados. Um transformação ligeiramente melhor que esta é a de Friedman-Tukey para estabilizar a variância, i.e., Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 2) Dados sobre proporções Dados denotando proporções (ou percentagens) de uma certa característica encontram-se com alguma frequência em estudos biológicos e também em não-biológicos. Exemplo, Y=% de ou Y=proporção de casos doentes Este tipo de variáveis têm pelo menos duas características que causam dificuldades na estimação do modelo linear: i. A proporção, . Então, a equação de regressão linear deve ter em conta esta propriedade. ii. A variância de tipicamente depende de , i.e., para distribuição binomial onde Existem duas formas de ultrapassar esse problema: 1. Usando a transformação arcoseno 2. Transformação logit: logit Mais moderno que a transformação arcoseno. Tem algumas propriedades estatísticas interessantes, ideias para modelação. 3.4.4. Outliers Outliers foram identificados....e depois? 1) Verifique se os pontos foram mensurados e registrados de forma correcta. 2) Estime o modelo de regressão com e sem a observação atípica. Será que os resultados mudam significativemente? Se não, reporte os resultados incluindo o outlier, mas não se esquece de mencionar a sua presença. Se os resultados mudam significativamente, reporte ambos resultados (com e sem outliers). Exemplo ilustrativo: Examinemos os pressupostos para o caso preços de aluguer de casas. Implementação em R x=c(10,13,5,7,3,18) y=c(12,8,20,15,25,7) plot(x,y,xlab="Idade (anos)", ylab="Preço de aluguel(x1000)") Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc fit1=lm(y~x) summary(fit1) res=resid(fit1) #Analise Residual library(car) reg.line(fit1) plot.lm(fit1) #graficos para diagnósticos plot(res,ylab="Residuos", xlab="Sequencia das observaçoes") abline(a=mean(res),b=0) library(lmtest) durbin.watson(fit1)#para Ha:ρ≠0 dwtest(fit1) )#para Ha:ρ>0 bptest(y~x)#para variancia constante library(nortest) pearson.test(res)#teste de normalidade usando correlacao rstandard(fit1) outlier.test(fit1)#teste para outliers fit2=lm(y~factor(x)) summary(fit2) anova(fit1,fit2)#teste falta de ajuste Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Outputs > plot.lm(fit1) #graficos para diagnósticos > plot(res,ylab="Residuos", xlab="Sequencia das observaçoes") > abline(a=mean(res),b=0) 5 10 15 20 -2 -1 0 1 2 3 Fitted values R e s id u a ls lm(y ~ x) Residuals vs Fitted 5 6 4 -1.0 -0.5 0.0 0.5 1.0 -1 .0 -0 .5 0 .0 0 .5 1 .0 1 .5 2 .0 Theoretical Quantiles S ta n d a rd iz e d r e s id u a ls lm(y ~ x) Normal Q-Q 6 5 4 5 10 15 20 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 1 .2 Fitted values S ta n d a rd iz e d r e s id u a ls lm(y ~ x) Scale-Location 6 5 4 Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc > durbin.watson(fit1) lag Autocorrelation D-W Statistic p-value 1 0.1234400 1.390536 0.416 Alternative hypothesis: rho != 0 > dwtest(fit1) Durbin-Watson test data: fit1 DW = 1.3905, p-value = 0.2035 alternative hypothesis: true autocorrelation is greater than 0 > bptest(y~x) studentized Breusch-Pagan test data: y ~ x BP = 0.2286, df = 1, p-value = 0.6326 > pearson.test(res) Pearson chi-square normality test data: res 1 2 3 4 5 6 -2 -1 0 1 2 3 Sequencia das observaçoes R e si d u o s Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc P = 2.3333, p-value = 0.3114 > rstandard(fit1) 1 2 3 4 5 6 -0.6907534 -0.9163092 0.1557766 -0.9360513 1.4531432 1.7518288 > outlier.test(fit1) max|rstudent| = 3.144525, degrees of freedom = 3, unadjusted p = 0.05148287, Bonferroni p = 0.3088972 > anova(fit1,fit2) Analysis of Variance Table Model 1: y ~ x Model 2: y ~ factor(x) Res.Df RSS Df Sum of Sq F Pr(>F) 1 4 29.474 2 0 0.000 4 29.474 Conclusão: Não há evidências de que os pressupostos do modelo de regressão linear foram violados. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Exercícios 1. Distingue entre (1) residuos e residuos estudentizados;(2) e ; (3) termo de erro e resíduo. 2. Um estudante estimou a recta de regressão linear. Ele construiu um gráfico de dispersão dos resíduos vs. Y e encontrou um relação positiva. Quando usou o gráfico dos resíduos e os valores estimados , ele não encontrou alguma relação. Como é esta diferença possível? Quais dos gráficos é mais apropriado ou informativo? 3. Se os erros num modelo de regressão são independentes e , o que pode ser dito dos erros depois que a transformação é usado? Será a situação idêntica se a transformação é usado? 4. Refere ao caso de Manuntenção de copiadoras (exercicio 3, capitulo 2) a) Prepare um gráfico caixa e bígodes para a variável X. Que informação é providenciada por este gráfico? Existem outliers em relação a esta variável? b) Prepare um histograma para os resíduos. Alguma caracteristica relevante nesse gráfico? c) Prepare um gráfico residual dos resíduos vs. e outro dos resíduos vs. X. Será que estes gráficos fornecem a mesma informação? Que desvios do modelo de regressão podem ser estudados usando estes gráficos? Enuncia a sua conclusão. d) Prepare um gráfico Q-Q dos resíduos. Algum indicio de que o resíduos não tenham distribuição normal? Proceda ao teste de normalidade e use . e) Prepare um gráfico de sequencia dos resíduos para verificar se o termo de erro é correlacionado. Qual a sua conclusão? f) Proceda ao teste de Breusch-Pagan para determinar se a variância do erro varia em função de X. Use . Enuncie as hipoteses nula e alternativa, regra de decisão e conclusão. 5. Refere ao caso de Manuntenção de copiadoras (exercicio 3, capitulo 2). a) Quais as conclusões alternativas quando testamos por falta de ajuste num modelo de regressão linear? b) Proceda ao teste como indicado em (a). Controla o erro tipo I com . Enuncia a regra de decisão e conclusão. c) Será que o teste em (b) detecta outros desvios do modelo de regressão, tais como falta de variância constante ou não-normalidade no termo de erro? Pode o resultado do teste de falta de ajuste ser afectado por tais desvios? Explique. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Capitulo 4 4. Modelo de Regressão Linear Múltipla6 Formulação matricial Estimação dos parâmetros Inferência estatística Diagnósticos 6 Referência: Capítulo 6 & 7 em Kutner et al. (2005) e 7-9 em Gujarati (2000) Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 4.1. Informação geral sobre regressão múltipla Usamos regresão múltipla quando queremos relacionar a variação na variável dependente à várias variáveis independentes diferentes; Regressão linear simples pode ser conduzida usando a metodologia da regressão múltipla. 4.2. Exemplo introdutório Suponha que tenhamos duas variáveis e . Podemos assumir o seguinte modelo: , é o valor da variável dependente para a observação (sujeito ou caso) , e são os parâmetros do modelo. descreve um plano : Se e assumem valores iguais a zero significativos, então é a resposta média (ou média de Y) quando . Caso contrário não tem nenhum significado prático : representa a mudança na resposta média (ou média de Y) por aumento unitário em quando (ou mantendo) constante. : representa a mudança na resposta média por aumento unitário em quando (mantendo) constante. NOTA: e sãp também chamados de coeficientes de regressão parciais. Se e são independentes, então eles são chamados de coeficientes aditivos. Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc 4.3. O Modelo Linear Geral (MLG) Generalização do modelo com duas variáveis independentes. Para com o número de parâmetros no modelo , são os parâmetros do modelo. são valores fixos ou constantes conhecidos Este modelo pode ser usado para vários tipos de regressão: 1) Com variáveis qualitativas: onde a variável codifica as observações como estando numa particular categoria. Pode-se testar como a categorização prediz a variável resposta. Exemplo: : Preço de aluguer duma casa :Idade da casa : Localização da casa Para usarmos a variável no modelo teremos que codifica-la de tal forma que o efeito de cada categoria possa ser medido pelo modelo, criando desta forma aquilo a que chamaremos variável dummy com valores 0 (insucesso) e 1 (sucesso). : Localização da casa Modelo: Estimativa do preço médio de aluguer duma casa localizada no centro da cidade Estimativa do preço médio de aluguer duma casa localizada nos arredores da cidade Se e são coeficientes aditivos, então modelo para e representam duas rectas paralelas onde nos diz por quanto o valor do intercepto na categoria que recebe o valor 1 difere do intercepto da categoria de base ou referência (com valor 0). Isto é similar a um modelo para Análise de covariância (ANCOVA). NOTA: No caso do modelo ser constítuido apenas pela variável qualitativa, i.e., , então representa a diferença entre a resposta média da categoria com valor 1 e a resposta média da categoria referência ou com valor 0 (Porquê?). Similar a um modelo para Análise de Variância (ANOVA). Dpt. de Matemática e Informática Ficha de Análise de Regressão, 2015 Dr. Osvaldo Loquiha, MSc Suponha que queiramos adicionar mais uma variável categórica W, denotando o número de compartimentos (quartos) existentes na casa, com 3 categorias: : Número de compartimentos Neste caso seriam necessários duas variávies dummies para medir o efeito da variável W na variação de Y: : Casa tipo 1 á e : Casa tipo 2 á Nota que essa codificação implica que serve de categoria base (Intersecção de e ), tanto que as comparações serão feitas tendo como referência. NOTA: Para uma variável categórica com m categorias (níveis), é necessáro criar (m-1) variáveis dummies para medir o efeito da variável categórica e evitar multicolineraridade (a discutir no proximo capítulo). 2) Interações entre variáveis: quando uma das variáveis independentes do modelo é o produto de outras variáveis explicativas no modelo. Ajuda a verificar se o efeito de uma variável depende do nível de outra variável. NOTA: Nestes casos, o efeito de e já não se considera aditiva, tanto que o efeito de depende do nível de e vice-versa, i.e., o efeito de é dado por e por 3) Executar regressões polinomiais: podemos explicar relações quadráticas, cúbicas, etc. 4.4. Formulação matricial do MLG
Compartilhar