Baixe o app para aproveitar ainda mais
Prévia do material em texto
MODELOS DE REGRESSÃO Teoria com exercícios resolvidos e propostos Inclui códigos do software R Vinícius Silva Osterne Ribeiro MATERIAL DE AUTORIA DE VINÍCIUS OSTERNE Disponível em www.osterne.com Sumário I CONCEITOS INICIAIS ————————————————————————————– 8 1 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.1 Motivação do estudo 10 1.2 Modelo para uma população 10 1.2.1 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3 Modelo para duas populações 11 1.3.1 Inferência, resíduos e ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4 Modelo para mais de duas populações 12 1.4.1 Inferência, resíduos e ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.2 Teste de igualdade de médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.5 Comparação de médias 12 II MODELOS CLÁSSICOS ————————————————————————————– 13 2 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.1 Introdução 15 2.2 Suposição do Modelo de Regressão Linear 16 2.3 Estimação dos parâmetros 16 2.4 Propriedade dos estimadores 17 2.5 Análise de variância 18 2.6 Coeficiente de determinação 21 2.7 Esperança da soma de quadrados 22 2.8 Teste de hipóteses para os parâmetros 25 2.9 Intervalos de confiança 26 2.9.1 Para β0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.9.2 Para β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.10 Estimação e previsão em um x = x0 específico 27 2.11 Diagnóstico 28 2.12 Modelos linearizados 29 2.13 Transformações de variáveis 30 2.13.1 Transformação de Box-Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.14 Modelo de regressão linear simples passando pela origem 30 2.14.1 Estimação do parâmetro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.14.2 Propriedades dos estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.14.3 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.14.4 Coeficiente determinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.15 Exercícios 33 2.16 Aplicações em dados reais 45 2.16.1 Adicionar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3 Modelo de regressão linear múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.1 Modelo de regressão linear simples na forma matricial 46 3.2 Suposição do modelo de regressão linear múltipla 47 3.3 Estimação dos parâmetros 47 3.4 Propriedade dos estimadores 49 3.5 Análise de Variância 50 3.6 Teste de hipóteses 52 3.7 Coeficiente de determinação múltipla 53 3.8 Intervalo de confiança 53 3.9 Intervalo de previsão 54 3.10 Técnicas de diagnóstico 55 3.10.1 Avaliação do ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.10.2 Análise de sensibilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.10.3 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.11 Exercícios 57 3.12 Aplicações em dados reais 70 3.12.1 Venda de imóveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4 Modelo linear multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 III MODELOS LINEARES GENERALIZADOS ————————————————————————————– 76 5 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.1 Introdução 78 5.2 Família exponencial 78 5.3 Funções de ligação e ligações canônicas 79 5.4 Função escore e informação de Fisher no processo de estimação 81 5.5 Teste de hipóteses 84 5.5.1 Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.5.2 Teste da razão de verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.5.3 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.5.4 Teste de escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.5.5 Teste de F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 6 Técnicas de diagnóstico em MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6.1 Introdução 86 6.2 Análise de resíduos 86 6.3 Análise de sensibilidade 87 7 Modelos para dados binários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 7.1 Modelo de Regressão Binomial - MRB 88 8 Modelos para dados de contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 8.1 Modelo de Regressão Poisson - MRPois 89 8.2 Modelos de Regressão Binomial Negativa - MRBN 89 8.3 Aplicações em dados reais 89 8.3.1 Infecção de ouvido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 9 Modelos para dados positivos assimétricos . . . . . . . . . . . . . . . . . . . . . 98 9.1 Resposta com distribuição gama 98 9.2 Resposta com distribuição normal inversa 98 10 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 10.1 Introdução 99 10.2 O modelo 99 10.3 Estimação dos parâmetros 100 10.4 Interpretação dos parâmetros 100 10.5 Adequação do modelo 101 10.6 Aplicações em dados reais 101 10.6.1 Tempo de estoque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 10.6.2 Risco de inadimplência (utilizando o software SAS) . . . . . . . . . . . . . . . . . 101 10.6.3 Câncer de próstata (utilizando o software SAS) . . . . . . . . . . . . . . . . . . . . 104 IV EXTENSÕES I ————————————————————————————– 107 11 Quase-verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 11.1 Introdução 109 11.2 Modelo quasi-binomial 110 11.3 Modelo quasi-Poisson 110 12 Equações de Estimação Generalizadas . . . . . . . . . . . . . . . . . . . . . . . 111 12.1 Introdução 111 13 Modelos de probabilidade composta . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.1 Introdução 112 13.2 Modelo Poisson-gama 112 13.3 Modelo Beta-binomial 112 13.4 Modelo Beta-binomial 112 13.5 Modelo Logístico-Normal 112 14 Modelos inflacionados de zeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 14.1 Introdução 113 15 Modelos mistos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 15.1 Introdução 114 15.2 Modelo Linear Misto 114 15.2.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 7 15.3 Modelo Linear Misto Generalizado 114 16 Modelos Marginais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 16.1 Introdução 115 16.2 Modelo Linear Multivariado (marginal) 115 V EXTENSÕES II ————————————————————————————– 116 17 Modelos Aditivos Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 17.1 Introdução 118 18 Modelo de Regressão Beta e suas extensões . . . . . . . . . . . . . . . . . . 119 18.1 Modelo de Regressão Beta 119 18.2 Modelo de Regressão Beta Retangular123 19 Propensity Score Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 19.1 Para que serve? 128 20 Medidas repetidas - Bilirrubina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 20.1 Introdução 130 20.2 Análise descritiva 131 20.2.1 Análise inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 20.2.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 Parte I CONCEITOS INICIAIS ————————————————— ———————————– 1. Análise de Variância 1.1 Motivação do estudo O diretor de uma instituição solicitou a ajuda de um estatístico para investigar a relação entre a nota final do aluno no semestre com as variáveis sede, turma e rendimento (do mesmo aluno) no semestre anterior. Para isso, foi extraída uma amostra de tamanho 20 desses alunos, conforme é apresentada na tabela a seguir: Tabela 1.1: Dados coletados sobre os alunos do estudo. Aluno Nota final Sede Turma Rendimento anterior 001 8,9 A 1 5,7 002 9,4 A 1 9,1 003 5,7 A 1 6,8 ... ... ... ... ... 020 4,9 B 5 6,7 Partindo da estrutura de modelo mais básico, vamos apresentar as diferentes metodologias de análise que podem ser utilizadas para este exemplo motivador. Durante o texto, utilizaremos o termo variável resposta para a variável notal final e variáveis explicativas (ou covariáveis) para as variáveis sede, turma e rendimento do aluno. 1.2 Modelo para uma população Inicialmente, vamos admitir que nenhuma das covariáveis apresentadas tenham influência na variável reposta. Desta forma, o modelo proposto pode ser apresentado na forma: yi = θ + εi, (1.1) no qual yi é a nota do i-ésimo aluno, θ é o efeito fixo, comum a todas as observações e εi é o chamado erro ou resíduo. Esse último é um efeito não controlado e resultante da soma de todas 1.3 Modelo para duas populações 11 as características que poderiam influir na nota do aluno (que não estão explícitas no modelo). Em termos matemáticos, esse fator pode ser escrito como: εi = f (sede, turma, rendimento) . Algumas condições devem ser impostas ao modelo, para que sua interpretação seja melhor feita. A mais importante delas referem-se aos resíduos, cuja suposição é E(ε) = 0 e Var(ε) = σ2e . (1.2) A partir dessa suposição, teremos uma ideia do comportamento das notas dos alunos, pois E(yi) = θ e Var(yi) = σ2e . (1.3) O objetivo agora é estimar os parâmetros θ e σ2e , em função da amostra obtida. Vale ressaltar que o modelo proposto é para todos os indivíduos, não apenas para a amostra. Utilizando o método dos Mínimos Quadrados, o melhor valor de θ será o que produzir os menores resíduos para as 20 observações. Esse estimador é θ̂ = y (1.4) e o melhor estimador para a variância é σ̂e = ∑ni=1(yi− y)2 n−1 (1.5) 1.2.1 Inferência Colocar. 1.3 Modelo para duas populações Agora, vamos assumir que a turma a qual o aluno está, pode influenciar na nota final do mesmo (neste caso usamos o termo ’duas populações’, pois a escola apresenta duas sedes). Isso equivale, portanto, a retirar o efeito turma do erro residual, ou seja, espera-se uma queda no erro, caso a turma seja significativa (exista diferença estatisticamente significativa) para o modelo. A estrutura a ser considerada agora é dada por yi j = θi+ εi j, (1.6) no qual, para i= 1,2 e j = 1, ...,20, yi j é a nota do j-ésimo aluno da sede i, θi é o efeito fixo, comum a todas as observações do grupo i e εi j é o chamado erro aleatório do j-ésimo aluno da sede i. Neste caso, ele se reduz a εi = f (sede, rendimento) . 1.3.1 Inferência, resíduos e ANOVA Colocar. 12 Capítulo 1. Análise de Variância 1.4 Modelo para mais de duas populações De forma análoga ao modelo para duas populações, vamos considerar agora que somente a covariável turma influencia na nota final do aluno (o modelo é para mais de duas populações, pois a escola apresenta cinco turmas). Para isso, define-se a seguinte estrutura: yi j = θi+ εi j, (1.7) no qual, para i = 1,2,3,4,5 e j = 1,2,3,4, yi j é a nota do j-ésimo aluno da turma i, θi é o efeito fixo, comum a todas as observações do grupo i e εi j é o chamado erro aleatório do j-ésimo aluno da turma i. Neste caso, ele se reduz a εi = f (turma, rendimento) . 1.4.1 Inferência, resíduos e ANOVA Colocar. 1.4.2 Teste de igualdade de médias A estatística F é utilizada para testar H0 : θ1 = θ2 = ...= θk, contra a alternativa de que pelo menos uma das igualdades não se verifica. 1.5 Comparação de médias A análise de variância é apenas um passo inicial para comparação de médias entre grupos. Entretanto, esse teste verifica somente se há diferença entre alguma das igualdades, não informando outras possibilidades que existem. Considerando que no teste aplicado rejeita-se a hipótese nula, por exemplo, de que H0;θ1 = θ2 = θ3. Sabe-se que há diferença, porém o pesquisador pode estar interessado em saber se: θ1 = θ2 6= θ3 ou θ1 6= θ2 = θ3 ou θ2 = θ1 6= θ3 ou θ2 6= θ1 6= θ3 Uma alternativa é utilizar os intervalos de Bonferroni. Parte II MODELOS CLÁSSICOS ————————————————— ———————————– 2. Modelo de regressão linear simples 2.1 Introdução Em muitos campos científicos, ou até mesmo em situações do cotidiano, temos interesse em investigar se duas ou mais variáveis estão inerentemente relacionadas (mesmo que não exista relação de causa- efeito, podemos investigar quaisquer relacionamento entre variáveis). Um engenheiro, por exemplo, pode estar interessado em saber se a temperatura de um material apresenta alguma relação com sua resistência; por sua vez, um médico pode precisar saber se o tempo de vida de um paciente é diretamente influenciado pelo seu tipo de alimentação; ou um comerciante, que deseja estudar se em dias de chuva suas vendas são afetadas. Em todos esses cenários, podemos aplicar uma das técnicas mais comuns e importantes em análise de dados: a Análise de regressão. Ela estabelece um modelo que possa descrever a relação entre as variáveis de estudo. Nesse modelo, temos a variável aleatória Y, chamada de variável resposta, e a variável observável X, chamada de variável explicativa, explanatória ou covariável. Em alguns textos encontramos descrições de variável dependente para Y e variável independente para X, porém essa terminologia é confusa, visto que a utilização de "independência", neste caso, é diferente dos casos em probabilidade e inferência, pelo simples fato dos X′s não serem necessariamente variáveis aleatórias, logo não podem ser estatisticamente independentes. Na regressão linear simples há uma forte indicação de que os pontos referentes ao par (X,Y) repousam aleatoriamente dispersos em torno de uma linha reta. Consequentemente, é provável considerar que a média da variável Y esteja relacionada a X pela seguinte relação linear: E[Y |x] = β0+β1x (2.1) É importante lembrar ao leitor que essa esperança é uma suposição de que a regressão de Y em X é linear, pelo simples fato de não existir nenhuma teoria subjacente para apoiar a relação de linearidade. Porém, trata-se de uma aproximação razoável, uma vez que a relação linear é muito conveniente para se trabalhar. Assim, para sermos bem formais, devemos escrever: E[Y |x]≈ β0+β1x 16 Capítulo 2. Modelo de regressão linear simples Entretanto, se começarmos a partir da suposição de que o par (Xi,Yi) tem uma distribuição normal bivariada, imediatamente segue que a regressão de Y em X é linear. Voltando a ideia central do estudo, é notável que, pela reta acima, o valor de y não "cai"exatamente na linha da reta estimada, logo o valor de Y é determinado pela função do valor médio (termo determinístico) mais um termode erro aleatório (parte aleatória): Y = β0+β1x+ εi (2.2) 2.2 Suposição do Modelo de Regressão Linear Devemos fazer a suposição de que os erros seguem uma Normal com média 0 e variância fixa σ2, ou seja: εi∼N(0,σ2) Consequentemente, Yi|xi = β0+β1x+ εi E[Yi|xi] = E[β0+β1x+ εi] = β0+β1x+E[εi] = β0+β1x+0 = β0+β1x Da mesma forma, Yi|xi = β0+β1x+ εi V [Yi|xi] = V [β0+β1x+ εi] = V [εi] = σ2 Logo, Yi|xi∼N(β0+β1x,σ2) 2.3 Estimação dos parâmetros Para encontrarmos a reta que miniminiza as distâncias entre o valor real, Yi, e o valor estimado, Ŷi, devemos minimizar o somatório dos quadrados dos erros. Nessa derivação iremos encontrar os pontos que satisfazem tal objetivo e, consequentemente, serão estes nossas estimativas para os parâmetros. Existem vários métodos para encontrar tais estimadores, porém iremos usar o Método dos Mínimos Quadrados. Para a estimação pelo Método de Máxima Verossimilhança temos resultados idênticos. O objetivo, portanto, é: εi = Yi− (β0+β1xi) ε2i = [Yi− (β0+β1xi)]2 n ∑ i=1 ε2i = n ∑ i=1 [Yi− (β0+β1xi)]2 2.4 Propriedade dos estimadores 17 Considerando E = n ∑ i=1 ε2i Logo, ∂E ∂β0 = n ∑ i=1 2 [Yi− (β0+β1xi)] (−1) ∂E ∂β1 = n ∑ i=1 2 [Yi− (β0+β1xi)] (−xi) β̂0 = Y − β̂1X (2.3) β̂1 = ∑ni=1 XiYi−nYY ∑ni=1 Xi2−nX2 (2.4) Para simplificar a escrita de β̂1, usaremos: β̂1 = Sxy Sxx Estimados os valores, encontramos então a reta estimada: Ŷi = β̂0+ β̂1xi 2.4 Propriedade dos estimadores Vamos avaliar agora a validade (saber se o estimador é ou não viciado) e a precisão (variabilidade) dos estimadores dos parâmetros: E[β̂1] = β1 V [β̂1] = σ2 Sxx Prova: E[β̂1] = Sxy Sxx = E [ ∑ni=1 (Xi−X)Yi Sxx ] = ∑ni=1 (Xi−X)E[Yi] Sxx = ∑ni=1 (Xi−X)(β0+β1Xi) Sxx = β0∑ni=1 (Xi−X)+β1∑ni=1 (Xi−X)Xi Sxx = β1∑ni=1 (Xi−X)Xi Sxx = β1 18 Capítulo 2. Modelo de regressão linear simples A variância de β1 segue o mesmo raciocínio. Pode-se, portanto, mostrar também que: E[β̂0] = β0 V [β̂0] = σ2 [ 1 n + x2 Sxx ] Vista as demonstrações acima, seria interessante avaliar a relação existente entre β̂0 e β̂1, para isso calculemos a covariância entre tais estimadores, porém precisaremos de um Lema e um resultado para obter tal resultado, observe abaixo. Lema 2.4.1 Sejam Y1,Y2, ...,Yn variáveis aleatórias não correlacionadas com V [Yi] = σ2 para todo i = 1,2, ...,n. Suponhamos que c1,c2, ...,cn e d1,d2, ...,dn sejam dois conjuntos de constantes. Então Cov [ n ∑ i=1 ciYi, n ∑ i=1 diYi ] =Cov [ n ∑ i=1 cidi ] V [Yi] Resultado O que será demonstrado/calculado agora será muito útil para alguns outros resultados. Cov(Y , β̂1) = Cov( n ∑ i=1 Yi n , n ∑ i=1 (Xi−X)Yi Sxx ) = Cov( n ∑ i=1 1 n (Xi−X) Sxx )V [Yi] = 0 Portanto, a relação existente é: Cov(β̂0, β̂1) = Cov(Y − β̂1X , β̂1) = Cov(Y , β̂1)−Cov(β̂1X , β̂1) = 0−XV [β̂1] = −xσ 2 Sxx A medida que aumentamos o valor da inclinação da reta de regressão, diminuimos o "corte"na reta Y, pois a covariância entre as estimativas é negativa. 2.5 Análise de variância A principal medida para quantificar o quão bom é um modelo estimado para os dados é a sua variância. Entretanto, usar o somente o termo variância como sendo a principal medida não é o ideal em modelos de regressão linear, visto que vamos trabalhar aqui com o particionamento da variabilidade, ou seja, tal análise desmente seu próprio nome, pois não está preocupada em analisar variâncias, mas sim, a variabilidade das médias ou, simplesmente, a significância do modelo de regressão. Então, caro leitor, parece razoável, para iniciarmos o estudo, comparar os valores de Yi com a média da variável resposta, pois essas distâncias nos informarão se a reta de regressão é significativa ou não para os dados. Assim, se não houver efeito de regressão o comportamento dos dados pode ser explicado pelo própria reta da média, ou seja, Y . 2.5 Análise de variância 19 Em suma, para análise de variância, iremos comparar Yi com Y , ou seja, iremos particionar o seguinte somatório: n ∑ i=1 (Yi−Y )2 n ∑ i=1 (Yi−Y )2 = n ∑ i=1 (Yi− (Ŷi− Ŷi)−Y )2 = n ∑ i=1 (Yi− Ŷi+ Ŷi−Y )2 = n ∑ i=1 (Yi− Ŷi)2+ n ∑ i=1 (Yi−Y )2+2 n ∑ i=1 (Yi− Ŷi)(Yi−Y ) Mas a terceira parcela da soma é o mesmo que: n ∑ i=1 (Yi− Ŷi)(Yi−Y ) = n ∑ i=1 (Yi− Ŷi)Yi− n ∑ i=1 (Yi− Ŷi)Y Calculando cada parte, temos: n ∑ i=1 (Yi− Ŷi)Y = Y [ n ∑ i=1 (Yi− (β̂0+ β̂1xi)) ] = Y [ n ∑ i=1 Yi− n ∑ i=1 β̂0+ β̂1xi ] = Y [ n ∑ i=1 Yi−nβ̂0+ β̂1 n ∑ i=1 xi ] = Y [ n ∑ i=1 Yi−nβ̂0+nβ̂1X ] = Y [ n ∑ i=1 Yi−n(Y + β̂1X)+nβ̂1X ] = Y [ n ∑ i=1 Yi−nY −nβ̂1X +nβ̂1X ] = 0 n ∑ i=1 (Yi− Ŷi)Ŷi = n ∑ i=1 (YiŶ1− Ŷi2) = n ∑ i=1 [ Yi(β̂0+ β̂1xi)− (β̂0+ β̂1xi)2 ] = 0 20 Capítulo 2. Modelo de regressão linear simples Portanto: n ∑ i=1 (Yi−Y )2 = n ∑ i=1 (Yi− Ŷi)2+ n ∑ i=1 (Ŷi−Y )2 (2.5) Em palavras, tal resultado é: • SQtotal = ∑ni=1(Yi−Y )2 • SQres = ∑ni=1(Yi− Ŷi)2 • SQreg = ∑ni=1(Ŷi−Y )2 Para a construção do teste de hipóteses que compõe a análise de variância, precisaremos de um teorema que nos informa um resultado muito importante. Teorema 2.5.1 — Cochram. Se todas as n observações Y1,Y2, ...,Yn, independentes, vêm da mesma distribuição normal com média µ e variância σ2 e a soma de quadrados total é decomposta em k somas de quadrados SQk, cada uma com seus respectivos graus de liberdade, então SQk σ2 são variáveis aleatórias com distribuição quiquadrado, independentes, com glk graus de liberdade se n ∑ k=1 glk = gltotal Sabe-se que • SQtotal = ∑ni=1(Yi−Y )2→(n−1)g.l. • SQres = ∑ni=1(Yi− Ŷi)2→(n−2)g.l. • SQreg = ∑ni=1(Ŷi−Y )2→1g.l. Então gltotal = glreg+glres (n−1) = 1+(n−2) Resultado que satisfaz a primeira condição do teorema. Para satisfazer a segunda, devemos supor, sob alguma condição, que os Y ′i s são independentes. Para isso considere a hipótese H0 : β1 = 0 Se H0 for verdadeira, então Yi = β0+ εi Consequentemente E[Yi] = β0 V [Yi] = σ2 Nos levando a afirmar que Yi∼N(β0,σ2) (2.6) 2.6 Coeficiente de determinação 21 Dessa forma, as condições do Teorema de Cochram, sob H0 verdadeira, são satisfeitas e assim, podemos dizer que: SQreg σ2 ∼ χ2(1) SQres σ2 ∼ χ2(n−2) Mostrado tudo isso, podemos enfim chegar na última parte da análise de variância, o teste F. Pelo Teorema de Cochran, podemos saber a distribuição de: SQreg σ2 ∼ χ2(1) SQres σ2 ∼ χ2(n−2) Consequentemente, sob H0 verdade, a divisão de de duas quantidade com distrbuição quiqua- drado com 1 e n-2 graus de liberdade, respectivamente, tem distribuição F(1,n-2): SQreg σ2 1 SQreg σ2 n−2 = SQreg 1 SQres n−2 = QMreg QMres ∼ F(1,n−2) (2.7) Toda a teoria acima foi desenvolvida para testar a hipótese nula antes definida, isto é, rejeitaremos H0 se P(F(1,n−2)≥F0)< α Em que α é o nível de significância adotado no teste. Estamos fazendo todas as suposições acima sob H0 verdade, pois queremos saber se é vantajosa a adoção do modelo linear, ou seja, é observar a redução do resíduo. Se tal redução for muito pequena, os dois modelos serão praticamente equivalentes, e isso ocorre quando a inclinação é zero ou muito pequena, não compensando usar um modelo mais complexo. Em resumo, caro leitor, temos a seguinte sucessão de ideias: realmente a soma de quadrados pode ser decomposta (soma de quadrados de resíduos com a soma de quadrados de regressão). Como os Y ′i s são independentes, sob a hipótese nula de β1 = 0 ser verdade, então, pelo teorema de Cochran, podemos definirque SQregσ2 e SQres σ2 , tem distribuição quiquadrado com 1 e n−2 graus de liberdade, respectivamente. E, dividindo tais valores, chegamos na estatística F que justamente vai nos informar a veracidade da hipótese nula ser rejeitada ou não. Para sermos mais direto, rejeitar a hipótese nula, isto é, há coeficiente angular, nesse caso, é dizer que a regressão é significativa, até porque sem este parâmetro haveria apenas uma reta constante em β0. Portanto, a relação linear entre X e Y será significativa se rejeitarmos H0. A tabela ANOVA (Análise de Variância) é constituída pelas seguintes quantidades: 2.6 Coeficiente de determinação Tal coeficiente nos informa o quão a variabilidade total é explicada pelo modelo, quanto mais próximo de 1, melhor é o percentual. A medida é denotada por R2 e é delimitada no intervalo [0,1], 22 Capítulo 2. Modelo de regressão linear simples Tabela 2.1: ANOVA Fonte de variação GL SQ QM F0 Regressão 1 ∑ni=1(Ŷi−Y )2 SQreg1 QMreg QMres Resíduo n-2 ∑ni=1(Yi− Ŷi)2 SQresn−2 Total n-1 ∑ni=1(Yi−Y )2 sendo definida por: R2 = SQreg SQres (2.8) O coeficiente de determinação ajustado pelos graus de liberdade é definido por: R2a just = 1− SQreg n−2 SQres n−1 (2.9) 2.7 Esperança da soma de quadrados Para a SQreg faremos, primeiramente, um pequeno cálculo para simplificar os passos para essa soma de quadrados. SQreg = n ∑ i=1 (Ŷi−Y )2 Mas sabemos que: Ŷi = β̂0+ β̂1Xi Ŷi = Y − β̂1X + β̂1Xi Ŷi−Y = = β1(Xi−X) Substituindo, SQreg = n ∑ i=1 (Ŷi−Y )2 = n ∑ i=1 β1(Xi−X)2 = β12Sxx (2.10) 2.7 Esperança da soma de quadrados 23 Feito isso, podemos calcular sua esperança. SQreg = β̂ 21 Sxx E[SQreg] = E[β̂ 21 Sxx] = SxxE[β̂ 21 ] = Sxx[V (β̂1)+E2(β̂1))] = Sxx [ σ2 Sxx +β 2 ] = σ2+ β̂ 21 Sxx (2.11) Como QMreg = SQreg 1 Então SQreg = QMreg E[QMreg] = σ2+ β̂ 21 Sxx (2.12) Também podemos calcular a esperança para SQres: SQres = n ∑ i=1 [Yi− Ŷi]2 Utilizando o teorema de Cochram, podemos deduzir que: SQres σ2 ∼ χ2(n−2) E [ SQres σ2 ] = n−2 E [ SQres n−2 ] = σ2 E[QMres] = σ2 (2.13) Portanto, QMres é um estimador não viciado para σ2. Porém, o que calculamos acima não foi uma desmonstração plausível. Sem o auxílio do teorema, devemos fazer: QMres = SQres n−2 E[QMres] = E [ SQres n−2 ] E[QMres] = E[SQres] n−2 Para descobrir E[SQres], deve-se seguir o raciocínio: 24 Capítulo 2. Modelo de regressão linear simples SQtotal = SQres+SQreg SQres = SQtotal−SQreg E[SQres] = E[SQtotal]−E[SQreg] Devemos encontrar E[SQtotal] para chegarmos na E[SQres], pois já calculamos E[SQreg]. SQtotal = n ∑ i=1 Y 2i −nY 2 E[SQtotal] = E [ n ∑ i=1 Y 2i −nY 2 ] = E [ n ∑ i=1 Y 2i ] −E [ nY 2 ] = n ∑ i=1 E[Y 2i ]−nE[Y 2] = n ∑ i=1 [ V [Yi]+E2[Yi] ]−n[V [Y ]+E2[Y ]] = n ∑ i=1 [ σ2+(β0+β1xi)2 ]−[σ2 n +(β0+β1X)2 ] = (n−1)σ2+β12 [ n ∑ i=1 X2i −nX ] E assim: E[SQres] = E[SQtotal]−E[SQreg] = (n−1)σ2+β12 [ n ∑ i=1 X2i −nX ] −σ2−β12Sxx = (n−2)σ2 (2.14) Como já citamos, QMres é um estimador não viciado para a variância: E[QMres] = E[SQres] n−2 = σ2 Podemos agora substituir tal estimativa para encontrar mais alguns resultados importantes como, 2.8 Teste de hipóteses para os parâmetros 25 por exemplo, o erros padrões abaixo: V [β̂1] = σ2 Sxx V̂ [β1] = σ̂2 Sxx = QMres Sxx V [β̂0] = σ2∑ni=1 Xi2 nSxx V̂ [β̂0] = σ̂2∑ni=1 Xi2 nSxx = QMres∑ni=1 Xi2 nSxx 2.8 Teste de hipóteses para os parâmetros Sabemos que β̂0∼N ( β0, σ2∑ni=1 Xi2 nSxx ) Considerando H0 : β0 = β ∗0 verdade: β̂0∼N ( β0∗, σ2∑ni=1 Xi2 nSxx ) Então: β̂0−β0∗√ σ2∑ni=1 Xi2 nSxx ∼N(0,1) (2.15) Como não conhecemos σ2, vamos recorrer a β̂0−β0∗√ σ2∑ni=1 Xi 2 nSxx√ SQres σ2 n−2 ∼ t(n−2) β̂0−β0∗√ QMres∑ni=1 X2i nSxx ∼ t(n−2) (2.16) E, portanto, rejeitaremos H0 se P[t(n−2)≤|t0|]+P[t(n−2)≥|t0|]≤α Para β1 temos o mesmo raciocínio. Sabemos que β̂1∼N ( β1, σ2 Sxx ) 26 Capítulo 2. Modelo de regressão linear simples Considerando H0 : β1 = β ∗1 verdade: β̂1∼N ( β ∗1 , σ2 Sxx ) Logo β̂1−β1∗√ σ2 Sxx ∼N(0,1) Utilizando novamente o artificio: β1−β1∗ σ2 Sxx√ SQres σ2 n−2 ∼ t(n−2) β̂1−β1∗√ QMresSxx ∼ t(n−2) (2.17) E, portanto, rejeitaremos H0 se P[t(n−2)≤|t0|]+P[t(n−2)≥|t0|]≤α 2.9 Intervalos de confiança Para estabelermos um intervalo de confiança com (1−α)% de confiança, devemos ter uma quanti- dade pivotal e uma distribuição, que não depende do parâmetro, para esta quantidade pivotal. 2.9.1 Para β0 Sabemos que a quantidade pivotal para esse caso é: β̂0−β0√ QMres ∑ni=1 X2i nSxx ∼t(n−2) Logo I.C.1−α [β0] = β̂0±t(1− α2 )(n−2) √ QMres ∑ni=1 X2i nSxx (2.18) 2.9.2 Para β1 Sabemos que a quantidade pivotal para esse caso é: β̂0−β0√ QMres Sxx ∼t(n−2) Logo I.C.1−α [β1] = β̂1±t(1− α2 )(n−2) √√ QMres Sxx (2.19) 2.10 Estimação e previsão em um x = x0 específico 27 2.10 Estimação e previsão em um x = x0 específico Digamos que x0 seja um valor específico da variável preditora. Primeiro, considere estimar a média da população Y associada com x0. Depois faremos isso para a variãncia, partindo, em ambos os casos, de: Ŷi = β̂0+ β̂1x0 (Ŷi|x = x0) = β̂0+ β̂1x0 E[Ŷi|x = x0] = E[β̂0+ β̂1x0] = E[β̂0]+ x0E[β̂1 = β0+β1x0 V [Ŷi|x = x0] = V [β̂0+ β̂1x0] = V [y− β̂1x+ β̂1x0] = V [y+ β̂1(x0− x) = V [y]+V [β̂1(x0− x)]+2cov(y, β̂1(x0− x)) = V [y]+ (x0− x)2V [β̂1]+2(x0− x)cov(y, β̂1) = σ2 n +(x0− x)2 σ 2 Sxx = σ2 [ 1 n + (x0− x)2 Sxx ] Então Ŷi|x = x0∼N ( β0+β1x0,σ2 [ 1 n + (x0− x)2 Sxx ]) I.C.[β0+β1x0] = [ (Ŷi|x = x0)±t1− α2 (n−2) √ QMres [ 1 n + (x0− x)2 Sxx ]] (2.20) O comprimento do intervalo é mais curto se x0 estiver mais próximo de x e minimizado em x0 = x. Um tipo de inferência a qual não falamos até agora é a previsão de uma variável aleatória, que até o presente não for observada, Y , um tipo de inderência que é de interesse em uma regressão. Assim, 28 Capítulo 2. Modelo de regressão linear simples E[Ŷ0−Y0] = E[Ŷ0]−E[Y0] = E[β̂0+ β̂1x0]−E[β0+β1x0+ ei] = β0+β1x0−β0−β1x0 = 0 Para a variância devemos saber que cov(Y 0,Y0) é zero, pois como Y0 não pertence ao conjunto de observações Y1,Y2, ...,Yn utilizadas para estimar os parâmetros, então Y 0 e Y0, por suposição, são independentes, ou seja, zero. V [Ŷ0−Y0] = V [Ŷ0]+V [Y0]−2cov(Ŷ0,Y0) = σ2 [ 1 n + (x0− x̂)2 Sxx ] +σ2 = σ2 [ 1+ 1 n + (x0− x)2 Sxx ] Então Ŷ0−Y0∼ [ 0,σ2 [ 1+ 1 n + (x0− x)2 Sxx ]] I.C.(1−α)[Ŷ0−Y0] = t(1− α2 )(n−2)± √ QMres [ 1+ 1 n + (x0− x)2 Sxx ] (2.21) 2.11 Diagnóstico Ajustar um modelo requer várias suposições. A estimação dos parâmetros do modelo requer a suposição de que os erros sejam variáveis aleatórias não correlacionadas com média zero e variância constante. Testes de hipóteses e estimação do intervalo requerem que os erros sejam normalmente distribuídos. Assim, consideramos que a ordem do modelo esteja correta. Porém, o estatístico deve sempre duvidar da validade dessas suposições e conduzir análises para examinar a adequação do modelo que esta testando. A principal análise para isso é o estudo dos resíduos. Os resíduos, como sabemos, são definidos por ei = yi− ŷi Vamos então aos passos para investigação: I. Investigação de homocedasticidade - Variância constante Graficamente (eixXi), se a variância não é constante, teremos comportamentos em que a variância aumenta com o aumento de x; variância diminui com o aumento dex ou variância aumenta e depois diminui com o aumento de x. 2.12 Modelos linearizados 29 II. Investigação de normalidade dos dados Para investigar a suposição de normalidade devemos comparar os quantis teóricos com os quantis observados. Para isso, devemos ordenar os resíduos de forma crescente e plotar o gráfico que deverá ser uma reta: e(i) x Φ−1 ( i−1/2 n ) Os testes existentes são o de Sapiro-Wilk e Kolmogorov-Smirnof. Em ambos, a hipótese nula é de normalidade dos dados. III. Adquacidade dos modelos Às vezes, observando apenas o gráfico de dispersão, não é possível percebermos que o modelo de regressão linear é adequado. Para melhorar esta forma de comparação, faz-se os gráficos de: Xi x ei Ŷi x ei Se a dispersão tiver formato de curva ou qualquer outra forma que não se assemelha a uma reta, então o modelo não está adequado. Na seção sobre o uso do R no estudo de regressão, comentaremos mais sobre resíduos e sobre alguns gráficos importante para essa análise. 2.12 Modelos linearizados Quando aplicamos análise de regressão ao estudo da relação funcional entre duas variáveis, o problema da especificação consiste em determinar a forma matemática da função que será ajustada. Mostraremos agora que existem modelos não-lineares que se transformam em funções lineares por anamorfose, isto é, por substituição dos valores de uma ou mais variáveis por funções destas variáveis. Veja um exemplo: Para o modelo abaixo podemos apenas aplicar o logaritmo para termos funções lineares: Yi = β0xiβ1ei ln(Yi) = ln(β0xiβ1ei) ln(Yi) = ln(β0)+β1ln(xi)+ ln(ei) Assim: Y ∗i = ln(Yi) X∗i = ln(Xi) Obs: Se aplicarmos a exponencial no parãmetro, teremos o verdadeiro valor da estimativa, porém esse estimador não tem as mesmas propriedades já ditas até aqui. • 30 Capítulo 2. Modelo de regressão linear simples 2.13 Transformações de variáveis Realizamos uma transformação na variável com o objetivo de estabilizar a variância e deixar os dados com comportamento normal, ou seja, estaremos adequando o modelo de modo a ficar com homocedasticidade e normalidade quanto aos resíduos. Veja os casos abaixos: • Quando a variável resposta se refere a contagem (distribuição de Poisson, por exemplo, em que a esperança é proporcional a variância) usaremos a transformação: Y ∗ = √ Y • Quando os dados da variável resposta refere-se a proporção usaremos: Y ∗ = arcsen √ Y • Em outros casos usaremos: Y ∗ = lnY 2.13.1 Transformação de Box-Cox A proposta para essa transformação é encontrar o valor de uma constate λ para usarmos em: Y ∗ = Y λ Usando o método de máxima verossimilhança para encontrar tal valor, obtém-se:{ Y λ−1 λY λ−1 ,λ 6=0 Y ∗lnY ,λ=0 Sendo Y ∗ = ln−1 [ 1 n∑ni=1 lnYi ] De maneira geral, utiliza-se { Y λ ,λ 6=0 lnY ,λ=0 Em programas estatísticos, especificamente o R, o comando para fornecer o valor de λ nos diponibiliza o gráfico de sua função de verossimilhança nos informando o intervalo de confiança para tal constante. Desse modo, se o zero pertence ao intervalo, usamos o logaritmo dos dados, mas caso não esteja, usamos os dados elevado ao valor de λ . 2.14 Modelo de regressão linear simples passando pela origem Yi = β1xi+ ei (2.22) Usamos esse modelo quando não rejeitamos a hipótese nula H0 : β0 = 0 para o modelo Yi = β0+β1xi+ ei Atente-se que não usamos esse modelo pelo motivo de termos um par (0,0) nos dados. Nos só utilizamos quando a hipótese não for rejeitada. 2.14 Modelo de regressão linear simples passando pela origem 31 2.14.1 Estimação do parâmetro n ∑ i=1 ei2 = n ∑ i=1 (Yi−β1xi)2 n ∑ i=1 ei2 = E ∂E ∂β1 = n ∑ i=1 2((Yi−β1xi))(xi)(−1) Igualando a zero: n ∑ i=1 (Yi−β1xi)(xi) = 0 n ∑ i=1 xiyi− β̂1 n ∑ i=1 xi2 = 0 β̂1 = ∑ni=1 xiyi ∑ni=1 xi2 (2.23) 2.14.2 Propriedades dos estimadores β̂1 = ∑ni=1 xiyi ∑ni=1 xi2 E[β̂1] = E [ ∑ni=1 xiyi ∑ni=1 xi2 ] = 1 ∑ni=1 xi2 n ∑ i=1 xiE[Yi] = 1 ∑ni=1 xi2 n ∑ i=1 xi(β1xi) = 1 ∑ni=1 xi2 β1 n ∑ i=1 xi2 = β1 V [β̂1] = V [ ∑ni=1 xiyi ∑ni=1 xi2 ] = 1 ∑ni=1 xi4 n ∑ i=1 xi2V [Yi] = σ2 ∑ni=1 xi2 2.14.3 Análise de Variância Até agora tivemos o mesmo raciocínio em comparação com ao modelo Yi = β0+β1xi+ ei. Porém, a análise de variância para este modelo tem raciocínio diferente. O leitor já deve saber que no modelo com intercepto utilizamos o valor da amostra, Yi, em comparação com a média amostral, Y . Isso 32 Capítulo 2. Modelo de regressão linear simples ocorre, porque se o modelo não for ideal aos dados, todos os pontos estarão na reta Y , dessa forma, a soma de quadrados total se refere a soma de todos os pontos da amostra com a média com o intuito de análisar a significância da regressão. Como neste modelo não têm-se o intercepto, a soma de quadrados total será a distância dos pontos amostrais em relação ao eixo das abcissas, ou seja, neste modelo teremos: SQtotal = n ∑ i=1 (Yi−0)2 = n ∑ i=1 Yi2 Desenvolvendo: SQtotal = n ∑ i=1 Y 2i = n ∑ i=1 [(Yi− Ŷi)+ Ŷi]2 = n ∑ i=1 (Yi− Ŷi)2+ n ∑ i=1 Ŷi 2 +2 n ∑ i=1 (Ŷi+ Ŷi)Ŷi = n ∑ i=1 (Yi− Ŷi)2+ n ∑ i=1 Ŷi 2 SQtotal = SQres+SQreg Em que, para este caso • SQtotal tem n graus de liberdade • SQres tem (n−1) graus de liberdade • SQreg tem 1 grau de liberdade As condições do teorema de Cochran foram atendidas, então: SQreg σ2 ∼ χ2(1) SQres σ2 ∼ χ2(n−1) Portanto, para o teste de significância do teste, teremos uma distribuição F(1,n− 1). Observe a tabela: Tabela 2.2: ANOVA Fonte de variação GL SQ QM F Regressão 1 ∑ni=1 Ŷi 2 SQreg 1 QMreg QMres Resíduo n−1 ∑ni=1(Yi− Ŷi)2 SQresn−1 Total n−1 ∑ni=1Y 2i 2.15 Exercícios 33 2.14.4 Coeficiente determinação Neste caso não calculamos R2 para os dois casos e comparamos. Ao invés disso, comparamos o valor do quadrado médio do resíduo do modelo com intercepto com o modelo sem intercepto. Aquele que tiver menor valor é o modelo que esxplica melhor a variablidade dos dados. 2.15 Exercícios 1. Mostre que σ̂2 é um estimador viciado para σ2, sendo sua esperança dada por E[σ̂2] = (n−2)σ 2 n . Sabemos que, pelo Método de Máxima Verossimilhança, o estimador de σ2 é σ̂2 = ∑ n i=1 [Yi− (β̂0+ β̂1xi)] n Mas podemos rescrevê-lo usando SQres = n ∑ i=1 [Yi− Ŷi]2 = n ∑ i=1 [Yi− (β̂0+ β̂1xi)]2 Portanto σ̂2 = SQres n Porém, utilizando o Teorema de Cochran, podemos afirmar que SQres σ2 ∼χ2(n−2) Então E [ SQres σ2 ] = n−2 E [SQres] = (n−2)σ2 Consequentemente E [ σ̂2 ] = E [ SQres n ] = (n−2)σ2 n • 2. Mostre que quando β0 está no modelo, a reta de regressão passa pelas médias amostrais de X e Y . A reta estimada é dada por Ŷi = β̂0+ β̂1xi Na qual, pelo Método dos Mínimos Quadrados, a estimativa para β0 é dada por β̂0 = Y − β̂1X 34 Capítulo 2. Modelo de regressão linear simples Substituindo, chegamos em Ŷi = Y + β̂1(xi−X) Que é nada mais que a equação da reta que passa pelos pontos X ,Y cujo coeficiete angular é β̂1 E, portanto, a reta estimada passará por Y , pois é seu coeficiente linear e por X , pois é seu coeficiente angular. • 3. Mostre que se o coeficiente de determinação é zero, então a melhor previsão para um estimador, é a sua média. Ora, R2 = SQreg SQtotal Então, se R2 é igual a zero, é porque SQreg = 0 Desenvolvendo, temos SQreg = 0 n ∑ i=1 (Ŷi−Y )2 = 0 Ŷi = Y A previsão para o estimador é a sua média. • 4. (Exercício 2.1- Hoffmann) É dada uma amostra de 10 pares de valores: X=(-2, -2, -1, -1, 0, 0, 1, 1, 2, 2) Y=(0, 0, 2, 3, 4, 4, 5, 6, 8, 8) Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi = β0+β1xi+εi, onde os εi são variáveis aleatórias independentes com distribuição normal de média zero e variância 2. a. Determine as estimativas dos parâmetros da regressão linear. Para isso, precisaremos dos seguintes valores: 10 ∑ i=1 xi = 0 10 ∑ i=1 yi = 40 10 ∑ i=1 xiyi = 38 10 ∑ i=1 xi2 = 20 2.15 Exercícios 35 Agora, substituindo nas estimativas, temos: β̂1 = ∑10i=1 xiyi−nxy ∑10i=1 xi2−nx2 β̂1 = 38−10∗0∗4 20−10∗0 β̂1 = 1.9 β̂0 = y− β̂x β̂0 = 4−1.9∗0 β̂0 = 4 b. Teste H0 : β = 0 ao nível de significância de 5%. De início devemos fazer a suposição de que os erros são normal e idependentemente distribuídos com média zero e variância σ2. As hipóteses a serem testadas são: H0 : β = 0 H0 : β 6=0 Com a seguite estatística seguindo uma distribuição t com n-2 graus de liberdade: T = β̂1−0√ σ2/Sxx Sabendo que σ̂2 = SQE n−2 σ̂2 = SQT − β̂1Sxy n−2 SQT = 10 ∑ i=1 yi2− ( ∑10i=1 yi )2 10 SQT = 154 Sxy = 38 Sxx = 20 σ̂2 = 154−1.9∗38 10−2 σ̂2 = 10.225 Logo, T = β̂1−0√ σ2/Sxx T = 1.9√ 10.225/20 T = 2.657278 36 Capítulo 2. Modelo de regressão linear simples E, portanto, encontrando o p-valor no R: > 1-pt(2.657278, 8, lower.tail = TRUE, log.p = FALSE) [1] 0.01446367 Podemos rejeitar a hipótese nula. c. Calcule o coeficiente de determinação. Para calcular o coeficiente de determinação, usaremos: r2 = b(∑ni=1 xy) ∑ni=1 y2 r2 = 0.308547 d. Determine a estimativa de Y para X = 3. A estimativa para X = 3 é 9.7. • 5. (Exercício 2.3- Hoffmann)Demonstre que numa regressao linear simples o valor de F da análise de variância da regressão é igual ao quadrado do valor de t(b), relativo à hipótese da nulidade β = 0 (onde β é o coeficiente de regressão). Sabemos que SQRes = n ∑ i=1 ê2 SQReg = b n ∑ i=1 xy Se2 = SQRes n−2 Logo, para testarmos a hipótese nula β = 0 usamos a estatística t(b) = b Se √ n ∑ i=1 (xi− x)2 Se elevarmos ao quadrado,chegamos em [t(b)]2 = [ b Se √ n ∑ i=1 (xi− x)2 ]2 [t(b)]2 = SQReg Se2 Que é a estatística F que aparece na tabela ANOVA. • 6. (Exercício 2.5- Hoffmann) É dada uma amostra de 5 pares de valores. Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi = α+βXi +ui, onde ui são variáveis aleatórias independentes com distribuição normal de média zero e variância σ2 . a. Determine as estimativas dos parâmetros da regressão linear. β̂ = ∑ n i=1 xy ∑ni=1 x2 = 2.461538 α̂ = y− β̂x = 5 2.15 Exercícios 37 X Y 1 3 2 7.5 3 7 4 11.5 5 11 b. Calcule o coeficiente de determinação e faça a análise de variância da regressão. O coeficiente de determinação é dado por: r2 = S.Q.Reg S.Q.Total SQReg = b n ∑ i=1 xy SQTotal = n ∑ i=1 y2 r2 = 0.1566265 Tabela 2.3: Análise da variãncia Graus de Soma dos Média dos Valor F p-valor liberdade quadrados quadrados x 1 64.793 64.793 1.7459e+32 < 0.05 Residuals 3 0 0 c. Teste ao nível de significância de 0.5%, a hipótese: H0 : β = 0 H1 : β 6=0 Usando a estatística: t(b) = b−β s(b) t(b) = 2.5454−0√ q.m.res ∑ni=0 xi2 t(b) = 2.5454−0√ q.m.res ∑ni=0 xi2 t(b) = 3.000366 Considerando o nível de significância de 0.5% e a distribuição assumindo 3 graus de liberdade, encontramos o valor crítico de 7.453, assim não podemos rejeitar a hipótese nula. Rejeitamos a hipótese nula. d. Teste ao nível de significância de 0.5%, a hipótese: H0 : α = 13 H1 : α<13 38 Capítulo 2. Modelo de regressão linear simples Usando a estatística: t(a) = a−α s(a) t(a) = 5−13√ q.m.res ∑ni=0 xi2 t(a) = −2.786054 Considerando o nível de significância de 0.5% e a distribuição assumindo 3 graus de liberdade, encontramos o valor crítico de 7.453, assim não podemos rejeitar a hipótese nula. Rejeitamos a hipótese nula. • 7. (Exercício 2.7- Hoffmann) Com base em 52 pares de valores das variáveis X e Y foi obtida a equação de regressão Ŷi =−0.4+Xi A estimativa do desvio padrão da estimativa do coeficiente de regressão é 0.1. Calcule o coeficiente de determinação e teste a hipótese de que o coeficiente angular é igual a zer, ao nível de significância de 1%. Foi dado na questão que s(b) = 0.1 Sabemos que a estimativa do desvio padrão da estimativa do coeficiente de regressão é dado por s2(b) = ∑ni=1 y2−b∑ni=1 xy n−2 ∑ni=1 x2 Desenvolvendo, temos s2(b) = ∑ni=1 y2−b∑ni=1 xy 50 ∑ni=1 x2 50.0.01. n ∑ i=1 x2 = n ∑ i=1 y2−b n ∑ i=1 xy Dividindo todos por ∑ni=1 y2 50.0.01.∑ni=1 x2 ∑ni=1 y2 = ∑ni=1 y2−b∑ni=1 xy ∑ni=1 y2 r2 = 1− 0.5∑ n i=1 x 2 ∑ni=1 y2 Para o teste de hipótese, temos β̂ = 1, logo t(b) = 1−0 0.01 t(b) = 100 Ao nível de significância de 1% temos como ponto crítico de 2.67, ou seja, rejeitamos a hipótese de que o coeficiente de regressão é zero. • 2.15 Exercícios 39 8. (Exercício 2.17- Hoffmann) Admitindo que as variáveis X e Y estão relacionadas conforme o modelo: Yi = α+ β Xi +ui onde ui representa erros aleatórios independentes com média zero e variância constante, deter- mine as estimativas dos parâmetros α e β , com base nos seguintes dados: x=(12,15,20,30,60) y=(9,8.5,8.5,6.5,5) Baseando-se no método dos mínimos quadrados, temos que minimizar a soma dos quadrados dos desvios L = n ∑ i=1 ui2 que é o mesmo que L = n ∑ i=1 Yi−α− βXi 2 Temos que fazer: ∂L ∂α = 0 ∂L ∂β = 0 Chegamos nas seguintes estimativas: α̂ = ∑ni=1 yi−β∑ni=1 1xi n β̂ = ∑ni=1 yi xi − y∑ni=1 1xi 1− ∑ n i=1 1 xi ∑ni=1 1 xi n Utilizando o R, temos as estimativas: #Exercicio 2.17 x=c(12,15,20,30,60) y=c(9,8.5,8.5,6.5,5) n=length(x) a = mean(y) - (b/n)*(sum(1/x)) num = sum(x/y) - mean(y)*sum(1/x) den = 1 - ((sum(1/x)*sum(1/x))/n) b = num/den a;b Dica: Poderíamos simplesmente usar a anamorfose Vi = 1Xi • 9. (Exercício 2.19- Hoffmann) São dados os seguintes valores, obtidos de uma amostra aleatória com 10 observações: X=(0,0,1,1,2,2,3,3,4,4) Y=(2.5,3.5,1,3,2,4,0,2,0.5,1.5) Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi =α+βXi+ui, 40 Capítulo 2. Modelo de regressão linear simples onde ui são variáveis aleatórias homocedásticas, normalmente distribuídas e com média zero. Pode-se verificar que ∑ni=1 x2 = 20, ∑ n i=1Y 2 = 55, ∑ni=1 y2 = 15, ∑ n i=1 xY =−10 e Y = 2. a. Determine a reta de regressão. No R, temos: X=c(0,0,1,1,2,2,3,3,4,4) Y=c(2.5,3.5,1,3,2,4,0,2,0.5,1.5) cbind(X,Y) plot(X,Y, col="red", bty="l", lwd=4, main="Reta de Regressão") f=function(X) Y=3 -0.5*X curve(f,add=T, col="blue", lwd=3) 02_01.pdf Figura 2.1: Reta de regressão • 10. (Exercício 2.21- Hoffmann) É dada uma amostra com 4 pares de valores: x=(2,1,1,4) y=(6,8,9,13) Admite-se que as variáveis X e Y estão relacionadas de acordo com o modelo Yi =α+βXi+ui, onde os ui são erros independentes, de média zero, variância constante e distribuição normal. a. Determine as estimativas dos parâmetros da regressão linear. (Usando o R): Como já sabemos que as estimativas são feitas pelo Método dos Mínimos Quadrados, vamos a partir de agora utilizar somente o código do R. > x=c(2,1,1,4) > y=c(6,8,9,13) > lm(y~x) 2.15 Exercícios 41 Call: lm(formula = y ~ x) Coefficients: (Intercept) x 6.0 1.5 Utilizaremos o modelo Yi = 6+1.5x. b. Calcule o coeficiente de determinação da regressão. Para calcular o coeficiente de determinação, usaremos: r2 = b(∑ni=1 xy) ∑ni=1 y2 r = 0.5891883 c. Teste, ao nível de significância de 5%, a hipótese H0 : β = 5 contra a hipótese alter- nativa H0 : β 6=5. Usaremos a estatística: t(b) = b−β s(b) Que resulta na estatística -3.43, sendo não significativo, pois t0 = 4.3 • 11. (Exercício2.31- Hoffmann) Em estudos da variação do consumo de certo produtos em função da renda da família tem sido usada a função Y = exp [ α− βX ] , onde Y é o dispêndio com o produto considerado e X é a renda da família. Mostre as anamorfoses que devem ser feitas para que as fórmulas de regressão linear simples sejam usadas para ajustar essa função, utilizando dados obtidos de uma amostra aleatória. Se aplicarmos o logaritmo em Y, obtemos: logYi = α− βX Onde: Zi = logYi Vi = − 1Xi O que nos leva a aplicar o modelo: Zi = α+Viβ • 12. (Exercício 2.34 - Hoffmann - Adaptada) É dada uma amostra de 12 pares de valores. Com base nela, responda aos itens. a. Determine as estimativas de regressão linear. 42 Capítulo 2. Modelo de regressão linear simples Xi Yi Xi Yi 1 2 4 9 1 4 4 13 1 3 5 11 1 5 5 10 2 8 5 16 2 6 5 9 Sumário: n = 12 n ∑ i=1 XiYi = 360 n ∑ i=1 Xi = 36 n ∑ i=1 X2i = 144 n ∑ i=1 Yi = 96 n ∑ i=1 Y 2i = 962 X = 3 Y = 8 Portanto: β̂1 = Sxy Sxx = ∑ni=1 XiYi−nXY ∑ni=1 X2i −nX2 = 72 36 = 2 β̂0 = Y − β̂1X = 2 b. Plote a reta de regressão estimada juntamente com o gráfico de dispersão dos da- dos. 02_02.pdf Figura 2.2: Gráfico de dispersão 2.15 Exercícios 43 c. Faça a análise de variância considerando o nível de significância de 5% Sumário: SQreg = n ∑ i=1 (Ŷi−Y )2 = β̂1 2 Sxx = 144 SQtotal = n ∑ i=1 (Yi−Y )2 = ∑ i = 1nY 2i −nY 2 = 194 SQres = SQtotal−SQreg = 194−144 = 50 QMreg = SQreg 1 = 144 QMres = SQres n−2 = 5 A estatística para o teste H0 : β1 = 0 H1 : β1 6=0 É a seguinte: F0 = QMreg QMres ∼F(1,n−1) F0 = 144 5 F0 = 28.8 Assim, o p-valor é dado por 2P(F0 < F(1,10))< 0.05, pois o valor crítico é dado por 6.936728. O que nos faz rejeitar a hipótese nula, ou seja, a regressão é significativa. Montando a tabela, temos: Tabela 2.4: ANOVA Fonte de variação GL SQ QM F p-valor Regressão 1 144 144 28.8 < 0.05 Resíduo 10 50 5 Total 11 194 d. Teste a hipótese de que o intercepto é nulo contra a hipótese de não nulidade con- siderando um nível de significância de 5%. H0 : β0 = 0 H1 : β0 6=0 44 Capítulo 2. Modelo de regressão linear simples Sob H0 verdade, têm-se: Calcular o valor da estatística associada a esse parâmetro: t0 = β̂0−β0√ QMres∑ni=1 X2i nSxx ∼t(n−2) = 1.54 Assim, o p-valor será 2P(t0 < t(10))> 0.05, pois o valor crítico para essa situação vale 2.223. Chegamos a conclusão de que podemos rejeitar a hipótese nula. e. Faça o teste bilateral da hipótese nula de que o intercepto vale 3, considerando um nível de significância de 5%. H0 : β1 = 3 H1 : β1 6=3 Sob H0 verdade, têm-se: Calcular o valor da estatística associada a esse parâmetro: t0 = β̂1−β1√ QMres Sxx ∼t(n−2) = −2.73 Assim, o p-valor será 2P(t0 < t(10))< 0.05, pois o valor crítico para essa situação vale 2.223. Chegamos a conclusão de que não podemos rejeitar a hipótese nula. f. Determine a estimativa de Y para X = 5 e o intervalo de confiança para E[Y |X = 5], ao nível de confiança de 95%. Neste caso trata-se de um intervalo de confiança para a média de determinado valor X , então usamos: I.C.[β0+β1x0] = [ (Ŷi|x = x0)±t1− α2 (n−2) √ QMres [ 1 n + (x0− x)2 Sxx ]] = [ 12±2.223 √ 144 [ 1 12 + (5−3)2 108 ]] = [5.623725;18.376275] g. Determine um intervalo de previsão para [Y |X = 6], ao nível de confiança de 95%. Neste caso trata-se de um intervalo de previsão para um determinado valor X , e não a média, então usamos: I.C.[β0+β1x0] = [ (Ŷi|x = x0)±t1− α2 (n−2) √ QMres [ 1+ 1 n + (x0− x)2 Sxx ]] = [ 12±2.223 √ 144 [ 1+ 1 12 + (6−3)2 108 ]] = [3.98014;24.01986] • 13. (Exercício 2.37- Hoffmann) Considere o modelo Yi = βXi+ui com Xi fixos, E[ui] = 0, E[ui2] = 0 e E[uiu j] = 0 para i6= j. Sabe-se que os estimador de mínimos quadrados para β é b= ∑ n i=1 XiYi ∑ni=1 Xi2 , não-tendecioso, com V (b) = σ 2 ∑ni=1 Xi2 . Um estimador alternativo para β β̂ = YX , que é a inclinação da reta unindo a origem do sistema de eixos ao ponto Y , X . 2.16 Aplicações em dados reais 45 a. Prove que β̂ é um estimador linear não-tendecioso. b = X Y = ∑ni=1 Yi n ∑ni=1 Xi n = ∑ni=1 (βXi+ui) ∑ni=1 Xi = β + ∑ n i=1 ui ∑ni=1 Xi E[b] = β +E [ ∑ni=1 ui ∑ni=1 Xi ] E[b] = β b. Deduza a expressão que dá V (β̂ ) em função de σ2 e dos valores de X. Denotando (β̂ ) = E[β̂ −β ]2 Sabemos que no item a: b−β = ∑ n i=1 ui ∑ni=1 Xi Substituindo V (b) = E[∑ni=1 ui]2 ∑ni=1 Xi2 Sabemos também que E [ n ∑ i=1 ui ]2 = E[u12+u22+ ...+un2] = nσ2 Então V (b) = nσ2 ∑ni=1 Xi2 • 2.16 Aplicações em dados reais 2.16.1 Adicionar Análise descritiva Análise inferencial 3. Modelo de regressão linear múltipla Considere, para o prosseguimento desse capítulo, algumas mudanças nas notações. Para o vetor da variável reposta, teremos Y ; representando a matriz de covariáveis Xi1,Xi2, ...,Xik, tem-se X . Para o vetor de parâmetros do modelo de regressão linear múltipla, passaremos a usar β , e para o vetor de erros (εi), usaremos ε . Para as esperanças e demais cálculos, usaremos sempre vetores. 3.1 Modelo de regressão linear simples na forma matricial De acordo com as notações definidas anteriormente, o modelo de regressão passa a ser Y = Xβ + ε Na qual o vetor Y, de ordem nx1, é dado por Y = Y1 Y2 Y3 ... Yn A matriz X, de ordem nxp, sendo p = k+1 o número de parâmetros, é dada por X = 1 X11 X12 · · · X1k 1 X21 X22 · · · X2k 1 X31 X32 · · · X3k ... ... ... . . . ... 1 Xn1 Xn2 · · · Xik 3.2 Suposição do modelo de regressão linear múltipla 47 E, finalmente, a matriz de parâmetros, de ordem px1, e a matriz de erros, com ordem nx1, dadas por β = β1 β2 ... βk ε = ε1 ε2 ... εn Em suma, o modelo de regressão linear múltipla é dado por Y1 Y2 Y3 ... Yn = β0+β1X11+β2X12+ ...+βkX1k + ε1 β0+β1X21+β2X22+ ...+βkX2k + ε2 β0+β1X31+β2X32+ ...+βkX3k + ε3 ... β0+β1Xn1+β2Xn2+ ...+βkXnk + εn 3.2 Suposição do modelo de regressão linear múltipla Passaremos então a escrever as suposições de outra forma, ou seja, sua distribuição será agora uma distribuição n-variada: εi∼Nn(0,σ2I) Sendo 0 o vetor de ’zeros’ e I a matriz indentidade. A conclusão consequente dessa suposição para os erros é: E[Y] = E[Xβ + ε] = Xβ +E[ε] = Xβ V[Y] = V[Xβ + ε] = V[ε] = σ2I Então o vetor Y tem distribuição Y∼Nn(Xβ ,σ2I) 3.3 Estimação dos parâmetros Da mesma forma como na regressão linear simples, vamos estimar os parâmetros pelo Método dos Mínimos Quadrados. No modelo antes estudado tínhamos que minimizar ∑ni=1 εi2, agora teremos que minimizar tal valor na forma matricial, isto é n ∑ i=1 εi = εT ε 48 Capítulo 3. Modelo de regressão linear múltipla Como εi = (Y−Xβ ), então εT ε = (εT ε)T (εT ε) = YT Y−YT Xβ − (Xβ )T Y+(Xβ )T (Xβ ) = YT Y−YT Xβ −β T XT Y+β T XT Xβ Mas YT Xβ = β T XT Y Então εT ε = YT −2YT Xβ +β T XT Xβ Essa simplificação nos ajuda na derivação em relação ao vetor de parâmetros, isto é d(εT ε) dβ = d dβ [YT −2YT Xβ +β T XT Xβ ] Nessa derivação de matrizes, precisamos dos seguintes resultados daT X dX = a dXT aX dX = 2aX Então, respectivamente, temos os valores dYT Xβ dβ = (YT X) = (XT Y) dβ T XT Xβ dβ = (YT X) = 2(XT X)β Igualando a zero −2XT Y+2(XT X)β̂ = 0 (XT X)β̂ = XT Y (XT X)−1(XT X)β̂ = (XT X)−1XT Y β̂ = (XT X)−1XT Y 3.4 Propriedade dos estimadores 49 Estimação usando EMV Vamos agora estimar o vetor de parâmetros utilizando oEstimador de Máxima Verossimilhança. Como Y∼Nn(Xβ ,σ2I) A função densidade da Normal Multivariada Y∼Nn ( µ,∑ ) É dada por fY(y) = 1 (2pi)n/2|∑ |1/2 exp [−1 2 (Y−µ)T∑−1(Y−µ) ] . Onde ∑ é o determinante da matriz de variâncias e covariâncias. A função de verossimilhança é, então, dada por: L(β ,σ2) = 1 (2pi)n/2(σ2)n/2 exp [ −1 2σ2 (Y−Xβ )T (Y−Xβ ) ] Aplicando o logaritmo, temos: l(β ,σ2) =−n 2 ln(2pi)− n 2 ln(σ2)− 1 2 (Y−Xβ )T (Y−Xβ ) Se derivarmos em relação ao vetor de parâmetros chegaremos a mesma expressão encontrada pelo Método dos Mínimos Quadrados, isto é, β = (XT X)−1XT Y Porém, vamos utilizar a expressão do logaritmo acima para calcular a estimativa de σ2: ∂ l(β ,σ2) ∂σ = − n 2σ2 + (Y−Xβ )T (Y−Xβ ) 2σ4 Igualando a zero: − n 2σ2 + (Y−Xβ )T (Y−Xβ ) 2σ4 = 0 (Y−Xβ )T (Y−Xβ ) 2σ4 = n 2σ2 σ2 = (Y−Xβ )T (Y−Xβ ) n . 3.4 Propriedade dos estimadores Vamos demonstrar agora que o vetor de parâmetros estimados anteriormente é não viciado para os parâmetros. Vamos também calcular o vetor de variâncias. E[β̂ ] = E[(XT X)−1XT Y] = (XT X)−1XT E[Y] = (XT X)−1XTβ = β 50 Capítulo 3. Modelo de regressão linear múltipla Para a variância, devemos saber um resultado simples V[AY] = AV[Y]AT Logo, as variâncias temos V [β̂ ] = V[(XT X)−1XT Y] = (XT X)−1XT V[Y][(XT X)−1XT ]T = (XT X)−1XTσ2IX(XT X)−1 = σ2(XT X)−1XT X(XT X)−1 = σ2(XT X)−1 A matriz de variâncias e covariâncias fica X = 1 X11 X12 · · · X1k 1 X21 X22 · · · X2k 1 X31 X32 · · · X3k ... ... ... . . . ... 1 Xn1 Xn2 · · · Xik 3.5 Análise de Variância Para o modelo Yi = β0+β1Xi1+β2Xi2+ ...++βkXik + εi Testaremos as seguintes hipóteses para avaliar a significância do modelo H0:β1 = β2 = ...= βk = 0 H1:pelo menos um βi 6=0 Se pelo menos um parâmetro for significativo então o modelo faz sentido. A seguir mostraremos as partes da análise de variância da forma como já estamos acostumados para depois mostrar a forma matricial, dessas partes. Parte I: Soma de quadrados total SQtotal = n ∑ i=1 (Yi−Y )2 = n ∑ i=1 Yi2−nY 2 Mostrando cada parte matricialmente: n ∑ i=1 Yi2 = Y TY 3.5 Análise de Variância 51 Bem como Y = 1 n 1’Y = 1 n YT 1’ Y 2 = 1 n2 YT 1’1T Y Então nY 2 é dado por nY 2 = n n2 YT 11T Y = 1 n YT 11T Y Assim SQtotal = YT Y− 1nY T 11T Y = YT [ −1 n 11T ] Y Parte II: Soma de quadrados dos resíduos No método linear simples, tínhamos que desenvolver SQres = n ∑ i=1 (Yi− Ŷi)2 Porém no modelo linear múltiplo, temos que desevolver SQres = (Y−Xβ̂ )T (Y−Xβ̂ ) Assim, SQres = Y TY −Y T X β̂ − (X β̂ )TY +(X β̂ )T X β̂ = Y TY −2β̂ T XTY + β̂ T XT X β̂ . βY Sabendo que β̂ = (XT X)−1XTY Podemos substituir na expressão da soma de quadrados SQres = Y TY −2[(XT X)−1XTY ]T XTY +[(XT X)−1XTY ]T XT X [(XT X)−1XTY ] = Y TY −2Y T X(XT X)−1XTY +Y T X(XT X)−1XTY = Y TY −Y T X(XT X)−1XTY = Y T [I−X(XT X)−1XT ]Y 52 Capítulo 3. Modelo de regressão linear múltipla Observação: a expressão acima encontramos a expressão da matriz H, muito utilizada nos conceitos aprofundados de regressão. H = X(XT X)−1XT Parte III: Soma de quadrados de regressão Como já calculamos duas partes da decomposição da soma de quadrados, faremos agora apenas a subtração: SQreg = SQtotal−SQres Assim SQreg = Y T [ −1 n 11T ] Y −Y T [I−H]Y = Y TY − 1 n Y T 11TY −Y TY +Y T HY = Y T HY − 1 n Y T 11TY = Y T [ H− 1 n 11T ] 3.6 Teste de hipóteses Nos testes individuais dos parâmetros, estamos interessados em saber se determinado parâmetro é igual a determinado valor, isto é, estamos interessados em testar as seguintes hipóteses: H0 : β j = β j0 H1 : β j 6=β j0 Como todo teste, precisamos encontrar a quantidade pivotal. Como os β j0 são funções de variáveis aleatórias com distribuição Normal, então podemos assumir que β j0∼N(β j,var(β j)) Pois, como já demonstramos E[β̂ ] = β Tendo a distribuição, encontramos a quantidade pivotal β j−β j0√ var(β̂ ) ∼N(0,1) Sabemos que a matriz de variâncias e covariâncias é dada por V(β̂ ) = v(β̂0) cov(β̂0, β̂1) cov(β̂0, β̂2) · · · cov(β̂0, β̂k) cov(β̂0, β̂1) var(β̂1) cov(β̂1, β̂2) · · · cov(β̂1, β̂k) cov(β̂0, β̂2) cov(β̂1, β̂2) var(β̂2) · · · cov(β̂2, β̂k) ... ... ... . . . ... cov(β̂0, β̂k) cov(β̂1, β̂k) cov(β̂2, β̂k) · · · var(β̂k) 3.7 Coeficiente de determinação múltipla 53 Mas se estamos trabalhando com matrizes, como extrair a variância individual do parâmetro? Simples, usaremos o seguinte artificio V (β ) = σ2C j j Sendo C j j o elemento de ordem j+1 da diagonal da matriz (XT X)−1 Com isso, podemos chegar em β j−β j0√ σ2C j j ∼N(0,1) Como não temos conhecimento sobre a variância, utilizamos o Teorema de Cochram SQres σ2 ∼χ2 Para conseguirmos, finalmente, a quantidade pivotal para o teste β j−β j0√ QMresC j j ∼t(n− p) Assim, para um nível de significância α , rejeita-se H0 se • Teste bilateral |t0|> t1− α2 (n− p) • Teste unilateral t0 < tα(n− p) t0 < tα(n− p) 3.7 Coeficiente de determinação múltipla Definido da mesma forma que no modelo simples, ou seja, R2 = SQreg SQres O valor alto do coeficiente de determinação, a medida que aumentamos o número de variáveis, não significa que tais variáveis são signifitativas para o modelo, e sim porque o modelo está ’inchado’. Por esse motivo, usamos o coeficiente de determinação ajustado: R2 = 1− SQres n−p SQtotal n−1 3.8 Intervalo de confiança No modelo de regressão linear simples, o intervalo de confiança para o valor esperado era calculado por meio de um dado valor X0 e então encontrava-se esperança e variância do valor esperado. Agora, faremos o mesmo, porém em liguagem matricial. Ao invés de estar disponível o valor de X0, agora teremos o vetor abaixo, já que temos um modelo múltiplo: X0 = [ 1 X01 X02 · · · X0k ]T 54 Capítulo 3. Modelo de regressão linear múltipla Então para obter o valor esperado da expressão E[Y |X0] = β̂0+ β̂1X01+ β̂2X02+ ...+ β̂kX0k na forma de matriz, basta fazermos: COLOCARR Ou seja, Ê[Y |X0] = X0T β̂ Para a construção do intervalo de confiança precisamos da esperança e da variância dessa estimativa: E[X0T β̂ ] = X0T E[β ] = X0Tβ V [X0T β̂ ] = X0TV (β̂ )X0 = X0T (XT X)−1σ2X0 Dessa forma a quantidade pivotal fica: Ê[Y |X0]−E[Y |X0]√ X0T (XT X)−1σ2X0 ∼N(0,1) Utilzando novamente o Teorema de Cochran e dividindo pela qui quidrado, chegamos em: Ê[Y |X0]−E[Y |X0]√ QMresX0T (XT X)−1X0 ∼t(n− p) Assim, o intervalo fica definido como I.C.[E[Y |X0]] = [ X0T β̂ ± t1− α2 (n− p) √ QMresX0T (XT X)−1X0 ] 3.9 Intervalo de previsão Diferentemente do Intervalo de Confiança, tal intervalo representa um valor de Y que não está presente na amostra, por isso denota-se Y0|X0. Para encontrarmos um intervalo para essa quantidade devemos utilizar o seguinte artifício: D = Ŷ0|X0−Y0|X0 Então, seguiremos os passos da construção de tal intervalo, ou seja, calcularemos a esperança e a variância de D. E[D] = E[Ŷ0|X0−Y0|X0] = E[XT0 β̂ − (XT0 β + εi)] = E[XT0 β̂ ]−E[XT0 β ]−E[εi] = XT0 β −XT0 β = 0 V [D] = V [Ŷ0|X0−Y0|X0] = V [Ŷ0|X0]+V [Y0|X0]−2Cov[Y0|X0,Y0|X0] = V [XT0 β̂ ]+V [X T 0 β + εi]−0 = V [XT0 β̂ ]+σ 2 = σ2[1+XT0 (X T X)−1X0] 3.10 Técnicas de diagnóstico 55 A quantidade pivotal fica, portanto Ŷ0|X0−Y0|X0−E[Ŷ0|X0−Y0|X0]√ Var[Ŷ0|X0−Y0|X0−E[Ŷ0|X0−Y0|X0]] ∼ N(0,1) Ŷ0|X0−Y0|X0−0√ σ2[1+XT0 (XT X)−1X0] ∼ N(0,1) Ŷ0|X0−Y0|X0√ σ2[1+XT0 (XT X)−1X0] ∼ N(0,1) Como devemos estimar a variância, utilizaremos o Teorema de Cochran para substituir σ2, ou seja, ficaremos com Ŷ0|X0−Y0|X0√ QMres[1+XT0 (XT X)−1X0] ∼N(0,1)E o intervalo é dado por: I.C.[Y0|X0] = [ XT0 β̂±t1− α2 (n− p) √ QMres(1+XT0 (XT X)−1X0) ] 3.10 Técnicas de diagnóstico No modelo clássico, as suposições são adotadas sobre a fonte de variação e a ela associa-se normalidade, homocedasticidade e independência. Após o ajuste do modelo é necessário verificar se essas suposições estão sendo obedecidas ou não (avaliação do ajuste), bem como verificar a existência de pontos remotos (outliers), pontos influentes e/ou pontos de alavanca (análise de sensibilidade). 3.10.1 Avaliação do ajuste Nos modelos clássicos, a avaliação do ajuste utiliza a análise de resíduos para validar determinadas suposições, tais como: i. Homocedasticidade; ii. Normalidade; iii. Independência dos erros; iv. Existência de pontos discrepantes. Considerando o modelo clássico y = Xβ + ε, com ε ∼Nn(0,σ2I), cujo estimador de β é dado por β̂ = (X>X−1X>y), então temos que ŷ = Xβ̂ = X(X>X−1X>y) = Hy (a matriz H é chamada de matriz hat ou matriz chapéu). A partir disso, podemos definir três tipos de resíduos: ordinário, estudentizado internamente e estudentizado externamente. O resíduo ordinário é definido por ε = y− ŷ = (I−H)y = (I−H)ε, 56 Capítulo 3. Modelo de regressão linear múltipla logo, ε̂ ∼N (0,σ2(I−H)), ou seja, enquanto a fonte de variação é suposta independente e com mesma variância, os resíduos do ajuste, no entanto, apresentam variâncias diferentes, pois sua distribuição depende de σ2 e da matriz H. Assim, considerar εi = ε̂i pode não ser adequado devido a essa heterogeneidade. Uma alternativa a isto, é construir resíduos que não dependam dessa quantidade, pois assim podemos realizar comparações entre os mesmos. Se σ2 for conhecido, podemos padronizar o resíduo ordinário dividindo-o pelo seu desvio padrão, √ σ2(1−hii)em que hii denota o i-ésimo elemento da diagonal principal de H). Dessa forma, a distribuição dos resíduos padronizados não depende mais da variância. Se σ2 for desconhecido, dividimos por √ s2(1−hii), e chamamos essa quantidade de resíduo estudentizado internamente: ε̂∗ = ε̂i√ s2(1−hii) = ε̂i√ QMres(1−hii) , i = 1,2, ...,n. Os resíduos estudentizados internamente resolvem o problema das variâncias distintas, porém um valor discrepante pode alterar profundamente a variância residual. Além disso, tem-se o fato de que o numerador e o denominador do resíduo são variáveis dependentes (Demétrio, 2002). Para garantir essa independência, define-se o resíduos estudentizados externamente: ε̂ e = ε̂i√ s2(i)(1−hii) , sendo s(i) o quadrado médio do resíduo com a ausência da i-ésima observação. 3.10.2 Análise de sensibilidade Análise sensibilidade refere-se ao estudo do comportamento do modelo ajustado quando o mesmo sofre algumas perturbações. O objetivo, portanto, é investigar pontos atípicos, sendo estes denominados de pontos remotos (outliers), pontos de alavanca e pontos influentes. Os pontos remotos são observações que não se ajustam bem ao modelo e são detectadas por um afastamento com relação a Y . Esse ponto pode ser de alavanca ou influente. Os pontos de alavanca não afetam o ajuste, são observações extremas de X, a matriz de covariáveis do modelo. A detecção desses pontos é feita observado a diagonal principal da matriz H, assim, se hii = 1, então ŷ = y, ou seja, a i-ésima observação tem influência total no seu valor predito. O critério de alta alavancagem é dado pelo fato de que ∑ni=1 hii = p, p o número de covariáveis do modelo. Assim, a alavancagem média é dada por ∑ni=1 hii n que é o mesmo que p n . O critério estabelecido para um ponto ter alta alavancagem é se hii = 2p n . Os pontos influentes, ao contrário dos de alavanca, afetam o ajuste do modelo, pois indicam afastamento com relação a X e a y. Este ponto pode ou não ser um ponto remoto e pode ou não ser um ponto de alavanca. Cook (1977) sugere que a influência de determinada observação é identificada quando o modelo é ajustado com a sua ausência do conjunto de dados. Para a detecção desse ponto utiliza-se a distância de Cook e é uma análise de influência global. 3.10.3 Técnicas gráficas Algumas técnicas gráficas para análise de diagnóstico são: 3.11 Exercícios 57 i. Gráfico dos resíduos versus a ordem de coleta dos dados: avaliar a hipótese de independência dos dados. ii. Gráfico dos resíduos versus valores ajustados: verifica a homoscedasticidade do modelo (espera-se um comportamento aleatório dos resíduos em torno no zero) e linearidade do modelo (espera-se que não apresente tendência); Além disso, temos: i. Gráfico dos resíduos estudentizados versus valores ajustados: verifica se existem outliers em Y; ii. Gráfico dos resíduos padronizados versus valores ajustados: verifica se existem outliers em Y; iii. Gráfico de alavancagem (Diagonal da Matriz H - leverage): verifica se existem outliers em X; iv. Gráfico dos resíduos estudentizados ordenados (observados) versus quantis da normal padrão (teóricos): verifica normalidade (recomenda-se utilizar envelope simulado). Para a análise formal dos resíduos, podemos realizar os seguintes testes: i. Testes de Normalidade para os resíduos; ii. Teste de Durbin-Watson para testar independência dos resíduos; iii. Teste de Breusch-Pagan e Goldfeld-Quandt para testar se os resíduos são homoscedásticos; iv. Teste de falta de ajuste para verificar se o modelo ajustado é realmente linear. 3.11 Exercícios Considere (yi,x>i ) os valores observados, através de um processo de amostragem bem definido, para um indivíduo em estudo, em que i = 1,2, ...,n e x>i = (x1,x2, ...,xn). Nosso objetivo inicial é especificar completamente um modelo que leve em consideração a relação entre as variável resposta Y e as variáveis explicativas X . Considerando essa estrutura, desenvolva as afirmativas abaixo. a. Especifique um modelo inicial. Solução Yi = β0+β1X1+ ...+βkXk + εi. • b. Especifique o modelo na forma matricial. Solução Y = Xβ + ε Na qual o vetor Y, de ordem nx1, é dado por Y = Y1 Y2 Y3 ... Yn A matriz X, de ordem nxp, sendo p = k+1 o número de parâmetros, é dada por 58 Capítulo 3. Modelo de regressão linear múltipla X = 1 X11 X12 · · · X1k 1 X21 X22 · · · X2k 1 X31 X32 · · · X3k ... ... ... . . . ... 1 Xn1 Xn2 · · · Xik E, finalmente, a matriz de parâmetros, de ordem px1, e a matriz de erros, com ordem nx1, dadas por β = β1 β2 ... βk ε = ε1 ε2 ... εn Em suma, o modelo de regressão linear múltipla é dado por Y1 Y2 Y3 ... Yn = β0+β1X11+β2X12+ ...+βkX1k + ε1 β0+β1X21+β2X22+ ...+βkX2k + ε2 β0+β1X31+β2X32+ ...+βkX3k + ε3 ... β0+β1Xn1+β2Xn2+ ...+βkXnk + εn • c. Proponha alguns métodos de estimação dos parâmetros de interesse. Solução Método dos Mínimos Quadrados e Método de Máxima Verossimilhança. • d. Obtenha o estimador pelo Método dos Mínimos Quadrados. Solução No modelo linear simples, precisamos minimizar ∑ni=1 εi2, mas vamos considerar a forma matricial para que possamos ter um generalização. n ∑ i=1 εi = εT ε Como εi = (Y−Xβ ), então εT ε = (εT ε)T (εT ε) = YT Y−YT Xβ − (Xβ )T Y+(Xβ )T (Xβ ) = YT Y−YT Xβ −β T XT Y+β T XT Xβ 3.11 Exercícios 59 Mas YT Xβ = β T XT Y Então εT ε = YT −2YT Xβ +β T XT Xβ Essa simplificação nos ajuda na derivação em relação ao vetor de parâmetros, isto é d(εT ε) dβ = d dβ [YT −2YT Xβ +β T XT Xβ ] Nessa derivação de matrizes, precisamos dos seguintes resultados daT X dX = a dXT aX dX = 2aX Então, respectivamente, temos os valores dYT Xβ dβ = (YT X) = (XT Y) dβ T XT Xβ dβ = (YT X) = 2(XT X)β Igualando a zero −2XT Y+2(XT X)β̂ = 0 (XT X)β̂ = XT Y (XT X)−1(XT X)β̂ = (XT X)−1XT Y β̂ = (XT X)−1XT Y • e. Verifique se os estimadoresMMQ são não viesados e calcule o viés. Solução Considere: E[β̂ ] = E[(XT X)−1XT Y] = (XT X)−1XT E[Y] = (XT X)−1XTβ = β Para o cálculo da variância dos estimadores devemos saber um resultado simples: 60 Capítulo 3. Modelo de regressão linear múltipla V[AY] = AV[Y]AT Logo, V [β̂ ] = V[(XT X)−1XT Y] = (XT X)−1XT V[Y][(XT X)−1XT ]T = (XT X)−1XTσ2IX(XT X)−1 = σ2(XT X)−1XT X(XT X)−1 = σ2(XT X)−1. • f. Considere uma distribuição adequada para a fonte de erro e obtenha os estimadores via Método de Máxima Verossimilhança (MMV). Solução Vamos agora estimar o vetor de parâmetros utilizando o Estimador de Máxima Verossimilhança. Como Y∼Nn(Xβ ,σ2I) A função densidade da Normal Multivariada Y∼Nn ( µ,∑ ) É dada por fY(y) = 1 (2pi)n/2|∑ |1/2 exp [−1 2 (Y−µ)T∑−1(Y−µ) ] . Onde ∑ é o determinante da matriz de variâncias e covariâncias. A função de verossimilhança é, então, dada por: L(β ,σ2) = 1 (2pi)n/2(σ2)n/2 exp [ −1 2σ2 (Y−Xβ )T (Y−Xβ ) ] Aplicando o logaritmo, temos: l(β ,σ2) =−n 2 ln(2pi)− n 2 ln(σ2)− 1 2 (Y−Xβ )T (Y−Xβ ) Se derivarmos em relação ao vetor de parâmetros chegaremos a mesma expressão encontrada pelo Método dos Mínimos Quadrados, isto é, β = (XT X)−1XT Y Vamos utilizar a expressão do logaritmo acima para calcular também a estimativa de σ2: ∂ l(β ,σ2) ∂σ = − n 2σ2 + (Y−Xβ )T (Y−Xβ ) 2σ4 3.11 Exercícios 61 Igualando a zero: − n 2σ2 + (Y−Xβ )T (Y−Xβ ) 2σ4 = 0 (Y−Xβ )T (Y−Xβ ) 2σ4 = n 2σ2 σ2 = (Y−Xβ )T (Y−Xβ ) n . • g. Apresente a distribuição dos estimadores dos coeficientes obtidos pelo MMV. Solução β̂∼N(β ,Var(β )) • h. Apresente algum teste de significância para os coeficientes do modelo. Solução Nos testes individuais dos parâmetros, estamos interessados em saber se determinado pa- râmetro é igual a determinado valor, isto é, estamos interessados em testar as seguintes hipóteses: H0 : β j = β j0 H1 : β j 6=β j0 Como todo teste, precisamos encontrar a quantidade pivotal. Como os β j0 são funções de variáveis aleatórias com distribuição Normal, então podemos assumir que β j0∼N(β j,var(β j)) Pois, como já demonstramos E[β̂ ] = β Tendo a distribuição, encontramos a quantidade pivotal necessária para o teste: β j−β j0√ var(β̂ ) ∼N(0,1) • l. Quais são as suposições do modelo de regressão linear? Solução O modelo tem como premissa 4 suposições principais: i. Independência: Os erros são independentes entre si, não devem ser correlacionados. ii. Identicamente distribuídos: Os erros são i.d., ou seja, identicamente distribuídos com distribuição N(0,σ2). iii. Linearidade: O modelo supõe que X e Y possuem uma relação linear. iv. Homocedasticidade: A variabilidade dos erros é constante. • 62 Capítulo 3. Modelo de regressão linear múltipla m. O que devemos fazer após o ajuste do modelo? Solução Análise de diagnóstico com o objetivo de verificar as premissas assumidas ao iniciar as análises. • n. Por que devemos fazer a análise de diagnóstico em modelos estatísticos? Solução Para verificar as premissas assumidas ao iniciar as análises dos dados. • o. Apresente alguns tipos de resíduos que podem ser utilizados na análise de diagnósticos. Solução i. Resíduo padronizado Definido por rı = ei√ QME(1−hıı) , i = 1,2, . . . ,n, com σˆ2 =QME e hii o i-ésimo elemento da matriz matriz chapéu (hat), H =X(X ′X)−1X ′. ii. Resíduo studentizado Definido por ti = Yi− Yˆi(i) σˆ √ 1+ x′i(X ′ (i)X(i)) −1xi . • p. Quais são as violações de suposição que podem ser verificadas através dos resíduos? Solução i. Não linearidade de X e Y; ii. Não normalidade dos erros; iii. Heterocedasticidade; iv. Correlação entre os erros; v. Presença de valores extremos ou outlier; vi. Modelo mal especificado. • q. Especifique um modelo supondo k = 3 e que foi verificada, graficamente, uma relação quadrá- tica entre yi e xi2 Solução Podemos expressar o seguinte modelo polinomial: Yi = β0+β1xi1+β2x2i2+β3xi3+ εi, i = 1,2, ...,n. • 3.11 Exercícios 63 r. Qual transformação deve ser realizada quando verificamos na análise de resíduos que a variância cresce quando a variável resposta cresce? Solução Considerando X1, ...,Xn os dados originais, a transformação de Box-Cox consiste em encontrar um λ tal que: Yi(λ ) = ln(Xi), se λ = 0, Xλi −1 λ , se λ 6= 0, Precisamos então, encontrar uma estimativa para o parâmetro de transformação λ . Uma das formas de estimar λ é utilizando o método de máxima verossimelhança. Assumimos que Yi(λ ), i= 1, ...,n é uma função monotona tal que Yi(λ )∼N(µ,σ2) para algum λ fixo. Portanto, a função de máxima verissimilhança de Yi(λ ) em relação às observações originais Yi é obtida multiplicando a função de máxima verossimilhança pelo Jacobiano da transformação, temos então: L ( Yi(λ ),µ,σ2 ) = 1 (2pi)n/2σn exp { −∑ni=1 (Yi(λ )−µ)2 2σ2 } J(λ ,Y ) em que J(λ ,Y ) = n ∏ i=1 ∣∣∣∣∂Yi(λ )∂Yi ∣∣∣∣= n∏ i=1 Y λ−1i Desta forma, temos que para um λ fixo, os estimadores σˆ2(λ ) e µˆ(λ ) são dados por: µˆ(λ ) = Y¯ (λ ) = ∑ n i=1Yi(λ ) n σˆ2(λ ) = ∑ n i=1(Yi(λ )− Y¯ (λ ))2 n Em seguida, substituímos os valores de µ e σ2 pelos estimadores de máxima verossimelhança encontrados acima, µˆ(λ ) e σˆ2(λ ), respectivamente, na função de máxima verossimilhança. Desta forma, obtemos o logaritimo da função de máxima verossimilhança dependendo somente de λ `(λ ) = log [ L(λ |Yi, µˆ, σˆ2) ] =−npi 2 − 1 2 log σˆ2(λ )+(1−λ ) log(Yi) Precisamos então, enncontrar λ que maximiza `(λ ). Uma forma que encontramos na literatura para facilitar a estimativa de λ utilizar a forma normalizada da transformação, Zi(λ ), para que desta forma termos J(λ ,Z) = 1. Considere a seguinte função: Zi(λ ) = Yi(λ ) [J(λ ,Y )]1/n Desta forma, o logaritmo da função de máxima verossimilhança fica `(λ ) = log [ L(λ |Zi, µˆ, σˆ2) ] =−npi 2 − 1 2 log σˆ2(Z,λ ) 64 Capítulo 3. Modelo de regressão linear múltipla onde σˆ2(Z,λ ) = ∑ n i=1(Zi(λ )− Z¯(λ ))2 n Portanto, maximizar `(λ ) é equivalente a encontrar o mínimo de σˆ2(Z,λ ) em relação a λ . Box e Cox (1964) afirmam que após a transformação adequada das observações Y para Y (λ ) os valores esperados das observações transformadas estarão normalmente distribuidos com variância constante. • s. Especifique um modelo linear heterocedástico e obtenha os estimadores através do Método dos Mínimos Quadrados Generalizados. Solução Em muitos casos, ao analisarmos os resíduos de um modelo de regressão linear, ao visua- lizarmos que estes não apresentam a característica de variância constante, temos uma das suposições do modelo não atendidas. Quando isso acontece, dizemos que o modelo apresenta heterocedasticidade nos erros (resíduos), ou ainda que o modelo é heterocedástico. Alguns efeitos causados por essa falha na suposição do modelo são: Os erros padrões dos estimadores, obtidos pelo Método dos Mínimos Quadrados Ordinários, são incorretos e portanto a inferência estatística não é valida. Não podemos mais dizer que os Estimadores de Mínimos Quadrados Ordinários são os melhores estimadores de variância mínima para β , embora ainda possam ser não viciados. Por que usar pesos? Suponhamos que a variância seja não constante, isto é, Var(Yi) = σ2i , para i = 1, . . . ,n. tomamos, por exemplo, pesos de forma que wi ∝ 1 σ2i , i = 1, . . . ,n. Com isso, as estimativas de Mínimos Quadrados Ponderados (MQP) tem erros padrão menores do que as estimativas de Mínimos Quadrados Ordinários (MQO). Como dito anteriormente, as estimativas de MQO são incorretos, em relação as estimativas de MQP. A avaliação da hipótese de homoscedasticidade dos resíduos, é feita através das estatísticas de Cochran, Brown-Forsyte (Levene), Breusch-Pagan
Compartilhar