Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 1 Raciocínio Lógico-Quantitativo para Traumatizados Aula 21 Regressão Linear Simples 21 Regressão Linear Simples ................................................................................................. 9 21.1 A Reta de Regressão ................................................................................................... 9 21.2 Valores Esperados dos Estimadores ................................................................... 10 21.3 Variâncias e Covariâncias dos Estimadores ..................................................... 10 21.4 Distribuições Amostrais ........................................................................................... 12 21.5 O Teorema de Gauss-Markov ................................................................................ 14 21.6 O Coeficiente de Determinação ............................................................................ 14 21.7 Relaxamento dos Pressupostos do Modelo ...................................................... 19 21.8 Regressão sem o Intercepto .................................................................................. 20 21.9 Intervalos de Confiança ........................................................................................... 24 21.10 Testes de Hipóteses ................................................................................................ 29 21.11 Análise de Variância ............................................................................................... 32 21.12 Memorize para a prova .......................................................................................... 38 21.11 Exercícios de Fixação ............................................................................................. 40 21.12 Gabarito ....................................................................................................................... 45 21.13 Resolução dos Exercícios de Fixação ............................................................... 46 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 2 E aí pessoal, tudo bem? Esta é a última aula do módulo de Estatística Básica e Avançada. Reconhecemos que “pegamos pesado” com vocês. Mas a intenção é a melhor possível: a sua aprovação! Procure digerir o conteúdo apresentado, porque tudo que ensinamos poderá cair na prova. Erratas Já caiu em prova! (AFPS/2002/ESAF), pág. 16 da Aula 18 Corrija o início da segunda linha da solução para “Primeiramente, devemos descartar a opção C, pois é absurda.” Ou seja, a opção absurda é a “C” e não a “D”. Resolução da questão 13 da Aula 18 Corrija parte da terceira linha da solução para “σ2(nX ) = n2σ2(X ) = n2 × σ 2 n = nσ2 = n ×1 = n” Note que havia um n sobrando na variância da média amostral. Antes de iniciarmos a aula de hoje, daremos resoluções detalhadas (e mais didáticas!) das questões 1 e 14 da Aula 17 e uma outra solução para a questão 1 da Aula 18. Resoluções Detalhadas das Questões 1 e 14 da Aula 17 1. (ICMS-RJ/2007/FGV) A probabilidade de um candidato acertar esta questão de múltipla escolha, (Y = 1), é função da proficiência em matemática, θ, do candidato e pode ser calculada por meio de: , 1 )|1( 2,05,0 2,05,0 θ θ θ +− +− +== e eYP sendo θ um número real que representa a medida de proficiência em matemática do candidato. Pode-se, então, afirmar que: A) a cada acréscimo de uma unidade na medida θ de proficiência matemática, a probabilidade de o candidato acertar a questão aumenta em 20%. B) a probabilidade de acertar a questão (Y=1) é maior do que a probabilidade de errar a questão (Y=0), para todos os candidatos com θ > 0. C) essa função de probabilidade tem máximo em θ =0. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 3 D) candidatos com θ = 2,5 de proficiência têm probabilidade 0,5 de acertar a questão. E) a razão entre a probabilidade de acertar e a de errar é uma função linear em θ, e expressa por -0,5 + 0,2θ. Resolução Análise da alternativas (A) “a cada acréscimo de uma unidade na medida θ de proficiência matemática, a probabilidade de o candidato acertar a questão aumenta em 20%.” A probabilidade de um candidato acertar esta questão de múltipla escolha, (Y = 1), é função da proficiência em matemática, θ, do candidato, e é dada por: . 1 )|1( 2,05,0 2,05,0 θ θ θ +− +− +== e eYP Então, P(Y=1|θ) denota a probabilidade de que Y = 1 para um dado θ. A probabilidade P(Y=1|θ) NÃO representa que, a cada acréscimo de uma unidade na medida θ de proficiência matemática, a probabilidade de o candidato acertar a questão aumenta em 20%. Ademais, a função P(Y=1|θ) não é linear, ou seja, não é do tipo y = a + bθ (equação que descreve uma reta), em que y é a variável dependente (eixo vertical), a denota o intercepto, b é a declividade da reta e θ é a variável independente (eixo horizontal). Logo a alternativa é INCORRETA. (B) “a probabilidade de acertar a questão (Y=1) é maior do que a probabilidade de errar a questão (Y=0), para todos os candidatos com θ > 0.” Para resolver este item, é preciso responder à seguinte pergunta: ⇒ Será que a razão P(Y =1 |θ) P(Y = 0 |θ) = e−0,5+0,2θ 1+ e−0,5+0,2θ 1− e −0,5+0,2θ 1+ e−0,5+0,2θ é maior do que 1 para todo θ > 0? Repare que é mais fácil analisar o comportamento do logaritmo de uma razão entre funções exponenciais do que a razão propriamente dita. Tal procedimento é bastante usual em matemática. É o que faremos a partir deste ponto. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 4 Tomando o logaritmo neperiano da razão entre P(Y =1 |θ) e P(Y = 0 |θ), obtemos W = ln P(Y =1 |θ ) P(Y = 0 |θ ) ⎡ ⎣ ⎢ ⎤ ⎦ ⎥ = ln e−0,5+0,2θ 1+ e−0,5+0,2θ 1− e −0,5+0,2θ 1+ e−0,5+0,2θ ⎡ ⎣ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ = ln e−0,5+0,2θ 1+ e−0,5+0,2θ 1+ e−0,5+0,2θ − e−0,5+0,2θ 1+ e−0,5+0,2θ ⎡ ⎣ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ W = ln e−0,5+0,2θ 1+ e−0,5+0,2θ 1 1+ e−0,5+0,2θ ⎡ ⎣ ⎢ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ ⎥ = ln e −0,5+0,2θ 1+ e−0,5+0,2θ × 1+ e−0,5+0,2θ 1 ⎡ ⎣ ⎢ ⎤ ⎦ ⎥ = ln e −0,5+0,2θ( ) Lembrando que ln en = n ln e = n, pois ln e = 1, temos que W = (−0,5 + 0,2θ ) × lne = (−0,5 + 0,2θ) ×1 = −0,5 + 0,2θ . Observe que a relação W = -0,5 + 0,2θ é a equação de uma reta. Ou seja, W é uma função linear de θ. O gráfico de W em função de θ está representado na figura a seguir. A função W é igual a zero para θ = 2,50 (é a raiz da equação -0,5 + 0,2θ = 0) e W = -0,5 para θ = 0. Analisemos o comportamento da função W no intervalo 0< θ <2,5. Considere, por exemplo, o valor θ = 1 para a variável independente. Neste caso, W = -0,5 + 0,2 x 1 = -0,5 + 0,2 = -0,3. Então (*) Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 5 W = ln P(Y =1 |θ =1) P(Y = 0 |θ =1) ⎡ ⎣ ⎢ ⎤ ⎦ ⎥ = −0,3 ⇒ P(Y =1 |θ =1) P(Y = 0 |θ =1) = e −0,3 = 0,74 ⇒ menor que 1! (*) ln a = b ⇒ a = eb Como foi obtido P(Y =1 |θ) /P(Y = 0 |θ ) <1 para um valor positivo de θ, então é falso afirmar que a probabilidadede acertar a questão (Y=1) é maior do que a probabilidade de errar a questão (Y=0), para todos os candidatos com θ > 0. Alternativa INCORRETA. (C) “essa função de probabilidade tem máximo em θ =0.” O gráfico da função θ θ θ 2,05,0 2,05,0 1 )|1( +− +− +== e eYP tem o seguinte comportamento assintótico: 1)/1( →= θYP para ∞→θ e 0)/1( →= θYP para −∞→θ . Portanto, não há um máximo da função quando 0=θ ⇒ afirmação INCORRETA. (D) “candidatos com θ = 2,5 de proficiência têm probabilidade 0,5 de acertar a questão.” P(Y=1|θ=2,5) = 5,0 11 1 11 0 0 5,22,05,0 5,22,05,0 =+=+=+ ×+− ×+− e e e e ⇒ afirmação CORRETA. (E) “a razão entre a probabilidade de acertar e a de errar é uma função linear em θ, e expressa por -0,5 + 0,2θ.” É o logaritmo neperiano da razão entre a probabilidade de acertar e a de errar que é uma função linear em θ, expressa por -0,5 + 0,2θ ⇒ afirmação INCORRETA. GABARITO: D 14. (ICMS-RJ/2009/FGV) Utilizando uma análise de regressão linear simples, um pesquisador obteve um ajuste Y = a1X + b1 e um coeficiente de determinação 21R . Um segundo pesquisador analisou os mesmos dados, mas antes aplicou a cada observação de Y a transformação Y´ = 10Y + 100, obtendo um outro ajuste Y´ = a2X + b2, com um coeficiente de determinação 22R . Considere as afirmativas abaixo, relativas à comparação entre os valores obtidos nas duas análises: I. a2 = 10a1 ; Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 6 II. b2 = b1 + 100; III. 21 2 2 RR = . Assinale: A) se somente a afirmativa I for verdadeira. B) se somente as afirmativas I e II forem verdadeiras. C) se somente as afirmativas I e III forem verdadeiras. D) se somente as afirmativas II e II forem verdadeiras. E) se todas as afirmativas forem verdadeiras. Resolução 11 bXaY += ⇒ Y '=10Y +100 =10(a1X + b1) +100 = (10a1)X + (10b1 +100) = a2X + b2 Logo, 12 10aa = e 10010 12 += bb . Análise das afirmativas: (I) VERDADEIRA, pois 12 10aa = , conforme demonstrado acima. (II) FALSA, dado que 10010 12 += bb . (III) Dados: - ajuste y = a1x + b1 implica um coeficiente de determinação 21R ; - aplicação da transformação linear y, = 10y + 100 resulta no coeficiente de determinação 22R . Vimos que a correlação amostral R é dada por ⇒ R = sxy sxsy = cov. amostral/(desvio padrão amostral de X . desvio padrão amostral de Y) Então, R1 = sxy sxsy = 1 n (xi − x )(yi − y )∑ 1 n (xi − x )2∑ × 1n (yi − y )2∑ = 1 n (xi − x )(yi − y )∑ 1 n ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 (xi − x )2∑( ) (yi − y )2∑( ) Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 7 R1 = 1 n (xi − x )(yi − y )∑ 1 n (xi − x )2∑( ) (yi − y )2∑( )= (xi − x )(yi − y )∑ (xi − x )2∑( ) (yi − y )2∑( ) e R2 = (xi − x )(yi, − E[y ,])∑ (xi − x )2∑( ) (yi, − E[y ,])2∑( ) em que E[y ,] = E[10y +100] = E[10y]+ E[100] =10E[y]+100 =10y +100. Substituindo E[y ,] =10y +100 na expressão acima, obtemos R2 = (xi − x )(10yi +100 −10y −100)∑ (xi − x )2∑( ) (10yi +100 −10y −100)2∑( )= (xi − x )(10yi −10y )∑ (xi − x )2∑( ) (10yi −10y )2∑( )= R2 = 10(xi − x )(yi − y )∑ (xi − x )2∑( ) 100(yi − y )2∑( )= 10 (xi − x )(yi − y )∑ 100 (xi − x )2∑( ) (yi − y )2∑( )= 10 (xi − x )(yi − y )∑ 10 (xi − x )2∑( ) (yi − y )2∑( ) R2 = (xi − x )(yi − y )∑ (xi − x )2∑( ) (yi − y )2∑( )= R1 ⇒ R2 2 = R12 Conclui-se que a transformação linear Y´ = 10Y + 100 não altera a qualidade da regressão original Y = a1X + b1, uma vez que R2 2 = R12. Portanto, a assertiva (III) é VERDADEIRA. GABARITO: C Outra solução para a questão 1 da Aula 18 1. (Analista Técnico-SUSEP-2006-ESAF) Seja X1, X2, ... uma sucessão de variáveis aleatórias identicamente distribuídas, cada uma com média μ e variância σ2, tendo a propriedade de qualquer número finito delas são independentes. Então, para cada z ),(...lim 1 zz n nXXP n n Φ=⎭⎬ ⎫ ⎩⎨ ⎧ <−++∞→ σ μ onde )(zΦ é uma função de distribuição: A) Normal reduzida. , Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 8 B) Normal. C) Qui-quadrado. D) Log-normal. E) Binomial. Resolução Sejam nXXX ,...,, 21 variáveis aleatórias independentes e identicamente distribuídas, com média μ e variância σ2. De acordo com o TCL, se nn XXXS +++= ...21 , então n nS SVar SES n n nn σ μ−=− )( )( é assintoticamente normal (isto é, tende para a normal quando n tende para infinito) com média nula e desvio-padrão igual a um (normal padrão ou reduzida). Ou seja, lim n → ∞ P Sn − nμ σ n < z ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = P(Z < z) = Φ(z) , em que Z é a variável aleatória N(0,1). O TCL também é verdadeiro sob condições mais gerais. Por exemplo, ele vale quando nXXX ,...,, 21 são variáveis independentes com a mesma média e variância, mas não necessariamente identicamente distribuídas. GABARITO: A Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 9 21 Regressão Linear Simples Esta aula aborda as propriedades dos estimadores de mínimos quadrados, a inferência estatística e a análise de variância do modelo de Regressão Linear Simples (RLS). 21.1 A Reta de Regressão A análise de regressão estuda a dependência de uma variável, chamada de independente, em relação outras variáveis, chamadas de explanatórias, com o objetivo de estimar valores da primeira, dados os valores das segundas. Na aula 17 usamos o modelo (1) εβα ++= XY , em que α é o intercepto, β é a declividade e ε denota a componente aleatória da variação de Y (ε é uma variável aleatória). Vimos também que os estimadores a (do intercepto α ) e b (da declividade são dados por (2) ⎪⎩ ⎪⎨ ⎧ −= = xbya S S b xx xy em que (3) ),)(( yyxx n yx yxS i i i i i i i i iixy −−= ⎟⎠ ⎞⎜⎝ ⎛×⎟⎠ ⎞⎜⎝ ⎛ −= ∑∑ ∑∑ e (4) ∑ ∑∑ −= ⎟⎠ ⎞⎜⎝ ⎛ −= i i i i i ixx xxn x xS 2 2 2 )( Interpretação Geométrica do Intercepto e da Declividade O intercepto α é o valor estimado de y quando x = 0, e β representa a variação estimada de y quando x varia uma unidade, conforme ilustrado pela figura abaixo . Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 10 21.2 Valores Esperados dos Estimadores Pode-se demonstrar que os estimadores a e b de (2) têm média dadas por (5) ⎩⎨ ⎧ = = β α )( )( bE aE (*) As demonstrações não são elementares e tampouco serão cobradas em prova. Assim, preferimos omitir as demonstrações. Logo os estimadores de α e β, a e b (às vezes denotados por αˆ e βˆ ), são justos (ou não viesados ou não tendenciosos), pois suas médias são iguais aos verdadeiros valores dos parâmetros. Isso quer dizer que se coletarmos várias amostras de iguais tamanhos, e aplicarmos as equações de (2), os valores médios das estimativas encontradas de a e b tenderão a α e β, respectivamente. O resultado acima é verdadeiro somente quando são válidos os pressupostosdo modelo apresentados na aula 17. O pressuposto 6, da normalidade dos erros, não é necessário para o resultado (5), mas será importante para o estudo da inferência sobre o modelo de regressão. 21.3 Variâncias e Covariâncias dos Estimadores Por definição, temos que Var(a) = E [a – E [a]]2 = E [a – α]2, 0 x y α 1 β Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 11 Var(b) = E [b – E [b]]2 = E [b – β]2, Cov(a,b) = E [(a – α)(b – β)]. Sendo σ2 a variância do erro aleatório ε do modelo, pode-se demonstrar que (vide nota anterior) (6) xxS b 2 )var( σ= , em que ∑ −= 2)( xxS ixx , (7) var(a) = σ2 xi 2∑ nSxx ⎛ ⎝ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟ , (8) Cov(a,b) = σ2 −x Sxx ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ . Como o termo xxS/ 2σ aparece em (6), (7) e (8), podemos reescrever (7) e (8) como var(a) = var(b) xi 2∑ n e Cov(a,b) = −x var(b), respectivamente. Do exposto, percebe-se que: • Quanto maior a variância do termo de erro ε (dada por σ2) maiores serão as variâncias de a e b e a covariância entre eles. • Quanto mais concentrados os valores de x estiverem em torno de sua média x , menor será o valor de Sxx (lembre que Sxx = (xi − x )2∑ ) e maiores serão as variâncias de a e b e a covariância entre eles. Isso pode ser visto graficamente na próxima figura. • O sinal da covariância ),( baCov é oposto ao sinal de x . Note que o gráfico da reta ajustada passa pelo ponto das médias ),( yx . Assim, ainda na figura, mantendo-se fixo o ponto ),( yx , um aumento em b diminui o intercepto a da reta ajustada. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 12 21.4 Distribuições Amostrais Sob a hipótese da normalidade dos erros, a e b também são distribuídos normalmente (9) ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ xxS Nb 2 ,~ σβ (10) a ~ N α,var(b) xi 2∑ n ⎛ ⎝ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟ (11) xxS xbaCov 2 ),( σ−= (repetida por conveniência) Falta-nos agora apenas definir um estimador para a variância do erro aleatório σ2. Prova-se, e apelamos mais uma vez para a sua fé nos seus professores, que ˆ σ 2 = ei 2∑ n − 2 é um estimador não tendencioso de σ2, ou seja, 22 )ˆ( σσ =E , em que iiiii bxayyye −−=−= ˆ (*). (*) O “2” que é subtraído do denominador é o número de parâmetros de regressão ),( βα no modelo, e essa subtração torna o estimador 2σˆ não tendencioso. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 13 Os resultados desta seção são muito importantes para o estudo da inferência estatística. Exemplo. Voltemos a um dos exemplos da aula 17, em que foi obtida reta xy 217,0174,0ˆ += ( 42=xxS ). Foi dada a tabela a seguir: ix iy ii yx 2ix 2 iy 1 0,5 0,5 1 0,25 2 0,6 1,2 4 0,36 3 0,9 2,7 9 0,81 4 0,8 3,2 16 0,64 5 1,2 6,0 25 1,44 6 1,5 9,0 36 2,25 7 1,7 11,9 49 2,89 8 2,0 16,0 64 4,00 36=∑ ix 2,9=∑ iy 5,50=∑ ii yx 2042 =∑ ix 64,122 =∑ iy Vamos substituir, na tabela acima, as suas três últimas colunas,como abaixo: ix iy iyˆ iii yye ˆ−= 21e 1 0,5 0,174+0,217x1=0,392 0,108 0,0117 2 0,6 0,174+0,217x2=0,608 -0,008 0,0001 3 0,9 0,174+0,217x3=0,825 0,075 0,0056 4 0,8 0,174+0,217x4=1,042 -0,242 0,0584 5 1,2 0,174+0,217x5=1,258 -0,058 0,0034 6 1,5 0,174+0,217x6=1,475 0,025 0,0006 7 1,7 0,174+0,217x7=1,692 0,008 0,0001 8 2,0 0,174+0,217x8=1,908 0,092 0,0084 36=∑ ix 2,9=∑ iy 2,9ˆ =∑ iy 0=∑ ie 0883,02 =∑ ie Repare que (a) ∑∑ = ii yy ˆ (demonstrável); (b) , consequência direta de (a). Estimemos as variâncias de a e b , bem como ),( baCov . A primeira etapa é estimar σ2: Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 14 ˆ σ 2 = ei 2∑ n − 2 = 0,0833 6 = 0,0147. Agora, vamos utilizar as fórmulas (6), (7) e (8), substituindo σ2 (desconhecido) pela sua estimativa 2σˆ : 6 2 10350 42 0147,0ˆ)var( −×=== xxS b σ , var(a) = xi 2∑ n var(b) = 204 8 × 350 ×10−6 = 8,925 ×10−3, cov(a,b) = −x var(b) = − 36 8 × 350 ×10−6 = −1,575 ×10−3. Assim, assumindo a normalidade do erro aleatório ε do modelo, obtemos as seguintes estimativas: b ~ N(0,217; 350x10-6) a ~ N(0,175; 8,925x10-3) 21.5 O Teorema de Gauss-Markov O teorema Gauss-Markov nos garante que, de todos os estimadores lineares possíveis não viesados para α e β, os estimadores de mínimos quadrados a e b , definidos por (2), são os de menor variância. Ou seja, os estimadores a e b são os Melhores Estimadores Lineares Não Viesados (MELNV). Uma consequência lógica do teorema é que, se há estimadores de menor variância que a e b para α e β, estes ou são viesados ou são não lineares. Nós não nos preocuparemos com o seu estudo. A demonstração deste teorema foge ao escopo desta aula. 21.6 O Coeficiente de Determinação Os resíduos iii yye ˆ−= , embora utilizados para avaliar a aderência da reta ajustada de mínimos quadrados aos pontos (xi,yi), têm o inconveniente de serem afetados pela unidade utilizada. Para superar esse obstáculo, voltaremos à discussão sobre o coeficiente de determinação R2 visto na aula 17. Primeiramente, temos que a variação total de y é dada por (12) 2)( yyS i iyy −= ∑ Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 15 Nosso objetivo é separar a variação total de y em 2 partes: uma explicada pela regressão e outra associada ao termo de erro (ou não explicada pela regressão). Considere a identidade (13) )ˆ()ˆ( yyyyyy iiii −+−=− . Elevando ambos os membros de (13) ao quadrado e somando as n observações, obtemos: (14) .)ˆ)(ˆ(2)ˆ()ˆ()( 222 ∑∑∑∑ −−+−+−=− i iiii ii iii i yyyyyyyyyy Demonstra-se que o último termo de (14) é nulo e segue-se então que ∑∑∑ −+−=− i ii iii i yyyyyy 222 )ˆ()ˆ()( (15) SQT = SQE + SQR em que: ⇒ SQT = Soma dos quadrados total = Syy = ∑ −i i yy 2)( (ou variação total) Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 16 ⇒ SQE = Soma dos quadrados dos erros = ∑ −i ii yy 2)ˆ( (ou variação residual) ⇒ SQR = Soma dos quadrados da regressão = ∑ −i i yy 2)ˆ( (ou variação explicada) Dividindo ambos os membros de (15) por SQT, resulta (16) SQT SQR SQT SQE +=1 . Finalmente, definimos o coeficiente de determinação por (17) SQT SQE SQT SQRR −== 12 . Da definição, tem-se que 0 ≤ R2 ≤ 1. O coeficiente R2 mede a proporção ou a porcentagem da variação total em y explicada por x dentro do modelo de regressão. O R2 quantifica o grau de ajuste de um conjunto de dados à reta de regressão estimada. Quanto mais próximo de 1 estiver R2 melhor terá sido nosso trabalho para explicar a variação em y, com bxay +=ˆ , e maior será a capacidade de previsão de nosso modelo sobre todas as observações amostrais, ou seja, R2 nos diz o quão próximos os valores estimados (ou previstos) de Y estão de seus valores observados. O coeficiente R2 é uma medida descritiva. É, às vezes, chamado medida de aderência.Por si mesmo, não mede a qualidade do modelo de regressão. Não se pode julgar o mérito de um modelo com base somente no valor de seu R2. Os parâmetros estimados podem conter informações úteis mesmo quando esse número é baixo (como R2=0,32). Isto pode ocorrer, por exemplo, quando aplicamos a regressão linear simples no contexto de variáveis econômicas1. Há outras formas de apresentar R2. Sabemos que ii bxay +=ˆ e y = a + bx . Subtraindo a segunda equação da primeira, obtemos ˆ y i − y = b(xi − x ) ⇒ ( ˆ y i − y )2 = b2(xi − x )2. Fazendo o somatório de ambos os membros da equação, ( ˆ y i − y )2i∑ = b2(xi − x )2i∑ = b2 (xi − x )2i∑ , obtemos, 1 GUJARATI, Damodar N. Econometria Básica, 3ª Edição. São Paulo: Pearson Makron Books, 2000. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 17 (18) xxSbSQR 2= , logo, (19) yyxx xy yy xx SS S S SbR 2 22 =⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= Vimos que o coeficiente de correlação linear de Pearson R é dado por yyxx xy SS S R = Então, (20) 2|| RR += . Repare que, no ajuste perfeito, ou seja, quando todas as observações se encontram na reta ajustada, todos os resíduos são nulos e R2 =1, assim como o módulo do coeficiente de correlação linear de Pearson (veja a figura abaixo). Voltando ao exemplo anterior (item 21.4), Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 18 SQT = ∑ −i i yy 2)( = yi2 − yi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 ni ∑ ≈ 2,06 (calculado anteriormente) SQE = 0883,0)ˆ( 2 =−∑i ii yy SQR = 972,142217,0 22 =×=xxSb O coeficiente R2 é dado por 957,0 06,2 42217,0 222 =⎟⎠ ⎞⎜⎝ ⎛×=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= yy xx S SbR O resultado acima nos diz que 95,7% da variação de y é explicada pelo modelo de regressão (veja a figura abaixo). Podemos dizer que a reta ajustada tem uma boa aderência aos pontos (xi,yi). Exemplo. O coeficiente de determinação de um modelo de regressão linear é uma ferramenta de avaliação do grau de ajustamento do modelo aos dados. A respeito desse coeficiente, assinale a afirmativa incorreta. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 19 A) Seu valor varia entre 0 e 1. B) É invariante a uma mudança de escala das variáveis independentes. C) Não diz o quão próximos os valores estimados de Y estão de seus valores efetivos. D) É uma quantidade não negativa. E) Representa a participação relativa da soma dos quadrados da regressão sobre a soma dos quadrados total. Resolução Análise das alternativas: A) Vimos que 0≤R2≤ 1, portanto esta afirmativa é CORRETA. B) A qualidade de uma regressão não muda se multiplicarmos as variáveis independentes por um valor constante (= mudança de escala), portanto esta afirmativa é CORRETA. C) A afirmação correta é a contrária, ou seja, R2 diz o quão próximos os valores estimados (ou previstos) de Y estão de seus valores efetivos ⇒ opção INCORRETA. D) Opção correta, pois 0≤R2≤ 1. E) Vimos que R2 = SQR/SQT. Deste modo, representa a participação relativa da soma dos quadrados da regressão sobre a soma dos quadrados total ⇒ CORRETA. GABARITO: C 21.7 Relaxamento dos Pressupostos do Modelo Heterocedasticidade Lembremos da seguinte premissa do modelo de regressão linear clássico: ⇒ A variância do termo de erro é sempre constante, ou seja, Var(ei) = E[ei2] = σ2 Quando a variância dos erros é constante, dizemos que os erros são homocedásticos. Todo o estudo que fizemos até o momento está baseado nesta premissa. Entretanto, muitas vezes no mundo real os erros são heterocedásticos, ou seja, suas variâncias não são constantes. Posto em equação, Var(ei) = E[ei2] = σ2(i). Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 20 A heterocedasticidade pode ser causada por várias fatores. Por exemplo, o aperfeiçoamento da coleta de dados pode levar a uma diminuição na variância dos erros das observações mais recentes. Autocorrelação A Autocorrelação ocorre quando não se observa o seguinte pressuposto: ⇒ Os termos de erro são estatisticamente independentes. Isso implica que Cov(ei,ej) = E[eiej] = 0, para i ≠ j. Simbolicamente, quando há autocorrelação, Cov(ei,ej) = E[eiej] ≠ 0 para i ≠ j. A autocorrelação dos erros é muito comum em séries temporais (por exemplo, o gráfico do índice BOVESPA ao longo dos últimos 10 anos é uma série temporal). Há modelos de regressão linear que “corrigem” os problemas de heterocedasticidade e autocorrelação. Entretanto, julgamos desnecessário, até mesmo prejudicial (a menos que você tenha tempo de sobra - concurseiro com tempo de sobra??), estudá-los para a prova, pois acreditamos ser desprezível a probabilidade de serem cobrados. 21.8 Regressão sem o Intercepto Em certas situações da vida prática, sabemos que a reta de regressão dos dados deve passar pela origem. Considere, por exemplo, um estudante de engenharia elétrica que está fazendo o levantamento experimental da famosa Lei de Ohm, dada por V = RI, em que R é o valor de uma resistência, V é a tensão aplicada em um resistor e I é a corrente que atravessa o resistor. Note que a equação V = RI passa pela origem do gráfico da tensão (eixo vertical) versus corrente (eixo horizontal). O valor da resistência dá a declividade da reta. A regressão sem o intercepto é também chamada regressão sem termo constante ou regressão que passa pela origem. Neste caso nosso modelo passa a ser εβ += XY e a condição imposta passa a ser min ei 2 = i ∑ min (yi − ˆ y i)2 = min (yi − bxi)2 i ∑ i ∑ Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 21 Aplicando então o método de mínimos quadrados, obtemos as seguintes fórmulas para b e sua variância (*) (21) ∑ ∑= 2 i ii x yx b (22) ∑= 2 2 )var( ix b σ , em que σ2 é estimado por (23) 1 ˆ 2 2 −= ∑ n eiσ (*) a prova pode ser encontrada no apêndice do capítulo 6 da referência GUJARATI, Damodar N. Econometria Básica, 3ª Edição. São Paulo: Pearson Makron Books, 2000. É interessante comparar tais fórmulas com as que se obtêm quando o termo de intercepto está incluído no modelo: b = Sxy Sxx = (xi − x )(yi − y )∑ (xi − x )2∑ ∑ −= 2 2 )( )var( xx b i σ ˆ σ 2 = ei 2∑ n − 2 As diferenças entre os dois conjuntos de fórmulas são evidentes: no modelo com intercepto usamos somas de quadrados e produtos cruzados (isto é, produtos entre X e Y) ajustados em relação à média. Além disso, o número de graus de liberdade para calcular 2σˆ é (n-1) na regressão sem o intercepto e (n-2) na regressão com intercepto. A estatística 2σˆ tem (n-1) graus de liberdade na regressão sem o intercepto porque a obtenção dos iyˆ necessita da estimativa de somente um parâmetro do modelo. Aprendemos, quando estudamos o modelo de regressão linear com intercepto, que ∑= 22ˆ ieσ = SQE = SQT – SQR. Vimos que SQR = b2Sxx = b2∑ − 2)( xxi , por conseguinte ∑ ∑∑ −−−= 2222 )()( xxbyye iii (regressão com intercepto). Curso Online -Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 22 Para o modelo com intercepto zero, pode-se mostrar analogamente que ∑ ∑∑ −= 2222 iii xbye . Note que as somas dos quadrados de Y e X não são ajustadas pela média na fórmula acima. Se o exercício não mencionar qual é o modelo, sempre resolva a questão usando o modelo com intercepto. Já caiu em prova! (Especialista em Regulação de Aviação Civil/ANAC/2009/UnB-CESPE). Um estudo sobre a duração de uma operac ̧ão de carregamento mostrou haver relação linear na forma Yk = βXk + εk, em que Yk é o tempo (horas) do carregamento k; Xk é o volume total (em toneladas) do carregamento k; β é o coeficiente angular; e εk representa um erro aleatório com média zero e variância σ2. De uma amostra aleatória de 341 operações de carregamento, observam-se os seguintes resultados: ∑ = = 341 1 988 k kkYX ; ∑ = = 341 1 2 704.1 k k X ; ∑ = = 341 1 682 k k X ; ∑ = = 341 1 2 681 k k Y ; ∑ = = 341 1 341 k k Y . Com base nessas informac ̧ões, julgue os itens a seguir. O coeficiente R2 (ou coeficiente de determinação ou explicação) do modelo apresentado é igual a 0,81, o que indica que 81% da variação total do tempo de carregamento são explicadas pelo volume total do carregamento. Resolução Note que a regressão passa pela origem, pois o modelo especificado é Yk = βXk + εk. O coeficiente R2 mede a proporção da variação total em Y (tempo em horas do carregamento) explicada por X (volume total em toneladas do carregamento) dentro do modelo de regressão. Não precisamos calcular o valor de R2 para resolver o item, pois o mesmo afirma que “81% da variação total do tempo de carregamento são explicadas pelo volume total do carregamento”. Ora, quem explica é o modelo de regressão e não a variável independente X. Logo o item está errado. Determinemos o valor de R2. Aprendemos que a correlação linear entre Y e X, dada por R, pode ser calculada pela fórmula Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 23 yyxx xy SS S R = Sxy = XkYk − Xk∑( )× Yk∑( ) n∑ = 988 − 682 × 341341 = 306 Sxx = X k2 − Xk∑( )2 n∑ =1.704 − 682 × 682341 = 340 Syy = Yk2 − Yk∑( )2 n∑ = 681 − 341 × 341341 = 340 Logo, R = 306 340 × 340 = 306 340 = 0,9 ⇒ R2 = 0,81. Você percebeu a “pegadinha” para os desatentos? O coeficiente de determinação é, de fato, igual a 81%. Mas o problema é que a definição de R2 está errada. Moral da história: leia os itens com todo a atenção, pois a sua futura carreira no serviço público depende disso! GABARITO: E A correlação linear entre o tempo de carregamento e o volume total do carregamento é superior a 0,85. Resolução O item está certo, pois vimos que R = 0,9. Calcular o R no item anterior não foi uma perda de tempo! GABARITO: C Sendo os erros aleatórios distribuídos segundo uma normal, então a estimativa de máxima verossimilhança para o coeficiente β é inferior a 0,60 e superior a 0,55. Resolução A banca “pegou pesado” neste item, pois assumiu que o candidato soubesse a seguinte propriedade (memorize para a prova!): ⇒ Se admitirmos os erros aleatórios do modelo de regressão distribuídos normalmente, os estimadores de mínimos quadrados e de máxima verossimilhança dos coeficientes da regressão são idênticos (GUJARATI, D. N. “Econometria Básica”, 3ª Ed., Pearson Makron Books, 2000). Trata-se de uma regressão sem o intercepto. Logo, Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 24 b = XkYk∑ Xk 2∑ = 988 1.704 = 0,58. Note que 0,55 < b = 0,58 < 0,60 ⇒ item certo. GABARITO: C Sendo y , x e βˆ , respectivamente, a média dos tempos de carregamento, a média dos volumes totais do carregamento e a estimativa de mínimos quadrados do coeficiente angulardo modelo, então xy βˆ= . Resolução O modelo é Yk = βXk + εk. Logo, E(Yk) = E(βXk + εk) = E(βXk) + E(εk) = βE(Xk) + E(εk) = βE(Xk), pois E(εk) = 0. Note que E(Yk) = βE(Xk) ≠ βˆ E(Xk). Item errado. Nota: mais uma “pegadinha” da banca. Errou a questão quem confundiu a estimativa do coeficiente angular, dada por βˆ , com o próprio coeficiente angular β. GABARITO: E 21.9 Intervalos de Confiança A partir deste ponto, abandonaremos a notação α e β para os parâmetros do modelo εβα ++= XY de RLS e adotaremos em seus lugares β1 e β2, respectivamente. A razão disso é que empregaremos o termo α daqui para frente para designar o nível de significância do teste, como logo veremos. O modelo de RLS fica então na forma (24) Y = β1 + β2X + ε em que 1βˆ e 2βˆ denotam as estimativas de β1 e β2 , respectivamente. Se os pressupostos do modelo (24) se verificam, inclusive o da normalidade dos erros, pode-se provar que (25) 222 2 ˆ −=− ntsβ ββ ) Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 25 segue distribuição t de Student com n–2 graus de liberdade, em que xxSs /ˆ 22 ˆ 2 σβ = é a variância amostral de 2βˆ (lembre que 2σˆ denota a variância amostral dos resíduos do modelo). O número de graus de liberdade (GL) é o número de observações subtraído do número de parâmetros do modelo. No modelo de RLS, GL = n-2. Da tabela auxiliar da t de Student encontramos valores críticos tc tais que P{−tc ≤ t ≤ tc} =1 − α . Segue-se que αββ β −=≤−≤− 1}/)ˆ({ 22 cc tstP ) , e, rearranjando a inequação anterior, obtemos (26) αβββ ββ −=+≤≤− 1}{ 22 222 )) )) ststP cc Exemplo. Considere o nível de significância α = 0,05 = 5% e a estatística t com 30 graus de liberdade. Podemos ver na figura abaixo que α−1 = 0,95 = 95% é a área sob a densidade t (curva azul) no intervalo -2,042 ≤ t ≤ 2,042 (tc = 2,042 para α= 5%, confira!) e 2α = 0,025 = 2,5% é a área de cada uma das caudas da distribuição. -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Distribuição da estatística t, N=30 t D en si da de Prob = 0.025 t>2.042 Prob = 0.025 t<-2.042 Area = 0,95 -2.042<t<2.042 O intervalo observado ) β 2 ± tcs ) β 2 é denominado intervalo com )%1(100 α− de confiança para o parâmetro 2β . A interpretação de um intervalo de confiança é que se um número infinito de amostras aleatórias for coletado e um intervalo Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 26 com )%1(100 α− de confiança para 2β for calculado a partir de cada amostra, então )%1(100 α− desses intervalos conterão o valor verdadeiro de 2β . Na prática, obtemos somente uma amostra aleatória e calculamos uma estimativa do intervalo de confiança. Uma vez que esse intervalo conterá ou não o valor verdadeiro de 2β , não é razoável fixar um nível de probabilidade para essa realização. A afirmação apropriada é a seguinte: o intervalo observado contém o valor verdadeiro de β, com )%1(100 α− de confiança. Essa afirmação tem uma interpretação de freqüência; ou seja, não sabemos se a afirmação é verdadeira para essa amostra específica, mas o método usado para obter o intervalo 22 ββ ) ) stc± resulta em afirmações corretas em )%1(100 α− do tempo Para o intercepto1β , a estimação dos intervalos de confiança (IC) funciona rigorosamente da mesma maneira que para 2β . Assim, podemos reescrever (26) como (27) αβββ ββ −=+≤≤− 1}{ 11 111 )) )) ststP cc em que (28) ss ) β 1 = ˆ σ 2 xi2∑ nSxx Exemplo. Retornemos ao exemplo de RLS que temos utilizado ao longo desta aula. A reta estimada é xy 217,0174,0ˆ += e as distribuições estimadas de 1β e 2β são: ⎩⎨ ⎧ )008938,0;174,0(: )0003505,0;217,0(: 1 2 N N β β Se quisermos calcular os intervalos de confiança de 95% para 1β e 2β , temos de escolher corretamente o valor crítico tc. Lembre que n=8 observações. Logo, t6 = 2,447, o que implica 2,5% de área para cada cauda. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 27 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Distribuição da estatística t, N=30 t D en si da de Prob = 0.025 t>2.447 Prob = 0.025 t<-2.447 O IC de 2β no nível de 95% de confiança é dado por 046,0217,00003505,0447,2217,0 22 ±=×±=± ββ ) ) stc . O IC de 1β no nível de 95% de confiança é dado por 231,0174,0008938,0447,2174,0 11 ±=×±=± ββ ) ) stc . Já caiu em prova! (TÉCNICO DE DEFESA AÉREA E CONTROLE DE TRÁFEGO AÉREO – DECEA/2009/CESGRANRIO) Uma determinada empresa resolveu estudar a relação do ativo total (em bilhões de reais) e a receita líquida (em milhões de reais) das 17 maiores instituições financeiras do país. O estudo forneceu os seguintes resultados: Estatística de regressão R2 0,55 R2 Ajustado 0,52 Erro padrão 2,86 Observações 17 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 28 Coeficientes Erro padrão T valor-P Interseção 4,5 1,43 3,1 0,007 Receita líquida 0,1 0,02 4,3 0,001 Com base nos resultados, o intervalo de confiança de 95%, bilateral, para a inclinação da reta, β, é, aproximadamente, (A) 0,1 ± 1,64 x 0,02 (B) 0,1 ± 1,75 x 0,02 (C) 0,1 ± 1,96 x 0,02 (D) 0,1 ± 2,13 x 0,02 (E) 0,1 ± 4,30 x 0,02 Resolução Seja o modelo de RLS Y = β1 + β2X + ε , em que a inclinação da reta β2 é o β mencionado pelo enunciado, X é a variável independente (ativo) e Y é a variável dependente (receita líquida). Pede-se o intervalo de confiança (IC) de β2. Vimos ele é dado por 02,03,41,0 22 ×±=± ββ ) ) stc ⇒ opção correta (E), certo? ERRADO! Você caiu numa “pegadinha” da banca. O valor T da tabela é a estatística de teste da Hipótese nula Ho: β2=0. O IC é dado por 22 ββ ) ) stc± , onde tc é o valor crítico de t extraído da tabela auxiliar t de Student. No modelo de RLS, para n=17 observações, temos n–2 = 15 graus de liberdade (GL). Para o IC bilateral 95% de confiança e 15 GL, tc=2,131 ≅ 2,13. Como 1,02 =β ) e 02,0 2 =β)s , temos que: IC: 02,013,21,0 22 ×±=± ββ ) ) stc . Nota: a estatística “R2 Ajustado” é definida no estudo da regressão linear múltipla, que está fora do escopo desta aula. Essa estatística não é usada na RLS. Na prova, você teria condições de resolver esta questão mesmo sem saber a definição de R2 Ajustado. GABARITO: D Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 29 21.10 Testes de Hipóteses A hipótese nula H0 A hipótese nula é geralmente o oposto do que queremos provar. Por exemplo, no modelo de RLS εββ ++= XY 21 , ao calcularmos 2βˆ estamos supondo que existe uma relação entre as variáveis X e Y. Assim, uma hipótese nula (H0) usualmente adotada é H0: 2β =0. A hipótese alternativa H1 A hipótese alternativa contradiz a hipótese nula. Por exemplo, quando a hipótese nula é H0: 2β = 0 a hipótese alternativa pode ser H1: 2β ≠0 ou H1: 2β <0 ou ainda H1: 2β >0. A preocupação de definir as hipóteses é do examinador, nós só teremos de testá-las. E para isso precisaremos de uma estatística de teste. Vimos que 2 ˆ22 /)ˆ( βββ s− segue distribuição t com n-2 graus de liberdade. Se a hipótese nula H0: 2β = k, em que k é uma constante, for aceita, então 2 ˆ22 /)ˆ( ββ sktn −=− também possui distribuição t com n-2 graus de liberdade. Esta será a estatística usada no teste. Ressaltamos que, na maioria dos exames, a hipótese nula é H0: 2β =0 e tn −2 = ˆ β 2 /s ˆ β 2, embora isso nem sempre ocorra. A Região de Rejeição Se a estatística tn −2 = ( ˆ β 2 − k) /s ˆ β 2 for muito grande em módulo (valor absoluto), rejeitamos H0. A lógica está no fato de, se 2βˆ ficar muito distante de k, provavelmente H0 está errada. Mas o quão grande tem de ser a estatística acima para rejeitarmos H0 em favor de H1: 2β ≠ 0? A resposta a essa pergunta é a escolha de um nível de significância α . A região de rejeição é composta por valores t tais que P{t ≥ tc} = P{t ≤ -tc} = α/2, conforme ilustrado pela figura abaixo. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 30 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Distribuição da estatística t, N=30 t D en si da de Prob = α/2 t>tc Prob = α/2 t<-tc P(-tc<t<tc) = 1-α NÃO REJEITAR H0 REJEITAR H0REJEITAR H0 Tipos de erro (revisão!) Sempre que aplicamos um teste de hipóteses corremos o risco de errar. Há dois tipos de erro. Erro tipo I: rejeitar H0 sendo ela verdadeira. Neste caso, H0 é verdadeira e P{−tc ≤ ( ˆ β 2 − k) /s ˆ β 2 ≤ tc} =1 − α , pois ( ˆ β 2 − k) /s ˆ β 2 segue a distribuição tn-2. Assim, a probabilidade de cometer um erro tipo I é α . Erro tipo II: aceitar a hipótese H0 sendo ela falsa. Entretanto, essa probabilidade não pode ser calculada, pois não sabemos o verdadeiro valor do parâmetro. Mas podemos dizer que a probabilidade de um erro nível II aumenta à medida que diminui a probabilidade de um erro nível I, quando se escolhe um menor nível de significância α . Exemplo. Com os dados do exemplo do exemplo anterior, teste a hipótese H0: β1=0 em favor da hipótese alternativa H1: β1≠0 nos níveis de 10% e 20% de significância. As mesmas fórmulas enunciadas para β2 se aplicam para β1 . A estatística de teste é tn −2 = ( ˆ β 1 − k) /s ˆ β 1 = 0,174 / 0,008938 =1,84 . a) α = 0,10 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 31 P{t ≥ tc} = P{t ≤ -tc} = α /2= 0,05 Como n=8, temos n–2 = 6 GL. Da tabela auxiliar, tc=1,94. Como −tc < tn −2 < tc , tn-2 se encontra na região de aceitação. Portanto, não rejeitamos a hipótese nula no nível de significância de 10%. b) α = 0,20 P{t ≥ tc} = P{t ≤ -tc} = α /2= 0,10 Da tabela auxiliar, tc = 1,44. Como tn-2>tc, tn-2 encontra-se na região de rejeição. Portanto, a hipótese nula é rejeitada no nível de significância de 20%. Testes unilaterais (unicaudais) Até agora estudamos os testes bilaterais ou bicaudais, que se caracterizam pela hipótese nula H0: iβ =0 (i=1,2), contra a alternativa H1: iβ ≠0. Se rejeitarmos H0 em favor da alternativa H1: iβ ≠0, estaremos considerando que iβ pode assumir qualquer valor negativo ou positivo, menos o zero. Ocorre às vezes, pela natureza das variáveis, que iβ não pode ser negativo e, dessa forma, estabelecemos a hipótese alternativaH1: iβ >0. O que você precisa saber para a prova está explicado na sequência. Em um teste bilateral, a região de rejeição é composta por valores t tais que P{t ≥ tc} = P{t ≤ -tc} = α /2. Em um teste unilateral à direita, a região de rejeição é composta por valores t tais que P(t≥tc) = α . Na próxima figura, temos α = 5% e tc = 1,697 (30 graus de liberdade). Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 32 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 Distribuição da estatística t t D en si da de Rejeitar se t > 1.697 Prob = 0.05 O restante do procedimento é idêntico ao já estudado. 21.11 Análise de Variância Seja o modelo de RLS dado por εββ ++= XY 21 e sua reta estimativa xy 21 ˆˆˆ ββ += . Vimos no item 21.6 que SQT = SQR + SQE, ou seja, ∑∑∑ −+−=− 222 )ˆ()ˆ()( iiii yyyyyy . A expressão acima é a equação básica da análise de variância ou ANOVA (ANalysis Of VAriance). Veremos que a análise de variância pode ser usada para testar a significância da regressão. Já aprendemos que os componentes ∑ − 2)ˆ( yyi (SQR) e ∑ − 2)ˆ( ii yy (SQE) medem, respectivamente, a variação em y devida à reta de regressão e a variação residual deixada sem explicação pela reta de regressão. A ideia é usar a equação da ANOVA para testar a hipótese de não haver regressão (β2=0). Se não há regressão, 1ˆˆ β=y e y=1ˆβ (pois yxyxy =−=−= .0ˆˆ 21 ββ ). Portanto, 0)()ˆ()ˆ( 2212 ∑∑∑ =−=−=− yyyyyi β (SQR é nula). Neste caso, SQT = SQE e isto quer dizer que a variância total de Y (σy2) é igual a variância residual σ2 (variância do erro aleatório ε do modelo), ou seja, σy2 = σ2. Vamos agora dividir os termos dos lados esquerdo e direito da equação da ANOVA pela variância residual σ2: Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 33 (yi − y )2∑ σ2 = ( ˆ y i − y )2∑ σ2 + (yi − ˆ y i)2∑ σ2 . Observe que a divisão de SQT por σ2 (lado esquerdo da expressão acima), 1 σ2 (yi − y ) 2∑ = yi − y σ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 =∑ χn −12 , resulta numa variável aleatória qui-quadrado com n-1 graus de liberdade, pois assumimos que σy2 = σ2 (lembre que a média amostral y causa a subtração de 1 grau de liberdade na estatística). Seguindo a mesma linha de raciocínio, temos que a estatística 1 σ2 (yi − ˆ y i) 2∑ = yi − ˆ y iσ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 =∑ χn −22 é uma variável aleatória qui-quadrado com n-2 graus de liberdade (a diminuição de 2 graus de liberdade é causada pela estimação dos parâmetrods 1ˆβ e 2βˆ ). Ainda falta analisar a estatística ( ˆ y i − y )2∑ σ2 = ˆ β 22Sxx σ2 (lembre que xxSSQR 2 2βˆ= ). A variável aleatória 2βˆ é normal. Sendo 02 =β por hipótese, temos que ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ xxS N 2 2 ,0~ˆ σβ . Considere a variável normal reduzida z = ˆ β 2 − 0σ / Sxx = ˆ β 2 Sxx σ . Elevando ao quadrado ambos os membros da expressão acima, obtemos, z2 = ˆ β 2 − 0σ / Sxx ⎛ ⎝ ⎜ ⎜ ⎞ ⎠ ⎟ ⎟ 2 = ˆ β 2 2Sxx σ 2 = SQR σ 2 , e concluímos que a divisão de SQR por σ2 resulta numa variável aleatória qui- quadrado com 1 grau de liberdade. Assim, a equação (yi − y )2∑ σ2 = ( ˆ y i − y )2∑ σ2 + (yi − ˆ y i)2∑ σ2 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 34 pode ser reescrita como 2 2 2 1 2 1 −− += nn χχχ , se, de fato, é válida a hipótese 02 =β . Aprendemos na aula 18 que uma variável resultante da soma de duas outras variáveis independentes 2 1n χ e 2 2n χ é uma variável 2 21 nn χ + . Uma consequência da propriedade de aditividade da qui-quadrado é a seguinte: se três variáveis 2nχ , 2 1n χ e 2 2n χ são tais que 2nχ = 2 1n χ + 2 2n χ , então a condição necessária e suficiente para que 2 1n χ e 2 2n χ sejam independentes é que n = n1 + n2. (*) o termo técnico seria “corolário”. Concluímos que 21χ = (SQR/σ2) e 2 2−nχ = (SQE/σ2) são variáveis qui-quadrado independentes, pois o número de graus de liberdade de SQT/σ2 é n-1, caso a premissa 02 =β seja válida. Considere a estatística F (29) F = SQR /σ2 1 SQE /σ2 n − 2 = χ1 2 /1 χn −22 /(n − 2) = SQR /1 SQE /(n − 2) = ˆ β 22Sxx ˆ σ 2 , em que 2σˆ denota a variância residual amostral. Note que F tem 1 grau de liberdade no numerador e n-2 graus de liberdade no denominador. Então (29) pode ser usada para se testar, pela ANOVA, a hipótese H0 de não haver regressão. O teste será unilateral, uma vez que, sendo falsa H0, o numerador tenderá a crescer. A variável (29) deverá ser comparada com o valor crítico F1,n −2,α em que α é o nível de significância do teste de hipóteses. Daremos um exemplo de teste pela ANOVA mais adiante. O teste acima descrito é equivalente ao teste bilateral da hipótese nula 02 =β , porque demonstra-se que o F de (29) é o quadrado do tn-2 quando 02 =β , ou seja, F1,n-2 = t2n-2. Podemos resumir tudo o que foi visto neste item na tabela de ANOVA abaixo (memorize para a prova!). Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 35 Fonte de Variação Soma de Quadrados Graus de Liberdade Quadrado Médio F Fα Regressão SQR 1 SQR/1 )2/( 1/ −nSQE SQR F1,n-2,α Residual SQE n-2 SQE/(n-2) Total SQT n-1 Pelo que foi visto até o momento, tanto faz usar t ou F no modelo de RLS. Na verdade, F é muito útil para a inferência do modelo de regressão linear múltipla, cujo estudo está fora do escopo desta aula. É por isso que demos maior ênfase ao estudo dos testes com a estatística t. Nota: cuidado com a notação. Alguns autores não adotam as mesmas abreviaturas que são usadas neste curso. Vimos que SQR = Soma dos quadrados da regressão = ( ˆ y i − y )2i∑ (variação explicada). Alguns autores a chamam de Soma dos Quadrados Explicada (SQE) pela regressão. Vimos também que SQE = Soma dos quadrados dos erros = (yi − ˆ y i)2i∑ (variação residual). Alguns autores a chamam de Soma dos Quadrados dos Resíduos (SQR). Neste caso inverte-se a notação. Na prova, o examinador terá de explicar a qual soma estará se referindo. Você tem apenas de estar bem atento. Exemplo. Testar pela ANOVA a existência de regressão linear para os dados do exemplo do item 21.4, ao nível de 10% de significância. Considere F1;6;0,1 = 3,776. Dados: 174,01ˆ =β (intercepto estimado), 217,0ˆ2 =β (inclinação estimada), Syy = 2,06; Sxx = 2,06, Sxy = 9,1 e n = 8. Solução: Vamos testar as hipóteses H0: β2 = 0, H1: β2 ≠ 0. SQR = 978,142217,0ˆ 222 ≈×=× xxSβ . Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 36 SQE = SQT – SQR = Syy – SQR = 2,06 – 1,978 = 0,082. F = SQR/[SQE/(n–2)] = 1,987/(0,082/6) ≅ 144,73. Como F = 144,73 >> 3,776, rejeitamos H0 e concluímos que há regressão. A próxima figura ilustra a distribuição amostral de F. A área azul corresponde a P(F > fc) = 10%, em que o valor crítico fc = 3,776. 0 20 40 60 80 100 120 140 0 0.05 0.1 0.15 0.2 0.25 Distribuição da estatística F f D en si da de P(F > 3.776) = 0,10 curva F área = 10% Fonte de Variação Soma de QuadradosGraus de Liberdade Quadrado Médio F Fα Regressão 1,978 1 1,978 = 014,0 978,1 144,73 3,776 Residual 0,082 6 0,014 Total 2,060 7 Já caiu em prova! (Analista da SUSEP/Atuária/2010/ESAF). A partir de uma amostra aleatória (X1 ,Y1), (X2 ,Y2),..., (X20 ,Y20) foram obtidas as estastísticas: médias X = 12,5 e Y = 19, variâncias amostrais sx 2 = 30 e sy 2 = 54 e covariância Sxy = 36. Qual a reta de regressão estimada de Y em X? A) ˆ Y i =19 + 0,667Xi B) ˆ Y i =12,5 +1,2Xi C) ˆ Y i = 4 +1,2Xi D) ˆ Y i =19 +1,2Xi Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 37 E) ˆ Y i = 80 + 22,8Xi Resolução A reta a estimar é ii XY 21 ˆˆˆ ββ += , em que o parâmetro 2βˆ (estimativa da declividade) é dado por ˆ β 2 = SxySxx = (Xi − X )(Yi −Y )i=1 n∑ (Xi − X )2i=1 n∑ , e o parâmetro 1ˆβ (estimativa do intercepto) por XY 21 ˆˆ ββ −= . Observe que estamos usando uma notação diferente do enunciado: a quantidade Sxy definida acima não é a covariância entre X e Y. Podemos calcular b adaptando a fórmula dada acima: ˆ β 2 = (Xi − X )(Yi −Y )i=1 n∑ n −1 (Xi − X )2i=1 n∑ n −1 = sxy sx 2 . Ou seja, 2βˆ pode ser calculado, de forma alternativa, pela razão entre a covariância amostral sxy (estamos usando uma notação diferente da do enunciado, mas que está coerente com a desta aula!) e a variância amostral sx 2. Logo, 2,130/36ˆ2 ==β e 0,45,122,1191ˆ =×−=β . Deste modo, a reta de regressão estimada de Y em X é ˆ Y i = 4 +1,2Xi. GABARITO: C Já caiu em prova! (Analista da SUSEP/Atuária/2010/ESAF). Com os dados da questão anterior, determine o valor da estatística F para testar a hipótese nula de que o coeficiente angular da reta do modelo de regressão linear simples de Y em X é igual a zero. A) 144 B) 18 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 38 C) 36 D) 72 E) 48 Resolução Sabemos que F = SQR SQE /(n − 2) . 80,820]3019[44,1])1[(2,1ˆ 2222 =×=−×== xxx snSSQR β 026.15419)1( 2 =×=−== yyy snSSQT 20,20580,820026.1 =−=−= SQRSQTSQE Assim, 72 18/20,205 80,820 ==F GABARITO: D 21.12 Memorize para a prova - Equação do modelo de RLS: εβα ++= XY , em que α é o intercepto, β é a declividade e ε denota o erro aleatório do modelo, suposto N ~(0, σ2), isto é, normalmente distribuído com média nula e variância σ2. - Sxx = xi2 − xi∑( )2 n∑ - Syy = yi2 − yi∑( )2 n∑ - Sxy = xiyi − xi∑( )× yi∑( ) n∑ - Reta estimativa: bxayxYE +== ˆ)|( - ⎪⎩ ⎪⎨ ⎧ −= = xbya S S b xx xy Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 39 - ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ xxS Nb 2 ,~ σβ - ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ ∑ n x bNa i 2 )var(,~ α - SQT = SQR + SQE (Equação da ANOVA) - yyi SyySQT =−= ∑ 2)( - ∑ =−= xxi SbyySQR 22)ˆ( - ∑∑ =−= 22)ˆ( iii eyySQE , em que os ie são os resíduos do modelo. Os resíduos são realizações do erro aleatório do modelo. - ∑ ∑∑ −−−== 2222 )()( xxbyyeSQE iii - variância dos resíduos: ˆ σ 2 = ei 2∑ n − 2 = SQE n − 2 ⇒ é a estimativa da variância σ 2 de ε. - Coeficiente de determinação: SQT SQE SQT SQRR −== 12 - Estatística t para testar se há regressão (H0: β = 0): bs kbt −= , em que xxS s b 2 2 σˆ= . - Intervalo de confiança para β: bcstb ± . - Estatística F: )2( −= nSQE SQRF . - ANOVA: Fonte de Variação Soma de Quadrados Graus de Liberdade Quadrado Médio F Fα D a n i e l a M i t i W a d a , C P F : 2 2 3 5 1 2 7 1 8 5 8 D a n i e l a M i t i W a d a , C P F : 2 2 3 5 1 2 7 1 8 5 8 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 40 Regressão SQR 1 SQR/1 )2/( 1/ −nSQE SQR F1,n-2,α Residual SQE n-2 SQE/(n-2) Total SQT n-1 - Regressão sem o intercepto: εβ += XY : ⇒ b = xiyi∑ xi 2∑ , ∑= 2 2 )var( ix b σ e ˆ σ 2 = ei 2∑ n −1 ⇒ SQE = ei2∑ = yi2 − b2 xi2∑∑ - Se admitirmos os erros aleatórios do modelo de regressão distribuídos normalmente, os estimadores de mínimos quadrados e de máxima verossimilhança dos coeficientes da regressão são idênticos. 21.11 Exercícios de Fixação 1. Ajuste o modelo linear simples Yi = α + βXi + ε i para os dados da tabela abaixo e determine o resíduo correspondente a X=7 e Y=15. X 5 6 7 9 11 12 Y 20 19 15 12 12 8 A) 1,08 B) 1,42 C) -0,71 D) -1,42 E) -1,08 2. Seja o modelo Yi = α + βXi + ε i. São dados: 60=∑ ix 12602 =∑ ix 320=∑ iy 160002 =∑ iy 2400=∑ ii yx n = 10 observações Calcule s2. Dica: SQE = SQT − SQR = Syy − b2Sxx A) 5760 B) 720 C) 550,4 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 41 D) 688 E) 60 Julgue o item a seguir. 3. No modelo Yi = α + βXi + ε i os estimadores de mínimos quadrados de α e β são os de menor variância possível. (Analista BACEN - Área 4/2006/FCC) Considere as informações a seguir para resolver as questões de números 4 e 5. Uma empresa, com a finalidade de determinar a relação entre os gastos anuais em pesquisa e desenvolvimento (X), em milhares de reais, e o acréscimo anual nas vendas (Y), também em milhares de reais, optou por utilizar o modelo linear simples Yi = α + βXi +ε i, em que Yi é o acréscimo nas vendas no ano i, Xi é o valor gasto em pesquisa e desenvolvimento no ano i e εi o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples(α e β são parâmetros desconhecidos). Considerou para o estudo as seguintes informações referentes às observações nos últimos 10 anos da empresa: Yi =160 i=1 10∑ Xi =100 i=1 10∑ XiYi =1.900 i=1 10∑ Xi 2 =1.200 i=1 10∑ Yi2 = 3.060 i=1 10∑ 4. Utilizando a equação da reta obtida pelo método dos mínimos quadrados, obteve-se, para um determinado gasto em pesquisa e desenvolvimento, uma previsão de acréscimo nas vendas no valor de 19 mil reais. O valor que se considerou para o gasto em pesquisa e desenvolvimento, em mil reais, foi A) 14,0 B) 13,75 C) 13,0 D) 12,4 E) 12,0 5. Montando o quadro de análise de variância, tem-se que A) a variação residual apresenta um valor igual a 100. B) o valor da estatística F necessária para o teste de existência da regressão é igual a nove. C) o valor do correspondente coeficiente de determinação (R2) é igual a 90%. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 42 D) a variação total apresenta um valor igual a 550. E) a variação explicada, fonte de variação devido à regressão, apresenta um valor igual a 500. (Analista BACEN – 2001/ESAF) As questões 6 e 7 dizem respeito ao enunciado seguinte. A Cia. Delta presta serviço de manutenção a uma marca de microcomputador. O gerente da Cia. Delta está interessado em estudar a associação existente entre o tempo (y) em minutos gasto em um atendimento e o número (x) de micros atendidos. Neste contexto anota as realizaçõesyt e xt dessas variáveis em 16 chamadas de serviço. O gerente postula o modelo linear Yt = α + βXt +ε t, t=1...16, onde α e β são parâmetros desconhecidos e os εt são erros não correlacionados com média zero e variância constante σ2. Os resultados obtidos com o ajuste pelo método de quadrados mínimos para esse modelo são apresentados a seguir. Parâmetro Estimativa Desvio-padrão α -2,3 2,6 β 14,7 0,5 σ2 20 - Sabe-se que (yt − m)2 =14.000t∑ , onde m é o tempo médio das 16 chamadas. 6. Assinale a opção que dá o valor do coeficiente de determinação do modelo linear. A) 0,98 B) 0,90 C) 0,88 D) 0,28 E) 0,20 7. Assinale a opção que dá a estimativa do aumento esperado no tempo de atendimento decorrente do aumento de uma unidade no número de micros atendidos. A) 17,0 B) 12,4 C) -2,3 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 43 D) 0,2 E) 14,7 8. No ajuste do modelo linear simples Yi = α + βXi + ε i são dados: 196=∑ ix 160=∑ iy 3318=∑ ii yx a = -11,5 n = 28 observações Calcule ∑ 2ix . A) 2198 B) 2265,5 C) 2450 D) 3318 E) 893,5 Julgue o item a seguir. 9. Sejam dados a tabela abaixo e o modelo Y = βX + ε X 10 12 14 16 18 Y 8 11 13 15 19 A estimativa de mínimos quadrados de β é maior que um. (Analista BACEN – 1997/CESPE) Para as questões de 10 a 14, utilize as informações a seguir. O gerente do setor de compras de uma organização bancária deseja estudar um modelo de predição do tempo gasto para o processamento de faturas relativas à importação de equipamentos eletrônicos. Durante trinta dias, foram coletados dados relativos ao tempo de processamento das faturas (em horas) e o número de faturas processadas. Considerando tratar-se de uma relação linear, cuja variável dependente é o TEMPO, os dados foram processados e os resultados preliminares são apresentados nas tabelas a seguir. ANÁLISE DE VARIÂNCIA Fontes Graus de Soma de Quadrado Valor F Prob > f Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 44 Liberdade Quadrado Médio Modelo 1 25,94382 25,94382 232,220 0,0001 Erro 28 3,12818 0,11172 Total 29 29,07200 R Quadrado (Coeficiente de determinação) C.V. ( Coeficiente de Variação ) 0,8924 16,38464 ESTIMATIVAS DOS PARÂMETROS Variável Graus de Liberdade Estimativas Erro Padrão T Prob >│T│ INTERCEPTO 1 0,402375 0,12358250 3,256 0,0030 FATURAS 1 0,012607 0,00082729 15,239 0,0001 Representando por Yi o tempo gasto e por Xi o número de faturas processadas no dia i, julgue os itens de 10 a 14. 10. O modelo estimado é igual a E (Yi) = 0,402375 + 0,012607Xi + εi, em que E (Yi) representa o tempo médio e εi representa o resíduo estimado para o i- ésimo dia. 11. O resultado obtido indica que a cada aumento de uma fatura processada corresponde um aumento de 0,012607 no tempo esperado estimado. 12. Para o modelo proposto, o teste de adequabilidade do modelo é equivalente a testar Ho: β1 = 0 contra Ha: β1 ≠ 0, em que β1 é o parâmetro associado à variável que indica o número de faturas processadas a cada dia. 13. Para que o analista rejeite a hipótese nula Ho: INTERCEPTO = 0, o nível de significância usado deve ser inferior a 0,003. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 45 14. Aproximadamente 16,38% da variação no tempo de processamento são explicados pela variação no número de faturas processadas. 15. São dados para o modelo εβα ++= XY 36=∑ ix 1622 =∑ ix 0=∑ iy 270=∑ ii yx 50,13ˆ 2 =σ 12=n Determine a estatística t para testar a hipótese H0: β = 0 A) 10 B) 15 C) 20 D) 23,57 E) 28,48 Julgue os próximos itens com base no enunciado abaixo. Seja o modelo estimado ii xy 290 −= , em que a variância amostral do intercepto é 22, a variância amostral da declividade é 0,06. Foram coletadas 7 observações. 16. O intervalo de confiança de 90% para a declividade é )51,1;49,2( −− . 17. Considere o teste de hipóteses H0: 100=α contra H1: α ≠100 a um nível de significância de 5%. Então deve-se rejeitar H0. 21.12 Gabarito 1 – D 2 – D 3 – ERRADO 4 – E 5 – C 6 – A 7 – E 8 – B 9 – ERRADO 10 – ERRADO 11 – CERTO 12 - CERTO 13 - ERRADO 14 – ERRADO Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 46 15 – A 16 - CERTO 17 - ERRADO 21.13 Resolução dos Exercícios de Fixação 1. Ajuste o modelo linear simples Yi = α + βXi + ε i para os dados da tabela abaixo e determine o resíduo correspondente a X=7 e Y=15. X 5 6 7 9 11 12 Y 20 19 15 12 12 8 A) 1,08 B) 1,42 C) -0,71 D) -1,42 E) -1,08 Resolução O problema pede o resíduo da 3ª observação, ou seja, e3 = y3 − ˆ y 3. Estimativas de a e b: ix iy ii yx 2ix 5 20 100 25 6 19 114 36 7 15 105 49 9 12 108 81 11 12 132 121 12 8 96 144 50=∑ ix 86=∑ iy 655=∑ ii yx 4562 =∑ ix Sxy = xiyi − xi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ × yii∑ ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ni ∑ = 655 − 50 × 866 = −61,67 Sxx = xi2 − xi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 n = 456 − 50 2 6 = 39,33 i ∑ Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 47 ⎪⎪⎩ ⎪⎪⎨ ⎧ =×−−=−= −=−== 40,27 6 50)57,1( 6 86 57,1 33,39 67,61 xbya S S b xx xy Assim, a reta ajustada encontrada foi xy 57,140,27ˆ −= . ˆ y 3 = 27,40 −1,57 × 7 =16,42 Finalmente, e3 = y3 − ˆ y 3 =15 −16,42 = −1,42. GABARITO: D 2. Seja o modelo Yi = α + βXi + ε i. São dados: 60=∑ ix 12602 =∑ ix 320=∑ iy 160002 =∑ iy 2400=∑ ii yx n = 10 observações Calcule s2. Dica: SQE = SQT − SQR = Syy − b2Sxx A) 5760 B) 720 C) 550,4 D) 688 E) 60 Resolução Lembre que s2 = ˆ σ 2 = ei 2 i ∑ n − 2 = SQE n − 2 Syy = yi2 − yi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 n = i ∑ 16000 − 320210 = 5760 Sxx = xi2 − xi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 n =1260 − 60 2 10 = 900 i ∑ Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 48 Sxy = xiyi − xi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ × yii∑ ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ni ∑ = 2400 − 60 × 32010 = 480 Logo, 53,0 900 480 === xx xy S S b e SQE = SQT − SQR = Syy − b2Sxx = 5760 − 0,532 × 900 = 5504 s2 = ei 2 i ∑ n − 2 = SQE n − 2 = 5504 8 = 688 GABARITO: D Julgue o item a seguir. 3. No modelo Yi = α + βXi +ε i os estimadores de mínimos quadrados de α e β são os de menor variância possível. Resolução Os estimadores de mínimos quadrados da RLS são os de menor variância possível dentre os não tendenciosos. É o que assegura o Teorema de Gauss-Markov. Podem existir estimadores lineares tendenciosos cujas variâncias sejam menores que os do modelo de RLS. GABARITO: ERRADO (Analista BACEN - Área 4/2006/FCC) Considere as informaçõesa seguir para resolver as questões de números 4 e 5. Uma empresa, com a finalidade de determinar a relação entre os gastos anuais em pesquisa e desenvolvimento (X), em milhares de reais, e o acréscimo anual nas vendas (Y), também em milhares de reais, optou por utilizar o modelo linear simples Yi = α + βXi + ε i, em que Yi é o acréscimo nas vendas no ano i, Xi é o valor gasto em pesquisa e desenvolvimento no ano i e εi o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples(α e β são parâmetros desconhecidos). Considerou para o estudo as seguintes informações referentes às observações nos últimos 10 anos da empresa: Yi =160 i=1 10∑ Xi =100 i=1 10∑ XiYi =1.900 i=1 10∑ Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 49 Xi 2 =1.200 i=1 10∑ Yi2 = 3.060 i=1 10∑ 4. Utilizando a equação da reta obtida pelo método dos mínimos quadrados, obteve-se, para um determinado gasto em pesquisa e desenvolvimento, uma previsão de acréscimo nas vendas no valor de 19 mil reais. O valor que se considerou para o gasto em pesquisa e desenvolvimento, em mil reais, foi A) 14,0 B) 13,75 C) 13,0 D) 12,4 E) 12,0 Resolução Sxx = xi2 − xi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 n =1200 − 100 2 10 = 200 i ∑ Sxy = xiyi − xi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ × yii∑ ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ni ∑ =1900 − 160 ×10010 = 300 Logo 5,1 200 300 === xx xy S S b 1 10 100)5,1( 10 160 =×−=−= xbya Assim, encontramos a reta ajustada xy 5,11ˆ += . Do enunciado, 19ˆ =y (lembrar que a unidade é R$1.000) x5,1119 += ⇒ x = 12 Logo, o valor que se considerou para o gasto em pesquisa e desenvolvimento foi de R$ 12.000,00. GABARITO: E 5. Montando o quadro de análise de variância, tem-se que Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 50 A) a variação residual apresenta um valor igual a 100. B) o valor da estatística F necessária para o teste de existência da regressão é igual a nove. C) o valor do correspondente coeficiente de determinação (R2) é igual a 90%. D) a variação total apresenta um valor igual a 550. E) a variação explicada, fonte de variação devido à regressão, apresenta um valor igual a 500. Resolução SQT = Syy = yi2 − yi i ∑⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 2 n = i ∑ 3060 − 160210 = 500 SQR = b2Sxx =1,52 × 200 = 450 R2 = SQR SQT = 450 500 = 0,9 = 90% GABARITO: C (Analista BACEN – 2001/ESAF) As questões 6 e 7 dizem respeito ao enunciado seguinte. A Cia. Delta presta serviço de manutenção a uma marca de microcomputador. O gerente da Cia. Delta está interessado em estudar a associação existente entre o tempo (y) em minutos gasto em um atendimento e o número (x) de micros atendidos. Neste contexto anota as realizações yt e xt dessas variáveis em 16 chamadas de serviço. O gerente postula o modelo linear Yt = α + βXt +ε t, t=1...16, onde α e β são parâmetros desconhecidos e os εt são erros não correlacionados com média zero e variância constante σ2. Os resultados obtidos com o ajuste pelo método de quadrados mínimos para esse modelo são apresentados a seguir. Parâmetro Estimativa Desvio-padrão α -2,3 2,6 β 14,7 0,5 σ2 20 - Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 51 Sabe-se que (yt − m)2 =14.000t∑ , onde m é o tempo médio das 16 chamadas. 6. Assinale a opção que dá o valor do coeficiente de determinação do modelo linear. A) 0,98 B) 0,90 C) 0,88 D) 0,28 E) 0,20 Resolução A questão pede o coeficiente de determinação R2. Sendo m a média, SQT = (yi − y )2 =14.000i∑ s2 = ˆ σ 2 = ei 2 i ∑ n − 2 = SQE 14 = 20∴SQE = 20 ×14 = 280 Então R2 = SQR SQT =1− SQE SQT =1− 280 14.000 = 0,98 GABARITO: A 7. Assinale a opção que dá a estimativa do aumento esperado no tempo de atendimento decorrente do aumento de uma unidade no número de micros atendidos. A) 17,0 B) 12,4 C) -2,3 D) 0,2 E) 14,7 Resolução O enunciado cita a interpretação de β para o caso apresentado. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 52 GABARITO: E 8. No ajuste do modelo linear simples são dados: 196=∑ ix 160=∑ iy 3318=∑ ii yx a = -11,5 n = 28 observações Calcule ∑ 2ix . A) 2198 B) 2265,5 C) 2450 D) 3318 E) 893,5 Resolução y = a + bx ⇒ 160 28 = −11,5 + b × 196 28 ⇒ b = 2,46 2198 28 1601963318 =×−= ⎟⎠ ⎞⎜⎝ ⎛×⎟⎠ ⎞⎜⎝ ⎛ −= ∑ ∑∑ i i i i i iixy n yx yxS b = Sxy Sxx ∴Sxx = Sxy b = 2.198 2,46 = 893,5 Mas ∑∑∑ ∑ =⇒−=⇒ ⎟⎠ ⎞⎜⎝ ⎛ −= i i i i i i i ixx xxn x xS 5,2265 28 1965,893 2 2 2 2 2 GABARITO: B Julgue o item a seguir. 9. Sejam dados a tabela abaixo e o modelo Y = βX + ε X 10 12 14 16 18 Y 8 11 13 15 19 A estimativa de mínimos quadrados de β é maior que um. Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 53 Resolução A questão utiliza o modelo de regressão sem intercepto. ∑ = i ix 020.1 2 ∑ = i ii yx 976 965,0 020.1 976 2 === ∑ ∑ i i i ii x yx b GABARITO: ERRADO (Analista BACEN – 1997/CESPE) Para as questões de 10 a 14, utilize as informações a seguir. O gerente do setor de compras de uma organização bancária deseja estudar um modelo de predição do tempo gasto para o processamento de faturas relativas à importação de equipamentos eletrônicos. Durante trinta dias, foram coletados dados relativos ao tempo de processamento das faturas (em horas) e o número de faturas processadas. Considerando tratar-se de uma relação linear, cuja variável dependente é o TEMPO, os dados foram processados e os resultados preliminares são apresentados nas tabelas a seguir. ANÁLISE DE VARIÂNCIA Fontes Graus de Liberdade Soma de Quadrado Quadrado Médio Valor F Prob > f Modelo 1 25,94382 25,94382 232,220 0,0001 Erro 28 3,12818 0,11172 Total 29 29,07200 R Quadrado (Coeficiente de determinação) C.V. ( Coeficiente de Variação ) 0,8924 16,38464 Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados Profs. Alexandre Lima e Moraes Junior Profs. Alexandre Lima e Moraes Junior 54 ESTIMATIVAS DOS PARÂMETROS Variável Graus de Liberdade Estimativas Erro Padrão T Prob >|T| INTERCEPTO 1 0,402375 0,12358250 3,256 0,0030 FATURAS 1 0,012607 0,00082729 15,239 0,0001 Representando por Yi o tempo gasto e por Xi o número de faturas processadas no dia i, julgue os itens de 10 a 14. 10. O modelo estimado é igual a E(Yi) = 0,402375 + 0,012607Xi + εi, em que E(Yi) representa o tempo médio e εi representa o resíduo estimado para o i- ésimo dia. Resolução O modelo estimado é E(Yi) = 0,402375 + 0,012607Xi, lembrando que
Compartilhar