Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof. Arthur Lima Aula 17 1 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Aula 17 – Análise de regressão linear Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Prof. Arthur Lima Prof. Arthur Lima Aula 17 2 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Sumário ANÁLISE DE REGRESSÃO LINEAR ...................................................................................................................... 3 MEDIDAS DE ASSOCIAÇÃO: COVARIÂNCIA E CORRELAÇÃO ............................................................................ 3 Fórmula básica da covariância.......................................................................................................................... 3 Variância de uma combinação linear de variáveis aleatórias .............................................................................. 6 Covariância de variáveis aleatórias transformadas ............................................................................................ 7 Correlação ....................................................................................................................................................... 8 REGRESSÃO LINEAR ........................................................................................................................................ 13 QUESTÕES COMENTADAS PELO PROFESSOR ................................................................................................. 22 LISTA DE QUESTÕES DA AULA ........................................................................................................................ 73 GABARITO ....................................................................................................................................................... 97 RESUMO DIRECIONADO ................................................................................................................................. 98 Prof. Arthur Lima Aula 17 3 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Análise de regressão linear Olá, tudo bem? Aqui é o professor Arthur Lima. É com muita alegria que inicio mais essa aula. Vamos tratar sobre os seguintes tópicos do seu edital neste encontro: Análise de regressão linear. Técnicas de Amostragem. Análise multivariada. Análise de séries temporais. Aproveito para lembrá-lo de seguir as minhas redes sociais e acompanhar de perto o trabalho que desenvolvo: MEDIDAS DE ASSOCIAÇÃO: COVARIÂNCIA E CORRELAÇÃO Até aqui trabalhamos sempre com uma única variável por vez. Agora vamos aprender a trabalhar com DUAS ou mais variáveis ao mesmo tempo. Quando temos duas variáveis, é interessante verificar se há algum tipo de associação entre elas. Por exemplo, imagine que você levante os salários e as idades de várias pessoas. Será que há alguma relação entre idade e salário? Será que pessoas mais velhas tendem a ganhar mais, e pessoas mais jovens tendem a ganhar menos? Para medir o nível de interdependência entre variáveis existem as medidas de associação, das quais as mais importantes são a co-variância e a correlação. Fórmula básica da covariância A co-variância é dada pela fórmula: cov(X, Y) = E(XY) – E(X).E(Y) Nesta fórmula, E(XY) é a média dos produtos de cada Xi e Yi correspondentes. Já E(X) é a média dos valores de X, e E(Y) é a média dos valores de Y. Exemplificando, imagine que, para uma determinada amostra, X expressa a idade (em anos) do indivíduo, e Y expressa o salário (em milhares de reais) do mesmo indivíduo. Veja isso na tabela abaixo: Prof. Arthur Lima Aula 17 4 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Indivíduo X (idade em anos) Y (salário em milhares de reais) A 20 2 B 25 2,5 C 30 3 D 35 3,5 Observando os dados, você já deveria esperar que existisse uma forte relação entre as variáveis X e Y, isto é, uma relação positiva entre as idades e os salários, afinal a medida que X aumenta, Y aumenta, e vice-versa. Para calcular a co-variância, precisamos seguir os seguintes passos: Calcular os valores de X.Y Calcular a média de X.Y Calcular a média de X Calcular a média de Y Aplicar a fórmula da covariância Na tabela abaixo, inseri a coluna da direita para calcular X.Y (passo 1), e inseri também a última linha, na qual calculei as médidas dos passos 2, 3 e 4: Indivíduo X (idade em anos) Y (salário em milhares de reais) X.Y A 20 2 40 B 25 2,5 62,5 C 30 3 90 D 35 3,5 122,5 MÉDIA 27,5 2,75 78,75 Resta apenas aplicar a fórmula da covariância. Neste caso, E(X) = 27,5, E(Y) = 2,75 e E(XY) = 78,75. Portanto: cov(X, Y) = E(XY) – E(X).E(Y) cov(X, Y) = 78,75 – 27,5 x 2,75 = 3,125 Prof. Arthur Lima Aula 17 5 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Observe que tivemos uma covariância positiva. Isso confirma que, de fato, há uma interligação positiva entre essas duas variáveis, isto é, a medida que a idade aumenta, o salário também aumenta. Resolva esta questão comigo: CESPE – TJSE – 2014) Considerando-se apenas os dados relativos aos estados de São Paulo, Rio de Janeiro, Minas Gerais e Rio Grande do Sul quanto à dispersão entre duas variáveis, é correto afirmar que a covariância entre Z e W é superior a 1 e inferior a 2. RESOLUÇÃO: Veja que: E(Z) = (5+2+2+2)/4 = 2,75 E(W) = (4+3+1+1)/4 = 2,25 Veja ainda que: E(Z.W) = (5.4 + 2.3 + 2.1 + 2.1)/4 = (20 + 6 + 2 + 2)/4 = 30/4 = 7,5 Logo, cov(Z, W) = E(Z.W) – E(Z).E(W) cov(Z,W) = 7,5 – 2,75 . 2,25 cov(Z,W) = 1,3125 Item CERTO. Resposta: C Prof. Arthur Lima Aula 17 6 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Variância de uma combinação linear de variáveis aleatórias Quando temos duas variáveis aleatórias X e Y, sabemos suas variâncias var(X) e var(Y), bem como sua co- variância cov(X,Y), podemos obter a variância de combinações entre as duas variáveis da seguinte forma: var(a.X + b.Y) = a2.Var(X) + b2.Var(Y) + 2.a.b.cov(X,Y) A partir da fórmula acima, podemos calcular as variâncias de X+Y e de X-Y. Veja: var(X+Y) = var(X) + var(Y) + 2cov(X,Y) var(X-Y) = var(X) + var(Y) - 2cov(X,Y) Veja comigo a próxima questão: FGV – IBGE – 2016) Sejam Y, X, Z, W variáveis aleatórias tais que Z = 2.Y – 3.X, sendo E(X²) = 25, E(X) = 4, Var(Y) = 16, Cov(X , Y) = 6 Então a variância de Z é: a) 55 b) 73 c) 108 d) 145 e) 217 RESOLUÇÃO: Veja que: Var(Z) = Var(-3X + 2Y) = (-3)2.Var(X) + 22.Var(Y) + 2.(-3).2.cov(X,Y) = 9.Var(X) + 22.Var(Y) + 2.(-3).2.cov(X,Y) Para terminar o cálculo acima, veja que Var(Y) = 16 e cov(X,Y) = 6. Falta obter Var(X). Para isso, note que: Var(X) = E(X2) – [E(X)]2 Var(X) = 25 – 42 Var(X) = 9 Portanto, Var(Z) = Prof. Arthur Lima Aula 17 7 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 9.Var(X) + 22.Var(Y) + 2.(-3).2.cov(X,Y) = 9.9 + 4.16 – 12.6 = 73 Resposta: B Covariância de variáveis aleatórias transformadas Se temos duas variáveis aleatórias X e Y, podemos transformá-las utilizando coeficientes. Por exemplo, Z = a.X + b W = c.Y + d Nas expressões acima, a, b, c e d são números fixos, ou seja, coeficientes. Neste caso, se sabemos qual é a covariância entre X e Y, também conseguimos calcular a covariância entre Z eW por meio da fórmula: cov(aX + b, cY + d) = a.c.cov(X,Y) Exemplificando, suponha que cov(X,Y) = 3, e que: Z = 2X + 1 W = 3Y – 2 Neste caso, cov(Z, W) = 2.3.cov(X,Y) = 6.3 = 18 Veja uma questão sobre isso: CESGRANRIO – BANCO DO BRASIL – 2018) Numa amostra de 30 pares de observações do tipo (xi , yi ), com i = 1, 2, ..., 30, a covariância obtida entre as variáveis X e Y foi -2. Os dados foram transformados linearmente da forma (zi , wi ) = (-3xi + 1 , 2yi + 3), para i = 1, 2, ..., 30. Qual o valor da covariância entre as variáveis Z e W transformadas? (A) 41 (B) 36 (C) -7 (D) 12 (E) 17 RESOLUÇÃO: Repare que Z = -3X + 1, e W = 2Y + 3. Assim, cov(Z,W) = (-3).2.cov(X,Y) = -6.(-2) = Prof. Arthur Lima Aula 17 8 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 12 Resposta: D Correlação A correlação é outra medida de associação entre variáveis, utilizada para verificar o nível de interdependência entre as mesmas. Sua fórmula é: cov( , ) ( , ) x y X Y correlação X Y = Nesta fórmula, cov(X,Y) é a covariância entre as variáveis X e Y, que acabamos de calcular. Já x e y são, respectivamente, os desvios padrões de X e Y. Veja como é simples aplicar esta fórmula resolvendo a questão abaixo comigo: FEPESE – FATMA – 2012) A partir das seguintes informações: - COV(X,Y) = 1 - VAR(X) = 2 - VAR(Y) = 8 - Média(X) = 3 - Média (Y) = 5 Tem-se que a correlação entre X e Y (CORR(X,Y)) é: a. 1/4 b.1/8 c.1/16 d.8/10 e.17/8 RESOLUÇÃO: Sabemos que: cov( , ) ( , ) x y X Y correlação X Y = Sabemos também que o desvio padrão é a raiz quadrada da variância. Portanto, podemos tirar a raiz de 2 e de 8, obtendo os desvios padrão de X e Y respectivamente. Ficamos com: 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜(𝑋, 𝑌) = 1 √2. √8 Prof. Arthur Lima Aula 17 9 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜(𝑋, 𝑌) = 1 √16 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜(𝑋, 𝑌) = 1 4 Resposta: A Os valores de correlação podem variar de –1 a +1. Quanto mais próximos de +1, maior é o grau de correlação positiva entre as duas variáveis (isto é, quando uma aumenta, a outra também aumenta, e quando uma diminui, o mesmo ocorre com a outra). Quanto mais próximos de –1, maior o grau de correlação negativa (quando uma aumenta, a outra diminui, e vice-versa). Quando temos variáveis totalmente independentes entre si, a correlação terá valor zero. Tanto a Correlação como a Covariância nos informam o sentido da associação entre as variáveis – positiva ou negativa. Entretanto, somente a correlação nos informa a INTENSIDADE da associação (mais forte, se próxima de -1 ou de 1, e mais fraca, se mais próxima de 0). Portanto, no exercício que resolvemos acima, verificamos que há uma fraca correlação positiva entre a variável X (idade) e a variável Y (salário), uma vez que correlação(X,Y) = ¼ = 0,25. Há casos onde duas variáveis aleatórias X e Y são totalmente independentes entre si, ou seja, a partir dos valores observados em uma delas não é possível inferir nada sobre os valores a serem observados na outra. Nestes casos, teremos: E(XY) = E(X)E(Y) Isto é, o valor esperado (média) da multiplicação das duas variáveis aleatórias é igual à multiplicação dos valores esperados de cada uma delas. Como a fórmula da covariância é: cov(X,Y) = E(XY) – E(X)E(Y) Fica claro que, se duas variáveis são independentes, então: cov(X,Y) = 0 Por fim, a correlação entre duas variáveis independentes também é nula: cov( , ) ( , ) 0 X Y X Y correlação X Y = = Guarde isso: se duas variáveis aleatórias são independentes, a correlação e a covariância são iguais a ZERO. Prof. Arthur Lima Aula 17 10 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Como já vimos, caso haja algum nível de dependência entre as variáveis X e Y, a medida da correlação (que pode variar entre -1 e 1) nos permite ter uma idéia de quão fraca ou forte é essa relação, bem como saber se essa relação é direta ou inversa: - se a correlação for próxima de -1 ou de 1, a interdependência é forte. Por outro lado, ser for próxima de 0, a interdependência é fraca. - se a correlação for positiva (entre 0 e 1), a relação entre as variáveis é positiva, ou direta: quando uma aumenta, a outra também aumenta; quando uma diminui, a outra diminui. Se a correlação for negativa (entre 0 e -1), a relação entre as variáveis é inversa: quando uma aumenta, a outra diminui. Uma forma de visualizar a existência de alguma associação entre duas variáveis é a utilização dos Diagramas de Dispersão, ou Gráficos de Dispersão. Neste gráfico nós devemos colocar os valores de uma variável em um dos eixos, e o valor da outra variável no outro eixo. Vamos construir o gráfico para o mesmo exemplo que tratamos acima, cuja tabela reproduzo novamente abaixo: Indivíduo X (idade em anos) Y (salário em milhares de reais) A 20 2 B 25 2,5 C 30 3 D 35 3,5 Colocando os valores de X no eixo horizontal e os valores correspondentes de Y no eixo vertical, temos a seguinte figura: A B C D 0 1 2 3 4 0 10 20 30 40 V al o re s d e Y Valores de X Gráfico de Dispersão (X , Y) Prof. Arthur Lima Aula 17 11 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Repare que os pontos A, B, C e D encontram-se ao longo de uma reta. Assim, visualmente conseguimos perceber que existe sim uma forte dependência linear entre estas duas variáveis – corroborando o que já havíamos concluído ao calcular o coeficiente de correlação linear. Antes de prosseguirmos, trabalhe essas duas questões: CONSULPLAN – TSE – 2012) Para duas variáveis x e y, são dados: 50, 4, 320, ( ) 10 10, ( ) 22,5X Y XY x y = = = = = O coeficiente de correlação entre as variáveis é a) – 0,2. b) 0,2. c) 0,6. d) 0,8. RESOLUÇÃO: Devemos começar lembrando que: cov( , ) X Y X Y correlação = Sabemos que ( ) 10 10 e ( ) 22,5x y = = . Além disso, devemos lembrar que: cov(X,Y) = E(XY) – E(X)E(Y) Utilizando os valores fornecidos no enunciado, cov(X,Y) = 320 – 50.4 cov(X,Y) = 120 Portanto, 120 10 10 22,5 correlação = 120 10 225 correlação = 120 10 15 correlação = 0,8correlação = Resposta: D Prof. Arthur Lima Aula 17 12 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 CESPE – TCU – 2008) Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007. Considerando as informações do texto, julgue os itens subsequentes. ( ) O coeficiente de correlação linear entre X e Y é inferior a 0,8. RESOLUÇÃO: Observe que os dados nessa tabela, se colocados em um gráfico, geram uma linha reta. Isto porque para cada aumento de 250 unidades no número de imóveis OFERTADOS, temos um aumento de 300 unidades no número de imóveis VENDIDOS. Ou seja, há um crescimento constante, proporcional, linear. Isto significa que há correlação positiva perfeita entre as duas variáveis. Ou seja, a correlação é igual a 1. O item está ERRADO. Seria possível resolver também efetuando cálculos. Neste caso, seria preciso obter a média de X, no valor E(X) = 1750, e a média de Y, no valor E(Y) = 400. Multiplicando cada valor de X pelo respectivo valor de Y, obtemos X.Y, cujos valores são 150000, 700000 e 1400000, e cuja média é E(XY) = 750000. Assim, cov(X,Y) = E(XY) – E(X).E(Y) cov(X,Y) = 750000 – 1750.400 = 50000 Você precisaria ainda calcularos desvios padrões de X e Y, obtendo aproximadamente 204 e 245, respectivamente. Lembre-se de usar n = 3, e não 2, pois estamos calculando desvios padrões populacionais. Assim, cov( , ) X Y X Y correlação = 50000 1 204.245 correlação = = Veja que temos uma correlação perfeita, com índice de correlação igual a 1. Item ERRADO, pois 1 > 0,8. Resposta: E Prof. Arthur Lima Aula 17 13 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Correlação de variáveis transformadas Para finalizarmos o estudo da Correlação, é interessante que você conheça uma importante propriedade. Sejam X e Y duas variáveis aleatórias, e “a”, “b”, “c” e “d” números quaisquer. Assim: Correlação(a.X + b, c.Y + d) = sinal(ac) Correlação(X, Y) Nesta propriedade, sinal(ac) representa o sinal (+ ou -) da multiplicação entre os números “a” e “c”. Como usar essa propriedade? Vejamos um exemplo. Imagine que temos duas variáveis X e Y, cuja correlação é 0,6. Sabendo disso, qual é a correlação entre as variáveis A e B, dado que: A = 2X – 4 B = -3Y Repare que queremos calcular a correlação abaixo: Correlação(A, B) = Correlação (2X – 4, -3Y) Usando a propriedade apresentada temos: Correlação(a.X + b, c.Y + d) = sinal(ac) Correlação(X, Y) Correlação (2X – 4, -3Y) = sinal(2. -3) Correlação(X, Y) Correlação (2X – 4, -3Y) = - Correlação(X, Y) Correlação (2X – 4, -3Y) = - 0,6 Correlação (A, B) = -0,6 REGRESSÃO LINEAR A análise de regressão é uma ferramenta estatística que analisa a relação entre 2 ou mais variáveis, permitindo prever uma delas com base no conhecimento da outra. Isso só é possível, obviamente, quando as variáveis guardam alguma dependência entre si (se elas forem independentes estatisticamente, é impossível efetuar esse tipo de previsão). A regressão linear simples é o caso mais básico, no qual 2 variáveis (X e Y) estão relacionadas entre si de forma linear, ou seja, numa linha reta. Assim, podemos dizer que cada valor de Y (Yi) está relacionado com um valor de X (Xi) da seguinte forma: i i iY X = + + Prof. Arthur Lima Aula 17 14 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Nesta fórmula, e são os coeficientes da regressão linear, que precisamos descobrir. Já o i é o erro aleatório. O coeficiente é chamado coeficiente linear. Ele indica em que ponto a reta de regressão cruza o eixo vertical, ou seja, o valor de Y para quando X é igual a zero. Já é o coeficiente angular. Ele indica a inclinação da reta de regressão, que pode ser crescente (se >0) ou decrescente (se <0). Em uma reta de regressão, vale a seguinte relação: Y X = + Ou seja, Média de Y = + . (Média de X) Para calcular uma reta de regressão, os passos são os seguintes: PASSOS PARA CALCULAR UMA RETA DE REGRESSÃO: 1 – Obter o coeficiente angular da reta, por meio da expressão: 2 2 ( ) ( ) n XY X Y n X X − = − 2 – Obter o coeficiente linear da reta, usando a relação entre médias: Y X = + Veja a questão a seguir comigo: FCC – ICMS/SC – 2018) A tabela a seguir indica o valor y do salário, em número de salários mínimos (SM) e os respectivos tempos de serviço, em anos, x, de 5 funcionários de uma empresa: Suponha que valha a relação: yi = α + βxi + εi, em que i representa a i-ésima observação, α e β são parâmetros desconhecidos e εi é o erro aleatório com as hipóteses para a regressão linear simples. Se as estimativas de α e β forem obtidas pelo método de mínimos quadrados por meio dessas 5 observações, a previsão de salário para um funcionário com 4 anos de serviço será, em SM, igual a (A) 6,1 (B) 5,2 (C) 6,0 (D) 5,5 Prof. Arthur Lima Aula 17 15 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 (E) 5,8 RESOLUÇÃO: A fórmula para obtenção do coeficiente angular da regressão é: 2 2 ( ) ( ) n XY X Y n X X − = − Podemos calcular cada item da fórmula: n = 5 ∑ 𝑋 = 2 + 3 + 5 + 3 + 2 = 15 ∑ 𝑌 = 3 + 4 + 7 + 4 + 2 = 20 ∑ 𝑋𝑌 = 2.3 + 3.4 + 5.7 + 3.4 + 2.2 = 69 ∑ 𝑋2 = 4 + 9 + 25 + 9 + 4 = 51 Logo, 2 2 ( ) ( ) n XY X Y n X X − = − 𝛽 = 5.69 − 15.20 5.51 − 152 = 45 30 = 1,5 Observe que as médias de X e Y são, respectivamente: �̅� = 15 5 = 3 �̅� = 20 5 = 4 Sabemos que, em nossa regressão, é válida a igualdade: �̅� = 𝛼 + 𝛽. �̅� Assim, 4 = 𝛼 + 1,5.3 𝛼 = −0,5 A nossa reta de regressão é: 𝑌 = −0,5 + 1,5𝑋 Prof. Arthur Lima Aula 17 16 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Portanto, para X = 4 anos de serviço, temos: Y = -0,5 + 1,5.4 = -0,5 + 6 = 5,5 Resposta: D Existe uma fórmula que permite o cálculo direto do coeficiente linear. Veja-a abaixo. Não recomendo decorá-la, pois basta saber a fórmula do 𝛽 e saber a relação entre médias para resolver os exercícios. 2 2 2 ( ) ( ) X Y XY X n X X − = − É importante você saber que esta regressão é feita através do método dos mínimos quadrados. Esse método consiste em obter coeficientes e que minimizem o erro aleatório i , que é a soma dos quadrados das diferenças entre os valores de Yi da variável Y e os valores de Yi estimados a partir do modelo. Não entraremos em mais detalhes relativos ao erro aleatório, pois em regra ele será desprezado (simplesmente vamos omiti-lo da fórmula, usando apenas i iY X = + ). Veja mais um exemplo abaixo: X Y 1 3 2 5 4 9 7 15 Vamos calcular os coeficientes da regressão linear i iY X = + . Note que n=4 (temos 4 observações de cada variável), e que na tabela abaixo inseri 2 colunas a direita, para calcular os valores de X2 e de XY: X Y X2 X.Y 1 3 1 3 2 5 4 10 4 9 16 36 7 15 49 105 Prof. Arthur Lima Aula 17 17 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Portanto, temos que: 2 14 32 70 ( ) 154 X Y X XY = = = = Assim, 2 2 2 ( ) 4 154 14 32 2 ( ) 4 70 (14) n XY X Y n X X − − = = = − − Veja ainda que as médias de X e de Y são: �̅� = 14 4 = 3,5 �̅� = 32 4 = 8 Assim, �̅� = 𝛼 + 𝛽�̅� 8 = 𝛼 + 2.3,5 8 = 𝛼 + 7 1 = 𝛼 Portanto, temos a regressão linear i iY X = + , que pode ser escrita como: 1 2i iY X= + A partir desta equação nós conseguimos fazer previsões para valores de Y. Por exemplo, no caso de X = 10, teremos: Y = 1 + 2.X Y = 1 + 2.10 Y = 1 + 20 Y = 21 Prof. Arthur Lima Aula 17 18 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Podemos, ainda, obter o coeficiente pela relação entre a covariância entre X e Y e a variância de X: 2 cov( , ) x X Y s = Veja abaixo um exercício que cobrou esta fórmula: ESAF – SUSEP – 2010) A partir de uma amostra aleatória (X1 ,Y1), (X2 ,Y2),..., (X20 ,Y20) foram obtidas as estastísticas: médias X = 12,5 e Y = 19, variâncias amostrais sx2 = 30 e sy2 = 54 e covariância Sxy = 36. Qual a reta de regressão estimada de Y em X? a) Ŷi = 19 + 0,667 Xi . b) Ŷi = 12,5 + 1,2 Xi . c) Ŷi = 4 + 1,2 Xi . d) Ŷi = 19 + 1,2 Xi . e) Ŷi = 80 + 22,8 Xi . RESOLUÇÃO: Baseado nas informações fornecidas pelo enunciado, o coeficiente pode ser calculado pela terceira fórmula que vimos: 2 2 cov( , ) 36 1,2 30 = = = = xy x x sX Y s s Para obter basta lembrar da relação entre as médias das variáveis X e Y: Y X = + 19 1,2 12,5= + 4 = Assim, a reta de regressão é: 4 1,2= + Y X Resposta: CProf. Arthur Lima Aula 17 19 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Ao obter uma reta de regressão linear, podemos obter também um fator que nos dá uma medida da “força” da ligação entre as variáveis X e Y. Esse fator é chamado de R-quadrado, ou R2, ou coeficiente de determinação, que mede o percentual de Y (variável explicada) que é atribuída à variância de X (variável explicativa). Sua fórmula é: 2 2 2 2 { [( )( )]} ( ) ( ) i i i i X X Y Y R X X Y Y − − = − − Quanto mais próximo de 1, ou 100%, maior a relação entre ambas as variáveis. Aproveito a ocasião para dizer que o R2 nada mais é que o quadrado do coeficiente de correlação de Pearson que já vimos anteriormente, que pode ser calculado através da fórmula: cov( , ) ( , ) X Y X Y R correlação X Y = = Como você percebeu, na regressão linear simples utilizamos uma curva do tipo Y = a + bX para resumir os dados. Esta equação nos permite encontrar a variável explicada (Y) a partir de uma única variável explicativa (X). Entretanto, alguns fenômenos podem ter mais de uma variável explicativa (ex.: X1, X2 e X3). Neste caso, podemos fazer uma regressão linear múltipla, do tipo: 1 1 2 2 3 3Y X X X = + + + Nesta regressão temos os coeficientes , 1 , 2 e 3 . Aqui se aplicam os mesmos conceitos que já vimos a respeito da regressão linear simples, com algumas expansões que não merecem aprofundamento. Veja uma questão básica sobre regressão linear múltipla: CESGRANRIO – BANCO DO BRASIL – 2018) Uma instituição financeira pretende lançar no mercado um aplicativo para celular. Para isso, deseja relacionar o grau de conhecimento dos clientes com as variáveis: nível de escolaridade e idade. Uma amostra aleatória de 46 clientes foi selecionada e, posteriormente, aplicou-se o modelo de regressão linear, sendo a variável dependente o grau de conhecimento, em uma escala crescente, e as variáveis independentes (i) o nível de escolaridade, em anos de estudo com aprovação, e (ii) a idade, em anos completos. Os resultados obtidos para os coeficientes foram: O grau de conhecimento esperado de um cliente com 10 anos de estudos com aprovação e com 30 anos de idade completos é (A) 108,7 (B) 94,1 (C) 54,1 Prof. Arthur Lima Aula 17 20 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 (D) 72,7 (E) 86,1 RESOLUÇÃO: Veja que foi fornecido o coeficiente linear da regressão (50,7), bem como os dois coeficientes relacionados às variáveis escolaridade (4,0) e idade (-0,6). Temos a regressão C = 50,7 + 4.E – 0,6.I, onde C é o grau de conhecimento, E é a escolaridade e I é a idade. Uma pessoa com E = 10 anos e I = 30 anos tem grau de conhecimento: C = 50,7 + 4.10 – 0,6.30 = 72,7 Resposta: D Quando definimos um modelo de regressão linear para representar a relação entre variáveis, podemos efetuar testes de hipóteses para confirmar se o modelo representa satisfatoriamente (dentro de um nível de segurança/confiança pré-definido) a real relação entre as variáveis. Uma forma de fazer estes testes de hipóteses é avaliar individualmente cada um dos coeficientes. Para isto, utilizamos: - hipótese nula: o coeficiente é igual a zero. Ex.: 2 0 = - hipótese alternativa: o coeficiente é diferente de zero. Ex.: 2 0 Assim, se a hipótese nula for aceita (o coeficiente for nulo), isto significa que a variável multiplicada por aquele coeficiente (no nosso exemplo, X2) não ajuda a explicar a variável Y. Já se a hipótese nula for rejeitada, então X2 explica a variável Y. Veja essa questão: ESAF – AFRFB – 2012) Um modelo de regressão linear múltipla foi estimado pelo método de Mínimos Quadrados, obtendo-se, com um nível de confiança de 95%, os seguintes resultados: I. Ŷ = 10 + 2,5 x1 + 0,3 x2 + 2 x3 II. o coeficiente de determinação R2 é igual a 0,9532 III. o valor-p = 0,003 Desse modo, pode-se afirmar que: a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo de 2,5%. b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada. c) x3 explica 95,32% das variações de Y em torno de sua média. d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são, respectivamente, iguais a 5% e 95%. e) se no teste de hipóteses individual para β2 se rejeitar a hipótese nula (H0), então tem-se fortes razões para acreditar que x2 não explica Y. Prof. Arthur Lima Aula 17 21 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 RESOLUÇÃO: Vamos resolver essa questão analisando cada alternativa: a) se a variável x1 for acrescida de uma unidade, então Y terá um acréscimo de 2,5%. Veja que a variável x1 é multiplicada pelo coeficiente 2,5. Assim, se ela for adicionada de 1 unidade, a variável Y será acrescida de 2,5 unidades (e não 2,5%). Alternativa FALSA. b) 0,003 é o mais baixo nível de significância ao qual a hipótese nula pode ser rejeitada. Vimos que: - caso p-valor > nível de significância, não devemos rejeitar a hipótese nula - caso p-valor < nível de significância, podemos rejeitar a hipótese nula Como p-valor = 0,003, então podemos rejeitar a hipótese nula se: 0,003 < nível de significância Assim, não podemos rejeitar a hipótese nula se o nível de significância for mais baixo que 0,003. Alternativa VERDADEIRA. c) x3 explica 95,32% das variações de Y em torno de sua média. O coeficiente de determinação R2 é igual a 95,32%. Logo, o modelo de regressão linear explica 95,32% das variações de Y em torno de sua média, e não apenas x3. Alternativa FALSA. d) as probabilidades de se cometer o Erro Tipo I e o Erro Tipo II são, respectivamente, iguais a 5% e 95%. O fato de o nível de confiança ser 95% significa que, se aceitarmos a hipótese nula, temos 5% de chance de cometer um erro do tipo II (a hipótese nula ser falsa). E se rejeitarmos a hipótese nula, temos 5% de chance de cometer um erro do tipo I (a hipótese nula ser verdadeira). Alternativa FALSA. e) se no teste de hipóteses individual para β2 se rejeitar a hipótese nula (H0), então tem-se fortes razões para acreditar que x2 não explica Y. O teste de hipóteses para β2 tem como hipótese nula β2 = 0. Se ela for rejeitada, isto significa que β2 é diferente de zero. Como este coeficiente multiplica x2, isto significa que a variável x2 explica, em parte, Y. Alternativa FALSA. Resposta: B Chega de teoria! Vamos praticar tudo o que vimos até aqui? Prof. Arthur Lima Aula 17 22 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Questões comentadas pelo professor 1. FGV – Analista IBGE – 2016) Sejam Y, X, Z, W variáveis aleatórias tais que Z = 2.Y – 3.X, sendo E(X)² = 25, E(X) = 4, Var(Y) = 16, Cov(X , Y) = 6 Então a variância de Z é a) 55 b) 73 c) 108 d) 145 e) 217 RESOLUÇÃO: Temos: Z = 2Y – 3X E(X2) = 25 E(X) = 4 Var(Y) = 16 cov(X,Y) = 6 Veja que: Var(X) = E(X2) – [E(X)]2 = 25 – 42 = 25 – 16 = 9 Lembrando que: Var(a.X + b.Y) = a2.Var(X) + b2.Var(Y) + 2.a.b.cov(X,Y), temos: Var(Z) = Var(2Y – 3X) = 22.Var(Y) + (-3)2.Var(X) + 2.2.(-3).cov(X,Y) = 4.16 + 9.9 – 12.6 = 73 Resposta: B Prof. Arthur Lima Aula 17 23 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 2. CESGRANRIO – BANCO DO BRASIL – 2018) Um pesquisador utilizou-se de um modelo de regressão linear simples para estudar a relação entre a variável dependente Y, expressa em reais, e a variável independente X, expressa em dias. Posteriormente, ele decidiu fazer uma transformação na variável dependente Y da seguinteforma: Após a referida transformação, o coeficiente angular ficou (A) aumentado da média e multiplicado pelo desvio padrão (B) diminuído da média e dividido pelo desvio padrão (C) inalterado (D) diminuído da média (E) dividido pelo desvio padrão RESOLUÇÃO: Temos a regressão linear: Y = a.X + b Ao fazer a operação solicitada, ficamos com: 𝑌 − 𝑚𝑒𝑑𝑖𝑎(𝑌) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜(𝑌) = 𝑎. 𝑋 + 𝑏 − 𝑚𝑒𝑑𝑖𝑎(𝑌) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜(𝑌) 𝑌 − 𝑚𝑒𝑑𝑖𝑎(𝑌) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜(𝑌) = 𝑎. 𝑋 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜(𝑌) + 𝑏 − 𝑚𝑒𝑑𝑖𝑎(𝑌) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 (𝑌) 𝑌 − 𝑚𝑒𝑑𝑖𝑎(𝑌) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜(𝑌) = 𝑎 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜(𝑌) 𝑋 + 𝑏 − 𝑚𝑒𝑑𝑖𝑎(𝑌) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 (𝑌) Observe que o coeficiente angular (a) foi dividido pelo desvio padrão. Resposta: E 3. CESPE – TJSE – 2014) Com relação à inferência para os parâmetros de modelos de regressão linear, julgue os seguintes itens. Prof. Arthur Lima Aula 17 24 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 ( ) Em um modelo de regressão linear simples, com resposta Y e variável explicativa X, o valor esperado para a variável resposta no ponto X = X será igual a Y . RESOLUÇÃO: CORRETO, sabemos que numa regressão linear simples do tipo .Y X = + podemos dizer que .Y X = + . Resposta: C 4. FCC – TRT/SP – 2018 – adaptada) Considere que em um país a variável L representa o lucro, em unidades monetárias, de uma empresa em um determinado ano e a variável X ≥ 0 os investimentos realizados pela empresa, em unidades monetárias, no mesmo ano. Um modelo de regressão linear correspondente à equação Li = α + βXi + εi foi adotado pela empresa com o objetivo de se prever L em função de X. Li representa o lucro da empresa no ano i ( i = 1, 2, 3 ...) e Xi os investimentos da empresa em i. Os parâmetros α e β são desconhecidos e εi é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. As estimativas de α e β foram obtidas por meio do método dos mínimos quadrados com base nos primeiros 10 pares de observações ( Xi , Li ). Dados: Com base na equação da reta obtida por meio do método dos mínimos quadrados e no quadro de análise de variância considerado para testar a existência de uma relação linear entre L e X, julgue se o item a seguir é certo ou errado: ( ) a previsão de L é igual a 0 quando X for igual a 0,5. RESOLUÇÃO: β = ∑ XiLi − ∑ Xi ∙ ∑ Li 10 i=1 10 i=1 𝑛 10 i=1 ∑ Xi 210 i=1 − (∑ Xi) 10 i=1 2 𝑛 β = 13600 − 120 ∙ 1000 10 1600 − 1202 10 β = 13600 − 12000 1600 − 14400 10 β = 1600 160 = 10 Já o estimador de α é calculado pela seguinte fórmula: Prof. Arthur Lima Aula 17 25 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 α = L̅ − βX̅ α = ∑ Li 10 i=1 𝑛 − β ∙ ∑ Xi 10 i=1 𝑛 α = 1000 10 − 10 ∙ 120 10 α = 100 − 120 = −20 Portanto, quando X for igual a 0,5, a previsão de L é dada por: 𝐸(𝐿\𝑋 = 0,5) = 𝛼 + 𝛽 ∙ 𝑋 𝐸(𝐿\𝑋 = 0,5) = −20 + 10 ∙ 0,5 = −20 + 5 = −15 Logo, a previsão de L quando X = 0,5 é igual a -15, e não 0, portanto a alternativa está errada. Resposta: E 5. FUNRIO – INSS – 2014) A seguinte figura ilustra o diagrama de dispersão das grandezas X e Y. Empregando regressão linear simples baseada no método mínimos quadrados, a reta de regressão para os dados apresentados no diagrama de dispersão é A) Y=X+1. B) Y=-X+1. C) Y=-X-1. D) Y=X+2. E) Y=X-2.β RESOLUÇÃO: Prof. Arthur Lima Aula 17 26 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Podemos traçar duas retas ortogonais X e Y, verificando uma reta intermediária passando pelo aglomerado de pontos. Ou seja, a reta de regressão para os dados apresentados no diagrama de dispersão. Repare que a reta de regressão passa adequadamente entre os pontos. Podemos tomar como referência, os pontos P(- 1,0) e Q(0,1). A reta de regressão é dada por Y = α + β.X. Considerando que a reta passa pelos pontos para P e Q, então: ➔x = - 1, teremos y = 0, ou seja, 0 = α + β.(- 1) → α = β. ➔x = 0, teremos y = 1, ou seja, 1 = α + β.0 → α = 1. Assim, se α = 1 e α = β, então α = β = 1. Portanto, Y = α + β.X Y = 1 + 1.X Y = X + 1. Resposta: A 6. FUNRIO – INSS – 2014) Uma pesquisa avalia a taxa de poupança em função da renda familiar (RF), do nível de escolaridade do chefe de família (NECF), do número de filhos (NF), da idade do chefe de família (ICF) e da intensidade de consumo familiar de bens não duráveis (CBND). Os coeficientes de correlação parcial entre a taxa de poupança e as variáveis independentes mencionadas são apresentadas na tabela a seguir. Prof. Arthur Lima Aula 17 27 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Com base nesses resultados, as duas variáveis que permitem prever com maior precisão a taxa de poupança de uma família são: A) Renda familiar e consumo familiar de bens não duráveis. B) Renda familiar e idade do chefe de família. C) Número de filhos e consumo familiar de bens não duráveis. D) Nível de escolaridade do chefe de família e idade do chefe de família. E) Nível de escolaridade do chefe de família e renda familiar. RESOLUÇÃO: Se a correlação entre duas variáveis for próxima de -1 ou de 1, a interdependência entre elas será forte. De outro lado, quando se aproxima de 0, a interdependência será fraca. Repare que as duas variáveis onde a correlação é mais próximo de 1 ou – 1 são RF e CBND, respectivamente. Isso significa há como prever com maior precisão a taxa de poupança em função da renda familiar (RF) e da intensidade de consumo familiar de bens não duráveis (CBND). Resposta: A 7. FEPESE – ISS/Criciúma – 2017) Em uma pesquisa foram entrevistadas 100 pessoas adultas e de cada uma delas foram coletados os seguintes dados: idade (I); faixa salarial (S); grau de uso de aplicativos no celular (T). Após a coleta de dados, foram calculados os seguintes coeficientes de correlação linear (coeficiente de Pearson): p(IS) = 0,51 (coeficiente de Pearson entre os dados de idade e faixa salarial) p(IT) = -0,89 (coeficiente de Pearson entre os dados de idade e grau de uso de aplicativos no celular) Com base nos coeficientes de correlação linear acima, é correto afirmar: a. ( ) Há uma tendência de que os entrevistados com mais idade tenham salários mais altos, porém essas duas variáveis provavelmente não são linearmente correlacionadas. Há uma correlação linear entre o uso de aplicativos no celular e a idade dos entrevistados, de forma que quanto maior a idade, menos uso fazem de aplicativos. b. ( ) Há uma forte correlação linear entre a idade e a faixa salarial dos entrevistados, de forma que quanto maior a idade, maior o salário. Há uma correlação linear entre o uso de aplicativos no celular e a idade dos entrevistados, de forma que quanto maior a idade, menos uso fazem de aplicativos. c. ( ) Há uma forte correlação linear entre a idade e a faixa salarial dos entrevistados, de forma que quanto maior a idade, maior o salário. Não há correlação linear entre o uso de aplicativos no celular e a idade dos entrevistados. Prof. Arthur Lima Aula 17 28 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 d. ( ) Não há correlação entre a idade e a faixa salarial dos entrevistados. Há uma forte correlação linear entre o uso de aplicativos no celular e a idade dos entrevistados, de forma que quanto maior a idade, menos uso fazem de aplicativos. e. ( ) Há uma tendência de que os entrevistados com mais idade tenham saláriosmais altos, porém essas duas variáveis não são provavelmente linearmente correlacionadas. Não há correlação linear entre o uso de aplicativos no celular e a idade dos entrevistados. RESOLUÇÃO: Veja que o coeficiente IS é positivo, indicando que pessoas com MAIS idade tendem a ter MAIORES salários, e pessoas com MENOS idade tendem a ter MENORES salários. Esse grau de correlação não é tão elevado (está longe de 1,00), o que sugere que esta correlação não deve ser linear. O coeficiente IT é negativo, indicando que pessoas com MAIS idade tendem a ter um MENOR grau de uso de aplicativos no celular, e pessoas com MENOS idade tendem a ter um MAIOR grau de uso dos aplicativos. Aqui há uma forte correlação negativa (próxima de -1). Com isso em mãos, podemos marcar a alternativa A. Resposta: A 8. FGV – MPE/BA – 2017) Para duas variáveis aleatórias estão disponíveis as seguintes informações estatísticas: Cov (Y, Z) = 18, E(Z) = 4, Var(Z) = 25, E(Y) = 4 e CV(Y) = 2. Onde CV é o coeficiente de variação, além da nomenclatura usual. Então a expressão E(Z2) + Var(2Y - 3Z) vale: a) 265; b) 274; c) 306; d) 373; e) 405. RESOLUÇÃO: Primeiro, vamos calcular o valor de E(Z2): Var(Z) = E(Z2) − E2(Z) 25 = E(Z2) − 42 E(Z2) = 25 + 16 = 41 Precisamos calcular também o valor de Var(Y), a partir do CV(Y) e da E(Y) fornecidos pela questão. Temos que: Prof. Arthur Lima Aula 17 29 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 CV(Y) = √Var(Y) E(Y) 2 = √Var(Y) 4 √Var(Y) = 2 ∙ 4 = 8 Var(Y) = 82 = 64 Agora vamos calcular o valor de Var(2Y – 3Z): Var(2Y − 3Z) = 22 ∙ Var(Y) + 32 ∙ Var(Z) − 2 ∙ 2 ∙ 3 ∙ Cov(Y, Z) Var(2Y − 3Z) = 4 ∙ 64 + 9 ∙ 25 − 12 ∙ 18 Var(2Y − 3Z) = 256 + 225 − 216 = 265 Por fim, temos que: E(Z2) + Var(2Y − 3Z) = 41 + 265 = 306 Portanto, a alternativa C é o gabarito da questão. Resposta: C 9. FCC – TRT/11 – 2017) Atenção: Para responder a questão, considere que o gerente de uma empresa comercial adotou o modelo linear simples Vi = α + βgi + εi para analisar a relação entre o volume de vendas anual (V), em unidades monetárias (u.m.), em função do gasto anual com promoções de vendas (g), também em u.m. Os parâmetros α e β são desconhecidos, i corresponde à i-ésima observação anual e εi é o erro aleatório com as respectivas hipóteses para a regressão linear simples. Com base em 10 pares de observações anuais (gi , Vi ), i = 1, 2, 3, ... , 10, e com a utilização do método dos mínimos quadrados foram encontradas as estimativas de α e β. Em um ano que a empresa não efetua gasto com promoções de vendas, significa que considerando a equação da reta obtida pelo método dos mínimos quadrados a previsão do volume de vendas deste ano é igual, em u.m., a a) 50 b) 150 c) 100 d) 90 e) 75 RESOLUÇÃO: Prof. Arthur Lima Aula 17 30 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Precisamos estimar os parâmetros α e β do modelo. O estimador de β é calculado pela seguinte fórmula: β = ∑ giVi − n ∙ g̅ 10 i=1 V̅ ∑ gi 210 i=1 − n ∙ g̅ 2 As médias das variáveis g e V são dadas por: g̅ = ∑ 𝑔𝑖 10 𝑖=1 10 = 50 10 = 5 V̅ = ∑ 𝑉𝑖 10 𝑖=1 10 = 1500 10 = 150 Logo: β = 8460 − 10 ∙ 5 ∙ 150 314 − 10 ∙ 52 β = 8460 − 7500 314 − 250 = 960 64 = 15 Já o estimador de α é calculado pela seguinte fórmula: α = V̅ − βg̅ α = 150 − 15 ∙ 5 α = 150 − 75 = 75 Em um ano que a empresa não efetua gasto com promoções de vendas, temos que g = 0 e que portanto a previsão do volume de vendas deste ano é dada por α, sendo assim a previsão é igual a 75 unidades monetárias e, portanto, a alternativa E é o gabarito da questão. Resposta: E 10.CESGRANRIO – BANCO DO BRASIL – 2018) Uma instituição financeira pretende lançar no mercado um aplicativo para celular. Para isso, deseja relacionar o grau de conhecimento dos clientes com as variáveis: nível de escolaridade e idade. Uma amostra aleatória de 46 clientes foi selecionada e, posteriormente, aplicou-se o modelo de regressão linear, sendo a variável dependente o grau de conhecimento, em uma escala crescente, e as variáveis independentes (i) o nível de escolaridade, em anos de estudo com aprovação, e (ii) a idade, em anos completos. Os resultados obtidos para os coeficientes foram: O grau de conhecimento esperado de um cliente com 10 anos de estudos com aprovação e com 30 anos de idade completos é (A) 108,7 Prof. Arthur Lima Aula 17 31 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 (B) 94,1 (C) 54,1 (D) 72,7 (E) 86,1 RESOLUÇÃO: Temos a regressão C = 50,7 + 4.E – 0,6.I, onde C é o grau de conhecimento, E é a escolaridade e I é a idade. Uma pessoa com E = 10 anos e I = 30 anos tem grau de conhecimento: C = 50,7 + 4.10 – 0,6.30 = 72,7 Resposta: D 11.CESGRANRIO – BANCO DO BRASIL – 2018) Numa amostra de 30 pares de observações do tipo (xi , yi ), com i = 1, 2, ..., 30, a covariância obtida entre as variáveis X e Y foi −2. Os dados foram transformados linearmente da forma (zi , wi ) = (−3xi + 1 , 2yi + 3), para i = 1, 2, ..., 30. Qual o valor da covariância entre as variáveis Z e W transformadas? (A) 41 (B) 36 (C) −7 (D) 12 (E) 17 RESOLUÇÃO: Sabemos que: COV (aX + b, cY + d) = a.c.COV(X,Y) COV(-3x +1, 2y+3) = -3.2.(-2) = 12 Resposta: D 12.CESGRANRIO – BANCO DO BRASIL – 2018) Para ilustrar a importância da análise gráfica em análises de regressão linear, F. J. Anscombe produziu quatro conjuntos de pares (x, y) a partir das mesmas estatísticas suficientes, como: coeficientes linear e angular; soma dos quadrados dos resíduos e da regressão; e número de observações. Os diagramas de dispersão para as quatro bases de dados, juntamente com a reta da regressão (y = 4 + 0,5 x), encontram-se abaixo. Prof. Arthur Lima Aula 17 32 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Com base nesses gráficos, considere as seguintes afirmativas: I – O gráfico B mostra um valor influente para gerar uma regressão linear. II – O gráfico C mostra uma possível observação outlier na regressão linear. III – O gráfico D mostra uma possível observação outlier na regressão linear. Está correto SOMENTE o que se afirma em (A) II e III (B) I e III (C) I (D) II (E) III RESOLUÇÃO: I – O gráfico B mostra um valor influente para gerar uma regressão linear. ERRADO. Note que a regressão linear não se adequa ao gráfico B. II – O gráfico C mostra uma possível observação outlier na regressão linear. CERTO. Observe que todos os pontos estão bem próximos à reta de regressão, enquanto um está bem distante, sendo um possível outlier. Prof. Arthur Lima Aula 17 33 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 III – O gráfico D mostra uma possível observação outlier na regressão linear. ERRADO. Não se observa um outlier no gráfico D. O ponto isolado está, na verdade, em cima da reta de regressão. Resposta: D 13. CESPE – ABIN – 2018) Ao avaliar o efeito das variações de uma grandeza X sobre outra grandeza Y por meio de uma regressão linear da forma 𝑌 = 𝛼 + 𝛽. 𝑋, um analista, usando o método dos mínimos quadrados, encontrou, a partir de 20 amostras, os seguintes somatórios (calculados sobre os vinte valores de cada variável): A partir desses resultados, julgue os itens a seguir. ( ) 𝛽 < 0. ( ) Para X = 10, a estimativa de Y é 12. RESOLUÇÃO: ( ) 𝛽 < 0. Para encontrar β, basta ir à fórmula da regressão linear, de onde teremos que: β = (20*8.400 – 300*400)/(20*6.000 – 300²); β= 48.000/30.000= 1,6. Item ERRADO. ( ) Para X = 10, a estimativa de Y é 12. Nesta alternativa é necessário encontrar o α, e em seguida colocar o x=10 na equação da reta obtida. Α = (6.000*400 – 8.400*300) / (20*6.000 – 90.000) = - 120.000/30.000 = -4. Equação da reta é Y=-4 + 1,6X. Com X=10, temos que Y=-4 + 16 = 12. Item CORRETO. Resposta: E C 14.CESPE – TCE/PR – 2016) Se satisfação no trabalho e saúde no trabalho forem indicadores com variâncias populacionais iguais a 8 e 2, respectivamente, e se a covariância populacional entre esses indicadores for igual a 3, então a correlação populacional entre satisfação no trabalho e saúde no trabalho será igual a A) 0,1875. B) 0,30. C) 0,75. D) 0,8125. Prof. Arthur Lima Aula 17 34 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 E) 1. RESOLUÇÃO: Se as variâncias da satisfação e da saúde são 8 e 2, respectivamente, então seus desvios padrões √8 e √2. A correlação é calculada assim: ( ) ( ), , . covariância X Y correlação X Y desvio padrão X desvio padrão Y = Aplicando essa fórmula ao nosso caso: ( ) 3 , 8 . 2 correlação satisfação saúde = ( ) 3 , 16 correlação satisfação saúde = ( ) 3 , 4 correlação satisfação saúde = ( ) , 0,75 correlação satisfação saúde = Resposta: C 15. CESPE – ANCINE – 2013) Em relação ao modelo de regressão linear, julgue os itens a seguir. ( ) O modelo de regressão pela origem gera estatísticas não viesadas de β. ( ) Havendo autocorrelação dos resíduos, os estimadores de mínimos quadrados ordinários serão não viesados e ineficientes. ( ) Nas estimativas por mínimos quadrados ordinários, se a variável dependente for multiplica por uma constante k > 0, o intercepto e a inclinação da regressão também serão multiplicados por k. RESOLUÇÃO: ( ) O modelo de regressão pela origem gera estatísticas não viesadas de β. No caso do modelo de regressão sem intercepto, ou regressão pela origem, a soma dos resíduos não é necessariamente igual a zero (como ocorre no caso da regressão com intercepto), o que pode levar à existência de viés na estimativa. Item ERRADO. Vale lembrar que um estimador enviesado é aquele que sistematicamente sobreestima ou subestima o valor do parâmetro populacional. Assim, um estimador β* é considerado não-viesado ou não tendencioso se a média de sua distribuição amostral é igual a β (que é o valor do parâmetro populacional). Prof. Arthur Lima Aula 17 35 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 16.CESGRANRIO – PETROBRÁS – 2014) Se X e Y são duas variáveis aleatórias, a representação da correlação entre elas é RESOLUÇÃO: Lembrando que: cov( , ) ( , ) x y X Y correlação X Y = Note que o desvio padrão é a raiz quadrada da variância. Portanto, no lugar do desvio padrão de X, poderíamos ter colocado a raiz de var(X). E no lugar do desvio padrão de Y, poderíamos ter colocado a raiz de var(Y). Com isso, chegamos na resposta da alternativa B. Resposta: B 17. CESGRANRIO – PETROBRÁS – 2014) Para realizar uma estimativa de vendas de um determinado produto y, um planejador decidiu utilizar um modelo causal. Esse modelo utiliza x como variável independente. Uma parte dos cálculos realizados para determinar os parâmetros da regressão linear (y = 𝛼. 𝑋 + 𝛽) é mostrada a seguir. Prof. Arthur Lima Aula 17 36 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 O valor da constante ∝ para o modelo de regressão apresentado acima é (A) zero (B) 0,076 (C) 13,16 (D) 16,67 (E) 157,89 RESOLUÇÃO: Veja que esta questão chamou de ∝ o coeficiente angular da regressão, isto é, o coeficiente que multiplica a variável X. Na exposição teórica, este coeficiente é o 𝛽, uma vez que eu utilizei a representação i i iY X = + + . Assim, para obter o coeficiente solicitado na questão, devemos usar a fórmula: 2 2 ( ) ( ) n XY X Y coeficiente angular n X X − = − Substituindo os valores dados no enunciado: 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑎𝑛𝑔𝑢𝑙𝑎𝑟 = 20𝑥800.000 − 900𝑥15.000 20𝑥50.000 − 9002 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑎𝑛𝑔𝑢𝑙𝑎𝑟 = 16.000.000 − 13.500.000 1.000.000 − 810.000 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑎𝑛𝑔𝑢𝑙𝑎𝑟 = 2.500.000 190.000 = 250 19 = 13,16 Resposta: C 18.FCC – ISS/SÃO LUIS – 2018) Analisando um gráfico de dispersão referente a 10 pares de observações (t, Yt) com t = 1, 2, 3, ... , 10, optou-se por utilizar o modelo linear Yt = α + βt + εt com o objetivo de se prever a variável Y, que representa o faturamento anual de uma empresa em milhões de reais, no ano (2007 + t). Os parâmetros α e β são desconhecidos e εt é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. As estimativas de α e β (a e b, respectivamente) foram obtidas por meio do método dos mínimos quadrados com base nos dados dos 10 pares de observações citados. Se a = 2 e a soma dos faturamentos dos 10 dados observados foi de 64 milhões de reais, então, pela equação da reta obtida, a previsão do faturamento para 2020 é, em milhões de reais, de (A) 11,6 Prof. Arthur Lima Aula 17 37 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 (B) 15,0 (C) 13,2 (D) 12,4 (E) 14,4 RESOLUÇÃO: Temos a reta de regressão Y = a + b.t. Sabemos que a = 2. A média os faturamentos Y é obtida por: �̅� = 𝑠𝑜𝑚𝑎 𝑞𝑢𝑎𝑛𝑡𝑖𝑑𝑎𝑑𝑒 = 64 10 = 6,4 𝑚𝑖𝑙ℎõ𝑒𝑠 A média dos tempos “t” é dada por: 𝑡̅ = 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 10 = 55 10 = 5,5 𝑎𝑛𝑜𝑠 Assim, podemos obter o coeficiente b: �̅� = 𝑎 + 𝑏. 𝑡̅ 6,4 = 2 + b.5,5 4,4 = b.5,5 b = 4,4/5,5 = 4/5 = 0,8 Assim, ficamos com: Y = 2 + 0,8t Veja que 2020 = 2007 + 13. Isto é, temos t = 13. Na reta de regressão, obtemos: Y = 2 + 0,8.13 Y = 12,4 milhões Resposta: D 19.FCC – SEFAZ/PI – 2015) Considere as seguintes afirmações: I. O histograma é um gráfico apropriado para representar dados de variáveis quantitativas contínuas. II. Se X é uma variável aleatória com parâmetros n e p, onde n representa o número de ensaios de Bernoulli e p representa a probabilidade de sucesso em cada ensaio, então a variância de X é dada pelo produto np. Prof. Arthur Lima Aula 17 38 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 III. O nível de significância de um teste é a probabilidade de se cometer erro do tipo I. IV. Se r é o coeficiente de correlação linear de Pearson entre duas variáveis, então −1 < r < 1. É verdade o que se afirma APENAS em (A) II e III. (B) I, III e IV. (C) III. (D) II e IV. (E) I e III. RESOLUÇÃO: A afirmação I (sobre os histogramas) é correta, pois podemos usá-lo para representar variáveis contínuas. A afirmação II é errada, pois a distribuição descrita é do tipo Binomial (formada pro vários ensaios de Bernoulli), onde a variância é dada por Var(X) = n.p.q. A afirmação III é correta, pois esta é a definição de erro do tipo I. A afirmação IV está errada, pois o coeficiente de correlação linear pode assumir os valores -1 e 1, portanto o correto seria dizer que 1 1r− . RESPOSTA: E 20.FCC – SEFAZ/PI – 2015) O modelo t t Y t = + + , t = 1, 2, 3, ..., foi considerado para prever o lucro de uma companhia no ano (2007 + t). Sabe-se que: . t Y representa o lucro, em milhões de reais no ano t; . α e β são parâmetros desconhecidos; . t é o correspondente erro aleatório, com as respectivas hipóteses da regressão linear; . as estimativas de α e β foram obtidas pelo método de mínimos quadrados, considerando-se as observaçõestY no período de 6 anos (2008 a 2013). Os dados relativos às observações são: Prof. Arthur Lima Aula 17 39 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Nessas condições, a previsão de mínimos quadrados para o lucro da companhia, em milhões de reais, no ano de 2014, é igual a (A) 8,80 (B) 9,50 (C) 7,55 (D) 8,15 (E) 7,90 RESOLUÇÃO: Podemos calcular o coeficiente na regressão linear entre “t” e “y” assim: 2 2 2 ( . ) ( ) t y t y t n t t − = − 2 91.36 140.21 3,2 6.91 21 − = = − A média de t é 21 / 6 = 3,5 e a média de y é 36 / 6 = 6. Assim, podemos escrever que: Y t = + 6 3,2 .3,5= + (6 3,2) / 3,5 − = 0,8 = Assim, temos a regressão: y = 3,2 + 0,8.t Veja que 2014 = 2007 + 7, logo devemos usar t = 7 para obter o valor correspondente ao ano de 2014: y = 3,2 + 0,8.7 y = 8,8 RESPOSTA: A Prof. Arthur Lima Aula 17 40 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 21.FCC - ISS/Teresina - 2016) Considere as seguintes afirmações: I. As amostras 1 e 2 dadas a seguir, cada uma com 5 elementos, não possuem a mesma média amostral mas possuem o mesmo desvio padrão amostral: amostra 1: 2 4 6 8 10 amostra 2: 4 6 8 10 12 II. Se as variáveis X e Y possuem coeficiente de correlação linear de Pearson igual a 1 então o diagrama de dispersão entre X e Y é uma reta que passa pela origem, isto é, é uma reta que passa pelo ponto (0,0). III. Suponha que ajustamos o modelo ŷ = a + bx aos dados da amostra (x1,y1),...(xn,yn ) , onde a e b são, respectivamente, os estimadores de mínimos quadrados dos parâmetros α e β do modelo de regressão linear. Nessas condições, o coeficiente de determinação é interpretado como a proporção da variabilidade dos y’s observados explicada por tal modelo. IV. O histograma da variável X é um gráfico não apropriado quando X tem distribuição assimétrica. Está correto o que se afirma APENAS em (A) I e IV. (B) I, II e IV. (C) II e III. (D) I e III. (E) II, III e IV. RESOLUÇÃO: Vejamos cada afirmação: I. As amostras 1 e 2 dadas a seguir, cada uma com 5 elementos, não possuem a mesma média amostral mas possuem o mesmo desvio padrão amostral: amostra 1: 2 4 6 8 10 amostra 2: 4 6 8 10 12 Observe que, da primeira para a segunda amostra, apenas somamos 2 unidades a cada elemento. Isto faz com que as médias sejam DIFERENTES, mas mantém os desvios padrões IGUAIS. Afirmação CORRETA. II. Se as variáveis X e Y possuem coeficiente de correlação linear de Pearson igual a 1 então o diagrama de dispersão entre X e Y é uma reta que passa pela origem, isto é, é uma reta que passa pelo ponto (0,0). ERRADO. Correlação igual a 1 significa que quando uma variável aumenta, a outra aumenta na mesma proporção. Mas não significa que, quando uma variável é nula, a outra também deva ser. III. Suponha que ajustamos o modelo ŷ = a + bx aos dados da amostra (x1,y1),...(xn,yn ) , onde a e b são, respectivamente, os estimadores de mínimos quadrados dos parâmetros α e β do modelo de regressão linear. Prof. Arthur Lima Aula 17 41 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Nessas condições, o coeficiente de determinação é interpretado como a proporção da variabilidade dos y’s observados explicada por tal modelo. CORRETO. O coeficiente de determinação nos fornece o quanto da variância da variável dependente (y) é explicada pelo modelo. IV. O histograma da variável X é um gráfico não apropriado quando X tem distribuição assimétrica. ERRADO. O Histograma pode ser utilizado normalmente quando a variável tem distribuição simétrica ou assimétrica. Resposta: D 22.CONSULPLAN – TSE – 2012) Para duas variáveis x e y, são dados: 50, 4, 320, ( ) 10 10, ( ) 22,5X Y XY x y = = = = = O coeficiente de correlação entre as variáveis é a) – 0,2. b) 0,2. c) 0,6. d) 0,8. RESOLUÇÃO: Devemos começar lembrando que: cov( , ) X Y X Y correlação = Sabemos que ( ) 10 10 e ( ) 22,5x y = = . Além disso, devemos lembrar que: cov(X,Y) = E(XY) – E(X)E(Y) Utilizando os valores fornecidos no enunciado, cov(X,Y) = 320 – 50.4 cov(X,Y) = 120 Prof. Arthur Lima Aula 17 42 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Portanto, 120 10 10 22,5 correlação = 120 10 225 correlação = 120 10 15 correlação = 0,8correlação = Resposta: D 23. CESPE – TCU – 2008) Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007. Considerando as informações do texto, julgue os itens subseqüentes. ( ) O coeficiente de correlação linear entre X e Y é inferior a 0,8. RESOLUÇÃO: Efetuando cálculos simples, você consegue obter a média de X, no valor E(X) = 1750, e a média de Y, no valor E(Y) = 400. Multiplicando cada valor de X pelo respectivo valor de Y, obtemos X.Y, cujos valores são 150000, 700000 e 1400000, e cuja média é E(XY) = 750000. Assim, cov(X,Y) = E(XY) – E(X).E(Y) cov(X,Y) = 750000 – 1750.400 = 50000 Você pode ainda calcular os desvios padrões de X e Y, obtendo aproximadamente 204 e 245, respectivamente. Lembre-se de usar n = 3, e não 2, pois estamos calculando desvios padrões populacionais. Assim, Prof. Arthur Lima Aula 17 43 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 cov( , ) X Y X Y correlação = 50000 1 204.245 correlação = = Veja que temos uma correlação perfeita, com índice de correlação igual a 1. Item ERRADO, pois 1 > 0,8. Resposta: E 24.FCC – SEFAZ/SP – 2006) Em um determinado país, deseja-se determinar a relação entre a renda disponível (Y), em bilhões de dólares, e o consumo (C), também em bilhões de dólares. Foi utilizado o modelo linear simples Ci = A + BYi + et, em que Ci é o consumo no ano i, Yi é o valor da renda disponível no ano i e et o erro aleatório com as respectivas hipóteses para a regressão linear simples, A e B são parâmetros desconhecidos, cujas estimativas foram obtidas através do método dos mínimos quadrados. Para obtenção desta relação considerou-se ainda as seguintes informações colhidas através da observação dos últimos 10 anos: Para o cálculo do coeficiente de correlação de Pearson (R), usou-se a fórmula: R = Cov(Y,C) / (DP(Y) x DP(C), em que COV(Y,C) é a covariância de Y e C, DP(Y) é o desvio padrão de Y e DP(C) é o desvio padrão de C. Então, a) obtendo para um determinado ano uma previsão para o consumo de 10 bilhões de dólares, significa que a renda disponível considerada foi de 12,5 bilhões de dólares. b) o valor da estimativa encontrado para o parâmetro B é igual a 0,4 c) o valor da estimativa encontrado para o parâmetro A é igual a 10 d) o coeficiente de explicação (R2) correspondente é igual a 64% e) utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que, em um ano, caso a renda disponível seja igual a 15 bilhões de dólares, o consumo será igual a 13 bilhões de dólares. RESOLUÇÃO: A reta de regressão é dada por: i i tC A BY = + + Prof. Arthur Lima Aula 17 44 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Nesta fórmula, A e B são os coeficientes da regressão linear, que precisamos descobrir. Já o t é o erro aleatório. O cálculo dos coeficientes é feito utilizando as fórmulas abaixo: 2 2 2 ( ) ( ) Y C YC Y A n Y Y − = − 2 2 ( ) ( )n YC Y C B n Y Y − = − Utilizando os dados fornecidos pelo enunciado, e as fórmulas acima, vamos obter os coeficientes: 2 2 2 2 ( ) 1250 90 1100 100 1 ( ) 10 1250 100 Y C YC Y A n Y Y − − = = = − − 2 2 2 ( ) 10 1100 100 90 0,8 ( ) 10 1250 100 n YC Y C B n Y Y − − = = = − − Portanto, a reta de regressão linear é: 1 0,8i i tC Y = + + Desprezando o erro aleatório, podemos calcular o valor do consumo Ci para qualquer valor de renda Yi, e vice- versa. Assim para uma renda Y = 15 bilhões, o consumo é: 1 0,8 15 13C = + = bilhões Resposta: E 25. ESAF – SUSEP – 2010) A partir de uma amostra aleatória (X1 ,Y1), (X2 ,Y2),..., (X20 ,Y20) foram obtidas as estastísticas: médias X = 12,5 e Y = 19, variâncias amostrais sx2 = 30 e sy2 = 54 e covariância Sxy = 36. Qual a reta de regressão estimada de Y em X? a) Ŷi = 19 + 0,667 Xi . b) Ŷi = 12,5 + 1,2 Xi . c) Ŷi = 4 + 1,2 Xi . d) Ŷi = 19 + 1,2 Xi . e) Ŷi = 80 + 22,8 Xi . Prof. Arthur Lima Aula 17 45 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 RESOLUÇÃO: Baseado nas informações fornecidas pelo enunciado, o coeficiente pode ser calculado pela terceira fórmula que vimos: 2 2 cov( , ) 36 1,2 30 = = = = xy x x sX Y s s Para obter basta lembrar da relação entre as médias das variáveis X e Y: Y X = + 19 1,2 12,5= + 4 = Assim, a reta de regressão é: 4 1,2= + Y X Resposta: C 26.ESAF – SMF/RJ – 2010 – Adaptada) A partir de uma amostra aleatória simples formada por 22 observações das variáveis X e Y calculou-se: Com os dados acima, calcule o valor mais próximo do quadrado do coeficiente de correlação linear (R) de X e Y. a) 0,65 b) 0,81 c) 0,85 d) 0,91 e) 0,88 RESOLUÇÃO: O quadrado do coeficiente R, que podemos chamar de R2, é dado por: Prof. Arthur Lima Aula 17 46 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 2 2 2 2 { [( )( )]} ( ) ( ) i i i i X X Y Y R X X Y Y − − = − − Substituindo os valores dados na questão, temos: 2 2 2 2 2 { [( )( )]} {1105} 0,85 850 1690( ) ( ) i i i i X X Y Y R X X Y Y − − = = = − − Resposta: C 27. FGV – SEFAZ/RJ – 2008) Sejam X e Y duas variáveis aleatórias quaisquer. Então: a) VAR (X – Y) = VAR (X) – VAR(Y) b) VAR (X – Y) = VAR (X) + VAR(Y) – COV(X,Y) c) VAR (X – Y) = VAR (X) + VAR(Y) – 2COV(X,Y) d) VAR (X – Y) = VAR (X) + VAR(Y) + COV(X,Y) e) VAR (X – Y) = VAR (X) + VAR(Y) + 2COV(X,Y) RESOLUÇÃO: Se você decorou a fórmula que vimos na parte teórica, já pode marcar a alternativa C. Caso contrário, vamos obter a fórmula para var(X – Y). Inicialmente é bom lembrar que: 2( ) var( ) X X X n − = e 2( ) var( ) Y Y Y n − = Analogamente, podemos dizer que: 2 ( ) ( ) var( ) X Y X Y X Y n − − − − = Lembrando que X Y X Y− = − , então: 2 ( ) ( ) var( ) X Y X Y X Y n − − − − = Reorganizando os termos: Prof. Arthur Lima Aula 17 47 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 2 ( ) ( ) var( ) X X Y Y X Y n − − − − = ( ) ( ) ( ) ( ) var( ) X X Y Y X X Y Y X Y n − − − − − − − = 22( ) ( ) 2( )( ) var( ) X X Y Y X X Y Y X Y n − + − − − − − = Separando os somatórios, temos: 2 2( ) ( ) 2( )( ) var( ) X X Y Y X X Y Y X Y n n n − − − − − = + − 2 2( ) ( ) ( )( ) var( ) 2 X X Y Y X X Y Y X Y n n n − − − − − = + − Lembrando que cov(X,Y) = ( )( )X X Y Y n − − , temos: var( ) var( ) var( ) 2cov( , )X Y X Y X Y− = + − Resposta: C 28.CONSULPLAN – TSE – 2012) Uma variável X tem desvio-padrão 6, enquanto uma variável Y desvio-padrão 10. A covariância entre X e Y é – 50. Assim, a variância de X + Y [Var(X+Y)] é a) – 84. b) 36. c) 86. d) 136. RESOLUÇÃO: Veja que a variância de X é 62 = 36, e a variância de Y é 102 = 100. Devemos começar lembrando que: 2( ) var( ) X X X n − = e 2( ) var( ) Y Y Y n − = Analogamente, podemos dizer que: Prof. Arthur Lima Aula 17 48 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 2 ( ) ( ) var( ) X Y X Y X Y n + − + + = Lembrando que X Y X Y+ = + , então: 2 ( ) ( ) var( ) X Y X Y X Y n + − + + = Reorganizando os termos: 2 ( ) ( ) var( ) X X Y Y X Y n − + − + = ( ) ( ) ( ) ( ) var( ) X X Y Y X X Y Y X Y n − + − − + − + = 22( ) ( ) 2( )( ) var( ) X X Y Y X X Y Y X Y n − + − + − − + = Separando os somatórios, temos: 2 2( ) ( ) 2( )( ) var( ) X X Y Y X X Y Y X Y n n n − − − − + = + + 2 2( ) ( ) ( )( ) var( ) 2 X X Y Y X X Y Y X Y n n n − − − − + = + + Lembrando que cov(X,Y) = ( )( )X X Y Y n − − , temos: var( ) var( ) var( ) 2cov( , )X Y X Y X Y+ = + + Portanto, utilizando os valores presentes no enunciado, temos: var( ) 36 100 2 ( 50) 36X Y+ = + + − = Resposta: B Obs.: como você viu, eu prefiro resolver sem decorar fórmulas. Mas, caso você prefira, grave que var(X + Y) = var(X) + var(Y) + 2 cov(X,Y). E também que var(X – Y) = var(X) + var(Y) – 2 cov(X,Y). Prof. Arthur Lima Aula 17 49 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 29.FCC – ISS/SP – 2012) Considere as seguintes afirmações: I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o gráfico de dispersão entre essas duas variáveis. II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de medida da variável que está sendo analisada. III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato de não ser afetada por valores aberrantes. IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação. Está correto o que se afirma APENAS em: a) I e II b) I e III c) II e IV d) I e) II e III RESOLUÇÃO: Vamos avaliar cada afirmação: I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o gráfico de dispersão entre essas duas variáveis. CORRETO. Como vimos, o gráfico de dispersão permite visualizar se existe alguma associação entre duas variáveis. II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de medida da variável que está sendo analisada. ERRADO. Como vimos, o coeficiente de variação geralmente é apresentado na forma percentual, o que já demonstra que ele não possui unidade de medida (não sendo influenciado pela unidade da variável). Você também pode constatar isto olhando para a fórmula dele: CV = Imagine que uma variável é medida em “anos” (ex.: idade). Neste caso, tanto a média ( ) quanto o desvio padrão ( ) terão esta unidade, e ao efetuar a divisão acima você irá “cortar” a unidade do numerador e a do denominador, restando um valor desprovido de unidade de medida, isto é, adimensional. Prof. Arthur Lima Aula 17 50 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato de não ser afetada por valores aberrantes. ERRADO, pois vimos que a média é afetada por todos os valores de uma amostra ou população, inclusive aqueles mais extremos (“aberrantes”). IV. Se o coeficientede correlação linear de Pearson entre duas variáveis for igual a zero, não haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação. ERRADO. O fato de o coeficiente de correlação linear ser nulo implica que há independência linear entre as variáveis, entretanto não podemos afirmar nada a respeito de outros tipos de associação (ex.: correlação não- linear, que foge do escopo deste curso). Resposta: D 30.FCC – SEFIN/RO – 2010) Considere que as vendas anuais, em milhões de reais, de um produto são estimadas por meio do modelo yt = α + βt + εt, t = 1, 2, 3, . . . em que yt representa o valor das vendas no ano (1999+t). α e β são parâmetros desconhecidos e εt é o erro aleatório com as respectivas hipóteses consideradas para o modelo de regressão linear simples. Com base nas informações anuais de 2000 até 2009 e utilizando o método dos mínimos quadrados obteve-se a estimativa para α como sendo igual a 1,4. A média aritmética dos valores de yt de 2000 até 2009 apresentou um valor igual a 3,6. O valor de (yt + 1 − yt ) para t > 0, considerando a função encontrada pelo método dos mínimos quadrados, é uma constante igual a (A) 0,55 (B) 0,50 (C) 0,40 (D) 0,36 (E) 0,30 RESOLUÇÃO: Observe que foi calculada a regressão = + +i i iY t , onde obteve-se 1,4 = . Além disso, a média de Y é 3,6, ou seja, Y = 3,6. Os valores de t são t = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, portanto a média de t é 5,5=t . É pedido o valor de yt + 1 − yt, que é: 1 1 ( 1) ( )t t i i t t Y Y t t Y Y + + − = + + + − + + − = Ou seja, é pedido o valor de . Lembrando que: = + Y t Então: Prof. Arthur Lima Aula 17 51 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 3,6 1,4 5,5= + Portanto, = 0,4. Com isso, 1 0,4t tY Y + − = = Resposta: C 31. FCC – SEFAZ/SP – 2010) Com base em um estudo de correlação e regressão, obteve-se o gráfico abaixo correspondente à equação da reta deduzida pelo método dos mínimos quadrados (Y = aX + b), utilizando 10 pares de observações (Xi ,Yi), i = 1, 2, 3, ..., 10. A média aritmética das observações de Y apresentou o valor de 6,5. A média aritmética das observações de X é (A) 3,00 (B) 3,25 (C) 3,50 (D) 3,75 (E) 4,00 RESOLUÇÃO: Sendo Y a média dos valores Yi e X a média dos valores Xi, podemos dizer que: = +Y a X b Da mesma forma, podemos dizer que: = +i iY a X b Observe no gráfico que para X = 2, temos Y = 5. Portanto: Prof. Arthur Lima Aula 17 52 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 5 2= +a b E também temos que, para X = 4, Y = 8. Assim: 8 4= +a b Na primeira equação, podemos isolar a variável b, obtendo: 5 2− =a b Substituindo esse valor na segunda equação, temos: 8 4 (5 2)= + − a a 8 2 5= +a 1,5=a Podemos obter também o valor de b: 5 2− =a b 5 1,5 2− = b 2=b Portanto, temos a equação: 1,5 2= +Y X Como 6,5Y = , então: 6,5 1,5 2= +X 3=X Resposta: A 32. FCC – SEFAZ/SP – 2009) O gráfico abaixo demonstra a evolução da receita tributária anual no estado de São Paulo desde 1999, com os valores arrecadados em bilhões de reais. Prof. Arthur Lima Aula 17 53 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Para estimar a receita tributária em um determinado ano com base no comportamento sugerido pelo gráfico, adotou-se o modelo Yt = α + βt + εt; t = 1, 2, 3 ..., sendo Yt = ln (RTt), em que RTt é a receita tributária no ano (1998+t) em bilhões de reais e ln o logaritmo neperiano (ln e = 1). α e β são parâmetros desconhecidos e εt o erro aleatório com as respectivas hipóteses consideradas para o modelo de regressão linear simples. Utilizando o método dos mínimos quadrados, com base nas observações de 1999 a 2008, obteve-se para a estimativa de β o valor de 0,12, sabendo-se que: A previsão da receita tributária para 2009, em bilhões de reais, em função da equação obtida pelo método dos mínimos quadrados é igual a (A) e4,58 (B) e4,56 (C) e4,44 (D) e4,32 (E) e4,20 RESOLUÇÃO: Desprezando o erro aleatório t , temos a regressão t Y t = + . Como 0,12 = , então temos: 0,12tY t= + Como 39tY = , então 39 3,9 10 tY Y n = = = Prof. Arthur Lima Aula 17 54 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 Veja que os valores de t de 1999 a 2008 são 1, 2, 3... 10. Portanto, a média de t é 5,5=t . Assim, lembrando que: 0,12Y t= + Podemos encontrar o valor de : 3,9 0,12 5,5= + 3,24 = Com isso, temos a equação da regressão linear: 3,24 0,12tY t= + Para o ano de 2009, temos t = 11. Portanto: 11 3,24 0,12 11 4,56Y = + = E como ln( )t tY RT= , podemos dizer que: 11 11ln( )Y RT= 114,56 ln( )RT= 4,56 11RT e= Resposta: B 33. ESAF – SMF/RJ – 2010) A partir de uma amostra aleatória simples formada por 22 observações das variáveis X e Y calculou-se: Obtenha a reta de regressão linear de Y em X. Prof. Arthur Lima Aula 17 55 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 RESOLUÇÃO: Vamos obter os valores dos coeficientes e da reta de regressão Y X = + . Pelas informações fornecidas no enunciado, será preciso utilizar a 2ª fórmula apresentada para calcular o coeficiente : 2 ( )( ) 1105 1,3 850( ) − − = = = − i i i X X Y Y X X Encontrado o valor de , podemos obter o valor de lembrando da relação entre as médias das variáveis X e Y: Y X = + Veja que as médias X e Y são facilmente obtidas a partir dos dados fornecidos: 440 20 22 = = = iX X n e 286 13 22 = = = iY Y n Portanto, Y X = + 13 1,3 20= + 13 = − Assim, a reta de regressão é: 13 1,3Y X= − + Resposta: E Prof. Arthur Lima Aula 17 56 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 34.ESAF – SMF/RJ – 2010) Com os dados da questão anterior, calcule o valor mais próximo do coeficiente de determinação R2 da regressão linear de X em Y. a) 0,65 b) 0,81 c) 0,85 d) 0,91 e) 0,88 RESOLUÇÃO: O coeficiente R2 é dado pela fórmula: 2 2 2 2 { [( )( )]} ( ) ( ) i i i i X X Y Y R X X Y Y − − = − − Substituindo os valores dados na questão, temos: 2 2 2 2 2 { [( )( )]} {1105} 0,85 850 1690( ) ( ) i i i i X X Y Y R X X Y Y − − = = = − − Resposta: C 35. ESAF – AFRFB – 2005) Para uma amostra de dez casais residentes em um mesmo bairro, registraram-se os seguintes salários mensais (em salários mínimos): Sabe-se que: Assinale a opção cujo valor corresponda à correlação entre os salários dos homens e os salários das mulheres. a) 0,72 b) 0,75 Prof. Arthur Lima Aula 17 57 de 100| www.direcaoconcursos.com.br Raciocínio Analítico, Mat. Financeira e Estatística p/ Auditor do TCU – 2019 c) 0,68 d) 0,81 e) 0,78 RESOLUÇÃO: Nesta questão podemos usar a última fórmula que vimos para o coeficiente de correlação: 2 2 2 2 ( ) [ ( ) ] [ ( ) ] i i i i i i i i n X Y X Y R n X X n Y Y − = − − 2 2 10 3940 171 221 0,75 [10 3171 (171) ] [10 5069 (221) ] R − = = − − Resposta: B 36.ESAF – AFRFB – 2009 – Adaptada) Na análise de regressão linear simples, as estimativas A e B dos parâmetros e da reta de regressão podem ser obtidas pelo método de mínimos quadrados. Nesse caso, os valores dessas estimativas são obtidos através de uma amostra
Compartilhar