Baixe o app para aproveitar ainda mais
Prévia do material em texto
Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 1 de 77 www.exponencialconcursos.com.br “Aprender é a única coisa de que a mente nunca se cansa, nunca tem medo e nunca se arrepende.” Leonardo Da Vinci Curso: Estatística Professores: Fábio Amorim e Renato Talalas http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 2 de 77 www.exponencialconcursos.com.br Assunto Página 1. Introdução 3 2. Correlação Linear Simples 4 2.1 – Diagrama de Dispersão 4 2.2 – Coeficiente de Correlação 6 3. Regressão Linear Simples 10 4. Questões Comentadas 15 5. Lista de Questões 61 6. Gabarito 77 “Aprender é a única coisa de que a mente nunca se cansa, nunca tem medo e nunca se arrepende.” Leonardo Da Vinci Aula – Medidas de Dispersão http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 3 de 77 www.exponencialconcursos.com.br 1. Introdução Com base em estudos estatísticos é possível avaliar a relação entre duas ou mais variáveis aleatórias. Esse tipo de avaliação é muito útil em diversas áreas. Os objetivos desses estudos podem ser resumidos em dois aspectos: (1) simular efeitos de variáveis independentes em uma variável Y, dependente; (2) realizar previsões sobre o comportamento futuro de uma variável Y, dependente, haja vista o histórico observado em relação a variáveis independentes. Por exemplo, quanto ao primeiro aspecto, na área comercial, é o caso dos estudos que simulem a relação entre o volume de vendas de um produto e as variáveis independentes que o influenciam, como o preço do produto, os gastos com propaganda, ou a época do ano, etc. Conhecidas essas relações, torna-se possível fazer previsões de faturamento, a partir dos gastos estabelecidos com propaganda, por exemplo (segundo aspecto). Essas previsões podem ser feitas, inclusive, na área de fiscalização tributária, a qual vocês estarão atuando daqui a algum tempo. Por exemplo, quando se deseja prever a arrecadação tributária em um período, para fins de planejamento orçamentário da unidade federativa. O gráfico abaixo traz outro exemplo de aplicação desses estudos, onde se compara o Índice de Desenvolvimento Humano (IDH) em relação à carga tributária de vários países: Fonte: Instituto Brasileiro de Planejamento Tributário (IBPT) Nesse gráfico, pode-se observar uma correlação positiva entre carga tributária e IDH. Ou seja, quanto maior a carga tributária, maior o IDH. Isto é http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 4 de 77 www.exponencialconcursos.com.br esperado, já que melhorias em educação, saúde, segurança, etc., custam caro e, portanto, os impostos devem ser maiores para que o governo consiga arcar com melhorias. Além disso, é possível analisar que o Brasil mantém uma relação entre impostos e IDH abaixo da média, representada pela reta. Ou seja, quando comparado com países com carga tributária próxima, o Brasil deveria entregar um melhor retorno a sua população (IDH). Estabelecidos esses conceitos iniciais, nesta aula, veremos um pouco sobre esses estudos que visam a descrever e quantificar a relação entre variáveis aleatórias. Iremos conhecer duas ferramentas utilizadas: a correlação e a regressão. Preparados? Então, vamos lá! 2. Correlação Linear Simples O estudo das correlações tem como objetivo medir o grau de relação entre variáveis aleatórias quantitativas. Por exemplo, será que a variável aleatória “número de casas com rede de esgoto” e a variável aleatória “número de atendimentos no posto de saúde” possuem alguma relação? Como se comporta essa relação? Essa relação é forte, fraca ou inexistente? Essas e outras questões podem ser respondidas pelo estudo da correlação de variáveis. Normalmente, as bancas examinadoras restringem o conteúdo programático à correlação do tipo linear simples. Sendo assim, iremos estudar apenas a correlação de duas variáveis aleatórias que se comportam linearmente. No estudo das correlações lineares simples, vamos utilizar duas ferramentas: o diagrama de dispersão e o coeficiente de correlação. 2.1 – Diagrama de Dispersão O diagrama de dispersão é um tipo de gráfico no plano cartesiano, onde são os dados de duas variáveis X e Y podem ser dispostos por meio de pontos. Assim, dadas duas variáveis X e Y, compostas, respectivamente, pelos elementos {x1, x2, x3,..., xn} e {y1, y2, y3,..., yn}, podemos representar graficamente cada ponto (xi, yi) no diagrama de dispersão: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 5 de 77 www.exponencialconcursos.com.br Portanto, os pontos do diagrama são representados pelos pares (x1, y1), (x2, y2), até (xn, yn). Visualizando o diagrama acima, é possível constatarmos um crescimento da variável Y à medida que a variável X cresce. Por isso, dizemos que há uma correlação positiva entre essas duas variáveis aleatórias. O mesmo não se pode dizer do diagrama abaixo, por exemplo: Visualizando esse diagrama, não é possível identificarmos qualquer comportamento da variável Y em função do crescimento da variável X. Nesse caso, dizemos que não existe correlação entre essas variáveis. Sendo assim, a partir do diagrama de dispersão, três constatações podem ser feitas: ✓ Quando os valores da variável Y aumentam à medida que os valores de X também aumentam, dizemos que existe uma correlação positiva entre essas variáveis; 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 6 de 77 www.exponencialconcursos.com.br ✓ Quando os valores da variável Y diminuem à medida que os valores de X aumentam, dizemos que existe uma correlação negativa entre essas variáveis; ✓ Quando o diagrama não demonstra uma relação entre os valores da variável Y a partir do aumento dos valores de X, dizemos não existe correlação entre elas, ou seja, as variáveis são independentes entre si. 2.2 – Coeficiente de Correlação Apesar de útil, a análise do diagrama de dispersão não é precisa, e exige a formulação de uma medida que represente a correlação entre duas variáveis X e Y. Essa medida objetiva é denominada de coeficientes de correlação. Nas correlações lineares simples, essa medida é denominada de coeficiente de correlação de Pearson (𝑟𝑥𝑦), definida a partir de parâmetros amostrais de X e Y. Matematicamente é calculada da seguinte maneira: 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) ⇒ 𝑟𝑥𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) √𝑆²(𝑋) × 𝑆²(𝑌) Onde: − 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) = 1 𝑛 − 1 ∑(𝑌𝑖 − �̅�)(𝑋𝑖 − �̅�) 𝑛 𝑖=1 − 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) = 1 𝑛 − 1 ∑(𝑋𝑖 − �̅�)² 𝑛 𝑖=1 − 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑌) = 1 𝑛 − 1 ∑(𝑌𝑖 − �̅�)² 𝑛 𝑖=1 Desenvolvendo matematicamente essas expressões, temos que: 𝑟𝑥𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) √𝑆²(𝑋) × 𝑆²(𝑌) = 1 𝑛 − 1 𝑆𝑋𝑌 √ 1 𝑛 − 1𝑆𝑋𝑋 × 1 𝑛 − 1𝑆𝑌𝑌 𝑟𝑥𝑦 = 𝑆𝑋𝑌 √𝑆𝑋𝑋 × 𝑆𝑌𝑌 Onde: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 7 de 77 www.exponencialconcursos.com.br 𝑆𝑋𝑌 =∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖)(∑𝑌𝑖) 𝑛 𝑆𝑋𝑋 =∑𝑋𝑖² − (∑𝑋𝑖) 2 𝑛 𝑆𝑌𝑌 =∑𝑌𝑖² − (∑𝑌𝑖) ²/𝑛 À primeira vista essas fórmulas podem parecer complicadas, mas com a práticanós iremos ver que não. Independentemente disso, precisamos decorá- la para a prova! Vale lembrar vocês que, caso os dados informados se refiram a parâmetros populacionais, as fórmulas são as seguintes: 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) ⇒ 𝑟𝑥𝑦 = 𝐶𝑜𝑣(𝑋, 𝑌) √𝜎²(𝑋) × 𝜎²(𝑌) Onde: − 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) = 1 𝑛 ∑(𝑌𝑖 − �̅�)(𝑋𝑖 − �̅�) 𝑛 𝑖=1 − 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) = 1 𝑛 ∑(𝑋𝑖 − �̅�)² 𝑛 𝑖=1 − 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑌) = 1 𝑛 ∑(𝑌𝑖 − �̅�)² 𝑛 𝑖=1 O coeficiente de Pearson é um número adimensional que varia de -1 a 1 e, a partir dele, podemos tirar as seguintes conclusões sobre a correlação linear de duas variáveis: ✓ Quando 0 < 𝑟𝑥𝑦 < 1, dizemos que existe uma correlação positiva entre as variáveis X e Y; ✓ Quando −1 < 𝑟𝑥𝑦 < 0, dizemos que existe uma correlação negativa entre as variáveis X e Y; ✓ Quando 𝑟𝑥𝑦 = 1, dizemos que a correlação é positiva perfeita; ✓ Quando 𝑟𝑥𝑦 = −1, dizemos que a correlação é negativa perfeita; ✓ Quando 𝑟𝑥𝑦 = 0, dizemos que a correlação é nula. Graficamente, podemos visualizar essas relações da seguinte forma: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 8 de 77 www.exponencialconcursos.com.br Coeficiente Diagrama 𝟎 < 𝒓𝒙𝒚 < 𝟏 Correlação Linear Positiva −𝟏 < 𝒓𝒙𝒚 < 𝟎 Correlação Linear Negativa 𝒓𝒙𝒚 = 𝟏 Correlação Linear Positiva Perfeita 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 9 de 77 www.exponencialconcursos.com.br Coeficiente Diagrama 𝒓𝒙𝒚 = −𝟏 Correlação Linear Negativa Perfeita 𝒓𝒙𝒚 = 𝟎 Correlação Linear Nula Por fim, podemos destacar algumas características importantes do Coeficiente de Pearson: ✓ O valor do coeficiente de uma variável X em função de Y é igual ao coeficiente da variável Y em função de X; ✓ O valor do coeficiente não muda ao se alterar a unidade de medida das variáveis; ✓ O coeficiente é adimensional; ✓ As variáveis a serem relacionadas devem ser quantitativas (contínuas ou discretas); ✓ Para o seu cálculo, é desejável que as variáveis aleatórias estejam normalmente distribuídas. 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 10 de 77 www.exponencialconcursos.com.br 3. Regressão Linear Simples A regressão tem por objetivo descrever a relação existente entre variáveis aleatórias. Essa descrição é conseguida por meio de uma equação matemática. Em outras palavras, a regressão consiste em encontrar uma equação que possa descrever a relação entre variáveis aleatórias. Nesta aula, iremos estudar apenas as regressões de duas variáveis aleatórias que se comportam linearmente. Esse comportamento linear é traduzido pela equação de regressão, do tipo �̂� = 𝑎𝑋 + 𝑏. Sendo assim, a regressão linear simples consiste em encontrar uma equação do tipo �̂� = 𝑎𝑋 + 𝑏, a partir de dados existentes de duas variáveis aleatórias X:{x1, x2, x3,..., xn} e Y:{y1, y2, y3,..., yn}. ➢ Análise da Regressão Linear Simples Dadas duas variáveis X e Y, se tivéssemos uma correlação perfeita entre elas, a obtenção da equação �̂� = 𝑎𝑋 + 𝑏 seria mais fácil. No entanto, a maioria dos casos, essa correlação não é perfeita, como no diagrama de dispersão a seguir: Sendo assim, a regressão tem como objetivo encontrar uma equação que melhor represente a relação entre Y e X. Um dos métodos existentes consiste em encontrar a reta �̂� onde é mínima a soma dos quadrados das diferenças (𝑒𝑖) entre os valores de Y e os 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 11 de 77 www.exponencialconcursos.com.br valores correspondentes da reta �̂� . Esse método é chamado de mínimos quadrados. 𝑀í𝑛𝑖𝑚𝑜𝑠 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠:∑(𝑒𝑖) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 =∑(𝑌𝑖 − �̂�) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 Assim, supondo que essa reta tenha equação �̂� = 𝑎 + 𝑏𝑋, pelo método dos mínimos quadrados: ∑(𝑒𝑖) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 =∑(𝑌𝑖 − �̂�) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 =∑(𝑌 − 𝑎 − 𝑏𝑋)2 ⏟ 𝑀Í𝑁𝐼𝑀𝑂 Desenvolvendo matematicamente essa condição, encontraremos os seguintes coeficientes na expressão geral para a regressão linear simples: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 → 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖² − (∑𝑋𝑖)²/𝑛 ➢ O Coeficiente de Determinação R² O Coeficiente de determinação R² tem a função de expressar a “qualidade” da reta de regressão. Matematicamente, representa o quadrado do coeficiente de correlação de Pearson. Para entendermos seu conceito, rememoro que o objetivo da regressão é encontrar uma equação que expresse a relação entre duas variáveis aleatórias 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X 𝑒6 𝑒9 𝑒1 𝑒2 𝑒3 𝑒4 𝑒5 𝑒7 𝑒8 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 12 de 77 www.exponencialconcursos.com.br X e Y. Para tal, utilizou-se o método dos mínimos quadrados, onde é analisado a soma dos quadrados das diferenças entre os valores de 𝑌𝑖 e os respectivos valores de �̂�: ∑(𝑌𝑖 − �̂�) 2 Isso representa a soma dos quadrados dos erros (𝑒𝑖), considerando cada ponto (𝑥𝑖 , 𝑦𝑖) do diagrama de dispersão: ∑(𝑒𝑖)² = ∑(𝑌𝑖 − �̂�) 2 ⏟ 𝑀Í𝑁𝐼𝑀𝑂 Ou seja, o objetivo é conseguir uma reta onde os pontos do diagrama estejam, de uma maneira geral, o mais próximo possível à reta �̂�. Assim, obtida a reta otimizada pelo método dos mínimos quadrados, o coeficiente de determinação R² surge como uma medida da proximidade dos pontos 𝑌𝑖 em relação à reta �̂�. Para medir essa qualidade da reta �̂�, faz-se uma comparação entre as distâncias de �̂� em relação à média �̅�, com as distâncias dos pontos 𝑌𝑖 em relação à média �̅�. Se essas distâncias forem semelhantes, significa que a reta está bem ajustada. Assim, o coeficiente de determinação (R²) expressa o quanto esses pontos �̂� , em geral, estão próximos à média �̅� , em comparação com a proximidade, também de uma maneira geral, de 𝑌𝑖 à média �̅�. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 13 de 77 www.exponencialconcursos.com.br A diferença entre �̂� e �̅� é denominada “Variação Explicada” da reta de regressão, ou, variação devido à regressão. A diferença entre cada ponto de 𝑌𝑖 e a média �̅� é denominada “Variação Total” da reta de regressão, e expressa a variabilidade de Y em relação à sua média. Pela comparação entre essas variações é que se mede a “qualidade” da regressão linear R². Quanto mais próximos os valores da variação explicada estiverem em relação à variação total, melhor será o ajuste da reta �̂�. Além dessas duas variações, existe a chamada “Variação Residual”, que é representada pela diferença entre cada ponto 𝑌𝑖 e a reta de regressão �̂�. Essa variação é intrínseca à regressão e ao método dos mínimos quadrados: (𝑌𝑖 − �̂�) → 𝑚í𝑛𝑖𝑚𝑜. Ou seja, por mais que a reta de regressão �̂� procure indicar uma equação representativa, dificilmente conseguiráeliminar as diferenças existentes entre 𝑌𝑖 e �̂� . Por isso, diz-se que esse é um erro não explicado pela reta de regressão �̂�. Quanto menor o valor dessa variação residual, melhor será o ajuste da reta �̂�. Matematicamente, portanto, para calcular o coeficiente de determinação R² utilizamos a razão entre a soma dos quadrados das variações explicadas (SQE), e a soma dos quadrados das variações totais (SQT). http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 14 de 77 www.exponencialconcursos.com.br Como R² pretende avaliar a qualidade da reta de regressão, quanto melhor a variação explicada, melhor será o ajuste da reta em relação aos valores de (𝑥𝑖 , 𝑦𝑖). Assim: 𝑅2 = 𝑆𝑄𝐸 𝑆𝑄𝑇 Onde: 𝑆𝑄𝐸 =∑(�̂� − �̅�) 2 𝑆𝑄𝑇 =∑(𝑌𝑖− �̅�) 2 𝑆𝑄𝑅 =∑(𝑌𝑖 − �̂�) 2 } → 𝑆𝑄𝑇 = 𝑆𝑄𝐸 + 𝑆𝑄𝑅 Desenvolvendo matematicamente essas expressões, chegamos à seguinte fórmula geral para R²: 𝑅² = 𝑏². 𝑆𝑋𝑋 𝑆𝑌𝑌 Onde 𝑆𝑋𝑋 =∑𝑋𝑖² − (∑𝑋𝑖) ²/𝑛 𝑆𝑌𝑌 =∑𝑌𝑖² − (∑𝑌𝑖) ²/𝑛 𝑏: 𝑜 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑎 𝑒𝑞𝑢𝑎çã𝑜 �̂� = 𝑎 + 𝑏𝑋 Por fim, encontrado o valor de R², devemos interpreta-lo como o percentual da variabilidade de Y que é explicada pela equação de regressão �̂�: ✓ Caso 𝑅² ≅ 1 (próximo a 1), dizemos que grande parte da variabilidade de Y é explicada pela relação linear entre X e Y. ✓ Caso 𝑅² = 1, temos uma correlação perfeita, onde 100% da variabilidade de Y é explicada pela relação linear entre X e Y. ✓ Caso 𝑅² ≅ 0 (próximo a 0), dizemos que grande parte da variabilidade de Y não é explicada pela relação linear entre X e Y. ✓ Caso 𝑅² = 0, temos uma correlação nula, onde a variabilidade de Y não é explicada pela relação linear entre X e Y. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 15 de 77 www.exponencialconcursos.com.br 4. Questões Comentadas 1. (CESPE – Polícia Federal – Papiloscopista – 2012) Considere que a covariância e a correlação linear entre as variáveis X e Y sejam, respectivamente, iguais a 5 e 0,8. Suponha também que a variância de X seja igual a quatro vezes a variância de Y. Nesse caso, é correto afirmar que a variância de X é igual a 2. R. Dados do problema: - 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = 𝐶𝑜𝑣(𝑋,𝑌) = 5 - 𝐶𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝐿𝑖𝑛𝑒𝑎𝑟 = 𝑟𝑥𝑦 = 0,8 - 𝜎²(𝑋) = 4.𝜎²(𝑌) - 𝜎²(𝑋) Vimos que a correlação linear entre duas variáveis X e Y pode ser expressa pela fórmula: 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) 0,8 = 5 √𝜎²(𝑋) × 𝜎²(𝑋) 4 √𝜎²(𝑋) × 𝜎²(𝑋) 4 = 5 0,8 = 6,25 𝜎²(𝑋) 2 = 6,25 𝜎²(𝑋) = 12,5 Gabarito 1: Errado 2. (CESPE – MS – Estatístico – 2010) http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 16 de 77 www.exponencialconcursos.com.br Considerando a tabela de valores acima, nas variáveis X e Y, julgue os itens subsequentes. Se 𝐶𝑜𝑣 (𝑋, 𝑌) é a covariância entre 𝑋 e 𝑌, 𝑉(𝑋) é a varância de 𝑋 e 𝑉(𝑌) é a variância de 𝑌, então é correto afirmar que o coeficiente de correlação linear, 𝐶𝑜𝑟𝑟(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑋,𝑌) √𝑉(𝑋)𝑉(𝑌) é inferior a 0,8. R. A correlação entre as variáveis X e Y depende de três medidas que não sabemos de antemão: V(X), V(Y) e Cov(X,Y). Então, vamos calculá-las: Média de X: �̅� = ∑𝑥 𝑛 = 1 + 2 + 3 + 4 + 5 5 = 15 5 = 3 Variância de X: 𝑉(𝑋) = ∑(𝑥 − �̅�) ² 𝑛 = (1 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2 + (5 − 3)² 5 𝑉(𝑋) = 4 + 1 + 0 + 1 + 4 5 = 2 Média de Y: �̅� = ∑𝑦 𝑛 = 2 + 3 + 2 + 3 + 4 5 = 14 5 = 2,8 Variância de Y: 𝑉(𝑌) = ∑(𝑦 − �̅�) ² 𝑛 = (2 − 2,8)2 + (3 − 2,8)2 + (2 − 2,8)2 + (3 − 2,8)2 + (4 − 2,8)² 5 𝑉(𝑌) = 0,64 + 0,04 + 0,64 + 0,04 + 1,44 5 = 0,56 Covariância de X e Y: 𝐶𝑜𝑣(𝑋, 𝑌) = ∑(𝑥 − �̅�)(𝑦 − �̅�) 𝑛 𝐶𝑜𝑣(𝑋, 𝑌) = (−2)(−0,8) + (−1)(0,2) + (0)(−0,8) + (1)(0,2) + (2)(1,2) 5 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 17 de 77 www.exponencialconcursos.com.br 𝐶𝑜𝑣(𝑋, 𝑌) = 1,6 − 0,2 + 0 + 0,2 + 2,4 5 = 0,8 Feito esses cálculos, podemos obter o valor da correlação: 𝐶𝑜𝑟𝑟(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑋, 𝑌) √𝑉(𝑋)𝑉(𝑌) = 0,8 √2.0,56 = 0,8 1,06 ≅ 0,76 Gabarito 2: Certo 3. (CESPE – MS – Estatístico – 2010) Se o coeficiente de correlação linear entre as variáveis é igual a zero, então não existe nenhuma relação entre as variáveis X e Y. R. Atenção para a pegadinha da questão! Se o coeficiente de correlação linear entre as variáveis é igual a zero, então, não existe nenhuma relação linear entre as variáveis X e Y. Coeficiente Diagrama 𝒓𝒙𝒚 = 𝟎 Correlação Linear Nula Gabarito 3: Errado 4. (CESPE – ABIN – Oficial Técnico de Inteligência – 2010) Com base nas informações da tabela acima, que mostra as temperaturas registradas em determinado horário e dia, em quatro estações meteorológicas, 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 18 de 77 www.exponencialconcursos.com.br e as altitudes em que cada uma dessas estações se encontra, julgue o seguinte item. Considerando que a relação entre graus Fahrenheit e graus Celsius é dada por F = 1,8 C + 32, é correto afirmar que a correlação linear de Pearson entre as altitudes e as temperaturas é maior quando calculada com as temperaturas em graus Fahrenheit que quando calculada em graus Celsius. R. A correlação entre duas variáveis X (altitude) e Y (temperatura em °C) é igual a: 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) O problema quer saber se existem diferenças entre o valor de 𝑟𝑥𝑦 e o valor de 𝑟𝑥𝑧, onde a variável Z é a temperatura em graus Fahrenheit: 𝑟𝑥𝑧 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑍) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑍) Vamos avaliar, inicialmente, a relação entre a Variância de Y e a Variância de Z, dado que Y = 1,8 Z + 32. Aprendemos na aula 1 deste curso, que: - A variância não é influenciada pelas operações de soma ou subtração de uma constante “a” em todos os dados de uma variável aleatória, de modo que: 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋 ± 𝑎) = 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋) - A variância é influenciada pelas operações de multiplicação e divisão de uma constante “a” em todos os dados de uma variável aleatória: 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑎 × 𝑋) = 𝑎² × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋) Desse modo, dada uma variável aleatória Y, onde sua variância é representada por 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌), temos que: 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌),= 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(1,8. 𝑍 + 32) 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌), = 1,82. 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑍 ) Já a covariância possui as seguintes propriedades: 𝐶𝑜𝑣(𝑋 + 𝑎, 𝑌 + 𝑏) = 𝐶𝑜𝑣 (𝑋, 𝑌) 𝐶𝑜𝑣(𝑎𝑋, 𝑏𝑌) = 𝑎𝑏𝐶𝑜𝑣(𝑋, 𝑌) Portanto, podemos concluir que a covariância é influenciada pela multiplicação de uma constante qualquer, e não é influenciada pela adição de uma constante qualquer. Dado que Y = 1,8 Z + 32: 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣(𝑋, 1,8 𝑍 + 32) 𝐶𝑜𝑣(𝑋, 1,8 𝑍 + 32) = 1,8. 𝐶𝑜𝑣(𝑋, 𝑍) ⇒ 𝐶𝑜𝑣(𝑋, 𝑌) = 1,8. 𝐶𝑜𝑣(𝑋, 𝑍) http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 19 de 77 www.exponencialconcursos.com.br Sendo assim, podemos avaliar como se comporta 𝑟𝑥𝑧 em função de 𝑟𝑥𝑦, dado que Y = 1,8 Z + 32: 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) = 1,8. 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋,𝑍) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 1,8². 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑍) 𝑟𝑥𝑦 = 1,8. 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑍) 1,8√𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑍) = 𝑟𝑥𝑧 ⇒ 𝑟𝑥𝑦 = 𝑟𝑥𝑧 Portanto, o valor da correlação 𝑟𝑥𝑦 é igual ao valor da correlação 𝑟𝑥𝑧. Gabarito 4: Errado 5. (CESPE – ANP – Especialista em Regulação - 2012) Se, em um modelo de regressão linear simples, a relação entre a variável resposta ( 𝑌) e a variável explicativa (𝑋) é uma reta com 30° de inclinação positiva, então a forma do modelo é 𝑌𝑖 = 𝛽0 + 𝑐𝑜𝑠30°. 𝑋𝑖 + 𝜖𝑖, em que 𝜖𝑖~𝑁(0, 𝜎 2) R. Vimos nesta aula que a expressão geral para a regressão linear simples é a seguinte: �̂� = 𝑎 + 𝑏𝑋 Se a relação entre a variável Y e avariável X é uma reta com 30° de inclinação positiva, teremos o seguinte gráfico: Para obtermos o valor de Y, bastaríamos utilizar a relação: 𝑡𝑔 30° = 𝑌 𝑋 𝑌 = 𝑡𝑔 30°. 𝑋 Como 𝑌 = 𝑎 quando 𝑋 = 0, temos a seguinte equação: �̂� = 𝑎 + 𝑡𝑔 30°. 𝑋 Gabarito 5: Errado http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 20 de 77 www.exponencialconcursos.com.br 6. (CESPE – Correios – Analista – 2011) A tabela e as estatísticas mostradas acima correspondem ao estudo realizado por um engenheiro acerca da resistência Y (em kg) à tração de 6 fios de determinado material, considerando-se os respectivos diâmetros X (em 0,1 mm). Considerando essas informações e um modelo de regressão linear simples na forma 𝑌 = 𝑎 + 𝑏𝑋 + 𝜖, em que 𝜖 representa o erro aleatório com média 0 e desvio padrão 𝜎, julgue os itens que se seguem a respeito de regressão e correlação. A soma total corrigida dos quadrados da variável Y é igual a 200. R. O examinador quer saber o valor da soma dos quadrados totais (SQT), onde: 𝑆𝑄𝑇 =∑(𝑌𝑖 − �̅�) 2 A fórmula de SQT é igual a: 𝑆𝑌𝑌 =∑𝑌𝑖² − (∑𝑌𝑖) ²/𝑛 𝑆𝑌𝑌 = 2700 − (�̅�. 𝑛)²/𝑛 𝑆𝑌𝑌 = 2700 − (20.6)²/6 𝑆𝑌𝑌 = 2700 − 2400 𝑆𝑌𝑌 = 300 Gabarito 6: Errado 7. (CESPE – Correios – Analista – 2011) A soma dos quadrados dos resíduos (variações não explicadas) é inferior a 20. R. Precisamos calcular a soma dos quadrados dos resíduos (SQR), onde: 𝑆𝑄𝑅 = 𝑆𝑄𝑇 − 𝑆𝑄𝐸 O valor de SQT já foi calculado no exercício anterior. Resta calcular SQE. Vimos que a fórmula para calcular SQE é igual a: 𝑆𝑄𝐸 = 𝑏². 𝑆𝑋𝑋 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 21 de 77 www.exponencialconcursos.com.br Onde b é igual ao coeficiente da equação de regressão linear: 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 Vamos iniciar calculando o valor de b: 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 = ∑𝑋𝑖𝑌𝑖− (∑𝑋𝑖∑𝑌𝑖)/𝑛 ∑𝑋𝑖² − (∑𝑋𝑖)²/𝑛 = 915 − (�̅�. 𝑛)(�̅�. 𝑛)/𝑛 314 − (�̅�. 𝑛)²/𝑛 𝑏 = 915 − (7.6)(20.6)/6 314 − (7.6)²/6 = 915 − 840 314 − 294 = 75 20 = 3,75 A soma dos quadrados explicados (SQE) é igual a: 𝑆𝑄𝐸 = 𝑏². 𝑆𝑋𝑋 𝑆𝑄𝐸 = 3,75². 20 𝑆𝑄𝐸 = 281,25 A soma dos quadrados residuais (SQR) é igual a: 𝑆𝑄𝑅 = 𝑆𝑄𝑇 − 𝑆𝑄𝐸 𝑆𝑄𝑅 = 300 − 281,25 𝑆𝑄𝑅 = 18,75 Gabarito 7: Certo 8. (CESPE – Correios – Analista – 2011) O coeficiente de determinação é superior a 90%. R. O coeficiente de determinação é calculado pela fórmula: 𝑅2 = 𝑆𝑄𝐸 𝑆𝑄𝑇 𝑅2 = 281,25 300 = 93,75% Gabarito 8: Certo 9. (CESPE – Correios – Analista – 2011) O módulo do coeficiente de correlação entre X e Y é a raiz quadrada do coeficiente de determinação. R. Correto, o módulo do coeficiente de correlação 𝑟𝑥𝑦 é igual à raiz quadrada do coeficiente de determinação R², de modo que: 𝑅² = (𝑟𝑥𝑦)² Gabarito 9: Certo http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 22 de 77 www.exponencialconcursos.com.br 10. (CESPE – Correios – Analista – 2011) As estimativas de mínimos quadrados ordinários para os coeficientes do modelo de regressão linear simples são �̂� = 15/4 e �̂� = −25/4 . R. A equação geral da reta de regressão linear é igual a: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 O valor de b foi calculado no exercício, anterior, de modo que: 𝑏 = 3,75 = 15 4 Agora, o valor de a: 𝑎 = �̅� − 𝑏�̅� = 20 − 15 4 × 7 = 80 − 105 4 = − 25 4 Dessa forma, a reta de regressão é representada pela seguinte equação: �̂� = − 25 4 + 15 4 𝑋 Gabarito 10: Certo 11. (CESPE – STM – Analista Judiciário – 2011) Julgue os seguintes itens, acerca do coeficiente de determinação (𝑅²) de uma análise de regressão linear feita com base em estimação por mínimos quadrados ordinários. O coeficiente de determinação 𝑅² da regressão linear simples 𝑌 = 𝑏0 + 𝑏1𝑋 + ∈ em que 𝑏0 e 𝑏1 são os coeficientes do modelo, corresponde ao quadrado da correlação estimada entre 𝑌 e 𝜖. R. O coeficiente de determinação da regressão linear R² corresponde ao quadrado da correlação estimada entre Y e X. 𝑅² = (𝑟𝑥𝑦)² Gabarito 11: Errado 12. (CESPE – STM – Analista Judiciário – 2011) Se 𝑅² = 1, todos os dados estarão alinhados sobre uma reta de inclinação positiva ou negativa. R. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 23 de 77 www.exponencialconcursos.com.br Se 𝑅² = 1, significa que o valor da correlação entre Y e X é perfeita, conforme os gráficos a seguir: Coeficiente Diagrama 𝒓𝒙𝒚 = 𝟏 Correlação Linear Positiva Perfeita 𝒓𝒙𝒚 = −𝟏 Correlação Linear Negativa Perfeita Ou seja: 𝑅2 = 1 ⇒ 𝑟𝑥𝑦 = ±1 Gabarito 12: Certo 13. (CESPE – TJ/ES – Analista Judiciário – 2011) Considere o modelo de regressão linear simples 𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖, em que 𝑖 = 1, 2,… , 𝑛; 𝑦 represente a variável resposta; 𝑥 seja a variável independente; 𝛽0 e 𝛽1 sejam constantes; e as variáveis aleatórias 𝜀1, … , 𝜀𝑛 sejam independentes e normais com média zero e variância 𝜎². Acerca desse modelo, julgue os seguintes itens. 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 24 de 77 www.exponencialconcursos.com.br A soma de quadrados total, 𝑆𝑄𝑇𝑜𝑡, é igual a 𝑆𝑄𝑅𝑒𝑠 + 𝑆𝑄𝑅𝑒𝑔, em que 𝑆𝑄𝑅𝑒𝑠 é a soma de quadrados residual e 𝑆𝑄𝑅𝑒𝑔 é a soma de quadrados da regressão; a razão 𝑆𝑄𝑅𝑒𝑠/𝑆𝑄𝑇𝑜𝑡 é denominada coeficiente de determinação. R. Vimos que o coeficiente de determinação (R²) é expresso pela fórmula: 𝑅2 = 𝑆𝑄𝐸 𝑆𝑄𝑇 Onde SQE é a soma das variações explicadas (variações devido à regressão) e SQT é a soma das variações totais. Pela simbologia do enunciado: 𝑅2 = 𝑆𝑄𝑅𝑒𝑔 𝑆𝑄𝑇𝑜𝑡 Gabarito 13: Errado 14. (CESPE – MS – Estatístico – 2010) Uma concessionária de veículos estudou o preço de determinado tipo de veículo em função da idade (anos de uso). Os resultados encontram-se na seguinte tabela. Um estatístico ajustou o modelo de regressão linear simples 𝑌 = 𝑎 + 𝑏𝑋 + 𝜀 aos dados, em que 𝜀 representa um desvio aleatório. Com base nessas informações, julgue os itens a seguir. Os parâmetros 𝑎 e 𝑏 são obtidos resolvendo-se o sistema de equações lineares a seguir em que 𝑛 representa o tamanho da amostra. R. Analisando o sistema de equações, temos que: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 25 de 77 www.exponencialconcursos.com.br 𝑎𝑛 + 𝑏∑𝑥𝑖 =∑𝑦𝑖 𝑎 + 𝑏 ∑𝑥𝑖 𝑛 = ∑𝑦𝑖 𝑛 𝑎 + 𝑏�̅� = �̅� 𝑎= �̅� − 𝑏�̅� (Coincide com a fórmula geral, ok!) 𝑎∑𝑥𝑖 + 𝑏∑𝑥𝑖² = ∑𝑥𝑖𝑦𝑖 ( ∑𝑦𝑖 𝑛 − 𝑏 ∑𝑥𝑖 𝑛 )∑𝑥𝑖 + 𝑏∑𝑥𝑖² = ∑𝑥𝑖𝑦𝑖 ∑𝑥𝑖 ∑𝑦𝑖 𝑛 − 𝑏 (∑𝑥𝑖)² 𝑛 + 𝑏∑𝑥𝑖² =∑𝑥𝑖𝑦𝑖 −𝑏 (∑𝑥𝑖)² 𝑛 + 𝑏∑𝑥𝑖² = ∑𝑥𝑖𝑦𝑖 − ∑𝑥𝑖 ∑𝑦𝑖 𝑛 𝑏 (∑𝑥𝑖² − (∑𝑥𝑖)² 𝑛 ) =∑𝑥𝑖𝑦𝑖 − ∑𝑥𝑖 ∑𝑦𝑖 𝑛 𝑏 = ∑𝑥𝑖𝑦𝑖 − ∑𝑥𝑖 ∑𝑦𝑖 𝑛 ∑𝑥𝑖² − (∑𝑥𝑖)² 𝑛 (Coincide com a fórmula geral, ok!) Gabarito 14: Certo 15. (CESPE – MS – Estatístico – 2010) As estimativas dos parâmetros �̂� e �̂� são: �̂� = 78.000 e �̂� = −10.300. R. Fórmula Geral: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖²− (∑𝑋𝑖)²/𝑛 Cálculo de b: ∑𝑋𝑖𝑌𝑖 = 0 × 80000 + 1 × 75000 + 2 × 55000 + 3 × 48000 + 4 × 42000 = 497000 (∑𝑋𝑖 ∑𝑌𝑖) 𝑛 = (0 + 1 + 2 + 3 + 4) × (80000 + 1 × 75000 + 55000 + 48000 + 42000) 5 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 26 de 77 www.exponencialconcursos.com.br (∑𝑋𝑖 ∑𝑌𝑖) 𝑛 = (10) × (300000) 5 = 600000 ∑𝑋𝑖² = 0² + 1² + 2² + 3² + 4² = 30 (∑𝑋𝑖) 2 𝑛 = (0 + 1 + 2 + 3 + 4)² 5 = 20 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖²− (∑𝑋𝑖)²/𝑛 = 497000 − 600000 30 − 20 = −10300 Média de Y: �̅� = 80000 + 75000 + 55000 + 48000 + 42000 5 = 60000 Média de X: �̅� = 0 + 1 + 2 + 3 + 4 5 = 2 Cálculo de a: 𝑎 = �̅� − 𝑏�̅� 𝑎 = 60000 − (−10300)(2) 𝑎 = 60000 + 20600 𝑎 = 80600 Gabarito 15: Errado 16. (CESPE – MS – Estatístico – 2010) O preço esperado de um veículo de 5 anos de idade é igual a R$ 30.100. R. Dado que a equação da regressão linear é igual a: �̂� = 80600 − 10300𝑋 O valor esperado de Y quando 𝑋 = 5 é igual a: �̂� = 80600 − 10300 × 5 �̂� = 80600 − 51500 �̂� = 29.100 Gabarito 16: Errado 17. (CESPE – MS – Estatístico – 2010) Comparando os preços observados da tabela com os preços esperados, o desvio absoluto entre esses valores será maior para o veículo com 2 anos de idade. R. Dado que a equação da regressão linear é igual a: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 27 de 77 www.exponencialconcursos.com.br �̂� = 80600 − 10300𝑋 Podemos construir a seguinte tabela: 𝑋 Y �̂� Desvio |�̂� − 𝑌| 0 80000 80600 600 1 75000 70300 4700 2 55000 60000 5000 3 48000 49700 1700 4 42000 39400 2600 Percebe-se que o maior desvio ocorre quando X=2, onde |�̂� − 𝑌| = 5000 Gabarito 17: Certo 18. (CESPE – MS – Estatístico – 2010) Se o desvio aleatório 𝜀 tiver distribuição 𝑁(0, 𝜎² ) com 𝜎 = 𝑅$ 2.000 , então, considerando que Φ(0,85) = 0,8023 , em que Φ denota a função de distribuição do modelo normal padronizado, a probabilidade de que um veículo com 3 anos de idade tenha valor inferior a R$ 48.000 é inferior a 20%. R. A equação geral da reta de regressão simples é dado por: 𝑌 = 80600 − 10300𝑋 + 𝜀 Se X=3 e Y=48000, temos que: 48000 = 80600 − 10300.3 + 𝜀 48000 = 80600 − 30900 + 𝜀 𝜀 = −1700 Se o desvio tiver a distribuição 𝑁(0, 𝜎² ), podemos transforma-la na variável Z padronizada: 𝑧𝑖 = 𝑥𝑖 − 𝜇 𝜎 𝑧𝑖 = −1700 − 0 2000 𝑧𝑖 = −0,85 Sendo assim, precisamos calcular a probabilidade 𝑃(𝑧 < −0,85). Como 𝛷(0,85) = 0,8023, isso significa que: 𝑃(𝑧 < 0,85) = 0,8023 1 − 𝑃(𝑧 < 0,85) = 0,1977 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 28 de 77 www.exponencialconcursos.com.br 𝑃(𝑧 > 0,85) = 0,1977 𝑃(𝑧 < −0,85) = 0,1977 Portanto, a probabilidade de que um veículo com 3 anos de idade tenha valor inferior a R$ 48.000 é igual a 19,77%. Gabarito 18: Certo 19. (CESPE – TCU – Analista de Controle Externo – 2008) Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007. A estimativa do valor do coeficiente a da reta de regressão 𝑌 = 𝑎𝑋, em que 𝑌 representa o número esperado de imóveis vendidos para uma quantidade 𝑋 de imóveis ofertados, é superior a 0,23 e inferior a 0,26. R. Vimos que a expressão geral da regressão linear simples é: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 Essa é a equação adequada para avaliar a regressão linear entre duas variáveis X e Y. Para o presente enunciado, após fazermos as contas, teríamos a seguinte equação: �̂� = −1700 + 1,2𝑋 No entanto, percebam que o examinador quer estabelecer uma outra equação, da forma �̂� = 𝑎𝑋. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 29 de 77 www.exponencialconcursos.com.br Dessa forma, a equação geral não nos serve, teremos que calculá-la a partir dos conceitos teóricos sobre o método dos mínimos quadrados. O método pressupõe que: 𝑀í𝑛𝑖𝑚𝑜𝑠 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠:∑(𝑒𝑖) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 =∑(𝑌𝑖 − �̂�) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 Ou seja: ∑(𝑒𝑖) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 =∑(𝑌𝑖 − 𝑎𝑋𝑖) 2 ⏟ 𝑀í𝑛𝑖𝑚𝑜 ∑(𝑒𝑖) 2 =∑(𝑌𝑖 − 𝑎𝑋𝑖) 2 =∑(𝑌𝑖 2 − 2𝑎𝑋𝑖𝑌𝑖 + 𝑎 2𝑋𝑖) ∑(𝑒𝑖) 2 =∑𝑌𝑖 2 − 𝑎.∑2𝑋𝑖𝑌𝑖 + 𝑎 2∑𝑋𝑖² Como os valores de 𝑋𝑖 e 𝑌𝑖 nós já conhecemos pela tabela do enunciado, nós precisamos saber o valor de a, tal que o valor de ∑(𝑒𝑖) 2 seja mínimo. Isso irá acontecer quando o valor de a for igual à média aritmética das raízes da equação de 2º grau: ∑(𝑒𝑖) 2 = 𝑎2 (∑𝑋𝑖²) − 𝑎. (∑2𝑋𝑖𝑌𝑖) +∑𝑌𝑖 2 = 0 Raízes: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 30 de 77 www.exponencialconcursos.com.br 𝑎1 = ∑2𝑋𝑖𝑌𝑖 + √∆ 2∑𝑋𝑖² 𝑎2 = ∑2𝑋𝑖𝑌𝑖 − √∆ 2∑𝑋𝑖² A média aritmética é igual a: 𝑎1 + 𝑎2 2 = ∑𝑋𝑖𝑌𝑖 ∑𝑋𝑖 ² Portanto, o valor mínimo de ∑(𝑒𝑖) 2 ocorrerá quando: 𝑎 = ∑𝑋𝑖𝑌𝑖 ∑𝑋𝑖² 𝑎 = 1500 × 100 + 1750 × 400 + 2000 × 700 1500² + 1750² + 2000² = 2250000 9312500 = 0,2416 Gabarito 19: Certo 20. (CESPE – TCU – Analista de Controle Externo – 2008) O coeficiente de correlação linear entre 𝑋 e 𝑌 é inferior a 0,8. R. O coeficiente de correlação linear é dado pela fórmula: 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) Média de X: �̅� = ∑𝑥 𝑛 = 1500 + 1750 + 2000 3 = 1750 Variância de X: 𝑉(𝑋) = ∑(𝑥 − �̅�) ² 𝑛 = (1500 − 1750)2 + (1750 − 1750)2 + (2000 − 1750)2 3 𝑉(𝑋) = 250² + 0 + 250² 3 = 2 3 . 250² Média de Y: �̅� = ∑𝑦 𝑛 = 100 + 400 + 700 3 = 400 Variância de Y: 𝑉(𝑌) = ∑(𝑦 − �̅�) ² 𝑛 = (100 − 400)2 + (400 − 400)2 + (700 − 400)2 3 𝑉(𝑌) = 3002 + 0 + 3002 3 = 2 3 . 300² Covariância de X e Y: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 31 de 77 www.exponencialconcursos.com.br 𝐶𝑜𝑣(𝑋, 𝑌) = ∑(𝑥 − �̅�)(𝑦 − �̅�) 𝑛 𝐶𝑜𝑣(𝑋, 𝑌) = (−250)(−300) + (0)(0) + (250)(300) 3 𝐶𝑜𝑣(𝑋, 𝑌) = 2 3 250.300 Feito esses cálculos, podemos obter a correlação: 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋, 𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋) × 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) 𝑟𝑥𝑦 = 2 3 250.300 √2 3 . 250². 2 3 . 300² = 2 3 250.300 2 3 250.300 = 1 Gabarito 20: Errado 21. (ESAF – MTur – Estatístico – 2014) O coeficiente de correlação linear entre as variáveis aleatórias x e y é igual a 0,99. A partir disso pode-se, corretamente, afirmar que: (A) a probabilidade de x e y serem iguais é 99%. (B) x explica y em 99% das ocorrências de y. (C) se o valor de x diminuir, em média, o valor de y aumenta. (D) se o valor de y diminuir, em média, o valor de x diminui.(E) a covariância entre x e y é exatamente igual a 0,01. R. Um coeficiente de correlação linear positiva (0 < 𝑟𝑥𝑦 < 1) indica que as variáveis aleatórias x e y possuem a seguinte distribuição gráfica: Ou seja, à medida que o valor de y diminui, o valor de x também diminui. 0 5 10 15 20 25 0 2 4 6 8 10 12 Y X http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 32 de 77 www.exponencialconcursos.com.br Gabarito 21: D 22. (ESAF – MTur – Estatístico – 2014) Em um modelo de regressão linear simples da forma 𝑌 = 𝛼 + 𝛽 𝑋 + 𝜇 , foram calculadas, pelo método de mínimos quadrados ordinários, as estimativas dos parâmetros obtendo-se �̂� = 𝑎 + 𝑏 𝑋 , cujo coeficiente de determinação é igual a 0,95. Isso significa que: (A) 95% das variações em torno da média da variável explicada são devidas às variações da variável explicativa (B) se x tiver um acréscimo de b unidades, em média y, terá um acréscimo de 0,95 b unidades. (C) se x tiver um acréscimo de 1 unidade, em média, y terá um acréscimo de (a + b) unidades. (D) 95% das variações da variável x causam 95% das variações em b. (E) o coeficiente de correlação entre x e y é igual ao coeficiente de determinação. R. Vimos nesta aula que o coeficiente de determinação indica o percentual da variabilidade de Y (variável explicada) que é explicada pela relação linear entre X e Y. Ou seja, indica o percentual da variabilidade de Y que é explicada pela variação de X (variável explicativa). Gabarito 22: A 23. (ESAF – MTur – Estatístico – 2014) Para se estimar a tendência das importações de determinada matéria-prima realizadas por uma grande empresa, foram coletados, em 2010, os seguintes dados de importações durante os meses 1, 2, 3 e 4. Nesses meses, as importações realizadas por essa empresa, em milhares de dólares, foram iguais a 2, 5, 4 e 3, respectivamente. Sabendo-se que a reta de tendência linear 𝐼𝑚𝑝(𝑡) = 𝑎 + 𝑏𝑡 + 𝑢 foi estimada pelo método de mínimos quadrados ordinários, então a função tendência das importações é dada por: (A) Imp = 3 + 0,4 t (B) Imp = 3 + 0,3 t (C) Imp = 2 + 0,2 t (D) Imp = 2 + 0,3 t (E) Imp = 3 + 0,2 t R. Segundo as informações do enunciado: t (Xi) Imp (Yi) 𝑋𝑖² 𝑌𝑖² 𝑋𝑖𝑌𝑖 1 2 1 4 2 2 5 4 25 10 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 33 de 77 www.exponencialconcursos.com.br 3 4 9 16 12 4 3 16 9 12 ∑𝑋𝑖 = 10 ∑𝑌𝑖 = 14 ∑𝑋𝑖² = 30 ∑𝑌𝑖² = 54 ∑𝑋𝑖𝑌𝑖 = 36 A equação de regressão linear possui a seguinte fórmula: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 → 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖² − (∑𝑋𝑖)²/𝑛 Sendo assim, vamos calcular cada um dos coeficientes a e b, iniciando por este: 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖² − (∑𝑋𝑖)²/𝑛 = 36 − (10 × 14)/4 30 − 10²/4 𝑏 = 36 − 35 30 − 25 = 1 5 = 0,2 Sabendo o valor de b, pode calcular a: 𝑎 = �̅� − 𝑏�̅� = 14 4 − 1 5 × 10 4 = 14 − 2 4 = 3 Portanto: �̂� = 3 + 0,2𝑋 Gabarito 23: E 24. (ESAF – MI – Estatístico – 2012) Determine a expressão de E(Y/X=x), sendo Y e X variáveis aleatórias com distribuição normal conjunta com E(Y)=µY, E(X)=μX e Cov(Y,X)=ρσYσX, onde σY e σX são os desvios padrões de Y e X, respectivamente, e ρ o coeficiente de correlação entre Y e X. (A) µ𝑌 + 𝜌𝜎𝑌(𝑥 − 𝜇𝑋)/𝜎𝑋 (B) µ𝑌 + 𝜌𝜎𝑋(𝑥 − 𝜇𝑋)/𝜎𝑌 (C) µ𝑌 + 𝜌𝜎𝑌(𝑦 − 𝜇𝑌)/𝜎𝑋 (D) µ𝑋 + 𝜌𝜎𝑋(𝑦 − 𝜇𝑌)/𝜎𝑌 (E) µ𝑋 + 𝜌𝜎𝑌(𝑦 − 𝜇𝑌)/𝜎𝑋 R. A reta de regressão é dada pela expressão: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 34 de 77 www.exponencialconcursos.com.br 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 → 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖² − (∑𝑋𝑖)²/𝑛 Desenvolvendo a equação, temos que: �̂� = (�̅� − 𝑏�̅�) + 𝑏𝑋 �̂� = �̅� + 𝑏(𝑋 − �̅�) �̂� = �̅� + 𝐶𝑜𝑣(𝑋, 𝑌) 𝑆²(𝑋) (𝑋 − �̅�) Mas, sabemos que: 𝜌 = 𝐶𝑜𝑣(𝑋, 𝑌) √𝑆²(𝑋) × 𝑆²(𝑌) 𝐶𝑜𝑣(𝑋, 𝑌) = 𝜌 × 𝑆(𝑋) × 𝑆(𝑌) Portanto: �̂� = �̅� + [𝜌 × 𝑆(𝑋) × 𝑆(𝑌)] 𝑆²(𝑋) (𝑋 − �̅�) �̂� = �̅� + 𝜌 × 𝑆(𝑌) 𝑆(𝑋) × (𝑋 − �̅�) O valor esperado dessa equação é, portanto: 𝐸(𝑌) = µ𝑌 + 𝜌 × 𝜎𝑌 𝜎𝑋 × (𝑋 − 𝜇𝑋) Gabarito 24: A 25. (ESAF – MI – Estatístico – 2012) Determine a reta de regressão de Y em X, considerando que uma amostra aleatória simples (X1, Y1), (X2, Y2),..., (X22, Y22) forneceu as seguintes estatísticas: médias amostrais �̅� = 4,8 e �̅� = 15,3, variâncias amostrais 𝑆𝑋 2 = 8 e 𝑆𝑌 2 = 40 e covariância amostral 𝑆𝑋𝑌 = 12. (A) �̂�𝑖 = 8,1 + 0,3𝑋𝑖 (B) �̂�𝑖 = 8,1 + 1,5𝑋𝑖 (C) �̂�𝑖 = 15,3 + 1,5𝑋𝑖 (D) �̂�𝑖 = 15,3 + 0,3𝑋𝑖 (E) �̂�𝑖 = 15,3 + 2,25𝑋𝑖 R. A equação de regressão linear possui a seguinte fórmula: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 35 de 77 www.exponencialconcursos.com.br 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 → 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖² − (∑𝑋𝑖)²/𝑛 Sendo assim, vamos calcular cada um dos coeficientes a e b, iniciando por este: 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 = 𝑐𝑜𝑣(𝑋, 𝑌) 𝑆²(𝑋) = 12 8 = 1,5 Sabendo o valor de b, pode calcular a: 𝑎 = �̅� − 𝑏�̅� = 15,3 − 1,5 × 4,8 = 15,3 − 7,2 = 8,1 Portanto: �̂� = 8,1 + 1,5𝑋 Gabarito 25: B 26. (ESAF – MI – Estatístico – 2012 - ADAPTADA) Calcule o coeficiente de determinação R² da reta de regressão ajustada na questão anterior. (A) 0,45 (B) 0,56 (C) 0,64 (D) 0,72 (E) 0,75 R. O coeficiente de determinação R² pode ser calculado por: 𝑅² = 𝑏². 𝑆𝑋𝑋 𝑆𝑌𝑌 = 𝑏². [ 𝑆2(𝑋) × (𝑛 − 1) 𝑆²(𝑌) × (𝑛 − 1) ] = 𝑏². [ 𝑆2(𝑋) 𝑆²(𝑌) ] 𝑅² = 1,5². [ 8 40 ] 𝑅² = 0,45 Gabarito 26: A 27. (ESAF – SUSEP – Analista Técnico – 2010) Y e X são variáveis aleatórias com distribuição normal conjunta E(Y)= µY, E(X)= μX, e Cov(Y,X)=ρσYσX, onde σY e σX são os desvios padrões de Y e X, respectivamente, e ρ o coeficiente de correlação entre Y e X. Qual a expressão da regressão de X em Y, E(X/Y=y)? (A) µ𝑌 + 𝜌𝜎𝑌(𝑥 − 𝜇𝑋)/𝜎𝑋 (B) µ𝑌 + 𝜌𝜎𝑋(𝑥 − 𝜇𝑋)/𝜎𝑌 (C) µ𝑌 + 𝜌𝜎𝑌(𝑦 − 𝜇𝑌)/𝜎𝑋 (D) µ𝑋 + 𝜌𝜎𝑋(𝑦 − 𝜇𝑌)/𝜎𝑌 (E) µ𝑋 + 𝜌𝜎𝑌(𝑦 − 𝜇𝑌)/𝜎𝑋 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 36 de 77 www.exponencialconcursos.com.br R. Inicialmente, vale ressaltar a semelhança desta questão com a de número 4. A solução é semelhante, só que trocando a variável X por Y e vice-versa: �̂� = 𝑎 + 𝑏𝑌 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑌𝑌 Desenvolvendo a equação, temos que: �̂� = (�̅� − 𝑏�̅�) + 𝑏𝑌 �̂� = �̅� + 𝑏(𝑌 − �̅�) �̂� = �̅� + 𝐶𝑜𝑣(𝑋, 𝑌) 𝑆²(𝑌) (𝑌 − �̅�) Mas, sabemos que: 𝜌 = 𝐶𝑜𝑣(𝑋, 𝑌) √𝑆²(𝑋) × 𝑆²(𝑌) 𝐶𝑜𝑣(𝑋, 𝑌) = 𝜌 × 𝑆(𝑋) × 𝑆(𝑌) Portanto: �̂� = �̅� + [𝜌 × 𝑆(𝑋) × 𝑆(𝑌)] 𝑆²(𝑌) (𝑌 − �̅�) �̂� = �̅� + 𝜌 × 𝑆(𝑋) 𝑆(𝑌) × (𝑌 − �̅�) O valor esperado dessa equação é, portanto: 𝐸(𝑋) = µ𝑋 + 𝜌 × 𝜎𝑋 𝜎𝑌 × (𝑌 − 𝜇𝑌) Gabarito 27: D 28. (ESAF – SUSEP – Analista Técnico – 2010) A partir de uma amostra aleatória (X1, Y1), (X2, Y2),..., (X22, Y22) foram obtidas as estatísticas: Médias �̅� = 12,5 e �̅� = 19, variâncias amostrais 𝑆𝑋 2 = 30 e 𝑆𝑌 2 = 54 e covariância 𝑆𝑋𝑌 = 36. Qual a reta de regressão estimada de Y em X? (A) �̂�𝑖 = 19 + 0,667𝑋𝑖 (B) �̂�𝑖 = 12,5 + 1,2𝑋𝑖 (C) �̂�𝑖 = 4 + 1,2𝑋𝑖 (D) �̂�𝑖 = 19 + 1,2𝑋𝑖 http://www.exponencialconcursos.com.br/Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 37 de 77 www.exponencialconcursos.com.br (E) �̂�𝑖 = 80 + 22,8𝑋𝑖 R. Inicialmente, percebam a semelhança desta questão com a de número 5. A equação de regressão linear possui a seguinte fórmula: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 → 𝑏 = ∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖)/𝑛 ∑𝑋𝑖² − (∑𝑋𝑖)²/𝑛 Sendo assim, vamos calcular cada um dos coeficientes a e b, iniciando por este: 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 = 36 30 = 1,2 Sabendo o valor de b, pode calcular a: 𝑎 = �̅� − 𝑏�̅� = 19 − 1,2 × 12,5 = 19 − 15 = 4 Portanto: �̂� = 4 + 1,2𝑋 Gabarito 28: C 29. (ESAF – RFB – Auditor Fiscal da Receita Federal – TI – 2005) Para uma amostra de dez casais residentes em um mesmo bairro, registraram-se os seguintes salários mensais (em salários mínimos): Sabe-se que: Assinale a opção cujo valor corresponda à correlação entre os salários dos homens e os salários das mulheres. (A) 0,72 (B) 0,75 (C) 0,68 (D) 0,81 (E) 0,78 R. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 38 de 77 www.exponencialconcursos.com.br A correlação de Pearson pode ser obtida pela fórmula: 𝑟𝑥𝑦 = 𝑆𝑋𝑌 √𝑆𝑋𝑋𝑆𝑌𝑌 Onde: 𝑆𝑋𝑌 =∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖)(∑𝑌𝑖) 𝑛 = 3940 − 171 × 221 10 = 160,9 𝑆𝑋𝑋 =∑𝑋𝑖² − (∑𝑋𝑖) 2 𝑛 = 3171 − 1712 10 = 246,9 𝑆𝑌𝑌 =∑𝑌𝑖² − (∑𝑌𝑖) 2 𝑛 = 5069 − 2212 10 = 184,9 Portanto: 𝑟𝑥𝑦 = 𝑆𝑋𝑌 √𝑆𝑋𝑋𝑆𝑌𝑌 = 160,9 √246,9 × 184,9 ≅ 0,75 Gabarito 29: B 30. (ESAF – RFB – Auditor Fiscal da Receita Federal – 2014) Em um cofre estão guardados 5 anéis: dois de ouro e três de prata. Aleatoriamente, retiram-se dois anéis do cofre, um após o outro e sem reposição. Define-se a variável aleatória X igual a 1 se o primeiro anel retirado é de prata, e igual a 0 se este é de ouro. De modo análogo, define-se a variável aleatória Y igual a 1 se o segundo anel é de prata, e 0 se este é de ouro. Desse modo, a covariância de X e Y ─ Cov(X,Y) ─ é igual a: (A) 0 (B) 1 (C) -1 (D) 3/50 (E) -3/50 R. Temos que analisar, inicialmente, as possibilidades de retirada dos anéis: (ouro, ouro); (ouro, prata); (prata, ouro); (prata, prata). As variáveis aleatórias dessas quatro possibilidades são iguais a: Retirada X Y (ouro, ouro) 0 0 (ouro, prata) 0 1 (prata, ouro) 1 0 (prata, prata) 1 1 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 39 de 77 www.exponencialconcursos.com.br Devemos atribuir ainda, a quantidade de chances de ocorrer cada uma dessas retiradas: Para (ouro, ouro), tem-se 2 (2x1) chances de ocorrer; Para (ouro, prata), tem-se 6 (2x3) chances de ocorrer; Para (prata, ouro), tem-se 6 (3x2) chances de ocorrer; Para (prata, prata), tem-se 6 (3x2) chances de ocorrer. Feito isso, as variáveis aleatórias X e Y são: X 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 Y 0 0 1 1 1 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 (ouro, ouro) (ouro, prata) (prata, ouro) (prata, prata) Onde: ∑𝑋𝑖 = 12 ∑𝑌𝑖 = 12 ∑𝑋𝑖𝑌𝑖 = 6 A covariância populacional pode ser calculada por: 𝑆𝑋𝑌 = 1 𝑛 [∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖)(∑𝑌𝑖) 𝑛 ] = 1 20 [6 − 12 × 12 20 ] = 1 20 [6 − 144 20 ] = 1 20 [−1,2] = −3/50 Gabarito 30: E 31. (ESAF – SMF-RJ – Fiscal de Rendas – 2010) A partir de uma amostra aleatória simples formada por 22 observações das variáveis X e Y calculou-se ∑𝑋𝑖 = 440 22 𝑖=1 ∑𝑌𝑖 = 286 22 𝑖=1 ∑(𝑋𝑖 − �̅�)² = 850 22 𝑖=1 ∑(𝑌𝑖 − �̅�)² = 1.690 22 𝑖=1 e ∑(𝑋𝑖 − �̅�)(𝑌𝑖 − �̅�) = 1.105 22 𝑖=1 Obtenha a reta de regressão linear de Y em X. (A) �̂�𝑖 = 13 + 0,65𝑋𝑖 (B) �̂�𝑖 = 13 + 1,3𝑋𝑖 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 40 de 77 www.exponencialconcursos.com.br (C) �̂�𝑖 = 20 + 0,65𝑋𝑖 (D) �̂�𝑖 = 20 + 2𝑋𝑖 (E) �̂�𝑖 = −13 + 1,3𝑋𝑖 R. A equação de regressão linear possui a seguinte fórmula: �̂� = 𝑎 + 𝑏𝑋 Onde: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 Sendo assim, vamos calcular cada um dos coeficientes a e b, iniciando por este: 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 = 1105 850 = 1,3 Sabendo o valor de b, pode calcular a: 𝑎 = �̅� − 𝑏�̅� = 286 22 − 1,3 × 440 22 = 13 − 26 = −13 Portanto: �̂� = −13 + 1,3𝑋 Gabarito 31: E 32. (ESAF – SMF-RJ – Fiscal de Rendas – 2010) Com os dados da questão anterior, calcule o valor mais próximo do coeficiente de determinação R² da regressão linear de X em Y. (A) 0,65 (B) 0,81 (C) 0,85 (D) 0,91 (E) 0,88 R. O coeficiente de determinação R² pode ser calculado por: 𝑅² = 𝑏². 𝑆𝑋𝑋 𝑆𝑌𝑌 = 𝑏². [ 𝑆2(𝑋) × (𝑛 − 1) 𝑆2(𝑌) × (𝑛 − 1) ] = 𝑏². [ 𝑆2(𝑋) 𝑆2(𝑌) ] 𝑅² = 1,3². [ 850 1690 ] 𝑅² = 0,85 Gabarito 32: C http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 41 de 77 www.exponencialconcursos.com.br 33. (FCC-DPE/RS-2013) As variáveis aleatórias X e Y representam, respectivamente, os anos de experiência e os salários, em reais, dos empregados em um determinado ramo de atividade. Sejam os pares (𝑥1, 𝑦1), (𝑥2, 𝑦2), . . . , (𝑥𝑛, 𝑦𝑛), em que 𝑥𝑖 e 𝑦𝑖 (1 ≤ 𝑖 ≤ 𝑛) são os valores de X e Y, respectivamente. Para prever 𝑦𝑖 em função de 𝑥𝑖 , optou-se por utilizar uma forma de relação linear entre X e Y tal que 𝑦𝑖 = 2.000 + 45𝑥𝑖 , obtida pelo método dos mínimos quadrados, verificando-se que nem todos os pontos pertencem a uma mesma reta. Se o coeficiente de correlação linear entre X e Y for igual a r (r ≠ zero), então: (A) r = 1. (B) multiplicando por 0,5 todos os valores xi e por 0,8 todos os valores yi, verifica-se que o novo coeficiente de correlação linear dos dois novos conjuntos é igual a 0,4r. (C) é possível que r seja negativo. (D) r = 0,45. (E) o valor de r é positivo. R. A reta de regressão linear 𝑦𝑖 = 2.000 + 45𝑥𝑖 possui o seguinte gráfico no plano cartesiano: Portanto, considerando valores crescentes para 𝑥𝑖 e 𝑦𝑖 , o coeficiente de correlação linear r é positivo. Além disso, devemos considerar a informação do enunciado, de que nem todos os pontos pertencem a uma mesma reta, portanto, 𝑟 ≠ 1. Gabarito 33: E 34. (FCC-BACEN-2006) Considere as informações a seguir para resolver a questão. Uma empresa, com a finalidade de determinar a relação entre os gastos anuais em pesquisa e desenvolvimento, em milhares de reais, e o acréscimo anual nas vendas (Y), também em milhares de reais, optou por utilizar o modelo linear simples 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖 , em que 𝑌𝑖 é acréscimo nas http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 42 de 77 www.exponencialconcursos.com.br vendas no ano i, 𝑋𝑖 é o valor gasto em pesquisa e desenvolvimento ano i e 𝜀𝑖 o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples ( e β são parâmetros desconhecidos). Considerou, para o estudo, as seguintes informações referentes às observações nos últimos 10 anos da empresa: ∑𝑌𝑖 = 160 10 𝑖=1 ∑𝑋𝑖 = 100 10 𝑖=1 ∑𝑋𝑖𝑌𝑖 = 1.900 10 𝑖=1 ∑𝑋𝑖² = 1.200 10 𝑖=1 ∑𝑌𝑖² = 3.060 10 𝑖=1 Utilizando a equação da reta obtida pelo método dos mínimos quadrados, obteve-se, para um determinado gasto em pesquisa e desenvolvimento, uma previsão de acréscimo nas vendas no valor de 19 mil reais. O valor que se considerou para o gasto em pesquisa e desenvolvimento, em mil reais, foi: (A) 14,0 (B) 13,75 (C) 13,0 (D)12,4 (E)12,0R. O primeiro passo desse exercício é calcularmos a equação da reta que representa o modelo linear �̂� = 𝑎 + 𝑏𝑋 . As fórmulas para o cálculo dos coeficientes a e b são as seguintes: 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 Iniciando por 𝑏: 𝑆𝑋𝑌 =∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖) 𝑛 = 1900 − (100 × 160) 10 = 300 𝑆𝑋𝑋 =∑𝑋𝑖² − (∑𝑋𝑖) 2 𝑛 = 1200 − (100)2 10 = 200 ⇒ 𝑏 = 300 200 = 1,5 Depois, o coeficiente 𝑎: 𝑎 = �̅� − 𝑏�̅� = ( ∑𝑌𝑖 𝑛 ) − 1,5 × ( ∑𝑋𝑖 𝑛 ) = 160 10 − 1,5 × 100 10 = 1 Portanto, a equação de regressão linear é representada por: �̂� = 𝑎 + 𝑏𝑋 �̂� = 1 + 1,5𝑋 Assim, caso haja uma previsão de acréscimo nas vendas no valor de 19 mil reais (�̂�=19): 19 = 1 + 1,5 × 𝑋 𝑋 = 12 Portanto, o gasto em pesquisa e desenvolvimento (X) foi igual a R$ 12 mil. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 43 de 77 www.exponencialconcursos.com.br Gabarito 34: E 35. (FCC-BACEN-2006-ADAPTADA) Considere as informações a seguir para resolver a questão. Uma empresa, com a finalidade de determinar a relação entre os gastos anuais em pesquisa e desenvolvimento, em milhares de reais, e o acréscimo anual nas vendas (Y), também em milhares de reais, optou por utilizar o modelo linear simples 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖 , em que 𝑌𝑖 é acréscimo nas vendas no ano i, 𝑋𝑖 é o valor gasto em pesquisa e desenvolvimento ano i e 𝜀𝑖 o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples ( e β são parâmetros desconhecidos). Considerou, para o estudo, as seguintes informações referentes às observações nos últimos 10 anos da empresa: ∑𝑌𝑖 = 160 10 𝑖=1 ∑𝑋𝑖 = 100 10 𝑖=1 ∑𝑋𝑖𝑌𝑖 = 1.900 10 𝑖=1 ∑𝑋𝑖² = 1.200 10 𝑖=1 ∑𝑌𝑖² = 3.060 10 𝑖=1 Montando o quadro de análise de variância, tem-se que (A) a variação residual apresenta um valor igual a 100. (B) o valor do correspondente coeficiente de determinação (R²) é igual a 90%. (C) a variação total apresenta um valor igual a 550. (D) a variação explicada, fonte de variação devido à regressão apresenta um valor igual a 500. R. Alternativa A A variação residual representa a variação não explicada SQR: 𝑆𝑄𝑅 = 𝑆𝑄𝑇 − 𝑆𝑄𝐸 𝑆𝑄𝑅 = 𝑆𝑌𝑌 − 𝑏²𝑆𝑋𝑋 𝑆𝑌𝑌 =∑𝑌𝑖 2 − (∑𝑌𝑖) ²/𝑛 𝑆𝑌𝑌 = 3060 − (160)²/10 𝑆𝑌𝑌 = 500 𝑆𝑋𝑋 =∑𝑋𝑖 2 − (∑𝑋𝑖) 2 𝑛 𝑆𝑋𝑋 = 1200 − (100)2 10 𝑆𝑋𝑋 = 200 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 44 de 77 www.exponencialconcursos.com.br ⇒ 𝑆𝑄𝑅 = 500 − 1,5²[200] = 50 Assertiva incorreta. Alternativa B O Coeficiente de determinação é calculado pela fórmula: 𝑅² = 𝑏² 𝑆𝑋𝑋 𝑆𝑌𝑌 = 1,5²(200) 500 𝑅² = 0,9 Assertiva correta Alternativa C 𝑆𝑄𝑇 = 𝑆𝑌𝑌 𝑆𝑄𝑇 = 500 Assertiva incorreta Alternativa D 𝑆𝑄𝐸 = 𝑏² 𝑆𝑋𝑋 𝑆𝑄𝐸 = 1,5² × 200 𝑆𝑄𝐸 = 450 Apenas para conferir: 𝑆𝑄𝐸 = 𝑆𝑄𝑇 − 𝑆𝑄𝑅 𝑆𝑄𝐸 = 500 − 50 = 450 (𝑜𝑘!) Assertiva incorreta Gabarito 35: B 36. (FCC-ARCE/CE-2006) Um comerciante deseja saber a relação entre o aumento da receita de vendas (Y) de seu produto, em milhares de reais, e seu gasto com propaganda (X), também em milhares de reais. Primeiramente, optou por analisar o modelo linear simples 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖, em que 𝑌𝑖 representa o aumento da receita de vendas no mês i, 𝑋𝑖 o gasto com propaganda no mês i e 𝜀𝑖 o erro aleatório com as hipóteses consideradas para a Regressão Linear Simples ( e β são parâmetros desconhecidos). Com base nas informações dos últimos 10 meses e utilizando o método dos mínimos quadrados obteve a equação da reta correspondente e o respectivo coeficiente de explicação (R²). Dados: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 45 de 77 www.exponencialconcursos.com.br ∑𝑌𝑖 = 100 10 𝑖=1 ∑𝑋𝑖 = 20 10 𝑖=1 ∑𝑋𝑖𝑌𝑖 = 220 10 𝑖=1 ∑𝑋𝑖² = 120 10 𝑖=1 ∑𝑌𝑖² = 1.008 10 𝑖=1 Para o cálculo de R (coeficiente de correlação de Pearson) usou-se a fórmula: 𝑅 = 𝐶𝑜𝑣 (𝑋,𝑌) 𝐷𝑃 (𝑋).𝐷𝑃(𝑌) , em que (A) Yi = 9 + 0,5Xi e 62,5% (B) Yi = 9,5 + 0,25Xi e 62,5% (C) Yi = 9,6 + 0,2Xi e 80% (D) Yi = 9 + 0,5Xi e 80% (E) Yi = 9,5 + 0,25Xi e 80% R. Dada uma reta de equação �̂� = 𝑎 + 𝑏𝑋 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 Iniciando por 𝑏: 𝑆𝑋𝑌 =∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖) 𝑛 𝑆𝑋𝑌 = 220 − (20 × 100) 10 𝑆𝑋𝑌 = 20 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 46 de 77 www.exponencialconcursos.com.br 𝑆𝑋𝑋 =∑𝑋𝑖² − (∑𝑋𝑖) 2 𝑛 𝑆𝑋𝑋 = 120 − (20)2 10 𝑆𝑋𝑋 = 80 ⇒ 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 = 20 80 = 0,25 Depois, 𝑎: 𝑎 = �̅� − 𝑏�̅� = ( ∑𝑌𝑖 𝑛 ) − 0,25 × ( ∑𝑋𝑖 𝑛 ) = 100 10 − 0,25 × 20 10 = 9,5 Portanto, a equação de regressão linear é representada por: �̂� = 𝑎 + 𝑏𝑋 �̂� = 9,5 + 0,25𝑋 Agora, o cálculo de R², que é determinado pela fórmula: 𝑅² = 𝑏² 𝑆𝑋𝑋 𝑆𝑌𝑌 = 0,25² × 80 ∑𝑌𝑖² − (∑𝑌𝑖)²/𝑛 𝑅² = 5 1008 − (100)²/10 = 5 8 𝑅² = 62,5% Gabarito 36: B 37. (FGV-SEFAZ/RJ-2011) A tabela abaixo mostra os valores de duas variáveis, X e Y. X Y 4 4,5 4 5 3 5 2 5,5 Sabe-se que: ΣX = 13 ΣY = 20 ΣXY = 64 ΣX² = 45 (ΣX)²= 169 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 47 de 77 www.exponencialconcursos.com.br O valor de b na regressão simples Y = a + bX é (A) 11 /5. (B) –3 /8. (C) –4 /11. (D) –4 /17. (E) –11/65. R. Dada uma reta de equação �̂� = 𝑎 + 𝑏𝑋 𝑎 = �̅� − 𝑏�̅� 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 Iniciando por 𝑏: 𝑆𝑋𝑌 =∑𝑋𝑖𝑌𝑖 − (∑𝑋𝑖 ∑𝑌𝑖) 𝑛 𝑆𝑋𝑌 = 64 − (13 × 20) 4 𝑆𝑋𝑌 = −1 𝑆𝑋𝑋 =∑𝑋𝑖 2 − (∑𝑋𝑖) 2 𝑛 𝑆𝑋𝑋 = 45 − (13)2 4 𝑆𝑋𝑋 = 2,75 = 11 4 ⇒ 𝑏 = 𝑆𝑋𝑌 𝑆𝑋𝑋 = −1 11/4 = − 4 11 Gabarito 37: C 38. (FGV-SEFAZ/RJ-2010) Duas variáveis aleatórias x e y têm coeficiente de correlação linear igual a 0,8. Se w e z são tais que w = 2x – 3 e z = 4 – 2y então o coeficiente de correlação entre w e z será igual a: (A) –0,8. (B) –0,64. (C) 0,36. (D) 0,64. (E) 0,8. R. Dados: ✓ 𝑟𝑋𝑌 = 0,8 ✓ 𝑤 = 2𝑥 – 3 ✓ 𝑧 = 4 – 2𝑦 O coeficiente de correlação entre w e z será igual a: http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 48 de 77 www.exponencialconcursos.com.br 𝑟𝑊𝑍 = 𝑆𝑊𝑍 √𝑆𝑊𝑊. 𝑆𝑍𝑍 𝑟𝑊𝑍 = ∑(𝑊𝑖 − �̅�)(𝑍𝑖 − �̅�) √∑(𝑊𝑖 − �̅�)²∑(𝑍𝑖 − �̅�)² = 𝐶𝑜𝑣 (𝑊𝑍) √𝑆²(𝑊) × 𝑆²(𝑍) Se vocês estiverem lembrados da nossa aula 1, vimos as seguintes propriedades do desvio padrão e da variância: 𝜎(𝑋 ± 𝑎) = 𝜎(𝑋) e 𝜎(𝑎 × 𝑋) = 𝑎 × 𝜎(𝑋) 𝜎²(𝑋 ± 𝑎) = 𝜎²(𝑋) e 𝜎²(𝑎 × 𝑋) = 𝑎² × 𝜎²(𝑋) Sendo assim, dado que 𝑤 = 2𝑥 − 3: 𝜎(𝑊) = 2𝜎(𝑋) 𝜎²(𝑊) = 4𝜎²(𝑋) Dado que 𝑧 = 4 − 2𝑦: 𝜎(𝑍) = −2𝜎(𝑌) 𝜎²(𝑍) = 4𝜎²(𝑌) Utilizando essas relações: 𝑟𝑊𝑍 = ∑2(𝑋𝑖 − �̅�) × (−2)(𝑌𝑖 − �̅�) √4∑(𝑋𝑖 − �̅�)² 4∑(𝑌𝑖 − �̅�)² 𝑟𝑊𝑍 = −4 × ∑(𝑋𝑖 − �̅�) × (𝑌𝑖 − �̅�) 4√∑(𝑋𝑖 − �̅�)²∑(𝑌𝑖 − �̅�)² 𝑟𝑊𝑍 = −4 4 × 𝑟𝑋𝑌 𝑟𝑊𝑍 = −𝑟𝑋𝑌 𝑟𝑊𝑍 = −0,8 Gabarito 38: A 39. (FGV-SEFAZ/RJ-2009) Utilizando uma análise de regressão linear simples, um pesquisador obteve um ajuste 𝑌 = 𝑎1𝑋 + 𝑏1 e um coeficiente de determinação 𝑅1 2. Um segundo pesquisador analisou os mesmos dados, mas antes aplicou a cada observação de Y a transformação 𝑌‘ = 10𝑌 + 100, obtendo um outro ajuste 𝑌′ =𝑎2𝑋 + 𝑏2 , com um coeficiente de determinação 𝑅2 2 . Considere as afirmativas abaixo, relativas à comparação entre os valores obtidos nas duas análises: I. 𝑎2 = 10 𝑎1; II. 𝑏2 = 𝑏1 + 100; III. 𝑅2 2 = 𝑅1 2. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 49 de 77 www.exponencialconcursos.com.br Assinale: (A) se somente a afirmativa I for verdadeira. (B) se somente as afirmativas I e II forem verdadeiras. (C) se somente as afirmativas I e III forem verdadeiras. (D) se somente as afirmativas II e III forem verdadeiras. (E) se todas as afirmativas forem verdadeiras. R. Antes de mais nada, percebam que o examinador da FGV trocou os coeficientes, nomeando a equação �̂� = 𝑎𝑋 + 𝑏 e não �̂� = 𝑎 + 𝑏𝑋 como é comum nas demais provas. Assertiva I Considerando a equação da reta 𝑌′ = 𝑎2𝑋 + 𝑏2 e 𝑌 = 𝑎1𝑋 + 𝑏1: 𝑎2 = ∑(𝑌′𝑖 − 𝑌′̅)(𝑋𝑖 − �̅�) ∑(𝑋𝑖 − �̅�)² 𝑒 𝑎1 = ∑(𝑌𝑖 − �̅�)(𝑋𝑖 − �̅�) ∑(𝑋𝑖 − �̅�)² Dado que 𝑌‘ = 10𝑌 + 10, pelas propriedades do desvio padrão: 𝑎2 = ∑10(𝑌𝑖 − �̅�)(𝑋𝑖 − �̅�) ∑(𝑋𝑖 − �̅�)² 𝑎2 = 10∑(𝑌𝑖 − �̅�)(𝑋𝑖 − �̅�) ∑(𝑋𝑖 − �̅�)² 𝑎2 = 10𝑎1 Assertiva Correta Assertiva II Considerando a equação da reta 𝑌′ = 𝑎2𝑋 + 𝑏2 e 𝑌 = 𝑎1𝑋 + 𝑏1: 𝑏2 = 𝑌′̅ − 𝑎2�̅� 𝑒 𝑏1 = �̅� − 𝑎1�̅� 𝑏2 = 𝑌′̅ − 𝑎2�̅� 𝑏2 = (10�̅� + 100) − 10𝑎1�̅� 𝑏2 = 10(�̅� − 𝑎1�̅�) + 100 𝑏2 = 10𝑏1 + 100 Assertiva Incorreta http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 50 de 77 www.exponencialconcursos.com.br Assertiva III 𝑅2 2 = 𝑎2 2 𝑆𝑋𝑋 𝑆𝑌′𝑌′ 𝑒 𝑅1 2 = 𝑎1 2 𝑆𝑋𝑋 𝑆𝑌𝑌 𝑆𝑌′𝑌′ =∑(𝑌 ′ 𝑖 − 𝑌′̅) 2 𝑆𝑌′𝑌′ = 100∑(𝑌𝑖 − �̅�)² 𝑆𝑌′𝑌′ = 100𝑆𝑌𝑌 Portanto, 𝑅2 2 = 𝑎2 2 𝑆𝑋𝑋 𝑆𝑌′𝑌′ = (10𝑎1)² 𝑆𝑋𝑋 100𝑆𝑌𝑌 = 𝑎1 2 𝑆𝑋𝑋 𝑆𝑌𝑌 ⇒ 𝑅2 2 = 𝑅1 2 Assertiva Correta Gabarito 39: C 40. (FGV-SEFAZ/RJ-2008) Sejam X, Y e Z três variáveis com correlações de Pearson expressas pela matriz abaixo: Pode-se, então, afirmar que: (A) X e Z são independentes. (B) a correlação parcial entre X e Y, após a correção para Z, é negativa. (C) o coeficiente de determinação da regressão de Y em X é maior do que 60%. (D) a correlação entre 𝑉 = 𝑎 + 𝑏. 𝑋 e 𝑊 = 𝑐 + 𝑑 . 𝑍, com a ≠ 0, c ≠0, b > 0 e d < 0 é negativa. (E) a covariância entre X e Y e igual a 0,64. R. Alternativa A http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 51 de 77 www.exponencialconcursos.com.br O coeficiente de Pearson relaciona informações sobre a correlação linear de duas variáveis aleatórias. Dado que a correlação é nula, não é possível afirmar com 100% de certeza que as variáveis são independentes, haja vista que é possível haver uma relação não linear entre elas. Assertiva incorreta. Alternativa B A correlação entre X e Y é igual a 0,8. Assertiva incorreta. Alternativa C R²=0,8²=64%>60%. Assertiva correta Alternativa D Como X e Z possuem correlação nula, a correlação entre V e W também será: 𝑟𝑋𝑍 = 𝑆𝑋𝑍 √𝑆𝑋𝑋. 𝑆𝑍𝑍 = 0 𝑟𝑋𝑌 = ∑(𝑋𝑖 − �̅�)(𝑍𝑖 − �̅�) √∑(𝑋𝑖 − �̅�)² ∑(𝑍𝑖 − �̅�)² = 0 Dado que 𝑋 = 𝑉/𝑏 − 𝑎/𝑏 e 𝑍 = 𝑊/𝑑 − 𝑐/𝑑: 𝑟𝑋𝑌 = ∑ 1 𝑏 (𝑉𝑖 − �̅�) 1 𝑑 (𝑊𝑖 −𝑊) √∑ 1 𝑏² (𝑉𝑖 − �̅�)²∑ 1 𝑑² (𝑊𝑖 − �̅�)² = 0 𝑟𝑋𝑌 = 1 𝑏 × 1 𝑑 ∑(𝑉𝑖 − �̅�)(𝑊𝑖 −𝑊) 1 𝑏 × 1 𝑑 √∑(𝑉𝑖 − �̅�)²∑(𝑊𝑖 − �̅�)² = 0 𝑟𝑋𝑌 = 𝑟𝑉𝑊 = 0 Assertiva incorreta. Alternativa E Vimos que 𝑟𝑥𝑦 = 𝐶𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑋,𝑌) √𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑋)×𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎(𝑌) . Sem os valores da Variância (X) e da Variância(Y) não é possível calcular a covariância de X e Y. Assertiva incorreta. Gabarito 40: C 41. (FCC-TRT 19-2014) A equação da regressão estimada �̂�𝑡 = 0,25 + 0,04 𝑡 , em que �̂�𝑡 = ln [ 𝑝 1−𝑝 ] , permite estimar a probabilidade (p) do acontecimento de um evento em um determinado dia em função do tempo (t) diário, em minutos, em que este evento é divulgado no dia. Se o evento é http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 52 de 77 www.exponencialconcursos.com.br divulgado em um dia durante 10 minutos, então a probabilidade estimada de seu acontecimento neste dia é (A) 1 1+𝑒−0,65 (B) 𝑒0,65 1+𝑒−0,65 (C) 1 1+𝑒0,65 (D) 1+𝑒0,65 𝑒−0,65 (E) 1+𝑒−0,65 1+𝑒0,65 R. �̂�𝑡 = 0,25 + 0,04 𝑡 �̂�𝑡 = 0,25 + 0,04 × 10 �̂�𝑡 = 0,65 Como �̂�𝑡 = 𝑙𝑛 [ 𝑝 1−𝑝 ]: 0,65 = 𝑙𝑛 [ �̂� 1 − �̂� ] �̂� 1 − �̂� = 𝑒0,65 1 − �̂� �̂� = 1 𝑒0,65 1 �̂� = 𝑒−0,65 + 1 �̂� = 1 1 + 𝑒−0,65 Gabarito 41: A 42. (FCC-TRT 12ª-2013) O objetivo de um estudo foi analisar a relação entre duas variáveis X e Y e foi adotado o modelo linear 𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖, em que i refere-se a i-ésima observação, e β são parâmetros desconhecidos e 𝜀𝑖, o erro aleatório com as respectivas hipóteses para a regressão linear simples. Foram considerados 60 pares de observações (𝑋𝑖 , 𝑌𝑖), 𝑖 = 1, 2, 3, . . . , 60 e com a utilização do método dos mínimos quadrados foram apuradas as estimativas de e β. O gráfico abaixo corresponde à reta obtida pelo método dos mínimos http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 53 de 77 www.exponencialconcursos.com.br quadrados, em que os valores das estimativas de e β são a e b, respectivamente. Neste caso, o valor de M é igual a (A) 21. (B) 34. (C) 27. (D) 33. (E) 23. R. Dada a reta �̂� = 𝑎 + 𝑏𝑋: { 60 = 𝑎 + 𝑏 × 20 (𝑖) 𝑀 = 𝑎 + 𝑏 × 46 (𝑖𝑖) Sabemos também que: 𝑎 = �̅� − 𝑏�̅� 𝑎 = ∑𝑌 𝑛 − 𝑏 ∑𝑋 𝑛 𝑎 = 3060 60 − 𝑏 1560 60 ⇒ 𝑎 = 51 − 26𝑏 (𝑖𝑖𝑖) Juntando as expressões i e iii: { 60 = 𝑎 + 𝑏 × 20 𝑎 = 51 − 26𝑏 60 = (51 − 26𝑏) + 𝑏 × 20 60 = 51 − 6𝑏 ⇒ 𝑏 = −3/2 ⇒ 𝑎 = 90 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 54 de 77 www.exponencialconcursos.com.br Avaliando a expressão ii: 𝑀 = 𝑎 + 𝑏 × 46 𝑀 = 90 + (− 3 2 ) × 46 𝑀 = 90 − 69 𝑀 = 21 Gabarito 42: A 43. (FCC-TRT 5ª-2013) O modelo linear 𝑌𝑡 = 𝛼 + 𝛽𝑡 + 𝜀𝑡, 𝑡 = 1, 2, 3, . .. , é utilizado para prever a venda (𝑌𝑡), em milhares de reais, de um produto no ano (2002 + t). e β são parâmetros desconhecidos e 𝜀𝑡 é o erro aleatório com as respectivas hipóteses da regressão linear simples. As estimativas de e β foram obtidas pelo método dos mínimos quadrados, com base nas observações das vendas de 2003 a 2012. Dados: ∑𝑡 10 𝑡=1 = 55, ∑𝑡² 10 𝑡=1 = 385, ∑𝑌𝑡 10 𝑡=1 = 351 𝑒 ∑𝑡 10 𝑡=1 𝑌𝑡 = 2.153,25 Considerando a equação da reta obtida pelo método dos mínimos quadrados, a previsão do primeiro ano em que a venda irá superar R$ 60.000,00 será em (A) 2016. (B) 2017. (C) 2018. (D) 2019. (E) 2020. R. Dada uma reta �̂� = 𝑎 + 𝑏𝑡: 𝑎 = �̅� − 𝑏𝑡̅ 𝑏 = 𝑆𝑌𝑡 𝑆𝑡𝑡 = ∑𝑡𝑌𝑡 − (∑ 𝑡 ∑𝑌𝑡)/𝑛 ∑ 𝑡² − (∑ 𝑡)²/𝑛 Iniciando por 𝑏: 𝑏 = ∑ 𝑡𝑌𝑡 − (∑ 𝑡 ∑𝑌𝑡)/𝑛 ∑ 𝑡² − (∑ 𝑡)²/𝑛 = 2.153,25 − (55 × 351)/10 385 − (55)²/10 = 222,75 82,5 = 2,7 Depois, 𝑎: 𝑎 = �̅� − 𝑏𝑡̅ = ( ∑𝑌𝑡 𝑛 ) − 2,7 × ( ∑ 𝑡 𝑛 ) = 351 10 − 2,7 × 55 10 = 20,25 Portanto, a equação de regressão linear é representada por: �̂� = 𝑎 + 𝑏𝑡 �̂� = 20,25 + 2,7𝑡 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato TalalasProfs. Fábio Amorim e Renato Talalas 55 de 77 www.exponencialconcursos.com.br Considerando �̂� = 60: 60 = 20,25 + 2,7𝑡 39,75 = 2,7𝑡 𝑡 = 14,72 Portanto, isso será alcançado no ano 2002 + 14,72. Ou seja, só será superado no ano 2017. Gabarito 43: B 44. (FCC-SEFAZ/SP-2013) Observe os dados de uma pesquisa realizada para verificar a existência ou não de alguma relação entre o estado civil de um homem (casado ou solteiro) e sua tendência para o consumo de doces. No universo do Gráfico 1, os homens solteiros e casados foram escolhidos aleatoriamente na população, ao passo que o universo do Gráfico 2 é um subconjunto do universo do primeiro. Os gráficos mostram que (A) não existe qualquer relação entre o estado civil de um homem e sua tendência para o consumo de doces. (B) o estado civil de um homem e sua tendência para o consumo de doces estão correlacionados, mas não existe relação causal entre eles. (C) o estado civil de um homem e sua tendência para o consumo de doces têm uma relação causal: o casamento causa redução na tendência ao consumo de doces. (D) o estado civil de um homem e sua tendência para o consumo de doces têm uma relação causal: a redução no consumo de doces causa uma maior tendência ao casamento. (E) o processo de coleta de informações foi inadequado, pois os Gráficos 1 e 2 apresentam dados contraditórios entre si. R. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 56 de 77 www.exponencialconcursos.com.br No universo (gráfico 1) o consumo é maior para os homens solteiros e menor para homens casados. Essa diferença pode ser explicada ou pelo estado civil ou pela diferença nas médias de idade. Na amostra (gráfico 2) o consumo é semelhante para homens solteiros e casados quando a faixa etária de ambos os grupos é a mesma. Por isso, conclui-se que o estado civil não é uma variável fortemente relacionada à variável consumo. Ao que parece, a variável idade média da amostra possui uma relação mais forte com a variável consumo. A alternativa A não é correta porque não se pode afirmar que não existe qualquer relação entre as variáveis de estado civil e consumo. A correlação parece baixa, porém, não é possível afirmar que inexiste. A alternativa B é correta porque o estado civil de um homem e sua tendência para o consumo aparenta uma correlação, no entanto, é baixa e não aparenta influenciar no consumo de doces. A alternativa C não é correta porque o casamento por si só não aparenta causar uma redução na tendência ao consumo de doces, mas sim, a média de idade é que parece influenciar mais. A alternativa D não é correta porque a variável estado civil pode influenciar a variável consumo, e não o contrário. A alternativa E não é correta, pois não se percebe contradição nas informações repassadas. Gabarito 44: B 45. (FCC-ISS/SP-2012) Considere as seguintes afirmações: I. Um dispositivo útil quando se quer verificar a associação entre duas variáveis quantitativas é o gráfico de dispersão entre essas duas variáveis. II. O coeficiente de variação é uma medida de dispersão relativa que depende da unidade de medida da variável que está sendo analisada. III. Dentre as medidas de posição central, a média é considerada uma medida robusta pelo fato de não ser afetada por valores aberrantes. IV. Se o coeficiente de correlação linear de Pearson entre duas variáveis for igual a zero, não haverá associação linear entre elas, implicando a ausência de qualquer outro tipo de associação. Está correto o que se afirma APENAS em (A) I e II. (B) I e III. (C) II e IV. (D) I. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 57 de 77 www.exponencialconcursos.com.br (E) II e III. R. A assertiva I é correta porque o gráfico de dispersão permite visualizar a existência de corelação entre duas variáveis, que pode ser positiva, negativa ou nula, conforme vimos nesta aula. A assertiva II remete às aulas anteriores, em que apresentamos um pouco sobre a estatística descritiva. Vimos que o coeficiente de variação representa a razão entre o desvio padrão e a média de uma variável. A modificação da escala remete a uma multiplicação da unidade de medida da variável (metro para centímetro, por exemplo). Vimos que tanto o desvio padrão quanto a média são influenciados pela multiplicação/divisão dos valores de uma variável, de modo que, portanto, o coeficiente de variação não sofre influência sobre esse fator. 𝐶𝑉𝑋 = 𝜇 𝜎 Se 𝑋′ = 𝑎 × 𝑋: 𝐶𝑉𝑋′ = 𝜇′ 𝜎′ = 𝑎 × 𝜇 𝑎 × 𝜎 = 𝜇 𝜎 = 𝐶𝑉𝑋 Assertiva incorreta. A assertiva III afirmar que a média não é influenciada por valores extremos. No entanto, sabemos que qualquer modificação nos valores da amostra ou da população influencia no valor da média. O mesmo não se pode dizer da moda (que mede os valores mais frequentes) e da mediana (que mede a posição central). Portanto, não se pode considerar que a média seja “robusta” por esse aspecto. Assertiva incorreta. A assertiva IV está incorreta porque o coeficiente de Pearson mede a relação linear entre duas variáveis. Caso esse coeficiente seja igual a 0, é possível afirmar que inexiste correlação linear entre as variáveis. No entanto, pode haver uma relação não linear entre essas variáveis (por meio de curvas parabólicas, exponenciais, por exemplo). Assertiva incorreta. Gabarito 45: D 46. (FCC-SEFAZ/SP-2009) O gráfico abaixo demonstra a evolução da receita tributária anual no estado de São Paulo desde 1999, com os valores arrecadados em bilhões de reais. http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 58 de 77 www.exponencialconcursos.com.br (Fonte: Secretaria da Fazenda do Estado de São Paulo Histórico da receita tributária) Para estimar a receita tributária em um determinado ano com base no comportamento sugerido pelo gráfico, adotou-se o modelo 𝑌𝑡 = 𝛼 + 𝛽𝑡 + 𝜀𝑡, 𝑡 = 1, 2, 3, . .. , sendo 𝑌𝑡 = 𝑙𝑛 (𝑅𝑇𝑡) , em que 𝑅𝑇𝑡 é a receita tributária no ano (1998+t) em bilhões de reais e ln o logaritmo neperiano (ln e = 1). e β são parâmetros desconhecidos e 𝜀𝑡 o erro aleatório com as respectivas hipóteses consideradas para o modelo de regressão linear simples. Utilizando o método dos mínimos quadrados, com base nas observações de 1999 a 2008, obteve-se para a estimativa de β o valor de 0,12, sabendo-se que: ∑𝑌𝑡 = 39,0 10 𝑡=1 A previsão da receita tributária para 2009, em bilhões de reais, em função da equação obtida pelo método dos mínimos quadrados é igual a (A) e4,58 (B) e4,56 (C) e4,44 (D) e4,32 (E) e4,20 R. Se pensarmos numa equação de regressão linear 𝑌�̂� = 𝑎 + 𝑏𝑡, onde 𝑏 = 0,12: 𝑎 = �̅� − 𝑏𝑡̅ 𝑎 = ∑𝑌𝑡 𝑛 − 𝑏 ∑ 𝑡 𝑛 𝑎 = 39 10 − 0,12 ∑ 𝑡 10 http://www.exponencialconcursos.com.br/ Curso: Estatística Profs. Fábio Amorim e Renato Talalas Profs. Fábio Amorim e Renato Talalas 59 de 77 www.exponencialconcursos.com.br 𝑎 = 3,9 − 0,012∑𝑡 Como t varia de 1 a 10, temos que ∑𝑡 = 1 + 2+. . . +10 = 55 𝑎 = 3,9 − 0,012 × 55 𝑎 = 3,24 Conhecidos os parâmetros a e b: 𝑌�̂� = 3,24 + 0,12𝑡 A variável 𝑌𝑡 para 2009 (𝑡 = 11) é igual a: 𝑌�̂� = 3,24 + 0,12 × 11 𝑌�̂� = 3,24 + 0,12 × 11 𝑌�̂� = 4,56 Por fim a previsão de receita tributária é calculada da seguinte forma: 𝑌𝑡 = 𝑙𝑛 (𝑅𝑇𝑡) 4,56 = 𝑙𝑛 (𝑅𝑇𝑡) ⇒ 𝑅𝑇𝑡 = 𝑒4,56 Gabarito 46: B 47. (FCC-SEFAZ/RJ-2013) Considere o modelo 𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖 , 𝑖 = 1, 2, 3, . .. onde: I. 𝑦𝑖 e 𝑥𝑖 representam, respectivamente, o tempo de reação a certo estímulo, em segundos, e a idade, em anos, do indivíduo i. II. e β representam
Compartilhar