Baixe o app para aproveitar ainda mais
Prévia do material em texto
ESTATÍSTICA Regressão Linear Livro Eletrônico Presidente: Gabriel Granjeiro Vice-Presidente: Rodrigo Calado Diretor Pedagógico: Erico Teixeira Diretora de Produção Educacional: Vivian Higashi Gerência de Produção de Conteúdo: Magno Coimbra Coordenadora Pedagógica: Élica Lopes Todo o material desta apostila (incluídos textos e imagens) está protegido por direitos autorais do Gran. Será proibida toda forma de plágio, cópia, reprodução ou qualquer outra forma de uso, não autorizada expressamente, seja ela onerosa ou não, sujeitando-se o transgressor às penalidades previstas civil e criminalmente. CÓDIGO: 231016093031 THIAGO CARDOSO Engenheiro eletrônico formado pelo ITA com distinção em Matemática, analista- chefe da Múltiplos Investimentos, especialista em mercado de ações. Professor desde os 19 anos e, atualmente, leciona todos os ramos da Matemática para concursos públicos. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. 3 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso SUMÁRIO Apresentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1. Parâmetros do Modelo de Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2. Estimador de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3. Reta Passando pela Origem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4. Regressão Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2. Avaliação do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1. Análise dos Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3. Análise dos Coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Mapa Mental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Gabarito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Gabarito comentado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 4 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso aPREsENtaÇÃOaPREsENtaÇÃO Olá, aluno(a), seja bem-vindo(a) a mais uma aula de Estatística. Hoje, falaremos sobre Regressão Linear. Houve um tempo em que esse tema era praticamente inexplorado pelas provas de concurso. Porém, isso mudou. Considerando o panorama atual dos concursos, que estão, cada vez mais, valorizando a parte de Estatística Inferencial, devo lhe advertir de que esse é um dos temas mais importantes atualmente. Mas fique tranquilo(a). Você verá que a grande maioria das questões de Regressão Linear podem ser resolvidas com simples aplicações de fórmulas. Você raramente precisará desenvolver raciocínios complexos ou contas sofisticadas. Memorize as fórmulas e você terá sucesso nas questões desse tópico. Pronto(a) para começar? O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 5 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso REGRESSÃO LINEARREGRESSÃO LINEAR 1 . iNtRODUÇÃO1 . iNtRODUÇÃO A Regressão Linear é uma técnica muito utilizada em todas as áreas que se utilizam de gráficos e números. Ela tem por objetivo estudar o comportamento de uma variável em função da outra. Por exemplo, consideremos um estudo social sobre a idade e o salário de um grupo de pessoas. Como pessoas da mesma idade podem ter salários diferentes, o gráfico mais adequado para representar essas duas variáveis é o gráfico de dispersão. Figura 1: Gráfico de Dispersão de Salários pela Idade de um Grupo de Pessoas O gráfico de dispersão nos mostra que, de maneira geral, o salário de uma pessoa cresce com a sua idade. Não se trata de um comportamento absoluto. Por exemplo, há duas pessoas de 40 anos na pesquisa: uma delas tem o salário de pouco acima de 5,00 e outra em torno de 15,00. Também podemos encontrar uma pessoa de 25 anos que ganha mais que outra pessoa de 40 anos. Porém, há uma tendência de que os salários cresçam em função da idade. A fim de avaliar essa tendência, podemos traçar uma linha de tendência. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 6 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Figura 2: Linha de Tendência no Gráfico de Dispersão de Salários pela Idade No gráfico, temos algumas definições interessantes: • Variável independente, regressora, explicativa ou preditora: é a variável principal. No caso, é a variável idade, geralmente chamada de X. A variável independente é, também, chamada de explicativa ou preditora, porque ela é utilizada para explicar o comportamento da variável dependente e prever seus valores futuros. • Variável dependente ou resposta: é a variável cujos valores são observados em função da variável independente. No caso em apreço, é a variável salários, geralmente chamada de Y. Quando aumentamos a idade de um grupo de entrevistados, é natural esperarmos um aumento de seu salário médio em resposta a essa variação de idade. 1 .1 . PaRÂMEtROs DO MODELO DE REGREssÃO LiNEaR1 .1 . PaRÂMEtROs DO MODELO DE REGREssÃO LiNEaR O valor real da variável dependente é expresso no modelo de regressão linear pela soma: A estimativa é a estimativa feita pelo método de regressão linear e corresponde à linha de tendência que pode ser traçada no gráfico (Y x X). O conteúdo deste livro eletrônico é licenciado para ANTONIOMARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 7 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Por outro lado, o erro ou desvio corresponde aos desvios dos valores reais de Y em torno da linha de tendência. Como pode ser bem visualizado na Figura 2, nem sempre os valores reais observados para a variável Y se encaixam perfeitamente nos valores obtidos pelo método de regressão linear. Por isso, existe o erro de estimativa. Teremos uma seção mais adiante dedicada exclusivamente a comentar sobre esse fator. O erro de estimativa é dado pela diferença entre o valor real e a estimativa: Em geral, os modelos de regressão linear têm por objetivo diminuir esse erro segundo algum critério. Por hora, vamos comentar sobre os parâmetros a e b que definem o modelo de regressão linear. O parâmetro b é o mais importante e está relacionado à inclinação da linha de tendência. Quanto maior o parâmetro b, maior será a variação na variável Y em resposta a um aumento da variável X. Por outro lado, o parâmetro a é chamado de intercepto, pois corresponde ao ponto em que a linha de tendência intercepta o eixo dos Y. Isso acontece porque, quando X = 0, temos que a estimativa linear para Y será igual a esse parâmetro. Agora, vamos aprender formas de calcular esses coeficientes. 1 .2 . EstiMaDOR DE MíNiMOs QUaDRaDOs1 .2 . EstiMaDOR DE MíNiMOs QUaDRaDOs O estimador de mínimos quadrados é aquele que tem por objetivo minimizar a seguinte função de custo: Ou seja, pegamos o quadrado de todos os desvios encontrados e somamos. O estimador de mínimos quadrados é aquele que minimiza essa soma. A importância de somar os quadrados está no fato de que é dessa forma que consideramos todos os desvios para a esquerda e para direita (negativos ou positivos) como contribuintes para aumentar o erro total de estimativa. É exatamente o mesmo princípio do desvio-padrão. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 8 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso É possível demonstrar, por meio de cálculo diferencial, o que está além do escopo deste material, que o parâmetro b que minimiza essa soma é dado por: É bastante interessante que, para um problema tão complexo quanto a regressão linear, tenhamos uma solução razoavelmente simples e elegante. Basta dividir a covariância entre as duas variáveis pela variância da variável regressora. É natural, ainda, que as questões tentem confundi-lo(a). Elas vão colocar a variância da variável resposta no denominador ou trocar a covariância pela correlação. É possível, sim, obter uma expressão coeficiente b pela correlação, mas ela será ligeiramente diferente. Vejamos: Primeiramente, precisamos nos lembrar de que a correlação é igual à covariância dividida pelo produto dos desvios-padrões. Agora, podemos nos lembrar de que a variância é igual ao quadrado do desvio-padrão. Portanto, temos para o coeficiente de inclinação: Não considero necessário memorizar essa expressão, mas é interessante que você tenha visto a forma como chegamos até ela, porque isso pode ser exigido em questões de prova. Para o coeficiente a, considero que a forma mais fácil de se lembrar é partir do princípio de que a média da estimativa deve ser igual à média da variável real. Usando o fato de que o valor esperado é linear, temos que: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 9 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso (CESPE/TCE/PA/2016) Uma regressão linear simples é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item subsecutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal, média zero e variância constante. 001. 001. Para uma amostra de tamanho n = 25, em que a covariância amostral para o par de variáveis X e Y seja Cov(X, Y) = 20,0, a variância amostral para a variável Y seja Var(Y) = 4,0 e a variância amostral para a variável X seja Var(X) = 5,0, a estimativa via estimador de mínimos quadrados ordinários para o coeficiente b é igual a 5,0. O coeficiente b é dado por: Errado. 002. 002. A variável Y é denominada variável explicativa, e a variável X é denominada variável dependente. Como a regressão linear é escrita da forma Y = a + bX, temos que a variável Y é descrita em função da variável X. Sendo assim, a variável Y é a variável dependente ou resposta, enquanto a variável X é a variável explicativa. Errado. 003. 003. Considere que as estimativas via método de mínimos quadrados ordinários para o parâmetro a seja igual a 2,5 e, para o parâmetro b, seja igual a 3,5. Nessa situação, assumindo que X = 4,0, o valor predito para Y será igual a 16,5, se for utilizada a reta de regressão estimada. Calcularemos o valor predito para Y usando os dados fornecidos no enunciado. Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 10 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 004. 004. (ESAF/SUSEP/ANALISTA TÉCNICO/2010) A partir de uma amostra aleatória ,foram obtidas as estatísticas: • Médias: ; • Variâncias Amostrais: SX² = 30 e SY² = 54; • Covariância: SXY = 36. Qual é a reta de regressão estimada de Y em X? a) b) c) d) e) Podemos calcular o coeficiente de inclinação: Para calcular o coeficiente de intercepto por meio das médias: Dessa forma, a reta de regressão estimada é: Letra c. 005. 005. (FGV/DPE/RJ/TÉCNICO SUPERIOR ESPECIALIZADO/ESTATÍSTICO/2014) Considere a equação de regressão Yi = α + β. Xi + εi onde Y e X são as variáveis explicada e explicativa, respectivamente, ε é o erro aleatório e α e β os parâmetros a estimar. São supostos válidos todos os pressupostos clássicos do Modelo de Regressão Linear Simples (MRLS). Além disso, para determinada amostra de pares (X,Y), foram calculadas as estatísticas p ( X, Y ) = 0,8, 6, = 15, DP (Y ) = 5 e DP ( X ) = 2. Portanto, a partir do método de Mínimos Quadrados Ordinários os estimadores de α e β são O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 11 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso a) 2 e 3 b) 3 e 2 c) -9 e 4 d) 4 e -9 e) 6 e 1,5 O coeficiente de inclinação é dado por: Não nos foi fornecida a covariância, porém podemos calculá-la a partir da correlação: Sendo assim, temos: Por outro lado, o coeficiente de intercepto é dado pelas médias: Letra b. 1 .3 . REta PassaNDO PELa ORiGEM1 .3 . REta PassaNDO PELa ORiGEM Nesse caso, deseja-se fazer um ajuste forçando o coeficientede intercepto a ser igual a zero. Dessa forma, o coeficiente de inclinação b é dado por uma expressão ligeiramente diferente: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 12 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Não temos muito o que comentar. Basta apenas decorar a expressão. Observe bem se o modelo de regressão linear é fornecido também da forma Y = bX + erro. Se não houver intercepto, é a chave para utilizar a expressão acima. 006. 006. (CESPE/TCU/ANALISTA DE CONTROLE EXTERNO/2008) Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007. A estimativa do valor do coeficiente a da reta de regressão Y = aX, em que Y representa o número esperado de imóveis vendidos para uma quantidade X de imóveis ofertados, é superior a 0,23 e inferior a 0,26. Como o enunciado fala numa reta Y = aX sem o coeficiente de intercepto, devemos utilizar a expressão da reta passando pela origem: Quando o denominador termina em 25, o modo mais fácil de fazer a conta é multiplicando por 4: Certo. (CESPE/TCE/RN/INSPETOR/2015) Para k = 1,..., 5, um modelo de regressão linear é dado por em que e representam, respectivamente, os valores da variável O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 13 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos. Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que: Julgue os itens a seguir. 007. 007. A estimativa de mínimos quadrados ordinários do coeficiente a é igual ou superior a 1. Mais uma vez, temos o modelo Y = aX + erro, sem o coeficiente de intercepto. Sendo assim, devemos utilizar a expressão da reta passando pela origem: Errado. 008. 008. A variável aleatória yk, para k = 1,..., 5, segue uma distribuição normal com variância V. O modelo de regressão linear fornecido é: Como os valores da variável regressora são determinísticos, temos que a única fonte de erro para o valor de y é o erro aleatório, que é normal gaussiano de variância V. Sendo assim, Y seguirá uma normal com a mesma variância do erro aleatório fornecido e com média igual ao produto ax. Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 14 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 009. 009. A estimativa da variância V é igual ou inferior a 1,5. A resolução mais comum, mais simples e que eu acredito que o CESPE esperava que os alunos apresentassem na hora da prova é a seguinte. Podemos utilizar que a variância do erro é menor ou igual à variância de Y a priori, ou seja, antes do modelo de regressão linear: Nesse caso, como existe correlação entre X e Y, podemos descartar o sinal de igual. Logo, a variância V será: Portanto, a variância realmente é inferior a 1,5. Eu apresentei essa solução, pois é um recurso que você pode utilizar e será bem mais fácil do que calcular precisamente a estimativa da variância do erro. No entanto, é possível obter o valor preciso da estimativa da variância do erro utilizando fórmulas que já conhecemos. Sabemos que: Vamos nos lembrar da definição dos resíduos: Como temos todos os valores fornecidos, podemos dizer que: Agora, podemos calcular a estimativa da variância do erro: Portanto, isso nos levaria a concluir que o gabarito é errado. E, nesse momento, o(a) aluno(a) se questionaria: mas a variância do erro a posteriori não deveria ser menor que a variância a priori, que é 1,5? A resposta é que isso realmente só pode ser garantido quando a amostra é grande. Não se pode fazer um modelo de regressão linear com uma amostra muito pequena de apenas 5 elementos. O mesmo pode ser dito para vários e vários estimadores. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 15 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Por conta disso, considero uma pequena tragédia essa adaptação feita para uma questão de prova. Na vida prática, você nunca fará regressão linear com uma amostra de 5 elementos, precisará de mais dados. Quando a regressão é feita com poucos dados, ela pode, sim, ser pouco efetiva. A despeito disso, nenhum recurso foi elaborado e a banca manteve o gabarito oficial. Mas eu não poderia deixar de registrar a minha contrariedade a esse gabarito. Certo. 1 .4 . REGREssÃO MULtiVaRiaDa1 .4 . REGREssÃO MULtiVaRiaDa Obs.: Se você não conhece o assunto Matrizes, esta matéria será muito difícil e creio que não vale a pena estudá-la. Suponhamos que nós queremos escrever y como uma regressão linear em mais de uma variável independente: Daremos o nome de x ao vetor (matriz linha) formado por todas as variáveis independentes. No caso, temos: Os coeficientes b também podem ser agrupados em um vetor (matriz coluna). Para calcular o vetor B, precisamos anotar todas as observações das variações x1, x2 etc. em uma matriz. Essa matriz terá o número de colunas igual ao número de variáveis e o número de linhas igual ao número de observações. Dessa forma, o vetor B será dado por: Nessa notação, X’ corresponde à matriz transposta das observações de X, em que X representa as observações da variável X. Sinceramente, eu creio que não faça o menor sentido cobrar esse assunto numa prova de concurso. Porém, o CESPE já cobrou uma vez no TCU-2015. De qualquer forma, se você for capaz de entender matrizes, vale a pena saber a fórmula da regressão linear múltipla. Mas nem se preocupe em entender esse assunto em muitos O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 16 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso detalhes. Nem mesmo nas provas específicas para Estatísticos ele costuma aparecer em maior nível de dificuldade. 010. 010. (CESPE/TCU/AUDITOR FEDERAL DE CONTROLE EXTERNO/2015) Com o objetivo de modelar a arrecadação anual do ICMS em municípios brasileiros (y), o modelo de regressão linear múltipla foi representado, na forma matricial, como y = Xβ + ε, em que y representa o vetor de respostas, X denota a matriz de delineamento, β é o vetor de parâmetros e ε é o vetor de erros aleatórios independentes e identicamente distribuídos. Considerando-se que X’ representa a transposta da matriz de delineamento, apresenta-se a seguir a matriz inversa do produto matricial X’X produzida no modelo. Com base nessas informações e sabendo que: , julgue o próximo item.A estimativado vetor de parâmetros produzida pelo método de mínimos quadrados ordinários é: Observe que o enunciado já deu todas as matrizes trabalhadas para o(a) aluno(a). Basta multiplicar: Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 17 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 2 . aVaLiaÇÃO DO MODELO2 . aVaLiaÇÃO DO MODELO Agora, vamos falar um pouco mais sobre o erro de estimativa. Algumas características importantes que o erro deve apresentar: • média nula: o erro deve apresentar média nula. Caso o erro apresentasse qualquer desvio médio, o estimador seria claramente viesado e, portanto, essa média deveria ter sido incluída no parâmetro a. Pense, por exemplo, que você está fazendo uma pesquisa sobre o salário médio de um grupo de pessoas. Então, você descobre que, em média, a sua pesquisa erra o salário médio das pessoas em 1,00 unidade para cima. Isso significa, na verdade, que a sua linha de tendência está mal posicionada e que ela deveria ter aparecido 1,00 unidade para baixo. • independente da variável X: se houvesse qualquer dependência da variável X, isso significaria que esse fator deveria ter sido incluído no modelo. Essa propriedade também é conhecida pelo nome de homocedasticidade. Quando existe dependência entre o erro e a variável X, é bastante provável que o modelo de regressão linear não se adapte bem ao sistema que está sendo estudado. Dito isso, existem algumas métricas importantes de avaliação do erro em modelos de regressão linear. Primeiramente, vejamos uma ideia geral sobre ele. 2 .1 . aNÁLisE DOs REsíDUOs2 .1 . aNÁLisE DOs REsíDUOs A estimativa de um modelo de regressão linear corresponde à linha reta que pode ser derivada diretamente dos coeficientes de inclinação e intercepto, como constam no modelo. Os resíduos da variável resposta, por sua vez, correspondem às diferenças entre o valor correto dessa variável e as suas estimativas. O gráfico de resíduos é um gráfico que dispõe os resíduos da variável resposta em função da variável explicativa, e ele é uma importante ferramenta para a avaliação de um modelo de regressão linear. Pelas características ideias de um erro, um gráfico de resíduos saudável, sem problemas, deve: • não viesado: isto é, a média dos resíduos deve ser igual a zero; • homocedásticos: o desvio padrão dos resíduos é independente da variável aleatória independente. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 18 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Vejamos na Figura 3 um exemplo ideal dessa situação. Figura 3: Exemplo de um gráfico de resíduos sem problemas Agora, vejamos alguns problemas que podem ser notados com a análise do gráfico de resíduos. • Heterocedasticidade: a variância dos erros apresenta um comportamento heterogêneo em função da variável independente (X). Figura 4: Resíduos Heterocedásticos • Assimetria: a média dos erros não é nula, portanto, o coeficiente de intercepto deve ser ajustado. Figura 5: Resíduos Assimétricos O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 19 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso • Resíduos extremos: a presença de alguns resíduos muito distantes do padrão dos demais indica a presença de dados atípicos nas suas observações. Figura 6: Resíduos Extremos Esses dados atípicos podem ser meros frutos da aleatoriedade. Pense, por exemplo, que você estuda o salário das pessoas em função da sua idade e descobre um jovem de 20 anos que ganha 50 salários-mínimos por mês. Seria uma observação bastante atípica, não é? É possível de acontecer, mas certamente é bem raro. Mas, vale notar que esses dados atípicos também podem ser oriundos de erros de medidas. Pense, por exemplo, que você está estudando as velocidades de carros em uma via e descobre um carro que atravessou o radar acima de 500 km/h. Há uma grande chance de essa medida ter sido um erro do radar. • Não linearidade: quando se observa uma linha de tendência nos resíduos que não é uma linha reta. Figura 7: Linha de Tendência não linear Nesse gráfico, observamos uma linha de tendência não linear, o que mostra que uma estimativa Ŷ = a + bX não é suficiente para descrever a variável Y em função de X. Seria preciso incluir também a relação não linear entre as duas variáveis. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 20 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 011. 011. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em um gráfico de resíduos em uma análise de regressão, são exibidos: a) Resíduos da variável explicativa versus resíduos da variável de resposta. b) Resíduos da variável explicativa versus a variável de resposta. c) A variável explicativa versus a variável de resposta. d) A variável explicativa sobre o eixo x, contra a variável resposta sobre o eixo y e) A variável explicativa versus resíduos da variável resposta. O gráfico de resíduos tem por objetivo estudar os resíduos da variável resposta em função da variável explicativa, que correspondem à diferença entre o valor correto e a estimativa da variável resposta. Letra e. 2 .2 . aNÁLisE DE VaRiÂNcia2 .2 . aNÁLisE DE VaRiÂNcia Voltemos ao caso da dispersão dos salários pela idade. Antes da regressão linear, tínhamos uma lista de salários de diversas pessoas e poderíamos calcular a sua média e o seu desvio-padrão. Podemos observar dois tipos de desvios a serem calculados: • Soma dos Quadrados Totais SQTot (antes): corresponde aos desvios em relação à média da variável Y, ou seja, antes de se fazer qualquer estimativa de regressão linear. Perceba que esse fator é diretamente relacionado ao desvio-padrão (ou à variância SYY) da variável resposta. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 21 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Utilizamos (N-1) no denominador, pois consideramos a variância amostral, que será o caso da maior parte das questões envolvendo regressão linear. • Soma dos Quadrados dos Erros ou Resíduos, SQRes ou SQEr (depois): é a soma dos quadrados dos erros ou resíduos de estimativa. Corresponde aos desvios em relação às estimativas lineares, ou seja, depois da regressão linear. É natural esperar que a soma dos erros depois da regressão linear seja menor que a soma dos erros antes da regressão linear. Afinal, é para isso que serve essa técnica: melhorar a estimativa da variável Y. Assim, define-se: • Soma dos Quadrados da Regressão SQReg: é a melhoria ou redução dos erros. Tem-se: Pode-se provar que a soma dos quadrados da regressãose relaciona com a variância entre as variáveis. A soma dos quadrados da regressão também pode ser relacionada com a variância da regressora. Para isso, devemos nos lembrar de que: Substituindo na expressão acima, temos: Temos, então, duas expressões muito úteis para o cálculo da soma dos quadrados do modelo de regressão: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 22 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 2 .2 .1 . cOEFiciENtE DE DEtERMiNaÇÃO OU EXPLicaÇÃO Esse é disparadamente o assunto mais cobrado em questões de prova. O coeficiente de determinação (R²) é dado pela razão de melhoria. Isto é, o quanto o modelo de regressão melhorou os erros da variável resposta sobre o quanto os erros eram antes. Pode-se demonstrar – e esse é disparado o assunto mais cobrado em questões de prova – que o coeficiente de determinação é igual ao quadrado da correlação. Assim como a variância, o coeficiente de determinação (R²) tem o seu símbolo R². Não caia no erro de tirar a raiz, tudo bem? Lembre-se da relação importantíssima: 2 .2 .2 . VaRiÁVEis ENDÓGENas E EXÓGENas Trata-se de uma definição simples, porém de suma importância. Uma variável explicativa pode ser classificada como: • endógena: quando está correlacionada com a perturbação (chamada endogeneidade), portanto o coeficiente de determinação do modelo de regressão linear é significativo; • exógena: quando está descorrelacionada com a perturbação (chamada exogeneidade), portanto o coeficiente de determinação do modelo de regressão linear é muito pequeno, próximo a zero. Vale observar que, como a correlação não implica causalidade, é bastante possível que a correlação observada seja fruto de erros de medição ou, até mesmo, da aleatoriedade. A endogeneidade não é uma prova definitiva de que há alguma relação entre as duas variáveis. Os modelos estatísticos servem apenas como um indicativo inicial de pesquisa. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 23 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 012. 012. (CESPE/PCDF/2021) Determinado pesquisador reuniu dados de vários municípios brasileiros e estimou um modelo de regressão linear múltipla por mínimos quadrados ordinários. A variável dependente foi a taxa de homicídios, e as variáveis independentes incluíam variáveis, como, por exemplo, PIB per capita, média de anos de estudo, índice de Gini e outras variáveis socioeconômicas. Após a estimação, o pesquisador calculou a correlação entre os resíduos e as variáveis independentes e notou que essas correlações foram iguais a zero. Com referência a essa situação hipotética, julgue o próximo item. A ausência de correlação entre as variáveis independentes e os resíduos da regressão mostra que as variáveis independentes são exógenas. Na análise de regressão, uma variável explicativa exógena é aquela que não está correlacionada com a perturbação da variável dependente. Portanto, para avaliar se a variável é realmente exógena, o pesquisador deveria analisar a correlação entre a variável dependente e a explicativa. Porém, nesse caso, ele avaliou a correlação entre a variável independente e o resíduo. E, note que, na realidade, essa é uma das exigências do método dos mínimos quadrados. Estudamos as características adequadas para o resíduo de regressão, que deve apresentar média nula e ser estatisticamente independente da variável explicativa. Portanto, o fato de a correlação entre os resíduos obtidos e as variáveis independentes ter sido nula é apenas uma característica esperada da estimativa por mínimos quadrados, e é prova apenas de que o modelo de regressão linear foi calculado adequadamente usando esse método. Errado. 2 .2 .3 . VaRiÂNcia DO ERRO A estimativa de variância do erro é dada por: Na equação acima, p é o número de variáveis envolvidas na regressão linear – tanto as dependentes como as independentes. Se estivermos falando de uma regressão linear comum, no caso, os salários (Y) pela idade (X) de um grupo de entrevistados, temos duas variáveis. Esse é o caso geral cobrado em questões de prova. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 24 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso No entanto, é útil saber que a mesma expressão poderia ser cobrada para uma regressão múltipla, em que se tem várias variáveis regressoras. Por exemplo, poderíamos avaliar o comportamento dos salários em função da idade e da carga horária semanal de um grupo de pessoas. Nesse caso, teríamos p = 3, pois são três variáveis envolvidas. O grande objetivo de um modelo de regressão linear é que essa estimativa do erro seja menor que a variância amostral obtida para a variável isoladamente. A razão para isso é que o erro ou desvio do modelo de regressão linear diz respeito ao quanto o valor real da variável se afasta em relação à estimativa de regressão linear. Por outro lado, a variância de Y se relaciona ao quanto o valor real da variável se afasta em relação à média da variável Y. Se, por acaso, a estimativa do erro do modelo de regressão linear for superior ao próprio desvio-padrão da variável Y, o nosso modelo está, na verdade, atrapalhando, pois resulta em desvios maiores do que simplesmente considerar a média de Y. Seria, portanto, melhor tomar a média da variável Y como sua estimativa em vez de tomar o nosso modelo de regressão linear. 013. 013. (CESPE/TCE/PA/2016) Uma regressão linear simples é expressa por Y = a + b × X + e, em que o termo e corresponde ao erro aleatório da regressão e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item subsecutivo, no qual os resíduos das amostras consideradas são IID, com distribuição normal, média zero e variância constante. Se, em uma amostra de tamanho n = 25, o coeficiente de correlação entre as variáveis X e Y for igual a 0,8, o coeficiente de determinação da regressão estimada via mínimos quadrados ordinários, com base nessa amostra, terá valor R2 = 0,64. Questão bastante direta. Basta nos lembrarmos de que o coeficiente de determinação é igual ao quadrado da correlação. Certo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 25 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso 014. 014. (CONSULPLAN/TSE/2012) Na análise de regressão múltipla, foram encontrados: • Soma dos Quadrados da Regressão: 40.000. • Soma dos Quadrados dos Erros: 10.000. Assim, o coeficiente de determinação Múltipla dessa regressão é: a) 0,25 b) 0,80 c) 0,75 d) 0,90 O coeficiente de determinação é dado por: Já foi dado o SQReg. Podemos, agora, calcular o SQTot nos lembrando de que: Sendo assim, temos o coeficiente de determinação: Letra b. 015. 015. (FGVSEAD/AP/FISCAL DA RECEITA ESTADUAL/2010) Se no ajuste deuma reta de regressão linear simples de uma variável Y em uma variável X o coeficiente de determinação observado foi igual a 0,64, então o módulo do coeficiente de correlação amostral entre X e Y é igual a: a) 0,24 b) 0,36 c) 0,50 d) 0,64 e) 0,80 O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 26 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Questão clássica. O coeficiente de determinação é igual ao quadrado da correlação. Letra e. 016. 016. (FGV/ISS/RECIFE/ANALISTA DE CONTROLE INTERNO/2014) Numa regressão linear simples, obteve-se um coeficiente de correlação igual a 0,78. O coeficiente de determinação é aproximadamente igual a: a) 0,36 b) 0,48 c) 0,50 d) 0,61 e) 0,69 Outra questão clássica. O coeficiente de determinação é igual ao quadrado da correlação. Letra d. 017. 017. (FEPESE/SEFAZ/SC/ANALISTA FINANCEIRO/2010) Considere que um modelo de regressão qualquer gerou resíduos padronizados que estão representados no diagrama de dispersão a seguir, em função dos valores da variável independente: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 27 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Sobre o modelo de regressão que gerou os resíduos padronizados mostrados no diagrama acima, pode-se afirmar que: a) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam heterocedasticidade. b) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam homocedasticidade. c) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam homocedasticidade. d) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam padrão não aleatório. e) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos padronizados apresentam heterocedasticidade. A variância do erro depende do valor de X, sendo assim, o modelo de regressão utilizado apresenta heterocedasticidade, o que o torna inadequado para representar o relacionamento entre as variáveis. Letra e. 018. 018. (FGV/SEFAZ-RJ/AGENTE FISCAL DE RENDAS/2008) O coeficiente de determinação de um modelo de regressão linear serve como uma importante ferramenta para avaliar o grau de ajustamento do modelo aos dados. A respeito desse coeficiente, assinale a afirmativa incorreta. a) Seu valor varia entre 0 e 1. b) É invariante a uma mudança de escala das variáveis independentes. c) É utilizado para escolher modelos com número de variáveis independentes diferentes. d) É uma função não decrescente no número de variáveis independentes no modelo. e) Representa a participação relativa da soma dos quadrados da regressão sobre a soma dos quadrados total. Como o coeficiente de determinação é igual ao quadrado da correlação, que está entre -1 e 1, então, o coeficiente de determinação realmente ficará entre 0 e 1. Portanto, o item “a” está certo. De fato, também a mudança de escala não altera o coeficiente de determinação. O item “b” está certo. O item “c” é, no mínimo, estranho. Não faz muito sentido, de fato, escolher entre modelos diferentes com variáveis independentes diferentes. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 28 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso No que se refere ao item “d”, de fato, quanto maior o número de variáveis, melhor se ajustará o modelo de regressão linear às variáveis estudadas. Por fim, a definição do coeficiente de determinação é exatamente a que consta na letra “e”, que representa a razão entre a soma dos quadrados da regressão (SQReg) sobre a soma dos quadrados totais (SQTot). Letra c. 2 .2 .4 . GRaUs DE LiBERDaDE Já estudamos anteriormente os conceitos das somas dos quadrados totais, da regressão e dos erros. Considerando que os erros sigam distribuição normal e sejam estatisticamente independentes da variável explicativa, teremos que todas essas somas de quadrados seguem distribuições qui-quadradas. Cada distribuição qui-quadrada é caracterizada pelo seu número de graus de liberdade, que podem ser determinados, se conhecermos duas importantes características: • N: o tamanho das amostras das variáveis explicativas e resposta. • p: o número de variáveis totais envolvidas (explicativas e resposta). Assim, os graus de liberdade importantes de conhecermos são: • total: N – 1. • modelo: p – 1. • erro: N – p. É importante observar que o número de graus de liberdade do erro corresponde à diferença entre os graus de liberdade totais e o do modelo. Assim, podemos escrever: Considero que é importante apenas saber que todas elas seguem distribuição qui- quadrado e seus respectivos graus de liberdade. Apenas isso. Não creio que será necessário trabalhar com as tabelas da distribuição qui-quadrado para as variáveis aleatórias SqTot, SqReg e SqEr. Esses graus de liberdade são importantes também, porque eles aparecem no denominado do cálculo das variâncias. Lembre-se: Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia Federal, aplicada pelo Cespe em 2018. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 29 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Somente com base nessa tabela, podemos determinar que: Assim, podemos concluir que esse modelo foi construído com base: • em duas variáveis aleatórias, sendo uma variável aleatória explicativa e uma variável regressora. Portanto, é um modelo do tipo: • em uma amostra de 901 elementos das variáveis X e Y. Vamos, então, treinar com questões? 019. 019. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +αX + α, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e α são os parâmetros do modelo e α é o erro aleatório. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico 30 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgueo item a seguir. O modelo apresentado possui 2 graus de liberdade. Quanto aos graus de liberdade, sabe-se que: Substituindo os dados do enunciado, temos: Dessa forma, o modelo apresentado possui apenas 1 grau de liberdade. Errado. 020. 020. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2011) Complete a tabela de graus de liberdade para a realização do teste de ANOVA, a tabela deve ser preenchida de acordo os dados da tabela de dados abaixo, para comparar o desempenho de médias entre variáveis X1, X2 e X3: Tabela de graus de liberdade da ANOVA: Os graus de liberdade, respectivamente para o fator (I), para o erro (II) e para o total (III) são: a) 2, 18 e 20. b) 3, 18 e 21. c) 2, 20 e 22. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 31 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso d) 3, 20 e 23. e) 2, 19 e 21. Observe que foram colocados um total de 21 dados (N = 21) na tabela e que foram registrados 3 parâmetros (p = 3). Assim, podemos obter: • Total: N – 1 = 21 – 1 = 20; • Fator: p – 1 = 3 – 1 = 2; • Erro: N – p = 21 – 3 = 18. Letra a. 2 .3 . aNÁLisE DOs cOEFiciENtEs2 .3 . aNÁLisE DOs cOEFiciENtEs 2 .3 .1 . RaZÃO t O objetivo da razão t é determinar se a influência da variável explicativa é realmente significativa ou se ela pode ser materialmente nula. Uma visão muito importante sobre os modelos de regressão linear é que os próprios parâmetros do modelo são aleatórios, porque as variáveis X e Y são aleatórias, e o modelo de regressão linear é obtido a partir de amostras dessas variáveis. Assim, podemos obter o erro padrão. A razão t é a razão entre o valor estimado para o coeficiente e o seu erro padrão. Dessa maneira, temos: A razão t expressa quantos desvios-padrão está o coeficiente afastado de zero. Isso é muito importante, pois, se o coeficiente não está significativamente afastado da origem, o próprio modelo de regressão linear é pouco significativo. Nesse caso, a variável explicativa X é dita exógena. Outra forma de estudar se o modelo de regressão linear é realmente significativo em relação à variável é o valor-p associado aos coeficientes. Nesse caso, utilizam-se as mesmas ferramentas que já havíamos estudado em Testes de Hipóteses. Suponhamos que, em um modelo de regressão linear, a estimativa do coeficiente b > 0 e que seu p-valor seja igual a 10. O que isso significa? O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 32 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Pelas ferramentas de Testes de Hipóteses, isso significa que há uma probabilidade de 10% de que esse coeficiente tenha valor real negativo. Com isso, há uma probabilidade de 10% de que a influência da variável explicativa X sobre a variável resposta Y seja materialmente nula. Vamos ver um exemplo prático dessa análise. 021. 021. (CESPE/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do número mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regressão linear simples da forma. Ŷ = 5 – 0,1 x T, em que Ŷ representa a reta ajustada em função da variável regressora T, tal que 1 ≤ T ≤ 12. Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respectivos p-valores encontram-se na tabela a seguir. Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6. Com base nessas informações, julgue o item a seguir. Considere que a denote o coeficiente angular do modelo de regressão linear simples e considere, ainda, que o teste de hipóteses H0 : a = 0 versus H1 : a ≠ 0. Nessa situação, com referência a esse teste, caso o nível de significância escolhido seja igual a 5%, os resultados do estudo em questão indicarão que não há evidências estatísticas contra a hipótese nula H0 : a = 0. Foi fornecido o erro padrão para o modelo de coeficiente angular igual a 0,064. Esse erro já é muito próximo da própria estimativa do coeficiente. Podemos calcular a estatística normalizada para ele: O enunciado forneceu ainda o p-valor: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 33 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Esse p-valor é maior que 5%. Isso significa que, ao nível de 5% de significância, não temos como garantir que realmente o coeficiente de inclinação seja maior que zero. Portanto, não temos provas estatísticas suficientes contra essa hipótese nula. Em outras palavras, isso significa que o modelo de regressão linear deduzido não garante que o seu próprio coeficiente de inclinação seja significativo. Logo, a influência do parâmetro T sobre Y é muito pequena, materialmente nula. Podemos, então, dizer que a variável T é, na realidade, uma variável exógena, tendo em vista que sua influência sobre o parâmetro Y é pouco significativa. Certo. 2 .3 .2 . Estatística F O teste F tem por objetivo testar a significância global do modelo. Para isso, considere um modelo geral de regressão linear com p parâmetros e p – 1 variáveis independentes: Um modelo é significativo quando tivermos provas estatísticas de que os coeficientes são significativamente diferentes de zero. Para examinar isso, podemos montar um teste de hipóteses com as seguintes hipóteses nula e alternativa: • H 0: β1 = β2 = … = βp–1 = 0 • H 1: pelo menos um dos βi é diferente de zero Para determinar se o modelo é significativo, devemos recorrer ao teste F. Vamos nos recordar da definição da distribuição F de Snedecor. Se V 1 e V2 são duas variáveis aleatórias independentes que seguem distribuições qui- quadradas com graus de liberdade respectivamente iguais a m1 e m2 com média nula. Isto é: Então, a variável F definida como: Segue distribuição qui-quadrado. A distribuição qui-quadrado é obtida pela soma dos quadrados de uma distribuição normal. Considerando que os erros de um modelo de regressão linear seguem distribuição normal e são estatisticamente da variável resposta, então podemos criar a seguinte estatística de teste F: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 34 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Como vimos, tanto o SQReg como SQEr seguem distribuições qui-quadradas. Além disso, o modelo de regressão (SQReg) tem p – 1 graus de liberdade e os erros (SQEr) possuem N – p graus de liberdade. Assim, temos: O objetivo da estatística F é que ela testa a aderência do modelo como um todo, e não somente de cada coeficiente isoladamente. O valor calculado deve, então, ser comparado com a estatística crítica que é fornecida nas tabelas da distribuição F com os números de graus de liberdade apropriados, ou, ainda, com o auxílio de softwares de estatística, como o R ou até mesmo Excel com a função =INV.F. Se a estatística F for superior ao valor crítico, então, o modelo serásignificativo. Eu sei que você pode ter achado complicada a teoria. Mas, em termos práticos, em questões de prova tudo o que você precisa fazer é: • calcule a estatística F pela expressão: • • compare com a estatística crítica que, na hora da prova, pode ser fornecida por meio de uma tabela; • se for maior, conclua que o modelo é significativo. Caso contrário, conclua que o modelo não é significativo. Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia Federal, aplicada pelo Cespe em 2018. Queremos Podemos calcular a estatística F referente ao modelo de regressão linear como: O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 35 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Com o auxílio do Excel, podemos calcular a estatística limite usando o comando =INV.F(0,95; 1; 899) – usamos 0,95, porque o Excel calcula a distribuição acumulada. E, assim, obtemos a estatística crítica: Como F = 1153,8 > Fcrítico, podemos concluir que o modelo de regressão linear em estudo é significativo. Vejamos agora uma questão de prova sobre essa estatística. 022. 022. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICO/2020) Numa regressão linear simples em que foi utilizada uma amostra com 52 observações, a soma dos quadrados totais é de 50 e a soma dos quadrados dos resíduos é de 20. O coeficiente de determinação e a estatística F dessa regressão são, respectivamente: a) 0,6 e 75. b) 0,6 e 12. c) 0,8 e 1,5. d) 0,8 e 12. e) 0,8 e 75. O coeficiente de determinação pode ser obtido como a relação entre a soma dos quadrados da regressão (SQR) e a soma dos quadrados totais (SQT). Assim, temos: A soma dos quadrados da regressão (SQR) não foi fornecida. Porém, ela pode ser obtida como a diferença entre a soma dos quadrados totais (SQT) e a soma dos quadrados dos resíduos ou erros (SQE): A estatística F, por sua vez, pode ser obtida como: Letra a. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 36 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso RESUMORESUMO cOEFiciENtEs Análise dos Resíduos sOMa DOs QUaDRaDOs Da REGREssÃO O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 37 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso GRaUs DE LiBERDaDE • total: N – 1. • modelo: p – 1. • erro: N – p. cOEFiciENtE DE DEtERMiNaÇÃO VaRiÂNcia DO ERRO Estatística F O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 38 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso MAPA MENTALMAPA MENTAL O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 39 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso EXERCÍCIOSEXERCÍCIOS 001. 001. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Num modelo de regressão linear pelo método dos mínimos quadrados, sabe-se que a inclinação da reta é a = 3,24 e o intercepto da reta é b = 12,6, então o valor de para x = 30 é: a) 126,8 b) 136,8 c) 116,2 d) 108,2 e) 109,8 002. 002. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICO/2020) A variável x tem média 4 e desvio padrão 2, enquanto a variável y tem média 3 e desvio padrão 1. A covariância entre x e y é –1. A equação estimada da regressão linear simples de y por x é: a) y = 2 – 0,25x. b) y = 3 – 0,5x. c) y = 3 – x. d) y = 4 – x. e) y = 4 – 0,25x. 003. 003. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em uma análise de regressão, se o coeficiente de determinação r² = 1, então: (Considere SQT = Soma de quadrados total; SQE = Soma de quadrados do erro; SQR = Soma de quadrados da regressão.) a) SQE = SQT. b) SQE = 1. c) SQR = SQE. d) SQR = SQT. e) SQR > SQT. 004. 004. (IBFC/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICA/2020) Um modelo de regressão linear simples foi gerado para explicar vendas (Y, em milhares de reais) a partir de propaganda (X, em centenas de reais). Algumas informações do modelo são apresentadas: Equação de regressão estimada: Y=12 + 1,8X Tamanho da amostra: 17 observações. Soma de quadrados da regressão: 225,00. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 40 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Soma de quadrados dos resíduos: 75,00. Sb1= 0,27. Considere as seguintes afirmações: I – De acordo com a equação de regressão estimada, um gasto de R$ 1.000,00 em propaganda resulta em vendas estimadas de R$ 40.000,00. II – O coeficiente de determinação do modelo (R²) é de 75%. III – A cada incremento unitário em X, espera-se que Y aumente 1,8. Estão corretas as afirmativas: a) I apenas b) I e II, apenas c) I e III, apenas d) II e III, apenas 005. 005. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA POLICIAL FEDERAL/2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. A respeito dessa situação hipotética, julgue o item a seguir. O coeficiente de explicação do modelo (R2) foi superior a 0,70. 006. 006. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidaspelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal 41 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. A respeito dessa situação hipotética, julgue o item a seguir. A média amostral da variável resposta y foi superior a 30 horas. 007. 007. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Dentre os gráficos abaixo, o que melhor representa um coeficiente de correlação linear próximo de -0,23 é: a) b) c) d) e) 008. 008. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Considerando o relacionamento entre a variável independente X e a variável dependente Y, mostrado na figura abaixo, assinale a alternativa correta. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br 42 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso a) O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%. b) O relacionamento entre X e Y é fraco e não deve ser considerado. c) Não existe relação linear entre as variáveis analisadas. d) O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y. e) O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y. 009. 009. (FCC/SEFAZ-BA/AUDITOR-FISCAL/ADMINISTRAÇÃO TRIBUTÁRIA/PROVA II/2019) Em uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre o número de horas trabalhadas (X), com X ≥ 2, e as quantidades produzidas de um produto (Y). Com base em 10 pares de observações (Xi,Yi) e considerando o gráfico de dispersão correspondente, optou-se por utilizar o modelo linear Yi = α + βXi + εi, com i representando a i-ésima observação, ou seja, i = 1, 2, 3,... 10. Os parâmetros α e β são desconhecidos e as suas estimativas (a e b, respectivamente) foram obtidas pelo método dos mínimos quadrados. Observação: εi é o erro aleatório com as respectivas hipóteses do modelo de regressão linear simples. Considere o gráfico, abaixo, construído utilizando os valores encontrados para as estimativas de α e β. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2019-sefaz-ba-auditor-fiscal-administracao-tributaria-prova-ii 43 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações Yi quando o número de horas trabalhadas for igual a: a) 20. b) 24. c) 22. d) 18. e) 12. 010. 010. (CESPE/CGE-CE/CONHECIMENTOS BÁSICOS/2019) Considerando-se que, em uma regressão múltipla de dados estatísticos, a soma dos quadrados da regressão seja igual a 60.000 e a soma dos quadrados dos erros seja igual a 15.000, é correto afirmar que o coeficiente de determinação — R² — é igual a: a) 0,75. b) 0,25. c) 0,50. d) 0,20. e) 0,80. 011. 011. (CESPE/DEPEN/AGENTE PENITENCIÁRIO FEDERAL/ÁREA 4/2014) A tabela mostrada apresenta a quantidade de detentos no sistema penitenciário brasileiro por região em 2013. Nesse ano, o déficit relativo de vagas — que se define pela razão entre o déficit de vagas no sistema penitenciário e a quantidade de detentos no sistema penitenciário — registrado O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2019-cge-ce-conhecimentos-basicos https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-depen-agente-penitenciario-federal-area-4 44 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso em todo o Brasil foi superior a 38,7%, e, na média nacional, havia 277,5 detentos por 100 mil habitantes. Com base nessas informações e na tabela apresentada, julgue o item a seguir. Considerando que a figura a seguir apresente o diagrama de dispersão entre o tamanho populacional da região (em milhões de habitantes) e a população carcerária correspondente (em mil pessoas), então é correto afirmar que a população carcerária tende a crescer linearmente à medida que a população da região aumenta. 012. 012. (FCC/TRT 5ª REGIÃO-BA/ANALISTA JUDICIÁRIO/ESTATÍSTICA/2013) Utilizando o método dos mínimos quadrados, obteve-se o ajustamento do modelo linear Zi = α + βXi + γYi +εi , i = 1, 2, 3,..., em que Z é a variável dependente, X e Y são as variáveis explicativas, i corresponde a i-ésima observação, α, β e γ são parâmetros desconhecidos e εi o erro aleatório, com as respectivas hipóteses consideradas para a regressão linear múltipla. O ajustamento foi encontrado com base em uma amostra aleatória de 20 ternos (Xi , Yi , Zi ) apurando-se as estimativas de α, β e γ. Dados do correspondente quadro de análise de variância: A estimativa da variância populacional do modelo teórico (σ²), com base nos dados da amostra, é igual a: a) 15,300. b) 16,150. c) 17,100. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2013-trt-5-regiao-ba-analista-judiciario-estatistica 45 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso d) 18,165. e) 19,380. 013. 013. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que , julgue o item subsequente relativo ao referido ajuste. A estimativa da variância de é inferior a 3. 014. 014. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) UM estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as estimativas de mínimos quadrados ordinários dos coeficientesda reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que , julgue o item subsequente relativo ao referido ajuste. A estimativa da variância do erro aleatório em torno da tendência ajustada é superior a 27. 015. 015. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica 46 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que , julgue o item subsequente relativo ao referido ajuste. No período de 2010 a 2014, a média aritmética do índice Y foi igual a 30. 016. 016. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os parâmetros do modelo e ε é o erro aleatório. Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgue o item a seguir. A porcentagem estimada de estudantes cotistas é menor que 50%. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α e β são os parâmetros do modelo e ε é o erro aleatório. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico 47 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso Com base nas informações e na tabela apresentadas, sabendo-se que e Var(X) = 0,2487 e considerando que 3,84 seja o valor aproximado de . Julgue os itens a seguir. 017. 017. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) O coeficiente de determinação é maior que 0,7. 018. 018. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Julgue o item a seguir: A variância de Y é menor que 10. 019. 019. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. Dadas as hipóteses H0: µ = 8 e H1: µ ≠ 8, e sabendo-se que foi utilizada uma amostra de tamanho 25, que a variável em estudo X segue uma distribuição normal com média µ e variância 4 e que, para α = 0,05, Φ(-1,96) = 0,05 então o valor crítico para esse teste é aproximadamente 7,216. 020. 020. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica 48 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. O coeficiente de determinação é aproximadamente 0,59. 021. 021. (FGV/IBGE/TECNOLOGISTA/ESTATÍSTICA/2016) Após estimar um modelo de regressão linear múltipla, por MQO, um econometrista repara que, por algum motivo, a tabela contendo os resultados da análise da variância ficou incompleta, conforme abaixo: Apesar dos valores acima omitidos, é correto afirmar que: a) a equação de regressão tem cinco variáveis explicativas; b) o coeficiente de determinação R2 é igual a 0,8; c) ao nível de significância de 2% não se rejeita a hipótese nula de que o modelo explica a variável dependente; d) o tamanho da amostra é n = 20; e) a estimativa não tendenciosa da variância dos erros aleatórios do modelo é igual a 80. 022. 022. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo sua matriz de análise de variância (ANOVA) apresentada abaixo. A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência estatística. Foram utilizados 19 dados para a estimação do modelo de regressão linear. O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal. https://www.gran.com.br https://www.gran.com.br https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2016-ibge-tecnologista-estatistica https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica 49 de 102gran.com.br Estatística Regressão Linear Thiago Cardoso (CESPE/POLÍCIA FEDERAL/2021) UM estudo objetivou avaliar a evolução do número mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regressão
Compartilhar