Buscar

2023-10-20-10-17-17-39949830-regressao-linear-e1697807837

Prévia do material em texto

ESTATÍSTICA
Regressão Linear
Livro Eletrônico
Presidente: Gabriel Granjeiro
Vice-Presidente: Rodrigo Calado
Diretor Pedagógico: Erico Teixeira
Diretora de Produção Educacional: Vivian Higashi
Gerência de Produção de Conteúdo: Magno Coimbra
Coordenadora Pedagógica: Élica Lopes
Todo o material desta apostila (incluídos textos e imagens) está protegido por direitos autorais 
do Gran. Será proibida toda forma de plágio, cópia, reprodução ou qualquer outra forma de 
uso, não autorizada expressamente, seja ela onerosa ou não, sujeitando-se o transgressor às 
penalidades previstas civil e criminalmente.
CÓDIGO:
231016093031
THIAGO CARDOSO
Engenheiro eletrônico formado pelo ITA com distinção em Matemática, analista-
chefe da Múltiplos Investimentos, especialista em mercado de ações. Professor 
desde os 19 anos e, atualmente, leciona todos os ramos da Matemática para 
concursos públicos.
 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
3 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
SUMÁRIO
Apresentação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1. Parâmetros do Modelo de Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Estimador de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Reta Passando pela Origem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Regressão Multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2. Avaliação do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1. Análise dos Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Análise dos Coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Mapa Mental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Gabarito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Gabarito comentado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
4 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
aPREsENtaÇÃOaPREsENtaÇÃO
Olá, aluno(a), seja bem-vindo(a) a mais uma aula de Estatística. Hoje, falaremos sobre 
Regressão Linear.
Houve um tempo em que esse tema era praticamente inexplorado pelas provas de 
concurso. Porém, isso mudou. Considerando o panorama atual dos concursos, que estão, 
cada vez mais, valorizando a parte de Estatística Inferencial, devo lhe advertir de que esse 
é um dos temas mais importantes atualmente.
Mas fique tranquilo(a). Você verá que a grande maioria das questões de Regressão 
Linear podem ser resolvidas com simples aplicações de fórmulas. Você raramente precisará 
desenvolver raciocínios complexos ou contas sofisticadas. Memorize as fórmulas e você 
terá sucesso nas questões desse tópico.
Pronto(a) para começar?
 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
5 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
REGRESSÃO LINEARREGRESSÃO LINEAR
1 . iNtRODUÇÃO1 . iNtRODUÇÃO
A Regressão Linear é uma técnica muito utilizada em todas as áreas que se utilizam de 
gráficos e números. Ela tem por objetivo estudar o comportamento de uma variável em 
função da outra.
Por exemplo, consideremos um estudo social sobre a idade e o salário de um grupo 
de pessoas.
Como pessoas da mesma idade podem ter salários diferentes, o gráfico mais adequado 
para representar essas duas variáveis é o gráfico de dispersão.
Figura 1: Gráfico de Dispersão de Salários pela Idade de um Grupo de Pessoas
O gráfico de dispersão nos mostra que, de maneira geral, o salário de uma pessoa cresce 
com a sua idade.
Não se trata de um comportamento absoluto. Por exemplo, há duas pessoas de 40 anos 
na pesquisa: uma delas tem o salário de pouco acima de 5,00 e outra em torno de 15,00. 
Também podemos encontrar uma pessoa de 25 anos que ganha mais que outra pessoa 
de 40 anos.
Porém, há uma tendência de que os salários cresçam em função da idade.
A fim de avaliar essa tendência, podemos traçar uma linha de tendência.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
6 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Figura 2: Linha de Tendência no Gráfico de Dispersão de Salários pela Idade
No gráfico, temos algumas definições interessantes:
• Variável independente, regressora, explicativa ou preditora: é a variável principal. 
No caso, é a variável idade, geralmente chamada de X. A variável independente é, 
também, chamada de explicativa ou preditora, porque ela é utilizada para explicar 
o comportamento da variável dependente e prever seus valores futuros.
• Variável dependente ou resposta: é a variável cujos valores são observados em 
função da variável independente.
No caso em apreço, é a variável salários, geralmente chamada de Y.
Quando aumentamos a idade de um grupo de entrevistados, é natural esperarmos um 
aumento de seu salário médio em resposta a essa variação de idade.
1 .1 . PaRÂMEtROs DO MODELO DE REGREssÃO LiNEaR1 .1 . PaRÂMEtROs DO MODELO DE REGREssÃO LiNEaR
O valor real da variável dependente é expresso no modelo de regressão linear pela soma:
A estimativa é a estimativa feita pelo método de regressão linear e corresponde à 
linha de tendência que pode ser traçada no gráfico (Y x X).
O conteúdo deste livro eletrônico é licenciado para ANTONIOMARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
7 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Por outro lado, o erro ou desvio corresponde aos desvios dos valores reais de Y em 
torno da linha de tendência. Como pode ser bem visualizado na Figura 2, nem sempre os 
valores reais observados para a variável Y se encaixam perfeitamente nos valores obtidos 
pelo método de regressão linear.
Por isso, existe o erro de estimativa. Teremos uma seção mais adiante dedicada 
exclusivamente a comentar sobre esse fator. O erro de estimativa é dado pela diferença 
entre o valor real e a estimativa:
Em geral, os modelos de regressão linear têm por objetivo diminuir esse erro segundo 
algum critério.
Por hora, vamos comentar sobre os parâmetros a e b que definem o modelo de 
regressão linear.
O parâmetro b é o mais importante e está relacionado à inclinação da linha de tendência. 
Quanto maior o parâmetro b, maior será a variação na variável Y em resposta a um aumento 
da variável X.
Por outro lado, o parâmetro a é chamado de intercepto, pois corresponde ao ponto 
em que a linha de tendência intercepta o eixo dos Y. Isso acontece porque, quando X = 0, 
temos que a estimativa linear para Y será igual a esse parâmetro.
Agora, vamos aprender formas de calcular esses coeficientes.
1 .2 . EstiMaDOR DE MíNiMOs QUaDRaDOs1 .2 . EstiMaDOR DE MíNiMOs QUaDRaDOs
O estimador de mínimos quadrados é aquele que tem por objetivo minimizar a seguinte 
função de custo:
Ou seja, pegamos o quadrado de todos os desvios encontrados e somamos. O estimador 
de mínimos quadrados é aquele que minimiza essa soma.
A importância de somar os quadrados está no fato de que é dessa forma que consideramos 
todos os desvios para a esquerda e para direita (negativos ou positivos) como contribuintes 
para aumentar o erro total de estimativa. É exatamente o mesmo princípio do desvio-padrão.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
8 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
É possível demonstrar, por meio de cálculo diferencial, o que está além do escopo deste 
material, que o parâmetro b que minimiza essa soma é dado por:
É bastante interessante que, para um problema tão complexo quanto a regressão linear, 
tenhamos uma solução razoavelmente simples e elegante. Basta dividir a covariância entre 
as duas variáveis pela variância da variável regressora.
É natural, ainda, que as questões tentem confundi-lo(a). Elas vão colocar a variância da 
variável resposta no denominador ou trocar a covariância pela correlação.
É possível, sim, obter uma expressão coeficiente b pela correlação, mas ela será 
ligeiramente diferente. Vejamos:
Primeiramente, precisamos nos lembrar de que a correlação é igual à covariância dividida 
pelo produto dos desvios-padrões.
Agora, podemos nos lembrar de que a variância é igual ao quadrado do desvio-padrão. 
Portanto, temos para o coeficiente de inclinação:
Não considero necessário memorizar essa expressão, mas é interessante que você tenha 
visto a forma como chegamos até ela, porque isso pode ser exigido em questões de prova.
Para o coeficiente a, considero que a forma mais fácil de se lembrar é partir do princípio 
de que a média da estimativa deve ser igual à média da variável real.
Usando o fato de que o valor esperado é linear, temos que:
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
9 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
(CESPE/TCE/PA/2016) Uma regressão linear simples é expressa por Y = a + b × X + e, em que o 
termo e corresponde ao erro aleatório da regressão e os parâmetros a e b são desconhecidos 
e devem ser estimados a partir de uma amostra disponível. Assumindo que a variável X é não 
correlacionada com o erro e, julgue o item subsecutivo, no qual os resíduos das amostras 
consideradas são IID, com distribuição normal, média zero e variância constante.
001. 001. Para uma amostra de tamanho n = 25, em que a covariância amostral para o par de 
variáveis X e Y seja Cov(X, Y) = 20,0, a variância amostral para a variável Y seja Var(Y) = 4,0 
e a variância amostral para a variável X seja Var(X) = 5,0, a estimativa via estimador de 
mínimos quadrados ordinários para o coeficiente b é igual a 5,0.
O coeficiente b é dado por:
Errado.
002. 002. A variável Y é denominada variável explicativa, e a variável X é denominada variável 
dependente.
Como a regressão linear é escrita da forma Y = a + bX, temos que a variável Y é descrita 
em função da variável X. Sendo assim, a variável Y é a variável dependente ou resposta, 
enquanto a variável X é a variável explicativa.
Errado.
003. 003. Considere que as estimativas via método de mínimos quadrados ordinários para 
o parâmetro a seja igual a 2,5 e, para o parâmetro b, seja igual a 3,5. Nessa situação, 
assumindo que X = 4,0, o valor predito para Y será igual a 16,5, se for utilizada a reta de 
regressão estimada.
Calcularemos o valor predito para Y usando os dados fornecidos no enunciado.
Certo.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
10 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
004. 004. (ESAF/SUSEP/ANALISTA TÉCNICO/2010) A partir de uma amostra aleatória 
,foram obtidas as estatísticas:
• Médias: ;
• Variâncias Amostrais: SX² = 30 e SY² = 54;
• Covariância: SXY = 36.
Qual é a reta de regressão estimada de Y em X?
a) 
b) 
c) 
d) 
e) 
Podemos calcular o coeficiente de inclinação:
Para calcular o coeficiente de intercepto por meio das médias:
Dessa forma, a reta de regressão estimada é:
Letra c.
005. 005. (FGV/DPE/RJ/TÉCNICO SUPERIOR ESPECIALIZADO/ESTATÍSTICO/2014) Considere a 
equação de regressão Yi = α + β. Xi + εi onde Y e X são as variáveis explicada e explicativa, 
respectivamente, ε é o erro aleatório e α e β os parâmetros a estimar. São supostos válidos 
todos os pressupostos clássicos do Modelo de Regressão Linear Simples (MRLS). Além disso, 
para determinada amostra de pares (X,Y), foram calculadas as estatísticas p ( X, Y ) = 0,8, 
 6, = 15, DP (Y ) = 5 e DP ( X ) = 2. Portanto, a partir do método de Mínimos Quadrados 
Ordinários os estimadores de α e β são
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
11 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
a) 2 e 3
b) 3 e 2
c) -9 e 4
d) 4 e -9
e) 6 e 1,5
O coeficiente de inclinação é dado por:
Não nos foi fornecida a covariância, porém podemos calculá-la a partir da correlação:
Sendo assim, temos:
Por outro lado, o coeficiente de intercepto é dado pelas médias:
Letra b.
1 .3 . REta PassaNDO PELa ORiGEM1 .3 . REta PassaNDO PELa ORiGEM
Nesse caso, deseja-se fazer um ajuste forçando o coeficientede intercepto a ser 
igual a zero.
Dessa forma, o coeficiente de inclinação b é dado por uma expressão ligeiramente 
diferente:
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
12 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Não temos muito o que comentar. Basta apenas decorar a expressão. Observe bem se 
o modelo de regressão linear é fornecido também da forma Y = bX + erro. Se não houver 
intercepto, é a chave para utilizar a expressão acima.
006. 006. (CESPE/TCU/ANALISTA DE CONTROLE EXTERNO/2008) Uma agência de desenvolvimento 
urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis 
ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007.
A estimativa do valor do coeficiente a da reta de regressão Y = aX, em que Y representa 
o número esperado de imóveis vendidos para uma quantidade X de imóveis ofertados, é 
superior a 0,23 e inferior a 0,26.
Como o enunciado fala numa reta Y = aX sem o coeficiente de intercepto, devemos utilizar 
a expressão da reta passando pela origem:
Quando o denominador termina em 25, o modo mais fácil de fazer a conta é multiplicando 
por 4:
Certo.
(CESPE/TCE/RN/INSPETOR/2015) Para k = 1,..., 5, um modelo de regressão linear é dado 
por em que e representam, respectivamente, os valores da variável 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
13 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
resposta e da variável regressora do k-ésimo elemento da amostra, e representa o erro 
aleatório. Os erros aleatórios ε1,..., ε5 são independentes e identicamente distribuídos.
Cada erro segue uma distribuição normal com média zero e variância V. Sabendo que:
Julgue os itens a seguir.
007. 007. A estimativa de mínimos quadrados ordinários do coeficiente a é igual ou superior a 1.
Mais uma vez, temos o modelo Y = aX + erro, sem o coeficiente de intercepto. Sendo assim, 
devemos utilizar a expressão da reta passando pela origem:
Errado.
008. 008. A variável aleatória yk, para k = 1,..., 5, segue uma distribuição normal com variância V.
O modelo de regressão linear fornecido é:
Como os valores da variável regressora são determinísticos, temos que a única fonte de 
erro para o valor de y é o erro aleatório, que é normal gaussiano de variância V.
Sendo assim, Y seguirá uma normal com a mesma variância do erro aleatório fornecido e 
com média igual ao produto ax.
Certo.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
14 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
009. 009. A estimativa da variância V é igual ou inferior a 1,5.
A resolução mais comum, mais simples e que eu acredito que o CESPE esperava que os 
alunos apresentassem na hora da prova é a seguinte.
Podemos utilizar que a variância do erro é menor ou igual à variância de Y a priori, ou seja, 
antes do modelo de regressão linear:
Nesse caso, como existe correlação entre X e Y, podemos descartar o sinal de igual. Logo, 
a variância V será:
Portanto, a variância realmente é inferior a 1,5. Eu apresentei essa solução, pois é um recurso 
que você pode utilizar e será bem mais fácil do que calcular precisamente a estimativa da 
variância do erro.
No entanto, é possível obter o valor preciso da estimativa da variância do erro utilizando 
fórmulas que já conhecemos. Sabemos que:
Vamos nos lembrar da definição dos resíduos:
Como temos todos os valores fornecidos, podemos dizer que:
Agora, podemos calcular a estimativa da variância do erro:
Portanto, isso nos levaria a concluir que o gabarito é errado. E, nesse momento, o(a) aluno(a) 
se questionaria: mas a variância do erro a posteriori não deveria ser menor que a variância 
a priori, que é 1,5?
A resposta é que isso realmente só pode ser garantido quando a amostra é grande. Não se 
pode fazer um modelo de regressão linear com uma amostra muito pequena de apenas 5 
elementos. O mesmo pode ser dito para vários e vários estimadores.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
15 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Por conta disso, considero uma pequena tragédia essa adaptação feita para uma questão 
de prova.
Na vida prática, você nunca fará regressão linear com uma amostra de 5 elementos, precisará 
de mais dados. Quando a regressão é feita com poucos dados, ela pode, sim, ser pouco 
efetiva.
A despeito disso, nenhum recurso foi elaborado e a banca manteve o gabarito oficial. Mas 
eu não poderia deixar de registrar a minha contrariedade a esse gabarito.
Certo.
1 .4 . REGREssÃO MULtiVaRiaDa1 .4 . REGREssÃO MULtiVaRiaDa
 Obs.: Se você não conhece o assunto Matrizes, esta matéria será muito difícil e creio que 
não vale a pena estudá-la.
Suponhamos que nós queremos escrever y como uma regressão linear em mais de uma 
variável independente:
Daremos o nome de x ao vetor (matriz linha) formado por todas as variáveis independentes. 
No caso, temos:
Os coeficientes b também podem ser agrupados em um vetor (matriz coluna).
Para calcular o vetor B, precisamos anotar todas as observações das variações x1, x2 
etc. em uma matriz. Essa matriz terá o número de colunas igual ao número de variáveis e 
o número de linhas igual ao número de observações.
Dessa forma, o vetor B será dado por:
Nessa notação, X’ corresponde à matriz transposta das observações de X, em que X 
representa as observações da variável X.
Sinceramente, eu creio que não faça o menor sentido cobrar esse assunto numa prova 
de concurso. Porém, o CESPE já cobrou uma vez no TCU-2015.
De qualquer forma, se você for capaz de entender matrizes, vale a pena saber a fórmula 
da regressão linear múltipla. Mas nem se preocupe em entender esse assunto em muitos 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
16 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
detalhes. Nem mesmo nas provas específicas para Estatísticos ele costuma aparecer em 
maior nível de dificuldade.
010. 010. (CESPE/TCU/AUDITOR FEDERAL DE CONTROLE EXTERNO/2015) Com o objetivo de 
modelar a arrecadação anual do ICMS em municípios brasileiros (y), o modelo de regressão 
linear múltipla foi representado, na forma matricial, como y = Xβ + ε, em que y representa 
o vetor de respostas, X denota a matriz de delineamento, β é o vetor de parâmetros e ε é 
o vetor de erros aleatórios independentes e identicamente distribuídos. Considerando-se 
que X’ representa a transposta da matriz de delineamento, apresenta-se a seguir a matriz 
inversa do produto matricial X’X produzida no modelo.
Com base nessas informações e sabendo que:
, julgue o próximo item.A estimativado vetor de parâmetros produzida pelo método de mínimos quadrados ordinários 
é:
Observe que o enunciado já deu todas as matrizes trabalhadas para o(a) aluno(a). Basta 
multiplicar:
Certo.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
17 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
2 . aVaLiaÇÃO DO MODELO2 . aVaLiaÇÃO DO MODELO
Agora, vamos falar um pouco mais sobre o erro de estimativa. Algumas características 
importantes que o erro deve apresentar:
• média nula: o erro deve apresentar média nula. Caso o erro apresentasse qualquer 
desvio médio, o estimador seria claramente viesado e, portanto, essa média deveria 
ter sido incluída no parâmetro a.
Pense, por exemplo, que você está fazendo uma pesquisa sobre o salário médio de um 
grupo de pessoas. Então, você descobre que, em média, a sua pesquisa erra o salário médio 
das pessoas em 1,00 unidade para cima.
Isso significa, na verdade, que a sua linha de tendência está mal posicionada e que ela 
deveria ter aparecido 1,00 unidade para baixo.
• independente da variável X: se houvesse qualquer dependência da variável X, isso 
significaria que esse fator deveria ter sido incluído no modelo. Essa propriedade 
também é conhecida pelo nome de homocedasticidade.
Quando existe dependência entre o erro e a variável X, é bastante provável que o modelo 
de regressão linear não se adapte bem ao sistema que está sendo estudado.
Dito isso, existem algumas métricas importantes de avaliação do erro em modelos de 
regressão linear. Primeiramente, vejamos uma ideia geral sobre ele.
2 .1 . aNÁLisE DOs REsíDUOs2 .1 . aNÁLisE DOs REsíDUOs
A estimativa de um modelo de regressão linear corresponde à linha reta que pode ser 
derivada diretamente dos coeficientes de inclinação e intercepto, como constam no modelo.
Os resíduos da variável resposta, por sua vez, correspondem às diferenças entre o valor 
correto dessa variável e as suas estimativas. 
O gráfico de resíduos é um gráfico que dispõe os resíduos da variável resposta em 
função da variável explicativa, e ele é uma importante ferramenta para a avaliação de um 
modelo de regressão linear.
Pelas características ideias de um erro, um gráfico de resíduos saudável, sem 
problemas, deve:
• não viesado: isto é, a média dos resíduos deve ser igual a zero;
• homocedásticos: o desvio padrão dos resíduos é independente da variável aleatória 
independente.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
18 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Vejamos na Figura 3 um exemplo ideal dessa situação.
Figura 3: Exemplo de um gráfico de resíduos sem problemas
Agora, vejamos alguns problemas que podem ser notados com a análise do gráfico 
de resíduos.
• Heterocedasticidade: a variância dos erros apresenta um comportamento heterogêneo 
em função da variável independente (X).
Figura 4: Resíduos Heterocedásticos
• Assimetria: a média dos erros não é nula, portanto, o coeficiente de intercepto deve 
ser ajustado.
Figura 5: Resíduos Assimétricos
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
19 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
• Resíduos extremos: a presença de alguns resíduos muito distantes do padrão dos 
demais indica a presença de dados atípicos nas suas observações.
Figura 6: Resíduos Extremos
Esses dados atípicos podem ser meros frutos da aleatoriedade. Pense, por exemplo, 
que você estuda o salário das pessoas em função da sua idade e descobre um jovem de 20 
anos que ganha 50 salários-mínimos por mês. Seria uma observação bastante atípica, não 
é? É possível de acontecer, mas certamente é bem raro.
Mas, vale notar que esses dados atípicos também podem ser oriundos de erros de 
medidas. Pense, por exemplo, que você está estudando as velocidades de carros em uma 
via e descobre um carro que atravessou o radar acima de 500 km/h. Há uma grande chance 
de essa medida ter sido um erro do radar.
• Não linearidade: quando se observa uma linha de tendência nos resíduos que não 
é uma linha reta.
Figura 7: Linha de Tendência não linear
Nesse gráfico, observamos uma linha de tendência não linear, o que mostra que uma 
estimativa Ŷ = a + bX não é suficiente para descrever a variável Y em função de X. Seria 
preciso incluir também a relação não linear entre as duas variáveis.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
20 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
011. 011. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em um gráfico de 
resíduos em uma análise de regressão, são exibidos:
a) Resíduos da variável explicativa versus resíduos da variável de resposta.
b) Resíduos da variável explicativa versus a variável de resposta.
c) A variável explicativa versus a variável de resposta.
d) A variável explicativa sobre o eixo x, contra a variável resposta sobre o eixo y
e) A variável explicativa versus resíduos da variável resposta.
O gráfico de resíduos tem por objetivo estudar os resíduos da variável resposta em função 
da variável explicativa, que correspondem à diferença entre o valor correto e a estimativa 
da variável resposta.
Letra e.
2 .2 . aNÁLisE DE VaRiÂNcia2 .2 . aNÁLisE DE VaRiÂNcia
Voltemos ao caso da dispersão dos salários pela idade. Antes da regressão linear, 
tínhamos uma lista de salários de diversas pessoas e poderíamos calcular a sua média e o 
seu desvio-padrão.
Podemos observar dois tipos de desvios a serem calculados:
• Soma dos Quadrados Totais SQTot (antes): corresponde aos desvios em relação à 
média da variável Y, ou seja, antes de se fazer qualquer estimativa de regressão linear.
Perceba que esse fator é diretamente relacionado ao desvio-padrão (ou à variância SYY) 
da variável resposta.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
21 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Utilizamos (N-1) no denominador, pois consideramos a variância amostral, que será o 
caso da maior parte das questões envolvendo regressão linear.
• Soma dos Quadrados dos Erros ou Resíduos, SQRes ou SQEr (depois): é a soma dos 
quadrados dos erros ou resíduos de estimativa. Corresponde aos desvios em relação 
às estimativas lineares, ou seja, depois da regressão linear.
É natural esperar que a soma dos erros depois da regressão linear seja menor que a soma 
dos erros antes da regressão linear. Afinal, é para isso que serve essa técnica: melhorar a 
estimativa da variável Y.
Assim, define-se:
• Soma dos Quadrados da Regressão SQReg: é a melhoria ou redução dos erros. Tem-se:
Pode-se provar que a soma dos quadrados da regressãose relaciona com a variância 
entre as variáveis.
A soma dos quadrados da regressão também pode ser relacionada com a variância da 
regressora. Para isso, devemos nos lembrar de que:
Substituindo na expressão acima, temos:
Temos, então, duas expressões muito úteis para o cálculo da soma dos quadrados do 
modelo de regressão:
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
22 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
2 .2 .1 . cOEFiciENtE DE DEtERMiNaÇÃO OU EXPLicaÇÃO
Esse é disparadamente o assunto mais cobrado em questões de prova.
O coeficiente de determinação (R²) é dado pela razão de melhoria. Isto é, o quanto 
o modelo de regressão melhorou os erros da variável resposta sobre o quanto os erros 
eram antes.
Pode-se demonstrar – e esse é disparado o assunto mais cobrado em questões de prova 
– que o coeficiente de determinação é igual ao quadrado da correlação.
Assim como a variância, o coeficiente de determinação (R²) tem o seu símbolo R². Não caia 
no erro de tirar a raiz, tudo bem? Lembre-se da relação importantíssima:
2 .2 .2 . VaRiÁVEis ENDÓGENas E EXÓGENas
Trata-se de uma definição simples, porém de suma importância. Uma variável explicativa 
pode ser classificada como:
• endógena: quando está correlacionada com a perturbação (chamada endogeneidade), 
portanto o coeficiente de determinação do modelo de regressão linear é significativo;
• exógena: quando está descorrelacionada com a perturbação (chamada exogeneidade), 
portanto o coeficiente de determinação do modelo de regressão linear é muito 
pequeno, próximo a zero.
Vale observar que, como a correlação não implica causalidade, é bastante possível que 
a correlação observada seja fruto de erros de medição ou, até mesmo, da aleatoriedade. A 
endogeneidade não é uma prova definitiva de que há alguma relação entre as duas variáveis.
Os modelos estatísticos servem apenas como um indicativo inicial de pesquisa.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
23 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
012. 012. (CESPE/PCDF/2021) Determinado pesquisador reuniu dados de vários municípios 
brasileiros e estimou um modelo de regressão linear múltipla por mínimos quadrados 
ordinários. A variável dependente foi a taxa de homicídios, e as variáveis independentes 
incluíam variáveis, como, por exemplo, PIB per capita, média de anos de estudo, índice 
de Gini e outras variáveis socioeconômicas. Após a estimação, o pesquisador calculou a 
correlação entre os resíduos e as variáveis independentes e notou que essas correlações 
foram iguais a zero.
Com referência a essa situação hipotética, julgue o próximo item.
A ausência de correlação entre as variáveis independentes e os resíduos da regressão mostra 
que as variáveis independentes são exógenas.
Na análise de regressão, uma variável explicativa exógena é aquela que não está correlacionada 
com a perturbação da variável dependente. Portanto, para avaliar se a variável é realmente 
exógena, o pesquisador deveria analisar a correlação entre a variável dependente e a 
explicativa.
Porém, nesse caso, ele avaliou a correlação entre a variável independente e o resíduo. E, 
note que, na realidade, essa é uma das exigências do método dos mínimos quadrados. 
Estudamos as características adequadas para o resíduo de regressão, que deve apresentar 
média nula e ser estatisticamente independente da variável explicativa.
Portanto, o fato de a correlação entre os resíduos obtidos e as variáveis independentes ter 
sido nula é apenas uma característica esperada da estimativa por mínimos quadrados, e 
é prova apenas de que o modelo de regressão linear foi calculado adequadamente usando 
esse método.
Errado.
2 .2 .3 . VaRiÂNcia DO ERRO
A estimativa de variância do erro é dada por:
Na equação acima, p é o número de variáveis envolvidas na regressão linear – tanto 
as dependentes como as independentes. Se estivermos falando de uma regressão linear 
comum, no caso, os salários (Y) pela idade (X) de um grupo de entrevistados, temos duas 
variáveis. Esse é o caso geral cobrado em questões de prova.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
24 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
No entanto, é útil saber que a mesma expressão poderia ser cobrada para uma regressão 
múltipla, em que se tem várias variáveis regressoras. Por exemplo, poderíamos avaliar o 
comportamento dos salários em função da idade e da carga horária semanal de um grupo 
de pessoas. Nesse caso, teríamos p = 3, pois são três variáveis envolvidas.
O grande objetivo de um modelo de regressão linear é que essa estimativa do erro seja 
menor que a variância amostral obtida para a variável isoladamente.
A razão para isso é que o erro ou desvio do modelo de regressão linear diz respeito ao 
quanto o valor real da variável se afasta em relação à estimativa de regressão linear. Por 
outro lado, a variância de Y se relaciona ao quanto o valor real da variável se afasta em 
relação à média da variável Y.
Se, por acaso, a estimativa do erro do modelo de regressão linear for superior ao próprio 
desvio-padrão da variável Y, o nosso modelo está, na verdade, atrapalhando, pois resulta 
em desvios maiores do que simplesmente considerar a média de Y.
Seria, portanto, melhor tomar a média da variável Y como sua estimativa em vez de 
tomar o nosso modelo de regressão linear.
013. 013. (CESPE/TCE/PA/2016) Uma regressão linear simples é expressa por Y = a + b × X + e, 
em que o termo e corresponde ao erro aleatório da regressão e os parâmetros a e b são 
desconhecidos e devem ser estimados a partir de uma amostra disponível. Assumindo 
que a variável X é não correlacionada com o erro e, julgue o item subsecutivo, no qual os 
resíduos das amostras consideradas são IID, com distribuição normal, média zero e variância 
constante.
Se, em uma amostra de tamanho n = 25, o coeficiente de correlação entre as variáveis X e Y 
for igual a 0,8, o coeficiente de determinação da regressão estimada via mínimos quadrados 
ordinários, com base nessa amostra, terá valor R2 = 0,64.
Questão bastante direta. Basta nos lembrarmos de que o coeficiente de determinação é 
igual ao quadrado da correlação.
Certo.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
25 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
014. 014. (CONSULPLAN/TSE/2012) Na análise de regressão múltipla, foram encontrados:
• Soma dos Quadrados da Regressão: 40.000.
• Soma dos Quadrados dos Erros: 10.000.
Assim, o coeficiente de determinação Múltipla dessa regressão é:
a) 0,25
b) 0,80
c) 0,75
d) 0,90
O coeficiente de determinação é dado por:
Já foi dado o SQReg. Podemos, agora, calcular o SQTot nos lembrando de que:
Sendo assim, temos o coeficiente de determinação:
Letra b.
015. 015. (FGVSEAD/AP/FISCAL DA RECEITA ESTADUAL/2010) Se no ajuste deuma reta de regressão 
linear simples de uma variável Y em uma variável X o coeficiente de determinação observado 
foi igual a 0,64, então o módulo do coeficiente de correlação amostral entre X e Y é igual a:
a) 0,24
b) 0,36
c) 0,50
d) 0,64
e) 0,80
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
26 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Questão clássica. O coeficiente de determinação é igual ao quadrado da correlação.
Letra e.
016. 016. (FGV/ISS/RECIFE/ANALISTA DE CONTROLE INTERNO/2014) Numa regressão linear 
simples, obteve-se um coeficiente de correlação igual a 0,78. O coeficiente de determinação 
é aproximadamente igual a:
a) 0,36
b) 0,48
c) 0,50
d) 0,61
e) 0,69
Outra questão clássica. O coeficiente de determinação é igual ao quadrado da correlação.
Letra d.
017. 017. (FEPESE/SEFAZ/SC/ANALISTA FINANCEIRO/2010) Considere que um modelo de regressão 
qualquer gerou resíduos padronizados que estão representados no diagrama de dispersão 
a seguir, em função dos valores da variável independente:
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
27 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Sobre o modelo de regressão que gerou os resíduos padronizados mostrados no diagrama 
acima, pode-se afirmar que:
a) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos 
padronizados apresentam heterocedasticidade.
b) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos 
padronizados apresentam homocedasticidade.
c) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos 
padronizados apresentam homocedasticidade.
d) É adequado para representar o relacionamento entre as variáveis, pois seus resíduos 
padronizados apresentam padrão não aleatório.
e) É inadequado para representar o relacionamento entre as variáveis, pois seus resíduos 
padronizados apresentam heterocedasticidade.
A variância do erro depende do valor de X, sendo assim, o modelo de regressão utilizado 
apresenta heterocedasticidade, o que o torna inadequado para representar o relacionamento 
entre as variáveis.
Letra e.
018. 018. (FGV/SEFAZ-RJ/AGENTE FISCAL DE RENDAS/2008) O coeficiente de determinação de 
um modelo de regressão linear serve como uma importante ferramenta para avaliar o grau 
de ajustamento do modelo aos dados. A respeito desse coeficiente, assinale a afirmativa 
incorreta.
a) Seu valor varia entre 0 e 1.
b) É invariante a uma mudança de escala das variáveis independentes.
c) É utilizado para escolher modelos com número de variáveis independentes diferentes.
d) É uma função não decrescente no número de variáveis independentes no modelo.
e) Representa a participação relativa da soma dos quadrados da regressão sobre a soma 
dos quadrados total.
Como o coeficiente de determinação é igual ao quadrado da correlação, que está entre -1 
e 1, então, o coeficiente de determinação realmente ficará entre 0 e 1. Portanto, o item 
“a” está certo.
De fato, também a mudança de escala não altera o coeficiente de determinação. O item 
“b” está certo.
O item “c” é, no mínimo, estranho. Não faz muito sentido, de fato, escolher entre modelos 
diferentes com variáveis independentes diferentes.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
28 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
No que se refere ao item “d”, de fato, quanto maior o número de variáveis, melhor se ajustará 
o modelo de regressão linear às variáveis estudadas.
Por fim, a definição do coeficiente de determinação é exatamente a que consta na letra 
“e”, que representa a razão entre a soma dos quadrados da regressão (SQReg) sobre a soma 
dos quadrados totais (SQTot).
Letra c.
2 .2 .4 . GRaUs DE LiBERDaDE
Já estudamos anteriormente os conceitos das somas dos quadrados totais, da regressão 
e dos erros. Considerando que os erros sigam distribuição normal e sejam estatisticamente 
independentes da variável explicativa, teremos que todas essas somas de quadrados seguem 
distribuições qui-quadradas.
Cada distribuição qui-quadrada é caracterizada pelo seu número de graus de liberdade, 
que podem ser determinados, se conhecermos duas importantes características:
• N: o tamanho das amostras das variáveis explicativas e resposta.
• p: o número de variáveis totais envolvidas (explicativas e resposta).
Assim, os graus de liberdade importantes de conhecermos são:
• total: N – 1.
• modelo: p – 1.
• erro: N – p.
É importante observar que o número de graus de liberdade do erro corresponde à 
diferença entre os graus de liberdade totais e o do modelo.
Assim, podemos escrever:
Considero que é importante apenas saber que todas elas seguem distribuição qui-
quadrado e seus respectivos graus de liberdade. Apenas isso. Não creio que será necessário 
trabalhar com as tabelas da distribuição qui-quadrado para as variáveis aleatórias SqTot, 
SqReg e SqEr.
Esses graus de liberdade são importantes também, porque eles aparecem no denominado 
do cálculo das variâncias. Lembre-se:
Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia 
Federal, aplicada pelo Cespe em 2018.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
29 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Somente com base nessa tabela, podemos determinar que:
Assim, podemos concluir que esse modelo foi construído com base:
• em duas variáveis aleatórias, sendo uma variável aleatória explicativa e uma variável 
regressora. Portanto, é um modelo do tipo:
• em uma amostra de 901 elementos das variáveis X e Y.
Vamos, então, treinar com questões?
019. 019. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas 
para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra 
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma 
relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de 
ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo 
Y = α +αX + α, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α 
e α são os parâmetros do modelo e α é o erro aleatório.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico
30 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Com base nas informações e na tabela apresentadas, sabendo-se que
 e Var(X) = 0,2487 e considerando que 3,84 
seja o valor aproximado de .
Julgueo item a seguir.
O modelo apresentado possui 2 graus de liberdade.
Quanto aos graus de liberdade, sabe-se que:
Substituindo os dados do enunciado, temos:
Dessa forma, o modelo apresentado possui apenas 1 grau de liberdade.
Errado.
020. 020. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2011) Complete a tabela 
de graus de liberdade para a realização do teste de ANOVA, a tabela deve ser preenchida 
de acordo os dados da tabela de dados abaixo, para comparar o desempenho de médias 
entre variáveis X1, X2 e X3:
Tabela de graus de liberdade da ANOVA:
Os graus de liberdade, respectivamente para o fator (I), para o erro (II) e para o total (III) são:
a) 2, 18 e 20.
b) 3, 18 e 21.
c) 2, 20 e 22.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
31 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
d) 3, 20 e 23.
e) 2, 19 e 21.
Observe que foram colocados um total de 21 dados (N = 21) na tabela e que foram registrados 
3 parâmetros (p = 3). Assim, podemos obter:
• Total: N – 1 = 21 – 1 = 20;
• Fator: p – 1 = 3 – 1 = 2;
• Erro: N – p = 21 – 3 = 18.
Letra a.
2 .3 . aNÁLisE DOs cOEFiciENtEs2 .3 . aNÁLisE DOs cOEFiciENtEs
2 .3 .1 . RaZÃO t
O objetivo da razão t é determinar se a influência da variável explicativa é realmente 
significativa ou se ela pode ser materialmente nula.
Uma visão muito importante sobre os modelos de regressão linear é que os próprios 
parâmetros do modelo são aleatórios, porque as variáveis X e Y são aleatórias, e o modelo 
de regressão linear é obtido a partir de amostras dessas variáveis.
Assim, podemos obter o erro padrão. A razão t é a razão entre o valor estimado para o 
coeficiente e o seu erro padrão. Dessa maneira, temos:
A razão t expressa quantos desvios-padrão está o coeficiente afastado de zero. Isso é 
muito importante, pois, se o coeficiente não está significativamente afastado da origem, o 
próprio modelo de regressão linear é pouco significativo. Nesse caso, a variável explicativa 
X é dita exógena.
Outra forma de estudar se o modelo de regressão linear é realmente significativo em 
relação à variável é o valor-p associado aos coeficientes.
Nesse caso, utilizam-se as mesmas ferramentas que já havíamos estudado em Testes de 
Hipóteses. Suponhamos que, em um modelo de regressão linear, a estimativa do coeficiente 
b > 0 e que seu p-valor seja igual a 10. O que isso significa?
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
32 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Pelas ferramentas de Testes de Hipóteses, isso significa que há uma probabilidade de 10% 
de que esse coeficiente tenha valor real negativo. Com isso, há uma probabilidade de 10% de 
que a influência da variável explicativa X sobre a variável resposta Y seja materialmente nula.
Vamos ver um exemplo prático dessa análise.
021. 021. (CESPE/POLÍCIA FEDERAL/2021) Um estudo objetivou avaliar a evolução do número 
mensal Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com 
base no método dos mínimos quadrados ordinários, esse estudo apresentou um modelo 
de regressão linear simples da forma.
Ŷ = 5 – 0,1 x T,
em que Ŷ representa a reta ajustada em função da variável regressora T, tal que 1 ≤ T ≤ 12.
Os erros padrão das estimativas dos coeficientes desse modelo, as razões t e seus respectivos 
p-valores encontram-se na tabela a seguir.
Os desvios padrão amostrais das variáveis Y e T foram, respectivamente, 1 e 3,6.
Com base nessas informações, julgue o item a seguir.
Considere que a denote o coeficiente angular do modelo de regressão linear simples e 
considere, ainda, que o teste de hipóteses H0 : a = 0 versus H1 : a ≠ 0. Nessa situação, com 
referência a esse teste, caso o nível de significância escolhido seja igual a 5%, os resultados 
do estudo em questão indicarão que não há evidências estatísticas contra a hipótese nula 
H0 : a = 0.
Foi fornecido o erro padrão para o modelo de coeficiente angular igual a 0,064. Esse erro 
já é muito próximo da própria estimativa do coeficiente. Podemos calcular a estatística 
normalizada para ele:
O enunciado forneceu ainda o p-valor:
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
33 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Esse p-valor é maior que 5%. Isso significa que, ao nível de 5% de significância, não temos 
como garantir que realmente o coeficiente de inclinação seja maior que zero. Portanto, não 
temos provas estatísticas suficientes contra essa hipótese nula.
Em outras palavras, isso significa que o modelo de regressão linear deduzido não garante 
que o seu próprio coeficiente de inclinação seja significativo. Logo, a influência do parâmetro 
T sobre Y é muito pequena, materialmente nula.
Podemos, então, dizer que a variável T é, na realidade, uma variável exógena, tendo em 
vista que sua influência sobre o parâmetro Y é pouco significativa.
Certo.
2 .3 .2 . Estatística F
O teste F tem por objetivo testar a significância global do modelo. Para isso, considere 
um modelo geral de regressão linear com p parâmetros e p – 1 variáveis independentes:
Um modelo é significativo quando tivermos provas estatísticas de que os coeficientes 
são significativamente diferentes de zero. Para examinar isso, podemos montar um teste 
de hipóteses com as seguintes hipóteses nula e alternativa:
• H
0: β1 = β2 = … = βp–1 = 0
• H
1: pelo menos um dos βi é diferente de zero
Para determinar se o modelo é significativo, devemos recorrer ao teste F. Vamos nos 
recordar da definição da distribuição F de Snedecor.
Se V
1 e V2 são duas variáveis aleatórias independentes que seguem distribuições qui-
quadradas com graus de liberdade respectivamente iguais a m1 e m2 com média nula. Isto é:
Então, a variável F definida como:
Segue distribuição qui-quadrado.
A distribuição qui-quadrado é obtida pela soma dos quadrados de uma distribuição 
normal. Considerando que os erros de um modelo de regressão linear seguem distribuição 
normal e são estatisticamente da variável resposta, então podemos criar a seguinte 
estatística de teste F:
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
34 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Como vimos, tanto o SQReg como SQEr seguem distribuições qui-quadradas. Além disso, 
o modelo de regressão (SQReg) tem p – 1 graus de liberdade e os erros (SQEr) possuem N 
– p graus de liberdade. Assim, temos:
O objetivo da estatística F é que ela testa a aderência do modelo como um todo, e 
não somente de cada coeficiente isoladamente.
O valor calculado deve, então, ser comparado com a estatística crítica que é fornecida 
nas tabelas da distribuição F com os números de graus de liberdade apropriados, ou, ainda, 
com o auxílio de softwares de estatística, como o R ou até mesmo Excel com a função =INV.F. 
Se a estatística F for superior ao valor crítico, então, o modelo serásignificativo.
Eu sei que você pode ter achado complicada a teoria. Mas, em termos práticos, em 
questões de prova tudo o que você precisa fazer é:
• calcule a estatística F pela expressão:
• 
• compare com a estatística crítica que, na hora da prova, pode ser fornecida por 
meio de uma tabela;
• se for maior, conclua que o modelo é significativo. Caso contrário, conclua que o 
modelo não é significativo.
Vejamos, como exemplo, essa tabela de graus de liberdade extraída da prova da Polícia 
Federal, aplicada pelo Cespe em 2018. Queremos
Podemos calcular a estatística F referente ao modelo de regressão linear como:
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
35 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Com o auxílio do Excel, podemos calcular a estatística limite usando o comando =INV.F(0,95; 
1; 899) – usamos 0,95, porque o Excel calcula a distribuição acumulada. E, assim, obtemos 
a estatística crítica:
Como F = 1153,8 > Fcrítico, podemos concluir que o modelo de regressão linear em estudo 
é significativo.
Vejamos agora uma questão de prova sobre essa estatística.
022. 022. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICO/2020) Numa regressão 
linear simples em que foi utilizada uma amostra com 52 observações, a soma dos quadrados 
totais é de 50 e a soma dos quadrados dos resíduos é de 20. O coeficiente de determinação 
e a estatística F dessa regressão são, respectivamente:
a) 0,6 e 75.
b) 0,6 e 12.
c) 0,8 e 1,5.
d) 0,8 e 12.
e) 0,8 e 75.
O coeficiente de determinação pode ser obtido como a relação entre a soma dos quadrados 
da regressão (SQR) e a soma dos quadrados totais (SQT). Assim, temos:
A soma dos quadrados da regressão (SQR) não foi fornecida. Porém, ela pode ser obtida 
como a diferença entre a soma dos quadrados totais (SQT) e a soma dos quadrados dos 
resíduos ou erros (SQE):
A estatística F, por sua vez, pode ser obtida como:
Letra a.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
36 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
RESUMORESUMO
cOEFiciENtEs
Análise dos Resíduos
sOMa DOs QUaDRaDOs Da REGREssÃO
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
37 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
GRaUs DE LiBERDaDE
• total: N – 1.
• modelo: p – 1.
• erro: N – p.
cOEFiciENtE DE DEtERMiNaÇÃO
VaRiÂNcia DO ERRO
Estatística F
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
38 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
MAPA MENTALMAPA MENTAL
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
39 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
EXERCÍCIOSEXERCÍCIOS
001. 001. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Num modelo de regressão linear pelo 
método dos mínimos quadrados, sabe-se que a inclinação da reta é a = 3,24 e o intercepto 
da reta é b = 12,6, então o valor de para x = 30 é:
a) 126,8
b) 136,8
c) 116,2
d) 108,2
e) 109,8
002. 002. (VUNESP/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICO/2020) A variável x tem média 
4 e desvio padrão 2, enquanto a variável y tem média 3 e desvio padrão 1. A covariância 
entre x e y é –1.
A equação estimada da regressão linear simples de y por x é:
a) y = 2 – 0,25x.
b) y = 3 – 0,5x.
c) y = 3 – x.
d) y = 4 – x.
e) y = 4 – 0,25x.
003. 003. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Em uma análise 
de regressão, se o coeficiente de determinação r² = 1, então:
(Considere SQT = Soma de quadrados total; SQE = Soma de quadrados do erro; SQR = Soma 
de quadrados da regressão.)
a) SQE = SQT.
b) SQE = 1.
c) SQR = SQE.
d) SQR = SQT.
e) SQR > SQT.
004. 004. (IBFC/EBSERH/ANALISTA ADMINISTRATIVO/ESTATÍSTICA/2020) Um modelo de regressão 
linear simples foi gerado para explicar vendas (Y, em milhares de reais) a partir de propaganda 
(X, em centenas de reais). Algumas informações do modelo são apresentadas:
Equação de regressão estimada: Y=12 + 1,8X
Tamanho da amostra: 17 observações.
Soma de quadrados da regressão: 225,00.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
40 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Soma de quadrados dos resíduos: 75,00.
Sb1= 0,27.
Considere as seguintes afirmações:
I – De acordo com a equação de regressão estimada, um gasto de R$ 1.000,00 em propaganda 
resulta em vendas estimadas de R$ 40.000,00.
II – O coeficiente de determinação do modelo (R²) é de 75%.
III – A cada incremento unitário em X, espera-se que Y aumente 1,8.
Estão corretas as afirmativas:
a) I apenas
b) I e II, apenas
c) I e III, apenas
d) II e III, apenas
005. 005. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA POLICIAL FEDERAL/2018) O intervalo de 
tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se 
intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona 
com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses 
pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b 
+ ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um 
erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4.
As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordinários 
foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses 
resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, 
respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi 
igual a 5 horas.
A respeito dessa situação hipotética, julgue o item a seguir.
O coeficiente de explicação do modelo (R2) foi superior a 0,70.
006. 006. (CESPE/POLÍCIA FEDERAL/PAPILOSCOPISTA/2018) O intervalo de tempo entre a morte 
de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. 
Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar 
de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram 
um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o 
coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue 
distribuição normal com média zero e desvio padrão igual a 4.
As estimativas dos coeficientes a e b, obtidaspelo método dos mínimos quadrados ordinários 
foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2018-policia-federal-papiloscopista-policial-federal
41 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, 
respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi 
igual a 5 horas.
A respeito dessa situação hipotética, julgue o item a seguir.
A média amostral da variável resposta y foi superior a 30 horas.
007. 007. (IBFC/IBGE/SUPERVISOR DE PESQUISAS/2021) Dentre os gráficos abaixo, o que melhor 
representa um coeficiente de correlação linear próximo de -0,23 é:
a) 
b) 
c) 
d) 
e) 
008. 008. (FUNDATEC/PREFEITURA DE PORTO ALEGRE-RS/ESTATÍSTICO/2021) Considerando o 
relacionamento entre a variável independente X e a variável dependente Y, mostrado na 
figura abaixo, assinale a alternativa correta.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
42 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
a) O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.
b) O relacionamento entre X e Y é fraco e não deve ser considerado.
c) Não existe relação linear entre as variáveis analisadas.
d) O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da 
variável Y.
e) O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da 
variável Y.
009. 009. (FCC/SEFAZ-BA/AUDITOR-FISCAL/ADMINISTRAÇÃO TRIBUTÁRIA/PROVA II/2019) Em 
uma determinada indústria, foi efetuada uma pesquisa a respeito da possível relação entre 
o número de horas trabalhadas (X), com X ≥ 2, e as quantidades produzidas de um produto 
(Y). Com base em 10 pares de observações (Xi,Yi) e considerando o gráfico de dispersão 
correspondente, optou-se por utilizar o modelo linear Yi = α + βXi + εi, com i representando a 
i-ésima observação, ou seja, i = 1, 2, 3,... 10. Os parâmetros α e β são desconhecidos e as suas 
estimativas (a e b, respectivamente) foram obtidas pelo método dos mínimos quadrados. 
Observação: εi é o erro aleatório com as respectivas hipóteses do modelo de regressão 
linear simples. Considere o gráfico, abaixo, construído utilizando os valores encontrados 
para as estimativas de α e β.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2019-sefaz-ba-auditor-fiscal-administracao-tributaria-prova-ii
43 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
A previsão da quantidade produzida será igual ao dobro da média verificada das 10 observações 
Yi quando o número de horas trabalhadas for igual a:
a) 20.
b) 24.
c) 22.
d) 18.
e) 12.
010. 010. (CESPE/CGE-CE/CONHECIMENTOS BÁSICOS/2019) Considerando-se que, em uma 
regressão múltipla de dados estatísticos, a soma dos quadrados da regressão seja igual 
a 60.000 e a soma dos quadrados dos erros seja igual a 15.000, é correto afirmar que o 
coeficiente de determinação — R² — é igual a:
a) 0,75.
b) 0,25.
c) 0,50.
d) 0,20.
e) 0,80.
011. 011. (CESPE/DEPEN/AGENTE PENITENCIÁRIO FEDERAL/ÁREA 4/2014) A tabela mostrada 
apresenta a quantidade de detentos no sistema penitenciário brasileiro por região em 2013. 
Nesse ano, o déficit relativo de vagas — que se define pela razão entre o déficit de vagas no 
sistema penitenciário e a quantidade de detentos no sistema penitenciário — registrado 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2019-cge-ce-conhecimentos-basicos
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-depen-agente-penitenciario-federal-area-4
44 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
em todo o Brasil foi superior a 38,7%, e, na média nacional, havia 277,5 detentos por 100 
mil habitantes.
Com base nessas informações e na tabela apresentada, julgue o item a seguir.
Considerando que a figura a seguir apresente o diagrama de dispersão entre o tamanho 
populacional da região (em milhões de habitantes) e a população carcerária correspondente 
(em mil pessoas), então é correto afirmar que a população carcerária tende a crescer 
linearmente à medida que a população da região aumenta.
012. 012. (FCC/TRT 5ª REGIÃO-BA/ANALISTA JUDICIÁRIO/ESTATÍSTICA/2013) Utilizando o método 
dos mínimos quadrados, obteve-se o ajustamento do modelo linear Zi = α + βXi + γYi +εi , i = 
1, 2, 3,..., em que Z é a variável dependente, X e Y são as variáveis explicativas, i corresponde 
a i-ésima observação, α, β e γ são parâmetros desconhecidos e εi o erro aleatório, com as 
respectivas hipóteses consideradas para a regressão linear múltipla. O ajustamento foi 
encontrado com base em uma amostra aleatória de 20 ternos (Xi , Yi , Zi ) apurando-se as 
estimativas de α, β e γ.
Dados do correspondente quadro de análise de variância:
A estimativa da variância populacional do modelo teórico (σ²), com base nos dados da 
amostra, é igual a:
a) 15,300.
b) 16,150.
c) 17,100.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/fcc-2013-trt-5-regiao-ba-analista-judiciario-estatistica
45 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
d) 18,165.
e) 19,380.
013. 013. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do 
índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período 
de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as 
estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela 
a seguir apresenta a análise de variância (ANOVA) do ajuste.
Considerando que , julgue o item subsequente relativo ao referido ajuste.
A estimativa da variância de é inferior a 3.
014. 014. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) UM estudo a respeito do 
índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período 
de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as 
estimativas de mínimos quadrados ordinários dos coeficientesda reta ajustada. A tabela 
a seguir apresenta a análise de variância (ANOVA) do ajuste.
Considerando que , julgue o item subsequente relativo ao referido ajuste.
A estimativa da variância do erro aleatório em torno da tendência ajustada é superior a 27.
015. 015. (CESPE/TELEBRAS/ANALISTA SUPERIOR/ESTATÍSTICA/2015) Um estudo a respeito do 
índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período 
de 2010 a 2014 produziu um ajuste na forma , em que t = 2010, 2011, 2012, 
2013, 2014; é a estimativa desse índice no ano t correspondente; e representam as 
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2015-telebras-analista-superior-estatistica
46 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela 
a seguir apresenta a análise de variância (ANOVA) do ajuste.
Considerando que , julgue o item subsequente relativo ao referido ajuste.
No período de 2010 a 2014, a média aritmética do índice Y foi igual a 30.
016. 016. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas 
para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra 
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma 
relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de 
ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo 
Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α 
e β são os parâmetros do modelo e ε é o erro aleatório.
Com base nas informações e na tabela apresentadas, sabendo-se que
 e Var(X) = 0,2487 e considerando que 3,84 
seja o valor aproximado de .
Julgue o item a seguir.
A porcentagem estimada de estudantes cotistas é menor que 50%.
(CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Após a implementação de reserva de vagas 
para os cotistas nas universidades brasileiras, um estudo foi realizado com uma amostra 
de 500 estudantes de determinado curso, para ser avaliada a possível existência de uma 
relação entre o desempenho — Y —, medido pela média final na disciplina e a forma de 
ingresso na universidade — X. A tabela a seguir apresenta a análise de variância do modelo 
Y = α +βX + ε, em que Y varia de 0 a 10, X = 0 para cotas e X = 1 para ampla concorrência, α 
e β são os parâmetros do modelo e ε é o erro aleatório.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico
47 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
Com base nas informações e na tabela apresentadas, sabendo-se que
 e Var(X) = 0,2487 e considerando que 3,84 
seja o valor aproximado de .
Julgue os itens a seguir.
017. 017. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) O coeficiente de determinação é 
maior que 0,7.
018. 018. (CESPE/CEBRASPE/FUB/ESTATÍSTICO/2015) Julgue o item a seguir:
A variância de Y é menor que 10.
019. 019. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se 
estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um 
determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo 
sua matriz de análise de variância (ANOVA) apresentada abaixo.
A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência 
estatística.
Dadas as hipóteses H0: µ = 8 e H1: µ ≠ 8, e sabendo-se que foi utilizada uma amostra de 
tamanho 25, que a variável em estudo X segue uma distribuição normal com média µ e 
variância 4 e que, para α = 0,05, Φ(-1,96) = 0,05 então o valor crítico para esse teste é 
aproximadamente 7,216.
020. 020. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se 
estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um 
determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo 
sua matriz de análise de variância (ANOVA) apresentada abaixo.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-cebraspe-2015-fub-estatistico
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica
48 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência 
estatística.
O coeficiente de determinação é aproximadamente 0,59.
021. 021. (FGV/IBGE/TECNOLOGISTA/ESTATÍSTICA/2016) Após estimar um modelo de regressão 
linear múltipla, por MQO, um econometrista repara que, por algum motivo, a tabela contendo 
os resultados da análise da variância ficou incompleta, conforme abaixo:
Apesar dos valores acima omitidos, é correto afirmar que:
a) a equação de regressão tem cinco variáveis explicativas;
b) o coeficiente de determinação R2 é igual a 0,8;
c) ao nível de significância de 2% não se rejeita a hipótese nula de que o modelo explica a 
variável dependente;
d) o tamanho da amostra é n = 20;
e) a estimativa não tendenciosa da variância dos erros aleatórios do modelo é igual a 80.
022. 022. (CESPE/BANCO DA AMAZÔNIA/TÉCNICO CIENTÍFICO/ESTATÍSTICA/2010) Deseja-se 
estudar a relação entre a quantidade de chuvas (em mm) e a produção de soja em um 
determinado município. Para isso, utilizou-se a técnica de regressão linear simples, sendo 
sua matriz de análise de variância (ANOVA) apresentada abaixo.
A partir da tabela acima, julgue o seguinte item, com base nos conceitos de inferência 
estatística.
Foram utilizados 19 dados para a estimação do modelo de regressão linear.
O conteúdo deste livro eletrônico é licenciado para ANTONIO MARCO DA SILVA DO ESPIRITO SANTO - 05401788290, vedada, por quaisquer meios e a qualquer título,
a sua reprodução, cópia, divulgação ou distribuição, sujeitando-se aos infratores à responsabilização civil e criminal.
https://www.gran.com.br
https://www.gran.com.br
https://www.qconcursos.com/questoes-de-concursos/provas/fgv-2016-ibge-tecnologista-estatistica
https://www.qconcursos.com/questoes-de-concursos/provas/cespe-2010-banco-da-amazonia-tecnico-cientifico-estatistica
49 de 102gran.com.br
Estatística
Regressão Linear
Thiago Cardoso
(CESPE/POLÍCIA FEDERAL/2021) UM estudo objetivou avaliar a evolução do número mensal 
Y de milhares de ocorrências de certo tipo de crime em determinado ano. Com base no 
método dos mínimos quadrados ordinários, esse estudo apresentou um modelo de regressão

Continue navegando