Buscar

Curso Alfacon - Regressão Linear

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
1 
ANÁLISE DE REGRESSÃO LINEAR 
INTRODUÇÃO 
A análise de regressão linear estuda a relação 
entre duas variáveis. 
Quando duas variáveis X e Y não são independentes, 
existe alguma contribuição na variação de X que 
modifica a variável Y, isto é, as alterações sofridas em 
X são acompanhadas por alterações sofridas em Y. Para 
quantificar e compreender esse efeito é necessário um 
estudo sobre a relação entre essas variáveis. Parar 
estudar o efeito entre as variáveis X e Y quaisquer, 
algumas medidas descritivas são essenciais, como a 
covariância Cov(X, Y) e o coeficiente de correlação 
(r). Além dessas medidas, pode ser ajustado uma 
regressão linear (uma reta) que tenta explicar o 
comportamento entre duas variáveis X e Y, a partir de 
um modelo de equação de 1º grau. 
Exemplos de dependência de variáveis: 
HORAS DE TRABALHO X REMUNERAÇÃO 
 
TRÁFICOS DE DROGAS X REGISTRO DE HOMICÍDIOS 
 
NÍVEL DE ESCOLARIDADE X ÍNDICE DE VIOLÊNCIA 
 
CORRUPÇÃO DO PODER PÚBLICO X CREDIBILIDADE 
NA POLÍTICA 
 
COVARIÂNCIA - COV(X, Y) 
A covariância é uma medida descritiva que 
apresenta a dispersão conjunta de duas variáveis 
analisadas. Com essa informação, podemos saber se 
existe uma dependência entre as variáveis (X,Y), 
além de conhecer a direção que essas variáveis se 
dispersam (na mesma direção ou em direção opostas). 
Vamos conhecer a construção matemática dessa 
medida descritiva a partir de exemplo. 
OBJETO DE ESTUDO: 
Uma investigação analisa o tempo de decomposição 
de um corpo de delito (em minutos), e o respectivo peso 
(em kg) decomposto. Essa decomposição é analisada 
após o corpo ser exposto a um reagente. Foram 
analisados quatro fragmentos desse corpo. 
Variável X: Tempo de decomposição, em minutos; 
Variável Y: Peso do corpo de delito decomposto, em 
kg; 
 
As observações agora são compostas pelo um par 
coordenado de dados. Nesse exemplo, podemos 
afirmar que a observação (2;5) corresponde que o 
corpo de delito que levou 2 minutos para 
decomposição com peso de 5 kg. Veja que temos duas 
características analisadas para o mesmo elemento (o 
objeto, o corpo de delito). Portanto, temos mais do que 
uma característica alinhada sobre um mesmo contexto. 
Nesse sentido, precisamos compreender como 
essas duas características se dispersam; se existe uma 
relação de dependência entre elas; e qual a direção da 
variação associada dessas duas características (mesma 
direção ou direção oposta). 
Para isso, vamos observar os desvios em relação à 
média que cada variável apresenta. Para analisar os 
desvios precisamos obter inicialmente a média de X e 
Y: 
�̅� =
𝟐 + 𝟑 + 𝟔 + 𝟗
𝟒
=
𝟐𝟎
𝟒
= 𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 
 
�̅� =
𝟓 + 𝟕 + 𝟖 + 𝟏𝟔
𝟒
=
𝟑𝟔
𝟒
= 𝟗 𝒌𝒈 
Em seguida, vamos observar os desvios em relação 
a média de cada variável: 
X Y 
Desvio 
de X 
(𝑿𝒊 − �̅�) 
Desvio 
de Y 
(𝒀𝒊 − �̅�) 
2 5 -3 -4 
3 7 -2 -2 
6 8 1 -1 
9 16 4 7 
�̅� = 𝟓 �̅� = 𝟗 - - 
Na construção acima, temos os desvios de X e Y, 
contudo, precisamos quantificar essa variação 
conjuntamente em apenas um valor. Para esse 
propósito, é aplicado o produto do desvio de X em 
relação a sua média junto ao desvio de Y em relação a 
sua média. Com isso, obtemos os desvios associados 
de cada par de observação! 
 
𝑫𝒆𝒔𝒗𝒊𝒐 𝒂𝒔𝒔𝒐𝒄𝒊𝒂𝒅𝒐𝑿,𝒀 = (𝑿𝒊 − �̅�) × (𝒀𝒊 − �̅�) 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
2 
Vamos analisar os desvios associados de cada par 
coordenado: 
X Y 
Desvio de 
X 
(𝑿𝒊 − �̅�) 
Desvio de 
Y 
(𝒀𝒊 − �̅�) 
Desvio Associado 
(𝑿𝒊 − �̅�). (𝒀𝒊 − �̅�) 
2 5 -3 -4 12 
3 7 -2 -2 4 
6 8 1 -1 -1 
9 16 4 7 28 
�̅� = 𝟓 �̅� = 𝟗 - - 𝜮 = 𝟒𝟑 
 
Por fim, soma-se o desvio associado de cada par 
(X,Y) obtendo um quantitativo total de dispersão 
conjunta. No exemplo, obtemos um desvio associado 
de 43 min.kg. Agora resta dividir esse valor pelo 
número de pares de observações (𝑛𝑋,𝑌 = 4) para obter 
uma variação conjunta média. 
𝑪𝒐𝒗(𝑿, 𝒀) =
𝟒𝟑
𝟒
= 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 
 
Desse modo, calcula-se a covariância Cov(X,Y) pela 
seguinte expressão: 
𝑪𝒐𝒗(𝑿, 𝒀) =
∑(𝑿𝒊 − �̅�)(𝒀𝒊 − �̅�)
𝒏(𝑿,𝒀)
 
Em que: 
𝐶𝑜𝑣(𝑋, 𝑌): Covariância entre a variável X e Y; 
(𝑋𝑖 − �̅�): Desvios das observações de X em relação 
a sua média (�̅�); 
(𝑌𝑖 − �̅�): Desvios das observações de Y em relação a 
sua média (�̅�); 
∑(𝑋𝑖 − �̅�)(𝑌𝑖 − �̅�): Somatório das multiplicações 
dos desvios de X e Y; 
𝑛(𝑋,𝑌): Número de pares associados de observações 
X e Y. 
 
Por essa fórmula, conseguimos identificar que a 
covariância é uma medida que quantifica a variação 
conjunta de duas variáveis. Veja: 
 
 
 
Esse é o cálculo da covariância para um conjunto de 
dados coletados. Mas, assim como a variância pode ser 
calculada por um método alternativo, a covariância 
também possui outro método de cálculo bem útil. 
 
Com essa dedução, é obtido a seguinte expressão: 
𝑪𝒐𝒗(𝑿, 𝒀) =
∑ 𝑿𝒊𝒀𝒊
𝒏
− �̅� �̅� 
Em outras definições, obtém-se a seguinte analogia 
“covariância é a média do produto XY menos o 
produto da média de X e Y.” 
 
 
 
Em variáveis aleatórias, podemos definir também 
que covariância é: Esperança do produto XY menos 
o produto da esperança de X e Y. Tendo a seguinte 
definição: 
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑬(𝑿𝒀) − 𝑬(𝑿) × 𝑬(𝒀) 
Esse cálculo somente pode ser aplicado se os dados 
forem populacionais. 
A covariância tem variação na fórmula, conforme a 
origem dos dados: da população ou da amostra. 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
3 
A diferença consiste em dividir por n-1, assim como, 
na amostra. 
INTERPRETAÇÃO DA COVARIÂNCIA 
Quando houver uma relação linear de dependência 
entre as variáveis X e Y a covariância apresentará um 
valor diferente de zero. Observe que, diferente da 
variância que sempre é um valor positivo, a covariância 
pode ser negativa. 
A covariância é uma maneira de verificar se duas 
variáveis estão associadas, pois ela quantifica se 
variam conjuntamente. Ou seja, ela quantifica se as 
mudanças em uma variável correspondem a mudanças 
similares na outra variável. Quando uma variável se 
desvia da sua média, espera-se que a outra variável 
associada desvie da sua média de maneira similar (ou 
de maneira diretamente oposta). 
Ao observar que a variância é o produto dos desvios 
de X e Y em relação suas respectivas médias, temos as 
seguintes possibilidades: 
 Se ambos os desvios são positivos ou 
negativos, isso resultará em um valor 
positivo do produto dos desvios, 
consequentemente, os desvios ocorrem 
na mesma direção; 
 
 Se um desvio é positivo e o outro negativo, 
isso resultará em um valor negativo do 
produto dos desvios, consequentemente, 
os desvios ocorrem em direções 
opostas; 
 
Com isso, podemos chegar as seguintes 
interpretações: 
 
Outra informação importante sobre a covariância é 
que ela depende das unidades de medida para fazer 
qualquer interpretação. Uma vez que ela é a média dos 
desvios associados de X e Y, a unidade de medida da 
covariância corresponde ao produto da unidade de 
medida de cada variável. Assim, se a variável X é 
medida em centímetros (cm) e a variável Y é medida 
em horas (h), a covariância será medida em 
centímetros vezes horas (cm.h). Esse conhecimento é 
interessante, pois com isso sabemos que não podemos 
inferir se um par de variáveis apresenta uma 
covariância maior ou menor que outro par de variáveis 
com unidades de medida diferentes. 
 
CORRELAÇÃO LINEAR - 𝒓(𝑿,𝒀) 
O coeficiente de correlação linear (𝑟) é uma medida 
que descreve o grau de associação linear entre duas 
variáveis em estudo. A partir desse coeficiente, 
podemos detectar se existe uma associação entre 
variáveis e quantificar qual é a magnitudedessa 
associação. Assim, por meio da correlação linear 
podemos obter se há uma força (fenômeno) unindo as 
duas variáveis e como uma se comporta em relação à 
outra. 
Em outras definições, o termo correlação significa 
relação em dois sentidos (co + relação), e é usado na 
Estatística para designar a força que mantém unidos 
dois conjuntos de valores (duas variáveis). A 
verificação da existência dessa força e do grau de 
associação entre as variáveis são as informações 
essenciais obtidas pela correlação. 
O cálculo da correlação linear entre uma variável X 
e Y é efetuado da seguinte forma: 
𝒓(𝑿,𝒀) =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿 × 𝒔𝒀
 
Em que: 
𝑟(𝑋,𝑌): Coeficiente de correlação linear amostral 
entre X e Y; 
𝐶𝑜𝑣(𝑋, 𝑌): Covariância amostral entre a variável X e 
Y; 
𝑠𝑋: Desvio padrão amostral da variável X; 
𝑠𝑌: Desvio padrão amostral da variável Y. 
 
A correlação linear é obtida pelo pela divisão da 
covariância de (X, Y) com o produto dos desvios de X e 
Y. Essa metodologia de cálculo define especificamente 
o coeficiente de correlação linear de Pearson (𝑟), é de 
longe a metodologia mais cobrada em prova! 
A covariância é uma informação sobre a associação 
linear entre duas variáveis, no entanto, ela depende da 
unidade de medida e suas inferências são limitadas. 
Para superar esse problema, a covariância precisa ser 
convertida em um conjunto padrão de unidades 
(padronização). Assim, ao dividir a covariância pelo 
desvio padrão de X e Y, as unidades de medida se 
cortam e temos uma covariância padronizada, isto é, 
uma medida adimensional que pode fazer 
comparações sobre a associação de variáveis de 
qualquer outro fenômeno. Este é o coeficiente de 
correlação linear, uma informação mais independente 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
4 
que a covariância para estudar a relação entre 
variáveis. 
O resultado do cálculo do coeficiente de correlação 
sempre estará compreendido entre -1 até +1. Então 
nunca se terá valores maior do que +1 ou menor do que 
-1. O resultado de correlação linear igual a zero indica 
que não há uma correlação linear entre as variáveis 
(cuidado! Dizer que não há correlação linear, não exclui 
o fato de existir correlações de outra natureza, como 
quadrática, cúbica, exponencial etc.). 
À medida que o resultado da correlação linear vai se 
afastando do zero, em direção aos extremos (-1 ou +1), 
aumenta-se a intensidade da força que une essas duas 
variáveis! Quando o resultado da fórmula é igual a – 1 
ou a +1, então se diz que a correlação é máxima. Ou 
seja, é máxima a força que une as duas variáveis. Dessa 
maneira, correlação linear igual a +1 é dita correlação 
perfeita positiva, enquanto correlação linear igual a –
1 denomina-se correlação perfeita negativa. 
 
 
 
Vamos calcular o coeficiente de correlação, a partir 
do exemplo já trabalhado: 
OBJETO DE ESTUDO: 
Uma investigação analisa o tempo de decomposição 
de um corpo de delito (em minutos), e o respectivo peso 
(em kg) decomposto. Essa decomposição é analisada 
após o corpo ser exposto a um reagente. Foram 
analisados quatro fragmentos desse corpo. 
Variável X: Tempo de decomposição, em minutos; 
Variável Y: Peso do corpo de delito decomposto, em 
kg; 
 
Com o conhecimento da estatística descritiva, os 
desvios padrões de X e Y podem ser calculados. Os 
resultados ao efetuar esses cálculos seriam: 
𝒔𝑿 =2,74 min 
𝒔𝒀 =4,18 kg 
 
O valor da covariância é: 
𝑪𝒐𝒗(𝑿, 𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 
 
Assim, o coeficiente de correlação linear será igual 
a: 
𝒓(𝑿,𝒀) =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿 × 𝒔𝒀
 
 
𝒓(𝑿,𝒀) =
𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈
𝟐, 𝟕𝟒 𝐦𝐢𝐧 × 𝟒, 𝟏𝟖 𝐤𝐠
 
 
𝒓(𝑿,𝒀) =
𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈
𝟐, 𝟕𝟒 𝐦𝐢𝐧 × 𝟒, 𝟏𝟖 𝐤𝐠
 
 
 
𝒓(𝑿,𝒀) =
𝟏𝟎, 𝟕𝟓 
𝟐, 𝟕𝟒 × 𝟒, 𝟏𝟖 
≅ 𝟎, 𝟗𝟒 
 
GRÁFICO DE DISPERSÃO (CORRELAÇÃO) 
Uma forma eficiente de averiguar a possibilidade de 
correlação entre duas variáveis é por meio do gráfico 
de dispersão ou de correlação. Vamos analisar um 
outro exemplo: 
OBJETO DE ESTUDO: 
Uma investigação policial tem o objetivo de estudar a 
correlação entre tráfico de armas ilegais, em mil kg de 
armas apreendidas, com o tráfico de drogas (X), em mil 
kg de drogas apreendidas (Y), na capital de São Paulo. 
Para esse estudo, foram coletados dados de cinco 
regiões da capital. 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
5 
Segue as informações: 
Tráfico de 
Armas (X) 
5 7 9 8 12 
Tráfico de 
Drogas (Y) 
1 3 4 5 8 
Ao trabalhar com conjunto de dados pareados, é 
interessante identificar que cada amostra consiste em 
um par de informações das variáveis analisadas, vamos 
representar o tamanho dessa amostra por 𝑛(𝑥,𝑦). 
Assim, outra forma de apresentação de dados é: 
𝒏(𝑿,𝒀) = {(𝟓, 𝟏); (𝟕, 𝟑); (𝟗, 𝟒); (𝟖, 𝟓); (𝟏𝟐, 𝟖)} 
Unindo todos os pares associados por um ponto em 
um plano cartesiano, temos o gráfico de dispersão com 
a seguinte forma: 
 
 
Ao observar o gráfico de dispersão, é possível 
identificar uma tendência de correlação, de modo que 
o aumento do tráfico de armas contribui para 
aumentar o tráfico de drogas. Pelo menos é o que se 
espera pela análise gráfica. Além disso, veja que a ideia 
de correlação linear evidencia a possibilidade de traçar 
uma reta sobre comportamento. É fácil perceber que é 
impossível unir os pontos em uma reta perfeita, 
todavia estes pontos estão dispostos em torno de uma 
reta, que não necessariamente passa por todos os 
pontos. Entenda: 
 
 
Portanto, é possível forma uma reta entre os pontos, 
no sentido crescente. Isso evidencia uma correlação 
linear positiva, porém não perfeita pois a reta não 
passa perfeitamente por todos os pontos. Assim, temos 
uma força parcial positiva entre as duas variáveis de 
modo que se comportam para mesma direção, obtendo 
um coeficiente de correlação linear positivo (0 < 𝑟 <
1). 
Vamos trabalhar esse mesmo raciocínio com 
outro exemplo. 
OBJETO DE ESTUDO: 
Um grupo de médicos analisa a correlação do tempo 
necessário para o efeito do medicamento no paciente 
(X), em minutos, em relação à dosagem aplicada do 
medicamento (Y), em mg/kg. 
Seguem os dados coletados: 
Tempo de 
Efeito (X) 
30 24 15 18 8 
Dose do 
Medicamento 
(Y) 
3 4 6 7 9 
Temos os seguintes pares de informação: 
𝒏(𝑿,𝒀) = {(𝟑𝟎, 𝟑); (𝟐𝟒, 𝟒); (𝟏𝟓, 𝟔); (𝟏𝟖, 𝟕); (𝟖, 𝟗)} 
O gráfico de dispersão para esse estudo evidencia a 
seguinte informação: 
 
 
Agora nesse estudo, é possível verificar uma 
tendência inversa no comportamento entre duas 
variáveis. Ou seja, com aumento da dosagem do 
medicamente o tempo para o efeito no paciente é 
reduzido. Da mesma forma que no exemplo anterior, é 
possível traçar uma reta não perfeito entre os pontos: 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
6 
 
 
Nesse estudo, é possível forma uma reta entre os 
pontos, no sentido decrescente. Isso evidencia uma 
correlação linear negativa, porém não perfeita pois a 
reta não passa exatamente por todos os pontos. Assim, 
temos uma força parcial negativa entre as duas 
variáveis de modo que se comportam para direções 
oposta, obtendo um coeficiente de correlação linear 
negativo (−1 < 𝑟 < 0). 
 
Outra possibilidade, ao avaliar a associação entre 
duas variáveis, é não encontrar uma correlação linear 
entre eles de modo que elas possam ocorrer 
independentemente ou apresentaram outro tipo de 
correlação. Nessa situação, pode ser ter a seguinte 
gráfica: 
 
 
Nessa situação, não é possível afirmar que existe 
uma correlação linear entre as variáveis de modo que 
os pontos se associam aleatoriamente sem haver uma 
força que contribui para influenciar os valores das 
variáveis. Nessa hipótese, teremos uma correlação 
linearnula (𝑟 = 0). 
Com isso, obtém-se todas formas de interpretação 
do coeficiente de correlação é as possíveis formas de 
detectar o fenômeno de associação entre variáveis com 
o valor obtido. Em síntese a tudo abordado, tem-se: 
 
 
 
REGRESSÃO LINEAR 
No estudo da correlação entre duas variáveis, foi 
verificado a existência de uma dependência (força) 
entre elas e como se comportavam em relação as suas 
variações. Uma vez caracterizado este efeito de 
correlação, procura-se descrever o comportamento de 
duas variáveis associadas, por meio de uma função 
matemática (uma equação de 1º grau). A estimação 
dos parâmetros dessa função matemática é o principal 
objetivo da regressão linear. Assim, aquela reta 
(tendência de comportamento linear) visualizada sob 
o gráfico de dispersão deve ser analisada e 
representada a partir de uma equação matemática. 
Em outras definições, quando dois fenômenos do 
mundo real possuem uma interação de modo que um 
interfere no outro, a análise de regressão tenta 
expressar matematicamente essa interação. A forma 
como isso pode ser estudado é obtendo dados sobre as 
características que representam o fenômeno (as 
variáveis), e a partir desses dados tentar aplicar um 
modelo estatístico. No caso específico da regressão 
linear, tenta-se representar essa interação por meio de 
função linear (uma modelagem estatística de função 
de 1º grau). Em síntese, a regressão linear tenta 
regredir o máximo de informações possíveis de um 
comportamento complexo que ocorre no mundo real 
em um simples modelo matemático. 
Por conseguinte, a forma para representar a relação 
entre duas variáveis X e Y por meio de uma regressão 
linear é dada pelo seguinte modelo estatístico: 
𝒀𝒊 = 𝒂 + 𝒃𝑿𝒊 + 𝜺𝒊 
Em que: 
𝑌𝑖: Variável dependente que será explicada a partir 
do modelo de regressão linear; 
𝑋𝑖: Variável Independente que explicará o 
comportamento de Y; 
𝑎: Estimativa do parâmetro da constante de 
regressão; 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
7 
𝑏: Estimativa do parâmetro do coeficiente de 
regressão. 
𝜀𝑖:Erros da regressão (variável), desvios da reta 
estimada em relação ao comportamento observado; 
 
VARIÁVEL INDEPENDENTE (X) VERSUS 
 VARIÁVEL DEPENDENTE (Y) 
Para estudar eficientemente a relação de duas 
variáveis, é necessário ter controle sobre os valores de 
uma variável. Essa variável é convenientemente a 
variável X, ao qual é denominada como a variável 
independente, pode também ser denominada de 
variável explicativa, regressora, preditora ou 
explanatória. A variável independente é a variável cuja 
variação é usada para explicar as variações da variável 
dependente. O importante é entender que a variável 
independente deve predizer o valor da variável Y, ou 
seja, Y é afetado por X. Para isso, é interessante que X 
seja uma variável em que os dados sejam de fácil 
obtenção pelo homem. Assim, temos que a variável X 
não depende de Y para ser quantificada, porém X deve 
conseguir satisfatoriamente explicar (predizer) as 
variações de Y. Se os valores de X são controlados para 
obter uma predição de Y com eficiência, então X é uma 
variável não aleatória. 
Em contraponto, a variável Y é a variável 
dependente, pois se tenta explicar sua variação a 
partir dos valores de X, ou seja, Y varia em função de X 
– baseado nessa ideia de função, podemos representar 
Y por f(X). A variável pode também ser denominada 
por variável resposta, explicada ou predita. Assim, Y é 
a variável cuja variação será explicada pela outra 
variável, a independente. As variações dos valores de Y 
ocorrem aleatoriamente, no entanto, por meio da 
análise de regressão linear, espera-se explicar esse 
comportamento aleatório. Então, para que a análise de 
regressão funcione corretamente, a primeira 
pressuposição é obter uma variável X independente 
que possa explicar, em maior parte, o comportamento 
de outra variável Y. 
Na correlação linear, trabalha-se apenas os dados 
de duas variáveis quaisquer e quantifica-se o grau de 
associação entre elas. Na regressão linear, precisamos 
ter uma relação de causa e efeito clara, para fazer um 
estudo eficiente sobre a forma da relação entre as 
variáveis. Desse modo, é preciso que uma delas seja 
independente e tenha seus valores controlados pelo 
homem. Isso precisa ser planejado previamente na 
coleta de dados, caso contrário uma pressuposição 
básica da análise de regressão não será atendida, e não 
teremos um modelo de regressão linear confiável. 
 
 
Vamos ver alguns exemplos práticos de variáveis 
independente e dependente: 
 A quantidade de uma substância específica 
no corpo de um cadáver que permite 
estimar o tempo após a morte da vítima; 
 Variável Independente (X): 
quantidade da substância presente no 
cadáver (mg/kg); 
 Variável Dependente (Y): tempo após 
a morte da vítima (horas); 
 O número de vagas em um concurso que 
permite modelar uma estimativa da 
quantidade de inscritos; 
 Variável Independente (X): número 
de vagas em um concurso; 
 Variável Dependente (Y): número de 
inscritos em um concurso; 
 A partir do valor investido em marketing 
na empresa, estimar a as vendas obtidas; 
 Variável Independente (X): 
investimento em marketing (R$); 
 Variável Dependente (Y): vendas da 
empresa (R$); 
 Mensuração das dobras cutâneas do corpo 
humano para estimar o índice de gordura; 
 Variável Independente (X): 
comprimento das dobras cutâneas 
(cm); 
 Variável Dependente (Y): índice de 
gordura corporal (%); 
 Mensurar a temperatura superficial de 
uma estrada para estimar a dilatação da 
pavimentação; 
 Variável Independente (X): 
temperatura superficial da estrada 
(ºC); 
 Variável Dependente (Y): dilatação da 
pavimentação (cm); 
 
 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
8 
CONSTANTE DE REGRESSÃO - INTERCEPTO (A) 
A constante de regressão é um parâmetro da 
regressão (representada por 𝑎) que consiste no valor 
da variável dependente Y sem a interferência (ou 
ocorrência) da variável preditora X. Em outras 
palavras, é a observação da variável Y, quando X for 
igual a zero. Na equação de uma reta, 𝑎 também 
denominado de intercepto ou coeficiente de linear. 
Pode ser visualizada constante de regressão como o 
ponto da reta que intercepta o eixo Y. Veja: 
 
 
O ponto representado na reta de regressão 
simboliza o valor correspondente ao par de informação 
em que X é nulo e Y apresenta um valor 𝑎 (uma 
constante de regressão). Desse modo, essa seria a 
informação isolada de Y caso não houvesse a 
interferência de X. 
Vamos aplicar esse conceito sobre uma reta de 
regressão ajustada que representa a relação entre taxa 
de analfabetismo (X), em %, com valor de mercadorias 
ilegais apreendidas (Y), em mil R$. Imagine, 
hipoteticamente, que o estudo sobre essas variáveis 
apresentou o seguinte modelo de regressão linear: 
 
 
Nesse modelo, podemos inferir que, em regiões 
onde não há analfabetismo (taxa de 0%), ainda se 
encontra a ocorrência de contrabando ilegal de 
mercadorias em que se espera apreender um valor de 
R$ 1,5 mil. Isso evidencia que mesmo sem a 
contribuição da taxa de analfabetismo ainda existe o 
contrabando, isto é, Y existe mesmo sem ocorrer X. 
A constante de regressão apresenta a mesma 
unidade de medida da variável Y, nesse exemplo, 𝑎 =
𝑅$ 1,5 𝑚𝑖𝑙. 
 
COEFICIENTE DE REGRESSÃO (b) 
O coeficiente de regressão, representado pela letra 
𝑏, é a informação mais importante de um modelo de 
regressão linear, pois é a partir desse coeficiente que 
temos a contribuição da variável X em relação a 
variável Y. O parâmetro 𝑏 na equação de uma reta 
representa a inclinação da reta ou também 
denominado coeficiente angular. Em outras 
definições, 𝑏 representa quantas unidades de Y 
(variável dependente) são afetadas com ocorrênciade 
mais uma unidade de X. Vamos abordar esse conceito 
sobre o mesmo exemplo da relação de taxa de 
analfabetismo com contrabando de mercadorias: 
 
 
 
Nessa reta, foram identificados dois pontos: o 
primeiro indica que com 10% de taxa de 
analfabetismo, estima-se um contrabando de R$ 35,5 
mil; o segundo indica que com 11% na taxa de 
analfabetismo, estima-se um contrabando de R$ 38,9 
mil. Na variação desses pontos, pode ser observado 
que um acréscimo de 1% da variável X (taxa de 
analfabetismo) contribui na acréscimo do contrabando 
da região em R$ 3,4 mil, exatamente o valor de 𝑏. 
Portanto, o coeficiente de regressão de 3,4, nesse 
exemplo, representa que, a cada 1% da taxa de 
analfabetismo, há uma contribuição no contrabando de 
mercadorias de R$ 3,4 mil. 
Na equação de uma reta, o coeficiente de regressão 
é a inclinação da reta, ou seja, é a tangente do ângulo 
formado pela reta com o eixo X. Pode também ser 
calculado pela variação de dois pontos de Y divido pela 
variação dos dois pontos de X respectivo. Entenda: 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
9 
 
 
Desse modo, conforme os dois pontos apresentados 
pelo exemplo (10; 35,5) e (11;38,9), teríamos o 
seguinte cálculo para 𝑏: 
𝒃 =
𝟑𝟖, 𝟗 − 𝟑𝟓, 𝟓
𝟏𝟏 − 𝟏𝟎
=
𝟑, 𝟒
𝟏
= 𝟑, 𝟒 𝒎𝒊𝒍 𝑹$ / % 
A unidade de medida de 𝑏 sempre será a unidade de 
medida Y sobre a unidade de medida de X. Com essa 
unidade, define-se 𝑏 = 3,4 como um acréscimo de R$ 
3,4 mil na ocorrência de contrabando para cada um 1% 
da taxa de analfabetismo. 
Ao compreender esse conceito, podemos entender 
a influência que o parâmetro 𝑏 causa na regressão 
linear. O sinal de 𝑏 determina se a reta é crescente (+𝑏) 
ou descrente (−𝑏), ou seja, um valor de 𝒃 positivo 
indica que X contribui para aumenta Y, enquanto 𝒃 
negativo indica que X contribui para reduzir Y. Caso o 
valor de 𝑏 for nulo, não existe uma regressão linear, 
apenas uma constante, isto é, X não afeta o valor de Y. 
Entenda: 
 
 
Além do sinal, o valor em módulo de 𝑏 evidencia a 
inclinação da reta, isto é, valores 𝑏 mais distantes de 
zero inclinam a reta de regressão para o eixo-- vertical 
(eixo Y), enquanto valores de 𝑏 mais próximos de zero 
inclinam a reta de regressão para o eixo horizontal 
(eixo X). 
 
 
 
ERROS DA REGRESSÃO (𝜺𝒊) 
Ao representar a relação de duas variáveis a partir 
de um modelo de regressão, é natural que não seja 
possível captar toda a variação de Y em função X no 
modelo de regressão linear. Assim, existirá uma 
variação de Y em função de X que não será explicada 
pelo modelo de regressão linear, essa variação 
denomina-se de erros da regressão (ou resíduos), 
representado por 𝜀𝑖 . No gráfico da regressão linear, 
esses erros são representados pelos pontos que não 
passam pela reta, isto é, os erros da regressão 
consistem nos desvios entre o ponto em relação a reta. 
Entenda: 
 
 
O modelo de regressão linear, dado por �̂�𝒊 = 𝒂 +
𝒃𝑿𝒊, tenta predizer um valor Y a partir de um valor de 
X conhecido. Assim, ao obter um valor de Y a partir de 
X, utilizando o modelo de regressão, temos um valor 
estimado �̂�. Esse valor corresponde exatamente ao 
valor traçado pela reta. Contudo, é comum que o valor 
Y observado (representado pelo ponto) não seja 
exatamente aquele �̂� estimado pela reta. Nesse sentido, 
temos que os erros da regressão é representado por: 
𝜺𝒊 = 𝒀𝒊 − �̂�𝒊 
Portanto, os erros 𝜀𝑖 ilustrados no gráfico são 
explicados pela diferença (vertical) entre o valor 
observado 𝑌𝑖 (referente ao ponto) e o valor estimado �̂�𝑖 
(valor exato traçado pela reta). 
 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
10 
PRESSUPOSIÇÕES DA REGRESSÃO LINEAR 
Diante de todo exposto, foi estudado os 
componentes que integram o modelo de uma 
regressão linear. Em síntese a tudo abordado, podemos 
definir que um modelo de regressão linear apresenta 
as seguintes informações: 
 
Para que esse modelo de regressão seja alcançado 
eficientemente, as seguintes pressuposições devem ser 
atendidas: 
 A relação entre X e Y é linear (os 
acréscimos/decréscimo em X produzem 
acréscimos/decréscimo proporcionais em 
Y e a razão de crescimento é constante); 
 Os valores de X são fixados 
arbitrariamente (X não é uma variável 
aleatória); 
 Y é uma variável aleatória que depende, 
entre outras coisas, dos valores de X; 
 O erro aleatório é uma variável aleatória 
com distribuição normal, com média zero 
e variância 𝜎𝑒
2. [ 𝜀𝑖~ N (0, 𝜎𝑒
2)]. 
 𝜀𝑖 representa a variação de Y que não é 
explicada pela variável independente X; 
 Os erros são considerados independentes. 
 
ESTIMATIVA DO 𝒃 
Para obtenção do coeficiente de regressão linear (𝑏) 
a partir de uma amostra de pares ordenados, é 
necessário aplicar a seguinte fórmula: 
𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
𝟐
 
Portanto, o coeficiente de regressão linear pode ser 
obtido pela divisão entre a covariância (X,Y) com a 
variância de X. O que define se o sinal de 𝑏 e faz com 
que a reta de regressão seja crescente ou decrescente 
é a covariância (assim como na correlação), já que ela 
quantifica a variação associada e direção dessas 
variações. 
Conforme o primeiro exemplo abordado, veja o 
cálculo: 
OBJETO DE ESTUDO: 
Uma investigação analisa o tempo de decomposição 
de um corpo de delito (em minutos), e o respectivo peso 
(em kg) decomposto. Essa decomposição é analisada 
após o corpo ser exposto a um reagente. Foram 
analisados quatro fragmentos desse corpo. 
Variável X: Tempo de decomposição, em minutos; 
Variável Y: Peso do corpo de delito decomposto, em 
kg; 
 
Com o conhecimento da estatística descritiva, os 
desvios padrões de X e Y podem ser calculados. Os 
resultados ao efetuar esses cálculos seriam: 
𝒔𝑿
𝟐 = (𝟐, 𝟕𝟒 𝒎𝒊𝒏)𝟐 = 𝟕, 𝟓 𝒎𝒊𝒏𝟐 
 
𝑪𝒐𝒗(𝑿, 𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 
 
Assim, o valor coeficiente de regressão b será: 
𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
𝟐
 
𝒃 =
𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 
𝟕, 𝟓 𝒎𝒊𝒏𝟐
 
 
𝒃 =
𝟏𝟎, 𝟕𝟓𝒌𝒈 
𝟕, 𝟓 𝒎𝒊𝒏
= 𝟏, 𝟒𝟑
𝒌𝒈 
𝒎𝒊𝒏
 
Portanto, observa-se que, a cada um minuto de 
exposição, a substância decompõe 1,43 kg do corpo de 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
11 
delito. Em outras palavras, temos a contribuição de X 
na variação de Y. 
 
ESTIMATIVA DO 𝒂 
A constante de regressão 𝑎 pode ser calculada a 
partir da seguinte expressão: 
𝒂 = �̅� − 𝒃�̅� 
Para obter 𝑎 por meio dessa fórmula, é preciso já ter 
estimado o valor de 𝑏. Essa fórmula pode ser explicada 
facilmente pelo assunto na abordado em 
transformação de variáveis. Veja que a equação da reta 
nada mais é que uma transformação da variável X em 
Y. Nessa ideia, sabemos que a média sofre efeito de 
multiplicação/divisão e soma/subtração, portanto, o 
valor médio de X seria multiplicado/divido por 𝑏 e 
somado/subtraído por 𝑎 para obter o valor médio de 
Y. Como não sabemos o valor de 𝑎, basta isolar: 
�̅� = 𝒂 + 𝒃�̅� → 𝒂 = �̅� − 𝒃�̅� 
Conforme o exemplo construído, temos a seguinte 
constante de regressão: 
�̅� =
𝟐 + 𝟑 + 𝟔 + 𝟗
𝟒
=
𝟐𝟎
𝟒
= 𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 
 
�̅� =
𝟓 + 𝟕 + 𝟖 + 𝟏𝟔
𝟒
=
𝟑𝟔
𝟒
= 𝟗 𝒌𝒈 
𝒃 = 𝟏, 𝟒𝟑
𝒌𝒈 
𝒎𝒊𝒏
 
 
𝒂 = 𝟗 − 𝟏, 𝟒𝟑 × 𝟓 
𝒂 = 𝟏, 𝟖𝟓 𝒌𝒈 
Portanto, no instante 0, a substância seria capaz de 
decompor 1,85 kg. 
 
ESTIMATIVA DE �̂� PELA RETA DE REGRESSÃO 
Após estimar os parâmetros 𝑎 e 𝑏, obtém-se a 
seguinte reta de regressão linear: 
 
Por meio dessa equação de primeiro grau, podemos 
estimar o peso que será decomposto pela substância 
(�̂�) após um determinado tempo de exposição. Por 
exemplo, qual o peso que será decomposto do corpo de 
delito após 4 minutos (X=4) de decomposição? Para 
isso basta aplicara equação da reta: 
 
 
RELAÇÃO ENTRE B X R 
Ao conhecer as fórmulas que definem o coeficiente 
de regressão linear (𝑏) e o coeficiente de regressão (𝑟), 
podemos encontrar uma relação importante entre 
essas duas medidas. Ao analisar as fórmulas de 𝑏 e 𝑟 
em função de X e Y, obtém-se a seguinte relação: 
𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
𝟐 𝐫 =
𝐂𝐨𝐯(𝐗, 𝐘)
𝐬𝐗 × 𝐬𝐘
 
𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿 × 𝒔𝑿
 𝐫 =
𝐂𝐨𝐯(𝐗, 𝐘)
𝐬𝐗 × 𝐬𝐘
 
𝒃 × 𝒔𝑿 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
 𝐫 × 𝐬𝐘 =
𝐂𝐨𝐯(𝐗, 𝐘)
𝐬𝐗
 
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
12 
 
ANÁLISE DE VARIÂNCIA DA REGRESSÃO 
O modelo básico da regressão linear expressa a 
relação de X e Y por meio de uma equação da reta. Em 
adição, o teste de hipótese do coeficiente de regressão 
verifica a existência significativa dessa relação linear 
entre X e Y. Além desses procedimentos, é necessário 
utilizar a análise de variância para obter o quanto a 
reta de regressão explica os valores observados de Y 
utilizados para o ajuste. Portanto, a análise de variância 
tem o objetivo de quantificar a dispersão da regressão 
linear, analisando o quanto o modelo linear explica o 
comportamento de Y e o quanto não pode ser 
explicado. 
Sobretudo, ao efetuarmos uma análise de regressão, 
parte da variação de Y é explicada em função da 
variação de X (por meio da reta de regressão �̂�𝑖 = 𝑎 +
𝑏𝑋𝑖); a outra parte da variação é causada por fatores 
aleatórios não explicados pelo modelo (𝜀𝑖). Desse 
modo, toda a dispersão (ou variabilidade) de uma 
regressão linear (variação total da regressão) pode ser 
expressa pelos seguintes componentes: 
 
Esse é a essência da análise de variância da 
regressão: quantificar os componentes causadores da 
variação de Y e evidenciar a capacidade do modelo de 
regressão linear em explicar a variação de Y. 
COMPONENTES DA VARIÂNCIA DA REGRESSÃO 
O primeiro passo para compreender a análise de 
variância da regressão é particionar e estudar os dois 
componentes da variação total de Y. É necessário 
entender o que cada componente representa sobre os 
valores da variável dependente Y e como eles podem 
ser quantificados e representados matematicamente. 
 A variabilidade de qualquer variável Y é mensurada 
a partir dos desvios em relação à sua média (𝑌𝑖 − �̅�), 
esses são os desvios que quantificam a variação 
total de Y. No entanto, na regressão linear, cada desvio 
em relação à média é composto: pelo desvio da 
observação Y em relação ao valor estimado pela 
regressão (𝑌𝑖 − �̂�𝑖), que consiste no erro de 
regressão; e pelos os desvios do valor estimado em 
relação a média (�̂�𝑖 − �̅�), que consiste na dispersão 
captada (explicada) pela regressão linear. Com isso, 
temos que cada desvio (a unidade de dispersão de uma 
variável), na regressão linear, é denotado por: 
𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 𝒅𝒆 𝒀𝒊 = 𝑫𝒆𝒔𝒗𝒊𝒐 Explicado pela 
Regressão + Desvio do Erro de Regressão 
Assim, cada observação de Y apresenta um desvio 
em relação à sua média, sendo composto por uma parte 
explicada pela regressão e outra devido fatores 
aleatórios (não explicados). Matematicamente, um 
desvio de Y pode ser representado por: 
 
Em que: 
𝑌𝑖: são os valores observados da variável Y, que 
fazem o par com os valores X; 
�̂�𝑖: são os valores da variável Y estimados pela reta 
de regressão; 
�̅�: é a média da variável Y. 
Ao observar a construção de uma regressão linear, 
podemos identificar, graficamente, o desvio da variável 
Y e seus partição em componentes – explicado e não 
explicado pela regressão –, entenda: 
 
 
 
O primeiro gráfico ilustra a dispersão dos pontos 
(valores observados de Y) em relação a sua 
centralidade (média �̅�). Nesse gráfico, podemos 
observar o desvio de um ponto especificamente em 
relação a média, formando o desvio total. Ao construir 
uma regressão linear entre X e Y, no segundo gráfico, 
observa-se que esse desvio total é particionado por um 
desvio explicado pela regressão e um desvio devido ao 
erro da regressão (causa aleatórias não explicada). 
Portanto, observando um ponto específico podemos 
ter a seguinte representação de um desvio: 
 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
13 
Até o momento, estamos analisando a composição 
de apenas um desvio de uma observação. Contudo, 
sabe-se que a regressão é composta por vários pontos 
e cada um possui seu respectivo desvio. Assim, para 
representar toda a variabilidade da variável Y 
submetida a regressão linear, é necessário ter os 
somatórios e todos os desvios. Porém, ao se falar de 
desvios em relação à média, sabe-se que seu somatório 
é zero, e, para evitar esse problema, cada desvio é 
elevado ao quadrado. Desse modo, tem-se o somatório 
dos desvios ao quadrado, ou também denominado de 
variação, ou então de soma dos quadrados: 
 
 O termo ∑(𝒀𝒊 − �̅�)
𝟐 é denominado de 
Soma dos Quadrados Totais (SQT) ou 
Variação Total, quantifica a variabilidade 
total da variável Y em torno da sua média; 
 O termo ∑(�̂�𝒊 − �̅�)
2
 é denominado de 
Soma dos Quadrados Explicados pela 
Regressão (SQE), ou Variação Explicada, 
quantifica a variabilidade de Y estimado 
pela regressão em torno da média, isto é, 
representa a parte do SQT explicada pela 
regressão de Y em função de X; 
 O termo ∑(𝒀𝒊 − �̂�𝒊)
2
 é denominado de 
Soma dos Quadrados dos Resíduos 
(SQR), ou Variação Não Explicada, 
quantifica a variabilidade de 𝑌 observado 
com o �̂� estimado pela reta de regressão, 
isto é, o que não explicado pela regressão 
de Y em função de X. 
Assim, outra notação que pode ser usada para 
representar os componentes da variabilidade de Y é: 
𝑺𝑸𝑻 = 𝑺𝑸𝑬 + 𝑺𝑸𝑹 
Após obter os valores dos desvios ao quadrado, 
podemos determinar a variância de cada componente. 
Para isso, basta dividir cada soma dos quadrados (ou 
variação) pelo seu respectivo grau de liberdade. Assim, 
temos que a soma dos quadrados dividida pelos 
respectivos graus de liberdade gera a variância, que 
também é denominado de Quadrado Médio (QM). 
Portanto: 
 𝑺𝑸𝑻 corresponde a variação total de Y, 
desse modo, seus graus de liberdade 
correspondem a 𝒏 − 𝟏 e com isso obtém-
se a variância de Y (𝑠𝑌
2), ou o quadrado 
médio total: 
𝑸𝑴𝑻 =
𝑺𝑸𝑻
𝒏 − 𝟏
=
∑(𝒀𝒊 − �̅�)
𝟐
𝒏 − 𝟏
 
 𝑺𝑸𝑬 corresponde a variação explicada 
pela regressão linear, desse modo, o grau 
de liberdade corresponde a 1, pois temos 
apenas um coeficiente de regressão 𝑏 
(uma variável independente X) explicando 
a variação de Y (em regressões múltiplas, 
os graus de liberdade correspondem ao 
número de variáveis independentes). Com 
isso, obtém a variância explicada ou 
quadrado médio explicado pela regressão: 
𝑸𝑴𝑬 =
𝑺𝑸𝑬
𝟏
=
∑(�̂�𝒊 − �̅�)
2
𝟏
 
 𝑺𝑸𝑹 corresponde a variação não explicada 
pela regressão linear, desse modo, os 
graus de liberdade correspondem ao resto 
para completar o total, ou seja, se o total de 
graus de liberdade é 𝑛 − 1, e 1 grau de 
liberdade corresponde ao componente 
explicado, o resíduo terá 𝒏 − 𝟐 graus de 
liberdade. Com isso, obtém a variância não 
explicada ou quadrado médio dos 
resíduos: 
𝑸𝑴𝑬 =
𝑺𝑸𝑹
𝒏 − 𝟐
=
∑(𝒀𝒊 − �̂�𝒊)
𝟐
𝒏 − 𝟐
 
 
Por fim, podemos representar todos os 
componentes da variância de uma regressão linear 
simples a partir de uma tabela: 
 
Causas de 
Variação 
Graus de 
Liberdade 
Soma dos 
Quadrados 
(ou 
Variação) 
Quadrado 
Médio 
(ou Variância) 
Explicada 
(Regressão) 
1 SQE 𝑸𝑴𝑬 =
𝑺𝑸𝑬
𝟏
 
Resíduo 
(Erro) 
𝒏 − 𝟐 SQR 𝑸𝑴𝑬 =
𝑺𝑸𝑹
𝒏 − 𝟐
 
Total 𝒏 − 𝟏 SQT 𝑸𝑴𝑬 =
𝑺𝑸𝑻
𝒏 − 𝟏
 
 
COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐) 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA!14 
 Conhecendo os componentes da variância da 
regressão, podemos definir um novo coeficiente muito 
aplicado na análise de regressão. O r2 é denominado de 
coeficiente de determinação (ou explicação), pois 
consiste na proporção da variação total de Y que é 
explicada pela regressão linear (pela variação da 
variável independente X), em outras palavras, esse 
coeficiente determina o poder explicativo de um 
modelo de regressão linear. 
O poder explicativo da regressão tem por objetivo 
avaliar a “qualidade” do ajuste da reta de regressão aos 
pontos (X, Y). Baseado nesse conceito, podemos obter 
o coeficiente de determinação a partir da seguinte 
proporção: 
𝐫𝟐 =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑬𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 𝒑𝒆𝒍𝒂 𝑹𝒆𝒈𝒓𝒆𝒔𝒔ã𝒐
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍
 
𝐫𝟐 =
𝑺𝑸𝑬
𝑺𝑸𝑻
 
Com esse cálculo, obtém a proporção (ou 
porcentagem) do quanto o modelo de regressão linear 
explica o comportamento variável de Y. Sobretudo, 
como a variação explicada se trata de um componente 
do total, o valor de r2 sempre irá oscilar entre 0 até 1 
(0 a 100%). Se r2 é próximo de 1, isso significa que a 
variação explicada responde por uma grande 
percentagem da variação total, isto é, o modelo de 
regressão linear explica eficientemente a variação de Y. 
Por outro lado, valores de r2 próximos de zero indicam 
que há muito variação de Y não explicada pelo modelo 
de regressão, isto é, muitas variações devido a fatores 
aleatórios. 
Em síntese, o ajustamento da reta de regressão aos 
pontos observados é mais eficiente quanto mais perto 
de 1 estiver o valor do coeficiente de determinação r2. 
Se 𝑟2 = 0,81, por exemplo, indica que 
aproximadamente 81% da variação em Y está 
relacionada com a variação de X e é explicada 
eficientemente pelo modelo linear. Em contraponto, 
19% da variação em Y não é explicada em função de X. 
 
 
 
Esse coeficiente, não por acaso, é representado por 
𝑟2, pois trata-se do coeficiente de correlação 𝒓 
elevado ao quadrado. Ou seja, quanto maior a 
correlação linear (força de associação) entre uma 
variável (X,Y), maior é eficiência de explicar Y em 
função de X por um modelo de regressão linear. 
𝒓𝟐 = (𝒓)𝟐 
𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑫𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐
= (𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑪𝒐𝒓𝒓𝒆𝒍𝒂çã𝒐)𝟐 
É muito comum questões de Estatística cobrarem 
sobre coeficiente de correlação, a partir da análise de 
variância da regressão. Para obter o resultado, basta 
encontrar a proporção que representa o coeficiente de 
determinação e extrair a raiz quadrada. O contrário 
também é comum, ou seja, em questões de correlação 
perguntar o valor de r2. Essa igualdade resolve 
facilmente esses tipos de questões. Veja que não 
conseguimos definir o sinal da correlação, para isso 
é preciso observar a relação entre as variáveis. 
Vejamos o que ocorre com a Soma dos Quadrados 
em duas situações particulares: 
 Correlação Perfeita (𝑟 = 1 ou 𝑟 =– 1): 
Nessa situação, a reta ajustada passa 
exatamente sobre todos os pontos 
observados. Assim, todos os erros são 
iguais a zero, e a regressão linear explica 
toda a variação de Y. Logo: 
SQR = 0 
SQT = SQE 
Coeficiente de 
Determinação (r2) = 100% 
 
 Correlação Nula (𝒓 = 𝟎): Nesse caso, a 
reta de regressão é paralela ao eixo X 
(coeficiente angular “𝑏” igual a zero). A 
reta de regressão não consegue explicar as 
variações de Y e praticamente não passa 
por nenhum ponto, logo: 
 
SQE = 0 
SQT = SQR 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
15 
Coeficiente de 
Determinação (r2) = 0 
 
EXERCÍCIOS 
COVARIÂNCIA E CORRELAÇÃO LINEAR 
1. (CESPE – IPHAN – Analista – 2018) O diagrama 
de dispersão é adequado para se descrever o 
comportamento conjunto de duas variáveis 
quantitativas. Cada ponto do gráfico representa um 
par de valores observados. 
Certo ( ) Errado ( ) 
 
 
(CESPE – DEPEN – Agente de Execução Penal – 
Área 4 – 2015) Dado que a participação dos 
presidiários em cursos de qualificação profissional 
é um aspecto importante para a reintegração do 
egresso do sistema prisional à sociedade, foram 
realizados levantamentos estatísticos, nos anos de 
2001 a 2009, a respeito do valor da educação e do 
trabalho em ambientes prisionais. Cada um desses 
levantamentos, cujos resultados são apresentados 
no gráfico, produziu uma estimativa anual do 
percentual P de indivíduos que participaram de um 
curso de qualificação profissional de curta duração, 
mas que não receberam o diploma por motivos 
diversos. Em 2001, 69,4% dos presidiários que 
participaram de um curso de qualificação 
profissional não receberam o diploma. No ano 
seguinte, 2002, esse percentual foi reduzido para 
61,5%, caindo, em 2009, para 30,9%. 
 
2. O gráfico apresentado — em que é mostrada a 
dispersão entre os percentuais anuais P e os anos 
— sugere que a variável ano e P sejam 
dependentes. 
Certo ( ) Errado ( ) 
 
 
 variável 2003 2004 2005 2006 2007 
Exportação X 40 46 50 52 54 
Importação Y 20 21 22 24 27 
total X + Y 60 67 72 76 81 
(CESPE – ANTAQ – Técnico em Regulação – 
2009) Considerando a tabela acima, que apresenta 
a movimentação anual de cargas no porto de 
Santos de 2003 a 2007, em milhões de toneladas/ 
ano e associa as quantidades de carga 
movimentadas para exportação e importação às 
variáveis X e Y, respectivamente, julgue o item 
subsequente. 
 
3. As séries estatísticas apresentadas na tabela 
formam três séries temporais. 
Certo ( ) Errado ( ) 
 
 
 
 
4. Historicamente, de 2003 a 2007, a quantidade 
exportada X foi, pelo menos, duas vezes maior que a 
quantidade importada Y. 
Certo ( ) Errado ( ) 
 
 
 
 
5. A quantidade de carga movimentada para 
exportação em 2007 foi, pelo menos, 35% maior 
que a quantidade de carga movimentada para 
exportação em 2003. 
Certo ( ) Errado ( ) 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
16 
6. A variância da soma X+Y é igual à soma das 
variâncias de X e de Y. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
7. A correlação linear entre X e Y é positiva. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
(CESPE – TCU – Auditor Federal de Controle 
Externo – 2008) Uma agência de desenvolvimento 
urbano divulgou os dados apresentados na tabela a 
seguir, acerca dos números de imóveis ofertados 
(X) e vendidos (Y) em determinado município, nos 
anos de 2005 a 2007. 
 
 
8. O coeficiente de correlação linear entre X e Y é 
inferior a 0,8. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
 
 
 
 
 
(CESPE – BACEN – Analista – 2000) Um auditor 
está interessado em estudar a relação entre 
consumo de gasolina − y, em litros − e distância 
percorrida em uma cidade − x, em quilômetros − 
para certo modelo· de carro. Para isso, ele obteve 
uma amostra de n = 25 carros e registrou a 
distância percorrida e o consumo de gasolina 
correspondente, em certo período de tempo. 
Considere o modelo de regressão yi=α+bxi+ui, para 
i=1,2...,25, em que os erros ui são independentes e 
normalmente distribuídos, com média 0 e desvio-
padrão σu, e os 25 pares de valores apresentados 
no gráfico abaixo. 
 
9. O coeficiente de correlação de Pearson entre os 
valores de x e de y é igual a 1. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
10. (CESPE – TCE/PR – Analista de Controle – 2016) 
Se satisfação no trabalho e saúde no trabalho forem 
indicadores com variâncias populacionais iguais a 
8 e 2, respectivamente, e se a covariância 
populacional entre esses indicadores for igual a 3, 
então a correlação populacional entre satisfação no 
trabalho e saúde no trabalho será igual a: 
a) 0,8125 
b) 1 
c) 0,1875 
d) 0,3 
e) 0,75 
 
 
 
 
 
 
 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
17 
(CESPE – STF – Analista Judiciário – 2013) Pedro 
e João são os oficiais de justiça no plantãodo fórum 
de determinado município. Em uma diligência 
distribuída a Pedro, X é a variável aleatória que 
representa o sucesso (X = 1) ou fracasso (X = 0) no 
cumprimento desse mandado. Analogamente, Y é a 
variável aleatória que representa o sucesso (Y = 1) 
ou fracasso (Y = 0) de uma diligência do oficial João. 
Com base nessa situação hipotética e considerando 
a soma S = X + Y, e que P(X = 1) = P(Y = 1) = 0,6 e 
E(XY) = 0,5, julgue o item que se segue, acerca das 
variáveis aleatórias X, Y e S. 
11. A correlação linear entre as variáveis X e Y é 
superior a 0,6. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
12. A variável aleatória S segue uma distribuição 
binomial com parâmetros n = 2 e p = 0,6. 
Certo ( ) Errado ( ) 
 
 
 
 
 
13. (CESPE – ANP – Especialista em Regulação – 
2013) A correlação nula entre duas variáveis 
indica que há independência entre essas variáveis. 
Certo ( ) Errado ( ) 
 
 
 
 
 
14. (CESPE – MS – Estatístico – 2010) Se o coeficiente 
de correlação linear entre as variáveis é igual a 
zero, então não existe nenhuma relação entre as 
variáveis X e Y. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
(CESPE – ANAC – Especialista em Regulação – 
2009) Considere duas variáveis aleatórias, V e Z, 
em que V possui distribuição binomial com n = 1 
e p = 0,2, enquanto Z possui distribuição binomial 
com n = 1 e p = 0,8. Considerando que a covariância 
entre V e Z é igual a 0,04, julgue o item que se segue. 
 
15. O coeficiente de correlação entre V e Z é superior a 
0,20. 
Certo ( ) Errado ( ) 
 
 
 
 
 
16. As variáveis V e Z são independentes. 
Certo ( ) Errado ( ) 
 
 
 
 
17. (CESPE – Polícia Federal – Papiloscopista – 
2012) Considere que a covariância e a correlação 
linear entre as variáveis X e Y sejam, 
respectivamente, iguais a 5 e 0,8. Suponha também 
que a variância de X seja igual a quatro vezes a 
variância de Y. Nesse caso, é correto afirmar que a 
variância de X é igual a 2. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
MODELO DE REGRESSÃO LINEAR 
(CESPE – Polícia Federal – Estatístico – 
2004) Entre janeiro e novembro de 2003, foi 
realizado um estudo para avaliar o número mensal 
de ocorrências, por 1.000 habitantes, registradas 
em delegacias de determinada região. Para esse 
estudo, foi considerado o modelo de regressão 
linear simples na forma Y=a+βX+ϵ, em que X é 
uma variável que representa os meses e 
assume valores discretos 0, 1, 2, ..., 10, 
e Y representa o número de ocorrências por 
1.000 habitantes registradas no respectivo 
mês X. Parte do objetivo desse estudo é 
estimar os coeficientes a e β. O erro aleatório é 
representado por ϵ. 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
18 
As tabelas abaixo apresentam parte dos resultados 
do ajuste e da análise de variância. 
 
18. A média de Y é superior a 50,5. 
Certo ( ) Errado ( ) 
 
 
 
19. Caso se mantivesse a tendência dos meses de 
janeiro a novembro, a estimativa do número de 
ocorrências por 1.000 habitantes para dezembro 
de 2003 seria de 50,6 ocorrências por 1.000 
habitantes. 
Certo ( ) Errado ( ) 
 
 
 
 
20. No modelo apresentado, X é uma variável aleatória 
discreta. 
Certo ( ) Errado ( ) 
 
(CESPE – Polícia Federal - Escrivão - 2018) O 
intervalo de tempo entre a morte de uma vítima até 
que ela seja encontrada (y em horas) denomina-se 
intervalo post mortem. Um grupo de 
pesquisadores mostrou que esse tempo se 
relaciona com a concentração molar de potássio 
encontrada na vítima (x, em mmol/dm3). Esses 
pesquisadores consideraram um modelo de 
regressão linear simples na forma y = ax + b + ε, em 
que a representa o coeficiente angular, b 
denomina-se intercepto, e ε denota um erro 
aleatório que segue distribuição normal com média 
zero e desvio padrão igual a 4. 
 
As estimativas dos coeficientes a e b, obtidas pelo 
método dos mínimos quadrados ordinários foram, 
respectivamente, iguais a 2,5 e 10. O tamanho da 
amostra para a obtenção desses resultados foi n = 
101. A média amostral e o desvio padrão amostral 
da variável x foram, respectivamente, iguais a 9 
mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da 
variável y foi igual a 5 horas. 
 
21. A média amostral da variável resposta y foi 
superior a 30 horas. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
22. De acordo com o modelo ajustado, caso a 
concentração molar de potássio encontrada 
em uma vítima seja igual a 2 mmol/dm3, o 
valor predito correspondente do intervalo post 
mortem será igual a 15 horas. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
(CESPE – TCE/PA – Auditor de Controle Externo 
– 2016) Uma regressão linear simples é expressa 
por Y = a + b×X + e, em que o termo e corresponde 
ao erro aleatório da regressão e os parâmetros a e 
b são desconhecidos e devem ser estimados a 
partir de uma amostra disponível. Assumindo que 
a variável X é não correlacionada com o erro e, 
julgue o item subsecutivo, nos quais os resíduos 
das amostras consideradas são IID, com 
distribuição normal, média zero e variância 
constante. 
 
23. Para uma amostra de tamanho n = 25, em que a 
covariância amostral para o par de 
variáveis X e Y seja Cov(X, Y) = 20,0, a variância 
amostral para a variável Y seja Var(Y) = 4,0 e a 
variância amostral para a variável X seja Var(X) = 
5,0, a estimativa via estimador de mínimos 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
19 
quadrados ordinários para o coeficiente b é igual a 
5,0. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
24. Considere que as estimativas via método de 
mínimos quadrados ordinários para o parâmetro a 
seja igual a 2,5 e, para o parâmetro b, seja igual a 
3,5. Nessa situação, assumindo que X = 4,0, o valor 
predito para Y será igual a 16,5, se for utilizada a 
reta de regressão estimada. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
25. A variável Y é denominada variável explicativa, e a 
variável X é denominada variável dependente. 
 Certo ( ) Errado ( ) 
 
 
 
 
 
 
amostra (i) 1 2 3 4 
preço (Pi) 5 5 6 8 
demanda (Di) 10 12 8 8 
(CESPE – ANATEL – Especialista em Regulação – 
2014) Considerando a tabela acima, em que são 
evidenciados os resultados de levantamento feito 
para o estudo da relação preço demanda em um 
serviço de comunicação de dados, e o modelo de 
regressão linear simples na forma Di = αPi + εi, em 
que εi representa um erro aleatório com média 
nula e variância residual V, e α é o coeficiente do 
modelo, julgue o item subsequente. 
 
26. O coeficiente α representa a correlação linear de 
Pearson entre as variáveis preço e demanda. 
 Certo ( ) Errado ( ) 
 
(CESPE – TCE/ES – Auditor – 2012) Um modelo 
de regressão linear simples descreve a relação 
entre o preço unitário (representado por X), em 
reais, de determinado produto e a quantidade de 
unidades vendidas (representada por Y). A reta de 
regressão ajustada pelo método de mínimos 
quadrados ordinários é Y = 25 - 0,1X. 
 
27. De acordo com o modelo, se o preço de venda 
corresponder a R$ 50,00 a unidade, pode-se prever 
a venda de 20 unidades desse produto. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
28. Considere que, no modelo apresentado, o preço 
unitário do produto, representado pela variável Z, 
seja cotado em dólares e que um dólar valha R$ 
2,00. Nesse caso, segundo o mesmo método de 
mínimos quadrados, a reta de regressão estimada 
será Y = 25 - 0,2Z. 
( ) Certo ( ) Errado 
 
 
 
 
 
 estimativa erro padrão p-valor 
intercepto 400 40 < 0,001 
coeficiente 
angular 
1 0,2 < 0,001 
29. (CESPE – TRT – Analista Judiciário – 2013) Um 
modelo de regressão linear simples foi ajustado 
pelo método de mínimos quadrados ordinários 
como parte de um laudo de avaliação imobiliária. 
Nesse modelo, cujos resultados se encontram na 
tabela acima, a variável resposta — y — representa 
o valor do imóvel, em R$ mil, e a variávelregressora — x — é a área construída do imóvel 
(em m2). 
 
Considerando que o tamanho da amostra para essa 
modelagem tenha sido superior a 500 e que os 
erros aleatórios pertinentes sejam normais, julgue 
o item a seguir. 
 
O modelo ajustado foi y = x + 400, o que sugere que 
cada metro quadrado eleva, em média, R$ 1 mil no 
valor do imóvel. 
( ) Certo ( ) Errado 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
20 
ANÁLISE DE VARIÂNCIA E COEFICENTE DE 
DETERMINAÇÃO 
30. (CESPE – TJ/SE – Analista Judiciário – 2014) Em 
um modelo de regressão linear simples, o 
coeficiente de determinação cresce à medida que a 
correlação entre a variável resposta e a variável 
regressora aumenta. 
Certo ( ) Errado ( ) 
 
 
 
 
 
31. (CESPE – TJ/SE – Analista Judiciário – 2014) Se 
um modelo de regressão linear simples tivesse 
coeficiente de determinação igual a 0,75, então, 
nesse modelo, a soma de quadrados do resíduo 
seria menor que a metade da soma de quadrados 
totais. 
Certo ( ) Errado ( ) 
 
 
 
 
 
32. (CESPE – TJ/SE – Analista Judiciário – 2014) Em 
um modelo de regressão linear, se a variável 
explicativa e a variável resposta não se 
correlacionam, o coeficiente de determinação seria 
próximo de 0. Além disso, se o coeficiente de 
determinação fosse próximo de 0, as variáveis 
explicativa e resposta seriam independentes. 
Certo ( ) Errado ( ) 
 
 
 
 
(CESPE – EBSERH – Analista Administrativo – 
2018) Determinado estudo considerou um modelo 
de regressão linear simples na forma yi = β0 + β1xi 
+ εi , em que yi representa o número de leitos por 
habitante existente no município i; xi representa 
um indicador de qualidade de vida referente a esse 
mesmo município i, para i = 1, ..., n. A componente 
εi representa um erro aleatório com média 0 e 
variância σ2. A tabela a seguir mostra a tabela 
ANOVA resultante do ajuste desse modelo pelo 
método dos mínimos quadrados ordinários. 
 
 
 
33. A correlação linear entre o número de leitos 
hospitalares por habitante (y) e o indicador de 
qualidade de vida (x) foi igual a 0,9. 
Certo ( ) Errado ( ) 
 
 
 
 
 
34. O referido estudo contemplou um conjunto de 
dados obtidos de n = 11 municípios. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
35. O desvio padrão amostral do número de leitos por 
habitante foi superior a 10 leitos por habitante. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
36. A estimativa de σ² foi igual a 10. 
Certo ( ) Errado ( ) 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
21 
 
 
(CESPE – EBC – Analista – 2011) Os gráficos 
acima mostram a relação entre o PIB per capita de 
100 municípios (x) e as vendas mensais (y) dos 
jornais A, B e C nos 
municípios correspondentes. Cada gráfico 
apresenta uma reta de regressão linear simples 
ajustada pelo método de mínimos quadrados 
ordinários e seu coeficiente de explicação (R2). Com 
base nessas informações, julgue os itens que se 
seguem. 
 
37. Com base no valor do coeficiente de correlação 
entre o volume de vendas do jornal C e a renda per 
capita do município, é correto considerar que 
ambas são praticamente variáveis independentes. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
 
 
(CESPE – Polícia Federal - Escrivão - 2018) O 
intervalo de tempo entre a morte de uma vítima até 
que ela seja encontrada (y em horas) denomina-se 
intervalo post mortem. Um grupo de 
pesquisadores mostrou que esse tempo se 
relaciona com a concentração molar de potássio 
encontrada na vítima (x, em mmol/dm3). Esses 
pesquisadores consideraram um modelo de 
regressão linear simples na forma y = ax + b + ε, em 
que a representa o coeficiente angular, b 
denomina-se intercepto, e ε denota um erro 
aleatório que segue distribuição normal com média 
zero e desvio padrão igual a 4. 
 
As estimativas dos coeficientes a e b, obtidas pelo 
método dos mínimos quadrados ordinários foram, 
respectivamente, iguais a 2,5 e 10. O tamanho da 
amostra para a obtenção desses resultados foi n = 
101. A média amostral e o desvio padrão amostral 
da variável x foram, respectivamente, iguais a 9 
mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da 
variável y foi igual a 5 horas. 
 
38. O coeficiente de explicação do modelo (R2) foi 
superior a 0,70. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
 
(CESPE – TELEBRAS – Especialista em Gestão de 
Telecomunicações – 2015) Um estudo a respeito 
do índice de cancelamento de assinaturas (Y) de 
uma operadora de telefonia celular no período de 
2010 a 2014 produziu um ajuste na forma �̂�𝑡 = �̂� +
�̂�(𝑡 − 2012), em que t = 2010, 2011, 2012, 2013, 
2014; �̂�𝑡 é a estimativa desse índice no ano t 
correspondente; e �̂� e �̂� representam as estimativas 
de mínimos quadrados ordinários dos coeficientes 
da reta ajustada. A tabela a seguir apresenta a 
análise de variância (ANOVA) do ajuste. 
 
Considerando que �̂� = 30, julgue o item 
subsequente relativo ao referido ajuste. 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
22 
39. O coeficiente de determinação do modelo (R2) é 
superior a 0,90. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
40. A correlação linear de Pearson entre a variável 
resposta e a variável regressora foi superior a - 0,75 
e inferior a 0,75. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
 
 
41. A estimativa da variância do erro aleatório em torno 
da tendência ajustada é superior a 27. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
 
42. No período de 2010 a 2014, o desvio padrão 
amostral do índice de cancelamento de assinaturas 
(Y) foi igual a 10. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
 
 
 
 
 
(CESPE – Polícia Federal - Agente - 2018) Um 
pesquisador estudou a relação entre a taxa de 
criminalidade (Y) e a taxa de desocupação da 
população economicamente ativa (X) em 
determinada região do país. Esse pesquisador 
aplicou um modelo de regressão linear simples na 
forma Y = bX + a + ε, em que b representa o 
coeficiente angular, a é o intercepto do modelo e ε 
denota o erro aleatório com média zero e variância 
σ2. A tabela a seguir representa a análise de 
variância (ANOVA) proporcionada por esse 
modelo. 
 
Fonte de 
variação 
Graus de 
liberdade 
Soma dos 
Quadrados 
modelo 1 225 
erro 899 175 
total 900 400 
 
A respeito dessa situação hipotética, julgue o item, 
sabendo que b > 0 e que o desvio padrão amostral 
da variável X é igual a 2. 
 
43. A correlação linear de Pearson entre a variável 
resposta Y e a variável regressora X é igual a 0,75. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
44. A estimativa do coeficiente angular b, pelo método 
de mínimos quadrados ordinários, é igual a 0,25. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
45. A estimativa da variância σ2 é superior a 0,5. 
Certo ( ) Errado ( ) 
 
 
 
 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
23 
Fonte de 
variação 
Graus de 
liberdade 
Soma dos 
Quadrados 
Média dos 
quadrados 
Razão 
F 
Regressão 1 2061,49 2061,49 433,4 
Erro 78 371,01 4,75 
Total 79 2432,5 
 
(CESPE – ALECE – Analista Legislativo – 2011) 
Um analista deseja avaliar se o tempo — Y —, em 
dias, que um processo judicial leva para ser 
concluído está relacionado com a quantidade — X 
— de juízes disponíveis no tribunal em que tal 
processo foi julgado. O quadro acima apresenta a 
tabela de análise de variância (ANOVA) 
correspondente a essa avaliação por regressão 
linear simples, em que Y é a variável resposta e X é 
a variável regressora, com base no método de 
mínimos quadrados ordinários. Considerando 
essas informações e os conceitos de análise de 
regressão linear e inferência estatística, julgue o 
item. 
 
46. Suponha que o modelo ajustado tenha 
aproximadamentea forma Y = -2X + B, em que B é 
uma estimativa do intercepto. Nessa situação, 
estima-se que cada juiz acrescentado ao tribunal 
representa uma redução de dois dias, em média, no 
tempo para a conclusão de um processo nesse 
tribunal. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
47. Para a modelagem foram consideradas 79 
observações. 
Certo ( ) Errado ( ) 
 
 
 
 
 
 
 
 
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit 
Turma: Carreira Policiais 
Data: 15/05/2021 ESTATÍSTICA 
 
MUDE SUA VIDA! 
24 
GABARITO 
COVARIÂNCIA E CORRELAÇÃO LINEAR 
1. Certo 
2. Certo 
3. Certo 
4. Certo 
5. Certo 
6. Errado 
7. Certo 
8. Errado 
9. Errado 
10. E 
11. Errado 
12. Errado 
13. Errado 
14. Errado 
15. Certo 
16. Errado 
17. Errado 
 
MODELO DE REGRESSÃO LINEAR 
18. Errado 
19. Errado 
20. Errado 
21. Certo 
22. Certo 
23. Errado 
24. Certo 
25. Errado 
26. Errado 
27. Certo 
28. Certo 
29. Certo 
 
ANÁLISE DE VARIÂNCIA E COEFICIENTE DE 
DETERMINAÇÃO 
30. Certo 
31. Certo 
32. Errado 
33. Errado 
34. Errado 
35. Errado 
36. Certo 
37. Errado 
38. Errado 
39. Errado 
40. Errado 
41. Errado 
42. Certo 
43. Certo 
44. Certo 
45. Errado 
46. Certo 
47. Errado 
https://www.alfaconcursos.com.br/

Outros materiais

Outros materiais