Curso Alfacon - Regressão Linear

•

ESTÁCIO EAD

7

0

7

0

Wellinton Silva

21/04/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatistica Basica I

7.312 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
1
ANÁLISE DE REGRESSÃO LINEAR
INTRODUÇÃO
A análise de regressão linear estuda a relação
entre duas variáveis.
Quando duas variáveis X e Y não são independentes,
existe alguma contribuição na variação de X que
modifica a variável Y, isto é, as alterações sofridas em
X são acompanhadas por alterações sofridas em Y. Para
quantificar e compreender esse efeito é necessário um
estudo sobre a relação entre essas variáveis. Parar
estudar o efeito entre as variáveis X e Y quaisquer,
algumas medidas descritivas são essenciais, como a
covariância Cov(X, Y) e o coeficiente de correlação
(r). Além dessas medidas, pode ser ajustado uma
regressão linear (uma reta) que tenta explicar o
comportamento entre duas variáveis X e Y, a partir de
um modelo de equação de 1º grau.
Exemplos de dependência de variáveis:
HORAS DE TRABALHO X REMUNERAÇÃO

TRÁFICOS DE DROGAS X REGISTRO DE HOMICÍDIOS

NÍVEL DE ESCOLARIDADE X ÍNDICE DE VIOLÊNCIA

CORRUPÇÃO DO PODER PÚBLICO X CREDIBILIDADE
NA POLÍTICA

COVARIÂNCIA - COV(X, Y)
A covariância é uma medida descritiva que
apresenta a dispersão conjunta de duas variáveis
analisadas. Com essa informação, podemos saber se
existe uma dependência entre as variáveis (X,Y),
além de conhecer a direção que essas variáveis se
dispersam (na mesma direção ou em direção opostas).
Vamos conhecer a construção matemática dessa
medida descritiva a partir de exemplo.
OBJETO DE ESTUDO:
Uma investigação analisa o tempo de decomposição
de um corpo de delito (em minutos), e o respectivo peso
(em kg) decomposto. Essa decomposição é analisada
após o corpo ser exposto a um reagente. Foram
analisados quatro fragmentos desse corpo.
Variável X: Tempo de decomposição, em minutos;
Variável Y: Peso do corpo de delito decomposto, em
kg;

As observações agora são compostas pelo um par
coordenado de dados. Nesse exemplo, podemos
afirmar que a observação (2;5) corresponde que o
corpo de delito que levou 2 minutos para
decomposição com peso de 5 kg. Veja que temos duas
características analisadas para o mesmo elemento (o
objeto, o corpo de delito). Portanto, temos mais do que
uma característica alinhada sobre um mesmo contexto.
Nesse sentido, precisamos compreender como
essas duas características se dispersam; se existe uma
relação de dependência entre elas; e qual a direção da
variação associada dessas duas características (mesma
direção ou direção oposta).
Para isso, vamos observar os desvios em relação à
média que cada variável apresenta. Para analisar os
desvios precisamos obter inicialmente a média de X e
Y:
�̅� =
𝟐 + 𝟑 + 𝟔 + 𝟗
𝟒
=
𝟐𝟎
𝟒
= 𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔

�̅� =
𝟓 + 𝟕 + 𝟖 + 𝟏𝟔
𝟒
=
𝟑𝟔
𝟒
= 𝟗 𝒌𝒈
Em seguida, vamos observar os desvios em relação
a média de cada variável:
X Y
Desvio
de X
(𝑿𝒊 − �̅�)
Desvio
de Y
(𝒀𝒊 − �̅�)
2 5 -3 -4
3 7 -2 -2
6 8 1 -1
9 16 4 7
�̅� = 𝟓 �̅� = 𝟗 - -
Na construção acima, temos os desvios de X e Y,
contudo, precisamos quantificar essa variação
conjuntamente em apenas um valor. Para esse
propósito, é aplicado o produto do desvio de X em
relação a sua média junto ao desvio de Y em relação a
sua média. Com isso, obtemos os desvios associados
de cada par de observação!

𝑫𝒆𝒔𝒗𝒊𝒐 𝒂𝒔𝒔𝒐𝒄𝒊𝒂𝒅𝒐𝑿,𝒀 = (𝑿𝒊 − �̅�) × (𝒀𝒊 − �̅�)

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
2
Vamos analisar os desvios associados de cada par
coordenado:
X Y
Desvio de
X
(𝑿𝒊 − �̅�)
Desvio de
Y
(𝒀𝒊 − �̅�)
Desvio Associado
(𝑿𝒊 − �̅�). (𝒀𝒊 − �̅�)
2 5 -3 -4 12
3 7 -2 -2 4
6 8 1 -1 -1
9 16 4 7 28
�̅� = 𝟓 �̅� = 𝟗 - - 𝜮 = 𝟒𝟑

Por fim, soma-se o desvio associado de cada par
(X,Y) obtendo um quantitativo total de dispersão
conjunta. No exemplo, obtemos um desvio associado
de 43 min.kg. Agora resta dividir esse valor pelo
número de pares de observações (𝑛𝑋,𝑌 = 4) para obter
uma variação conjunta média.
𝑪𝒐𝒗(𝑿, 𝒀) =
𝟒𝟑
𝟒
= 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈

Desse modo, calcula-se a covariância Cov(X,Y) pela
seguinte expressão:
𝑪𝒐𝒗(𝑿, 𝒀) =
∑(𝑿𝒊 − �̅�)(𝒀𝒊 − �̅�)
𝒏(𝑿,𝒀)

Em que:
𝐶𝑜𝑣(𝑋, 𝑌): Covariância entre a variável X e Y;
(𝑋𝑖 − �̅�): Desvios das observações de X em relação
a sua média (�̅�);
(𝑌𝑖 − �̅�): Desvios das observações de Y em relação a
sua média (�̅�);
∑(𝑋𝑖 − �̅�)(𝑌𝑖 − �̅�): Somatório das multiplicações
dos desvios de X e Y;
𝑛(𝑋,𝑌): Número de pares associados de observações
X e Y.

Por essa fórmula, conseguimos identificar que a
covariância é uma medida que quantifica a variação
conjunta de duas variáveis. Veja:

Esse é o cálculo da covariância para um conjunto de
dados coletados. Mas, assim como a variância pode ser
calculada por um método alternativo, a covariância
também possui outro método de cálculo bem útil.

Com essa dedução, é obtido a seguinte expressão:
𝑪𝒐𝒗(𝑿, 𝒀) =
∑ 𝑿𝒊𝒀𝒊
𝒏
− �̅� �̅�
Em outras definições, obtém-se a seguinte analogia
“covariância é a média do produto XY menos o
produto da média de X e Y.”

Em variáveis aleatórias, podemos definir também
que covariância é: Esperança do produto XY menos
o produto da esperança de X e Y. Tendo a seguinte
definição:
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑬(𝑿𝒀) − 𝑬(𝑿) × 𝑬(𝒀)
Esse cálculo somente pode ser aplicado se os dados
forem populacionais.
A covariância tem variação na fórmula, conforme a
origem dos dados: da população ou da amostra.

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
3
A diferença consiste em dividir por n-1, assim como,
na amostra.
INTERPRETAÇÃO DA COVARIÂNCIA
Quando houver uma relação linear de dependência
entre as variáveis X e Y a covariância apresentará um
valor diferente de zero. Observe que, diferente da
variância que sempre é um valor positivo, a covariância
pode ser negativa.
A covariância é uma maneira de verificar se duas
variáveis estão associadas, pois ela quantifica se
variam conjuntamente. Ou seja, ela quantifica se as
mudanças em uma variável correspondem a mudanças
similares na outra variável. Quando uma variável se
desvia da sua média, espera-se que a outra variável
associada desvie da sua média de maneira similar (ou
de maneira diretamente oposta).
Ao observar que a variância é o produto dos desvios
de X e Y em relação suas respectivas médias, temos as
seguintes possibilidades:
 Se ambos os desvios são positivos ou
negativos, isso resultará em um valor
positivo do produto dos desvios,
consequentemente, os desvios ocorrem
na mesma direção;

 Se um desvio é positivo e o outro negativo,
isso resultará em um valor negativo do
produto dos desvios, consequentemente,
os desvios ocorrem em direções
opostas;

Com isso, podemos chegar as seguintes
interpretações:

Outra informação importante sobre a covariância é
que ela depende das unidades de medida para fazer
qualquer interpretação. Uma vez que ela é a média dos
desvios associados de X e Y, a unidade de medida da
covariância corresponde ao produto da unidade de
medida de cada variável. Assim, se a variável X é
medida em centímetros (cm) e a variável Y é medida
em horas (h), a covariância será medida em
centímetros vezes horas (cm.h). Esse conhecimento é
interessante, pois com isso sabemos que não podemos
inferir se um par de variáveis apresenta uma
covariância maior ou menor que outro par de variáveis
com unidades de medida diferentes.

CORRELAÇÃO LINEAR - 𝒓(𝑿,𝒀)
O coeficiente de correlação linear (𝑟) é uma medida
que descreve o grau de associação linear entre duas
variáveis em estudo. A partir desse coeficiente,
podemos detectar se existe uma associação entre
variáveis e quantificar qual é a magnitudedessa
associação. Assim, por meio da correlação linear
podemos obter se há uma força (fenômeno) unindo as
duas variáveis e como uma se comporta em relação à
outra.
Em outras definições, o termo correlação significa
relação em dois sentidos (co + relação), e é usado na
Estatística para designar a força que mantém unidos
dois conjuntos de valores (duas variáveis). A
verificação da existência dessa força e do grau de
associação entre as variáveis são as informações
essenciais obtidas pela correlação.
O cálculo da correlação linear entre uma variável X
e Y é efetuado da seguinte forma:
𝒓(𝑿,𝒀) =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿 × 𝒔𝒀

Em que:
𝑟(𝑋,𝑌): Coeficiente de correlação linear amostral
entre X e Y;
𝐶𝑜𝑣(𝑋, 𝑌): Covariância amostral entre a variável X e
Y;
𝑠𝑋: Desvio padrão amostral da variável X;
𝑠𝑌: Desvio padrão amostral da variável Y.

A correlação linear é obtida pelo pela divisão da
covariância de (X, Y) com o produto dos desvios de X e
Y. Essa metodologia de cálculo define especificamente
o coeficiente de correlação linear de Pearson (𝑟), é de
longe a metodologia mais cobrada em prova!
A covariância é uma informação sobre a associação
linear entre duas variáveis, no entanto, ela depende da
unidade de medida e suas inferências são limitadas.
Para superar esse problema, a covariância precisa ser
convertida em um conjunto padrão de unidades
(padronização). Assim, ao dividir a covariância pelo
desvio padrão de X e Y, as unidades de medida se
cortam e temos uma covariância padronizada, isto é,
uma medida adimensional que pode fazer
comparações sobre a associação de variáveis de
qualquer outro fenômeno. Este é o coeficiente de
correlação linear, uma informação mais independente
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
4
que a covariância para estudar a relação entre
variáveis.
O resultado do cálculo do coeficiente de correlação
sempre estará compreendido entre -1 até +1. Então
nunca se terá valores maior do que +1 ou menor do que
-1. O resultado de correlação linear igual a zero indica
que não há uma correlação linear entre as variáveis
(cuidado! Dizer que não há correlação linear, não exclui
o fato de existir correlações de outra natureza, como
quadrática, cúbica, exponencial etc.).
À medida que o resultado da correlação linear vai se
afastando do zero, em direção aos extremos (-1 ou +1),
aumenta-se a intensidade da força que une essas duas
variáveis! Quando o resultado da fórmula é igual a – 1
ou a +1, então se diz que a correlação é máxima. Ou
seja, é máxima a força que une as duas variáveis. Dessa
maneira, correlação linear igual a +1 é dita correlação
perfeita positiva, enquanto correlação linear igual a –
1 denomina-se correlação perfeita negativa.

Vamos calcular o coeficiente de correlação, a partir
do exemplo já trabalhado:
OBJETO DE ESTUDO:
Uma investigação analisa o tempo de decomposição
de um corpo de delito (em minutos), e o respectivo peso
(em kg) decomposto. Essa decomposição é analisada
após o corpo ser exposto a um reagente. Foram
analisados quatro fragmentos desse corpo.
Variável X: Tempo de decomposição, em minutos;
Variável Y: Peso do corpo de delito decomposto, em
kg;

Com o conhecimento da estatística descritiva, os
desvios padrões de X e Y podem ser calculados. Os
resultados ao efetuar esses cálculos seriam:
𝒔𝑿 =2,74 min
𝒔𝒀 =4,18 kg

O valor da covariância é:
𝑪𝒐𝒗(𝑿, 𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈

Assim, o coeficiente de correlação linear será igual
a:
𝒓(𝑿,𝒀) =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿 × 𝒔𝒀

𝒓(𝑿,𝒀) =
𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈
𝟐, 𝟕𝟒 𝐦𝐢𝐧 × 𝟒, 𝟏𝟖 𝐤𝐠

𝒓(𝑿,𝒀) =
𝟏𝟎, 𝟕𝟓
𝟐, 𝟕𝟒 × 𝟒, 𝟏𝟖
≅ 𝟎, 𝟗𝟒

GRÁFICO DE DISPERSÃO (CORRELAÇÃO)
Uma forma eficiente de averiguar a possibilidade de
correlação entre duas variáveis é por meio do gráfico
de dispersão ou de correlação. Vamos analisar um
outro exemplo:
OBJETO DE ESTUDO:
Uma investigação policial tem o objetivo de estudar a
correlação entre tráfico de armas ilegais, em mil kg de
armas apreendidas, com o tráfico de drogas (X), em mil
kg de drogas apreendidas (Y), na capital de São Paulo.
Para esse estudo, foram coletados dados de cinco
regiões da capital.
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
5
Segue as informações:
Tráfico de
Armas (X)
5 7 9 8 12
Tráfico de
Drogas (Y)
1 3 4 5 8
Ao trabalhar com conjunto de dados pareados, é
interessante identificar que cada amostra consiste em
um par de informações das variáveis analisadas, vamos
representar o tamanho dessa amostra por 𝑛(𝑥,𝑦).
Assim, outra forma de apresentação de dados é:
𝒏(𝑿,𝒀) = {(𝟓, 𝟏); (𝟕, 𝟑); (𝟗, 𝟒); (𝟖, 𝟓); (𝟏𝟐, 𝟖)}
Unindo todos os pares associados por um ponto em
um plano cartesiano, temos o gráfico de dispersão com
a seguinte forma:

Ao observar o gráfico de dispersão, é possível
identificar uma tendência de correlação, de modo que
o aumento do tráfico de armas contribui para
aumentar o tráfico de drogas. Pelo menos é o que se
espera pela análise gráfica. Além disso, veja que a ideia
de correlação linear evidencia a possibilidade de traçar
uma reta sobre comportamento. É fácil perceber que é
impossível unir os pontos em uma reta perfeita,
todavia estes pontos estão dispostos em torno de uma
reta, que não necessariamente passa por todos os
pontos. Entenda:

Portanto, é possível forma uma reta entre os pontos,
no sentido crescente. Isso evidencia uma correlação
linear positiva, porém não perfeita pois a reta não
passa perfeitamente por todos os pontos. Assim, temos
uma força parcial positiva entre as duas variáveis de
modo que se comportam para mesma direção, obtendo
um coeficiente de correlação linear positivo (0 < 𝑟 <
1).
Vamos trabalhar esse mesmo raciocínio com
outro exemplo.
OBJETO DE ESTUDO:
Um grupo de médicos analisa a correlação do tempo
necessário para o efeito do medicamento no paciente
(X), em minutos, em relação à dosagem aplicada do
medicamento (Y), em mg/kg.
Seguem os dados coletados:
Tempo de
Efeito (X)
30 24 15 18 8
Dose do
Medicamento
(Y)
3 4 6 7 9
Temos os seguintes pares de informação:
𝒏(𝑿,𝒀) = {(𝟑𝟎, 𝟑); (𝟐𝟒, 𝟒); (𝟏𝟓, 𝟔); (𝟏𝟖, 𝟕); (𝟖, 𝟗)}
O gráfico de dispersão para esse estudo evidencia a
seguinte informação:

Agora nesse estudo, é possível verificar uma
tendência inversa no comportamento entre duas
variáveis. Ou seja, com aumento da dosagem do
medicamente o tempo para o efeito no paciente é
reduzido. Da mesma forma que no exemplo anterior, é
possível traçar uma reta não perfeito entre os pontos:
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
6

Nesse estudo, é possível forma uma reta entre os
pontos, no sentido decrescente. Isso evidencia uma
correlação linear negativa, porém não perfeita pois a
reta não passa exatamente por todos os pontos. Assim,
temos uma força parcial negativa entre as duas
variáveis de modo que se comportam para direções
oposta, obtendo um coeficiente de correlação linear
negativo (−1 < 𝑟 < 0).

Outra possibilidade, ao avaliar a associação entre
duas variáveis, é não encontrar uma correlação linear
entre eles de modo que elas possam ocorrer
independentemente ou apresentaram outro tipo de
correlação. Nessa situação, pode ser ter a seguinte
gráfica:

Nessa situação, não é possível afirmar que existe
uma correlação linear entre as variáveis de modo que
os pontos se associam aleatoriamente sem haver uma
força que contribui para influenciar os valores das
variáveis. Nessa hipótese, teremos uma correlação
linearnula (𝑟 = 0).
Com isso, obtém-se todas formas de interpretação
do coeficiente de correlação é as possíveis formas de
detectar o fenômeno de associação entre variáveis com
o valor obtido. Em síntese a tudo abordado, tem-se:

REGRESSÃO LINEAR
No estudo da correlação entre duas variáveis, foi
verificado a existência de uma dependência (força)
entre elas e como se comportavam em relação as suas
variações. Uma vez caracterizado este efeito de
correlação, procura-se descrever o comportamento de
duas variáveis associadas, por meio de uma função
matemática (uma equação de 1º grau). A estimação
dos parâmetros dessa função matemática é o principal
objetivo da regressão linear. Assim, aquela reta
(tendência de comportamento linear) visualizada sob
o gráfico de dispersão deve ser analisada e
representada a partir de uma equação matemática.
Em outras definições, quando dois fenômenos do
mundo real possuem uma interação de modo que um
interfere no outro, a análise de regressão tenta
expressar matematicamente essa interação. A forma
como isso pode ser estudado é obtendo dados sobre as
características que representam o fenômeno (as
variáveis), e a partir desses dados tentar aplicar um
modelo estatístico. No caso específico da regressão
linear, tenta-se representar essa interação por meio de
função linear (uma modelagem estatística de função
de 1º grau). Em síntese, a regressão linear tenta
regredir o máximo de informações possíveis de um
comportamento complexo que ocorre no mundo real
em um simples modelo matemático.
Por conseguinte, a forma para representar a relação
entre duas variáveis X e Y por meio de uma regressão
linear é dada pelo seguinte modelo estatístico:
𝒀𝒊 = 𝒂 + 𝒃𝑿𝒊 + 𝜺𝒊
Em que:
𝑌𝑖: Variável dependente que será explicada a partir
do modelo de regressão linear;
𝑋𝑖: Variável Independente que explicará o
comportamento de Y;
𝑎: Estimativa do parâmetro da constante de
regressão;
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
7
𝑏: Estimativa do parâmetro do coeficiente de
regressão.
𝜀𝑖:Erros da regressão (variável), desvios da reta
estimada em relação ao comportamento observado;

VARIÁVEL INDEPENDENTE (X) VERSUS
VARIÁVEL DEPENDENTE (Y)
Para estudar eficientemente a relação de duas
variáveis, é necessário ter controle sobre os valores de
uma variável. Essa variável é convenientemente a
variável X, ao qual é denominada como a variável
independente, pode também ser denominada de
variável explicativa, regressora, preditora ou
explanatória. A variável independente é a variável cuja
variação é usada para explicar as variações da variável
dependente. O importante é entender que a variável
independente deve predizer o valor da variável Y, ou
seja, Y é afetado por X. Para isso, é interessante que X
seja uma variável em que os dados sejam de fácil
obtenção pelo homem. Assim, temos que a variável X
não depende de Y para ser quantificada, porém X deve
conseguir satisfatoriamente explicar (predizer) as
variações de Y. Se os valores de X são controlados para
obter uma predição de Y com eficiência, então X é uma
variável não aleatória.
Em contraponto, a variável Y é a variável
dependente, pois se tenta explicar sua variação a
partir dos valores de X, ou seja, Y varia em função de X
– baseado nessa ideia de função, podemos representar
Y por f(X). A variável pode também ser denominada
por variável resposta, explicada ou predita. Assim, Y é
a variável cuja variação será explicada pela outra
variável, a independente. As variações dos valores de Y
ocorrem aleatoriamente, no entanto, por meio da
análise de regressão linear, espera-se explicar esse
comportamento aleatório. Então, para que a análise de
regressão funcione corretamente, a primeira
pressuposição é obter uma variável X independente
que possa explicar, em maior parte, o comportamento
de outra variável Y.
Na correlação linear, trabalha-se apenas os dados
de duas variáveis quaisquer e quantifica-se o grau de
associação entre elas. Na regressão linear, precisamos
ter uma relação de causa e efeito clara, para fazer um
estudo eficiente sobre a forma da relação entre as
variáveis. Desse modo, é preciso que uma delas seja
independente e tenha seus valores controlados pelo
homem. Isso precisa ser planejado previamente na
coleta de dados, caso contrário uma pressuposição
básica da análise de regressão não será atendida, e não
teremos um modelo de regressão linear confiável.

Vamos ver alguns exemplos práticos de variáveis
independente e dependente:
 A quantidade de uma substância específica
no corpo de um cadáver que permite
estimar o tempo após a morte da vítima;
 Variável Independente (X):
quantidade da substância presente no
cadáver (mg/kg);
 Variável Dependente (Y): tempo após
a morte da vítima (horas);
 O número de vagas em um concurso que
permite modelar uma estimativa da
quantidade de inscritos;
 Variável Independente (X): número
de vagas em um concurso;
 Variável Dependente (Y): número de
inscritos em um concurso;
 A partir do valor investido em marketing
na empresa, estimar a as vendas obtidas;
 Variável Independente (X):
investimento em marketing (R$);
 Variável Dependente (Y): vendas da
empresa (R$);
 Mensuração das dobras cutâneas do corpo
humano para estimar o índice de gordura;
 Variável Independente (X):
comprimento das dobras cutâneas
(cm);
 Variável Dependente (Y): índice de
gordura corporal (%);
 Mensurar a temperatura superficial de
uma estrada para estimar a dilatação da
pavimentação;
 Variável Independente (X):
temperatura superficial da estrada
(ºC);
 Variável Dependente (Y): dilatação da
pavimentação (cm);

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
8
CONSTANTE DE REGRESSÃO - INTERCEPTO (A)
A constante de regressão é um parâmetro da
regressão (representada por 𝑎) que consiste no valor
da variável dependente Y sem a interferência (ou
ocorrência) da variável preditora X. Em outras
palavras, é a observação da variável Y, quando X for
igual a zero. Na equação de uma reta, 𝑎 também
denominado de intercepto ou coeficiente de linear.
Pode ser visualizada constante de regressão como o
ponto da reta que intercepta o eixo Y. Veja:

O ponto representado na reta de regressão
simboliza o valor correspondente ao par de informação
em que X é nulo e Y apresenta um valor 𝑎 (uma
constante de regressão). Desse modo, essa seria a
informação isolada de Y caso não houvesse a
interferência de X.
Vamos aplicar esse conceito sobre uma reta de
regressão ajustada que representa a relação entre taxa
de analfabetismo (X), em %, com valor de mercadorias
ilegais apreendidas (Y), em mil R$. Imagine,
hipoteticamente, que o estudo sobre essas variáveis
apresentou o seguinte modelo de regressão linear:

Nesse modelo, podemos inferir que, em regiões
onde não há analfabetismo (taxa de 0%), ainda se
encontra a ocorrência de contrabando ilegal de
mercadorias em que se espera apreender um valor de
R$ 1,5 mil. Isso evidencia que mesmo sem a
contribuição da taxa de analfabetismo ainda existe o
contrabando, isto é, Y existe mesmo sem ocorrer X.
A constante de regressão apresenta a mesma
unidade de medida da variável Y, nesse exemplo, 𝑎 =
𝑅$ 1,5 𝑚𝑖𝑙.

COEFICIENTE DE REGRESSÃO (b)
O coeficiente de regressão, representado pela letra
𝑏, é a informação mais importante de um modelo de
regressão linear, pois é a partir desse coeficiente que
temos a contribuição da variável X em relação a
variável Y. O parâmetro 𝑏 na equação de uma reta
representa a inclinação da reta ou também
denominado coeficiente angular. Em outras
definições, 𝑏 representa quantas unidades de Y
(variável dependente) são afetadas com ocorrênciade
mais uma unidade de X. Vamos abordar esse conceito
sobre o mesmo exemplo da relação de taxa de
analfabetismo com contrabando de mercadorias:

Nessa reta, foram identificados dois pontos: o
primeiro indica que com 10% de taxa de
analfabetismo, estima-se um contrabando de R$ 35,5
mil; o segundo indica que com 11% na taxa de
analfabetismo, estima-se um contrabando de R$ 38,9
mil. Na variação desses pontos, pode ser observado
que um acréscimo de 1% da variável X (taxa de
analfabetismo) contribui na acréscimo do contrabando
da região em R$ 3,4 mil, exatamente o valor de 𝑏.
Portanto, o coeficiente de regressão de 3,4, nesse
exemplo, representa que, a cada 1% da taxa de
analfabetismo, há uma contribuição no contrabando de
mercadorias de R$ 3,4 mil.
Na equação de uma reta, o coeficiente de regressão
é a inclinação da reta, ou seja, é a tangente do ângulo
formado pela reta com o eixo X. Pode também ser
calculado pela variação de dois pontos de Y divido pela
variação dos dois pontos de X respectivo. Entenda:

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
9

Desse modo, conforme os dois pontos apresentados
pelo exemplo (10; 35,5) e (11;38,9), teríamos o
seguinte cálculo para 𝑏:
𝒃 =
𝟑𝟖, 𝟗 − 𝟑𝟓, 𝟓
𝟏𝟏 − 𝟏𝟎
=
𝟑, 𝟒
𝟏
= 𝟑, 𝟒 𝒎𝒊𝒍 𝑹$ / %
A unidade de medida de 𝑏 sempre será a unidade de
medida Y sobre a unidade de medida de X. Com essa
unidade, define-se 𝑏 = 3,4 como um acréscimo de R$
3,4 mil na ocorrência de contrabando para cada um 1%
da taxa de analfabetismo.
Ao compreender esse conceito, podemos entender
a influência que o parâmetro 𝑏 causa na regressão
linear. O sinal de 𝑏 determina se a reta é crescente (+𝑏)
ou descrente (−𝑏), ou seja, um valor de 𝒃 positivo
indica que X contribui para aumenta Y, enquanto 𝒃
negativo indica que X contribui para reduzir Y. Caso o
valor de 𝑏 for nulo, não existe uma regressão linear,
apenas uma constante, isto é, X não afeta o valor de Y.
Entenda:

Além do sinal, o valor em módulo de 𝑏 evidencia a
inclinação da reta, isto é, valores 𝑏 mais distantes de
zero inclinam a reta de regressão para o eixo-- vertical
(eixo Y), enquanto valores de 𝑏 mais próximos de zero
inclinam a reta de regressão para o eixo horizontal
(eixo X).

ERROS DA REGRESSÃO (𝜺𝒊)
Ao representar a relação de duas variáveis a partir
de um modelo de regressão, é natural que não seja
possível captar toda a variação de Y em função X no
modelo de regressão linear. Assim, existirá uma
variação de Y em função de X que não será explicada
pelo modelo de regressão linear, essa variação
denomina-se de erros da regressão (ou resíduos),
representado por 𝜀𝑖 . No gráfico da regressão linear,
esses erros são representados pelos pontos que não
passam pela reta, isto é, os erros da regressão
consistem nos desvios entre o ponto em relação a reta.
Entenda:

O modelo de regressão linear, dado por �̂�𝒊 = 𝒂 +
𝒃𝑿𝒊, tenta predizer um valor Y a partir de um valor de
X conhecido. Assim, ao obter um valor de Y a partir de
X, utilizando o modelo de regressão, temos um valor
estimado �̂�. Esse valor corresponde exatamente ao
valor traçado pela reta. Contudo, é comum que o valor
Y observado (representado pelo ponto) não seja
exatamente aquele �̂� estimado pela reta. Nesse sentido,
temos que os erros da regressão é representado por:
𝜺𝒊 = 𝒀𝒊 − �̂�𝒊
Portanto, os erros 𝜀𝑖 ilustrados no gráfico são
explicados pela diferença (vertical) entre o valor
observado 𝑌𝑖 (referente ao ponto) e o valor estimado �̂�𝑖
(valor exato traçado pela reta).

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
10
PRESSUPOSIÇÕES DA REGRESSÃO LINEAR
Diante de todo exposto, foi estudado os
componentes que integram o modelo de uma
regressão linear. Em síntese a tudo abordado, podemos
definir que um modelo de regressão linear apresenta
as seguintes informações:

Para que esse modelo de regressão seja alcançado
eficientemente, as seguintes pressuposições devem ser
atendidas:
 A relação entre X e Y é linear (os
acréscimos/decréscimo em X produzem
acréscimos/decréscimo proporcionais em
Y e a razão de crescimento é constante);
 Os valores de X são fixados
arbitrariamente (X não é uma variável
aleatória);
 Y é uma variável aleatória que depende,
entre outras coisas, dos valores de X;
 O erro aleatório é uma variável aleatória
com distribuição normal, com média zero
e variância 𝜎𝑒
2. [ 𝜀𝑖~ N (0, 𝜎𝑒
2)].
 𝜀𝑖 representa a variação de Y que não é
explicada pela variável independente X;
 Os erros são considerados independentes.

ESTIMATIVA DO 𝒃
Para obtenção do coeficiente de regressão linear (𝑏)
a partir de uma amostra de pares ordenados, é
necessário aplicar a seguinte fórmula:
𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
𝟐

Portanto, o coeficiente de regressão linear pode ser
obtido pela divisão entre a covariância (X,Y) com a
variância de X. O que define se o sinal de 𝑏 e faz com
que a reta de regressão seja crescente ou decrescente
é a covariância (assim como na correlação), já que ela
quantifica a variação associada e direção dessas
variações.
Conforme o primeiro exemplo abordado, veja o
cálculo:
OBJETO DE ESTUDO:
Uma investigação analisa o tempo de decomposição
de um corpo de delito (em minutos), e o respectivo peso
(em kg) decomposto. Essa decomposição é analisada
após o corpo ser exposto a um reagente. Foram
analisados quatro fragmentos desse corpo.
Variável X: Tempo de decomposição, em minutos;
Variável Y: Peso do corpo de delito decomposto, em
kg;

Com o conhecimento da estatística descritiva, os
desvios padrões de X e Y podem ser calculados. Os
resultados ao efetuar esses cálculos seriam:
𝒔𝑿
𝟐 = (𝟐, 𝟕𝟒 𝒎𝒊𝒏)𝟐 = 𝟕, 𝟓 𝒎𝒊𝒏𝟐

𝑪𝒐𝒗(𝑿, 𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈

Assim, o valor coeficiente de regressão b será:
𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
𝟐

𝒃 =
𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈
𝟕, 𝟓 𝒎𝒊𝒏𝟐

𝒃 =
𝟏𝟎, 𝟕𝟓𝒌𝒈
𝟕, 𝟓 𝒎𝒊𝒏
= 𝟏, 𝟒𝟑
𝒌𝒈
𝒎𝒊𝒏

Portanto, observa-se que, a cada um minuto de
exposição, a substância decompõe 1,43 kg do corpo de
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
11
delito. Em outras palavras, temos a contribuição de X
na variação de Y.

ESTIMATIVA DO 𝒂
A constante de regressão 𝑎 pode ser calculada a
partir da seguinte expressão:
𝒂 = �̅� − 𝒃�̅�
Para obter 𝑎 por meio dessa fórmula, é preciso já ter
estimado o valor de 𝑏. Essa fórmula pode ser explicada
facilmente pelo assunto na abordado em
transformação de variáveis. Veja que a equação da reta
nada mais é que uma transformação da variável X em
Y. Nessa ideia, sabemos que a média sofre efeito de
multiplicação/divisão e soma/subtração, portanto, o
valor médio de X seria multiplicado/divido por 𝑏 e
somado/subtraído por 𝑎 para obter o valor médio de
Y. Como não sabemos o valor de 𝑎, basta isolar:
�̅� = 𝒂 + 𝒃�̅� → 𝒂 = �̅� − 𝒃�̅�
Conforme o exemplo construído, temos a seguinte
constante de regressão:
�̅� =
𝟐 + 𝟑 + 𝟔 + 𝟗
𝟒
=
𝟐𝟎
𝟒
= 𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔

�̅� =
𝟓 + 𝟕 + 𝟖 + 𝟏𝟔
𝟒
=
𝟑𝟔
𝟒
= 𝟗 𝒌𝒈
𝒃 = 𝟏, 𝟒𝟑
𝒌𝒈
𝒎𝒊𝒏

𝒂 = 𝟗 − 𝟏, 𝟒𝟑 × 𝟓
𝒂 = 𝟏, 𝟖𝟓 𝒌𝒈
Portanto, no instante 0, a substância seria capaz de
decompor 1,85 kg.

ESTIMATIVA DE �̂� PELA RETA DE REGRESSÃO
Após estimar os parâmetros 𝑎 e 𝑏, obtém-se a
seguinte reta de regressão linear:

Por meio dessa equação de primeiro grau, podemos
estimar o peso que será decomposto pela substância
(�̂�) após um determinado tempo de exposição. Por
exemplo, qual o peso que será decomposto do corpo de
delito após 4 minutos (X=4) de decomposição? Para
isso basta aplicara equação da reta:

RELAÇÃO ENTRE B X R
Ao conhecer as fórmulas que definem o coeficiente
de regressão linear (𝑏) e o coeficiente de regressão (𝑟),
podemos encontrar uma relação importante entre
essas duas medidas. Ao analisar as fórmulas de 𝑏 e 𝑟
em função de X e Y, obtém-se a seguinte relação:
𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
𝟐 𝐫 =
𝐂𝐨𝐯(𝐗, 𝐘)
𝐬𝐗 × 𝐬𝐘

𝒃 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿 × 𝒔𝑿
𝐫 =
𝐂𝐨𝐯(𝐗, 𝐘)
𝐬𝐗 × 𝐬𝐘

𝒃 × 𝒔𝑿 =
𝑪𝒐𝒗(𝑿, 𝒀)
𝒔𝑿
𝐫 × 𝐬𝐘 =
𝐂𝐨𝐯(𝐗, 𝐘)
𝐬𝐗

𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
12

ANÁLISE DE VARIÂNCIA DA REGRESSÃO
O modelo básico da regressão linear expressa a
relação de X e Y por meio de uma equação da reta. Em
adição, o teste de hipótese do coeficiente de regressão
verifica a existência significativa dessa relação linear
entre X e Y. Além desses procedimentos, é necessário
utilizar a análise de variância para obter o quanto a
reta de regressão explica os valores observados de Y
utilizados para o ajuste. Portanto, a análise de variância
tem o objetivo de quantificar a dispersão da regressão
linear, analisando o quanto o modelo linear explica o
comportamento de Y e o quanto não pode ser
explicado.
Sobretudo, ao efetuarmos uma análise de regressão,
parte da variação de Y é explicada em função da
variação de X (por meio da reta de regressão �̂�𝑖 = 𝑎 +
𝑏𝑋𝑖); a outra parte da variação é causada por fatores
aleatórios não explicados pelo modelo (𝜀𝑖). Desse
modo, toda a dispersão (ou variabilidade) de uma
regressão linear (variação total da regressão) pode ser
expressa pelos seguintes componentes:

Esse é a essência da análise de variância da
regressão: quantificar os componentes causadores da
variação de Y e evidenciar a capacidade do modelo de
regressão linear em explicar a variação de Y.
COMPONENTES DA VARIÂNCIA DA REGRESSÃO
O primeiro passo para compreender a análise de
variância da regressão é particionar e estudar os dois
componentes da variação total de Y. É necessário
entender o que cada componente representa sobre os
valores da variável dependente Y e como eles podem
ser quantificados e representados matematicamente.
A variabilidade de qualquer variável Y é mensurada
a partir dos desvios em relação à sua média (𝑌𝑖 − �̅�),
esses são os desvios que quantificam a variação
total de Y. No entanto, na regressão linear, cada desvio
em relação à média é composto: pelo desvio da
observação Y em relação ao valor estimado pela
regressão (𝑌𝑖 − �̂�𝑖), que consiste no erro de
regressão; e pelos os desvios do valor estimado em
relação a média (�̂�𝑖 − �̅�), que consiste na dispersão
captada (explicada) pela regressão linear. Com isso,
temos que cada desvio (a unidade de dispersão de uma
variável), na regressão linear, é denotado por:
𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 𝒅𝒆 𝒀𝒊 = 𝑫𝒆𝒔𝒗𝒊𝒐 Explicado pela
Regressão + Desvio do Erro de Regressão
Assim, cada observação de Y apresenta um desvio
em relação à sua média, sendo composto por uma parte
explicada pela regressão e outra devido fatores
aleatórios (não explicados). Matematicamente, um
desvio de Y pode ser representado por:

Em que:
𝑌𝑖: são os valores observados da variável Y, que
fazem o par com os valores X;
�̂�𝑖: são os valores da variável Y estimados pela reta
de regressão;
�̅�: é a média da variável Y.
Ao observar a construção de uma regressão linear,
podemos identificar, graficamente, o desvio da variável
Y e seus partição em componentes – explicado e não
explicado pela regressão –, entenda:

O primeiro gráfico ilustra a dispersão dos pontos
(valores observados de Y) em relação a sua
centralidade (média �̅�). Nesse gráfico, podemos
observar o desvio de um ponto especificamente em
relação a média, formando o desvio total. Ao construir
uma regressão linear entre X e Y, no segundo gráfico,
observa-se que esse desvio total é particionado por um
desvio explicado pela regressão e um desvio devido ao
erro da regressão (causa aleatórias não explicada).
Portanto, observando um ponto específico podemos
ter a seguinte representação de um desvio:

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
13
Até o momento, estamos analisando a composição
de apenas um desvio de uma observação. Contudo,
sabe-se que a regressão é composta por vários pontos
e cada um possui seu respectivo desvio. Assim, para
representar toda a variabilidade da variável Y
submetida a regressão linear, é necessário ter os
somatórios e todos os desvios. Porém, ao se falar de
desvios em relação à média, sabe-se que seu somatório
é zero, e, para evitar esse problema, cada desvio é
elevado ao quadrado. Desse modo, tem-se o somatório
dos desvios ao quadrado, ou também denominado de
variação, ou então de soma dos quadrados:

 O termo ∑(𝒀𝒊 − �̅�)
𝟐 é denominado de
Soma dos Quadrados Totais (SQT) ou
Variação Total, quantifica a variabilidade
total da variável Y em torno da sua média;
 O termo ∑(�̂�𝒊 − �̅�)
2
é denominado de
Soma dos Quadrados Explicados pela
Regressão (SQE), ou Variação Explicada,
quantifica a variabilidade de Y estimado
pela regressão em torno da média, isto é,
representa a parte do SQT explicada pela
regressão de Y em função de X;
 O termo ∑(𝒀𝒊 − �̂�𝒊)
2
é denominado de
Soma dos Quadrados dos Resíduos
(SQR), ou Variação Não Explicada,
quantifica a variabilidade de 𝑌 observado
com o �̂� estimado pela reta de regressão,
isto é, o que não explicado pela regressão
de Y em função de X.
Assim, outra notação que pode ser usada para
representar os componentes da variabilidade de Y é:
𝑺𝑸𝑻 = 𝑺𝑸𝑬 + 𝑺𝑸𝑹
Após obter os valores dos desvios ao quadrado,
podemos determinar a variância de cada componente.
Para isso, basta dividir cada soma dos quadrados (ou
variação) pelo seu respectivo grau de liberdade. Assim,
temos que a soma dos quadrados dividida pelos
respectivos graus de liberdade gera a variância, que
também é denominado de Quadrado Médio (QM).
Portanto:
 𝑺𝑸𝑻 corresponde a variação total de Y,
desse modo, seus graus de liberdade
correspondem a 𝒏 − 𝟏 e com isso obtém-
se a variância de Y (𝑠𝑌
2), ou o quadrado
médio total:
𝑸𝑴𝑻 =
𝑺𝑸𝑻
𝒏 − 𝟏
=
∑(𝒀𝒊 − �̅�)
𝟐
𝒏 − 𝟏

 𝑺𝑸𝑬 corresponde a variação explicada
pela regressão linear, desse modo, o grau
de liberdade corresponde a 1, pois temos
apenas um coeficiente de regressão 𝑏
(uma variável independente X) explicando
a variação de Y (em regressões múltiplas,
os graus de liberdade correspondem ao
número de variáveis independentes). Com
isso, obtém a variância explicada ou
quadrado médio explicado pela regressão:
𝑸𝑴𝑬 =
𝑺𝑸𝑬
𝟏
=
∑(�̂�𝒊 − �̅�)
2
𝟏

 𝑺𝑸𝑹 corresponde a variação não explicada
pela regressão linear, desse modo, os
graus de liberdade correspondem ao resto
para completar o total, ou seja, se o total de
graus de liberdade é 𝑛 − 1, e 1 grau de
liberdade corresponde ao componente
explicado, o resíduo terá 𝒏 − 𝟐 graus de
liberdade. Com isso, obtém a variância não
explicada ou quadrado médio dos
resíduos:
𝑸𝑴𝑬 =
𝑺𝑸𝑹
𝒏 − 𝟐
=
∑(𝒀𝒊 − �̂�𝒊)
𝟐
𝒏 − 𝟐

Por fim, podemos representar todos os
componentes da variância de uma regressão linear
simples a partir de uma tabela:

Causas de
Variação
Graus de
Liberdade
Soma dos
Quadrados
(ou
Variação)
Quadrado
Médio
(ou Variância)
Explicada
(Regressão)
1 SQE 𝑸𝑴𝑬 =
𝑺𝑸𝑬
𝟏

Resíduo
(Erro)
𝒏 − 𝟐 SQR 𝑸𝑴𝑬 =
𝑺𝑸𝑹
𝒏 − 𝟐

Total 𝒏 − 𝟏 SQT 𝑸𝑴𝑬 =
𝑺𝑸𝑻
𝒏 − 𝟏

COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐)
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!14
Conhecendo os componentes da variância da
regressão, podemos definir um novo coeficiente muito
aplicado na análise de regressão. O r2 é denominado de
coeficiente de determinação (ou explicação), pois
consiste na proporção da variação total de Y que é
explicada pela regressão linear (pela variação da
variável independente X), em outras palavras, esse
coeficiente determina o poder explicativo de um
modelo de regressão linear.
O poder explicativo da regressão tem por objetivo
avaliar a “qualidade” do ajuste da reta de regressão aos
pontos (X, Y). Baseado nesse conceito, podemos obter
o coeficiente de determinação a partir da seguinte
proporção:
𝐫𝟐 =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑬𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 𝒑𝒆𝒍𝒂 𝑹𝒆𝒈𝒓𝒆𝒔𝒔ã𝒐
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍

𝐫𝟐 =
𝑺𝑸𝑬
𝑺𝑸𝑻

Com esse cálculo, obtém a proporção (ou
porcentagem) do quanto o modelo de regressão linear
explica o comportamento variável de Y. Sobretudo,
como a variação explicada se trata de um componente
do total, o valor de r2 sempre irá oscilar entre 0 até 1
(0 a 100%). Se r2 é próximo de 1, isso significa que a
variação explicada responde por uma grande
percentagem da variação total, isto é, o modelo de
regressão linear explica eficientemente a variação de Y.
Por outro lado, valores de r2 próximos de zero indicam
que há muito variação de Y não explicada pelo modelo
de regressão, isto é, muitas variações devido a fatores
aleatórios.
Em síntese, o ajustamento da reta de regressão aos
pontos observados é mais eficiente quanto mais perto
de 1 estiver o valor do coeficiente de determinação r2.
Se 𝑟2 = 0,81, por exemplo, indica que
aproximadamente 81% da variação em Y está
relacionada com a variação de X e é explicada
eficientemente pelo modelo linear. Em contraponto,
19% da variação em Y não é explicada em função de X.

Esse coeficiente, não por acaso, é representado por
𝑟2, pois trata-se do coeficiente de correlação 𝒓
elevado ao quadrado. Ou seja, quanto maior a
correlação linear (força de associação) entre uma
variável (X,Y), maior é eficiência de explicar Y em
função de X por um modelo de regressão linear.
𝒓𝟐 = (𝒓)𝟐
𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑫𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐
= (𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑪𝒐𝒓𝒓𝒆𝒍𝒂çã𝒐)𝟐
É muito comum questões de Estatística cobrarem
sobre coeficiente de correlação, a partir da análise de
variância da regressão. Para obter o resultado, basta
encontrar a proporção que representa o coeficiente de
determinação e extrair a raiz quadrada. O contrário
também é comum, ou seja, em questões de correlação
perguntar o valor de r2. Essa igualdade resolve
facilmente esses tipos de questões. Veja que não
conseguimos definir o sinal da correlação, para isso
é preciso observar a relação entre as variáveis.
Vejamos o que ocorre com a Soma dos Quadrados
em duas situações particulares:
 Correlação Perfeita (𝑟 = 1 ou 𝑟 =– 1):
Nessa situação, a reta ajustada passa
exatamente sobre todos os pontos
observados. Assim, todos os erros são
iguais a zero, e a regressão linear explica
toda a variação de Y. Logo:
SQR = 0
SQT = SQE
Coeficiente de
Determinação (r2) = 100%

 Correlação Nula (𝒓 = 𝟎): Nesse caso, a
reta de regressão é paralela ao eixo X
(coeficiente angular “𝑏” igual a zero). A
reta de regressão não consegue explicar as
variações de Y e praticamente não passa
por nenhum ponto, logo:

SQE = 0
SQT = SQR
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
15
Coeficiente de
Determinação (r2) = 0

EXERCÍCIOS
COVARIÂNCIA E CORRELAÇÃO LINEAR
1. (CESPE – IPHAN – Analista – 2018) O diagrama
de dispersão é adequado para se descrever o
comportamento conjunto de duas variáveis
quantitativas. Cada ponto do gráfico representa um
par de valores observados.
Certo ( ) Errado ( )

(CESPE – DEPEN – Agente de Execução Penal –
Área 4 – 2015) Dado que a participação dos
presidiários em cursos de qualificação profissional
é um aspecto importante para a reintegração do
egresso do sistema prisional à sociedade, foram
realizados levantamentos estatísticos, nos anos de
2001 a 2009, a respeito do valor da educação e do
trabalho em ambientes prisionais. Cada um desses
levantamentos, cujos resultados são apresentados
no gráfico, produziu uma estimativa anual do
percentual P de indivíduos que participaram de um
curso de qualificação profissional de curta duração,
mas que não receberam o diploma por motivos
diversos. Em 2001, 69,4% dos presidiários que
participaram de um curso de qualificação
profissional não receberam o diploma. No ano
seguinte, 2002, esse percentual foi reduzido para
61,5%, caindo, em 2009, para 30,9%.

2. O gráfico apresentado — em que é mostrada a
dispersão entre os percentuais anuais P e os anos
— sugere que a variável ano e P sejam
dependentes.
Certo ( ) Errado ( )

variável 2003 2004 2005 2006 2007
Exportação X 40 46 50 52 54
Importação Y 20 21 22 24 27
total X + Y 60 67 72 76 81
(CESPE – ANTAQ – Técnico em Regulação –
2009) Considerando a tabela acima, que apresenta
a movimentação anual de cargas no porto de
Santos de 2003 a 2007, em milhões de toneladas/
ano e associa as quantidades de carga
movimentadas para exportação e importação às
variáveis X e Y, respectivamente, julgue o item
subsequente.

3. As séries estatísticas apresentadas na tabela
formam três séries temporais.
Certo ( ) Errado ( )

4. Historicamente, de 2003 a 2007, a quantidade
exportada X foi, pelo menos, duas vezes maior que a
quantidade importada Y.
Certo ( ) Errado ( )

5. A quantidade de carga movimentada para
exportação em 2007 foi, pelo menos, 35% maior
que a quantidade de carga movimentada para
exportação em 2003.
Certo ( ) Errado ( )
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
16
6. A variância da soma X+Y é igual à soma das
variâncias de X e de Y.
Certo ( ) Errado ( )

7. A correlação linear entre X e Y é positiva.
Certo ( ) Errado ( )

(CESPE – TCU – Auditor Federal de Controle
Externo – 2008) Uma agência de desenvolvimento
urbano divulgou os dados apresentados na tabela a
seguir, acerca dos números de imóveis ofertados
(X) e vendidos (Y) em determinado município, nos
anos de 2005 a 2007.

8. O coeficiente de correlação linear entre X e Y é
inferior a 0,8.
Certo ( ) Errado ( )

(CESPE – BACEN – Analista – 2000) Um auditor
está interessado em estudar a relação entre
consumo de gasolina − y, em litros − e distância
percorrida em uma cidade − x, em quilômetros −
para certo modelo· de carro. Para isso, ele obteve
uma amostra de n = 25 carros e registrou a
distância percorrida e o consumo de gasolina
correspondente, em certo período de tempo.
Considere o modelo de regressão yi=α+bxi+ui, para
i=1,2...,25, em que os erros ui são independentes e
normalmente distribuídos, com média 0 e desvio-
padrão σu, e os 25 pares de valores apresentados
no gráfico abaixo.

9. O coeficiente de correlação de Pearson entre os
valores de x e de y é igual a 1.
Certo ( ) Errado ( )

10. (CESPE – TCE/PR – Analista de Controle – 2016)
Se satisfação no trabalho e saúde no trabalho forem
indicadores com variâncias populacionais iguais a
8 e 2, respectivamente, e se a covariância
populacional entre esses indicadores for igual a 3,
então a correlação populacional entre satisfação no
trabalho e saúde no trabalho será igual a:
a) 0,8125
b) 1
c) 0,1875
d) 0,3
e) 0,75

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
17
(CESPE – STF – Analista Judiciário – 2013) Pedro
e João são os oficiais de justiça no plantãodo fórum
de determinado município. Em uma diligência
distribuída a Pedro, X é a variável aleatória que
representa o sucesso (X = 1) ou fracasso (X = 0) no
cumprimento desse mandado. Analogamente, Y é a
variável aleatória que representa o sucesso (Y = 1)
ou fracasso (Y = 0) de uma diligência do oficial João.
Com base nessa situação hipotética e considerando
a soma S = X + Y, e que P(X = 1) = P(Y = 1) = 0,6 e
E(XY) = 0,5, julgue o item que se segue, acerca das
variáveis aleatórias X, Y e S.
11. A correlação linear entre as variáveis X e Y é
superior a 0,6.
Certo ( ) Errado ( )

12. A variável aleatória S segue uma distribuição
binomial com parâmetros n = 2 e p = 0,6.
Certo ( ) Errado ( )

13. (CESPE – ANP – Especialista em Regulação –
2013) A correlação nula entre duas variáveis
indica que há independência entre essas variáveis.
Certo ( ) Errado ( )

14. (CESPE – MS – Estatístico – 2010) Se o coeficiente
de correlação linear entre as variáveis é igual a
zero, então não existe nenhuma relação entre as
variáveis X e Y.
Certo ( ) Errado ( )

(CESPE – ANAC – Especialista em Regulação –
2009) Considere duas variáveis aleatórias, V e Z,
em que V possui distribuição binomial com n = 1
e p = 0,2, enquanto Z possui distribuição binomial
com n = 1 e p = 0,8. Considerando que a covariância
entre V e Z é igual a 0,04, julgue o item que se segue.

15. O coeficiente de correlação entre V e Z é superior a
0,20.
Certo ( ) Errado ( )

16. As variáveis V e Z são independentes.
Certo ( ) Errado ( )

17. (CESPE – Polícia Federal – Papiloscopista –
2012) Considere que a covariância e a correlação
linear entre as variáveis X e Y sejam,
respectivamente, iguais a 5 e 0,8. Suponha também
que a variância de X seja igual a quatro vezes a
variância de Y. Nesse caso, é correto afirmar que a
variância de X é igual a 2.
Certo ( ) Errado ( )

MODELO DE REGRESSÃO LINEAR
(CESPE – Polícia Federal – Estatístico –
2004) Entre janeiro e novembro de 2003, foi
realizado um estudo para avaliar o número mensal
de ocorrências, por 1.000 habitantes, registradas
em delegacias de determinada região. Para esse
estudo, foi considerado o modelo de regressão
linear simples na forma Y=a+βX+ϵ, em que X é
uma variável que representa os meses e
assume valores discretos 0, 1, 2, ..., 10,
e Y representa o número de ocorrências por
1.000 habitantes registradas no respectivo
mês X. Parte do objetivo desse estudo é
estimar os coeficientes a e β. O erro aleatório é
representado por ϵ.

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
18
As tabelas abaixo apresentam parte dos resultados
do ajuste e da análise de variância.

18. A média de Y é superior a 50,5.
Certo ( ) Errado ( )

19. Caso se mantivesse a tendência dos meses de
janeiro a novembro, a estimativa do número de
ocorrências por 1.000 habitantes para dezembro
de 2003 seria de 50,6 ocorrências por 1.000
habitantes.
Certo ( ) Errado ( )

20. No modelo apresentado, X é uma variável aleatória
discreta.
Certo ( ) Errado ( )

(CESPE – Polícia Federal - Escrivão - 2018) O
intervalo de tempo entre a morte de uma vítima até
que ela seja encontrada (y em horas) denomina-se
intervalo post mortem. Um grupo de
pesquisadores mostrou que esse tempo se
relaciona com a concentração molar de potássio
encontrada na vítima (x, em mmol/dm3). Esses
pesquisadores consideraram um modelo de
regressão linear simples na forma y = ax + b + ε, em
que a representa o coeficiente angular, b
denomina-se intercepto, e ε denota um erro
aleatório que segue distribuição normal com média
zero e desvio padrão igual a 4.

As estimativas dos coeficientes a e b, obtidas pelo
método dos mínimos quadrados ordinários foram,
respectivamente, iguais a 2,5 e 10. O tamanho da
amostra para a obtenção desses resultados foi n =
101. A média amostral e o desvio padrão amostral
da variável x foram, respectivamente, iguais a 9
mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da
variável y foi igual a 5 horas.

21. A média amostral da variável resposta y foi
superior a 30 horas.
Certo ( ) Errado ( )

22. De acordo com o modelo ajustado, caso a
concentração molar de potássio encontrada
em uma vítima seja igual a 2 mmol/dm3, o
valor predito correspondente do intervalo post
mortem será igual a 15 horas.
Certo ( ) Errado ( )

(CESPE – TCE/PA – Auditor de Controle Externo
– 2016) Uma regressão linear simples é expressa
por Y = a + b×X + e, em que o termo e corresponde
ao erro aleatório da regressão e os parâmetros a e
b são desconhecidos e devem ser estimados a
partir de uma amostra disponível. Assumindo que
a variável X é não correlacionada com o erro e,
julgue o item subsecutivo, nos quais os resíduos
das amostras consideradas são IID, com
distribuição normal, média zero e variância
constante.

23. Para uma amostra de tamanho n = 25, em que a
covariância amostral para o par de
variáveis X e Y seja Cov(X, Y) = 20,0, a variância
amostral para a variável Y seja Var(Y) = 4,0 e a
variância amostral para a variável X seja Var(X) =
5,0, a estimativa via estimador de mínimos
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
19
quadrados ordinários para o coeficiente b é igual a
5,0.
Certo ( ) Errado ( )

24. Considere que as estimativas via método de
mínimos quadrados ordinários para o parâmetro a
seja igual a 2,5 e, para o parâmetro b, seja igual a
3,5. Nessa situação, assumindo que X = 4,0, o valor
predito para Y será igual a 16,5, se for utilizada a
reta de regressão estimada.
Certo ( ) Errado ( )

25. A variável Y é denominada variável explicativa, e a
variável X é denominada variável dependente.
Certo ( ) Errado ( )

amostra (i) 1 2 3 4
preço (Pi) 5 5 6 8
demanda (Di) 10 12 8 8
(CESPE – ANATEL – Especialista em Regulação –
2014) Considerando a tabela acima, em que são
evidenciados os resultados de levantamento feito
para o estudo da relação preço demanda em um
serviço de comunicação de dados, e o modelo de
regressão linear simples na forma Di = αPi + εi, em
que εi representa um erro aleatório com média
nula e variância residual V, e α é o coeficiente do
modelo, julgue o item subsequente.

26. O coeficiente α representa a correlação linear de
Pearson entre as variáveis preço e demanda.
Certo ( ) Errado ( )

(CESPE – TCE/ES – Auditor – 2012) Um modelo
de regressão linear simples descreve a relação
entre o preço unitário (representado por X), em
reais, de determinado produto e a quantidade de
unidades vendidas (representada por Y). A reta de
regressão ajustada pelo método de mínimos
quadrados ordinários é Y = 25 - 0,1X.

27. De acordo com o modelo, se o preço de venda
corresponder a R$ 50,00 a unidade, pode-se prever
a venda de 20 unidades desse produto.
Certo ( ) Errado ( )

28. Considere que, no modelo apresentado, o preço
unitário do produto, representado pela variável Z,
seja cotado em dólares e que um dólar valha R$
2,00. Nesse caso, segundo o mesmo método de
mínimos quadrados, a reta de regressão estimada
será Y = 25 - 0,2Z.
( ) Certo ( ) Errado

estimativa erro padrão p-valor
intercepto 400 40 < 0,001
coeficiente
angular
1 0,2 < 0,001
29. (CESPE – TRT – Analista Judiciário – 2013) Um
modelo de regressão linear simples foi ajustado
pelo método de mínimos quadrados ordinários
como parte de um laudo de avaliação imobiliária.
Nesse modelo, cujos resultados se encontram na
tabela acima, a variável resposta — y — representa
o valor do imóvel, em R$ mil, e a variávelregressora — x — é a área construída do imóvel
(em m2).

Considerando que o tamanho da amostra para essa
modelagem tenha sido superior a 500 e que os
erros aleatórios pertinentes sejam normais, julgue
o item a seguir.

O modelo ajustado foi y = x + 400, o que sugere que
cada metro quadrado eleva, em média, R$ 1 mil no
valor do imóvel.
( ) Certo ( ) Errado
https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
20
ANÁLISE DE VARIÂNCIA E COEFICENTE DE
DETERMINAÇÃO
30. (CESPE – TJ/SE – Analista Judiciário – 2014) Em
um modelo de regressão linear simples, o
coeficiente de determinação cresce à medida que a
correlação entre a variável resposta e a variável
regressora aumenta.
Certo ( ) Errado ( )

31. (CESPE – TJ/SE – Analista Judiciário – 2014) Se
um modelo de regressão linear simples tivesse
coeficiente de determinação igual a 0,75, então,
nesse modelo, a soma de quadrados do resíduo
seria menor que a metade da soma de quadrados
totais.
Certo ( ) Errado ( )

32. (CESPE – TJ/SE – Analista Judiciário – 2014) Em
um modelo de regressão linear, se a variável
explicativa e a variável resposta não se
correlacionam, o coeficiente de determinação seria
próximo de 0. Além disso, se o coeficiente de
determinação fosse próximo de 0, as variáveis
explicativa e resposta seriam independentes.
Certo ( ) Errado ( )

(CESPE – EBSERH – Analista Administrativo –
2018) Determinado estudo considerou um modelo
de regressão linear simples na forma yi = β0 + β1xi
+ εi , em que yi representa o número de leitos por
habitante existente no município i; xi representa
um indicador de qualidade de vida referente a esse
mesmo município i, para i = 1, ..., n. A componente
εi representa um erro aleatório com média 0 e
variância σ2. A tabela a seguir mostra a tabela
ANOVA resultante do ajuste desse modelo pelo
método dos mínimos quadrados ordinários.

33. A correlação linear entre o número de leitos
hospitalares por habitante (y) e o indicador de
qualidade de vida (x) foi igual a 0,9.
Certo ( ) Errado ( )

34. O referido estudo contemplou um conjunto de
dados obtidos de n = 11 municípios.
Certo ( ) Errado ( )

35. O desvio padrão amostral do número de leitos por
habitante foi superior a 10 leitos por habitante.
Certo ( ) Errado ( )

36. A estimativa de σ² foi igual a 10.
Certo ( ) Errado ( )

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
21

(CESPE – EBC – Analista – 2011) Os gráficos
acima mostram a relação entre o PIB per capita de
100 municípios (x) e as vendas mensais (y) dos
jornais A, B e C nos
municípios correspondentes. Cada gráfico
apresenta uma reta de regressão linear simples
ajustada pelo método de mínimos quadrados
ordinários e seu coeficiente de explicação (R2). Com
base nessas informações, julgue os itens que se
seguem.

37. Com base no valor do coeficiente de correlação
entre o volume de vendas do jornal C e a renda per
capita do município, é correto considerar que
ambas são praticamente variáveis independentes.
Certo ( ) Errado ( )

(CESPE – Polícia Federal - Escrivão - 2018) O
intervalo de tempo entre a morte de uma vítima até
que ela seja encontrada (y em horas) denomina-se
intervalo post mortem. Um grupo de
pesquisadores mostrou que esse tempo se
relaciona com a concentração molar de potássio
encontrada na vítima (x, em mmol/dm3). Esses
pesquisadores consideraram um modelo de
regressão linear simples na forma y = ax + b + ε, em
que a representa o coeficiente angular, b
denomina-se intercepto, e ε denota um erro
aleatório que segue distribuição normal com média
zero e desvio padrão igual a 4.

As estimativas dos coeficientes a e b, obtidas pelo
método dos mínimos quadrados ordinários foram,
respectivamente, iguais a 2,5 e 10. O tamanho da
amostra para a obtenção desses resultados foi n =
101. A média amostral e o desvio padrão amostral
da variável x foram, respectivamente, iguais a 9
mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da
variável y foi igual a 5 horas.

38. O coeficiente de explicação do modelo (R2) foi
superior a 0,70.
Certo ( ) Errado ( )

(CESPE – TELEBRAS – Especialista em Gestão de
Telecomunicações – 2015) Um estudo a respeito
do índice de cancelamento de assinaturas (Y) de
uma operadora de telefonia celular no período de
2010 a 2014 produziu um ajuste na forma �̂�𝑡 = �̂� +
�̂�(𝑡 − 2012), em que t = 2010, 2011, 2012, 2013,
2014; �̂�𝑡 é a estimativa desse índice no ano t
correspondente; e �̂� e �̂� representam as estimativas
de mínimos quadrados ordinários dos coeficientes
da reta ajustada. A tabela a seguir apresenta a
análise de variância (ANOVA) do ajuste.

Considerando que �̂� = 30, julgue o item
subsequente relativo ao referido ajuste.

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
22
39. O coeficiente de determinação do modelo (R2) é
superior a 0,90.
Certo ( ) Errado ( )

40. A correlação linear de Pearson entre a variável
resposta e a variável regressora foi superior a - 0,75
e inferior a 0,75.
Certo ( ) Errado ( )

41. A estimativa da variância do erro aleatório em torno
da tendência ajustada é superior a 27.
Certo ( ) Errado ( )

42. No período de 2010 a 2014, o desvio padrão
amostral do índice de cancelamento de assinaturas
(Y) foi igual a 10.
Certo ( ) Errado ( )

(CESPE – Polícia Federal - Agente - 2018) Um
pesquisador estudou a relação entre a taxa de
criminalidade (Y) e a taxa de desocupação da
população economicamente ativa (X) em
determinada região do país. Esse pesquisador
aplicou um modelo de regressão linear simples na
forma Y = bX + a + ε, em que b representa o
coeficiente angular, a é o intercepto do modelo e ε
denota o erro aleatório com média zero e variância
σ2. A tabela a seguir representa a análise de
variância (ANOVA) proporcionada por esse
modelo.

Fonte de
variação
Graus de
liberdade
Soma dos
Quadrados
modelo 1 225
erro 899 175
total 900 400

A respeito dessa situação hipotética, julgue o item,
sabendo que b > 0 e que o desvio padrão amostral
da variável X é igual a 2.

43. A correlação linear de Pearson entre a variável
resposta Y e a variável regressora X é igual a 0,75.
Certo ( ) Errado ( )

44. A estimativa do coeficiente angular b, pelo método
de mínimos quadrados ordinários, é igual a 0,25.
Certo ( ) Errado ( )

45. A estimativa da variância σ2 é superior a 0,5.
Certo ( ) Errado ( )

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
23
Fonte de
variação
Graus de
liberdade
Soma dos
Quadrados
Média dos
quadrados
Razão
F
Regressão 1 2061,49 2061,49 433,4
Erro 78 371,01 4,75
Total 79 2432,5

(CESPE – ALECE – Analista Legislativo – 2011)
Um analista deseja avaliar se o tempo — Y —, em
dias, que um processo judicial leva para ser
concluído está relacionado com a quantidade — X
— de juízes disponíveis no tribunal em que tal
processo foi julgado. O quadro acima apresenta a
tabela de análise de variância (ANOVA)
correspondente a essa avaliação por regressão
linear simples, em que Y é a variável resposta e X é
a variável regressora, com base no método de
mínimos quadrados ordinários. Considerando
essas informações e os conceitos de análise de
regressão linear e inferência estatística, julgue o
item.

46. Suponha que o modelo ajustado tenha
aproximadamentea forma Y = -2X + B, em que B é
uma estimativa do intercepto. Nessa situação,
estima-se que cada juiz acrescentado ao tribunal
representa uma redução de dois dias, em média, no
tempo para a conclusão de um processo nesse
tribunal.
Certo ( ) Errado ( )

47. Para a modelagem foram consideradas 79
observações.
Certo ( ) Errado ( )

https://www.alfaconcursos.com.br/
Professor: Rodolfo Schmit
Turma: Carreira Policiais
Data: 15/05/2021 ESTATÍSTICA

MUDE SUA VIDA!
24
GABARITO
COVARIÂNCIA E CORRELAÇÃO LINEAR
1. Certo
2. Certo
3. Certo
4. Certo
5. Certo
6. Errado
7. Certo
8. Errado
9. Errado
10. E
11. Errado
12. Errado
13. Errado
14. Errado
15. Certo
16. Errado
17. Errado

MODELO DE REGRESSÃO LINEAR
18. Errado
19. Errado
20. Errado
21. Certo
22. Certo
23. Errado
24. Certo
25. Errado
26. Errado
27. Certo
28. Certo
29. Certo

ANÁLISE DE VARIÂNCIA E COEFICIENTE DE
DETERMINAÇÃO
30. Certo
31. Certo
32. Errado
33. Errado
34. Errado
35. Errado
36. Certo
37. Errado
38. Errado
39. Errado
40. Errado
41. Errado
42. Certo
43. Certo
44. Certo
45. Errado
46. Certo
47. Errado
https://www.alfaconcursos.com.br/