Buscar

regressao-tenencias-extrapolacoes-e-interpolacoes

Prévia do material em texto

Matemática, Probabilidade 
e Estatística
banco do brasil
Regressão, Tenências, 
Extrapolações e Interpolações
Livro Eletrônico
JOSIMAR PADILHA
Professor do Gran Cursos Online. Ministra aulas 
presenciais, telepresenciais e online de Matemá-
tica Básica, Raciocínio Lógico, Matemática Finan-
ceira e Estatística para processos seletivos em 
concursos públicos estaduais e federais. Além 
disso, é professor de Matemática e Raciocínio 
Lógico em várias faculdades do Distrito Federal. 
É servidor público há mais de 20 anos. Autor de 
diversas obras e palestrante.
3 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
SUMÁRIO
Estatística – Correlação e Regressão Linear Simples ........................................4
Correlação Linear Simples ............................................................................4
Regressão Linear Simples ..........................................................................24
Questões de Concurso ...............................................................................30
Gabarito ..................................................................................................35
Gabarito comentado .................................................................................36
4 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
ESTATÍSTICA – CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Neste módulo, serão apresentados métodos para resolução de questões de con-
cursos públicos relacionados a problemas envolvendo o conteúdo de estatística, 
relacionados abaixo:
1. REGRESSÃO, TENDÊNCIAS, EXTRAPOLAÇÕES E INTERPOLAÇÕES; TABE-
LAS DE DISTRIBUIÇÃO EMPÍRICA DE VARIÁVEIS E HISTOGRAMAS.
Propõe-se a desenvolver, gradualmente, o raciocínio criativo, com aplicação de 
conceitos e propriedades, promovendo maior independência na busca de soluções 
de problemas, aprendendo a interpretar tais questões por meio da prática e aplica-
ção de métodos que facilitarão na conclusão das questões. 
De uma maneira clara, simples e bem objetiva iremos aprender como a banca 
examinadora exige o assunto indicado nesta aula. 
O conteúdo deste módulo é de suma importância, pois trata assuntos cobrados 
nas provas de concursos públicos pela banca CESGRANRIO.
Correlação Linear Simples
Para começarmos, temos que o coeficiente de correlação de Pearson não tem 
esse nome por acaso. É comum atribuir exclusivamente a Karl Pearson o desen-
volvimento dessa estatística, no entanto, como bem lembrou Stanton (2001), a 
origem desse coeficiente remonta o trabalho conjunto de Karl Pearson e Francis 
Galton (Stanton, 2001: 1). Garson (2009) afirma que correlação “é uma medida de 
associação bivariada (força) do grau de relacionamento entre duas variáveis”. Para 
Moore (2007), “a correlação mensura a direção e o grau da relação linear entre 
5 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
duas variáveis quantitativas” (Moore, 2007: 100/101). Em uma frase: o coeficiente 
de correlação de Pearson (r) é uma medida de associação linear entre variáveis. 
Sua fórmula é a seguinte:
Dois conceitos são chaves para entendê-la: “associação” e “linearidade”. Afinal, 
o que significa dizer que duas variáveis estão associadas? Em termos estatísticos, 
duas variáveis se associam quando elas guardam semelhanças na distribuição dos 
seus escores. Mais precisamente, elas podem se associar a partir da distribuição 
das frequências ou pelo compartilhamento de variância. No caso da correlação de 
Pearson (r), vale esse último parâmetro, ou seja, ele é uma medida da variância 
compartilhada entre duas variáveis. Por outro lado, o modelo linear supõe que o 
aumento ou decremento de uma unidade na variável X gera o mesmo impacto em 
Y. Em termos gráficos, por relação linear entende-se que a melhor forma de ilus-
trar o padrão de relacionamento entre duas variáveis é através de uma linha reta. 
Portanto, a correlação de Pearson (r) exige um compartilhamento de variância e 
que essa variação seja distribuída linearmente (Revista Política Hoje, Vol. 18, n. 1, 
2009).
Em pesquisas e até mesmo no dia a dia, frequentemente, procura-se verificar 
se existe relação entre duas ou mais grandezas, que serão denominadas em nosso 
estudo como variáveis, isto é, saber se as alterações sofridas por uma das variáveis 
são acompanhadas, influenciadas por alterações nas outras. Vejamos, por exemplo, 
peso versus idade, consumo versus renda, altura versus peso, etc.
6 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
O termo correlação significa relação em dois sentidos (co + relação) e é usado 
em estatística para designar a intensidade de força que mantém unidos (relacio-
nados) dois conjuntos de valores. Quanto à verificação da existência e do grau de 
relação entre as variáveis, será de responsabilidade do estudo da correlação linear 
por intermédio de um coeficiente, que veremos mais à frente, denominado coefi-
ciente de Pearson. 
Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemá-
tica, através de uma função do 1º grau. 
A estimação dos parâmetros dessa função matemática é o objeto da regressão. 
Os pares de valores das duas variáveis poderão ser colocados num diagrama carte-
siano chamado “diagrama de dispersão”. A vantagem de construir um diagrama de 
dispersão está em que, muitas vezes sua simples observação já nos dá uma ideia 
bastante boa de como as duas variáveis se relacionam.
Em teoria da probabilidade e estatística, correlação, também chamada de co-
eficiente de correlação, indica a força e a direção do relacionamento linear entre 
duas variáveis aleatórias. No uso estatístico geral, correlação ou correlação se re-
fere à medida da relação entre duas variáveis, embora correlação não implique 
CAUSALIDADE.
Neste sentido geral, existem vários coeficientes medindo o grau de correlação, 
adaptados à natureza dos dados.
Vários coeficientes são utilizados para situações diferentes. O mais conhecido é 
o coeficiente de correlação de Pearson, o qual é obtido dividindo a covariância de 
duas variáveis pelo produto de seus desvios padrão. 
Variável: características ou itens de interesse de cada elemento de uma popu-
lação ou amostra, podendo ser chamada de parâmetro. 
7 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Duas variáveis estão relacionadas se a mudança de uma provoca a mudança 
na outra.
Exemplos: velocidade x consumo combustível
índice de criminalidade x grau de escolaridade
idade x condicionamento físico. 
Correlação
Correlação entre duas variáveis:
1. quando uma delas está, de alguma forma, relacionada com a outra;
2. quando a alteração no valor de uma variável (dita independente) provoca alte-
rações no valor da outra variável (dita dependente).
Diagramas de Dispersão
Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, 
medidas sobre os mesmos indivíduos.
Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo 
vertical.
Comumente, coloca-se no eixo x um parâmetro.
Cada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as 
variáveis para aquele indivíduo.
Exemplo de correlação entre as variáveis: peso e altura
Vamos construir um diagrama de dispersão por meio da tabela abaixo, com as vari-
áveis peso e altura, em que o peso será nossa variável independente (eixo x) e a 
altura, nossa variável dependente (eixo y). 
8 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Diagrama de dispersão
Podemos observar que cada ponto no diagrama representa um elemento (pessoa), 
consequênciada relação entre as duas grandezas, temos um exemplo em destaque 
que é a pessoa que pesa 70 Kg e possui altura de 1,90 m. 
Eixo das ABCISSAS: x (variável independente):
variável que é alterada por uma modificação no processo. 
Eixo das ORDENADAS: y (variável dependente):
variável que pode mudar de acordo com a mudança da variável em ‘x’. 
Peso (Kg) Altura (m)
80 1,80
85 1,83
50 1,65
70 1,90
55 1,60
77 1,80
85 1,78
93 1,86
65 1,70
60 1,65
9 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Análise – fatores a serem considerados:
• DIREÇÃO:
− crescente;
− decrescente.
• FORMA:
− linear;
− não linear;
 – aglomerados.
Algumas situações em que se podem apresentar os diagramas de dispersão:
10 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
11 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
12 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Análise quanto aos valores obtidos:
a) correlação perfeita negativa (rxy = -1): quando os pontos estiverem perfeita-
mente alinhados, mas em sentido contrário, a correlação é denominada perfeita 
negativa. 
b) Correlação negativa (-1 < rxy < 0): a correlação é considerada negativa quando 
valores crescentes da variável X estiverem associados a valores decrescentes da 
variável Y, ou valores decrescentes de X associados a valores crescentes de Y.
c) Correlação nula (rxy = 0): quando não houver relação entre as variáveis X e 
Y, ou seja, quando os valores de X e Y ocorrerem independentemente, não existe 
correlação entre elas.
d) Correlação positiva (0 < rxy < 1): será considerada positiva se os valores cres-
centes de X estiverem associados a valores crescentes de Y. 
e) Correlação perfeita positiva (rxy = 1): a correlação linear perfeita positiva cor-
responde ao caso anterior, só que os pontos (X, Y) estão perfeitamente alinhados.
OOss:�
 � a) correlação não é o mesmo que causa e efeito. Duas variáveis podem 
estar altamente correlacionadas e, no entanto, não haver relação de causa 
e efeito entre elas. 
 � b) Se duas variáveis estiverem amarradas por uma relação de causa e efeito, 
elas estarão, obrigatoriamente, correlacionadas.
 � c) O estudo de correlação pressupõe que as variáveis X e Y tenham uma 
distribuição normal. 
 � d) A palavra simples que compõe o nome correlação linear simples indica 
que estão envolvidas no cálculo somente duas variáveis.
13 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
 � e) O coeficiente de correlação linear de Pearson mede a correlação em esta-
tística paramétrica.
 � f) O fato de o coeficiente de correlação ser próximo de zero não significa 
que não exista relação entre duas variáveis, apenas significa que as duas 
não têm relação linear. Pode ser que as variáveis se relacionem de outras 
maneiras. Pode ser uma relação quadrática, exponencial, etc. 
 � g) O fato de o coeficiente de correlação ser muito próximo de 1 (ou -1) 
não significa que as duas variáveis tenham uma relação de causa e con-
sequência.
Fórmulas – coeficiente de correlação linear:
Exemplo – aplicação
Vamos resolver a questão (exemplo) que foi apresentada anteriormente (peso 
versos altura), ou seja, vamos encontrar o coeficiente de correlação linear de Pear-
son para que possamos fazer uma comparação com o diagrama de dispersão apre-
sentado anteriormente, ok?
14 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Para que possamos aplicar a fórmula abaixo, iremos construir algumas colunas 
para calcularmos os somatórios das variáveis, bem como o somatório dos seus 
quadrados, certo?
Peso (Kg) Altura (m)
80 1,80
85 1,83
50 1,65
70 1,90
55 1,60
77 1,80
85 1,78
93 1,86
65 1,70
60 1,65
Peso (Kg)
X
Altura (m)
Y
X2 Y2 X.Y
80 1,80 6400 3,24 144
85 1,83 7225 3,3489 155,55
50 1,65 2500 2,7225 82,5
70 1,90 4900 3,61 133
55 1,60 3025 2,56 88
77 1,80 5929 3,24 138,6
85 1,78 7225 3,1684 151,3
93 1,86 8649 3,4596 172,98
65 1,70 4225 2,89 110,5
60 1,65 3600 2,7225 99
∑x = 720 ∑y = 17,57 ∑x2 = 53678 ∑y2 = 30,9619 ∑xy = 1275,43
n = 10
15 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
O coeficiente de correlação de Pearson entre as duas variáveis peso e altura se 
mostrou positivo. Para que possamos interpretar melhor o valor, vamos construir 
uma tabela simples:
Se o intervalo do coeficiente de correlação então a interpretação de r 
|r| = 1 Relação perfeita 
0,6 ≤ |r| ≤ 1 Relação boa 
0,3 ≤ |r| ≤ 0,6 Relação fraca
|r| ≤ 0,3 Relação não existe praticamente
|r| = 0 Relação nula 
16 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Vejamos agora algumas questões de concursos públicos envolvendo a parte te-
órica para que possamos entender melhor ainda os conceitos, vejamos:
1s (CESGRANRIO). Considere as asserções a seguir. 
O Coeficiente de Correlação Linear de Pearson é necessariamente um número no 
intervalo (−1,1).
PORQUE
O Coeficiente de Correlação Linear de Pearson só pode ser calculado para variáveis 
quantitativas.
Analisando-se as asserções, conclui-se que
a) As duas asserções são verdadeiras, e a segunda é uma justificativa correta da 
primeira.
O) As duas asserções são verdadeiras, e a segunda não é uma justificativa correta 
da primeira.
c) A primeira asserção é verdadeira, e a segunda é falsa. 
d) A primeira asserção é falsa, e a segunda é verdadeira. 
e) A primeira e a segunda asserções são falsas.
Letra Os
Como vimos anteriormente, o coeficiente de correlação de Pearson assume valores 
entre -1 e 1, desta forma a primeira asserção está correta. A segunda frase tam-
bém está correta, uma vez que o coeficiente de correlação depende de cálculo de 
somatório, o que só é permitido se as variáveis forem quantitativas. 
17 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Sendo as duas frases verdadeiras e sabendo que o coeficiente depende de valores 
quantitativos, uma frase não justifica a outra, pois existem diversas grandezas que 
só podem ser calculadas para variáveis quantitativas, mas que assumem valores 
fora do intervalo entre -1 e 1. Um exemplo é a variância, que só pode ser calculada 
para variáveis quantitativas, porém o seu valor pode assumir qualquer valor maior 
ou igual a zero.
2s (CESGRANRIO) Considere as afirmações a seguir a respeito do Coeficiente de 
Correlação (r) de Pearson entre duas variáveis. 
I – Se r = 1, as observações estão todas sobre uma linha reta no diagrama de 
dispersão. 
II – Se r > 0, a variável independente aumenta quando a variável dependente 
aumenta.
III – Se r < 0, a variável independente decresce quando a variável dependente 
decresce. 
IV – Se r = 0, não existe relação entre as duas variáveis. São corretas APENAS as 
afirmações 
a) I e II
O) I e III
c) II e III
d) II e IV
e) III e IV
18 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Letra as
Vamos analisar cada item separadamente:
Is Certo. Se r = 1, a relação linear é perfeita, em que as variáveis têm relação dire-
ta (quando uma aumenta, a outra aumenta; quando uma diminui, a outra diminui). 
IIs Certo. Se r > 0, a relação entre as variáveis é direta (quando uma aumenta, a 
outra aumenta; quando uma diminui, a outra diminui). 
IIIs Errado. Se r < 0, a relação é inversa (quando uma aumenta, a outra diminui). 
IVs Errados Se r = 0, temos um indicador muito forte que nãohá relação linear, 
porém é importante observar que pode haver outro tipo de relação (exponencial, 
logarítmica, etc.). 
3s (CESGRANRIO) Analise as afirmativas a seguir, a respeito do coeficiente de cor-
relação linear de Pearson entre duas variáveis positivas X e Y: 
I – É positivo; 
II – Não se altera quando adicionamos uma constante positiva aos valores de X;
III – não se altera quando multiplicamos por uma constante positiva os valores de X. 
Está (ao) correta (s) a (s) afirmativa (s): 
a) II somente. 
O) I e II somente. 
c) I e III somente. 
d) II e III somente. 
e) I, II e III.
19 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Letra ds
Vamos analisar cada item:
Is Errado, pois o sinal do coeficiente de correlação depende da relação (associa-
ção) existente entre as variáveis, podendo ser direta ou inversa. Para ser positivo, 
a relação tem que ser direta, pois, se for uma relação inversa, o sinal será negativo. 
IIs Certo, pois as somas e subtrações não alteram o coeficiente de correlação. É 
importante guardar essa propriedade. 
IIIs Certo, pois, se multiplicarmos X por uma constante positiva P, e não alterar-
mos Y (o que equivale a multiplicar por 1), então as duas constantes envolvidas (P 
e 1) têm o mesmo sinal. O coeficiente de correlação não se altera. Já comentamos 
este detalhe anteriormente, ok?
4s (CESPE-UNB/PETROBRAS) Julgue o item que segue: O coeficiente de correla-
ção de Pearson é usado para medir o grau de linearidade (associação) entre duas 
variáveis (eventos), podendo assumir qualquer valor entre +1 e –1. Os valores de 
coeficientes iguais a +1 e -1 indicam, respectivamente, relação linear perfeita e 
ausência total de relação linear entre as variáveis.
Errado.
O coeficiente de correlação linear de Pearson igual a -1 indica também uma relação 
linear perfeita negativa, pois a reta que representa a função entre as duas variáveis 
é decrescente. Teremos a ausência total de relação linear quando o coeficiente de 
correlação assume o valor zero. 
20 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
5s (CESPE-UNB/PREFEITURA DE RIO BRANCO) A análise de regressão linear 
simples e a análise de correlação são técnicas frequentemente usadas na in-
terpretação de pares de dados. Com relação a essas técnicas, julgue o item a 
seguir. 
O coeficiente de correlação mede o grau de associação entre duas variáveis. 
Certo.
O coeficiente de correlação linear de Person mede o grau de relação linear entre 
duas variáveis, que a banca CESPE denomina de grau de associação.
6s (CESPE/TCU) Uma agência de desenvolvimento urbano divulgou os dados apre-
sentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendi-
dos (Y) em determinado município, nos anos de 2005 a 2007.
Considerando as informações do texto, julgue o item subsequente.
O coeficiente de correlação linear entre X e Y é inferior a 0,8.
21 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Errado.
Para resolvermos esta questão, iremos utilizar a seguinte fórmula, uma vez que os 
valores são grandes:
Construímos a tabela abaixo para que possamos encontrar de maneira mais orga-
nizada os valores necessários para substituir na fórmula:
Sabemos que, nos concursos, o tempo é um dos nossos grandes adversários, por 
isso quero chamar a atenção para algumas questões que exigem muitos cálculos, 
pois a banca muitas vezes exige do candidato a interpretação ao serviço braçal, isto 
é, muitas contas. Esta questão é um exemplo real, pois observe que os valores de 
X e Y estão exatamente ao longo de uma reta. Para cada variação de 250 na variá-
vel X, temos uma variação de 300 na variável Y. Isso deixa claro que os três pares 
ordenados apresentados na tabela pertencem à mesma reta.
22 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Vamos apresentar o diagrama de dispersão para que você possa entender melhor 
ainda.
7s (CESGRANRIO)
Se as variáveis Y e X1 forem transformadas, respectivamente, para Y1 = -2Y + 0,5 
e X1’ = - X1+ 0,5, o coeficiente de correlação entre Y1 e X1’ 
a) 0,382
23 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
O) 0,059
c) -0,059
d) -0,118
e) -0,382
Letra cs
No diagrama de dispersão acima, podemos verificar que o coeficiente de correlação 
entre Y e X1 é de −0,059. A questão, a partir das variáveis Y e X1, constrói outras, 
pelas operações de multiplicação e soma. É importante guardar que as operações 
de adição não interferem no coeficiente de correlação, porém as multiplicações po-
dem interferir no sinal do coeficiente de correlação. Como as multiplicações foram 
feitas por − 2 e −1, ou seja, as duas constantes têm o mesmo sinal, o coeficiente 
de correlação permanece igual ao da situação inicial. 
Para que possamos entender melhor, é só imaginarmos alguns valores no eixo X: 
{1,2,3,4,5} e outros valores no eixo Y: {10, 20, 30, 40, 50}, os pontos no diagrama 
de dispersão estarão dispostos de acordo com o nível de relação entre eles, caso os 
valores de x sejam multiplicados pela constante K e os de X sejam também mul-
tiplicados por P, os pontos estarão em lugares distintos no diagrama, porém entre 
eles a disposição será a mesma, possuindo a mesma relação, isto é, o mesmo co-
eficiente de correlação linear de Pearson. 
24 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Regressão Linear Simples
Como já visto em correlação linear, se existe relação entre as variáveis e qual a 
intensidade dessa relação, agora iremos avançar mais um pouco, pois a associação 
entre duas variáveis quantitativas x e y nos faz levantar uma hipótese a respeito de 
uma provável relação de causa e efeito. Isto é, desejamos saber se y “depende” de 
x. Neste caso, y é chamado de variável dependente ou variável resposta e x é cha-
mado de variável independente ou explanatória. Agora em regressão mais comu-
mente utilizada, a regressão linear, temos a hipótese de que o valor de y depende do 
valor de x e expressamos matematicamente esta relação por meio de uma função, 
assumindo que a associação entre x e y é linear, ou seja, descrita adequadamente 
por uma reta. Quando temos uma variável resposta y e uma variável explanatória x, 
a regressão é dita simples. A regressão é usada basicamente com duas finalidades:
1. previsão (prever o valor de y a partir do valor de x);
2. estimar o quanto x influencia ou modifica y.
O nosso objetivo nessa aula é que, considerando que X e Y tenham uma relação 
linear forte. Ou seja, a relação entre ambas é praticamente uma reta, a pergunta 
é: que reta seria essa? Qual seria equação que permite construir a reta que melhor 
descreve a relação linear entre X e Y? É isso que iremos aprender neste momento, 
o que significa estudar regressão linear. 
Como encontrar a reta de regressão linear?
Vamos, primeiramente, considerar as variáveis X (independente) e Y (depen-
dente). Um modelo de regressão linear que relaciona as variáveis é dado por:
Yi = a + βXi + εi
25 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
No modelo apresentado, α e β são constantes (coeficientes) e ε é uma variável 
aleatória de média zero, sendo assim não se preocupe como o valor de ε. 
Um método para encontrar a melhor reta de regressão é chamado de métodos de 
mínimos quadrados. A função de primeiro grau que pretendemos encontrar é da forma: 
Yi = a + bXi
^
Em que a é uma estimativa de α, b é uma estimativa de β e Ŷ é uma estimativa 
de Y. A diferença entre Y e sua estimativa chamamos dedesvio. O desvio é dado por:
e = Y – Y^
É importante saber que, pelo método de mínimos quadrados, tentamos ob-
ter uma reta, de tal modo que a soma dos quadrados dos valores de ε (desvio) 
seja mínima, dessa forma não fique preocupado(a) com o valor de ε na função. 
OK? 
Agora sim, para encontrarmos os valores de a e b (estimadores de α e β), obti-
dos a partir da consideração de que a soma dos quadrados dos desvios seja míni-
ma, temos as seguintes fórmulas:
26 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Após encontrarmos os valores de a e b, é só substituir a fórmula para definirmos 
a função da regressão linear simples. 
Vamos realizar um exemplo dos alunos de uma turma para verificar a função que 
associa as notas em matemática (variável independente) às notas de estatística 
(variável dependente).
Partindo do pressuposto de que há uma correlação linear de Pearson quanto às notas 
adquiridas nas duas disciplinas (variáveis), podemos definir a seguinte equação linear:
Yi = a + bXi
^
Precisamos encontrar os valores dos coeficientes a (coeficiente linear) e b (coe-
ficiente angular), e para isso construiremos algumas colunas para que possamos 
definir os valores que serão substituídos na fórmula: 
Alunos Nota de matemática (X) Nota de Estatística (Y)
André 2 6
Beto 6 7
Carlos 8 7
Daniel 10 8
Médias 6,5 7
27 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
A partir da tabela, iremos aplicar as fórmulas abaixo para encontrarmos os coefi-
cientes a e b:
Após encontrarmos os valores dos coeficientes, basta substituirmos na expressão:
Yi = a + bXi
^
Ŷ= 5,51 + 0,23X 
A partir da equação que representa reta de regressão, podemos verificar sua vera-
cidade, em que iremos substituir os valores da variável independente (X) e encon-
traremos o valor da variável dependente (Y), não esquecendo que estamos par-
tindo do pressuposto de que a reta apresenta o menor valor possível no somatório 
do quadrado dos desvios, em que os desvios correspondem à diferença entre os 
valores observados X e Y. 
Tabela com valores estimados para variável Y:
28 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Aluno A: X= 2
Ŷ= 5,51 + 0,23X 
Ŷ = 5,51 + 0,23X = 5,51 + 0,23(2) = 5,51 + 0,46 = 5,97
Aluno B: X = 6
Ŷ= 5,51 + 0,23X 
Ŷ= 5,51 + 0,23X = 5,51 + 0,23(6) =5,51 + 1,38 = 6,89
Aluno C: X = 8
Ŷ= 5,51 + 0,23X 
Ŷ= 5,51 + 0,23X= 5,51 + 0,23(8) =5,51 + 1,84 = 7,35
Aluno D: X = 10
Ŷ= 5,51 + 0,23X = 5,51 + 0,23(10) = 5,51 + 2,3 = 7,81
Com os valores de estimação, construiremos o diagrama de dispersão juntamente 
com a reta de regressão estimada (valores estimados de Ŷ). 
29 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
OOss:� algumas questões de concursos trazem informações que serão necessárias 
transformações, quanto aos somatórios, dessa forma, teremos:
 �
 �
30 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
QUESTÕES DE CONCURSO
1s (CESPE/ANALISTA JUDICIÁRIO – ESTATÍSTICA/TJ-RO/2012) Com respeito ao 
modelo de regressão linear simples, assinale a opção correta.
a) O parâmetro de inclinação da reta é igual à tangente do ângulo formado entre 
a reta e o eixo Oy.
O) A inclinação da reta é proporcional à correlação entre a variável resposta e a 
variável preditora.
c) Se o modelo linear estiver bem ajustado, a correlação entre o resíduo do modelo 
e a variável resposta deve estar próxima de -1.
d) Se o intercepto do modelo for nulo, a variável resposta assume o valor zero 
quando a variável preditora for igual ao inverso da inclinação da reta.
e) O parâmetro de inclinação da reta é igual ao cosseno do ângulo formado entre 
a reta e o eixo Ox.
2s (CESGRANRIO). Na estimativa de uma regressão linear, o problema da hetero-
cedasticidade ocorre quando 
a) os dados são transversais.
O) há autorrelação dos resíduos.
c) há correlação positiva entre as variáveis independentes.
d) a variância dos erros não é constante. 
e) as variáveis independentes são negativas.
31 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
3s (FCC/BACEN) Uma empresa, com finalidade de determinar a relação entre gas-
tos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 
1.000,00, optou por utilizar o modelo linear simples Yi Xi i =α + β + ε, em que Yi 
é o valor do lucro bruto auferido no ano i e i ε o erro aleatório com as respectivas 
hipóteses consideradas para a regressão linear simples (α e β são parâmetros des-
conhecidos). Considerou, para o estudo, as seguintes informações referentes às 
observações nos últimos 10 anos da empresa:
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se 
que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro 
bruto anual, em mil reais, será de: 
a) 84 
O) 102,5 
c) 121
d) 128,4 
e) 158
32 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
4s (CESGRANRIO) Considere os dados amostrais de um estudo da relação entre o 
número de anos que os candidatos a empregos em um determinado banco comer-
cial estudaram inglês na faculdade e as notas obtidas em um teste de proficiência 
nessa língua.
Com base nessas informações, a reta de mínimos quadrados que melhor explica 
a relação entre o número de anos de estudo e a nota do teste de inglês é igual a:
a) y = 1,33 + 3,56x
O) y = 2,25 + 1,32x 
c) y = 6,97 + 3,56x 
d) y = 35,32 + 10,9x 
e) y = 254,56 + 13,3x
33 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
5s (FCC) Em uma determinada empresa é realizado um estudo sobre a relação 
entre os gastos com publicidade, em R$ 1.000,00, e o acréscimo no faturamento 
anual, em R$ 1.000,00. Foi escolhido para análise o modelo linear simples Yi = 
α + βXi + εi, sendo que Yi é o acréscimo no faturamento do ano i, Xi representa 
os gastos com publicidade no ano i e εi é o erro aleatório com as respectivas 
hipóteses consideradas para a regressão linear simples (α e β são parâmetros 
desconhecidos). Para obtenção das estimativas de α e β utilizou-se o método 
dos mínimos quadrados com base nas informações dos últimos 10 anos da em-
presa, ou seja:
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se 
que se a empresa almejar um acréscimo no faturamento, em um determinado ano, 
de R$ 25.000,00 deverá apresentar, neste período, um total em gastos com publi-
cidade de 
a) R$ 20.000,00. 
O) R$ 18.000,00. 
c) R$ 17.000,00. 
d) R$ 16.000,00. 
e) R$ 15.000,00.
34 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
6s (ESAF) Com o objetivo de estimar-se o modelo Y = α + β X, foi retirada uma 
amostra com cinco pares de observações (X, Y), obtendo-se os seguintes resulta-
dos: 
Desse modo, 
a) Y = – 2 – 2X 
O) Y = 2 – 2X
c) Y = 2X 
d) Y = 2 + 2X
e) Y = – 2 + 2X
35 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
GABARITO
1s b
2s d
3s b
4s b
5s e
6s d
36 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
GABARITO COMENTADO
1s (CESPE/ANALISTA JUDICIÁRIO – ESTATÍSTICA/TJ-RO/2012) Com respeito ao 
modelo de regressão linear simples, assinale a opção correta.
a) O parâmetro de inclinação da reta é igual à tangente do ângulo formado entre 
a reta e o eixo Oy.
O) A inclinação da reta é proporcional à correlaçãoentre a variável resposta e a 
variável preditora.
c) Se o modelo linear estiver bem ajustado, a correlação entre o resíduo do modelo 
e a variável resposta deve estar próxima de -1.
d) Se o intercepto do modelo for nulo, a variável resposta assume o valor zero 
quando a variável preditora for igual ao inverso da inclinação da reta.
e) O parâmetro de inclinação da reta é igual ao cosseno do ângulo formado entre 
a reta e o eixo Ox.
Letra Os
A inclinação da reta está em função da correlação linear das variáveis X e Y, que 
será expressa pela equação de regressão linear. 
a) Errada. A inclinação da reta é dada pela tangente do ângulo formado entre a 
reta e o eixo X (abcissa) e não Y (ordenada). 
c) Erradas Imagine o diagrama de dispersão com os pontos distribuídos, porém 
todos dispersos, logo a inclinação é próxima de zero. Porém, se os pontos tiverem 
uma tendência ascendente, logo essa reta, ao se ajustar, terá uma inclinação po-
sitiva. Se os pontos tiverem uma inclinação descendente, teremos uma inclinação 
negativa.
37 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
d) Errada. Esta é uma equação da regressão: Y = a + bX. O enunciado fala que 
alfa (coeficiente linear) é zero, sendo assim teremos Y = bX, sendo b o coeficiente 
angular. Assim, como X é o inverso da inclinação, teremos um simplificando o outro, 
isto é, Y = 1. 
e) Errados A inclinação da reta é dada pela tangente do ângulo e não pelo cosseno. 
2s (CESGRANRIO). Na estimativa de uma regressão linear, o problema da hetero-
cedasticidade ocorre quando 
a) os dados são transversais.
b) há autorrelação dos resíduos.
c) há correlação positiva entre as variáveis independentes.
d) a variância dos erros não é constante. 
e) as variáveis independentes são negativas.
Letra ds
No modelo de regressão linear, temos algumas considerações importantes que se-
rão de suma importância para resolvermos as questões conceituais:
Consideração 1, temos que o erro (variável aleatória ε) tem média zero. Para melhor 
compreensão, imaginamos a situação em que a variável erro não tem média zero. 
Significa que já se espera que, em média, se cometa um erro diferente de zero. Já 
38 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
se sabe que a regressão pode ser positiva ou negativa. Ou seja, o modelo não está 
muito adequado. É melhor reformular o modelo, ou seja, não tem como garantir que 
os valores se comportem de maneira linear, não há uma correlação linear. 
Consideração 2, a segunda consideração nos diz que a variância do erro é constan-
te. Este fato é denominado homocedasticia. 
Consideração 3, a terceira condição nos diz que os erros cometidos não são corre-
lacionados.
A questão pode ser respondida pela segunda consideração. 
3s (FCC/BACEN) Uma empresa, com finalidade de determinar a relação entre gas-
tos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 
1.000,00, optou por utilizar o modelo linear simples Yi Xi i =α + β + ε, em que Yi 
é o valor do lucro bruto auferido no ano i e i ε o erro aleatório com as respectivas 
hipóteses consideradas para a regressão linear simples (α e β são parâmetros des-
conhecidos). Considerou, para o estudo, as seguintes informações referentes às 
observações nos últimos 10 anos da empresa:
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se 
que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro 
bruto anual, em mil reais, será de: 
a) 84 
O) 102,5 
39 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
c) 121
d) 128,4 
e) 158
Letra Os
Nesta questão teremos que utilizar algumas transformações do somatório citadas 
anteriormente: 
Primeiramente, vamos encontrar a equação da regressão linear e posteriormente 
verificar e estimativa para uma propaganda de 80 mil reais. É importante ressaltar 
que o erro aleatório está em conformidade com as hipóteses consideradas em re-
gressão linear (vistas anteriormente), sendo assim teremos que aplicar as fórmulas 
para calcular os valores de a e b. 
Calculando o coeficiente angular (b), aplicando a transformação descrita acima:
40 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Calculando agora o coeficiente linear (a):
Representando a equação de regressão:
Caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro 
bruto anual, teremos X = 80 e a estimativa de gasto será:
4s (CESGRANRIO) Considere os dados amostrais de um estudo da relação entre o 
número de anos que os candidatos a empregos em um determinado banco comer-
cial estudaram inglês na faculdade e as notas obtidas em um teste de proficiência 
nessa língua.
41 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Com base nessas informações, a reta de mínimos quadrados que melhor explica 
a relação entre o número de anos de estudo e a nota do teste de inglês é igual a:
a) y = 1,33 + 3,56x
O) y = 2,25 + 1,32x 
c) y = 6,97 + 3,56x 
d) y = 35,32 + 10,9x 
e) y = 254,56 + 13,3x
Letra Os
Esta questão vai exigir do candidato esperteza, pois é loucura realizar todas essas 
contas, verificando se a variável x (número de anos) irá estimar a variável y (nota 
do teste). O que fazer? Em primeiro lugar, vamos excluir algumas alternativas e 
podemos observar que, para qualquer valor de x entre 2 e 5, y não supera 10. Des-
ta forma, já podemos excluir as letras c, d e e, que preveem valores altos para y 
(muito superiores a 10), mesmo quando x é igual a 2. 
42 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
Quanto à letra e, se tivéssemos x igual a 1, y será aproximadamente igual a 270, 
algo totalmente absurdo de acordo com a tabela fornecida. 
Sendo assim, ficamos entre as letras a e b. Para decidirmos qual será a resposta, 
sugiro considerarmos os valores extremos de x. 
Quando x é igual a 2, as retas das letras a e b possuem os seguintes valores para 
y: letra a: 8,45 e letra b: 4,89, logo o valor da letra b é muito mais próximo dos 
valores que y realmente assume, quando x é igual a 2. 
Por esta análise, já podemos marcar letra b. 
5s (FCC) Em uma determinada empresa é realizado um estudo sobre a relação 
entre os gastos com publicidade, em R$ 1.000,00, e o acréscimo no faturamento 
anual, em R$ 1.000,00. Foi escolhido para análise o modelo linear simples Yi = α 
+ βXi + εi, sendo que Yi é o acréscimo no faturamento do ano i, Xi representa os 
gastos com publicidade no ano i e εi é o erro aleatório com as respectivas hipóteses 
consideradas para a regressão linear simples (α e β são parâmetros desconheci-
dos). Para obtenção das estimativas de α e β utilizou-se o método dos mínimos 
quadrados com base nas informações dos últimos 10 anos da empresa, ou seja:
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que 
se a empresa almejar um acréscimo no faturamento, em um determinado ano, de R$ 
25.000,00 deverá apresentar, neste período, um total em gastos com publicidade de 
a) R$ 20.000,00. 
43 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
O) R$ 18.000,00. 
c) R$ 17.000,00. 
d) R$ 16.000,00. 
e) R$ 15.000,00.
Letra es
Agora que já temos a equação de regressão, com um faturamento (estimativa) de 
R$25.000,00, teremos um gasto no valor de:
44 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha
6. (ESAF) Com o objetivo de estimar-se o modelo Y = α + β X, foi retirada uma 
amostra com cinco paresde observações (X, Y), obtendo-se os seguintes resulta-
dos: 
Desse modo, 
a) Y = – 2 – 2X 
b) Y = 2 – 2X
c) Y = 2X 
d) Y = 2 + 2X
e) Y = – 2 + 2X
Letra ds
45 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Continue navegando