Buscar

MBA-EstatisticaParaIniciantes-Aula 5-Teoria

Prévia do material em texto

MBA em Ciência de Dados
ICMC/USP - São Carlos
Estatística para
Iniciantes
Aula 05 – Teoria
Francisco Louzada Neto
ICMC/USP
louzada@icmc.usp.br
REGRESSÃO
LINEAR
SIMPLES
1 ESTRUTURAS DESCRITIVAS
2 SEGMENTAÇÃO DE DADOS
3 COMPARAÇÕES ESTATÍSTICAS
4 ESTIMAÇÃO
5 REGRESSÃO LINEAR SIMPLES
Resumo do Tópico
Contexto
Coeficiente de Correlação
Linear de Pearson
Correlação e Causalidade
Coeficiente de Determinação
Nova Contextualização
O Melhor Ajuste Linear
A Perspectiva Estatística
Estimativa dos Coeficientes
Diagnóstico do Modelo
Exposição do Modelo Ajustado
Resumo do Tópico
Resumo do Tópico
As
su
nt
o
Ab
or
da
do Neste tópico apresentaremos A Perspectiva Estatística sobre uma técnica
muito utilizada na matemática e na computação, uma técnica que busca
estudar a relação linear entre duas variáveis.
Veremos que, com um modelo construído e bem ajustado, além de fazer-
mos predições de novas observações, estatisticamente validamos a forma
e quantificamos a força da associação entre duas variáveis.
Ob
je
tiv
os Ao final deste tópico, o aluno será capaz de desenvolver um modelo para
entender a relação linear entre as duas variáveis, avaliar as suposições do
modelo ajustado e fazer predições com o modelo ajustado.
3/79
Contextualizando
Quando uma única característica é aferida em cada unidade amostral,
utilizamos técnicas de análise univariada, para descrever, modelar e en-
tender o comportamento probabilístico dessa característica;
Se mais do que uma característica é aferida, precisamos fazer uso de
ferramentas de análise multivariada;
Neste momento, vamos voltar nossa atenção ao estudo de dados bi-
variados, isto é, dados em que cada observação corresponde a um par
ordenado (X, Y);
Vamos estudar situações em que existe o interesse de estudar a associ-
ação entre duas variáveis aleatórias, X e Y.
4/79
Contextualizando
Aqui, estudaremos algumas ferramentas de análise, com o intuito de
identificar essa associação e, em algumas vezes, quantificá-la;
A presença ou ausência dessa associação pode ser investigada sob dois
pontos de vista:
Quantificando a força dessa relação: correlação;
Explicitando a forma dessa relação: regressão.
5/79
Apresentação e Registro
O registro pode ser feito em uma tabela de duas colunas, como:
Unidade
Observacional
X Y
1 x1 y1
2 x2 y2
...
...
...
n − 1 xn−1 yn−1
n xn yn
ou ainda,
Unidade Observacional
Variável 1 2 · · · n − 1 n
X x1 x2 · · · xn−1 xn
Y y1 y2 · · · yn−1 yn
6/79
Apresentação e Registro
Alguns exemplos poderiam ser:
Em um estudo experimental, podemos ter o registro da altura (X) e
peso (Y), medidos em indivíduos amostrados;
Em uma pesquisa eleitoral, pode-se registrar a preferência política
(X) e a religião (Y), dos indivíduos amostrados;
Em uma cultura de células tratadas com concentrações distintas
de uma droga, podemos registrar: a taxa de crescimento (X) e a
concentração da droga (Y), em cada repetição experimental.
7/79
Apresentação e Registro
Quando lidamos com duas variáveis quantitativas, um bom ponto de
partida para avaliarmos a existência de uma associação entre elas é o
gráfico de dispersão.
NOTA
Já estudamos a construção de um gráfico como esse, agora vamos enten-
der outras questões que podem ser extraídas dele.
8/79
Exemplo: Gráfico de Dispersão
Imagine que cada aluno da turma forneceu duas informações:
X: número de horas estudadas na semana durante o semestre;
Y: média geral ao fim do semestre.
REGISTROS
X Y X Y X Y
18 5.9 14 5.4 17 5.9
16 6.7 17 7.2 16 7.6
22 7.4 14 6.3 14 5.9
27 9.0 19 7.2 29 8.9
15 6.2 20 5.8 30 9.3
28 8.9 10 4.7 30 9.6
18 7.1 28 8.5 23 8.2
19 6.0 25 7.5 26 3.5
22 8.4 18 6.3 22 7.8
30 9.8 19 6.1
REPRESENTAÇÃO GRÁFICA
4
6
8
10
10 15 20 25 30
Número médio de horas semanais em estudo
M
éd
ia
 g
er
al
 n
o 
se
m
es
tr
e
9/79
Interpretação
Os 29 registros são plotados como pontos no eixo coordenado. Cada
ponto representa o número de horas semanais de estudo e a média geral
no semestre de um aluno específico.
É razoável entendermos que o número de horas de estudo está, de al-
guma forma, associado à média geral no semestre.
Analisamos o gráfico de dispersão em busca de um padrão no “caminho
percorrido” pelos pontos.
A identificação de um padrão nos diz que existe uma “descrição mate-
mática” que associa as duas variáveis.
Essa associação pode ser quantificada com uma medida denominada
correlação.
10/79
Interpretação
No gráfico desse exemplo existe um padrão visual evidente.
Os pontos (pelo menos a maioria deles) parecem estar “espalhados” de
maneira aleatória em um “corredor” que começa na parte inferior es-
querda do eixo coordenado e segue para a parte superior direita.
4
6
8
10
10 15 20 25 30
Número médio de horas semanais em estudo
M
éd
ia
 g
er
al
 n
o 
se
m
es
tr
e
11/79
Interpretação
A esse tipo de comportamento, podemos dar vários nomes como:
Associação positiva;
Correlação positiva;
Associação direta.
Na prática, poderíamos dizer que a média geral no semestre é positiva-
mente correlacionada ao número de horas semanais de estudo.
12/79
Observação
Existe um registro bastante discrepante dos demais. De algum modo,
ele não é representado pelo comportamento que descrevemos.
Embora tenha estudado por muitas horas durante a semana, esse es-
forço não se refletiu na média geral, como esperávamos.
(26; 3,5)
4
6
8
10
10 15 20 25 30
Número médio de horas semanais em estudo
M
éd
ia
 g
er
al
 n
o 
se
m
es
tr
e
Essa ocorrência pode ter muitas
causas. Poderia ser um exagero
que acabou ultrapassando os li-
mites desse aluno, um erro de
coleta, dentre outras possibili-
dades.
Seria necessário investigar me-
lhor.
13/79
Interpretação
No caso dos demais registros, podemos traçar mentalmente uma reta
imaginária que acompanha o comportamento geral dos pontos.
Isto é, imaginamos que o “caminho percorrido” pelos pontos pode ser
descrito matematicamente por uma equação da reta.
4
6
8
10
10 15 20 25 30
Número médio de horas semanais em estudo
M
éd
ia
 g
er
al
 n
o 
se
m
es
tr
e
14/79
Relação entre Quantitativa vs. Quantitativa
Quando buscamos descrever a relação entre duas variáveis representa-
das em um gráfico de dispersão comumente damos uma atenção espe-
cial a aspectos como:
1. forma: linear ou não linear;
2. direção: cresce, decresce, oscila, etc.;
3. força: forte, moderada ou fraca;
4. observações que fogem do padrão imaginado.
15/79
Exemplo: Força e Direção
Relação inexistente (i) Relação inexistente (ii) Relação inexistente (iii)
Relação linear, negativa, fraca Relação linear, negativa, moderada Relação linear, negativa, forte
Relação linear, positiva, fraca Relação linear, positiva, moderada Relação linear, positiva, forte
16/79
Interpretação
Note que a força da associação está intimamente relacionada com a
dispersão observada nos registros. Entretanto, especialmente no caso
de uma relação linear, a direção em que a ela se expressa também nos
diz muito sobre a força.
O primeiro gráfico da terceira linha, ilustra uma nuvem dispersa de pon-
tos em que não somos capazes de identificar qualquer padrão que rela-
cione as variáveis que deram origem aos gráficos.
Os dois últimos gráficos esboçam as situações extremas em que a incli-
nação da reta imaginária é nula (no caso horizontal), ou infinita (no caso
vertical), em ambas as situações, também não é possível identificar um
padrão.
17/79
Exemplo: Forma, Força e Direção
Relação não−linear, fraca Relação não−linear, moderada Relação não−linear, forte
Relação não−linear, negativa, fraca Relação não−linear, negativa, moderada Relação não−linear, negativa, forte
Relação não−linear, positiva, fraca Relação não−linear, positiva, moderada Relação não−linear, positiva, forte
18/79
Interpretação
Quando tratamos da característica forma há uma gama enorme de pos-
sibilidades. Nesse caso, estendemos a ideia do nosso “corredor” imagi-
nário para qualquer outro formato além do guiado por uma reta.
Existe também a possibilidadede uma combinação entre os efeitos de
forma e direção. Particularmente, entendemos o conceito de direção
em termos do “comportamento global” observado.
Note as duas linhas inferiores dos gráficos. Nelas percebemos compor-
tamentos não-lineares que, em geral, decrescem (na linha central) ou
crescem (na linha inferior).
19/79
Coeficiente de Correlação Linear de Pearson
Até o momento, fizemos apenas especulações visuais sobre a força, forma
e direção da associação entre duas variáveis, X e Y.
Entretanto, em casos cuja forma é descrita por uma equação da reta, isto
é, a função matemática que descreve o comportamento de Y é linear em
X, podemos quantificar a força da associação.
Uma ferramenta precisa para medir a correlação entre duas variáveis, é
o Coeficiente de Correlação Linear de Pearson. Esse coeficiente é utili-
zado para quantificar a força da relação entre duas variáveis.
20/79
Coeficiente de Correlação Linear de Pearson
Para as variáveis X e Y, o coeficiente é denotado por rxy.
rxy é uma quantidade que varia no intervalo [−1, 1], isto é −1 ≤ rxy ≤ 1.
Calcula-se utilizando a seguinte expressão:
rxy =
1
n − 1
n∑
i=1
(
xi − x̄
sx
)(
yi − ȳ
sy
)
,
em que
• n é o número de registros coletados;
• sx é o desvio-padrão dos valores x;
• sy é o desvio-padrão dos valores y;
• x̄ é a média dos valores x;
• ȳ é a média dos valores y.
21/79
Observação
O uso do coeficiente rxy tem limitações importantes.
Uma vez que rxy mede a força de uma relação linear, não é apropriado
calcular rxy para dados com associações não-lineares.
É importante saber que valores discrepantes podem distorcer o valor de
rxy. Como consequência, se uma amostra de duas variáveis linearmente
associadas contém um outlier, então rxy não será uma medida confiável
da força dessa relação.
Em resumo, o cálculo de rxy é aplicável a conjuntos de dados bivariados,
com associação sabidamente linear e que não têm outliers.
22/79
Observação
A força da assocociação está relacionada com a proximidade dos extre-
mos do intervalo [−1, 1].
−1 0 1
Forte Fraca
CORRELAÇÃO NEGATIVA
ForteFraca
CORRELAÇÃO POSITIVA
Tendo isso em mente, é uma boa prática esboçar um gráfico de dispersão
para verificar essas ressalvas antes de calcular rxy.
Fazer uso de um gráfico de dispersão também é útil porque nos permite
especular qual pode ser o valor de rxy antes de calculá-lo.
23/79
Exemplo
As rendas anuais, em milhares de reais (Y) de 21 profissionais foram re-
gistradas, assim como o tempo, em anos, dedicado aos estudos (X). Os
dados são mostrados no tabela a seguir.
X Y X Y
6 22.6 7 26.5
11 62.3 5 16.7
3 7.9 9 39.9
2 17.7 9 30.8
7 51.6 3 19.1
5 21.5 8 32.0
4 19.3 4 2.2
10 38.6 10 47.4
9 38.6 12 49.4
7 35.9 14 68.0
6 43.3
Construa um gráfico de disper-
são para os dados.
Comente sobre a correlação en-
tre as rendas anuais e a escolari-
dade dos profissionais e estime
o valor de rxy, use-o para comen-
tar sobre essa associação.
24/79
Exemplo
0
20
40
60
5 10
Tempo (em anos) dedicados aos estudos
R
en
da
 a
nu
al
 (
em
 m
ilh
ar
es
 d
e 
re
ai
s)
Os dados mostram o que pa-
rece ser uma associação li-
near, de força moderada.
25/79
Exemplo
Precisamos calcular as médias e desvios-padrões amostrais para X e Y.
x̄ = 6 + 11 + · · ·+ 12 + 1421 ≈ 7,1905
sx =
√
(6 − 7,1905)2 + · · ·+ (14 − 7,1905)2
20 ≈ 3,2034
ȳ = 22,6 + 62,3 + · · ·+ 49,4 + 68,021 ≈ 26,8381
sy =
√
(6 − 7,1905)2 + · · ·+ (14 − 7,1905)2
20 ≈ 14,2846
26/79
Exemplo
Agora, dado que x̄ = 7,1905, sx = 3,2034, ȳ = 26,8381 e sy = 14,2846,
podemos calcular o coeficiente rxy.
rxy =
1
n − 1
n∑
i=1
(
xi − x̄
sx
)(
yi − ȳ
sy
)
=
1
20
[(
6 − 7,1905
3,2034
)(
22,6 − 26,8381
14,2846
)
+ · · ·+
(
14 − 7,1905
3,2034
)(
68,0 − 26,8381
14,2846
)]
≈ 0,8154
27/79
Exemplo
O coeficiente de correlação linear de Pearson é dado por rxy = 0,8154, o
que indica a existência de uma forte associação linear entre a renda e
escolaridade.
Dizemos que, quanto maior for a escolaridade, esperamos que a renda
anual do profissional também seja maior.
28/79
Correlação e Causalidade
No exemplo anterior, obtivemos rxy = 0,8154. Embora tenhamos o “di-
reito” de dizer que existe um forte associação entre a renda anual e a
escolaridade, não podemos afirmar que a escolaridade faz com que a
renda de um profissional seja alta (relação de causa-efeito).
A escolaridade pode ajudar a ter uma renda maior, mas muitos outros
fatores entram em jogo; por exemplo, disciplina, boa oratória, pensa-
mento empreendedor e assim por diante.
Desse modo, a identificação de um alto grau de correlação entre duas
variáveis fornece questionamentos e sinaliza a necessidade de uma in-
vestigação mais detalhada, como um procedimento experimental, que
nos retorna respostas.
29/79
Interpretação
A correlação não nos dá qualquer base para
afirmar que uma variável causa ou não valores
particulares em outra variável.
30/79
Coeficiente de Determinação
O coeficiente de determinação, denotado por r2xy é calculado ao tomar-
mos o quadrado do Coeficiente de Correlação Linear de Pearson, rxy.
O valor do coeficiente de determinação varia no intervalo [0, 1]; Isto é,
0 ≤ r2xy ≤ 1.
1. O coeficiente de determinação é útil pois ele nos diz a
proporção de variação em uma variável que pode ser explicada
pela variação na outra.
2. O coeficiente de determinação fornece uma medida de quão
bem a regra linear que associa duas variáveis prevê o valor de Y
quando temos acesso somente ao valor de X.
31/79
Exemplo
Considere o exemplo da associação entre a renda anual e a escolaridade
dos profissionais. Sabendo que o coeficiente de correlação é aproxima-
damente igual a 0,8154, que informação adicional o coeficiente de deter-
minação nos traz?
Temos que
r2xy = (rxy)2 ≈ (0,8154)2 ≈ 0,6649 = 66,49%.
Isso nos dá um indicativo de que em torno de 66,49% da variabilidade
da renda anual pode ser explicada com auxílio da variação observada
na escolaridade.
Podemos afirmar que a escolaridade é um fator importante para prever-
mos a renda anual do profissional.
32/79
Observação
Notem que não falamos nada sobre os métodos que
hipotetizam sobre a forma da associação.
Os Modelos de Regressão se saem muito bem nesse
quesito!
33/79
Nova Contextualização
A Regressão Linear Simples é um método estatístico que estuda e su-
mariza relações entre duas variáveis contínuas (quantitativas):
Uma das variáveis, denotada por x, é dita ser a variável preditora,
explicativa, ou ainda, variável independente.
A outra variável, denotada por y, é conhecida como variável res-
posta, ou variável dependente.
NOTA – O termo “simples” nos diz que o estudo é realizado sobre apenas
uma variável preditora. Na situação em que mais do que uma variável
preditora é estudada, utilizamos o termo “múltipla”.
34/79
Nova Contextualização
Existem dois tipos de relação, que podem ser apresentadas por duas
variáveis: determinística e estatística. Nossos estudos se concentrarão
nesta última.
Relação Determinística
A equação que relaciona as duas variáveis descreve exatamente o com-
portamento de uma com a variação da outra.
EXEMPLOS
A relação entre graus Celcius (x) e Fahrenheit (y):
y = 95 x + 32
A relação entre o raio (x) e a circunferência (y):
y = 2πx
35/79
Nova Contextualização
Existem dois tipos de relação, que podem ser apresentadas por duas
variáveis: determinística e estatística. Nossos estudos se concentrarão
nesta última.
Relação Estatística
A relação entre as variáveis não é perfeita. A equação que relaciona as
duas variáveis não relaciona valores de x a valores exatos de y.
EXEMPLOS
Altura e peso: Quando a altura aumenta, esperamos que o peso
também aumente, mas não sabemos exatamente quanto;
Percentual de álcool no sangue e o consumo de álcool: Quando
consumimos álcool esperamos que seu percentual no sangue tam-
bém aumente, mas não sabemos exatamente quanto.
36/79
Ex. ( Seguros ): Gráfico de Dispersão
Considere 10 registros do par de variáveis (x, y), em que:
Valordo seguro do automóvel em reais (y); e
Valor do automóvel em milhares de reais (x).
(62, 2032); (64, 1936); (67, 2272); (68, 2512); (69, 2592);
(72, 2496); (72, 2704); (73, 2640); (72, 2896); (76, 3328)
Observe o gráfico de dispersão para essas duas variáveis.
37/79
Ex. ( Seguros ): Gráfico de Dispersão
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
38/79
Observação
Poderíamos nos antecipar, afirmando que quanto maior for o valor do
veículo, maior será o valor do seguro? O gráfico de dispersão embasa
essa suposição!
O gráfico exibe uma tendência, é fato, e ele também exibe uma disper-
são, o que nos dá a percepção de que o valor do seguro não será de-
terminado exatamente pelo valor do veículo. Lembrem-se, estamos li-
dando com uma relação estatística e não determinística!
É razoável pensarmos que o aumento no valor do seguro é diretamente
proporcional ao aumento do valor do veículo? Se isso for verdade, essa
relação poderia ser bem descrita pela equação da reta
y = β0 + β1x.
39/79
O melhor ajuste linear
Qual dessas retas você acredita ser uma boa representação para a
relação que vemos?
y = − 3431.66 + 86.08 x
y = − 3431.66 + 84.93 x
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
40/79
O melhor ajuste linear
Como somos capazes de identificar a reta que melhor se ajusta aos
dados que temos?
Para isso, vamos precisar definir algumas notações importantes!
Notações usuais
• yi denota a resposta observada no i-ésimo registro;
• xi denota o preditor observado no i-ésimo registro;
• ŷi denota a resposta predita, ou valor esperado, para o i-ésimo registro.
Nesse contexto, a reta ajustada seria denotada por
ŷi = β0 + β1xi, com i = 1, . . . ,n.
41/79
Ex. ( Seguros ): Retas Propostas
Vamos avaliar as retas propostas anteriormente e, com propósito ilus-
trativo, note o quinto registro que observamos (x5, y5) = (69, 2592).
ŷ = − 3431.66 + 86.08 x
ŷ = − 3431.66 + 84.93 x
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
42/79
Ex. ( Seguros ): Retas Propostas
Se utilizássemos ambas as retas para “prever” o valor de y5, obteríamos
como resultados: ŷ5 ≈ 2508,2 e ŷ5 ≈ 2428,8.
ŷ = − 3431.66 + 86.08 x
ŷ = − 3431.66 + 84.93 x
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
43/79
Ex. ( Seguros ): Retas Propostas
Obviamente, as predições não foram perfeitas, existe um erro de predi-
ção associado a elas. De fato, erramos 83,8 e 163,2, de acordo com a reta
utilizada e para esse ponto, especificamente.
83.8163.2
ŷ = − 3431.66 + 86.08 x
ŷ = − 3431.66 + 84.93 x
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
44/79
Observação
Note que, se fixarmos uma das retas, o erro de predição depende de
cada registro observado.
Se o valor anual do seguro de um carro que vale R$ 69000,00 fosse des-
conhecido por nós, poderíamos utilizar uma das equações para predizer
esse valor. Nesse caso, o tamanho do erro de predição dependeria da
reta escolhida.
Erro de Predição
Definimos como erro de predição, a diferença entre o que observamos e
o que esperávamos observar, com base em nossa predição.
εi = yi − ŷi.
45/79
Observação
Com esse contexto em mente, podemos vislumbrar um critério apropri-
ado para a escolha da melhor equação, isto é, o melhor ajuste linear.
O Melhor Ajuste Linear
Dizemos que a reta que se ajusta melhor aos dados é aquela em que os
“n” erros de predição (um para cada registro observado), são tão peque-
nos quanto possamos ter.
Muito bem, o critério está idealizado, precisamos organizar essas ideias
matematicamente!
46/79
O melhor ajuste linear
Uma maneira de pensar em todos os erros de predição simultanea-
mente, é pensar na soma de todos eles (particularmente, o quadrado
deles), isto é
Q =
n∑
i=1
ε2i =
n∑
i=1
(yi − ŷi)2 =
n∑
i=1
(yi − β0 − β1xi)2.
Se a equação que desejamos ajustar tem a forma ŷi = β0 + β1xi, preci-
samos encontrar os valores de β0 e β1 que tornam mínima a função Q.
Esse procedimento é conhecido como Critério de Mínimos Quadrados.
47/79
Observação
Note que, se não tomarmos o quadrado dos erros de predição, ao so-
marmos erros positivos e negativos, invariavelmente a soma resultaria
em zero.
Além disso, a ideia de tomar o quadrado entre “observado” e “esperado”
é bem conhecida por nós, a própria variância é calculada desse modo,
e tem muitos pontos positivos nisso!
Agora que nos familiarizamos com o critério dos Mínimos Quadrados,
vamos retornar às nossas retas propostas.
48/79
Ex. ( Seguros ): Escolha entre as Retas
À luz do que foi dito anteriormente,
qual dessas retas seria a melhor escolha?
y = − 3431.66 + 86.08 x
y = − 3431.66 + 84.93 x
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
49/79
Ex. ( Seguros ): Escolha entre as Retas
Vamos sistematizar nossa escolha:
x y ŷ εi ε2 ŷ εi ε2
62 2032 1905.6 126.4 15979.6 1834.3 197.7 39089.4
64 1936 2077.8 -141.8 20095.6 2004.2 -68.2 4645.7
67 2272 2336.0 -64.0 4097.7 2259.0 13.0 169.0
68 2512 2422.1 89.9 8082.4 2343.9 168.1 28258.3
69 2592 2508.2 83.8 7025.3 2428.8 163.2 26623.6
72 2496 2766.4 -270.4 73136.1 2683.6 -187.6 35207.6
72 2704 2766.4 -62.4 3898.4 2683.6 20.4 414.7
73 2640 2852.5 -212.5 45165.4 2768.6 -128.6 16530.6
72 2896 2766.4 129.6 16786.6 2683.6 212.4 45098.1
76 3328 3110.8 217.2 47186.4 3023.4 304.6 92796.0
SOMA 241453.5 288834.0
50/79
Observação
Tendo como base o critério dos mínimos quadrados, podemos concluir
que a equação que melhor se ajusta aos dados é
ŷ = −3431.66 + 86.08x ?
Como vimos, a soma do quadrado dos erros para a reta vermelha doi
igual a 241453.5, enquanto para a reta verde foi 288834.0.
Mas o que podemos dizer sobre qualquer outra reta, que sequer foi con-
siderada?
51/79
O melhor ajuste linear
A proposta, então, é avaliar dentre todas as infinitas retas possíveis,
aquela que minimiza a soma de erros ao quadrado!
Para nos poupar de contas, alguém já fez esse trabalho por nós, e obteve
expressões fechadas para os dois parâmetros que indexam uma equa-
ção da reta, o intercepto e a inclinação (ou coeficiente angular).
52/79
O melhor ajuste linear
Considerando a função Q, definida anteriormente
Q =
n∑
i=1
(yi − β0 − β1xi)2,
Estimadores dos coeficientes
Os valores (β̂0, β̂1) que minimizam Q, dentre todos os possíveis valores
(β0, β1) são expressos por
β̂1 =
∑n
i=1(xi − x)(yi − y)∑n
i=1(xi − x)2
e β̂0 = y − β1x.
53/79
Observação
Em muitos momentos, dizemos que a equação resultante, ŷi = β0 +β1xi,
é conhecida como reta de regressão de mínimos quadrados.
Notem que, para estabelecer esse critério, não fizemos qualquer supo-
sição sobre nossos dados, além daquela que diz que o relacionamento
entre y e x pode ser expresso na forma de uma reta.
Em um contexto prático, não nos preocupamos com as fórmulas que
determinam β̂0 e β̂1. Eles serão calculados computacionalmente.
54/79
Ex. ( Seguros ): Estimativas dos coeficientes
Uma saída usual dos softwares apresenta como resultado, pelo menos,
duas informações: a estimativa pontual dos coeficientes e o respectivo
erro-padrão (no estrito sentido que temos estudado, falaremos sobre
isso adiante).
Estimativa Erro-padrão
Intercepto -3431.66 929.67
Inclinação 85.9347 13.353
Com esses resultados, podemos fazer algumas inferências bem interes-
santes!
55/79
Que informações extraímos desse modelo?
Muito embora nós tenhamos visto como os coeficientes da regressão
podem ser estimados, ainda não conversamos sobre o que podemos
aprender com eles!
Uma das coisas que eles nos possibilitam, e que já falamos brevemente,
é a realizaçãode predições de respostas futuras. Esse talvez seja o uso
mais comum e vem de maneira direta:
O valor anual médio do seguro de carros que valem R$ 69000,00, é
dado por: ŷ ≈ −3431.66 + 85.93 × 69 ≈ 2497.83.
O valor anual médio do seguro de carros que valem R$ 60000,00,
é dado por: ŷ ≈ −3431.66 + 85.93 × 60 ≈ 1724.42.
Entretanto, vamos introduzir um pouco da Perspectiva Estatística, com
isso conseguiremos extrair ainda mais informações!
56/79
A Perspectiva Estatística
µY | x = E(Y | x) = − 3431.663 + 85.935 x
Yi = − 3431.663 + 85.935 x + εi
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
57/79
A Perspectiva Estatística
Do ponto de vista estatístico, nós entendemos que a reta de regressão
estimada representa o valor médio da resposta aleatória Y, condicio-
nada a um nível específico da variável preditora X, isto é, X = x.
Nesse sentido, entendemos Y como uma variável aleatória e modelamos
o seu valor esperado quando condicionado a um valor de X. Isto é
µY|x = E(Y|x) = β0 + β1x,
e,
Yi = β0 + β1x + εi, com i = 1, . . . ,n.
Vamos entender isso com mais atenção!
58/79
A Perspectiva Estatística
Vamos focar em um grupo muito específico de veículos, uma subpopu-
lação, particularmente daqueles que valem R$ 72000,00.
Certamente podem existir muitos valores de seguros associados a esse
mesmo valor de veículo. Mas o que o nosso modelo nos diria sobre isso.
Vamos ver graficamente!
59/79
A Perspectiva Estatística 60/79
Observação
Note que, nesse exemplo em particular, observamos medidas de erros
distintas, para um mesmo nível da variável preditora.
Reflita sobre o que chamamos de erro de predição (εi), esperamos que
eles se concentrem em torno de zero, eventualmente “errando para cima”
(e, portanto superestimando o valor do seguro) e outras vezes “errando
para baixo” (o que acaba por subestimar o valor do seguro).
A verdade, é que nós esperamos que eles variem de maneira aleatória
em torno do zero e dentro de uma faixa que possamos conhecer.
61/79
A Perspectiva Estatística 62/79
A Perspectiva Estatística
Esse entendimento é decorrente de algumas suposições bem específicas
para esse modelo.
Com essas suposições, nós introduzimos um padrão de aleatoriedade
no modelo.
Suposições do modelo de regressão linear simples
A relação descrita entre x e y é linear nos coeficientes β0 e β1;
Os erros de predição εi são independentes entre si;
Os erros de predição εi, em cada valor da variável preditora xi, são
normalmente distribuidos;
Os erros de predição εi, em cada valor da variável preditora xi, apre-
sentam a mesma variância (denotada por σ2).
63/79
Observação
A introdução desse padrão de aleatoriedade tem consequência direta
sobre a capacidade do modelo, e traz uma percepção muito interessante
sobre como interpretamos os coeficientes β0 e β1.
Algumas consequências diretas da suposição ε ∼ Normal(0, σ2), são:
A variável resposta Y, condicionada aos valores de x, também deve
ter distribuição normal, particularmente
Y ∼ Normal(β0 + β1x; σ2);
Os estimadores (β̂0, β̂1) de (β0, β1), têm distribuição normal.
64/79
Observação
Essas questões nos permitem fazer inferência diretamente sobre a res-
posta e também sobre o efeito quantificado da variável preditora.
Tenham em mente que:
β1 (a inclinação da reta de regressão) quantifica quão rápido o valor
médio da variável resposta cresce ou decresce;
β̂1 (o estimador de β1) carrega a noção de incerteza decorrente do
processo aleatório;
Utilizamos β̂1 para avaliar se a associação de x e Y é estatistica-
mente significativa. Fazemos isso com base no erro-padrão obtido
no processo de estimação!
65/79
Ex. ( Seguros ): Estimativa dos coeficientes
A saída dos softwares também costumam apresentar outros resultados
muito interessantes, particularmente, retornam os intervalos de confi-
ança já calculados para os coeficientes estimados
Vamos visualizar as saidas para o nosso exemplo:
Intervalo de Confiança (95%)
Estimativa Erro-padrão Estatística t Pr(> |t|) Limite Inferior Limite Superior
Intercepto -3431.66 929.67 -3.69 0.006 -5575.49 -1287.84
Inclinação 85.93 13.35 6.44 <1e-3 55.14 116.73
Para o propósito deste curso, nossa atenção se voltará somente às colu-
nas: Estimativa, Erro-Padrão e Intervalo de Confiança. Vocês entende-
rão detalhes das demais saídas (inclusive outras não reportadas aqui)
em outros cursos não introdutórios.
66/79
Interpretação
Uma vez que o intervalo de confiança para β1 (a inclinação) contém va-
lores estritamente positivos, [55.14, 116.73], entendemos que o valor do
automóvel e o valor do seguro são diretamente associados.
Nesse contexto, podemos inferir que o valor do preço do seguro, au-
menta em torno de R$ 85.93 para cada aumento de R$ 1000.00 no valor
do automóvel, variando entre R$ 55.14 e R$ 116.73 com 95% de confianca.
67/79
Observação
Antes de interpretarmos o modelo ajustado, devemos nos atentar com
algumas questões importantes. Lembrem-se que, ao fazermos a supo-
sição de que ε ∼ Normal(0, σ2), uma série de implicações ocorreram.
Para que possamos fazer uso das vantagens advindas dessa suposição,
isto é, interpretar a reta de regressão sob A Perspectiva Estatística, pre-
cisamos avaliar se as suposições que fizemos se verificam.
Nesse sentido, utilizamos uma série de ferramentas que, em conjunto,
nos dão indicativos sobre a qualidade e validade do nosso modelo, quando
confrontado com as suposições feitas antes do ajuste.
68/79
Diagnóstico do Modelo
Abordaremos nesse curso algumas ferramentas gráficas para a avalia-
ção do modelo, mas é muito importante ressaltar que, utilizar apenas
elas não é uma estratégia interessante.
Em cursos posteriores, vocês terão contato com algumas ferramentas
numéricas com embasamento estatístico para discriminar o comporta-
mento esperado de um comportamento inadequado.
69/79
Diagnóstico:
Resíduos vs. Obs., Estimativa e Preditora
Nesses gráficos de dispersão, nós especulamos sobre o comportamento
dos resíduos de modo geral, de acordo com o índice de observação, de
acordo com os valores da variável resposta e de acordo com os valores
da variável preditora.
Esperamos observar resíduos aleatórios em torno de zero, variando em
uma faixa fixa (cuja amplitude depende da estimativa de σ2, a variância
dos erros) independente do índice, dos valores da variável resposta ou
dos valores da preditora.
Não esperamos ver qualquer tipo de padrão nesses gráficos.
70/79
Ex. ( Seguros ):
Resíduos vs. Obs., Estimativa e Preditora
71/79
Interpretação
Os três gráficos apresentam comportamentos aleatórios em torno do
zero e concentram-se na área central, nos intervalos [−σ̂, σ̂] e [−2σ̂, 2σ̂].
Não há padrão perceptível em nenhum deles.
Com isso, temos indicativos de que os resíduos são independentes e
que apresentam variância constante.
72/79
Diagnóstico:
Gráfico Quantil-Quantil
Esse é um gráfico que compara a distribuição Normal teórica com as
estimativas que fizemos do erro aleatório do modelo, os resíduos.
Para isso, plotamos no eixo horizontal os quantis teóricos da distribui-
ção normal e no eixo vertical os quantis observados (os resíduos orde-
nados).
Estabelecemos uma reta de referência e, como resultado, esperamos
que os resíduos se concentrem em torno dela. Desvios muito expressi-
vos nos dão indícios de não-normalidade.
Essa ferramenta também traz várias outras informações interessantes,
mas não serão abordadas nesse curso.
73/79
Ex. ( Seguros ):
Gráfico Quantil-Quantil
−200
−100
0
100
200
300
−1 0 1
Quantis Teóricos
Q
ua
nt
is
 A
m
os
tr
ai
s
74/79
Interpretação
Podemos ver que os pontos variam em torno da reta de referência, o
que fornece um indicativo da normalidade dos resíduos.
75/79
Exposição do Modelo Ajustado
Uma vez que o modelo apresente bons indicativos de sua qualidade,
podemos, expor e interpretar a relação entre as variáveis x e Y.
Nesse contexto, considerando o nosso exemplo, dizemos queo com-
portamento médio do valor anual do seguro em reais pode ser expresso
como uma função do valor do veículo em milhares de reais, e essa fun-
ção é dada por
Ŷ = −3431.66 + 85.94 x, para qualquer valor de x em [62, 76].
Dados os nossos resultados, dizemos também que a associação entre
as duas variáveis é linear, direta e estatisticamente significativa.
76/79
Exposição do Modelo Ajustado
2000
2500
3000
64 68 72 76
Valor do veículo em milhares de reais (x)
V
al
or
 a
nu
al
 d
o 
se
gu
ro
 e
m
 r
ea
is
 (
y)
77/79
Resumo do Tópico
REGRESSÃO LINEAR SIMPLES
▶ Relações entre variáveis
Forma
Direção
Força.
▶ Coeficiente de Correlação Linear de Pearson
▶ Correlação e Causalidade
▶ Coeficiente de Determinação
▶ Tipos de Relações entre variáveis
Determinística
Estatística.
▶ O Melhor Ajuste Linear
▶ A Perspectiva Estatística
Suposições do Modelo
Diagnóstico do Modelo
Interpretação e Exposição do Modelo.
78/79
Obrigado!
Espero que
tenham
aproveitado!
1 ESTRUTURAS DESCRITIVAS
2 SEGMENTAÇÃO DE DADOS
3 COMPARAÇÕES ESTATÍSTICAS
4 ESTIMAÇÃO
5 REGRESSÃO LINEAR SIMPLES
	ESTRUTURAS DESCRITIVAS
	SEGMENTAÇÃO DE DADOS
	COMPARAÇÕES ESTATÍSTICAS
	ESTIMAÇÃO
	REGRESSÃO LINEAR SIMPLES
	Resumo do Tópico
	Contexto
	Coeficiente de Correlação Linear de Pearson
	Nova Contextualização
	O Melhor Ajuste Linear
	A Perspectiva Estatística
	Resumo do Tópico
	Obrigado! Espero que tenham aproveitado!
	2.StepRight: 
	2.StepLeft: 
	anm2: 
	2.2: 
	2.1: 
	2.0: 
	1.StepRight: 
	1.StepLeft: 
	anm1: 
	1.8: 
	1.7: 
	1.6: 
	1.5: 
	1.4: 
	1.3: 
	1.2: 
	1.1: 
	1.0: 
	0.StepRight: 
	0.StepLeft: 
	anm0: 
	0.3: 
	0.2: 
	0.1: 
	0.0:

Continue navegando