4 1 - Regressão Linear

•

UCAM

Maycon Carbone

28/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 26 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Metodos Quantitativos Aplicados

1.283 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Regressão Linear
APRESENTAÇÃO
Nesta Unidade de Aprendizagem abordaremos um método numérico para ajuste de curvas
chamado regressão linear.
Bons estudos.
Ao final desta Unidade de Aprendizagem, você deve apresentar os seguintes aprendizados:
Definir regressão linear.•
Reconhecer a diferença entre regressão e interpolação.•
Utilizar a regressão linear para ajustar uma reta a um conjunto de dados.•
DESAFIO
João e Sara são alunos de Cálculo Numérico. Esta semana eles estavam estudando a regressão
linear. João compreendeu que a regressão linear é um método de ajuste de curvas em que se
procura uma reta que se ajusta à tendência dos dados sem necessariamente passar por todos os
pontos. No entanto, ele não entendeu quando devemos utilizar o método. Então, questionou a
sua colega:
- Sara, por que, no caso da figura a seguir, em que tenho 7 pontos, o professor pediu para utilizar
a regressão linear, que não passa por todos os pontos, e não a interpolação polinomial com um
polinômio de grau 6, que passaria por todos os pontos dados?
Sabendo que Sara respondeu corretamente ao questionamento de João, escreva o que ela pode
ter lhe respondido.
INFOGRÁFICO
Acompanhe o infográfico com o conteúdo abordado nesta Unidade de Aprendizagem.

CONTEÚDO DO LIVRO
Acompanhe um trecho da obra Métodos Numéricos para a Engenharia, de Steven Chapra e
Raymond Canale, que aborda a regressão linear.
Boa leitura.
driller.vmi
Text Box
João, visualmente podemos perceber que um polinômio de grau 7 passaria por todos os pontos, mas também podemos perceber que há uma reta que, embora não passe por todos os pontos, representa a tendência geral dos dados.

Quando lidamos com dados experimentais, eles podem exibir erros significativos. Se um polinômio interpolador de grau 6 for ajustado a esses dados, ele irá passar exatamente por todos os pontos. Entretanto, por causa da variabilidade dos dados, a curva vai oscilar muito no intervalo entre os pontos.
Assim, uma estratégia mais adequada para tais casos seria determinar uma função aproximadora que se ajuste à forma ou tendência geral dos dados sem necessariamente passar pelos pontos individuais, como a reta da figura acima, que caracteriza a tendência geral dos dados sem passar por nenhum dos pontos particulares.
driller.vmi
Stamp
Escrito por autores renomados, Métodos Numéricos para Engenharia
apresenta, de forma inovadora e acessível, uma extensa gama de
métodos numéricos, como o tratamento de otimização e de equações
diferenciais. Com explicações simples e voltadas para a prática, conta
com excelentes exemplos, estudos de caso e problemas elaborados de
acordo com a prática da engenharia, incluindo áreas emergentes
como bioengenharia.
Esta edição mantém seu foco no uso apropridado de ferramentas
computacionais, trazendo discussões meticulosas sobre seus alicerces
matemáticos. Também fornece pseudocódigos para os algoritmos dos
métodos numéricos e uma visão geral de pacotes de software
populares, como MATLAB, Excel e MathCAD.
Ganhador do prêmio de melhor livro-texto da American Society for
Engineering Education, este é um recurso indispensável para os cursos
de Engenharia e outros da área de Ciências Exatas, como Química,
Física, Matemática e Computação.
CHAPRA, S. C.; CANALE, R. P.
Métodos Numéricos para Engenharia – 7.ed.
ANTON, H.; BIVENS, I. C.; DAVIS, S. L.
Cálculo – Vol. 1 – 10.ed.
Cálculo – Vol. 2 – 10.ed.
ANTON, H.; RORRES, C.
Álgebra Linear com Aplicações – 10.ed.
CHAPRA, S. C.
Métodos Numéricos Aplicados com MATLAB para Engenheiros e
Cientistas – 3.ed.
ÇENGEL, Y. A.; PALM III, W. J.
Equações Diferenciais
DORNELLES FILHO, A. A.
Fundamentos de Cálculo Numérico
GILAT, A.
MATLAB com Aplicações para Engenharia – 4.ed.
GILAT, A.; SUBRAMANIAM, V.
Métodos Numéricos para Engenheiros e Cientistas
PALM III, W. J.
Introdução ao MATLAB para Engenheiros – 3.ed.
ROGAWSKI, J.
Cálculo – Vol. 1
Cálculo – Vol. 2
ZILL, D. G.; CULLEN, M.
Matemática Avançada para Engenharia – Vol. 1 – 3.ed.
Matemática Avançada para Engenharia – Vol. 2 – 3.ed.
Matemática Avançada para Engenharia – Vol. 3 – 3.ed.
C467m Chapra, Steven C.
Métodos numéricos para engenharia [recurso eletrônico] /
Steven C. Chapra, Raymond P. Canale ; tradução: Helena Maria
Avila de Castro ; revisão técnica: Antonio Pertence Júnior.
– 7. ed. – Porto Alegre : AMGH, 2016.
Editado como livro impresso em 2016.
ISBN 978-85-8055-569-1
1. Engenharia. 2. Computação. I. Canale, Raymond P. II.
Título.
CDU 62:004.4
Catalogação na publicação: Poliana Sanchez de Araujo – CRB 10/2094
Para
Margaret e Gabriel Chapra
Helen e Chester Canale
Iniciais_ed_eletronica.indd 2 08/04/16 17:23
capítulo 17
RegRessão poR MíniMos
QuadRados
Quando um erro substancial estiver associado aos dados, a interpolação polinomial é
inapropriada e pode produzir resultados insatisfatórios quando usada para prever valo
res in termediários. Dados experimentais, em geral, são desse tipo. Por exemplo, a Fi
gura 17.1a mostra sete pontos de dados obtidos experimentalmente exibindo variações
significativas. A inspeção visual dos dados sugere uma possível relação entre y e x. Isto
é, a tendência geral indica que valores mais altos de y estão associados a valores mais
altos de x. Agora, se um polinômio interpolador de grau seis for ajustado a esses dados
(Figura 17.1b), ele irá passar exatamente por todos os pontos. Entretanto, devido à va
riabilidade dos dados, a curva vai oscilar muito no intervalo entre os pontos. Em parti
cular, os valores interpolados em x = 1,5 e x = 6,5 parecem estar bem além do intervalo
sugerido pelos dados.
Uma estratégia mais adequada para tais casos seria determinar uma função aproxi
madora que ajustasse a forma ou tendência geral dos dados sem necessariamente passar
pelos pontos individuais. A Figura 17.1c ilustra como uma reta pode ser usada para ca
racterizar a tendência geral dos dados sem passar por nenhum dos pontos particulares.
Uma forma de determinar a reta na Figura 17.1c é inspecionar visualmente os pon
tos marcados e então esboçar a “melhor” reta pelos pontos. Embora tal abordagem “a
olho” pareça atrativa do ponto de vista do bom senso e seja válida para cálculos “infor
mais”, ela é deficiente porque é arbitrária. Ou seja, a menos que os pontos definam
perfeitamente uma reta (em tal caso, a interpolação seria apropriada), analistas diferen
tes desenhariam retas diferentes.
Para remover essa subjetividade, deve ser desenvolvido algum critério para estabele
cer uma base para o ajuste. Uma forma de fazêlo é determinar a curva que minimize a
discrepância entre os dados e os pontos da curva. Uma técnica para conseguir esse ob
jetivo, chamada regressão por mínimos quadrados, será discutida no presente capítulo.
17.1 REGRESSÃO LINEAR
O exemplo mais simples de aproximação por mínimos quadrados é ajustar uma reta a
um conjunto de pares de observação: (x1, y1), (x2, y2), . . . , (xn, yn). A expressão mate
mática do ajuste por uma reta é
y 5 a0 1 a1x 1 e (17.1)
Capitulo_17.indd 402 18/03/16 16:27
17.1 RegRessão LineaR 403
onde a0 e a1 são coeficientes representando a intersecção com o eixo y e a inclinação,
respectivamente, e e é o erro ou resíduo entre o modelo e a observação, o qual pode ser
representado, depois de se reorganizar a Equação (17.1), por
e 5 y 2 a0 2 a1x
Portanto, o erro ou resíduo é a discrepância entre o valor verdadeiro de y e o valor
aproximado, a0 + a1x, previsto pela equação linear.
17.1.1 Critério para um “melhor” ajuste
Uma estratégia para ajustar uma “melhor” reta pelos dados seria minimizar o valor
absoluto da soma dos erros residuais para todos os dados disponíveis, como em

n
i51
n
i51
ei 5 (yi 2 a0 2 a1 xi)
(17.2)
onde n é o número total de pontos. Entretanto, esse é um critério inadequado, como
ilustrado pela Figura 17.2a, a qual descreve o ajuste de uma reta a dois pontos. Obvia
FIGURA 17.1
(a) Dados exibindo erros
significativos.(b) Ajuste
polinomial oscilando além
do intervalo dos dados. (c)
Resultado mais satisfatório
usando ajuste por mínimos
quadrados.
y
x
(a)
5
50
0
y
x
(b)
5
50
0
y
x
(c)
5
50
0
Capitulo_17.indd 403 18/03/16 16:27
404 CapíTuLo 17 RegRessão poR MíniMos QuadRados
mente, o melhor ajuste é a reta ligando os pontos. Entretanto, qualquer reta passando
pelo ponto médio do segmento que liga os pontos (exceto uma reta perfeitamente
vertical) resulta em um valor mínimo da Equação (17.2) igual a zero, pois os erros se
cancelam.
Portanto, outro critério lógico poderia ser minimizar a soma dos valores absolutos
das discrepâncias, como em
n
i51
|ei | 5
n
i51
|yi 2 a0 2 a1xi |
A Figura 17.2b ilustra por que esse critério também é inadequado. Para os quatro pontos
mostrados, qualquer reta caindo dentro das retas tracejadas minimizaria a soma dos
valores absolutos. Portanto, esse critério também não forneceria um melhor ajuste único.
Uma terceira estratégia para ajustar a melhor reta seria o critério minimax. Nessa
técnica, é escolhida a reta que minimize a distância máxima que um ponto individual
tenha da reta. Como descrito na Figura 17.2c, tal estratégia não é adequada para a re
gressão porque ela permite uma influência indevida a um “ponto discrepante”, isto é, a
um único ponto com um erro grande. Deve ser observado que o princípio minimax às
vezes é adequado para ajustar uma função simples a uma função complicada (Car
nahan, Luther e Wilkes, 1969).
Uma estratégia que supera as deficiências das abordagens anteriores é minimizar a
soma dos quadrados dos resíduos entre o y medido e o y calculado com o modelo linear

Sr 5 e
2
i 5 (yi, medido 2 yi, modelo)
2 5 (yi 2 a0 2 a1xi)
2
n
i51
n
i51
n
i51 (17.3)
FIGURA 17.2
Exemplos de alguns critérios
para “melhor ajuste” que são
inadequados para a regressão:
(a) minimizar a soma dos
resíduos, (b) minimizar a soma
dos valores absolutos dos
resíduos e (c) minimizar o erro
máximo por qualquer ponto
individual.
y
Ponto médio
Ponto fora
x
(a)
y
x
(b)
y
x
(c)
Capitulo_17.indd 404 18/03/16 16:27
17.1 RegRessão LineaR 405
Esse critério tem diversas vantagens, incluindo o fato de que ele fornece uma única reta
para um dado conjunto de dados. Antes de se discutir essas propriedades, será apresen
tada uma técnica para determinar os valores de a0 e a1 que minimizam a Equação
(17.3).
17.1.2 Ajuste por mínimos quadrados por uma reta
Para determinar os valores de a0 e a1, a Equação (17.3) é derivada com relação a cada
coeficiente:
Sr
a0
5 22
2
(yi 2 a0 2 a1xi)
Sr
a1
5 2 [(yi 2 a0 2 a1xi)xi]
Observe que simplificamos os símbolos de somatória; a menos que haja menção em
contrário, todas as somatórias irão de i = 1 a n. Igualando essas derivadas a zero, será
obtido um Sr mínimo. Se isso for feito, as equações podem ser expressas como
0 5 yi 2 a0 2 a1xi
0 5 yi xi 2 a0 xi 2 a1x
2
i
Agora, percebendo que Sa0 = na0, é possível expressar essas equações como um con
junto de duas equações lineares simultâneas em duas variáveis (a0 e a1):
na0 1 ( xi)a1 5 yi (17.4)
( xi)a0 1 ( x2i )a1 5 xi yi (17.5)
Essas são as chamadas equações normais. Elas podem ser resolvidas simultaneamente

a1 5
n xi yi 2 xi yi
n x2i 2 ( xi)2

(17.6)
Esse resultado pode, então, ser usado junto à Equação (17.4) para determinar

a0 5 y 2 a1x (17.7)
onde y̅ e x̅ são as médias de y e x, respectivamente.
EXEMPLO 17.1 Regressão linear
enunciado do problema. Ajuste uma reta aos valores de x e y nas primeiras duas co
lunas da Tabela 17.1.
solução. As seguintes quantidades podem ser calculadas:
n 5 7 xi yi 5 119,5 x
2
i 5 140
xi 5 28 x 5
28
7
7
5 4
yi 5 24 y 5
24
5 3,428571
Usando as Equações (17.6) e (17.7),
Capitulo_17.indd 405 18/03/16 16:27
406 CapíTuLo 17 RegRessão poR MíniMos QuadRados
a1 5
7(119,5) 2 28(24)
7(140) 2 (28)2
5 0,8392857
a0 5 3,428571 2 0,8392857(4) 5 0,07142857
TABELA 17.1 Cálculos para uma análise de erro do ajuste linear.
xi yi (yi – y
–) (yi − a0 − a1xi)2
1 0,5 8,5765 0,1687
2 2,5 0,8622 0,5625
3 2,0 2,0408 0,3473
4 4,0 0,3265 0,3265
5 3,5 0,0051 0,5896
6 6,0 6,6122 0,7972
7 5,5 4,2908 0,1993
S 24,0 22,7143 2,9911
Portanto, o ajuste por mínimos quadrados é
y = 0,07142857 + 0,8392857x
A reta, junto aos dados, é mostrada na Figura 17.1c
17.1.3 Quantificação do erro da regressão linear
Qualquer outra reta que não a calculada no Exemplo 17.1 resulta em uma soma maior
dos quadrados dos resíduos. Portanto, a reta é única e, em termos do critério escolhido
por nós, é a “melhor” reta pelos pontos. Diversas propriedades adicionais desse ajuste
podem ser elucidadas examinandose com mais detalhe a forma como os resíduos
foram calculados. Lembrese de que a soma dos quadrados é definida como [Equação
(17.3)]

Sr 5 e
2
i 5 (yi 2 a0 2 a1xi)
2
n
i51
n
i51 (17.8)
Observe a similaridade entre as Equações (PT5.3) e (17.8). No primeiro caso, o
quadrado do resíduo representava o quadrado da discrepância entre os dados e uma
única estimativa da medida da tendência central – a média. Na Equação (17.8), o qua
drado do resíduo representa o quadrado da distância vertical entre os dados e uma outra
medida da tendência central – a reta (Figura 17.3).
A analogia pode ser estendida ainda mais nos casos em que (1) a dispersão dos
pontos em torno da reta tem valor absoluto parecido ao longo de todo o intervalo dos
FIGURA 17.3
O resíduo na regressão linear
representa a distância vertical
entre os pontos dados e a reta.
y
yi
xi
a0 + a1xi
Medida
yi – a0 – a1xi
Re
ta
de
re
gre
ssã
o
x
Capitulo_17.indd 406 18/03/16 16:27
17.1 RegRessão LineaR 407
dados e (2) a distribuição desses pontos em torno da reta é normal. Podese demonstrar
que, se esses critérios forem satisfeitos, a regressão por mínimos quadrados fornecerá
as melhores estimativas (ou seja, as mais prováveis) de a0 e a1 (Draper e Smith, 1981).
Isso é chamado de princípio da probabilidade máxima em estatística. Além disso, se
tais critérios forem satisfeitos, um “desviopadrão” para a reta de regressão pode ser
determinado por [compare com a Equação (PT5.2)]

sy/x 5
Sr
n 2 2

(17.9)
onde sy/x é chamado de erro padrão da estimativa. O subscrito “y/x” indica que o erro
é para um valor previsto de y correspondente a um valor particular de x. Além disso,
observe que agora estamos dividindo por n − 2 porque duas estimativas provenientes
dos dados – a0 e a1 – foram usadas para calcular Sr; portanto, perdemos dois graus de
liberdade. Do mesmo modo como na discussão de desviopadrão em PT5.2.1, uma
outra justificativa para dividir por n − 2 é que não existe nenhuma “dispersão de dados”
em torno de uma reta ligando dois pontos. Portanto, nos casos nos quais n = 2, a Equa
ção (17.9) fornece um resultado infinito, sem sentido.
Exatamente como no caso do desviopadrão, o erropadrão da estimativa quantifica
a dispersão dos dados. Entretanto, sy/x quantifica a dispersão em torno da reta de re-
gressão, como mostrado na Figura 17.4b, em contraste com o desviopadrão original sy
que quantificava a dispersão em torno da média (Figura 17.4a).
Esses conceitos podem ser usados para quantificar “quão bom” é o ajuste. Isso é
particularmente útil para comparar diversas regressões (Figura 17.5). Para fazer isso,
voltamos aos dados originais e determinamos a soma total dos quadrados em torno da
média da variável dependente (no caso, y). Como no caso da Equação (PT5.3), essa
quantidade é denotada por St, que é o módulo do erro residual associado com a variável
dependente antes da regressão. Depois de fazer a regressão, podese calcular Sr, a soma
dos quadrados dos resíduos em torno da reta de regressão. Isso caracteriza o erro resi
dual que permanece depois da regressão. Portanto, às vezes ele é chamado de soma dos
quadrados inexplicável. A diferença entre as duas quantidades, St − Sr, quantifica a
melhora ou a redução de erro decorrente da descriçãodos dados em termos de uma
reta, em vez de um valor médio. Como o módulo dessa quantidade depende da escala,
a diferença é normalizada por St para fornecer

r2 5
St 2 Sr
St

(17.10)
onde r2 é chamado de coeficiente de determinação e r é o coeficiente de correlação
(= √r2
—
). Para um ajuste perfeito, Sr = 0 e r = r2= 1, significando que a reta explica 100%
da variação dos dados. Para r = r2 = 0, Sr = St e o ajuste não representa nenhuma
FIGURA 17.4
Dados de regressão mostrando
(a) a dispersão dos dados em
torno da média da variável
dependente e (b) a dispersão
dos dados em torno da reta de
melhor ajuste. A redução na
dispersão ao ir de (a) para (b),
como indicada pelas curvas em
forma de sino à direita,
representa a melhora decorrente
da regressão linear.
(a) (b)
Capitulo_17.indd 407 18/03/16 16:27
408 CapíTuLo 17 RegRessão poR MíniMos QuadRados
melhora. Uma formulação alternativa para r que é mais conveniente para implementa
ção computacional é

r 5
noxi yi 2 (oxi)(oyi)
nox2i 2 (oxi)
2 noy2i 2 (oyi)
2

(17.11)
EXEMPLO 17.2 estimativa de erros para um ajuste linear por mínimos quadrados
enunciado do problema. Calcule o desviopadrão total, o erropadrão da estimativa e
o coeficiente de correlação para os dados do Exemplo 17.1.
solução. As somatórias são feitas e apresentadas na Tabela 17.1. O desviopadrão é
[Equação (PT5.2)]
sy 5
22,7143
7 2 1
5 1,9457
e o erropadrão da estimativa é [Equação (17.9)]
sy/x 5
2,9911
7 2 2
5 0,7735
Portanto, como sy/x < sy, o modelo de regressão linear tem mérito. A extensão da me
lhora é quantificada por [Equação (17.10)]
r 2 5
22,7143 2 2,9911
22,7143
5 0,868
ou
r 5 0,868 5 0,932
Esses resultados indicam que 86,8% da incerteza original foi explicada pelo modelo
linear.
FIGURA 17.5
Exemplos de regressões lineares
com erros residuais (a) pequenos
e (b) grandes.
y
x
(a)
y
x
(b)
Capitulo_17.indd 408 18/03/16 16:27
17.1 RegRessão LineaR 409
Antes de prosseguir para o programa computacional para a regressão linear, é pre
ciso fazer um alerta. Embora o coeficiente de correlação forneça uma medida cômoda
de quão bom é o ajuste, é preciso tomar cuidado para não associar a ele mais signifi
cado do que o devido. Apenas o fato de r estar “próximo” de 1 não significa que o ajuste
seja necessariamente “bom”. Por exemplo, é possível obter um valor relativamente alto
de r quando a relação subjacente entre y e x não for nem mesmo linear. Draper e Smith
(1981) forneceram diretrizes e material adicional relativos à avaliação dos resultados da
regressão linear. Além disso, no mínimo, você deveria sempre inspecionar um gráfico
dos dados junto a sua curva de regressão. Como descrito na próxima seção, os pacotes
de software incluem tais recursos.
17.1.4 Programa computacional para regressão linear
É relativamente trivial desenvolver um pseudocódigo para a regressão linear (Figura
17.6). Como já mencionado, uma opção para traçar os gráficos é fundamental para o
uso e a interpretação efetivos da regressão. Tais recursos estão incluídos nos pacotes
mais usados, como o software MATLAB e o Excel. Se a sua linguagem de programa
ção tiver recursos gráficos, é recomendável que você expanda seu programa para in
cluir um gráfico de y em função de x, mostrando tanto os dados quanto a reta de regres
são. A inclusão desse recurso vai aumentar em muito a utilidade do programa nos
contextos de resolução de problemas.
EXEMPLO 17.3 Regressão linear usando o computador
enunciado do problema. Podese usar um software baseado na Figura 17.6 para resol
ver um problema de teste de hipótese associado com o paraquedista em queda livre
discutido no Capítulo 1. Um modelo matemático teórico para a velocidade do paraque
dista foi dado pelo seguinte [Equação (1.10)]
(t) 5
gm
c
(1 2 e(2c m)t)
FIGURA 17.6
Algoritmo para a regressão
linear.
SUB Regress(x, y, n, al, a0, syx, r2)
sumx 5 0: sumxy 5 0: st 5 0
sumy 5 0: sumx2 5 0: sr 5 0
DOFOR i 5 1, n
sumx 5 sumx 1 xi
sumy 5 sumy 1 yi
sumxy 5 sumxy 1 xi*yi
sumx2 5 sumx2 1 xi*xi
END DO
xm 5 sumx/n
ym 5 sumy/n
a1 5 (n*sumxy 2 sumx*sumy)/(n*sumx2 2 sumx*sumx)
a0 5 ym 2 a1*xm
DOFOR i 5 1, n
st 5 st 1 (yi 2 ym)2
sr 5 sr 1 (yi 2 a1*xi 2 a0)2
END DO
syx 5 (sr/(n 2 2))0.5
r2 5 (st 2 sr)/st
END Regress
Capitulo_17.indd 409 18/03/16 16:27
410 CapíTuLo 17 RegRessão poR MíniMos QuadRados
onde υ é a velocidade (m/s), g é a constante gravitacional (9,8 m/s2), m é a massa do para
quedista, igual a 68,1 kg, e c é o coeficiente de arrasto, de 12,5 kg/s. O modelo prevê a ve
locidade do paraquedista como uma função do tempo, como descrito no Exemplo 1.1.
Um modelo empírico alternativo para a velocidade do paraquedista é dado por

(t) 5
gm
c
S St3,75 1 t (E17.3.1)
Suponha que você quisesse testar e comparar a adequação desses dois modelos mate
máticos. Isso poderia ser conseguido medindo a velocidade real do paraquedista em
valores conhecidos do tempo e comparando tais resultados com as velocidades previs
tas por cada modelo.
Um programa desse tipo de coleta de dados experimentais foi implementado, e os re
sultados estão listados na coluna (a) da Tabela 17.2. As velocidades calculadas pelos
modelos estão listadas nas colunas (b) e (c).
TABELA 17.2 Velocidades medidas e calculadas de um paraquedista em queda livre.
Tempo, s
v medida, m/s
(a)
v calculada pelo
modelo, m/s
[Equação (1.10)] (b)
v calculada pelo
modelo, m/s
[Equação (E17.3.1)] (c)
1 10,00 8,953 11,240
2 16,30 16,405 18,570
3 23,00 22,607 23,729
4 27,50 27,769 27,556
5 31,00 32,065 30,509
6 35,60 35,641 32,855
7 39,00 38,617 34,766
8 41,50 41,095 36,351
9 42,90 43,156 37,687
10 45,00 44,872 38,829
11 46,00 46,301 39,816
12 45,50 47,490 40,678
13 46,00 48,479 41,437
14 49,00 49,303 42,110
15 50,00 49,988 42,712
solução. A adequação do modelo pode ser testada traçandose a velocidade calculada
pelo modelo em função da velocidade medida. A regressão linear pode ser usada para
calcular a inclinação e a intersecção com o eixo y do gráfico. Essa reta terá uma incli
nação 1, uma intersecção 0 com o eixo y e r2 = 1 se o modelo se adequar perfeitamente
aos dados. Um desvio significativo desses valores pode ser usado como uma indicação
da inadequação do modelo.
As Figuras 17.7a e b são gráficos da reta e dos dados para a regressão das colunas (b)
e (c), respectivamente, em função da coluna (a). Para o primeiro modelo [Equação
(1.10) como descrita na Figura 17.7a],
modelo5 20,859 1 1,032 medida
e para o segundo modelo [Equação (E17.3.1) como descrita na Figura 17.7b],
modelo5 5,776 1 0,752 medida
Capitulo_17.indd 410 18/03/16 16:27
17.1 RegRessão LineaR 411
Esses gráficos indicam que a regressão linear entre os dados e cada um dos modelos é
altamente significativa. Ambos os modelos se ajustam aos dados com um coeficiente
de correlação maior do que 0,99.
Entretanto, o modelo descrito pela Equação (1.10) satisfaz o critério de teste de hipótese
muito melhor do que o descrito pela Equação (E17.3.1) porque a inclinação e a intersecção
com o eixo y estão mais próximas de 1 e 0. Logo, embora cada gráfico seja bem descrito
por uma reta, a Equação (1.10) parece ser um modelo melhor do que a Equação (E17.3.1).
55
30Y
5 30
X
55
5
(a)
55
30Y
5 30
X
55
5
(b)
FIGURA 17.7
(a) Resultados usando regressão linear para comparar as previsões calculadas pelo modelo teórico
[Equação (1.10)] com os valores medidos. (b) Resultados usando regressão linear para comparar as
previsões calculadas pelo modelo empírico [Equação (E17.3.1)] com os valores medidos.
Testar e escolher o modelo são atividades comuns e extremamente importantes exerci
das em todos os campos da engenharia. O material relativo a fundamentos dados neste
capítulo, junto a seu software, deve possibilitar a resolução de muitos problemas práti
cos desse tipo.
Há uma deficiência na análise do Exemplo 17.3. O exemplo não era ambíguo porque
o modeloempírico [Equação (E17.3.1)] era claramente inferior à Equação (1.10). Logo,
a inclinação e a intersecção com o eixo y para o primeiro eram tão mais próximas do
resultado desejado de 1 e 0 que se tornava óbvio qual modelo era superior.
Entretanto, suponha que a inclinação fosse 0,85 e que a intersecção com o eixo y
fosse 2. Obviamente, isso deixaria aberta para debate a conclusão de que a inclinação e
a intersecção com o eixo y eram 1 e 0. Em vez de depender de um julgamento subjetivo,
seria preferível basear tal conclusão em um critério quantitativo.
Isso pode ser feito calculandose intervalos de confiança para os parâmetros do
modelo da mesma forma que desenvolvemos intervalos de confiança para a média na
Seção PT5.2.3. Esse tópico será retomado no final do presente capítulo.
Capitulo_17.indd 411 18/03/16 16:27
412 CapíTuLo 17 RegRessão poR MíniMos QuadRados
17.1.5 Linearização de relações não lineares
A regressão linear fornece uma técnica poderosa para ajustar a melhor reta aos dados.
Entretanto, ela é baseada no fato de que a relação entre as variáveis dependentes e in
dependentes é linear. Esse não é sempre o caso, e o primeiro passo em qualquer análise
de regressão deveria ser traçar e inspecionar visualmente os dados para verificar se um
modelo linear se aplica. Por exemplo, a Figura 17.8 mostra alguns dados que são obvia
mente curvilíneos. Em alguns casos, técnicas como regressão polinomial, a qual é
descrita na Seção 17.2, são apropriadas. Para outros, podem ser usadas transformações
para expressar os dados em uma forma que seja compatível com a regressão linear.
Um exemplo é o modelo exponencial
y 5 1e
1x
(17.12)
onde α1 e β1 são constantes. Esse modelo é usado em muitos campos da engenharia
para caracterizar quantidades que aumentam (β1 positivo) ou diminuem (β1 negativo)
a uma taxa que é diretamente proporcional a seu próprio valor absoluto. Por exemplo,
o crescimento populacional ou o decaimento radioativo podem exibir tal comporta
mento. Como descrito na Figura 17.9a, a equação representa uma relação não linear
(para β1 fi 0) entre y e x.
Outro exemplo de um modelo não linear é a equação de potência simples
y 5 2x
2
(17.13)
onde α2 e β2 são coeficientes constantes. Esse modelo tem larga aplicabilidade em
todos os campos da engenharia. Como descrito na Figura 17.9b, a equação (para β2 fi
0 ou 1) é não linear.
Um terceiro exemplo de um modelo não linear é a equação da taxa de crescimento
da saturação [lembrese da Equação (E17.3.1)]

y 5 3
x
3 1 x

(17.14)
onde α3 e β3 são coeficientes constantes. Esse modelo, que é particularmente adequado
para caracterizar a taxa de crescimento populacional sob condições limitantes, tam
bém representa uma relação não linear entre y e x (Figura 17.9c) que se nivela, ou “sa
tura”, conforme x aumenta.
FIGURA 17.8
(a) Os dados não são
adequados para uma regressão
linear por mínimos quadrados.
(b) Indicação de que uma
parábola é preferível.
y
x(a)
y
x
(b)
Capitulo_17.indd 412 18/03/16 16:27
17.1 RegRessão LineaR 413
As técnicas de regressão não linear estão disponíveis para ajustar tais equações aos
dados experimentais diretamente. (Observe que vamos discutir a regressão não linear
na Seção 17.5.) Entretanto, uma alternativa simples é usar manipulações matemáticas
para transformar as equações para uma forma linear. Então, uma simples regressão li
near pode ser usada para ajustar as equações aos dados.
Por exemplo, a Equação (17.12) pode ser linearizada tomandose seu logaritmo na
tural para obter
ln y = ln α1 + β1x ln e
No entanto, como ln e = 1,
ln y = ln α1 + β1x (17.15)
Logo, um gráfico de y em função de x irá fornecer uma reta com uma inclinação β1 e
uma intersecção com o eixo y em ln α1 (Figura 17.9d).
A Equação (17.13) será linearizada tomandose seu logaritmo na base 10 para
obter
log y = β2 log x + log α2 (17.16)
Logo, um gráfico de log y em função de log x irá fornecer uma reta com uma inclinação
β2 e uma intersecção com o eixo y em log α2 (Figura 17.9e).
A Equação (17.14) será linearizada invertendoa para obter
y
x
y = 1e 1x
(a)
Li
ne
ar
iz
aç
ão
y
x
y = 2x 2
(b)
Li
ne
ar
iz
aç
ão
y
x
(c)
Li
ne
ar
iz
aç
ão
y = 3
x
3 + x
ln y
x
= 1
= ln 1
(d)
log y
log x
(e)
1/y
1/x
( f )
= log 2
Intersecção
Intersecção
Intersecção
= 1/ 3
= 2 InclinaçãoInclinação
Inclinação
= 3/ 3
FIGURA 17.9
(a) A equação exponencial, (b) a equação de potência e (c) a equação da taxa de crescimento da saturação. As partes (d), (e) e (f) são
versões linearizadas dessas equações que resultam de transformações simples.
Capitulo_17.indd 413 18/03/16 16:27
414 CapíTuLo 17 RegRessão poR MíniMos QuadRados

1
y
5
3
3

1
x
1
1
α3

(17.17)
Logo, um gráfico de 1/y em função de l/x será linear, com uma inclinação β3/α3 e uma
intersecção com o eixo y em 1/α3 (Figura 17.9f).
Nas suas formas transformadas, esses modelos podem usar a regressão linear para
calcular os coeficientes constantes. Eles poderiam, então, ser transformados de volta
para seu estado original e usados para propósitos de previsão. O Exemplo 17.4 ilustra
esse procedimento para a Equação (17.13). Além disso, a Seção 20.1 fornecerá um
exemplo em engenharia do mesmo tipo de cálculo.
EXEMPLO 17.4 Linearização de uma equação de potência
enunciado do problema. Ajuste a Equação (17.13) aos dados da Tabela 17.3 usando
uma transformação logarítmica dos dados.
solução. A Figura 17.10a é um gráfico dos dados originais no seu estado não transfor
mado. A Figura 17.10b mostra o gráfico dos dados transformados. Uma regressão li
near para os dados transformados pelo log fornece o resultado
log y = 1,75 log x ] 0,300
TABELA 17.3 Dados a serem ajustados pela equação de potência.
x y log x log y
1 0,5 0 −0,301
2 1,7 0,301 0,226
3 3,4 0,477 0,534
4 5,7 0,602 0,753
5 8,4 0,699 0,922
y
x50
0
5
(a)
log y
0,5
(b)
log x0,5
FIGURA 17.10
(a) Gráfico dos dados não transformados com a equação de potência que ajusta os dados. (b)
Gráfico dos dados transformados usados para determinar os coeficientes da equação de potência.
Logo, a intersecção com o eixo y, log α2, é igual a −0,300 e, portanto, calculandose a
inversa do logaritmo, α2 = 10−0,3 = 0,5. A inclinação é β2 = 1,75. Consequentemente, a
equação de potência é
y = 0,5x1,75
Essa curva, traçada na Figura 17.10a, indica um bom ajuste.
Capitulo_17.indd 414 18/03/16 16:27
17.2 RegRessão poLinoMiaL 415
17.1.6 Comentários gerais sobre regressão linear
Antes de prosseguir para regressão linear múltipla e regressão não linear, é necessário
enfatizar a natureza introdutória do material anterior sobre regressão linear. Concen
tramonos em deduções simples e usos práticos de equações para ajustar os dados.
Você deve estar ciente de que existem aspectos teóricos da regressão que são de impor
tância prática, mas que estão além do escopo deste livro. Por exemplo, algumas hipóte
ses estatísticas inerentes aos procedimentos por mínimos quadrados são:
1. Cada x tem um valor fixo; ele não é aleatório e é conhecido sem erros.
2. Os valores de y são variáveis aleatórias independentes e têm todos a mesma
va riância.
3. Os valores de y para um dado x devem estar normalmente distribuídos.
Tais hipóteses são relevantes para a dedução e o uso adequados da regressão. Por
exemplo, a primeira hipótese significa que (1) os valores de x devem estar livres de
erros e (2) a regressão de y em função de x não é a mesma que a de x em função de y
(tente resolver o Problema 17.4 no final do capítulo). Recomendamos fortemente que
você consulte outras referências, como Draper e Smith (1981), para aspectos e nuances
da regressão que estão além do escopo deste livro.
Capitulo_17.indd 415 18/03/16 16:27
Encerra aqui o trecho do livro disponibilizado para
esta Unidade de Aprendizagem. Na Biblioteca Virtual
da Instituição, você encontra a obra na íntegra.

DICA DO PROFESSOR
Acompanhe,no vídeo a seguir, uma síntese dos conceitos desta Unidade de Aprendizagem,
o que pode ajudar na resolução dos exercícios.
Conteúdo interativo disponível na plataforma de ensino!

EXERCÍCIOS
1) Marque a alternativa correta sobre regressão linear.
A) Na regressão linear um polinômio de grau 2 é ajustado a um conjunto de pares de
observação (x1,y1), (x2,y2),..., (xn,yn).
B) Na regressão linear ajustamos uma reta que passa por todos os pontos observados.
C) Na regressão linear o coeficiente r2 é chamado de coeficiente de correlação.
D) Na regressão linear a estratégia utilizada para encontrar a “melhor” retaque representa a
tendência geral dos dados é minimizar o valor absoluto da soma dos erros residuais para
todos os dados disponíveis.
E) Na regressão linear o erro padrão da estimativa quantifica a dispersão em torno da reta de
regressão.
Considere a tabela a seguir: 2)
driller.vmi
Highlight
driller.vmi
Stamp
Sabendo-se que St é a soma total dos quadrados dos resíduos entre os y dados e a
média y , o valor encontrado para St é:
(Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma
planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais).
A) 9,0740
B) 55,6
C) – 55,6
D) 82
E) 95
Considere a tabela a seguir:

3)
driller.vmi
Highlight
driller.vmi
Stamp
Ao ajustarmos aos dados uma reta y = a0 + a1x utilizando regressão linear, a
inclinação da reta será:
(Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma
planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais).
A) 0,3525
B) 4,8515
C) y = 4,8515 + 0,3525x
D) – 0,3525
E) 55,6
4) Considere a tabela a seguir:
Ao ajustarmos aos dados uma reta y = a0 + a1x utilizando regressão linear, o valor do
erro padrão da estimativa será:
(Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma
planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais).
A) 9,0714
driller.vmi
Highlight
driller.vmi
Stamp
driller.vmi
Stamp
B) 55,6
C) 8,2
D) 1,065
E) 9,5
5) Considere a tabela a seguir:
Ao ajustarmos aos dados uma reta y = a0 + a1x utilizando regressão linear, o valor do
coeficiente de correlação será:
(Para auxiliar nos cálculos, pode ser utilizado um recurso eletrônico, como uma
planilha eletrônica, por exemplo, com uma aproximação de 4 casas decimais).
A) 9,074
B) 0,8368
C) 0,9148
D) – 0,9148
E) 82
driller.vmi
Highlight
driller.vmi
Stamp
driller.vmi
Stamp
driller.vmi
Highlight
driller.vmi
Stamp
driller.vmi
Stamp
NA PRÁTICA
A regressão linear aparece com frequência em problemas práticos em que a dispersão dos
dados assemelha-se a uma reta. Por exemplo, suponha que os seguintes dados tenham sido
obtidos em um experimento que mediu a corrente em um fio para várias tensões impostas:
Com base em uma regressão linear desses dados é possível determinar a corrente para a tensão
de 3,5 V.
SAIBA +
Para ampliar o seu conhecimento a respeito desse assunto, veja abaixo as sugestões do
professor:
Regressão Linear Simples - Ajuste de Reta
Conteúdo interativo disponível na plataforma de ensino!
Métodos Numéricos para Engenharia
Correlação e Regressão
Conteúdo interativo disponível na plataforma de ensino!